Lineare Algebra - Alexander Stoffel

Werbung
Mathematik für den Studiengang
Bachelor Technische Informatik
Zug 1TINb“
”
Lineare Algebra
Alexander Stoffel
Institut für Nachrichtentechnik
Fakultät für Informations-, Medien- und Elektrotechnik
Fachhochschule Köln
16. Januar 2014
1
Einleitung
Dieses Skript ist ausschließlich für die Teilnehmer meiner Lehrveranstaltung Mathematik 1
und Mathematik 2 gedacht — neben dem entsprechenden Skript zur Analysis. Es ist noch
fehlerbehaftet, änderungs- und ergänzungsbedürftig. Für entsprechende Hinweise bin ich
sehr dankbar, insbesondere für Hinweise auf Tippfehler und andere Unstimmigkeiten.
Ansonsten sei hier auf das entsprechende Einleitungskapitel im Skript zur Analysis
verwiesen. Was dort gesagt ist, kann entsprechend auch für die Lineare Algebra angewandt
werden und braucht hier nicht nochmal wiedergegeben werden — mit Ausnahme der
Literaturangaben. Auch die hier angegebene Liste stellt nur eine kleine und teilweise
zufällige Auswahl dar:
(1) Papula, Lothar: Mathematik für Ingenieure 2. 6. Auflage, Vieweg, Braunschweig,
1991.
(2) Andrié, Manfred; Meier, Paul: Lineare Algebra und Analytische Geometrie. Eine
anwendungsbezogene Einführung. Bibliographisches Institut, Mannheim, 1977.
(3) Strang, Gilbert: Introduction to linear algebra. Wellesley-Cambridge Press, Wellesley (USA), 1993.
(4) Strang, Gilbert: Linear algebra and its applications. Third edition, Harcourt Brace
Jovanovich, San Diego (USA), 1988
(5) Meyberg, Kurt; Vachenauer, Peter: Höhere Mathematik 1. Springer, Berlin, 1991
(6) Jänich, Klaus: Lineare Algebra. 4. Auflage, Springer, Berlin, 1991
(7) Penney, Richard: Linear Algebra. Wiley-VCH, New York, 1998
(8) Beutelspacher, Albrecht: Lineare Algebra. Eine Einführung in die Wissenschaft der
Vektoren, Abbildungen und Matrizen. 3. Auflage, Vieweg, Braunschweig/Wiesbaden,
1998
2
Inhaltsverzeichnis
1 Grundbegriffe
1.1 Natürliche und ganze Zahlen .
1.2 Summen- und Produktzeichen,
1.2.1 Summenzeichen . . . .
1.2.2 Produktzeichen . . . .
1.2.3 Vollständige Induktion
1.2.4 Binomischer Lehrsatz .
. . . . . . .
vollständige
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
5
. . . . . . . . . . . . . . . . . . 5
Induktion, binomischer Lehrsatz 5
. . . . . . . . . . . . . . . . . . 5
. . . . . . . . . . . . . . . . . . 7
. . . . . . . . . . . . . . . . . . 7
. . . . . . . . . . . . . . . . . . 8
2 Vektorrechnung
2.1 Addition von Vektoren und Multiplikation mit einem Skalar . .
2.2 Komponentendarstellung von Vektoren . . . . . . . . . . . . . .
2.3 Skalarprodukt und Betrag . . . . . . . . . . . . . . . . . . . . .
2.4 Beschreibung von Geraden . . . . . . . . . . . . . . . . . . . . .
2.4.1 Vektorielle Beschreibung . . . . . . . . . . . . . . . . . .
2.4.2 Beschreibung einer Geraden durch einen Normalenvektor
2.5 Vektorprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Beschreibung von Ebenen im Raum . . . . . . . . . . . . . . . .
2.6.1 Vektorielle Beschreibung . . . . . . . . . . . . . . . . . .
2.6.2 Beschreibung einer Ebene durch einen Normalenvektor .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Lineare Gleichungssysteme
3.1 Gauß-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Einfaches Beispiel, Rückwärtsauflösen . . . . . . . . . . . . . . . .
3.1.2 Umwandlung in Dreiecksform, einfaches Beispiel . . . . . . . . . .
3.1.3 Weiteres Beispiel zur Umwandlung in Dreiecksform in Kurzschreibweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.4 Allgemeines Prinzip des Gauß-Verfahrens . . . . . . . . . . . . . .
3.2 Geometrische Deutung linearer Gleichungssysteme . . . . . . . . . . . . .
3.3 Homogene und inhomogene lineare Gleichungssysteme . . . . . . . . . . .
3.4 Unter- und überbestimmte lineare Gleichungssysteme . . . . . . . . . . .
3.4.1 Unterbestimmte lineare Gleichungssysteme . . . . . . . . . . . . .
3.4.2 Überbestimmte Systeme . . . . . . . . . . . . . . . . . . . . . . .
4 Vektorräume
4.1 Definition des Begriffs Vektorraum“ . . . . .
”
4.2 Der Rn . . . . . . . . . . . . . . . . . . . . . .
4.3 Lineare Abhängigkeit, lineare Unabhängigkeit
4.4 Basis, Dimension . . . . . . . . . . . . . . . .
5 Matrizen
5.1 Matrix als Koeffizientenschema . . . . . . . .
5.2 Lineare Gleichungssysteme und Matrizen . . .
5.3 Lineare Abbildungen und Matrizen . . . . . .
5.4 Matrixmultiplikation und -addition . . . . . .
5.5 Die Umkehrabbildung und die inverse Matrix
5.6 Die transponierte Matrix . . . . . . . . . . . .
5.7 Der Rang einer Matrix . . . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
12
15
18
18
19
21
24
24
25
26
. 26
. 26
. 28
.
.
.
.
.
.
.
29
31
35
42
43
43
44
.
.
.
.
46
47
50
51
56
.
.
.
.
.
.
.
62
62
63
66
71
81
88
90
6 Endliche Körper und ihre Anwendungen
6.1 Restklassen . . . . . . . . . . . . . . . .
6.2 Endliche Körper . . . . . . . . . . . . . .
6.3 Kanalcodierung: Beispiele . . . . . . . .
bei der
. . . . .
. . . . .
. . . . .
7 Determinanten
7.1 Determinanten für n = 2 und n = 3, Cramersche
7.2 Laplacesche Entwicklung . . . . . . . . . . . . .
7.3 Eigenschaften der Determinante . . . . . . . . .
7.4 Determinanten und Permutationen . . . . . . .
Kodierung
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
Regel
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8 Eigenwerte
8.1 Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Vielfachheit von Eigenwerten . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Diagonalisierung von Matrizen . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
91
91
96
99
104
104
106
108
109
111
. 111
. 118
. 119
9 Weitere Methoden der Algebra in der Nachrichtentechnik: ein Ausblick122
9.1 Polynome und Körpererweiterungen . . . . . . . . . . . . . . . . . . . . . . 122
9.2 Zyklische Codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
10 Näherungen
131
10.1 Näherungslösungen für überbestimmte Gleichungssysteme . . . . . . . . . 131
10.2 Beste Näherung durch Vektoren aus einem Unterraum . . . . . . . . . . . 134
A Anhang: Ergänzungen
A.1 Gruppen . . . . . . . .
A.2 Relationen . . . . . . .
A.3 Potenzmenge . . . . .
A.4 Ergänzungen zur Logik
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
143
143
147
151
152
1
1.1
Grundbegriffe
Natürliche und ganze Zahlen
Die Menge der natürlichen Zahlen N wird durch folgende Axiome charakterisiert, die von
dem italienischen Mathematiker Peano stammen:
Axiome 1.1.1
(a) 0 ist eine natürliche Zahl, 0 ∈ N
(b) Jede natürliche Zahl n besitzt genau eine natürliche Zahl als Nachfolger“, der n + 1
”
geschrieben wird.
(c) Wenn die Nachfolger zweier natürlicher Zahlen übereinstimmen, dann stimmen die
urprünglichen Zahlen ebenfalls überein.
(d) 0 ist nicht Nachfolger einer natürlichen Zahl.
(e) Jede Teilmenge M ⊂ N, die die Eigenschaft hat, dass
0∈M
n ∈ M =⇒ n + 1 ∈ M
und
stimmt mit N überein.
Hinweis: Axiom (e) ist die Grundlage der Beweismethode der vollständigen Induktion“,
”
die in Abschnitt 1.2.3 behandelt wird.
Weiterhin vereinbaren wir
N+ := {n ∈ N | n > 0} = N \ {0}
und nennen die Menge der ganzen Zahlen Z, also
Z = {0, +1, −1, +2, −2, +3, −3, +4, −4, +5, −5, . . .}
Leider wird diese Bezeichnungsweise nicht überall verwandt, in einigen Büchern wird von
einer andern Vereinbarung (dies ist auch historisch die ursprüngliche) ausgegangen; dort
gehört die Null nicht zur Menge der natürlichen Zahlen. Die Menge der natürlichen Zahlen
mit der Null wird dort meist mit N0 bezeichnet. Diese Konvention wurde auch bei früheren
Ausgaben dieses Skriptes verwendet. Schauen Sie also beim Benutzen von Büchern nach,
wie der Autor die Menge der natürlichen Zahlen definiert!
1.2
1.2.1
Summen- und Produktzeichen, vollständige Induktion, binomischer Lehrsatz
Summenzeichen
Wir führen hier das Summenzeichen zunächst an Beispielen ein, die allgemeine Definition
wird später gegeben. Nach der Legende wurde der Mathematiker Gauß in seiner Schulzeit
mit der Aufgabe beschäftigt, die ersten 100 Zahlen zu addieren. Wir können diese Aufgabe
mit Pünktchen“ formulieren oder hierzu das Summenzeichen verwenden
”
100
X
1 + 2 + 3 + 4 + · · · + 100 =
k
k=1
5
P
Das Summenzeichen
ist ein großes griechisches Sigma“. Unten steht der Startwert“
”
”
des Summationsindex und oben sein höchster Wert. Der Startwert ist bis zum Erreichen
des Höchstwertes jeweils um 1 zu erhöhen. Wir werden im Abschnitt 1.2.3 eine Formel
beweisen, die es ermöglicht, diese Summe sofort auszurechnen. Weitere Beispiele für die
Verwendung des Summenzeichens:
10
X
1 + 4 + 9 + 16 + 25 + · · · + 100 =
k=1
5
X
13 + 23 + 33 + 43 + 53 =
k2
k 3 = 225
k=1
Auch zur Berechnung dieser Summen werden wir in den Übungen eine einfache Formel
kennenlernen. Beachten Sie, dass die Summe nicht davon abhängt, welchen Buchstaben
wir als Index oder Variable zum Zählen der Summanden verwenden. Es gilt also
5
X
k=1
3
k =
5
X
3
l =
5
X
3
i =
3
m =
m=1
i=1
l=1
5
X
5
X
n3
n=1
Und hier die allgemeine Definition
Definition 1.2.1 ak steht symbolisch für Summanden, die von k abhängen, wobei k ∈ Z
vorausgesetzt wird. Außerdem wird n ≥ m vorausgesetzt. Dann wird definiert
n
X
ak := am + am+1 + am+2 + am+3 + · · · + an−1 + an
k=m
Hinweise:
(a) Die Zahl der Summanden beträgt n − m + 1.
(b) Die Indizes (Mehrzahl von Index) können auch negativ sein, also beispielsweise
2
X
2k = 2−2 + 2−1 + 20 + 21 + 22 =
k=−2
3
1 1
+ +1+2+4=7+
4 2
4
Bei dieser Gelegenheit ein wichtiger Hinweis: In der Mathematik wird vereinbart
(siehe das Skript zur Analysis), dass ein nicht hingeschriebenes Zeichen für eine
Rechenoperation stets als Punkt für die Multiplikation zu interpretieren ist. Bei
Ergebnissen wie 7 + 43 darf also in der Mathematik und in der Nachrichtentechnik
das Plus-Zeichen nicht weggelassen werden, auch wenn dies bei Kartoffelhändlern
üblich ist!
(c) Die Summe ist völlig unabhängig davon, welcher Formelbuchstabe für den Summationsindex verwandt wird, also
n
X
k=m
ak =
n
X
l=m
6
al =
n
X
i=m
ai
1.2.2
Produktzeichen
Das Produktzeichen ist ganz ähnlich zum Summenzeichen definiert, nur dass die auftretenden Zahlen zu multiplizieren sind. Wir haben also beispielsweise
1·2·3·4·5·6 =
1 · 3 · 5 · 7 · 9 · 11 =
6
Y
k
k=1
5
Y
(2k + 1)
k=0
Q
Das Zeichen
ist ein großes griechisches Pi. Auch hier ist unten der Startwert des Index,
der jeweils um 1 zu erhöhen ist, bis der oben angegebene maximale Wert erreicht ist. Die
allgemeine Definition lautet analog zu der des Summenzeichens:
Definition 1.2.2 ak steht symbolisch für Faktoren, die von k abhängen, wobei k ∈ Z
vorausgesetzt wird. Außerdem wird n ≥ m vorausgesetzt. Dann wird definiert
n
Y
ak := am · am+1 · am+2 · am+3 · · · an−1 · an
k=m
Hinweis: Wir haben insgesamt n − m + 1 Faktoren.
Definition 1.2.3 Für alle n ∈ N wird definiert
 n
 Q k = 1 · 2 · 3 · · · n falls
n! :=
 k=1
1
falls
n>0
n=0
(lies n Fakultät“)
”
Hinweise:
(a) Die Definition 0! = 1 mag zwar willkürlich erscheinen, sie vermeidet aber sehr viele
Fallunterscheidungen.
(b) n! wächst mit größer werdendem n sehr stark an, wie die Beispiele
6! = 720,
9! = 362 880,
100! ≈ 0, 9332622 · 10158
zeigen
1.2.3
Vollständige Induktion
Die Beweismethode der vollständigen Induktion beruht darauf, dass man das PeanoAxiom (e) ausnutzt und als Teilmenge M ⊂ N die Menge der natürlichen Zahlen nimmt,
für die eine Aussage A richtig ist. Als Beispiel für eine solche Aussage A wird uns die Glein
P
für n ∈ N dienen. Ein solcher Beweis heißt dann Beweis durch
chung
k = n(n+1)
2
”
k=1
vollständige Induktion“. Nach dem Axiom (e) genügt es also, folgende Beweisschritte
durchzuführen, um die Behauptung A für alle n ∈ N zu beweisen:
7
Induktionsbeginn: Man beweist die Aussage für n = 0 (dies ist meist sehr einfach).
Induktionsannahme: Man nimmt an, die Behauptung A sei für ein festes, aber beliebiges n ∈ N richtig.
Induktionsschluß: Mit Hilfe der Induktionsannahme beweist man, dass die Behauptung
A für n + 1 richtig ist.
Wir beweisen nun als Beispiel die Formel von Gauß, die seine Schulaufgabe löst:
Satz 1.2.1 Für alle n ∈ N gilt
n
X
n(n + 1)
2
k=
k=0
Beweis durch vollständige Induktion:
Induktionsbeginn:
0
P
k=0=
k=0
Induktionsvoraussetzung:
n
P
0·(0+1)
2
k=
k=0
Induktionsbehauptung:
n+1
P
n(n+1)
2
für ein festes n ∈ N
k=
(n+1) (n+1)+1
2
k=0
(überall in der Behauptung A wurde n
durch n + 1 ersetzt.)
Induktionsbeweis: Nach der Definition des Summenzeichens haben wir
n+1
X
k=0
k=
n
X
k+n+1
k=0
Den ersten Summanden auf der rechten Seite können wir mit Hilfe der Induktionsvoraussetzung umformen, also haben wir insgesamt
n+1
X
k=0
k=
n
X
k=0
k+n+1=
n(n + 1)
n(n + 1) + 2(n + 1)
(n + 2)(n + 1)
+n+1=
=
2
2
2
und damit ist die Induktionsbehauptung bewiesen. Und damit ist auch der Satz
bewiesen.
Weitere Beispiele werden in den Übungen besprochen.
1.2.4
Binomischer Lehrsatz
Ziel dieses Abschnitts ist es, eine allgemeine Formel für (a + b)n herzuleiten, die die
binomische Formel (a + b)2 = a2 + 2ab + b2 verallgemeinert. Durch Ausmultiplizieren kann
man für n = 4 erhalten
(a + b)4 = a4 + 4a3 b + 6a2 b2 + 4ab3 + b4
8
Ordnet man die Koeffizienten, die beim Ausmultiplizieren von (a + b)n auftreten, in
einem Dreieck an, dann erhält man das berühmte Pascalsche Dreieck (das nach dem
französischen Philosophen und Mathematiker Blaise Pascal benannt ist):
1
1
1
1
1
1
1
2
3
4
5
6
1
3
6
10
15
1
1
4
10
20
1
5
15
1
6
1
Das Konstruktionsprinzip ist klar erkennbar: die Summe zweier benachbarter Zahlen ergibt die darunterstehende Zahl. Wir geben nun eine Formel an, die es erlaubt, die Zahlen
im Pascalschen Dreieck zu berechnen:
Definition 1.2.4 Für alle n, k ∈ N mit n ≥ k werden die Binomialkoeffizienten durch
n
n!
:=
k!(n − k)!
k
definiert (zu lesen n über k“).
”
4
4
4
4!
4!
= 1, 41 = 1!·3!
= 1·2·3·4
=
4,
=
6,
=
4,
= 1
Zahlenbeispiele: 40 = 0!·4!
1·1·2·3
2
3
4
(Nachrechnen, die Fakultäten nicht ausrechnen, sondern vorher kürzen!) Offensichtlich
erhält man die 4. Zeile des Pascalschen Dreiecks, wenn man beim Zählen mit 0 anfängt.
Eigenschaften der Binomialkoeffizienten:
(a) n0 = 0!n!n! = 1
(b) nn = n!n!0! = 1
n!
(c) n1 = 1!(n−1)!
= 1·2·3···(n−1)·n
=n
1·1·2·3···(n−1)
n
n!
(d) n−1
= (n−1)!
=n
1!
n
n!
n!
= (n−k)!·k!
= nk (Symmetrie!)
(e) n−k
=
(n−k)! n−(n−k) !
(f)
n
k
=
1·2·3···(n−k)·(n−k+1)···n
k!·1·2·3···(n−k)
=
n·(n−1)·(n−2)···(n−k+1)
k!
Diese Identitäten gelten für alle n ∈ N. Sie garantieren bereits, dass die durch Definition 1.2.4 festgelegten Binomialkoeffizienten mit den Zahlen am Rand des Pascalschen
Dreiecks übereinstimmen, wenn man die Zeilen (n) und die waagrechte Position (k) jeweils mit 0 anfängt zu zählen. Die wesentliche Eigenschaft der Zahlen im Pascalschen
Dreieck ist, dass jede Zahl als Summe der beiden darüberstehenden Zahlen entsteht. Das
Dreieck wird mit jeder Zeile nach links (und rechts) größer. Also stehen über der Zahl an
k. waagrechter Position der (n+1). Zeile die Zahlen der n. Zeile an (k −1). (links darüber)
und k. Position (rechts darüber). Die Übereinstimmung der Zahlen im Pascalschen Dreieck mit den Binomialkoeffizienten nach Def. 1.2.4 wird also erst durch den folgenden Satz
geliefert:
9
Satz 1.2.2 Für alle n ∈ N+ und alle k ∈ N+ mit k ≤ n gilt
n+1
n
n
=
+
k
k−1
k
Beweis:
k
n!
(n − k + 1)
n
n
n!
· +
·
+
=
k−1
k
(k − 1)! n − (k − 1) ! k k!(n − k)! (n − k + 1)
n!k + n!(n − k + 1)
n!(k + n − k + 1)
(n + 1)!
=
=
=
k!(n − k + 1)!
k!(n + 1 − k)!
k!(n + 1 − k)!
n+1
=
k
Merke: Die Binomialkoeffizienten nk stehen im Pascalschen Dreieck in der n. Zeile in
der k. Position von links, jeweils von 0 an gezählt.
Satz 1.2.3 (Binomischer Lehrsatz) Für alle n ∈ N0 und für alle a, b ∈ R gilt
n X
n n−k k
n
a b
(a + b) =
k
k=0
Beweis: (durch vollständige Induktion)
Induktionsbeginn: (a + b)0 = 1,
0
P
k=0
0
k
0−k 0
a b = a0 · b 0 = 1
Induktionsvoraussetzung: (a + b)n =
n
P
k=0
Induktionsbehauptung: (a + b)n+1 =
n+1
P
k=0
n
k
an−k bk für ein festes n
n+1
k
n+1−k k
a
b
Induktionsbeweis: Wir multiplizieren beide Seiten der Induktionsvoraussetzung mit
(a + b) und erhalten
n n n X
X
X
n n−k k
n n−k k
n n−k k
n+1
(a + b)
= (a + b)
a b =a·
a b +b·
a b
k
k
k
k=0
k=0
k=0
n n X
X
n n−k k+1
n n−k+1 k
=
a
b +
a b
k
k
k=0
k=0
n n+1
a
+ n1 an b1
+ n2 an−1 b2 + · · · + nn a1 bn
=
0
n n 1
n n−1 2
n
n n+1
1 n
+
a
b
+
a
b
+
·
·
·
+
a
b
+
b
0 1 n−1
n n+1 n+1
n+1 n 1
n+1 n−1 2
n+1 1 n
n+1 n+1
a
+ 1 a b + 2 a b + · · · + n a b + n+1 b
=
0
n+1
P n+1 n+1−k k
=
a
b
k
k=0
n+1
n
Dabei wurde
bei
den
außenstehenden
Summanden
ausgenutzt,
dass
=
=1
0
0
n
n+1
und n = n+1 = 1. Ansonsten wurden die übereinanderstehenden Summanden
(mit denselben Potenzen von a und b) unter Benutzung von Satz 1.2.2 zusammengefaßt.
10
2
2.1
Vektorrechnung
Addition von Vektoren und Multiplikation mit einem Skalar
Vektoren sind gerichtete Größen“, Kraft, Geschwindigkeit, elektrische Feldstärke sind
”
Beispiele aus der Physik. Wir wollen hier Vektoren als geordnete Paare von Punkten
in der Ebene oder im Raum ansehen. Geordnet heißt, dass einer der beiden Punkte der
Anfangspunkt, der andere der Endpunkt ist. Wichtig ist die folgende Vereinbarung:
Zwei Vektoren sind gleich, wenn Sie durch Parallelverschiebung ineinander
übergeführt werden können.
Dies bedeutet, zwei Vektoren sind gleich, wenn sie in Betrag (Länge) und Richtung
übereinstimmen (siehe auch Abb. 1).
Abbildung 1: Zur Gleichheit von Vektoren
Wir werden hier Vektoren durch einen Pfeil über dem Formelbuchstaben wie in ~a, ~b
oder durch Fettdruck a, b gegenüber anderen Größen hervorheben.
Abbildung 2: Zur Addition von Vektoren
Unter dem Antragen eines Vektors in einem Punkt P versteht man an eine Parallelverschiebung des Vektors so, dass sein Anfangspunkt im Punkt P liegt. Ein Vektor ~b
wird zu einem Vektor ~a addiert, indem man ~b im Endpunkt des Vektors ~a anträgt. Der
Vektor ~a + ~b ist dann der Vektor vom Anfangspunkt von ~a zum Endpunkt von ~b. Dies ist
in Abb. 2 veranschaulicht. Geometrisch bedeutet dies:
~a + ~b ist die gerichtete Diagonale des von ~a und ~b aufgespannten Parallelogramms ( Parallelogrammregel“, siehe auch die Abb. 2).
”
11
Der Nullvektor ~0 ist ein Vektor der Länge 0, Anfangs- und Endpukt fallen zusammen.
Der Vektor −~a entsteht aus dem Vektor ~a, indem man Anfangs- und Endpunkt vertauscht,
also seine Richtung umkehrt.
Abbildung 3: Zur Multiplikation von Vektoren mit einem Skalar
Man nennt Größen, die im Unterschied zu Vektoren keine Richtung haben, Skalare.
In der Physik sind beispielsweise Masse, Energie und Zeit Skalare. Hier sind Skalare reelle
Zahlen (wir werden später auch komplexe Zahlen als Skalare zulassen). Die Multiplikation eines Vektors ~a mit einem Skalar t ∈ R ist wie folgt definiert:
• Falls t > 0, dann ist t~a der Vektor derselben Richtung und der t-fachen Länge.
• Falls t < 0, dann ist t~a der Vektor der umgekehrten Richtung (Anfangs- und Endpunkt vertauscht) und der |t|-fachen Länge.
• Falls t = 0, dann ist t~a = ~0, also der Nullvektor.
Dies ist in Abb. 3 veranschaulicht. Es ist plausibel und folgt aus geometrischen Regeln,
dass für die so definierten Rechenoperationen folgende grundlegende Rechenregeln gelten:
Für alle Vektoren ~a, ~b, ~c gilt
~a + ~b = ~b + ~a
(Kommutativgesetz)
(~a + ~b) + ~c = ~a + (~b + ~c)
(Assoziativgesetz)
~
~a + 0 = ~a
(neutrales Element für die Addition)
zu jedem ~a existiert ein −~a mit
~a + (−~a) = ~0
(1)
(2)
(3)
(4)
und für alle Vektoren ~a, ~b und alle Skalare s, t ∈ R gilt
t(~a + ~b)
(s + t)~a
s(t~a)
1 · ~a
=
=
=
=
t~a + t~b
s~a + t~a
(st)~a
~a
(5)
(6)
(7)
(8)
Hinweis: Regel (5) ist der Strahlensatz (siehe Abb. 4).
2.2
Komponentendarstellung von Vektoren
Um mit Vektoren zu rechnen, wählen wir ein Koordinatensystem aus und vereinbaren,
alle Vektoren im Urspung dieses Koordinatensystems anzutragen. Vektoren der Länge 1
heißen Einheitsvektoren. Die Einheitsvektoren in die Richtung der Koordinatenachsen
12
Abbildung 4: Zur Rechenregel (5) (Strahlensatz)
Abbildung 5: Komponentendarstellung von Vektoren
bezeichnen wir mit ~ex , ~ey , ~ez . Betrachten wir einen Vektor ~a in der Ebene (siehe die
Abb. 5). Wir bezeichnen die Koordinanten des Endpunkts mit ax und ay . Wir können
den Vektor ~a also als Summe schreiben
~a = ax · ~ex + ay~ey
Wir bezeichnen dabei ax als Komponente in x-Richtung oder kurz als x-Komponente
und ay als Komponente in y-Richtung. Diese Zerlegung in eine Summe heißt Komponentendarstellung von ~a. Sie gibt Anlaß zu folgender Kurzschreibweise von Vektoren in der
Ebene:
ax
~a =
ay
In dieser Schreibweise wird ~a als Spaltenvektor bezeichnet.
Im Raum geht man analog vor und bezeichnet die Koordinaten des Endpunkts von ~a
mit ax , ay , az . Man erhält die Komponentendarstellung
~a = ax · ~ex + ay~ey + az~ez
und schreibt ~a als Spaltenvektor
 
ax
~a = ay 
az
Der Nullvektor hat die Darstellung
~0 = 0
0
bzw.
13
 
0
~0 = 0
0
Aus der Parallelogrammregel erhält man die folgende Rechenregel für die Addition von
Abbildung 6: Zur Addition von Vektoren in Komponentendarstellung
Vektoren in Komponentendarstellung (siehe hierzu die Abb. 6)
ax + b x
bx
ax
~
=
+
~a + b =
ay + b y
by
ay
Für Vektoren im Raum gilt eine entsprechende Regel:
    

ax
bx
ax + b x
~a + ~b = ay  + by  = ay + by 
az
bz
az + b z
Merke: Vektoren werden komponentenweise addiert.
Für die Multiplikation mit einem Skalar erhalten wir in der Komponentendarstellung in
der Ebene
a
tax
t~a = t x =
ay
tay
und im Raum
   
ax
tax



t~a = t ay = tay 
az
taz
Merke: Ein Vektor wird mit einem Skalar multipliziert, indem man alle Komponenten
mit dem Skalar multipliziert.
Hinweis zur Geometrie:
Der Verbindungsvektor von P nach Q (also der Vektor mit Anfangspunkt P und Endpunkt
−→
Q) wird hier mit P Q bezeichnet. Den Ursprung bezeichnen wir mit O. Der Verbindungs−→
vektor OP vom Ursprung zum Punkt P wird der Ortsvektor des Punktes P genannt.
14
Abbildung 7: Verbindungsvektor von P nach Q
Zwischen den Ortsvektoren zweier Punkte P und Q und deren Verbindungsvektor besteht
der nützliche Zusammenhang
−→
−→ −→ −→ −→
P Q = −OP + OQ = OQ − OP
den man sich am besten anhand einer kleinen Skizze klarmacht (siehe Abb. 7).
Wir gehen im weiteren immer davon aus, dass ein festes Koordinatensystem gewählt
−→
wurde und werden meist den Punkt P mit seinem Ortsvektor OP identifizieren.
Hinweis zur Schreibweise:
Eine Spalte aus zwei oder drei Zahlen nimmt satztechnisch sehr viel Platz weg. Es wäre
viel platzsparender, die zwei oder drei Zahlen als Zeile anzuordnen. Um dies zu erreichen,
ist die Schreibweise
 
a
T

(a, b, c) := b 
c
üblich. Allgemein bedeutet AT die transponierte Matrix (wird später behandelt). Bei
einer Zeile bedeutet dieses Symbol also, dass statt dessen die Spalte gemeint ist.
2.3
Skalarprodukt und Betrag
Die Länge eines Vektors ~a wird hier Betrag des Vektors genannt und |~a| geschrieben. Er
läßt sich aus den Komponenten berechnen:
p 2
a + a2y
falls ~a ein Vektor in der Ebene ist
(9)
|~a| = p x2
ax + a2y + a2z falls ~a ein Vektor im Raum ist
In der Ebene folgt dies unmittelbar aus dem Satz von Pythagoras (siehe Abb. 5). Im
Raum (siehe hierzu Abb. 8) kann man zunächst das Lot vom Endpunkt P des Vektors
auf die xy-Ebene fällen, dies liefert den Hilfspunkt Q, dessen Abstand vom Ursprung man
nach Pythagoras als
q
d = a2x + a2y
berechnet. Wendet man nun den Satz von Pythagoras auf das rechtwinklige Dreieck an,
das die Punkte O, P und Q verbindet, so erhält man
q
p
2
2
|~a| = d + az = a2x + a2y + a2z
15
Abbildung 8: Berechnung des Betrags eines Vektors aus den Komponenten (siehe (9)
Abbildung 9: Winkel zwischen zwei Vektoren
Den Winkel α zwischen zwei Vektoren ~a und ~b wählen stets wir so, dass er zwischen
0 und π liegt (beide Randpunkte eingeschlossen), also 0 ≤ α ≤ π (d.h. wir wählen den
kleineren der beiden möglichen Winkel, siehe Abb. 9). Er ist nur sinnvoll, wenn beide
Vektoren nicht mit dem Nullvektor übereinstimmen.
Definition 2.3.1 Das Skalarprodukt zweier Vektoren ist durch
(
ax b x + ay b y
falls ~a und ~b Vektoren in der Ebene sind
~a · ~b :=
ax bx + ay by + az bz falls ~a und ~b Vektoren im Raum sind
definiert.
Hinweise:
(a) Beachten Sie, dass das Ergebnis des Skalarprodukts stets ein Skalar, also eine reelle
Zahl ist! Daher kommt der Name!
(b) Das Skalarprodukt wird manchmal auch inneres“ Produkt genannt.
”
(c) Für das Skalarprodukt sind auch andere Schreibweisen gebräuchlich. In der Mathematik ist
~a · ~b = (~a, ~b)
sehr verbreitet, in den Ingenieurwissenschaften ist auch
a · b = aT b
üblich. Diese Schreibweise wir erst verständlich, wenn wir das Rechnen mit Matrizen
behandelt haben (die Spaltenvektoren a und b werden als Matrizen mit einer Spalte
und zwei bzw. drei Zeilen aufgefaßt, aT ist dann die transponierte Matrix und mit
aT b ist das Produkt von zwei Matrizen gemeint).
16
Abbildung 10: Zum Beweis von Satz 2.3.1
Satz 2.3.1 Für alle Vektoren ~a gilt
|~a| =
√
~a · ~a
und für alle Vektoren ~a und ~b mit ~a 6= ~0 und ~b 6= ~0 gilt
~a · ~b = |~a| · |~b| · cos(ϕ)
wobei ϕ der Winkel zwischen ~a und ~b ist.
Beweis: Die erste Gleichung folgt unmittelbar aus der Definition. Die zweite wird hier
nur für den Fall bewiesen, dass es sich um Vektoren in der Ebene handelt. Für beliebige
Vektoren ~a 6= ~0, ~b 6= ~0 in der Ebene gilt (siehe Abb. 10)
sin(α) =
ay
,
|~a|
cos(α) =
ax
,
|~a|
sin(β) =
by
,
|~b|
cos(β) =
bx
|~b|
Für ϕ = β − α erhalten wir aus dem Additionstheorem
cos(ϕ) = cos(β − α) = cos(β) cos(α) + sin(β) sin(α) =
b y ay
b x ax
+
·
·
|~b| |~a| |~b| |~a|
Multiplikation beider Seiten mit |~a| · |~b| liefert
|~a| · |~b| · cos(ϕ) = ax bx + ay by
Hinweis: Als Folgerung erhalten wir für alle Vektoren ~a 6= ~0, ~b 6= ~0
~a · ~b = 0
⇐⇒
~a und ~b sind orthogonal (senkrecht)
sowie
|~a · ~b| ≤ |~a| · |~b|
(Cauchy-Schwarz-Ungleichung)
17
Satz 2.3.2 (Rechenregeln für das Skalarprodukt) Für alle Vektoren ~a, ~b, ~c und alle
t ∈ R gilt
~a · ~b = ~b · ~a
(~a + ~b) · ~c = ~a · ~c + ~b · ~c
(t~a) · ~b = t · (~a · ~b)
~a · ~a ≥ 0
und
(10)
(11)
~a · ~a = 0 ⇐⇒ ~a = ~0
(12)
(13)
Diese Rechenregeln ergeben sich unmittelbar aus der Definition.
2.4
2.4.1
Beschreibung von Geraden
Vektorielle Beschreibung
Die Richtung einer Geraden kann durch einen Vektor, ihren Richtungsvektor, vorgegeben
werden. Man kann diesen als Verbindungsvektor zweier beliebiger verschiedener Punkte der Geraden erhalten (siehe auch Abb. 11 links). Der Richtungsvektor ist also nicht
eindeutig bestimmt, wir können ihn länger oder kürzer wählen oder auch die Richtung
umkehren, ohne dass sich dadurch die Richtung der Geraden ändert.
Da sich Vektoren durch Parallelverschiebung nicht ändern, ist eine Gerade durch ihren
Richtungsvektor nicht eindeutig bestimmt. Hierfür müssen wir noch einen Punkt auf der
Gerade auswählen (in der Abb. mit P0 bezeichnet). Auch diese Auswahl ist willkürlich.
Den Ortsvektor jedes Punktes P auf der Gerade erhalten wir also, indem wir zum Orts−−→
vektor des ausgewählten Punktes ~a = OP0 ein Vielfaches des Richtungsvektors ~b addieren.
Dies ist in Abb. 11 links veranschaulicht. Jeder Ortsvektor eines Punktes auf der Geraden
hat also die Darstellung
~x(t) = ~a + t · ~b,
t∈R
(14)
und wir erhalten auf diese Weise alle Punkte der Geraden, wenn wir beliebige t ∈ R
zulassen. Wir nennen (14) die vektorielle Form der Geradengleichung.
Auch Geraden im Raum können analog durch eine Gleichung der Form (14) beschrieben werden, wobei dann die Vektoren ~a und ~b Vektoren im Raum sind.
Abbildung 11: links: zur vektoriellen Form der Geradengleichung (14), rechts: zur Beschreibung einer Geraden durch einen Normalenvektor mit Gleichung (15)
18
2.4.2
Beschreibung einer Geraden durch einen Normalenvektor
Die Richtung einer Geraden in der Ebene können wir auch dadurch festlegen, dass wir
einen Vektor ~v 6= 0 angeben, der senkrecht auf der Geraden steht (siehe auch Abb. 11
rechts). Ein solcher Vektor heißt Normalenvektor. Rechnerisch können wir die Bedingung, dass der Verbindungsvektor
→ −→
~b = −−
OP + OQ = −~a + ~x
zweier beliebiger Punkte der Geraden senkrecht auf ~v steht, mit Hilfe des Skalarprodukts
durch
0 = ~v · ~b = ~v · (−~a + ~x) = −~v · ~a + ~v · ~x
ausdrücken. Die Ortsvektoren ~x beliebiger Punkte erfüllen also die Gleichung
~v · ~x = ~v · ~a
(15)
wobei ~a der Ortsvektor eines vorgegebenen Punktes der Geraden und ~v ein Vektor senkrecht auf der Geraden ist. Beachten Sie, dass die Festlegung des Normalenvektors nur die
Richtung der Geraden festlegt. Geraden durch den Ursprung (also der Ortsvektor eines
Punktes der Geraden ist ~0) sind durch ~v · ~x = 0 gegeben.
Wir merken uns:
Alle Punkte der Ebene, deren Ortsvektoren ~x die Gleichung
~v · ~x = r
(16)
mit gegebenem r ∈ R erfüllen, liegen auf einer Geraden senkrecht zu ~v . Wenn ~v und ein
Punkt der Gerade durch seinen Ortsvektor ~a gegeben ist, dann kann daraus die Konstante
r = ~v · ~a berechnet werden.
1
x
Beispiel: Für ~v =
und r = 5 erhalten wir für den Ortsvektor
2
y
x
~v ·
= x + 2y = 5
y
Wenn wir diese Gleichung nach y auflösen, so erhalten wir eine Geradengleichung in
vertrauter Form
1
5
y =− x+
2
2
Wir wollen nun eine Formel zur Berechnung des Abstands d einer Geraden vom Ursprung
herleiten, die durch eine Geradengleichung der Form (16) gegeben ist. Die Vorgehensweise
ist auch aus Abb. 11 rechts ersichtlich. Wir gehen vom Ursprung aus in Richtung des
Normalenvektors ~v so weit, bis wir die Gerade treffen. Wir fällen also das Lot auf die
Gerade. Wir betrachten dazu Ortsvektoren der Form
~x(t) = t · ~v
mit t ∈ R (für den Fall, dass die Gerade auf der anderen Seite liegt und ~v von der Geraden
weg zeigt, müssen wir auch negative t zulassen). Der gesuchte Fußpunkt des Lots hat also
19
einen Ortsvektor dieser Form. Er muss auf der Geraden liegen, der Ortsvektor muss also
die Geradengleichung erfüllen:
~v · ~x(t) = ~v · (t · ~v ) = t(~v · ~v ) = t · |~v |2 = r
Diese Gleichung können wir nach t auflösen, und wir erhalten dadurch den Ortsvektor
zum Fußpunkt des Lots:
r
r
~x(t) = 2 · ~v
t = 2,
|~v |
|~v |
Die Länge des Ortsvektors zu diesem Fußpunkt ist der gesuchte Abstand d der Geraden
vom Ursprung:
r
|r| · |~v |
|r|
d = |~x(t)| = 2 · ~v =
=
2
|~v |
|~v |
|~v |
Wir erhalten das Ergebnis:
Eine Gerade, die durch eine Gleichung der Form (16) gegeben ist, hat den Abstand d vom
Ursprung mit
|r|
d=
(17)
|~v |
Dieses Ergebnis ermöglicht es, die Geradengleichung (16) etwas anders zu schreiben. Falls
r > 0, teilen wir beide Seiten durch |~v | und erhalten
1
r
~v · ~x =
=d
|~v |
|~v |
und falls r < 0, teilen wir beide Seiten durch (−|~v |) und erhalten
−
1
−r
|r|
~v · ~x =
=
=d
|~v |
|~v |
|~v |
Dies legt nahe, den Vektor
(
~u :=
1
~v
|~v |
1
− |~v| ~v
falls r ≥ 0
falls r < 0
zu definieren. Er hat die Eigenschaft
1 |~v |
|~u| = ± ~v =
=1
|~v |
|~v |
ist also ein Einheitsvektor, der senkrecht auf der Geraden steht. Wir haben damit das
Ergebnis gewonnen:
Die Ortsvektoren ~x der Punkte einer Geraden erfüllen eine Gleichung der Form
~u · ~x = d
(18)
Dabei ist ~u ein Einheitsvektor, der senkrecht auf der Geraden steht, und d der Abstand
der Geraden vom Ursprung. Diese Gleichung heißt Hessesche Normalform der Geradengleichung.
20
Hinweise:
(a) Falls uy 6= 0, können wir die Geradengleichung nach der y-Komponente des Ortsvektors auflösen und damit in die Form y = mx + b bringen. Falls dagegen uy = 0,
liegt eine Gerade senkrecht zur x-Achse vor.
(b) Im Raum führt die Verallgemeinerung des obigen Vorgehens zur Hesseschen Normalform der Gleichung einer Ebene im Raum (siehe Abschnitt 2.6.2).
(c) Wenn eine Geradengleichung in der vektorieller Form (14) vorliegt, dann erhalten
wir aus dem Richtungsvektor ~b mit
by
~v =
−bx
einen Normalenvektor und können damit eine Geradengleichung der Form (16) aufstellen.
2.5
Vektorprodukt
Die Kraft auf ein Elektron in einem Magnetfeld ist senkrecht zu seiner Geschwindigkeit
~ (der das magnetische Feld beschreibt). Zur Beschreibung
~v und senkrecht zum Vektor B
dieser Kraft (und für viele andere Anwendungen) wird das Vektorprodukt benötigt. Wir
geben hier zunächst eine geometrische Definition und später eine dazu äquivalente rechnerische Definition.
Definition 2.5.1 (geometrische Definition des Vektorprodukts) Unter dem Vektorprodukt ~c = ~a × ~b zweier Vektoren ~a, ~b im Raum versteht man den Vektor ~c, der
durch folgende Eigenschaften gegeben ist:
(a) ~c ist orthogonal zu ~a und ~b (also ~a · ~c = ~b · ~c = 0).
(b) |~c| = |~a| · |~b| · sin(α), wobei α der Winkel zwischen ~a und ~b ist (also entspricht |~c|
der Fläche des von ~a und ~b aufgespannten Parallelogramms, siehe auch Abb. 12).
(c) Die Vektoren ~a, ~b und ~c bilden ein Rechtssystem wie Daumen, Zeigefinger und Mittelfinger der rechten Hand ( Rechte-Hand-Regel“, siehe Abb. 13).
”
Abbildung 12: sin(α) = |~hb| =⇒ h = |~b| · sin(α), also ist die Fäche des Parallelogamms
|~a| · |~b| · sin(α) (zu (b) in Def. 2.5.1)
21
Abbildung 13: Zur Rechte-Hand-Regel ((c) in Def. 2.5.1)
Satz 2.5.1 Die folgenden Rechenregeln für das Vektorprodukt gelten für alle Vektoren
~a, ~b, ~c im Raum und alle t ∈ R:
~a × ~b = −~b × ~a
(t~a) × ~b = t(~a × ~b) = ~a × (t~b)
~a × (t~a) = ~0
~a × (~b + t~a) = ~a × ~b,
(~a + t~b) × ~b = ~a × ~b
~a × (~b + ~c) = ~a × ~b + ~a × ~c,
(~a + ~c) × ~b = ~a × ~b + ~c × ~b
~ex × ~ey = ~ez ,
~ey × ~ez = ~ex ,
~ez × ~ex = ~ey
(19)
(20)
(21)
(22)
(23)
(24)
Abbildung 14: Die Flächen des von ~a und ~b und des von ~a und ~b + t~a aufgespannten
Parallelogramms sind gleich (zum Beweis von Satz 2.5.1, (22))
Hinweise zum Beweis:
(19) folgt direkt aus der Rechte-Hand-Regel.
(20) folgt aus der entsprechenden Änderung der Fläche des Parallelogramms.
(21) folgt unmittelbar aus (20) und (19).
(22) folgt aus der Tatsache, dass sich die Fläche des entsprechenden Parallelogramms
nicht ändert (siehe die Abb. 14)
22
(23) aus der geometrischen Definition herzuleiten, ist nicht ganz einfach. Es sei daher hier
nur darauf hingewiesen, dass man mit (22) den allgemeinen Fall auf den Sonderfall
zurückführen kann, dass ~b und ~c senkrecht auf ~a sind (für die erste Gleichung) bzw. ~a
und ~c senkrecht auf ~b sind ( für die zweite Gleichung). Aufgrund von (20) kann man
sich dann darauf beschränken, die Gleichung für den Sonderfall von Einheitsvektoren
zu beweisen. Dies wird hier nicht ausgeführt.
(24) folgt unmittelbar aus der Rechte-Hand-Regel, da die aufgespannten Parallelogramme stets Quadrate der Kantenlänge 1 sind (zur Erinnerung: ~ex , ~ey und ~ez sind die
Einheitsvektoren in Achsrichtung)
Mit Hilfe dieser Rechenregeln können wir das Vektorprodukt beliebiger Vektoren ausrechnen:
~a × ~b = (ax~ex + ay~ey + az~ez ) × (bx~ex + by~ey + bz~ez )
= ay bx (~ey × ~ex ) + az bx (~ez × ~ex ) + ax by (~ex × ~ey )
+az by (~ez × ~ey ) + ax bz (~ex × ~ez ) + ay bz (~ey × ~ez )
= −ay bx~ez + az bx~ey + ax by~ez − az by~ex − ax bz~ey + ay bz~ex
= (ay bz − az by )~ex + (az bx − ax bz )~ey + (ax by − ay bx )~ez
Die folgende rechnerische Definition ist also äquivalent zur geometrischen (Definition
2.5.1):
Definition
2.5.2
 (rechnerische
  Definition des Vektorprodukts) Für beliebige Vekax
bx
toren ~a = ay  und ~b = by  wird das Vektorprodukt ~a × ~b durch
az
bz


ay b z − az b y
~a × ~b := az bx − ax bz 
(25)
ax b y − ay b x
definiert.
Hinweise:
(a) Das Vektorprodukt wird — aufgrund seiner Schreibweise — auch Kreuzprodukt“
”
und zuweilen auch äußeres Produkt“ genannt.
”
(b) Das Assoziativgesetz ist nicht erfüllt, wie das Beispiel
(~ex × ~ey ) × ~ey = ~ez × ~ey = −~ex ,
~ex × (~ey × ~ey ) = ~0
zeigt. Bei Vektorprodukten mit drei (und mehr) Vektoren sind daher Klammern
unbedingt erforderlich!
(c) Vergleicht man die Komponenten auf der rechten Seite von (25), so stellt man fest,
dass die y-Komponente aus der x-Komponente durch folgende Ersetzung vorgeht:
x 7→ y,
y 7→ z,
23
z 7→ x
(26)
Und die z-Komponente erhält man durch dieselbe Substitution aus der y-Komponente.
Diese Substitution nennt man zyklische Vertauschung (es wird im Kreis herum
ersetzt). Entsprechende Beobachtungen kann man bei vielen Formeln machen, bei
denen das Vektorprodukt vorkommt. Auch die Gleichungen (24) gehen durch zyklische Vertauschung ineinander über.
(d) Mit Hilfe von Determinanten (werden später behandelt) kann man die folgende
nützlich Merkregel für das Vektorprodukt formulieren
~ex ax bx ~a × ~b = ~ey ay by ~ez az bz Laplace-Entwicklung nach der 1. Spalte führt gerade auf (25). Es ist anzumerken,
dass es sich dabei nicht um eine richtige“ Determinante handelt, da die Einheits”
vektoren in Achsrichtung (anstelle von Skalaren) als Matrixelemente auftreten.
(e) Das Vektorprodukt ist nur für Vektoren im Raum, also mit drei Komponenten,
definiert!
Satz 2.5.2 Für alle Vektoren ~a, ~b, ~c im Raum gilt
(~a × ~b) × ~c = (~a · ~c) · ~b − (~b · ~c) · ~a
Den Beweis kann man führen, indem man mit etwas Geduld auf der linken und rechten
Seite zunächst die x-Komponente ausrechnet und die Übereinstimmung feststellt (siehe die
entsprechende Übungsaufgabe). Die Übereinstimmung der übrigen beiden Komponenten
erhält man dadurch, dass man sich klarmacht, dass die Ausdrücke für diese Komponenten
durch zyklische Vertauschung aus denen für die x-Komponente hervorgehen.
2.6
2.6.1
Beschreibung von Ebenen im Raum
Vektorielle Beschreibung
Abbildung 15: Der Ortsvektor jedes Punktes der Ebene kann in der Form ~x = t~a + s~b
geschrieben werden.
Der Ortsvektor ~x jedes Punktes in der Ebene kann in der Form
~x = t~a + s~b
24
mit s, t ∈ R geschrieben werden, wenn die beiden Vektoren ~a 6= 0 und ~b 6= 0 erfüllen
und nicht in dieselbe oder in die entgegengesetzte Richtung zeigen. Dies ist in Abb. 15
veranschaulicht. Wenn nun zwei Vektoren im Raum ~a 6= 0 und ~b 6= 0 erfüllen und nicht
in dieselbe oder in die entgegengesetzte Richtung zeigen, dann nennt man die Menge
aller Punkte der Form ~x = t~a + s~b die von ~a und ~b aufgespannten Ebene durch den
Ursprung (denn mit s = 0 und t = 0 erhält man ~x = ~0). Durch Addition eines festen
Vektors ~c verschiebt man diese Ebene. Wir erhalten somit die vektorielle Beschreibung
einer Ebene im Raum durch
E = {~x | ~x = t~a + s~b + ~c, s, t ∈ R}
(27)
Dabei können s, t ∈ R beliebige Werte annehmen. Die Wahl s = t = 0 führt auf ~x = ~c,
also ist ~c Ortsvektor eines Punktes der Ebene. Die Gleichung ~x = t~a + s~b + ~c wird auch
als vektorielle Ebenengleichung bezeichnet. Beachten Sie, dass bei gegebener Ebene (als
Menge von Punkten) die Auswahl der drei Vektoren nicht eindeutig ist. Dies kann man
sich am Spezialfall der xy-Ebene an Abb. 15 leicht klarmachen.
Wenn die Ebene durch die Angabe von drei Punkten P1 , P2 und P3 gegeben ist,
die in der Ebene liegen, dann erhält man die vektorielle Ebenengleichung der Form (27)
beispielsweise durch
−−→
−→
−−→
~b = −
~a = P1 P2 ,
P1 P3 ,
~c = OP1
2.6.2
Beschreibung einer Ebene durch einen Normalenvektor
Die Richtung einer Ebene kann man dadurch festlegen, dass man einen Vektor ~v 6= ~0
angibt, der senkrecht auf der Ebene steht. Dieser Vektor heißt dann Normalenvektor. Alle
Ebenen, die zueinander parallel sind, können durch denselben Normalenvektor beschrieben werden. Beachten Sie, dass der Normalenvektor nicht eindeutig ist, wir können ihn
länger oder kürzer wählen oder seine Richtung umkehren (durch −~v ersetzen), ohne die
Richtung der Ebene zu ändern. Die Ebene wird dann dadurch festgelegt, dass man einen
−→
Punkt P (mit Ortsvektor ~a = OP ) der Ebene angibt. Man kann Abb. 11 rechts als Schnitt
−→
durch eine derartige Ebene auffassen. Der Verbindungsvektor ~b = P Q zu einem beliebigen
−→
Punkt Q mit Ortsvektor ~x = OQ muss dann senkrecht auf dem Normalenvektor stehen,
also muss auch hier gelten
0 = ~v · ~b = ~v · (−~a + ~x) = −~v · ~a + ~v · ~x
Die Ortsvektoren ~x beliebiger Punkte der Ebene erfüllen also die Gleichung
~v · ~x = ~v · ~a
(28)
wobei ~a der Ortsvektor des gegebenen Punktes der Ebene und ~v ein Vektor senkrecht auf
der Ebene ist. Wir haben damit die Gleichung (15) wiedergewonnen mit dem Unterschied,
dass hier eine Ebene im Raum beschrieben wird.
Wir merken uns:
Alle Punkte des Raumes, deren Ortsvektoren ~x die Gleichung
~v · ~x = r
(29)
mit gegebenem r ∈ R erfüllen, liegen auf einer Ebene senkrecht zu ~v . Wenn ~v und ein
Punkt der Ebene durch seinen Ortsvektor ~a gegeben ist, dann kann daraus die Konstante
r = ~v · ~a berechnet werden.
25
Wir fassen weiterhin Abb. 11 rechts als Schnitt durch eine derartige Ebene auf. Dann
können wir die Vorgehensweise von Abschnitt 2.4.2 auf Ebenen übertragen und ganz
analog den Abstand einer Ebene vom Ursprung berechnen, die durch eine Gleichung
der Form (29) gegeben ist. Dabei können wir die Rechnung und die Erklärung von Abschnitt 2.4.2 fast unverändert übernehmen, lediglich das Wort Gerade“ ist durch das
”
Wort Ebene“ zu ersetzen. Wir verlängern oder verkürzen also wieder den Normalen”
vektor ~v , bis wir auf die Ebene treffen, und berechnen so den Fußpunkt des Lotes vom
Ursprung auf die Ebene. Wir erhalten damit ein Ergebnis der selben Form:
Eine Ebene, die durch eine Gleichung der Form (29) gegeben ist, hat den Abstand d vom
Ursprung mit
|r|
(30)
d=
|~v |
Auch hier können wir die Gleichung (29) etwas anders schreiben, indem wir die Vorgehensweise von Abschnitt 2.4.2 unverändert übertragen: Division beider Seiten durch ±|~v |
und Einführung des Vektors
(
1
~v falls r ≥ 0
|~v |
~u :=
1
− |~v| ~v falls r < 0
liefert:
Die Ortsvektoren ~x der Punkte einer Ebene erfüllen eine Gleichung der Form
~u · ~x = d
(31)
Dabei ist ~u ein Einheitsvektor, der senkrecht auf der Ebene steht, und d der Abstand der
Ebene vom Ursprung. Diese Gleichung heißt Hessesche Normalform der Ebenengleichung.
Am Ende von Abschnitt 2.6.1 wurde beschrieben, wie man die vektorielle Beschreibung
einer Ebene erhält, die durch drei Punkte festgelegt ist, deren Ortsvektoren man kennt.
Von der vektoriellen Ebenengleichung (27) erhält man mit Hilfe des Vektorprodukts sofort
einen Normalenvektor durch
~v = ~a × ~b
−−→
Da ein Punkt der Ebene mit Ortsvektor ~c = OP1 bekannt ist, kann man die Konstante
r = ~v ·~c in (29) berechnen. Man kann auf diese Weise die Gleichung einer Ebene aufstellen,
die durch die Angabe dreier Punkte gegeben ist.
3
3.1
3.1.1
Lineare Gleichungssysteme
Gauß-Verfahren
Einfaches Beispiel, Rückwärtsauflösen
Lineare Gleichungssysteme treten in fast allen Anwendungen der Mathematik in der Technik auf. Betrachten wir als Beispiel das in Abb. 16 gezeigte Beispiel eines elektrischen
Netzes. Wir bezeichnen die unbekannten Ströme mit x1 = I1 , x2 = I2 , x3 = I3 und wollen hier auf die Angabe der Maßeinheit A für Ampère verzichten. Die Anwendung der
26
Abbildung 16: Einfaches Netz: Ströme gesucht
Kirchhoffschen Regeln liefert
x1
−x2 −x3 = 0
10x2 −6x3 = 0
6x3 = 12
Dies ist ein Beispiel für ein lineares Gleichungssystem: linear deswegen, weil die Unbekannten nur in der ersten Potenz und auch nicht als Argument in Funktionen wie der
Wurzel vorkommen, System, weil es sich um mehrere Gleichungen handelt.
Das hier vorliegende Gleichungssystem hat eine sehr spezielle Form: es liegt in Dreiecksform vor, die Terme in der linken unteren Hälfte fehlen (weil die Koeffizienten null
sind). Derartige Gleichungssysteme sind sehr leicht aufzulösen. Wir multiplizieren beide
Seiten der dritten Gleichung mit 61 und erhalten
x3 = 2
Einsetzen in die 2. Gleichung liefert
10x2 − 6 · 2 = 0
Durch Addition von 12 auf beiden Seiten erhält man
10x2 = 12
und Multiplikation beider Seiten mit
1
10
liefert
x2 =
12
= 1, 2
10
Einsetzen der Ergebnisse für x2 und x3 in die 1. Gleichung ergibt
x1 − 1, 2 − 2 = 0
Durch Addition von 3, 2 auf beiden Seiten erhält man daraus
x1 = 3, 2
Dieses Verfahren heißt Rückwärtseinsetzen oder Rückwärtsauflösen.
27
3.1.2
Umwandlung in Dreiecksform, einfaches Beispiel
Wir gehen von folgendem Gleichungssystem aus:
2x1 +3x2 −5x3 = 10
4x1 +8x2 −3x3 = 19
−6x1 +x2 +4x3 = 11
(Z1)
(Z2)
(Z3)
Das Ziel ist es, dieses Gleichungssystem in Dreiecksform umzuwandeln, es also in die Form
zu bringen
∗x1 + ∗ x2 + ∗ x3 = ∗
0x1 + ∗ x2 + ∗ x3 = ∗
0x1 +0x2 + ∗ x3 = ∗
Dabei steht ∗ für noch zu berechnende Zahlen, die also alle verschieden sein können.
Die Umwandlung des ursprünglichen Gleichungssystems soll so erfolgen, dass sich die
Lösungsmenge nicht ändert.
Wir behalten hierzu die oberste Zeile bei (sie hat ja schon die gewünschte Form) und
addieren in einem ersten Schritt Vielfache der ersten Zeile zu den beiden andern Zeilen,
und zwar so, dass in der linken Spalte Nullen entstehen. Addiert man das (−2)-fache der
1. Zeile
−4x1 −6x2 +10x3 = −20
zur 2. Zeile
4x1 +8x2 −3x3 = 19
(Z2)
so erhält man als neue 2. Zeile
0x1 +2x2 +7x3 = −1
(Z20 )
Entsprechend liefert Addition des 3-fachen der 1. Zeile
6x1 +9x2 −15x3 = 30
zur 3. Zeile
−6x1 +x2 +4x3 = 11
(Z3)
die neue 3. Zeile
0x1 +10x2 −11x3 = 41
Durch diese beiden Operationen haben wir
system
2x1 +3x2 −5x3
0x1 +2x2 +7x3
0x1 +10x2 −11x3
(Z30 )
in einem ersten Schritt das neue Gleichungs= 10
= −1
= 41
(Z1)
(Z20 )
(Z30 )
erhalten. Wir setzen diese Methode in einem zweiten Schritt auf das entstandene kleinere
System (ohne die erste Zeile) fort:
+2x2 +7x3 = −1
+10x2 −11x3 = 41
Addition des (−5)-fachen der Zeile (Z20 )
−10x2 −35x3 = 5
28
(Z20 )
(Z30 )
zur untersten Zeile
(Z30 )
+10x2 −11x3 = 41
liefert die neue unterste Zeile (Z300 )
0x2 −46x3 = 46
(Z300 )
Wir haben also insgesamt das ursprüngliche Gleichungssystem in die gewünschte Dreiecksform gebracht
2x1 +3x2 −5x3 = 10
(Z1)
+2x2 +7x3 = −1
(Z20 )
−46x3 = 46
(Z300 )
Rückwärtsauflösen liefert
x3 = −1
2x2 − 7 = −1,
2x2 = 6,
x2 = 3
2x1 + 9 + 5 = 10,
2x1 = −4,
x1 = −2
Für praktische Rechnungen ist die Probe durch Einsetzen der Lösung in das urprüngliche
Gleichungssystem dringend zu empfehlen. Wenn Sie die Lösung mit einem Rechner berechnen, dann lassen Sie den Rechner die Probe durchführen!
Probe:
2 · (−2) + 3 · 3 − 5 · (−1) = −4 + 9 + 5 = 10
4 · (−2) + 8 · 3 − 3 · (−1) = −8 + 24 + 3 = 19
−6 · (−2) + 3 + 4 · (−1) = 12 + 3 − 4 = 11
Zur Erinnerung: Das Morsezeichen ·−“hat in der Mathematik nichts zu suchen. Daher
”
dürfen die Klammern in dieser Rechnung nicht weggelassen werden!
3.1.3
Weiteres Beispiel zur Umwandlung in Dreiecksform in Kurzschreibweise
2x1 +x2 +x3 =
1
4x1 +x2
= −2
−2x1 +2x2 +x3 =
7
Bei der Rechnung kommt es nur auf die Koeffizienten vor den Unbekannten und die Zahlen
auf der rechten Seite an, daher genügt es, nur diese zu notieren. Hierfür sind verschiedene
Kurzschreibweisen üblich.
Hier wird zunächst eine gemäßigte“ Kurzschreibweise für die Lösung des Gleichungs”
systems angegeben. Sie führt zur Schreibweise des Gleichungssystems mit einer Matrix,
die später behandelt wird. Die Vorgehensweise erfolgt analog zu der des vorangegangenen
Unterabschnitts. Es wird jeweils die oberste Zeile unverändert gelassen und es werden
Vielfache dieser obersten Zeile zu den unteren Zeilen addiert, und zwar so, dass ganz links
29
der Koeffizient 0 entsteht.
2
1
1
1
4
1
0 −2
−2
2
1
7
2
1
1
1
0 −1 −2 −4
0
3
2
8
2
1
1
1
0 −1 −2 −4
0
0 −4 −4
·(−2)
←-
·1
↓
←
·3
←-
Das entstehende Gleichungsystem in Dreiecksform ergibt sich aus dem untersten Abschnitt. Ausführlich aufgeschrieben lautet es
2x1 +x2 +x3 =
1
−x2 −2x3 = −4
−4x3 = −4
Rückwärtsauflösen ergibt:
−4x3 = −4,
x3 = 1
−x2 − 2 = −4,
x2 = 2
2x1 + 2 + 1 = 1,
2x1 = −2,
x1 = −1
Eine noch kompaktere Schreibweise für die Lösung des Gleichungssystems entsteht dadurch, dass die Zeilen, die im weiteren Verlauf des Verfahrens nicht weiter verändert
werden, auch nicht mehr aufgeschrieben werden. Sie werden stattdessen durch eine Einrahmung gekennzeichnet:
2
4
−2
1
1
1
1
0 −2
2
1
7
−1 −2 −4
3
2
8
−4 −4
·(−2)
←-
·1
↓
←
·3
←-
Das entstehende Gleichungsystem in Dreiecksform ergibt sich dann am Schluss aus den
eingerahmten Zeilen. Es wird dann durch Rückwärtsauflösen gelöst. Diese sehr kompakte
Kurzschreibweise ist nur zu empfehlen, wenn man das allgemeine Verfahren verstanden
hat und viel Übung besitzt, ansonsten ist die zuerst beschriebene gemäßigte“ Kurz”
schreibweise vorzuziehen, bei der die nicht veränderten Zeilen bei jedem Schritt erneut
aufgeschrieben werden.
30
3.1.4
Allgemeines Prinzip des Gauß-Verfahrens
Die allgemeine Form eines linearen Gleichungssystems von n Gleichungen mit n Unbekannten ist
a11 x1
a21 x1
a31 x1
a41 x1
..
.
+a12 x2
+a22 x2
+a32 x2
+a42 x2
..
.
+a13 x3
+a23 x3
+a33 x3
+a43 x3
..
.
+a14 x4
+a24 x4
+a34 x4
+a44 x4
..
.
+···
+···
+···
+···
...
an1 x1 +an2 x2 +an3 x3 +an4 x4 + · · ·
+a1n xn
+a2n xn
+a3n xn
+a4n xn
..
.
=
=
=
=
b1
b2
b3
b4
..
.
+ann xn = bn
Dabei ist es üblich, dass der Koeffizient in der i. Zeile und der k. Spalte (also der Koeffizient der k. Unbekannten in der i. Zeile) mit aik bezeichnet wird. Die erste Nummer der
Koeffizienten gibt also stets die Nummer der Zeile an. Die Lösungsmenge eines linearen
Gleichungssystems ist die Menge der {x1 , x2 , x3 , x4 , . . . xn }, die dieses Gleichungssystem
erfüllen. Wir setzen hier zunächst voraus, dass wir genausoviele Gleichungen wie Unbekannte haben; der allgemeine Fall wird später behandelt.
Satz 3.1.1 Folgende Operationen lassen die Lösungsmenge eines linearen Gleichungssystems unverändert:
(a) Vertauschen zweier Zeilen
(b) Multiplikation einer Zeile mit einer beliebigen Zahl c 6= 0, c ∈ R
(c) Addition eines beliebigen Vielfachen einer Zeile zu einer andern Zeile
Hinweis: a) und b) sind unmittelbar klar. Entscheidend dafür, dass sich die Lösungsmenge
bei der Umwandlung des Gleichungssystems nicht ändert, ist dass man den Umwandlungsschritt rückgängig machen kann. Die Addition des c-fachen einer Zeile zu einer andern kann
man durch die Addition des −c-fachen dieser Zeile zu der andern Zeile wieder rückgängig
machen. Die Addition des Nullfachen einer Zeile zu einer anderen ändert gar nichts, also
braucht man hier auch keine Voraussetzung an die Konstante c.
Das Gauß-Verfahren besteht nun darin, dass man durch diese Operationen, die die
Lösungsmenge unverändert lassen, ein beliebiges Gleichungssystem in Dreiecksform bringt.
Durch Addition des c-fachen der 1. Zeile zur 2. Zeile entsteht dort als 1. Summand
(c · a11 + a21 )x1 . Damit dieser wegfällt, muss die Bedingung (c · a11 + a21 ) = 0 erfüllt
. Analog kann
sein. Für den Fall, dass a11 6= 0, erreicht man dies durch die Wahl c = − aa21
11
man für die anderen Zeilen vorgehen. Wir haben also als
1. Schritt des Gauß-Verfahrens:
(a) Wenn a11 6= 0, dann führe folgende Operation für k = 2, 3, 4, . . . n durch:
Addiere das − aak1
-fache der 1. Zeile zur k. Zeile.
11
Dadurch hat man nach Durchlaufen dieser Schleife unterhalb von a11 nur noch
Nullen stehen.
(b) Wenn a11 = 0, dann prüft man für k = 2, 3, 4, . . . n, ob ein ak1 6= 0
31
(a) Wenn ein Koeffizient ak1 6= 0, dann vertauscht man die 1. und die k. Zeile und
führt dann den hier beschriebenen 1. Schritt von vorne durch (dann ist das
neue a11 6= 0).
(b) Wenn für alle Koeffizienten der Spalte a11 = 0, a21 = 0, a31 = 0, . . . an1 = 0 gilt
(die erste Spalte also nur aus Nullen besteht), dann geht man eine Spalte nach
rechts und ersetzt a11 durch den Koeffizienten, der in derselben Zeile weiter
rechts steht, also durch a12 und führt alle hier für den 1. Schritt beschriebenen
Operationen durch, wobei überall in der Beschreibung die Koeffizienten ak1
durch ak2 zu ersetzen ist. Wenn dies nicht zum Erfolg führt, wenn also erneut
a12 = 0, a22 = 0, a32 = 0, . . . an2 = 0, dann geht man nochmal eine Spalte
weiter nach rechts und ersetzt in dieser Beschreibung des 1. Schritts a11 durch
a13 (und alle weiteren Koeffizienten ak1 durch ak3 ). Führt dies wieder nicht
zum Erfolg, wenn also alle Koeffizienten der Spalte, in der man arbeitet, Null
sind, dann geht man nochmal eine Spalte weiter nach rechts. Dies wird so lange
fortgesetzt, bis man auf einen Koeffizienten stößt, der von Null verschieden ist.
Wenn dies nicht der Fall ist, dann stehen nur noch Nullen im Gleichungssystem,
und man hat nichts mehr zu tun.
Als Ergebnis dieses 1. Schrittes erhält man ein Gleichungssystem der Form
a011 x1
0x1
0x1
0x1
..
.
0x1
+a012 x2
+a022 x2
+a032 x2
+a042 x2
..
.
+a013 x3
+a023 x3
+a033 x3
+a043 x3
..
.
+a014 x4
+a024 x4
+a034 x4
+a044 x4
..
.
+···
+···
+···
+···
...
+a0n2 x2 +a0n3 x3 +a0n4 x4 + · · ·
+a01n xn
+a02n xn
+a03n xn
+a04n xn
..
.
=
=
=
=
b01
b02
b03
b04
..
.
+a0nn xn = b0n
Dabei wurden die Koeffizienten hier mit a0ik bezeichnet, da sie sich durch die Rechenoperationen des ersten Schritts geändert haben (die erste Zeile hat sich nur bei einem
Zeilentausch geändert).
Im nächsten Schritt wird die erste Zeile unverändert gelassen und nur noch das kleinere
Gleichungssystem
a022 x2 +a023 x3
a032 x2 +a033 x3
a042 x2 +a043 x3
..
..
.
.
0
0
an2 x2 +an3 x3
+a024 x4 + · · ·
+a034 x4 + · · ·
+a044 x4 + · · ·
..
...
.
+a0n4 x4 + · · ·
+a02n xn = b02
+a03n xn = b03
+a04n xn = b04
..
..
.
.
0
+ann xn = b0n
weiterbearbeitet. Im zweiten Schritt werden dieselben Operationen wie im ersten Schritt
durchgeführt, nur dass jetzt von a022 ausgegangen wird. Im einzelnen heißt dies:
2. Schritt des Gauß-Verfahrens:
(a) Wenn a022 6= 0, dann führe folgende Operation für k = 3, 4, . . . n durch:
a0
Addiere das − ak2
0 -fache der 2. Zeile zur k. Zeile.
22
Dadurch hat man nach Durchlaufen dieser Schleife unterhalb von a022 nur noch
Nullen stehen.
32
(b) Wenn a022 = 0, dann prüft man für k = 3, 4, . . . n, ob ein a0k2 6= 0
(a) Wenn ein Koeffizient a0k2 6= 0, dann vertauscht man die 2. und die k. Zeile und
führt dann den hier beschriebenen 2. Schritt von vorne durch (dann ist das
neue a022 6= 0).
(b) Wenn für alle Koeffizienten der Spalte a022 = 0, a032 = 0, . . . a0n2 = 0 gilt (die
zweite Spalte also nur aus Nullen besteht), dann geht man eine Spalte nach
rechts und ersetzt a022 durch den Koeffizienten, der in derselben Zeile weiter
rechts steht, also durch a023 und führt alle hier für den 2. Schritt beschriebenen
Operationen durch, wobei überall in der Beschreibung die Koeffizienten ak2
durch ak3 zu ersetzen ist. Wenn dies nicht zum Erfolg führt, wenn also erneut
a023 = 0, a033 = 0, . . . a0n3 = 0, dann geht man nochmal eine Spalte weiter nach
rechts und ersetzt in dieser Beschreibung des 2. Schritts a022 durch a024 (und
alle weiteren Koeffizienten a0k2 durch a0k4 ). Führt dies wieder nicht zum Erfolg,
wenn also alle Koeffizienten der Spalte, in der man arbeitet, Null sind, dann
geht man nochmal eine Spalte weiter nach rechts. Dies wird so lange fortgesetzt,
bis man auf einen Koeffizienten stößt, der von Null verschieden ist. Wenn dies
nicht der Fall ist, dann stehen nur noch Nullen im Gleichungssystem, und man
hat nichts mehr zu tun.
Als Ergebnis dieses 2. Schrittes erhält man ein Gleichungssystem der Form
a0022 x2 +a0023 x3
0x2 +a0033 x3
0x2 +a0043 x3
..
..
.
.
0x2 +a00n3 x3
+a0024 x4 + · · ·
+a0034 x4 + · · ·
+a0044 x4 + · · ·
..
...
.
+a00n4 x4 + · · ·
+a002n xn = b002
+a003n xn = b003
+a004n xn = b004
..
..
.
.
+a00nn xn = b00n
Dabei wurden die Koeffizienten hier mit a00ik bezeichnet, da sie sich durch die Rechenoperationen des zweiten Schritts geändert haben. Im nächsten Schritt wird die zweite Zeile
unverändert gelassen und nur noch das kleinere Gleichungssystem
a0033 x3 +a0034 x4 + · · ·
a0043 x3 +a0044 x4 + · · ·
..
..
..
.
.
.
00
00
an3 x3 +an4 x4 + · · ·
+a003n xn = b003
+a004n xn = b004
..
..
.
.
00
+ann xn = b00n
weiterbearbeitet. Im dritten Schritt werden dieselben Operationen wie in den ersten beiden Schritten durchgeführt, nur dass jetzt von a0033 ausgegangen wird. Im einzelnen heißt
dies:
3. Schritt des Gauß-Verfahrens:
(a) Wenn a0033 6= 0, dann führe folgende Operation für k = 4, 5, . . . n durch:
a00
Addiere das − ak3
00 -fache der 3. Zeile zur k. Zeile.
33
Dadurch hat man nach Durchlaufen dieser Schleife unterhalb von a0033 nur noch
Nullen stehen.
33
(b) Wenn a0033 = 0, dann prüft man für k = 4, 5, . . . n, ob ein a0k3 6= 0
(a) Wenn ein Koeffizient a00k3 6= 0, dann vertauscht man die 2. und die k. Zeile und
führt dann den hier beschriebenen 2. Schritt von vorne durch (dann ist das
neue a0033 6= 0).
(b) Wenn für alle Koeffizienten der Spalte a0033 = 0, a0043 = 0, . . . a00n3 = 0 gilt (die
zweite Spalte also nur aus Nullen besteht), dann geht man eine Spalte weiter
nach rechts. Dies wird so lange fortgesetzt, bis man auf einen Koeffizienten
stößt, der von Null verschieden ist. Wenn dies nicht der Fall ist, dann stehen
nur noch Nullen im Gleichungssystem, und man hat nichts mehr zu tun.
Als Ergebnis dieses 3. Schrittes erhält man ein Gleichungssystem der Form
000
a000
33 x3 +a34 x4 + · · ·
0x3 +a000
44 x4 + · · ·
..
..
..
.
.
.
000
0x3 +an4 x4 + · · ·
000
+a000
3n xn = b3
000
+a000
4n xn = b4
..
..
.
.
000
+ann xn = b000
n
Dabei wurden die Koeffizienten hier mit a000
ik bezeichnet, da sie sich durch die Rechenoperationen des dritten Schritts geändert haben. Man setzt das Verfahren nun mit dem
kleineren Gleichungssystem
a000
44 x4 + · · ·
..
..
.
.
000
an4 x4 + · · ·
000
+a000
4n xn = b4
..
..
.
.
000
+ann xn = b000
n
in einem 4. Schritt analog zu den bisherigen fort. Nach insgesamt (n − 1) derartigen
Schritten hat man das ursprüngliche Gleichungsystem umgewandelt in ein System in
Dreiecksform
a11 x1 +a12 x2 +a13 x3 +a14 x4
a22 x2 +a23 x3 +a24 x4
a33 x3 +a34 x4
a44 x4
+···
+···
+···
+···
...
+a1n xn
+a2n xn
+a3n xn
+a4n xn
..
.
ann xn
=
=
=
=
b1
b2
b3
b4
..
.
= bn
Dabei wurde zur Vereinfachung wieder die ursprüngliche Bezeichnungsweise aik der Koeffizienten gewählt — ohne die Striche, die andeuteten, dass sich die Koeffizienten bei der
Durchführung der Umwandlung ändern, also nicht mit denen des ursprünglichen Systems
übereinstimmen.
Zur Berechnung der Unbekannten hat man folgende Fälle zu unterscheiden:
(a) Wenn ann 6= 0, dann können die Unbekannten sofort durch Rückwärtseinsetzen
n
berechnet werden: xnn = abnn
, an−1,n−1 xn−1 + an−1,n xn = bn−1 und damit
xn−1 =
bn−1 − an−1,n ·
bn
ann
an−1,n−1
und entsprechend für die weiteren Unbekannten. Wie man aus der Umwandlung in
die Dreiecksform sieht, ist es nur möglich, dass ann 6= 0, wenn bei der Umwandlung
34
in Dreiecksform nirgends der Sonderfall auftritt, dass eine vollständige Spalte von
Nullen vorliegt und die weitere Bearbeitung eine Spalte weiter rechts fortgesetzt
werden muss. Wenn ann 6= 0, dann gilt in der Dreiecksform für alle übrigen Diagonalelemente a11 6= 0, a22 6= 0, a33 6= 0, . . . an−1,n−1 6= 0. Das Rückwärtsauflösen führt
dann zu einer eindeutigen Lösung x1 , x2 , x3 . . . xn .
(b) Falls ann = 0 und bn 6= 0, dann hat das Gleichungssystem keine Lösung, d.h. die
Lösungsmenge ist dann leer, denn die letzte Zeile in Dreiecksform 0 · xn = bn hat
keine Lösung xn ∈ R.
(c) Falls ann = 0 und bn = 0, dann ist die letzte Zeile in Dreiecksform 0·xn = 0 für beliebige xn ∈ R erfüllt. Man hat dann auf jeden Fall unendlich viele Lösungen, und man
kann mit Hilfe des Gleichungssystems in Dreiecksform versuchen, die Lösungsmenge
zu charakterisieren. Dies soll zunächst an den Beispielen besprochen werden.
Definition 3.1.1 Ein lineares Gleichungssystem mit n Gleichungen und n Unbekannten
heißt singulär, wenn nach der Umwandlung in Dreiecksform mit dem Gauß-Verfahren
der Koeffizient ann = 0 erfüllt. Wenn dagegen ann 6= 0, dann heißt das Gleichungssystem
nichtsingulär.
Hinweis: Ein singuläres Gleichungssystem kann also keine oder unendlich viele Lösungen
haben, ein nichtsinguläres Gleichungssystem hat stets eine eindeutig bestimmte Lösung.
3.2
Geometrische Deutung linearer Gleichungssysteme
Schauen wir uns zunächst ein Beispiel an der Form
a11 x1 +a12 x2 = b1
a21 x1 +a22 x2 = b2
(32)
Wenn wir die in der ersten Zeile stehenden Koeffizienten und die Unbekannten zu einem
Vektor zusammenfassen, also
a11
x1
~u :=
und
~x :=
x2
a12
definieren, dann können wir die erste Zeile schreiben als
~u · ~x = b1
Dies ist die Gleichung einer Geraden senkrecht zu ~u in der Form der Gleichung (16). Wenn
a12 6= 0, dann können wir die erste Zeile des Gleichungssytems mit x1 = x und x2 = y
auch in der gewohnten Form einer Geradengleichung
y=−
a11
b1
x+
a12
a12
schreiben.
Analog können wir mit
a21
~v :=
a22
35
die zweite Gleichung als Gleichung einer Geraden senkrecht zu ~v in der Form
~v · ~x = b2
oder, falls a22 6= 0, in der vertrauten Form
y=−
b2
a21
x+
a22
a22
schreiben.
Das Gleichungssystem zu lösen bedeutet also, den Schnittpunkt zweier Geraden in der
Ebene zu berechnen! Hier können verschiedene Situationen vorliegen:
(a) Im allgemeinen schneiden sich die beiden Geraden in genau einem Punkt. Dann hat
das Gleichungssystem genau eine Lösung.
(b) Es kann aber auch vorkommen, dass die beiden Geraden parallel, aber verschieden
sind. Dann haben sie keinen Schnittpunkt, und die Lösungsmenge des Gleichungssystems ist leer. In diesem Fall haben die beiden Normalenvektoren dieselbe (oder
entgegengesetzte) Richtung, also ein Normalenvektor ist ein Vielfaches des anderen,
~u = s~v
oder
~v = t~u
und durch Addition des (−t)-fachen der ersten Zeile zur zweiten kann man diese in
die Form
0x1 + 0x2 = b2 − tb1
bringen. Wenn die beiden Geraden verschieden sind, dann ist b2 − tb1 6= 0 und diese
Gleichung hat keine Lösung. Das Gleichungssystem ist in diesem Fall aufgrund der
angegebenen neuen Form der zweiten Zeile singulär.
(c) Wenn die beiden Geraden zusammenfallen, dann sind alle Punkte dieser Gerade
Elemente der Lösungsmenge des Gleichungssystems. Rechnerisch heißt dies, dass
die zweite Zeile ein Vielfaches des ersten ist (oder umgekehrt). Dann können wir
mit dem Gauß-Verfahren die zweite Zeile in die Form
0x1 + 0x2 = 0
bringen. Auch in diesem Fall ist das Gleichungssystem singulär. Hier sind alle reellen
Zahlen x1 und x2 Lösung dieser Gleichung. Dann können wir beispielsweise für
x2 eine beliebige reelle Zahl t wählen, also x2 = t schreiben und dann die erste
Gleichung nach x1 auflösen:
a12
b1
−
t
x1 =
a11 a11
Man kann das Ergebnis dann auch vektoriell schreiben
b1 a12 − a11
~x = a11 + t
1
0
Das ist die vektorielle Form einer Geradengleichung.
36
Ob der Normalfall“ (genau eine Lösung) oder einer der beiden Sonderfälle“ (keine oder
”
”
unendlich viele Lösungen, Gleichungssystem singulär) auftreten, sieht man an den beiden
Vektoren ~u und ~v . Wenn ~u = s~v oder ~v = t~u, dann ist das System singulär und es
liegt einer der beiden Sonderfälle“ vor (welcher, das hängt von der rechten Seite ab).
”
Beachten Sie, dass zwei parallele Geraden identisch sind, wenn sie einen gemeinsamen
Punkt haben. Wenn b1 = b2 = 0, dann gehen beide Geraden durch den Ursprung, und
das Gleichungssystem hat genau eine oder unendlich viele Lösungen.
Schauen wir uns ein konkretes Beispiel an:
3x1 +x2 = 4
(33)
2x1 +x2 = 2
3
2
Wir erhalten ~u =
und ~v =
. Die beiden Geradengleichungen lauten in der
1
1
vertrauten Form
y = −3x + 4
und
y = −2x + 2
2
Die beiden Geraden schneiden sich im Punkt ~x =
(siehe auch die Abbildung 17)
−2
Es gibt noch eine zweite geometrische Interpretation unseres Gleichungssystems (32). Wir
Abbildung 17: geometrische Interpretationen des linearen Gleichungssystems (33): links
als Schnittpunkt der Geradengleichungen ~u · ~x = 4 und ~v · ~x = 2, rechts Darstellung
~b = x1 w
~ + x2~z
betrachten die spaltenweise aus den Koeffizienten der linken und rechten Seite gebildeten
Vektoren
a11
a12
~b := b1
w
~=
,
~z :=
und
a21
a22
b2
Wir können damit unser Gleichungssystem schreiben als
a11
a
x1
+ x2 12 = x1 · w
~ + x2 · ~z = ~b
a21
a22
37
Zu drei gegebenen Vektoren w,
~ ~z und ~b suchen wir also Skalare so, dass wir den dritten
~
Vektor b als Summe von Vielfachen der beiden anderen schreiben können. Machen Sie sich
anhand der Abbildung 17 klar, dass dies immer möglich ist, wenn die beiden Vektoren der
linken Seite ein Parallelogramm aufspannen. Dort sind die Zahlenwerte unseres Beispiels
(33) zugrunde gelegt.
Die beiden Skalare sind in diesem Fall eindeutig bestimmt. Der Sonderfall (singuläres
System) kann nur auftreten, wenn ~z ein Vielfaches von w
~ ist (oder umgekehrt). Dann
~
existieren unendlich viele Lösungen, wenn der Vektor b der rechten Seite ebenfalls ein
Vielfaches von w
~ oder ~z ist; sonst existiert keine Lösung des Gleichungssystems.
Abbildung 18: geometrische Interpretationen des linearen Gleichungssystems (34): links
zeilenweise (zwei parallele Geraden), rechts spaltenweise
Durch eine Änderung des Zahlenwerts von a21 und a22 erhalten wir aus unserem Beispiel 33 das System
3x1 +x2 = 4
(34)
6x1 +2x2 = 2
mit ~v = 2~u, die beiden Geraden sind also parallel. Man kann dies auch an den beiden
Geradengleichungen in der vertrauten Form sehen:
y = −3x + 4,
y = −3x + 1
Addition des (−2)-fachen der ersten Zeile zur zweiten liefert die unlösbare Gleichung
0x1 + 0x2 = −6 und zeigt somit auch rechnerisch, dass die Lösungsmenge leer ist. Für die
spaltenweise gebildeten Vektoren erhalten wir w
~ = 3~z, aber ~b ist kein Vielfaches von ~z,
also kann
x1 w
~ + x2~z = (3x1 + x2 )~z = ~b
keine Lösung haben. Die Situation ist in Abb. 18 veranschaulicht.
Eine zusätzliche Änderung von b2 liefert das System
3x1 +x2 = 4
6x1 +2x2 = 8
(35)
bei dem die zweite Zeile das doppelte der ersten ist. Die Lösungsmenge besteht aus
sämtlichen Punkten der zugehörigen Geraden. Für die spaltenweise gebildeten Vektoren
38
erhalten wir dann ~b = 4~z und
x1 w
~ + x2~z = (3x1 + x2 )~z = ~b = 2~z
und damit die erste Zeile unseres Gleichungssystems. Wir können eine der beiden Unbekannten beliebig wählen und dann nach der anderen auflösen, beispielsweise x2 = t und
x1 = − 13 t + 34 oder als vektorielle Geradengleichung geschrieben
1
4
−3
3
+t
~x =
0
1
Halten wir als Ergebnis unserer Überlegungen fest:
Satz 3.2.1 Ein lineares Gleichungssystem
a11 x1 +a12 x2 = b1
a21 x1 +a22 x2 = b2
ist genau dann singulär, wenn für die zeilenweise gebildeten Vektoren
a11
a21
~u :=
und
~v :=
a12
a22
gilt ~u = s~v oder ~v = t~u.
Es ist genau dann singulär, wenn für die spaltenweise gebildeten Vektoren
a11
a12
w
~=
,
und
~z :=
a21
a22
gilt w
~ = s~z oder ~z = tw.
~
Hinweis: Wir können vier beliebige Zahlen stets quadratisch anordnen und daraus zeilenweise und spaltenweise Vektoren bilden. Als Folgerung aus dem Satz erhalten wir, dass die
zeilenweise gebildeten Vektoren genau dann in dieselbe oder entgegengesetzte Richtung
zeigen, wenn dies die spaltenweise gebildeten Vektoren tun.
Wir betrachten nun ein Beispiel mit drei Gleichungen und drei Unbekannten und
verallgemeinern unsere Vorgehensweise entsprechend
3x1 +2x2 −x3 = 2
2x1 −x2 +3x3 = 0
x1 +3x2 −4x3 = 2
Dieses Gleichungssystem hat zwei geometrische Aspekte:
(a) Erster geometrischer Aspekt: Schauen wir uns die erste Zeile an. Definieren wir die
Vektoren
 
 
3
x1



2 ,
~u :=
~x := x2 
−1
x3
dann können wir die Gleichung 3x1 + 2x2 − x3 = 2 auch schreiben als
~u · ~x = 2
39
Sie hat dieselbe Form wie Gleichung (29), ist also die Gleichung einer Ebene senkrecht zu ~u. Mit den Vektoren
 
 
2
1



3
~v := −1 ,
w
~ :=
3
−4
können wir die beiden unteren Zeilen des Gleichungssystems auch als Ebenengleichungen schreiben
~v · ~x = 0,
w
~ · ~x = 2
Diese Überlegung hängt nicht von den hier vorliegenden Zahlenwerten der Koeffizienten ab. Wir können jedes lineare Gleichungssystem von drei Gleichungen mit
drei Unbekannten auffassen als die Aufgabenstellung, den Durchschnitt von drei
Ebenen zu berechnen! Es ist geometrisch plausibel, dass in diesem Durchschnitt im
Normalfall nur ein einziger Punkt liegt (siehe Abb. 19 links). Beachten Sie, dass der
Durchschnitt zweier Ebenen im Normalfall eine Gerade ist (siehe Abb. 19 rechts).
In Sonderfällen kann der Durchschnitt dreier Ebenen leer sein (wie in Abb. 20 links
gezeigt), eine Gerade (wie in Abb. 20 rechts gezeigt) oder auch in Extremfällen eine
ganze Ebene sein.
-2
2
0
4
-4
5
5
0
0
-5
4
-4
-5
2
-2
-4
-2
0
0
0
-2
2
2
4
4-4
Abbildung 19: Im Normalfall ergibt der Schnitt zweier Ebenen eine Gerade (links), der
Schnitt dreier Ebenen einen Punkt (rechts).
4
2
0
2
4
4
3
0
2
2
4
2
0
1
2
0
4
2
4
2
2
0
4
2
0
2
4
Abbildung 20: In Sonderfällen kann der Schnitt dreier Ebenen leer sein (links), oder eine
Gerade ergeben (rechts).
Man kann sich leicht klarmachen, dass der Sonderfall (leerer Durchschnitt von drei
Ebenen oder unendlich viele Punkte im Durchschnitt von drei Ebenen) nur auftreten
kann, wenn die drei Normalenvektoren ~u, ~v , w
~ in einer Ebene liegen.
40
In dem Spezialfall, dass auf der rechten Seite des Gleichungssystems überall Null
steht, gehen alle drei Ebenen durch den Ursprung, und der Nullvektor, d.h. die
triviale Lösung x1 = x2 = x3 = 0 gehört auf jeden Fall zur Lösungsmenge, die also
in diesem Spezialfall nie leer sein kann. Die triviale Lösung kann die einzige Lösung
sein. Sobald ein derartiges System eine Lösung hat, die von der trivialen Lösung
verschieden ist, hat die Lösungsmenge unendlich viele Lösungen (denn sie enthält
eine Gerade).
(b) Zweiter geometrischer Aspekt: Wir können unser Gleichungssystem auch in der
Form schreiben
 
 
   
3
2
−1
2
x1 · 2 + x2 · −1 + x3 ·  3  = 0
1
3
−4
2
Mit den Spaltenvektoren
 
 
3
2
~



~a := 2 ,
b := −1 ,
1
3


−1
~c :=  3  ,
−4
 
2
~

d := 0
2
wird aus dem Gleichungssystem die Aufgabenstellung, Skalare x1 , x2 und x3 zu
suchen, die
x1~a + x2~b + x3~c = d~
erfüllen. Es ist geometrisch plausibel, dass eine derartige Aufgabenstellung im Normalfall genau eine Lösung hat. Wenn jedoch die drei Vektoren ~a, ~b und ~c in einer
Ebene liegen, dann hängt es vom Vektor der rechten Seite d~ ab, ob überhaupt eine
Lösung existiert: Wenn er nicht ebenfalls in dieser Ebene liegt, dann kann keine
Lösung existieren, denn man kommt nie aus der Ebene heraus, in der ~a, ~b und ~c
liegen, egal wie man die Skalare x1 , x2 und x3 wählt. Liegt jedoch d~ auch in der
Ebene von ~a, ~b und ~c, dann gibt es sehr viele Möglichkeiten, d~ in der gewünschten
Weise als Summe darzustellen.
Aus beiden geometrischen Interpretationen wird klar, dass ein lineares Gleichungssystem
genau eine, gar keine oder unendlich viele Lösungen haben kann. Zur Entscheidung, welcher Fall vorliegt, und zur praktischen Berechnung der Lösungsmenge empfiehlt sich das
Gauß-Verfahren. Wenden wir dieses auf unser Beispiel an: Addition des − 32 -fachen der
ersten Zeile zur zweiten sowie des − 13 -fachen der ersten Zeile zur dritten liefert
3x1 +2x2
−x3 = 2
− 73 x2 + 11
x = − 34
3 3
+ 73 x2 − 11
x = 43
3 3
Addition der zweiten zur dritten Zeile liefert schließlich die gewünschte Dreiecksform:
3x1 +2x2
−x3 = 2
7
11
− 3 x2 + 3 x3 = − 34
0x3 = 0
41
Jede reelle Zahl ist Lösung der dritten Gleichung. Es ist sinnvoll x3 = t zu schreiben (mit
t ∈ R beliebig). Einsetzen in die zweite Gleichung liefert
7
11
4
4 11
− x2 + t = − ,
x2 = + t
3
3
3
7
7
und Einsetzen in die erste Gleichung liefert
4 11
14 8 22
7
3x1 + 2
+ t − t = 2,
3x1 =
− − t + t,
7
7
7
7
7
7
x1 =
2 5
− t
7 7
Dieses Ergebnis kann auch mit Hilfe von Vektoren geschrieben werden:
  2
 −5 
x1
7
7
,
~x = x2  =  47  + t ·  11
mit t ∈ R beliebig
7
0
1
x3
Dies ist die Gleichung einer Geraden, was aufgrund der ersten geometrischen Interpretation beim Schnitt von drei Ebenen zu erwarten war.
Halten wir als Ergebnis unserer Überlegungen fest:
Satz 3.2.2 Ein Gleichungssystem
a11 x1 +a12 x2 +a13 x3 = d1
a21 x1 +a22 x2 +a23 x3 = d2
a31 x1 +a32 x2 +a33 x3 = d3
ist genau dann singulär, wenn die drei zeilenweise gebildeten Vektoren
 
 
 
a31
a21
a11





w
~ := a32 
~v := a22 ,
~u := a12 ,
a33
a23
a13
in einer Ebene liegen.
Es ist genau dann singulär, wenn die drei spaltenweise gebildeten Vektoren
 
 
 
a11
a12
a13
~b := a22  ,
~a := a21  ,
~c := a23 
a31
a32
a33
in einer Ebene liegen.
Hinweis: Wir können neun Zahlen stets quadratisch anordnen. Aus dem Satz folgt, dass
die drei zeilenweise gebildeten Vektoren genau dann in einer Ebene liegen, wenn dies die
drei spaltenweise gebildeten tun. Dieses Ergebnis werden wir später verallgemeinern.
3.3
Homogene und inhomogene lineare Gleichungssysteme
Definition 3.3.1 Ein lineares Gleichungssystem heißt homogen, wenn auf der rechten
Seite nur Nullen stehen, wenn es also die Form hat
a11 x1
a21 x1
a31 x1
a41 x1
..
.
+a12 x2
+a22 x2
+a32 x2
+a42 x2
..
.
+a13 x3
+a23 x3
+a33 x3
+a43 x3
..
.
+a14 x4
+a24 x4
+a34 x4
+a44 x4
..
.
+···
+···
+···
+···
...
an1 x1 +an2 x2 +an3 x3 +an4 x4 + · · ·
42
+a1n xn
+a2n xn
+a3n xn
+a4n xn
..
.
=
=
=
=
0
0
0
0
..
.
+ann xn = 0
Die Lösung x1 = x2 = x3 = · · · xn = 0 heißt dann die triviale Lösung des homogenen
Gleichungssystems.
Ein lineares Gleichungssystem heißt inhomogen, wenn es nicht homogen ist, wenn also
in mindestens einer Zeile auf der rechten Seite eine von Null verschiedene Zahl steht.
Bei einem inhomogenen linearen Gleichungssystem ist das zugehörige homogene
Gleichungssystem das Gleichungssystem, das entsteht, wenn man alle Zahlen auf der rechten Seite durch Null ersetzt.
Hinweis: Ob ein lineares Gleichungssystem singulär ist oder nicht, entscheidet sich allein
aufgrund der Koeffizienten, die auf der linken Seite stehen, hängt also überhaupt nicht
von den Zahlen auf der rechten Seite ab. Ein homogenes Gleichungssystem hat stets
mindestens eine Lösung, nämlich die triviale Lösung. Wir haben daher die Aussage
Satz 3.3.1 Ein homogenes lineares Gleichungssystem ist genau dann singulär, wenn es
mindestens eine Lösung hat, die von der trivialen Lösung verschieden ist (bei der mindestens ein xk 6= 0 ist). Es ist genau dann nichtsingulär, wenn es nur die triviale Lösung
hat.
3.4
3.4.1
Unter- und überbestimmte lineare Gleichungssysteme
Unterbestimmte lineare Gleichungssysteme
Lineare Gleichungssysteme, die weniger Gleichungen als Unbekannte haben, nennt man
unterbestimmt. Wir bezeichnen hier die Zahl der Zeilen mit n und die Zahl der Unbekannten mit m. Ein unterbestimmtes Gleichungssystem hat also die Form
a11 x1
a21 x1
a31 x1
a41 x1
..
.
+a12 x2
+a22 x2
+a32 x2
+a42 x2
..
.
+a13 x3
+a23 x3
+a33 x3
+a43 x3
..
.
+a14 x4
+a24 x4
+a34 x4
+a44 x4
..
.
+···
+···
+···
+···
..
.
an1 x1 +an2 x2 +an3 x3 +an4 x4 + · · ·
+a1m xm
+a2m xm
+a3m xm
+a4m xm
..
.
=
=
=
=
b1
b2
b3
b4
..
.
+anm xm = bn
mit m > n. Auch auf derartige Gleichungssysteme ist das Gauß-Verfahren anwendbar, so
wie es in Abschnitt 3.1.4 beschrieben wurde. Man erhält dann allerdings keine Umwandlung in Dreiecksform, sondern in folgende Trapezform“:
”
a11 x1 +a12 x2 +a13 x3 + · · · +a1n xn +a1,n+1 xn+1 + · · · +a1m xm = b1
a22 x2 +a23 x3 + · · · +a2n xn +a2,n+1 xn+1 + · · · +a2m xm = b2
a33 x3 + · · · +a3n xn +a3,n+1 xn+1 + · · · +a3m xm = b3
..
..
..
..
..
...
.
.
.
.
.
ann xn
+an,n+1 xn+1 + · · ·
+anm xm = bn
Wenn ann 6= 0, dann ist zunächst xn+1 = t1 , xn+2 = t2 , . . . xm = tm−n frei wählbar
(t1 , t2 , . . . tm−n ∈ R beliebig), und die letzte Zeile kann nach xn aufgelöst werden. Durch
Einsetzen derartiger Bedingungen in die darüberliegende Zeile erhält man weitere Bedingungen an die Unbekannten. Im allgemeinen hat also ein unterbestimmtes lineares
Gleichungssystem unendlich viele Lösungen. Betrachten wir folgendes Beispiel:
2x1 +3x2 −5x3 = 10
4x1 +8x2 −3x3 = 19
43
Addition des (−2)-fachen der ersten Zeile zur zweiten liefert
2x1 +3x2 −5x3 = 10
2x2 +7x3 = −1
x3 = t ∈ R kann beliebig gewählt werden, damit erhält man aus der unteren Zeile
1 7
x2 = − − t
2 2
2x2 = −1 − 7x3 ,
Einsetzen in die erste Zeile ergibt
1 7
2x1 + 3 − − t − 5t = 10,
2 2
2x1 = 10 +
3 21
10
+ t + t,
2
2
2
x1 =
23 31
+ t
4
4
Die Lösung kann auch vektoriell geschrieben werden
   23 
 31 
x1
4
4
~x = x2  = − 12  + t · − 72 
0
1
x3
Dies ist die vektorielle Gleichung einer Geraden im Raum — in Übereinstimmung mit
der geometrischen Anschauung, dass der Durchschnitt zweier Ebenen im allgemeinen eine
Gerade ergibt.
Es kann auch vorkommen, dass ein unterbestimmtes System unlösbar ist, die Lösungsmenge
also leer ist, wie das folgende Beispiel zeigt:
x1 +x2 +x3 = 1
3x1 +3x2 +3x3 = 2
Interpretiert man diese beiden Gleichungen als Ebenengleichungen, so sieht man, dass der
Normalenvektor der zweiten Gleichung dieselbe Richtung hat wie der der ersten (er ist
das dreifache). Beide Ebenen sind also parallel. Sie fallen aber nicht zusammen, denn die
Multiplikation der ersten Gleichung mit drei liefert nicht dieselbe rechte Seite wie in der
zweiten Gleichung. Die Anwendung des Gauß-Verfahrens führt zum gleichen Ergebnis:
Addition des (−3)-fachen der ersten Gleichung zur zweiten liefert
0x1 + 0x2 + 0x3 = −1
und dies ist für alle reellen Zahlen x1 , x2 , x3 unmöglich. Die Lösungsmenge ist also leer.
3.4.2
Überbestimmte Systeme
Überbestimmte lineare Gleichungssysteme sind Systeme, die mehr Gleichungen als Unbekannte haben. Wir bezeichnen auch hier die Zahl der Zeilen mit n und die Zahl der
Unbekannten mit m. Ein überbestimmtes Gleichungssystem hat also die Form
a11 x1
a21 x1
a31 x1
a41 x1
..
.
+a12 x2
+a22 x2
+a32 x2
+a42 x2
..
.
+a13 x3
+a23 x3
+a33 x3
+a43 x3
..
.
+a14 x4
+a24 x4
+a34 x4
+a44 x4
..
.
+···
+···
+···
+···
..
.
an1 x1 +an2 x2 +an3 x3 +an4 x4 + · · ·
44
+a1m xm
+a2m xm
+a3m xm
+a4m xm
..
.
=
=
=
=
b1
b2
b3
b4
..
.
+anm xm = bn
mit m < n. Dies kommt in der Praxis häufig vor, wenn man beispielsweise mehr Messungen macht als zur Bestimmung der zu berechnenden Größen unbedingt notwendig ist.
Anwendung des Gaußverfahren liefert ein System in der folgenden Form
a11 x1 +a12 x2 +a13 x3 +a14 x4
a22 x2 +a23 x3 +a24 x4
a33 x3 +a34 x4
a44 x4
+···
+···
+···
+···
...
+a1m xm
+a2m xm
+a3m xm
+a4m xm
..
.
=
=
=
=
b1
b2
b3
b4
..
.
amm xm
0 · xm
0 · xm
..
.
= bm
= bm+1
= bm+2
..
.
0 · xm
= bn
Wenn mindestens eine der Zahlen bm+1 , bm+2 , . . . bn von Null verschieden ist, dann hat
ein derartiges System keine Lösung. Bei den Anwendungen, bei denen ein solches System auftritt, ist es allerdings meist nicht sinnvoll, eine exakte Lösung des Systems zu
suchen. Wenn das System, wie als Beispiel schon erwähnt wurde, durch eine größere
Zahl von Messungen, als zur Berechnung der unbekannten Größen unbedingt notwendig
sind, überbestimmt wird, so ist zu erwarten, dass es durch das Auftreten von Meßfehlern
unlösbar wird. In diesem Fall ist eine andere Aufgabenstellung sinnvoll. Addiert man in
jeder Zeile des ursprünglichen Gleichungssystems das Negative der rechten Seite (also −bk
in der k. Zeile), so erhält man ein System in der Form
a11 x1
a21 x1
a31 x1
a41 x1
..
.
+a12 x2
+a22 x2
+a32 x2
+a42 x2
..
.
+a13 x3
+a23 x3
+a33 x3
+a43 x3
..
.
+a14 x4
+a24 x4
+a34 x4
+a44 x4
..
.
+···
+···
+···
+···
an1 x1 +an2 x2 +an3 x3 +an4 x4 + · · ·
+a1m xm
+a2m xm
+a3m xm
+a4m xm
..
.
−b1
−b2
−b3
−b4
..
.
=
=
=
=
0
0
0
0
..
.
+anm xm −bn = 0
Wenn die Koeffizienten aus fehlerbehafteten Messungen stammen, dann ist nicht zu erwarten, dass diese Gleichungen exakt erfüllt sind. Man hat eher davon auszugehen, dass
auf der rechten Seite Zahlen nahe Null stehen, mit wechselndem Vorzeichen, wenn die
Meßfehler zufälliger Natur sind. Es ist daher sinnvoll, statt einer exakten Lösung das
Minimum von
(a11 x1
+(a21 x1
+(a31 x1
+(a41 x1
+a12 x2
+a22 x2
+a32 x2
+a42 x2
+a13 x3
+a23 x3
+a33 x3
+a43 x3
+a14 x4
+a24 x4
+a34 x4
+a44 x4
..
.
+···
+···
+···
+···
+(an1 x1 +an2 x2 +an3 x3 +an4 x4 + · · ·
+a1m xm
+a2m xm
+a3m xm
+a4m xm
−b1 )2
−b2 )2
−b3 )2
−b4 )2
+anm xm −bn )2
zu suchen. Wenn eine exakte Lösung existiert, dann wird diese Summe Null. Man wird in
den Fällen, in denen keine exakte Lösung existiert, die Werte von x1 , x2 . . . xm , für die diese Summe minimal wird, als eine gute Näherung an das ursprüngliche praktische Problem
ansehen, das auf das Gleichungssystem führte. Die Bedingung, dass diese Summe minimal
45
ist, führt auf ein neues Gleichungssystem für die Unbekannten, das m Gleichungen enthält,
also genausoviele wie Unbekannte vorhanden sind. Derartige Überlegungen sind Gegenstand der Ausgleichsrechnung. Wir werden darauf im Abschnitt 10.1 zurückkommen.
Es ist noch anzumerken, dass überbestimmte Systeme nicht immer unlösbar sind. Ein
Beispiel ist
2x1 +3x2 =
8
5x1 −4x2 = −3
7x1 −x2 =
5
Sture Anwendung des Gauß-Verfahrens führt auf das System
2x1
+3x2 =
8
x
=
−23
− 23
2 2
− 23
x = −23
2 2
und man erhält die Lösung x2 = 2, x1 = 1. Man sieht auch beim ursprünglichen System,
dass die dritte Zeile die Summe der beiden ersten Zeilen ist, also keine neue Bedingung
an die Unbekannten enthält.
4
Vektorräume
Vorbemerkungen:
Die bisher behandelten Vektoren haben eine anschauliche geometrische Bedeutung, wir
können sie uns als Pfeile“ in der Ebene oder im Raum vorstellen. In den folgenden
”
Abschnitten werden die hierfür behandelten Konzepte verallgemeinert. Wir werden dabei Objekte als Vektoren ansehen, die sich einer derartigen elementaren geometrischen
Anschauung entziehen. Diese Verallgemeinerung ist jedoch für die moderne Nachrichtentechnik unentbehrlich. Hier sollen zunächst zur Motivation einige nachrichtentechnische
Anwendungen vorgestellt werden.
Als Modelle für Tonsignale betrachten wir Funktionen der Zeit f (t). Die Funktionswerte stehen für die Luftdruckschwangungen oder für die Spannung als Funktion der Zeit,
in die das Mikrophon die Luftdruckschwankungen umsetzt. Eine Verstärkung kann modellmäßig dadurch beschrieben werden, dass die Funktion f mit einer reellen Konstante
c > 1 multipliziert wird, d.h man hat dann die Funktionswerte c · f (t). Treten zwei Schallquellen auf, beispielsweise die Stimme eines Sängers (beschrieben durch die Funktion f )
und seine Gitarre (beschrieben durch die Funktion g), so lässt sich dies modellmäßig als
Addition der beiden Signale f + g beschreiben. Als Ergebnis erhalten wir die Summe
h = f + g. Die Funktionswerte von h sind dabei einfach die Summe der Funktionswerte
von f und g, also h(t) = f (t) + g(t).
Die Idee, eine Funktion als ein einzelnes Objekt“ anzusehen, hat sich als außeror”
dentlich nützlich erwiesen. Man kann solche Objekte addieren und mit einer reellen Zahl
(einer Konstanten) multiplizieren. Überzeugen Sie sich, dass hierfür dieselben Rechenregeln gelten wie für Vektoren ((1) bis (8)). Dem Nullvektor entspricht hier die Nullfunktion
f (t) = 0 für alle t. Wir können also mit Funktionen genauso rechnen wie mit den anschaulichen Vektoren. Alle Rechenregeln, die sich aus den Regeln (1) bis (8) herleiten lassen,
gelten somit auch für Funktionen. Dies ist für die Behandlung der Fourier-Reihen und der
Fourier- und Laplace-Transformation (im 3. Semester) wichtig.
46
In der Nachrichtentechnik werden Tonsignale nicht in der Form von Funktionen eines
kontinuierlichen Parameters behandelt, sondern als Abtastwerte:
yk = f (k∆t),
k∈Z
In der Praxis haben Tonsignale eine endliche Dauer, und wir können die Zeit auf ein
endliches Intervall beschränken. Durch Verschieben des Zeitnullpunkts können wir stets
erreichen, dass dieses Intervall die Form [0, T ] mit T > 0 hat. Dann erhalten wir
yn = f (n∆t),
n = 0, 1, 2, . . . N − 1
wenn ∆t = NT−1 gewählt wurde. Eine derartige Nummerierung lässt sich beispielsweise
in der Programmiersprache C direkt umsetzen. In der Mathematik (und im Programm
Scilab) ist allerdings die Nummerierung
yn = f (n − 1)∆t ,
n = 1, 2, 3, . . . N
üblich. Für Tonsignale ist es sinnvoll, mit ∆t < 10−4 s zu arbeiten. Für ein ganzes Musikstück wird N also recht groß. Die Abtastwerte eines kleinen Ausschnitts eines Tonsignals sind in Abb. 21 gezeigt.
Abbildung 21: Abtastwerte eines Tonsignals (kleiner Ausschnitt)
Eine Verstärkung bedeutet für die Abtastwerte, dass sie alle mit einer Zahl c > 1
multipliziert werden. Bei einer Addition der Tonsignale werden jeweils die Abtastwerte mit
derselben Nummer, also mit demselben Index, addiert. Wir haben also dieselbe Situation
wie bei den anschaulichen“ Vektoren, nur dass die Zahl der Komponenten sehr gross
”
sein kann. Wir können also die Abtastwerte von Tonsignalen als Komponenten eines
Vektors auffassen und dann genauso rechnen wie mit den anschaulichen“ Vektoren. Es
”
gelten hierfür ebenso dieselben Rechenregeln (1) bis (8). Das Ziel dieses Abschnitts ist,
die mathematischen Fachausdrücke hierfür zur Verfügung zu stellen.
4.1
Definition des Begriffs Vektorraum“
”
Definition 4.1.1 Ein Vektorraum ist eine Menge V mit zwei Rechenoperationen, die
die unten angegebenen Grundregeln erfüllen: einer Addition, die jedem Paar ~a, ~b ∈ V
47
eindeutig die Summe ~a + ~b ∈ V zuordnet sowie einer Multiplikation von reellen Zahlen
mit Elementen in V , die jedem Paar t, ~a mit t ∈ R und ~a ∈ V das Element t~a ∈ V
zuordnet. Es werden die folgenden Grundregeln für alle ~a, ~b, ~c ∈ V und alle s, t ∈ R
gefordert:
~a + ~b
(~a + ~b) + ~c
es existiert ein ~0 ∈ V mit
~a + ~0
zu jedem ~a ∈ V existiert ein −~a ∈ V mit
~a + (−~a)
t(~a + ~b)
~b + ~a
~a + (~b + ~c)
~a
~0
= t~a + t~b
(s + t)~a = s~a + t~a
s(t~a) = (st)~a
1 · ~a = ~a
=
=
=
=
Die Elemente eines Vektorraums werden Vektoren genannt.
Hinweise:
(a) Zur Verdeutlichung wird für die Multiplikation von reellen Zahlen mit Vektoren
zuweilen auch ein Punkt geschrieben: t · ~a = t~a.
(b) Statt mit dem umständlichen Pfeil werden Vektoren häufig auch durch Fettdruck
gekennzeichnet: also a ∈ V statt ~a ∈ V .
(c) Das neutrale Element bzgl. der Addition ~0 wird auch hier Nullvektor genannt.
(d) In die Definition wurden die grundlegenden Rechenregeln von Abschnitt 2.1 übernommen, die für die dort behandelten anschaulichen“ Vektoren der Ebene und
”
des Raumes gelten. Die Vorgehensweise ist typisch für die Mathematik. Regeln, die
bei bestimmten Beispielen festgestellt werden, werden in eine allgemeine Definition
übernommen. Sind diese Regeln für eine Menge und die dort definierten Rechenoperationen erfüllt, dann bekommt die Menge einen bestimmten Namen“ oder Titel“:
”
”
Vektorraum, Körper, Ring, Gruppe, Algebra.
Beispiele:
(a) Die Menge der in Abschnittt 2.1 behandelten anschaulichen“ Vektoren der Ebene
”
oder des Raumes ist ein Vektorraum.
(b) Wenn wir vereinbaren, dass wir Paare und Tripel von reellen Zahlen hier spaltenweise
aufschreiben, dann können wir Vektoren der Ebene in der in Abschnitt 2.2 behandelten Komponentenschreibweise als Elemente von R2 und Vektoren des Raumes
als Elemente von R3 ansehen. Mit den in Abschnittt 2.1 behandelten Regeln sind
also R2 und R3 Vektorräume.
(c) Eine Menge mit nur einem einzigen Element kann zum Vektorraum gemacht werden,
wenn man dieses Element als den Nullvektor ansieht. V = {~0} ist ein triviales
Beispiel für einen Vektorraum.
48
(d) Die Menge V = R der reellen Zahlen erfüllt alle Bedingungen der Definition (prüfen
Sie das zur Übung nach!). Auch dieses Beispiel wird von den Mathematikern als
trivial eingestuft.
(e) Wir nehmen als Menge V die Menge der Polynome höchstens 17. Grades, also
(
)
17
X
V := f (x) =
ak x k
k=0
Die Addition von zwei Vektoren f (x) =
17
P
ak xk und g(x) =
k=0
bk xk kann durch
k=0
17
X
f (x) + g(x) :=
17
P
(ak + bk )xk
k=0
definiert werden, entsprechend für t ∈ R
t · f (x) :=
17
X
t · ak xk
k=0
Überzeugen Sie sich, dass diese Menge mit den so definierten Rechenoperationen
tatsächlich allen Bedingungen der Definition eines Vektorraums erfüllt! Als Nullvektor dient das Nullpolynom (bei dem alle Koeffizienten Null sind).
(f) Die Vorgehensweise beim vorangehenden Beispiel kann man verallgemeinern und
als Menge V die Menge aller Polynome höchstens n. Grades nehmen, wobei n ∈ N
beliebig ist.
(g) Auch wenn man als Menge V die Menge aller Polynome nimmt (ohne Einschränkung
hinsichtlich des Grades) ist die entstehende Menge bezüglich der oben erklärten
Addition und Multiplikation mit reellen Zahlen ein Vektorraum.
(h) Wir nehmen ein beliebiges abgeschlossenes nichtleeres Intervall [a, b] ⊂ R und als
Menge V die Menge aller Funktionen mit Zielmenge R, deren Definitionsbereich das
Intervall [a, b] ist, also
V := {f | f : [a, b] → R, x 7→ f (x)}
Die Summe zweier Funktionen f und g wurde in Definition 2.3.3 des AnalysisSkriptes definiert (zur Erinnerung: f + g : [a, b] → R, x 7→ f (x) + g(x)). Analog
kann man die Multiplikation einer Funktion f ∈ V mit einer reellen Zahl t durch
tf : [a, b] → R,
x 7→ t · f (x)
definieren. Als Nullvektor dient die Funktion
0 : [a, b] → R,
x 7→ 0
Überzeugen Sie sich (als Übungsaufgabe), dass alle Bedingungen der Definition
erfüllt sind!
49
(i) Statt eines abgeschlossenen Intervalls kann man auch R als Definitionsbereich wählen,
also
V := {f | f : R → R, x 7→ f (x)}
Auch diese Menge ist mit der oben definierten Addition und Multiplikation ein
Vektorraum.
Dem wichtigsten Beispiel wird der ganze nächste Unterabschnitt gewidmet:
4.2
Der Rn
Definition 4.2.1 Rn für n ∈ N+ ist das n-fache kartesische Produkt von R mit sich
selbst, wobei wir hier die Zahlen spaltenweise anordnen. Die Elemente eines n-fachen
kartesischen Produkts werden zuweilen auch n-tupel“genannt. Rn ist also die Menge aller
”
n-tupel reeller Zahlen:
   


a
1






 a2  

   


n
a
R :=
 3  ak ∈ R, k = 1, 2, 3 . . . n

. 


  ..  






an
Satz 4.2.1 Mit der Addition und Multiplikation mit t ∈ R
 

 

b1
a1 + b 1
a1
 b2 
 a2 + b 2 
 a2 
 

 


 


~b = 
~a + ~b :=  a3 + b3  ,
~a =  a3  ,
 b3  ,
 .. 
 .. 
 .. 
.
 . 
.
an
bn
an + b n


ta1
 ta2 
 
 
t~a =  ta3 
 .. 
 . 
tan
ist Rn ein Vektorraum.
Hinweis: In Analogie zur Situation bei n = 2 und n = 3 nennen wir ak die k. Komponente
von ~a.
In der Einleitung dieses Abschnitts wurden die abgetasteten Werte eines Tonsignals als
wichtiges Anwendungsbeispiel erwähnt. Hierfür ist lediglich die Schreibweise ungewöhnlich,
dass wir uns die Abtastwerte als untereinandergeschriebene Komponenten eines Vektors
vorstellen.
Definition 4.2.2 Sei V ein Vektorraum. Eine Abbildung
(~a, ~b) 7→ ~a · ~b
V × V → R,
heißt Skalarprodukt, wenn sie für alle ~a, ~b, ~c ∈ V und alle t ∈ R die folgenden
Grundregeln erfüllt:
~a · ~b = ~b · ~a
(~a + ~b) · ~c = ~a · ~c + ~b · ~c
(t~a) · ~b = t · (~a · ~b)
~a · ~a ≥ 0,
~a · ~a = 0 ⇐⇒ ~a = ~0
50
(36)
(37)
(38)
(39)
Wenn in V ein Skalarprodukt existiert, dann wird der Betrag oder die Länge eines
Vektors ~a ∈ V durch
√
|~a| := ~a · ~a
definiert. Die Länge eines Vektors ~a wird auch Norm von ~a genannt.
Zwei Vektoren ~a, ~b ∈ V heißen orthogonal, wenn ~a · ~b = 0.
Satz 4.2.2 Durch
 
 
a1
b1
 a2 
 b2 
 
 
 a3 
 
~
~a =   ,
b =  b3  ,
 .. 
 .. 
.
.
an
bn
~a · ~b := a1 b1 + a2 b2 + a3 b3 + · · · + an bn =
n
X
ak b k
k=1
ist in Rn ein Skalarprodukt definiert. Für n = 2 und n = 3 stimmt die dadurch definierte
Länge eines Vektors
v
u n
uX
|~a| = t
a2k
k=1
mit der elementaren geometrischen Länge überein.
Für unser Beispiel von Tonsignalen heißt dies, dass wir den Abstand zweier Tonsignale ~a
und ~b durch
v
u n
uX
~
|~a − b| = t (ak − bk )2
k=1
beschreiben. Wenn dieser Abstand klein ist, dann sehen wir ~a als eine gute Näherung für
~b an.
4.3
Lineare Abhängigkeit, lineare Unabhängigkeit
Zur Vorbereitung betrachten wir, was es geometrisch bedeutet, wenn ein lineares Gleichungssystem mit n Gleichungen und n Unbekannten singulär ist. Aufgrund von Satz 3.3.1
genügt es, zu untersuchen, ob das zugehörige homogene Gleichungssystem eine nichttriviale Lösung hat.
n = 1 Das System“ a11 x1 = 0 ist genau dann singulär, wenn a11 = 0.
”
n = 2 Schreiben wir das System vektoriell (nach dem zweiten geometrischen Aspekt“,
”
siehe Abschnitt 3.2), dann haben wir
a11
a
x1
+ x2 12 = ~0
a21
a22
Mit
a11
~u :=
,
a21
a12
~v :=
a22
erhält das System die Form
x1~u + x2~v = ~0
51
Es ist genau dann singulär, wenn ~u und ~v dieselbe Richtung haben, wenn also
~u = t~v oder ~v = s~u mit einem t ∈ R oder s ∈ R (dies folgt aus der Existenz einer
nichttrivialen Lösung mit x1 6= 0 oder x2 6= 0, dann kann man nach einem der beiden
Vektoren auflösen).
n = 3 Auch hier wählen wir die vektorielle Darstellung. Mit
 
 
 
a11
a12
a13
~u1 = a21  ,
~u2 = a22  ,
~u3 = a23 
a31
a32
a33
lautet das zugehörige homogene Gleichungssystem
x1~u1 + x2~u2 + x3~u3 = ~0
Die Existenz einer nichttrivialen Lösung bedeutet, es gibt eine Lösung mit x1 6= 0
oder x2 6= 0 oder x3 6= 0 (oder im mathematischen Sinn!). Wenn nun x1 6= 0, dann
kann man diese Vektorgleichung nach ~u1 auflösen
x1~u1 = −x2~u2 − x3~u3 ,
~u1 = −
x3
x2
~u2 − ~u3
x1
x1
also liegt dann ~u1 in der von ~u2 und ~u3 aufgespannten Ebene. Eine analoge Überlegung
kann man in den beiden andern Fällen (x2 6= 0, x3 6= 0) anstellen. Wir haben als
Ergebnis, dass das System genau dann singulär ist, wenn (mindestens) ein Spaltenvektor in der von den beiden andern Spaltenvektoren aufgespannten Ebene liegt.
Definition 4.3.1 Sei V ein Vektorraum und n ∈ N+ .
(a) Eine Linearkombination ist eine Summe der Form
t1~u1 + t2~u2 + t3~u3 + · · · + tn~un
wobei n ∈ N+ , t1 t2 t3 . . . tn ∈ R und ~u1 , ~u2 , ~u3 . . . ~un ∈ V .
(b) Die Vektoren ~u1 , ~u2 , ~u3 . . . ~un ∈ V heißen linear unabhängig, wenn aus
t1~u1 + t2~u2 + t3~u3 + · · · + tn~un = ~0
folgt, dass
t1 = t2 = t3 = · · · = tn = 0
(c) Die Vektoren ~u1 , ~u2 , ~u3 . . . ~un ∈ V heißen linear abhängig, wenn sie nicht linear
unabhängig sind, also wenn eine Linearkombination
t1~u1 + t2~u2 + t3~u3 + · · · + tn~un = ~0
existiert, bei der mindestens ein Skalar tk 6= 0 erfüllt (1 ≤ k ≤ n).
52
Hinweise:
(a) Wenn die Vektoren ~u1 , ~u2 , ~u3 . . . ~un linear abhängig sind, dann kann die laut Definition existierende Linearkombination mit tk 6= 0 nach dem Vektor ~uk aufgelöst
werden, also
n
n
X
X
tl
~ul
tk ~uk = −
tl ~ul ,
~uk = −
tk
l=1
l=1
l6=k
l6=k
also ist dann stets ein Vektor ~uk als Linearkombination der übrigen Vektoren darstellbar.
(b) Beachten Sie, dass im Fall V = Rm in der Definition nicht verlangt ist, dass die Zahl
der Komponenten m und die Zahl der Vektoren n übereinstimmt. Der Fall V = Rm
ist in Satz 4.3.1 behandelt.
Sonderfälle und Beispiele:
(a) Ein einzelner Vektor ~u ist genau dann linear unabhängig, wenn ~u 6= ~0. Ein einzelner
Vektor ~u ist genau dann linear abhängig, wenn ~u = ~0, denn ~u = ~0 =⇒ 1 · ~u = ~0,
t~u = ~0 mit t 6= 0 =⇒ 1t · t~u = ~u = ~0
(b) Wenn zwei Vektoren ~u, ~v linear abhängig sind, dann existiert eine Linearkombination
t1~u + t2~v = ~0 mit t1 6= 0 oder t2 6= 0, also
t2
~u = − ~v
t1
oder
t1
~v = − ~u
t2
(c) Wenn drei Vektoren ~u, ~v , w
~ linear abhängig sind, dann existiert eine Linearkombination
t1~u + t2~v + t3 w
~ = ~0
mit t1 6= 0 oder t2 6= 0 oder t3 6= 0.
t3
t2
t1 6= 0 =⇒ ~u = − ~v − w
~
t1
t1
In den anderen Fällen läßt sich ebenfalls einer der Vektoren als Linearkombination
der beiden andern schreiben.
(d) Wenn einer der beteiligten Vektoren der Nullvektor ist, wenn also ~uk = ~0 für ein k
mit 1 ≤ k ≤ n, dann sind die Vektoren ~u1 , ~u2 , ~u3 . . . ~un linear abhängig, denn mit
tk = 1 hat man die Linearkombination
0~u1 + 0~u2 + · · · + 1 · ~uk + · · · + 0~un = ~0
Der für die Praxis ganz besonders wichtige Fall V = Rn wird im folgenden Satz behandelt:
Satz 4.3.1 Sei V = Rn und gegeben seien m Vektoren ~u1 , ~u2 , ~u3 . . . ~um ∈ Rn .
53
(a) Wenn m ≤ n (die Zahl der Vektoren also nicht größer ist als die der Komponenten),
dann sind die Vektoren ~u1 , ~u2 , ~u3 . . . ~um genau dann linear unabhängig, wenn das
homogene lineare Gleichungssystem
x1~u1 + x2~u2 + x3~u3 + · · · + xm~um = ~0
nur die triviale Lösung hat.
(b) Wenn m > n (die Zahl der Vektoren also größer ist als die der Komponenten), dann
sind die Vektoren ~u1 , ~u2 , ~u3 . . . ~um stets linear abhängig.
Hinweise:
(a) Im Fall a) ist die Aussage des Satzes eine reine Wiederholung der Definition (mit
dem Unterschied, dass die Skalare hier xk genannt werden — im Gegensatz zu tk in
der Definition. Er ermöglicht aber eine einfache praktische Entscheidung, ob m gegebene Vektoren linear unabhängig sind. Man hat nur aus den gegebenen Vektoren ein
lineares Gleichungssystem aufzubauen“, sie also spaltenweise zu einem Gleichungs”
system zusammenzusetzen. Die Koeffizienten (in der Notation des Abschnitts 3.1.4)
erhält man durch


 
 
 
a1m
a1k
a12
a11
 a2m 
 a2k 
 a22 
 a21 


 
 
 
 a3m 
 a3k 
 a32 
 a31 
=
~
u
,
·
·
·
=
~
u
,
·
·
·
=
~
u
,

 = ~um
 
 
 
k
2
1
 .. 
 .. 
 .. 
 .. 
 . 
 . 
 . 
 . 
anm
ank
an2
an1
Das Gauß-Verfahren liefert dann die Lösungsmenge (wobei hier nur von Interesse
ist, ob sie ein Element enthält, das nicht der Nullvektor ist). Das Gleichungssystem
ist überbestimmt, falls m < n (also mehr Komponenten als Vektoren vorhanden
sind).
(b) Konkrete Beispiele: Es soll geprüft werden, ob die folgenden Vektoren linear unabhängig sind:
1. Beispiel:


2
4

~u1 = 
−2 ,
8


1
 −6 

~u2 = 
 7 ,
−12
 
1
0

~u3 = 
2
1
Das homogene lineare Gleichungssystem
x1~u1 + x2~u2 + x3~u3 = ~0
lautet hier
2x1
+x2 +x3
4x1 −6x2
−2x1 +7x2 +2x3
8x1 −12x2 +x3
54
=
=
=
=
0
0
0
0
Umwandlung in Dreiecksform mit Hilfe des Gauß-Verfahrens liefert
2x1
+x2 +x3
−8x2 −2x3
x3
0x3
=
=
=
=
0
0
0
0
Die einzige Lösung ist x1 = x2 = x3 = 0, also sind die drei Vektoren ~u1 , ~u2 , ~u3
linear unabhängig.
2. Beispiel:


2
4

~u1 = 
−2 ,
8


1
 −6 

~u2 = 
 7 ,
−12


3
−2

~u3 = 
5
−4
Das homogene lineare Gleichungssystem
x1~u1 + x2~u2 + x3~u3 = ~0
lautet hier
2x1
+x2
4x1 −6x2
−2x1 +7x2
8x1 −12x2
+3x3
−2x3
+5x3
−4x3
=
=
=
=
0
0
0
0
Umwandlung in Dreiecksform mit Hilfe des Gauß-Verfahrens liefert
2x1
+x2 +3x3
−8x2 −8x3
0x3
0x3
=
=
=
=
0
0
0
0
mit den Lösungen x3 = t, x2 = −t, x1 = −t mit beliebigem t ∈ R. Die Wahl
t = −1 liefert ~u1 + ~u2 − ~u3 = ~0, was man auch direkt hätte sehen können. Also
sind die drei Vektoren ~u1 , ~u2 , ~u3 linear abhängig.
(c) Im Sonderfall n = m erhalten wir aus Satz 4.3.1 die Regel:
Merke: Ein lineares Gleichungssystem mit n Gleichungen und n Unbekannten
ist genau dann singulär, wenn die aus den Koeffizienten spaltenweise gebildeten
Vektoren in Rn linear abhängig sind; es ist genau dann nichtsingulär, wenn diese
Vektoren linear unabhängig sind.
(d) Beweis von Fall b) des Satzes 4.3.1: Gesucht ist eine Linearkombination
x1~u1 + x2~u2 + x3~u3 + · · · + xn~un + xn+1~un+1 + · · · + xm~um = ~0
mit mindestens einem xk 6= 0. Schreibt man diese Gleichung komponentenweise, so
erhält man ein lineares Gleichungssystem, das laut Voraussetzung (m > n) unterbestimmt ist. Das Gauß-Verfahren liefert hierfür ein Gleichungssystem in Trapezform
55
(siehe Abschnitt 3.4.1)
a11 x1 +a12 x2 +a13 x3 + · · ·
a22 x2 +a23 x3 + · · ·
a33 x3 + · · ·
...
+a1n xn +a1,n+1 xn+1 + · · ·
+a2n xn +a2,n+1 xn+1 + · · ·
+a3n xn +a3,n+1 xn+1 + · · ·
..
..
..
.
.
.
ann xn +an,n+1 xn+1 + · · ·
+a1m xm = 0
+a2m xm = 0
+a3m xm = 0
..
..
.
.
+anm xm = 0
Wenn ann 6= 0, dann ist xn+1 = t1 , xn+2 = t2 , . . . xm = tm−n frei wählbar, und die
übrigen Unbekannten x1 , x2 , x3 , . . . xn können durch Rückwärtsauflösen durch die
Parameter t1 , t2 , . . . tm−n ∈ R ausgedrückt werden. Mit beispielsweise t1 = 1 erhält
man dann die für die lineare Abhängigkeit geforderte nichttriviale Linearkombination. Wenn ann = 0, dann kann mindestens xn = t ∈ R beliebig gewählt werden, und
man erhält durch die Wahl t = 1 eine gewünschte nichttriviale Linearkombination.
Die übrigen Unbekannten können durch Rückwärtsauflösen durch t und eventuell
weitere frei wählbare Zahlen ausgedrückt werden. Sollte eine der Gleichungen die
Form bxn = 0 mit b 6= 0 haben, dann kann mindestens eine andere Unbekannte einen beliebigen Wert t, also beispielsweise t = 1 annehmen. Denn jede weiter
oben stehende Zeile des Gleichungssystems enthält eine Unbekannte mehr als die
darunterliegende.
(e) In Rn existieren n linear unabhängige Vektoren, nämlich
 
 
 
1
0
0
0
1
0
 
 
 
0
1
0
 
 
 
~e1 := 0 ,
~e2 := 0 ,
~e3 := 0 , · · ·
 
 
 
 .. 
 .. 
 .. 
.
.
.
0
0
0
 
0
0
 
0
 
~en := 0
 
 .. 
.
1
(40)
Diese Vektoren ~ek sind überaus nützlich, nur die k. Komponente ist 1, alle übrigen
Komponenten sind 0. (Überzeugen Sie sich zur Übung mit Hilfe von Satz 4.3.1, dass
diese Vektoren tatsächlich linear unabhängig sind, schreiben Sie das entsprechende
Gleichungssystem explizit auf!)
(f) Im Spezialfall m = n + 1 > n erhält man aus Satz 4.3.1 die Regel
Merke: n + 1 Vektoren ~u1 , ~u2 , ~u3 . . . ~un , ~un+1 ∈ Rn sind stets linear abhängig.
4.4
Basis, Dimension
Definition 4.4.1 Sei V ein Vektorraum. Die Vektoren
{~u1 , ~u2 , ~u3 , . . . ~un }
mit ~uk ∈ V
für k = 1, 2, 3 . . . n
heißen Basis von V , wenn sie linear unabhängig sind und wenn jeder Vektor ~x ∈ V
darstellbar ist als Linearkombination
~x = t1~u1 + t2~u2 + t3~u3 + · · · + tn~un =
n
X
k=1
mit tk ∈ R für k = 1, 2, . . . n.
56
tk ~uk
Hinweis: Wenn {~u1 , ~u2 , ~u3 , . . . ~un } eine Basis in V ist und wenn ~x =
n
P
tk ~uk , dann sind
k=1
die Koeffizienten t1 , t2 , t3 , . . . tn eindeutig bestimmt, denn
~x =
n
X
tk ~uk =
k=1
n
X
k=1
sk ~uk =⇒
n
X
(tk − sk )~uk = ~0 =⇒ tk − sk = 0 für alle k = 1, 2 . . . n
k=1
Beispiele:
(a) In V = Rn haben wir die Basis {~e1 , ~e2 , ~e3 , . . . ~en }, wobei wir die Vektoren ~ek in
(40) definiert haben. Dass diese Vektoren linear unabhängig sind, wurde schon im
vorigen Unterabschnitt festgestellt. Jeder Vektor ~x ∈ Rn hat die Darstellung
 
x1
 x2 
n
  X
 x3 
~x =   =
xk~ek
 .. 
k=1
.
xn
Dies ist eine unmittelbare Folge der Definition der Addition in Rn . Im Spezialfall
n = 2 haben wir
1
0
x1
1
0
~e1 =
,
~e2 =
,
~x =
= x1
+ x2
= x1~e1 + x2~e2
0
1
x2
0
1
(b) In R2 haben wir auch die Basis {~u1 , ~u2 } mit
1
−1
~u1 =
,
~u2 =
1
1
Diese beiden Vektoren sind tatsächlich linear unabhängig (Übungsaufgabe!), und
der Versuch
x1
1
−1
t1 − t2
~x =
= t1
+ t2
=
x2
1
1
t1 + t2
führt auf das Gleichungssystem
t1 − t2 = x1 ,
t1 + t2 = x2
mit der Lösung t1 = 21 (x1 +x2 ), t2 = 12 (x2 −x1 ). Man kann sich dies auch anschaulich
an Abb. 22 klarmachen.
(c) Im vorigen Unterabschnitt wurde als Beispiel für einen Vektorraum die Menge aller
Polynome höchstens n. Grades behandelt:
V = {f : R → R | f (x) = a0 + a1 x + a2 x2 + a3 x3 + · · · + an xn }
Hier ist die Menge der speziellen Polynome
{1, x, x2 , x3 , . . . xn }
57
Abbildung 22: Auch ~u1 und ~u2 bilden eine Basis in R2 .
eine Basis. Diese speziellen Polynome fk (x) = xk sind tatsächlich linear unabhängig,
denn aus
f (x) = t0 + t1 x + t2 x2 + t3 x3 + · · · tn xn = 0 für alle x ∈ R
folgt t0 = t1 = t2 = t3 = · · · = tn = 0 aufgrund von Satz 2.3.5 des Analysis-Skripts.
Und die Menge der Polynome höchstens n. Grades ist gerade als die Menge der
Linearkombinationen der Funktionen fk (x) = xk definiert.
Abbildung 23: Abtastwerte eines Tonsignal, Vokal u“ (Ausschnitt)
”
Anwendungsbeispiel:
Betrachten wir als Anwendung den in Abb. 23 gezeigten Ausschnitt eines Tonsignals.
Er ist durch 152 Abtastwerte gegeben, also durch einen Vektor y ∈ Rn mit n = 152.
Bezüglich der Standardbasis in Rn hat er also die Darstellung
y = y1 e1 + y2 e2 + y3 e3 + · · · + yn en
mit n = 152 Summanden. Für die Darstellung derartiger Tonsignale gibt es jedoch eine
weitaus geschicktere Basis, nämlich die Vektoren c, uk (für k = 1, 2, . . . n2 ) und vk ∈ Rn
58
(für k = 1, 2, . . . n2 − 1), wobei die l. Komponente dieser Vektoren (l = 1, 2, . . . n) jeweils
gegeben ist durch c(l) = 1,
n
2π
n
2π
, k = 1, 2, . . . ,
vk (l) = sin k · l ·
, k = 1, 2, . . . − 1
uk (l) = cos k · l ·
n
2
n
2
Beachten Sie, dass wir damit wieder n Basisvektoren haben (die Konstruktion ist für
ungerades n leicht abzuändern). Man müsste (und kann) beweisen, dass es sich dabei
tatsächlich um eine neue Basis im Rn handelt. Die Komponenten der neuen Basisvektoren
sind gerade die Abtastwerte der Funktionen
2π
2π
fk (t) = cos k · t ·
und
gk (t) = sin k · t ·
n
n
für ganzzahlige Argumente. Für n = 6 erhalten wir damit die folgenden neuen Basisvektoren in R6 :
 √3 
 √3 
 
 1 
 1 
 
1
−1
2
2
2
2
 √3 
 √3 
1
− 1 
− 1 
1
−




 
 2
 2
 
 2
 2 
1
 −1 
 1 
−1
 0 
 0√ 

 
 
 
c=
, v2 =  √3 
1 , u1 = − 1  , u2 = − 1  , u3 =  1  , v1 = 
3

 2 

 
 12 
 12 
 
 √ 
− √2 
1
 
 
−1
− 3 
− 3 
2
2
2
2
1
1
1
1
0
0
Für n = 152 erhalten wir auf diese Weise 152 neue Basisvektoren. Unser Tonsignal lässt
sich mit diesen neuen Basisvektoren als Linearkombination
y = c0 c + a1 u1 + a2 u2 + a3 u3 + · · · + a76 u76 + b1 v1 + b2 v2 + b3 v3 + · · · + b75 v75
(41)
darstellen. Es wird Gegenstand der Lehrveranstaltungen des 3. Semesters sein, wie man
die zugehörigen Koeffizienten c0 , a1 , a2 . . . a76 und b1 , b2 . . . b75 berechnet. In der Praxis
wird man hierzu einen Computer benutzen. Die Koeffizienten ak und bk für das hier
benutzte Tonsignal sind in Abb. 24 grafisch dargestellt.
Wie man dieser Darstellung entnehmen kann, sind die Koeffizienten ak und bk für
k > 8 sehr klein. Wir erhalten als gute Näherung für unser Tonsignal
y ≈ ya = 3c + 18u1 − 12u2 − 12u3 + u4 + 2u5 − u6 − u8
+58v1 + 23v2 − 7v3 + 6v4 − 2v5 + v6
(42)
Dabei wurden die Koeffizienten auf ganze Zahlen gerundet. Die Näherung ya ist in Abb. 25
schwarz, die ursprünglichen Abtastwerte sind zum Vergleich grau dargestellt.
Beachten Sie, dass wir in der Näherung (42) für die neuen Basisvektoren nur 14 Koeffizienten benötigen. Mit den ursprünglichen Basisvektoren ek brauchen wir dagegen 152
Koeffizienten. Durch die Wahl einer neuen, geschickten Basis erreichen wir also eine erhebliche Datenkompression, wenn wir akzeptieren, dass sich die Werte gegenüber den
ursprünglichen ein wenig ändern.
Definition 4.4.2 Sei V ein Vektorraum. Die maximale Anzahl linear unabhängiger Vektoren in V heißt die Dimension von V , abgekürzt dim V . Wenn es Teilmengen beliebig
großer Anzahl von linear unabhängigen Vektoren ~u1 , ~u2 , ~u3 , . . . in V gibt, dann schreibt
man dim V = ∞ und nennt V unendlichdimensional.
59
Abbildung 24: Koeffizienten des Tonsignals in der Summe (41)
Abbildung 25: Näherung (schwarz) der Abtastwerte des Tonsignals durch (42), zum Vergleich die ursprünglichen Werte (grau)
Beispiele:
(a) V = Rn . Nach Satz 4.3.1 und dem Hinweis zu den Vektoren ~ek (siehe (40)) gilt
dim Rn = n.
(b) Sei V die Menge aller Polynome. Auch Sie ist ein Vektorraum (siehe Beispiel g)
nach Definition 4.1.1). Die Vektoren 1, x, x2 , x3 , . . . xn sind für alle n ∈ N linear unabhängig (aufgrund von Satz 2.3.5 des Analysis-Skripts), also gibt es keine
maximale Anzahl linear unabhängiger Vektoren.
Satz 4.4.1 Wenn dim V = n und die Vektoren ~u1 , ~u2 , ~u3 , . . . ~un in V linear unabhängig
sind, dann ist ~u1 , ~u2 , ~u3 , . . . ~un eine Basis.
Beweis: Sei ~x ∈ V beliebig. Wenn dim V = n, dann sind n + 1 Vektoren stets linear
abhängig, also sind die Vektoren ~u1 , ~u2 , ~u3 , . . . ~un , ~x linear abhängig. Also existiert eine
60
Linearkombination
t1~u1 + t2~u2 + t3~u3 + · · · tn~un + tn+1~x = ~0
bei der mindestens ein tk 6= 0. Nun ist tn+1 = 0 nicht möglich, denn wenn tn+1 = 0, dann
kann man den letzten Summanden weglassen und man hat
t1~u1 + t2~u2 + t3~u3 + · · · tn~un = ~0
woraus wegen der linearen Unabhängigkeit der Vektoren ~u1 , ~u2 , ~u3 , . . . ~un sofort folgt,
dass t1 = t2 = t3 = · · · tn = 0, und dann wären alle tk = 0. Also muß tn+1 6= 0 gelten, und
man hat
t2
t3
tn
t1
~u1 −
~u2 −
~u3 − · · · −
~un
~x = −
tn+1
tn+1
tn+1
tn+1
Also ist ~x als Linearkombination der Vektoren ~uk darstellbar, und damit ist ~u1 , ~u2 , . . . ~un
eine Basis.
Satz 4.4.2 Seien ~u1 , ~u2 , ~u3 , . . . ~un und ~v1 , ~v2 , ~v3 , . . . ~vm Basen (Mehrzahl von Basis) in
einem Vektorraum V . Dann stimmt die Zahl der Basisvektoren überein und diese stimmt
auch mit der Dimension von V überein, also
n = m = dim V
(ohne Beweis)
Definition 4.4.3 Sei V ein Vektorraum. Eine Teilmenge U ⊂ V heißt Unterraum von
V , wenn U ein Vektorraum bezüglich der Addition und Multiplikation mit Skalaren ist.
Hierzu ist nur nachzuprüfen, ob
~u, ~v ∈ U, t ∈ R
~u + ~v ∈ U
=⇒
und
t~u ∈ U
denn die Rechenregeln gelten für Vektoren in U , weil U ⊂ V und V ein Vektorraum ist.
Hinweis: Wenn U ein Unterraum ist, dann muß insbesondere auch ~0 ∈ U erfüllt sein.
Außerdem gilt dim U ≤ dim V .
Beispiele:
(a) V = R3 , U = {~u ∈ R3 | u3 = 0} (Übungsaufgabe!) Welche geometrische Interpretation hat U ?
(b) V = R3 , ~v ∈ R3 sei gegeben, ~v 6= 0.
U = {~u ∈ R3 | ~v · ~u = 0}
Prüfen Sie nach, dass U ein Unterraum von R3 ist! Welche geometrische Interpretation hat U ?
(c) V sei der Vektorraum aller Polynome, U der Vektorraum aller Polynome höchstens
17. Grades. Es wurde schon früher überprüft, dass U ein Vektorraum ist. Also ist
U als Teilmenge von V tatsächlich ein Unterraum.
(d) V sei der Vektorraum aller Funktionen f : R → R, x 7→ f (x). Nun sei U der Vektorraum aller Polynome. U ⊂ V und U ist ein Vektorraum, also ist U ein Unterraum
von V .
61
5
Matrizen
5.1
Matrix als Koeffizientenschema
Definition 5.1.1 Eine (m × n)-Matrix
komplexen) Zahlen nach dem Schema

a11 a12
 a21 a22

 a31 a32

A = a
 41 a42
 ..
..
 .
.
ist eine rechteckige Anordnung von reellen (oder
a13
a23
a33
a43
..
.
a14
a24
a34
a44
..
.
···
···
···
···
...
am1 am2 am3 am4 · · ·

a1n
a2n 

a3n 

a4n 

.. 
. 
amn
mit m Zeilen und n Spalten. Die einzelnen Zahlen aik heißen Matrixelemente. Dabei
bezeichnet der erste Index, also hier i, die Zeilennummer, der zweite Index, also hier k,
die Spaltennummer. Die Mehrzahl von Matrix“ ist Matrizen“. Der k. Spaltenvektor von
”
”
A (1 ≤ k ≤ n) ist der Vektor


a1k
 a2k 


 a3k 


 a4k 


 .. 
 . 
amk
Dies ist ein Vektor in Rm .
Wo kommen Matrizen vor, wo werden sie benötigt?
• Beschreibung linearer Gleichungssysteme
• lineare Abbildungen (z.B. Drehungen)
• Beschreibung von Systemen von Differentialgleichungen (beispielsweise bei Mehrfachregelungen)
• Beschreibung von Netzwerken
• Beschreibung digitaler Bilder
• Atomphysik
• numerische Näherungsverfahren (z.B. FEM)
Zahlenbeispiel: (eine (3 × 4)-Matrix)


3
1 −4 5
2
3 
A =  −1 0
5 −2 4 −1
Weiteres Beispiel: Das digitale Bild mit 16 × 16 Pixeln
62
wird durch die Matrix




























































160
130
117
108
114
104
104
133
177
197
204
197
190
198
213
205
167
118
110
114
114
104
112
163
190
217
243
246
230
223
242
234
194
138
118
112
110
104
112
134
160
177
217
251
255
238
238
247
177
142
114
114
117
117
100
91
104
104
142
201
238
255
246
251
137
121
110
122
118
102
98
110
140
140
126
134
177
231
254
255
142
122
112
106
110
110
117
137
177
208
198
126
122
181
239
255
142
125
112
102
110
102
106
118
148
189
204
187
133
133
204
255
133
112
106
110
96
98
100
91
92
142
179
198
167
118
171
234
133
117
106
106
94
98
91
88
88
94
151
181
181
117
147
231
133
117
106
102
96
102
98
88
88
88
140
190
173
125
160
246
126
108
106
102
102
96
137
140
98
117
167
185
160
129
187
255
112
112
102
102
100
100
147
197
167
209
217
156
133
159
250
255
98
110
104
96
94
112
134
151
167
201
185
125
125
215
255
255
102
110
125
104
147
137
173
156
110
129
117
126
209
255
255
255
118
114
108
112
138
164
242
223
118
114
148
231
255
255
255
255
142
110
114
121
177
254
255
255
255
255
255
255
255
255
255
255




























































beschrieben. Die Zahlenwerte entsprechen den Grautönen der einzelnen Pixel (0 schwarz,
255 weiß).
5.2
Lineare Gleichungssysteme und Matrizen
Bisher haben wir ein lineares Gleichungssystem mit m Gleichungen (Zeilen) und n Unbekannten umständlich geschrieben als
a11 x1
a21 x1
a31 x1
a41 x1
..
.
+a12 x2
+a22 x2
+a32 x2
+a42 x2
..
.
+a13 x3
+a23 x3
+a33 x3
+a43 x3
..
.
+a14 x4
+a24 x4
+a34 x4
+a44 x4
..
.
+···
+···
+···
+···
...
am1 x1 +am2 x2 +am3 x3 +am4 x4 + · · ·
+a1n xn
+a2n xn
+a3n xn
+a4n xn
..
.
=
=
=
=
b1
b2
b3
b4
..
.
+amn xn = bm
Wir wollen die auftretenden Koeffizienten aik zu einer Matrix A zusammenfasssen. Die
Unbekannten x1 , x2 , . . . xn schreiben wir als Vektor ~x und analog die Zahlen auf der
rechten Seite b1 , b2 , . . . bn als Vektor ~b. Das Produkt A~x wird nun gerade so definiert, dass
wir das Gleichungssystem in der Kurzschreibweise
A~x = ~b
schreiben können.
63
Definition 5.2.1 Für Vektoren ~x ∈ Rn (also mit n Komponenten) und (m×n)-Matrizen
A (also mit n Spalten) wird der Vektor A~x ∈ Rm definiert durch


  n
P
 a11 x1 + a12 x2 + a13 x3 + a14 x4 + · · · + a1n xn
  k=1 a1k xk 


  P


  n
 a21 x1 + a22 x2 + a23 x3 + a24 x4 + · · · + a2n xn
 
a x 

  k=1 2k k 


  P


  n
a3k xk 
 a31 x1 + a32 x2 + a33 x3 + a34 x4 + · · · + a3n xn
 

 =  k=1
A~x := 


  P
 a x + a x + a x + a x + ··· + a x
  n a x 

 
4k k 
41 1
42 2
43 3
44 4
4n n


  k=1


 
..
..




.


  n .


  P
amk xk
am1 x1 + am2 x2 + am3 x3 + am4 x4 + · · · + amn xn
k=1
Hinweis: Beachten Sie, dass das Schema zur Berechnung der k. Komponente von A~x
gedanklich dadurch zustande kommt, dass man den Spaltenvektor ~x um π2 gegen den
Uhrzeigersinn dreht und über die k. Zeile der Matrix A schiebt. Dies ist in Abb. 26
verdeutlicht.
Abbildung 26: Zur Berechnung der k. Komponente von A~x
Zahlenbeispiel:


 
 

2 3 −5
−2
2 · (−2) + 3 · 3 + (−5) · 1
0
 4 8 3   3  =  4 · (−2) + 8 · 3 + 3 · 1  =  19 
−6 1 4
1
−6 · (−2) + 1 · 3 + 4 · 1
19
Für dieses Produkt gelten folgende Rechenregeln:
Satz 5.2.1 Sei A eine (m × n)-Matrix. Dann gilt für alle Vektoren ~x, ~y ∈ Rn und alle
t∈R
A(~x + ~y ) = A~x + A~y
A(t~x) = t · (A~x)
(43)
(44)
Der Beweis kann durch Nachrechnen unter Benutzung der Definition 5.2.1 erfolgen.
Satz 5.2.2 Sei A eine (m × n)-Matrix. Dann ist die Lösungsmenge des homogenen linearen Gleichungssystems
A~x = ~0
ein Unterraum von Rn .
64
Beweis: Wir haben nur nachzuweisen, dass die Summe zweier Lösungsvektoren wieder
ein Lösungsvektor ist und das skalare Vielfache eines Lösungsvektors ebenfalls wieder ein
Lösungsvektor ist (siehe Def. 4.4.3). Aufgrund der Rechenregeln von Satz 5.2.1 haben wir
A~x = ~0 und A~y = ~0 =⇒ A(~x + ~y ) = A~x + A~y = ~0 + ~0 = ~0
sowie für beliebiges t ∈ R
A~x = ~0 =⇒ A(t~x) = t · (A~x) = t · ~0 = ~0
Satz 5.2.3 Sei A eine (m×n)-Matrix und ~b ∈ Rn und sei ~x eine Lösung des inhomogenen
linearen Gleichungssystems A~x = ~b und sei ~y eine Lösung des zugehörigen homogenen
~ y = ~0.
Systems A~
Dann ist auch ~x + ~y eine Lösung des inhomogenen linearen Gleichungssystems, d.h.
A(~x + ~y ) = ~b
Beweis: Nachrechnen mit Hilfe der Rechenregeln von Satz 5.2.1 ergibt
A(~x + ~y ) = A~x + A~y = ~b + ~0 = ~b
Spezielles Zahlenbeispiel:


 

1 0 0
x1
x1
 0 1 0   x2  =  x2 
0 0 1
x3
x3
für alle ~x ∈ R3 . Dies gibt Anlaß zur Definition
Definition 5.2.2 Die (n × n)-Matrix




E=


deren Matrixelemente
1
0
0
..
.
0
1
0
..
.
0
0
1
..
.
···
···
···
..
.
0 0 0 ···
0
0
0






0 
1
(
1 falls i = k
aik =
0 falls i 6= k
erfüllen, heißt (n × n)-Einheitsmatrix. Sie wird hier mit E bezeichnet.
Hinweise:
(a) Wenn E die (n × n)-Einheitsmatrix ist, dann gilt
E~x = ~x
für alle ~x ∈ Rn
Dies folgt durch Nachrechnen unmittelbar aus den Definitionen.
(b) Für k = 1, 2, 3 . . . n ist der k. Spaltenvektor von E der k. Basisvektor ~ek in Rn , der
in (40) definiert wurde
(c) In Scilab, MATLAB und Octave können Sie eine (n × n)-Einheitsmatrix durch
die Anweisung E=eye(n,n) erzeugen (der Variablen n muß vorher ein Zahlenwert
zugewiesen worden sein).
65
Wichtige allgemeine Eigenschaften des Produkts A~x:
A sei eine (m × n)-Matrix und ~x ∈ Rn
(a) Darstellung von A~x mit Hilfe der Spaltenvektoren von A:


a11 x1 + a12 x2 + a13 x3 + · · · + a1n xn
 a21 x1 + a22 x2 + a23 x3 + · · · + a2n xn 




A~x =  a31 x1 + a32 x2 + a33 x3 + · · · + a3n xn 


..


.
am1 x1 + am2 x2 + am3 x3 + · · · + amn xn








a11
a12
a13
a1n
 a21 
 a22 
 a23 
 a2n 








 a31 
 a32 
 a33 


= x1 
 +x2 
 +x3 
 + · · · + xn  a3n  (45)
 .. 
 .. 
 .. 
 .. 
 . 
 . 
 . 
 . 
am1
am2
am3
amn
| {z }
| {z }
| {z }
| {z }
1. Spalten2. Spalten3. Spaltenn. Spaltenvektor von A vektor von A vektor von A
vektor von A
(b) Mit den in (40) definierten Basisvektoren ~ek in Rn (k = 1, 2 . . . n) erhält man








a11
a12
a1k
a1n
 a21 
 a22 
 a2k 
 a2n 








 a31 
 a32 
 a3k 
 a3n 
A~e1 = 
 A~e2 = 
 A~ek = 
 A~en = 

 .. 
 .. 
 .. 
 .. 
 . 
 . 
 . 
 . 
am1
am2
amk
amn
| {z }
| {z }
| {z }
| {z }
1. Spalten2. Spaltenk. Spaltenn. Spaltenvektor von A
vektor von A
vektor von A
vektor von A
5.3
Lineare Abbildungen und Matrizen
Abbildungen und Funktionen liegt dieselbe mathematische Idee zugrunde. In der Analysis
ist es üblich, den Namen Funktion“ zu benutzen. In der linearen Algebra wird der Name
”
Abbildung“ bevorzugt.
”
Definition 5.3.1 Seien A und B Mengen. Unter einer Abbildung T mit der Definitionsmenge A und der Zielmenge B versteht man eine eindeutige Zuordnungsvorschrift,
die jedem Argument“ a ∈ A das Bild T (a) ∈ B zuordnet. Man schreibt hierfür symbo”
lisch:
T : A → B, a 7→ T (a)
(46)
Hinweis: Zu einer Abbildung gehört also dreierlei: eine Definitionsmenge, eine Zielmenge
und eine eindeutig bestimmte Zuordnungsvorschrift. Man sieht also Abbildungen, die
sich nur in der Definitionsmenge oder in der Zielmenge, aber nicht in der Zuordnungsvorschrift unterscheiden, als verschieden an. Dies mag übertrieben pingelig erscheinen,
und mancher Anfänger wird sich wundern, warum man so eine merkwürdige Sicht- oder
Sprechweise vereinbart. Es wird sich aber später zeigen, dass bestimmte Eigenschaften
einer Abbildung, z.B. injektiv“ oder surjektiv“ zu sein, entscheidend von Definitions”
”
oder Zielmenge abhängen.
66
Beispiele:
x1
cos(ϕ) · x1 − sin(ϕ) · x2
(a) T : R → R ,
7→
x2
sin(ϕ) · x1 + cos(ϕ) · x2
Diese Abbildung ordnet jedem Vektor der Ebene den um den Winkel ϕ um den Ursprung gedrehten Vektor zu (siehe das Ergebnis der entsprechenden Übungsaufgabe
der Analysis-Übungen; dieses Ergebnis war dort mit Hilfe der Additionstheoreme
sowie der geometrischen Eigenschaften von sin und cos gewonnen worden). Diese
Abbildung kann mit Hilfe einer Matrix beschrieben werden: T (~x) = D~x für alle
~x ∈ R2 mit
cos ϕ − sin ϕ
D=
sin ϕ cos ϕ
2
2
(b) T : R3 → R3 , ~x 7→ T (~x) = −~x. Dies ist geometrisch eine Spiegelung am Ursprung.
 
x1
x1
3
2  
(c) P : R → R , x2 7→
x2
x3
Dies ist geometrisch eine Projektion des dreidimensionalen Raumes auf die Ebene.
Sie kann mit einer Matrix beschrieben werden, P (~x) = A~x für alle ~x ∈ R3 mit
1 0 0
A=
0 1 0
In der Tat gilt
 
x1
1 0 0  
x1
x2 =
0 1 0
x2
x3
für alle ~x ∈ R3
 
x1
x1
2
3

(d) T : R → R ,
7→ x2 
x2
0
Eine derartige Abbildung wird in der Mathematik eine Einbettung“ genannt. Die
”
hier vorliegende Zuordnungsvorschrift kann durch eine Matrix beschrieben werden,
wir haben T (~x) = A~x für alle ~x ∈ R2 mit




 
1 0
1 0 x1
0 1 x1 = x2 
A = 0 1 ,
denn
x2
0 0
0 0
0
2
x1
x1
(e) T : R → R ,
7→
x2
x22
2
2
(f) Rn → Rn , ~x 7→ ~x. Diese Abbildung wird identische Abbildung genannt.
(g) Die Abbildung Rn → Rn , ~x 7→ ~0 wird als uninteressant oder trivial“ angesehen.
”
(h) Sei V der Vektorraum aller Polynome. Dann ist T : V → R, f 7→ f (1) eine Abbildung (jedem Polynom wird der Funktionswert an der Stelle 1 zugeordnet).
67
Wir werden uns hier fast ausschließlich mit Abbildungen beschäftigen, deren Definitionsmenge Rn und deren Zielmenge Rm ist (mit m, n ∈ N+ ). Die folgende Definition ist
grundlegend für die weiteren Abschnitte:
Definition 5.3.2 Seien V, W Vektorräume. Eine Abbildung T : V → W , ~x 7→ T (~x) heißt
linear, wenn
T (~u + ~v ) = T (~u) + T (~v )
für alle ~u, ~v ∈ V
(47)
und
T (s~u) = sT (~u)
für alle ~u ∈ V
und alle
s∈R
(48)
Beachten Sie die Ähnlichkeit der in dieser Definition geforderten Regeln mit denen in
Satz 5.2.1. Als unmittelbare Folge erhalten wir
Satz 5.3.1 Sei A eine (m × n)-Matrix. Die Abbildung T : Rn → Rm , ~x 7→ T (~x) sei durch
T (~x) := A~x
für alle ~x ∈ Rn
definiert. Dann ist T eine lineare Abbildung.
Eine Abbildung, deren Zuordnungsvorschrift aus der Multiplikation mit einer Matrix besteht, ist also stets linear. Alle vorangegangenen Beispiele bis auf Beispiel (e) sind linear.
Bei den meisten ist die zugehörige Matrix, die die Zuordnungsvorschrift erzeugt, angegeben, bei den übrigen sind die Rechenregeln aus Def. 5.3.2 unmittelbar klar. Um zu zeigen,
dass die Abbildung von Beispiel (e) nicht linear ist, genügt es beispielsweise einen Vektor
~x ∈ R2 und eine Zahl s ∈ R anzugeben, die die Regel T (s~x) = sT (~x) nicht erfüllen:
4
2
1
2
~x =
, s = 2, s~x =
, T (~x) = ~x, T (s~x) =
= 4~x 6= sT (~x) =
0
0
0
0
Weitere Eigenschaften linearer Abbildungen:
Wir setzen generell voraus, dass T : V → W , ~x 7→ T (~x) linear ist.
(a) Aus (47) mit ~v = −~u und (48) mit s = −1 erhalten wir
T (~u − ~u) = T (~0) = T (~u) + T (−1)~u = T (~u) − T (~u) = ~0
und damit T (~0) = ~0 für alle linearen Abbildungen.
(b) T (s1~a1 + s2~a2 + s3~a3 + · · · + sk~ak ) = s1 T (~a1 ) + s2 T (~a2 ) + s3 T (~a3 ) + · · · + sk T (~ak ) für
alle s1 , s2 , . . . sk ∈ R und alle ~a1 ~a2 . . . ~ak ∈ V und alle k ∈ N+ (durch vollständige
Induktion über k aus (47) und (48) zu beweisen).
(c) Betrachten wir den Spezialfall V = W = R2 oder V = W = R3 . Wir hatten Geraden
in der Ebene und im Raum durch
~x(t) = ~a + t · ~b,
t∈R
beschrieben (siehe (14)). Wir erhalten hier
T ~x(t) = T (~a) + t · T (~b)
68
Alle Bildpunkte T x(t) liegen wieder auf einer Geraden, das Bild einer Geraden
unter einer linearen Abbildung ist also wieder eine Gerade! Wenn die Gerade durch
−→
−→
zwei Punkte P und Q mit den Ortsvektoren OP und OQ gegeben ist (so wie das
beispielsweise in Abb. 11 rechts gezeigt ist) , dann erhalten wir die Geradengleichung
in der angegebenen Form, indem wir
−→
~a = OP
und
→
~b = −~a + −
OQ
setzen. Den Punkt P bekommen wir mit t = 0, den Punkt Q mit t = 1, und die
dazwischenliegenden Punkte, indem wir t auf den Bereich 0 < t < 1 einschränken.
Entsprechendes gilt für die Punkte, die auf der Geraden zwischen den Bildpunkten
−→
−→
mit den Ortsvektoren T (OP ) und T (OQ) liegen. Um das Bild von Geradenstücken
zu berechnen, genügt es also, das Bild der Anfangs- und Endpunkte zu berechnen
und diese wieder mit einer Geraden zu verbinden. Dies ermöglicht eine nette Veranschaulichung von linearen Abbildungen der Ebene in sich der Form T (~x) = A~x
mit verschiedenen Matrizen A, wie sie in Abb. 27 gezeigt ist.
1 0
0 1
cos(2)
− sin(2)
sin(2)
cos(2)
0, 7 0, 3
0, 3 0, 7
0 1
1 0
0, 6 0, 6
−0, 5 0, 9
0 1, 1
0, 3 0, 3
Abbildung 27: Veranschaulichung linearer Abbildungen der Form
T : R2 → R2 , ~x 7→ T (~x) = A~x mit verschiedenen Matrizen A.
69
(d) Die Frage stellt sich, welche Funktionen f : R → R, x 7→ f (x) lineare Abbildungen
sind. Wenn ein solches f linear ist, dann gilt
f (s) = f (s · 1) = s · f (1) = a · s
für alle s ∈ R mit a = f (1)
Die einzigen linearen Abbildungen von R in R sind also Polynome ersten Grades
der Form f (x) = ax, deren Graphen Geraden durch den Ursprung sind, sowie das
Nullpolynom!
Der Satz 5.3.1 legt die Frage nahe, ob alle linearen Abbildungen T : Rn → Rm , ~x 7→ T (~x)
durch eine Matrix mit
T (~x) = A~x
für alle ~x ∈ Rn
gegeben sind und wie man gegebenenfalls die zugehörige Matrix A aus der Zuordnungsvorschrift T (~x) erhält, wenn diese auf andere Weise gegeben ist. Wir schreiben zur Untersuchung dieser Frage ~x ∈ Rn mit Hilfe der Basisvektoren ~ek (die in (40) definiert sind):
~x = x1~e1 + x2~e2 + x3~e3 + · · · + xn~en
Aufgrund der Regeln für lineare Abbildungen haben wir
T (~x) = T (x1~e1 + x2~e2 + · · · + xn~en ) = x1 T (~e1 ) + x2 T (~e2 ) + · · · + xn T (~en )
Vergleich mit Gleichung (45) liefert
Satz 5.3.2 Seien n, m ∈ N+ . Zu jeder linearen Abbildung T : Rn → Rm , ~x 7→ T (~x)
existiert eine eindeutige (m × n)-Matrix A, die
T (~x) = A~x
für alle ~x ∈ Rn
erfüllt. Für k = 1, 2, . . . n ist T (~ek ) der k. Spaltenvektor von A, wobei die Vektoren ~ek
durch (40) gegeben sind.
Hinweis: Bei gegebener Zuordnungsvorschrift T (~x) können wir also die zugehörige Matrix
A dadurch berechnen, dass wir die Bilder der Einheitsvektoren T (~e1 ), T (~e2 ), . . . T (~en )
spaltenweise zu einer Matrix zusammenbauen“. Man kann dies knapp zu einer Merkregel
”
zusammenfassen:
Die Spalten der Matrix sind die Bilder der Einheitsvektoren ~ek .
Beispiele:
(a) Gegeben sei ein (zahlenmäßig bekannter) Vektor ~a ∈ R3 (beispielsweise a1 = 1,
a2 = 5, a3 = 2). Mit dem Vektorprodukt wird durch die Zuordnungsvorschrift
T (~x) = ~a × ~x
eine Abbildung T : R3 → R3 definiert, die aufgrund der Rechenregeln des Vektorprodukts linear ist. Überprüfen Sie dies bitte durch Nachrechnen! Die zugehörige
Matrix erhalten wir, indem wir






0
−a3
a2
T (~e1 ) = ~a ×~e1 =  a3  , T (~e2 ) = ~a ×~e2 =  0  , T (~e3 ) = ~a ×~e3 = −a1 
−a2
a1
0
70
spaltenweise zur Matrix


0 −a3 a2
0 −a1 
A =  a3
−a2 a1
0
(49)
zusammenbauen, die ~a × ~x = A~x für alle ~x ∈ R3 erfüllt.
(b) Gegeben seien zwei Vektoren ~a, ~b ∈ R3 (sie seien also zahlenmäßig bekannt, beispielsweise ~a wie im vorangehenden Beispiel und b1 = 3, b2 = −3, b3 = −1. Dann
kann man durch die Zuordnungsvorschrift
T (~x) = (~a · ~x) · ~b
eine Abbildung R3 → R3 definieren, die aufgrund der Rechenregeln des Skalarprodukts linear ist. Überprüfen Sie dies bitte ebenfalls durch Nachrechnen! Die
zugehörige Matrix erhalten wir, indem wir
T (~e1 ) = a1~b,
T (e2 ) = a2~b,
T (~e3 ) = a3~b
spaltenweise zur Matrix

a1 b 1 a2 b 1 a3 b 1
A =  a1 b 2 a2 b 2 a3 b 2 
a1 b 3 a2 b 3 a3 b 3

zusammensetzen. Diese erfüllt (~a · ~x) · ~b = A~x für alle ~x ∈ R3 .
5.4
Matrixmultiplikation und -addition
Im letzten Unterabschnitt war der enge Zusammenhang von Matrizen und linearen Abbildungen deutlich geworden. Die rechnerisch komplizierte Multiplikation von Matrizen
wird nur dann verständlich, wenn man sich anschaut, was mit den zugehörigen linearen
Abbildungen geschieht.
Definition 5.4.1 Seien
T : U → V,
u 7→ T (u)
und
S : V → W,
v 7→ S(v)
Abbildungen. Wir gehen also davon aus, dass die Zielmenge der Abbildung T die Definitionsmenge der Abbildung S ist. Dann wird die Hintereinanderausführung oder Komposition von S und T durch
S ◦ T : U → W, u 7→ S(T (u))
definiert.
Hinweis: Die Hintereinanderausführung von Funktionen ist in der Analysis in genau
derselben Weise definiert worden. Wir müssen also auch hier damit rechnen, dass die
Hintereinanderausführung in umgekehrter Reihenfolge, wenn sie möglich ist, eine andere
Abbildung liefern kann.
71
Beispiele:
(a) Sei ~a ∈ R3 ein vorgegebener Vektor, T : R3 → R3 , ~x 7→ ~a × ~x und
 
 
x1
x1
x1
3
2






x2 7→ S
x2
S:R →R ,
=
x2
x3
x3
Dann ist (siehe (49), rechnen Sie zur Übung nach!)
 
x1
−a3 x2 + a2 x3
3
2


x2 7→
S◦T :R →R ,
a3 x 1 − a1 x 3
x3
(b) Sei P die schon als Beispiel angegebene Projektion
 
x1
x1
3
2
P : R → R , x2  7→
x2
x3
und sei
T : R2 → R3 ,
 
x1
x1

7→ x2 
x2
0
die schon angegebene Einbettung“. Dann ist
”
 
 
x1
x1
T ◦ P : R3 → R3 , x2  7→ x2 
x3
0
und P ◦ T : R2 → R2 , ~x 7→ ~x, also P ◦ T = idR2 . Somit ist hier offensichtlich
P ◦ T 6= T ◦ P .
Eine wichtige Regel ist, dass die Hintereinanderausführung linearer Abbildungen wieder
zu einer linearen Abbildung führt, ausführlicher:
Satz 5.4.1 Seien
T : U → V,
~u 7→ T (~u)
und
S : V → W,
~v 7→ S(~v )
lineare Abbildungen. Wir setzen also voraus, dass die Zielmenge der Abbildung T die
Definitionsmenge der Abbildung S ist. Dann ist die Hintereinanderausführung von S und
T
S ◦ T : U → W, ~u 7→ S(T (~u))
eine lineare Abbildung.
Beweis: (~x + ~y ) 7→ S T (~x + ~y ) = S T (~x) + T (~y ) = S T (~x) + S T (~y ) für alle ~x, ~y ∈ U
S T (t~x) = S tT (~x) = tS T (~x) für alle ~x ∈ U und alle t ∈ R.
Wir definieren nun die Multiplikation von Matrizen durch die Hintereinanderausführung
der zugehörigen linearen Abbildungen:
72
Definition 5.4.2 Gegeben seien die (k × m)-Matrix A und die (m × n)-Matrix B (mit
k, m, n ∈ N+ ). Seien S und T die linearen Abbildungen
S : Rm → Rk , ~y 7→ S(~y ) = A~y ,
T : Rn → Rm , ~x 7→ T (~x) = B~x
Dann ist C := AB die (k × n)-Matrix, die
S T (~x) = A B~x = C~x
für alle ~x ∈ Rn
und damit
S ◦ T : Rn → Rk ,
~x 7→ C~x
erfüllt.
Hinweis: Zur Definition der Hintereinanderausführung von Abbildungen haben wir vorausgesetzt, dass die Zielmenge der zuerst auszuführenden Abbildung mit der Definitionsmenge der danach auszuführenden Abbildung übereinstimmt. Dem entspricht hier, dass
das Matrixprodukt AB nur definiert ist, wenn die Zahl der Spalten von A mit der Zahl
der Zeilen von B übereinstimmt.
Beispiel:
0 −1
1 1
A=
,
B=
1 0
1 2
S : R2 → R2 ,
T : R2 → R2 , ~x 7→ T (~x) = B~x
S ◦ T : R2 → R2 , ~x 7→ A B~x = C~x
1 1
x1
x1 + x2
B~x =
=
1 2
x2
x1 + 2x2
0 −1
x1 + x2
−x1 − 2x2
A B~x =
=
= C~x
1 0
x1 + 2x2
x1 + x2
~y 7→ S(~y ) = A~y ,
Nach Satz 5.3.2 erhalten wir mit ~x = ~e1 und ~x = ~e2
−1
−2
A B~e1 =
,
A B~e2 =
1
1
die beiden Spalten von C = AB und damit
−1 −2
C = AB =
1
1
Herleitung einer allgemeinen Formel zur Berechnung des Matrixprodukts:
Ausgangspunkt ist eine (k × m)-Matrix A und eine (m × n)-Matrix B, also




a11 a12 a13 · · · a1m
b11 b12 b13 · · · b1n
a21 a22 a23 · · · a2m 
 b21 b22 b23 · · · b2n 




a31 a32 a33 · · · a3m 


A=
B =  b31 b32 b33 · · · b3n 

 ..
 ..
..
.. . .
.. 
..
..
.. 
..
 .
 .
.
.
.
.
. 
.
.
. 
ak1 ak2 ak3 · · · akm
bm1 bm2 bm3 · · · bmn
Nach Satz 5.3.2 ist der Vektor A B~el die l-te Spalte der gesuchten Matrix C = AB, die
laut Definition eine (k ×n)-Matrix ist, also ist dieser Vektor für l = 1, 2 . . . n zu berechnen.
73
Nun ist B~el der l-te Spaltenvektor der Matrix B (siehe das Ende von Abschnitt 5.2), und
B hat insgesamt n Spalten, also
 
b1l
 b2l 
 
 
B~el =  b3l  ,
l = 1, 2, 3 . . . n
 .. 
 . 
bml
Nach Def. 5.2.1 ist

a11
a21


A B~el = a31
 ..
 .
ak1
P
m
a12 a13
a22 a23
a32 a33
..
..
.
.
ak2 ak3

a b
i=1 1i il 

P

m
 a2i bil 

= 

i=1 .


..


m

P
aki bil
  

· · · a1m
b1l
a11 b1l + a12 b2l + · · · + a1m bml
  

· · · a2m 
  b2l   a21 b1l + a22 b2l + · · · + a2m bml 




· · · a3m   b3l  =  a31 b1l + a32 b2l + · · · + a3m bml 


..   ..  
..
..

.
.  .  
.
· · · akm
bml
ak1 b1l + ak2 b2l + · · · + akm bml
i=1
Wir haben damit als Ergebnis gewonnen:
Satz 5.4.2 Seien A eine (k × m)-Matrix und B eine (m × n)-Matrix (mit k, m, n ∈ N+ )
und sei C = AB.
Dann ist das Matrixelement cij der i. Zeile und j. Spalte der Produktmatrix C
cij =
m
X
ail blj ,
i = 1, 2, . . . k,
j = 1, 2, . . . n
l=1
Hinweise:
(a) Man kann die in einer Zeile einer Matrix stehenden Zahlen zu einem Vektor zusammenfassen, so wie wir das mit einer Spalte bereits in Def. 5.1.1 getan haben.
Dann können wir nach dem obigen Satz das Matrixelement cij auffassen als das
Skalarprodukt des i. Zeilenvektors von A mit dem j. Spaltenvektor von B.
(b) Einen Vektor ~x ∈ Rm kann man als (m × 1)-Matrix auffassen, also als Matrix mit
m Zeilen und einer Spalte, indem man die Komponenten des Vektors spaltenweise untereinanderschreibt. Dann folgt aus dem Satz, dass das Matrixprodukt nach
Def. 5.4.2 und das Produkt Matrix mal Vektor“ nach Def. 5.2.1 übereinstimmen.
”
(c) Beachten Sie, dass in der zur Berechnung von cij auszurechnenden Summe die Summation über den innen stehenden Index l beim Produkt ail blj läuft und die innere“
”
Zahl bei der Größe übereinstimmen muß (nur das Produkt einer (k × m)-Matrix mit
einer (m × n)-Matrix ist definiert).
74
Falk-Schema:
Dieses Schema zur Matrixmultiplikation soll hier am Beispiel der beiden Matrizen


3 −2
2 −1 5
A=
und
B= 0 1 
−2 1 0
1 −1
erläutert werden. Zur Berechnung des Produkts AB schreibt man die Matrizen zunächst
in der folgenden Art auf
..
.
3 −2
B
..
.
0
1
..
.
A
1 −1
2 −1 5
−2
1 0
In jedes freie Feld trägt man nun das entsprechende Matrixelement der Produktmatrix ein,
indem man das Skalarprodukt des außen links in derselben Zeile stehenden Zeilenvektors
von A mit dem ganz oben darüber stehenden Spaltenvektor von B bildet:
...
B
...
A
2 −1
−2
1
3
−2
0
1
..
.
1 −1
5 11 −10
0 −6
5
Das Ergebnis lautet in der üblichen mathematischen Schreibweise
11 −10
AB =
−6 5
Für das Produkt in umgekehrter Reihenfolge BA erhalten wir das Falk-Schema
..
.
B
3
0
1
A
2 −1
..
. −2
1
−2 10 −5
1 −2
1
−1
4 −2
5
0
15
0
5
und damit das Ergebnis


10 −5 15
BA = −2 1 0 
4 −2 5
Ein Vorteil beim Falk-Schema ist, dass beim Produkt von mehr als zwei Faktoren das
Zwischenergebnis nicht nochmal neu aufgeschrieben werden muß, sondern der neue Faktor
einfach rechts oben angefügt werden kann.
75
Eigenschaften des Matrixprodukts:
(a) Wie das gerade behandelte Beispiel zeigt, ist das Produkt nicht kommutativ, im
allgemeinen haben wir
AB 6= BA
(b) Das Assoziativgesetz ist erfüllt, wir haben
(AB)C = A(BC)
für alle Matrizen A, B, C, für die das auftretende Produkt definiert ist. Es ist
etwas aufwändig, dies anhand der Berechnungsformel von Satz 5.4.2 zu beweisen.
Es ist dagegen unmittelbar plausibel, dass es beim Hintereinanderausführen von drei
Abbildungen
R : W → Z, w 7→ R(w),
S : V → W, v 7→ S(v),
T : U → V, u 7→ T (u)
nicht auf die Klammerung ankommt, dass also gilt
(R ◦ S) ◦ T = R ◦ (S ◦ T )
Das Assoziativgesetz für die Matrixmultiplikation folgt dann unmittelbar aus der
Definition 5.4.2.
(c) Wenn E die (n × n)-Einheitsmatrix ist, dann gilt (weil E zur identischen Abbildung
~x 7→ ~x gehört)
EA = A
AE = A
für alle (n × m)-Matrizen A
für alle (m × n)-Matrizen A
Analog zur Definition der Summe von reellwertigen Funktionen können wir die Summe
von linearen Abbildungen definieren:
Definition 5.4.3 Seien S : V → W , ~v 7→ S(~v ) und T : V → W , ~v 7→ T (~v ) lineare
Abbildungen und sei c ∈ R. Dann ist die Summe von S und T durch
S + T : V → W,
~v 7→ S(~v ) + T (~v )
und cT durch
cT : V → V,
~v 7→ cT (~v )
definiert. Wenn S und T lineare Abbildungen S, T : Rn → Rm mit den zugehörigen
(m × n)-Matrizen A und B sind mit S(~v ) = A~v und T (~v ) = B~v mit




a11 a12 a13 · · · a1n
b11 b12 b13 · · · b1n
 b21 b22 b23 · · · b2n 
 a21 a22 a23 · · · a2n 




 a31 a32 a33 · · · a3n 
 b31 b32 b33 · · · b3n 
A=
B=


 ..
 ..
..
..
.. 
..
..
.. 
..
...
 .


.
.
.
.
.
.
.
. 
am1 am2 am3 · · · amn
bm1 bm2 bm3 · · · bmn
76
dann entspricht der Summe der linearen Abbildungen die folgende Summe der Matrizen


a11 + b11 a12 + b12 a13 + b13 · · · a1n + b1n
 a21 + b21 a22 + b22 a23 + b23 · · · a2n + b2n 




A + B :=  a31 + b31 a32 + b32 a33 + b33 · · · a3n + b3n 


..
..
..
..
...


.
.
.
.
am1 + bm1 am2 + bm2 am3 + bm3 · · · amn + bmn
und analog für skalare Vielfache

cb11 cb12 cb13
 cb21 cb22 cb23


cB :=  cb31 cb32 cb33
 ..
..
..
 .
.
.
cbm1 cbm2 cbm3
···
···
···
..
.
···

cb1n
cb2n 

cb3n 

.. 
. 
cbmn
Hinweise:
(a) Es wurde schon erwähnt, dass man Vektoren aus Rn als (n × 1)-Matrizen auffassen
kann. Dann stimmt die bisher vereinbarte Addition und Multiplikation mit einem
Skalar mit der durch diese Definition definierten Addition und Multiplikation mit
einem Skalar überein.
(b) Beachten Sie, dass die Addition nur für Matrizen definiert ist, deren Zeilen- und
Spaltenzahl übereinstimmen.
Satz 5.4.3 Wenn A, B und C Matrizen sind, deren Größe so ist, dass die jeweiligen
Rechenoperationen definiert sind, dann gilt
A(B + C) = AB + AC
und
(A + B)C = AC + BC
Eine (n × n)-Matrix A kann mit sich selbst multipliziert werden, das Ergebnis AA ist
wieder eine (n × n)-Matrix und kann erneut mit A multipliziert werden. Wir können also
für (n × n)-Matrizen Potenzen definieren:
Definition 5.4.4 Sei A eine (n × n) mit n ∈ N+ und sei k ∈ N+ . Dann wird definiert
Ak := |A · A · A
{z · . . . · A}
k Faktoren
Anwendungsbeispiel:
Wie wir bereits im Abschnitt 4.4 besprochen haben, kann man die Abtastwerte eines Tonsignals als Vektor in Rn auffassen (siehe auch Abb. 23). In Abb. 28 ist eine verrauschte
Version dieses Tonsignals zusammen mit dem ursprünglichen Tonsignal gezeigt. Die beiden Tonsignale sind durch Vektoren aus Rn mit n = 152 gegeben. Das Rauschen kann
beispielsweise durch Übertragung über eine schlechte Telefonleitung entstehen, es wurde
hier allerdings rechnerisch erzeugt (mit Hilfe von Zufallszahlen).
Beim Vergleich der beiden Signale kann man auf die Idee kommen, den Einfluss des
Rauschens durch eine Mittelwertbildung zu vermindern. Bezeichnen wir das verrauschte
77
120
ursprünglich
verrauscht
100
80
60
40
20
0
- 20
0
20
40
60
80
100
120
140
160
- 40
- 60
- 80
Abbildung 28: Abtastwerte eines verrauschten Tonsignal, Vokal u“ (Ausschnitt) zusam”
men mit dem ursprünglichen Tonsignal
Tonsignal mit u ∈ Rn , so liegt es nahe, die Komponenten uk zu ersetzen durch vk =
1
(uk−1 + uk ). Wir müssen dann lediglich noch festlegen, was wir mit u1 machen, und
2
eine Möglichkeit besteht darin, diese Komponente unverändert zu lassen, also v1 = u1 zu
setzen. Wir definieren also eine Abbildung
(
uk
falls k = 1
T : Rn → Rn , u 7→ v = T (u) mit T (u) k = vk = 1
(uk−1 + uk ) falls k > 1
2
Dabei wurde die k. Komponente von T (u) mit T (u) k bezeichnet. Diese Abbildung ist
linear (zur Übung nachrechnen!) und man kann sich fragen, wie die (152 × 152)-Matrix A
aussieht, die T (u) = Au erfüllt. Nach der Regel Die Spalten der Matrix sind die Bilder
”
der Einheitsvektoren ek“ erhalten wir folgende Matrix


1 0 0 ··· ··· ··· ··· ···
 1 1 0 · · · · · · · · · · · · · · ·
2 2

 1 1 ..

. · · · · · · · · · · · ·
0 2 2

.
 .. 0 1 . . . . . . · · · · · · · · ·


2

.
.
A=
(50)
.
.
.
.
..
. . · · · · · ·
 .. .. . . . .


 .. .. .. . .

..
.
. 12
. . .
0
0
. . .

..
... 1
 .. .. ..

1
.
0


2
2
.. .. ..
..
..
1
1
. . .
.
.
0
2
2
In Abb. 29 ist das Ergebnis v = Au grafisch dargestellt, und tatsächlich unterscheidet
sich das durch Mittelwertbildung geglättete“ Signal weniger vom ursprünglichen Signal
”
als das verrauschte Signal, es ist also eine Verringerung des Rauschens erfolgt.
Es liegt nun nahe, die Glättung“ zu wiederholen, die Abbildung einfach nochmal
”
anzuwenden, also das Signal
w = T T (u) = A2 u
auszurechnen. Die Anwendung für unser verrauschtes Tonsignal ist in Abb.30 gezeigt.
78
120
ursprünglich
1 mal geglättet
100
80
60
40
20
0
- 20
0
20
40
60
80
100
120
140
160
- 40
- 60
- 80
Abbildung 29: durch Mittelwertbildung geglättete“ Abtastwerte des verrauschten Ton”
signal zusammen mit dem ursprünglichen Signal
120
ursprünglich
2 mal geglättet
100
80
60
40
20
0
- 20
0
20
40
60
80
100
120
140
160
- 40
- 60
Abbildung 30: Verminderung des Rauschens durch zweifache Anwendung der Glättungs”
abbildung“ (zusammen mit dem ursprünglichen Signal)
Rechnerisch erhalten für k > 2
1
1
wk = T T (u)
= T (u) k−1 + T (u) k
2 2
k
1
1 1
1
1 1
=
uk−2 + uk−1 +
uk−1 + uk
2 2
2
2 2
2
1
1
1
1
=
uk−2 + uk−1 + uk = (uk−2 + 2uk−1 + uk )
4
2
4
4
sowie für k = 2
1
1
1
1 1
1
3
1
w2 = T T (u)
= T (u) 1 + T (u) 2 = u1 +
u1 + u2 = u1 + u2
2
2
2
2 2
2
4
4
2
und für k = 1
w1 = T T (u)
= T (u) 1 = u1
1
79
Die zweifache Anwendung der Glättungsabbildung“ wird also beschrieben durch die Ma”
trix


4 0 ··· ··· ··· ··· ··· ··· ··· ···
3 1
0 · · · · · · · · · · · · · · · · · · · · ·


1 2
1
0 · · · · · · · · · · · · · · · · · ·


0 1

2
1
0
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·


.
. .. ..

..
..
..
.
.
.
.
. · · · · · · · · · · · ·
.


1 . . .
.. ..
. . . . . . . . . . . . . . · · · · · · · · ·
A2 = 

4
. .

..
 .. ..
.
0
1
2
1
0 · · · · · ·


 .. ..

..
..
. .
.
.
0
1
2
1
0 · · ·
. .

..
..
..
. .

.
.
.
0
1
2
1
0
. .
.. ..
..
..
..
..
. .
.
.
.
.
0
1
2
1
Beachten Sie, dass hier die Binomialkoeffizienten auftreten!
120
ursprünglich
3 mal geglättet
100
80
60
40
20
0
- 20
0
20
40
60
80
100
120
140
160
- 40
- 60
Abbildung 31: Verminderung des Rauschens durch dreifache Anwendung der Glättungs”
abbildung“ (zusammen mit dem ursprünglichen Signal)
120
120
ursprünglich
5 mal geglättet
100
80
80
60
60
40
40
20
20
0
- 20
- 40
- 60
verrauscht
5 m al geglättet
100
0
0
20
40
60
80
100
120
140
160
- 20
0
20
40
60
80
100
120
140
160
- 40
- 60
- 80
Abbildung 32: Verminderung des Rauschens durch fünffache Anwendung der Glättungs”
abbildung“ (links zusammen mit dem ursprünglichen Signal, rechts zusammen mit dem
verrauschten Signal)
Man kann das Spiel“ fortsetzen und prüfen, ob die mehrfache Anwendung der Glät”
”
tungsabbildung“ zu einer weiteren Verringerung der Rauschanteile führt. Wir schauen uns
hierzu die Signale
w = An u
80
an, für n = 3 und n = 5 sind diese in Abb. 31 sowie Abb. 32 dargestellt. Es ist tatsächlich
eine weitere Verringerung der Rauschanteile aufgetreten, allerdings wird das Signal selbst
etwas verfälscht und ein Stück nach rechts verschoben. Die Matrizen haben eine charakteristische Struktur, beispielsweise


32 0 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·
31 1
0 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·


26 5

1
0
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·


16 10 5
1
0 · · · · · · · · · · · · · · · · · · · · · · · ·


 6 10 10 5

1
0
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·


 1 5 10 10 5
1 · · · · · · · · · · · · · · · · · · · · ·


 0 1 5 10 10 5

1
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·

1 
5
 ..

A =
. 0 1
5 10 10 5
1
0 · · · · · · · · · · · ·
32 
.

..
 ..
.
0
1
5 10 10 5
1
0 · · · · · · · · ·


.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. · · · · · ·
.
.


 ..

..
..
..
.
.
.
.
0
1
5 10 10 5
1
0 · · ·
.

..
..
..
..
.

.
.
.
.
0
1
5 10 10 5
1
0
.
..
..
..
..
..
..
.
.
.
.
.
.
0
1
5 10 10 5
1
In einem Band entlang der Hauptdiagonale treten die Binomialkoeffizienten auf, außerhalb
dieses Bandes stehen nur Nullen, lediglich in der linken oberen Ecke treten Sonderfälle
auf. Die Beschreibung der zugehörigen linearen Abbildung durch eine derartige Matrix ist
umständlich. Eine einfachere Beschreibung von w = A5 u wäre für k > 5
wk =
1
(uk + 5uk−1 + 10uk−2 + 10uk−3 + 5uk−4 + uk−5 )
32
und entsprechende Sonderfälle für k = 1, 2, . . . 5. Derartige lineare Abbildungen spielen
in der Signalverarbeitung eine große Rolle, man spricht dort von Filtern“. Das Beispiel
”
macht vielleicht ein wenig klar, dass es nützlich ist, für solche einfach konstruierte lineare
Abbildungen weniger umständliche Beschreibungen zur Verfügung zu haben, die auch den
Zusammenhang zwischen A und A5 leicht erkennen lassen.
5.5
Die Umkehrabbildung und die inverse Matrix
Die inverse Matrix gehört zur inversen Abbildung oder Umkehrabbildung. Wir haben
zunächst einige vorbereitende Definitionen vorzunehmen.
Definition 5.5.1 Seien V, W Mengen und sei T : V → W , v 7→ T (v) eine Abbildung.
Dann ist die Bildmenge T (V ) die Menge aller Bilder T (v), also
T (V ) := {w ∈ W | Es existiert ein v ∈ V mit w = T (v)}
Es ist für die Bildmenge auch die Bezeichnungsweise Bild(T ) := T (V ) üblich.
T heißt surjektiv, wenn die Bildmenge T (V ) mit der Zielmenge W übereinstimmt, also
wenn T (V ) = W .
T heißt injektiv, wenn die Bilder zweier verschiedener Elemente aus V stets verschieden
sind, wenn also
v1 6= v2 , v1 , v2 ∈ V =⇒ T (v1 ) 6= T (v2 )
81
T heißt bijektiv, wenn T injektiv und surjektiv ist.
Wenn V und W Vektorräume sind und T eine lineare Abbildung ist, dann ist der Kern
von T definiert als die Menge der Vektoren, die auf den Nullvektor abgebildet werden:
Kern(T ) := {v ∈ V | T (v) = ~0}
Hinweise:
(a) In der Analysis nennen wir die Bildmenge einer Funktion Wertebereich und schreiben Wf statt f (Df ), der mathematische Begriff ist aber derselbe.
(b) Hier äquivalente Formulierungen der Bedingung dafür, dass T injektiv ist:
• T (v1 ) = T (v2 ) =⇒ v1 = v2
• Die Gleichung T (v) = w hat für jedes w ∈ W höchstens eine Lösung v ∈ V .
(c) Eine zur angegebenen Definition äquivalente Bedingung dafür, dass T surjektiv ist,
lautet:
Die Gleichung T (v) = w hat für jedes w ∈ W mindestens eine Lösung v ∈ V .
(d) In dem hier fast ausschließlich betrachteten Fall, dass V und W Vektorräume sind
und T eine lineare Abbildung ist, haben wir
• T (V ) ist ein Unterraum von W .
Beweis: Wenn w1 ∈ T (V ) und w2 ∈ T (V ), dann existieren v1 , v2 ∈ V mit
T (v1 ) = w1 und T (v2 ) = w2 und damit
T (v1 + v2 ) = T (v1 ) + T (v2 ) = w1 + w2
also w1 + w2 ∈ T (V ). Analog gilt T (sv1 ) = sT (v1 ) = sw1 für alle s ∈ R, also
folgt aus w1 ∈ T (V ), dass auch sw1 ∈ T (V ).
• Kern(T ) ist ein Unterraum von V (Beweis als Übungsaufgabe!)
• T ist injektiv ⇐⇒ Kern(T ) = {~0} (Beweis als Übungsaufgabe, {~0} ist der
triviale Unterraum, der als einzigen Vektor den Nullvektor enthält.)
Beispiele:
(a) Sei V die Menge der zu übermittelnden Zeichen (z.B. V = {a, b, c, . . . A, B, C, . . .}).
Wir setzen voraus, dass V mindestens zwei Elemente enthält. Zur Entdeckung von
Übertragungsfehlern ist folgende Abbildung vor der Übermittlung denkbar: Jedes
Zeichen wird verdoppelt. Man kann dies durch die Abbildung
T : V → V × V = W,
v 7→ (v, v)
beschreiben. Diese Abbildung ist injektiv. Dies ist wichtig dafür, dass das ursprüngliche Zeichen rekonstruierbar ist. Sie ist nicht surjektiv, denn die Zielmenge enthält
laut Voraussetzung mindestens ein Element der Form (v1 , v2 ) mit v1 6= v2 . Also ist
T (V ) eine echte Teilmenge von W :
T (V ) = {(v1 , v2 ) ∈ V × V | v1 = v2 }
82
Man kann nun einen erheblichen Teil der Übermittlungsfehler daran erkennen, dass
das übertragene Zeichen Element von W , aber nicht von T (V ) ist, denn die Wahrscheinlichkeit, dass bei zwei aufeinanderfolgenden Zeichen derselbe Übermittlungsfehler auftritt, ist gering. Mit etwas mehr mathematischem Aufwand kann man
Abbildungen konstruieren, die Ähnliches leisten, ohne die Anforderungen an die
Übertragungskapazität so stark zu erhöhen.
 
x1
x1
2
3

(b) T : R → R ,
7→ x2 
x2
0
ist injektiv, aber nicht surjektiv.
 
x1
x1
3
2  
(c) P : R → R , x2 7→
x2
x3
ist surjektiv, aber nicht injektiv. Geben Sie zur Begründung Vektoren ~v1 ∈ R3 und
~v2 ∈ R3 an, die P (~v1 ) = P (~v2 ) erfüllen.
(d) Die Drehung um den Winkel ϕ (die in Abschnitt 5.3 bereits besprochen wurde)
x1
cos(ϕ) · x1 − sin(ϕ) · x2
2
2
T :R →R ,
7→
x2
sin(ϕ) · x1 + cos(ϕ) · x2
ist bijektiv (Begründen Sie dies ausführlich!).
Definition 5.5.2 Sei T : V → W v 7→ T (v) bijektiv. Dann ist die Umkehrabbildung oder
inverse Abbildung T −1 : W → V , w 7→ T −1 (w) durch
v = T −1 (w) ⇐⇒ T (v) = w
definiert.
Hinweise:
(a) Die Umkehrfunktion ist derselbe mathematische Begriff und die Definition erfolgte
hier völlig analog zu der entsprechenden Definition in der Analysis.
(b) Man kann die Abbildungsvorschrift der Umkehrabbildung auch formulieren als
T −1 : W → V,
T (v) 7→ v
(c) Beachten Sie, dass die Gleichung T (v) = w für jedes w ∈ W mindestens eine Lösung
v ∈ V hat, weil wir T als surjektiv vorausgesetzt haben, und höchstens eine Lösung
hat, weil wir T als injektiv vorausgesetzt haben.
(d) Die Umkehrabbildung ist gerade so definiert, dass
T −1 ◦ T = idV
und
T ◦ T −1 = idW
oder ausführlich geschrieben
T −1 T (v) = v
T T −1 (w) = w
83
für alle v ∈ V
für alle w ∈ W
(e) Die unmittelbar vor der Definition als Beispiel angegebene Drehung in R2 um den
Winkel ϕ hat eine anschaulich leicht anzugebende Umkehrabbildung: Man dreht um
den Winkel −ϕ:
x1
cos(ϕ) · x1 + sin(ϕ) · x2
−1
2
2
T :R →R ,
7→
x2
− sin(ϕ) · x1 + cos(ϕ) · x2
Rechnen Sie nach, dass dies tatsächlich die Umkehrabbildung
ist, indem Sie bei
−1
spielsweise die Zuordnungsvorschrift T
T (~x) für beliebiges ~x ∈ R2 aufschreiben
und vereinfachen. Einfacher ist es, wenn Sie mit der in Abschnitt 5.3 für dieses
Beispiel angegebenen Matrix arbeiten.
(f) Die Verschlüsselung von Nachrichten erfolgt mit bijektiven Abbildungen und deren
Umkehrabbildungen. Wenn V die Menge der Nachrichten im Klartext ist, dann wird
eine Nachricht v ∈ V zunächst verschlüsselt, also in T (v) ∈ W umgewandelt. Dabei ist W die Menge der veschlüsselten Nachrichten. T (v) wird an den Empfänger
versandt. Dieser bildet dann T −1 T (v) = v. Die Abbildungssvorschrift für die Umkehrabbildung T −1 ist geheim zu halten! Bei modernen Verschlüsselungsmethoden
werden sehr anspruchsvolle mathematische Verfahren verwandt!
Im Rest dieses Unterabschnitts beschränken wir uns auf lineare Abbildungen T : Rn →
Rn . Nach Satz 5.3.2 werden diese durch (n × n)-Matrizen, also quadratische Matrizen
A beschrieben mit T (~x) = A~x für alle ~x ∈ Rn . Die Bedingung, dass T injektiv ist, also
T (~x1 ) = A~x1 = T (~x2 ) = A~x2 nur möglich ist, wenn ~x1 = ~x2 , führt hier auf die Bedingung,
dass A~x1 − A~x2 = A(~x1 − ~x2 ) = ~0 nur möglich ist, wenn ~x1 − ~x2 = ~0. Wir haben also
Satz 5.5.1 Sei T : Rn → Rn , ~x 7→ T (~x) = A~x eine lineare Abbildung mit der dazugehörigen (n × n)-Matrix A. Dann ist T injektiv genau dann, wenn die Matrix A nicht
singulär ist, das homogene lineare Gleichungssystem A~x also nur die triviale Lösung ~x = ~0
hat.
Zu Beginn dieses Unterabschnitts wurde angekündigt, dass die inverse Matrix zur Umkehrabbildung gehört. Es liegt also nahe, zu definieren
Definition 5.5.3 Eine (n × n)-Matrix A heißt invertierbar, wenn eine (n × n)-Matrix B
existiert mit
BA = AB = E
wobei E die (n × n)-Einheitsmatrix ist. Man schreibt dann B = A−1 und nennt A−1 die
inverse Matrix zu A. Wir haben also mit dieser Schreibweise, wenn A invertierbar ist
A−1 A = AA−1 = E
Die Matrixmultiplikation ist so definiert, dass sie der Hintereinanderausführung der entsprechenden linearen Abbildungen entspricht. Wir haben insgesamt das Ergebnis:
Satz 5.5.2 Sei A eine (n × n)-Matrix und T die lineare Abbildung
T : Rn → Rn
~x 7→ T (~x) = A~x
Dann sind die folgenden Bedingungen äquivalent:
84
(a) A ist invertierbar.
(b) Das homogene lineare Gleichungssystem A~x = ~0 hat nur die triviale Lösung ~x = ~0.
(c) Für jedes ~b ∈ Rn ist das lineare Gleichungssystem A~x = ~b nicht singulär.
(d) Die lineare Abbildung T ist bijektiv.
(e) Alle Spaltenvektoren von A sind linear unabhängig.
Wenn A invertierbar ist, dann gehört die inverse Matrix A−1 zur Umkehrabbildung T −1 ,
d.h.
T −1 (~x) = A−1~x
für alle ~x ∈ Rn
Beispiel: Mehrfach war als Beispiel für eine Abbildung die Drehung der Ebene um den
Winkel ϕ angegegeben worden. Die Umkehrabbildung ist die Drehung der Ebene um den
Winkel −ϕ. Die zugehörigen Matrizen sind
cos ϕ − sin ϕ
cos ϕ sin ϕ
−1
D=
und
D =
sin ϕ cos ϕ
− sin ϕ cos ϕ
Rechnen Sie als Übungsaufgabe nach, dass tatsächlich DD−1 = D−1 D = E erfüllt ist.
Wie am Ende von Abschnitt 5.3 erläutert wurde, liefert B~ek den k. Spaltenvektor
einer (m × n)-Matrix B, wenn ~ek der durch (40) definierte Einheitsvektor ist. Wir gehen
davon aus, dass die (n × n)-Matrix A invertierbar ist und bezeichnen den unbekannten
k. Spaltenvektor von A−1 mit ~xk . Dann gilt
~xk = A−1~ek
Multiplikation beider Seiten (von links) mit A liefert
A~xk = AA−1~ek = E~ek = ~ek
Dabei haben wir die (n × n)-Einheitsmatrix mit E bezeichnet. Wir haben damit eine
Berechnungsmöglichkeit für die inverse Matrix:
Satz 5.5.3 Sei A eine invertierbare (n × n)-Matrix und sei ~xk der k. Spaltenvektor von
A−1 , k = 1, 2, . . . n und sei ~ek durch (40) definiert. Dann kann man die Spaltenvektoren
von A−1 durch Lösung der linearen Gleichungssysteme
A~xk = ~ek
für k = 1, 2, . . . n
berechnen.
Hinweis: Wenn man A−1 kennt, dann erhält man die Lösung eines linearen Gleichungssystems A~x = ~b durch Multiplikation beider Seiten mit A−1 (von links):
A−1 A~x = E~x = ~x = A−1~b
Wenn es aber nur um die Lösung eines linearen Gleichungssystems A~x = ~b geht, dann
ist in der Praxis stets dringend zu empfehlen, es direkt — beispielsweise mit dem GaußVerfahren — zu lösen und nicht den Umweg über die erheblich aufwändigere Berechnung
der inversen Matrix zu gehen. Wie aus dem Satz ersichtlich ist, müßte man eigentlich
n lineare Gleichungssysteme lösen, um alle n Spalten der inversen Matrix zu erhalten.
Diese Gleichungssysteme unterscheiden sich nur auf der rechten Seite, so dass man sie
gleichzeitig für verschiedene rechte Seiten lösen kann:
85
Berechnung der inversen Matrix A−1 nach dem Verfahren von Gauß-Jordan:
Beim Gauß-Verfahren für lineare Gleichungssysteme der Form A~x = ~b werden die Koeffizienten zu einer erweiterten Matrix (A|~b) zusammengestellt. Auf diese erweiterte Koeffizientenmatrix werden dann die einzelnen Operationen des Gauß-Verfahrens (Addition
des Vielfachen einer Zeile zu einer anderen, eventuell Zeilentausch) angewandt. Da wir
hier gleichzeitig n verschiedene rechte Seiten (~ek für k = 1, 2, . . . n) behandeln wollen,
stellen wir alle rechten Seiten ~ek zur Einheitsmatrix zusammen. Wir gehen also von der
erweiterten Matrix (A|E) aus und wenden auf diese das Gauß-Verfahren an. Ziel ist es,
zunächst die linke Hälfte dieser Matrix in Dreiecksform zu bringen. Ausgangspunkt ist
also die Matrix


a11 a12 a13 · · · a1n 1 0 0 · · · 0
 a21 a22 a23 · · · a2n 0 1 0 · · · 0 


 a31 a32 a33 · · · a3n 0 0 1 · · · 0 


 ..
.. .. .. . . .. 
..
..
..
.
.
 .
. . 
.
. . .
.
.
.
an1 an2 an3 · · · ann 0 0 0 · · · 1
Hierauf wird nun das Gauß-Verfahren angewandt, so wie es in Abschnitt 3.1.4 beschrieben
ist. Durch einen eventuellen Zeilentausch stellt man also sicher, dass a11 6= 0 und addiert
-fache der ersten Zeile zur zweiten usw. Der einzige Unterschied zum Abdann das − aa21
11
schnitt 3.1.4 ist, dass wir hier gleichzeitig n rechte Seiten bearbeiten. Als Ergebnis erhalten
wir eine Matrix, deren linke Hälfte in Dreiecksform vorliegt, also die folgende Gestalt hat
(die Koeffizienten haben sich geändert, sie sind hier zur besseren Übersichtlichkeit auf der
linken Hälfte erneut mit aik bezeichnet):


a11 a12 a13 · · · a1n c11 c12 c13 · · · c1n
 0 a22 a23 · · · a2n c21 c22 c23 · · · c2n 


 0
0 a33 · · · a3n c31 c32 c33 · · · c3n 


 ..
..
.. . .
..
..
..
.. . .
.. 
 .
.
.
.
.
.
.
.
.
. 
0
0
0 · · · ann cn1 cn2 cn3 · · · cnn
Hier ist zu prüfen, ob ann 6= 0, denn nur dann ist die Matrix A invertierbar. Beim Lösen
eines linearen Gleichungssystems mit nur einem Vektor auf der rechten Seite erhielten wir
nun die Lösung durch Rückwärtsauflösen.
Hier setzen wir zur Berechnung von A−1 das Gauß-Verfahren rechts unten beginnend
nach oben und dann von rechts nach links fort. In einem ersten Schritt werden in der
letzten Spalte der rechten Hälfte oberhalb von ann Nullen erzeugt: Das − an−1,n
-fache der
ann
an−2,n
n. Zeile wird zur n − 1. Zeile addiert, das − ann -fache der n. Zeile wird zur n − 2. Zeile
2n
1n
addiert, . . . , das − aann
-fache der n. Zeile wird zur 2. Zeile addiert, das − aann
-fache der
n. Zeile wird zur 1. Zeile addiert. Schließlich wird die n. Zeile durch ann dividiert. Als
Ergebnis dieses Schritts erhält man eine Matrix der Form (zur besseren Übersichtlichkeit
sind die Koeffizienten wieder mit aik und cik bezeichnet, obwohl sie sich geändert haben):


a11 a12 a13 · · · 0 c11 c12 c13 · · · c1n
 0 a22 a23 · · · 0 c21 c22 c23 · · · c2n 


 0

c
c
c
·
·
·
c
0
a
·
·
·
0
33
31
32
33
3n


 ..
..
.. . . .. ..
..
.. . .
.. 
 .
.
.
.
.
. .
.
.
. 
0
0
0 · · · 1 cn1 cn2 cn3 · · · cnn
86
Dies wird dann von an−1,n−1 ausgehend in der (n − 1). Spalte fortgesetzt, so dass als Ergebnis des zweiten Schritts an der Stelle von an−1,n−1 eine 1 steht und darüber nur noch
Nullen. In einem letzten Schritt dividiert man dann die erste Zeile durch (das geänderte)
a11 . Als Ergebnis erhält man ein Koeffizientenschema der Form (zur Verdeutlichung, dass
sich die Koeffizienten geändert haben, sind sie jetzt auf der rechten Hälfte mit bik bezeichnet):


1 0 0 · · · 0 b11 b12 b13 · · · b1n
 0 1 0 · · · 0 b21 b22 b23 · · · b2n 


 0 0 1 · · · 0 b31 b32 b33 · · · b3n 


 .. .. .. . . .. ..
..
.. . .
.. 
 . . .
. . .
.
.
.
. 
0 0 0 · · · 1 bn1 bn2 bn3 · · · bnn
Das ursprüngliche Koeffizientenschema (A|E) ist also in die Form (E|B) gebracht worden.
Die Lösungsmenge hat sich dabei nicht geändert. Wir haben also die Gleichungssysteme
A~xk = ~ek für k = 1, 2, . . . n umgewandelt in die Gleichungssysteme E~xk = ~xk = ~bk umgewandelt, wenn wir den k. Spaltenvektor der in der rechten Hälfte entstandenen Matrix B
mit ~bk bezeichnen. Das heißt, wir können die Lösungen unserer Gleichungssysteme spaltenweise in der rechten Hälfte des entstandenen Koeffizientenschemas ablesen. Da wir mit
~xk den unbekannten k. Spaltenbektor von A−1 bezeichnet haben, steht im Koeffizientenschema rechts das gesuchte Ergebnis A−1 = B.
Zahlenbeispiel: (Zum Nachrechnen und Vergleichen, bitte beachten Sie, dass das bloße
Lesen keinen Sinn macht!)


2
1 1
A =  4 −6 0
−2 7 2
Ausgangspunkt:
2
1 1 1 0 0
4 −6 0 0 1 0
−2
7 2 0 0 1
1. Schritt:
2
1
1
1 0 0
0 −8 −2 −2 1 0
1 0 1
0
8
3
3. Schritt:
2
1 0
2 −1 −1
0 −8 0 −4
3
2
0
0 1 −1
1
1
4. Schritt:
3
2 0 0
− 58 − 43
2
1
0 1 0
− 38 − 41
2
0 0 1 −1
1
1
2. Schritt:
2
1
1
1 0 0
0 −8 −2 −2 1 0
0
0
1 −1 1 1
5. Schritt:
3
5
1 0 0
− 16
− 38
4
1
3
0 1 0
− 8 − 14
2
0 0 1 −1
1
1
Als Ergebnis haben wir erhalten:

5
− 16
− 38
− 38 − 41 
=
−1 1
1

A−1
3
4
1
2
Allgemeine Eigenschaften der inversen Matrizen:
Satz 5.5.4 Seien A und B invertierbare (n×n)-Matrizen. Dann ist auch AB invertierbar
und es gilt
−1
AB
Beweis:
AB
= B−1 A−1
B−1 A−1 = A BB−1 A−1 = AEA−1 = AA−1 = E
87
−1
B A
−1
−1
AB = B
A A B = B−1 EB = B−1 B = E
−1
Hinweise:
(a) Beachten Sie die Änderung der Reihenfolge bei der Berechnung von AB
−1
= A für alle invertierbaren (n × n)-Matrizen.
(b) A−1
−1
(c) Wenn A, B und C invertierbare (n × n)-Matrizen sind, dann gilt
−1
−1
−1
ABC
= (AB)C
= C−1 AB
= C−1 B−1 A−1
5.6
.
(51)
Die transponierte Matrix
Definition 5.6.1 Sei A eine (m × n)-Matrix. Die an der Hauptdiagonale gespiegelte
Matrix (also eine (n × m)-Matrix) heißt die zu A transponierte Matrix und wird mit
AT bezeichnet, also
AT = B ⇐⇒ aik = bki
Eine (n × n)-Matrix A heißt symmetrisch, wenn AT = A, also aik = aki für alle
Matrixelemente gilt.
Beispiel:
A=
2 1 4
0 −2 5


2 0
AT =  1 −2 
4 5
,
Satz 5.6.1 Seien A eine (k × m)-Matrix und B eine (m × n)-Matrix. Dann gilt
T
AB = BT AT
Beweis: Für die Matrixelemente gilt
AB
ik
=
m
X
m
T X
AB ik =
akl bli
ail blk ,
l=1
BT AT
ik
=
m
X
BT
l=1
il
AT
l=1
lk
=
m
X
l=1
bli akl =
m
X
akl bli
l=1
Hinweise:
(a) Beachten Sie die Änderung der Reihenfolge bei der Berechnung von AB
T
(b) AT = A für alle Matrizen A.
T
.
(c) Durch eine zu (51) analoge Rechnung erhalten wir als Folgerung aus dem Satz
T
ABC = CT BT AT
(52)
für alle Matrizen A, B, C, für die das Produkt ABC definiert ist.
88
(d) Faßt man Vektoren ~x, ~y ∈ Rn als (n × 1)-Matrizen auf und schreibt sie dann
zweckmäßigerweise auch in der Form ~x = x, ~y = y, dann kann das Skalarprodukt
auch als Matrixprodukt aufgefaßt und geschrieben werden in der Form
~x · ~y = xT y
(machen Sie sich dies anhand des Falk-Schemas klar!)
(e) Als Folgerung aus dem Satz erhalten wir für alle Vektoren ~x, ~y ∈ Rn und alle
(n × n)-Matrizen A mit dieser Schreibweise
(AT~x) · ~y = (AT x)T y = xT (AT )T y = xT Ay = ~x · (A~y )
(53)
Dies bedeutet, dass in Skalarprodukten der Form ~x ·(A~y ) die Matrix durch Übergang
zur transponierten Matrix dem anderen Faktor zugeschlagen“ werden kann.
”
T
(f) Für alle (m × n)-Matrizen A ist A eine (n × m)-Matrix, also kann das Produkt
AT A gebildet werden. AT A ist dann eine symmetrische (n × n)-Matrix, denn es
gilt (AT A)T = AT (AT )T = AT A.
(g) Die (n × n)-Einheitsmatrix E erfüllt ET = E für alle n ∈ N+ .
(h) Wenn A eine invertierbare (n × n)-Matrix ist, dann kann man auf beiden Seiten der
Gleichung AA−1 = E die transponierte Matrix bilden und erhält
T
T
AA−1 = A−1 AT = E
und analog für die Gleichung A−1 A = E
T
T
A−1 A = AT A−1 = E
Damit haben wir für alle invertierbare (n × n)-Matrizen A
A−1
T
= AT
−1
(i) Als Folgerung von (b) und (h) erhalten wir folgende Aussage, die Satz 5.5.2 um
weitere Bedingungen ergänzt:
Die folgenden Bedingungen sind für alle (n × n)-Matrizen A äquivalent:
• A ist invertierbar.
• AT ist invertierbar.
• Alle Spaltenvektoren von A sind linear unabhängig.
• Alle Zeilenvektoren von A sind linear unabhängig.
Definition 5.6.2 Eine invertierbare (n × n)-Matrix A heißt orthogonal, wenn
AT = A−1
erfüllt ist.
89
Hinweise:
(a) A ist also orthogonal, wenn AT A = AAT = E.
(b) Das Matrixelement cij der Produktmatrix C = AB entsteht als Skalarprodukt des
i. Zeilenvektors von A mit dem j. Zeilenvektor von B (siehe Satz 5.4.2 und den
ersten Hinweis danach). Der i. Zeilenvektor von A ist der i. Spaltenvektor von
AT und umgekehrt. Also ist A genau dann orthogonal, wenn alle verschiedenen
Spaltenvektoren zueinander orthogonal sind und alle Spaltenvektoren die Länge
eins haben. Analog ist auch A genau dann orthogonal, wenn alle verschiedenen
Zeilenvektoren zueinander orthogonal sind und alle Zeilenvektoren die Länge eins
haben. Dies erklärt den Namen orthogonal“ für eine Matrix.
”
(c) Matrizen, die Drehungen (in der Ebene oder im Raum) beschreiben, sind orthogonal.
So beschreibt die Matrix


cos ϕ − sin ϕ 0
D =  sin ϕ cos ϕ 0
0
0
1
eine Drehung um die z-Achse im dreidimensionalen Raum. Überzeugen Sie sich,
dass D tatsächlich eine orthogonale Matrix ist.
(d) Orthogonale Matrizen lassen das Skalarprodukt unverändert, d.h. wenn die (n × n)Matrix A orthogonal ist, dann gilt aufgrund von (53) für alle Vektoren x, y ∈ Rn :
(A~x) · (A~y ) = (AT A~x) · ~y = (E~x) · ~y = ~x · ~y
und damit bleiben alle Längen und Winkel unter der Abbildung ~x 7→ A~x unverändert.
5.7
Der Rang einer Matrix
Definition 5.7.1 Sei A eine (m × n)-Matrix. Dann ist der Zeilenrang von A die maximale Anzahl linear unabhängiger Zeilenvektoren und der Spaltenrang von A die maximale Anzahl linear unabhängiger Spaltenvektoren. Der Rang der linearen Abbildung
T : Rn → Rm , ~x 7→ T (~x) = A~x ist die Dimension des Vektorraums T (Rn ), d.h. die
maximale Anzahl linear unabhängiger Vektoren in der Bildmenge T (Rn ).
Satz 5.7.1 Der Zeilenrang und der Spaltenrang einer (m × n)-Matrix A bleiben bei den
(in Satz 3.1.1 beschriebenen) Operationen des Gauß-Verfahrens unverändert.
Satz 5.7.2 Sei A eine (m × n)-Matrix, T : Rn → Rm , ~x 7→ T (~x) = A~x die zugehörige
lineare Abbildung.
Dann gilt: Der Zeilenrang und der Spaltenrang von A sowie der Rang von T stimmen
überein
Hinweis: (kein Beweis!) Man kann zunächst das Gauß-Verfahren anwenden und die Matrix damit beispielsweise in die Form




∗ ∗ ∗ ∗ ∗ ∗
∗ ∗ ∗
 0 ∗ ∗
 0 0 ∗ ∗ ∗ ∗ 




oder
 0 0 ∗
 0 0 0 0 ∗ ∗ 
0 0 0 0 0 0
0 0 0
90
bringen. Dabei steht ∗ symbolisch für Matrixelemente, die von Null verschieden sind. Alle Zeilen, die vom Nullvektor verschieden sind, sind linear unabhängig. Zu jedem vom
Nullvektor verschiedenen Zeilenvektor kann ein Spaltenvektor so ausgewählt werden, dass
die ausgewählten Spaltenvektoren linear unabhängig sind. Bei der links gezeigten Matrix kann man beispielsweise den 1., den 3. und den 5. Spaltenvektor auswählen, diese
drei Spaltenvektoren sind dann linear unabhängig. Die Linearkombinationen der linear
unabhängigen Spaltenvektoren von A ergeben den Vektorraum T (Rn ) (siehe (45)).
Definition 5.7.2 Sei A eine (m × n)-Matrix. Der Zeilenrang oder der Spaltenrang (die
übereinstimmen!) wird kurz Rang der Matrix genannt, abgekürzt Rang(A).
Praktische Berechnung des Rangs einer Matrix:
Man führt die Matrix mit dem Gauß-Verfahren in Dreiecks- oder Trapezform über. Die
Zahl der vom Nullvektor verschiedenen Zeilenvektoren ergibt dann den Rang der Matrix.
Beispiele: (nach Umwandlung in Dreiecksform)




1 3 2
1
3
5
7
9
 0 2 1 

A=
B =  0 0 3 2 1  Rang(B) = 2
 0 0 −5  , Rang(A) = 3,
0 0 0 0 0
0 0 0
6
6.1
Endliche Körper und ihre Anwendungen bei der
Kodierung
Restklassen
Beobachtung: Das folgende C-Programm
#include<stdio.h>
main()
{unsigned char a,b,s,p;
a=2; b=255;
s=a+b;
p=a*b;
printf("a= %hd, b=%hd, a+b= %hd, a*b= %hd \n",a,b,s,p);}
liefert die Ausgabe
a= 2, b=255, a+b= 1, a*b= 254
und eine entsprechende Abänderung liefert
a= 128, b=128, a+b= 0, a*b= 0
Erklärung: Variablen vom Typ unsigned char“ erhalten auf den meisten Rechnern einen
”
Speicherplatz mit 8 Bits, also sind nur die Zahlen 0, 1, 2, 3, . . . 255 darstellbar. Von den
Rechenergebnissen werden daher nur die letzten 8 Bits abgespeichert, weitere Bits gehen
verloren. So hat beispielsweise 257 die Binärdarstellung 1 0000 00012 , und wenn man die
letzten 8 Bits 0000 00012 übrigbehält, so entspricht das einer dezimalen 1.
91
Man könnte beim Dezimalsystem denselben Effekt erzielen, wenn man vereinbart, nur
die letzte Ziffer aufzuschreiben. Man würde dann für die Menge der Zahlen {0, 1, 2, 3, . . . 9}
merkwürdige Rechenergebnisse, beispielsweise 4 + 7 = 1, 2 · 5 = 0, 9 · 9 = 1 erhalten. Es ist
nun sinnvoll, den beobachteten Effekt mathematisch zu beschreiben, und zwar unabhängig
von den hier gewählten Zahlen wie 256 und 10. Grundlegend ist der folgende
Satz 6.1.1 Seien m, n ∈ Z und sei n > 0. Dann existieren eindeutige Zahlen q, r ∈ Z
mit 0 ≤ r < n und
m=n·q+r
(54)
Hinweise:
(a) Mit Brüchen kann man die (54) auch intuitiver schreiben
r
m
=q+
n
n
mit 0 ≤
r
<1
n
und wir haben die Zerlegung eines Bruch als Summe aus einer ganzen Zahl und
einem echten Bruch.
(b) r ist der ganzzahlige Rest bei Division von m durch n
(c) Für den nicht negativen Rest in (54) ist die Schreibabkürzung
r = m mod n
(55)
üblich; sie ist zu lesen m modulo n“. Für m < 0 wird sie allerdings auch oft anders
”
definiert (siehe Hinweis (e)).
(d) Für m ≥ 0 kann m mod n mit C durch r=m%n; berechnet werden, mit Scilab durch
r=modulo(m,n).
(e) Für m < 0 führt die Festlegung im Satz n > 0 und 0 ≤ r < n (positiver Rest) zum
Beispiel auf die Zerlegung
−7 = 3 · (−3) + 2
dagegen führt die Zerlegung
−7 = 2 · (−3) − 1
auf einen negativen Rest. Manchen erscheint die Zerlegung mit dem negativen Rest
natürlicher, daher sind für m < 0 sind unterschiedliche Konventionen für die Schreibweise (55) üblich (hier ist die Übereinkunft so, dass stets m mod n ≥ 0). Beachten
Sie, dass in C für m < 0 der Wert von m%n möglicherweise ist. Bei Scilab sind
unterschiedliche Funktionen vorhanden (modulo und pmodulo), deren Werte sich
unterscheiden, wenn das erste Argument negativ ist.
Beispiele:
257 mod 256 = 1,
7 mod 3 = 1, 4711 mod 100 = 11,
(2 · 255) mod 256 = 2 · (256 − 1) mod 256 = (256 + 254) mod 256 = 254
92
Definition 6.1.1 Seien p, q ∈ Z und n ∈ N+ .
Wir sagen, p ist kongruent zu q modulo n, geschrieben
p≡q
(mod n)
wenn p−q ein ganzzahliges Vielfaches von n ist, also ein m ∈ Z existiert mit p−q = m·n,
d.h. wenn p und q bei Division durch n denselben Rest r mit 0 ≤ r < n haben.
Für p ∈ Z heißt die Menge
p̄ := {q ∈ Z | p ≡ q
(mod n)}
Restklasse von p modulo n.
Hinweise zur Schreibweise:
(a) Wir haben hier
p≡q
(mod n)
⇐⇒
p mod n = q mod n
Beachten Sie, dass p ≡ q (mod n) eine Aussage ist und p mod n eine Zahl.
(b) Zur Bezeichnung der Restklasse von p modulo n wird statt p̄ auch gelegentlich [p]
oder p̂ verwendet. Wenn kein Missverständnis möglich ist, wird auch einfach p statt
p̄ geschrieben.
Beispiele:
(a) 7 ≡ 11 (mod 2), 83 ≡ 243 (mod 10), 259 ≡ 3 (mod 256), −1 ≡ 127 (mod 128)
(b) Die Restklasse von 0 modulo 2 ist die Menge der geraden ganzen Zahlen, die Restklasse von 1 modulo 2 die Menge der ungeraden ganzen Zahlen.
(c) Für n = 3 haben wir die Restklassen modulo 3
0̄ := {. . . − 6, −3, 0, 3, 6, . . .},
1̄ := {. . . − 5, −2, 1, 4, 7, . . .},
2̄ := {. . . − 4, −1, 2, 5, 8, . . .}
Die Restklasse von p modulo n hat die Form
p̄ = {q ∈ Z | p ≡ q (mod n)}
= {. . . p − 3n, p − 2n, p − n, p, p + n, p + 2n, p + 3n, . . .}
beispielsweise für n = 3 und p = 2:
{. . . − 8, −5, −2, 1, 4, 7, 10, 13, . . .}
Es gibt verschiedene sinnvolle Möglichkeiten, eine Restklasse p̄ durch Auswahl eines besonders einfachen Elements r ∈ p̄ mit p̄ = r̄ zu charakterisieren:
• r = p mod n mit der Eigenschaft 0 ≤ r ≤ n − 1
• für gerades n: − n2 ≤ r ≤
n
2
−1
93
• für ungerades n: − n−1
≤r≤
2
n−1
2
Es gibt n verschiedene Restklassen modulo n.
Definition 6.1.2 Die Menge aller Restklassen modulo n wird hier mit Zn bezeichnet:
Zn := {0̄, 1̄, 2̄, 3̄, . . . n − 1}
Hinweis: Mit Zn wird in der Mathematik auch eine andere Menge bezeichnet (die hier
nicht behandelt wird). Um Missverständnisse zu vermeiden, ist daher für die Menge der
Restklassen modulo n anderswo auch die Abkürzung Z/nZ gebräuchlich.
Beispiele:
Z2 = {0̄, 1̄}, Z3 = {0̄, 1̄, 2̄} = {−1, 0̄, 1̄},
Z5 = {0̄, 1̄, 2̄, 3̄, 4̄} = {−2, −1, 0̄, 1̄, 1̄},
Z256 = {0̄, 1̄, 2̄, 3̄, . . . 255} = {−128, −127, −126, . . . 126, 127}
Definition 6.1.3 Sei n ∈ N+ , Zn die Menge der Restklassen modulo n, für beliebige
p ∈ Z sei p̄ = {q ∈ Z | p ≡ q (mod n)}.
Für beliebige ā, b̄ ∈ Zn wird durch
ā ⊕ b̄ := (a + b),
ā b̄ := (a · b)
eine Addition und eine Multiplikation in Zn definiert.
Beispiele für Z256 :
2̄ ⊕ 255 = 2 + 255 = 257 = 257 mod 256 = 1̄
und
2̄ 255 = 2 · 255 = 510 = 510 mod 256 = 254
Hinweis: Die Definition 6.1.3 ist gefährlich“; denn die Summe der beiden Mengen ā
”
und b̄ ist durch die Summe der beiden Elemente a ∈ ā und b ∈ b̄ definiert! Der Wert
der Summe könnte von der Auswahl dieser Vertreter“ a und b abhängen! Wir haben zu
”
beweisen, dass dies nicht der Fall ist (in der Fachsprache der Mathematik, dass die Summe
und das Produkt wohldefiniert“ sind).
”
Beweis, dass die Definition 6.1.3 nicht von der Auswahl der Elemente in den Restklassen
abhängt:
Für beliebige c ∈ ā und d ∈ b̄ gilt:
c ≡ a (mod n) und d ≡ b (mod n) =⇒ c = a + k · n und d = b + l · n mit k, l ∈ Z
=⇒ c + d = a + k · n + b + l · n = a + b + (k + l)n =⇒ (c + d) ≡ (a + b) (mod n)
=⇒ c + d = a + b
Analog beweist man c · d = (a · b).
Satz 6.1.2 Für die in Definition 6.1.3 definierte Addition und Multiplikation in Zn gelten
das Kommutativgesetz und das Assoziativgesetz und
k⊕0=k
und
k1=k
für alle k ∈ Zn
Hinweis zur Schreibweise: Die hier verwandte Schreibweise ist in der Literatur unüblich
ist. Es wird meist darauf verzichtet, der Addition und Multiplikation in Zn ein besonderes
Symbol zuzuweisen. Man schreibt meist direkt + statt ⊕ und · statt .
94
Man kann sich Zn gut veranschaulichen, wenn man die Restklassen in C abbildet:
f : Zn → C,
2π
k̄ 7→ f (k̄) = ejk n
Die Abbildungsvorschrift hängt nicht davon ab, welchen Vertreter k wir aus der Restklasse
k̄ auswählen, denn
l ∈ k̄ ⇐⇒ k ≡ l
2π
2π
(mod n) ⇐⇒ k − l = m · n mit m ∈ Z ⇐⇒ ejk n = ejl n
Die entsprechenden Bildpunkte sind für Z5 in Abb. 33 grafisch dargestellt, sie liegen alle
auf dem Einheitskreis. Die Addition in Z5 entspricht der Addition der entsprechenden
Phasen. Durch fortgesetzte Addition derselben Phase (beispielsweise der Phase, die 1
entspricht, also 2π
) läuft man im Kreis herum.
n
Abbildung 33: Veranschaulichung der Restklassen Z5 durch Abbildung in C, die Bilder
liegen auf dem Einheitskreis.
Es mag vielleicht hier etwas ungewöhnlich erscheinen, dass mit Restklassen, also mit
Mengen, gerechnet wird, als wenn es sich um Zahlen handeln würde. Man muß dabei nur
sorgsam darauf achten, dass das Rechenergebnis nicht davon abhängt, welchen Vertreter
man aus der Menge auswählt. Es ist daher hier nützlich darauf hinzuweisen, dass die
Elemente von Q, der Menge der rationalen Zahlen, auch Mengen sind. So ist beispielsweise
n
o
m
1 2 3 4 5 6
, , , ,
,
,... =
| m ∈ Z, m 6= 0
2 4 6 8 10 12
2m
eine rationale Zahl, und wir haben uns daran gewöhnt, den Vertreter 12 auszuwählen, als
16
auftreten.
Rechenergebnis kann aber auch 32
Eine der ältesten bekannten Verschlüsselungsmethoden, die von Julius Caesar benutzt
wurde, kann mit der Addition in Z26 beschrieben werden. Man kann den Buchstaben des
Alphabets eindeutig die Zahlen {0, 1, 2, 3, . . . 25} zuordnen (mathematisch gesprochen, die
Menge {A, B, C, D, . . . Z} mit einer bijektiven Abbildung in Z26 abbilden), indem man
sie mit 0 beginnend nummeriert. Die Verschlüsselung besteht nun darin, dass man ein
p ∈ Z26 mit p 6= 0 auswählt (das dem Empfänger und möglichst nur ihm bekannt ist) und
auf jeden Buchstaben die Abbildung
f : Z26 → Z26 ,
x 7→ f (x) = x ⊕ p = (x + p) mod 26
anwendet. So wird beispielsweise das Wort ALGEBRA zunächst in die Elemente in Z26 ,
also in (0, 11, 6, 4, 1, 17, 0) umgewandelt. Nach der Verschlüsselung wird daraus für das
Zahlenbeispiel p = 3
(f (0), f (11), f (6), f (4), f (1), f (17), f (0)) = (3, 14, 9, 7, 4, 20, 3)
95
In Buchstaben umgewandelt lautet die verschlüsselte Nachricht DOJHEUD. Damit eine Entschlüsselung überhaupt möglich ist, muß die Abbildung f bijektiv sein. Zur Entschlüsselung muß die Umkehrabbildung bestimmt werden. Nach der Merkregel
y = f −1 (x) ⇐⇒ x = f (y)
müssen wir hier die Gleichung
x = f (y) = y ⊕ p = (y + p) mod 26
auflösen nach y. Dies ist einfach:
f −1 : Z26 → Z26 ,
x 7→ f −1 (x) = (x − p) mod 26 = (x + 26 − p) mod 26 = x ⊕ (26 − p)
Derartige Verschlüsselungen sind nicht besonders effektiv. In der deutschen oder englischen Sprache ist der Buchstabe E bei weitem am häufigsten. Man braucht zum Knacken“
”
eines derartigen Codes nur das am häufigsten vorkommende Zeichen bzw. das entsprechende Element q ∈ Z26 zu bestimmen. Da E in Z26 der Zahl 4 enspricht, hat man dann
die Gleichung f (4) = 4 ⊕ p = (4 + p) mod 26 = q nach p aufzulösen, also
p = (q − 4) mod 26 = (q + 26 − 4) mod 26 = q ⊕ 22
und kann dann damit die Entschlüsselung vornehmen. Effektivere Verschlüsselungen werden in der Lehrveranstaltung IT-Sicherheit“ behandelt. Restklassen spielen bei vielen
”
eine wichtige Rolle.
Am Beispiel von Caesars Verschlüsselung haben wir gesehen, wie man in Zn Gleichungen nach einem unbekannten Summanden auflösen kann. Die Gleichung
p ⊕ x = (p + x) mod n = 0
kann nach x aufgelöst werden, die Lösung ist −p mod n = (n − p) mod n = n − p. Wir
haben also für jedes p ∈ Zn ein inverses Element bzgl. der Addition (n − p) mit der
Eigenschaft p ⊕ (n − p) = 0 und können damit Gleichungen mit Summen umformen oder
auflösen.
Für diese Überlegungen wäre es zweckmäßiger, als Vertreter unserer Restklassen nicht
0, 1, 2, . . . n − 1 auszuwählen, sondern symmetrisch vorzugehen, also beispielsweise für Z5
die Zahlen {−2, −1, 0, 1, 2} auszuwählen. Bei geradem n kann diese Auswahl allerdings
nicht symmetrisch erfolgen. So wird bei der ganzzahligen Rechnung im Computer meist
der Bereich {− n2 , − n2 + 1, . . . n2 − 1} ausgewählt, für 8 Bit also von -128 bis 127. Ersetzt
man im Beispielprogramm die Deklaration unsigned char durch char und ändert die
entsprechende Zuweisung in a=4; b=127;, so erhält man (bei den meisten Rechnern) als
Ausgabe a= 4, b=127, a+b= -125, a*b= -4.
6.2
Endliche Körper
Untersuchen wir, wie es mit der Auflösung entsprechender Gleichungen für die Multiplikation steht. Es ist klar, dass die 1 das neutrale Element der Multiplikation in Zn ist,
d.h. wir haben 1 k = k für alle k ∈ Zn . Wir haben jedoch beispielsweise in Z256 das
Unglück“, dass das Produkt von Null verschiedener Restklassen Null ergeben kann. So
”
hatten wir 128 128 = 0, weil 128 · 128 mod 256 = 0. Es kann also kein q ∈ Z256 geben
96
mit 128 q = 1, denn eine Multiplikation dieser Gleichung mit 128 würde sofort den
Widerspruch 128 = 0 liefern. Dieses Unglück“ haben wir immer, wenn n sich schreiben
”
lässt als n = k ·l mit k 6= n, also wenn n keine Primzahl ist, denn dann haben wir k l = 0
und die Gleichung k x = 1 hat keine Lösung x ∈ Zn . Dieses Problem tritt nicht auf,
wenn n eine Primzahl ist. Schauen wir uns als Beispiel einmal die Rechenoperationen in
Z5 in den folgenden Tabellen an.
+
0
1
2
3
4
0
0
1
2
3
4
1
1
2
3
4
0
2
2
3
4
0
1
3
3
4
0
1
2
·
0
1
2
3
4
4
4
0
1
2
3
0
0
0
0
0
0
1
0
1
2
3
4
2
0
2
4
1
3
3
0
3
1
4
2
4
0
4
3
2
1
Wir haben dabei die Addition wieder als + statt ⊕ und die Multiplikation als · statt geschrieben. Man kann durch Nachschauen in der Multiplikationstabelle zu jedem k ∈ Z5
mit k 6= 0 das entsprechende inverse Element x = k −1 finden, das die Gleichung k · x = 1
löst. Hier das Ergebnis:
k
1 2 3 4
k −1 1 3 2 4
Es gelten also mit dieser Addition und Multiplikation in Z5 dieselben Rechenregeln wie
in R. Entsprechendes gilt immer für Zn , wenn n eine Primzahl ist. Wir formulieren das
Ergebnis ein wenig allgemeiner.
Definition 6.2.1 Eine Menge K heißt Körper, wenn in der Menge zwei Rechenoperationen definiert sind, nämlich eine Addition, die jedem Paar a, b ∈ K eindeutig das Element
a+b ∈ K zuordnet, und eine Multiplikation, die jedem Paar a, b ∈ K das Element a·b ∈ K
zuordnet und folgende Regeln gelten für alle a, b, c ∈ K:
a+b
a·b
(a + b) + c
(a · b) · c
a · (b + c)
=
=
=
=
=
b+a
b·a
a + (b + c)
a · (b · c)
a·b+a·c
(Kommutativgesetz für die Addition)
(Kommutativgesetz für die Multiplikation)
(Assoziativgesetz für die Addition)
(Assoziativgesetz für die Multiplikation)
(Distributivgesetz)
Es existiert eine eindeutige Zahl 0 ∈ K mit der Eigenschaft
a+0=a
für alle
a∈K
0 ist das neutrale Element der Addition.
Es existiert eine eindeutige Zahl 1 ∈ K, 1 6= 0, mit der Eigenschaft
a·1=a
für alle
a∈K
1 ist das neutrale Element der Multiplikation.
Für alle a ∈ K hat die Gleichung a + x = 0 genau eine Lösung x ∈ K. Man schreibt diese
Lösung als x = −a und hat damit die Regel
für alle a ∈ K
a + (−a) = 0
97
−a ist das zu a inverse Element der Addition.
Für alle a ∈ K mit a 6= 0 hat die Gleichung a · x = 1 genau eine Lösung x ∈ K. Man
schreibt diese Lösung als x = a−1 und hat damit die Regel
a · a−1 = 1
für alle
a∈K
mit
a 6= 0
a−1 ist das zu a inverse Element der Multiplikation.
Man vereinbart für beliebige a, b ∈ K die Schreibweise ab := a·b. K heißt endlicher Körper,
wenn K nur endlich viele Elemente enthält.
Satz 6.2.1 Zn , die Menge der Restklassen modulo n, ist genau dann ein Körper, wenn
n eine Primzahl ist.
Ein für die Nachrichtentechnik (denken Sie an die Bedeutung des binären Zahlensystems
bei der Übertragung von Daten!) besonders wichtiger Körper ist Z2 , der zwei Elemente 0
und 1 hat. Zur Verdeutlichung die Rechenoperationen in Tabellenform
· 0 1
0 0 0
1 0 1
+ 0 1
0 0 1
1 1 0
Die Rechenregeln sind alle erfüllt (prüfen Sie dies nach!). Dieser Körper wird auch mit
GF (2) bezeichnet (Galois field, Galois französischer Mathematiker, field englisch Körper,
2 Elemente). Allgemein wird ein Körper mit q Elementen mit GF (q) bezeichnet. Beliebige
Körper werden hier mit K bezeichnet. Wir haben bisher die Beispiele R, Q, C, GF (2),
GF (3) und GF (5) behandelt.
Definition 6.2.2 Ein Vektorraum über einem Körper K ist eine Menge V mit zwei
Rechenoperationen, die die in Definition 4.1.1 angegebenen Grundregeln erfüllen: einer
Addition, die jedem Paar a, b ∈ V eindeutig die Summe a + b ∈ V zuordnet sowie einer
Multiplikation von Elementen des Körpers K mit Elementen in V , die jedem Paar t, a
mit t ∈ K und a ∈ V das Element ta ∈ V zuordnet. Es werden dieselben Grundregeln für
alle a, b, c ∈ V und alle s, t ∈ K wie in Definition 4.1.1 gefordert (wobei wir hier a statt
~a geschrieben haben).
Beispiel: Für jedes n ∈ N+ ist Kn , die Menge der n-tupel von Elementen in K ein
Vektorraum über K mit der Addition und Multiplikation mit Elementen t ∈ K:
    

   
b1
a1 + b 1
a1
ta1
a1
 a2   b 2   a2 + b 2 
 a2   ta2 

   
    
a + b =  ..  +  ..  =  ..  ,
ta = t  ..  =  .. 
. .  . 
.  . 
an
bn
an + b n
an
tan
Matrizen können ganz entsprechend auch für Elemente beliebiger Körper definiert werden.
Analog können auch lineare Abbildungen zwischen Vektorräumen über demselben Körper
definiert werden.
Beispiel:
T : GF (2)5 → GF (2)4 , x 7→ T (x) = Ax
98
mit

1
1
A=
1
1
0
1
0
1
1
1
0
0
0
1
1
0

0
1

0
1
Kern(T) ist die Lösungsmenge des linearen Gleichungssystems
Ax = 0
Das systematische Gauß-Verfahren liefert das Gleichungssystem:
1
0
0
0
0
1
0
0
1
0
1
0
0
1
1
0
0
1
0
0
0
0
0
0
x5 = t, x4 = s, s, t ∈ GF (2) beliebig
x3 + s = 0 =⇒ x3 = s
x2 + s + t = 0 =⇒ x2 = s + t
x1 + s = 0 =⇒ x1 = s
Beachten Sie, dass b+b = 0 für alle b ∈ GF (2) gilt. Außerdem erhalten wir aus der Matrix
in Dreiecksform das Ergebnis Rang(A) = 3. Für die allgemeine Lösung des Gleichungssystems Ax = 0 erhalten wir

 
 

s
1
0
s + t
1
1

 
 

 
 

x=
s, t ∈ GF (2) beliebig
 s  = s 1 + t 0
 s 
1
0
t
0
1
Beachten Sie, dass die Lösungsmenge (und damit Kern(T)) aus 4 Elementen besteht.
6.3
Kanalcodierung: Beispiele
Bei der Übertragung von Signalen über einen gestörten Nachrichtenkanal versucht man
durch eine entsprechende Codierung, die Kanalcodierung, Übertragungsfehler möglichst
erkennbar zu machen. Noch besser ist es, sie in möglichst vielen Fällen auch gleich korrigieren zu können. Ein einfaches Beispiel wäre, bei der Übertragung jedes Bit zu wiederholen, also beispielsweise die Nachricht 01001101 als 0011000011110011 zu verschicken.
Der Empfänger kann dann am Auftauchen von zwei nicht in dieses Paarschema passenden
Bits in der empfangenen Nachricht erkennen, dass ein Übertragungsfehler aufgetreten ist,
und eine erneute Übertragung anfordern. Im Beispiel wird der Empfänger das empfangene Signal 0011001011110011 zurückweisen. Zwei Übertragungsfehler in zwei unmittelbar
hintereinanderfolgenden Bits können dennoch unentdeckt bleiben. Sie sind aber weniger
wahrscheinlich. Dreifache Wiederholung ermöglicht sogar eine Korrektur eines Teils der
Fehler. Wir schauen uns dieses Beispiel genauer an und zeigen, dass die mathematische
Beschreibung mit Z2 nützlich ist:
Wiederholungscode:
Die Codierung durch dreifache Wiederholung kann durch folgende Abbildung beschrieben
werden:
 
 
b
1
3



T : Z2 → Z2 , b 7→ T (b) = b = b · 1
b
1
99
Dabei wird (ganz analog zur Menge R3 ) die Menge aller Tripel von Bits (dargestellt als
Vektor mit Komponenten in Z2 ) mit Z32 bezeichnet. Die Multiplikation mit einem Skalar
wird analog wie in R3 definiert (es gibt hier nur zwei verschiedene Skalare). Diese Abbildung ist injektiv, das ist auch notwendig, sonst hätte man keine Chance, die übersandte
Nachricht wieder zu rekonstruieren. Die Bildmenge dieser Abbildung T (Z2 ) (entspricht
dem Wertebereich einer Funktion) wird hier als die Menge der Codeworte bezeichnet.
Die Wiederherstellung der abgesandten Nachricht, die Decodierung D, muß mindestens
in dieser Menge definiert sein und D ◦ T = idZ2 , also D(T (b)) = b erfüllen. Hier können
wir sogar jedes Element aus Z32 decodieren. Wenn in einem Tripel von Bits nicht alle
drei übereinstimmen, dann muß mindestens ein Übertragungsfehler vorliegen. Die Wahrscheinlichkeit, dass nur einer vorliegt, sollte größer sein als die, dass zwei vorliegen, und
somit kann man bei der Decodierung eine Mehrheitsentscheidung“ treffen. Damit kann
”
die Abbildung zur Decodierung auf ganz Z32 durch die folgende Tabelle definiert werden:
x 000 001 010 011 100 101 110 111
D(x) 0
0
0
1
0
1
1
1
x ∈ T (Z2 ) ja nein nein nein nein nein nein ja
In den Fällen, in denen x 6∈ T (Z2 ), liegt ein Übertragungsfehler vor. Der einfacheren
Darstellung wegen wurden die Elemente x ∈ Z32 in der Tabelle als Zeilenvektor (ohne
Klammern) und nicht als Spaltenvektor dargestellt. Wir bezeichnen die Komponenten
von x ∈ Z32 mit x1 , x2 , x3 . Es liegt kein Übertragungsfehler vor, wenn die empfangene
Nachricht x den Gleichungen
x1 = x 2
und
x2 = x 3
genügt. Zur Vorbereitungen auf heute tatsächlich verwandte Codes formulieren wie diese
Gleichungen etwas um. Sie können in der üblichen Weise als lineares Gleichungssystem
geschrieben werden:
x1 + x2 = 0,
x2 + x3 = 0
Dabei haben wir ausgenutzt, dass in Z2 gilt 1 + 1 = 0, also −1 = +1. Dieses Gleichungssystem kann mit einer Matrix beschrieben werden, und wir haben als Ergebnis, dass genau
dann kein Übertragungsfehler vorliegt, wenn die empfangene Nachricht x
0
1 1 0
Hx =
mit
H=
0
0 1 1
erfüllt. Die Vorteile dieses Codes werden durch eine Verdreifachung der Zahl der zu
übertragenden Bits erkauft. Professionelle Kanalcodes können entsprechende Vorteile mit
erheblich weniger Aufwand, aber einer mathematisch anspruchsvolleren Codierung erreichen.
Gerade Parität:
Wenn Texte mit dem 7-Bit-ASCII-Code codiert sind, dann liegt die zu übermittelnde
Nachricht in Blöcken zu je 7 Bit vor. Zur Codierung wird nun ein 8. Bit, das Paritätsbit,
zugefügt. Es ist 0, wenn die übrigen 7 Bits eine gerade Zahl von Einsen enthalten, und 1,
wenn sie eine ungerade Anzahl von Einsen enthalten. Dies ermöglicht zwar keine Korrektur, aber eine Erkennung eines einzelnen Übertragungsfehlers innerhalb des übertragenen
100
Blocks. Wird in den ersten 7 Bits ein Bit durch einen Fehler umgekehrt, dann ändert
sich gerade die Parität, also die Eigenschaft, ob die Gesamtzahl der Einsen gerade oder
ungerade ist. Ein Übertragungsfehler im 8. Bit ist ebenfalls erkennbar. Allerdings lässt
sich eine gerade Anzahl von Übertragungsfehlern, also bereits zwei Fehler, innerhalb eines
8-Bit-Blocks so nicht erkennen.
Es ist sinnvoll, diese Codierung etwas mathematischer zu beschreiben. Ausgangspunkt
sind 7 Bits, also ein Element x ∈ Z72 mit den Komponenten x1 , x2 , x3 , . . . x7 . Die Definitionsmenge der Codierungsabbildung T ist demnach Z72 , die Zielmenge Z82 , also
T : Z72 → Z82 ,
x 7→ y = T (x)
Die ersten 7 Bits werden unverändert übernommen, also yk = xk für k = 1, 2, 3, . . . 7. Das
8. Bit lässt sich mit der Addition in Z2 ausrechnen: y8 = x1 + x2 + x3 + · · · x7 . Beachten
Sie, dass wir in Z2 1+1 = 0 haben und so die Summe tatsächlich das gewünschte Ergebnis
hat. Es mag zwar für diesen einfachen Code etwas umständlich erscheinen, es ist aber im
Hinblick auf andere Codes sehr lehrreich, diese Codierung mit einer Matrix zu beschreiben:


1 0 0 0 0 0 0
0 1 0 0 0 0 0


0 0 1 0 0 0 0


0 0 0 1 0 0 0


y = T (x) = Ax
mit
A=
(56)

0
0
0
0
1
0
0


0 0 0 0 0 1 0


0 0 0 0 0 0 1
1 1 1 1 1 1 1
Das 8. Bit, das Paritätsbit, wird also gerade so gesetzt, dass die Gesamtzahl der Einsen
im übertragenen Block gerade ist. Wenn kein Fehler aufgetreten ist, dann ist also die
Gesamtzahl der Einsen in einem empfangenen Block stets gerade. Dies kann kontrolliert
werden, indem man die Summe in Z2 ausrechnet. Diese Kontrolle kann auch mit einer
Matrix beschreiben werden, allerdings mit einer (1 × 8)-Matrix:
y = Ax ⇐⇒ y1 +y2 +y3 +· · · y7 +y8 = 0 ⇐⇒ Hy = 0 mit H = 1 1 1 1 1 1 1 1
Die Matrix H wird Prüfmatrix (check matrix) genannt. Fehler können hier nicht korrigiert werden, die Decodierung wird also nur auf der Menge der Codeworte definiert. Sie
besteht darin, einfach das letzte Bit, das Paritätsbit, wegzulassen. Formulieren Sie dies
zur Übung mit Hilfe einer Matrix!
Linearer Code mit Fehlerkorrektur:
Dieses Beispiel soll zeigen, dass mit etwas mehr mathematischem Aufwand einfache Fehler innerhalb eines Blocks korrigiert werden können, wobei die übermittelten Daten nur
verdoppelt sind. Wir gehen davon aus, dass die zu übermittelnden Nachrichten zu Blöcken
von drei Bits zusammengefaßt sind und fügen drei Kontrollbits dazu. Die Codierung wird
durch folgende Abbildung beschrieben:


1 0 0
 0 1 0 


 0 0 1 
3
6

T : Z2 → Z2 , x 7→ y = T (x) = Ax
mit
A=
(57)
 0 1 1 


 1 1 0 
1 0 1
101
Die Prüfmatrix H ist hier


0 1 1 1 0 0
H= 1 1 0 0 1 0 
1 0 1 0 0 1
Sie prüft, ob wir eine codierte Nachricht korrekt empfangen haben, also
y = Ax ⇐⇒ Hy = 0
(58)
Diese Aussage kann man allgemein für Matrizen, die auf diese Weise blockweise aufgebaut
sind, beweisen oder in unserem Beispiel konkret überprüfen. y = Ax heißt zunächst
x1 = y1 , x2 = y2 , x3 = y3 , der obere Block von A ist die (3 × 3)-Einheitsmatrix. Die drei
letzten Komponenten von y = Ax lauten damit
y4 = x2 + x3 = y2 + y3 ,
y5 = x1 + x2 = y1 + y2 ,
y6 = x1 + x3 = y1 + y3
Bringt man in diesen Gleichungen alle Summanden auf eine Seite (zur Erinnerung: b+b = 0
für alle b ∈ Z2 ), so erhält man die äquivalenten Gleichungen
y2 + y3 + y4 = 0,
y1 + y2 + y5 = 0,
y1 + y3 + y6 = 0
Dies sind gerade die Komponenten der Gleichung Hy = 0.
Die Decodierung korrekt übertragener Blöcke y ist einfach: man lässt die drei letzten
Bits, die Prüfbits, weg (nach Überprüfung, ob Hy = 0). Das Auftreten eines einzelnen
Fehlers im k. Bit eines übertragenen Blocks kann man dadurch beschreiben, dass zum
korrekt codierten Block y = Ax der Einheitsvektor ek addiert wird (der im k. Bit eine
1 und sonst überall eine 0 hat). Beachten Sie, dass die Addition einer 1 ein Bit stets
umkehrt. Bei einem Übertragungsfehler im k. Bit empfangen wir also statt y tatsächlich
z = y + ek . Beim Prüfen berechnen wir
Hz = H(y + ek ) = Hy + Hek = 0 + Hek = Hek
Nach der alten Merkregel die Bilder der Einheitsvektoren sind die Spalten der Matrix“
”
können wir einen Übertragungsfehler im k. Bit des empfangenen Blocks z daran erkennen,
dass wir beim Prüfen mit Hz den k. Spaltenvektor von H berechnen. Diesen Fehler können
wir dann korrigieren, indem wir das k. Bit in z umkehren, also z durch z + ek ersetzen.
Hieran sieht man, dass derartige Codes eine Fehlererkennung erlauben, wenn keine
Spalte von H der Nullvektor ist, und eine Fehlerkorrektur, wenn nicht zwei Spalten von
H übereinstimmen.
Wenn zwei Übertragungsfehler auftreten, dann kann man dies dadurch beschreiben,
dass man statt y den Vektor z = y + ek + el mit k 6= l empfängt. Beim Prüfen erhält man
dann
Hz = H(y + ek + el ) = Hy + Hek + Hel = Hek + Hel
also die Summe zweier Spaltenvektoren von H. Nun gilt
Hek + Hel = 0 ⇐⇒ Hek = Hel
Wenn nicht 2 Spaltenvektoren von H übereinstimmen, dann können derartige Fehler
erkannt werden. Sie werden aber falsch korrigiert, wenn die Summe zweier Spaltenvektoren
mit einem dritten übereinstimmt. In unserem Beispiel liefert ein Übertragungsfehler im
1. und 2. Bit
z = y + e1 + e2 ,
Hz = He1 + He2 = He3
102
und es wird fälschlicherweise das 3. Bit korrigiert. Wenn dagegen im 1. und 4. Bit ein
Fehler auftritt, dann hat man
z = y + e1 + e4 ,
Hz = He1 + He4 = (111)T
und z stimmt mit keinem Spaltenvektor von H überein. Hier würde man erkennen, dass
mehr als ein Übertragungsfehler vorliegt.
Spezielle Notation der Kanalcodierung
Leider wird in der Kanalcodierung eine Notation benutzt, die abweicht von der, die in
der Mathematik und anderen Bereichen der Technik gebräuchlich ist. Vektoren werden
als Zeilenvektoren notiert, Vektoren aus Zk2 werden also als (1 × k)-Matrizen aufgefasst.
Die Codierung eines Datenwortes a = (a0 , a1 , a2 , . . . ak−1 ) ∈ Zk2 mit einem linearen Code
erfolgt dann durch die lineare Abbildung
T : Zk2 → Zn2 ,
a 7→ c = aG
mit der (k × n)-Matrix G, die Generatormatrix genannt wird. Der Zeilenvektor c heißt
dann Codewort. Vergleich mit (56) und (57) liefert G = AT . Die übliche Notation
erhalten wir also durch Transponieren der bisher benutzten Matrizen A. Für die gerade
Parität beim 7-Bit-ASCII-Code (56) erhalten wir somit die Generatormatrix


1 0 0 0 0 0 0 1
 0 1 0 0 0 0 0 1 


 0 0 1 0 0 0 0 1 



0
0
0
1
0
0
0
1
G=


 0 0 0 0 1 0 0 1 


 0 0 0 0 0 1 0 1 
0 0 0 0 0 0 1 1
und für das Beispiel des linearen Codes mit

1 0
G= 0 1
0 0
Fehlerkorrektor (57) ist die Generatormatrix

0 0 1 1
0 1 1 0 
1 1 0 1
Die Bezeichnung H für die Prüfmatrix entspricht der Notation der Kanalcodierung. Wir
können die Prüfmatrizen der angegebenen Beispiele daher unverändert übernehmen. Die
Prüfbedingung (58) muss jedoch umformuliert werden, da wir hier Zeilenvektoren benutzen. Sie lautet in der neuen Notation
c = aG ⇐⇒ cHT = 0
(59)
Beachten Sie, dass cHT = (HcT )T und machen Sie sich klar, dass H eine (m × n)-Matrix
sein muss. Manchmal wird die Prüfbedingung auch in der Form c = aG ⇐⇒ HcT = 0
geschrieben.
Unter dem Code C versteht man den Unterraum
C := Bild(T ) = T (Zk2 ) = {c ∈ Zn2 | c = aG, a ∈ Zk2 }
103
und mit Hilfe der linearen Abbildung
P : Zn2 → Zm
2 ,
c 7→ cHT
kann man den Code C als Kern von P charakterisieren:
C = Kern(P ) = {c ∈ Zn2 | cHT = 0}
Damit haben wir Kern(P ) = Bild(T ), also gilt für die Hintereinanderausführung der
beiden linearen Abbildungen P ◦ T = 0. Für die Matrizen bedeutet dies GHT = 0.
Überzeugen Sie sich durch explizite Rechnung, dass dies bei den beiden in diesem Unterabschnitt als Beispiel angegebenen angegebenen Codes tatsächlich der Fall ist!
Aus allgemeinen
Ergebnissen der linearen Algebra folgt, dass die Prüfmatrix H eine
(n − k) × n -Matrix sein muss, wenn die Generatormatrix eine (k × n)-Matrix ist. Außerdem muss der Rang der Generatormatrix stets k sein, die Zeilen von G sind also linear
unabhängig.
7
Determinanten
7.1
Determinanten für n = 2 und n = 3, Cramersche Regel
Wozu braucht man Determinanten?
• Lösung von Gleichungssystemen für 2 und 3 Unbekannte
• Flächen- und Volumenberechnung
• Korrekturfaktor bei Substitutionen in Flächen- und Volumenintegralen
• Berechnung von Eigenwerten für kleine Matrizen
Der Name Determinante“ kommt von ihrer Rolle als entscheidende (determinierende)
”
Größe, ob ein lineares Gleichungssystem singulär ist. Betrachten wir die Lösung eines
linearen Gleichungssystems A~x = ~b mit dem Gauß-Verfahren im Sonderfall, dass A eine
21
(2 × 2)-Matrix ist. Durch Addition des − aa11
-fachen der ersten Zeile zur zweiten erhalten
wir aus der ursprünglichen erweiterten Koeffizientenmatrix
a11 a12 b1
a21 a22 b2
die Matrix in Dreiecksform
a11
a12
b1
0 a22 − a21a11a12 b2 − aa21
b1
11
falls kein Zeilentausch notwendig ist, also wenn a11 6= 0. In diesem Fall ist das System
genau dann singulär, wenn
a22 −
a21 a12
a11 a22 − a21 a12
=
=0
a11
a11
Hierfür ist entscheidend, ob der Zähler verschwindet. Dies motiviert die
104
Definition 7.1.1 Sei A eine (2 × 2)-Matrix. Dann ist die Determinante von A durch
a11 a12 := a11 a22 − a21 a12
det(A) = a21 a22 definiert.
Falls a11 = 0 ist ein Zeilentausch bei der Lösung des Gleichungssystems notwendig. Ein
Zeilentausch (der auch erlaubt ist, wenn a11 6= 0) führt auf die Determinante
a21 a22 = a21 a12 − a11 a22 = − a11 a12 a11 a12 a21 a22 Ein Zeilentausch führt also zu einem Vorzeichenwechsel bei der Determinante.
Satz 7.1.1 Sei A eine (2 × 2)-Matrix.
Dann ist A genau dann invertierbar, wenn det(A) 6= 0. Wenn det(A) 6= 0, dann gilt
1
a22 −a12
−1
A =
det(A) −a21 a11
Die erste Aussage ergibt sich aus den einleitenden Bemerkungen vor der Definition, die
nützliche Formel kann man durch Nachrechnen überprüfen (tun Sie dies, indem Sie AA−1
und A−1 A ausrechnen!).
Satz 7.1.2 (Cramersche Regel) Sei A eine (2 × 2)-Matrix mit det(A) 6= 0 und sei
~b ∈ R2 . Dann hat das lineare Gleichungssystem A~x = ~b die Lösungen
b1 a12 a11 b1 1
1
,
x1 =
x2 =
det(A) b2 a22 det(A) a21 b2 Der Beweis kann durch Einsetzen in das Gleichungssystem erfolgen.
Definition 7.1.2 Sei
det(A) = A eine (3 × 3)-Matrix. Dann ist die Determinante von A durch
a11 a12 a13 a21 a22 a23 := a11 a22 a33 + a12 a23 a31 + a13 a21 a32
−a31 a22 a13 − a32 a23 a11 − a33 a21 a12
a31 a32 a33 definiert.
Die Berechnung der Determinante erfolgt nach dem folgenden Schema, das Regel von
”
Sarrus“ genannt wird:
Ein derartiges Schema liefert nur für (3 × 3)-Matrizen die Determinante, eine Definition
für größere Matrizen erfolgt im nächsten Kapitel.
Satz 7.1.3 Sei A eine (3 × 3)-Matrix. Dann gilt:
105
(a) A ist invertierbar ⇐⇒ det A 6= 0
(b) Wenn det A 6= 0 und ~b ∈ R3 , dann hat das Gleichungssystem A~x = ~b die Lösung
(Cramersche Regel)
b1 a12 a13 a11 b1 a13 1 1 ,
b
a
a
a
b
a
x
=
x1 =
2
22
23
21
2
23
2
det A det
A
a31 b3 a33 b3 a32 a33 a11 a12 b1 1 a21 a22 b2 x3 =
det A a31 a32 b3 Hinweise:
(a) Schon für den hier vorliegenden Fall einer (3 × 3)-Matrix erfordert die Lösung eines
Gleichungssystems nach der Cramerschen Regel mehr Rechenoperationen als die
nach dem Gauß-Verfahren. Man kann die Cramersche Regel zwar für größere Gleichungssysteme entsprechend verallgemeinern, der Rechenaufwand ist jedoch dann
drastisch größer als bei der Anwendung des Gauß-Verfahrens. Für zwei und drei
Gleichungen hat sie jedoch den Vorteil, dass man Gleichungssysteme formelmäßig
auflösen kann, wenn die Koeffizienten nicht zahlenmäßig bekannt sind.
(b)
ax b x ~
ay by = ±|~a| · |b| sin ϕ
für alle Vektoren ~a, ~b ∈ R2 , wobei ϕ der von den beiden Vektoren eingeschlossene
Winkel ist. |det(A)| ist also die Fläche des von den Spaltenvektoren von A aufgespannten Parallelogramms. Dies kann man sich klarmachen, indem man die beiden
Vektoren ~a und ~b durch az = 0 und bz = 0 zu Vektoren in R3 macht und |~a × ~b|
ausrechnet.
(c) Für (3 × 3)-Matrizen A ist |det(A)| das Volumen des von den Spaltenvektoren von
A aufgespannten Parallelepipeds (Spats).
7.2
Laplacesche Entwicklung
Betrachten wir als Beispiele zwei andere Berechnungsmöglichkeiten für Determinanten
von (3 × 3)-Matrizen:
• Entwicklung
a11
a21
a31
nach der 1. Zeile:
a12 a13 a
a
a22 a23 = a11 22 23
a
a
32
33
a32 a33 • Entwicklung
a11
a21
a31
nach der 1. Spalte:
a12 a13 a
a
a22 a23 = a11 22 23
a32 a33
a32 a33 − a12 a21 a23
a31 a33
+ a13 a21 a22
a31 a32
− a21 a12 a13
a32 a33
+ a31 a12 a13
a22 a23
106
• Analog kann eine Entwicklung nach einer anderen Zeile oder Spalte erfolgen. Die Determinante, die als Faktor hinter dem jeweiligen Matrixelement aik kommt, entsteht
durch Streichen der i. Zeile und k. Spalte, das Vorzeichenschema ist schachbrettartig:
+ − + − + − + − + Definition 7.2.1 (Laplacesche Entwicklung) Sei A eine (n × n)-Matrix, sei 1 ≤ i ≤
n und 1 ≤ k ≤ n. Wir bezeichnen hier mit Aik die (n − 1) × (n − 1)-Matrix, die aus A
durch Streichen der i. Zeile und der k. Spalte entsteht. Damit wird rekursiv definiert:
Entwicklung nach der i. Zeile:
n
X
det A :=
(−1)i+k aik det(Aik )
k=1
Entwicklung nach der i. Spalte:
n
X
(−1)i+k aki det(Aki )
det A :=
k=1
Für (1 × 1)-Matrizen a ist det(a) := a definiert.
Hinweise:
(a) Die Entwicklung nach der i. Zeile und die Entwicklung nach der i. Spalte ergeben
denselben Wert für det(A) für alle i = 1, 2, 3, . . . n.
(b) Für n = 2 und n = 3 ist diese Definition äquivalent zu den bisher gegebenen.
(c) Für große n ist die praktische Berechnung von Determinanten nach dieser Definition
extrem rechenaufwändig. Es wird später eine Methode angegeben, die es ermöglicht,
mit dem Gauß-Verfahren Determinanten großer Matrizen (wenn dies denn aus irgendeinem Grund notwendig und sinnvoll ist), zu berechnen.
Berechnungsbeispiel: (Entwicklung nach der 1. Spalte)
2 −1 0
0 2 −1 0 −1 0
0 −1 2 −1 0 = 2 −1 2 −1 + 1 −1 2 −1 0 −1 2 −1 0 −1 2 0 −1 2 0
0 −1 2 2 −1 −1 0 2 −1 + 1
= 2 2 −1 2 + 1 −1 −1 2 −1 2 = 2(2 · 3 − 2) − 3 = 5
107
Merkregel für die Berechnung des Vektorprodukts:
~
~a × b = = ~e1 a1 b1 ~e2 a2 b2 ~e3 a3 b3 a1 b 1 a1 b 1 a2 b2 ~e + ~e
~e − a3 b 3 1 a3 b 3 2 a2 b 2 3
Beachten Sie, dass dies nur als Merkregel aufzufassen ist, die erste Determinante ist keine
richtige“ Determinante. Die Determinante einer Matrix ist stets ein Skalalar!
”
7.3
Eigenschaften der Determinante
Wir führen hier für die Menge aller (n × n)-Matrizen die Schreibabkürzung
Mn := {A | A ist (n × n)-Matrix}
ein. Die Determinante ist also eine Abbildung
Mn → R,
A 7→ det(A)
mit den Eigenschaften (für alle A ∈ Mn )
(a) det(A) = det(AT ) (dies ist für n = 2 trivial, auf einen Beweis für n > 2 wird hier
verzichtet).
(b) Beim Vertauschen zweier Zeilen ändert det(A) das Vorzeichen.
(c) Beim Vertauschen zweier Spalten ändert det(A) das Vorzeichen.
(d) Addition des Vielfachen einer Zeile zu einer anderen ändert den Wert von det(A)
nicht.
(e) Addition des Vielfachen einer Spalte zu einer anderen ändert den Wert von det(A)
nicht. Geometrisch ist dies für n = 2 die Scherungsinvarianz“ der Fläche eines Pa”
rallelogramms, vergleichen Sie hierzu Hinweis (b) nach Satz 7.1.3 sowie die Abb. 14.
(f) Die Determinante einer oberen Dreiecksmatrix ist leicht zu berechnen:
a11 a12 a13 · · · a1n 0 a22 a23 · · · a2n 0
0
a
·
·
·
a
33
3n
= a11 · a22 · a33 · · · ann
..
..
.. . .
.. .
.
.
.
. 0
0
0 · · · ann (60)
Damit kann — wenn unbedingt nötig — die Determinante einer großen Matrix
berechnet werden, indem man sie durch die Operationen des Gauß-Verfahrens (Addition des Vielfachen einer Zeile zu einer anderen sowie gegebenenfalls Zeilentausch)
in eine obere Dreiecksmatrix überführt und dabei festhält, wie oft ein Zeilentausch
erfolgte.
108
(g) Die Abbildung A 7→ det(A) ist
a11 a12 · · ·
a21 a22 · · ·
.
..
..
.
.
.
.
ak1 ak2 · · ·
.
..
..
..
.
.
a
a
···
n1
n2
linear in jeder
a1n a11
a2n a21
.. ..
. .
+
akn bk1
.. ..
. .
a a
nn
Zeile, also
a12 · · ·
a22 · · ·
..
..
.
.
bk2 · · ·
..
..
.
.
an2
n1
a11
a12
a21
a22
..
..
.
.
=
ak1 + bk1 ak2 + bk2
..
..
.
.
an1
an2
···
···
..
.
···
..
.
···
bkn .. . · · · ann a1n
a2n
..
.
akn + bkn ..
.
a
a1n
a2n
..
.
nn
wobei vorausgesetzt ist, dass sich die beiden Matrizen (links vom Gleichheitszeichen)
nur in der k. Zeile unterscheiden, sowie
a11 a12 · · · a1n a11 a12 · · · a1n a21 a22 · · · a2n a21 a22 · · · a2n .
..
..
.. ..
..
.. .
..
.
.
. .
.
. .
.
für alle t ∈ R
=t·
tak1 tak2 · · · takn ak1 ak2 · · · akn .
.
..
..
.. ..
..
.. ..
..
.
.
.
.
.
. a
a
··· a
a
a
··· a n1
n2
nn
n1
n2
nn
(h) Analog ist die Abbildung A 7→ det(A) linear in jeder Spalte.
(i) det(E) = 1 (E ist die Einheitsmatrix)
(j) det(AB) = det(A) · det(B) für alle A, B ∈ Mn
(k) det(A) = 0 ⇐⇒ Rang(A) < n
(l) det(A) 6= 0 ⇐⇒ A ist invertierbar
(m) det(A) 6= 0 =⇒ det(A−1 ) =
7.4
1
det(A)
Determinanten und Permutationen
Definition 7.4.1 Eine Umordnung der Zahlen (1, 2, 3, 4, . . . n) (alle Zahlen verschieden!)
in eine andere Reihenfolge heißt Permutation. Mathematisch ist eine Umordnung“ eine
”
bijektive Abbildung von
{1, 2, 3, 4, . . . n} → {1, 2, 3, 4, . . . n}
Die Menge aller Permutationen der Zahlen (1, 2, 3, 4, . . . n) wird hier mit Sn bezeichnet.
109
Beispiel: Die Menge aller Permutationen der Zahlen (1, 2, 3) ist
S3 = {(1, 2, 3), (1, 3, 2), (3, 1, 2), (2, 1, 3)(2, 3, 1)(3, 2, 1)}
Dieses Beispiel legt die Frage nahe, wieviel Permutationen es gibt (in Abhängigkeit von
n). Für n = 3 sind es gerade 6 = 3 · 2 Permutationen. Aus einer beliebigen Permutation
(i, k, l) für n = 3 erhält man für n = 4 die Permutationen
(4, i, k, l), (i, 4, k, l), (i, k, 4, l), (i, k, l, 4)
und man kann sich überzeugen, dass man aus allen Permutationen für n = 3 auf diese
Weise alle 4 · 6 = 24 Permutationen für n = 4 erhält. Entsprechend erhält man aus einer
beliebigen Permutation (i, k, l, m) für n = 4 die Permutationen für n = 5
(5, i, k, l, m), (i, 5, k, l, m), (i, k, 5, l, m), (i, k, l, 5, m), (i, k, l, m, 5)
und man erhält auf diese Weise alle 5 · 4 · 3 · 2 = 5! = 120 Permutationen für n = 5. Wir
erhalten so das Ergebnis (genauer Beweis durch vollständige Induktion):
Satz 7.4.1 Für alle n ∈ N+ existieren genau n! verschiedene Permutationen der Zahlen
(1, 2, 3, 4. . . . n).
Vertauschungen nächster Nachbarn sind spezielle Permutationen. Permutationen als bijektive Abbildungen der Zahlen {1, 2, 3, . . . n} in sich können hintereinanderausgeführt
werden. Für n = 3 kann man feststellen, dass jede Permutation durch Hintereinanderausführung von Vertauschungen nächster Nachbarn entsteht:
(1, 2, 3) 7→ (1, 3, 2) 7→ (3, 1, 2) 7→ (3, 2, 1) 7→ (2, 3, 1) 7→ (2, 1, 3)
(61)
Dies gilt für alle Permutationen, also für beliebige n ∈ N+ (ohne Beweis):
Satz 7.4.2 Für alle n ∈ N+ erhält man jede Permutation p ∈ Sn durch Hintereinanderausführung von Vertauschungen nächster Nachbarn. Für jedes p ∈ Sn hängt es nur von p
ab, ob die Anzahl dieser Vertauschungen gerade ist (dann heißt p gerade) oder ungerade
ist (dann heißt p ungerade).
Dies erlaubt für alle n ∈ N+ die Definition der folgenden Funktion σ : Sn → {−1, +1},
p 7→ σ(p):
(
+1 falls p gerade
σ(p) :=
(62)
−1 falls p ungerade
Aus (61) erhalten wir für den Fall n = 3 folgende Wertetabelle für diese Funktion σ:
(1, 2, 3) (1, 3, 2) (3, 1, 2) (3, 2, 1) (2, 3, 1) (2, 1, 3)
p
σ(p)
+1
−1
+1
−1
+1
−1
Eine Permutation p ∈ Sn kann einfach durch die Aufzählung der Bilder der Zahlen
1, 2, 3, . . . n, also in der Form p(1), p(2), p(3), . . . p(n) angegeben werden.
Schauen wir uns die Determinante det(A) für beliebiges A ∈ M3 (mit der Regel von
Sarrus oder durch Laplace-Entwicklung berechnet) nochmal an:
a11 a12 a13 a21 a22 a23 = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a13 a22 a31 − a11 a23 a32 − a12 a21 a33
a31 a32 a33 110
Dabei wurden bei den Summanden mit dem −“-Zeichen die Faktoren in der umgekehrten
”
Reihenfolge gegenüber Definition 7.1.2 aufgeschrieben. Es fällt zunächst auf, dass auf der
rechten Seite genau soviel Summanden stehen, wie es Permutationen für n = 3 gibt. In
der Tat kann man alle Summanden in der Form ±a1p(1) a2p(2) a3p(3) schreiben mit p ∈ S3 ,
und das Vorzeichen ist gerade durch σ(p) gegeben. Wir haben also
a11 a12 a13 X
a21 a22 a23 =
σ(p)a1p(1) a2p(2) a3p(3)
a31 a32 a33 p∈S3
Eine entsprechende Aussage ist auch für beliebiges n gültig: (ohne Beweis)
Satz 7.4.3 Sei n ∈ N+ , A eine (n × n)-Matrix und sei σ(p) für p ∈ Sn durch (62)
definiert. Dann gilt
X
det(A) =
σ(p)a1p(1) · a2p(2) · a3p(3) · · · anp(n)
p∈Sn
Hinweis: Auch die Berechnung der Determinante durch Laplace-Entwicklung liefert eine
derartige Summe. Die Berechnung einer Determinante einer (n × n)-Matrix nach der
Definition (ohne die Matrix mit dem Gauß-Verfahren in Dreiecksform zu bringen) führt
also auf eine Summe mit n! Summanden mit jeweils n Faktoren. Aus diesem Grund sind
Verfahren, die die Determinante benutzen, für größere Matrizen ungeeignet.
8
8.1
Eigenwerte
Eigenwerte und Eigenvektoren
Beispiel zur Motivation:
Wir betrachten die lineare Abbildung:
2
2
T :R →R ,
~x 7→ T (~x) = A~x
mit A =
0 1
1 0
Geometrisch ist dies eine Spiegelung (siehe die Abbildung 34). Hier wird die Frage gestellt,
welche Vektoren ihre Richtung beibehalten (oder umkehren). Offensichtlich sind das
(a) die Vektoren in Richtung der Winkelhalbierenden, also Vektoren der Form
u
1
−1
~x =
,
beispielsweise ~x =
oder ~x =
u
1
−1
1
−1
A~x = ~x
für ~x =
und ~x =
1
−1
(b) die Vektoren senkrecht zur Winkelhalbierenden, also Vektoren der Form
u
1
−1
~y =
,
beispielsweise ~y =
oder ~y =
−u
−1
1
1
−1
A~y = −~y = (−1)~y
für ~y =
und ~y =
−1
1
111
Abbildung 34: Spiegelung an der Winkelhalbierenden x1 = x2
Definition 8.1.1 Sei A eine (n × n)-Matrix. Ein Vektor ~x ∈ Rn mit ~x 6= ~0 heißt Eigenvektor (englisch eigenvector) und λ ∈ R (oder λ ∈ C) heißt Eigenwert (englisch
eigenvalue), wenn
A~x = λ~x
λ heißt Eigenwert von A, wenn ein zugehöriger Eigenvektor existiert.
Hinweise:
(a) Wenn ~x Eigenvektor von A ist, dann ist auch t~x Eigenvektor von A für alle t ∈ R
mit t 6= 0, denn
A~x = λ~x =⇒ A(t~x) = tA~x = tλ~x = λ(t~x)
(b) Damit ~x Eigenvektor von A ist, wird verlangt, dass ~x 6= 0, denn es gilt A~0 = 0 · ~0
für alle Matrizen A.
(c) 0 kann jedoch ein Eigenwert von A sein. Nach der Definition ist dies der Fall, wenn
ein Vektor ~x 6= ~0 existiert mit A~x = 0 · ~x = ~0. Also ist 0 genau dann Eigenwert von
A, wenn das homogene lineare Gleichungssystem A~x = ~0 eine nichttriviale Lösung
~x 6= ~0 besitzt, wenn das Gleichungssystem also singulär ist.
(d) Es ist Tradition, dass für Eigenwerte der griechische Buchstabe λ benutzt wird.
Sie können jedoch auch einen anderen lateinischen oder griechischen Buchstaben
benutzen (beispielsweise in der Definition überall λ durch s oder α ersetzen).
Wir können die Bedingung, dass ~x Eigenvektor von A zum Eigenwert λ ist, auch etwas
umformen. Dabei ist E die Einheitsmatrix derselben Größe wie A und ~x 6= ~0.
A~x = λ~x ⇐⇒ A~x = λE~x ⇐⇒ A~x − λE~x = ~0 ⇐⇒ (A − λE)~x = ~0
Also ist λ genau dann Eigenwert von A, wenn die Matrix A − λE nicht invertierbar ist.
Wir haben also
112
Satz 8.1.1 Sei A eine (n × n)-Matrix und E die (n × n)-Einheitsmatrix. Dann ist λ
genau dann Eigenwert von A, wenn
det(A − λE) = 0
Hinweis: Die Gleichung det(A − λE) = 0 heißt charakteristische Gleichung“ von A.
”
Beispiele:
1 1
(a) A =
,
1 2
1 1
1 0
1−λ
1
A − λE =
−λ
=
1 2
0 1
1
2−λ
det(A − λE)q= (1 − λ)(2 − λ) − 1 = 2 − 2λ − λ + λ2 − 1 = λ2 − 3λ + 1 = 0,
√
√
√
also λ = 23 ± 94 − 44 = 23 ± 12 5, λ1 = 32 + 12 5 ≈ 2, 618, λ2 = 23 − 12 5 ≈ 0, 382. Zur
Bestimmung der Eigenvektoren muß für jeden der beiden Werte von λ das homogene
Gleichungssystem (A − λE)x = ~0 gelöst werden, also
1−λ
1
x1
0
=
1
2−λ
x2
0
λ ist so bestimmt worden, dass dieses System singulär ist, daher liefert das GaußVerfahren das äquivalente System (rechnen Sie dies nach!)
1−λ 1
x1
0
=
0
0
x2
0
Die erste Zeile lautet
(1 − λ)x1 + x2 = 0
Die Festlegung x1 = 1 liefert einen Eigenvektor zu λ1 = 32 +
1√
1
~x = 1 1
≈
1, 61
+2 5
2
√
Zu λ2 = 23 − 21 5 erhalten wir einen Eigenvektor
1√
1
~y = 1 1
≈
−0, 618
−2 5
2
1
2
√
5
Beobachtung: Beide Eigenvektoren sind orthogonal:
1 1√ 1 1√
1 5
5)( −
5) = 1 + − = 0
~x · ~y = 1 + ( +
2 2
2 2
4 4
cos ϕ − sin ϕ
cos ϕ − λ − sin ϕ
(b) A =
, A − λE =
sin ϕ cos ϕ
sin ϕ
cos ϕ − λ
det(A − λE)p
= cos2 ϕ − 2λ cos ϕ + λ2 + sin2 ϕ = λ2 − 2 cos(ϕ) · λ + 1 = 0, also
λ = cos ϕ ± cos2 ϕ − 1. Die Matrix beschreibt eine Drehung um den Winkel ϕ
(siehe das Beispiel (a) zu Beginn von Abschnitt 5.3). Es ist daher auch geometrisch
plausibel, dass für ϕ 6= 0 und ϕ 6= π keine reellen Eigenwerte existieren können,
denn bei einer Drehung in der Ebene behält kein Vektor seine Richtung oder kehrt
seine Richtung um (außer für ϕ = 0 oder ϕ = π). Komplexe Eigenwerte hätten
auch komplexe Komponenten für die Eigenvektoren zur Folge. Dies soll hier nicht
behandelt werden.
113
Satz 8.1.2 Sei A eine (n × n)-Matrix und E die (n × n)-Einheitsmatrix. Dann ist
P (x) := det(A − x · E)
(63)
ein Polynom n. Grades. Der Koeffizient von xn ist (−1)n , also hat P (x) die Form
P (x) = b0 + b1 x + b2 x2 + b3 x3 + · · · + (−1)n xn
Hinweis: Das durch (63) definierte Polynom heißt charakteristisches Polynom“.
”
Folgerungen aus Satz 8.1.2:
(a) Die charakteristische Gleichung einer (n × n)-Matrix hat also i.a. n komplexe Lösungen, ihrer Vielfachheit nach gezählt.
(b) Eine (n × n)-Matrix hat höchstens n verschiedene Eigenwerte.
(c) Eine (n × n)-Matrix mit ungeradem n hat mindestens einen reellen Eigenwert, denn
lim P (x) = lim (−1)n xn = −∞ und lim P (x) = lim (−1)n xn = +∞ und
x→∞
x→∞
x→−∞
x→−∞
dazwischen liegt aufgrund des Zwischenwertsatzes mindestens eine reelle Nullstelle.
Weitere Hinweise:
(a) Für gerades n kann es vorkommen, dass eine (n×n)-Matrix keine reellen Eigenwerte
hat. Dies wurde für n = 2 am Beispiel der Matrix deutlich, die eine Drehung um
den Winkel ϕ beschreibt.
(b) Für n ≥ 3 ist es im allgemeinen Fall sehr schwierig, die Eigenwerte durch die Berechnung der Nullstellen des charakteristischen Polynoms zu bestimmen. Für numerische
Verfahren ist es bei großen Matrizen ungünstig, die Eigenwerte durch Berechnung
der Nullstellen des charakteristischen Polynoms zu bestimmen, da der Einfluß von
Rundungsfehlern dann sehr groß ist. Es existieren jedoch numerische Verfahren, die
es erlauben, Eigenwerte auch größerer Matrizen näherungsweise zu berechnen. In
Scilab erhält man durch den Befehl spec(A) alle Eigenwerte der Matrix A zu einem Spaltenvektor zusammengefaßt (siehe auch Abschnitt 6 der Kurzeinführung
”
in Scilab“). Erläuterungen zur Berechnung der Eigenvektoren werden hier später
gegeben.
(c) Da also für n ≥ 3 die Eigenwerte im allgemeinen nur numerisch zu bestimmen sind,
ist es sinnvoll einige allgemeine Aussagen in den folgenden Sätzen zur Verfügung zu
haben.
Satz 8.1.3 Seien λ1 , λ2 , λ3 , . . . λn die n Eigenwerte einer (n × n)-Matrix A, ihrer Vielfachheit als Nullstelle von P (x) = det(A − xE) nach aufgeführt. SpurA sei die Summe
der Diagonalelemente von A, also
n
X
SpurA :=
akk
k=1
Dann gilt
n
X
λk = SpurA
und
λ1 · λ2 · λ3 · · · λn = det(A)
k=1
114
Zum Beweis: Der Beweis der Aussage über SpurA ist etwas schwieriger, der für die
Determinante jedoch einfach: Aufgrund von Satz 8.1.2 gilt für alle x ∈ R
det(A − x · E) = (−1)n · (x − λ1 )(x − λ2 )(x − λ3 ) · · · (x − λn )
Setzt man x = 0, dann erhält man
det(A) = (−1)n (−λ1 )(−λ2 )(−λ3 ) · · · (−λn ) = (−1)2n · λ1 · λ2 · λ3 · · · λn = λ1 · λ2 · λ3 · · · λn
Satz 8.1.4 Sei A eine (2 × 2)-Matrix. Dann lautet ihre charakteristische Gleichung
det(A − xE) = x2 − (SpurA) · x + det(A) = 0
Beweis:
a11 − x
a12
a21
a22 − x
= (a11 − x)(a22 − x) − a21 a12
= x2 − (a11 + a22 )x + a11 a22 − a21 a12
= x2 − (SpurA) · x + det(A)
Satz 8.1.5 Sei A eine symmetrische (n × n)-Matrix mit reellen Matrixelementen, also
AT = A. Dann gilt
(a) Alle Eigenwerte von A sind reell.
(b) Wenn λ1 und λ2 Eigenwerte von A mit den Eigenvektoren ~x und ~y sind und wenn
λ1 6= λ2 , dann gilt ~x ·~y = 0. Die Eigenvektoren zu verschiedenen Eigenwerten sind
also orthogonal.
Beweis:
Aus Gleichung (53) und AT = A folgt die für alle ~x, ~y ∈ Rn gültige Aussage
(A~x) · ~y = ~x · (A~y )
(64)
Dies wird für den Beweis beider Teilaussagen benötigt.
(a) Sei λ = α +jβ ∈ C ein Eigenwert von A mit α, β ∈ R. Den zugehörigen Eigenvektor
bezeichnen wir mit
  

z1
x1 + jy1
 z2   x2 + jy2 
  

~z =  ..  = 
 = ~x + j~y
..
. 

.
zn
xn + jyn
wobei wir davon ausgehen, dass die Komponenten von ~x und ~y reell sind. Um Teilaussage (a) zu beweisen, haben wir nun zu zeigen, dass β = 0. Wir haben
A~z = λ~z = A(~x + j~y ) = (α + jβ)(~x + j~y ) = α~x − β~y + j(β~x + α~y )
= A~x + jA~y
115
Weil die Matrixelemente von A reell sind, folgt daraus
A~x = α~x − β~y
A~y = β~x + α~y
=⇒
=⇒
~y · (A~x) = α~y · ~x − β|~y |2
~x · (A~y ) = β|~x|2 + α~x · ~y
Subtraktion der beiden rechts stehenden Gleichungen und Benutzung von (64) liefert
~x · (A~y ) − ~y · (A~x) = 0 = β(|~x|2 + |~y |2 ) =⇒ β = Im (λ) = 0
denn für einen Eigenvektor gilt stets ~z 6= ~0 und damit |~x|2 + |~y |2 6= 0.
(b)
A~x = λ1~x
A~y = λ2 ~y
=⇒
=⇒
~y · (A~x) = λ1 ~y · ~x
~x · (A~y ) = λ2~x · ~y
Subtraktion der beiden rechts stehenden Gleichungen und Benutzung von (64) liefert
0 = ~x · (A~y ) − ~y · (A~x) = (λ2 − λ1 )~x · ~y =⇒ ~x · ~y = 0
weil laut Voraussetzung λ2 − λ1 6= 0.
Hinweis: Die in Beispiel (a) nach Satz 8.1.1 behandelte Matrix ist symmetrisch. Beide
Eigenwerte sind reell, und es wurde durch explizite Rechnung gezeigt, dass die zugehörigen
Eigenvektoren orthogonal sind.
Satz 8.1.6 Sei A eine (n × n)-Matrix

a11
 0


A= 0
 ..
 .
0
in oberer Dreiecksform, also

a12 a13 · · · a1n
a22 a23 · · · a2n 

0 a33 · · · a3n 

..
.. . .
.. 
. . 
.
.
0
0 · · · ann
Dann sind die Zahlen a11 , a22 , a33 . . . ann die Eigenwerte der Matrix A.
Beweis: Nach (60) lautet die charakteristische Gleichung
det(A − λE) = (a11 − λ)(a22 − λ)(a33 − λ) · · · (ann − λ) = 0
Warnung: Man könnte aufgrund des Satzes auf die Idee kommen, zur Bestimmung der
Eigenwerte eine Matrix mit dem Gauß-Verfahren in obere Dreiecksform zu bringen. Dies
macht keinen Sinn, denn die Operationen des Gauß-Verfahren (Zeilentausch, Addition
des Vielfachen einer Zeile zu einer andern Zeile) ändern die Eigenwerte einer Matrix!
Der folgende Satz stellt eine Zusammenstellung allgemeiner Eigenschaften von Matrizen, Eigenwerten und Eigenvektoren dar:
Satz 8.1.7 Sei A eine (n × n)-Matrix. Dann gilt
(a) A ist genau dann invertierbar, wenn 0 nicht Eigenwert von A ist.
(b) A und AT haben dieselben Eigenwerte.
116
(c) Wenn A invertierbar ist und λ Eigenwert von A mit Eigenvektor ~x ist (wegen (a)
ist λ 6= 0), dann ist λ−1 Eigenwert von A−1 mit demselben Eigenvektor ~x.
(d) Wenn λ Eigenwert von A mit Eigenvektor ~x ist, dann ist für jedes m ∈ N+ λm
Eigenwert der Matrix Am := A · A · · · A (m Faktoren) mit demselben Eigenvektor
~x.
(e) Wenn λ Eigenwert von A mit Eigenvektor ~x ist, dann ist λ + α Eigenwert von
A + αE mit demselben Eigenvektor ~x (E ist die (n × n)-Einheitsmatrix).
Beweis:
(a) A ist nicht invertierbar ⇐⇒ det(A) = 0 ⇐⇒ det(A − 0 · E) = 0 ⇐⇒ 0 ist
Eigenwert von A
(b) det (A − λE)T = det(AT − λET ) = det(AT − λE) = det(A − λE) (siehe (a) in
Abschnitt 7.3), also det(A − λE) = 0 ⇐⇒ det(AT − λE) = 0.
(c) A~x = λ~x =⇒ A−1 A~x = A−1 (λ~x) = λA−1~x = E~x = ~x Multiplikation mit λ−1
liefert A−1~x = λ−1~x.
(d) A~x = λ~x =⇒ AA = A(λ~x) = λ(A~x) = λ · λ~x = λ2~x analog für höhere Potenzen
(ein korrekter Beweis müßte mit vollständiger Induktion erfolgen!)
(e) A~x = λ~x =⇒ (A + αE)~x = A~x + αE~x = λ~x + α~x = (λ + α)~x
Hinweis: Teilaussage (d) ist von entscheidender Bedeutung für die Untersuchung der
Stabilität digitaler Regelungen!
Satz 8.1.8 Seien A und B (n×n)-Matrizen, B sei invertierbar. Dann haben die Matrizen
A und C := B−1 AB dieselben Eigenwerte.
Beweis: Sei A~x = λ~x mit ~x 6= ~0 und sei ~y := B−1~x. Dann gilt
C~y = B−1 AB~y = B−1 ABB−1~x = B−1 AE~x = B−1 A~x = B−1 (λ~x) = λB−1~x = λ~y
Sei umgekehrt C~y = λ~y mit ~y 6= 0 und sei ~x := B~y . Aus C = B−1 AB folgt durch
Multiplikation mit B von links
BC = BB−1 AB = EAB = AB
Multiplikation beider Seiten mit B−1 von rechts liefert A = BCB−1 . Damit erhalten wir
A~x = BCB−1~x = BCB−1 B~y = BCE~y = BC~y = B(λ~y ) = λB~y = λ~x
Hinweis: Der Beweis zeigt darüber hinaus, wie man aus den Eigenvektoren von A die
Eigenvektoren von C bekommt und umgekehrt. Wir werden dies bei späteren Rechnungen
benötigen.
Satz 8.1.9 Sei A eine (n × n)-Matrix und sei B := AT A. Dann hat B nur reelle und
nicht negative Eigenwerte (die Eigenwerte λ von B erfüllen also λ ≥ 0).
117
Beweis: BT = (AT A)T = AT (AT )T = AT A = B (siehe Satz 5.6.1), also ist B symmetrisch und hat nach Satz 8.1.5 nur reelle Eigenwerte. Sei λ ein Eigenwert von B mit
Eigenvektor x. Mit (53) und (AT )T = A erhalten wir
~x · (B~x) = ~x · (AT A~x) = ~x · AT (A~x) = (AT )T~x) · A~x = (A~x) · (A~x) = |A~x|2
= ~x · (λ~x) = λ(~x · ~x) = λ|~x|2 ≥ 0
Dies ist nur möglich, wenn λ ≥ 0, denn ~x 6= ~0 (als Eigenvektor und damit |~x|2 > 0) und
|A~x|2 ≥ 0.
8.2
Vielfachheit von Eigenwerten
Beispiele:
2 0
(a) A =
, die Eigenwerte erhält man aus det(A − λE) = (2 − λ)2 = 0, also
0 2
ist λ = 2 eine zweifache Nullstelle des charakteristischen Polynoms. Jeder Vektor
~x ∈ R2 ist Eigenvektor, und wir haben eine Basis von Eigenvektoren, beispielsweise
{~e1 , ~e2 }.
2 1
(b) B =
, det(B − λE) = (2 − λ)2 = 0 liefert erneut λ = 2 als zweifache
0 2
Nullstelle des charakteristischen Polynoms. Eigenvektoren sind die nichttrivialen
Lösungen ~x 6= ~0 des Gleichungssystems (B − 2 · E)~x = ~0, ausgeschrieben
0x1 + 1x2 = 0;
0x1 + 0x2 = 0
Die Lösungsmenge des Gleichungssystems
ist {~x ∈ R2 | x2 = 0}, und alle Ei t
genvektoren haben die Form ~x =
mit t 6= 0, sind also skalare Vielfache des
0
1
Eigenvektors ~e1 =
.
0
Definition 8.2.1 Sei λ ein Eigenwert der (n × n)-Matrix A. Der Eigenraum zum Eigenwert λ ist
Uλ := {~x ∈ Rn | A~x = λ~x}
Die geometrische Vielfachheit von λ ist die Dimension des Unterraums Uλ (d.h. die
maximale Anzahl linear unabhängiger Vektoren in Uλ ). Die algebraische Vielfachheit
von λ ist die Vielfachheit von x = λ als Nullstelle des charakteristischen Polynoms P (x) =
det(A − x · E).
Hinweise:
(a) Uλ ist tatsächlich ein Unterraum von Rn , seine Elemente sind die Eigenvektoren und
der Nullvektor. Er ist die Lösungsmenge des homogenen linearen Gleichungssystems
(A − λE)~x = ~0.
(b) Beim Beispiel (a) ist für λ = 2 die geometrische und die algebraische Vielfachheit
2, beim Beispiel (b) dagegegen ist für λ = 2 die geometrische Vielfachheit 1 und die
algebraische Vielfachheit 2. Im allgemeinen ist stets die geometrische Vielfachheit
eines Eigenwerts kleiner oder gleich seine algebraische Vielfachheit.
118
8.3
Diagonalisierung von Matrizen
In vielen Situationen möchte man eine Beziehung der Art
y = Ax
durch eine Matrix beschreiben, die einfacher ist als A. Hierzu kann man statt x einen
neuen“ Vektor u benutzen mit der Umrechnung x = Bu, also u = B−1 x. Entsprechend
”
nimmt man v statt y mit y = Bv. Man hat also
y = Ax = ABu = Bv
und damit
v = B−1 ABu
Die neue“ Matrix C entsteht also aus der alten“ durch
”
”
C = B−1 AB
sie hat also nach Satz 8.1.8 dieselben Eigenwerte. Das Ziel in der Praxis ist, durch eine geschickte Wahl von B die Matrix A durch eine einfachere Matrix C zu ersetzen. Besonders
einfach sind Matrizen,
der Hauptdiagonale nur Nullen haben.
die außerhalb
1 2
Beispiel: A =
, mit dem Eigenwert λ1 = 3 und dem zugehörigen Eigenvek2 1
1
1
tor ~u =
sowie dem Eigenwert λ2 = −1 mit dem zugehörigen Eigenvektor ~v =
.
1
−1
Wir stellen uns nun als Aufgabe, eine Matrix B zu konstruieren mit der Eigenschaft
3 0
−1
C = B AB =
(65)
0 −1
Die Matrix C ist einfacher, sie muß dieselben Eigenwerte wie A haben, die Eigenvektoren sind ~e1 und ~e2 . Wenn wir auf diese Weise eine Matrix in Diagonalform bekommen,
dann stehen auf der Hauptdiagonalen die Eigenwerte von A. Der Beweis von Satz 8.1.8
gibt uns einen Hinweis, wie wir die Matrix B konstruieren können: Diese bildet nämlich
die Eigenvektoren von C auf die Eigenvektoren von A ab. Wir wählen also die lineare
Abbildung
T : R2 → R2 ,
~e1 7→ T (~e1 ) = ~u, ~e2 7→ T (~e2 ) = ~v
Damit ist die lineare Abbildung eindeutig festgelegt, denn jeder Vektor ~x ∈ R2 erfüllt
~x = x1~e1 + x2~e2 und damit gilt
T (~x) = T (x1~e1 + x2~e2 ) = x1 T (~e1 ) + x2 T (~e2 ) = x1~u + x2~v
Wir definieren versuchsweise die Matrix B als die Matrix, die T (~x) = B~x für alle ~x ∈ R2
erfüllt. Nach Satz 5.3.2 ( Die Spalten der Matrix sind die Bilder der Einheitsvektoren“)
”
erhalten wir
u1 v1
1 1
B=
=
u2 v2
1 −1
mit det(B) = −2. Mit Satz 7.1.1 können wir die inverse Matrix sofort aufschreiben:
1 1 1
−1
B =
2 1 −1
119
Durch explizites Multiplizieren der Matrizen können wir nun überprüfen, dass wir unser
Ziel tatsächlich erreicht haben und mit dieser Matrix B tatsächlich Gleichung (65) erfüllt
ist. Statt der umständlichen Multiplikation
1 1 1
1 2
1 1
2 1
1 −1
2 1 −1
ist die folgende Rechnung einfacher:
(B−1 AB)~x = (B−1 AB)(x1~e1 + x2~e2 ) = B−1 A(x1 B~e1 + x2 B~e2 ) = B−1 A(x1~u + x2~v )
= B−1 (x1 A~u + x2 A~v ) = B−1 (x1 λ1~u + x2 λ2~v ) = λ1 x1 B−1~u + λ2 x2 B−1~v
= λ1 x1~e1 + λ2 x2~e2
Speziell für ~x = ~e1 und ~x = ~e2 erhalten wir damit
λ1
3
0
0
−1
−1
(B AB)~e1 = λ1~e1 =
=
und
(B AB)~e2 = λ2~e2 =
=
0
0
λ2
−1
Nach der Merkregel Die Spalten der Matrix sind die Bilder der Einheitsvektoren“ erhalten
”
wir das gewünschte Ergebnis
λ1 0
3 0
−1
B AB =
=
0 λ2
0 −1
Für diese Vorgehensweise ist entscheidend, dass ~u und ~v , die beiden Eigenvektoren von
A, linear unabhängig sind (sonst wäre die so konstruierte Matrix B nicht invertierbar).
Für den allgemeinen Fall ist daher der folgende Satz nützlich:
Satz 8.3.1 Sei A eine (n × n)-Matrix. Dann sind die Eigenvektoren zu verschiedenen
Eigenwerten linear unabhängig.
Hinweis zum Beweis: Wir führen den Beweis nur für den Fall von zwei Eigenvektoren,
also für A~u = λ1~u und A~v = λ2~v mit λ1 6= λ2 . Wir haben also zu zeigen, dass die
Gleichung s~u + t~v = ~0 nur für s = t = 0 möglich ist. Multiplikation beider Seiten der
Gleichung mit A, λ1 und λ2 ergibt die drei Gleichungen
λ1 s~u + λ2 t~v = ~0,
λ1 s~u + λ1 t~v = ~0,
λ2 s~u + λ2 t~v = ~0
Zieht man die zweite von der ersten ab, dann erhält man (λ2 − λ1 )t~v = ~0 und damit t = 0.
Subtraktion der dritten von der ersten Gleichung liefert analog s = 0. Auf entsprechende
Weise kann man durch vollständige Induktion beweisen, dass Eigenvektoren ~u1 , ~u2 . . . ~um
mit Eigenwerten λ1 , λ2 , . . . λm stets linear unabhängig sind, wenn die Eigenwerte alle
verschieden sind. Beachten Sie, dass m ≤ n, denn es kann höchstens n verschiedene
Eigenwerte geben.
Definition 8.3.1 Die (n×n)-Matrix A heißt diagonalisierbar, wenn eine invertierbare
Matrix B existiert mit


λ1 0 0 · · · 0
 0 λ2 0 · · · 0 




B−1 AB =  0 0 λ3 · · · 0 
(66)
 ..
..
.. . .
.. 
 .
. . 
.
.
0 0 0 · · · λn
Dabei sind λ1 , λ2 , λ3 . . . λn die Eigenwerte von A (nicht notwendigerweise verschieden)
und in der rechten Matrix stehen außerhalb der Hauptdiagonalen nur Nullen.
120
Satz 8.3.2 Die (n × n)-Matrix A ist genau dann diagonalisierbar, wenn die geometrische
und die algebraische Vielfachheit aller n Eigenwerte übereinstimmen. Jede der folgenden
Bedingungen ist hinreichend dafür, dass die Matrix A diagonalisierbar ist:
(a) Alle n Eigenwerte von A sind algebraisch einfach (also verschieden).
(b) A ist symmetrisch, also AT = A.
Hinweis zum Beweis: Wir beweisen hier nur, dass A diagonalisierbar ist, wenn alle
Eigenwerte verschieden sind. Wir wählen Eigenvektoren ~u1 , ~u2 . . . ~un zu den Eigenwerten
λ1 , λ2 . . . λn und setzen diese Vektoren spaltenweise zur Matrix B zusammen. Die Matrix
B erfüllt also
B~ek = ~uk
für k = 1, 2, . . . n
Nach Satz 8.3.1 sind die Spaltenvektoren linear unabhängig, also ist B invertierbar. Die
inverse Matrix gehört zur Umkehrabbildung, wir haben also
B−1~uk = ~ek
für k = 1, 2, . . . n
Wir haben damit für k = 1, 2, . . . n
(B−1 AB)~ek = B−1 A~uk = B−1 (λk ~uk ) = λk B−1~uk = λk~ek
Nach der Merkregel Die Spalten der Matrix sind die Bilder der Einheitsvektoren“ haben
”
wir damit Gleichung (66) erhalten.
Hinweis: Beachten Sie, dass im Satz ausdrücklich von n Eigenwerten gesprochen wird.
Wenn man sich auf reelle Eigenwerte und reelle Matrixelemente beschränkt, dann ist eine
(n × n)-Matrix A, die weniger als n reelle Eigenwerte besitzt, nicht diagonalisierbar.
Beispiel:


7 1 0
A= 0 7 1 
det(A − λE) = (7 − λ)3
0 0 7
also ist λ = 7 algebraisch dreifacher Eigenwert. Der Eigenraum Uλ ist die Lösungsmenge
des Gleichungssystems (A − 7E)~x = ~0, ausgeschrieben

   
0 1 0
x1
0
 0 0 1  x2  = 0
0
0 0 0
x3
also
x2 = 0, x3 = 0 und
Uλ = {~x ∈ R3 | x2 = x3 = 0} = {t~e1 | t ∈ R},
dim(Uλ ) = 1
und λ = 7 ist geometrisch nur einfacher Eigenwert. Also ist A nicht diagonalisierbar. Dies
kann man hier auch direkt einsehen: Wir nehmen an, es würde eine Matrix existieren mit


7 0 0
B−1 AB =  0 7 0  = 7 · E
0 0 7
Daraus folgt B−1 AB~ek = 7E~ek = 7~ek für k = 1, 2, 3 und daraus erhält man durch
Multiplikation mit B
AB~ek = B(7~ek ) = 7B~ek
121
Dies hieße, dass für die drei Spaltenvektoren ~uk := B~ek gilt A~uk = 7~uk , sie wären also
Eigenvektoren von A. Als Spaltenvektoren einer invertierbaren Matrix sind sie linear
unabhängig. Dies ist im Widerspruch zu den obigen Ergebnissen, dass alle Eigenvektoren
von A skalare Vielfache von ~e1 sind.
Eine entsprechende Überlegung kann man auch im allgemeinen Fall anstellen:
Satz 8.3.3 Wenn die (n × n)-Matrix A diagonalisierbar ist, wenn also eine Matrix B
existiert mit
B−1 AB = D
wobei D eine Matrix ist, bei der auf der Hauptdiagonale die Eigenwerte λk = dkk von A
und außerhalb überall Nullen stehen, dann ist für k = 1, 2 . . . n der k. Spaltenvektor von
B ein Eigenvektor zum Eigenwert λk = dkk .
Hinweis: Aus der Konstruktion der Matrix B im Beweis von Satz 8.3.2 ist klar, dass
die Matrix B nicht eindeutig ist. Man kann beispielsweise in der Konstruktion jeden
Eigenvektor mit einer reellen Zahl tk 6= 0 multiplizieren und erhält dann eine andere
Matrix B, die A diagonalisiert.
In Scilab ist eine solche Matrix B und die Diagonalmatrix D durch das Kommando [D,B]=bdiag(A)] erhältlich. Falls A nicht diagonalisierbar ist, dann ist das an der
Matrix D ersichtlich: diese ist dann nicht diagonal. Wenn in einer Spalte in D außerhalb
der Hauptdiagonale nichtverschwindende Matrixelemente stehen, ist die entsprechende
Spalte von B kein Eigenvektor. Dies ist dann der Fall, wenn die geometrische Vielfachheit eines Eigenwerts kleiner als seine algebraische Vielfachheit ist oder wenn nicht n
reelle Eigenwerte existieren (ihrer Vielfachheit nach gezählt). Nähere Erläuterungen zur
numerischen Berechnung von Eigenwerten und Eigenvektoren stehen in Abschnitt 6 der
Kurzeinführung in Scilab“.
”
9
9.1
Weitere Methoden der Algebra in der Nachrichtentechnik: ein Ausblick
Polynome und Körpererweiterungen
In diesem Unterabschnitt werden einige Vorbereitungen getroffen, die zum Verständnis der
in der modernen Nachrichtentechnik gebräuchlichen Codes notwendig sind. Wir hatten
in der Analysis Polynome als Funktionen der Form f (x) = a0 + a1 x + a2 x2 + · · · + an xn
definiert. Das ist hier nicht allgemein genug, denn wir haben insgesamt nur 4 verschiedene
Funktionen Z22 → Z22 . Wir verstehen unter Polynomen mit Koeffizienten aus einem Körper
K formale Summen der Form
f (X) = a0 + a1 X + a2 X 2 + a3 X 3 + · · · + an X n
mit ak ∈ K
wobei nicht festgelegt ist, aus welcher Menge X sein soll, X steht einfach als Platzhalter.
f heißt Polynom n. Grades, wenn an 6= 0. Wir schreiben dies als grad(f ) = n. Polynome
0. Grades sind die Konstanten a0 6= 0, a0 ∈ K. Dem Nullpolynom f (X) = 0 wird kein
Grad (oder der Grad −1 oder −∞) zugewiesen.
Es werden für die Addition und die Multiplikation von zwei Polynomen die Rechenregeln
aX n + bX n = (a + b)X n , X n X m = X n+m
122
für alle a, b ∈ K und alle m, n ∈ N vereinbart. Mit diesen Rechenregeln ist gewährleistet,
dass die Summe und das Produkt von zwei Polynomen wieder ein Polynom ist (beim
Produkt einfach ausmultiplizieren und nach Potenzen von X sortieren). Ebenso kann
ein Polynom mit einem Element des Körpers K multipliziert werden. Die Menge aller
Polynome mit Koeffizienten in K wird mit K[X] bezeichnet. So sind beispielsweise
f (X) = 1 + X
und
g(X) = 1 + X + X 2
Polynome in Z2 [X], die
f (X)g(X) = (1 + X)(1 + X + X 2 ) = 1 + X + X 2 + X + X 2 + X 3 = 1 + X 3
erfüllen, denn X + X = 1X + 1X = (1 + 1)X = 0X = 0 (beachten Sie 1 + 1 = 0), analog
X 2 + X 2 = 0. Aufgrund der für X n vereinbarten Potenzrechenregel haben wir für das
Produkt von zwei Polynomen
grad(f g) = grad(f ) + grad(g)
Ein Polynom ist gegeben durch den Vektor der Koeffizienten. Zwei Polynome sind also
genau dann gleich, wenn alle Koeffizienten übereinstimmen. Die Summe ist so definiert,
dass die Koeffizientenvektoren komponentenweise zu addieren sind. Wenn sie ungleich
lang sind, dann ist der kürzere Vektor (der zum Polynom mit niedererem Grad gehört)
mit Nullen zu verlängern.
Ein Element t ∈ K heißt Nullstelle des Polynoms f (X) = a0 +a1 X +a2 X 2 +· · ·+an X n ,
wenn f (t) = a0 +a1 t+a2 t2 +· · ·+an tn = 0. In diesem Fall kann (wie in R[X]) ein Polynom
ersten Grades X − t ausgeklammert werden und wir haben
f (X) = (X − t)(b0 + b1 X + b2 X 2 + · · · + bn−1 X n−1 )
und die Koeffizienten bk können mit dem Horner-Schema oder durch Polynomdivision
berechnet werden.
Wenn ein Polynom f (X) ∈ K[X] keine Nullstelle hat, dann kann man sich fragen, ob
man den Körper K geeignet erweitern kann, also einen größeren Körper findet, in dem K
eine Teilmenge ist und in dem f (X) eine Nullstelle hat. Wir sind in R so vorgegangen. Das
Polynom f (X) = 1 + X 2 hat in R keine Nullstelle. Wir haben dann einfach angenommen,
dass in einem größeren Körper eine Nullstelle j existiert, also 1 + j 2 = 0 erfüllt ist.
Aus den Rechenregeln für Körper und dieser Annahme haben wir dann den Körper der
komplexen Zahlen konstruiert als die Menge der Zahlen a + b · j mit a, b ∈ R. Mit der
Gleichung j 2 = −1 kann man dann die bei Produkten auftretenden höheren Potenzen von
j ausrechnen, so dass man in der Tat immer wieder Zahlen der Form x + jy als Ergebnis
der elementaren Rechenoperationen bekommt.
Wir haben bei den Restklassen Zn gesehen, welche Rechenregel problematisch ist,
wenn man in einer Menge eine Addition und Multiplikation definiert hat und sich fragt,
ob ein Körper entstanden ist: es ist die Auflösbarkeit von Gleichungen der Form ax = 1
nach x. Ein unüberwindbares Hindernis sind hierfür Elemente mit ab = 0 und a 6= 0 und
b 6= 0. Bei der Konstruktion von C ging alles gut, denn wir haben (durch Erweitern mit
dem konjugiert Komplexen des Nenners) explizit eine Lösung z = x + jy von wz = 1 bei
gegebenem w 6= 0 konstruiert.
Im allgemeinen Fall ist ein wichtiges Ergebnis, dass eine derartige Konstruktion zur
Erweiterung eines Körpers erfolgreich ist, wenn das Polynom f (X) nicht auf nichttriviale
123
Weise in ein Produkt zerlegbar ist. Jedes Polynom kann in trivialer Weise
als Produkt
−1
geschrieben werden durch f (X) = 1 · f (X) oder f (X) = a · a f (X) mit a ∈ K. Eine
Zerlegung als Produkt ist also nichttrivial, wenn jeder der Faktoren einen Grad hat, der
echt kleiner als der von f (X) ist. Eine ähnliche Situation hat man auch bei Zahlen. Zahlen,
die nicht in nichttrivialer Weise als Produkt zerlegbar sind, sind Primzahlen. Entscheidend
für den Erfolg der Konstruktion von C ist also, dass f (X) = 1 + X 2 in R[X] nicht als
nichttriviales Produkt von zwei Polynomen schreibbar ist.
Nach diesen Vorbereitungen können wir uns Erweiterungen des Körpers Z2 zuwenden,
die bei der Kanalkodierung eine wichtige Rolle spielen.
Beispiele für Erweiterungen von Z2 :
(a) Das Polynom f (X) = X 2 + X + 1 hat in Z2 keine Nullstelle. Dies ist einfach
nachzuprüfen, denn Z2 hat nur 2 Elemente: f (0) = 1, f (1) = 1 + 1 + 1 = 1. Es
hat den Grad 2. Wenn man es als Produkt von zwei Polynomen niedereren Grades
f (X) = f1 (X)f2 (X) schreiben könnte, dann hätten die Faktoren zwangsläufig beide
den Grad 1. Die einzigen Polynome vom Grad 1 in Z2 [X] sind X und 1 + X und
beide haben eine Nullstelle. Also kann f (X) tatsächlich nicht als nichttriviales Produkt zweier Polynome in Z2 [X] geschrieben werden. Wir können unser erfolgreiches
Konzept zur Konstruktion von C hier anwenden. Wir führen als Element α eines zu
konstruierenden größeren Körpers eine Nullstelle von f (X) ein (analog zu j). Wir
haben dann für dieses α die Rechenregel
f (α) = α2 + α + 1 = 0
oder
α2 = 1 + α
Dabei haben wir nach α2 aufgelöst, indem wir α + 1 auf beiden Seiten addiert
haben. Damit können wir in Produkten höhere Potenzen von α ersetzen. Unser
neuer, größerer Körper ist damit explizit
K = GF(4) := {0, 1, α, 1 + α}
Die Bezeichnungsweise gibt an, dass er 4 Elemente hat. Mit den Rechenregeln für
Körper und α2 = 1 + α bekommen wir als Vorbereitung für die Additions- und
Multiplikationstabelle:
α + α = (1 + 1)α = 0
(1 + α)(1 + α) = 1 + α + α + α2 = 1 + α2 = 1 + 1 + α = α
α3 = α2 · α = (1 + α) · α = α + α2 = α + 1 + α = 1
Als Ergebnis erhalten wir die Tabellen
0
1
α
1+α
+
0
0
1
α
1+α
1
1
0
1+α
α
α
1+α
0
1
α
1+α 1+α
α
1
0
·
0
1
α
1+α
0
1
α
1+α
0
0
0
0
0
1
α
1+α
0
α
1+α
1
0 1+α
1
α
Aufgrund der Rechenregel α2 = 1 + α können wir auch schreiben
K = GF(4) = {0, 1, α, α2 }
124
und wir haben bereits α3 = 1 ausgerechnet. Als weitere Nullstelle unseres Ausgangspolynoms f (X) = X 2 + X + 1 kommt nur α2 = 1 + α infrage. Durch Nachrechnen
erhält man in der Tat
f (α2 ) = α4 + α2 + 1 = α3 · α + 1 + α + 1 = α + α = 0
Wenn wir es als Polynom in GF(4)[X] auffassen, dann können wir es als Produkt
schreiben
f (X) = (X − α)(X − α2 )
Aus der Multiplikationstabelle ist direkt sichtbar, dass für jedes a ∈ GF(4) mit
a 6= 0 die Gleichung ax = 1 eine eindeutige Lösung x ∈ GF(4) besitzt.
(b) Dasselbe Spiel nochmal mit g(X) = X 3 + X + 1. Wir haben in Z2 keine Nullstelle,
denn g(0) = 1, g(1) = 1+1+1 = 1. Wir haben grad(g) = 3, bei einem nichttrivialen
Produkt g(X) = g1 (X)g2 (X) müsste mindestens einer der beiden Faktoren Grad 1
und damit eine Nullstelle haben. Also existiert keine nichttriviale Zerlegung in ein
Produkt. Wir erweitern den Körper Z2 um eine Nullstelle β dieses Polynoms und
haben damit zusätzlich zu den Körperaxiomen die Rechenregel
β3 + β + 1 = 0
oder
β3 = 1 + β
Wir können also alle Potenzen β n mit n ≥ 3 ausdrücken durch Polynome höchstens
zweiten Grades in β. Unser neuer Körper besteht also aus Elementen der Form
a0 + a1 β + a2 β 2
mit ak ∈ Z2
Jedes Element aus diesem Körper ist durch die drei Zahlen a0 , a1 , a2 mit ak = 0 oder
ak = 1 charakterisiert, und wir haben insgesamt 23 = 8 verschiedene Elemente. Der
Körper heißt daher GF(8). Es ist vorteilhafter, die Elemente durch Potenzen von β
zu charakterisieren. Mit Hilfe der definierenden Rechenregel β 3 = 1 + β erhalten wir
β4
β5
β6
β7
=
=
=
=
β · β3
β · β4
β · β5
β · β6
= β(β + 1) = β 2 + β
= β(β 2 + β) = β 3 + β 2 = β 2 + β + 1
= β(β 2 + β + 1) = β 3 + β 2 + β = β 2 + β + β + 1 = β 2 + 1
= β(β 2 + 1) = β 3 + β = 1 + β + β = 1
Wir können daher schreiben
GF(8) = {0, 1, β, β 2 , β 3 β 4 , β 5 , β 6 }
und haben die Additions- und Multiplikationstabelle
+
0
1
β
β2
β3
β4
β5
β6
0
0
1
β
β2
β3
β4
β5
β6
1
1
0
β3
β6
β
β5
β4
β2
β
β
β3
0
β4
1
β2
β6
β5
β2
β2
β6
β4
0
β5
β
β3
1
β3
β3
β
1
β5
0
β6
β2
β4
β4
β4
β5
β2
β
β6
0
1
β3
β5
β5
β4
β6
β3
β2
1
0
β
β6
β6
β2
β5
1
β4
β3
β
0
125
·
0
1
β
β2
β3
β4
β5
β6
0
0
0
0
0
0
0
0
0
1
0
1
β
β2
β3
β4
β5
β6
β
0
β
β2
β3
β4
β5
β6
1
β2
0
β2
β3
β4
β5
β6
1
β
β3
0
β3
β4
β5
β6
1
β
β2
β4
0
β4
β5
β6
1
β
β2
β3
β5
0
β5
β6
1
β
β2
β3
β4
β6
0
β6
1
β
β2
β3
β4
β5
Durch Nachschauen in den Tabellen kann man sich überzeugen, dass die Gleichung
a + x = 0 für alle a ∈ GF(8) eine eindeutige Lösung x = −a = a hat, und entsprechend für alle a 6= 0 die Gleichung ax = 1 eine eindeutige Lösung x = a−1 hat. Wir
haben β als Nullstelle des Polynoms g(X) = X 3 + X + 1 unserem Körper hinzugefügt. Für die Beurteilung von Codes, die mit diesem Polynom erzeugt werden, ist
es von Interesse, zu überprüfen, welche höheren Potenzen von β ebenfalls Nullstellen
sind. Nachrechnen ergibt
g(β 2 ) = β 6 + β 2 + 1 = 1 + 1 = 0
g(β 3 ) = β 18 + β 3 + 1 = β 4 + β = β 2 6= 0
Durch Polynomdivision oder mit dem Horner-Schema kann man die vollständige
Zerlegung in Linearfaktoren
g(X) = (X + β)(X + β 2 )(X + β 4 )
und damit die dritte Nullstelle β 4 erhalten.
Bei Codes, die durch Polynome in Z2 [X] erzeugt werden, erhält man über derartige Erweiterungskörper eine bessere Einsicht, so wie es oft vorteilhaft ist, in C statt in R zu
arbeiten.
9.2
Zyklische Codes
Sehr viele in der Praxis nützliche Codes sind zyklische Codes.
Definition 9.2.1 Ein Code C heißt zyklisch, wenn
c = (c0 , c1 , c2 , . . . cn−1 ) ∈ C =⇒ (cn−1 , c0 , c1 , . . . cn−2 ) ∈ C
wenn also die zyklische Vertauschung eines Codewortes stets wieder ein Codewort liefert.
Zyklische Vertauschungen kann man sehr leicht mit Hilfe von Polynomen beschreiben.
Jedem Vektor c = (c0 , c1 , c2 , . . . cn−1 ) ∈ Zn2 kann man eindeutig das Polynom höchstens
(n − 1). Grades c0 + c1 X + c2 X 2 + · · · + cn−1 X n−1 zuordnen, umgekehrt kann man jedem
Polynom höchstens (n − 1). Grades den Vektor c ∈ Zn2 der Koeffizienten zuordnen. Bei
Polynomen erreicht man eine Verschiebung der Koeffizienten durch eine Multiplikation
mit X, denn
X · (c0 + c1 X + c2 X 2 + · · · + cn−1 X n−1 ) = c0 X + c1 X 2 + c2 X 3 + · · · + cn−1 X n
Dabei wird jedoch der Grad des Polynoms um 1 erhöht, und man fügt eine 0 als Koeffizienten von X 0 ein. Eine zyklische Vertauschung erhält man, wenn man die Regel“
”
X n = 1 vereinbart. Dann erhält man durch Multiplikation mit X das neue Polynom
cn−1 + c0 X + c1 X 2 + c2 X 3 + · · · cn−2 X n−1 , man bekommt also tatsächlich die gewünschte
zyklische Vertauschung.
Schauen wir uns einmal an, was die Anwendung dieser Regel bei beliebigen Polynomen
bewirkt. Diese Regel bedeutet, dass wir das Polynom X n −1 als das Nullpolynom ansehen.
Wenn wir also von einem gegebenen Polynom X n − 1 abziehen, dann sehen wir das
neue Polynom als dasselbe wie das ursprüngliche an, und wir können dies auch mehrfach
durchführen. Wenn f (X) ein beliebiges Polynom ist, dann haben wir auch das Produkt
126
f (X)·(X n −1) als das Nullpolynom anzusehen. Mit Hilfe des Divisionsalgorithmus können
wir jedes beliebige Polynom schreiben als
p(X) = q(X) · (X n − 1) + r(X)
Dabei ist r(X) der Rest bei der Division, sein Grad ist kleiner als n, also höchstens
n − 1. Mit Hilfe dieser Regel können wir also aus der Menge aller Polynome die Menge
der Polynome höchstens n. Grades erzeugen, und die Anwendung dieser Regel bedeutet
nichts anderes als die Bildung des Rests bei Division durch X n − 1. Mathematisch wird
die auf diese Weise erzeugte Menge aller Polynome höchstens (n − 1). Grades mit der
Polynommultiplikation und anschließender Bildung des Restes mit dem Symbol
K[X]/hX n − 1i
bezeichnet.
Diese Vorgehensweise sollte Ihnen eigentlich bekannt vorkommen. Im Unterabschnitt 6.1
erhielten wir die Menge Zn aus der Menge der ganzen Zahlen mit Hilfe der Regel“
”
n≡0
(mod n)
Addition und Multiplikation sind so definiert, dass stets der Rest bei Division durch
n zu bilden ist. Wir sehen also in Zn die Zahlen n, −n, 2n, −2n als 0 an, so wie wir
hier alle Vielfache von X n − 1 als Nullpolynom ansehen. Bezeichnet man die Menge der
ganzzahligen Vielfachen von n mit nZ, dann kann man
Zn = Z/nZ
schreiben.
Schauen wir uns nun an, wie diese Überlegungen nutzbringend bei der Codierung
einzusetzen sind. Wir betrachten als Beispiel den Code, der durch die Prüfmatrix


1 0 0 1 0 1 1
H = 0 1 0 1 1 1 0
0 0 1 0 1 1 1
beschrieben wird. Aus den Überlegungen von Unterabschnitt 6.3 folgt, dass wir Codeworte von 7 Bits und Datenworte von 4 Bits haben. Aus dieser Form der Prüfmatrix
ist überhaupt nicht klar, wie sie konstruiert wurde. Hierzu haben wir Methoden des
Unterabschnitts 9.1 anzuwenden. Jedem Vektor a = (a0 , a1 , a2 ) können wir das Element a0 + a1 β + a2 β 2 ∈ GF (8) zuordnen, wobei wir mit β die Nullstelle des Polynoms g(X) = 1 + X + X 3 bezeichnet haben. Beachten Sie, dass wir dabei die Regel“
”
1 + β + β 3 = 0 benutzt haben. In der hier eingeführten Schreibweise bedeutet dies, dass
wir die Konstruktion
GF (8) = Z2 [X]/h1 + X + X 3 i
benutzt haben. Wenn wir nun jeden Spaltenvektor a von H als Polynom a0 + a1 β + a2 β 2
ansehen und die in Unterabschnitt 9.1 aufgestellten Regeln für die höheren Potenzen von
β benutzen, dann können wir die Prüfmatrix schreiben als
H = 1 β β2 β3 β4 β5 β6
127
Die Prüfbedingung cHT = 0 kann dann ebenfalls ganz einfach geschrieben werden, wenn
man dem Codewort c = (c0 , c1 , c2 , . . . c6 ) das Codewort-Polynom
c(X) = c0 + c1 X + c2 X 2 + · · · + c6 X 6
zuordnet. Dann lautet die Prüfbedingung c(β) = 0. Ein beliebiges Polynom höchstens 6.
Grades ist also genau dann ein Codewort-Polynom, wenn es eine Nullstelle in β hat. An
dieser Bedingung sieht man sofort, dass es sich hier um einen zyklischen Code handelt.
Hierzu sehen wir die Menge der beliebigen Polynome höchstens 6. Grades an als beliebige
Polynome mit der Regel X 7 = 1. Beachten Sie, dass das Element β ∈ GF (8) ebenfalls
dieser Regel genügt, also β 7 = 1 erfüllt.
Für die Praxis sollte man allerdings noch wissen, wie man die Codeworte aus den
Datenworten erzeugt. Hierzu hat man zu beachten, dass
X 7 − 1 = g(X) · h(X) mit g(X) = (1 + X + X 3 ) und h(X) = (1 + X + X 2 + X 4 )
(rechnen Sie dies durch Ausmultiplizieren nach). Im allgemeinen hat man eine Zerlegung
der Art
X n − 1 = g(X) · h(X)
wobei Grad g(X) = n − k und Grad h(X) = k. Unser Beispielcode geht von Datenworten der Länge 4 Bit, also a = (a0 , a1 , a2 , a3 ) ∈ Z42 aus. Jedem solchen Datenwort kann
man das Polynom a0 + a1 X + a2 X 2 + a3 X 3 zuordnen. Der Körper GF (8) wurde so konstruiert, dass wir β als Nullstelle von g(X) dazugenommen haben, also g(β) = 0. Jedes
Codewort-Polynom c(X) muss c(β) = 0 erfüllen. Dies könnte man erreichen, indem man
zur Codierung das Datenpolynom mit g(X) multiplizieren:
a(X) · g(X) = (a0 + a1 X + a2 X 2 + a3 X 3 ) · (1 + X + X 3 )
Ausmultiplizieren ergibt
a(X)·g(X) = a0 +(a0 +a1 )X +(a1 +a2 )X 2 +(a0 +a2 +a3 )X 3 +(a1 +a3 )X 4 +a2 X 5 +a3 X 6
Dem Datenwort (1, 0, 0, 0) würde das Polynom g(X) = (1 + X + X 3 ) und damit das
Datenwort (1, 1, 0, 1, 0, 0, 0) zugeordnet. Die Decodierung müsste mit Hilfe einer Division
durch g(X) erfolgen. Dies ist jedoch unpraktisch. Erwünscht ist stattdessen, dass den 4
Bits des Datenworts 4 unveränderte Datenbits und 3 zusätzliche Prüfbits entsprechen.
Wenn die Prüfbedingung erfüllt ist, möchte man das Codewort einfach durch Weglassen
der drei Prüfbits decodieren.
Dies kann man hier erreichen, indem man die k Datenbits um die Zahl (n − k) der
Prüfbits verschiebt und dann die Prüfbits geeignet setzt. Bei den Polynomen erreicht
man eine Verschiebung der Koeffizienten durch Multiplikation mit X n−k . Als CodewortPolynom wird also
c(X) = X n−k a(X) + t(X)
gewählt. Dabei legt das Polynom t(X) die Prüfbits, also die ersten (n − k) Bits, fest. Es
ist also ein Polynom höchstens (n − k − 1). Grades. Man hat es so zu wählen, dass c(X)
ein Vielfaches von g(X) ist. In Analogie zur Definition 6.1.1 schreiben wir bei Polynomen
f1 , f2 , q, p
f1 (X) = f2 (X) mod q(X) ⇐⇒ f1 (X) − f2 (X) = p(X) · q(X)
128
also f1 (X) = f2 (X) mod q(X) genau dann, wenn f1 (X) und f2 (X) bei Division durch q
denselben Rest ergeben. Der Divisionsalgorithmus von Polynomen liefert bei Division von
f (X) durch q(X) den Rest als das eindeutige Polynom r(X), dessen Grad kleiner als der
des Quotienten q(X) ist und das
f (X) = r(X) mod q(X)
erfüllt. Mit dieser Schreibweise können wir die Forderung, dass das Polynom c(X) ein
Vielfaches von g(X) ist, formulieren als
c(X) mod g(X) = (X n−k a(X) + t(X) mod g(X) = 0
Daraus erhalten wir die Bedingung
t(X) mod g(X) = − X n−k a(X) mod g(X)
Da Grad t(X) < (n − k) gefordert wird, können wir t(X) aus der Berechnung des
Restes bei der Polynomdivision von X n−k a(X) durch g(X) bekommen. Für unser Beispiel
mit n = 7 und k = 4 erhalten wir für ein beliebiges Datenwort a0 , a1 , a2 , a3 mit dem
zugehörigen Polynom a(X) = a0 + a1 X + a2 X 2 + a3 X 3 mit Hilfe des Divisionsalgorithmus
X 3 a(X) = a0 + a2 + a3 + (a1 + a3 )X + a2 X 2 + a3 X 3 · 1 + X + X 3 ) + t(X)
mit
t(X) = a0 + a2 + a3 + (a0 + a1 + a2 )X + (a1 + a2 + a3 )X 2
Die Codierung
c(X) = X 3 a(X) + t(X)
kann dann in der Schreibweise der Kanalcodierung
worte c durch c = aG mit der Generatormatrix

1 1 0 1 0
0 1 1 0 1
G=
1 1 1 0 0
1 0 1 0 0
für die Datenworte a und die Code0
0
1
0

0
0

0
1
beschrieben werden. Überprüfen Sie durch explizite Rechnung, ob die Bedingung GHT =
0 erfüllt ist! Die Tatsache, dass es sich hier um einen zyklischen Code handelt, ist aus
der Generatormatrix nicht sofort ersichtlich. Das Codewort zu a = (0, 1, 0, 0) steht in
der zweiten Zeile von G und entsteht durch zyklische Vertauschung des Codewortes zu
a = (1, 0, 0, 0). Das Codewort, das durch zyklische Vertauschung aus der zweiten Zeile
entsteht, steht jedoch in keiner Zeile von G. Man erhlält es als Summe der ersten und der
dritten Zeile von G
(0, 0, 1, 1, 0, 1, 0) = (1, 1, 0, 1, 0, 0, 0) + (1, 1, 1, 0, 0, 1, 0)
Es ist daher Codewort von a = (1, 0, 1, 0). Durch einen Übermittlungsfehler beim k. Bit
entstehen Worte der Form
v = c + ek = aG + ek
wobei hier ek den Zeilenvektor bezeichnet, der als k. Komponente 1 und sonst überall
Nullen hat. Für jedes empfangene Wort v wird das Syndrom s von v gebildet:
s = vHT
129
Bei einem Übermittlungsfehler im k. Bit erhalten wir als Syndrom
s = (aG + ek )HT = ek HT
T
erhalten wir in diesem Fall also als Syndrom den k.
Aufgrund von ek HT = (HeT
k)
Spaltenvektor von H als Zeilenvektor geschrieben. Es wurde schon früher festgestellt, dass
ein solcher Fehler erkannt werden kann, wenn kein Spaltenvektor von H der Nullvektor
ist. Er kann korrigiert werden, wenn alle Spaltenvektoren von H verschieden sind.
Wie an diesem Beispiel sichtbar wird, kann der Code selbst zwar mit Hilfe der Matrizen
H und G mit Elementen aus den Vektorräumen Z42 und Z72 beschrieben werden. Verstehen
kann man ihn jedoch erst, wenn man Daten- und Codeworte durch die entsprechenden
Polynome beschreibt und die Körpererweiterung GF (8) benutzt. Die Nützlichkeit dieser
Körpererweiterungen wird noch deutlicher sichtbar, wenn man zyklische Codes konstruiert, bei denen mehr als ein Fehler korrigiert werden kann. Hierzu wird auf die Literatur
verwiesen.
130
10
10.1
Näherungen
Näherungslösungen für überbestimmte Gleichungssysteme
Abbildung 35: Infolge von Messfehlern liegen die Messpunkte nicht auf der Geraden, auf
der sie nach den physikalischen Gesetzen liegen sollten, z.B. x = I, y = U in der rechts
abgebildeten Schaltung.
Schauen wir uns das in der Analysis ebenfalls behandelte praktische Beispiel an. Die
physikalische Größe y hängt — in vielen Anwendungen — linear von der Größe x ab
(Beispiel x = I, y = U in der in Abb, 35 rechts abgebildeten Schaltung). Es gilt also
ein Gesetz der Form y = ax + b. Die beiden Unbekannten a und b können aus zwei
Paaren von Messwerten berechnet werden. Dann hat man zwei Gleichungen der Form
xk · a + b = yk . Mehr als zwei Paare von Messwerten liegen aufgrund von Messfehlern
nicht exakt auf der durch das lineare Gesetz beschriebenen Geraden. Dann hat man mehr
als zwei Gleichungen für die beiden Unbekannten und damit im allgemeinen ein unlösbares
überbestimmtes lineares Gleichungssystem. Wir wollen dieses Gleichungssystem hier mit
den Methoden der Linearen Algebra behandeln. Wir haben also für die Unbekannten a
und b ein Gleichungssystem der Form
x1 · a + b
x2 · a + b
x3 · a + b
..
.
= y1
= y2
= y3
.
= ..
xn · a + b = y n
mit n > 2. Mit Hilfe der Matrix A und den Vektoren c und z mit


 
x1 1
y1
 x2 1
 y2 


 
a
 x3 1
 y3 
A=
c= 
und
z=
,
b
 .. .. 
 .. 
 . .
.
xn 1
yn
können wir es in der gewohnten Form schreiben
Az = c
oder
131
Az − c = 0
Um zur gewohnten Schreibweise zurückzukehren, schreiben wir x statt z und b statt c:
Ax − b = 0
Wir wollen allgemein eine (n×m)-Matrix mit n > m zulassen (im Beispiel ist also m = 2).
Dann ist x ein Spaltenvektor mit m Komponenten und Ax und b sind Spaltenvektoren mit
n Komponenten; die Matrix A hat mehr Zeilen als Spalten, also die Form eines Rechtecks
im Hochformat“. Entsprechende Gleichungssysteme wurden bereits in Abschnitt 3.4.2
”
behandelt. Da wir das Gleichungssystem z.B. aufgrund von Messfehlern nicht exakt lösen
können, wollen wir stattdessen einen Vektor x so suchen, dass
|Ax − b|
minimal ist. Da die Wurzelfunktion [0, ∞[→ R, x 7→
ist dies äquivalent dazu, dass die Funktion
g : Rm → R,
√
x streng monoton wachsend ist,
x 7→ g(x) = |Ax − b|2 = (Ax − b) · (Ax − b)
minimal ist. Dabei ist mit · das Skalarprodukt gemeint. Da
(Ax − b) · (Ax − b) = (Ax) · (Ax) − 2b · (Ax) + b · b
und b · b konstant ist, ist dies wiederum äquivalent dazu, dass
f : Rm → R,
x 7→ f (x) = (Ax) · (Ax) − 2b · (Ax)
minimal ist. Man kann sich davon überzeugen, dass unsere früher behandelte Rechenregel
für transponierte Matrizen (53) auch für rechteckige“ (n×m)-Matrizen gilt (man benötigt
”
bei der Herleitung nicht, dass A eine quadratische Matrix ist). Also haben wir hier
u · (Av) = (AT u) · v
für alle Vektoren u ∈ Rn und v ∈ Rm . Wir können damit unsere Funktion f (x) etwas
anders schreiben. Wir suchen also das Minimum der Funktion
f (x) = (Ax) · (Ax) − 2b · (Ax) = (AT Ax) · x − 2(AT b) · x = x · (AT Ax) − 2x · (AT b)
Die Lösung liefert der folgende
Satz 10.1.1 Sei A eine (n × m)-Matrix, b ∈ Rn , sei f : Rm → R durch
f (y) = y · (AT Ay) − 2y · (AT b)
definiert und sei x ∈ Rm eine Lösung des linearen Gleichungssystems
AT Ax = AT b
Dann gilt für alle y ∈ Rm
f (y) ≥ f (x)
132
Beweis: Wir haben
(y − x) · AT A(y − x) = A(y − x) · A(y − x) = |A(y − x)|2 ≥ 0
(67)
und für die Lösung x von AT Ax = AT b
f (y) − f (x) = y · (AT Ay) − 2y · (AT b) − x · (AT Ax) + 2x · (AT b)
= y · (AT Ay) − 2y · (AT b) − x · (AT b) + 2x · (AT b)
= y · (AT Ay) − 2y · (AT b) + x · (AT b)
(68)
Weil (AT A)T = AT A, gilt außerdem für die Lösung x von AT Ax = AT b
(y − x) · AT A(y − x) = y · (AT Ay) + x · (AT Ax) − x · (AT Ay) − y · (AT Ax)
= y · (AT Ay) − 2y · (AT Ax) + x · (AT Ax)
= y · (AT Ay) − 2y · (AT b) + x · (AT b)
(69)
Vergleich von (67), (68) und (69) liefert
f (y) − f (x) = (y − x) · AT A(y − x) ≥ 0
Folgerung:
Für ein überbestimmtes Gleichungssystem Ax − b ist |Ax − b|2 minimal, wenn
AT Ax = AT b.
Der Vorteil ist, dass AT A eine m × m-Matrix, also eine quadratische Matrix ist. Wir
können also versuchen, das Gleichungssystem AT Ax = AT b nach dem Gauß-Verfahren
zu lösen.
Kehren wir zurück zu unserem Anwendungsbeispiel. Dort ist m = 2, und wir haben
 n

n
P 2 P
xk 
 xk
k=1
k=1

AT A = 
n
P

xk
n
k=1
und

n
P

 xk yk 
k=1

A b=
n
 P

yk
T
k=1
und wir erhalten für die beste Näherung für die Parameter a und b in der Geradengleichung
y = ax + b die Lösung des Gleichungssystems
 n

 n

n
P 2 P
P
k=1 xk k=1 xk  a
k=1 xk yk 
 n

 n

P
 b = P

xk
n
yk
k=1
k=1
Die Lösung ist im Analysis-Skript ausführlich diskutiert.
Die Vorteile der hier angewandten Methode sind, dass wir keine Ableitungen benötigen,
dass wir automatisch mitgeliefert bekommen, dass wir ein Minimum erhalten und dass sich
diese Methoden leicht auf andere Probleme übertragen lassen, die beispielsweise größere
überbestimmte Gleichungssysteme liefern.
133
10.2
Beste Näherung durch Vektoren aus einem Unterraum
In der Analysis hatten wir das Problem untersucht, eine beliebige stückweise stetige mit
der Periode T periodische Funktion f (t) möglichst gut anzunähern durch trigonometrische
Polynome. Wir haben dort Koeffizienten c0 , ak und bk so bestimmt, dass die Näherung
f (t) ≈ Pm (t) = c0 +
+
+
+
+
a1 cos(ωt) + b1 sin(ωt)
a2 cos(2ωt) + b2 sin(2ωt)
a3 cos(3ωt) + b3 sin(3ωt)
···
am cos(mωt) + bm sin(mωt)
möglichst gut ist. Möglichst gut“ heißt dabei, dass das Quadrat des Abstands
”
ZT
2
f (t) − Pn (t) dt
kf − Pm k2 =
0
ein Minimum annimmt. Wir haben hierzu die partiellen Ableitungen dieses Quadrats
des Abstands berechnet und diese Null gesetzt. Dies ist sehr aufwändig, und es ist verblüffend, wie man mit Mitteln der Linearen Algebra sehr viel einfacher und schneller zu
den gewünschten Gleichungen kommt. Und das ist interessant, weil eine derartige Vorgehensweise in vielen andern Zusammenhängen angewandt wird. Sie kann nämlich leicht
auf andere Beispiele angewandt werden.
Wir gehen davon aus, dass die Menge der Funktionen, die approximiert werden sollen,
einen Vektorraum V bilden. In unserem Beispiel sind dies periodische Funktionen, die
stückweise (d.h. bis auf einzelne Ausnahmestellen in einer Periode) stetig sind. Addition
und Multiplikation derartiger Funktionen mit einem Skalar ergibt wieder eine stückweise
stetige Funktion. Der Nachteil dieses Vektorraums ist, dass er zu groß“ ist, und wir
”
würden lieber mit einfacheren Funktionen arbeiten, die man als Linearkombination endlich vieler besonders einfacher Funktionen darstellen kann, in unserem Beispiel sind dies
trigonometrische Polynome, also Linearkombinationen von
fk (t) = cos(kωt); k = 0, 1, 2, 3, . . . m sowie gk (t) = sin(kωt); k = 1, 2, 3, . . . m
(70)
In der Sprache der Linearen Algebra heißt dies, wir wollen in einem Unterraum U ⊂ V
bleiben, der aus Linearkombinationen vorgegebener besonders einfacher Vektoren besteht.
Dies bedeutet, wir kennen die Basis. Wir wollen hier von den unwichtigen eher störenden
Einzelheiten des konkreten Beispiels absehen (abstrahieren) und uns auf die wesentlichen
Dinge beschränken. Der Unterraum U hat also eine Basis, und wir nehmen an, dass diese
Basis aus endlich vielen Vektoren besteht, die wir nun mit u1 , u2 , u3 , . . . un bezeichnen.
Für unser Beispiel der trigonometrischen Polynome müssen wir eine Umnumerierung vornehmen in der Form n = 2m + 1 sowie
u1 = f0 , u2 = f1 , . . . um+1 = fm ,
um+2 = g1 , um+3 = g2 , . . . u2m+1 = gm
(71)
Für Approximationen ist es wesentlich, ihre Güte“ bewerten zu können, und hierfür
”
reicht es, wenn wir für Vektoren v ∈ V eine Länge zur Verfügung haben, die wir hier
(wie in der modernen Mathematik üblich) mit kvk bezeichnen und auch Norm“ nennen.
”
Die beste Näherung u ∈ U an den Vektor v ∈ V ist also der Vektor u ∈ U , der
ku − vk
134
minimal macht. Da die Funktion f (x) = x2 für x ≥ 0 monoton wachsend ist, ist dies der
Vektor, der
ku − vk2
minimal macht. Für unser Beispiel stückweise stetiger Funktionen f ist die Länge oder
Norm durch
v
u T
uZ
u
kf k = t f (t)2 dt
0
gegeben. Besonders vorteilhaft ist es, wenn die Länge aus√einem Skalarprodukt gebildet
werden kann, wie wir das im R3 haben, dort ist |~x| = ~x · ~x. Für stückweise stetige
periodische Funktionen schreiben wir das Skalarprodukt als (f, g), es ist durch
ZT
(f, g) :=
f (t)g(t)dt
(72)
0
definiert und wir haben ebenfalls
kf k =
p
(f, f )
Für die Berechnung der Fourierkoeffizienten ist der Satz 9.9.2 ( Ortogonalitätsrelationen“)
”
aus dem Analysis-Skript wichtig. Seine wesentliche Aussage ist, dass für die Integrale
ZT
ZT
cos(mωt) cos(nωt)dt = 0
und
0
sin(mωt) sin(nωt)dt = 0
0
gilt, wenn m 6= n sowie
ZT
cos(mωt) sin(nωt)dt = 0
0
für alle m, n ∈ N. Mit der durch (70) und (71) festgelegten Notation und Numerierung
ist die Aussage des Satzes 9.9.2 aus der Analysis knapp
(uk , ul ) = 0
falls
k 6= l
die Basisvektoren uk sind also orthogonal. Eine solche Basis heißt Orthogonalbasis. Sieht man von den unwichtigen Einzelheiten ab, dann ist die Aufgabe, die Fourier-
135
Koeffizienten ak , bk zu berechnen, das folgende Approximationsproblem:
Gegeben
ist ein Vektorraum V mit einem Skalarprodukt (., .) und einer durch
p
(v, v) definierten Norm sowie ein Unterraum U ⊂ V mit einer Basis
kvk =
{u1 , u2 , . . . un }, die orthogonal ist, also
(uk , ul ) = 0
k 6= l, k, l = 1, 2, . . . n
wenn
erfüllt. Weiterhin ist ein beliebiger Vektor v ∈ V gegeben. Gesucht ist der Vektor
n
P
w=
ck uk ∈ U , der v am besten approximiert, also
k=1
2
n
X
kv − wk = v −
ck uk 2
k=1
zum Minimum macht.
Konkret suchen wir eine Berechnungsformel, die es uns ermöglicht, die Koeffizienten ck
aus dem gegebenen Vektor v zu berechnen. Mit Hilfe einer Funktion formuliert heißt dies,
wir versuchen, zu gegebenem v ∈ V den Vektor w ∈ U zu berechnen, an dem die im
Unterraum U definierte Funktion fv (x) := kv − xk2 ihr Minimum annimmt.
v
U
w-v
w
x-v
x
Abbildung 36: Die beste Näherung durch einen Vektor w der Ebene U an einen beliebigen
Vektor v erhalten wir genau dann, wenn der Differenzvektor w − v senkrecht steht auf
der Ebene U .
Hierzu ist es sinnvoll, sich ein geometrisches Beispiel vorzustellen: V = R3 , U eine
Ebene durch den Ursprung, die von zwei orthogonalen Vektoren aufgespannt ist. Der
Vektor v ist im allgemeinen nicht in der Ebene U . Aber den Vektor w der Ebene, der
ihn am besten approximiert (ihm am nächsten ist), erhalten wir, indem wir von v das
Lot auf die Ebene U fällen. Das bedeutet, der Verbindungsvektor w − v steht senkrecht
oder orthogonal auf der Ebene U . Dies ist in Abb. 36 veranschaulicht. In der im obigen
Rahmen beschriebenen allgemeineren Situation gilt eine entsprechende Aussage:
Satz 10.2.1
Sei V ein Vektorraum V mit einem Skalarprodukt (., .) und einer durch
p
kvk = (v, v) definierten Norm. Weiterhin sei U ⊂ V ein Unterraum. Außerdem sei
v ∈ V beliebig und sei fv die Abbildung
fv : U → R,
x 7→ fv (x) = kv − xk2
136
Dann gilt
fv (x) = kx − vk2 ≥ fv (w) = kw − vk2
für alle x ∈ U
(73)
genau dann, wenn
(w − v, y) = 0
für alle
y∈U
(74)
D.h. die Funktion fv (x) nimmt in x = w genau dann ihr Minimum an, wenn der Differenzvektor w − v orthogonal zu U ist.
Beweis: Mit h := x − w ∈ U und damit x = w + h können wir die Bedingung, dass die
Funktion fv (x) in x = w ihr Minimum annimmt, auch schreiben als
fv (x) = fv (w + h) = kw + h − vk2 = k(w − v) + hk2 = (w − v) + h, (w − v) + h
= (w − v, w − v) + (h, h) + 2(w − v, h) = kw − vk2 + khk2 + 2(w − v, h)
≥ fv (w) = kw − vk2
für alle h ∈ U
(75)
Zusammenfassend stellen wir fest, dass das Minimum von fv (x) genau dann in w liegt,
wenn
fv (x) = kw − vk2 + khk2 + 2(w − v, h) ≥ fv (w) = kw − vk2
(76)
für alle h ∈ U . Statt für alle y“ in der Aussage des Satzes steht in dieser Umformung
”
für alle h“ und wir können unmittelbar ablesen, dass
”
fv (x) = kw − vk2 + khk2 ≥ kw − vk2 = fv (w)
für alle h ∈ U , wenn (w − v, h) = 0 für alle h ∈ U erfüllt ist. Aus der Orthogonalitätsbedingung (74) folgt also, dass das Minimum in w liegt.
Nehmen wir nun umgekehrt an, dass das Minimum von fv (x) in w liegt, also (73)
erfüllt ist. Daraus haben wir die Orthogonalitätsbedingung (74) zu beweisen. Wir wählen
einen indirekten Beweis und nehmen an, es gäbe ein h ∈ U mit a := (w − v, h) 6= 0.
Dann ist notwendigerweise h 6= 0 und wir führen als Schreibabkürzung b := khk2 > 0 ein.
Weiterhin definieren für alle t ∈ R die Funktion
g(t) := fv (w + t · h)
Sie erfüllt aufgrund der Rechnung in (75)
g(t) = kw − vk2 + t2 khk2 + 2t(w − v, h) = bt2 + 2at
und nimmt laut Voraussetzung ihr Minimum in t = 0 an. Quadratische Ergänzung oder
Ableiten liefert sofort, dass dies ist nur möglich ist, wenn a = 0 im Widerspruch zur
Annahme a = (w − v, h) 6= 0. Damit ist die Äquivalenz von (73) und (74) bewiesen.
Hinweis: Beachten Sie, dass wir in diesem Satz nicht vorausgesetzt haben, dass wir in U
eine Basis zur Verfügung haben!
Jetzt können wir den Vektor w ausrechnen. Hierzu nutzen wir aus, dass wir eine Basis
n
P
in U kennen und w ∈ U schreiben können als w =
ck uk . Wir setzen diesen Ansatz“
”
k=1
in die Orthogonalitätsbedingung (74) ein und erhalten
n
n
X
X
ck uk − v, y) =
ck (uk , y) − (v, y) = 0
(
k=1
k=1
137
für alle y ∈ U
(77)
wobei wir die Rechenregeln für das Skalarprodukt angewandt haben. Wir setzen nun
y = ul mit beliebigem l = 1, 2, . . . n und nutzen aus, dass die Basisvektoren uk orthogonal
sind, also (uk , ul ) = 0, falls k 6= l. Wir erhalten so
n
X
ck (uk , ul ) − (v, ul ) = cl (ul , ul ) − (v, ul ) = cl kul k2 − (v, ul ) = 0
k=1
Diese Gleichung können wir nach cl auflösen und erhalten als Ergebnis:
Satz 10.2.2
Sei V ein Vektorraum V mit einem Skalarprodukt (., .) und einer durch
p
kvk = (v, v) definierten Norm. Weiterhin sei U ⊂ V ein Unterraum mit einer Basis
{u1 , u2 , . . . un }, die orthogonal ist. Außerdem sei v ∈ V beliebig und sei fv die Abbildung
x 7→ fv (x) = kv − xk2
fv : U → R,
Dann nimmt fv (x) ihr Minimum in x = w an mit
w=
n
X
ck uk
wobei
ck =
k=1
(v, uk )
kuk k2
Hinweise:
(a) Die erhaltene Formel wird noch einfacher, wenn die Basis zusätzlich zur Orthogonalität die Normierungsbedingung kuk k = 1 für alle k = 1, 2, . . . n erfüllt. Eine solche
Basis nennt man dann Orthonormalbasis. Hierfür ist der Vektor w, der v am
besten approximiert, gegeben durch
n
X
w=
(v, uk )uk
k=1
(b) Für die durch (70) und (71) gegebene Basis des Unterraums U der trigonometrischen
Polynome erhält man aus unserem Satz 10.2.2 sofort Satz 9.2.3 aus dem AnalysisSkript mit den dort angegebenen Formeln für die reellen Fourier-Koeffizienten.
(c) Man kann die Funktionen hk (t)
hk (t) = ejkωt
k = −m, −m + 1, . . . m − 1, m
(78)
als neue Basis uk des Unterraums U der trigonometrischen Polynome höchstens m.
Grades ansehen. Man hat dann zu beachten, dass die Numerierung von −m bis
+m läuft. Integrale, in denen komplexwertige Funktionen vorkommen, können mit
Definition 9.2.5 (Analysis-Skript) definiert und mit Hilfe von Satz 9.2.4 ausgerechnet
werden. Beim Skalarprodukt komplexwertiger Funktionen müssen wir allerdings eine
Änderung anbringen und es durch
ZT
(f, g) :=
f (t)g(t)∗ dt =
0
ZT
f (t)g(t)dt
0
138
(79)
definieren. Dies ist notwendig, damit durch
v
v
u T
u T
uZ
uZ
p
u
u
∗
t
f (t)f (t) dt = t |f (t)|2 dt
kf k = (f, f ) =
0
0
wieder eine Länge oder Norm definiert wird. Ohne den Übergang zum konjugiertkomplexen Wert im 2. Faktor stünde sonst für viele komplexwertige Funktionen eine
komplexe oder eine negative reelle Zahl unter der Wurzel! Satz 9.2.5 sagt dann aus,
dass wir auch hiermit eine Orthogonalbasis vorliegen haben. Wenn wir für stückweise
stetige T -periodische Funktionen f (t) Näherungen der Form
f (t) ≈
m
X
ck ejkωt
k=−m
betrachten, so sagt unser Satz 10.2.2, dass wir die beste Approximation mit
1
(v, uk )
ck =
2 =
T
kuk k
ZT
f (t)e−jkωt dt
0
erhalten. Dies entspricht der Gleichung (167) im Analysis-Skript für die komplexen
Fourier-Koeffizienten.
(d) Es gibt zahlreiche weitere Anwendungsbeispiele von Satz 10.2.2. Hier sei noch eines
angeführt. Wir definieren den Vektorraum V als die Menge aller auf dem Intervall
[−1, 1] stückweise stetigen beschränkten reellwertigen Funktionen (stückweise stetig
soll hier heißen, es gibt höchstens endlich viele Stellen, an denen die Funktion nicht
stetig ist). Das Skalarprodukt wird definiert durch
Z+1
(f, g) := f (x)g(x)dx
−1
Als Unterraum U nehmen wir die Menge der Polynome höchstens n. Grades. Die
naheliegende Basis {1, x, x2 , . . . xn } hat den Nachteil, dass sie keine Orthogonalbasis
ist. Eine Orthogonalbasis für diesen Unterraum bilden die Legendre-Polynome,
die rekursiv durch
1
(2n−1)xPn−1 (x)−(n−1)Pn−2 (x)
für n ≥ 2
P0 (x) := 1, P1 (x) := x, Pn (x) :=
n
definiert werden können. Sie sind orthogonal, d.h.
+1
R
−1
und erfüllen
Z+1
Pk (x)Pk (x)dx =
−1
139
2
2k + 1
Pk (x)Pl (x)dx = 0 für k 6= l
und die ersten Pk (x) sind durch
1
1
P2 (x) = (3x2 − 1), P3 (x) = (5x3 − 3x),
2
2
1
1
P4 (x) =
(35x4 − 30x2 + 3), P5 (x) = (63x5 − 70x3 + 15x),
8
8
1
P6 (x) =
(231x6 − 315x4 + 105x2 − 5)
16
P0 (x) = 1,
P1 (x) = x,
gegeben. Sie sind in Abb. 37 grafisch dargestellt. Für die Funktion f (x) = sin(πx)
erhält man für die Approximation
sin(πx) ≈
n
X
ck Pk (x)
k=0
die Koeffizienten ck = 0 für k gerade und
c1 =
3
,
π
c3 =
7(−15 + π 2 )
,
π3
c5 =
11(945 − 105π 2 + π 4 )
π5
Die Approximationen c1 P1 (x) + c3 P3 (x) und c1 P1 (x) + c3 P3 (x) + c5 P5 (x) sind in
Abb. 38 gezeigt. Beachten Sie den Unterschied zu den Taylor-Polynomen! Hier ist
der Abstand“
”
Z+1
2
f (x) − Pn (x) dx
−1
minimiert, was zu einer guten Approximation über die gesamte Länge des Intervalls führt. Die Approximation mit dem Polynom 5. Grades ist kaum mehr von
der ursprünglichen Funktion zu unterscheiden. Im Fall n = 1 erhalten wir eine
Gerade mit einer deutlich geringeren Steigung π3 < 1 als die Tangente, da in den
Abstand auch die Punkte weit weg vom Ursprung eingehen. Eine wesentliche Anwendung der Legendre-Polynome ist die Konstruktion orthogonaler Funktionen auf
der Kugeloberfläche.
(e) Wenn wir im Unterraum U nur eine Basis {u1 , u2 , . . . un } zur Verfügung haben, die
nicht orthogonal ist, dann können wir immer noch die Orthogonalitätsbedingung
(74) ausnutzen und in (77) y = ul einsetzen. Wir erhalten so
n
X
ck (uk , ul ) = (v, ul )
für l = 1, 2, . . . n
k=1
Dies ist ein lineares Gleichungssystem für die unbekannten Koeffizeinten c1 , c2 . . . cn ,
das wir beispielsweise numerisch lösen können. Als Matrix tritt eine symmetrische
Matrix A mit den Matrixelementen Aik = (ui , uk ) auf. Es kann gezeigt werden, dass
diese Matrix nicht singulär ist, wenn {u1 , u2 , . . . un } linear unabhängig sind. Dies
ist aber bei einer Basis vorausgesetzt.
(f) Wir haben bei unseren ursprünglichen Beispielen der trigonometrischen Polynome zwar darauf hingewiesen, dass die Basisfunktionen orthogonal sind, aber nicht
140
Abbildung 37: grafische Darstellung der ersten Legendre-Polynome (aus Wikipedia)
Abbildung 38: Approximation der Funktion f (x) = sin(πx) auf [−1, 1] durch ein Polynom
3. und 5. Grades (Konstruktion mit Legendre-Polynomen)
überprüft, dass diese linear unabhängig sind. Dies folgt jedoch aus der Orthogonalität (frühere Übungsaufgabe): Skalare Multiplikation von
n
X
tk uk = 0
k=1
auf beiden Seiten mit ul liefert aufgrund der Orthogonalität sofort tl (ul , ul ) =
141
tl kul k2 = 0 und damit tl = 0 für alle l = 1, 2, . . . n.
142
A
Anhang: Ergänzungen
Hier folgen einige Erklärungen, die eigentlich in den Abschnitt 1 oder in den Abschnitt
Grundlagen“ des Analysis-Skripte gehören. Aus Zeitgründen konnten die hier erläuterten
”
Begriffe dort nicht eingeführt werden. Sie werden aber in vielen andern Lehrbüchern und
Skripten am Anfang eingeführt und später benutzt. Dieser Anhang dient also dazu, die
Benutzung anderer Skripte und Lehrbüchern zu erleichtern.
A.1
Gruppen
Abbildung 39: Symmetrieoperationen für ein Quadrat (aus der englischen Version von
Wikipedia)
Schauen wir uns erstmal ein Beispiel an. Gruppen tauchen unter anderem dort auf, wo
es um Symmetrien geht. Ein Quadrat hat viele Symmetrien. Man kann es um π4 und vielfache von π4 drehen, ohne es zu verändern. Außerdem kann man es horizontal, vertikal sowie
an den beiden Diagonalen spiegeln. Abb. 39 zeigt diese Symmetrieoperationen. Dabei ist
der Winkel im Gradmaß angegeben, und die Drehungen sind in mathematisch negativer
Richtung vorgenommen. Es ist plausibel, dass dies alle Symmetrieoperationen sind. Die
Symmetrieoperation, gar nichts zu tun, ist explizit aufgeführt und mit id bezeichnet. Sie
werden sich daran erinnern, dass die Addition von 0 oder die Multiplikation mit 1 bei
rellen Zahlen auch gar nichts tut“. Beachten Sie bei der Benennung der Spiegelungen in
”
Abb. 39, dass nicht die Achse, an der gespiegelt wird, in den Index eingeht, sondern die
Richtung, in der die Ecken bewegt werden. fv ist also eine Spiegelung an der horizontalen
Achse, die Ecken 1 und 2 bewegen sich vertikal nach unten, die Ecken 3 und 4 vertikal
nach oben.
Man kann zwei Symmetrieoperationen hintereinanderausführen. Dies ergibt wieder eine Symmetrieoperation. Das Ergebnis einer solchen Hintereinanderausführung muss also
wieder in der Abbildung 39 aufgeführt sein. Wir wählen hier als Symbol für das Hintereinanderausführen das Zeichen ∗. Mathematisch gesehen handelt es sich bei den Symmetrieoperationen um Abbildungen der Ebene in sich, die das Quadrat unverändert lassen. Dies
143
erklärt auch die Bezeichnungsweise id für die identische Abbildung. Wir haben in Definition 5.4.1 für die Hintereinanderausführung von Abbildungen das Symbol ◦ gewählt. Da
geplant ist, einen ganz allgemeinen Begriff, die Gruppe“, einzuführen, benutzen wir hier
”
das allgemeinere Symbol ∗. Wir halten an der wichtigen Konvention von Definition 5.4.1
fest, dass die rechts stehende Abbildung zuerst ausgeführt wird. Wir können also in diesem
Beispiel das Symbol ∗ als nach“ lesen.
”
Überzeugen Sie sich selbst, dass eine Spiegelung in horizontaler Richtung (also an der
vertikalen Achse) nach einer Drehung um 3 mal 90 Grad insgesamt einer Spiegelung an
der Hauptdiagonale entspricht, also
fh ∗ r3 = fd
Dass Hintereinanderausführungen von Abbildungen von der Reihenfolge abhängen können,
sollte Ihnen bekannt sein. Wir erhalten tatsächlich für die umgekehrte Reihenfolge (Drehung nach Spiegelung) das Ergebnis
r3 ∗ f h = f c
Das Ergebnis aller derartiger Hintereinanderausführungen von Symmetrieoperationen
Abbildung 40: Tabelle für die Hintereinanderausführung der Symmetrieoperationen von
Abb. 39; fh ∗ r3 heißt fh nach r3 ausgeführt, das Ergebnis ist blau hinterlegt (Abb. aus
der englischen Version von Wikipedia)
steht in Abb. 40, das erste Beispiel (fh ∗ r3 = fd ) ist blau hinterlegt.
In der Mathematik stehen die Rechenregeln für derartige Operationen im Vordergrund.
Es war bei der Behandlung der Hintereinanderausführung von Abbildungen plausibel gemacht worden, dass dabei das Assoziativgesetz gilt. Wir haben also für alle Symmetrieoperationen a, b, c des Quadrats
(a ∗ b) ∗ c = a ∗ (b ∗ c)
Die identische Abbildung (gar nichts tun) ist das neutrale Element bezüglich der Hintereinanderausführung, wir haben für alle Symmetrieoperationen a
a ∗ id = id ∗ a = a
144
Wenn es ein neutrales Element gibt, interessiert man sich für die Auflösbarkeit von Gleichungen der Form
a ∗ x = id
oder
x ∗ b = id
Durch Nachschauen in der Tabelle finden wir, dass es zu jeder Symmetrieoperationen
a genau eine Lösung für beide Gleichungen gibt, also für alle Symmetrieoperationen a
des Quadrats existiert genau eine Symmetrieoperation x als gleichzeitige Lösung beider
Gleichungen
a ∗ x = id
und
x ∗ a = id
Wir nennen diese Lösung das inverse Element von a. Es wird häufig a−1 geschrieben.
Wenn diese Rechenregeln erfüllt sind für eine Rechenoperation ∗, dann nennen wir die
entsprechende Menge eine Gruppe. Bevor wir uns die allgemeine Definition anschauen,
sollten wir noch eine allgemeine Sprachregelung treffen.
Definition A.1.1 Eine Verknüpfung ist eine Abbildung
f : A × B → C,
(a, b) 7→ c = f (a, b)
und wird häufig mit Hilfe eines speziellen Symbols in der Form
(a, b) 7→ a ∗ b, (a, b) 7→ a ◦ b, (a, b) 7→ a × b, (a, b) 7→ a · b, (a, b) 7→ a + b
geschrieben. Es sind auch andere Symbole gebräuchlich. Wenn kein Symbol auftaucht in
der Form (a, b) 7→ ab dann wird dies als a · b interpretiert.
Wir sind bisher schon zahlreichen Verknüfungen begegnet. In vielen Fällen sind die drei
beteiligten Mengen gleich, also A = B = C; hierfür nur einige Beispiele:
(a) + : Z × Z → Z, (m, n) 7→ m + n
(b) · : Z × Z → Z, (m, n) 7→ m · n
(c) × : R3 × R3 → R3 , (~x, ~y ) 7→ ~x × ~y (das Vektorprodukt)
(d) Betrachten wir die Menge aller Abbildungen mit derselben Definitions- und Zielmenge A. Dann ist die Hintereinanderausführung stets definiert und die Hintereinanderausführung oder Komposition ist eine Verknüpfung (f, g) 7→ f ◦ g für alle
Abbildungen f, g : A → A.
Die hier ∗ geschriebene Hintereinanderausführung der Symmetrieoperationen des Quadrats ist somit eine Verknüpfung.
Definition A.1.2 Eine Menge G mit der Verknüpfung ∗ : G × G → G heißt Gruppe,
wenn die folgenden Rechenregeln (Axiome) erfüllt sind:
(a) a ∗ (b ∗ c) = (a ∗ b) ∗ c für alle a, b, c ∈ G (Assoziativegesetz)
(b) Es existiert ein e ∈ G mit a ∗ e = e ∗ a = a für alle a ∈ G.
(e heißt neutrales Element)
(c) Für alle a ∈ G existiert ein x ∈ G mit a ∗ x = x ∗ a = e.
(x heißt inverses Element zu a)
145
Beispiele:
(a) Die Menge R der reellen Zahlen mit der Addition + als Verknüpfung (statt ∗). Das
neutrale Element ist e = 0 und das zu a inverse Element x ist x = −a.
(b) Die Menge R \ {0} mit der Multiplikation als Verknüpfung. Das neutrale Element
ist e = 1 und das zu a 6= 0 inverse Element ist a1 .
(c) Die triviale Gruppe G = {e}, die nur aus dem neutralen Element besteht.
(d) Die Gruppe der Symmetrieoperationen des Quadrats von Abb. 39 mit der Hintereinanderausführung als Verknüpfung ∗. Diese Gruppe wird mit D4 bezeichnet.
(e) Allgemein wird die Gruppe der Symmetrieoperationen eines regelmäßigen n-Ecks
mit Dn bezeichnet. Diese Gruppen heißen Diedergruppen (englisch dihedral groups)
und bestehen aus n Drehungen und n Spiegelungen (das neutrale Element zu den
Drehungen gerechnet).
(f) Die Menge der reellen nichtsingulären (2×2)-Matrizen mit der Matrixmultiplikation
als Verknüpfung, der Einheitsmatrix E = e als neutralem Element und der inversen
Matrix als inverses Element. Sie wird mit GL(2, R) bezeichnet.
(g) Auch das Beispiel (f) kann man verallgemeinern. Die nichtsingulären (n×n)-Matrizen
sind ebenfalls eine Gruppe, die mit GL(n, R) bezeichnet wird.
Hinweise:
(a) Z mit der Multiplikation ist keine Gruppe, nur +1 und −1 haben ein inverses Element.
(b) N mit der Addition ist ebenfalls keine Gruppe, nur 0 hat ein inverses Element
(c) Das Kommutativgesetz ist nicht verlangt, damit eine Menge mit Verknüpfung Gruppe heißt. In der Tat ist in den Beispielen (d), (e) für n ≥ 3, (f), (g) für n ≥ 2 das
Kommutativgesetz nicht erfüllt. Dagegen gilt das Kommatativgesetz in den Beispielen (a), (b) und trivialerweise im Beispiel (c).
Definition A.1.3 Eine Gruppe G mit der Verknüpfung ∗ heißt kommutativ oder abelsch,
wenn das Kommutativgesetz
a∗b=b∗a
für alle
a, b ∈ G
erfüllt ist.
Hinweise:
(a) Das Adjektiv abelsch nimmt Bezug auf den Mathematiker Niels Henrik Abel. Da es
so häufig vorkommt, wird es im allgemeinen mit kleinem a“ geschrieben.
”
(b) Der Begriff abelsche Gruppe“ erlaubt es, einige frühere sehr umfangreiche Defini”
tionen erheblich kürzer und prägnanter zu fassen:
146
Körper: Äquivalent zu Definition 6.2.1 kann definiert werden:
Eine Menge K heißt Körper, wenn zwei Verknüpfungen + : K × K → K und
· : K × K → K definiert sind mit den Eigenschaften
• Es existiert ein 0 ∈ K, so dass K mit der Verknüpfung + und dem neutralen
Element 0 eine abelsche Gruppe ist.
• Es existiert ein 1 ∈ K mit 1 6= 0, so dass K \ {0} mit der Verknüpfung ·
und dem neutralen Element 1 eine abelsche Gruppe ist.
• Für alle a, b, c ∈ K gilt das Distributivgesetz
a · (b + c) = a · b + a · c
Vektorraum: Äquivalent zu Definition 6.2.2 kann definiert werden:
Ein Vektorraum über einem Körper K ist eine Menge V mit zwei Verknüpfungen + : V × V → V und · : K × V → V mit den Eigenschaften
• Es existiert ein Nullvektor 0 ∈ V , so dass V mit der Verknüpfung + und
dem neutralen Element 0 eine abelsche Gruppe ist.
• Die Verknüpfung · erfüllt für alle s, t ∈ K und alle a, b ∈ V die folgenden
Rechenregeln (Axiome)
t · (a + b)
(s + t) · a
s · (t · a)
1·a
A.2
=
=
=
=
t·a+t·b
s·a+t·a
(s · t) · a
a
Relationen
Auch hier beginnen wir mit einem Beispiel. Das Wort hat etwas mit dem Begriff rela”
tionale Datenbank“ zu tun (das ist einer der Gründe, warum es hier behandelt wird).
Betrachten wir die Mengen von Vornamen
V = {Thomas, Michael, Manuela, Maria, Alexander, Nicolas, Katharina, Elke}
und die Menge von Familiennamen
F = {Maier, Müller, Lehmann, Schmidt, Schmitz, Bourbaki, Fischer, Weber}
Ein vollständiger Name einer Person stellt dann eine Beziehung zwischen einem Vornamen aus V und einem Familiennamen aus F her. Mathematisch gesehen ist dann eine
Namensliste eine Teilmenge des kartesischen Produkts V × F beispielsweise in der Form
N = {(Nicolas, Bourbaki), (Katharina, Weber), (Manuela, Schmitz), (Thomas, Maier)}
Hinzu könnte noch eine Menge M von Matrikelnummern kommen, und Teilnehmerlisten
eines Praktikums sind dann Teilmengen des dreifachen kartesischen Produkts V × F × M
mit beispielsweise dem Element (Manuela, Schmitz, 47114711). Dies motiviert die
Definition A.2.1 Eine Teilmenge R ⊂ M × N heißt eine (binäre oder zweistellige)
Relation zwischen M und N . Falls M = N , heißt R Relation auf M . Wenn (x, y) ∈ R,
dann erfüllen x und y die Relation R. Dies wird dann auch in der Form xRy geschrieben.
Entsprechend heißt eine Teilmenge R ⊂ M × N × Q eine dreistellige Relation, n-stellige
Relationen sind Teilmengen eines n-fachen kartesischen Produkts.
147
Beispiele:
(a) M = N = R und R = (x, y) ∈ R2 | x < y ist eine wichtige Relation (daher kommt
der Name Ordnungsrelation“)
”
(b) M = N = Z und R = (m, n) ∈ Z2 | m ist ganzzahliger Teiler von n
(c) M = N = N und R = (m, n) ∈ N2 | m = n + 1 , m ist Nachfolger von n beim
Zählen in N.
(d) Der Graph einer Funktion oder Abbildung f : A → B, a 7→ f (a) (siehe Def. 5.3.1 in
diesem Skript sowie Def. 2.1.1 und Def. 2.1.5 im Analysis-Skript) ist als Teilmenge
von A × B und damit als Relation durch
G(f ) = (a, b) ∈ A × B | b = f (a)
definiert.
Zahlreiche Beispiele im Analysis-Skript zeigen, dass nicht jede Teilmenge von A×B Graph
einer Funktion oder Abbildung f : A → B, a 7→ f (a) ist. Unmittelbar aus Def. 5.3.1 in
diesem Skript sowie Def. 2.1.1 und Def. 2.1.5 im Analysis-Skript ergibt sich der
Satz A.2.1 Eine Relation R ⊂ A × B ist genau dann der Graph einer Abbildung
f : A → B, a 7→ f (a)
mit
R = (a, b) ∈ A × B | b = f (a)
wenn die Relation die folgende Eigenschaft erfüllt:
Für alle a ∈ A existiert genau ein b ∈ B mit (a, b) ∈ R.
(80)
Hinweis:
Wir haben hier ein wenig gemogelt“. Mathematisch korrekt wäre es, durch eine Rela”
tion, die die Bedingung (80) erfüllt, den Begriff der Funktion oder Abbildung zu definieren.
Denn der in Def. 5.3.1 und Def. 2.1.5 im Analysis-Skript angegebene Begriff der Zuord”
nungsvorschrift“ ist letztlich ein Appell an außermathematische Alltagserfahrung. Eine
Zuordnungsvorschrift sollte man eigentlich korrekt mit Hilfe einer Relation definieren, die
die Eigenschaft (80) erfüllt. Unsere Vorgehensweise, den Begriff der Zuordnungsvorschrift
ohne saubere Definition durch eine Relation zu benutzen, war ein Eingeständnis zugunsten
einer besseren Verständlichkeit, aber zulasten der mathematischen Korrektheit.
Definition A.2.2 Für eine Relation R auf M (also R ⊂ M × M ) werden folgende Eigenschaften definiert:
(a) R heißt reflexiv, wenn (x, x) ∈ R für alle x ∈ M
(b) R heißt symmetrisch, wenn (x, y) ∈ R =⇒ (y, x) ∈ R
(c) R heißt transitiv, wenn (x, y) ∈ R und (y, z) ∈ R =⇒ (x, z) ∈ R
148
Beispiele
(a) Die Relation ≤ (d.h. R = (x, y) ∈ R2 | x ≤ y ist reflexiv und transitiv, aber nicht
symmetrisch.
(b) Die Relation < (d.h. R = (x, y) ∈ R2 | x < y ist transitiv, aber weder reflexiv
noch symmetrisch.
(c) Die Relation R = (m, n) ∈ Z2 | m − n ist gerade ist reflexiv, symmetrisch und
transitiv.
Definition A.2.3 Eine Relation R auf M (also R ⊂ M ×M ) heißt Äquivalenzrelation,
wenn sie reflexiv, symmetrisch und transitiv ist. Teilmengen von M der Form
ȳ = {x ∈ M | (x, y) ∈ R}
heißen dann Äquivalenzklassen. Bei Äquivalenzrelationen wird häufig x ∼ y geschrieben, wenn (x, y) ∈ R. Die Äquivalenzklassen werden statt ȳ auch ŷ oder [y] geschrieben.
Hinweise:
(a) Aufgrund der Definition gilt für die von x bzw. y erzeugten Äquivalenzklassen
x̄ = ȳ ⇐⇒ (x, y) ∈ R
(b) Zur Erinnerung: Wir haben in Definition 6.1.1 die Schreibweise (n ∈ N+ ) eingeführt
p≡q
(mod n)
⇐⇒
p mod n = q mod n
(zu lesen: p ist kongruent zu q modulo n). Dabei ist
p≡q
In Z wird durch
(mod n) ⇐⇒ p − q = m · n für ein m ∈ Z
R = (p, q) ∈ Z2 | p ≡ q
(mod n)
eine Äquivalenzrelation eingeführt. Die zugehörigen Restklassen laut Def. 6.1.1 sind
die Äquivalenzklassen laut Def. A.2.3. Die Bezeichnungsweise für Restklassen und
allgemeine Äquivalenzklassen ist auch übereinstimmend gewählt.
(c) Die Elemente der Menge der rationalen Zahlen Q sind Äquivalenzklassen! Zur Konstruktion von Q schreibt man zunächst die Elemente von Z2 = Z × Z statt in der
. Dann definiert man in Z2 ×Z2 unter Benutzung
üblichen Form (m, n) in der Form m
n
dieser Schreibweise die Relation
m1 m2
k · m2
m2
k · m1
2
2 m1
R=
,
∈Z ×Z =
oder
=
mit k ∈ Z
n1 n2
n1
k · n2
n2
k · n1
Man kann sich überzeugen, dass diese Relation reflexiv, symmetrisch und transitiv ist (kleine Übungsaufgabe!). Die Elemente von Q sind dann die zugehörigen
Äquivalenzklassen, die man eigentlich m
schreiben sollte. In der Praxis wird jedoch
n
fast immer die schlampige Schreibweise m
benutzt.
n
149
(d) Eine Äquivalenzrelation führt man ein, wenn man in einem bestimmten mathematischen Kontext eigentlich verschiedene Objekte als im wesentlichen gleich, gleichwertig oder äquivalent ansehen möchte, wie beispielsweise Brüche, die man durch
Erweitern oder Kürzen ineinander überführen kann. Die neuen mathematischen Objekte sind dann die Äquivalenzklassen. Meist wird dann in vielen praktischen Fällen
schlampig darüber hinweggesehen, dass man mit einer Äquivalenzklasse zu tun hat
und nicht zwischen dem Vertreter“ x und der Äquivalenzklasse x̄ unterschieden, da
”
ja in der betrachteten Situation alle Elemente aus x̄ gleich gut“ sind. Dabei muss
”
man natürlich aufpassen. Wenn man beispielsweise eine Funktion von Q nach Q
durch einen arithmetischen Ausdruck definiert, dann muss man sicherstellen, dass
der Funktionswert für einen gekürzten Bruch derselbe ist wie für den ungekürzten
Bruch. Die mathematische Sprechweise ist dann, dass die Funktion wohldefiniert“
”
ist. So ist
2
m
m
7→ 2
f : Q → Q,
n
n
statt m
geschrieben) wohldefitrotz der schlampigen Schreibweise (wir haben m
n
n
2
2
2
k·m
k ·m
m
niert, denn k·n 7→ k2 ·n2 ∼ n2 . Dagegen definiert die Zuordnungsforschrift m
7→
n
m keine Abbildung Q → Q. Man müsste sie abändern und vereinbaren, dass
m
vor Anwendung der Zuordnungsvorschrift so weit wie möglich zu kürzen ist.
n
Auch für die Verknüpfungen Addition und Multiplikation hat man bei der Definition sorgfältig darauf zu achten, dass diese nicht von der Auswahl des Vertreters aus der Äquivalenzklasse abhängt. Für die Addition ist das etwas verwickelt
(Übungsaufgabe!)
m1 · n2 + m2 · n1
m1 m2
+
:=
n1
n2
n1 · n2
für die Multiplikation schon etwas einfacher
m1 · m2
m1 m2
·
:=
n1 n2
n1 · n2
Auch bei der Definition der Verknüpfungen ⊕ und in Def. 6.1.3 hatten wir darauf hingewiesen, dass die Definition nicht von der Auswahl des Vertreters aus der
Restklasse abhängen darf (unter dem Hinweis steht dort der ausführliche Beweis).
(e) Man kann sich fragen, warum nicht der Name Äquivalenzmengen“ und Restmen”
”
gen“ verwendet wird, denn es handelt sich im hier behandelten Rahmen einwandfrei
um Teilmengen einer Menge M bzw. der Menge Z. Die Bezeichnung Klassen“ wird
”
bevorzugt, weil man dann die Bezeichnungsweise nicht ändern muss, wenn man
den Begriff der Äquivalenzrelation verallgemeinert auf Situationen, wo man keine
Mengen mehr hat. Das Problem ist, dass die Menge aller Mengen“ nicht existiert,
”
auch die Menge aller Vektorräume“ existiert nicht. Der Versuch, damit zu arbei”
ten, führt zu einer mathematischen Katastrophe, nämlich zu einem Widerspruch,
der Russelschen Antinomie (näheres z.B. bei Wikipedia). Bei Vorhandensein eines
Widerspruchs kann man mit Hilfe eines indirekten Beweises beweisen, dass jede
Aussage wahr ist, und man kann auch beweisen, dass die Verneinung jeder Aussage wahr ist. Also werden alle Aussagen wahr und falsch, und das ist in der Tat
katastrophal! Der Ausweg ist, von Klassen“ zu reden, beispielsweise von der Klas”
se der reellen Vektorräume. Dann kann man zum Beispiel eine Äquivalenzrelation
einführen, indem man zwei Vektorräume V und W als äquivalent ansieht, wenn eine
150
bijektive lineare Abbildung T : V → W existiert (reflexiv, symmetrisch, transitiv).
Die Äquivalenzklasse von Rn besteht dann aus allen Vektorräumen V , für die eine
bijektive Abbildung T : Rn → V existiert. Und hier könnte man wirklich nicht von
einer Äquivalenzmenge sprechen. Deswegen wird dies generell vermieden.
A.3
Potenzmenge
Definition A.3.1 Für eine beliebige Menge M ist die Potenzmenge von M die Menge
aller Teilmengen von M . Sie wird hier mit P(M ) bezeichnet.
Beispiel:
M = {0, 1, 2},
P(M ) = ∅, {0}, {1}, {2}, {0, 1}, {0, 2}, {1, 2}, {0, 1, 2}
Beachten Sie die Schreibweise! Es gilt 1 6∈ P(M ), aber {1} ∈ P(M ). Alle Elemente von
P(M ) sind selbst Mengen!
Abschließend ein Beispiel zur mathematischen Allgemeinbildung mit Querverbindung
zur Informatik. Wir gehen von der Potenzmenge der natürlichen Zahlen ohne die 0 aus,
also von P(N+ ). Wir definieren eine Abbildung f : P(N+ ) → R, indem wir zunächst für
jede Teilmenge B ∈ P(N+ ) (also B ⊂ N+ ) eine Folge
(
1 falls k ∈ B
(B)
(81)
ak :=
0 falls k 6∈ B
definieren. Mit Hilfe dieser Folge definieren wir die Abbildung
f : P(N+ ) → R,
B 7→ f (B) =
∞
X
(B)
ak 2−k
(82)
k=1
(B) (B) (B) (B) (B) (B)
Wir können den Funktionswert als Dualbruch 0, a1 a1 a3 a4 a5 a6 . . .2 interpretieren. Damit ist f (B) ∈ [0, 1] und f (∅) = 0. Noch ein Beispiel zur Berechnung des Funktionswertes von f :
f {1, 3, 6, 10} = 2−1 + 2−3 + 2−6 + 2−10 = 0, 10100100012
Beim Dezimalsystem haben wir
0, 99999999999 . . .10 =
∞
X
9 · 10−k = 1
k=1
(siehe die entsprechende Übungsaufgabe in Analysis, es handelt sich um eine geometrische
Reihe). Entsprechend haben wir 0, 09999910 = 0, 1. Die Darstellung durch Dezimalbrüche
ist also nicht eindeutig. Für Dualbrüche haben wir
0, 1111111 . . .2 =
∞
X
1 · 2−k = 1
(83)
k=1
und analog
1
0, 0111111 . . .2 = 0, 12 = ,
2
und
151
0, 0011111 . . .2 = 0, 012 =
1
4
Damit haben wir die Funktionswerte
f (N+ ) = 1,
1
f {1} = f {2, 3, 4, 5, . . .} = ,
2
1
f {2} = f {n ∈ N+ | n ≥ 3} =
4
Unsere Funktion ist also nicht injektiv. Die Dezimalbruchdarstellung kann man eindeutig
machen, indem man unendliche Folgen von aufeinanderfolgenden Ziffern 9 ausschließt.
Entsprechend können wir hier unsere Funktion injektiv machen, indem wir die Definitionsmenge kleiner machen, also Teilmengen aus P(N+ ) herausnehmen“, die unendliche
”
Folgen von aufeinanderfolgenden Ziffern 1 im Dualbruch verursachen. Dabei lassen wir
N+ selbst im Definitionsbereich, denn 0, 1111111 . . .2 ist die einzige Möglichkeit, 1 als Dualbruch in der Form 0, . . .2 darzustellen. Wir nehmen also Ausnahmemengen“ A mit der
”
Eigenschaft
{n ∈ N+ | n > n0 mit n0 ∈ N+ } ⊂ A
aus der Definitionsmenge der Abbildung f heraus. Wir definieren somit als Menge der
Ausnahmemengen“
”
n
o
+ A := A ∈ P(N ) {n ∈ N | n > n0 mit n0 ∈ N+ } ⊂ A
(84)
Neben einer Verkleinerung des Definitionsbereichs verkleinern wir auch die Zielmenge und
ersetzen sie durch den Wertebereich (oder die Bildmenge) der Abbildung. Da wir mit der
Änderung von Definitions- und Zielmenge die Abbildung geändert haben, ändern wir auch
die Bezeichnungsweise f in g. Wir erhalten damit eine bijektive Abbildung
+
g : P(N ) \ A → [0, 1],
B 7→ g(B) =
∞
X
(B)
ak 2−k
(85)
k=1
(B)
Dabei ist die Folge ak nach wie vor durch (81) gegeben.
Diese Funktion spielt eine wichtige Rolle in der Mengenlehre beim Vergleich der
Größe“ der betrachteten Mengen, die beide unendlich viele Elemente haben. Zwei Men”
gen, die durch eine bijektive Abbildung ineinander abgebildet werden können, sieht man
als gleich groß“ an. Wir können also hier anschaulich festhalten, dass es aufgrund der
”
bijektiven Abbildung (85) ein wenig mehr“ Teilmengen von N+ als reelle Zahlen in [0, 1]
”
gibt. Wir können dies hier nicht vertiefen. Interessierte sind auf den richtigen Fachbegriff
Mächtigkeit von Mengen (anstatt Größe“) verwiesen (siehe beispielsweise bei Wikipe”
dia).
A.4
Ergänzungen zur Logik
Um den einleitenden Abschnitt 1.1 im Analysis-Skript nicht durch eine Vielzahl von
Abkürzungen zu überfrachten, wurde dort auf die Benutzung vieler üblicher Abkürzungen
verzichtet. Insbesondere bei den Themen Logische Verknüpfungen“ und Anmerkungen
”
”
zur Logik und Beweistechnik“ sind folgende Abkürzungen sehr gebräuchlich:
∨
∧
∃
∀
¬
oder
und
es existiert
für alle
nicht (logische Verneinung)
152
Damit kann die Aussage
Es gilt nicht, dass für alle n ∈ Z gilt
ein n ∈ Z existiert mit n1 6∈ Z.
1
n
∈ Z, ist gleichbedeutend damit, dass
sehr viel prägnanter (aber für den Anfänger auch schwerer lesbar) als
1
1
∈ Z ⇐⇒ ∃n ∈ Z :
6∈ Z
¬ ∀n ∈ Z :
n
n
aufgeschrieben werden. Die Methode des indirekten Beweises kann durch
(A =⇒ B) ⇐⇒ (¬B =⇒ ¬A)
begründet werden. Derartige Aussagen, die stets wahr sind (für alle Teilaussagen, die
durch A und B gekennzeichnet sind, heißen Tautologien. Noch ein Beispiel für eine
Tautologie:
(A = B) ∧ (B = C) =⇒ A = C
Aussagen sind Ausdrücke, bei denen man im Prinzip entscheiden können sollte, ob sie
wahr oder falsch sind. So ist der Ausdruck In drei Wochen wird wahrscheinlich besseres
”
Wetter sein“ keine Aussage, aber auch a3 + 3a2 b + 3ab2 + b3 ist keine Aussage. Dagegen
ist 17 ist eine Primzahl“ und Es gibt stetige auf ganz R definierte Funktionen, die
”
”
nirgends differenzierbar sind“ eine Aussage. Die Formulierung bei denen man im Prinzip
”
entscheiden können sollte“ wurde so vorsichtig gewählt, da es mathematische Aussagen
gibt, bei denen Kurt Gödel bewiesen hat, dass es unmöglich ist, zu entscheiden, ob sie
wahr oder falsch sind (Unvollständigkeitssatz).
Betrachten wir Ausdrücke wie beispielsweise
x2 > 0,
y ≤ z,
A =⇒ B,
ab = ba oder A ∩ B ⊂ C
Ob sie wahr oder falsch sind, hängt davon ab, welche Bedeutung man a, b, A, B, C, x, y, z
zuweist. So wird durch A = [−2, 1], B = [1, 2], C = [− 23 , − 32 ] der Ausdruck A ∩ B ⊂ C zu
einer wahren Aussage.
Man nennt bei derartigen Ausdrücken a, b, A, B, C, x, y, z Variable, und ein derartiger Ausdruck selbst heißt Aussagefunktion, Aussageform oder Prädikat. Durch
Einsetzen von Werten“ wie A = [−2, 1] wird also aus einem Prädikat eine Aussage.
”
Prädikate können durch ∧, ∨, =⇒ oder ⇐⇒ verknüpft werden. Außerdem können
sie durch ¬ verneint werden. So erhält man aus den Prädikaten A ⊂ B, B ⊂ C ein
neues Prädikat (A ⊂ B) ∧ (B ⊂ C). Da Prädikate als Funktionen aufgefasst werden,
die von Variablen abhängen, werden sie häufig auch in einer entsprechenden Schreibweise
symbolisch aufgeschrieben.
Man kann also das Prädikat x2 > 0 symbolisch als A(x), das Prädikat x 6= 0 als B(x)
und das Prädikat (x2 = y) ∧ (x ≥ 0) als C(x, y) schreiben. Durch Setzen von x = 1 ∈ R
wird A(x) wahr, durch x = j ∈ C wird A(x) falsch (denn j 2 = −1). Dies rechtfertigt den
Sprachgebrauch Aussagefunktion. Die Menge der Funktionswerte ist {wahr, falsch}.
Statt einer konkreten Belegung in der Form x = 1 oder A = [−2, 1] können auch die
Quantoren ∀ und ∃ benutzt werden, um aus einem Prädikat eine Aussage zu machen.
Betrachten wir hierzu ein Prädikat der Form A(x).
• ∀x A(x)
Diese Aussage ist wahr, wenn sie für alle Einsetzungen x wahr ist.
zu lesen: für alle x gilt A(x)
153
• ∃x A(x)
Diese Aussage ist wahr, wenn sie für mindestens eine Einsetzung x wahr ist.
zu lesen: es existiert ein x, so dass A(x) gilt
Man sagt dann, dass die Variable x durch den Quantor gebunden wird. Nur wenn alle
Variable durch Quantoren gebunden werden, wird aus einem Prädikat eine Aussage.
Beispiele:
√
(a) ∃x ∈ R x2 = 2 ist wahr, beispielsweise für x = − 2.
(b) ∃x ∈ R x2 = y ist keine Aussage, sondern ein Prädikat, die Variable y wird nicht
gebunden.
(c) ∀x ∈ R x 6= 0 ⇐⇒ x2 > 0 ist wahr.
154
Herunterladen