Skriptum Mathematik A WS 09/10 für Ingenieure und

Werbung
Skriptum Mathematik A WS 09/10 für Ingenieure
und Naturwissenschaftler
T. von der Twer
Inhaltsverzeichnis
Kapitel 1. Logischer Grundbaukasten, Mengen, Strukturen, Abbildungen
1. Logik, Mengen und Strukturen
2. Die wichtigen Zahlenmengen, und die Struktur der reellen Zahlen
3. Abbildungen und Funktionen
4. Die natürlichen Zahlen, vollständige Induktion bzw. Rekursion
1
1
6
8
11
Kapitel 2. Elementare Grundkenntnisse zum Rechnen
1. Terme (Rechenausdrücke) für reelle Zahlen, und Gleichungen
2. Eine grundsätzliche Bemerkung zum Rechnen
13
14
16
Kapitel 3. Elementare Vektorrechnung und analytische Geometrie
1. Affiner Raum und Vektorraum
2. Längen und Winkel: Euklidischer Raum
3. Vektorprodukt und Spatprodukt
19
20
32
36
Kapitel 4. Reelle Funktionen
1. Grundfunktionen und zusammengesetzte Funktionen, Grenzwerte bei Funktionen
2. Ableitung reeller Funktionen
3. Grundlegende Resultate im Zusammenhang mit Ableitungen
4. Das eindimensionale Integral
41
42
63
74
79
Kapitel 5. Komplexe Zahlen
1. Motivierungen
2. Konstruktion des Körpers (C, +, ·, 0, 1)
3. Beispiele zum kartesischen Rechnen mit komplexen Zahlen
4. Polarkoordinatendarstellung komplexer Zahlen
107
108
109
111
113
Kapitel 6. Lineare Algebra
1. Grundbegriffe der linearen Algebra und wichtige Resultate dazu
2. Lineare Abbildungen
3. Matrixdarstellung einer linearen Abbildung
4. Verknüpfungen von linearen Abbildungen und Matrizen
5. Transformation von Matrizen (Basiswechsel)
6. Anwendungen des Rechnens mit Matrizen
7. Räume mit Skalarprodukt und Isometrien
8. Determinanten
9. Eigenwerte und Eigenvektoren; Diagonalisierung
10. Symmetrische Bilinearformen, deren Diagonalisierbarkeit, Klassifikation von Quadriken
11. Der Satz von Sylvester
12. Positiv / negativ definite und indefinite symmetrische Matrizen
117
117
125
132
136
140
142
149
153
164
169
184
184
iii
KAPITEL 1
Logischer Grundbaukasten, Mengen, Strukturen, Abbildungen
1. Logik, Mengen und Strukturen
Leitfaden zu den gesamten logischen Grundlagen:
Aussagenlogik:
Aussagen werden mit 'und', 'oder', 'nicht', (symbolisch ∧, ∨, ¬)
' wenn...,so...' (→), 'genau dann..., wenn...' (↔) verbunden
Erweiterung zur Prädikatenlogik, der genaueren
Analyse von Aussagen, vor allem mit dem Gebrauch
von 'Für alle x gilt: α(x)' , symbolisch: ∀x α(x)
sowie: 'Es gibt ein x, so dass α(x)' , symbolisch: ∃x α(x)
Das entspricht genau der Mengenalgebra mit
den Mengenoperationen des Durchschnittes ('und'),
der Vereinigung ('oder') und Komplementbildung ('nicht')
Es geht in diesem Abschnitt darum, gewisse Grundlagen für das Verständnis präziser Definitionen und
Aussagen zu schaffen. Der Umgang damit sollte stets mit genauem Beobachten und vollem Bewusstsein
verbunden sein. Dazu ein paar Beispiele, welche direkt ein paar typische Missverständnisse ausräumen
sollen:
Zum logischen Grundverständnis mathematischer Sätze
Ein mathematischer Satz hat typisch die Form: Wenn die Voraussetzungen ... erfüllt sind, kann man
(stets) auf Folgendes schließen.... Einfaches Beispiel: Wenn die Funktion f in x0 differenzierbar ist und
in x0 ein Extremum hat, so gilt f ′ (x0 ) = 0. Was ist damit gesagt - und was nicht? Was bedeutet genau
die Verbindung ’wenn..., so...’ ? Positiver Gebrauch: Die Funktion f (x) = x2 hat in x0 = 0 ein Minimum,
ferner ist sie in x0 = 0 differenzierbar, also muss ihre Ableitung
Null sein an der Stelle x0 = 0. So ist es
auch. Dasselbe kann man auch sofort für g (x) = ln 1 + x2 und x0 = 0 schließen, ohne die Ableitung
überhaupt ausrechnen zu können. Aber meist (und viel fruchtbarer) benutzen wir den Satz negativ:
Wenn eine Funktion überall differenzierbar ist, so kommen nur die Nullstellen der ersten Ableitung
als Kandidaten für Extrema in Frage. An keiner Stelle kann ein Extremum vorliegen, an welcher die
Ableitung nicht verschwindet. Tatsächlich sagt der Satz das nicht wörtlich-direkt, sondern wir haben eine
logische Folgerung gezogen und dabei insbesondere benutzt: Wenn aus ’f ist in x0 differenzierbar und f
hat in x0 ein Extremum’ folgt: ’f ′ (x0 ) = 0’, dann folgt aus ’f ist in x0 differenzierbar und f ′ (x0 ) = 0’,
dass f in x0 kein Extremum hat. Wir benutzen dabei die Kontraposition als wichtige logische Figur, das
geht so: Aus ’wenn α, so β’ folgt unmittelbar: ’Wenn nicht β, dann nicht α’. Es gibt ein paar wichtige
derartige Figuren, die zum Arsenal des Denkens gehören sollten. Bleiben wir noch im Beispiel: Der Satz
wird häufig von Anfängern in der Weise missbraucht, dass sie aus f ′ (x0 ) = 0 schließen auf: ’f hat in x0
1
2
1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN
ein Extremum’. Das ist aber ein falscher Schluss, und er ist in keiner Weise gedeckt durch den Satz. (Aus
’Wenn α, so β’ darf man keinesfalls schließen auf: ’Wenn β, so α’.)
Zum logischen Grundverständnis mathematischer Definitionen
Eine mathematische Definition hat die typische Form: ’Das Objekt a hat die Eigenschaft E genau
dann, wenn α (a)’. Dabei ist α (a) eine Aussage über a, welche man unabhängig von einem Bezug auf E
prüfen kann. Zunächst einmal: Hier steht ’genau dann, wenn’, also: Aus α (a) darf man schließen: a hat
die Eigenschaft E. Und aus ’nicht α (a)’ darf man schließen: a hat nicht die Eigenschaft E. Es kommt
noch schlimmer: Tatsächlich wird oft in Definitionen nur gesagt: ’wenn’ (statt ’genau dann, wenn’), aber
gemeint ist ’genau dann, wenn’. Man beachte, dass diese sprachliche Konvention nur für Definitionen
gilt, nicht etwa für mathematische Sätze (siehe oben). Aber das Wesentliche ist: Wissen, was man mit
einer solchen Definition anstellt: Man hat ein Objekt a, für das man feststellen will, ob es die Eigenschaft
E hat. Dann muss man a (ganz präzise: einen Namen dafür) in die Aussageform α (x) einsetzen und
feststellen, ob α (a) gilt. Das ist immer derselbe Grundvorgang, der sich größter Unbekanntheit erfreut
und immer wieder Rätsel aufgibt. Wenn man einmal bei einer Aufgabe gar nicht weiß, was zu tun ist, so
hilft es häufig weiter, genau an diese Sache zu denken. Wir geben zwei Beispiele:
Ist 213 eine Primzahl? (E ist also hier die Eigenschaft: ’Primzahl sein’.) Eine gängige Definition
besagt: Eine natürliche Zahl x ist eine Primzahl genau dann, wenn x > 1 und es nicht natürliche Zahlen
y, z > 1 gibt, so dass x = yz. Also ist α (x) hier genau diese Aussageform: x ist natürliche Zahl, und für
alle natürichen Zahlen y, z > 1 gilt: x = yz. Wir setzen 213 für x ein und haben zu prüfen, ob es natürliche
Zahlen y, z > 1 gibt, so dass 213 = yz. Das ist der Fall, 213 = 3 · 71. Also ist 213 keine Primzahl.
Zweites Beispiel: Eine Funktion f , welche auf einem symmetrischen Intervall um 0 definiert ist, heißt
eine ungerade Funktion, wenn für alle x aus dem Definitionsbereich von f gilt: f (−x) = −f (x) . Erste
Anwendung der Definition: Ist f (x) = x+x2 (Definitionsbereich: Alle reellen Zahlen) ungerade? Nein, weil
f (−1) = 0 und f (1) = 2. Zweite Anwendung der Definition - diesmal zur Gewinnung einer allgemeinen
Aussage: Sei f eine (für alle reellen Zahlen definierte) Funktion, welche ungerade ist und umkehrbar. Ist
dann auch die Umkehrfunktion f −1 eine ungerade Funktion? (Man hat f −1 (f (x)) = x für alle x, die
Funktion f −1 ist nicht etwa 1/f (!).) Wenn wir das behaupten und beweisen wollen, so haben wir zu
zeigen:
(1) f −1 (−y) = −f −1 (y) für alle y, so dass es eine Zahl x gibt mit f (x) = y.
Zuvor haben wir uns zu vergewissern, dass mit y im Definitionsbereich von f −1 auch −y in diesem
Definitionsbereich liegt. Das ist so, weil mit f (x) = y auch gilt: f (−x) = −y (da f ungerade ist nach
Voraussetzung), also f −1 (−y) = −x. Damit gilt aber auch die Gleichung (1) bereits, weil −x = −f −1 (y) .
Dies folgt sofort aus f (x) = y, gleichwertig f −1 (y) = x. Übrigens haben wir eine andere Definition dabei
zwangsläufig benutzt: y ist im Definitionsbereich von f −1 genau dann, wenn es eine Zahl x (im Definitionsbereich von f ) gibt, so dass f (x)) = y. Genaueres Hinsehen lehrt, dass die Sache auch allgemeiner
für f mit symmetrischem Definitionsbereich um 0 gilt.
1. LOGIK, MENGEN UND STRUKTUREN
3
Zusammenfassung der Aussagenlogik:
Eine aussagenlogische Formel wird aus Aussagenvariablen p, q, r usw. mittels
∧ (’und’), ∨ (’oder’), ⇁ (’nicht’), =⇒ (’wenn...,so...’), ⇐⇒ (’genau dann, wenn’)
zusammengesetzt (unter Verwendung von Klammern). ⇁ bindet am stärksten, schwächer ∧, ∨,
am schwächsten =⇒ , ⇐⇒ . Also α ∧ β =⇒ γ für (α ∧ β) =⇒ γ usw.
Man nennt die ’oder’-Verbindung auch ’Disjunktion’, die ’und’-Verbindung auch ’Konjunktion,
’Negation’ für ’Verneinung’ ist sicher geläufig.
Wir schreiben α, β, γ usw. für Formeln, die bereits zusammengesetzt sein können.
Beispiel : (p =⇒ (q =⇒ r)) ⇐⇒ ((p =⇒ q) =⇒ (p =⇒ r)).
Die Wahrheitsdefinitionen der aussagenlogischen Verbindungen :
⇁ α ist genau dann wahr, wenn α falsch ist,
α ∧ β ist genau dann wahr, wenn α und β beide wahr sind,
α ∨ β ist genau dann wahr, wenn α wahr ist oder β wahr ist (mindestens eines von beiden),
α =⇒ β ist genau dann wahr, wenn α falsch ist oder β wahr ist,
α ⇐⇒ β ist genau dann wahr, wenn α und β beide wahr sind oder beide falsch
Definition der Allgemeingültigkeit und Erfüllbarkeit einer aussagenlogischen Verbindung :
Eine aussagenlogische Formel ist genau dann allgemeingültig, wenn sie für jede Wahl
der Wahrheitswerte ihrer Aussagenvariablen den Wahrheitswert W oder 1 bekommt.
Eine aussagenlogische Formel ist genau dann erfüllbar, wenn sie für mindestens
eine Wahl der Wahrheitswerte ihrer Aussagenvariablen den Wahrheitswert 1 bekommt.
Eine gültige Schlussregel ist eine solche, bei der die Wahrheit der Voraussetzungen
stets die Wahrheit der Folgerung nach sich zieht.
Die wichtigsten allgemeingültigen aussagenlogischen Formeln :
⇁ (α ∨ β) ⇐⇒ ⇁ α ∧ ⇁ β, ⇁ (α ∧ β) ⇐⇒ ⇁ α ∨ ⇁ β (de Morgansche Regeln),
α ∧ (β ∨ γ) ⇐⇒ (α ∧ β) ∨ (α ∧ γ) , α ∨ (β ∧ γ) ⇐⇒ (α ∨ β) ∧ (α ∨ γ) (Distributivgesetze)
(α =⇒ β) ⇐⇒ (⇁ β =⇒ ⇁ α) (Kontraposition)
(α =⇒ β) ⇐⇒ ⇁ α ∨ β ⇐⇒ ⇁ (α∧ ⇁ β) (Ausdrücken von =⇒ mittels ∨, ⇁ oder ∧, ⇁)
Die wichtigsten aussagenlogischen Schlussregeln (über dem Strich stehen die Voraussetzungen,
darunter die Folgerung:
α =⇒ β
α =⇒ β
α
⇁β
(modus ponens),
(modus tollens)
β
⇁α
Satz zur Aussagenlogik: Aussagenlogische Allgemeingültigkeit und Erfüllbarkeit sind entscheidbar,
d.h. ein Computerprogramm kann das tun. Dazu bringt man eine beliebige Formel auf folgende Formen:
nk
p, wenn ε = 1
Konjunktive Normalform :
εkl pkl mit εkl ∈ {1, −1} und εp =
⇁ p, wenn ε = −1
k l=1
nk
Disjunktive Normalform :
εkl pkl (ε wie oben).
k l=1
Satz: Eine Formel in konjunktiver Normalform ist offenbar genau dann allgemeingültig, wenn in jeder
nk
der Disjunktionen
εkl pkl mindestens eine Aussagenvariable mit beiden Vorzeichen auftritt.
l=1
Eine Formel in disjunktiver Normalform ist genau dann erfüllbar, wenn in keiner der Konjunktionen
nk
εkl pkl eine Aussagenvariable mit beiden Vorzeichen vorkommt.
l=1
4
1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN
Zusammenfassung der Mengenalgebra:
Beschreibung von Mengen:
Eine Menge ist eine abstrakte Zusammenfassung von Objekten zu einem Ganzen, dabei kommt
es nur darauf an, welche Objekte zur Menge gehören und welche Objekte nicht.
a ∈ A bedeutet: Das Objekt a ist Element der Menge A, Verneinung: a ∈
/ A.
Beispiele: {1, 3, 5} ist die Menge, deren Elemente genau die Zahlen 1, 3, 5 sind,
{ x ∈ R| x > 5} ist die Menge derjenigen reellen Zahlen, die größer als 5 sind.
Beziehungen zwischen Mengen:
A ⊂ B genau dann, wenn für alle Objekte x gilt: Wenn x ∈ A, so x ∈ B. (Teilmengenbeziehung)
A = B genau dann, wenn A ⊂B und B ⊂ A, d.h. wenn A und B genau
dieselben Elemente haben.
2
Beispiele: { x ∈ R|
x
>
5}
⊂
x
∈
R|
es
gibt
ein
y
∈
R
mit
x
=
y
,
{ x ∈ R| x ≥ 0} = x ∈ R| es gibt ein y ∈ R mit x = y 2
Mengenoperationen:
A ∩ B := { x| x ∈ A und x ∈ B} (Durchschnitt),
A ∪ B := { x| x ∈ A oder x ∈ B} (Vereinigung),
A \ B := { x| x ∈ A und x ∈
/ B} (Differenz),
ferner bei fixierter ’Allmenge’ Ω: A := { x ∈ Ω| x ∈
/ A} = Ω \ A.
A × B := { (a, b)| a ∈ A und b ∈ B} (kartesisches Oridukt, Menge der geordneten Paare)
Folgende Rechengesetze entsprechen genau den Regeln für ’und’,’oder’,’nicht’:
A ∪ B = A ∩ B, A ∩ B = A ∪ B (de Morgansche Gesetze),
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) , A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) (Distributivgesetze).
Beispiele zum Umgang mit Aussagenlogik und Mengenalgebra:
1. α =⇒ (β =⇒ α) ist aussagenlogisch allgemeingültig, wie man sofort so sieht:
Wäre das falsch, so hätte man:
α =⇒ (β =⇒ α)
F
(Die unterstrichenen Wahrheitswerte zeigen einen Widerspruch.)
W
F
W
F
Alternativ bringen wir auf konkunktive (!) Normalform - es tritt nur eine Disjunktion auf:
(α =⇒ (β =⇒ α)) ⇐⇒ ⇁ α∨ ⇁ β ∨ α, Allgemeingültigkeit ist offensichtich.
2. (α ∨ β =⇒ γ) =⇒ (α =⇒ γ) ∧ (β =⇒ γ) ist allgemeingültig, wie man so sieht:
(α ∨ β) =⇒ γ) =⇒ (α =⇒ γ)
∧
(β
=⇒ γ)
F
W
F
F
oder
F
(W
F ) oder (W
F)
W
W
In jedem Falle gibt es einen Widerspruch mit den unterstrichenen Wahrheitswerten.
Wieder bringen wir auch auf konjunktive Normalform:
(α ∨ β =⇒ γ) =⇒ (α =⇒ γ) ∧ (β =⇒ γ)
⇐⇒ ⇁ (α ∨ β =⇒ γ) ∨ (α =⇒ γ) ∧ (β =⇒ γ)
⇐⇒ ((α ∨ β) ∧ ⇁ γ) ∨ (⇁ α ∨ γ) ∨ (⇁ β ∨ γ)
Damit ist Allgemeingültigkeit klar.
(α ∨ β∨ ⇁ α ∨ γ∨ ⇁ β ∨ γ)
⇐⇒
∧ (⇁ γ∨
⇁ α ∨ γ∨ ⇁ β ∨ γ)
A ∪ B ∩ A = (A ∪ B) ∩ A ∪ A = A ∪ B,
3.
(auch direkt zu verstehen!)
da A ∪ A = Ω, und
Ω ∩ C = C für alleC ⊂ Ω.
(A ∩ B∪ A ∩B = (A ∪ A) ∩ A ∪ B ∩ (B ∪ A) ∩ (B ∪ B)
4.
(auch direkt zu sehen.)
= A ∩ B ∪ B = A.
1. LOGIK, MENGEN UND STRUKTUREN
5
Zusammenfassung des Umgangs mit ’für alle’, ’es gibt’:
Feinere logische Analyse von Aussagen: Strukturen und Aussageformen:
Strukturen: Man hat eine nicht leere Menge A, darin Konstanten wie etwa 0, 1, ferner aus A
einige Verknüpfungen wie etwa +, · und Beziehungen wie =, < . Dann ist (A, 0, 1, +, ·, <) eine Struktur.
Aussageformen: Man hat Symbole für die Verknüpfungen und Beziehungen einer Struktur, ferner
Variablen für die Elemente der Struktur, d.h. der Menge A.
Gültigkeit einer Aussageform in einer Struktur: Man setzt für die freien Variablen Namen von
Elementen von A ein, dann ist klar, was die Gültigkeit einer Aussageform wie x + (y + z) < x · y
(mit dieser Einsetzung) bedeutet. Zum Beispiel gilt 2 + (3 + 0) < 2 · 3, aber nicht 2 + (2 + 0) < 2 · 2.
Die Bedeutung von ’für alle’, ’es gibt’: Es sei α (x) eine Aussageform, dann sind auch
∀xα (x) und ∃xα (x) Aussageformen, und ihre Gültigkeit in einer Struktur A, ... ist so zu verstehen:
∀xα (x) gilt in der Struktur (A, ...) genau dann, wenn α (a) für alle a ∈ A gilt.
∃xα (x) gilt in der Struktur (A, ...) genau dann, wenn es (mindestens) ein a ∈ A gibt, so dass α (a) gilt.
Relativierte Form von ’für alle’ ’es gibt’ - die mathematische Umgangssprache ist voll davon:
(∀x ∈ B) α (x) bedeutet: ∀x (x ∈ B =⇒ α (x)) . Man behauptet also α (x) nicht für alle, sondern nur
für die Elemente einer ausgezeichneten Teilmenge.
(∃x ∈ B) α (x) bedeutet: ∃x (x ∈ B ∧ α (x)) . Man behauptet die Existenz eines α erfüllenden Objektes
bereits in B. Man beachte die verschiedenartigen aussagenlogischen Ausführungen!
Die wichtigsten allgemeingültigen Formeln für die Quantifikation:
⇁ ∀xα (x) ⇐⇒ ∃x ⇁ α (x) , ⇁ ∃xα (x) ⇐⇒ ∀x ⇁ α (x) ,
∃x∀yα (x, y) =⇒ ∀y∃xα (x, y) (nicht jedoch: Doppelpfeil!)
Die wichtigsten Schlussregeln für die Quantifikation:
Termeinsetzung: α (x/t) bedeutet: Überall, wo x frei in α (x) vorkommt, wird der Rechenausdruck
(Term) t für x eingesetzt (und zwar mit Klammer um t, die eventuell erspart werden kann)
(0) Eine aussagenlogisch gültige Formel darf hingeschrieben werden.
α (x/t)
∀xα (x)
(1)
,
,
∃xα (x)
α (x/t)
α =⇒ β (x)
α (x) =⇒ β
, wenn x nicht frei in α vorkommt,
(wenn x nicht frei in β).
(2)
α =⇒ ∀xβ (x)
∃xα (x) =⇒ β
∀x (α (x) =⇒ β (x))
α (x/t)
(3)
(prädikatenlogische Verfeinerung des modus ponens)
β (x/t)
Zum Verständnis einige Beispiele:
Die Aussageform ∃x (x < y) gilt nicht mit der Einsetzung von 1 für y in der Struktur N, < .
In dieser Aussageform kommt die Variable y frei vor, die Variable x nur gebunden.
Die Aussageform ∃x (x < y) gilt mit der Einsetzung von 2 für y in der Struktur N, < .
Die Aussageform ∀x∃y (x < y) gilt in der Struktur N, < . Denn für jede natürliche Zahl n
existiert eine größere, zum Beispiel n + 1. Wir schließen so:
n<n+1
∀x (x = x) =⇒ ∃yn < y
(mit (1)), nun
(mit (2) , da n nicht frei in ∀x (x = x)),
∃yn < y
∀x (x = x) =⇒ ∀n∃yn < y
∀x (x = x) =⇒ ∀n∃yn < y
∀x (x = x)
.
∀n∃yn < y
Die Aussageform ∃x∀y (x + y = y) gilt in Z, 0, + , weil 0 + y = y für alle y ∈ Z. Wir schließen
∀y (0 + y = y)
mit (1) , ∀y (0 + y = y) ist α (x/0) mit α (x) = ∀y (x + y = y) .
∃x∀y (x + y = y)
Aus dem
Distributivgesetz ∀x∀y∀z (x (y
+ z) = xy + xz) (gültig in R, 0, 1, +, ·) folgt:
∀x∀y (x + y)2 = (x + y) x + (x + y) y mit (1) , setze x + y für x ein und x für y und y für z.
Mit dem
Kommutativgesetz und wieder Distributivgesetz (mehrmals) erschließt man
∀x∀y (x + y)2 = x2 + 2xy + y 2 .
6
1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN
Diese Beispiele sollten gezeigt haben: Es ist einerseits klar, dass man nicht stets in logische Einzelschritte
zerlegen kann, wenn man sich nicht völlig verlieren und noch zu Dingen kommen will. Andererseits ist die
logische Analyse und Klarheit sehr wichtig, auch der Blick für die wirklich zwingenden logischen Schlüsse.
Dazu betrachten wir noch folgendes kompliziertere (aber typische!) Beispiel:
Begriff der Stetigkeit einer Funktion f an der Stelle x0 . Nach Definition ist f in x0 genau dann
stetig, wenn (∀ε > 0) (∃δ > 0) (∀x ∈ R) (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) . Man beobachtet: Mit dem
zweiten Allquantor ist die Aussage sogar noch komplizierter, aber der Kern der Sache liegt bei ε und δ.
Wir wollen zeigen, dass f(x) = x2 stetig ist in x0 = 1. Wir setzen
eine
beliebig kleine Zahl ε > 0 voraus.
Zu finden ist eine Zahl δ > 0, so dass aus |x − 1| < δ folgt: x2 − 12 < ε, für alle Zahlen x. Wir haben
|x2 −1|
x2 −1
ε
x−1 = x + 1. Also |x−1| = |x + 1| . Setzen wir δ = min(1, 2 ), so haben wir für alle Zahlen x:
2
x − 12 ≤ |x + 1| |x − 1| < 2δ ≤ ε , wenn |x − 1| < δ.
2
Beachten Sie, dass die logische Struktur genau die des simpleren Beispiels ist, die Idee also, δ mit der
gewünschten Eigenschaft als Ausdruck in ε anzugeben. Gerade hier, im ’Finden eines δ mit den verlangten
Eigenschaften passend zu ε’, liegt die oben erwähnte benötigte Kreativität. Diese Aufgabe kann im
Einzelfall beliebig schwierig sein und kann im allgemeinen nicht von einem Computer gelöst werden, man
braucht intuitives ’Sehen’, Strategie, Wahrnehmung und Erfahrung, Flexibilität. Seien Sie darum nicht
enttäuscht, wenn Sie am Anfang nur mit großer Anstrengung eine kleine Sache dieser Art hinbekommen!
Eine Bemerkung zum (besonders häufigen) logischen Umgang mit Allaussagen, also
Aussagen der Form ∀x1 ∀x2 ...∀xn α, wobei α keine Quantoren mehr enthält - typisch ist α nur eine
Gleichung oder Ungleichung. Ständig setzt man hier Terme ein und erscchließt neue Allaussagen. Dann
ist es lästig und eigentlich überflüssig, überall monoton die Allquantoren mitzuschleppen. Daher schreibt
man in diesem Kontext (aber auch nur in diesem!) nur die Gleichungen oder Ungleichungen und meint
überall die Allgemeingültigkeit, also die Aussage mit dem vollen Block von Allquantoren. Beispiel: x >
1
x2 + 1
0 =⇒ x1 > 0, also mit x > 0: + x =
≥ 2, da x2 + 1 ≥ 2x und damit x1 x2 + 1 ≥ x1 · 2x = 2.
x
x
Alles Gesagte gilt für alle x > 0. Also haben wir insgesamt folgende
Aussage bewiesen
(Rechenregeln für
1
angeordnete Körper vorausgesetzt und massiv benutzt): ∀x x > 0 =⇒
+x≥2 .
x
2. Die wichtigen Zahlenmengen, und die Struktur der reellen Zahlen
Grundbegriffe:
natürliche, ganze, rationale, reelle, komplexe Zahlen,
Gruppenstruktur,
Körperstruktur (K, 0, 1, +, ·) : übliche Rechenregeln,
Struktur der reellen Zahlen: Mit Anordnung.
Vollständigkeit und archimedische Eigenschaft der reellen Zahlen
Hauptresultate:
Jede reelle Zahl kann so gut wie gewünscht durch eine rationale Zahl genähert werden.
Ungleichungen bleiben erhalten, wenn auf beiden Seiten dieselbe reelle Zahl addiert wird,
sie bleiben auch erhalten, wenn auf beiden Seiten mit derselben positiven Zahl
multipliziert wird.
Jede nicht leere Menge reeller Zahlen, die nach oben beschränkt ist,
hat eine kleinste obere Schranke. (Bei Beschränkung nach unten: Eine größte untere Schranke)
Hier sind die wichtigen Zahlenmangen:
N := {1, 2, 3, ...} Menge der natürlichen Zahlen
N0 := {0, 1, 2, 3, ...}
Z := {...,
−3, −2, −1, 0, 1, 2,3, ...} Menge der ganzen Zahlen
Q := m
Menge der rationalen Zahlen
n m, n ∈ Z, n = 0
C := { a + jb| a, b ∈ R} (Menge aller komplexen Zahlen)
Dabei wurden alle außer R wenigstens einigermaßen definiert, hier wurde nur das Symbol erklärt.
Grundlegendes zu N folgt im Abschnitt 3 dieses Kapitels, Genaueres zu C in Kapitel 4. Tatsächlich ist es
2. DIE WICHTIGEN ZAHLENMENGEN, UND DIE STRUKTUR DER REELLEN ZAHLEN
7
sehr schwierig, die Menge der reellen Zahlen zu definieren. Was man als Anwender wissen darüber wissen
sollte, wird hier kurz zusammengestellt:
√
Zunächst einmal stellt man fest, dass Q ’Löcher’ hat, z.B. ist 2 ein Punkt des Zahlenkontinuums,
der Zahlengeraden, aber keine rationale Zahl. R hat nun gerade den Sinn, die rationalen Zahlen zur
vollständigen Zahlengerade zu erweitern, dass es überhaupt keine Löcher mehr gibt. Insgesamt hat man
Folgendes:
1.) Man kann mit +, ·, 0, 1 rechnen wie in Q, man sagt, (R, +, ·, 0, 1, <) bildet einen angeordneten
Körper, und das bedeutet im Einzelnen:
a) Es gelten folgende Axiome (Grundforderungen) für die Addition, mit denen (R, +, 0) eine abelsche
Gruppe wird (d.h. kommutative Gruppe), und zwar allgemein für alle Zahlen x, y, z ∈ R:
(x + y) + z
0+x
−x + x
x+y
=
=
=
=
x + (y + z) (Assoziativgesetz)
x (neutrales Element)
0 (inverses Element − x für jedes x)
y + x (Kommutativgesetz)
b) Es gelten ferner folgende Axiome für die Multiplikation, mit denen (R \ {0}, ·, 1) ebenfalls eine
kommutative Gruppe wird (man beachte: Damit ist bereits ausgesprochen, dass 0 = 1 sein muss, weil
1 ∈ R \ {0}), allerdings ist die Multiplikation auch mit der Zahl Null ausführbar, d.h. für alle Zahlen
x, y, z ∈ R gilt:
x (yz)
1·x
x−1 x
xy
=
=
=
=
(xy) z
x
1 für x = 0
yx
Hinweis: Für x−1 schreibt man bei den Zahlen im allgemeinen x1 (x nicht Null!).
c) Ferner gilt folgendes wichtige Distributivgesetz, dass Addition und Multiplikation verbindet:
x (y + z) = xy + xz.
d) Die Ordnungsbeziehung hat folgende axiomatischen Eigenschaften:Wichtige Folgerungen sind:
Wenn x < y, so x + c < y + c, für alle x, y, c.
Wenn x < y und c > 0, so xc < yc.
Die Beziehung ≤ (kleiner oder gleich) wird so definiert: x ≤ y : ⇐⇒ x < 0 oder x = y. Sie hat analoge
Eigenschaften, natürlich stets x ≤ x im Unterschied zu <.
e) Nun die Vollständigkeitseigenschaft der reellen Zahlen (alles Vorige gilt auch für (Q, +, ·, 0, 1)!),
zusammen mit der archimedischen Eigenschaft:
Eine Menge A ⊂ R heißt nach oben beschränkt, wenn es eine Zahl M ∈ R gibt, so dass x ≤ M
für alle x ∈ A. Vollständigkeitseigenschaft: Jede nach oben beschränkte nicht leere Menge A ⊂ R
hat eine kleinste obere Schranke α ∈ R, so dass x ≤ α für alle x ∈ A, aber für alle β < α gibt es noch
mindestens eine Zahl x ∈ A, so dass x > β.
Die archimedische Eigenschaft lautet: Zu jeder reellen Zahl x gibt es eine natürliche Zahl n > x.
Wichtige Folgerungen: Eine nichtleere nach unten beschränkte Menge reeller Zahlen hat stets eine
größte untere Schranke. Zu jeder reellen Zahl x > 0 gibt es eine natürliche Zahl n mit n1 < x. Zum
Verhältnis der rellen zu den rationalen Zahlen hat man: Zwischen zwei verschiedenen reellen Zahlen gibt
es stets eine rationale, und vor allem: Jede reelle Zahl kann mit einem beliebig kleinen Fehler durch eine
rationale Zahl angenähert werden.
und bilden Terme von Vektoren.
8
1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN
3. Abbildungen und Funktionen
Grundbegriffe:
Abbildung, Funktion, dazu: Definitions- und Wertebereich,
f: A →
B
Schema:
Abbildung f von A nach B,
a → f (a)
A : Definitionsbereich von f, B : Wertebereich von f,
Bild (f) := { b ∈ B| ∃x ∈ A : f (x) = b} = { f (a)| a ∈ A} ,
Urbild von C ⊂ B unter f : f −1 (C) := { a ∈ A| f (a) ∈ C}
(zu bilden für alle f, C, auch wenn es keine Umkehrabbildung gibt!)
f injektiv : ⇐⇒ ∀a, b ∈ A (f (a) = f (b) =⇒ a = b)
f surjektiv : ⇐⇒ Bild (f ) = B
f bijektiv : ⇐⇒ f injektiv und f surjektiv
f −1 (Umkehrabbildung von f , nur wenn f bijektiv):
f −1 : B →
A
b → die eindeutige Lösung a von f (a) = b
Allgemeiner bildet man zu f : A → B injektiv als Umkehrabbildung:
f −1 : Bild (f ) →
A
b
→ die eindeutige Lösung a von f (a) = b
Hintereinanderschaltung (Komposition) von g und f :
f : A → B und g : B → C, dann
g◦f : A →
C
(zuerst f, dann g, lies: ’g hinter f ’)
a → g (f (a))
Identische Abbildung auf A :
idA : A → A
, für bijektive Abbildung f : A → B also:
a → a
−1
f ◦ f = idA , f ◦ f −1 = idB .
Gleichheit von Abbildungen: f = g : ⇐⇒
Definitions- und Wertebereich sind gleich, also f, g : A → B, und
∀a ∈ A : f (a) = g (a)
Man ordnet Zahlen andere Zahlen eindeutig zu, etwa jeder reellen Zahl ihr Quadrat. Das ist wieder
eine reelle Zahl. Das Ganze fasst man symbolisch so zusammen:
f: R → R
x → x2
Die erste Zeile liest man: ’f geht von R nach R’, das meint: Jeder reellen Zahl x ∈ R wird durch f eine
reelle Zahl (eindeutig!) zugeordnet. Die zweite Zeile (sie die Zuordnungsvorschrift) liest man: ’Der Zahl
x wird ihr Quadrat x2 zugeordnet’, und dies Resultat nennt man auch f(x), was man liest: ’f von x’.
Das ist eine ’von’-Klammer, die man stets laut so lesen sollte. Verwechslung mit einer Multiplikation ist
fatal und unterläuft Anfängern häufig. Manchmal ist es selbstverständlich, dass man von reellen Zahlen
redet, dann formuliert man gern kürzer ’die Funktion f(x) = x2 ’ oder noch kürzer ’die Funktion x2 ’.
Man denke aber stets an die eindeutige Zuordnung x → x2 . Bei Funktionen wird in starkem Maße
wieder die Grundtechnik des Einsetzens wichtig: Im Beispiel f(x) = x2 (die Gleichung ist definitorisch
allgemeingültig für den jeweiligen Zusammenhang, gilt also für alle x) hat man etwa f (x + y) = (x + y)2
(um das Eingesetzte muss man Klammern setzen!). ’f von ...’ zu bilden, bedeutet, in den Rechenausdruck
für f einzusetzen, nicht etwa mit ihm zu multiplizieren!
Hinweis zu einer etwas altväterlichen, aber immer noch nützlichen Sprechweise: Bei einer Funktion
f(x) nennt man gern x die unabhängige Variable und f (x) die abhängige.
Den Zuordnungsbegriff formuliert man nun ganz allgemein so: Seien A und B Mengen, und a → f (a)
gebe eine eindeutige Vorschrift, nach der jedem Element a ∈ A genau ein Element f (a) ∈ B zugeordnet
wird, dann ist f eine Abblidung von A nach B. Symbolisch:
f: A →
B
.
a → f(a)
3. ABBILDUNGEN UND FUNKTIONEN
9
Das lohnt sich in dieser Allgemeinheit, z.B. Ist + : R2 → R eine Abbildung, die jedem Paar (x, y) von
reellen Zahlen eindeutig die Summe x + y zuordnet. Ebenso ist ∩ eine Abbildung, die jedem Paar von
Teilmengen einer vorgegebenen Grundmenge wieder eine solche Teilmenge zuordnet. Eine Spiegelung
an einer Ebene im dreidimensionalen Raum ordnet jedem Punkt des Raumes seinen Spiegelungspunkt
(bezüglich der vorgegebenen Ebene) zu. Oder: Sie schalten Widerstände der Werte R1 , ..., Rn zusammen
und ordnen jeder Folge (R1 , ..., Rn ) positiver Zahlen den Gesamtwiderstand der Schaltung zu, der sich
eindeutig aus den vorgegebenen Widerständen errechnet.
Zur vollständigen Angabe einer Abbildung gehören drei Dinge: Definitionsbereich (im Schema: A),
Wertebereich (oder Zielmenge) (im Schema: B) und Zuordnungsvorschrift. Oftmals ergeben verschiedene
Vorschriften dieselben Resultate. Wenn das der Fall ist, so handelt es sich um ein und dieselbe Abbildung.
Beispiel: sin(x) oder cos (x − π/2) . Wenn es bei A, B um Mengen von Zahlen oder endlichen Zahlenfolgen
handelt, sagt man gern ’Funktion’ statt ’Abbildung’, ansonsten sind die Begriffe gleich.
Es gibt ein paar stets interessierende Eigenschaften bei Abbildungen, die wir nunmehr definieren:
Eine Abbildung f : A → B heißt injektiv (genau) dann, wenn für alle a1 , a2 ∈ A gilt: f (a1 ) =
f (a2 ) =⇒ a1 = a2 . (Man verwechsle das nicht mit der Eindeutigkeit, die man definitorisch für jede
Abbildung verlangt, die sieht formal so aus: Für alle a1 , a2 ∈ A gilt: a1 = a2 =⇒ f(a1 ) = f (a2 ) .
Man beachte stets, dass man =⇒ nicht ohne weiteres herumdrehen darf. Zum Beispiel gilt für die oben
erwähnte Quadratfunktion f : R → R, f(x) = x2 die letztere Eigenschaft, aber sie ist nicht injektiv, da
etwa f (2) = f(−2) = 4.
Eine Abbildung f : A → B heißt surjektiv (genau) dann, wenn für alle b ∈ B mindestens ein a ∈ A
gibt, so dass f (a) = b ist. Zum Beispiel ist f : R → R, f(x) = x2 auch nicht surjektiv, weil etwa b = −2
niemals als Quadrat einer reellen Zahl herauskommt.
Eine Abbildung f : A → B heißt bijektiv (genau) dann, wenn f injektiv und surjektiv ist. Zum
Beispiel ist die Funktion f : R → R, f (x) = x3 bijektiv.
Man versteht diese Eigenschaften leichter in dieser Form: Injektivität einer Funktion f : A → B
bedeutet, dass eine Gleichung f (a) = b für jedes b ∈ B höchstens eine Lösung a hat. Surjektivität: Die
Gleichung hat für jedes b ∈ B mindestens eine Lösung, Bijektivität: ’genau eine Lösung’.
Wenn eine Abbildung f : A → B bijektiv ist - und nur dann, existiert eindeutig die zugehörige
Umkehrfunktion f −1 (man denke nicht an f1 , das ist eine Gefahr bei dieser Notation), die man dann
völlig allgemein so defnieren kann: f −1 : B → A, b → das eindeutig bestimmte a ∈ A, so dass f(a) = b.
Beispiele: f : R≥0 → R≥0 (Menge der reellen Zahlen ≥ 0 jeweils), f (x) = x2 ist bijektiv (das macht man
oft so, dass man Definitionsbereich und Wertebereich geeignet einschränkt, eine bijektive
Abbildung zu
√
erhalten). Die Umkehrfunktion ist die Wurzelfunktion f −1 : R≥0 → R≥0 , f −1 (x) = x. Ebenso:
sin : [− π2 , π2 ] → [−1, 1]
x
→ sin (x)
ist bijektiv, die Umkehrfunktion heißt arcsin (Arkussinus).
Man merke sich: Ist f : A → B umkehrbar, so hat man f −1 f (a) = a und f f −1 (b) = b für alle
a ∈ A, b ∈ B.
Es sei f : A → B. Dann bildet man für C ⊂ A und D ⊂ B:
f (C) : = { f (a)| a ∈ C} , speziell Bild (f ) := f (A) , ferner
f (D) : = { a ∈ A| f(a) ∈ D} .
−1
Man nennt f(C) auch ’Bild von C’ und f −1 (D) ’Urbild von D’. Speziell heißt f (A) das Bild der Abbildung f und wird gern bezeichnet mit Bild (f ). Der Wertebereich B ist im allgemeinen größer als Bild(f ) .
Beide Mengen fallen genau dann zusammen, wenn f surjektiv ist. Achtung: für die Bildung f −1 (D) muss
nicht etwa die Umkehrfunktion von f existieren! Beispiel: Für tan: R → R (nicht umkehrbar!) hat man
tan−1 ({0}) = { kπ| k ∈ Z} .
Umkehrfunktionen anzuwenden bedeutet ein wichtiges Mittel zum Auflösen von häufig auftretenden
Gleichungen, etwa löst man die Gleichung 3ex−2 = 5 durch Anwenden der Logarithmusfunktion auf
beiden Seiten, das ergibt ln (3) + x − 2 = ln (5) , also eindeutig x = 2+ln(5)
ln(3) . Man beachte jedoch, dass z.B.
1
die Gleichung sin (x) = 2 nicht eindeutig zu lösen ist. Anwendung der Umkehrfunktion arcsin ergibt nur
die Lösung im Bereich [− π2 , π2 ], das ist π/6. Symmetrisch zu π/2 liegt eine zweite Lösung der Gleichung,
10
1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN
also π/2 + (π/2 − π/6) = 56 π. Alle weiteren Lösungen der Gleichung erhält man durch Addieren von kπ
mit ganzen Zahlen k.
Scharen von Funktionen: Oft hat man im Rechenausdruck für eine Funktion noch einen äußeren
Parameter, etwa f(t) = sin (ωt) . t ist die unabhängige Variable, ω äußerer Parameter. Dann kann man
an eine bestimmte Funktion denken, mit irgendwie fixiertem Wert ω > 0. (Damit wird dann wieder
wie mit einer Konstanten gerechnet, s.o.) Man kann aber auch daran denken, dass man alle Funktionen
fω (t) = sin (ωt) als Schar von Funktionen auf einmal anschaut, für alle Zahlen ω > 0. Man wird dann etwa
zur Veranschaulichung die Graphen einiger Exemplare aufzeichnen und an die Kurven den zugehörigen
Wert von ω schreiben.
3.1. Endliche und unendliche Folgen als spezielle Abbildungen. Eine endliche Folge von
Objekten a1 , ..., an ∈ A notiert man (a1 , ..., an ) oder auch (ai )1≤i≤n . Genau lässt sie sich verstehen
als Abbildung f : {1, ..., n} → A, mit f(i) = ai für 1 ≤ i ≤ n. Es kommt also auf die Reihenfolge
an, und die Schreibweise (a1 , ..., an ) gibt einfach die Bildfolge zu (1, ..., n) . Insbesondere werden für uns
die endlichen Folgen reeller Zahlen wichtig, das sind Koordinatendarstellungen von Vektoren. Vektoren
spielen in Physik und speziell in der Elektrizitätslehre eine tragende Rolle.
Für die Analysis (Lehre von den reellen Funktionen) und bereits für das Verständnis der rellen Zahlen
selbst benötigt man unendliche Folgen reeller Zahlen. Man schreibt sie: (an )n∈N oder auch kürzer (an )n .
(Es könnte auch N0 heißen.) Ausgeschrieben also a1 , a2 , ... und so immer fort. Dabei ist an ∈ R für alle
n ∈ N. Wichtig zu verstehen ist: an ist nur das n− te Folgenglied, also eine Zahl. Aber (an )n ist die gesamte
Folge. Wie schon die endlichen Folgen können wir auch die unendlichen wieder als Abbildungen verstehen:
Es liegt einfach eine Abbildung f : N → R vor, mit f (n) = an für alle natürlichen Zahlen. Wir wollen
einen Grund dafür angeben, warum Folgen wichtig sind: Wie bereits erwähnt, kann man viele reelle Zahlen
wie e nur durch einen Bruch oder eine endliche Dezimalzahl nähern. Das möchte man aber mit beliebiger
Genauigkeit tun. Die Lösung des Problems: Man gibt eine unendliche Folge von Zahlen an, welche die
gewünschte Zahl so gut nähern, wie man möchte.
Die angegebene Folge sollte die ’schwierige’
reelle Zahl
1
1
1
1
dann als Grenzwert haben. Beispiel: die Folge
1+ +
+
+ ... +
hat e als
1 1·2 1·2·3
1 · 2 · ... · n
n
Grenzwert. Aussagen über die verbleibenden Fehler stellt die Mathematik dann bereit.
Später werden auch Folgen von Funktionen wichtig. also (fn )n , wobei fn jeweils eine Funktion ist.
Der praktische Sinn erklärt sich wie bei den Zahlenfolgen: Es soll der Funktionswert einer schwierigen
Funktion f an beliebiger Stellex allgemein für x als Grenzwert
einer Zahlenfolge angegeben werden.
2
n
x
x
Beispiel: ex als Grenzwert von 1 + x +
. Hier wäre f (x) = ex , fn (x) = 1 +
+ ... +
1·2
1 · 2 · ... · n n
n
x2
xn
1 k
x + 1·2
+ ... + 1·2·...·n
=
k! x .
k=0
3.2. Ein Überblick über die benötigten mathematischen Objekte. Man braucht sich nicht
vor einem unübersehbaren Zoo mathematischer Objekte zu fürchten: Aus den bereits angeführten kann
man alles Weitere machen. Wenn es sehr kompliziert wird, dan liegt vielleicht eine Abbildung vor, deren
Definitionsbereich und Wertebereich beide Funktionenmengen sind. Das nennt man dann auch einen
Operator, und ein solcher ist Ihnen bereits aus der Schule bekannt: die Ableitung - sie macht aus einer
Funktion eine neue Funktion. Ähnlich das bestimmte Integral: Es macht aus einer Funktion eine Zahl.
Vielmehr sollte man darauf achten, dass man versteht, welche naturwissenschaftlichen Gegenstände mit
welchen mathematischen so gut beschrieben werden können, dass man sie geradezu identifiziert: Etwa
elektrostatische Felder und Abbildungen, welche jedem Raumpunkt einen Vektor zuordnen (den Feldvektor an dieser Stelle). Man nennt sie Vektorfelder.
4. DIE NATÜRLICHEN ZAHLEN, VOLLSTÄNDIGE INDUKTION BZW. REKURSION
11
4. Die natürlichen Zahlen, vollständige Induktion bzw. Rekursion
Grundbegriffe und Resultate:
1.) Definition einer Abbildung f : N → N durch Rekursion:
f (1) = a
a und eine Funktion g : N × N → N fest gegeben.
f (n + 1) = g (n, f (n))
(Auch: Start bei Null, N0 statt N. Auch allgemeiner:
Rückgriff auf alle Funktionswerte f (k) , 1 ≤ k ≤ n.)
Satz dazu: Es gibt genau eine Funktion, welche die gegebenen Gleichungen erfüllt.
Diese definieren also f.
2.) Beweis durch vollständige Induktion bzw. Rekursion:
α (1) (’Induktionsanfang’
∀n ∈ N (α (n) =⇒ α (n + 1)) ’Induktionsschluss’
(Start auch bei Null, N0 statt N)
∀n ∈ N : α (n)
Allgemeineres induktives Beweisschema:
α (1)
∀n ∈ N (∀k ∈ N(k ≤ n =⇒ α (k)) =⇒ α (n + 1))
∀n ∈ N : α (n)
(schwächere Aussage des Induktionsschlusses, da stärkere Voraussetzung)
Satz dazu: Die angegebenen Schlussregeln sind logisch korrekt.
Grundtechniken:
Konkrete Anwendung einer rekursiven Definition (etwa programmieren!),
Anwendung des rekursiven Beweisschemas durch korrektes Einsetzen in einfachen Fällen
Anwendungsbeispiele:
1. Es sei f : N → N rekursiv definiert durch
f (1) = 1
f (2) = 2
(n + 2) = 2f (n) + 3f (n + 1) (n ∈ N)
Dann ist f (3) = 2 + 6 = 8, f (4) = 4 + 24 = 28, f (5) = 16 + 3 · 28 = 100, usw.
2. Wir beweisen rekursiv, dass f streng monoton wächst, also die Aussage
(i) ∀n, m ∈ N : (n < m =⇒ f (n) < f (m)).
Dazu beweisen wir zuerst: (ii) ∀n ∈ N : f (n) < f (n + 1) .
Induktionsanfang, wird hier für zwei Fälle benötigt:
Die Aussage (ii) gilt für n = 1, 2 mit f (2) = 2, f (3) = 8.
Induktionsschluss: Die Aussage (ii) gelte für n. Es ist zu zeigen, dass Sie auch für n + 1 gilt.
Wir haben mit n = k + 1:
f (n + 1) = f (k + 2) = 2f (k) + 3f (k + 1) > f (k + 1) = f (n) .
Dabei haben wir benutzt: (iii) f (n) > 0 für alle n.
(Zuerst muss man diese Aussage rekursiv beweisen, tun Sie das.)
Nun beweisen wir (offenbar gleichwertig zu (i): ∀k ∈ N : (∀n ∈ N : f (n) < f (n + k)) .
Induktionsanfang: Die Aussage gilt für k = 1 (das ist die eben bewiesene Aussage.)
Induktionsschluss: Sie gelte für k. D.h. ∀n ∈ N : f (n) < f (n + k) .
Zu zeigen ist nun: ∀n ∈ N : f (n) < f (n + k + 1) .
Wir haben f (n + k) < f (n + k + 1) für alle n, k mit dem vorigen Satz, also für alle n
f (n) < f (n + k) < f (n + k + 1) (erste Ungleichung mit Induktionsvoraussetzung),
somit für alle n : f (n) < f (n + k + 1) .
Die natürlichen Zahlen bilden eine Grundstruktur, welche die Mutter aller Kombinatorik ist und
daher auch für Anwender von eigenem Interesse, die eher an die reellen Zahlen denken. Die fundamentale
Eigenschaft der natürlichen Zahlen: Man fängt mit 1 an (wahlweise mit 0) und erzeugt alle weiteren
natürlichen Zahlen durch Nachfolgerbildung. Dabei verlangt man, dass die Nachfolgerabbildung injektiv
ist. 1 ist die erste in der Ordnung, selber kein Nachfolger. Daraus folgt ein wichtiges Prinzip für Definitionen von Funktionen f : N → B und für Beweise von Aussagen der Form ∀ (n ∈ N) α (n) . Wir formulieren
12
1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN
das in zwei Sätzen, die unmittelbar aus folgendem Grundaxiom für die Struktur der natürlichen Zahlen
folgen: Jede nichtleere Menge natürlicher Zahlen hat ein kleinstes Element.
Satz 1. Prinzip der Definition durch Rekursion (Induktion): Das Schema f(1) = a, f (n + 1) =
g(n, f (n)) definiert mit einem beliebigen Rechenausdruck α eindeutig eine Funktion f : N → B, wobei B
eine Menge sein muss, die a und alle weiteren Werte g (n, f (n)) enthält.
Satz 2. Prinzip des Beweises mit vollständiger Induktion: Aus den Aussagen α (1) (’Induktionsanfang’) und ∀ (n ∈ N) (α(n) =⇒ α (n + 1)) (’Induktionsschluss von n auf n + 1’) folgt die Aussage
∀ (n ∈ N) α (n) .
Beispiel: f (1) = 1, f(n + 1) = f(n) + n + 1 definiert eindeutig eine Funktion N → N. Der Rechenausn (n + 1)
druck α ist hier: f(n) + n + 1. Man kann nun mit Induktion beweisen: ∀ (n ∈ N) f (n) =
.
2
n (n + 1)
1·2
Hier ist die Aussage α(n) : f (n) =
. α (1) besagt: f(1) =
. Das stimmt. Damit ist der
2
2
Induktionsanfang gemacht. Nun der Induktionsschluss: Die Aussage α(n) =⇒ α (n + 1) ist allgemein
n (n + 1)
(n + 1) (n + 2)
für n ∈ N zu beweisen. Sie lautet: Wenn f (n) =
, dann f (n + 1) =
. Aber
2
2
n (n + 1)
nach rekursiver Definition ist f (n + 1) = f (n) + n + 1. Wenn nun f (n) =
, so haben wir
2
n (n + 1)
n
(n + 1) (n + 2)
+ n + 1 = (n + 1)
+1 =
. Man beachte: Wir mussten nur
f (n + 1) =
2
2
2
α (n + 1) beweisen unter der Voraussetzung, dass α (n) bereits gültig ist. Das ist viel weniger, als etwa
α (n + 1) allgemein zu beweisen! Aber das Prinzip besagt, dass dies zusammen mit dem Induktionsanfang bereits ausreicht, ∀ (n ∈ N) α (n) zu beweisen. Es sei betont: α(n) =⇒ α (n + 1) kann auch dann
allgemeingültig sein, wenn tatsächlich α (n) für alle n falsch ist, nehmen Sie für α (n) etwa die Aussage:
’Alle natürlichen Zahlen sind gerade und ungerade’. Wenn n gerade und ungerade ist, dann ist es auch
n + 1. Diese ’wenn..., dann...’-Aussage ist allgemeingültig.
Bemerkung zur Begründung aus dem Prinzip vom kleinsten Element: Wenn α (n) für
mindestens eine natürliche Zahl falsch wäre, so wäre die Menge der Zahlen m, für die α (m) falsch ist,
nicht leer, hätte also ein kleinstes Element m0 . Nun kann wegen der Gültigkeit von α (1) die Zahl m0
nur größer als 1 sein. Aber dann gilt α (m0 − 1) . Mit dem Induktionsschluss müsste aber dann auch
α (m0 ) richtig sein, wir haben also einen Widerspruch. (Ähnlich kann man das Prinzip der Definition
durch Rekursion begründen.)
Bemerkung zu einer Verallgemeinerung der Prinzipien: Wie oben formuliert, greift man
für n + 1 nur auf den unmittelbaren Vorgänger n zurück. Aber die Prinzipien bleiben gültig, wenn
man sogar den Rückgriff auf alle Vorgänger erlaubt. Dazu zwei Beispiele: Mit f (0) = 1, f(1) = 1,
f(n + 2) = f(n + 1) + f(n) wird korrekt eine Funktion f : N0 → N definiert. Die rekursive Definition
greift hier auf zwei Vorgänger zurück. Folgendes Beispiel macht Gebrauch von beliebigen Vorgängern:
Man möchte induktiv beweisen, dass jede natürliche Zahl eindeutig in Primfaktoren zerlegt werden kann
und argumentiert für den Induktionsschluss so: Sei n > 2 eine natürlich Zahl. Dann ist n entweder
selbst Primzahl (und die Behauptung stimmt also), oder aber es gibt Zahlen r, s ∈ N, r, s ≥ 2, mit der
Eigenschaft rs = n. Für r, s existiert aber bereits (gemäß verallgemeinerter Induktionsvoraussetzung!) je
eine Primfaktorzerlegung. Die braucht man nur zusammenzufügen und erhält eine solche für n. Es wird
also auf die Behauptung für beliebig weit zurückliegende Vorgänger r, s zurückgegriffen.
KAPITEL 2
Elementare Grundkenntnisse zum Rechnen
Grundbegriffe:
Fakultät 0! = 1, (n + 1)!
=(n + 1) n!
n
n!
Binomialkoeffizienten:
=
k
k! (n − k)!
n
Großes Summenzeichen:
ak = a1 + ... + an , leere Summe, etwa
ak = 0. (Definition!)
k=1
1<k<1
(Analog wird großes Produktzeichen benutzt, leeres Produkt hat den Wert 1.)
n
n
Wieder analog auch:
Ak := A1 ∩ ... ∩ An sowie
Ak := A1 ∪ ... ∪ An
k=1
Polynome p (x) =
n
k=0
k=1
αk xk , αk sind die Koeffizienten; mit αn = 0 hat p den Grad n; Polynomdivision
Partialbruchzerlegung von Brüchen
p (x)
mit p, q Polynomen, Grad (p) < Grad (q)
q (x)
Ein paar dringende Ratschläge zum Rechnen:
1 √
1
1. Ausdrücke wie , 2,
sind so perfekt! (Keine Dezimalzahlen!)
7
1 + ln (2)
2. Man versäume nicht, in Brüchen so viel wie möglich zu kürzen.
3. Man multipliziere niemals aus, ohne einen triftigen Grund dafür zu haben.
x
x
Also:
5 ist viel besser als x5 − 5x4 + 10x3 − 10x2 + 5x − 1 , usw.
(x − 1)
Einziger Grund für Ausmultiplizieren: Zusammenfassen von Gliedern zur selben Potenz wie z.B.
2 (x − 1) + 3 (4 − x) = 10 − x.
4. Stattdessen klammert man so viel wie möglich aus, mit großem Gewinn, z.B.
2
2e−x − 3xe−x = (2 − 3x) e−x , das wird also Null genau für x = .
3
5. Man beseitige stets sofort Doppelbrüche: Sie geben beim Rechnen einen unübersichtlichen Brei,
aus dem man
elementarsten Eigenschaften nicht erkennt.
√ alsbald die
x
1 + x2 + √1+x
2
1 + x + x2
Beispiel:
=
. Man erkennt nunmehr sofort,
√
2
(1 − x)
(1 − x)2 1 + x2
dass alle Werte des Bruchs (definiert genau für x = 1) positiv sind, niemals Null.
6. Bei Rechenausdrücken und Gleichungen klassifiziere man stets, dann ist klar, was sinnvoll
zu tun ist und was nicht. Ein Beispiel: Die Gleichung a2 x − 3ax + 5x = 2 ist nach x aufzulösen.
Das ist eine lineare Gleichung in x, also klammern wir x aus und erhalten dann sofort die
2
Lösung x = 2
(gültig für jeden Wert von a, da der Nenner nie Null wird).
a − 3a + 5
7. Wenn man mit äußeren Parametern rechnet, so ist stets darauf zu achten, ob gewünschte
Operationen erlaubt sind oder nicht. Dafür sind dann öfter Fallunterscheidungen anzubringen.
Beispiel: Auf die Frage nach den Lösungen (x ist Unbestimmte, a äußerer Parameter)
der Gleichung a2 x − 3ax − 5x = 2 ist korrekt zu antworten:
√
2
Die einzige Lösung ist x (a) = 2
für a = 32 ± 12 29, sonst ist die Lösungsmenge leer.
a − 3a − 5
8. Routinemäßig und rasch sollte man quadratische Gleichungen und kleine lineare Gleichungssysteme
lösen können. Ferner sollte man Gleichungen der Form f (x) = a (Unbestimmte x) bei umkehrbarer
Funktion f lösen mit x = f −1 (a) . (a im Bild von f.)
13
14
2. ELEMENTARE GRUNDKENNTNISSE ZUM RECHNEN
Grundresultate:
1. n! = Anzahl der Anordnungen von n Objekten
=
Anzahl
der Menge Sn := { f| f : {1, ..., n} → {1, ..., n}, f bijektiv}
n
2.
= Anzahl der Möglichkeiten, k Objekte aus n Objekten auszuwählen
k
(das sind die Zahlen im Pascalschen Dreieck)
n
n
n
n
n
n
4. Großes Summenzeichen:
ak +
bk =
(ak + bk ) ,
λak = λ
ak ,
c = n · c,
k=1
k=1
k=1
k=1
k=1
k=1
n
m n
n
m
m
n
n m
m ak ·
br =
ak
br =
br
ak =
ak br =
br ak
r=1
r=1
r=1
r=1
r=1
k=1
k=1
k=1
k=1
k=1
n
n·n n
m
n
=
ak br ,insbesondere
ak ·
ak =
ak as−k
1≤k≤n, 1≤r≤m
n n k n−k
n
k=0
k=0
s=0 k=1
3. (a + b) =
a b
(allgemeine binomische Formeln)
k
4. (Polynomdivision) p Polynom, q Polynom vom Grad ≥ 1, dann gibt es eindeutig
Polynome s, r, so dass: p (x) = s (x) q (x) + r (x) , und dabei ist Grad (r) < Grad (q)
5. Partialbruchzerlegung: Wenn p, q reelle Polynome sind mit Grad (p) < Grad (q) und
m
k
q (x) = (x − α) x2 + 1 · ... (weitere derartige Faktoren, jedoch ohne Nullstelle α
und ohne die komplexen Nullstellen des quadratischen Polynoms), dann gibt es
Zahlen A1 , ..., Ak , B1 , , , .Bm , C1 , ..., Cm , so dass
p (x)
A1
Ak
B1 + C1 x
Bm + Cm
=
+ ... +
+
+ ... + 2
+ ... (usw. für weitere
k
2+1
q (x)
x−α
x
(x
+ 1)m
(x − α)
Faktoren des Nenners). Berechnung:
p (α)
Stets Ak =
, mit q1 (x) = q (x) / (x − α)k ,
q1 (α)
Restliche Koeffizienten über lineares Gleichungssystem etwa (setze einfache Werte für
x in die Gleichung (∗) ein, welche keine Nullstellen des Nenners sind).
Wichtiger einfachster Fall: α1 , ..., αn paarweise verschieden, dann
An
p (αi)
p (x)
A1
+ ... ·
mit Ai = =
(x − α1 ) · ... · (x − αn )
x − α1
x − αn
(αi − αk )
k=0
k=i
1. Terme (Rechenausdrücke) für reelle Zahlen, und Gleichungen
Mit den Operationen +, ·, .. und Konstanten wie 0, 1, e, π sowie Variablen x, y, x1 ,... bildet man beliebig zusammengesetzte Rechenausdrücke oder Terme. Dabei hat man auf notwendige Klammern und
Klammerersparnisregeln zu achten. Beispiel: (x + e) (1 + y) 1+x
y+z . Es kommt noch mehr hinzu, wenn man
Potenzen bildet und Funktionssymbole benutzt, Beispiel: sin (1 + xn ) . (Zu den Funktionen vgl. Kapitel
4.) Was tut man mit solchen Rechenausdrücken, und welche Rolle spielen die Buchstaben dabei?
1.) Man setzt in einen Rechenausdruck für die Buchstaben, die keine Konstanten (Eigennamen wie
e, π) sind, Zahlen ein und wertet den Rechenausdruck aus. (Dies ist geläufig, aber es wäre ganz falsch,
die Mathematik für Anwender darin erschöpft zu sehen - das ist vielmehr noch fast gar nichts!)
2.) Man formt gemäß den oben formulierten Gesetzen und weiteren Folgerungen daraus Rechenausdrücke gleichwertig um, so dass man
einefür die angestrebten praktischen Zwecke günstigere Form
1
1
2
x−1
1
2
x + 4 + x = − x − 2. Oder
= − +
. Oder
erhält. Beispielsweise f(x) = 2 −
3
5
15
x (1 + x)
x
1+x
2
3
5
x2 − 3x + 1 = x −
− .
2
4
3.) Man hat eine allgemeingültige Gleichung t2 (x, y, ...) = t2 (x, y, ...) oder Ungleichung t1 ≤ t2 zwischen zwei Termen t1 und t2 und setzt für die freien Variablen x, y, ... beliebige Rechenausdrücke ein, um
eine neue allgemeingültige Gleichung bzw. Ungleichung zu erhalten. Beispiel: Man hat die allgemeingültige
1. TERME (RECHENAUSDRÜCKE) FÜR REELLE ZAHLEN, UND GLEICHUNGEN
Ungleichung
n
n
1
n
ak ≤
ak , für alle n ∈ N, ak ≥ 0 für 1 ≤ k ≤ n.
n
k=1
Man setzt ein: ak =
15
k=1
1
und erhält:
k
n
1
11
1
√
≤
=
n
n
k
n
n!
k=1
1
1
1 + + ... +
.
2
n
4.) Man hat eine Bestimmungsgleichung (nicht allgemeingültig!) wie etwa x2 +x−1 = 0 und löst diese
Gleichung unter Verwendung gleichwertiger Umformungen oder auch einer fertigen Formel. Man sucht
hier eine einfache Beschreibung der Erfüllungsmenge dieser Gleichung, wobei man den Zahlenbereich
festlegen muss, in dem man Lösungen sucht. Im Beispiel etwa:
1 1√
1 1√
2
x ∈ R| x + x − 1 = 0 = − −
5, − +
5 .
2 2
2 2
√
Natürlich sagt man lieber: Die einzigen reellen Lösungen von x2 + x − 1 = 0 sind x1,2 = − 12 ± 12 5.
5.) Bestimmungsgleichung mit äußeren Parametern:
x2 + px + q = 0 ist die Normalform der quadratischen Gleichung. Darin ist die Variable x Unbestimmte, die Variablen p, q dagegen spielen eine ganz andere Rolle, sie sind äußere Parameter, d.h.
man stellt sich vor, ihre Werte seien in beliebiger Weise ’von außen’ fixiert.Die angestrebte Lösung
p 2
p
− q, was im Falle
gibt eine Lösungsformel für beliebige Werte von p, q. Man hat x1,2 = − ±
2
2
p 2
p 2
− q > 0 zwei verschiedene reelle Lösungen der Gleichung ergibt, im Falle 2 − q = 0 nur die
2
p 2
p
− q < 0 überhaupt keine reelle Lösung.
einzige reelle Lösung x = − , im verbleibenden Fall
2
2
Daran sollte man sich gewöhnen: Lösen eines Problems mit äußeren Parametern bedeutet: Beim Rechnen
werden die äußeren Parameter einfach wie Konstanten der Art e, π ’durchgezogen’, aber bei gewissen
Rechenoperationen stößt man gewöhnlich auf Fallunterscheidungen.
Der zweckmäßige Umgang mit Rechenausdrücken fordert stets das Wahrnehmen des ’Typs’ eines
vorliegenden Rechenausdrucks. Parallel zu den Rechenausdrücken typisiert man die Gleichungen. Liegt
ein einfacher Typ vor, so kann man an dazu bekannte Verfahren anknüpfen. Liegt ein schwieriger Typ
vor, so wird man nicht naiv einfache Lösungen eines Problems erwarten. Folgende grobe Einteilung sollte
man kennen:
Typen von Rechenausdrücken für reelle Zahlen
Lineare Ausdrücke in x sind ax + b (man unterscheidet noch ’linear im engeren Sinne’,
dann muss b Null sein, und ’affin’ mit beliebiger Konstanten b
Lineare Ausdrücke in x1 , ..., xn sind a1 x1 + ... + an xn + b (wieder mit der feineren Unterscheidung)
Ein Polynom in x ist ein Ausdruck a0 + a1 x + ... + an xn .
p (x)
Ein gebrochen rationaler Ausdruck in x ist
, mit Polynomen p, q (q nicht die Konstante 0)
q (x)
Algebraische Ausdrücke sind solche, bei denen auch zusätzlich gebrochene Exponenten auftreten.
Transzendente Ausdrücke sind solche, bei denen transzendente Funktionen wie sin, ln auftreten.
Man sollte wissen: Nur lineare Gleichungen und lineare Gleichungssysteme sowie quadratische Gleichungen kann man einfach lösen. Hinzu kommt das Lösen von einfachsten Gleichungen unter Benutzung
von Umkehrfunktionen, vgl. dazu den nächsten Abschnitt. Die Methoden für kompliziertere Gleichungen
sind völlig anderer Art - fast immer sucht man dann mit den Mitteln der Analysis Näherungslösungen.
Übrigens gibt es lediglich für Polynomgleichungen bis zum 4. Grad noch Lösungsformeln, darüber hinaus
kann man beweisen, dass es solche Formeln gar nicht geben kann! Später erst werden wir in der Lage sein,
so etwas wie sin(x) mit einem Rechenausdruck zu erfassen, der eine Verallgemeinerung eines Polynoms
darstellt.
16
2. ELEMENTARE GRUNDKENNTNISSE ZUM RECHNEN
Zum Grundwissen gehört ferner, dass man ein Polynom wie 2− x2 + 1 x3 − x + 1 in die geordnete
Standardform schnell überführen kann. (’Ordnen nach Potenzen von x’, Zusammenfassen der Koeffizienten (Vorfaktoren für die Potenzen) im Kopf!). Im Beispiel lautet die Endform: 1 + x − x2 − x5 . Man sollte
stets solche Endformen als Gestalten im Kopf haben und bei einem vorliegenden Ausdruck wahrnehmen,
dass man eine solche Endform erreichen kann.
Eine Bemerkung zu Rechenausdrücken und Gleichungen: Man achte stets darauf, ob man
einen Rechenausdruck bearbeitet oder eine Gleichung. Rechenausdrücke formt man um, Gleichungen
2x
auch, aber aus 2x
3 kann man nicht gleichwertig 2x machen, wohl aber aus der Gleichung 3 = 3 die
gleichwertige Gleichung 2x = 9. Gleichwertigkeit von Termen t1 , t2 bedeutet die Allgemeingültigkeit der
Gleichung t1 = t2 . Gleichwertigkeit von zwei Gleichungen t1 = t2 , u1 = u2 bedeutet dagegen, dass folgende
Aussage allgemeingültig ist: t1 = t2 ⇐⇒ u1 = u2 . Der Doppelpfeil bedeutet ’genau dann, wenn’, also
’wenn..., dann...’ in beiden Richtungen. Vorsicht: Oft wird von Anfängern aus x2 = y 2 gefolgert: x = y.
Das ist falsch, wenn die Zahlen nicht als positive vorauszusetzen sind. Man hat nur: x = y =⇒ x2 = y 2 ,
nicht die umgekehrte Richtung. Sondern: x2 = y 2 ⇐⇒ x = y oder x = −y.
Niemals schreibe man =⇒ , ⇐⇒ zwischen Rechenausdrücke - sie gehören nur zwischen Aussagen,
um eine neue Aussage zu formen.
Man geht ’schrittweise’ vor. Das sollte aber nicht dazu führen, dass man etwa in einem Rechenausdruck nur einen Teilausdruck gleichwertig ersetzen will und eine falsche Gleichung schreibt, die ’den Rest
vergisst’. Wenn nötig, führe man eine Nebenrechnung auf.
Eine Bemerkung zur Verallgemeinerung des Begriffs ’Rechenausdruck’ auf beliebige
Strukturen: Die Teilmengen einer Grundmenge G bilden mit den Verknüpfungen ∪, ∩ ebenfalls eine
Struktur, und man bildet Terme wie A ∩ (B ∪ C) usw., genau wie bei den Zahlen, nur stehen die Buchstaben für Mengen, und an die Stelle der Zahlenoperationen wie +, · treten die Mengenoperationen ∪, ∩.
Später werden wir Vektorräume haben. Darin sieht die Endform eines Rechenausdrucks in den Vektoren
n
−
→
−
→
→
→
→
α −
a , ..., a so aus:
a =α −
a + ... + α −
a .
1
n
k
k
1
1
n
n
k=1
2. Eine grundsätzliche Bemerkung zum Rechnen
Rechnen heißt nicht: Irgendwelche formalen Operationen werden ausgeführt, dann wird in lauter
atomaren Schritten gedacht und geschrieben, geschrieben, geschrieben. Am Ende steht das Resultat
da, vollautomatisch, ohne dass man etwas gedacht hätte. Dies Verhalten führt ständig zu grandiosem
Misserfolg, und es hat mit Rechnen überhaupt nichts zu tun. Was aber ist dann ’Rechnen’ ?
Zunächst muss es einige Aussagen und Daten als Voraussetzungen geben, dann eine Frage. Dann ist
zunächst einmal zu überlegen, welche Form die Antwort auf die Frage haben sollte. Daraus ergibt sich ein
Ziel für das Rechnen: Man möchte einen Ausdruck etwa so umformen, dass gewisse Eigenschaften daraus
ersichtlich werden, gewisse Aussagen zu erschließen sind. Aber auch dann, wenn das Gesuchte völlig klar
ist, etwa eine Gleichung zu lösen ist, dann hat man der Sache nach zu klären, was darin vorgegebene
Parameter und was Unbestimmte sind. Das sollte man auch in der Notation verdeutlichen und beim
Rechnen nicht vergessen. Dann ist die Sache zu beobachten: Handelt es sich um eine Routineaufgabe,
die man einfach mit einem bekannten Verfahren lösen kann? Oder muss man ein paar kleine Schritte
machen, eine Routineaufgabe zu erhalten? Oder handelt es sich um eine schwierigere Sache, zu der man
weitergehende Methoden braucht, etwa auch numerisch mit dem Computer zu arbeiten hat? Nach der
Lösung dann: Der Rückbezug auf die ursprüngliche Frage ist herzustellen.
Beobachtung und zielgerichtete strategische Überlegung sind das Wichtigste. Das sind sie auch beim
Rechnen im engsten Sinne: Man hat etwa auszurechnen: (a + 2)2 − 3 (a − 3)2 . Dann hat man die etwa
gewünschte Endform eines Polynoms in a vor Augen und fasst beobachtend im Kopf zusammen:
(a +
2)2 −
2
2
2
3 (a − 3) = −2a2 + 22a − 23. Also nicht einzeln: (a + 2) − 3 (a − 3) = a2 + 4a + 4 − 3 a2 − 6a + 9 = ...,
sondern gleich: Welche Beiträge gibt es der Form αa2 , welche der Form αa, welche der Form α? Das
Klein-Klein-Rechnen ist der größte Feind des Rechnens und führt keineswegs zu korrekteren Ergebnissen,
sondern zu mehr Rechenfehlern und vor allem zum völligen ’Versanden’ von Rechnungen, die auch bei
mäßiger Komplexität dann schon undurchführbar werden. Das Schlimmste ist: Man verliert das Ziel völlig
aus den Augen. Wir bringen noch zwei Beispiele:
2. EINE GRUNDSÄTZLICHE BEMERKUNG ZUM RECHNEN
17
Wir beseitigt man die Doppelbrüche in
1
a
+
1
2a
1
b
1
− ab
?
1
+ 3b
Nicht etwa sollte man Zähler und Nenner addieren (auf Hauptnenner bringend) und dann die Brüche
dividieren, sondern man sollte den Bruch direkt mit 6ab erweitern und sofort hinschreiben:
1
a
+
1
2a
1
b
1
− ab
a+b−1
=6
.
1
2a + 3b
+ 3b
1
1
+
Diese Gleichung gilt natürlich nur für den Fall, dass beide Seiten definiert sind, also dürfen a, b,
2a 3b
alle nicht Null sein, ebenso 2a + 3b. Aber man erkennt: Für a, b = 0 sind die beiden letzten Bedingungen
a+b−1
ist nur für den Fall 2a + 3b = 0
gleichwertig. Man erkennt aber noch mehr: Der Ausdruck 6
2a + 3b
nicht definiert, dagegen darf sehr wohl a = 0 sein (b nicht) oder umgekehrt. Folgerung:
lim
a→0
1
a
+
1
2a
1
b
1
− ab
b−1
(für b = 0)
=2
1
b
+ 3b
Außerdem erlaubt die Umformung sofort zu sehen, dass der Ausdruck nur für a + b = 1 den Wert Null
hat. All das ist in der Doppelbruchform nicht zu sehen.
Zweites Beispiel - etwas ganz Einfaches: Vielfach wird aus dem Zusammenhang so etwas geschrieben
1
wie −3 2 (c − b) . Man sollte sofort im Kopf noch vereinfachen zu 3a
2 (b − c) . Also gleich Übersichtlicheres
a
schreiben und nicht mit dem Unausgegorenen in Einzelschritten weiterarbeiten.
KAPITEL 3
Elementare Vektorrechnung und analytische Geometrie
Grundbegriffe:
Affine Punkträume E 2 , E 3
→
Vektorräume der Ortsvektoren VO2 , VO3 , −
x P = Ortsvektor des Punktes P
Vektorräume der freien Vektoren V 2 , V 3
Vektorräume R2 , R3 , allgemein Rn , dazu:
Die
(geometrisch
inV 3 ,rechnerisch in R3 )
 (linearen)
  Vektorraumoperationen
 
 


a
λa
a
x
a+x
λ  b  =  λb  ,  b  +  y  =  b + y  (auch allgemein im Rn )
c
λc
c
z
c+z
Betrag
und
Skalarprodukt
im
n−
dimensionalen
Vektorraum:






x1 x
y
1
1
n
n
 .. 




x2k ,  ... 
·  ... 
=
xk yk ,
 . 
= k=1
xn xn yn k=1
 
 


y1
x2 y3 − x3 y2
x1
Vektorprodukt im V 3 bzw. R3 :  x2  ×  y2  =  − (x1 y3 − x3 y1 ) 
xn
yn
x1 y2 − x2 y1 −
→ →
→
Spatprodukt als Volumen mit Orientierungsvorzeichen (im V 3 bzw. R3 ): −
a b ×−
c
Grundresultate:
Gültigkeit der Vektorraumaxiome in den eingeführten Vektorräumen,
−
→
→
Parameterdarstellung für Gerade g mit P ∈ g und Richtungsvektor −
a = 0 :
−
→
−
→
−
→
x g (λ) = x P + λ a , λ ∈ R.
Parameterdarstellung für Ebene E mit P ∈ E und linear
Vektoren
unabhängigen
x
a
cos
(t)
0
−
→
Parametrisierung für Ellipsenbahn (a, b > 0): x (t) =
+
, 0 ≤ t < 2π
y
b sin (t)
20 2
x − x0
y − y0
Gleichungsdarstellung derselben Ellipsenbahn:
+
= 1.
a
b
−
→
−
→
−
→
→
→
→
a , b parallel zu E : −
x g (λ) = −
x P + λ−
a + µ b , λ, µ ∈ R.
Rechenregeln
Skalarprodukt (bilinear,
symmetrisch, positiv definit):
−
für das
−
→
2
−
−
→ −
−
→ −
→
→ −
−
→ −
→→ −
−
→
→
−
→
→
−
→
→
−
→
a b + c = a b + a c, λa b = λ a b , →
a b = b−
a, →
a 2 = −
a
.
−
→−
→
−
→
ba −
−
→
→
→
Formel für senkrechte Projektion von b auf −
a = 0 : −
a
→
a2
−
→
−
→
−
→ −
ab →
→
Formel für cos (α) , α der Winkel zwischen −
a , b = 0 : cos (α) = −
→
→
−
a b
Rechenregeln
für das Vektorprodukt: (Bilinear und antisymmetrisch)
−
→ −
→ −
−
→ → −
→
−
→ → −
→
−
→ →
−
→
→
→
→
a × b + c =−
a × b +−
a ×→
c , λ−
a × b =λ −
a ×b ,−
a × b = −b ×−
a,
−
→
−
→
−
→
−
→
−
→
−
→
−
→
−
→
−
→
e 1 × e 2 = e3 , e 2 × e 3 = e 1 , e 3 × e 2 = e 1 . (Resultate für die Einheitsvektoren.)
−
→ →
−
→
−
→→
−
→
→
→
→
a × b ×−
c = (−
a−
c ) b − (−
a b )−
c
−
→
→
−
→
→
→
→
→
→
→
Spatprodukt: −
a, b,−
c → −
a b ×−
c ist triliniear, alternierend, und −
e1 −
e2×−
e 3 = 1.
19
20
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
Rechentechniken:
Geometrisches und komponentenweises Rechnen mit Vektoren,
Parallelverschieben bei Parameterdarstellungen,
Beschreibung einfacher geometrischer Gebilde durch Parameterdarstellung oder
oder durch Gleichung (bzw. Gleichungssystem)
Lineares und bilineares Rechnen,
algebraisches Vereinfachen von Ausdrücken der Vektorrechnung
Zur naturwissenschaftlichen Motivierung für Vektoren: Eine Geschwindigkeit ist bei näherem
Hinsehen nicht einfach eine Zahl ≥ 0 (’so viel Meter pro Sekunde’), sondern es gehört eine Richtung
im Raum dazu - selbst im eindimensionalen Raum, durch ein Vorzeichen ausgedrückt. Will man eine
Richtung im Raum (wir nehmen den dreidimensionalen Anschauungsraum) und eine Länge in einem
mathematischen Objekt beschreiben, so tut man das zweckmäßig auf zwei Weisen: Einmal mit einem
geometrischen Pfeil, dessen Richtung die gewünschte angibt und dessen Länge der verlangte Betrag ist.
Zweitens beschreibt man einen solchen Pfeil mit seiner Koordinatendarstellung bezüglich eines geeigneten
dreidimensionalen Koordinatensystems (das sollte drei unabhängige Achsen haben). Warum braucht
man beide Beschreibungen? Mit den Pfeilen kann man Zusammenhänge geometrisch sehen und konstruieren, mit der Koordinatendarstellungen Komplizierteres ausrechnen, notfalls auf einem Computer.
Bekanntlich kann man durch Addieren aus Kraftvektoren die resultierende Kraft durch einen einzigen
Vektor darstellen. Da sieht man bereits, dass eine Mengen von Vektoren zusammen mit einer Addition
eine wichtige Struktur darstellt.
Nicht nur Geschwindigkeiten, Beschleunigungen und Drehmomente, auch elektrische und magnetische Feldstärke (je an einem Ort) werden mit Vektoren beschrieben. Auch hier spielt das Summieren
eine tragende Rolle, beispielsweise erhält man das elektrische Feld, das von einer Punktladung erzeugt
wird, einfach durch ’Überlagern’, d.h. Summieren der Feldvektoren. So kann man also aus einfachen,
recht bekannten Feldern sehr komplizierte erzeugen und mathematisch problemlos beschreiben. Dazu
kommt der Abbildungsbegriff: Ein elektrostatisches Feld ist ein Vektorfeld, d.h. eine Abbildung, die
jedem Raumpunkt genau einen Vektor zuordnet, den Feldvektor an diesem Punkt. Bei einem zeitlich
veränderlichen ’Wechselfeld’ kommt noch als weitere unabhängige Variable die Zeit hinzu, das ergibt
einfach wieder ein Vektorfeld, nur haben die Eingabevektoren eine Dimension mehr.
Eine weitere Motivierung ganz anderer Art kommt hinzu: Naturwissenschaftliche Gegenstände haben
vielfach eine geometrische Beschreibungskomponente: Man hat etwa eine elektrische Ladungsverteilung
auf einem dreidimensionalen Metallkörper, der eine ganz bestimmte Form besitzt. Dann ist die rechnerischgeometrische Beschreibung des Körpers grundlegend für alle naturwissenschaftlichen Berechnungen. Das
bedeutet: Analytische Geometrie ist ein Grundnahrungsmittel für Naturwissenschaften, nicht etwas für
mathematische Spezialisten. Man muss Kurven, Flächen und geometrische Körper im Raum rechnerisch
beschreiben, um etwa Gesamtladungen aus Ladungsdichten oder Spannungen aus elektrischen Feldern
auszurechnen. Ähnliches gilt natürlich auch für die Energie, die man benötigt, einen starren Körper
gewisser Gestalt und Massenverteilung auf eine gewisse Kreiselgeschwindigkeit um eine Achse zu bringen.
1. Affiner Raum und Vektorraum
1.1. Punkte im Anschauungsraum, Ortsvektoren und Koordinatensysteme. Vorbemerkung:
Wir denken an die Dimension 3, können aber selbstverständlich jederzeit auf nur zwei Dimensionen
spezialisieren, auf der anderen Seite zeigt sich, dass sämtliche Begriffsbildungen dieses Abschnitts für
beliebige (endliche) Dimensionen taugen. Dimension 3 hat nur eben für das Unterbringen naturwissenschaftlicher Sachverhalte besondere Bedeutung, und es ist wichtig, die Anschauung in drei Dimensionen zu schulen. (Diese Anschauung kann man dann mit großem Gewinn auf höhere Dimensionen einfach
übertragen.)
Die Menge aller Punkte des dreidimensionalen Anschauungsraums bezeichnen wir mit E 3 , die Elemente mit Großbuchstaben P, Q, P1 usw. Wir legen einen beliebigen Punkt O ∈ E 3 fest und stellen
→
bezogen auf O jeden Punkt P durch einen Vektorpfeil dar, der von O nach P geht. Das ist −
xO
P , der
−
→
O
O
Ortsvektor von P bezüglich O. Die Menge V3 ist die Menge aller Ortsvektoren bezüglich O. x O speziell
ist der ’Nullvektor’ (ein zum Punkt degenerierter Pfeil).
1. AFFINER RAUM UND VEKTORRAUM
21
Wir haben damit eine Bijektion
E3
P
→ V3O
.
→
→ −
xO
P
Wir können die Punkte des E 3 und damit auch die Ortsvektoren zahlenmäßig erfassen, indem wir ein
Koordinatensystem L wählen, das seinen Ursprung in O hat und drei unabhängige Achsen (genannt
x, y, z−Achse), mit angegebenen Einheiten und Orientierungen ’positiv-negativ’, die nicht in einer Ebene
liegen. Wir identifizieren die Achsen jeweils mit der reellen Zahlengeraden. Man erhält zum Punkt P (gle→
ichwertig: zum Ortsvektor −
xO
P ) wie folgt eindeutig ein Zahlentripel und umgekehrt zu jedem Zahlentripel
eindeutig einen Punkt bzw. Ortsvektor: P wird parallel zur z− Achse auf die xy− Ebene projiziert, dann
der Projektionspunkt auf parallel zur x− Achse auf die y− Achse und parallel zur y− Achse auf die x−
Achse. Die abgelesenen Zahlen sind die y− Koordinate yPL und x− Koordinate xL
P . Analog erhält man
etwa nach Projektion von P auf die xz− Ebene parallel zur y− Achse und anschließender Projektion auf
die z− Achse parallel zur y− Achse die z− Koordinate zPL . Folgendes Bild zeigt ein Koordinatensystem
als Dreibein, einen Punkt und diese Projektionsvorgänge.
z
xP
P
xP
zP
y
x
yP
Damit haben wir Bijektionen
E3
3
→ R


xL
P
→
P
→  yPL  =: −
xL
P (lies: ’Koordinatendarstellung von P bezüglich K’)
L
zP
→
→
und entsprechend V3O → R3 , −
x P → −
xL
P . (Ortsvektoren bekommen also dieselben Koordinatendarstellungen wie die zugehörigen Punkte.)
Kartesische Systeme: Wir haben nicht vorausgesetzt, dass die Achsen senkrecht aufeinander stehen, auch nicht gleiche Länge der Einheiten auf den Achsen. Ist beides der Fall, so heißt das System K
kartesisch. Beim Umgang mit Längen, Winkeln, Skalar- und Vektorprodukt brauchen wir solche, vorher
aber noch nicht. Bei dreidimensionalen Koordinatensystemen wählt man die Achsen für ein kartesisches
System zusätzlich so, dass sie ein Rechtssystem bilden, d.h. wie Daumen, Zeigefinger und Mittelfinger der
rechten Hand angeordnet sind. Erst bei Skalarprodukt und Vektorprodukt benötigt man zur praktischen
Erfüllung der sich stellenden Aufgaben kartesische Systeme; für die im Folgenden besprochenen linearen
Operationen allein können die Systeme beliebig sein.
Den Nutzen der Ortsvektoren sehen wir im Abschnitt 1.4.
1.2. Affiner Raum und freie Vektoren, Vektorraumbegriff. Im vorigen Abschnitt haben wir
naiv dem Anschauungsraum bereits eine Euklidische Struktur (mit Längen- und Winkelbegriff) unterstellt, aber die gehört hier eigentlich noch gar nicht her, sondern nur die des affinen Raums. Wir setzen
nur voraus, dass E 3 ein affiner Raum ist. Das bedeutet: Hat man zwei Punkte P, Q, so kann die Strecke
von P nach Q (dargestellt durch einen Pfeil von P nach Q) von jedem anderen Punkt R aus in eindeutiger
22
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
Weise abgetragen werden. Das heißt: Der Pfeil von P nach Q kann eindeutig parallel verschoben werden,
so dass er in R beginnt und entsprechend einem eindeutig bestimmten Punkt S endet. Im Falle P = Q ist
der Pfeil wieder degeneriert. Zweitens verlangen wir: Jeder Pfeil zwischen zwei Punkten kann eindeutig
gestreckt werden mit beliebiger Zahl α ∈ R, so dass seine Länge sich mit |α| multipliziert und im Falle
α < 0 seine Pfeilrichtung zusätzlich umgedreht wird. Multiplikation mit α = 1 ändert nichts am Pfeil.
Dabei soll die erwähnte Parallelverschiebung mit der Streckung vertauschbar sein. Man beachte: Dies
bedeutet einen Längenvergleich nur in einer Raumrichtung jeweils - Strecken verschiedener Raumrichtungen können nicht miteinander verglichen werden. Außerdem hat man nur den Winkelbegriff: ’parallel
- nicht parallel’, mehr nicht. Schließlich bilden wir eine Summe von Pfeilen: Der Pfeil von P nach Q
plus der Pfeil von Q nach R ist der Pfeil von P nach R, für alle Punkte P, Q, R ∈ E 3 . Auch für die
Summe fordern wir die Vertauschbarkeit mit der Parallelverschiebung. Schließlich verlangen wir die Vertauschbarkeit der Summenbildung (konkreter Pfeile) mit allen Streckungen sowie: Strecken mit β, dann
mit α ergibt Strecken mit αβ, und Strecken mit α + β ergibt dasselbe wie Addition der Pfeile, die durch
Strecken mit α bzw. β entstehen. Damit können wir aufsetzen:
−−
→
→
Ein freier Vektor −
x = P Q ist die Menge (Klasse) aller Pfeile, die durch Parallelverschiebung des
Pfeils von P nach Q entstehen. Dieser Pfeil selbst ist ein Repräsentant dieser Klasse. Mit V3 bezeichnen wir die Menge aller freien Vektoren. Zunächst haben wir folgende Koordinatendarstellungsabbildung
→
für die freien Vektoren: Es sei wieder ein Koordinatensystem L gegeben. Dann ist −
x L die Koordina−
→
tendarstellung des Repräsentanten von x , der Ortsvektor ist, also in O beginnt. Wir haben also eine
Bijektion V3 → R3 . Nun zu den wichtigen Rechenoperationen in V3 :
−
−→
→
→
→
Die Summe zweier freier Vektoren −
x ,−
y erhält man so: Man wählt Repräsentanten, so dass −
x = PQ
−
−
→
−
→
→
→
→
und −
y = QR, dann definiert man −
x +−
y := P R. Es kommt also die Klasse der Pfeile heraus, die
durch Parallelverschieben des Pfeils von P nach R entstehen. Folgendes Bild zeigt die geometrische
Vektoraddition. Es zeigt auch, dass bei ’Hintereinandersetzen’ und ’Parallelogrammergänzung’ dasselbe
herauskommt - es sollte klar sein, dass die Bilder stets nur Repräsentanten der freien Vektoren zeigen.
b
a
a+b
b
a
−−
→
→
Die Multiplikation eines freien Vektors −
x = P Q mit einer Zahl α ∈ R erklärt man entsprechend:
→
α−
x := die Klasse der Pfeile, die durch Parallelverschiebung aus einem mit α gestreckten Repräsentanten
hervorgehen. Bemerkung: Die Resultate dieser Operationen sind unabhängig von der Wahl der Repräsentanten:
−
−
→
Das folgt aus den oben verlangten Vertauschbarkeiten mit der Parallelverschiebung. Der Vektor P P heißt
−
→
Nullvektor und wird mit 0 bezeichnet. Folgendes Bild zeigt anschaulich die geometrische Streckung eines
1. AFFINER RAUM UND VEKTORRAUM
23
Pfeils mit einem Skalar:
a
(-1)a
2a
Diese beiden Operationen: Addition von Vektoren und Multiplikation eines Vektors mit einer reellen
Zahl (einem Skalar) heißen die linearen Operationen.
−
→
Damit wird V3 zu einem Vektorraum über dem Körper R, das heißt: V3 , +, ·, 0 hat die in
folgender Definition festgelegten Eigenschaften:
−
→
Definition 1. Es sei (K, +, ·, 0, 1) ein Körper. Eine Menge V mit 0 ∈ V sei gegeben mit einer
inneren Verknüpfung + : V × V → V und einer äußeren Verknüpfung · : K × V → V. heißt Vektorraum
→
→
→
über dem Körper (K, +, ·, 0, 1) , wenn folgendes Axiomensystem erfüllt ist: Für alle −
x,−
y,−
z ∈ V und
alle Zahlen α, β ∈ K gilt:
→ −
−
→
x + −
y +→
z
−
→ −
0 +→
x
−
→
−
→
−x + x
−
→
→
x +−
y
→
(αβ) −
x
−
→
(α + β) x
→ −
α −
x +→
y
=
=
=
=
=
=
=
−
→
→
→
x +−
y +−
z
−
→
x
−
→
0
−
→
→
y +−
x
−
α β→
x
→
→
α−
x + β−
x
−
→
−
→
αx +αy
→
→
1·−
x = −
x
Bemerkung: Wie üblich haben wir Multiplikationszeichen sowohl bei ’Zahl mal Vektor’ als auch
’Zahl mal Zahl’ fortgelassen außer beim letzten Axiom. Ferner beachte man, dass ’+’ in α+β die Addition
→
→
→
der Zahlen im Körper meint, dagegen ’+’ in −
x +−
y die Addition der Vektoren in V . Ebenso ist bei α−
x
−
→
die Multiplikation des Skalars (der Zahl) α mit dem Vektor x gemeint, aber bei αβ die Multiplikation der
Zahlen α, β im Körper. Eigentlich hätte man das wie +V , +K und ·V , ·K zur Unterscheidung schreiben
müssen, aber das wäre sehr unübersichtlich. Außerdem ist die Nichtunterscheidung in der Bezeichnung
gerechtfertigt duch folgende Tatsache, die sich aus den Axiomen ergibt:
Man rechnet mit Ausdrücken der Vektorrechnung (Zahlterme und Vektorterme mit den
linearen Operationen) wie mit Zahlen,
nur kann man nicht etwa durch Vektoren teilen.
−
→
Es ist zu beobachten, dass V, +, 0 mit den ersten vier Axiomen gerade eine abelsche Gruppe wird.
Sehr wichtig sind die beiden Distributivgesetze (vorletztes und drittletztes Axiom).
Zur Begründung der Gültigkeit
der Axiome für V3 wollen nur zwei Bilder zeigen, welche das As
−
→ −
−
→
−
→
−
→
−
→
→
−
→
→
→
→
soziativgesetz a + b + c = ( a + b ) + −
c und das Distributivgesetz λ −
a + b = λ−
a + λb
24
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
veranschaulichen:
a
b
b+c
a+b
c
(a+b)+c = a+(b+c)
λb
λa
λ (a+b)
b
a
a+b
Bei einem Vektorraum trifft man stets folgende Definiton und kann die anschließenden Folgerungen
ziehen:
→
→
→
→
Definition 2 (Differenz von Vektoren). −
x −−
y := −
x + −−
y
Anschaulich hat man:
a-b
b
a
−
→ → −
→ →
Man verifiziere im Bild: b + −
a − b =−
a , und merke sich die Anordnung.
1. AFFINER RAUM UND VEKTORRAUM
25
→
→
Folgerung 1. Für alle Vektoren −
x ,−
y ∈ V und alle Zahlen α ∈ K gilt:
−
→
−
→
0x = 0
→
→
→
→
(−α)−
x = − α−
x , insbesondere − −
x = (−1) −
x
−
→
−
→
−
→
−
→
α x − y
= αx −αy.
→
−
→ −
→ −
→
→
→
→
→
Begründungen liefert man leicht: 0 = 0 + 0 , also 0−
x = (0 + 0) −
x = 0−
x +0−
x , Addition von − 0−
x
−
→
−
→
−
→
−
→
liefert nun mit Assoziativgesetz und Inversengesetz 0 = 0 x . Zur zweiten Gleichung: (−α) x + α x =
−
−
→
→
→
→
(−α + α) −
x = 0−
x = 0 . Addition
von
−
α
x
auf
beiden
Seiten führt
Es
−
−
−
−
zur gewünschten
−
Gleichung.
→
−
→
→
→
−
→
→
−
→
→
−
→
−
→
folgt dann die dritte über α x − y = α x + − y = α x + α − y = α x + −α y = α x − α y .
Mit den Rechengesetzen sollte klar sein, dass man jeden Ausdruck der Vektorrechnung (ausschließlich
→
→
mit den linearen Operationen gebildet) in den Vektor-Buchstaben −
a 1 , ...−
a n in folgende Endform bringen
n
→
→
→
kann:
λk −
a k . das nennt man eine Linearkombination der −
a 1 , ...−
a n . Vertiefendes zur Vektorraumk=1
struktur folgt im Kapitel 4 über lineare Algebra.
1.3. Die Vektorräume V3O und R3 , Vektorrechnung in Koordinatenform. In offensichtlicher
Weise liefert V3O ebenfalls einen Vektorraum: Um zwei Ortsvektoren zu addieren und einen solchen
herauszubekommen, addiert man die zugehörigen freien Vektoren, von denen die gegebenen Ortsvektoren
→
−
→
x Q Repräsentanten sind, von der Summe dieser freien Vektoren wählt man den Repräsentanten, der
x P,−
→
→
→
von O startet. Das ist −
xP +−
x Q . Analog kann man α−
x P bilden, indem man einfach nur den konkreten
Ortsvektor streckt. Dann sind die Axiome ebenfalls erfüllt. Anwendung: Die komplexen Zahlen bilden
insbesondere einen Vektorraum über R, den man gerade als V2O veranschaulicht.
Ferner bildet die Menge der Zahlentripel R3 einen Vektorraum über R mit folgenden linearen Operationen:

 



a
x
a+x
 b  +  y  : =  b + y ,
c
z
c+z
 


a
αa
α  b  : =  αb  .
c
αc
Es werden die Operationen also ’komponentenweise’ gebildet. Die Verifikation der Axiome ist sehr einfach
und folgt direkt aus den Rechengesetzen im Körper (daher kann man die Konstruktion für beliebige
Körper ausführen.) Wir geben ein Beispiel dafür, wie man in solchen Fällen mit den Definitionen der
Operationen und den Rechengesetzen in R schließt:

 





a
x
a+x
α(a + x)
α  b  +  y  = α  b + y  =  α(b + y) 
Def. +
Def. ·
c
z
c+z
α(c + z)



 

αa + αx
αa
αx
 αb + αy  =  αb  +  αy 
=
Distributivgesetz in R
Def. +
αc + αz
αc
αz




a
x
= α b  + α y 
Def. ·
c
z
Nun haben wir in 1.1 den Ortsvektoren Koordinatendarstellungen zugeordnet, in 1.2 auch den freien
Vektoren. In V3 haben wir die linearen Operationen, auch im R3 . Man möchte etwa Kräfte addieren,
→
→
dargestellt durch freie geometrische Vektoren. Man bildet also −
x +−
y geometrisch als resultierende Kraft
→
→
(’Kräfteparallelogramm’ !). Aber genau dies Resultat (genauer: die Koordinatendarstellung von −
x +−
y in
−
→
→
L −
L
L, möchte man auch ausrechnen, gegeben x , y . Dafür benötigt man den entscheidenden Sachverhalt:
−
L −
→
→
→
x +−
y
=→
x L +−
y L . Ebenso für die Multiplikation mit Skalaren. Es soll also das geometrische Rechnen
mit Vektoren dem Rechnen mit den Koordinatendarstellungen genau entsprechen. Glücklicherweise ist
das so, wie wir festhalten im
26
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
Satz 3. Die linearen Operationen sind mit den Koordinatendarstellungen vertauschbar, für jedes
Koordinatensystem L gilt:
−
L
→
→
x +−
y
−
L
α→
x
→
→
= −
xL +−
y L (links: + in V3 , rechts: + in R3 )
→L (links: Zahl mal geom. Vektor, rechts: Zahl mal Zahlentripel)
= α −
x
→
→
Die Abbildung V3 → R3 , −
x →−
x L ist damit ein Vektorraumisomorphismus, da sie eine Bijektion ist,
→
→
welche mit den linearen Operationen vertauscht. Analog ist auch V3O → R3 , −
x P →−
xL
P ein Vektorraumisomorphismus.
Zum Verständnis schaue man folgende zweidimensionalen Bilder an:
1
0.9
y
0.8
0.7
0.6
x
0.5
0.4
x+y
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.4
0.5
0.6
0.7
0.8
0.9
1
1
0.9
0.8
λx
0.7
0.6
0.5
x
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
1
→
→
Man kann im ersten Bild ablesen, dass die x− Koordinate von −
x plus die x− Koordinate von −
y die von
−
→
−
→
→
x + y ergibt, ebenso für die y− Koordinaten. Im zweiten Bild sieht man: Die x− Koordinate von λ−
x
−
→
ist λ mal die x− Koordinate von x , ebenso für die y− Koordinaten (Strahlensatz!).
1.4. Beschreibung geometrischer Gebilde mit Parameterdarstellungen, in geometrischer
Form und in Koordinatenform. Zunächst ein wichtiger Grundgedanke: Ein geometrisches Gebilde
(eine Gerade, eine Kreisfläche, ein Würfel als Körper usw.) ist aufzufassen als Menge von Punkten,
also Teilmenge von E 3 . Gleichwertig als Menge der zugehörigen Ortsvektoren, also Teilmenge von V3O .
Wieder gleichwertig über ein Koordinatensystem L als Menge von Zahlentripeln, Teilmenge von R3 . Dies
Zusammenspiel entfaltet seine volle Nützlichkeit erst zusammen mit den Vektorraumoperationen, die man
1. AFFINER RAUM UND VEKTORRAUM
27
mit allen beteiligten Objekten ausführt. Wir wollen mit einem einfachen Beispiel beginnen: Die Menge
x x
∈
R
beschreibt eine Parabel.
x2 Die Menge
x+2
x2 + 3
2
x ∈ R beschreibt die zum Scheitel
verschobene Parabel.
3
2
zu ad3
dieren, hier mit Zahlentripeln ausgeführt, geometrisch: mit Ortsvektoren (Parallelogrammergänzung für
die Summenbildung). Dass man aber die Parallelverschiebung mittels der Addition eines festen Vektors
bekommt, sieht man besser geometrisch mit den Pfeilen ein. Dazu noch eine Erleichterung: Summenbildung mit Parallelogrammergänzung ist schwerfälliger als Summenbildung mit Hintereinanderschaltung
von Pfeilen. Daher legen wir fest: Ortsvektor plus freier Vektor ergibt einen Ortsvektor. Dazu nehmen wir
uns die Freiheit, die Differenz zweier Ortsvektoren als freien (Richtungs-)Vektor aufzufassen. Auf diese
Weise gelingt es mühelos, die Gerade g im Raum zu beschreiben, welche P enthält und deren Richtung
−
→
→
mit dem freien Vektor −
a = 0 beschrieben ist:
1.4.1. Parameterdarstellung einer Geraden. Man betrachte das Bild:
Um die Parallelverschiebung aller Punkte auszuführen, brauchte man nur den Vektor
xP+(-1)a
P
a
xP
xP+a
O
xP+2a
g
Damit sieht man leicht ein:
→
→
→
xR = −
x P + λ−
a .
g = R ∈ E 3 ∃λ ∈ R : −
Diese mühsame Darstellung verwendet man nicht, sondern schreibt praktischer eine Abbildung hin (nur
die definierende Gleichung, Definitionsbereich ist R, und Wertebereich ist VO3 , die Menge aller Ortsvektoren zum Ursprung O im dreidimensionalen Anschauungsraum:
−
→
→
→
x g (λ) = −
x P + λ−
a , λ ∈ R.
→
Also: Jeder reellen Zahl λ (freier Parameter) wird der Ortsvektor −
x (λ) eindeutig zugeordnet, und die
Pfeilspitzen dieser Ortsvektoren durchlaufen
die
gesamte
Gerade
g.
Die beschriebene Punktmenge (als
→ Menge von Ortsvektoren) ist Bild −
xg .
→
→
→
Will man die Gerade durch P und Q beschreiben, so wählt man einfach −
a =−
xQ−−
x P . So weit die
−
→
−
→
−
→
geometrische Form, mit geometrischen Vektoren x g (λ) , x P , a . Für eine Koordinatenform ersetzt man
sie einfach durch die zugehörigen Koordinatendarstellungen bezüglich eines Systems L.
28
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE


1
→
 2 +
Beispiel: So kann man dann etwa ausrechnen, an welcher Stelle die Gerade −
xL
g (λ) =
3


2
λ  −2  , λ ∈ R, die xy− Ebene schneidet. Das geschieht im Punkt, an dem die z− Koordinate
−2


4
→
 −1  .
3 − 2λ = 0 wird, also für λ = 32 . Somit ist der Schnittpunkt in Koordinatendarstellung: −
xL
S =
0


4
Wir werden der allgemeinen Gepflogenheit folgen und einfacher sagen: ’der Punkt  −1 ’ usw., nach0
dem wir ein für allemal klargestellt haben, dass selbstverständlich das Zahlentripel nur eine Koordinatendarstellung eines Punktes bezüglich eines speziellen Koordinatensystems sein kann. Wir werden noch
sehen, dass es sehr nützlich ist, rechnerische Objekte wie Zahlentripel (als Lösungen von Gleichungssystemen etwa) stets auch geometrisch als Punkte aufzufassen.
−
→ −
→
→
1.4.2. Parameterdarstellung einer Ebene. Sind P ∈ E 3 ein beliebiger Punkt und −
a , b = 0 (freie)
−
→
→
Vektoren, so dass für keine Zahl λ gilt: −
a = λ b , so wird die Ebene E durch den Punkt P mit Rich−
→
−
→
−
→
−
→
tungsvektoren a , b (d.h. a , b liegen beide parallel zu E) beschrieben durch
−
→
→
→
−
→
x E (λ, µ) = −
x P + λ−
a + µ b , λ, µ ∈ R (geometrische Form).
→
Durchläuft man alle Zahlenpaare λ, µ, so durchlaufen die Pfeilspitzen von −
x (λ, µ) alle Punkte der
E
Ebene E. So weit die geometrische Form, die man mit folgendem Bild einsieht:
E
b
P
a
xP
xP+2a+b
O
Für die rechnerische Koordinatenform braucht man nur die geometrischen Vektoren durch ihre Koordinatendarstellung bezüglich eines Systems L zu eretzen:
−
→
−
→
→
→
x L (λ, µ) = −
x L + λ−
a L + µ b L , λ, µ ∈ R (Koordinatenform).
E
P
Hier entsteht mit Durchlausfen aller Parameterwerte λ, µ eine Menge von Zahlentripeln.
1.4.3. Beschreibung endlicher Gebilde durch Einschränkung der Parameterbereiche. Will man etwa
−
→
→
nur das Parallelogramm mit Eckpunkt P und (freien) Kantenvektoren −
a , b beschreiben, als Menge der
Ortsvektoren aller Punkte auf der Parallelogrammfläche, so bildet man einfach:
−
→
−
→
→
→
x (λ, µ) = −
x P + λ−
a + µ b , 0 ≤ λ, µ ≤ 1.
→
→
→
→
Analog für die Strecke von P nach Q: −
x (λ) = −
xP +λ −
xQ −−
x P , 0 ≤ λ ≤ 1. Oder für die Kurve,
λ →
a
≤
λ
≤
b
welche den Graphen von f (x) = x2 im Bereich x ∈ [a, b] bildet: −
x (λ) =
2
λ
1. AFFINER RAUM UND VEKTORRAUM
29
1.4.4. Parameterdarstellung eines Kreises oder einer Ellipse. Wir wollen zunächst den Einheitskreis
(gemeint ist genauer die Randkurve!) mit Radius r = 1 und Mittelpunkt im Koordinatenursprung
bezüglich eines kartesischen Systemes (hier brauchen wir das!) beschreiben: jeder Ortsvektor eines Kreispunktes hat dann Länge 1 (wir benötigen den Euklidischen Raum, mit Winkeln und Längenvergleich in
allen Richtungen, vgl. den nächsten Abschnitt)., und er wird umkehrbar eindeutig durch einen Winkel
t beschrieben, 0 ≤ t < 2π, im Bogenmaß, zum Vollwinkel gehört 2π, das entspricht also 360 Grad. Das
Bogenmaß wird verwandt, weil das Rechnen damit praktischer ist(!). Nun macht man sich mit den elementaren Dafinitionen am rechtwinkligen Dreieck (Sinus = Länge Gegenkathete : Länge Ankathete usw.)
sowie den Vorzeichen fürsin, cos klar:
Zum Punkt auf dem Einheitskreis mit dem Winkel t gehört die
cos (t)
Koordinatendarstellung
. Folgendes Bild zeigt die Verhältnisse am Einheitskreis um (0, 0):
sin (t)
tan(x)
1
x
sin(x)
cos(x)
Dabei ist x die Länge des Kreisbogens, d.h. der Winkel im Bogenmaß. Genauer bekommt man auch
negative Werte für x, indem man den Kreis im Uhrzeigersinn durchläuft. (tan wurde zur zusätzlichen
Information mit eingezeichnet.)
Das liefert folgende (bijektive) Parametrisierung:
−
→
x (t) =
cos (t)
sin (t)
, 0 ≤ t < 2π.
(Ohne die Einschränkung des Parameterbereiches würde man den Einheitskreis immer wieder durchlaufen.) Daraus bekommt man mit der
die folgende
Parametrisierung des Kreises
Vektorrechnung
mühelos
a
a
cos (t)
−
→
mit Radius r > 0 und Mittelpunkt
: y (t) =
+r
, 0 ≤ t < 2π.
b
b
sin (t)
Wie steht es mit der Parametrisierung eines Kreises im dreidimensionalen Raum? Ganz einfach: Man
−
→
→
nimmt zwei beliebige Vektoren −
a , b ∈ V3 , die senkrecht aufeinander stehen und Länge 1 haben, dazu den
−
→
→
→
→
→
Ortsvektor −
x M des gewünschten Mittelpunktes M, und bildet −
u (t) = −
x M + r cos (t) −
a + r sin (t) b ,
−
→
→
→
→
0 ≤ t < 2π. Oder für die gesamte Kreisfläche dieses Kreises: −
v (t, s) = −
x M + s cos (t) −
a + s sin (t) b ,
0 ≤ t < 2π, 0 ≤ s ≤ r. Bei Koordinatenform erscheinen fann natürlich Zahlentripel.
Für Ellipsen benötigt man lediglich noch einen Faktor für die Streckung
(Stauchung)
in der einen
a cos (t)
−
→
Richtung und einen zweiten für die andere. Speziell hat man x (t) =
, 0 ≤ t < 2π, für
b sin (t)
die Ellipse im E 2 mit Mittelpunkt im Ursprung und Halbachsenlängen a > 0 in x− Richtung, b > 0 in
−
→
→
y− Richtung. Entsprechend bringt man diese Faktoren an −
a , b in der allgemeineren Form an, um diese
Vektoren auf gewünschte Länge zu bringen.
30
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
1.5. Beschreibung durch Parameterdarstellung versus Beschreibung durch Gleichung
oder Gleichungssystem - einfache Schlüsse aus ihrer Gestalt. Beginnen wir mit dem Beispiel des
Einheiskreises mit Mittelpunkt im Ursprung: Bekannter als eine Parameterdarstellung wie oben dürfte
die Gleichungsdarstellung sein: x2 + y 2 = 1, womit
(vgl.
wieder den nächsten Abschnitt über Eukx
lidische Räume) einfach gesagt wird: Ein Vektor
, der diese Gleichung löst, hat Länge 1. (Das
y
setzt allerdings ein kartesisches System voraus.) Wir beschreiben den Kreis (wieder. die Randkurve)
alsdie Menge aller Punkteaus E 2 , welche den Abstand 1 vom Ursprung haben, also als die Menge
x
∈ R2 x2 + y 2 = 1 . (Wieder identifizieren wir die Punkte mit den Zahlenpaaren.) Auch die
y
cos (t) oben angegebene Parameterdarstellung liefert genau diese Menge, in der Form
0 ≤ t < 2π .
sin (t) Wir können sagen, dass eine Parameterdarstellung die jeweilige geometrische Menge in ausgerechneter
Form angibt. Zugleich liefert sie ein Verfahren, das nur Punkte der Figur liefert, so viele, wie man will.
Also braucht man Parameterdarstellungen zweckmäßig, um eine geometrische Menge auf den Computerbildschrim zu bekommen. Später werden wir sehen, dass ’Integrieren über eine Kurve / Fläche’ sehr
wichtige naturwissenschaftliche Vorgänge sind. Dafür benötigt man unbedingt Parameterdarstellungen
für die betreffenden Kurven oder Flächen, Gleichungsdarstellung reicht nicht. Andererseits kommen wir
auch nicht ohne die Gleichungsdarstellung aus. Einmal kann die naheliegende einfachste Beschreibung
einer geometrischen Menge erst einmal zu einer Gleichungsdarstellung führen. Zweitens gibt es aber auch
Aufgaben, welche mit einer Gleichungsdarstellung viel leichter auszuführen sind als mit Parameterdarstellung. Betrachten wir dazu folgendes Beispiel: Welche Punkte auf dem Einheitskreis liegen auch auf der
Geraden y = −2x + 3? Für diese Schnittaufgabe bildet man mit den Gleichungsdarstellungen für Kreis
und gerade einfach das Gleichungssystem
x2 + y 2
y
= 1
= −2x + 1,
Einsetzen von −2x + 1 für y in die erste Zeile ergibt x2 + (1 − 2x)2 = 1, diese quadratische Gleichung
in Normalform gebracht: 5x2 − 4x = 0, mit Lösungen x1 = 0, x2 = 45 . Einsetzen in die zweite Gleichung
8
3
liefert
die zugehörigen
y− Werte: y1 = 1, y2 = − 5 + 1 = − 5 . Also haben wir die beiden Schnittpunkte
0
4
und 15
. Das war schon nicht ganz leicht, weil es sich um ein nichtlineares Gleichungssys1
−3
tem handelt - solche machen im allgemeinen Fall beliebig viel Schwierigkeiten. Wir wollen aber noch
sehen, dass Verwenden von Parameterdarstellungen im selben Beispiel
durchaus
zu Schlimmerem führt:
λ
−
→
Mit Verwenden der naheliegenden Parameterdarstellung x (λ) =
, λ ∈ R, hätte man gle−2λ + 1
ichzusetzen:
cos (t) = λ
sin (t) = −2λ + 1
Das ist erst einmal ein schwierigeres System als
das vorige. Natürlich schafft man das noch, indem man
sin (t) = ± 1 − cos2 (t) nutzt und damit ± 1 − λ2 = −2λ + 1 erhält. Das ergibt die gleichwertige
(wegen ±) Folgerung 1 − λ2 = (−2λ + 1)2 , mit den Lösungen λ1 = 0, λ2 = 45 . Nun ist man immer noch
→
nicht fertig: Es müssen diese Werte noch in −
x (λ) für λ eingesetzt werden, erst dann erhält man die oben
angegebenen Schnittpunkte. Zum Vergleich arbeiten wir noch mit der Parameterdarstellung der Geraden
und der Gleichungsdarstellung für den Kreis: Für den Schnitt hätten wir x = λ, y = −2λ + 1 in die
2
Gleichung des Kreises einzusetzen, mit dem Resultat λ2 + (1 − 2λ) = 1, was auf dieselben Werte für λ
wie vorhin führt, nur viel bequemer. Allerdings haben wir auch in diesem Falle noch die Parameterwerte
→
in −
x (λ) einzusetzen.
Dies Beispiel sollte geklärt haben, dass man beiderlei Darstellungsformen braucht und wie man mit
ihnen umgeht.
Wir kommen zur Frage, welche Information über ein geometrisches Gebilde aus seiner Beschreibung in
Gleichungsform oder Parameterform leicht zu gewinnen ist. Solche Informationen sollte man sich niemals
entgehen lassen und sie stets ausdrücklich festhalten.
1. AFFINER RAUM UND VEKTORRAUM
31
Man möchte stets wissen, welche Dimension eine Punktmenge hat, Dimension Null haben insbesondere alle endlichen Punktmengen. Dimension 1 haben die Kurvenbahnen, Dimension 2 die Flächen, Dimension 3 die Körper (im geometrischen Sinne des Wortes). Allgemeine Punktmengen in höherdimensionalen
Räumen haben auch mehr als drei Dimensionen. Ferner möchte man wissen, ob ein Gebilde ’gerade’ ist
oder ’krumm’. Erstere nennt man auch lineare Gebilde. Schließlich möchte man etwas über Beschränktheit
oder Unbeschränktheit im Raume wissen. Besonders die ersten beiden Fragen kann man im Normalfall
ganz leicht bei bloßer Inspektion einer Parameterdarstellung oder Gleichungsdarstellung beantworten,
wir stellen die Information in folgender Tabelle zusammen. Unter dem Grundraum verstehen wir dabei
die Punktmenge, aus der durch Gleichungen (welche Beziehungen zwischen den koordinaten herstellen)
oder durch das Bild einer Parameterdarstellung eine Teilmenge ausgesondert wird. Ferner verstehen
wir unter denKomponentenfunktionen
einer Parameterdarstellung in Koordinatenform, also etwa

f1 (α, β, ...)


..
−
→
x (α, β, ..) = 
 mit beliebiger Raumdimension n die Funktionen f1 , ..., fn . Diese werden
.
fn (α, β, ...)
als Funktionen mit den Parametern als unabhängigen Veränderlichen betrachtet.
Gleichung(ssystem)
Parameterdarstellung
Dimension
Dimension des Grundraums minus Anzahl
Anzahl der freien Parameter
der unabhängigen Gleichungen
’Linearität’
nur lineare Gleichungen
nur lineare Komponentenfunktionen fi
’Nichtlinearität’
mindestens eine nichtlineare Gleichung
mindestens eine der Funktionen fi nichtlinear
Dabei muss man ein wenig vorsichtig sein: Unter ’Anzahl der Gleichungen’ hat man beim Gleichungssystem zu verstehen: Kleinste wählbare Zahl von Gleichungen, unter ’Anzahl der freien Parameter’ bei Parameterdarstellung: Kleinste wählbare Zahl von Parametern. Weiter beziehen sich ’Linearität
/ Nichtlinearität’ bei den Gebilden nur auf kontinuierliche Gebilde einer Dimension ≥ 1. Allerdings
bleibt es sinnvoll und wichtig, bei nichtlinearen Gleichungssystemen oder Komponentenfunktionen diese
Eigenschaft auch dann zu beachten, wenn etwa ein Schnittbildungsproblem vorliegt, das entsprechend
rechnerisch schwierig wird, aber zugleich nur eine endliche Menge von Punkten herauskommt wie oben.
Beispiele zur Anwendung:
1. Beispiel: Im Kreisbeipiel hat man eine Gleichung bei Dimension 2 des Grundraums, es resultiert Dimension 1, eine Kurvenbahn kommt heraus. Bei der Parameterdarstellung sieht man einen
freien Parameter , also eine Kurvenbahn. Die Gleichung x2 + y 2 = 1 ist nichtlinear, also erwarten
wir eine gekrümmte Kurvenbahn. Ebenso sind die Komponentenfunktionen der Parameterdarstellung
(sin (t) , cos (t)) nichtlinear, mit demselben Resultat.


2α − 3β
→
2. Beispiel: Betrachten wir folgende Parameterdarstellung: −
x (α, β) =  1 + 3α − β  , α, β ∈ R.
−1 + 2β
Ein lineares zweidimensionales Gebilde ergibt sich, also eine nicht gekrümmte Fläche, in diesem Falle dank
fehlender Parametereinschränkung eine ganze Ebene. Wir werden im nächsten Abschnitt in der Lage sein,
daraus bequem eine Gleichungsdarstellung zu machen und diese Darstellung unmittelbar geometrisch zu
deuten. Aber wir können schon jetzt verstehen, dass bei Grundmenge R3 eine Gleichungsbedingung
wie 2x − 3y + z = 1 eine Ebene darstellt. Zunächst: Die Gleichung ist linear, und die Dimension der
Erfüllungsmenge ist 2 = 3 − 1. Dass tatsächlich eine Ebene herauskommt, können wir durch Ausrechnen
der Lösungsmenge einsehen: Gibt man x, y frei vor, so bekommt man die Bedingung z = 1 − 2x + 3y. Die
Lösungsmenge ist daher



x




x, y ∈ R .
y


1 − 2x + 3y Diese Menge bekommt man gerade als Bild der folgenden Parametrisierungsabbildung:


x
−
→
 , x, y ∈ R.
y
y (x, y) = 
1 − 2x + 3y
32
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
(Normalerweise würde man griechische Kleinbuchstaben für die freien Parameter vorziehen, das kann und
sollte man in solchen Fällen nachträglich noch ändern.) Damit sehen wir unmittelbar ein, dass es sich
um eine Ebene handelt, wir stellen noch die Endform mit Aufpunktvektor und Richtungsvektoren her,
durch ’Auseinanderziehen’ im Sinne der Addition und Zahlmultiplikation von Zahlentripeln:
 


 
0
1
0
−
→
y (λ, µ) =  0  + λ  0  + µ  1  , λ, µ ∈ R.
1
−2
3
3. Beispiel: Im Grundraum R3 liefert die Gleichung x2 + y 2 = 1 nicht etwa eine Kreislinie, sondern
den Mantel des Zylinders, der die z− Achse als Zylinderachse hat und beidseitig unbegrenzt ist; denn
über die z− Komponente gibt es keine Bedingung, sie ist frei wählbar. Gemäß Dimensionsregel haben
wir Dimension 2 und erwarten eine gekrümmte Fläche. Eine Parametrisierung desselben Zylinders ist
einfach:


cos (t)
−
→
x (t, z) =  sin (t)  , 0 ≤ t < 2π, z ∈ R.
z
Auch daran sähe man: Dimension 2 mit zwei freien Parametern, Krümmung mit den beiden nichtlinearen
Komponentenfunktionen.
4. Beispiel: Hat man 4 unabhängige lineare Gleichungen (dazu später mehr im Kapitel ’Lineare
Algebra’) mit 6 Unbestimmten, so wird die Lösungsmenge (wenn sie nicht leer ist) zu deuten sein als
vierdimensionaler affiner Teilraum des R6 . Eine Parameterdarstellung der Lösungsmenge bekommt man
in Verallgemeinerung der Parameterdarstellung von Ebenen im R3 so: Aufpunktvektor plus erster freier
Parameter mal erster Richtungsvektor plus ... vierter freier Parameter mal vierter Richtungsvektor.
Zur Frage der Beschränktheit / Unbeschränktheit beschriebener geometrischer Gebilde:
Bei Parameterdarstellungen sieht man zuweilen recht leicht Beschränktheit insgesamt oder in gewissen
Richtungen anhand einschänkender Bedingungen bei den zulässigen Parameterwerten, also am Definitionsbereich der Parametrisierungsabbildung. Allerdings
ist das auch nicht ganz zuverlässig, sondern man
t
−
→
braucht genauere Inspektion. Etwa bei x (t) =
, 0 < t < 1, hat man keine Beschränktheit der
1/t
Kurvenbahn. Auch bei Gleichungsdarstellung benötigt man nähere Untersuchung der Frage: x2 +y 2 +z 2 =
1 in der Grundmenge R3 stellt die Oberfläche der Einheitskugel dar. Weil Quadrate positiv sind, darf
keine der Komponenten einen Betrag über 1 haben, also ist das Gebilde beschränkt. Dagegen hätte man
bei x2 + y 2 = z 2 beliebig groß wählbare Werte von x, z. Es handelt sich um den unbegrenzten Doppelkegel, dessen Achse die z− Achse ist und dessen Querschnitte parallel zur xy− Ebene Kreise sind, mit
Öffnungswinkel 90 Grad.
2. Längen und Winkel: Euklidischer Raum
Wie bereits erwähnt, können wir mit den linearen (Vektorraum-) Operationen nichts über Längen
−
→
−
→
→
→
→
→
und Winkel sagen außer: α−
a ist bei −
a = 0 gerade |α| mal so lang wie −
a , und −
a ist parallel zu b genau
−
→
−
→ →
→
dann, wenn λ−
a = b oder µ b = −
a für eine wählbare Zahl λ oder µ. Dagegen sind die Längen zweier
nicht paralleler Vektoren nicht vergleichbar, und es sind keine Winkel außer Null Grad oder 180 Grad
ausdrückbar. Wir benötigen das Skalarprodukt, um weiter zu kommen. Zuvor machen wir folgende
Generalvoraussetzung beim Rechnen mit Skalarprodukt und Vektorprodukt in Koordinaten: Sämtliche Koordinatensysteme sind als kartesisch vorausgesetzt.
2.1. Betrag (Länge) von Vektoren. Das ist ein Produkt von Vektoren, bei dem eine Zahl (ein
Sklar) herauskommt (daher der Name). Wir zeigen, wie man
im kartesischen
System ist
 darauf
 kommt:


x x
die Länge eines Vektors aus V3 mit Koodinatendarstellung  y  offenbar:  y 
= x2 + y 2 + z 2 .
z z
Zunächst weiß man mit Pythagoras Entsprechendes über V2 , aber eine zweite Anwendung des Pythagoras
liefert die angegebene Formel - man betrachte das rechtwinklige Dreieck mit dem gegebenen Vektor als
Hypotenuse, dessen senkrechte Projektion aus die xy− Ebene als eine und das Lot vom Endpunkt auf
die xy− Ebene als zweite Kathete. Es kommt heraus. Länge des Vektors quadriert = (x2 + y 2 ) + z 2 . Noch
allgemeiner definieren wir folgende Betragsfunktion auf beliebigem Rn :
2. LÄNGEN UND WINKEL: EUKLIDISCHER RAUM
33
Definition 3.
|| : 


Rn 
→
R≥0
x1 n
.. 
→ x2k

.
k=1
xn →
heißt Betragsfunktion. Für geometrische Vektoren −
x ∈ Vn wählt man entsprechend als Betrag den Betrag
seiner Koordinatendarstellung in einem kartesischen System. Speziell für R1 kommt offenbar der bekannte
Betrag von reellen Zahlen heraus.
→
Bemerkung zur Bezeichnung: Bei Vektoren findet man häufig auch die Bezeichnung −
x , mit
zwei Strichen also. Das wollen wir für Normen bei Matrizen oder Funktionen reservieren, weil die Unterscheidung zwischen Zahlen und Vektoren klar sein sollte, auch in der Buchstabenbezeichnung bereits.
Der Betrag hat folgende wesentlichen algebraischen Eigenschaften - überall da, wo sie erfüllt sind,
spricht man von einer Norm oder einem Betrag in einem Vektorraum:
Definition 4. Sei V ein Vektorraum über R. Eine Abbildung || : V → R≥0 heißt Betragsfunktion
oder Norm, wenn folgende Aussagen allgemein gelten:
−
−
→
→
→
x = 0 ⇐⇒ −
x = 0
−
→
α→
x = |α| −
x
−
→
→
−
→
−
→
x + y ≤ x + −
y
.
V (mit seinen linearen Operationen) zusammen mit dieser Norm heißt dann normierter Vektorraum.
→
Man beachte: −
x ≥ 0 steckt bereits im angegebenen Wertebereich. Die Ungleichung heißt Dreieck-
sungleichung und ist sehr wichtig. Anschaulich besagt sie im Falle von V3 : Geht man über zwei Kanten
eines Dreiecks, so ist der Weg mindestens so lang wie der Weg über die dritte Kante.
Satz 4. Der oben definierte Betrag für Rn erfüllt die Normaxiome.
Zum Beweis der ersten Aussage braucht man nur zu wissen, dass eine Summe von Quadraten (und
damit deren
Wurzel) genau
> 0 wird,
mindestens
eine der Zahlen ungleich Null ist. Ferner
%
%dann
% wenn
%
2
hat man
(αxk ) =
α2 x2k = α2
x2k = |α|
x2k , was die zweite Aussage zeigt. An
der dritten würde man scheitern, sie so ’einfach nachzurechnen’. Wir werden sie aus der Schwarzschen
Ungleichung bekommen (im Abschnitt 2.4).
−
→
−
→
→
2.2. Skalarprodukt.
Man hat in einem beliebigen Dreieck mit Kantenvektoren
x,−
y = 0 - mit
→
→
→
→
→
→
W inkel −
x,−
y bezeichnen wir den von −
x und −
y eingeschlossenen Winkel: W inkel −
x,−
y = π/2 ⇐⇒
−
2
2
−
→
−
→
−
→
2
→
x + y = x − y , also liegt ein rechter Winkel genau dann vor, wenn gilt:
n
k=1
Nun hat man
n
k=1
x2k +
n
yk2 =
k=1
(xk − yk )2 =
k=1
n
x2k +
k=1
Also liegt ein rechter Winkel genau dann vor, wenn
n
n
(xk − yk )2 .
n
k=1
yk2 + 2
n
xk yk .
k=1
xk yk = 0.
k=1
→
→
Mehr noch: Diese Zahl ist > 0 genau dann, wenn der Winkel zwischen −
x,−
y spitz ist und < 0 genau dann,
wenn er stumpf ist. Wir werden im nächsten Unterabschnitt sehen, dass man damit sogar alle Winkel
genau quantifizieren kann: Wenn man sie durch das Produkt der Beträge teilt, kommt der Cosinus des
Winkels heraus. Zunächst haben wir damit folgende Definition motiviert:
34
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
Definition 5. Das Standard-Skalarprodukt auf dem Rn ist definiert durch
Rn×
Rn  →
R
y1
x1
n
 ..   .. 
xk yk .
 .  ,  .  →
k=1
xn
yn
· : 
Dass es sich um ein Skalarprodukt handelt, bedeutet die Erfüllung der in der folgenden Definition
festgelegten Eigenschaften:
Definition 6. Eine Abbildung · : V × V → R heißt Skalarprodukt auf dem Vektorraum V über R,
→
→
→
wenn folgende Eigenschaften gelten, allgemein für −
x,−
y,−
z ∈ V und λ ∈ R :
1. Die Abbildung ist bilinear, d.h.
→
→ −
−
→
→
→
→
→
→
→
→
→
→
→
x +−
y −
z = −
x−
z +−
y−
z , ebenso −
x −
y +→
z = −
x−
y +−
x−
z,
−
→
−
→
−
→
−
→
−
→
−
→
−
→
−
→
λ x y = λ x y , ebenso x λ y = λ x y
2. Die Abbildung
−
→
→
→
→
x−
y = −
y−
x
3. Die Abbildung
−
→
→
x ·−
x = 0 ⇐⇒
ist symmetrisch, d.h.
ist positiv definit, d.h.
−
→
−
→
x = 0
→
Bemerkung zum Begriff der Bilinearität: Halten wir −
z fest und betrachten
die
Abbildung V →
−
−
−
→
−
→
−
→
→
−
→
→
→
→
→
→
V mit x → x z . Sie ist linear, d.h. vertauscht mit den linearen
Operationen:
x
+
y
z
=−
x−
z +−
y−
z.
−
−
−
→
→
→
−
→
Das ist genau die erste Gleichung in der ersten Zeile. Und λ x z = λ x z , die erste Gleichung in der
zweiten Zeile. Analog halten wir die erste unabhängige Variable der Abbildung · (des Skalarproduktes)
fest und fordern die Linearität der so entstehenden Abbildung V → V. Das sind die beiden anderen
Gleichungen. Bilinearität bedeutet also: Linearität in beiden Eingabeschlitzen. Man beachte, dass sich
das für die Summe gerade als Distributivgesetz liest, für die Multiplikation mit Skalaren als Vertauschung
der Faktoren. Die Symmetrie (2. Eigenschaft) macht das zweite Paar bei der Bilinearität überflüssig, aber
es ging auch darum, den Begriff der Bilinearität für sich allein zu definieren, für weitere Zwecke, also etwa
das Vektorprodukt.
Satz 5. Das definierte Standard-Skalarprodukt auf dem Rn erfüllt die Eigenschaften, die nach Definition von einem Skalarprodukt verlangt werden.
Der Beweis ist sehr einfach nach dem Muster zu führen, das wir oben erwähnten bei dem Beispiel der
Verifikation eines Distributivgesetzes für die linearen Operationen auf dem Rn . Er verlangt keine Idee.
Die letzte
Eigenschaft
ergibt sich unmittelbar aus der entsprechenden Betragseigenschaft, man sieht:
2
−
→
→
→
x ·−
x = −
x
.
Eine positive und eine warnende Bemerkung zum Rechnen mit dem Skalarprodukt: Das
Distributivgesetz und die Verschiebbarkeit der Zahlfaktoren garantieren weitgehend eine günstige Regel
der Art: Rechnen wie mit reellen Zahlen, nur Vektoren und Zahlen ordentlich unterscheiden, weiterhin
nie durch
Vektoren
teilen.
→−
→ −
→−
Aber das ist nicht die ganze Wahrheit: Man hat kein ’Assoziativgesetz’ der
Form −
x→
y −
z =→
x −
y→
z . Diese Formel ist völlig falsch! Sie stimmt nur in seltenen Ausnahmefällen.
Man beachte: Das wäre auch gar kein Assoziativgesetz, weil man je ein Skalarprodukt hat und einmal
die lineare Operation Zahl mal Vektor!
man die gegeneinander austauschen könnte,
→−
Dass
→−
wird man
→
→
wohl nicht erwarten. Man beachte: −
x→
y −
z ist ein Vektor parallel zu 9z, dagegen −
x −
y→
z ein Vektor
→
parallel zu −
x . Fazit: Man muss sehr sorgfältig Klammern um Skalarprodukte setzen. Dabei benutzt
→−
2
→
→
→
→
→
man durchaus −
x 2 := −
y 2 . Außerdem kürze man niemals
x ·−
x , aber −
x→
y ist etwas Anderes als −
x 2−
durch Vektoren, was sich aus dem Verbot ergibt, durch einen Vektor zu teilen. Aber die Gefahr besteht,
dass das (korrekte!) Kürzen durch Beträge = 0 (das sind Zahlen > 0!) verwechselt wird mit dem völlig
unsinnigen Kürzen durch Vektoren. Manchmal wird angeführt, das habe im konkreten Fall doch zu einem
korrekten Ergebnis geführt. Diese Argumentation ist falsch und sehr gefährlich: Einmal ist eine logisch
falsche Argumentation für ein korrektes Resultat (sogar für ein logisch gültiges) stets möglich - das wusste
man bereits im Mittelalter! Zum Anderen - und das eben ist das Schlimme, kann man mit einer logisch
falschen Argumentation buchstäblich jeden Satz beweisen, er sei noch so falsch. Aus diesem Grunde ist
2. LÄNGEN UND WINKEL: EUKLIDISCHER RAUM
35
eine logisch falsche Argumentation gar nichts wert. Wenn sie eine oder mehrere gute Ideen enthält, so
rettet man die nur durch Vermeiden der logischen Fehler.
−
→
→
Ein Beispiel zum korrekten Kürzen durch Beträge: Für −
x = 0 hat man:
→−
−
−
→
−
→
→
−
−
−
→
−
→
→
−
→
−
→
→
x
y
x
y
x
y
x
y
x
y
−
→
−
→
−
→
−
→
x
= x
= .
x = −
x
=
→
−
→
2
2
2
−
2
x
→
→
→
−
−
x
x
x
x
→
−→
−→
Schauen Sie sorgfältig nach, dass tatsächlich nur durch eine Zahl gekürzt wird. Aber der Ausdruck x y −
x
→
−
x2
kann überhaupt nicht vereinfacht werden! (Mit dem erwähnten Fehler würde man etwa denken, das
→
→
→
→
Resultat sei einfach −
y , aber dort steht ein Vektor parallel zu −
x , und −
x,−
y müssen keineswegs parallel
−
→
−
→
−
→
sein. Man prüfe nach, dass im Falle y = x tatsächlich korrekt y herauskommt.)
Eine wichtige physikalische Anwendung des Skalarproduktes: Arbeit ist Kraft mal Weg.
Aber genauer im Raum: Die Kraft wird durch einen Kraftvektor K erfasst, der Weg ebenfalls durch einen
Vektor s, und die Arbeit berechnet sich nicht etwa als Produkt der Beträge, sondern als Skalarprodukt
K · s. Das ist also: Kraft in Richtung des Weges genommen. Das hängt zusammen mit der im nächsten
Abschnitt zu besprechenden senkrechten Projektion. Später kommt natürlich die weitere Komplikation
hinzu, dass Kraft und Ort zeitabhängig sind, ein krummliniger Weg zurückgelegt wird. Dann hat man
über K (t) s′ (t) dt zu integrieren.
→
2.3. Senkrechte Projektion und Winkel. Die senkrechte Projektion eines Vektors −
y auf einen
−
→
−
→
Vektor x = 0 hat viele wichtige Anwendungen, die Quantifikation der Winkel ist nur eine davon. Eine
häufige Anwendung in der Physik: Eine Kraft ist in eine vorgegebene Richtung und eine dazu senkrechte
zu zerlegen.
→
→
→
→
→
→
Wir wollen einen beliebigen Vektor −
y so zerlegen: −
y = α−
x +−
u , so dass −
u senkecht auf −
x steht. Wir
−
→
werden sehen, dass dies Problem eindeutig lösbar ist. Der Vektor α x heißt dann die senkrechte Projek→
→
→
→
tion von −
y auf −
x . Die Vektorkomponente parallel zu −
x bei dieser Zerlegung haben wir zweckmäßig α−
x
−
→
genannt. Interessierende Unbekannte ist nur α, dann auch die Vektor-Unbekannte u . Skalares Anmulti→
→
→
→
→
→
→
→
→
→
→
→
plizieren von −
x an die Vektor-Gleichung −
y = α−
x +−
u führt sofort zu −
x−
y = α−
x−
x +−
x−
u = α−
x−
x . Denn
−
→
−
→
x u = 0 mit der gestellten Orthogonalitätsbedingung. Also können wir nach α auflösen und erhalten
−
→
→
−
→
→
x−
y
x−
y
α= −
=
2 . Damit haben wir insgesamt:
→
→
x2
−
x
−
→
→
→
Satz 6. Die senkrechte Projektion von −
y auf einen Vektor −
x = 0 ist der Vektor
−
→
→
x−
y−
→
−
x.
→
x 2
Daraus resultiert die Zerlegung
−
→
→
x−
y−
→ −
→
−
→
y = −
x + u,
→
x 2
→
−→
−
y −
→
→
→
→
→
mit dem Lotvektor −
u =−
y − x→
x. −
u steht senkrecht auf −
x (was man durch Bilden des Skalarproduktes
−
| x |2
sofort sieht).
Als weitere Anwendung der senkrechten Projektion hat man die Quantifizierung der Winkel:
−
→
→
→
Satz 7. Der Cosinus des Winkels zwischen zwei Vektoren −
x,−
y = 0 (beide nicht Null) lautet:
−
→
→
→ −
x−
y
−
.
cos ϕ −
x,→
y = −
→
x →
y
→
→
→
→
→
→
Insbesondere −
x−
y = 0 für senkrecht aufeinander
stehende
Vektoren −
x ,−
y (kurz −
x ⊥−
y ). (Zur Notation:
−
−
→
−
→
→
−
→
→
→
Den Winkel zwischen x und y nennen wir ϕ x , y , der Cosinuswert davon ist also cos ϕ −
x,−
y .)
Zur Begründung kann man einmal den Winkel als spitz voraussetzen und dann rechnen gemäß
Cosinus-Definition im rechtwinkligen Dreieck (Länge der Ankathete zu Länge der Gegenkathete):
→
→
−
y −
→
−x→
−
x
2
→
−
→
−
x−
y
|x| →
−
→
= −
→
.
cos ϕ x , y = −
→
→
y
x −
y
36
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
(Zur Vereinfachung des Zählers haben wir
die
Beispielrechnung im vorigen Abschnitt benutzt.) Da der
−
−
→
→
→
→
Winkel als spitz vorausgesetztwurde,
ist
x
y = −
x−
y , also die Formel für den Fall gezeigt. Für stumpfe
−
→
−
→
−
→
→
→
→
Winkel sieht man dann: cos ϕ x , y = − cos ϕ − x ,−
y , und
zwischen −−
x und −
y ist spitz,
der Winkel
−
→
−
→
−
→
−
→
−
→ −
−
x
y
xy
→
→
−
= − −
−
. Insgesamt: cos ϕ −
also mit dem bereits Bewiesenen: cos ϕ −→
x ,−
y = −
x
,
y
=
→
→
→
→
x
y
−x
y
−
→
→
→−
x−
y
−
.
− cos ϕ −−
x ,→
y = −
→
x →
y
Schließlich kannten wir für rechte Winkel das Resultat schon vorher: Dann ist das Skalarprodukt
Null.
→
−
−
→−
→= cos ϕ −
→
→
Bemerkung: Der ’Cosinussatz’ besagt einfach:
x ,−
y −
x →
y . Er ergibt sich sofort.
x y−
→−
→ Wenn man nun bereits als Wissen
voraussetzt,
−
−
dass cos ϕ x , y ≤ 1, so erhält man sofort die Schwarzsche
−
→
−
→
→
→
Ungleichung, die besagt: x y ≤ x y . Das wollen wir aber nicht tun und stattdessen diese Ungleichung im Geiste der Vektorrechnung beweisen sowie die Dreiecksungleichung für Beträge daraus ableiten.
Das praktische Arbeiten erfordert noch die Winkelbestimmung selbst: Mit
Umkehrfunktion
arccos
der
−
−
−
x→
y|
|→
→
−
→
können wir aus dem Cosinuswert den Winkel ermitteln, bilden also arccos →
für ϕ x , y , den
−
y|
|−x ||→
→
→
Winkel zwischen −
x und −
y.
→
→
2.4. Schwarzsche Ungleichung und Dreiecksungleichung. Seien −
x ,−
y beliebige Vektoren aus
−
→
→
→
→
→
→
→
Rn , aber −
x = 0 . Wir zerlegen den Vektor −
y so: −
y = α−
x +−
u , wobei α−
x die senkrechte Projektion von
−
→
→
→
→
→
→
y auf −
x sei, daher −
u ⊥−
x , d.h. −
u−
x = 0. Wir berechnen
→2
→2 2 −
2
→
→
→
→
→
→
→
→
x +−
u =−
x
= −
x 2 α−
x 2 α2 −
x + 2α−
x−
u +−
u 2 = α2 −
+→
x 2−
u 2 . Andererseits
−
2
2
2
2
→
→
→
→
→
→
→
= −
x α−
x +−
u
= α−
x 2 = α2 −
x2 .
x−
y
→−
→
−
→−
2
→
→
→
→
Weil −
x 2−
u 2 ≥ 0, folgt −
x→
y
≤ −
x 2−
y 2 und mit Wurzelziehen: −
x→
y ≤ −
x →
y . Genau im Falle
→−
→
−
−
→
−
→
→
→
→
→
u = 0 , gleichwertig: −
x nicht parallel zu −
y , haben wir sogar −
x 2−
u 2 > 0, d.h. −
x→
y < −
x →
y . Wenn
−
→
−
→
x = 0 , so gilt die Ungleichung mit dem Gleichheitszeichen offenbar auch. Damit haben wir folgenden
Satz begründet:
→−
→
−
Satz 8 (Schwarzsche Ungleichung). Für beliebige Vektoren gilt −
x→
y ≤ −
x →
y , und Gleichheit
besteht genau im Falle der Parallelität der Vektoren (wobei wir den Nullvektor parallel zu jedem nennen).
→ −
→
−
→ −
2
Wir folgern die Dreiecksungleichung −
x +→
y ≤ −
x + →
y . Sie ist gleichwertig zu −
x +→
y
≤
−
2
2
2
→
→
→
→
→
→
→
→
→
→
→
→
→
→
−
x + −
y . Dies wiederum zu −
x +−
y ≤−
x 2 +−
y
2 +2
x
−
y . Aber −
x +−
y =−
x 2 +−
y 2 +2−
x−
y,
−
→
−
→
−
→
−
→
und nach der Schwarzschen Ungleichung ist 2 x y ≤2 x y .
→−
2
→
→
Der Term −
x 2−
y2 − −
x→
y
hat eine einfache geometrische Bedeutung: Er stellt den quadrierten
−
→
−
→
Flächeninhalt des von x , y aufgespannten Parallelogramms dar. Das kann man durch Anwenden der
senkrechten Projektion leicht ausrechnen.
3. Vektorprodukt und Spatprodukt
In den vorigen Abschnitten wurde zwar der Fall R3 bzw. V3 aus Gründen der Anschaulichkeit
bevorzugt, aber sämtliche der dort behandelten Elemente funktionieren allgemein für Rn . In diesem
Abschnitt ist das anders: Es handelt sich um Konstruktionen, die ausschließlich in drei Dimensionen
möglich sind.
Das Vektorprodukt hat mehrere unmittelbare physikalische Anwendungen, und wegen seiner Beziehung
zur Elektrizitätslehre ist es auch besonders wichtig für Elektrotechniker. Es kommt in den Maxwellschen
Gleichungen vor (in der Form des Differentialoperators rot (’Rotation’, vgl. Mathematik B) und in ein→
facher Form bei der Beschreibung der Lorentzkraft, welche auf eine sich mit Geschwindigkeitsvektor −
v
bewegende Ladung q von einem Magnetfeld mit magnetischem Feldvektor B̃ ausgeübt wird. Diese Kraft
→
ist q −
v × B̃, das Vektorprodukt der beiden Vektoren. Wir geben nunmehr eine geometrische und anschließend eine algebraische Charakterisierung des Vektorproduktes, schließlich die Formel, mittels deren
man es in (kartesischen!) Koordinaten ausrechnen kann.
3. VEKTORPRODUKT UND SPATPRODUKT
37
−
→
→
Definition 7 (Geometrische Definition des Vektorprodukts). Es seien −
a , b Vektoren im V3 . Dann
−
→
→
ist −
a × b der Vektor, der eindeutig bestimmt ist durch:
−
→
−
→
−
→→
−
→−
→
−
→
→
→
→
a × b steht senkrecht auf −
a und auf b (also (−
a × b )−
a = (−
a × b ) b = 0.
→
−
→
→ −
→
(ii) −
a × b = Flächeninhalt des von −
a , b aufgespannten Parallelogramms.
−
→ → −
→
→
(iii) −
a, b,−
a × b bilden in dieser Reihenfolge ein Rechtssystem,
−
→
→
wenn −
a , b linear unabhängig sind.
(i)
Folgendes Bild veranschaulicht diese Eigenschaften:
a×
×b
|a×
×b|=|a||b|sin(α)
b
α
a
−
→ → −
→
→
Man beachte: −
a , b,−
a × b sind orientiert wie Daumen, Zeigefinger und Mittelfinger der rechten Hand,
−
→
−
→
→
→
oder: schraubt man eine Rechtsschraube von −
a nach b , so bohrt sie sich in Richtung −
a × b . Sehr
−
→
−
→
→
wichtig ist das folgende Cavalieri-Prinzip der Scherung:
man den Vektor b durch b + λ−
a,
Ersetzt −
−
→
→
−
→
−
→
−
→
so resultiert dasselbe Vektorprodukt, also a × b + λ a = a × b . Folgendes Bild illustriert diesen
Sachverhalt:
H=|b|sin(α)
Satz 9 (Algebraische Charakterisierung des Vektorprodukts). Das Vektorprodukt besitzt als Abbildung
× : V3 × V3 →
V3
−
→
−
→
−
→
−
→
a, b
→ a × b
die folgenden algebraischen Eigenschaften, und es ist durch diese Eigenschaften wiederum eindeutig bes→
timmt - die Vektoren −
e i , 1 ≤ i ≤ 3 sollen ein kartesisches System bilden, also alle Länge 1 haben und
38
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
paarweise senkrecht aufeinander stehen und eine Rechtsschraube in ihrer angegebenen Reihenfolge bilden):
−
→ →
−
→ → −
−
→ → −
−
→ →
→
→
→
→
(i) −
a × b +−
c
= −
a × b +−
a ×→
c , ebenso −
a + b ×−
c =→
a ×−
c + b ×−
c
−
→ −
→
−
→
→
−
→
−
→
→
→
a × λb
= λ(−
a × b ),
ebenso λ−
a × b =λ −
a ×b .
−
→
−
→ →
−
→
(ii)
a × b = −( b × −
a)
−
→
−
→
−
→
−
→
→
→
→
→
→
(iii)
e 1 × e 2 = e 3, e 2 × −
e3 =−
e 1, −
e3×−
e1 =−
e2
Diese Eigenschaften bedeuten im Einzelnen: (i) : Bilinearität (vgl. Skalarprodukt, auch das ist bilinear),
d.h. Linearität in beiden Eingabeschlitzen. Tatächlich würde man hier wegen (ii) die Forderungen nach
’ebenso’ nicht brauchen. (ii) Antisymmetrie, (iii) Normierung: Mit (iii) und der Antisymmetrie weiß
man, was bei Eingabe von Basisvektoren herauskommt, die ein kartesisches Rechtssystem ergeben. Man
→
kann auch an R3 statt V3 denken und die Einheitvektoren −
e i im R3 (i. Komponente 1, alle anderen
Komponenten Null).
Wir wollen kurz einsehen, wie die in diesem Satz formulierten Eigenschaften (i) − (iii) aus den
geometrischen Eigenschaften der Definition folgen:
→
−
→ →
→ −
(ii) und (iii) sind unmittelbar klar: Nach geometrischer Definition gilt −
a × b
= b ×−
a , und das
−
→ −
−
→
→
ist wegen der Eigenschaften des Betrags wiederum gleich − b × →
a . Ferner stehen die Vektoren −
a×b
−
→ →
−
→
−
→ → −
→ →
−
→→ −
→
→
→
und b × −
a senkrecht auf −
a , b . Damit b , −
a, b ×−
a ein Rechtssystem bildet ebenso wie −
a , b ,−
a × b,
−
→
−
→
−
→
→
→
→
muss also −
a × b = −( b × −
a ) gelten - bei linearer Abhängigkeit von −
a , b kommt auf beiden Seiten von
(ii) der Nullvektor heraus, also stimmt (ii) dann auch. (iii) folgt sofort aus der geometrischen Definition.
Ebenso einfach ist der zweite Teil von (i), der vom Anbringen eines Zahlfaktors handelt: Wenn
−
→
→
λ > 0, so vervielfacht sich der Flächeninhalt des von −
a , b aufgespannten Parallelogramms mit λ, wenn
−
→
→
man zu −
a , λ b übergeht, weiter sind die Parallelogramme parallel. Außerdem
ändert sich nichts an der
−
→
−
→
→
→
Orientierung, also muss nach geometrischer Definition −
a ×λb = λ −
a × b gelten. Für λ < 0 kommt
eine Orientierungsumkehr hinzu, also dasselbe Resultat. Bei λ = 0 kommt klar auf beiden Seiten der
Nullvektor heraus.
−
→ →
→
Wir kommen zum ersten Teil von (i) , welcher ein wenig schwerer einzusehen ist: −
a × b +−
c =
−
→ −
−
→
−
→
→
−
→
−
→
a × b + a × c . Mittels der senkrechten Prokektion zerlegen wir b und c je in einen Vektor senkrecht
−
→
−
→ −
→ →
→
→
→
→
→
→
→
→
zu −
a und einen Vektor parallel zu −
a : b = λ−
a+b , b · −
a = 0, −
c = µ−
a +−
c ,−
c ·−
a = 0. Dann
1
haben wir
1
1
1
−
→ →
−
→
−
→
→
→
→
a × b +−
c
= −
a × (λ + µ) −
a + b1 +−
c1
−
→
→
→
= −
a × b1 +−
c 1 (nach dem Cavalieri-Prinzip der Scherung!)
−
→
→
→
→
= −
a×b1 +−
a ×−
c 1 (geometrisch einzusehen!)
−
→
−
→
−
→
−
→
= a × b + a × c (wieder mit Scherung)
Nunmehr ist es ganz einfach, aus den algebraischen Eigenschaften der Vektorproduktes die folgende
Berechnungsformel in kartesischen Koordinaten herzuleiten:
Satz 10 (Berechnungsformel für das Vektorprodukt in Koordinaten). Es gilt

 
 

x1
y1
x2 y3 − x3 y2
 x2  ×  y2  =  − (x1 y3 − x3 y1 )  .
x3
y3
x1 y2 − x2 y1
Merkregel zur Anwendung: Um die i. Komponente des Vektorproduktes auszurechnen, streiche die i. Zeile
links und berechne vom verbleibenden (2 × 2) − Zahlenschema (bzw. von dieser (2 × 2) − Matrix) die
Determinante als Produkt der Hauptdiagonalen (von links oben nach rechts unten) minus Produkt der
Nebendiagonalen. Aber: Füge für die zweite Komponente ein negatives Vorzeichen an.
Hinweis: Man kontolliere stets, ob der ausgerechnete Vektor Skalarprodukt Null mit beiden Eingabevektoren ergibt. Das ist sehr schnell und sicher.
3. VEKTORPRODUKT UND SPATPRODUKT
39
Beweis: Mit den Eigenschaften des vorigen Satzes haben wir:
−
→
→
→
→
→
x1 →
e 1 + x2 −
e 2 + x3 −
e 3 × y1 −
e 1 + y2 −
e 2 + y3 −
e3
→
→
→
→
= x1 y2 −
e1×−
e 2 + x1 y3 −
e1×−
e3
−
→
−
→
−
→
→
+x2 y1 e 2 × e 1 + x2 y3 e 2 × −
e3
−
→
−
→
−
→
−
→
+x3 y1 e 3 × e 1 + x3 y2 e 3 × e 2
→
→
→
(x1 y2 − x2 y1 ) −
e 3 + (− (x1 y3 − x3 y1 )) −
e 2 + (x2 y3 − x3 y2 ) −
e 1.
Für das erste Gleichheitszeichen: Nutze das Distributivgesetz, das Vorziehen von Zahlfaktoren und die
−
→
−
→ →
−
→
→
→
→
Tatsache −
ei ×−
e i = 0 , die sofort aus −
a × b = −b × −
a folgt. Für das zweite Gleichheitszeichen:
→
→
→
→
→
→
Nutze (iii) und die sich daraus mit (ii) ergebenden Tatsachen: −
e2 ×−
e 1 = −−
e 3, −
e1 ×−
e 3 = −−
e 2,
−
→
−
→
−
→
e 3 × e 2 = − e 1.
Rechenbeispiel:

 
 

2
1
1
 −3  ×  2  =  10  .
4
−3
7
Man rechnet für die erste Komponente: (−3) (−3) − 4 · 2 = 1, für die zweite: 2 (−3) − 4 · 1 = −10, nun
negatives Vorzeichen anbringen: Resultat 10. Dritte Komponente: 2 · 2 − (−3) · 1 = 7.
Kontrolle:

 


 

2
1
1
1
 −3  ·  10  = 0,  2  ·  10  = 0.
4
7
−3
7
Abschließend noch ein Beispiel für das abstrakte Rechnen mit Vektorprodukten gemäß den algebraischen
Eigenschaften:
−
→ →
−
→
−
→
−
→ →
−
→
→
→
→
3−
a − b × −2−
a + 5 b = 15−
a ×b −2b ×−
a = 17−
a × b.
3.1. Das Spatprodukt. Aus dem Skalarprodukt und dem Vektorprodukt kann man (nur für V3
bzw. R3 (!)) folgendes Spatprodukt machen:
Definition 8. Das Spatprodukt ist die Abbildung
[] : R3 × R3 × R3
−
→
−
→
→
a , b ,−
c
→
−
R
→ −
−
→→ .
−
→
→
→
→
a b × c = [−
a , b ,−
c]
−
→ →
→
Satz 11. Das Spatprodukt hat folgende geometrische Deutung: −
a b ×−
c ist das Volumen des
−
→−
−
→
→
Spates (Schiefquaders), der von den Vektoren a , b , c aufgespannt wird, versehen mit einem Vorze−
→→
→
ichen für die Orientierung des Systems −
a , b ,−
c . (Bei Rechtssystemen kommt eine positive Zahl
−
→→
→
heraus, bei Linkssystemen eine negative, bei linear abhängigen Vektoren −
a , b ,−
c (d.h. wenn einer sich
als Linearkombination der beiden anderen darstellen lässt, so dass der Spat degeneriert) kommt Null
heraus.
−
→
→
Wir wollen das kurz einsehen: betrachten wir das von b und −
c aufgespannte Parallelogramm als
→
’Grundfläche’, dann ist die ’Höhe’ des Spats darzustellen durch die senkrechte Projektion von −
a auf
−
→ −
→
b × c , also gemäß ’Volumen gleich Grundflächeninhalt mal Höhenlänge’:
−
−
−
→ −
−
→ −
→
→
→
→
−
−
−
a
b
×
c
a
b
×
c
−
→ −
→ −
→ −
→ →
−
→ −
−
→
→
→
→
→
b
×
c
=
b
×
c
·
V = b ×−
c
·
b
×
c
=
a
b
×
c
.
2
2
→ −
−
→
−
→
b ×→
c
b ×−
c
−
→→
−
→ →
→
→
Ferner
ist −
a, b ,−
c genau dann ein Rechtssystem, wenn der Winkel zwischen −
a und b × −
c spitz ist, d.h.
−
→ −
−
→
→
a b × c > 0. Wir kommen zu den algebraischen Eigenschaften des Spatprodukts (ähnlicher Vorgang
wie beim Vektorprodukt!):
40
3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
Satz 12. Das Spatprodukt hat folgende algebraischen Eigenschaften:
(i) Es ist dreifach (in allen drei Eingabeschlitzen) linear.
(ii) Das Vorzeichen kehrt sich um, wenn man zwei der drei Vektoren vertauscht.
→
→
→
e2×−
(iii) −
e1 −
e3 = 1
→−
−
→−
→
Bemerkung: (ii) kann man in Verbindung
mit
−
(i) auch so ausdrücken: Sind zwei der drei Vektoren a , b , c
→
→
→
gleich, so wird das Spatprodukt −
a b ×−
c Null.
Durch diese algebraischen Eigenschaften ist das Spatprodukt wiederum eindeutig bestimmt.
Bemerkung: Die Definition des Spatproduktes war beschränkt auf den Fall der Dimension 3, aber
die algebraischen Eigenschaften dieses Satzes lassen sich sofort auf n Vektoren im Rn bzw. die (n × n) −
Matrix ihrer Komponenten verallgemeinern. Das ergibt dann die Determinante der Matrix, die wiederum
die analoge geometrische Deutung besitzt: n− dimensionales Spatvolumen mit Orientierungsvorzeichen.
Analog zum Vektorprodukt ergibt sich daraus bereits eindeutig, wie man eine Determinante berechnen
muss!
Wir verzichten auf eine Begründung des letzten Satzes, die aus der Berechnungsvorschrift in jedem Stück simpel nachzurechnen wäre. Stattdessen möchten wir darauf aufmerksam machen welche
elementaren Rechnungen koordinatenfrei auszuführen sind mit großer Leichtigkeit. Dafür ein Beispiel:
−
→
−
→ →
→
→
→
→
a + 3 b × 4−
a + 2−
c
(2−
a + 3 b − 4−
c ) −2−
−
−
→ →
−
→ → −
→ →
→
→
= 2 · 3 · 2−
a b ×−
c + 3 (−2) 2 b −
a ×→
c + (−4) 3 · 4−
c b ×−
a
−
→
→
→
= 72−
a b ×−
c
Was man zu tun hat: Nur distributiv rechnen ’jeder mit jedem’, jeden Term mit Vektorwiederholung
fortlassen, Faktoren vorziehen, am Ende benutzen, dass
−
→ →
−
→
−
→ → −
−
→
→
→
a b ×−
c = −
c −
a ×b = b −
c ×→
a
−
−
→ → −
→ →
−
→
→
→
→
= −b −
a ×→
c = −−
c b ×−
a = −−
a −
c ×b .
(Die zyklischen Permutationen ändern das Vorzeichen nicht, weil sie aus zwei Austauschschritten bestehen, die ’antizyklischen’ ändern das Vorzeichen.)
KAPITEL 4
Reelle Funktionen
41
42
4. REELLE FUNKTIONEN
1. Grundfunktionen und zusammengesetzte Funktionen, Grenzwerte bei Funktionen
Grundbegriffe:
Eine reelle Funktion
f : D → R, D ⊂ R.
ist eine
Abbildung
x
x ∈ D , als Punktmenge zu deuten (Kurve).
Graph von f :=
f (x) Standard - Symmetrien: Gerade und ungerade Funktionen, periodische Funktionen:
f gerade : ⇐⇒ ∀x (f (−x) = f (x)) (f in symmetrischem Intervall um 0 definiert)
f ungerade: ⇐⇒ ∀x (f (−x) = −f (x)) (wieder in symmetrischem Intervall um 0)
f periodisch mit Periodendauer T : ⇐⇒ f (x + T ) = f (x) für alle x
Lineare Transformationen von Funktionen: g (x) = a + bf (cx + d) , c nicht Null.
Graphisch geschieht Folgendes mit dem Graphen von f, um den von g zu erhalten:
1.Verschieben längs x − Achse nach links mit d,
2. Stauchen mit c längs der x − Achse, bei negativem c mit Spiegelung an der y − Achse gekoppelt,
3. Strecken längs y − Achse mit b (gekoppelt mit Spiegelung an der x − Achse bei negativem b
4.Verschieben um a nach oben längs der y − Achse)
(Reihenfolge ist wichtig, 1,2 und 3,4 dürfen untereinander nicht vertauscht werden!)
Monotonie von Funktionen: Monotones bzw. streng monotones Steigen bzw. Fallen
f heißt auf dem Intervall I monoton steigend, wenn ∀x1 , x2 ∈ I : (x1 ≤ x2 =⇒ f (x1 ) ≤ f (x2 )) ,
streng monoton steigend, wenn diese Bedingung mit ’ < ’ statt ’ ≤ ’ gilt.
f heißt auf I monoton fallend, wenn ∀x1 , x2 ∈ I : (x1 ≤ x2 =⇒ f (x1 ) ≥ f (x2 )) ,
streng monoton fallend, wenn ∀x1 , x2 ∈ I : (x1 < x2 =⇒ f (x1 ) > f (x2 )) .
Umgebungsbegriff: Eine Umgebung von x0 ist eine Menge ⊂ R, welche ein offenes Intervall um x0 enthält.
Extrema: f sei in einer Umgebung von x0 definiert. Dann hat f in x0 ein lokales Maximum, wenn
(∃ε > 0) ∀x (|x − x0 | < ε =⇒ f (x0 ) ≥ f (x)) (entsprechend mit ’ ≤ ’ für lokales Minimum).
f hat in x0 ein globales Maximum, wenn für alle x im Definitionsbereich von f gilt: f (x0 ) ≥ f (x) .
(’Globales Minimum’: Ersetze ’ ≥ ’ durch ’ ≤ ’.)
Für die entsprechenden Begriffe strenger Extrema ersetze die Zeichen ’ ≤, ≥ ’ durch ’ <, > ’.
Grenzwert bei Funktionen: Symbolisch: lim x → a f (x) = b, mit a, b ∈ R ∪ {−∞, ∞}, genauer Begriff:
lim x → a f (x) = b : ⇐⇒ Zu jeder Umgebung V von b gibt es eine Umgebung U von a, so dass f (U ) ⊂ V.
einseitiger Grenzwert: lim x → a+ f (x) = b (von rechts), lim x → a− f (x) = b (von links)
Asymptoten: Eine Asymptote x = a parallel zur y− Achse (d.h. ein Pol bei x = a) liegt vor,
wenn lim x → a− f (x) = ∞ (bzw. −∞) oder wenn lim x → a+ f (x) = ∞ (bzw. −∞).
Weitere Asymptoten: y = mx + b ist Asymptote des Graphen von f, wenn lim x → ∞ (f (x) − mx − b) = 0
oder limx→−∞ (f (x) − mx − b) = 0
Stetigkeit einer Funktion an einer Stelle:
Eine Funktion heißt stetig in x0 , wenn sie in einer (beidseitigen) Umgebung von x0 definiert ist
und lim x → x f (x) = f (x0 ) gilt.
0
Entsprechend bildet man: f in x0 stetig von links: lim x → x − f (x) = f (x0 ) , analog ’stetig von rechts’.
0
Globale Stetigkeit: f heißt auf dem ganzen Intervall I stetig, wenn f in allen x0 ∈ I stetig ist, also
genau dann, wenn (∀x0 ∈ I) (∀ε > 0) (∃δ > 0) (∀x ∈ I) (|x − x0 | < δ =⇒ |f (x) − f (x0 ) < ε|)
Gleichmäßige Stetigkeit: f heißt auf I gleichmäßig stetig, wenn
(∀ε > 0) (∃δ > 0) (∀x0 ∈ I) (∀x ∈ I) (|x − x0 | < δ =⇒ |f (x) − f (x0 ) < ε|) .
Man beachte: δ darf hier nur von ε abhängen, nicht aber von x0 ,
im Gegensatz zur bloßen globalen Stetigkeit.
Gleichmäßige Stetigkeit impliziert Stetigkeit, nicht aber umgekehrt.
1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN
Beispiele zur Illustration der Grundbegriffe:
x3 − x
, x ∈ R, ist eine ungerade Funktion, ohne Pol, aber
1 + x2
mit Asymptote y = x für x → ±∞. (Man hat
lim
f (x) = ∞ und
lim
f (x) = −∞,
x→∞
x → −∞
x3 − x
2x
aber genauer
lim
(f (x) − x) = 0, das sieht man mit
=x−
.
2
1+x
1 + x2
x → ±∞
√
f hat an der Stelle − −2 + 5 ein strenges
lokales Maximumt (das nicht global ist),
√
mit der Symmetrie also an der Stelle −2 + 5 ein strenges lokales Minimum.
Die Funktion ist offenbar überall differenzierbar, also überall stetig, aber sie ist
sogar auf ganz R gleichmäßig stetig, weil es einen maximalen Betrag der Ableitung gibt.
Man sieht auch, dass im Ursprung ein Wendepunkt vorliegt, dort ist die Steigung minimal.
Weiter gibt es zwangsläufig noch zwei weitere Wendepunkte, an denen die Steigung maximal ist.
Der Graph sieht so aus - die Asymptote ist mit eingezeichnet:
1. f (x) =
4
2
-4
0
-2
2 x
4
-2
-4
x
, x = ±1, hat Pole bei x = ±1, sie ist ebenfalls ungerade.
1 − x2
An den Polen hat man einseitige verschiedene (unendliche) Grenzwerte:
lim
g (x) = ∞,
x → −1−
aber
lim
g (x) = −∞.
x → 1+
Ferner hat sie die Asymptote y = 0, man hat
lim
g (x) =
lim
g (x) = 0.
x→∞
x → −∞
g hat keine lokalen und erst recht keine globalen Extrema und nur in x = 0 einen Wendepunkt.
g ist streng monoton steigend jeweils innnerhalb der Bereiche (−∞, −1) , (−1, 1) , (1, ∞) ,
aber g ist nicht global monoton steigend. (Das wird möglich durch die Pole.)
Die Funktion g ist in diesen drei Bereichen jeweils global stetig, aber nicht gleichmäßig, weil
man stets kleinere δ für gegebenes ε benötigt, je näher man einem Pol kommt.
Der Graph sieht so aus:
2. Die Funktion g (x) =
4
2
-4
-2
2 x
-2
-4
4
43
44
4. REELLE FUNKTIONEN
3. Die Funktion h (x) = sin (4x) + sin (8x), x ∈ R, ist periodisch mit Periodenlänge π/2.
Sie ist wiederum ungerade, auf ganz R gleichmäßig stetig, und sie besitzt verschiedene
strenge lokale Extrema, die keine globalen sind, aber auch globale Extrema, die keine strengen sind.
Im Rahmen einer vollen Periodenlänge hat man ein globales strenges Maximum und ein globales
strenges Minimum, dazu je ein nur lokales strenges Maximum und Minimum. Das sieht so aus:
1.5
1
0.5
-2
-1
0
1x
2
-0.5
-1
-1.5
Beispiele zur Illustration der linearen Transformationen:
Ausgangspunkt: Graph von f (x) = sin (x) , dann werden der Reihe nach folgende
geometrischen Operationen durchgeführt, jede Operation jeweils mit dem
zuvor erreichten Zwischenresultat - man vergleiche, wie sich das im jeweiligen
Rechenausdruck niederschlägt:
1.) Verschieben um π/4 nach rechts, 2.) Stauchen längs der x− Achse mit Faktor 2,
3.) Strecken längs der y− Achse mit Faktor −2, also Spiegeln an der x− Achse und
Strecken mit Faktor 2 längs der x− Achse.
-4
-2
1
1
0.5
0.5
0
2 x
4
-4
-2
-0.5
-0.5
-1
-1
sin (x)
-4
-2
0
2
0.5
1
2 x
4
-4
-2
0
-0.5
-1
-1
-2
sin (2x − π/4)
4
2 x
4
sin (x − π/4)
1
0
2 x
−2 sin (2x − π/4)
1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN
45
Grundresultate:
Grenzwertsätze:
lim (f (x) g (x)) = lim f (x) lim g (x) ,wenn beide Grenzwerte
x→a
x→a
x→a
auf der rechten Seite in R existieren und eine der Operationen +, −, ·, ·· ist (zusätzlich
im Falle der Division lim g (x) = 0).
x→a
Zusätzlich gelten ein paar völlig selbstverständliche Sätze dieser Form auch für
unendliche Grenzwerte mit der Vereinbarung ∞ + ∞ = ∞, −∞ + −∞ = −∞,
∞ · ∞ = ∞, ∞ · (−∞) = −∞, (−∞) · (−∞) = ∞,
∞
= ∞ (a > 0),
ferner für a ∈ R: ∞ + a = ∞, ∞ · a = ∞ (a > 0),
a
(Für die kritischen Fälle insbesondere bei Quotienten vgl. die spätere Regel von de L’Hospital.)
Einseitige und zweiseitige Grenzwerte: Für a ∈ R gilt:
lim f (x) existiert genau dann, wenn lim f (x) und lim f (x)
x→a
x→a+
x→a−
beide existieren und denselben Wert haben. (So auch für unendliche Grenzwerte.)
Einseitige sowie zweiseitige Grenzwerte bei Funktionen sind eindeutig bestimmt,
wenn sie überhaupt existieren.
Monotonie des Grenzwertes:
Wenn f (x) ≤ M für alle x, dann lim f (x) ≤ M (falls dieser Limes existiert).
x→a
Analog lim x → a f (x) ≥ M, wenn f (x) ≥ M für alle x. (Vorsicht: Das gilt nicht mit ’<’, ’>’.)
Sätze über Stetigkeit:
1. Wenn f, g in x0 stetig sind, dann auch fg ( wie oben, bei Division muss g (x0 ) = 0 sein).
2. Wenn f stetig ist in x0 und g stetig in f (x0 ) , dann ist g ◦ f stetig in x0 .
3. Zwischenwertsatz: Wenn eine auf einem Intervall I stetige Funktion die Werte a, b annimmt,
dann nimmt sie dort auch alle Werte zwischen a und b an.
3. Eine auf einem abgeschlossenen Intervall stetige Funktion ist dort gleichmäßig stetig.
4. Eine auf einem abgeschlossenen Intervall stetige Funktion nimmt dort ein absolutes
Maximum und ein absolutes Minimum an (und ist insbesondere dort beschränkt).
1.1. Die Grundfunktionen. Hier ist eine gewisse Liste von Grundfunktionen, aus denen man das
Benötigte in aller Regel aufbauen kann. (Für spezielle Zwecke hat man diese Liste gegebenenfalls zu
erweitern, insbesondere mit Stammfunktionen oder allgemeiner Lösungen von Differentialgleichungen,
für welche sich kein Ausdruck mit diesem Material angeben lässt.)
Funktion
Potenzfunktionen
Exponentialfunktion
Logarithmusfunktion
Sinusfunktion
Cosinusfunktion
Arcustangens
hyperbolischer Sinus
hyp. Arcussinus
hyp. Cosinus
hyp. Tangens
hyp. Arcustangens
Rechenausdruck
f(x) = xa
exp(x) = ex
ln(x) = exp−1 (x)
sin (x)
cos (x)
arctan (x)
ex − e−x
sinh (x) =
√
2
arcsinh(x) = ln x + x2 + 1
ex + e−x
cosh (x) =
2
ex − e−x
sinh (x)
tanh (x) =
= x
cosh (x)
e + e−x
1
1+x
arctanh(x) = ln
2
1−x
x ≥ 0, fester Exponent a > 0
natürliche Basis e
natürliche Basis e, x > 0
(Umkehrf. von tan = sin / cos)
(Umkehrf. von sinh)
(Umkehrf. von tanh)
46
4. REELLE FUNKTIONEN
Wichtige Formeln zu den Grundfunktionen:
A. Für exp und ln:
Für exp
e0 = 1
ex+y = ex ey
(ex )y = exy
ax = ex ln(a)
für ln
ln (1) = 0
ln (ab) = ln (a) + ln (b) (a, b > 0)
ln (ax ) = x ln (a) (a > 0)
ln (x)
(a > 0) loga (x) =
(a > 0, x > 0)
ln (a)
B. Für die trigonometrischen Funktionen:
sin2 (x) + cos2 (x)
sin (x + 2π)
cos (x + 2π)
sin (x + π/2)
cos (x − π/2)
tan (x + π)
cos (x ± y)
sin (x ± y)
tan (x + y)
sin (x) sin (y)
cos (x) cos (y)
sin (x) cos (y)
=
1
(Pythagorasbeziehung)
=
sin (x)
(Periodizität von sin, Periodendauer 2π)
=
cos (x)
(Periodizität)
=
cos (x)
(Verschiebung)
=
sin (x)
(Verschiebung)
=
tan (x)
(Periodizität von tan, Periodendauer π)
= cos (x) cos (y) ∓ sin (x) sin (y)
(Additionstheorem)
= sin (x) cos (y) ± cos (x) sin (y)
(Additionstheorem)
tan (x) + tan (y)
=
(Additionstheorem)
1 − tan (x) tan (y)
1
= 12 (cos (x − y) − cos (x + y))
Sonderfall: sin2 (x) = (1 − cos (2x))
2
1
= 12 (cos (x − y) + cos (x + y))
Sonderfall: cos2 (x) = (1 + cos (2x))
2
1
1
=
Sonderfall: sin (x) cos (x) = sin (2x)
2 (sin (x − y) + sin (x + y))
2
C. Für die hyperbolisch trigonometrischen Funktionen:
cosh2 (x) − sinh2 (x) =
1
sinh (x + y)
= sinh (x) cosh (y) + cosh (x) sinh (y)
cosh (x + y)
arcsinh(x)
arctanh(x)
= cosh (x) cosh (y) + sinh (x) sinh (y)
=
ln x + x2 + 1
1
1+x
=
ln
2
1−x
(Statt Pythagorasbeziehung)
Additionstheorem, wie trig. Fall
Additionstheorem,
charakteristische Vorzeichenänderung
x∈R
(−1 < x < 1)
1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN
47
Die Graphen der Grundfunktionen:
Potenzfunktionen (Exponent ist fest > 0, Basis ist die unabhängige Variable):
4
x3
y
3.5
x2
3
2.5
x(1/2)
2
1.5
x(1/3)
1
0.5
x
0
0
0.5
1
1.5
2
2.5
3
3.5
4
Exponential- und Logarithmusfunktionen verschiedener Basen (Basis ist fest > 0, verschieden von 1,
der Exponent ist die unabhängige Variable):
5
ex
4
3
2x
log2(x)
2
1
ln(x)
0
-1
-2
-3
-4
-5
-5
0
5
48
4. REELLE FUNKTIONEN
Hyperbolisch trigonometrische Funktionen: Drücken sich in der Exponentialfunktion einfach aus,
1 x
e − e−x ,
haben jedoch Eigenschaften analog zu den trigonometrischen Funktionen. (sinh (x) =
2
1 x
e + e−x , tanh = sinh / cosh)
cosh (x) =
2
3
cosh
2
1
0
-1
-2
sinh
-3
-4
-3
-2
-1
0
1
2
3
4
3
2
1
0
tanh
-1
-2
-3
-3
arctanh
-2
-1
0
1
2
3
1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN
49
Trigonometrische Funktionen: sin, cos, Umkehrfunktionen arcsin, arccos, tan = sin / cos, Umkehrfunktion arctan). Man beachte stets, wie sich der Graph der Umkehrfunktion jeweils durch Spiegelung aun
der Geraden y = x ergibt.
2
1.5
1
cos
0.5
0
-0.5
sin
-1
-1.5
-2
-3
-2
-1
0
1
2
3
1.5
arcsin
1
sin
0.5
0
-0.5
-1
-1.5
-1.5
-1
-0.5
0
0.5
1
1.5
50
4. REELLE FUNKTIONEN
3
arccos
2.5
2
1.5
1
0.5
cos
0
-0.5
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
3.5
10
tan
8
6
4
2
arctan
0
-2
-4
-6
-8
-10
-10
-5
0
5
10
1.2. Zusammensetzung von Funktionen. Mit Funktionen f, g bildet man αf (α ∈ R), f +g, f ·g,
und g◦f. Wir wiederholen: f, g : D → R, dann f +g : D → R, mit (f + g) (x) := f (x)+g (x) . Analog für
die andern arithmetischen Verknüpfungen, nur muss man bei fg als maximal möglichen Definitionsbereich
wählen: D { x ∈ D| g (x) = 0} . Eine besonders wichtige Rolle spielt die Hintereinanderschaltung, und sie
macht in jeder Hinsicht etwas größere Schwierigkeiten. Man merke sich: (g ◦ f) (x) := g (f (x)) , und der
f
g
1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN
51
maximal mögliche Definitionsbereich bei f : Df → R, g : Dg → R für g ◦ f lautet: { x ∈ Df | f (x) ∈ Dg )} .
Achtung: Es ist ein wenig misslich, dass bei g ◦ f zuerst f, dann g angewandt wird, entgegen der
Gewohnheit, von links nach rechts zu lesen. Das liegt an der rechts gestellten ’von’-Klammer. Klarer
wird das in der Bezeichnung mit Argument: g (f (x)) : Zuerst ist f(x) zu bilden, auf diese Zahl dann g
anzuwenden.
Wir wollen uns einen kleinen Überblick darüber verschaffen, welche Funktionenmengen man mit
den angesprochenen Verknüpfungen aus welchen Grundfunktionen bilden kann, und noch einmal gewisse
Mengen von Funktionen herausstellen.
1.2.1. Konstante Funktionen, lineare Funktionen. Sie sind die einfachsten überhaupt, konstante haben
die Gestalt f (x) = c für alle x. Ihre Graphen sind einfach Geraden parallel zur x− Achse. Was man in
diesem Bereich ’lineare Funktionen’ nennt, sind eigentlich affine, da eine additive Konstante zugelassen
ist. Sie haben die Gestalt f (x) = mx + b, und ihre Graphen sind Geraden, die allerdings niemals parallel zur y− Achse liegen. Man sollte sich allerdings für diese Funktionen die folgende Form merken
(’Punkt-Richtungs-Form’):
f (x) = f(x0 ) + α (x − x0 ) , auch gern geschrieben:
f (x0 + ∆x) = f (x0 ) + α∆x, wenn man an kleine |∆x| denkt,
gern steht auch h für ∆x.
Letztere Form ist die der Näherung erster Ordnung für eine nichtlineare Funktion g, dann ist f (x0 ) =
g(x0 ) und α = g ′ (x0 ) . Man fasst dabei x0 als fest auf und betrachtet den Ausdruck g (x0 ) + α∆x als
Funktion von ∆x.
konstante Funktionen
f (x) = c
affin lineare Funktionen f (x) = a0 + a1 x
Wir stellen fest: Genau alle linearen Funktionen gewinnt man mit den Verknüpfungen αf, f + g aus den
Funktionen h0 (x) = 1 und h1 (x) = x allein.
1.2.2. Polynomfunktionen (auch: ganzrationale Funktionen). Es sind die Funktionen der Gestalt
n
ak xk . Ist an = 0, heißt f Polynom vom Grad n. Die Vorfaktoren ak heißen Koeffizienten.
f (x) =
k=0
Offenbar bilden die konstanten und linearen Funktionen die Spezialfälle n = 0, 1.
Zum Rechnen mit Polynomen: Addition bedeutet Addition der Koeffizienten, Multiplikation mit
α ∈ R, dass alle Koeffizienten mit α multipliziert werden. Multiplikation zweier Polynome:
m
ar xr
r=0
Hier stellt die Summe
m
n
s=0
bs xs =
n+m
m
ar bk−r xk .
k=0 r=0
ar bk−r einen allgemeinen Rechenausdruck für den Koeffizienten ck des Produk-
r=0
tes dar. (Diese Figur nennt man ’Faltung’, und Sie werden ihr noch öfter begegnen.)
Ferner ist grundlegend:
Satz 13 (Divisionsalgorithmus). Für alle Polynome p (x) und q (x) , q (x) nicht konstant Null, gibt
es ein Polynom s (x) sowie ein Polynom r (x) mit Grad (r) < Grad (q) , so dass
p (x) = s (x) q (x) + r (x) , also auch
r (x)
p (x)
= s (x) +
.
q (x)
q (x)
Das nennt man auch Division mit Rest, r (x) ist dabei der verbleibende Rest.
Illustration an einem einfachen und einem etwas größeren Beispiel:
x
: (x − 1) = 1, Rest 1
− (x − 1)
1
52
Also r(x) = 1, und
4. REELLE FUNKTIONEN
x
x−1
=1+
1
x−1 ,
oder x = 1 · (x − 1) + 1
3
2
(x
− 2x + 4) :
− x3 − x
2
x − 1 = x − 2, Rest x + 2.
2
−2x 2+ x +
4
− −2x + 2
x+2
2
3
2
+4
3
2
Also x −2x
= x−2+ x2+x
2 −1 , oder x −2x +4 = (x − 2) x − 1 +x+2. Hier r (x) = x+2, s (x) = x−2.
x2 −1
Mittels der Polynomdivision macht man sich folgende Eigenschaften ohne weiteres klar:
Polynom vom Grade n p (x) =
n
k=0
ak xk , an = 0
1. p hat höchstens n Nullstellen. Ist p (a) = 0, so gilt
p (x) = q(x) (x − a) , (x − a) teilt also p (x) .
2. Der führende Term an xn bestimmt das Verhalten
für x → ±∞. Mit n ≥ 1 stets limx→±∞ f(x) ∈ {−∞, ∞}
Man beachte, dass aus der Eigenschaft 2 unmittelbar die lineare Unabhängigkeit der Funktionen hn (x) =
xn (n ∈ N0 ) . Wären sie linear abhängig, so ließe sich ein Polynom von einem Grade n > 0 durch eine
Linearkombination von Polynomen kleineren Grades darstellen - das ergibt aber ein Polynom kleineren
Grades. Die Differenz beider Polynome hätte also führenden Term an xn , n > 0. Das kann nach 2. nicht
die Nullfunktion sein. Wir sehen also, dass der Vektorraum der Polynome unendlichdimensional ist - aus
den Funktionen hn (x) = xn (n ∈ N0 ) erzeugt man allein mit den Verknüpfungen αf, f + g die Klasse
der Polynome. Dass aber der führende Term eines Polynoms p (x) für große |x| über den Rest dominiert,
kann man nach Polynomdivision des führenden Terms durch die Summe der niederen Terme sehen: Es
kommt ein Polynom vom Grad ≥ 1 plus ein Term,dergegen Null geht. Ebenso sieht man Eigenschaft 1
über Polynomdivision: Es gibt mit Divisionsalgorithmus für p(x) mit p (a) = 0 Polynome q, r, so dass
p (x) = q (x − a) + r (x), mit Grad (r) < Grad (x − a) = 1, also ist r eine Konstante. Mit p (a) = 0 folgt
nach Einsetzen: r = 0.
Bemerkungen zum graphischen Verhalten von Polynomen: Der Graph einer Polynomfunktion ist völlig glatt, er kann endlich viele Maxima und Minima (mit zugehörigen Buckeln) entwickeln,
auch Sättel, und für große |x| gehen die Werte ins unendliche. Man kann durch n + 1 Punkte (xi , yi ) mit
xi = xj für i = j in eindeutiger Weise ein Polynom vom Grade n legen. Aber interessanter für die Praxis
ist oft das Anpassen eines Polynoms relativ kleinen Grades als Modell an eine Messreihe, die außerdem
noch etwa Zufallsfluktuationen enthält.
1.2.3. Gebrochen rationale Funktionen. Erlaubt man zusätzlich Division von Funktionen, so bekommt
man die Klasse der gebrochen rationalen Funktionen. Die Rechenausdrücke können immer in die Endform
p(x)
q(x) mit Polynomen p, q gebracht werden (q nicht die Konstante Null) . Die Nullstellen sind diejenigen
des Zählers, bei denen der Nenner nicht Null wird. Interessant sind die Nullstellen des Nenners. Zunächst
ist der Ausdruck p(x)
q(x) für q (x) = 0 nicht definiert. Aber es ist genauer zu beschreiben, was an einer
solchen Stelle auftreten kann. Zunächst definieren wir:
Definition 9. Eine Funktion f hat einen Pol an der Stelle a, wenn f (x) gegen ±∞ geht, wenn man
sich mit x der Stelle a von rechts oder von links nähert.
Bei beidseitigen Polen können die Vorzeichen auf beiden Seiten gleich sein oder verschieden (betrachte
um x = 0 und x1 um x = 0). Bei einem Pol nähert sich der Funktionsgraph asymptotisch einer Geraden
parallel zur y− Achse, zumindest auf einer Seite dieser Geraden.
1
x2
1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN
53
f (x) = p(x)
k ≥ 1 sei die Ordnung dieser Nullstelle von q (p, q sind Polynome)
q(x) , q (a) = 0
1. Fall: p (a) = 0
Dann hat f an der Stelle a einen Pol.
2. Fall: p (a) = 0, Nullstelle von p der Ordnung m ≥ 1, dann treten folgende drei Fälle auf:
1. Unterfall: k > m Dann hat f an der Stelle a einen Pol.
2. Unterfall: k = m Dann existiert limx→a f (x) ∈ R{0}, damit kann f in a stetig ergänzt werden.
3. Unterfall: k < m Dann existiert limx→a f (x) = 0, und f kann damit stetig in a ergänzt werden.
Ferner ist das Verhalten für |x| → ∞ interessant und leicht beschrieben: Polynomdivision zeigt, dass
für Zählergrad > N ennergrad der Zähler dominiert und f (x) gegen ±∞ geht für x → ±∞ (mit allen
denkbaren Vorzeichenverteilungen!). Sie zeigt auch, dass für Zählergrad = N ennergrad eine Konstante
= 0 herauskommt als Asymptote für x ± ∞. Im Falle Zählergrad < N ennergrad hat man die Konstante
mit Wert 0 als Asymptote für x ± ∞. Es ist daher vernünftig, bei gebrochen rationalen Funktionen
stets eine Darstellung p(x)
q(x) mit teilerfremden Polynomen zu wählen, so dass Zähler und Nenner keine
gemeinsamen Nullstellen mehr haben (sonst ist zu kürzen). Dann gilt einfach: An den Nullstellen des
Nenners liegen Pole vor, die Funktion ist dort nicht definiert.
Insgesamt: Die vertikalen und horizontalen bzw. schrägen Asymptoten sind gegenüber den Polynomen
die möglichen neuen Phänomene; die Graphen zerfallen beim Auftreten von Polen in mehrere völlig glatte
Äste.Gebrochen rationale Funktionen
Erlaubt man zusätzlich Division von Funktionen, so bekommt man die Klasse der gebrochen rationalen Funktionen. Die Rechenausdrücke können immer in die Endform p(x)
q(x) mit Polynomen p, q gebracht
werden (q nicht die Konstante Null) . Die Nullstellen sind diejenigen des Zählers, bei denen der Nenner
nicht Null wird. Interessant sind die Nullstellen des Nenners. Zunächst ist der Ausdruck p(x)
q(x) für q (x) = 0
nicht definiert. Aber es ist genauer zu beschreiben, was an einer solchen Stelle auftreten kann. Zunächst
definieren wir:
Definition 10. Eine Funktion f hat einen Pol an der Stelle a, wenn f (x) gegen ±∞ geht, wenn
man sich mit x der Stelle a von rechts oder von links nähert.
Bei beidseitigen Polen können die Vorzeichen auf beiden Seiten gleich sein oder verschieden (betrachte
um x = 0 und x1 um x = 0). Bei einem Pol nähert sich der Funktionsgraph asymptotisch einer Geraden
parallel zur y− Achse, zumindest auf einer Seite dieser Geraden.
1
x2
f (x) = p(x)
k ≥ 1 sei die Ordnung dieser Nullstelle von q (p, q sind Polynome)
q(x) , q (a) = 0
1. Fall: p (a) = 0
Dann hat f an der Stelle a einen Pol.
2. Fall: p (a) = 0, Nullstelle von p der Ordnung m ≥ 1, dann treten folgende drei Fälle auf:
1. Unterfall: k > m Dann hat f an der Stelle a einen Pol.
2. Unterfall: k = m Dann existiert limx→a f (x) ∈ R{0}, damit kann f in a stetig ergänzt werden.
3. Unterfall: k < m Dann existiert limx→a f (x) = 0, und f kann damit stetig in a ergänzt werden.
Ferner ist das Verhalten für |x| → ∞ interessant und leicht beschrieben: Polynomdivision zeigt, dass
für Zählergrad > N ennergrad der Zähler dominiert und f (x) gegen ±∞ geht für x → ±∞ (mit allen
denkbaren Vorzeichenverteilungen!). Sie zeigt auch, dass für Zählergrad = N ennergrad eine Konstante
= 0 herauskommt als Asymptote für x ± ∞. Im Falle Zählergrad < N ennergrad hat man die Konstante
mit Wert 0 als Asymptote für x ± ∞. Es ist daher vernünftig, bei gebrochen rationalen Funktionen
stets eine Darstellung p(x)
q(x) mit teilerfremden Polynomen zu wählen, so dass Zähler und Nenner keine
gemeinsamen Nullstellen mehr haben (sonst ist zu kürzen). Dann gilt einfach: Die Nullstellen sind genau
die des Zählers, und genau an den Nullstellen des Nenners liegen Pole vor, die Funktion ist genau an
diesen Stellen nicht definiert.
Insgesamt: Die vertikalen und horizontalen bzw. schrägen Asymptoten sind gegenüber den Polynomen
die möglichen neuen Phänomene; die Graphen zerfallen beim Auftreten von Polen in mehrere völlig
glatte Äste. Wir ergänzen einen besonders einfachen Fall der Partialbruchzerlegung, in welchem diese
sehr nützliche Zerlegung ganz schnell ausgeführt werden kann:
54
4. REELLE FUNKTIONEN
Satz 14 (Partialbruchzerlegung im einfachsten Fall). Seien p, q Polynome mit Grad (p) < Grad (q) ,
Grad (q) > 1, und q (x) zerfalle in lauter verschiedene Linearfaktoren der Form (x − αi ) , also q (x) =
n
(x − αi ) , αi = αj für i = j, 1 ≤ i, j ≤ n > 1. Dann gilt:
i=1
p (x)
q (x)
=
Ai
=
n
i=1
Ai
, mit
(x − αi )
p (αi )
n
j=i, 1≤j≤n
(Man beachte, dass Ai Konstanten sind.)
Praktischer Zusatz: Allgemeiner hat man auch mit q (x) =
(αi − αj )
n
i=1
p (x)
q (x)
=
Ai
=
n
i=1
.
(β i x − αi ) , β i = 0 für alle i, die Zerlegung
Ai
, mit
(β i x − αi )
p (αi /β i )
n
j=i, 1≤j≤n
(αi /β i − αj )
Die Formel für die Konstanten findet man leicht so: Multiplikation der ersten Gleichung mit x − αi
ergibt
n
p (x)
Aj (x − αi )
= Ai +
.
n
(x − αj )
j
=
i
(x − αj )
j=i, 1≤j≤n
Einsetzen von x = αi führt sofort zur angegebenen Formel.
Bemerkung: Man achte auf die Bedingung Zählergrad < Nennergrad. Ist das nicht der Fall, so
bekommt man eine praktische Summenzerlegung nach Polynomdivision. Zu dem Term in (∗) ist dann
lediglich ein Polynom zu addieren.
x2 − 1
1
8
5
Beispiele:
=−
−
+
. Hier (zu den Linearfak(2x − 1) (x + 3) (x + 4)
21 (2x − 1) 7 (x + 3) 3 (x + 4)
1 2
−1
1
(−3)2 −1
(−4)2 −1
= − , A2 = (2·(−3)−1)(−3+4)
= − 87 , A3 = (2·(−4)−1)(−4+3)
=
toren der Reihe nach): A1 = 1 2 1
21
2 +3
2 +4
5
3.
x4 −1
80
255
2
(x+3)(x+4) = x − 7x + 37 + x+3 − x+4 erhält man so: Zunächst führt man Polynomdivision durch:
4
−445 − 175x
x − 1 : x2 + 7x + 12 = x2 − 7x + 37 +
.
(x + 3) (x + 4)
Dann mit dem verbleibenden Bruch
−445−175x
(x+3)(x+4)
wie im ersten Beispiel:
−445 − 175x
80
255
=
−
,
(x + 3) (x + 4)
x+3 x+4
wobei man rechnet: A1 = −445−175·(−3)
= 80, A2 = −445−175(−4)
= −255.
(−3+4)
(−4+3)
1.2.4. Lineare Transformationen von Funktionen. Viele praktisch auftretende Funktionen haben Rechenausdrücke wie g(x) = α + βf (γx + δ) , mit Konstanten α, β, γ, δ, entstehen also aus f durch Vor- und Nachschalten einer linearen Funktion (im Sinne von affin). Dabei ist f oft eine bereits bekannte Funktion wie
sin oder exp . Es ist recht praktisch, zu wissen, welche geometrischen Operationen man mit dem Graphen
von f ausführen muss, um den Graphen von g zu bekommen. Der Reihe nach: Man verschiebt den
Graphen von f um δ nach links, staucht den Graphen längs der x− Achse mit α (oder streckt mit 1/α),
streckt ihn anschließend längs der y− Achse mit β und verschiebt ihn um α nach oben. Man beachte
1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN
55
die Reihenfolge - jede Operation ist jeweils auf das vorige Zwischenergebnis anzuwenden. ’Strecken’ längs
einer Achse mit einem negativen Faktor bedeutet dabei stets: Strecken mit dem Betrag des Faktors und
Spiegeln an der jeweils anderen Achse. Verschieben ’nach rechts’ mit −3 bedeutet Verschieben nach links
um 3, usw.
Beispiel: 4 sin (3t + π/4) (wir deuten die unabhängige Variable t als Zeit) ergibt eine nur leicht
modifizierte Sinusschwingung. Die Amplitude ist 4, der Mittelwert ist Null wie bei Sinus, der Faktor 3
bei x bedeutet Stauchung längs der t− Achse mit 3, es läuft also alles drei mal so schnell ab - richtig: 3
3
ist die Kreisfrequenz, d.h. die Periodendauer ist 2π
der
3 , die Frequenz also ν = 2π . π/4 schließlich ist √
Nullphasenwinkel, d.h. die y− Achse schneidet durch den Graphen im Aufsteigen beim y− Wert 2 + 2 2.
So kann man das ganz schnell zeichnen:
4
2
-3
-2
-1
0
1
t
2
3
-2
-4
Die Maxima liegen an den Stellen u (k) = (π/2 − π/4 + 2kπ) /3 = π/12 + 2kπ/3, k ∈ Z. Dazu setzt man
3t + π/4 = π/2 + 2kπ und löst nach t auf. Durchführung der erwähnten Operationen mit den Maxima
von sin führt sofort auf dasselbe Ergebnis, schon aufgelöst nach t: Verschieben der Zahl π/2 + 2kπ auf
der Zahlengeraden nach links um π/4, dann Stauchen mit 3. Also gerade (π/2 − π/4 + 2kπ) /3.
Beispiel: at/d , mit d > 0, a > 0 , a = 1, läuft mit anderer Geschwindigkeit als at , und zwar so, dass
Vervielfachung der Werte mit a im Zeitintervall der Breite d auftritt, also langsamer mit d > 1, schneller
mit d < 1. Ebenso erklärt sich mit den erwähnten linearen Transformationen der Ausdruck a(t−t0 )/d :
Zusätzlich ist um t0 nach rechts verschoben worden. (Verschiebung des Graphen nach (!) Streckung mit
d.)
1.2.5. Übertragung von Eigenschaften von Funktionen auf ihre Verknüpfungen. Multiplikation einer Funktion mit einer Konstanten: Diese wurde bereits im letzten Abschnitt besprochen.
Addition von Funktionen: Sind f, g beide positiv, so ist es die Summe. Sind f, g monoton steigend,
so ist es die Summe (ebenso für ’fallend’). Eine Summe gerader (ungerader) Funktionen ist wieder gerade
(ungerade).
Multiplikation von Funktionen: Sind f, g positiv, so ist es fg. (Analog weitere Vorzeichenregeln.)
Sind f, g monoton steigend und positiv, so ist f g monoton steigend.
Verkettung von Funktionen: Ist f periodisch, so ist es auch g ◦ f. Ist f gerade, so ist es auch
g ◦ f. Sind f, g beide ungerade, so ist g ◦ f gerade. Sind f, g beide monoton steigend oder beide monoton
fallend, so ist g ◦ f monoton steigend. Ist eine der beiden Funktionen f, g monoton steigend, die andere
monoton fallend, so ist g ◦ f monoton fallend.
Solche Zusammenhänge sollte man nutzen. Auswendiglernen solcher kleinen Beobachtungen wird
nicht funktionieren, besser ist es, sich jeweils die Frage nach der Erschließbarkeit einer solchen Eigenschaft für eine Zusammensetzung zu stellen und diese Frage selbständig zu beantworten - durch logisches
Überlegen. Eine solche Überlegung wollen wir an zwei Beipielen demonstrieren - analog zeigt man alle
genannten Aussagen: ’Wenn f monoton steigend ist und g monoton fallend, dann ist g◦f monoton fallend’.
Sei x ≤ y. Dann mit der ersten Voraussetzung f (x) ≤ f (y) , also mit der zweiten g (f (x)) ≥ g (f (y)) .
Somit: x ≤ y =⇒ g ◦ f (x) ≥ g ◦ f (y) . Oder: ’Wenn f gerade ist, so ist es auch g ◦ f - völlig unabhängig
von den Eigenschaften von g’. Dazu hat man: f (x) = f (−x) , also g (f (x)) = g (f (−x)) . Damit ist g ◦ f
gerade.
Umkehrfunktion: Ist f streng monoton steigend, so ist es auch die Umkehrfunktion. Dasselbe gilt
für ’fallend’.
56
4. REELLE FUNKTIONEN
1.3. Grenzwert bei Funktionen und Stetigkeit.
1.3.1. Der Begriffsapparat. Einerseits sind die hier vorzustellenden Eigenschaften von eigenständiger
großer Bedeutung, andererseits werden sie auch bei der Behandlung der Ableitung wieder wichtig.
Man fragt immer wieder: Wenn x gegen a geht - wohin geht dann f (x)? Das ist die Frage nach einem
Grenzwert bei einer Funktion. Von einer ’ordentlichen’ Funktion stellt man sich vor, dass dann f (x)
eben gegen f (a) geht - das ist eine Weise, die Stetigkeit von f in a auszugrücken. Eine andere Version
der Stetigkeit, die noch etwas zu präzisieren sein wird: Bei kleinem Unterschied zwischen x und a sollte
auch der Unterschied zwischen f (x) und f (a) klein bleiben. Das formulieren nunmehr genau. Zunächst
brauchen wir eine kleine Vorbereitung zum Begriff ’Unendlich’. Wir sagen, dass x1 nach Null geht, wenn
x nach ∞ geht, oder dass x2 nach ∞ geht für x nach ∞. Das benutzen wir gerade so, wie wenn wir sagen:
x2 geht nach 4, wenn x nach 2 geht. Wie ist genauer mit −∞, ∞ umzugehen?
Definition 11 (Einführung der Objekte −∞, ∞). Wir fügen der Menge der rellen Zahlen zwei neue
Objekte hinzu, −∞ und ∞. Beide sind verschieden, beide sind keine Elemente von R. Wir erweitern die
Anordnung von R zu einer Anordnung von R ∪ {−∞, ∞} durch die Vorschrift: −∞ < a < ∞ für alle
a ∈ R.
Vorsicht: Es sind keinerlei arithmetische Operationen mit −∞, ∞ definiert! Manchmal findet man
Aussagen wie ∞ + b = ∞, wenn b ∈ R. Dies ist aber nur eine Abkürzung für folgende genaue Aussage:
Wenn limx→a f (x) = ∞ und limx→a g(x) = b, dann limx→a (f (x) + g(x)) = ∞. Bildet man dagegen ’∞· 0’
und übersetzt in diesem Sinne diesen Term, so findet man, dass keine Aussage der Form ’∞·0 = b’ richtig
ist! Es ist daher von solcher Notation überhaupt abzuraten.
Wohl aber ist es sinnvoll und wichtig, den Begriff der ’Umgebung’ sowohl für reelle Zahlen als auch
für −∞, ∞ zu bilden:
Definition 12 (Begriff der Umgebung). Eine Umgebung einer Zahl a ∈ R ist eine Zahlenmenge,
welche ein offenes Intervall um a enthält, also eine Zahlenmenge, welche Uε (a) := { x ∈ R| |x − a| < ε}
enthält für ein ε > 0. Eine Umgebung von ∞ ist eine Zahlenmenge, welche eine Menge der Form
{ x ∈ R| x > M } enthält für eine reelle Zahl M. Eine Umgebung von −∞ ist eine Zahlenmenge, welche
eine Menge der Form { x ∈ R| x < m} enthält für eine reelle Zahl m.
Beipiele: x ∈ R| x < −1010 ist eine Umgebung von −∞. { x ∈ R| − 0.1 < x < 0.1} = U0.1 (0) ist
eine Umgebung von 0, und U0.01 ist eine kleinere Umgebung von 0.
Wichtige Bemerkung: Wenn man von beliebig kleinen Umgebungen spricht, so kann man sich
auf solche offenen Intervalle beschränken. Denn zu jeder Umgebung gibt es eine kleinere, welche diese
spezielle Form hat. Damit werden Umgebungen sehr handlich.
Definition 13 (Grenzwert bei Funktionen). Seien a, b ∈ R ∪ {−∞, ∞}. Sei f (x) für alle x in einer
Umgebung von a definiert, außer etwa in a selbst. Dann definieren wir:
lim f (x) = b : ⇐⇒
x→a
Für jede beliebig kleine Umgebung V von b gibt es eine Umgebung
Das bedeutet handlich für a, b ∈ R:
lim f (x) = b : ⇐⇒
x→a
U von a, so dass ∀x ∈ U {a} : f (x) ∈ V
∀ε > 0∃δ > 0∀x = a : (|x − a| < δ =⇒ |f (x) − b| < ε) .
Für a, b = ∞ bedeutet die Definition:
lim f (x) = ∞ : ⇐⇒
x→∞
∀M ∃N∀x > N : f (x) > M.
Bemerkung: Mit Hilfe der Definition des Begriffs ’Umgebung’ kann man zwingend erschließen, wie
die konkretisierte Fassung für die verbleibenden Fälle aussieht, z.B. für a ∈ R, b = −∞.
Eine völlig präzise verbale Formulierung zum Verständnis: Die Definition für die Beziehung
limx→a f (x) = b besagt gerade: Die Bilder liegen in einer beliebig klein gewählten Umgebung von b, wenn
nur die Urbilder = a in einer hinreichend kleinen Umgebung von a liegen.
Konkrete Beispiele zum Verständnis, mit Strategien, limx→a f (x) = b oder die Verneinung
davon zu zeigen:
1.) f(x) = x2 , a = 2, b = 4. Wir behaupten limx→2 x2 = 4. Zum Beweis geben wir beliebiges ε > 0
vor. Dazu müssen wir eine passende Zahl δ aufweisen (wir werden gewöhnlich versuchen, eine solche als
1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN
57
Rechenausdruck in ε auszudrücken, aber wir werden manchmal
auch
bequem noch ’verschenken’ können,
d.h. δ unnötig klein wählen). Wir wollen im Beispiel haben: x2 − 4
< ε. Also insbesondere x2 − 4 < ε,
d.h. x2 < 4 + ε. Denken wir an x = 2 + η, η > 0. Dann haben wir die Bedingung x2 = η 2 + 4η + 4 <√4 + ε.
Das bedeutet η 2 + 4η − ε < 0. Lösen wir die Gleichung η 2 + 4η − ε = 0, dann erhalten wir
√ η = −2+ 4 + ε
(nur die positive Lösung ist brauchbar!). Damit wissen wir: Wenn δ = δ (ε) = −2
+ 4
+ ε (das ist der
besagte Ausdruck in ε hier!), so wissen wir jetzt: Wenn x > 2, |x − 2| < δ, dann x2 − 4
< ε. Probieren
wir aus, ob das auch für x < 2, |x − 2| < δ gilt: Wir haben dann mit einem η > 0 : x = 2− η > 2−δ. Aber
√
√
(2 − δ)2 = 4 − 4δ + δ 2 , mit δ = −2 + 4 + ε also: (2 − δ)2
− 4 = 16 −
8 4 + ε + ε und damit für δ < 2
√
(was etwa mit ε < 1 automatisch der Fall ist): x2 − 4
< (2 − δ)2 − 4
= −8 4 + ε + 16 + ε < ε. Denn
√
−8 4 + ε + 16 < 0. Wir haben im Beispiel sogar δ (ε) optimal ausgerechnet. So etwas macht typisch
2
ein wenig Aufwand.
2 Im
Beispiel wäre folgender Weg vielε einfacher: x − 4 = (x − 2) (x + 2) . Mitε ε < 1
hat
2 man
dann x − 4 ≤ |x − 2| · 5, also reicht δ (ε) = 5 . Dann wird nämlich mit |x − 2| < δ = 5 auch
x − 4
≤ ε · 5. Die Voraussetzung ε < 1 ist harmlos. Für ε > 1 wähle einfach δ (ε1 ) mit einem ε1 < 1.
5
(Unten wird man sehen, dass wir damit die Stetigkeit der Quadratfunktion an der Stelle x0 = 2 gezeigt
haben. Analog kann man einsehen, dass stets limx→x0 x2 = x20 gilt.
2.) limx→0 x12 = ∞. Dafür haben wir zu zeigen: Wählt man |x| klein genug, so ist x12 > M für
vorgegebene Zahl M. Wieder dürfen wir M beliebig groß voraussetzen, wir verlangen M > 0. Dazu lösen
1
wir einfach die Ungleichung nach |x| auf: x12 > M ⇐⇒ |x|2 < M
⇐⇒ |x| < √1M . In diesem Falle war
sogar das optimale δ (M) leicht auszurechnen.
3.) limx→0 x1 existiert nicht, schon gar nicht als Zahl, aber auch nicht in der Form ±∞. Wir zeigen das
ausführlich, den Umgang mit der Verneinung der Bedingung zu üben. Um zu zeigen, dass der Grenzwert
hier keine reelle Zahl sein kann, haben wir Folgendes zu tun: Für eine beliebige Zahl
b
∈ R ist eine
Umgebung Uε (b) anzugeben, so dass mit |x| < δ, δ
> 0, niemals garantiert ist, dass x1 − a
< ε, so klein
1
man auch δ wählt. Wir wählen
mit x = 0,
ε = 1. Wir lösen x − b 1> 1 - nur eine Lösung ist verlangt
1
1
|x| < δ! Die Bedingung x − b
> 1 ist sicher erfüllt mit x > |b| + 1, also x > 0 und x < |b|+1
. Aber die
1
zweite Bedingung verlangt |x| < δ. Beides ist erfüllt mit x = min δ/2, |b|+2
. Aber der Limes kann auch
nicht ∞ sein; denn dann müsste x1 > M > 0 gelten für |x| < δ, mit passendem δ. Aber mit x = −δ/2 ist
1
x < 0 < M. Ebenso kann auch −∞ nicht Grenzwert sein, wozu man N < 0 wählt und x = δ/2.
4.) Ist limx→a f (x) = b und limx→a g (x) = c, so gilt limx→a (f (x) + g (x)) = b + c. Denn seien zu
beliebiger Zahl ε > 0 nach Voraussetzung existierende Zahlen δ 1 , δ 2 > 0 derart gegeben, dass |f (x) − b| <
ε/2 für |x − a| < δ 1 und |g (x) − c| < ε/2 für |x − a| < δ 2 . Dann wählen wir δ = min (δ 1 , δ 2 ) und haben:
|f (x) + g (x) − (b + c)| = |f (x) − b + g (x) − c| ≤ |f (x) − b| + |g (x) − c| < ε/2 + ε/2 = ε. Damit haben
wir einen der praktischen typischen Grenzwertsätze, die wir noch ein wenig ausbauen wollen. Zunächst
haben wir die grundlegende Tatsache:
Satz 15 (Eindeutigkeit des Grenzwerts). Wenn limx→a f (x) existiert, so ist dieser eindeutig bestimmt.
Begründung: Wenn b1 = b2 , so gibt es Umgebungen V1 von b1 und V2 von b2 mit V1 ∩ V2 = ∅. Also
kann eine Umgebung von a ihre f − Bilder nicht in V1 und V2 zugleich haben.
Zu Ungleichungen bei Grenzwerten hat man folgende Grundtatsache:
Satz 16 (Monotonie des Grenzwertes). Wenn f (x) ≤ g (x) für alle x = a (in einer beliebig kleinen
Umgebung von a) und limx→a f (x) , limx→a g (x) beide existieren, so ist limx→a f (x) ≤ limx→a g (x) .
(Analog für ≥ .) Insbesondere folgt aus α ≤ f (x) ≤ β für alle x in einer beliebig kleinen Umgebung von
a, dass α ≤ limx→a f (x) ≤ β, wenn dieser Grenzwert existiert.
Vorsicht: Die entsprechend Aussage gilt nicht mit <, > . Beispiel: x1 > 0 für x > 0, aber limx→∞ x1 =
0, nicht mehr > 0.
Begründung: Wäre b = limx→a f (x) > limx→a g (x) = c, so gäbe es eine Umgebung U von b und
eine Umgebung V von c, so dass alle Elemente von U größer als elle Elemente von V wären. Wegen der
Limesbeziehungen gäbe es jedoch eine Umgebung W von a, so dass für alle x ∈ W \ {a}: f (x) ∈ U und
g (x) ∈ V. Für jedes solche x ∈ W \ {a} wäre f (x) > g(x) entgegen der Voraussetzung, dass f (x) ≤ g(x)
zumindest in einer kleinen Umgebung von a. Für die zweite Aussage braucht man nur g(x) = β (konstant)
zu setzen bzw. g(x) = α und die erste darauf anzuwenden.
58
4. REELLE FUNKTIONEN
Man kann die Monotonie des Grenzwertes zuweilen ausnutzen, um einen neuen Grenzwert zu bestimmen, wenn es gelingt, die Werte geeignet einzuschließen:
Satz 17 (Einschließungsprinzip). Wenn limx→a f (x) = limx→a h (x) = c ∈ R und f(x) ≤ g (x) ≤
h (x) für alle x (wieder genügt es, dies für alle x in einer beliebig kleinen Umgebung von a zu fordern),
dann gilt limx→a g (x) = c.
Beweis: Nach Voraussetzung haben wir zu vorgelegtem ε > 0 stets δ > 0, so dass |f(x) − c| < ε/2
und |h (x) − c| < ε/2 für alle x mit |x − a| < δ, x = a. Mit der Ungleichung f(x) ≤ g (x) ≤ h (x) gilt
dann |g(x) − c| ≤ |f (x) − c| + |g (x) − c| < ε.
Anwendungsbeispiel: Sei 0 < x < π/2. Wir betrachten das Dreieck mit den Eckpunkten (0, 0),
(0, cos (x)) , (cos (x) , sin (x)) . Sein Flächeninhalt ist 12 sin (x) cos (x) . Der Kreisbogen des Einheitskreises
zwischen den letzten beiden Eckpunkten schließt mit dem Ursprung einen Kreissektor ein mit Flächeninhalt
x
x
1
x
2π · π = 2 . Also 2 sin (x) cos (x) ≤ 2 . Der Kreissektor ist aber dem Dreieck mit den Eckpunkten (0, 0) ,
sin(x)
(1, 0) , (1, tan (x)) einbeschrieben. Also x2 ≤ 12 tan (x) = 12 cos(x)
. Das liefert die Ungleichung
sin (x)
sin (x) cos (x) ≤ x ≤
, 0 < x < π/2. Folglich
cos (x)
x 1
≤
cos (x) ≤ für 0 < |x| < π/2. Daher (Ungleichung für die Kehrwerte!)
sin (x) cos (x)
sin (x) 1
≥ cos (x) für 0 < |x| < π/2.
≥ cos (x)
x 1
Aber limx→0 cos (x) = limx→0 cos(x)
= 1. (Dafür benutzen wir allerdings die Stetigkeit von cos sowie
an der Stelle x0 = 0, s.u.) Mit dem Einschließungsprinzip haben wir:
1
cos
sin (x)
= 1.
x
Wie wir später sehen werden, ist dies genau die Aussage: sin′ (0) = 1 = cos (0) . Also: sin ist an der Stelle 0
differenzierbar, und die Ableitung hat dort den Wert 1. Damit werden wir ganz leicht allgemein sin′ = cos
beweisen können.
Zuweilen sind wie im Beispiel 4.) oben Überlegungen nützlich, sich an eine Stelle a einmal von rechts
und einmal von links zu nähern. Das wollen wir systematisieren:
lim
x→0
Definition 14 (einseitige Grenzwerte). Sei a ∈ R. Dann definiert man
lim f (x) = b : ⇐⇒ Für jede beliebig kleine Umgebung V von b gibt es eine Umgebung
U von a, so dass ∀x ∈ U {a} : x > a =⇒ f (x) ∈ V
x→a+
Entsprechend definiert man limx→a− f (x) = b mit der eingefügten Bedingung x < a. (Einziger Unterschied zur Definition des gewöhnlichen ’beidseitigen’ Grenzwertes: Es werden nur jeweils die x > a bzw.
die x < a betrachtet, die Forderung auf diese eingeschränkt.)
Beispiel: Man hat limx→0+ x1 = ∞, aber limx→0−
Grenzwerte mit dem beidseitigen:
1
x
= −∞. Folgender Satz verbindet die einseitigen
Satz 18. limx→a f (x) = b ⇐⇒ limx→a− f(x) = b und limx→a+ f (x) = b.
Begründung: ’ =⇒ ’ ist unmittelbar klar (beide Bedingungen auf der rechten Seite verlangen weniger.)
Zu ’ ⇐= ’: Auch das ist reine Logik: Nach beliebiger Wahl einer Umgebung V von b gibt es Umgebungen
U1 , U2 von a jeweils zur Erfüllung der beiden einseitigen
Grenzwertforderungen.
Damit kann man aber ein
∈
heitlich U = U1 ∩U2 wählen.
Somit
für
alle
x
∈
U:
x
>
a
=⇒
f
(x)
V
und
x < a =⇒ f (x) ∈ V .
Daher für alle x ∈ U x < a oder x > a =⇒ f (x) ∈ V , also x = a =⇒ f (x) ∈ V für alle x ∈ U.
Genau das verlangt die Definion von limx→a f(x) = b.
Wir kommen zum Begriff der Stetigkeit:
Definition 15. Es sei f eine Funktion, deren Definitionsbereich eine Umgebung von x0 ∈ R umfasst.
f heißt stetig an der Stelle x0 genau dann, wenn limx→x0 f (x) = f (x0 ) . (Entsprechend formuliert man
’halbstetig von oben / unten’ mit den entsprechenden einseitigen Grenzwerten).
1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN
59
Bemerkung zum konkreteren Verständnis: Die Definition besagt, dass man f mit dem Grenzprozess
vertauschen kann. Wir haben hier den Begriff der Konvergenz von Zahlenfolgen nicht eingeführt (Mathematik B), aber immerhin können wir intuitiv verstehen: ’Wenn eine Folge von Zahlen gegen x0 konvergiert, so konvergiert die Folge der f− Bilder gegen f (x0 )’. Genau dies fordert die Definition für
beliebige Zahlenfolgen.
Handlich benutzbar wird die Stetigkeitsdefinition durch folgendes Einsetzen der Definition des Grenzwertes bei Funktionen (mit der Erleichterung, dass sowohl x0 als auch f (x0 ) Zahlen sind und nicht
±∞):
Satz 19. Mit den Voraussetzungen der vorigen Definition gilt:
f stetig in x0 ⇐⇒ ∀ε > 0∃δ > 0∀x (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) .
Das ist eine unmittelbare Umformulierung von limx→x0 f (x) = f (x0 ) . Lediglich die Einschränkung
auf x = x0 fehlt - diese war wesentlich bei der allgemeinen Grenzwertdefinition, da f (a) nicht definiert
zu sein brauchte - und bei a ∈ {−∞, ∞} auch nicht sein konnte. Hier ist die Kernaussage für x = x0
banal richtig.
1.3.2. Praktische Ermittlung von Grenzwerten und Entscheidung von Stetigkeit. Meist wird man
nicht unmittelbar die zuvor gegebenen Definitionen anwenden, sondern so arbeiten: Man kennt schon
gewisse Grenzwerte oder sieht sie sofort, dann schließt man auf Grenzwerte zusammengesetzter Ausdrücke (sowohl für die Frage der Existenz als auch für die Frage des Wertes). Ebenso beim Umgang
mit dem Stetigkeitsbegriff: Man weiß schon von vielen Funktionen globale Stetigkeit und schließt auf die
Stetigkeit zusammengesetzter Funktionen. Daher stellen wir in den folgenden beiden Sätzen die nützlichen
Grundresultate zusammen, darunter auch ein solche, die erst später begründet werden kann, da sie die
Ableitung benutzen.
1.3.3. Grenzwertsätze.
Satz 20 (über Grenzwerte bei Funktionen). Es sei a ∈ R ∪ {−∞, ∞}. Es seien limx→a f (x) = b ∈ R
und limx→a g (x) = c ∈ R. Dann gilt:
1. Abteilung: Arithmetisches Rechnen mit endlichen Grenzwerten
Es seien limx→a f (x) = b ∈ R und limx→a g (x) = c ∈ R. Dann gilt:
lim αf (x) = α lim f (x)
x→a
x→a
lim (f (x) ± g (x)) = b ± c
x→a
lim (f (x) · g (x)) = b · c
x→a
lim
x→a
f (x)
g (x)
=
b
, wenn c = 0
c
2. Abteilung: Arithmetisches Verhalten von Grenzwerten einschließlich ∞
Wenn lim f(x) = ∞ und lim g(x) = c ∈ R, dann lim (f(x) + g(x)) = ∞
x→a
x→a
x→a
Wenn lim f(x) = ∞ und ∀x(0 < m < g (x)), dann lim (f (x) g (x)) = ∞
x→a
x→a
f (x)
=0
g(x)
f(x)
Wenn lim f(x) = ∞ und ∀x(0 < g (x) ≤ M ), M ∈ R, dann lim
= ∞.
x→a
x→a g(x)
Wenn ∀x |f (x)| ≤ c ∈ R und lim g (x) ∈ {−∞, ∞}, dann lim
x→a
x→a
Bemerkung: die Aussagen ∀x... in den Voraussetzungen der letzten drei Aussagen werden jeweils nur für
x ∈ U \ {a} für eine Umgebung U von a benötigt.
3. Wenn f stetig ist in a ∈ R, so ist limx→a f (x) = f(a).
4 . Abteilung : Regel von de L’Hospital zum arithmetischen Verhalten von Grenzwerten von
Brüchen in den problematischen Fällen (Zähler und Nenner beide gegen Null oder beide gegen ∞)
60
4. REELLE FUNKTIONEN
Sei a ∈ R ∪ {−∞, ∞}. Es sei lim f (x) = lim g (x) = 0 oder lim f (x) = lim g (x) = ∞.
x→a
x→a
x→a
x→a
f ′ (x)
f (x)
f (x)
f ′ (x)
= limx→a ′
Wenn limx→a ′
existiert, dann existiert limx→a
, und limx→a
.
g (x)
g (x)
g (x)
g (x)
Begründungen: Die Aussagen der 4. Abteilung werden wir erst mittels der Ableitung und theoretischer Resultate über sie beweisen können (Stichwort Mittelwertsatz). Von den Aussagen der ersten
beiden Abteilungen beweisen wir nur einige Beispiele - das Andere geht analog mit denselben Mitteln:
Zu limx→a f(x) = b und limx→a g(x) = c =⇒ limx→a (f (x)g(x)) = bc. (Die Aussage über die
Summe wurde schon in den Beispielen oben bewiesen.) Wir zeigen hier die grundlegende Strategie: Wir
rollen die Sache vom Ziel her auf, und das ist die Aussage
|f (x)g(x) − bc| < ε
für beliebig klein vorgewähltes ε > 0. Gesucht ist eine Umgebung V von a, so dass diese Ungleichung für
alle x ∈ V \{a} gilt. Wir wissen, dass wir |f (x) − b| und |g (x) − c| beliebig klein machen können für x = a
aus einer Umgebung V von a. (Zunächst getrennt, dann bilden wir den Durchschnitt der Umgebungen
und haben V , so dass beide Beträge klein sind.) Der Ausdruck |f (x)g(x) − bc| muss nun mit einem sehr
typischen Mittel, der Dreiecksungleichung auf die Ausdrücke |f (x) − b| , |g (x) − c| zurückgeführt werden.
Dazu haben wir:
|f (x)g(x) − bc| = |f (x)g (x) − bg(x) + bg(x) − bc|
≤ |f (x)g(x) − bg(x)| + |bg(x) − bc|
= |g(x)| |f (x) − b| + |b| |g (x) − c| .
Es leuchtet bereits ein, dass dies so klein wird, wie wir wollen, wenn wir |f (x) − b| , |g (x) − c| hinreichend
klein gemacht haben. Das wird deutlich, wenn wir
|g(x)| < |c| + 1
setzen, was nach Voraussetzung limx→a g(x) = c sicherlich für x = a in einer Umgebung W von a gilt.
Wir haben also
|f (x)g(x) − bc| < (|c| + 1) |f (x) − b| + |b| |g (x) − c| .
Wir wollen den Ausdruck auf der rechten Seite ≤ ε mit beliebig vorgelegtem ε > 0 bekommen. Setzen
wir
ε
ε1 := min 1,
,
2 max(|c| + 1, |b|)
so folgt aus |f (x) − b| < ε1 , |g (x) − c| < ε1 das Gewünschte:
(|c| + 1) |f (x) − b| + |b| |g (x) − d| < ε.
Nach den Voraussetzungen limx→a f(x) = b, limx→a g(x) = c haben wir aber eine Umgebung V von a,
so dass für alle x = a aus V gilt: |f (x) − b| < ε1 , |g (x) − c| < ε1 . Somit gilt |f (x)g(x) − bc| < ε für alle
x = a aus W ∩ V, und W ∩ V ist wieder eine Umgebung von a.
(x)
Zu limx→a fg(x)
= bc , wenn c = 0 und limx→a f (x) = b, limx→a g (x) = c: Man sieht schnelle, dass
1
limx→a g(x)
= 1c ; denn
1
1 1 −
=
g(x) c cg (x) |c − g (x)| ,
für g (x) = 0. Man hat für x = a in einer Umgebung W von a: g (x) = 0, und |g (x)| > |c| − α > 0, also:
1
1 1
−
g(x) c < (|c| − α) |c| |c − g (x)| .
Nach Voraussetzung limx→a g (x) = c hat man eine Umgebung V von a, so dass für alle x ∈ V \ {a}:
|c − g (x)| < ε1 , für beliebiges ε1 > 0. Wir setzen zu beliebig vorgelegtem ε > 0: ε1 := ε ((|c| − α) |c|) und
haben damit für x ∈ W ∩ V \ {a}:
1
1 g(x) − c < ε.
1
Das Resultat für die Quotienten folgt nunmehr aus dem für die Produkte durch Anwenden auf f (x) g(x)
.
1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN
61
Ein Beispiel zur 2. Abteilung - es sei bemerkt, dass diese Aussagen allesamt ziemlich banal sind und
eigentlich stets intuitiv richtig gesehen werden: Wenn limx→a f (x) = ∞ und ∀x ∈ U \{a}(0 < g (x) ≤ M ),
(x)
M ∈ R, dann limx→a fg(x)
= ∞. Nach der Voraussetzung limx→a f (x) = ∞ hat man zu jeder beliebig
großen Zahl A ∈ R eine Umgebung V von a, so dass |f (x)| > A für alle x ∈ V \ {a}. Mit U aus der
Voraussetzung bilden wir W := U ∩ V und haben für alle x ∈ W \ {a}:
f (x) ≥ 1 |f (x)| ≥ A .
(∗) g (x) M
M
Setzen
wir eine beliebig große Zahl B ∈ R voraus, so wählen wir dazu A > M B und haben mit (∗):
f (x) g(x) > B.
Zur Nummer 3. bemerken wir, dass die Aussage direkt die Definition der Stetigkeit darstellt. Aber
die Aussage ist recht nützlich. Wenn man z.B. weiß, dass limx→∞ arctan (x) = π/2, so weiß man sofort:
limx→∞ ln (arctan (x)) = ln (π/2) . Vgl. auch das zweite Anwendungsbeipiel zur 4. Abteilung.
Zur 4. Abteilung zwei Anwendungsbeispiele:
Erstes Beispiel:
x
1
lim
= lim x = 0.
x→∞ ex
x→∞ e
Also dominiert exp über x1 . Das geht aber für jede Potenz von x. Sei a > 0. Dann gibt es eine natürliche
Zahl n, so dass a < n. Wir zeigen durch Induktion, dass für alle n ∈ N0 gilt:
xn
lim x = 0.
x→∞ e
0
Induktionsanfang: limx→∞ exx = 0 ist eine banale richtige Aussage aus der 2. Abteilung.
n
Induktionsschluss: Sei n eine beliebige Zahl aus N0 , so dass limx→∞ xex = 0. Wir haben zu zeigen,
dass die Aussage dann auch für n + 1 gilt. Aber
xn+1
(n + 1) xn
xn
=
lim
= (n + 1) lim x
=
(n + 1) · 0 = 0.
x
x
x→∞ e
x→∞ e Ind.-Vor. und Konstantenregel
de L’Hospital x→∞
e
Genauer lautet das Argument: Da der Grenzwert auf der rechten Seite des ersten Gleichheitszeichens mit
n+1
Wert Null existiert, existiert auch limx→∞ x ex und hat den Wert Null.
Zweites Beispiel: Was ist
lim xx ?
lim
x→0+
x
x ln(x)
Wir schreiben für x > 0: x = e
. Wir haben
ln (y)
lim (x ln (x)) = lim
y→∞
x→0+
y
Also mit den Stetigkeitsargument Nummer 3.:
=
lim
de L’Hospital y→∞
1/y
= 0.
1
lim xx = lim ex ln(x) = e0 = 1.
x→0+
x→0+
1.3.4. Stetigkeitssätze (Übertragung der Stetigkeit von Bestandteilen einer Funktion auf ihre Zusammensetzungen). Aus den erwähnten Grenzwertsätzen der ersten und dritten Abteilung folgt über den
Begriff der Stetigkeit direkt folgender
Satz 21. Seien f, g stetig in x0 . Dann sind auch f + g, f − g, f g in x0 stetig. Wenn außerdem
g (x0 ) = 0, so ist auch fg in x0 stetig.
Sei f stetig in x0 , g stetig in f (x0 ) . Dann ist auch g ◦ f stetig in x0 .
Zum Beweis zeigen wir die erste Aussage für den Fall f + g (die anderen gehen völlig analog, es
ist nur das Verknüpfungszeichen auszuwechseln). Zu zeigen ist: limx→x0 (f (x) + g (x)) = (f + g) (x0 ) =
f (x0 ) + g (x0 ) . Aber mit der Vertauschung von lim mit + haben wir nach Grenzwertsatz:
lim (f (x) + g (x))
x→x0
=
lim (f (x)) + lim (g (x))
Grenzwertsatz x→x0
x→x0
=
Vorauss. der Stetigkeit von f,g
Zur zweiten Aussage: Zu zeigen ist: limx→x0 g (f (x)) = g (f (x0 )) . Wir haben:
lim g (f (x))
=
g lim f(x)
=
x→x0
Stetigkeit von g in f (x0 )
x→x0
f (x0 ) + g (x0 ) .
Stetigkeit von f in x0 und Grenzwertsatz
g (f (x0 )) .
62
4. REELLE FUNKTIONEN
Dass man in vielen Fällen mit dem Begriff der Stetigkeit erst gar nicht operieren muss, garantiert folgender
Satz 22. Wenn f differenzierbar in x0 ist, so ist f in x0 stetig.
Diesen Satz werden wir bei der folgenden Behandlung der Ableitung einsehen.
1.3.5. Einige wichtige theoretische Sätze über Stetigkeit.
Definition 16. Eine Funktion f heißt auf [a, b] (global) stetig, wenn für alle x0 ∈ (a, b) gilt: f ist
in x0 stetig und ferner für die Ränder gilt: limx→a+ f(x) = f (a) und limx→b− f (x) = b. Eine Funktion
heißt auf (a, b) stetig, wenn f in allen x0 ∈ (a, b) stetig ist. Analog definiert man globale Stetigkeit für
halboffene Intervalle, indem man jeweils für den Rand die Bedingung wie oben hinzufügt.
Definition 17 (gleichmäßige Stetigkeit). Eine Funktion f heißt auf einem Intervall I gleichmäßig
stetig, wenn Folgendes gilt:
∀ε > 0∃δ > 0∀x, x0 ∈ I (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) .
Bemerkung: Das bedeutet mehr als nur die globale Stetigkeit in allen x0 ∈ I. Letztere verlangt nur,
dass man in Abhängigkeit von x0 zu jedem ε > 0 ein δ > 0 hat mit
∀x ∈ I (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) .
Gleichmäßige Stetigkeit heißt dagegen, dass man die Strategie, mit der man zu ε ein solches δ angeben
kann, unabhängig von x0 formulieren kann. Folgenden Satz geben wir ohne Beweis an:
Satz 23. Eine auf einem abgeschlossenen Intervall global stetige Funktion ist dort gleichmäßig stetig.
Bemerkung: Dies gilt nicht für offene oder halboffene Intervalle, z.B. ist f (x) = x1 auf (0, 1] global
stetig, aber nicht gleichmäßig stetig. Denn man kann zu x0 ∈ (0, 1] sagen: Zu ε > 0 wähle δ = min(εx0 ·
x0 /2, x0 /2). Dann gilt für x mit |x − x0 | < δ (also x > x0 /2 (!)):
1
1
− 1 = 1 |x0 − x| <
|x − x0 | < ε.
x x0 xx0
x0 · x0 /2
Damit ist f global stetig auf (0, 1]. Aber das zu ε angegebene δ hängt wesentlich von x0 ab. Tatsächlich
ist es unmöglich, ein passendes δ zu ε > 0 uniform für alle x0 aus (0, 1] anzugeben. Wählen wir z.B. ε = 12 ,
und nehmen wir an, δ > 0 wäre eine Zahl, so dass
1
− 1 <ε
x x0 für alle x0 ∈ (0, 1] und alle x mit |x − x0 | < δ. Dann hätte man mit x0 =
|x − x0 | < δ, aber
1
− 1 = 1 − 1 = 1 > 1 = ε.
x x0 2δ 4δ 2δ
2
δ
2
und x =
δ
4
natürlich
Satz 24 (Zwischenwertsatz). Eine auf einem Intervall I global stetige Funktion nimmt dort mit zwei
Werten a = f (x1 ) und b = f (x2 ) > a, x1 , x2 ∈ I, auch jeden Zwischenwert c mit a < c < b an. Es gibt
also zu jeder solchen Zahl c eine Zahl x0 ∈ I mit f(x0 ) = c.
Beweisidee: Nehmen wir an, es sei x1 < x2 mit f(x1 ) = a, f (x2 ) = b. Dann hat die Menge
{ x ∈ [x1 , x2 ]| f (x) ≤ c} die obere Schranke x2 , also eine kleinste obere Schranke in R (axiomatische
Grundeigenschaft von R (!)). Nennen wir diese x0 . Damit gibt es eine Folge (an )n von Zahlen aus [x1 , x2 ],
so dass limn→∞ (f (an )) = c. Nun hat die Folge (an )n eine konvergente Teilfolge (ank )k , deren Grenzwert
x0 in [x1 , x2 ] liegen muss. Damit gilt auch limk→∞ f (ank ) = c. Aber wegen der Stetigkeit von f gilt
limk→∞ f (ank ) = f (x0 ) . Somit f (x0 ) = c. (Im Falle x1 > x2 kann man völlig analog mit einer größten
unteren Schranke argumentieren.)
Satz 25. Eine auf [a, b] stetige Funktion f nimmt auf diesem Intervall ein absolutes Maximum und
ein absolutes Minimum an. Das heißt: Es gibt x1 ∈ [a, b], so dass für alle x ∈ [a, b] : f (x) ≤ f (x1 ). Und
es gibt x2 ∈ [a, b], so dass für alle x ∈ [a, b] : f(x) ≥ f(x1 ). Es folgt insbesondere, dass die Menge der
Werte von f auf [a, b] (nach oben und nach unten) beschränkt ist.
2. ABLEITUNG REELLER FUNKTIONEN
63
Bemerkung: Dieser Satz bildet den Ausgangspunkt des überaus wichtigen Mittelwertsatzes der
Differentialrechnung, den wir im nächsten Abschnitt kennenlernen werden.
Beweisidee (für das Maximum, für das Minimum kann man zu −f übergehen und die Existenz eines
absoluten Maximums benutzen): Die Menge der Werte { f (x)| x ∈ [a, b]} ist nach oben beschränkt. Sonst
gäbe es eine Folge von Zahlen (an )n , an ∈ [a, b] für alle n, so dass limn→∞ f (an ) = ∞. Aber diese Folge
hat auf dem abgeschlossenen Intervall eine konvergente Teilfolge (ank )k . Somit limk→∞ ank = x0 ∈ [a, b],
mit der Stetigkeit von f also limk→∞ f (ank ) = f (x0 ) , im Widerspruch zu limn→∞ (f (an )n ) = ∞, woraus
auch limk→∞ f (ank ) = ∞ folgen würde. Als nach oben beschränkte Menge hat nun { f (x)| x ∈ [a, b]}
eine kleinste obere Schranke, nennen wir sie M. Damit gibt es wieder mit ähnlichem Argument eine
konvergente Folge (bn )n von Zahlen aus [a, b], so dass limn→∞ f (bn ) = M, aber limn→∞ bn = x1 ∈ [a, b],
und nach Stetigkeit hat man f(x1 ) = M. Somit wird in x1 das absolute Maximum angenommen.Ableitung
reeller Funktionen (eindimensionaler Fall)
2. Ableitung reeller Funktionen
Leitfaden zum Komplex: Ableitung von reellen Funktionen (eindimensional):
Ableitungskalkül zur Berechnung der Ableitungen:
Grundableitungen plus Regeln für Zusammensetzungen
Ableitung f'(x 0) von f an der Stelle x 0:
1.) Limes der Differenzenquotienten (wenn existent)
2.) Lineare Näherung von f um x 0:
f(x 0+∆ x) = f(x 0) + f'(x 0)∆x + R(∆x),
mit lim x->0 R(∆x)/∆ x = 0
∆
Anwendungen der Ableitung:
Extrema von Funktionen, Wendepunkte
Monotonie von Funktionen, Konvexität von Funktionen
Mittelwertsatz mit vielen Anwendungen
de L'Hospitalsche Regeln zur Grenzwertbestimmung
Unmittelbare physikalische Anwendungen: (Momentangeschwindigkeit
und Momentanbeschleunigung, Strom als Ableitung der Ladung usw.)
64
4. REELLE FUNKTIONEN
Grundbegriffe und Bezeichnungen:
Ableitung von f an der Stelle x0 : f ′ (x0 ) := lim
∆x→0
f (x0 + ∆x) − f (x0 )
(wenn existent)
∆x
d
f (x) .
dx
Tangentenzerlegung von f um x0 : f (x0 + ∆x) = f (x0 ) + f ′ (x0 ) ∆x + R (∆x)
R (∆x)
mit Restbedingung 1. Ordnung: lim
= 0.
∆x→0
∆x
Näherung 1. Ordnung von f um x0 : f (x0 + ∆x)
≈
f (x0 ) + f ′ (x0 ) ∆x. (ohne Restterm!)
Für f ′ (x) schreibt man auch
1. Ordnung
Ableitungsfunktion f ′ zu f: Die Zuordnung x → f ′ (x) (für existierende Ableitungen)
Höhere Ableitungen: f ′′ ist die Ableitung von f ′ , usw.

  ′

x (t)
x (t)
→
d 
y (t)  =  y′ (t)  .
Ableitung einer Kurve −
x (t) : Wird komponentenweise gebildet. Also dt
z (t)
z ′ (t)
Grundresultate:
Ableitungen der Grundfunktionen und Ableitungsregeln (vgl. die folgenden Tabellen)
Satz: Wenn die Ableitung f ′ (x0 ) existiert, dann existiert die Tangentenzerlegung mit
Resttermbedingung eindeutig. Umgekehrt: Existiert eine Tangentenzerlegung mit
erfüllter Resttermbedingung, dann existiert f ′ (x0 ) und ist der Faktor bei ∆x in der Zerlegung.
Satz: Wenn f ′ (x0 ) existiert und f in x0 ein Extremum hat, dann gilt f ′ (x0 ) = 0.Wenn zusätzlich
f ′ noch in einer Umgebung von x0 existiert, so garantiert ein Vorzeichenwechsel von f ′ in x0
ein Extremum in x0 . (Bei −/+ ein Mimimum, sonst ein Maximum.) Wechselt das Vorzeichen
nicht, liegt ein Sattel vor.
Satz (Mittelwertsatz): Wenn f auf [a, b] stetig ist (a < b) und auf (a, b) differenzierbar,
f (b) − f (a)
dann wird die mittlere Steigung von f auf (a, b) , das ist
, an einer
b−a
f (b) − f (a)
Stelle ξ ∈ (a, b) lokal realisiert, also f ′ (ξ) =
.
b−a
Satz vom beschränkten Zuwachs: Unter den Voraussetzungen des Mittelwertsatzes für f und g
hat man: Wenn f ′ (x) ≤ g ′ (x) für alle x ∈ (a, b) , dann f (x) − f (a) ≤ g (x) − g (a) für alle x ∈ [a, b].
Folgerung: Unter den Voraussetzungen des Mittelwertsatzes für f gilt: Wenn f ′ (x) > 0 für
alle x ∈ (a, b) , dann ist f streng monoton steigend auf [a, b].
Ebenso: (∀x ∈ (a, b) : f ′ (x) < 0) =⇒ f streng monoton fallend auf [a, b].
Vorsicht: Diese Aussagen sind nicht umkehrbar. Wohl aber hat man unter denselben Voraussetzungen:
f auf [a, b] monoton steigend [fallend] ⇐⇒ (∀x ∈ (a, b) : f ′ (x) ≥ 0) [(∀x ∈ (a, b) : f ′ (x) ≤ 0)].
Es folgt die wichtige Aussage:
Wenn die Voraussetzungen des Mittelwertsatzes für f, g erfüllt sind und f ′ = g′ auf (a, b) erfüllt ist,
dann unterscheiden sich f, g nur um eine Konstante auf [a, b], also f = g + c mit festem c auf [a, b].
(Dies begründet die Eindeutigkeit von Stammfunktionen stetiger Funktionen.)
Regeln von de L’Hospital zur Grenzwertbestimmung: a ∈ R ∪ {−∞, ∞}.
Wenn lim f (x) = lim g (x) = 0 oder lim f (x) = lim g (x) = ∞, ferner
x→a
x→a
x→a
x→a
f ′ (x)
f (x)
lim ′
existiert, so existiert lim
, und beide Grenzwerte sind gleich.
x→a g (x)
x→a g (x)
2. ABLEITUNG REELLER FUNKTIONEN
Ableitung der Grundfunktionen:
d α
x
dx
d x
e
dx
d
ln (x)
dx
d
sin (x)
dx
d
cos (x)
dx
d
tan (x)
dx
d
arcsin (x)
dx
d
arccos (x)
dx
d
arctan (x)
dx
d
sinh (x)
dx
d
cosh (x)
dx
d
tanh (x)
dx
d
arcsinh(x)
dx
d
arctanh(x)
dx
=
αxα−1
α∈R
=
ex
1
x
− cos (x)
merken!
=
=
=
sin (x)
= 1 + tan2 (x) =
”
1
=
=
sinh (x)
=
1 − tanh2 (x)
1
√
1 + x2
1
1 − x2
=
=
=
=
”
cos2 (x)
1
1 − x2
1
−√
1 − x2
1
1 + x2
cosh (x)
=
”
√
merken!
Die Ableitungsregeln:
Linearität der Ableitung:
(f + g)′
(cf )′
Produktregel:
(fg)′
Quotientenregel:
′
f
g
Kettenregel:
d
g (f (x))
x
Umkehrfunktionsregel:
−1 ′
f
(f (x))
=
=
f ′ + g′
cf ′
=
f ′ g + g′ f
=
f ′ g − g′ f
g2
c Konstante
”
”
”
= g′ (f (x)) · f ′ (x)
=
1
f ′ (x)
für f ′ (x) = 0
65
66
4. REELLE FUNKTIONEN
Beispiele zur Anwendung des Ableitungskalküls:
1
d 1
1
d −1/3
1.
√ =
= − x−4/3 = − √
x
3
dx 3 x
dx
3
3 x4
1
, für −π/2 < x < π/2
2. arcsin′ (sin (x)) =
cos (x)
1
also: arcsin′ (y) = für −1 < y < 1. (Setze y = sin (x) .)
1 − y2
sin2 (x)
2 sin (x) cos (x) (1 − 2 cos (x)) − 2 sin3 (x)
d
3.
=
2
dx 1 − 2 cos (x)
(1 − 2 cos (x))
2
cos (x) (1 − 2 cos (x)) − 1 + cos (x)
cos x − cos2 x − 1
= 2 sin (x)
=
2
sin
(x)
.
(1 − cos (x))2
(1 − cos (x))2
Beispiele zur Anwendung der Sätze:
1. Extrema und Wendepunkte:
x
1 − x2
f (x) = 2
hat Ableitung f ′ (x) = 2
2 , Extrema können also
x +1
x +1
nur in x = ±1 liegen, bei x = 1 wechselt die Ableitung ihr Vorzeichen von + nach −,
also liegt dort ein strenges lokales Maximum vor. (Analog: Strenges Minimum in x = −1.)
√
√
x2 − 3
f ′′ (x) = 2x 2
3 , also kommen nur x1 = 0, x2 = 3, x3 = − 3 als
x +1
Wendepunkte in Frage. An all diesen Stellen liegen auch Wendepunkte vor:
In x1 hat man ein strenges lokales Maximum der Steigung (weil das Vorzeichen von f ′′
wechselt von + nach −), analog in x2 , x3 strenge lokale Minima der Steigung.
2. Monotonie:
1
′
,∞
f (x) = x ln (x) hat die Ableitung f (x) = 1 + ln (x) , ist also im Bereich
e
streng monoton steigend, weil die Ableitung
in diesem Bereich überall > 0 ist.
1
Ebenso folgt, dass f im Bereich 0,
streng monoton fällt.
e
3. Regeln von deL’Hospital:
ln2 1 + x2
Man hat lim
= 0, weil limx→∞ ln2 1 + x2 = limx→∞ x = ∞
x→∞
x
4x ln 1 + x2
und lim
= 0. Dies gilt wiederum, weil Zähler und Nenner
x→∞
1 + x2
x2
ln 1 + x2 + 1+x
2
nach Unendlich gehen und lim 4
= 0.
x→∞
2x
2x
ln 1 + x2
2
Dafür genügt wiederum, dass limx→∞
= 0 wegen lim 1+x = 0
x→∞
2x
2
und lim
x2
1+x2
= 0. (Diese sind nun wirklich unmittelbar zu sehen.)
2x
4. Satz vom beschränkten Zuwachs:
1
Wir wollen zeigen, dass x ln (x) ≤ x2 − 1 für x ≥ 1. Da die Ungleichung für x = 1 gilt,
2
genügt die Ungleichung der Ableitungen: 1 + ln (x) ≤ x für x ≥ 1. Da diese für x = 1 gilt,
1
genügt wiederum die Ungleichung der Ableitungen: ≤ 1 für x ≥ 1.
x
Das ist aber offensichtlich.
x→∞
2. ABLEITUNG REELLER FUNKTIONEN
67
2.1. Erste Motivierung: Lokale Steigung einer Funktion. Eine Durchschnittsgeschwindigkeit
bei einer eindimensionalen Bewegung während der Zeitspanne von t0 bis t1 > t0 rechnet man so aus s (t) ist der Ort zur Zeit t (auf der Zahlengeraden):
v [t0 ,t1 ] =
s (t1 ) − s (t0 )
.
t1 − t0
Wir rechnen mit einer sich ständig ändernden Geschwindigkeit. Dann fragt sich: Was ist unter der Momentangeschwindigkeit v (t0 ) zum genauen Zeitpunkt t0 zu verstehen? Für eine praktische Messung werden
wir einfach nur das Intervall [t0 , t1 ] sehr klein wählen, also t1 = t0 + ∆t, mit sehr kleiner Zahl ∆t und
sagen: v (t0 ) ≈ v[t0 ,t0 +∆t] . Ungefähr, nicht exakt, und wir werden mit kleineren Daher die mathematische Idee zu folgender exakten Definition der Momentangeschwindigkeit: v (t0 ) = lim∆t→0 s(t+∆t)−s(t)
.
∆t
Gemeint ist der beidseitige Limes, also ist das Vorzeichen von ∆t beliebig.
Wir gehen zum Allgemeinen über. Es sei f eine Funktion, welche in einem offenen Intervall um x0
definiert ist. Dann ist
f (x0 + ∆x) − f (x0 )
die mittlere Steigung von f auf dem Intervall [x0 , x0 + ∆x] bzw.
∆x
bei negativem ∆x auf dem Intervall [x0 + ∆x, x0 ],
anschaulich die Steigung der Sekante des Graphen von f durch die Punkte
(x0 , f (x0 )) und (x0 + ∆x, f (x0 + ∆x)) , und
f (x0 + ∆x) − f (x0 )
lim
(wenn dieser Grenzwert existiert) ist die Steigung der Tangente
∆x→0
∆x
an den Graphen von f im Punkt (x0 , f (x0 )) , vgl. folgende Abbildung :
Schwarze Kurve: Graph von f
Rot: Tangente, schwarz: Sekante
Steigung: Ableitung von f in x0
Steigung (f(x0+∆x)-f(x0))/∆x
x0
x0+∆ x
Man beachte: es handelt sich genau um den im vorigen Abschnitt eingeführten Grenzwertbegriff bei
Funktionen, nur lautet die unabhängige Variable ∆x oder bei unabhängiger Variablen t der Funktion f
dann ∆t usw., weil man an beliebig kleine Beträge denkt - es wird der Grenzwert für ∆x → 0 gebildet.
Wir fassen die Haultsache in folgender Definition zusammen:
Definition 18. Sei f in einer (beidseitigen!) Umgebung von x0 definiert. Dann ist
f ′ (x0 ) := lim
∆x→0
f (x0 + ∆x) − f (x0 )
, falls dieser Grenzwert in R existiert.
∆x
f ′ (x0 ) heißt Ableitung von f an der Stelle x0 . Wenn der genannte Grenzwert nicht existiert oder ±∞
ist, so heißt f an der Stelle x0 nicht ableitbar oder nicht differenzierbar.
68
4. REELLE FUNKTIONEN
(x0 )
Bemerkung: f ′ (x0 ) existiert also genau dann, wenn die Funktion g (∆x) = f(x0 +∆x)−f
im Punkt
∆x
∆x = 0 stetig ergänzbar ist. Klar muss dafür auch der Zähler mit ∆x → 0 gegen Null gehen, und zwar
nicht langsamer als der Nenner ∆x.
Einige Beispiele für Existenz und Nichtexistenz von Ableitungen, unter direkter Anwendung der Definition:
1.) f (x) = sin (x) , x0 ∈ R. Wir behaupten:
sin′ (x0 ) = cos (x0 ) .
Dazu bilden wir
sin (x0 + ∆x) − sin (x0 )
∆x
sin (x0 ) cos (∆x) + cos (x0 ) sin (∆x) − sin (x0 )
∆x
(cos (∆x) − 1)
sin (∆x)
= sin (x0 )
+ cos (x0 )
∆x
∆x
2
−2 sin (∆x/2)
sin (∆x)
= sin (x0 )
+ cos (x0 )
.
2∆x/2
∆x
=
Also
sin (x0 + ∆x) − sin (x0 )
∆x→0
∆x
lim
−2 sin2 (∆x/2)
sin (∆x)
+ cos (x0 ) lim
∆x→0
∆x→0
2∆x/2
∆x
= sin (x0 ) · 0 + cos (x0 ) · 1
= cos (x0 ) .
= sin (x0 ) lim
Dabei haben wir die zuvor bewiesenen arithmetischen Eigenschaften des Grenzwerts benutzt sowie
das bereits hergeleitete Resultat lim∆x→0 sin(∆x)
= 1. Aus diesem folgt auch sofort:
∆x
−2 sin2 (∆x/2)
− sin2 (∆x/2)
sin (∆x/2)
lim
= lim
= lim
= 0 · 1 = 0.
− sin (∆x/2)
∆x→0
2∆x/2
∆x/2
∆x/2
∆x/2→0
∆x/2→0
2.) Wir behaupten, dass die Funktion f (x) = |x| in x0 = 0 nicht differenzierbar ist. (Anschaulich ist
das auch klar, weil der Graph in x0 = 0 eine Ecke hat, also keine Tangente an den Graphen in diesem
Punkt existieren kann.) Dazu bilden wir
|0 + ∆x| − |0|
∆x
|0 + ∆x| − |0|
lim
∆x→0−
∆x
lim
∆x→0+
=
=
lim
∆x→0+
∆x
= 1,
∆x
−∆x
= −1.
∆x
nicht existieren.
Da beide einseitigen Grenzwerte verschieden sind, kann der beidseitige lim∆x→0 |0+∆x|−|0|
∆x
f ′ (0) existiert also nicht. Man beachte aber, dass f in x0 stetig ist. Wir werden im nächsten Unterabschnitt
sehen, dass umgekehrt Differenzierbarkeit in x0 Stetigkeit in x0 erzwingt. Damit haben wir natürlich, dass
eine Funktion insbesondere an Unstetigkeitsstellen nicht differenzierbar sein kann.
3.) Wir setzen voraus, dass exp(x) = ex in x0 = 0 differenzierbar ist mit exp′ (0) = 1.Wir wollen
zeigen, dass dann für alle x0 ∈ R folgt: exp′ (x0 ) = exp (x0 ) . Wir haben
ex0 +∆x − ex0
e0+∆x − e0
e0+∆x − e0
lim
= lim ex0
= ex0 lim
= ex0 exp′ (0) = ex0 .
∆x→0
∆x→0
∆x→0
∆x
∆x
∆x
Mehr können wir erst in Mathematik B mit den Potenzreihen ausrichten.
Wir haben damit den ersten Teil des angegebenen Programms begonnen, die Ableitungen der Grundfunktionen bereitzustellen. Daher geben wir nunmehr eine vollständige Liste der Ableitungen unserer
grundlegenden Funktionen (fehlende Begründungen liefern wir nach, sobald wir die Ableitungsregeln zur
d
Verfügung haben). In dieser Liste verwenden wir die praktische Notation ’ dx
(Rechenausdruck(x))’, die
es erspart, immer zuerst einen Namen für die Funktion einzuführen. Beispielsweise heißt die erste Zeile:
Für f (x) = xa gilt f ′ (x) = axa−1 . - In anderen Fällen liegt ein Name der Funktion bereits vor, so
d
dass ’ln′ (x) = x1 ’ eben praktischer ist als ’ dx
ln (x) = x1 ’. Übrigens hat diese Notation auch gerade in
2. ABLEITUNG REELLER FUNKTIONEN
69
naturwissenschaftlich-technischer Anwendung großen Nutzen, sie bei Anwesenheit von äußeren Paramed
tern sofort klarstellt, nach welcher unabhängigen Variablen abgeleitet wird, etwa dt
(αet ) = αet .)
Grundableitungen (minimale zu merkende Liste) :
d a
x
dx
d x
e
dx
= axa−1
= ex
1
x
sin′ (x) = cos (x)
cos′ (x) = − sin (x)
1
arctan′ (x) =
1 + x2
Glücklicherweise braucht man nun nicht für jede Funktion eine solche Prozedur wie oben erneut
durchzuführen, den Limes eines Differenzenquotienten zu bestimmen. Stattdessen verfährt man viel praktischer so: Aus unseren wenigen Grundfunktionen werden alle weiter wichtigen aufgebaut durch die arithmetischen Operationen sowie die Verkettung (Hintereinanderschaltung). Man kennt die Ableitungen der
Grundfunktionen und baut aus diesen nach den sogenannten Ableitungsregeln die Ableitung beliebiger
damit aufgebauter Funktionen zusammen. Das Ganze ist dann der sogenannte Ableitungskalkül, der im
dritten Unterabschnitt folgen wird. Zuvor aber werden wir eine zweite wichtige Motivierung bringen,
die anschließend auch weiter tragfähig sein wird als die erstere, die zudem die in naturwissenschaftlichtechnischer Hinsicht wichtigere ist. Außerdem hat sie den Vorteil, dass sie mit ihrer neuen Version der
Ableitung die Ableitungsregeln für Zusammensetzungen von Funktionen leichter herzuleiten gestattet.
ln′ (x) =
2.2. Zweite Motivierung: Lineare Näherung einer Funktion in einer kleinen Umgebung
von x0 . Wir stellen uns vor, dass wir die Werte einer schwierige Funktion f , denken wir etwa an sin,
näherungsweise in einer kleinen Umgebung von x0 ausrechnen wollen, bei bekanntem Wert f (x0 ) an der
Stelle x0 . Im Beispiel sin wählen wir x0 = 0 und kennen sin (0) = 0. Wie ist also sin (∆x) für kleine |∆x|
vernünftig zu nähern?
Die Idee ist es, f (x0 + ∆x) als Funktion von ∆x durch eine besonders einfache Funktion anzunähern,
deren Werte man problemlos ausrechnen kann. Nun sind die einfachsten Funktionen die Polynome, welche
dies Merkmal haben. Unter ihnen sind die allereinfachsten die Konstanten (des Grades 0) und die Polynome 1. Grades. Diese werden wir hier verwenden. Später werden die Polynome höheren Grades herangezogen werden und zur Potenzreihendarstellung führen. Hier geht es um die Näherung ersten Grades, oder
auch erster Ordnung, die technisch-wissenschaftlich sehr wichtig ist. Gerade sie ist mit der Ableitung
verbunden. Zum besseren Verständnis beginnen wir aber mit der Näherung 0. Ordnung, durch eine Konstante.
Es ist klar, dass man grob sagen wird: f (x0 + ∆x) ≈ f (x0 ) . Die sich anbietende Konstante ist also
allein f (x0 ) . Aber damit das vernünftig ist, muss gelten: Wenn ∆x einen hinreichend kleinen Betrag
hat, so wird auch der Unterschied zwischen f (x0 + ∆x) und f (x0 ) klein. Verschärft man Letzteres zu:
’so klein, wie man möchte’, dann hat man genau die Bedingung der Stetigkeit von f an der Stelle x0 .
Bei jeder Art von Näherung wird man systematisch nach dem Fehler fragen, und so führen wir nun ein
Fehlerglied ein, indem wir aus der ’Ungefähr’-Gleichung eine Gleichung machen. Wir setzen:
f (x0 + ∆x) = f (x0 ) + R (∆x) .
R (∆x) ist also definiert durch f (x0 + ∆x) − f (x0 ) , es ist das Restglied oder Fehlerglied. Nun definieren
wir:
Definition 19 (und Satz: Näherung 0. Ordnung). Sei f in x0 stetig. Dann existiert die Näherung
0. Ordnung von f um x0 , definiert durch
f (x0 + ∆x) = f (x0 ) + R (∆x)
und die Restgliedbedingung 0. Ordnung:
lim R (∆x) = 0.
∆x→0
70
4. REELLE FUNKTIONEN
Die Näherung 0. Ordnung von f um x0 lautet
f (x0 + ∆x)
≈
0. Ordnung
f (x0 ) .
Die Konstante ist durch die Restgliedbedingung eindeutig als f (x0 ) bestimmt.
Für das Behauptete ist wenig zu beweisen: R (∆x)∆x→0 = 0 ist eine unmittelbare Umformulierung
der Stetigkeit von f in x0 , und bei Näherung durch eine Konstante c = x0 hätte man:
Rc (∆x) = f (x0 + ∆x) − c, also
lim Rc (∆x) = lim f (x0 + ∆x) − c = f (x0 ) − c = 0.
∆x→0
∆x→0
Wir gehen nunmehr über zur Näherung 1. Ordnung, also durch eine lineare Funktion, ein Polynom 1.
Grades. Setzen wir ein solches allgemein an und schreiben die Gleichung mit Restglied:
f (x0 + ∆x) = a + b∆x + Rc,d (∆x) .
Nun soll diese Näherung sicher nicht schlechter werden als die Näherung 0. Ordnung. Insbesondere sollte
also lim∆x→0 Rc,d (∆x) = 0 sein. Das erzwingt aber: c = f (x0 ) , da das Glied b∆x gegen Null geht für
∆x → 0. Somit schreiben wir:
f (x0 + ∆x) = f (x0 ) + b∆x + Rb (∆x) .
Nun stellen wir fest, dass wir nicht weiterkommen, wenn wir bei der Restgliedbedingung 0. Ordnung
bleiben: Sie wäre für Rb mit jeder Zahl b erfüllt. Natürlich soll die Näherung 1. Ordnung besser werden als
die Näherung 0. Ordnung. Wir werden nunmehr in der folgenden Definition die entsprechend verschärfte
Resttermbedingung 1. Ordnung formulieren und ein Eindeutigkeitsresultat für b erhalten:
Definition 20 (Tangentenzerlegung und Näherung 1. Ordnung). Sei f in einer Umgebung von x0
definiert. Dann heißt eine Zerlegung
f (x0 + ∆x) = f (x0 ) + b∆x + Rb (∆x)
mit b ∈ R genau dann Tangentenzerlegung für f um die Stelle x0 , wenn der Restterm Rb die folgende
Resttermbedingung 1. Ordnung erfüllt:
Rb (∆x)
= 0.
∆x
Eine solche Zerlegung existiert genau dann, wenn f ′ (x0 ) existiert, und b ist dann eindeutig bestimmt
durch
b = f ′ (x0 ) .
Wenn die Tangentenzerlegung von f um x0 existiert, so hat man folgende Näherung 1. Ordnung:
lim
∆x→0
f (x0 + ∆x)
≈
1. Ordnung
f (x0 ) + f ′ (x0 ) ∆x.
Die optimale Steigung für die Wahl einer f um x0 approximierenden linearen Funktion ist also die
Tangentensteigung, die Ableitung. Existiert diese nicht, so hat man keine sinnvolle Näherung 1. Ordnung.
Zur Begründung haben wir nur die Existenz einer Tangentenzerlegung vorauszusetzen und dann
umzuschreiben zu
f (x0 + ∆x) − f (x0 )
Rb (∆x)
=b+
.
∆x
∆x
Nun lassen wir ∆x gegen Null gehen, die rechte Seite geht nach Voraussatzung gegen b, die linke hat
also auch einen Grenzwert, und der ist b. Somit hat man nach Definition der Ableitung als Grenzwert
von Differenzenquotienten: f ′ (x0 ) existiert und ist gleich b. Setzen wir umgekehrt die Existenz von
(x0 )
= f ′ (x0 ) auch, dass der Restterm
f ′ (x0 ) voraus und setzen b = 0, so folgt aus lim∆x→0 f (x0 +∆x)−f
∆x
Rf ′ (x0 ) (∆x) die Resttermbedingung 1. Ordnung erfüllt, weil
Rf ′ (x0 ) (∆x)
f (x0 + ∆x) − f (x0 ) − f ′ (x0 ) ∆x
f (x0 + ∆x) − f (x0 )
=
=
− f ′ (x0 ) ,
∆x
∆x
∆x
also
lim
∆x→0
Rf ′ (x0 ) (∆x)
f (x0 + ∆x) − f (x0 )
= lim
− f ′ (x0 ) = 0.
∆x→0
∆x
∆x
2. ABLEITUNG REELLER FUNKTIONEN
71
Also existiert dann die Tangentenzerlegung und lautet
f (x0 + ∆x) = f (x0 ) + f ′ (x0 ) ∆x + Rf ′ (x0 ) (∆x) .
Hier ist zur Veranschaulichung ein Bild von der Sache (im Beispiel hat R (∆x) einen negativen Wert):
Schwarze Kurve: Graph von f
Rote Gerade: Näherung 1. Ordnung um x0
R(∆ x)
x0
x0+∆ x
Beispiele für Tangentenzerlegungen und Näherung 1. Ordnung
1.) Näherung 1. Ordnung von sin (∆x) (für kleine |∆x|):
sin (∆x) = sin (0 + ∆x) ≈ sin (0) + sin′ (0) ∆x = ∆x.
1 Dies können wir natürlich dann auch so formulieren,
dass sin (x) ≈ x für kleine |x| . Daher ist sin 100
1
1
1
etwa 100
, tatsächlich ist (Computernäherung) sin 100
etwa −1.67 · 10−7 . Man beachte: Es ist nicht
− 100
der Sinn des Restterms, ihn auszurechnen, sondern ihn nach oben abzuschätzen, was wir später mittels
Integralrechnung tun werden. Die volle Tangentenzerlegung ist dann
sin (∆x) = ∆x + R (∆x) ,
mit lim∆x→0 R(∆x)
∆x = 0.
2.) Näherung 1. Ordnung für ex für kleine |x| ist 1 + x; denn:
e∆x = e0+∆x ≈ e0 + exp′ (0) ∆x = 1 + ∆x.
Wir leiten nunmehr die wichtigen Ableitungsregeln (in Beispielen) her und sehen dabei, dass die
Version der Tangentenzerlegung dafür sehr nützlich ist.
2.3. Ableitungsregeln für Verknüpfungen von Funktionen. Wir stellen diese Ableitungsregeln
zunächst vor und leiten die schwierigeren anschließend her.
(f + g)′ = f ′ + g′
Linearität der Ableitung :
(αf )′ = αf ′
Produktregel :
Quotientenregel
:
(fg)′ = f ′ g + g ′ f
′
f
f ′g − g′f
=
g
g2
(g ◦ f)′ = f ′ (g′ ◦ f ).
−1 ′
1
(f (x0 )) = ′
Umkehrfunktionsregel :
f
(wenn f ′ (x0 ) = 0).
f (x0 )
Die Gleichungen sind genau so zu lesen: Wenn die auf der rechten Seite vorkommenden Ableitungen
existieren, so existiert die Ableitung auf der linken Seite, und beide sind gleich. Ferner stehen hier abstrakt Funktionengleichungen, die eben die Gleichung allgemein für einzusetzende unabhängige Variable
Kettenregel
:
72
4. REELLE FUNKTIONEN
x0 bedeuten. So bedeutet die Kettenregel konkreter gefasst: Wenn f ′ (x0 ) und g′ (f (x0 )) existieren, so
′
′
existiert (g ◦ f ) (x0 ) , und es gilt: (g ◦ f ) (x0 ) = f ′ (x0 ) g ′ (f (x0 )) .
Beispiele zur Anwendung der Regeln:
′
tan =
sin
cos
′
=
cos2 + sin2
1
=
= 1 + tan2 .
cos2
cos2
Konkreter mit ’von’-Klammern geschrieben:
tan′ (x) =
d sin (x)
cos (x) · cos (x) − sin (x) (− sin (x))
1
=
=
= 1 + tan2 (x) .
dx cos (x)
cos2 (x)
cos2 (x)
d
sin5 (x) = cos (x) · 5 sin4 (x) , Erläuterung: Wir haben hier
dx
sin5 (x) = g (f (x)) mit f (x) = sin (x) und g (x) = x5 . Also
f ′ (x) = cos (x) und g′ (x) = 5x4 , daher g′ (f (x)) = 5 sin4 (x) .
d 2
x
x +1= √
2
dx
x +1
Abschließend noch zwei typische Anwendungen der Umkehrregel, welche zwei zu merkende Grundableitungen ergeben:
ln′ (ex ) =
arctan′ (tan (x)) =
arctan′ (x) =
1
1
für alle x ∈ R, also ln′ (x) = für alle x > 0.
ex
x
π π
1
1
=
, also
, für alle x ∈ − ,
′
2
tan (x)
2 2
1 + tan (x)
1
für alle x ∈ R.
1 + x2
Zu den Begründungen der Ableitungsregeln: Wir nehmen uns lediglich ein paar der interessanteren Beispiele vor, als ein einfacheres die Produktregel und als schwierigeres die Kettenregel. Die Technik
besteht einfach darin, die vorauszusetzenden Tangentenzerlegungen (aufgrund der Ableitbarkeitsvoraussetzungen) einzusetzen.
Zur Produktregel: Seien f und g in x0 differenzierbar. Dann behaupten wir, dass auch fg an dieser
Stelle differenzierbar ist und dass gilt: (f g)′ (x0 ) = f ′ (x0 ) g (x0 ) + g′ (x0 ) f (x0 ) . Nach Voraussetzung
haben wir mit Resttermen R, S, welche die Resttermbedingung 1. Ordnung erfüllen:
(f g) (x0 + ∆x) = f (x0 + ∆x) g (x0 + ∆x)
= (f (x0 ) + f ′ (x0 ) ∆x + R (∆x)) (g (x0 ) + g ′ (x0 ) ∆x + S (∆x))
= f (x0 ) g (x0 ) + (f (x0 ) g ′ (x0 ) + f ′ (x0 ) g(x0 ))∆x + f (x0 ) S (∆x) + g (x0 ) R (∆x)
+f ′ (x0 ) ∆xS (∆x) + g ′ (x0 ) ∆xR (∆x) + R (∆x) S (∆x)
= (f g) (x0 ) + (f (x0 ) g′ (x0 ) + f ′ (x0 ) g(x0 ))∆x + T (∆x) ,
wobei der Term T (∆x) offenbar die Resttermbedingung 1. Ordnung erfüllt. (Man wende nur auf jeden Summanden von T (∆x) /∆x die Grenzwertsätze zum arithmetischen Verhalten von Grenzwerten
an.) Daher schließen wir, dass der Faktor bei ∆x die Ableitung ergibt. Das ist genau die angegebene
Produktregel.
Zur Kettenregel: Sei f in x0 differenzierbar, g in f (x0 ) differenzierbar. Nunmehr schreiben wir in
den demnach existierenden Tangentenzerlegungen:
& (∆x) ,
f (x0 + ∆x) = f (x0 ) + f ′ (x0 ) ∆x + ∆xR
& (∆x) = 0.
mit lim R
∆x→0
2. ABLEITUNG REELLER FUNKTIONEN
73
Dabei haben wir lediglich für den ursprünglichen Restterm R (∆x) mit der Eigenschaft lim∆x→0 R (∆x) /∆x =
& (∆x) := R (∆x) /∆x. Damit haben wir R (∆x) = ∆xR
& (∆x) und lim∆x→0 R
& (∆x) = 0. Das0 gesetzt: R
selbe tun wir für die zweite vorauszusetzende Tangentenzerlegung:
g (f (x0 ) + ∆y) = g (f (x0 )) + g′ f (x0 ) + ∆y S& (∆y) ,
mit lim S& (∆y) = 0.
∆y→0
Nunmehr haben wir
& (∆x)
(g ◦ f) (x0 + ∆x) = g (f (x0 + ∆x)) = g f (x0 ) + f ′ (x0 ) ∆x + ∆xR
& (∆x) )
= g(f (x0 )) + g′ (f (x0 )) ∆y + ∆y S& (∆y) (mit ∆y := f ′ (x0 ) ∆x + ∆xR
& (∆x) + f ′ (x0 ) ∆x + ∆xR
& (∆x) S& (∆y)
= g (f (x0 )) + g ′ (f (x0 )) f ′ (x0 ) ∆x + g ′ (f (x0 )) ∆xR
Das hat die gewünschte Form der Tangentenzerlegung, nachzuprüfen ist nur, ob der Restterm
& (∆x) + f ′ (x0 ) ∆x + ∆xR
& (∆x) S& (∆y)
T (∆x) := g ′ (f (x0 )) ∆xR
die Resttermbedingung 1. Ordnung erfüllt. Dafür genügt es nach Grenzwertsatz, dass beide Summanden
von T (∆x) es tun. Zum ersten:
& (∆x)
g ′ (f (x0 )) ∆xR
& (∆x) = g ′ (f (x0 )) lim R
& (∆x) = 0,
= lim g ′ (f (x0 )) R
∆x→0
∆x→0
∆x→0
∆x
& (∆x) = 0.
da lim R
lim
∆x→0
& (∆x) und somit
Zum zweiten: Beachten wir, dass ∆y = f ′ (x0 ) ∆x + ∆xR
lim ∆y = 0,
∆x→0
so haben wir:
lim
=
lim
& (∆x) S& (∆y)
f ′ (x0 ) + R
∆x→0
∆x
&
&
&
lim f (x0 ) S (∆y) + lim R (∆x) S (∆y) = 0 + 0 = 0.
∆x→0
=
& (∆x) S& (∆y)
f ′ (x0 ) ∆x + ∆xR
∆x→0
′
∆x→0
Zur Quotientenregel sieht man mit der Kettenregel und der Grundableitung
d a
dx x
= axa−1 ein:
d 1
d
−g ′ (x)
=
(g (x))−1 = −g ′ (x) (g (x))−2 = 2
,
dx g (x)
dx
g (x)
anschließend bekommt man mit der Produktregel die volle Quotientenregel:
d f (x)
1
d 1
f ′ (x) f (x) g′ (x)
f ′ (x) g (x) − g ′ (x) f (x)
= f ′ (x)
+ f (x)
=
−
=
.
dx g (x)
g (x)
dx g (x)
g (x)
g 2 (x)
g2 (x)
d a
x = axa−1 verwenden wir die Ableitung von exp und wiederum die Kettenregel
Zur Grundableitung dx
- setze x > 0 voraus, so dass ln (x) gebildet werden kann:
d a
d a ln(x)
a
a
x =
e
= ea ln(x) = xa = axa−1 .
dx
dx
x
x
Zur Umkehrfunktionsregel wollen wir nur darauf hinweisen, dass bei Existenz einer Tangente an den
Graphen von f im Punkt (x0 , f (x0 )) sicherlich auch der Graph der Umkehrfunktion (der durch Spiegelung
an y = x hervorgeht!) an dem Spiegelungspunkt (f (x0 ) , x0 ) eine Tangente besitzt und dass natürlich die
′
1
Steigung der letzteren der Kehrwert der Steigung der ersteren ist. Also f −1 (f (x0 )) = f ′ (x
(Bedingung
0)
′
natürlich: f (x0 ) = 0. Oder (wiederum nach Existenzvoraussetzung) mit der Kettenregel: Wir haben mit
der Funktion id (x) = x:
′
′
′
1
1 = id′ (x0 ) = f −1 ◦ f (x0 ) = f ′ (x0 ) f −1 (f (x0 )) , also f −1 (f(x0 )) = ′
.
f (x0 )
74
4. REELLE FUNKTIONEN
3. Grundlegende Resultate im Zusammenhang mit Ableitungen
Das erste der folgenden Resultate ist das wohlbekannte über lokale Extrema. Aber die nachfolgenden
sind von noch allgemeinerer fundamentaler Bedeutung und sehr oft mit großem Gewinn anzuwenden.
Satz 26 (notwendige Bedingung für lokale Extrema). Es sei f in einer (beidseitigen!) Umgebung
von x0 definiert und es existiere f ′ (x0 ) . Dann gilt:
f hat in x0 ein lokales Extremum =⇒ f ′ (x0 ) = 0.
Bemerkungen zur Anwendung des Satzes:
1.) Der Satz sagt überhaupt nichts aus über Stellen, an denen eine Funktion nicht differenzierbar
ist. Zum Beispiel hat f (x) = |x| in x0 = 0 ein absolutes strenges Minimum, aber das bekommt man
nicht mit der Ableitung zu sehen, weil diese in x0 = 0 gar nicht existiert. Allenfalls könnte man zur
differenzierbaren Funktion f 2 (x) = x2 übergehen.
2.) Der Satz sagt nichts aus über Extrema am Rande eines Definitionsintervalls (Randextrema). Zum
Beispiel hat f : [1, 3] → R, f (x) = x2 , ein absolutes Minimum bei x0 = 1 und ein absolutes Maximum
bei x1 = 3, aber die (einseitig gebildeten) Ableitungen sind eben nicht Null.
3.) Man denke daran, dass die Nullstellen der Ableitung einer differenzierbaren Funktion nur erst
Kandidaten für Extremstellen ergeben und dass diese Kandidaten weiter zu prüfen sind - der Satz
besagt eben nicht, dass eine Nullstelle der Ableitung eine Extremstelle ergibt. Einfachstes Gegenbeispiel:
f (x) = x3 hat in x0 = 0 kein lokales Extremum, aber f ′ (x0 ) = 0. Der praktische Nutzen des Satzes
ist dennoch immens: Es bleiben im Allgemeinen nur wenige Kandidaten übrig, die zu prüfen sind. Wie
ist diese Prüfung vorzunehmen? Es gibt mehrere Wege. In den meisten Fällen ist es am besten, den
Graphen der Funktion qualitativ herauszubekommen und daher einen Überblick darüber zu haben, wie
viele Extremstellen (und von welcher Art) es minimal geben muss. Liefert die Ableitung dann nicht mehr
Kandidaten, so ist man fertig. Eine zweite gute Möglichkeit, wenn (wie fast immer) die Funktion in einer
ganzen Umgebung von x0 differenzierbar ist: Wenn die Ableitung an der Stelle x0 einen Vorzeichenwechsel
macht, so liegt ein Extremum vor (von plus nach minus: Maximum, sonst Minimum). Wechselt die
Ableitung indessen nicht ihr Vorzeichen, so liegt ein Wendepunkt mit horizontaler Tangente vor. Es sei
bemerkt, dass der Weg über die zweite Ableitung fast stets viel schlechter ist - das liegt vor allem daran,
dass die zweite Ableitung normalerweise viel komplizierter ist als die erste, hier täuscht das Verhalten
der Polynome stark. Es kommt hinzu, dass auch die zweite Ableitung keine Entscheidung bringen muss
und dass sie auch noch stetig in einer Umgebung existieren muss. Schließlich benötigt man stärkere
Voraussetzungen, dass nämlich die zweite Ableitung existiert und zudem noch stetig in einer Umgebung
von x0 ist.
Beweis des Satzes: f habe in x0 ein lokales Maximum (für Minima kann man völlig analog argumentieren). Wir haben für ein δ > 0: ∀x (|x − x0 | < δ =⇒ f (x) ≤ f (x0 )) . Dann gilt für alle Differenzenquotienten mit |∆x| < δ:
f (x0 + ∆x) − f (x0 )
∆x
f (x0 + ∆x) − f (x0 )
∆x
Es folgt mit der Monotonie des Grenzwertes:
f (x0 + ∆x) − f (x0 )
≤ 0,
∆x→0+
∆x
Nun existiert aber f ′ (x0 ) , also
lim
≥ 0 für ∆x < 0,
≤ 0 für ∆x > 0.
f (x0 + ∆x) − f (x0 )
≥ 0.
∆x→0−
∆x
lim
f (x0 + ∆x) − f (x0 )
f (x0 + ∆x) − f (x0 )
f (x0 + ∆x) − f (x0 )
= lim
= lim
.
∆x→0
∆x→0+
∆x→0−
∆x
∆x
∆x
Es folgt: f ′ (x0 ) ≤ 0 und f ′ (x0 ) ≥ 0. Somit f ′ (x0 ) = 0.
f ′ (x0 ) = lim
Satz 27 (Mittelwertsatz). Wenn a < b und f auf [a, b] stetig ist und auf (a, b) differenzierbar, dann
existiert eine Zahl ξ ∈ (a, b) mit
f (b) − f (a)
= f ′ (ξ) .
b−a
3. GRUNDLEGENDE RESULTATE IM ZUSAMMENHANG MIT ABLEITUNGEN
75
Der Satz besagt also, dass die mittlere Steigung von f auf [a, b] auch an mindestens einer Stelle im
Innern des Intervalls lokal realisiert ist.
Beweis:
1. Schritt: Beweis des Satzes unter der Zusatzvoraussetzung f (a) = f(b). In diesem Fall ist die mittlere
Steigung auf [a, b] Null. Also wird eine Zahl ξ ∈ (a, b) gesucht, für die f ′ (ξ) = 0 wird. Mit dem Satz
über die Existenz von absoluten Maxima und absoluten Minima einer stetigen Funktion auf [a, b] haben
wir aber ein absolutes Maximum oder Minimum von f auf [a, b] an einer Stelle ξ ∈ (a, b). Denn wegen
f (a) = f (b) ist entweder f konstant auf [a, b]; dann können wir jede Zahl ξ ∈ (a, b) wählen. Oder aber
es gibt ein x ∈ (a, b) mit f (x) < f (a) oder f (x) > f (a) . Im ersten Fall gibt es ein absolutes Minimum
im Innern, im zweiten ein absolutes Maximum im Innern. Es folgt, dass f ein lokales Extremum in (a, b)
besitzt, sagen wir an einer Stelle ξ ∈ (a, b), und nach dem vorigen Satz gilt dann f ′ (ξ) = 0.
2. Schritt: Verallgemeinerung auf beliebige Werte von f an den Rändern: Wir definieren eine neue
Funktion g durch
f (b) − f (a)
g (x) := f (x) − f (a) −
(x − a)
b−a
(von f wird die Sekante durch (a, f (a)) und (b, f (b)) abgezogen!) und stellen fest: g (a) = g (b) = 0.
Ferner ist g wiederum stetig auf [a, b] (da mit +, · aus auf [a, b] stetigen Funktionen aufgebaut) und
differenzierbar auf (a, b) (nach den Ableitungsregeln). Somit kann das Resultat vom ersten Schritt auf g
angewandt werden und liefert eine Zahl ξ ∈ (a, b), so dass
g′ (ξ) = 0, aber
f (b) − f (a)
, also
b−a
f (b) − f (a)
.
b−a
g′ (ξ) = f ′ (ξ) −
f ′ (ξ) =
Wir besprechen nunmehr einige sehr wichtige Folgerungen aus dem Mittelwertsatz. Zuerst kommt
ein weiteres allgemeines Resultat heraus, das eine gute Methode ergibt, Abschätzungen herzuleiten.
Satz 28 (Satz vom beschränkten Zuwachs). Sei a < b, und seien f, g stetig auf [a, b] und differenzierbar auf (a, b) . Sei weiter
f ′ (x) ≤ g ′ (x) für alle x ∈ (a, b).
Dann folgt:
f (x) − f (a) ≤ g (x) − g (a) .
Bemerkung: Der Satz drückt die intuitiv gut einsichtige Tatsache aus, dass bei einem Start zweier
Funktionen f, g mit demselben Wert in a (also f (a) = g (a) , in der zweiten Zeile steht dann gleichwertig
f (x) ≤ g (x)) die Werte von f immer unter denen von g bleiben, solange die lokalen Steigungen von f
unter denen von g bleiben.
Beweis: Wir definieren h(x) = f(x) − g(x) − (f (a) − g (a)) . Dann erfüllt h die Voraussetzungen
des Mittelwertsatzes - h ist stetig auf [a, b] und differenzierbar auf (a, b). Nehmen wir an, wir hätten
eine Zahl x0 ∈ [a, b], so dass die Aussage der Folgerung des zu beweisenden Satzes verletzt wäre, also
f (x0 ) − f (a) > g (x0 ) − g (a) , d.h. h (x0 ) > 0. Dann klar x0 > a,da h (a) = 0. Also hätten wir nach
Mittelwertsatz (angewandt auf das Intervall [a, x0 ] eine Zahl ξ ∈ (a, x0 ) ⊂ (a, b), so dass
0<
Aber
h (x0 ) − h (a)
h (x0 )
=
= h′ (ξ) .
x0 − a
x0 − a
h′ (ξ) = f ′ (ξ) − g′ (ξ) , also f ′ (ξ) > g ′ (ξ) .
und nach der Voraussetzung des Satzes müsste f ′ (ξ) ≤ g ′ (ξ) sein. das ist ein Widerspruch.
Als Anwendungbeispiel zeigen wir:
(1) sin (x) ≤ x −
x3 x5
+
für alle x ≥ 0.
3!
5!
76
4. REELLE FUNKTIONEN
Für die Funktionen auf beiden Seiten gelten die Voraussetzungen des Satzes vom beschränkten Zuwachs
(für jedes Intervall [0, b], b > 0. Der Satz liefert also, da beide Funktionen den Wert Null bei x = 0 haben:
Für die Gültigkeit von (1) genügt es, wenn gilt:
x2 x4
+
für alle x ≥ 0.
2
4!
Zur Gewinnung dieser Ungleichung ist erneute Anwendung des Satzes geeignet, für (2) genügt demnach:
(2) cos (x) ≤ 1 −
(3) − sin (x) ≤ −x +
x3
für x ≥ 0.
3!
(4) − cos (x) ≤ −1 +
x2
für x ≥ 0,
2
Mit demselben Argument genügt
dafür wieder
(5) sin (x) ≤ x für x ≥ 0,
dafür wieder
(6) cos (x) ≤ 1 für x ≥ 0.
Nun gilt (6) offenbar, und man schließt über (5) , (4) ... auf (1) . Man kann das induktiv verallgemeinern
zu folgenden Aussagen: Für alle natürlichen Zahlen N ≥ 1 gilt (x ≥ 0 wie zuvor) :
2N−1
k=0
2N
(−1)k
(−1)k 2k+1
x
≤ sin (x) ≤
x2k+1 .
(2k + 1)!
(2k + 1)!
k=0
Da nun die Summenglieder abwechselnd positives und negatives Vorzeichen haben und ihre Beträge nach
Null gehen, folgt daraus:
sin (x) =
lim
N→∞
2N−1
k=0
2N
(−1)k 2k+1 (−1)k 2k+1
=
, also
x
x
(2k + 1)!
(2k + 1)!
k=0
∞
(−1)k 2k+1
, für alle x ∈ R (da beide Seiten ungerade Funktionen darstellen).
sin (x) =
x
(2k + 1)!
k=0
Das ist die Reihendarstellung für sin . (Zu solchen Reihen mehr in Mathematik B.)
Satz 29 (Ableitung und Monotonie). Sei a < b und f auf (a, b) differenzierbar und auf [a, b] stetig.
Dann gilt:
(i)
(ii)
(iii)
(iv)
f ′ (x)
f ′ (x)
f ′ (x)
f ′ (x)
≥
≤
>
<
0
0
0
0
für
für
für
für
alle
alle
alle
alle
x ∈ (a, b)
x ∈ (a, b)
x ∈ (a, b)
x ∈ (a, b)
⇐⇒
⇐⇒
=⇒
=⇒
f ist auf [a, b] monoton steigend.
f ist auf [a, b] monoton fallend.
f ist auf [a, b] streng monoton steigend.
f ist auf [a, b] streng monoton fallend.
Beweis: Zu (i) , Richtung ’ =⇒ ’: Wäre f auf [a, b] nicht monoton steigend, so hätte man Zahlen
x1 ∈ [a, b] und x2 ∈ (a, b], so dass x1 < x2 und f(x1 ) > f (x2 ). Also wäre auf [x1 , x2 ] die mittlere Steigung
von f negativ. Da für das Intervall [x1 , x2 ] die Voraussetzungen des Mittelwertsatzes erfüllt sind, hätte
man eine Zahl ξ ∈ (x1 , x2 ) ⊂ (a, b) mit
f ′ (ξ) < 0.
Das wirderspricht der Voraussetzung f ′ (x) ≥ 0 für alle x ∈ (a, b).
Richtung ’ =⇒ ’: Wenn f ′ (ξ) = α < 0 für eine Zahl ξ ∈ (a, b), so gilt für hinreichend kleine ∆x > 0 :
f (ξ + ∆x) − f (ξ)
α
≤
< 0, also
∆x
2
f (ξ + ∆x) − f (ξ) < 0,
so dass f nicht monoton steigend auf [a, b] ist.
Zu (ii) braucht man nur zu −f überzugehen und (i) anzuwenden.
3. GRUNDLEGENDE RESULTATE IM ZUSAMMENHANG MIT ABLEITUNGEN
77
Zu (iii) , (iv) kann man völlig analog argumentieren, man beachte aber, dass nur eine Pfeilrichtung
gilt: Es kann durchaus vereinzelt ein Ableitungswert Null vorkommen bei streng monoton steigenden
Funktionen. Ein Beispiel bildet f(x) = x3 . Sie ist streng monoton steigend auf R, aber f ′ (0) = 0.
d
e−2x
ex
ex
Beispiel: dx
ex +e−x = 2 (1+e−2x )2 > 0 für alle x ∈ R, also ist die Funktion f (x) = ex +e−x auf ganz R
streng monoton steigend.
Folgerung 2. Sei a < b. Wenn f und g stetig sind auf [a, b] und differenzierbar auf (a, b) mit
f ′ (x) = g ′ (x) für alle x ∈ [a, b],
dann gilt: f − g ist eine konstante Funktion auf [a, b]. Zwei Stammfunktionen einer Funktion h auf einem
Intervall (deren Ableitungen also h ergeben) unterscheiden sich daher nur um eine Konstante.
Beweis: Man wende (i) , (ii) des vorigen Satzes auf f −g an. Damit ist f −g sowohl monoton steigend
als auch fallend auf [a, b], somit eine Konstante auf [a, b].
Beispiel: F (x) = 12 e2x ist eine Stammfunktion von f (x) = e2x , also gilt für jede andere Stammfunktion F& von f (d.h. F&′ (x) = f (x)): F& (x) = F (x) + c = e2x + c mit einer Konstanten c. Umgekehrt ist
klar, dass man durch Addition einer Konstanten zu einer Stammfunktion von f wieder eine solche erhält.
Folgerung 3 (hinreichende Bedingung für Extrema). Es sei f in einer Umgebung von x0 definiert
und f ′ existiere ebenfalls in einer Umgebung U von x0 . Ferner sei f ′ (x0 ) = 0. Wenn f ′ (x) > 0 für
x < x0 , x ∈ U, und f ′ (x) < 0 für x > x0 , x ∈ U, dann hat f in x0 ein strenges lokales Maximum.
(Entsprechend ist auf ein strenges lokales Minimum in x0 zu schließen, wenn der Vorzeichenwechsel der
Ableitung in umgekehrter Richtung verläuft.)
Beweis: Nach dem vorigen Satz ist f auf einem Intervall [x0 − δ, x0 ] mit einem δ > 0 streng monoton
steigend und auf [x0 , x0 + δ] streng monoton fallend. Also liegt in x0 ein strenges Maximum.
Wir benötigen die folgende Verallgemeinerung des Mittelwertsatzes, um ökonomisch die Regeln von
de L’Hospital beweisen zu können:
Satz 30 (verallgemeinerter Mittelwertsatz von Cauchy). Seien f, g wie in den Voraussetzungen des
Mittelwertsatzes, also mit a < b auf (a, b) differenzierbar und auf [a, b] stetig. Ferner sei g ′ (x) = 0 für
alle x ∈ (a, b). Dann existiert eine Zahl ξ ∈ (a, b), so dass
f (b) − f (a)
f ′ (ξ)
= ′
.
g (b) − g (a)
g (ξ)
Beweis: Zunächst ist mit g ′ (x) = 0 für alle x ∈ (a, b) klar, dass g(a) = g (b) , so dass der Ausdruck auf
der linken Seite jedenfalls sinnvoll ist. Denn mit g (a) = g (b) gäbe es nach dem einfachen Mittelwertsatz
eine Zahl ξ ∈ (a, b), so dass g ′ (ξ) = 0. Nun geht der Beweis gerade so wie beim ersten Mittelwertsatz:
Man bildet
f (b) − f (a)
h (x) = f (x) − f (a) −
(g (x) − g (a)) ,
g (b) − g (a)
so dass also h (a) = h (b) = 0 und h wiederum die Voraussetzungen des Mittelwertsatzes erfüllt. Daher
h′ (ξ) = 0 für ein ξ ∈ (a, b), und das bedeutet klar die Gleichung des Satzes mit ξ.
Daraus kann man die Regeln von de L’Hospital folgern:
′
(x)
(i) Es sei a ∈ R, limx→a+ f (x) = limx→a+ g (x) = 0 und limx→a+ fg′ (x)
= b ∈ R ∪ {−∞, ∞}
(insbesondere g ′ (x) = 0 für x > a, a − x < δ 0 , mit einer Zahl δ 0 > 0). Wir behaupten: Dann existiert
(x)
auch limx→a+ fg(x)
und hat den Wert b. Beweis: Zunächst können wir f und g bis zum Wert a (einseitig
von rechts) stetig fortsetzen mit f (a) = g (a) = 0. Sei x > a − δ 0 . Dann hat man
f (x)
f (x) − f (a)
f ′ (ξ)
=
= ′
mit einem ξ ∈ (a, x),
g (x)
g (x) − g (a)
g (ξ)
da f, g die Voraussetzungen des verallgemeinerten Mittelwertsatzes auf (a, x) und [a, x] erfüllen. Wir
nennen eine solche Zahl ξ zu x deutlicher ξ (x) , denken uns zu jeder Zahl x > a − ε eine solche Zahl ξ (x)
(x)
ausgewählt. Mit der Voraussetzung limx→a+ fg(x)
wissen wir, dass es zu jeder beliebig kleinen Umgebung
U von b eine Zahl δ > 0 gibt mit der Eigenschaft
f ′ (ξ)
|a − ξ| < δ =⇒ ′
∈ U, für alle ξ.
g (ξ)
(∗)
78
4. REELLE FUNKTIONEN
Wir lassen δ stets ≤ δ 0 sein. Mit (∗) folgt sofort für alle x (man beachte, dass mit |a − x| < δ auch
|ξ (x) − a| < δ gilt):
f (x)
f ′ (ξ(x))
= ′
∈ U.
|a − x| < δ =⇒
g (x)
g (ξ(x))
Damit ist die Aussage bewiesen.
′
(x)
(ii) Wir können mit (i) zeigen: Wenn limx→∞ f (x) = limx→∞ g (x) = 0, limx→∞ fg′ (x)
= b, dann gilt
auch limx→∞
f (x)
g(x)
= b. Dazu sehen wir nur ein:
f′ 1
f ′ (x)
b = lim ′
= lim ′ 1u =
x→∞ g (x)
u→0+ g
u
− u12 f ′ u1
u→0+ − 12 g ′ 1
u
u
f u1
= lim (i) u→∞ g 1
u
lim
=
=
d
1
du f u d
1
u→0+
du g u
lim
f (x)
.
x→∞ g (x)
lim
Bemerkung: Es ist klar, dass auf demselben Wege wie (i) , (ii) die entsprechenden Aussagen für
x → a− und x → −∞ zu bekommen sind, ebenso wie die über beidseitige Grenzwerte für x → a.
′
(x)
(x)
= b ∈ R ∪ {∞}, dann limx→a fg(x)
=
(iii) Beh.: Wenn limx→a− f (x) = limx→a− g (x) = ∞, limx→a fg′ (x)
(x)−f (α)
(x)
b. Hier ist es ein wenig unbequemer, vom Ausdruck fg(x)−g(α)
für α < x < a auf den Ausdruck fg(x)
zu
kommen, um dann wieder den verallgemeinerten Mittelwertsatz anwenden zu können. Aber so gelingt es:
Sei β < b, beliebig nahe an b (im Falle b = ∞ also eine beliebig große reelle Zahl). Nach Voraussetzung
haben wir dann eine Zahl α < a, so dass
f ′ (x)
> β.
(1) für alle x ∈ (α, a) : ′
g (x)
Wegen Wenn limx→a− f (x) = limx→a− g (x) = ∞ können wir α zugleich so groß wählen, dass stets
f (x) , g (x) = 0 für x ∈ (α, a) . Nun haben wir nach dem erweiterten Mittelwertsatz:
(2) Für alle x ∈ (α, a) existiert ein ξ ∈ (α, x) , so dass
f (x) − f (α)
f ′ (ξ)
=
> β (Ungleichung wegen (1) ).
g (x) − g (α)
g′ (ξ)
Wir formen dies etwas um (dafür wollten wir f (x) , g (x) = 0) zu:
f (x) 1 − ff (α)
(x)
f (x) − f (α)
, also mit (2)
=
g (x) − g (α)
g (x) 1 − g(α)
g(x)
f (x)
g (x)
=
f ′ (ξ) 1 −
·
g ′ (ξ) 1 −
g(α)
g(x)
f (α)
f (x)
.
Wir haben mit limx→a− f (x) = limx→a− g (x) = ∞ auch
lim
x→a−
1−
1−
g(α)
g(x)
f (α)
f (x)
= 1,
also gibt es für alle ε1 > 0 eine Zahl α1 > α, α1 < a, so dass
∀x ∈ (α1 , a)
1−
1−
g(α)
g(x)
f (α)
f (x)
> 1 − ε1 .
Das ergibt zusammen mit (2) und der Umformung:
(3) ∀ε1 > 0∃α1 < a∀x ∈ (α1 , a) ∃ξ ∈ (α, a)
g(α)
f (x)
f ′ (ξ) 1 − g(x)
= ′
·
> β (1 − ε1 ) .
g (x)
g (ξ) 1 − f (α)
f (x)
Wählen wir zu beliebig vorgegebener Zahl ε > 0 nunmehr ε1 <
(4) ∀β < b∀ε > 0∃α1 < a∀x ∈ (α1 , a)
|β|
ε ,
so haben wir:
f (x)
> β − ε.
g (x)
4. DAS EINDIMENSIONALE INTEGRAL
79
Für den Fall b = ∞ folgt mit (4) sofort die gewünschte Aussage. Für b ∈ R folgt sie mit (4) zusammen
mit folgender Aussage:
f (x)
(5) ∀ε > 0∃α1 < a∀x ∈ (α1 , a)
< b + ε.
g (x)
Diese gewinnen wir völlig analog zu (4) , indem wir aus der Bedingung
lim
x→a−
1−
1−
g(α)
g(x)
f(α)
f (x)
=1
herausziehen, dass
∀ε1 > 0∃α1 < a∀x ∈ (α1 , α)
Weiter können wir mit limx→a−
f ′ (x)
g ′ (x)
1−
1−
g(α)
g(x)
f (α)
f (x)
< 1 + ε1 .
= b auch α1 dabei so wählen, dass
∀x ∈ (α1 , a)
f ′ (x)
< b + ε1 .
g ′ (x)
Das ergibt
∀ε1 > 0∃α1 < a∀x ∈ (α1 , a) ∃ξ ∈ (α, a)
f (x)
f ′ (ξ) 1 −
= ′
g (x)
g (ξ) 1 −
g(α)
g(x)
f (α)
f(x)
< (b + ε1 ) (1 + ε1 ) .
Nun ist (b + ε1 ) (1 + ε1 ) = b + (b + 1) ε1 +ε21 , und zubeliebigem ε > 0 finden wir sicher ε1 > 0, so dass
ε
(b + 1) ε1 + ε21 < ε. Wähle etwa ε1 < min 2|b+1|
, 2ε , 1 . Somit haben wir (5) durch Anwendung von (6)
auf ε1 wie gerade zu ε bestimmt.
4. Das eindimensionale Integral
Leitfaden:
Existenz und Berechnungsgrundlage (Hauptsatz):
b
∫a f(x)dx = F(b) - F(a) (F eine Stammfunktion von f, d.h. F'=f )
b
∫a f(x)dx = Flächeninhalt zwischen dem Graphen von f
und der x - Achse mit Orientierungsvorzeichen (von a bis b)
Zusammenhang mit dem Mittelwert :
b
Mittelwert von f auf [a,b] = 1/(b-a) ⋅ ∫a f(x)dx
Integralkalkül:
Grundintegrale und Integrationsregeln
Numerische
Berechnung
von Integralen
Standard - Anwendungen von Integralen:Massen und
Ladungen bei inhomogenen Verteilungen von ihnen,
Längen, Flächeninhalte, Volumina (Rotationskörper),
Wahrscheinlichkeiten, Erwartungswerte, Streuungen,
Schluss von x'(t) und x(t0) auf x(t)
80
4. REELLE FUNKTIONEN
Grundbegriffe:
'b
'
Bestimmtes Integral a f (x) dx ∈ R und unbestimmtes Integal f (x) dx = F (x) + c, F ′ = f,
'∞
'a
'b
Uneigentliche Integrale wie a f (x) dx, −∞ f (x) dx, auch a f (x) dx mit Pol a oder b von f,
'b→
→
Mittelwert von f auf [a, b], Verallgemeinerung auf Kurven −
x (t) : a −
x (t) dt ist komponentenweise zu bilden
nichtkonstante Dichtefunktionen (Massendichte, Ladungsdichte, Wahrscheinlichkeitsdichte)
und Resultat der Integration darüber auf [a, b] : Masse, Ladung, Wahrscheinlichkeit
Grundresultate:
Hauptsatz: Wenn f auf [a, b] stetig ist, so existiert eine Stammfunktion F von f auf [a, b], es
't
't
existieren alle Integrale a f (x) dx für t ∈ [a, b], und F (t) := a f (x) dx ist eine Stammfunktion
'b
von f, und für jede Stammfunktion F von f gilt: a f (x) dx = F (b) − F (a)
Monotonie des Integrals:
'b
'b
Wenn f ≤ g auf [a, b], dann a f (x) dx ≤ a g (x) dx.
Mittelwertsatz der Integralrechnung:
Wenn f, g stetig auf [a, b] und g ≥ 0 auf [a, b], dann gibt es eine Zahl ξ ∈ (a, b) , so dass
'b
'b
'b
f (x) g (x) dx = f (ξ) a g (x) dx. Für g = 1 konstant ergibt das speziell a f (x) dx = f (ξ) (b − a) .
a
Differenzieren unter dem Integralzeichen:
d
Wenn f (x, y) stetig ist auf dem Rechteck [a, b] × [c, d] und auch dy
f (x, y) auf diesem Rechteck stetig ist,
'b
'b
'b d
d
dann ist die Funktion g (y) := a f (x, y) dx ableitbar, und es gilt dy a f (x, y) dx = a dy
f (x, y) dx.
Grundintegrale: Die beliebige zu addierende Konstante ’+c’ ist weggelassen:
(
xα+1
xα dx =
, für α = −1
α+1
(
1
dx = ln |x|
x
(
1
dx = arctan (x)
( 1 + x2
(
(
(
ex dx = ex
ln (x) dx = x ln (x) − x
sin (x) dx = − cos (x)
cos (x) dx = sin (x)
( 1 1 − x2 dx = x 1 − x2 +
2
( 1
1 + x2 dx = x 1 + x2 +
2
1
arcsin (x)
2
1
arcsinh (x)
2
4. DAS EINDIMENSIONALE INTEGRAL
Regeln für bestimmte Integrale und Definition uneigentlicher Integrale:
Schema zur Berechnung eines bestimmten Integrals, wenn eine Stammfunktion
'b
F zu f angebbar ist: a f (x) dx = [F (x)]ba = F (b) − F (a)
'b
'a
f (x) dx = − b f (x) (Orientierung)
'ab
'c
'c
f (x) dx + b f (x) dx = a f (x) dx (Additivität bezüglich der Grenzen)
a
'∞
't
f (x) dx := limt→∞ a f (x) dx (falls dieser Limes existiert), analog:
'ab
'b
f (x) dx := limt→−∞ −∞ f (x) dx (falls dieser Limes existiert).
−∞
'b
't
a f (x) dx := limt→b− a f (x) dx (falls f in b einen Pol hat und dieser Limes existiert)
Integralkalkül
'
'
'
' (f + g) =
' f+ g
Linearität des Integrals - für bestimmte und unbestimmte Integrale
' αf = α f '(α Konstante)
F g = F G − f G (partielle Integration, für bestimmte und unbestimmte Integrale)
1
’-Regel, (α Konstante, α = 0, β Konstante):
’
α
(
1
f (αx + β) dx = F (αx + β) (F eine Stammfunktion von f)
α
Umkehrung
der Kettenregel:
'
′
dxf
(x)
g
(f
(x)) = G
'
' (f (x)) , G eine Stammfunktion von g, formuliert als Substitutionsregel:
dxf ′ (x) g (f (x)) = dug(u) = G (u) =∗ G (f (x)) (∗ ) : Rückeinsetzung von f (x) für u).
u = f (x)
Einsetzungsschema dazu:
du = f ′ (x) dx
Dasselbe für bestimmte Integrale formuliert:
'b
' f (b)
dxf ′ (x) g (f (x)) = f (a) dug (u) = [G (u)]ba = G (b) − G (a) (Kein ’Rückeinsetzen’ !)
a
Eigentliche
Substitution
(Ableitungsfaktor fehlt!):
'
'
dxg (f (x)) = duh′ (u) g(f (h (u))) = K (u) = K h−1 (x) (∗ ) : Rückeinsetzen;)
x = h (u)
Einsetzungsschema dazu:
(das zweite Integral sollte einfacher sein!)
dx = h′ (u) du
81
82
4. REELLE FUNKTIONEN
Typische Beispiele zur Berechnung von Stammfunktionen:
(
2/3
1
1 (2x + 5)
3
2/3
√
1.
(Grundintegral und 1/α− Regel)
dx
=
·
= (2x + 5)
3
2
2/3
4
2x + 5
Partielle
Integration: '
'
−x
2. xe(−x dx = −xe−x − −e−x dx = −xe
− e−x (typisches Beispiel, F (x) = x, g((x) = e−x )
(
1


x ln (x) dx = x (x ln (x) − x) − (x ln (x) − x) dx = x2 ln (x) − x2 + x2 − x ln (x) dx, also
2
(
3.
1
1


x ln (x) dx = x2 ln (x) − x2 (partielle Integration, mit typischem ’Hinüberbringen’)
2
4
Umformungen
und Umkehrung
der Kettenregel:
(
 (
1
1


sin (x) cos (x) dx = udu = u2 = sin2 (x) (Umkehrung Kettenregel, u = sin (x))


2
2

(
 (
1
1
1 1
1
1
sin (x) cos (x) dx =
sin (2x) dx = − cos (2x) = − cos2 (x) + sin2 (x) = − + sin2 (x)
4.
2
4
4
4
4 2




Man beachte, dass sich - korrekt - beide Resultate nur um eine additive Konstante unterscheiden.


Partielle Integration ginge auch, ist aber typisch ungünstiger in solchen Fällen.
(
 (
1
1
1
2


(1 − cos (2x)) dx = x − sin (2x) , analog für cos2 :
sin (x) dx =

 (
2
2
4
(
1
1
1
5.
2
(x)
dx
=
(1 + cos (2x)) dx = x + sin (2x)
cos


2
2
4


(Typische günstige Anwendungen der Additionstheoreme zur Umformung von trig. Integranden)
Integration
gebrochen rationaler
Funktionen
 (
mittels Partialbruchzerlegung:
( x
2
1


dx =
−
dx = 2 ln |x − 2| − ln |x − 1|

( x − 2 x − 1
( (x − 1) (x − 2)
6.
1/2
1 1−x
1
1
1 x


dx =
+
dx = ln |x − 1| + arctan (x) − ln 1 + x2

2
2
(x − 1) (x + 1)
x−1 2x +1
2
2
4
Umkehrung
(
 ( der Kettenregel:
3/2
1
1 2

2

x 1 − x dx = −
, ausgeführt als Substitution:
2x 1 − x2 dx = − ·
1 − x2
2
2
3
( (
(
7.
3/2
√
1
1
1
1


x 1 − x2 dx = −
udu = − u3/2 = − 1 − x2
2x 1 − x2 dx = −
2
2
3
3
 (
(
(
2
2
√
1
1√
1
x
+
x
1
(u
+
1)
/2
+
((u
+
1)
/2)
1
1

3/2

√
√
dx =
u+ √ + u +
u+ √
du =
du


2
u
4
4 u 8
4
8 u
2x − 1
8.
3√
1
1
3√
1
1

= u3/2 +
u + u5/2 = (2x − 1)3/2 +
2x − 1 +
(2x − 1)5/2


3
4
20
3
4
20

(Wir führten die Substitution u = 2x − 1 aus, um den Integranden wesentich zu vereinfachen.)
Eigentliche
Substitution:
(
 ( 
2

1 + x dx = cosh2 (u) du, mit x = sinh (u) , dx = cosh (u) du, nun weiter

 (
(
1
1
1
1
1
9.
2
cosh
(u)
du
=
(cosh (0) + cosh (2u)) du = u + sinh (2u) = u + sinh (u) cosh (u) ,


2
2
4
2
2

√
'√

also insgesamt
1 + x2 dx = 12 arcsinh (x) + 12 x 1 + x2 (Additionstheoreme für sinh, cosh!)
(
 (
1
2
1
2
2t


dx
=
dt
·
, mit t = tan (x/2) , dx =
dt, sin (x) =
,

2t
2
2

1 + sin (x)
1 + t 1 + 1+t2
1+t
1 + t2



1 − t2
10.
dazu
noch
was
wir
hier
nicht
brauchen:
cos
(x)
=
(raffinierte Standard-Substitution!),

1 + t2
(
(



1
2
2
2


dx = dt
=−
=−
 also
1 + sin (x)
1+t
1 + tan (t/2)
(1 + t)2
4. DAS EINDIMENSIONALE INTEGRAL
83
Typische Anwendungen des Integrals:
(
1 π
2
1. Mittelwert von f (x) = sin (x) auf [0, π] : m =
sin (x) dx =
π 0
π
Flächeninhalt der Fläche, die von den Graphen von f (x) = x und g (x) = ex
'2
2.
eingeschlossen wird im Bereich [0, 2] : F = 0 (ex − x) dx = e2 − 3

 Volumen des Kegels, der als Rotationskörper entsteht, wenn man die
Gerade y = mx im Bereich [0, h] um die x − Achse rotieren lässt:
3.
'2
*
+h

V = 0 πm2 x2 dx = πm2 13 x3 0 = 13 πm2 h3

Masse eines Zylinders der Höhe h, bei inhomogener Massendichte




1


an der Stelle x (x − Wert des betreffenden
ρ (x) = √


x+1

Achsenpunktes, die Zylinderachse liegt auf der x − Achse im Bereich [0, h]) 4.


Einheit
von ρ: kg pro Längeneinheit:


( h

√

1


√
dx = 2 h + 1 − 2 (Einheit: kg)
 M=
x+1
0
5.



































































Gegeben ist die Wahrscheinlichkeitsdichte f (t) = λe−λt auf [0, ∞), λ > 0 Konstante.
Sei T eine mit
( dieser Dichte verteilte Zufallsgröße, dann hat man
a
P (T ≤ a) =
0
λe−λt dt = 1 − e−λa . Dabei ist P (T ≤ a) die Wahrscheinlichkeit dafür, dass der
Wert von T im Bereich [0, a] liegt, für alle a ≥ 0.
Der Erwartungswert
von T ist dann definitionsgemäß
( ∞
1
tλe−λt dt = .
E (T ) =
λ
0
1
Der Median von T ist dann definitionsgemäß die Zahl m, für die gilt: P (T ≤ m) = ,
2
1
ln 2
also ist der Median die Lösung m von 1 − e−λm = , und das ist m =
.
2
λ
Der Median ist wegen der Asymmetrie der (fallenden) Verteilung kleiner als der Erwartungswert!
Die Varianz
( ∞von T ist definitionsgemäß
1
1
σ2 (T ) =
t2 λe−λt dt = 2 . Die Streuung ist dann σ (T ) = , Wurzel
λ
λ
0
der Varianz. (’Standardabweichung’ ist nicht dasselbe, sondern nur ein empirischer Schätzwert für σ.)
Bemerkung: T ist nichts anderes als die Variable: Zeitspanne, in der ein radioaktives Teilchen
zerfällt, für eine Teilchenart, bei der λ Zerfälle pro Zeiteinheit zu erwarten sind.
E (T ) ist dann die mittlere ’Überlebenszeit’ eines Teilchens, der Median ist die Halbwertszeit.


















Wir nehmen
bewege sich zu jeder Zeit t mit der Momentangeschwindigkeit
an, ein Teilchen
cos (t)
1
−
→
−
→
−
→
v (t) =
und sei zur Zeit t0 = 0 am Ort x 0 = x (0) =
.
1 + sin (t)
1
−
→
Wir wollen den Ort x (t) zu jeder Zeit t wissen:
(t 't−
1
cos (s)
1 + sin (t)
−
→
−
→
→
6.
x (t) = x (0) + 0 v (s) ds =
+
ds =
.
1
1 + sin (s)
2 + t − cos (t)



0



Zu einer geradlinig gleichförmigen Bewegung kommt noch ein Kreisen entgegen dem Uhrzeigersinn.




Man beachte, dass die bestimmte Integration das Lösen von Gleichungen erspart.




Für die Berechnung des Ortes aus der Momentanbeschleunigung benötigt man zwei Integrationsschritte



und dazu zwei Vorgaben: Anfangsort und Anfangsgeschwindigkeit. Der Anfangszeitpunkt t0 ist beliebig.

Die Länge des Graphen der Parabel y = x2 im Bereich [0, 2] ist:


,
-2
( 2

√
√ 1
1
1 7.
L=
1 + 4x2 dx =
(2x) 1 + 4x2 + arcsinh (2x) = 17 + ln 4 + 17

4
4
4

0
0

Bemerkung: Es ist nicht typisch, dass man Bogenlängen geschlossen ausrechnen kann.
84
4. REELLE FUNKTIONEN
4.1. Einstieg: Das Problem des Mittelwertes einer Funktion. Es sei eine stetige Funktion f
auf dem Intervall [a, b] gegeben, a < b. Was sollte man unter dem Mittelwert von f auf [a, b] verstehen,
und wozu wäre ein solcher Mittelwert gut?
Bezeichnung: f [a,b] := Mittelwert von f auf [a, b]
Dazu drei Beispiele:
1.) Ein Schwingungsvorgang ist beschrieben mit f(t) = 2 + sin (t) . Was ist der Mittelwert von f auf
[0, 2π]? Betrachten wir das graphisch:
3
2.8
2.6
F1
2.4
2.2
2
1.8
F
1.6
2
1.4
1.2
1
0
π/2
π
3π/2
2π
Offenbar schwingt die Funktion um den Mittelwert f [0,2π] = 2, dessen Höhe rot markiert ist. Diese Höhe
ist daran zu erkennen, dass die Fläche F1 oberhalb des Mittelwertes, welche vom Graphen von f und dem
Graphen der konstanten Funktion (rot) eingeschlossen wird, gleich der Fläche F2 unterhalb Mittelwertes
ist.
Unmittelbar stellt sich die Frage nach einem solchen Mittelwert, wenn man die mittlere Leistung
eines Wechselstroms wissen möchte.
2.) Ein Teilchen bewege sich auf der x− Achse. Es sei für jeden Zeitpunkt t die Geschwindigkeit
v (t) bekannt, für t ∈ [0, 2], und zwar sei v (t) = 1 − t2 . Der Ort zur Zeit t = 0 sei x (0) = 0. Positive
Geschwindigkeit bedeutet Bewegung nach rechts auf der x− Achse, negative Geschwindigkeit Bewegung
nach links. Was man wissen möchte, ist natürlich der Ort x (t) zur Zeit t für alle t ∈ [0, 2]. Betrachten
wir den Spezialfall t = 2. Dann ist klar: x (2) = x (0) + v [0,2] · 2. Allgemein für t ∈ [0, 2]: x (t) =
x (0) + v[0,t] · t. Also: Ort zur Zeit t minus Ort zur Zeit 0 gleich mittlere Geschwindigkeit im Zeitintervall
[0, t] mal t (Zeitdifferenz!). Wir betrachten auch hier graphisch die Geschwindigkeitsfunktion v (t) und
4. DAS EINDIMENSIONALE INTEGRAL
85
ihren Mittelwert v[0,t] speziell im Intervall [0, 2]:
v(t)
1
0.5
Graph von v
F1
0
-0.5
-1
Mittelwert von v auf [0,2]
F
2
-1.5
-2
-2.5
-3
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
t
Wieder sind die Flächen F1 und F2 gleich, und genau daran ist der Mittelwert zu erkennen. Dieser negative
Mittelwert führt dazu, dass x (2) < 0. Wir zeigen im nächsten Bild die Funktion x (t) , 0 ≤ t ≤ 2.
x(t)
0.8
0.6
0.4
Graph der Ortsfunktion x(t)
0.2
0
-0.2
-0.4
-0.6
-0.8
Ortsfunktion bei konstant eingehaltener
mittlerer Geschwindigkeit
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
t
Die blaue Kurve zeigt den Verlauf der Ortsfunktion x (t) , die rote Gerade ist der Graph von y (t) =
x (0)+v [0,2] t , wobei im Bild vm für steht. Sie zeigt die Ortsfunktion, welche man bei konstant eingehaltener
mittlerer Geschwindigkeit v[0,2] bekäme. Man erkennt, dass x (t) ab t = 1 fällt: Bis t = 1 ist v (t) positiv,
ab t = 1 negativ. Aus dem Zusammenhang x′ (t) = v (t) können wir Folgendes entnehmen:
x (2) − x (0)
2−0
=
mittlere Geschwindigkeit von v auf [0, 2] = v[0,2] . Also:
(1)
=
1
(V (2) − V (0)), mit einer Funktion V, so dass V ′ = v.
2−0
v[0,2]
Solch eine Funktion V heißt Stammfunktion von v. Ferner hat sicher v (t)−v (v kurz für v[0,2] ) Mittelwert
Null, das heißt: der Flächeninhalt, den der Graph dieser Funktion mit der x− Achse oberhalb der Achse
86
4. REELLE FUNKTIONEN
einschließt, ist gleich dem eingeschlossenen Flächeninhalt, der unterhalb der Achse liegt. Die Differenz
dieser Flächeninhalte ist aber gerade der Wert des bestimmten Integrals über diese Funktion, also:
(
( 2
( 2
( 2
(v (t) − v)dt =
v (t) dt −
vdt =
v (t) dt − 2v. Daher
0
0
0
0
(
1 2
v (t) dt. Zusammen mit (1) :
2 0
0 =
v
(2)
(3)
(
0
=
2
2
v (t) dt = (V (2) − V (0)) .
Damit ist im Beispiel die Verbindung zwischen Stammfunktion V von v und bestimmtem Integral über
v hergestellt, wie sie im ’Hauptsatz der Differential- und Integralrechnung’ allgemein ausgesprochen und
bewiesen wird. Aber ein inhaltliches Verständnis dieser äußerlich überraschenden Tatsache haben wir
damit schon jetzt.
3.) Wir führen ein typisches Generalbeispiel für die Anwendung von Mittelwert und Integral von
Funktionen aus: Eine Größe besitze auf einem Intervall [a, b] eine ’Dichte’, zum Beispiel: Elektrische
Ladung, dann spricht man von ’Ladungsdichte’, oder Massendichte, d.h. Masse pro Längeneinheit, oder
’Wahrscheinlichkeitsdichte’, d.h. Wahrscheinlichkeit pro Längeneinheit. Man denke auch an Bevölkerungsdichte
(Anzahl der Individuen pro Längeneinheit). Das letzte Beispiel zeigt bereits deutlich, dass man den Begriff
der Dichte nicht nur auf eindimensionalen Punktmengen hat, sondern häufiger nich auf mehrdimensionalen Punktmengen. Dies wird eine wichtige Motivation für mehrdimensionale oder Mehrfachintegrale
bilden. Wichtig ist, dass eine solche Dichte sich kontinuierlich ändern kann. Schreiben wir also ρ (x) allgemein für ’Dichte an der Stelle x ∈ [a, b]’, später dann auch ρ (x) für ’Dichte am Ort x’, der durch einen
Ortsvektor x beschrieben ist. Dann hat man folgende allgemeine Beziehung:
(
b
ρ (x) dx = Gesamtmasse auf [a, b],
a
im Falle der Ladungsdichte ist das die Ladung, im Falle der Massendichte die Masse, im Falle der
Wahrscheinlichkeitsdichte die Wahrscheinlichkeit, welche auf das Intervall [a, b] entfällt. Wir beobachten
in diesem Zusammenhang erneut die Beziehung zwischen Integral und Mittelwert: Sicher ist auch
ρ[a,b] · (b − a) = Gesamtmasse auf [a, b]. Also wiederum
( b
ρ (x) dx = ρ[a,b] · (b − a) .
a
Allgemeiner tritt an die Stelle der Länge b − a des Intervalls [a, b] das (zur jeweiligen Raumdimension
gehörige) n− dimensionale Volumen eines n− dimensionalen Bereichs, zugleich wird aus dem Intergal ein
Volumenintegral über diesen Bereich.
Wir halten noch einmal die anschauliche Deutung des bestimmten Integrals fest (zur Existenzfrage s.u.):
Das bestimmte Integral
(
b
a
f (x) dx gibt für a < b den Flächeninhalt zwischen x − Achse und
dem Graphen von f mit Orientierungsvorzeichen, also werden Flächen oberhalb der x − Achse
dabei positiv gezählt, Flächen unterhalb der x − Achse negativ.
( b
( a
Für a > b definiert man dementsprechend :
f (x) dx := −
f (x) dx.
a
b
Aus dieser anschaulichen Deutung ergeben sich sofort folgende Rechenregeln, die man auch mittels der
nachfolgenden Limites von Riemann-Summen bekommt.
4.2. Grundlegende Rechenregeln für das bestimmte Integral.
4. DAS EINDIMENSIONALE INTEGRAL
87
Satz 31. Das Integral ist linear, d.h.
(
(i)
(
b
(f (x) + g (x)) dx =
a
(
(ii)
b
f (x) dx +
a
b
cf (x) dx = c
a
(
(
b
g (x) dx
a
b
f (x) dx.
a
Das Integral ist additiv bezüglich der Grenzen:
(
(iii)
b
f (x) dx +
a
(
c
f (x) dx =
b
(
c
f (x) dx.
a
Das Integral ist monoton:
(iv) Wenn f (x) ≤ g (x) auf [a, b], a < b, so
(
a
b
f (x) dx ≤
(
b
g (x) dx.
a
Aus der Monotonieeigenschaft gewinnt man noch eine praktische Abschätzung: Wenn f auf [a, b] ein
absolutes Minimum fmin und ein absolutes Maximum fmax hat (bei stetigem f ist das z.B. der Fall),
dann
( b
fmin · (b − a) ≤
f (x) dx ≤ fmax · (b − a) , wenn a < b.
a
(Die Vorzeichen kehren sich um, wenn a > b.)
4.3. Näherung von bestimmtem Integral und Mittelwert. Man hat folgende naheliegende
'b
Näherung für a f(x)dx. Wir setzen dabei f als stetig voraus, so dass die Existenz des Intergals und
des Mittelwertes gewährleistet ist (vgl. den nächsten Abschnitt). Das Intervall [a, b] wird in Teilintervalle
zerlegt durch Zwischenpunkte a0 = a, a0 < a1 < ...an = b. Aus jedem der n Teilintervalle [ai , ai+1 ] wählt
man eine beliebige Zahl xi aus. Dann hat man für genügend kleine Abstände ∆xi := ai − ai−1 , 1 ≤ i ≤ n,
sicher eine gute Näherung:
(
b
f (x) dx ≈
a
n
f (xi ) ∆xi (’Riemannsche Summe’)
i=1
Diese ’Riemannschen Summen’ erklären auch, wie Leibniz auf seine heute noch übliche Integralnotation
kam: Das Integralzeichen ist ein stilisiertes Summenzeichen, und ’dx’ steht dafür, dass man die maximale
Intervallbreite gegen Null gehen lässt.
Analog bekommt man eine naheliegende Näherung des Mittelwertes von f auf [a, b]:
n
f [a,b] ≈
1
f (xi ) .
n i=1
Diese liegt für sich genommen nahe: Man bildet xi auf der x− Achse, deren Abstände klein sind , x1 nahe
bei a und xn nahe bei b, und bildet das arithmetische Mittel von deren Funktionswerten. Diese Näherung
des Mittelwertes ergibt sich auch sofort aus der vorigen Näherung des Integrals, indem man ∆xi = b−a
n
setzt, also in gleich breite Streifen unterteilt. Denn damit hat man
f [a,b] =
1
b−a
(
a
n
b
f (x) dx ≈
n
1 b−a
1
f (xi )
=
f (xi ) .
b − a i=1
n
n i=1
88
4. REELLE FUNKTIONEN
Wir schauen die Näherung des Integrals durch eine Riemannsumme in zwei graphischen Beispielen an,
mit einer gröberen und einer feineren Zerlegung:
1
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
0
1
2
3
4
5
6
0
1
2
3
4
5
6
1
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
Man bemerkt sofort, dass die zweite Näherung des Integrals durch die (mit richtigem Vorzeichen versehenen) Rechteckflächen bereits sehr genau ist. In beiden Fällen wurde xi = 12 (ai−1 + ai ) gewählt. Aber
bei der feinen Einteilung kommt es darauf schon kaum mehr an. Der Fehler bei der Integralberechnung
liegt im Beispiel unter 2 · 10−16 (!)
4.4. Genauer Begriff des Riemannschen Integrals und Existenzfrage. Dieser Begriff ist
'b
recht kompliziert, aber naheliegend. Sagen wir es anschaulich: Das Integral a f (x) dx existiert genau
n
.
dann, wenn die Riemannsummen
f (xi ) ∆xi eindeutig gegen einen endlichen Grenzwert konvergieren,
i=1
so dass diese als Näherungen einen Sinn machen. Die Komplikation besteht darin, dass es sich nicht
einfach um Folgenglieder an handelt, die nur von n abhängen. Das macht die Komplikation, die genaue
Definition kann man so geben:
4. DAS EINDIMENSIONALE INTEGRAL
89
Definition 21. Unter einer Zerlegung (für das Intervall [a, b] mit a < b versteht man eine Folge
Z
xi
= (a0 , ..., an ; x1 , ..., xn ) mit a = a0 < a1 < ... < an = b,
∈ [ai−1 , ai ] für 1 ≤ i ≤ n (’Zwischenpunkte’).
Die maximale Streifenbreite von Z ist
max (ai+1 − ai ) .
1≤i≤n
Die Riemannsumme der Funktion f auf [a, b] zu Z lautet
R (Z, f) :=
n
i=1
f (xi ) (ai+1 − ai ) .
'b
Das Integral a f (x) dx existiert im Riemannschen Sinne genau dann, wenn es für alle ε > 0 eine
maximale Streifenbreite ∆ (ε) gibt, so dass für alle Zerlegungen Z1 , Z2 mit maximaler Streifenbreite ≤
∆ (ε) gilt:
|R (Z1 , f) − R (Z2 , f )| < ε.
Dann ist der Wert des Integrals so definiert: Sei (Zn )n eine beliebige Folge von Zerlegungen, deren
maximale Streifenbreiten ∆n eine Nullfolge bilden. Dann ist
(
a
b
f (x) dx := lim R (Zn , f) .
n→∞
Zum Verständnis: Der Wert der Riemannsummen darf also bei Riemann-Integrierbarkeit von f nicht
wesentlich von der Art der Zerlegung abhängen (ob gleichbreite Intervalle oder nicht, Auswahl der xi ),
sondern nur von der maximalen Streifenbreite. Ist diese ≤ ∆ (ε) , so unterscheiden sich alle Riemannsummen nur um weniger als ε. Auf diese Weise kann man eine Folge von Zerlegungen (Zn )n angeben, die
immer feiner wird, so dass die Zahlenfolge R (Zn , f) eine Cauchyfolge ist. Deren Grenzwert ist dann das
'b
Integral a f (x) dx. Die Bedingung besagt gerade, dass der Grenzwert nicht von der Art der Zerlegungsfolge abhängt, also immer dasselbe Resultat liefert.
Man hat folgenden Satz:
Satz 32. Wenn f stetig ist auf [a, b], so existiert das Riemann-Integral
'b
a
f (x) dx.
Beweis: Wir wissen, dass stetiges f auf [a, b] sogar gleichmäßig stetig ist, d.h.
|f (x) − f (y)| < ε, wenn |x − y| < δ (ε) , für x, y ∈ [a, b].
Wenn nun Z1 , Z2 Zerlegungen sind mit maximaler Streifenbreite ∆ = δ (ε) , dann gilt:
m
n
|R (Z1 , f) − R (Z2 , f)| = f (xi ) (ai+1 − ai ) −
f (yj ) (bj+1 − bj )
i=1
j=1
90
4. REELLE FUNKTIONEN
Wir wählen eine gemeinsame Verfeinerung Z von Z1 , Z2 , also Z = (c0 , ...cr , u1 , ...ur ), r ≥ m, n, so dass
ai = cki für ein ki und ebenso bj = clj für ein i gilt, für alle i, 0 ≤ i ≤ r. Dann gilt:
|R (Z, f ) − R (Z2 , f )| =
=
≤
=
<
r
n
f (uk ) (ck+1 − ck ) −
f (xi ) (ai+1 − ai )
i=1
k=1
n
n
f
(u
)
(c
−
c
)
−
f
(x
)
(a
−
a
)
k
k+1
k
i
i+1
i i=1 ki ≤k<ki+1
i=1
n (f
(u
)
(c
−
c
)
−
f
(x
)
(c
−
c
))
k
k+1
k
i
k+1
k i=1 ki ≤k<ki+1
n (c
−
c
)
(f
(u
)
−
f
(x
))
k+1
k
k
i i=1 ki ≤k<ki+1
n
i=1
(ai+1 − ai ) ε = (b − a) ε.
Für das letzte Ungleichheitszeichen wurde |f (uk ) − f (xi )| < ε benutzt. Das gilt, weil |uk − xi | < δ (ε) .
Dieselbe Abschätzung gilt auch für |R (Z, f) − R (Z2 , f)| . Also
|R (Z1 , f ) − R (Z2 , f )| = |R (Z1 , f ) − R (Z, f ) + R (Z, f ) − R (Z2 , f )|
≤ |R (Z1 , f ) − R (Z, f )| + |R (Z, f) − R (Z2 , f)|
< 2 (b − a) ε.
Wir sind fertig mit dem üblichen Argument, dass man nicht ’< ε’ zeigen muss, sondern ’< cε’ mit einer
Konstanten c genügt.
Nun ist Stetigkeit zwar hinreichend. aber keineswegs notwendig für Riemann-Integrierbarkeit auf
einem Intervall. Wir wollen und merken, dass ohne weiteres stückweise Stetigkeit (also mit endlichen
Sprüngen an den Grenzen von endlich vielen Teilintervallen) ohne Weiteres genügt. Es gilt sogar folgender
bemerkenswerte Satz: Wenn f auf [a, b] beschränkt ist und die Menge ihrer Unstetigkeitspunkte vom
Maße Null ist (d.h. diese Menge enthält kein Intervall - insbesondere ist eine endliche oder auch abzählbar
unendliche Menge vom Maße Null), dann ist f Riemann-integrierbar. Z.B. hat die Funktion f (x) = sin x1
für x > 0, f (x) = 0 für x = 0 nur einen Unstetigkeitspunkt, und die Werte liegen zwischen −1 und
'1
1. Also existiert nach diesem Satz 0 sin x1 dx. Dagegen ist die Funktion f (x) = 1 für rationale x,
f (x) = 0 für irrationale x, nicht Riemann-integrierbar. (Sie ist offenbar zwar beschränkt, aber überall
unstetig. Die Menge ihrer Unstetigkeitsstellen ist demnach [0, 1] und vom Maße 1.) Denn man hat klar
beliebig feine Zerlegungen, die auf [0, 1] zu Riemannsummen mit Wert 1 führen, und auch solche, die zu
Riemannsummen mit Wert Null führen, je nach dem, ob man alle Zwischenpunkte rational oder irrational
wählt.
4.5. Hauptsatz (Integral und Stammfunktion), Mittelwertsätze. Der folgende Satz stellt
den bereits oben beispielhaft genannten Zusammenhang her und bildet die Grundlage des exakten Ausrechnens (so weit möglich) von Integralen.
Definition 22. F heißt Stammfunktion von f auf [a, b], wenn F ′ (x) = f (x) auf [a, b] (an den
Rändern als einseitige Ableitungen).
Wir wissen vom Ableiten, dass mit F (x) auch F (x) + c (c Konstante) eine Stammfunktion von f ist,
und aus dem Mittelwertsatz erfuhren wir, dass sich zwei Stammfunktionen von f nur um eine Konstante
unterscheiden, dass also mit F (x) + c die Schar aller Stammfunktionen von f gegeben ist.
4. DAS EINDIMENSIONALE INTEGRAL
91
Satz 33 (Hauptsatz der Differential- und Integralrechnung). Es sei f auf [a, b] stetig. Dann gilt für
alle x ∈ [a, b]:
( x
(i)
F (x) : =
f (t) dt ist eine Stammfunktion von f auf [a, b].
a
( x
f (t) dt = F1 (x) − F1 (a) für jede Stammfunktion F1 von f.
(ii)
a
'x
Beweis: Zu (i) rechnen wir die Ableitung der Funktion F (x) := a f (t) dt nach. Zunächst ist die
Funktion F (als Funktion der oberen Intergationsgrenze!) eindeutig definiert, da nach dem Satz über die
Riemann-Integrierbarkeit der stetigen Funktionen das Integral für alle diese oberen Grenzen eindeutig
existiert. Zu zeigen ist:
F (x0 + ∆x) − F (x0 )
= f (x0 ) für x0 ∈ [a, b].
∆x
Für x0 = a ist der Limes nur für ∆x > 0 zu bilden, analog für x0 = b nur für ∆x < 0. Wir haben
( x0 +∆x
F (x0 + ∆x) − F (x0 ) =
f (t) dt.
lim
∆x→0
x0
Sei nun fmin (∆x) das Minimum von f auf [x0 , x0 + ∆x] bzw. [x0 + ∆x, x0 ] bei ∆x < 0. Ebenso fmax (∆x)
das Maximum. (Diese existieren wegen der Stetigkeit von f .) Dann
( x0 +∆x
fmin (∆x) · ∆x ≤
f (t) dt ≤ fmax (∆x) · ∆x, (∆x > 0) ,
x0
für ∆x < 0 drehen sich die Vorzeichen um, also in beiden Fällen :
( x0 +∆x
1
fmin (∆x) ≤
f (t) dt ≤ fmax (∆x) .
∆x x0
Wir haben fmin (∆x) → f (x0 ) , fmin (∆x) → f (x0 ) für ∆x → 0. Also geht auch gemäß Einschließungsprinzip
' x0 +∆x
1
f (t) dt gegen f (x0 ) . Anschaulich ist das auch klar, indem wir diesen Term wie oben als Mit∆x x0
telwert der Funktion' f auf [x0 , x0 + ∆x] bzw. [x0 + ∆x, x0 ] deuten.
x
' x Zu (ii) Mit (i): a f (t) dt = F (x) − F (a) , da nach Definition F (a) = 0. Mit F1 (x) = F (x) + c also
f (t) dt = (F (x) + c) − (F (a) + c) = F1 (x) − F1 (a) .
a
Vorbemerkung zur Anwendung beim Ausrechnen eines bestimmten Integrals mittels
einer Stammfunktion: Man wird stets zwei Schritte benötigen. Zuerst bestimmt man den Rechenausdruck irgendeiner Stammfunktion F (das muss nicht die in (i) definierte sein, sondern wird eine wie F1
in (ii) sein) zu f, dann hat man die Grenzen einzusetzen und die Differenz zu bilden. Daher schreibt man
gern mit einem Zwischenschritt:
( b
f (x) dx = [F (x)]ba := F (b) − F (a) .
a
Diese Bezeichnung mit der eckigen Klammer sollte man sich merken und auch selber nutzen.
Anwendungen:
1.) Sobald man durch Umkehrung der Ableitungsregeln eine Stammfunktion gefunden hat, kann man
bestimmte Integrale ausrechnen, Beispiele:
,
-2
( 2
√
d a
xa+1
2 3/2
2 √
x =
, wenn a = −1. Also
xdx =
x
= · 8.
dx
a+1
3
3
0
0
( 2
d 1
1
= ln |x| , also
dx = ln (2) . Wir kommen im nächsten Abschnitt systematisch zum Intedx x
1 x
gralkalkül.
2.) Eine wichtige praktische Anwendung des Hauptsatzes ist folgende: Wenn von einer Funktion f (t)
die Ableitung f ′ (t) überall im Bereich von t0 bis t1 bekannt ist und ferner f (t0 ) gegeben ist, dann kann
man f (t) für diesen Bereich so ausrechnen:
( t
f (t) = f (t0 ) +
f ′ (s) ds, t ∈ [t0 , t1 ] (bzw. [t1 , t0 ] bei t1 < t0 ).
t0
92
4. REELLE FUNKTIONEN
Begründung: Das Integral ist nach Hauptsatz f (t)−f (t0 ) . So integriert man beispielsweise die Geschwindigkeitsfunktion über die Zeit, um die Ortsfunktion herauszubekommen, und addiert den Anfangsort dazu. Es
ist übrigens günstig, hier mit bestimmten Integralen zu arbeiten.
Satz 34 (Mittelwertsatz der Integralrechnung).
Wenn f, g stetig und g ≥ 0 auf [a, b], dann für ein ξ ∈ (a, b) :
( b
( b
f (x) g (x) dx = f (ξ)
g (x) dx. Insbesondere mit g (x) = 1 konstant:
a
a
(
Wenn f stetig ist, so für ein ξ ∈ (a, b)
b
f (x) dx = f (ξ) · (b − a)
a
Beweis: Man hat mit fmin := min { f (x)| x ∈ [a, b} und fmax := max { f (x)| x ∈ [a, b} , welche wegen
der Stetigkeit von f existieren, und wegen der Monotonieeigenschaft des Integrals:
( b
( b
( b
fmin ·
g (x) dx ≤ f (x)
g (x) dx ≤ fmax
g (x) dx für alle x ∈ [a, b]. Ferner
a
fmin ·
(
a
b
g (x) dx ≤
Nun nimmt die stetige Funktion
(
a
a
a
b
f (x) g (x) dx ≤ fmax
h (x) := f (x)
(
(
b
g (x) dx.
a
b
g (x) dx
a
b
(
(
b
jeden Zwischenwert zwischen fmin ·
g (x) dx und fmax ·
g (x) dx an, also auch den Integralwert
a
a
( b
f (x) g (x) dx. Diesen Wert nimmt h also auf [a, b] an. Aber man macht sich noch klar, dass dies
a
bereits auf (a, b) passieren muss: Wenn f konstant ist oder g konstant Null, dann ist das sofort klar.
Wenn beides nicht der Fall ist, dann hat man für eine Zahl ξ ∈ [a, b] mit
( b
( b
f (ξ)
g (x) dx =
f (x) g (x) dx
a
a
jedenfalls, dass f (ξ) = fmin , fmax . Also findet sich ξ echt zwischen zwei Werten, an denen fmin , fmax
angenommen werden von f, somit kann ξ ∈ (a, b) gewählt werden.
4.6. Integralkalkül: Berechnung von Stammfunktionen.
'
Definition 23. Das unbestimmte Integral f (x) dx ist die Schar aller Stammfunktionen von f.
Wenn es eine Stammfunktion F von f gibt, d.h. F ′ = f, dann also
(
f (x) dx = F (x) + c.
Grundsätzliche Vorbemerkungen: Man kann sich komplizierteste Stammfunktionen, die in den
elementaren Funktionen ausdrückbar sind, bequem mit einem Computeralgebraprogramm beschaffen.
Aber es ist unerlässlich, Einiges selber von Hand zu können, um gewissen immer wieder angestellten
theoretischen Rechnungen folgen zu können und um Einfaches direkt zu beschaffen. Weiter sollte man
vorab wissen: Es gibt gar nicht einmal komplizierte Funktionen, deren Stammfunktionen zwar beweisbar
existieren (z.B. weil die Originalfunktion stetig ist), die aber prinzipiell nicht in elementaren Funktionen
ausdrückbar sind. Auch das kann
feststellen, indem man den
' man2 mittels Computeralgebraprogramms
√
Auswertungsbefehl etwa gibt für e−x dx und erhält: 12 π erf (x) (’error function’, das ist nach Definition
'x
2
erf (x) = √2π 0 e−t dt). Auftreten eines solchen Eigennamens zeigt an, dass es sich um keine elementar
'
berechenbare Stammfunktion handelt. Weiteres Beispiel: sin(x)
x dx = Si (x) (sogenannte ’Integralsinus’).
Wir verabreden, dass im Folgenden stets F eine Stammfunktion zu f ist, G zu g usw. Also F ′ = f,
G′ = g.
Wo das angezeigt ist, weisen wir gesondert darauf hin, wie man eine Stammfunktionsregel nutzt, um
ein bestimmtes Integral auszurechnen.
4. DAS EINDIMENSIONALE INTEGRAL
93
4.6.1. Stammfunktionen der Grundfunktionen. Es sei auf die zu Beginn des Kapitels angegebene
Liste verwiesen. Zu bemerken ist jedoch, dass man diese Liste extrem erweitern kann mit Benutzen eines
ordentlichen Computeralgebraprogramms. (Formelsammlungen sind nunmehr wirklich unmodern!) Aber
man sollte sich einige Hauptformeln merken, die man immer wieder braucht. Es sei auch angeregt, das
Ableiten zu üben, indem man solche Grundregeln durch Ableiten bestätigt.
Wir werden die weniger offensichtlichen Beispiele wie f (x) = ln (x) usw. als Beispiele für die Anwendung der Zusammensetzungsregeln behandeln. Auch die folgenden Regeln ergeben sich unmittelbar duch
Ableiten, als Umkehrung entsprechender Ableitungsregeln:
4.6.2. Summen- und Konstantenregel.
(
(f (x) + g (x)) dx = F (x) + G (x) + c, mit F ′ = f, G′ = g.
(
αf (x) dx = αF (x) + c, mit F ′ = f.
4.6.3. Partielle Integration (Umkehrung der Produktregel des Differenzierens.
(
(
f (x) G (x) dx = F (x) G (x) − F (x) g (x) dx + c, also
( b
( b
b
f (x) G (x) dx = [F (x) G (x)]a −
F (x) g (x) dx
a
a
'
d
(F (x) G (x)) = f (x) G (x)+F (x) g (x) , also (f (x) G (x)+F (x) g (x))dx = F (x) G (x)+
dx
'
'
'
d1 , dazu mit der Summenregel: (f (x) G (x) + F (x) g (x))dx = f (x) G (x) dx + F (x) g (x) dx + d2 ,
also die Behauptung.
Bemerkung: Es bleibt ein Integral übrig, und man hofft, dass dies einfacher wird als das ursprüngliche. Manchmal muss man die Regel zweifach anwenden.
Warnung: Die Regel taugt nur für spezielle Produkte, keineswegs denke man: ’Da ist ein Produkt zu
integrieren, also wende ich diese Produktregel des Integrierens an.’ Typische günstige Ausdrücke: 1·f (x) ,
wobei f eine Umkehrfunktion wie ln oder arctan ist, Polynom mal transzendente Standardfunktion wie
ln, exp, sin, ex sin (x) usw. Allerdings ist die Regel, wie wir noch sehen werden, unglaublich effizient zur
Herstellung wichtigster theoretischer Zusammenhänge.
4.6.4. 1/α− Regel.
(
1
f (αx + β) dx = F (αx + β) + c (α = 0)
α
Bemerkung: Diese Regel sollte man sich merken und in entsprechenden Fällen anwenden, was viel
bequemer als die folgende allgemeine Substitutionsregel ist.
4.6.5. Substitutionsregel (Umkehrung der Kettenregel des Differenzierens).
(
(
′
dxf (x) g (f (x)) = dug (u) = G (u) + c = G (f (x)) + c.
Begründung:
d
Begründung: dx
(G (f (x)) + c) = f ′ (x) g (f (x)) nach Kettenregel. Die Zwischenschritte weisen auf
die praktische Anwendung: Man macht die Substitution
u = f (x)
du = f ′ (x) dx
'
und ersetzt im Integral dxf ′ (x) g (f (x)): dxf ′ (x) durch du, g (f (x)) durch g (u) , erhält G (u) + c als
unbestimmtes Integral, ersetzt dann wieder zurück u durch f (x) .
Bemerkung: Hier und auch in vielen weiteren Fällen, insbesondere bei Mehrfachintegralen, ist es
sehr nützlich, das ’dx’ usw. voranzustellen. Allerdings verlangt mein Computeralgebraprogramm diesen
Ausdruck als Abschluss des Integrals.
Warnung: Man schreibe niemals Integrale, in welchen alte Integrationsvariable (hier x) und neue
(hier u) gemischt vorkommen, und man denke immer daran, dass dx auch in du umgerechnet werden
muss.
94
4. REELLE FUNKTIONEN
Für bestimmte Integrale lautet die Regel:
(
b
dxf ′ (x) g (f (x)) =
a
(
f (b)
f (a)
f (b)
g (u) du = [G (u)]f (a) = G (f (b)) − G (f (a)) .
Hier ist das Substitutionsschema zu ergänzen mit der Grenzentransformation
(
a
b
... →
(
f (b)
.... Man
f (a)
beachte, dass diese Grenzentransformation das Rückeinsetzen aus dem vorigen Schema erspart und
( f (b)
auch ersetzen muss:
g (u) du ist ein bestimmtes Integral, nur heißt die Integrationsvariable u.
f (a)
Unbestimmte Integrale werden wegen der damit verbundenen Unklarheiten durchaus von einigen ernstzunehmenden Menschen rundweg abgelehnt. Aber das Schema ist doch so praktisch, dass man nicht
ganz darauf verzichten mag. Es ist nur Vorsicht geboten.
4.6.6. Die eigentliche Substitution (nicht nur: Umkehrung der Kettenregel). Betrachtet man die Substitutionsregel, die oben formuliert wurde, so wird man enttäuscht sein, weil man sie nur auf Integrale
anwenden kann, in welchen der Faktor f ′ (x) auftritt neben der Schachtelung g (f (x)) . In diesen Fällen
kann man auch sofort sagen, es sei nur(die Stammfunktion von
( G zu bilden und auf f (x) anzuwenden,
3
1
1
2
und man ist mit G (f (x)) fertig. Z.B.
x sin x dx =
3x2 sin x3 dx =
− cos x3 + c. Das
3
3
Beispiel zeigt auch, wie man typisch einen fehlenden konstanten Faktor zur Ableitung f ′ (x) ergänzen und
kompensieren kann. Mit etwas Routine macht man das so schneller als mit dem Substitutionsschema.
Viel interessanter sind die Fälle, bei denen ein solcher Ableitungsfaktor fehlt. Wie kann man dann
trotzdem die Substitutionsregel anwenden? Dazu gibt es zwei Möglichkeiten, die man auch beide praktisch
verwendet:
Erstes Schema der eigentlichen Substitution: Mit umkehrbarer Funktion f und Umkehrfunktion f −1 kann man die Substitutionsgleichung u = f (x) nach x auflösen und bekommt:
x = f −1 (u) , damit wird dx in du umgerechnet:
′
dx = f −1 (u) du, womit aus der Substitutionsregel wird:
(
(
′
dxg (f (x)) =
du f −1 (u) g (u) = H (u) = H (f (x)) (wieder mit Rückeinsetzen).
′
Dabei ist H (u) eine Stammfunktion zu f −1 (u) g (u) .
Für bestimmte Integrale lautet die Regel:
(
a
b
dxg (f (x)) =
(
f (b)
f (a)
′
f (b)
du f −1 (u) g (u) = [H (u)]f (a) = H (f (b)) − H (f (a)) .
Beispiel zur Anwendung:
(
1
1
dx, Substitution : u = ex , x = ln (u) , dx = du, also :
1 + ex
u
(
(
( 1
1 1
−1
1
=
=
dx
du
+
du = − ln |1 + u| + ln |u|
1 + ex
1+uu
1+u u
= − ln (1 + ex ) + x
Dabei kamen typische weiter benötigte Schritte nach der Substitution vor. Diese führte auf eine
gebrochen rationale Funktion (mit typischer Partialbruchzerlegung, vgl. den nächsten Abschnitt), anschließend wurde noch die α1 − Regel verwandt. Die Sache hat also mit der Umkehrbarkeit von exp zu ln
geklappt, ohne
der Ableitungsfaktor dagestanden hätte, der wäre hier ex gewesen. (Man vergleiche
( dass
ex
noch einmal
dx = ln (1 + ex ) , was man direkt sagen kann, indem man identifiziert: f (x) = 1+ex ,
1 + ex
1
g (x) = , also G (f (x)) = ln (1 + ex ) . Das wäre also mit bloßer Umkehrung der Kettenregel zu machen.)
x
4. DAS EINDIMENSIONALE INTEGRAL
95
Zweites Schema zur eigentlichen Substitution: Man substituiert sofort x = h (u) und damit
dx = h′ (u) du. Dann hat man:
(
(
dx g (f (x)) = du h′ (u) g (f (h (u))) .
Für bestimmte Integrale lautet die Regel dann:
( b
(
dx g (f (x)) =
a
h−1 (b)
du h′ (u) g (f (h (u))) .
h−1 (a)
Das ist nicht so unsinnig, wie es aussieht, eben dann, wenn g (f (h (u))) im Ergebnis viel einfacher wird
als g (f (x)) . ' √
Beispiel:
1 − x2 dx. Man wird die (tendenziell immer äußerst ungünstige) Wurzel los mit x =
sin (u) , also dx = cos (u) du, und erhält:
( ( (
(
1
2
2
2
1 − x dx =
cos (u) cos (u) du = cos (u) du =
(cos (2u) + 1) du
2
1
1
1
1
sin (2u) + u = sin (u) cos (u) + u
=
4
2
2
2
1
1 2
=
x 1 − x + arcsin (x) (Rückeinsetzen)
2
2
Es sei bemerkt, dass man cos2 (u) auch mit partieller Integration bewältigen kann, aber die hier angesprochene Anwendung der Additionstheoreme ist bedeutend günstiger. Vielfach hat man beim Rückeinsetzen
auch die Gleichung x = h (u) nach u aufzulösen, im Beispiel x = arcsin (u) .
4.6.7. Standardsubstitutionen für gewisse Funktionstypen. Mit ’Standard’ ist hier eher etwas ursprünglich recht Raffiniertes gemeint - und nun ist es bekannt. Das gilt besonders für Nummer 2.
Wir erlauben uns in komplizierteren Beispielen,
die ewige Konstante ’+c’ wegzulassen.
1.a) Für den Standard-Wurzelausdruck 1 − ax2 mit a > 0 hilft (2. Schema der eigentlichen Substitution):
x =
dx =
1
√ sin (t)
a
1
√ cos (t) dt.
a
z.B.
( (
1
1
1
1
√ cos2 (t) dt = √
1 − ax2 dx =
cos t sin t + t
a
a 2
2
√ 1 1
x 1 − ax2 + √ arcsin ax .
=
2
2 a
(
√ 1
1
√
Analog erhält man so:
dx = √ arcsin ax . Es ist ein wenig zu empfehlen, in solchen
2
a
1 − ax
1
1
Fällen zunächst durch eine lineare Substitution den Parameter zu beseitigen: Mit x = √ u, dx = √ du
a
a
( (
( ( 1
1
√
hat man
1 − ax2 dx =
1 − u2 du = √
1 − u2 du, so dass man sich auf
1 − u2 du
a
a
beschränken kann. In 1.b) werden wir so vorgehen.
1.b) Für den Standard-Wurzelausdruck 1 + x2 , a > 0, hilft (wieder 2. Schema):
x = sinh (t)
dx = cosh (t) dt.
Dann hat man z.B.
( (
1 + x2 dx = cosh2 (t) dt.
96
4. REELLE FUNKTIONEN
Das kann man nun weiter verarbeiten mit den hyperbolischen Formeln (ganz analog zu den trigonometrischen,
nur mit charakteristischen Vorzeichunterschieden). Also etwa mit
1
(1 + cosh (2t)) :
(
(2
1
1
1
cosh2 (t) dt =
(1 + cosh (2t)) dt = t + sinh (2t)
2
2
4
1
1
t + sinh (t) cosh (t) . Also
=
2
2
( 1
1 arcsinh(x) + x 1 + x2 .
1 + x2 dx =
2
2
cosh2 (t) =
Man hat dabei:
Die Berechnung von
arcsinh(x) = ln x + 1 + x2 .
'
cosh2 (t) dt gelingt auch mit partieller Integration:
(
(
cosh2 (t) dt = sinh (t) cosh (t) − sinh2 (t) dt
(
= sinh (t) cosh (t) −
cosh2 (t) − 1 dt, also
(
1
1
cosh2 (t) dt =
sinh (t) cosh (t) + t.
2
2
(Typischer Vorgang, dass der zu integrierende Ausdruck rechts wieder auftaucht, man bringt ihn dann
auf die andere Seite.) Hier sind einige praktische Formeln, die wir benutzten, für die hyperbolischen
Funktionen:
cosh2 (x) − sinh2 (x) = 1
cosh′ (x) = sinh (x) , sinh′ (x) = cosh (x) ,
cosh (x + y) = cosh2 (x) + sinh2 (y) ,
sinh (x + y) = sinh (x) cosh (y) + sinh (y) cosh (x)
Völlig analog erhält man auch
1.c) Für x ≥ 1:
( 1 1 x2 − 1dx = x x2 − 1 − ln x + x2 − 1 + c.
2
2
( 1
1 Für x ≤ −1 hat man entsprechend:
x2 − 1dx = x x2 − 1 + ln −x + x2 − 1 + c (über die
2
2
ungerade Fortsetzung).
2.) Gebrochen rationale Funktionen in sin (x) , cos (x) , tan (x): Für eine gebrochen rationale Funktion
p (x1 , ..., xn )
in x1 , ...xn , also
, setzt man solche trigonometrischen Funktionen überall für xi ein. Dann
q (x1 , ...xn )
hilft folgende schlaue Substitution, nach dem 2. Schema der eigentlichen Substitution
x = 2 arctan (t) ,
2
dx =
1 + t2
Aus den beteiligten trigonometrischen Funktionen wird dann
2t
1 − t2
2t
,
cos
(x)
=
, tan (x) =
,
2
2
1+t
1+t
1 − t2
2t 1 − t2
auch weiter mit Additionstheoremen sin (2x) = 2 sin (x) cos (x) =
usw. Es entsteht nach dieser
(1 + t2 )2
Substitution eine gewöhnliche gebrochen rationale Funktion (zu deren Integration im Allgemeinen vgl.
den nächsten Abschnitt).
sin (x) =
4. DAS EINDIMENSIONALE INTEGRAL
97
(
(
1
1
1 + t2 2
dx =
dt
=
dt = ln |t| = ln |tan (x/2)| . Man beobachte aber
2
sin (x)
2t
1
+
t
t
(
(
cos (x)
1
einfachere Fälle wie
du = arctan (u) = arctan (sin (x)) . Hier genügt die
dx =
1 + u2
1 + sin2 x
Umkehrung der Kettenregel!
3.) Gebrochen rationale Funktionen in sinh (x) , cosh (x) , tanh (x) könnte man analog behandeln,
indem man die analogen hyperbolisch-geometrischen Beziehungen ausnutzt, aber es geht auch einfacher:
Man fasst eine solche Funktion als gebrochen rationale Funktion in ek1 x , ..., ekr x auf, ki ganze Zahlen.
Dann genügt folgende Substitution (wieder nach 2. Schema):
Beispiel:
(
x = ln (t)
1
dt.
dx =
t
Es entsteht eine gebrochen rationale Funktion in t. Ein Beispiel wurde oben bereits gegeben.
4.6.8. Integration gebrochen rationaler Funktionen: Partialbruchzerlegung. Vorbemerkung: Es geht
hier nur um das Verständnis und praktische Handrechnung in einfachen Einzelfällen, wie sie häufig
vorkommen. Langwierige Rechnungen sind gerade hier mit einem Computeralgebraprogramm zu vermeiden.
Oftmals wird man darauf geführt, dass noch eine gebrochen rationale Funktion der Gestalt
f (x) =
p (x)
mit Polynomen p, q
q (x)
zu integrieren ist. Das ist dann so zu machen (so weit möglich):
Erster Schritt: Wenn Grad (p) ≥ Grad (q) , so führe man Polynomdivision durch. Der Polynomp1 (x)
summand ist simpel zu integrieren, es verbleibt eine gebrochen rationale Funktion
mit Grad (p1 ) <
q (x)
Grad (q) . (Im Folgenden heißt p1 einfach wieder p, wir setzen Grad (p) < Grad (q) voraus.)
Zweiter Schritt: Man führt folgende Partialbruchzerlegung durch (es sei denn, man ist bereits
bei einem der möglichen Endprodukte jeder solchen Zerlegung angelangt, dann hat man mit Standardfunktionen zu tun, deren Stammfunktionen man wissen oder nachschlagen kann). Wenn der Nenner q
mindestens zwei Faktoren (x − a) , (x − b) mit a = b hat oder mindestens einen Faktor (x − a) und einen
quadratischen ohne reelle Nullstelle oder aber mindestens zwei quadratische Faktoren ohne gemeinsame
komplexe Nullstelle, dann ist die folgende Partialbruchzerlegung auszuführen:
1.) Man zerlegt den Nenner in lauter Linearfaktoren und qudratische Faktoren ohne reelle Nullstelle.
(Dies ist nur in einfachen Fällen möglich, auch für ein Computeralgebraprogramm!)
2.) Man schreibt folgenden Ansatz hin. Es ist dabei k ≥ 1 und l ≥ 1 vorauszusetzen. Ferner soll
x2 + αx + β ein Polynom ohne reelle Nullstelle sein. A1 , ..., Ak , B1 , ..., Bl , C1 , ..., Cl stehen für gesuchte
unbekannte reelle Zahlen.
p (x)
k
(x − a)
(x2
l
+ αx + β) · ...
=
A1
Ak
B1 + C1 x
Bl + Cl x
+ ... +
+ 2
+ ... + 2
+ ...
k
x−a
x + αx + β
(x + αx + β)l
(x − a)
Dabei stehen die Pünktchen im Nenner links für weitere Linearfaktoren und weitere quadratische Fak
l
toren ohne reelle Nullstelle, welche keine gemeinsamen Teiler mit (x − a)k x2 + αx + β haben. Auf der
rechten Seite stehen die Pünktchen dafür, dass man für jeden weiteren Faktor im Nenner den nämlichen
Ansatz wie für die beispielhaft genannten beiden noch anzufügen hat. Man beachte: Wenn k = 1, so steht
A1
A1
Ak
auf der rechten Seite nur
statt
+ ... +
. Wenn l = 1, so steht für den zweiten Block
x−a
x−a
(x − a)k
B1 + C1 x
nur 2
. Summanden der Form, wie sie auf der rechten Seite stehen, sind gerade die erwähnten
x + αx + β
Endprodukte der Partialbruchzerlegung. Es ist ein mathematischer Satz, dass es die gesuchten Zahlen
eindeutig gibt.
Bemerkung: Es darf durchaus γx − a mit γ = 0 statt x − a stehen und δx2 + αx + β mit δ = 0 statt
2
x + αx + β. Am Ansatz ändert das nichts. Auch die Weiterverarbeitung ist nicht wesentlich schwieriger.
98
4. REELLE FUNKTIONEN
3.) Die unbekannten Zahlen können auf jeden Fall ausgerechnet werden. Dabei geht man zweckmäßig
so vor: Man rechnet direkt aus:
p (a)
k
Ak =
, wobei q1 (a) der Nenner q ohne den Faktor (x − a) ist.
q1 (a)
Für die verbleibenden Unbestimmten bildet man einfache (lineare!) Gleichungen, so viele wie man noch
Unbestimmte hat, indem man auf beiden Seiten des Ansatzes für x möglichst einfache (ganze) reelle
Zahlen einsetzt. Dann löst man das lineare Gleichungssystem.
Dritter Schritt: Man rechnet Stammfunktionen zu den Endprodukten aus bzw. schlägt solche nach,
und bildet die Summe dieser Stammfunktionen.
Ein paar einfache Beispiele:
1. Beispiel:
x
A
B
C
=
+
+
.
(x − 1) (x − 2) (2x + 3)
x − 1 x − 2 2x + 3
Das ist der Ansatz, rechts stehen bequemer A, B, C statt A1 , A2 , A3 . Die drei Nennerfaktoren haben
verschiedene Nullstellen. Dies ist der einfachste Fall überhaupt. Gemäß 3.) vom zweiten Schritt berechnet
man sofort:
1
1
=− ,
A =
(1 − 2) (2 · 1 + 3)
5
2
2
B =
= ,
(2 − 1) (4 + 3)
7
−3/2
6
=− .
C = 3
35
− 2 − 1 − 32 − 2
Also
1
2
6
x
=−
+
−
.
(x − 1) (x − 2) (2x + 3)
5 (x − 1) 7 (x − 2) 35 (2x + 3)
1
Nun reicht die Linearität des Integrals und die − Regel, das Integral auszurechnen:
α
(
x
1
2
3
dx = − ln |x − 1| + ln |x − 2| −
ln |2x + 3| + c.
(x − 1) (x − 2) (2x + 3)
5
7
35
Damit sollte klar sein, wie man alle Fälle behandeln kann, bei denen im Nenner ein Produkt aus lauter
Linearfaktoren ohne gemeinsame Nullstelle auftritt.
2. Beispiel:
A
1
B
C
.
2 = x + x−1 +
x (x − 1)
(x − 1)2
Gemäß 3. vom zweiten Schritt berechnet man direkt:
1
A =
= 1,
(0 − 1)2
C = 1.
Zur Bestimmung von B setzt man x = −1 in die Gleichung ein (0 und 1 sind verboten) und erhält diese
lineare Gleichung für B, wobei man die bekannten Zahlenwerte für A, C bereits einsetzt:
B 1
1
2 = −1 − 2 + 4 . Das ergibt B = −1.
− (−1 − 1)
Also
Grundregeln und
1
α−
1
1
1
1
.
2 = x − x−1 +
x (x − 1)
(x − 1)2
Regel ermöglichen die Integralberechnung:
(
1
1
2 dx = ln |x| − ln |x − 1| − x − 1 + c
x (x − 1)
4. DAS EINDIMENSIONALE INTEGRAL
99
3. Beispiel: Man stellt fest, dass 2x2 + x + 1 keine reelle Nullstelle hat, Ansatz daher im folgenden
Fall:
x
A
B + Cx
=
+ 2
.
2
(x − 1) (2x + x + 1)
x − 1 2x + x + 1
Man rechnet direkt aus:
1
A= .
4
Für B und C setzt man x = 0 und x = −1 (am einfachsten) in die Gleichung ein und bekommt
1
1
0 = − + B, also B = ,
4
4
−1
1 1/4 − C
1
= − +
, also C = − .
−2 · 2
8
2
2
Damit
x
1/4
1/4 − x/2
=
+
.
(x − 1) (2x2 + x + 1)
x − 1 2x2 + x + 1
Für das Integrieren des zweiten Summanden:
1
2x2 + x + 1
(
=
1/4
dx =
2x2 + x + 1
(
−x/2 − 1/8
dx =
2x2 + x + 1
(
−x/2
dx =
2
2x + x + 1
=
8/7
8/7
=
, damit
2
1 2
x+ 4 +1
√4 x + √1
+
1
7
7
√
√
√
2
4
7
1
7
7
·
arctan √ x + √
+c=
arctan
(4x + 1) + c.
7 4
14
7
7
7
(
(
1
4x + 1
1
du
1
1 −
dx
=
−
= − ln (u) = − ln 2x2 + x + 1 , also
2
8
2x + x + 1
8
u
8
8
(
1 2
1/8
− ln 2x + x + 1 +
dx
8
2x2 + x + 1
√
√
1 2
7
7
− ln 2x + x + 1 +
arctan
(4x + 1) + c
8
28
7
1
2
2 x + 14 +
7
8
=
16
7
Wir halten fest: Bei der Integration gebrochen rationaler Funktionen können Summanden folgender
Art auftreten: Polynome, gebrochen rationale Funktionen, ln − Glieder und arctan − Glieder.
4.7. Beispiele zur Anwendung des Integralkalküls. Zur partiellen Integration:
Umkehrfunktionen kann man zweckmäßig damit behandeln:
(
(
ln (x) dx =
arcsin (x) dx =
=
(
=
arctan (x) dx =
(
(
1
x dx = ln (x) − x
x
(
(
x
1 · arcsin (x) dx = x arcsin (x) − √
dx
1 − x2
(
1
−2x
√
x arcsin (x) −
dx
2
1 − x2
x arcsin (x) + 1 − x2 . Analog
1 x arctan (x) − ln 1 + x2 .
2
1 · ln (x) dx = x ln (x) −
100
4. REELLE FUNKTIONEN
Produkte der Form ex sin (x) usw. sind weitere wichtige Beispiele (die Formel noch einmal:
(
F G − F g in Kurzform.):
(
fG =
Zunächst mit f (x) = ex , G (x) = sin (x) :
(
(
ex sin (x) dx = ex sin (x) − ex cos (x) dx, nun G (x) = cos (x) :
(
x
x
= e sin (x) − e cos (x) − ex cos (x) dx, also
(
1 x
ex sin (x) dx =
e (sin (x) − cos (x))
2
(
Nun möchte man etwa auch haben: eαt sin (ωt + ϕ) dt, mit α, ω = 0. Dann wird die partielle Integration
etwas mühsam. Mit der komplexen Darstellung der Sinusfunktion als Kombination von Exponentialausdrücken geht so etwas eleganter:
sin (t) =
(
eαt sin (ωt + ϕ) dt =
=
=
=
=
ejt − e−jt
, also
2j
(
ej(ωt+ϕ) − e−j(ωt+ϕ)
e αt ·
dt
2j
(
1
t
(α
+
jω)
+
jϕ
t
(α
−
jω)
−
jϕ
e
−e
dt
2j
t (α + jω) + jϕ
1
1
1
e
−
e t (α − jω) − jϕ
2j α + jω
α − jω
αt + j (ωt + ϕ)
1
1
1
αt
−
j
(ωt
+
ϕ)
e
−
e
2j α + jω
α − jω
e αt
(α sin (ωt + ϕ) − ω cos (ωt + ϕ))
α2 + ω 2
1
Man kommt also mit der − Regel aus. Es wäre nicht einmal nötig, den Ausdruck der drittletzten Zeile
α
noch zu verändern, weil er perfekt funktioniert und das rein reell auszudrückende Endresultat ergibt die letzte Umformung belassen wir als Übung im Rechnen mit komplexen Zahlen.
Zur Umkehrung der Kettenregel bzw. Substitution:
Zunächst ein paar Beispiele für die einfache Umkehrung der Kettenregel (d.h. die Ableitung der
inneren Funktion steht als Faktor da, jedenfalls bis auf einen konstanten Faktor):
(
(
1
1
sin (x) cos (x) dx =
udu = u2 = sin2 (x) (mit u = sin x)).
2
2
(
(
(
sin (x)
1
tan (x) dx =
dx = −
du = − ln |cos (x)| (mit u = cos (x) ).
cos (x)
u
(
(
(
x ln 1 + x2
2x ln 1 + x2
1
1
dx =
=
udu
1 + x2
2
1 + x2
2
1 2
=
u (mit u = ln(1 + x2 ))
4
1 =
ln 1 + x2 .
4(
( (
1
1 √
1 2
x 1 + x2 dx =
2x 1 + x2 dx =
udu = · u3/2
2
2
2 3
1
3/2
=
1 + x2
(mit u = 1 + x2 ).
3
Es folgen ein paar Beispiele mit eigentlicher Substitution:
4. DAS EINDIMENSIONALE INTEGRAL
101
( √
( x−1
√
dx =
2 u2 − 1du (mit x = u2 )
x
= u u2 − 1 − ln u + u2 − 1
√
√
√ √
=
x x − 1 − ln x + x − 1 .
'√
Die Substitution führte also auf das bereits bekannte Integral
u2 − 1du.
(
(
x2
1
√
dx =
dt (mit x = 3 sin (t))
3
1 − x6
1
1
=
t = arcsin x3 .
3
3
4.8. Uneigentliche Integrale
' ∞ als Grenzwerte. Zuweilen
' ∞ist es erforderlich, über einen unendlichen
Bereich zu integrieren, also etwa 0 f (x) dx oder auch sogar −∞ f (x) zu bilden. Ein analoges Problem
tritt auf, wenn man eine Funktion f mit einem Pol in a oder b (oder beiden) im Intervall [a, b] zu integrieren. Der Sinn eines solchen Integrals ist der, dass es als Grenzwert gewöhnlicher Riemann-Integrale
existiert, also z.B.
( ∞
( x
e−t dt = lim
e−t dt = lim 1 − e−t = 1.
x→∞ 0
0
Aber
(
x→∞
( 1
1
1
dx = lim
dx = lim (− ln (x)) = ∞.
x→0
x→0
x
x
0
x
Dies Integral divergiert also nach ∞. Man definiert also
1
Definition 24 (uneigentliche Integrale). Wenn f in a rechtsseitig einen Pol hat und auf (a, b] stetig
'b
'b
ist, so existiert a f (t) dt, falls limx→a+ x f (t) dt in R existiert. Dann ist der Wert des Integrals:
( b
( b
f (t) dt := lim
f (t) dt.
x→a+
a
x
Analog für einen Pol linksseitig in b und f stetig auf [a, b):
( b
( x
f (t) dt := lim
f (t) dt, falls dieser Grenzwert in R existiert.
x→b− a
a
Für einen Pol in c ∈ (a, b) bei stetigem f auf [a, c) und auf (c, b] im Innern des Integrationsintervalls
( b
( c
( b
verlangt man für die Existenz des Integrals
f (t) dt, dass sowohl
f (t) dt als auch
f (t) dt als
endliche Grenzwerte existieren.
(
Wenn f auf [a, ∞) stetig ist, so existiert
a
a
(
∞
c
x
f (t) dt, falls lim
f (t) dt in R existiert und hat dann
x→∞ a
( b
( b
diesen Wert. Analog ist für f stetig auf (−∞, b] definiert:
f (t) dt := lim
f (t) dt, falls dieser
x→−∞ x
−∞
( 0
Grenzwert in R existiert. Wiederum wird für f stetig auf R sowohl die Existenz von
f (t) dt als auch
−∞
( ∞
( ∞
die Existenz von
f (t) dt verlangt dafür, dass
f (t) dt existiere. Analog für einen Pol rechtsseitig
0
( ∞
(−∞
( ∞
b
in a und
f (t) dt, f stetig auf (a, ∞): Sowohl
f (t) dt als auch
f (t) dt müssen existieren für
a
a
ein b mit a < b < ∞.
a
(
b
( 1
1
1
Zum Verständnis:
dx = 1, das existiert. Aber
dx = ∞. Das divergiert. Daher existiert
2
2
x
x
0
( ∞
(1 ∞
( ∞
( 0
1
1
1
1
auch nicht
dx.
dx
=
2
dx
=
π
existiert,
da
dx ebenfalls den
2
2
2
2
x
1+x
0
−∞ 1 + x
0
−∞ 1 + x
Wert π2 hat.
∞
102
4. REELLE FUNKTIONEN
Ebenso wie bei Reihen hat man:
Satz 35. Wenn ein uneigentliches Integral
( β
ist), dann existiert auch
f (t) dt.
(
β
α
|f (t)| dt existiert (das Integral also absolut konvergent
α
Für die absolute Konvergenz nimmt man gern wiederum konvergierende Majoranten, für absolute
Divergenz divergierende Minoranten, insbesondere die folgenden:
( ∞
1
dx konvergiert für α > 1, divergiert für α ≤ 1.
α
x
1
( ∞
K
Also folgt aus f stetig auf [1, ∞), |f (x)| ≤ α , x ∈ [1, ∞), mit α > 1, dass
|f (x)| dx existiert und
x
1
( ∞
( ∞
damit auch
f (x) dx. Ebenso divergiert für stetiges f auf [1, ∞) das Integral
|f (x)| dx, wenn
|f (x)| ≥
K
xα
1
1
mit K > 0 und α ≤ 1. Analog für Pole, dafür hat man als Vergleiche:
( 1
1
dx konvergiert für α < 1, divergiert für α ≥ 1.
α
0 x
K
xα ,
x ∈ (0, 1], mit α < 1, dann existiert
Wenn daher für stetiges f auf (0, 1] gilt: |f (x)| ≤
( 1
(Analog hat man wieder Divergenz von
|f (x)| dx bei Minorante xKα mit α ≥ 1.
(
0
1
|f (x)| dx.
0
Beispiele:
(
( 1
1
1
√ dx = 2,
dx = ∞,
x
0
0 x
( ∞
( ∞
1
1
√ dx = ∞,
dx = 10.
1.1
x
x
1
1
( 1
( ∞
1
ln (x) dx = −1,
dx = ∞
ln
(x)
0
2
1
Für die letzten beiden: Am Pol wächst |ln (x)| langsamer nach ∞ als jede Potenz x−α mit 0 < α < 1.
( 2
1
1
Dagegen geht
für x → ∞ langsamer nach Null als jede Potenz, z.B. x1 . Auch
dx = ∞,
ln (x)
1 ln (x)
1
1
weil
für x → 1+ etwa so schnell nach ∞ geht wie für x → 0 + .
ln (x)
x
( ∞
sin (x)
Hier ist noch ein Beispiel für ein uneigentliches Integral, das konvergiert, aber nicht absolut:
dx.
x
0
( t
sin (x)
Man beachte: Der Integrand ist in 0 stetig, es geht nur um lim
dx. Wir argumentieren so: Sei
t→∞ 0
x
∞
an das Integral von der n. Nullstelle bis zur n + 1. Nullstelle, für n ≥ 1. Dann ist
an eine alternierende
n=1
Reihe, deren Glieder monoton gegen Null fallen. Also ist die Reihe konvergent und somit auch das Integral von der ersten
Nullstelle an, daher auch von 0 an. Andererseits besteht im Bereich [kπ, (k + 1) π] die
sin(x) 1
Ungleichung x ≥ (k+1)π
|sin (x)| , so dass
( (k+1)π ( π
1
2
sin (x) dx ≥
sin (x) dx =
.
x (k + 1) π 0
(k + 1) π
kπ
∞
2
Aber die Reihe
divergiert (im Wesentlichen ist das die harmonische). Somit divergiert auch das
kπ
k=2
( ∞
sin (x) Integral
x dx.
0
4. DAS EINDIMENSIONALE INTEGRAL
103
4.9. Integrale über Kurven (vektorwertige Funktionen einer unabhängigen Variablen).
' b→
→
Was sollte man unter a −
x (t) dt verstehen? Denken wir an das Beispiel von Geschwindigkeitsvektor −
v (t)
−
→
−
→
zur Zeit t. Bei Ort x (t0 ) zur Zeit t0 sollte dann gelten für den Ort x (t) zur Zeit t ≥ t0 :
−
→
→
→
→
x (t) = −
x (t0 ) + (t − t0 ) −
v [t0 ,t] (−
v [t0 ,t] ist die mittlere (vektorielle) Geschwindigkeit in [t0 , t])
( t
→
−
→
= −
x (t0 ) +
v (t) dt.
t0
Mit Orts- und Geschwindigkeitsvektoren wird komponentenweise gerechnet, ebenso werden Mittelwerte
und Intergale von Vektoren komponentenweise ausgerechnet. Das entspricht ganz dem, dass Ableitungen
von Vektoren komponentenweise zu nehmen sind. Also:


x1 (t)


..
→
Definition 25. Für −
x (t) = 
 wird allgemein definiert:
.
xn (t)
 '

b
x
(t)
x1 (t) dt
1
a
b
b



.
..
−
→

.
x (t) dt =
 dt := 

.
.
a
a
'b
xn (t)
a xn (t) dt
(
(



.

4.10. Einige Anwendungen eindimensionaler Integrale. Hier sollen nur einige Beispiele gegeben
werden. Es sei jedoch darauf hingewiesen, dass man beim Lösen von exakt lösbaren Differentialgleichungen wieder auf eine Fülle von Anwendungen trifft und dass man die Integration im Mehrdimensionalen
wesentlich auf die eindimensionale Integration rechnerisch zurückführt.
−
→
4.10.1. Ort, Geschwindigkeit und Beschleunigung. Gegeben seien der Beschleunigungsvektor b (t)
→
→
für alle Zeiten t und der Ortsvektor −
x (t0 ) sowie der Geschwindigleitsvektor −
v (t0 ) zur Zeit t0 . Es gelten
−
→
−
→
−
→
−
→
−
→
′
′
′′
die Beziehungen x (t) = v (t) und b (t) = v (t) = x (t) . Dann rechnet man aus:
→
→
(i) −
v (t) = −
v (t0 ) +
→
→
(ii) −
x (t) = −
x (t0 ) +
(
t
t0
t
(
t0
−
→
b (t) dt
−
→
v (t) dt.
→
Bemerkung: Manchmal finden Sie −
a (t) für
(’acceleration’).
dei Beschleunigung
−
→
sin (t)
1
1
→
→
Beispiel: (Ebene Bewegung) b (t) =
für alle t, −
x (0) =
,−
v (0) =
. Dann
cos (2t)
1
0
hat man:
( t
1
sin (t)
−
→
(i)
v (t) =
+
dt
0
cos (2t)
0
,
-t
1
− cos (t)
=
+ 1
0
2 sin (2t) 0
2 − cos (t)
=
.
1
2 sin (2t)
( t
2 − cos (t)
1
−
→
(ii)
x (t) =
+
dt
1
1
0
2 sin (2t)
,
-t
2t − sin (t)
1
=
+
1
− 14 cos (2t) 0
1 + 2t − sin (t)
=
5
1
4 − 4 cos (2t)
104
4. REELLE FUNKTIONEN
1.5
1.4
1.3
1.2
1.1
1
0
10
20
30
40
50
60
Hinweis: Solche Dinge sollte man mit bestimmten Integralen rechnen, das ist vielfach günstiger als die
−
→
→
Version, bei der man zuerst eine beliebige Stammfunktion von b (t) ausrechnet und dann mittels −
v (t0 )
die (vektorielle) Integrationskonstante bestimmt, usw. Das bestimmte Integral erspart das Lösen der
dabei auftretenden Gleichungen.
→
4.10.2. Länge einer Kurvenbahn. Es sei −
x (t) , t0 ≤ t ≤ t1 , eine (differenzierbare) Parametrisierung
einer Kurvenbahn, derart, dass keine Verbindung zweier Punkte auf der Bahn doppelt durchlaufen wird.
Dann ist
(
t1
t0
′
−
x (t)
dt
→
→
die Länge dieser Bahn. Beispiel: Länge einer Ellipse, −
x (t) =
−a sin (t)
−
→
x ′ (t) =
:
b cos (t)
Länge der Ellipse =
(
0
2π
a cos (t)
b sin (t)
, 0 ≤ t ≤ 2π. Dann ist mit
%
a2 sin2 (t) + b2 cos2 (t)dt.
Für a = b, beide nicht Null, ist dies Integral
nicht elementar berechenbar, das berühmte ’elliptische
' 2π
Integral’. Für r = a = b kommt heraus: 0 rdt = 2πr, der
Kreisumfang.
bekannte
e−t cos (t)
−
→
Für die sogenannte logarithmische Spirale x (t) =
, 0 ≤ t < ∞, bekommt man zur
e−t sin (t)
Länge ein konvergentes uneigentliches Integral:
(
∞
e−t dt = 1.
0
→
4.10.3. Sektorenformel für Flächeninhalte. Ein Ortsvektor −
x (t), t0 ≤ t ≤ t1 , überstreiche eine
gewisse Fläche, ohne ein Stück davon mehrfach zu überstreichen. Dann ist der Inhalt diese Fläche:
F =
(
0
1
1 −
′
→
x (t) × −
x (t)
dt.
→
2
4. DAS EINDIMENSIONALE INTEGRAL

→
Beispiel: −
x (t) = 
1
2
105

sin (2t)
sin (t)  , 0 ≤ t ≤ 2π, die Bahn sieht so aus:
0
1
0.8
0.6
0.4
0.2
-0.4-0.20
-0.2
0.2 0.4
-0.4
-0.6
-0.8
-1
Wir haben



cos (2t)
′
′
−
→
→
→
x (t) =  cos (t)  , −
x (t) × −
x (t)) = 
0

0
,
0
1
sin
(2t)
cos
(t)
−
sin
(t)
cos
(2t)
2
Der Inhalt der in der Acht eingeschlossenen Fläche ist daher:
( 2π 1
F =
2 sin (2t) cos (t) − sin (t) cos (2t)
dt.
0
1
Das ist ein wenig unbequem, weil sin (2t) cos (t)−sin (t) cos (2t) das Vorzeichen wechselt. Aber mit [0, π]
2
erfasst man die obere Hälfte der Fläche, dort ist diese Funktion positiv, und man hat:
( π
1
F = 2
sin (2t) cos (t) − sin (t) cos (2t) dt
2
(0 π
( π
2
= 2
sin (t) cos (t) − 2
sin (t) cos2 (t) − sin2 (t)
( π 0
(0 π
3
sin (t) dt = 2
sin (t) (1 − cos2 (t))dt
= 2
0
0
( −1
= −2
(1 − u2 )du (mit u = cos (t) )
1
( 1
8
= 4
(1 − u2 )du = .
3
0
4.10.4. Oberflächeninhalt und Volumen eines Rotationskörpers. Lässt man den Graphen einer Funktion f (x) (stückweise stetig) im Intervall [a, b] um die x− Achse rotieren, so hat der eingeschlossene
Köper das Volumen
( b
V =
πf 2 (x) dx.
a
Idee: Man zerlegt in kleine Zylinderscheibchen quer zur x− Achse, und die Zylinder haben Volumina
πf 2 (x) ∆x. Das ergibt Riemannsummen, welche zum obenstehenden Integral führen.
Auch der Oberflächeninhalt der Mantelfläche des Körpers lässt sich mit ähnlicher Idee berechnen:
( b
O=
2π |f (x)| 1 + f ′2 (x)dx.
a
Dabei setzen wir noch die Ableitung von f als stetig voraus. Eine genauere Begründung
dieser Formel
geben wir im Rahmen der mehrdimensionalen Integration. Zu beachten ist der Faktor 1 + f ′2 (x), der
an die Bogenlänge erinnert. Man erhält natürlich den gesamten Oberflächeninhalt, indem man noch die
Inhalte der begrenzenden Kreisscheiben hinzufügt.
KAPITEL 5
Komplexe Zahlen
Grundbegriffe und Grundrechenarten:
Menge C als R2 , Grundgleichung für j: j 2 = −1
Kartesische Darstellung einer komplexen Zahl: z = a + jb, a, b ∈ R,
Realteil und Imaginärteil sind dann:
Re (a + jb) := a, Im (a + jb) := b (Achtung, nicht etwa ist jb der Imaginärteil!)
Polardarstellung einer komplexen Zahl: rejα , r > 0, r, α reell.
jα
Koordinatenumwandlung:
re
kartesisch bzw. polar vorgegeben:
jα z = a + jb oderz =
jα
= r cos (α)
,
Im
re
=
r
polar → kartesisch: Re re

sin (α) ,
b


, wenn a > 0,
arctan



a



b

π + arctan
, wenn a < 0
2
2
kartesisch → polar: r = a + b , α =
a

π


, wenn a = 0, b > 0,


2π



 − , wenn a = 0, b < 0.
2
Die exakten kartesischen Darstellungen für ejα bei den einfachsten Standardwinkeln:
1√
1
1√
1√
1
1√
ejπ/6 =
3 + j , ejπ/4 =
2+j
2, ejπ/3 = + j
3.
2
2
2
2
2
2
Bemerkungen: Nur für wenige mehr lassen sich exakte Wurzelausdrücke angeben.
Für z = 0 hat man keine eindeutige Polardarstellung, der Winkel ist dabei beliebig.
r ist der Betrag, α ∈ R der Winkel (von 1 an entgegen dem Uhrzeigersinn gezählt.
:
C
→
C
Konjugation:
(a, b reell), also
a + jb → a − jb = a + jb
a + jb = a − jb, rejα = re−jα (Konjugation in kartesischen und Polarkoordinaten)
Addition und Multiplikation kartesisch a, b, c, d alle reell:
a + jb + c + jd = a + c + j (b + d)
(a + jb) (c + jd) = ac − bd + j (ad + bc)
Betrag einer
√ komplexen Zahl:
|a + jb| = a2 + b2 (a, b ∈ R), rejα = r (r > 0, α reell), merke: z · z = |z|2 .
Division kartesisch a, b, c, d reell, dazu c + jd = 0, gleichwertig: c2 + d2 > 0 :
a + jb
(a + jb) (c − jd)
ac + bd
bc − ad
=
= 2
+j 2
c + jd
c2 + d2
c + d2
c + d2
Operationen in Polarkoordinaten (stets α, β ∈ R, r ≥ 0, s > 0):
rejα sejβ = rsej(α+β) (Enthält für r = s = 1 beide Additionstheoreme!)
rejα
r
= ej(α−β)
jβ
s
sejα n
re
= rn ejnα (auch für allgemeineExponenten, nur
ist das dann keine Endform)
α + k · 2π
√ j
n
Alle n. Wurzeln von rejα sind: n re
, k = 0, ..., n − 1.
107
108
5. KOMPLEXE ZAHLEN
Grundresultate:
1. (C, 0, 1, +, ·) ist ein Körper wie (R, 0, 1, +, ·) , also gelten alle bekannten Rechengesetze
und auch deren Konsequenzen, wir nennen die wichtigsten:
Allgemeine Regeln der Bruchrechnung,
Binomische Formeln, auch die ganz allgemeine,
Lösungsformel für quadratische Gleichungen,
Additionsmethode zum Lösen linearer Gleichungssysteme.
(C, 0, 1, +, ·) verhält sich in einem Punkt grundlegend anders als (R, 0, 1, +, ·) :
Man kann (C, 0, 1, +, ·) nicht mit der Körperstruktur verträglich anordnen, so
2.
dass die bekannten Gesetze für (R, 0, 1, +, ·, <) gelten. Das liegt daran, dass
−1 in (C, 0, 1, +, ·) ein Quadrat ist und dann positiv sein müsste wie 1.
3. Die Konjugation ist ein Automorphismus des Körpers (C, 0, 1, +, ·) , der R festlässt,
d.h. sie ist eine bijektive Abbildung C → C, so dass gilt:
z1 + z2 = z1 + z2 , z1 · z2 = z1 · z2 für alle z1 , z2 ∈ C. Ferner r = r für alle r ∈ R.
Dieser Automorphismus ist involutorisch, d.h. z = z für alle z ∈ C.
Geometrische Deutung der Konjugation: Spiegelung an der reellen Achse.
4. (Folgerung aus 3.) Wenn z eine Nullstelle eines Polynoms mit reellen Koeffizienten ist,
so ist auch z eine solche. D.h. die Nullstellen eines solchen Polynoms treten paarweise konjugiert auf.
5. Jedes Polynom mit komplexen Koeffizienten hat wenigstens eine komplexe Nullstelle,
und damit zerfällt jedes Polynom über C in lauter Linearfaktoren. D.h. C ist algebraisch abgeschlossen.
Anwendung der komplexen Zahlen in der Wechselstromlehre:
Beschreibt man die Widerstände bei einem sinusförmigen Wechselstrom der Kreisfrequenz ω so:
Z = jωL für eine Spule mit Induktivität L,
1
Z=
für einen Kondensator der Kapazität C,
jωC
dann hat man wieder das
Ohmsche Gesetz: U = Z · I
Man kann dann Netzwerkberechnungen nach demselben Muster wie bei Gleichstromnetzen ausführen.
Bisher haben wir Zahlkörper gesehen wie Q, R, auf der anderen Seite Vektorräume über R wie insbesondere R2 , R3 . In Vektorräumen konnte man rechnen wie in Körpern, nur eben nie durch Vektoren
dividieren - Skalarprodukt und Vektorprodukt eignen sich in keiner Weise für eine Division, da die Ab−
→
−
→
−
→
→
→
→
→
bildungen −
a −→ −
a · b sowie −
a −→ −
a × b auch im Falle b = 0 nicht umkehrbar sind. Aber es gibt
auf R2 (das ist eine große Ausnahme!) eine Körperstruktur (natürlich muss dabei eine Multiplikation im
Spiel sein, die nichts mit dem Skalarprodukt zu tun hat), die sehr wichtig ist und in natürlicher Weise die
Körperstruktur von R erweitert. Sie war ursprünglich stark innermathematisch motiviert, soch es zeigte
sich schnell eine überragende Bedeutung für naturwissenschaftliche Anwendungen, vor allem in Physik
und Elektrotechnik.
1. Motivierungen
√
Man verwendet die Lösungsformel für quadratische Gleichungen und bekommt bei Bildung von a,
a < 0, keine Lösung in R. Denn Quadrate in R sind stets ≥ 0. So führte man ’imaginäre’ Zahlen ein,
’bloß gedachte’, deren Existenz längere Zeit ein wenig unheimlich war, bemerkte, dass man mit einer
einzigen Zahl j auskam, welche die Eigenschaft haben sollte: j 2 = −1. (In Mathematik und Physik ist die
Bezeichnung ’i’, in der Elektrotechnik
man Ströme mit i, I bezeichnet.) Nun überlegt man für
’j’, weil
√
√
alle reellen Zahlen a > 0: −a = (−1) a = aj. Mit j kann man also aus allen negativen Zahlen eine
√
2
Wurzel ziehen, genau genommen stets zwei, weil auch ( a (−j)) = −a. Weitere Untersuchung zeigte
dann, dass alles Gewünschte mit j im Verein mit den reellen Zahlen funktionierte und dass man die
mulmige Frage nach der Existenz mit Gaußscher Konstruktion ohne weiteres klären konnte. (Vgl. den
nächsten Abschnitt.)
Elektrotechnische Motivation: Man stößt darauf, dass ein Wechselstrom durch einen Betrag und
einen Phasenwinkel zu beschreiben ist, und gerade dafür sind komplexe Zahlen geeignet. Außerdem stellt
sich die Frage, wie man das überaus praktische Ohmsche Gesetz (Spannungsabfall gleich Widerstand
mal Stromstärke) retten kann bei Wechselströmen. Mit reeller Rechnung gelingt dies nicht, weil die
2. KONSTRUKTION DES KÖRPERS (C, +, ·, 0, 1)
109
Ableitung einer Sinus- oder Cosinusfunktion auf eine Phasenverschiebung hinausläuft. Aber die komplexe
Exponentialfunktion erreicht das Ziel, allerdings hat man komplexe Werte für induktive und kapazitive
1
Widerstände zu setzen, jωL für den Widerstand einer Spule und jωC
für den eines Kondensators (ω ist
dabei die Kreisfrequenz).
2. Konstruktion des Körpers (C, +, ·, 0, 1)
Man möchte nicht einfach nur die neue Zahl j haben, sondern eine Erweiterung von R, die wieder
einen Körper bildet, in der also die Körperaxiome gelten. Man visiert nun den Bereich aller Zahlen x + jy
mit x, y ∈ R an. Diese Zahlen muss der neue Körper jedenfalls enthalten, damit in ihm unbeschränkt
Addition und Multiplikation ausführbar sind. Da die Rechengesetze von (R, +, ·, 0, 1) weiterhin gelten
sollen und j 2 = −1, sind bereits folgende Regeln für Addition und Multiplikation erzwungen:
(a + jb) + (c + jd) = a + c + j (b + d)
(a + jb) (c + jd) = ac − bd + j (ad + bc) .
Addition und Multiplikation führen offenbar aus unserem Minimalbereich der Zahlen x + jy nicht hinaus.
Aber es ist zunächst nicht klar, ob auch die Kehrwerte der Zahlen = 0 darin aufzufinden sind. Es zeigt
sich jedoch, dass dies der Fall ist. Dazu nehmen wir zunächst an, zu a + jb = 0, d.h. a = 0 oder b = 0,
a, b ∈ R, hätten wir einen Kehrwert, und schauen nach, wie er dann in der Form x + jy aussehen müsste:
1
a
−b
a − jb
a − jb
=
= 2
= 2
+j 2
.
2
2
a + jb
(a + jb) (a − jb)
a +b
a +b
a + b2
−b
a
1
Nun drehen wir den Spieß um und erklären die Zahl 2
+j 2
als a+jb
, zeigen mit derselben
a + b2
a + b2
1
Rechnung andersherum, dass tatsächlich damit
(a + jb) = 1 = 1 + j0 gilt. Das war der kritische
a + jb
Punkt. (Hinweis zur Rechnung: Man sollte den ersten Schritt stets überspringen und wissen, dass das Betragsquadrat von a+jb (als Vektor aus R2 aufgefasst) herauskommt.) Alle anderen Körper-Rechengesetze
sind nur auf langweilige Art nachzuprüfen, ohne jede Schwierigkeit. Wir fassen das Ganze zu einer Definition und einem Satz zusammen:
Definition 26. Die Struktur (C, +, ·, 0, 1) ist folgendermaßen definiert:
C
0
1
(a + jb) + (c + jd)
(a + jb) (c + jd)
:
:
:
:
:
= { x + jy| x, y ∈ R}
= 0 + j0
= 1 + j0
= a + c + j (b + d)
= (ac − bd) + j (bc + ad) .
Satz 36. (C, +, ·, 0, 1) bildet einen Körper, erfüllt also alle Körperaxiome.
Bemerkung: Man kann den Körper (C, +, ·, 0, 1) nicht wie R anordnen, so dass zusätzlich die Ordnungsaxiome gelten, die eine Harmonie zwischen Ordnung und +, · darstellen. Das ergibt sich daraus,
dass in einem angeordneten Körper die Zahl 1 positiv sein muss, die Zahl −1 negativ, aber auch jede
Quadratzahl positiv oder Null sein muss. Aber in C sind sowohl 1 als auch −1 Quadratzahlen. Daher
kann der Körper C nicht zu einem angeordneten Körper gemacht werden.
Das ist so weit ein rundes Resultat. Aber es ist wichtig, die komplexen Zahlen
auch anschaulich zu
a
begreifen. Dazu identifizieren wir die Zahl z = a + jb mit dem Zahlenpaar
∈ R2 und verstehen
b
dies Zahlenpaar wiederum als kartesisches Koordinatenpaar eines Ortsvektors (’Zeigers’). Insbesondere
übernehmen wir den Betrag vom R2 mit
|a + jb| := a2 + b2 .
Die kartesischen Koordinaten a, b von z = a + jb heißen:
Re (a + jb) : = a (’Realteil von z = a + jb’,
Im (a + jb) : = b (’Imaginärteil von z = a + jb’) - Achtung: b, nicht etwa jb (!)
110
5. KOMPLEXE ZAHLEN
Da sich bei der Addition von komplexen Zahlen einfach die Realteile und die Imaginärteile addieren,
haben wir die anschauliche Deutung der Addition:
Die Addition der komplexen Zahlen ist die Vektoraddition von Ortsvektoren.
Wir heben die bereits oben in der Inversenbildung wichtig gewordene Bildung a + jb → a − jb hervor
mit folgender Definition und anschließendem Satz:
Definition 27 (komplexe Konjugation). Folgende Abbildung heißt komplexe Konjugation:
:
C
→
C
.
a + jb → a − jb
Anschaulich ist das die Spiegelung an der reellen Achse.
Satz 37. Die Konjugation ist ein Körperautomorphismus von C, der R festlässt, d.h. ein Körperisomorphismus
von C auf sich selbst, so dass also z1 + z2 = z1 + z 2 und z1 · z2 = z1 · z 2 und z = z für z ∈ R.
Das prüft man sofort durch Rechnung nach. Außerdem merke man sich:
zz = |z|2 .
Folgendes Bild zeigt, was man von komplexen Zahlen in kartesischen Koordinaten verstehen sollte:
Im
z=a+jb=cos(x)+jsin(x)
cos(x)
Einheitskreis
sin(x)
j
x
1
Re
Konjugierte a-jb von z
Die Zahl 1 ist einfach der Zeiger mit Winkel α = 0 und Betrag 1, also der Einheitsvektor in Richtung der
π
reellen Achse, die Zahl j der Zeiger mit Winkel und Betrag 1, also der Einheitsvektor in Richtung der
2
imaginären Achse.
Wie wir sahen, kann man in C zu jeder negativen reellen Zahl zwei Quadratwurzeln bestimmen.
Offene Frage ist zunächst, ob man auch aus komplexen Zahlen in C wieder Quadratwurzeln findet. Man
rechnet mit etwas Mühe nach, dass dies möglich ist. Noch viel allgemeiner ist die Frage, ob jedes Polynom
n
p (x) =
ck xk mit ck ∈ C vom Grad n ≥ 1 wenigstens eine Nullstelle hat. Dazu hat man folgendes
k=0
Resultat, dessen Beweis bei weitem die uns zuhandenen Möglichkeiten übersteigt, das mit seinen günstigen
Konsequenzen aber zu wissen nützlich ist:
Satz 38 (’Fundamentalsatz der Algebra’). Der Körper (C, +, ·, 0, 1) ist algebraisch abgeschlossen, das
n
.
heißt jedes Polynom p (x) =
ck xk mit ck ∈ C vom Grad n ≥ 1 hat wenigstens eine Nullstelle. Gleichk=0
wertig: Jedes solche Polynom ist in lineare Polynome (’Linearfaktoren’) zerlegbar. Oder auch: Jedes Polynom mit komplexen Koeffizienten vom Grade n ≥ 1 hat genau n Nullstellen (wobei einige als mehrfache
auftreten können).
3. BEISPIELE ZUM KARTESISCHEN RECHNEN MIT KOMPLEXEN ZAHLEN
Folgerung 4. Jedes Polynom p (x) =
n
.
k=0
111
ak xk mit ak ∈ R vom Grade n ≥ 1 (mit reellen Koef-
fizienten also) zerfällt in ein Produkt von Polynomen mit reellen Koeffizienten, die alle Linearfaktoren
sind oder quadratische Polynome ohne reelle Nullstellen.
Wir beweisen die Folgerung aus dem Satz über folgenden Hilfssatz:
Lemma 1. Wenn p (x) =
n
.
k=0
ak xk mit ak ∈ R eine Nullstelle z = a + jb ∈ C besitzt, so ist auch z =
a − jb eine Nullstelle von p. Oder: Die Nullstellen von p treten stets paarweise konjugiert auf.
Beweis: p (z) =
n
.
ak z k =
k=0
n
.
ak z k =
k=0
n
.
ak z k =
k=0
n
.
k=0
ak z k =
n
.
ak z k = p (z) = 0 = 0. Dabei
k=0
nutzen wir nur die zuvor festgestellte Eigenschaft der Konjugation als Körperautomorphismus von C, der
R festlässt.
Mit dem Hilfssatz ist die Folgerung klar aus dem Fundamentalsatz der Algebra: Nach dem Fundan
.
mentalsatz der Algebra zerfällt p (x) =
ak xk mit ak ∈ R in einen Zahlfaktor und Faktoren der Form
k=0
x − z, z Nullstelle von p. Wenn z ∈ R, so ist das ein reeller Linearfaktor. Wenn z ∈ C \ R, sagen wir
z = a + jb, b = 0, so hat man mit dem Hilfssatz eine zweite Nullstelle z, also die Faktoren
(x − z) (x − z) = x2 − (z + z) x + zz = x2 − 2a + a2 + b2 .
Das ergibt einen der versprochenen quadratischen Faktoren mit reellen Koeffizienten.
3. Beispiele zum kartesischen Rechnen mit komplexen Zahlen
1.) Einfaches Ausrechnen von Termen:
2 − 3j
=
4 + 5j
2 − 3j
=
4 + 5j
2 − 3j 4 + 5j =
2.) Lösen einfacher Gleichungen: 2+3zj
4−z
⇐⇒
⇐⇒
⇐⇒
(2 − 3j) (4 − 5j)
−7 − 22j
=
.
41
41
2 − 3j
−7 + 22j
2 + 3j
=
=
4 − 5j
41
4 + 5j
√
|2 − 3j|
13
=√ .
|4 + 5j|
41
4
= 1 + j, Solution is: z = 18
17 − 17 j
2 + 3zj
= 1+j
4−z
2 + 3zj = (1 + j) (4 − z)
z (3j + 1 + j) = 2 + 4j
2 + 4j
(2 + 4j) (1 − 4j)
18
4
z=
=
=
− j.
1 + 4j
17
17 17
3.) Quadratwurzeln einer komplexen Zahl a + jb :
⇐⇒
⇐⇒
mit ε
=
(x + jy)2 = a + jb (gesucht : x, y)
x2 + y2 = a2 + b2 ∧ x2 − y 2 = a ∧ 2xy = b
1
1
1 2
1 2
x=±
a+
a + b2 ∧ y = ε − a +
a + b2 ,
2
2
2
2
± für b ≥ 0 und ε = ∓ für b < 0.
Beispiel: Die beiden Quadratwurzeln aus 1 + j sind:
1 1√
1 1√
+
2+j − +
2,
2 2
2 2
1 1√
1 1√
−
+
2−j − +
2.
2 2
2 2
112
5. KOMPLEXE ZAHLEN
Abbildung 1
Die beiden Quadratwurzeln aus 1 − j sind:
1 1√
1 1√
+
2−j − +
2,
2 2
2 2
1 1√
1 1√
+
2+j − +
2.
−
2 2
2 2
3.) Wir lösen eine quadratische Gleichung in C:
z 2 + (1 + j) z − 3 + j
z1,2
z1
z2
= 0, Lösungsformel ergibt:
%
1+j 1
= −
±
(1 + j)2 + 12 − 4j
2
2
1 + j 1
= −
±
12 − 2j
2
2
1√
1√
1+j 1
= −
±
6+
148 − j −6 +
148 ,
2
2
2
2
1 1
1√
1 1
1√
= − +
6+
148 + j − −
−6 +
148 ,
2 2
2
2 2
2
1 1
1√
1 1
1√
= − −
6+
148 + j − +
−6 +
148 .
2 2
2
2 2
2
4.) Wir lösen ein lineares Gleichungssystem in komplexen Koeffizienten. Dazu nehmen wir die Maschengleichungen zu folgendem Wechselstromnetz:Dabei laufen die Maschenströme I1 , I2 für beide Maschen im
je angezeigten Drehsinn. U ist eine Wechselspannung, R ein Ohmscher Widerstand, L eine Spule mit Induktivität L, C ein Kondensator mit Kapazität C. Mit den komplexen Widerständen jωL für die Spule
1
und jωC
für den Kondensator lauten die Maschengleichungen:
1
R+
I1 + RI2 = U
jωC
RI1 + (R + jωL)I2 = 0.
Multiplikation der ersten Zeile mit jωC ergibt folgendes System:
(1 + jωRC) I1 + jωRCI2
RI1 + (R + jωL)I2
= jωCU
= 0.
Dies ist ein lineares Gleichungssystem, nur in komplexen Koeffizienten. I1 , I2 sind die Unbestimmten, alle
weiteren Buchstaben stellen äußere Parameter dar. 1. Zeile mal R minus 2. Zeile mal jωRC + 1 ergibt
4. POLARKOORDINATENDARSTELLUNG KOMPLEXER ZAHLEN
dann:
I2
113
jωR2 C − (R + jωL) (1 + jωRC) I2 = jωRCU, also
−ωL + jR ω 2 CL − 1
jωCRU
= ωCRU
=
Rω2 CL − R − jωL
(Rω 2 CL − R)2 + ω 2 L2
Man beachte den viel sparenden Schritt, alle reellen Faktoren und U (hier ωCRU ) hinauszusetzen und
das schwerfällige reelle Quadrat im Nenner nicht etwa auszumultiplizieren. Nunmehr kann man leicht
mittels der zweiten Zeile I1 ausrechnen:
(R + jωL) −ωL + jR ω 2 CL − 1
(R + jωL)I2
I1 = −
= −ωCU
2
R
(Rω 2 CL − R) + ω 2 L2
−ω3 RL2 C + j R2 ω 2 CL − 1 − ω2 L2
= −ωCU
2
(Rω2 CL − R) + ω 2 L2
ω3 RL2 C + j ω2 L2 − R2 ω 2 CL − 1
= ωCU
2
(Rω2 CL − R) + ω 2 L2
In komplizierteren Fällen als diesem ist manchmal eine weitere Elimination anstelle des Einsetzens
zum Berechnen der zweiten Unbestimmten günstiger.
4. Polarkoordinatendarstellung komplexer Zahlen
Wir konnten in kartesischen Koordinaten zwar ein Produkt von Zahlen ausrechnen, auch einen Quotienten, aber eine anschauliche Deutung dieser Operationen fehlte. Sie gelingt dagegen leicht mit Polarkoordinaten. Andererseits werden wir auf die so überaus für die Elektrotechnik praktische Kombination von
cos, sin in der komplexen Exponentialfunktion geführt.
Definition 28 (Polarkoordinatendarstellung komplexer Zahlen). Eine komplexe Zahl z lässt sich
eindeutig beschreiben durch ihre Polarkoordinaten
r
arg (z)
:
:
Schreibweise :
Also definieren wir :
Man merke sich
:
= |z| und
= der Winkel α ∈ [0, 2π), so dass z = r cos (α) + jr sin (α)
z = r (cos (α) + j sin (α)) = rejα .
ejα := cos (α) + j sin (α) .
ejα ist die Zahl auf dem Einheitskreis mit dem Winkel α.
Satz 39. Es gilt
ejα ejβ = ej(α+β) . Also hat man
jα jβ rejα
re
se
= rsej(α+β) und jβ =
se
Beweis:
eja ejβ
für Multiplikation und Division komplexer Zahlen:
r j(α−β)
(s = 0)
e
s
= (cos (α) + j sin (α)) (cos (β) + j sin (β))
= cos (α) cos (β) − sin (α) sin (β) + j (sin (α) cos (β) + cos (α) sin (β))
= cos (α + β) + j sin (α + β) (Additionstheoreme für cos, sin (!)
= ej(α+β) .
Die zweite Aussage versteht sich sofort daraus, die dritte folgt so: sejβ rs ej(α−β) = rejα . Also
r j(α−β)
. - Eine Begründung der Additionstheoreme werden wir noch über Drehmatrizen geben.
se
Bemerkung: In Mathematik B werden wir genauer sehen, dass
rejα
sejβ
=
f (a + jb) = ea+jb = ea (cos (b) + j sin (b))
tatsächlich die Fortsetzung der Exponentialfunktion ins Komplexe darstellt. Wir halten aber schon einmal
fest, dass wir mit ejz ganz ’normales’ Rechnen mit Exponenten betreiben können. Mit anderen Worten:
Wir haben das lästige Rechnen mit cos, sin im Rechnen mit der komplexen Exponentialfunktion aufgehen
lassen. Die kurze und sehr einfache Formel ej(α+β) = ejα ejβ umfasst beide Additionstheoreme!
114
5. KOMPLEXE ZAHLEN
Satz 40 (Potenzieren und Wurzelziehen mit Polarkoordinaten). Wir haben für n ∈ N0 :
jα n
= rn ejnα ,
re
Alle n − ten Wurzeln von z = rejα sind :
√
α+2kπ
n
rej n , k = 0, ..., n − 1. (r ≥ 0 ist vorausgesetzt!)
Jede komplexe Zahl z = 0 hat also genau n verschiedene Wurzeln, und diese gehen durch fortgesetzte
Drehung um den Winkel 2π/n auseinander hervor.
erste Aussage folgt sofort aus dem vorigen Satz über die Multiplikation. Die zweite:
Die
√ Beweis:
n
α+2kπ
n
rej n
= rej(α+2kπ) = rejα . (Addition eines Winkels 2kπ mit ganzer Zahl k bedeutet Drehen
mit einem Vielfachen des Vollwinkels, es resultiert also dieselbe Zahl.) Andererseits sind die Wurzeln
√
α+2kπ
n
rej n für verschiedene Werte k1 , k2 ∈ {0, ...n − 1} auch wirklich verschieden, da der Betrag ihres
Winkelunterschiedes gerade 2|k1n−k2 | π < 2π ist.
Zur Umwandlung von kartesischen in Polarkoordinaten und umgekehrt hat man folgende Formeln:
Eindeutige Umwandlung von z = a + jb = 0 in z = rejα :
r = a2 + b2

arctan ab , wenn
a>0



π + arctan ab , wenn a < 0
α =
π
, wenn a = 0 und b > 0


 2π
− 2 , wenn a = 0 und b < 0
Alternative Berechnung des Winkels :

 arccos √ 2a 2 , wenn b ≥ 0
a +b α =
 − arccos √ 2a 2 , wenn b ≤ 0
a +b
Bemerkung: Für a = b = 0, also z = 0, hat man keine eindeutige Winkelbestimmung.
Die Umwandlung in der anderen Richtung ist einfacher:
z = rejα , dann z = r cos (α) + jr sin (α) .
Hier ist eine Tabelle der Sinus- und Cosinuswerte besonders einfacher Winkel, so dass man die kartesischen Koordinaten zu komplexen Zahlen mit diesen Winkeln exakt ausrechnen kann:
Winkel α
sin (α)
cos (α)
1
2
π
6
1
2
√
3
π
4
√
1
2 √2
1
2 2
π
1
2
3
√
3
1
2
√
√
√
Beispiele: 2e−7jπ/4 = 2ejπ/4 = 2 +j 2, 3e−2jπ/3 = − 32 − 32 j 3. (Für die anderen Quadranten muss
man lediglich noch auf die Vorzeichen von sin, cos achten.
4. POLARKOORDINATENDARSTELLUNG KOMPLEXER ZAHLEN
115
Zur Veranschaulichung von Polarkoordinaten betrachte man noch einmal dies Bild:
z=re jx
Quadratwurzel von z
x
z=re -jx
√
√
Dabei ist x im gezeichneten Beispiel 3π
, r = 2, also ist 4 2e3jπ/8 eine der beiden Quadratwurzeln von
4
√
z = 2e3jπ/4 . Man beachte, dass die Konjugierte von rejα einfach re−jα ist. Folgendes Bild zeigt alle
fünften Wurzeln einer komplexen Zahl:
z
Rot: Alle 5. Wurzeln von z
KAPITEL 6
Lineare Algebra
1. Grundbegriffe der linearen Algebra und wichtige Resultate dazu
Grundbegriffe:
Vektorraum (über einem Körper K), Unterraum,
Linearkombination,
lineare Unabhängigkeit, Koeffizientenvergleich, Erzeugendensystem, Basis, Dimension
Basen und Koordinatensysteme, Koordinatendarstellung eines
Vektors bezüglich einer Basis
Sätze:
Operationen an einem System von Vektoren, welche nichts Wesentliches ändern
Existenz von Basen eindeutiger Länge
Basisergänzungssatz
Rechentechnik:
Praktische Feststellung linearer Unabhängigkeit (Abh.) eines Systems von Vektoren aus K n
Ausdünnen eines Erzeugendensystems (für einen Unterraum des K n ) zu einer Basis
Vorbemerkung: Es genügt hier, bei ’Körper’ an R oder vielleicht noch C zu denken.
Definition 29. Ein Vektorraum über dem Körper (K, +, ·, 0, 1) ist eine nicht leere Menge V zusammen mit einer inneren Verknüpfung (oder zweistelligen Operation)
einer einstelligen Operation
+ : V × V →
V
,
−
→
→
→
→
x,−
y
→ −
x +−
y
−:
V → V
−
→
→
x → −−
x
und einer äußeren Verknüpfung
: K × V → V
→
→
λ, −
x
→ λ−
x
117
118
6. LINEARE ALGEBRA
derart, dass folgende Axiome erfüllt sind:
→ −
−
→
x + −
y +→
z
=
−
→ −
→
0 + x =
−
→
→
−x +−
x =
−
→
−
→
x + y =
→
(αβ) −
x =
−
→
→
→
x +−
y +−
z
−
→
x
−
→
0
−
→
→
y +−
x
−
→
α βx
→
→
→
(α + β) −
x = α−
x + β−
x
−
→
→
→
α →
x +−
y
= α−
x + α−
y
−
→
−
→
1· x = x
Beispiele für Vektorräume:
V 3 , VO3 sind die bereits bekannten konkreten geometrischen Vektorräume
der Pfeilklassen bzw. der Ortsvektoren im dreidimensionalen Anschauungsraum,
Rn ist Vektorraum über R, allgemeiner K n über K,
Cn ist Vektorraum über C, (n− dimensional über C, s.u.)
Cn ist Vektorraum über R, (2n− dimensional über R, s.u.)
Die Menge { f| f : [0, 1] → R, f stetig} ist mit den Operationen f + g, λf
ein Vektorraum über R (fürchterlicher unendlicher Dimension)
Bemerkung: Rn spielt die größte Rolle bei der unmittelbaren Beschreibung naturwissenschaftlicher Sachverhalte, aber Funktionenräume (einiger Arten von Funktionen) bilden das Rückgrat der angewandten Mathematik. Zum Beispiel besagt ein wichtiger Satz der Mathematik (Approximationssatz von
Bernstein), dass man jede stetige Funktion auf [0, 1] (oder einem anderen abgeschlossenen Intervall) beliebig gut und gleichmäßig durch ein Polynom annähern kann. Der Raum der Polynome ist aber schon
nicht mehr ganz so fürchterlich, er hat eine abzählbar unendliche Basis (konkrete Erläuterung weiter
unten).
Praktisches Rechnen: Wie im Körper, nur niemals durch einen Vektor dividieren:
−
→
→
0−
x = 0,
−
→ −
→
λ 0 = 0 , −
→
→
→
→
λ x − −
y = λ−
x − λ−
y,
−
→
−
→
→
→
→
→
(α + β) x − y + γ δ −
x −−
y = (α + β + γδ) −
x − (α + β + γ) −
y (stets so zusammenfassen!)
n
→
→
→
Definition 30. Eine Linearkombination der Vektoren −
x 1 , ..., −
x n ist ein Ausdruck
αk −
x k . Die
skalaren Vorfaktoren nennt man gern ’Koeffizienten’.
k=1
Folgendes Ergebnis dazu ist selbstverständlich (vgl. vierte Beispielrechnung oben):
→
→
Satz 41. Jeder Ausdruck der Vektorrechnung in den Vektorvariablen (oder Konstanten) −
x 1 , ..., −
xn
n
→
lässt sich schreiben als Linearkombination
αk −
x k , mit irgendwelchen Skalaren αk , 1 ≤ k ≤ n. Hinweis:
k=1
→
→
Ähnlich wie bei Zahlen schreiben wir lieber −
a 1 , ..., −
a n für Vektoren, welche im Zusammenhang konstant
gehalten werden.
Definition 31. Ein Unterraum eines Vektorraums V über K ist eine Teilmenge U ⊂ V, derart dass
−
→
0 ∈ U,
−
→
→
→
→
x,−
y ∈ U =⇒ −
x +−
y ∈U
−
→
→
x ∈ U, λ ∈ K =⇒ λ−
x ∈U
1. GRUNDBEGRIFFE DER LINEAREN ALGEBRA UND WICHTIGE RESULTATE DAZU
119
−
→
Erläuterung: Ein Unterraum U von V ist also eine Teilmenge, die wenigstens 0 enthält und abgeschlossen
ist unter den linearen Operationen von V, mit den von V ’geerbten’ linearen Operationen selbst wieder
−
→
ein Vektorraum ist. Der kleinste Unterraum ist offenbar { 0 }, der größte V selbst, ferner erhält man
folgende Unterräume:
→
→
Satz 42. Seien −
a 1 , ..., −
a n ∈ V, V Vektorraum über K, dann ist
/ n
0
−
−
−
→
→
→
Spann a 1 , ..., a n :=
αk a k αk ∈ K, 1 ≤ k ≤ n
k=1
→
→
→
→
ein Unterraum von V. Er heißt der von −
a 1 , ..., −
a n erzeugte Unterraum. Entsprechend heißt −
a 1 , ..., −
an
ein Erzeugendensystem für diesen Unterraum. Man kann sogar den von der leeren Menge von Vektoren
−
→
−
→
erzeugten Nullraum { 0 } noch hinzunehmen - die leere Summe hat Wert 0 . Wenn V selbst ein endliches
Erzeugendensystem hat, dann erhält man auf diese Weise alle Unterräume von V.
Begründung: Man achte nur darauf, dass eine Summe von zwei Linearkombinationen der Vektoren
→
−
→
a n wieder eine solche ist und auch die Multiplikation einer Linearkombination mit einem Skalar
a 1 , ..., −
−
→
λ wieder eine solche ist. Ferner ergibt Setzen aller Koeffizienten zu Null den Nullvektor, also 0 ∈ U. Dass
man so alle Unterräume bekommt bei endlich erzeugtem V, folgt aus dem Basisergänzungssatz (s.u.).
Beispiele für Unterräume: Alle Unterräume des R3
−
→
1.) Nulldimensionale: Nur { 0 }
→ −
−
→
2.) Eindimensionale: Alle Ursprungsgeraden Spann −
a ,→
a = 0
−
→ → −
→
→
3.) Zweidimensionale: Alle Ursprungsebenen Spann −
a, b , −
a , b linear unabhängig
4.) Dreidimensionale: Nur R3 .
Frage: Wann ist eine Darstellung durch Linearkombination eindeutig, so dass man also aus
n
k=1
n
−
→
αk −
ak =
βk→
a k schließen kann, dass für alle k (1 ≤ k ≤ n) gilt: αk = β k ?
k=1
Das ist ein wichtiger Vorgang, den man ’Koeffizientenvergleich’ nennt. Wann also darf man Koeffizientenvergleich machen?
→
→
Definition 32. Die Vektoren −
a 1 , ..., −
a n heißen linear unabhängig, wenn eine der folgenden (gleichwertigen!) Eigenschaften erfüllt ist:
(i)
(ii)
n
k=1
n
→
λk −
ak
=
→
λk −
ak
=
k=1
(iii)
−
→
0 =⇒ für alle i, 1 ≤ i ≤ n, gilt: λi = 0
n
k=1
−
→
ai
=
→
µk −
a k =⇒ für alle i, 1 ≤ i ≤ n, gilt: λi = µi
→
λk −
a k für alle i und alle λk , k < i.
1≤k<i
→
→
Eine allgemeine Beobachtung zum anschaulichen Verständnis: Dass ein System von Vektoren −
a 1 , ..., −
an
−
→
−
→
linear unabhängig ist, bedeutet geometrisch: a 1 ist nicht der Nullvektor, und a 2 ist nicht parallel zu
−
→
−
→
−
→ −
→
→
a 1 , und
a 3 ist nicht
wird, und −
a 4 ist nicht in
−
parallel zur Ebene, welche von a 1 , a 2 aufgespannt
→
−
→
−
→
−
→
−
→
−
→
Spann a 1 , a 2 , a 3 , also nicht parallel zum Unterraum welcher von a 1 , a 2 , a 3 aufgespannt wird,
usw.
Konkretes Beispiel zum anschaulichen Verständnis und zum Verständnis der Versionen (i) − (iii)
des Begriffs der linearen Unabhängigkeit: Von den folgenden Vektoren in der Ebene sind je zwei linear
120
6. LINEARE ALGEBRA
unabhängig, aber das System aller drei Vektoren ist linear abhängig:
2
1.8
1.6
1.4
b
a
1.2
1
0.8
c
0.6
0.4
0.2
0
0
0.5
1
1.5
2
2.5
3
Lineare Unabhängigkeit eines Systems von zwei Vektoren bedeutet nämlich: Keiner ist Vielfaches des
anderen. Also im Beispiel:
−
−
→ → −
→ −
−
→
a ,→
c ,
b,→
c sind alle linear unabhängig,
a, b , −
−
→ →
→
aber das System −
a, b,−
c ist linear abhängig. Denn wir haben :
Die Systeme
−
→
c =
→
1→ 3−
1
3
2
1
3
=− −
a + b =−
+
, das bedeutet lineare Abhängigkeit gemäß (iii) .
1
2
2
4
4
4
4
→
−1 −
3−
→
→
a + b + (−1) −
c = 0, das bedeutet lineare Abhängigkeit gemäß (i) ,
4
4
→
−
→
−1 −
3−
−1
→
→
→
→
a + b + (−1) −
c = 0−
a + 0 b + 0−
c (und 0 =
), lineare Abhängigkeit gemäß (ii) .
4
4
4
Nach dem nächsten Satz können wir das praktischste Verfahren angeben, um die lineare Unabhängigkeit
oder Abhängigkeit eines Systems von Vektoren im Rn oder Cn festzustellen - mit dem letzten Satz dieses
Abschnittes ist es allerdings völlig allgemein für jeden Vektorraum anzuwenden.
→
→
→
Lemma 2 (Hauptlemma). Ersetzt man im System −
a 1 , ..., −
a n einen der Vektoren, sagen wir −
a i,
n
→
→
durch −
ai +
αk −
a k , so ändert sich nichts an der Eigenschaft der linearen Abhängigkeit oder Unk=i
abhängigkeit, auch nichts am erzeugten Unterraum.
Diese Aussage hat zwei sehr wichtige direkte Anwendungen:
1. GRUNDBEGRIFFE DER LINEAREN ALGEBRA UND WICHTIGE RESULTATE DAZU
Praktisches Verfahren zur Feststellung linearer Unabhängigkeit / Abhängigkeit:
Man schreibt die Vektoren als Spalten einer Matrix auf.
Man erzeugt Nullen, von einer Spalte zur nächsten mindestens eine weitere Null, indem man
→
→
→
→
eine Spalte −
x ersetzt durch λ · −
x + µ−
s , mit einer anderen Spalte −
s und λ = 0.
Entsteht dabei keine Null-Spalte, war das System der Spaltenvektoren linear unabhängig.
Entsteht eine Null-Spalte, so war es linear abhängig.
Beispiel:





1
3
2
1
4
4
1 4
0
 2

 2

 2 4
2
2
4
6
2

→
→
 −1 1
 −1

 −1 0
2 
0
0
0
I II III
II ′ = II + I III ′ = III + 2 · I
III ′ − II ′

    
1
3
2
also sind die Vektoren  2  ,  2  ,  2  linear unabhängig.
−1
1
2
121


,

Die zweite Anwendung folgt nach der Definition des Begriffs der Basis.
Wir kommen zu einer wichtigen Definition:
Definition 33. Ein linear unabhängiges Erzeugendensystem für V heißt eine Basis für V.
     
1
0
0
−
→
→
e 2, −
e 3 =  0  ,  1  ,  0  bildet eine Basis für R3 . Denn
Beispiel: Das System →
e 1, −
0
0
1
offenbar sind diese Vektoren linear unabhängig (man wende obenstehendes Verfahren an - es ist nichts
zu tun!), außerdem hat man


x
→
→
→
 y  = x−
e 1 + y−
e 2 + z−
e 3.
z
→
→
Also handelt es sich um eine Basis des R3 . Allgemeiner bildet e = −
e 1 , ...,−
e n eine Basis des Rn . Dabei
→
ist −
e k der Spaltenvektor der Längen, dessen Eintrag
an der k. Stelle Eins ist, sonst lauter Nullen.
1
1
Weiteres Beispiel: Das System
,
bildet ebenfalls eine Basis des R2 . Denn die Vektoren
1 −1
sind linear unabhängig, außerdem hat man
1
1
x
1
1
1
1
=
x
+
+ y
−
y
1
−1
1
−1
2
2
1
1
1
1
1
1
=
x+ y
+
x− y
.
1
−1
2
2
2
2
Also bilden sie auch ein Erzeugendensystem für den R2 . (Später werden wir sehen, warum die lineare
Unabhängigkeit bereits genügt hätte.) Man merke also: Es gibt in einem Vektorraum eine unübersehbare
Fülle von Basen, nicht etwa ’die’ Basis. Kommt hinzu: Man hat oft eine für die verfolgten Zwecke günstige
auszuwählen. Dazu später mehr.
Es gibt auch Vektorräume mit unendlichen Basen, ’unendlichdimensionale’ Vektorräume genannt.
Dazu gehören vor allem die wichtigen Funktionenräume. Wir wollen hier wenigstens den harmlosesten
darunter betrachten, den Raum aller Polynome mit reellen Koeffizienten. Dafür gibt es keine endliche
Basis, wohl aber folgende unendliche: 1, x, x2 , ..., xn , ... Was heißt es, dass diese Polynome alle linear
unabhängig sind? Einfach dies: Keines der gesamten Folge ist Linearkombination der vorigen. (Unser
Wissen über das Wachstum von Polynomen erlaubt ohne weiteres diesen Schluss: xn+1 ist nicht darstellbar
n
αk xk , weil xn+1 schneller wächst mit x → ∞.) Was bedeutet es, dass die genannte unendliche Folge
als
k=0
von Polynomen ein Erzeugendensystem für den Raum aller Polynome bildet? Einfach dies: Jedes Polynom
ist eine endliche Linearkombination von Polynomen aus dieser Folge. Das ist nun ohne weiteres einsichtig,
122
6. LINEARE ALGEBRA
da nach Definition jedes Polynom endlichen Grad n hat und daher Linearkombination der 1, ..., xn ist,
also von endlich vielen Polynomen unserer Folge. Das meint man, wenn man von einer unendlichen Basis
eines Vektorraums spricht, sogar noch im Falle, dass man nicht einmal mehr eine abzählbar unendliche
Basis hat.
Satz 43. Jedes Erzeugendensystem von V ist entweder selbst bereits eine Basis, also linear unabhängig, oder es kann zu einem linear unabhängigen Erzeugendensystem, also einer Basis für V, ’ausgedünnt’ werden durch Fortlassen von gewissen Vektoren. (Uns genügt der Fall eines endlich erzeugten
V.)
Es folgt die angekündigte zweite Anwendung des Hauptlemmas, die praktische Umsetzung dieses
Satzes:
Praktisches Verfahren zum Ausdünnen eines Erzeugendensystems zu einer Basis:
−
→
−
→
1.) Man schreibt die Vektoren b 1 , ..., b r ∈ K n als Spalten einer Matrix
2.) Man wendet oben angewandtes Verfahren zur Erzeugung
von Nullen
an.
−
→
−
→ 3.) Die verbliebenen Vektoren bilden eine Basis für Spann b 1 , ..., b r
Hinweis: Die Sache klappt auch, wenn die Vektoren nicht aus K n sind, dann arbeitet man ebenso
mit ihren Koordinatendarstellungen (s.u.) und geht anschließend wieder zu den Vektoren selbst über.
Gerade kamen wir ’von oben’ und schmolzen ein Erzeugendensystem zu einer Basis zusammen. Nun
gehen wir in umgekehrter Richtung und ergänzen ein beliebiges linear unabhängiges System in V zu einer
Basis von V.
Satz 44 (Basisergänzungssatz). Jedes linear unabhängige System von Vektoren aus V kann zu einer Basis von V ergänzt werden, und zwar durch Hinzunahme von Vektoren aus irgendeinem beliebig
vorgegebenen Erzeugendensystem für V.
   
2
1
Praktisches Beispiel: Wir ergänzen das System  2  ,  1  zu einer Basis des R3 . Wir wissen,
1
1
→
dass
wir
als
dritten
Vektor
einen
der
Einheitsvektoren
nehmen
können.
Versuchen wir es also mit −
e1 =
 
1
 0  . Wir wenden das obenstehende Verfahren zur Feststellung der linearen Unabhängigkeit an und
0
finden: Das System
     
1
2
1
b =  2  ,  1  ,  0 
1
1
0
ist linear unabhängig. (Man rechnet das sofort nach, indem man den zweiten Vektor durch II −I ersetzt.)
→
→
Nun ist Folgendes interessant: Nach unserem bisherigen Wissen müssten wir Hinzufügen von −
e 2, −
e3
probieren und lineare Abhängigkeit feststellen, um zu wissen, dass das System b bereits eine Basis bildet.
→
→
→
Aber der folgende Satz macht eine solche Rechnung überflüssig: Da der R3 mit −
e 1, −
e 2, −
e 3 bereits eine
bekannte Basis der Länge 3 hat, muss b bereits eine Basis sein - jeder weitere Vektor wäre linear abhängig
von den dreien, also bilden sie auch ein Erzeugendensystem.
Satz 45. Jede Basis für V hat die gleiche Länge, und diese heißt Dimension von V (’über K’ fügt
man hinzu, wenn nicht ohne weiteres klar ist, als Vektorraum über welchem Körper K der Raum V
aufzufassen ist.) Länge Null ist dabei eingeschlossen, d.h. eine Basis ist leer, und es wird der Nullraum
erzeugt.
1. GRUNDBEGRIFFE DER LINEAREN ALGEBRA UND WICHTIGE RESULTATE DAZU
123
→
→
Satz 46 (Basen als Koordinatensysteme). Jede Basis a = −
a 1 , ..., −
a n eines Vektorraums V über
K definiert einen Vektorraumisomorphismus
(·)a :
V
−
→
x =
n
k=1
→
→
αk −
ak
Kn

α1

 .
→
→
→ −
xa =
αk −
e k =  ... 
k=1
αn
n

Vektorraumisomorphismus
Die Abbildung
bijektiv und erhält die Vektorraumstruktur, ist also
→ −
a →heißt:
→a ist−
→
→
→
linear, d.h. −
x +→
y =−
xa +−
y a und λ−
x = λ→
x a für alle λ ∈ K, −
x,−
y ∈ V. Wir bezeichnen:
−
→
→
x a heißt Koordinatendarstellung von −
x bezüglich der Basis a.
Die Abbildung heißt entsprechend Koordinatendarstellungsabbildung.
Die Umkehrabbildung ist die Lin

α1
n


→
earkombinationsabbildung La , mit La  ...  =
αk −
a k . Sie ordnet einem Koordinatenvektor die
k=1
αn
entsprechende Linearkombination in V zu. Mit ihrer Hilfe können wir jederzeit von einer Koordinatendarstellung zum Vektor selbst wieder übergehen.
Wir haben sogleich eine wichtige
Folgerung 5. Jeder n− dimensionale Vektorraum V über K ist isomorph zu K n . (Denn die im
Satz formulierte Abbildung ergibt einen Isomorphismus nach Wahl einer Basis für V .)
Hinweis: Die Abbildungen (·)a , La sind grundlegend für das Verständnis des gesamten Themas: Koordinatentransformation, Matrix einer linearen Abbildung bezüglich gegebener Basen, Transformation
dieser Matrix bei Basiswechsel. Wir bringen nun drei Beispiele zum Verständnis. Zuvor heben wir eine
wichtige allgemeine Beobachtung hervor, die man sich günstig merkt:
→
→ a −
→
Beobachtung: Stets gilt für a = −
a 1 , ..., −
an : −
ak =→
e k.
→
→
Beispiel 1: V = Rn , Basis: a = e = −
e 1 , ..., −
en
→
→
Dann 
ist −
x e
=−
x , also (·)e und ebenso Le die Identität auf Rn .
x1
n
 ..  −
Denn  .  =
xk →
ek
xn
k=1
Kommentar: In Beispiel 1 ist offenbar alles besonders einfach, insbesondere braucht man darin nicht
zwischen Vektoren und ihren Koordinatendarstellungen zu unterscheiden. Warum macht man es sich
nicht immer so einfach? Erster Grund: Man hat es mit Vektorräumen zu tun, die nicht Rn sind, aber
über eine Abbildung (·)a kann man dann doch wieder mit Rn arbeiten. Dazu folgendes
124
6. LINEARE ALGEBRA
Beispiel 2: (V ist kein Rn )
V = Menge
aller Polynome
mit reellen Koeffizienten vom Grad ≤ 4,
Basis: a = 1, x, x2 , x3 , x4


α0
4
→a  . 
→
Dann ist für −
y =
αk xk ∈ V : −
y =  .. 
k=0
α4
Also kann man ein Polynom durch seine Koeffizientenfolge codieren,
und das nutzt man in Computerprogrammen (z.B. Matlab) weidlich aus.
a
Beispiele für das Funktionieren
der 
Koordinatendarstellungsabbildung
(·) :



1
2
 2 
 0 
 

a 
a
2
3
4


2 + 3x3 − x4 = 
 0  , L  3  = 1 + 2x + 3x + 4x + 5x .
 4 
 3 
5
−1
Es gibt aber auch noch wichtige Gründe dafür, selbst bei Vorliegen von V = Rn nicht die Basis e zu verwenden,
eine andere: Man will etwa eine Ellipse beschreiben, die Halbachsenrich sondern
1
−1
tungen
,
mit Halbachsenlängen a, b hat. Dann wählt man zweckmäßig die Basis c =
1
1
√ √ 2
2
1
−1
,
und bekommt folgende Parametrisierung der Ellipsenbahn:
1
1
2
2
√ √ 2
2
a cos (t)
1
−1
−
→
c
x (t) = L
= a cos (t)
+ b sin (t)
,
b sin (t)
1
1
2
2
ferner bekommt man in den Koordinaten zu Basis c folgende einfache vertraute Gleichungsdarstellung
der Ellipsenpunkte:
x
−
→
ist Punkt auf der beschriebenen Ellipsenbahn genau dann, wenn
x =
y
2 2
y&
x
&
x
&
−
→
xc =
die Gleichung
+
= 1 erfüllt.
y&
a
b
Wir führen für die Beispiel das Funktionieren von (·)c und Lc aus wie in den vorangegangenen Beispielen:
Beispiel 3:
V = R2 √ √ 2
2
1
−1
Basis: c =
,
1
1
2
2
√
 √

2
2
y 
→c
x
x
&
 2 x+ √
→
2
Dann ist für −
x =
∈ R2 : −
x =
= ∗ √
,
y
y&
2
2
−
x+
y
2
2
√
 √

2
2
√ √ &−
y& 
2
2
x
&
1
−1
 √2 x
c
√2
L
=x
&
+ y&
=

y&
1
1
2
2
2
2
x
&+
y&
2
2
Zu ∗ ): Zunächst ist Lc klar, aber (·)c ist die Umkehrabbildung davon. Das brauchen wir nicht ’zu Fuß’
auszurechnen, sondern wir sehen, dass Lc (als Abbildung R2 → R2 geometrisch aufgefasst) die Drehung
2. LINEARE ABBILDUNGEN
125
c
um den Ursprung mit π/2 entgegen dem Uhrzeigersinn ist, also ist (·) die Drehung um den Ursprung
mit demselben Winkel im Uhrzeigersinn. Wir kennen ja bereits die Drehmatrizen.
2. Lineare Abbildungen
Vorbemerkung: Die linearen Abbildungen gehören unmittelbar zu den Vektorräumen, es sind solche
Abbildungen zwischen Vektorräumen, welche die Vektorraumstruktur erhalten. Solche Abbildungen sind
einerseits als solche interessant - man beschreibt damit Drehungen usw., ferner liefern sie das Verständnis
der linearen Gleichungssysteme, welche in einer Fülle von Zusammenhängen auftreten. Andererseits
sind die linearen Abbildungen, die man sehr gut beherrscht, zentrale Hilfsmittel beim Studium nichtlinearer Abbildungen - wir werden ihnen in der mehrdimensionalen Analysis vielfach begegnen, auch in
der Theorie der linearen Differentialgleichungen (gewöhnlich wie partiell) spielen sie eine große Rolle.
Grundbegriffe:
Begriff der linearen Abbildung V → W (V, W Vektorräume über K)
Kern und Bild einer linearen Abbildung
Sätze:
Kriterien für Injektivität, Surjektivität, Bijektivität linearer Abbildungen
Dimensionssatz für Dimension von Kern, Bild, Urbildraum
Rechentechniken:
Lineares Rechnen,
Berechnung des Bildes einer linearen Abbildung und des Ranges einer linearen Abbildung
(letztere ist nur die Anwendung der Technik des Ausdünnens von Erzeugendensystemen zu Basen)
Berechnung des Kerns eines linearen Abbildung
(erste Version, später kommt eine praktischere, die Berechnung von Kern und Bild zusammenfasst)
−
→
Es seien V, W Vektorräume über K. Eine Abbildung f : V → W heißt linear, wenn
−
→ → −
−
→ → −
→ →
→
→
(i) f −
x +→
y
= f −
x + f −
y für alle −
x,−
y ∈ V und
−
→ −
−
→ −
→
→
−
→
(ii)
f λx
= λ f x für alle x ∈ V, λ ∈ K.
Beispiele für lineare Abbildungen:
1) Sei m ∈ R, dann ist fm : R → R, fm (x) = mx, eine lineare Abbildung, und jede lineare Abbildung
R → R hat diese Gestalt. Achtung: Man nennt auch zuweilen Funktionen g (x) = mx + b linear, aber
mit b = 0 sind sie nicht lineare Abbildungen im Sinne der linearen Algebra, genauer nennt man sie affin.
Denn wir haben g (0) = b = 0.
2) Die Drehung um den Ursprung im R2 entgegen dem Uhrzeigersinn mit Winkel α ist eine lineare
Abbildung, da offenbar Drehung und Streckung mit λ vertauschen und ein Dreieck mit Kantenvektoren
−
→ → −
→
−
→
a , b,−
a + b starr als ganze Figur gedreht wird, so dass die Drehung auch mit der Vektoraddition
−
→
vertauscht. Dagegen ist eine Drehung um einen Punkt P, 9xP = 0 , mit einem Winkel α, der kein Vielfaches
von 2π ist, offenbar nicht linear, weil diese Drehung den Ursprung nicht in sich überführt. Allerdings
ist eine solche Drehung affin. Denn bezeichnen wirsie mit D
Drehung um den
und die entsprechende
→
→
→
Ursprung mit D0 , so haben wir D−
x = 9xP + D0 −
x − 9xP = 9xP − D0 9xP + D0 −
x , mit der linearen
Abbildung D0 . Analoge weitere Beispiele sind Drehungen um eine Koordinatenachse im R3 oder auch
die Spiegelung an einer Koordinatenebene. (Spiegelungen an anderen Ebenen sind wiederum affin.)
3) Die Projektion im R3 auf die xy− Ebene parallel zur z− Achse ist linear, die Projektion auf eine
Ebene parallel zur xy− Ebene, welche den Usprung nicht erhält, ist wiederum eine affine Abbildung.
126
6. LINEARE ALGEBRA
4) In der Elektrotechnik betrachtet man lineare Vierpole, die mit Schaltungen von Widerständen
aus einer Eingabespannung U2 und einem Eingabestrom I2 eine Ausgangsspannung U1 und einen Aus−
→
gangsstrom I1 in linearer Weise machen, so dass die Abbildung f (U2 , I2 ) = (U1 , I1 ) eine lineare Abbil2
2
dung R → R ist. Ein konkretes Beispiel dazu: Wir betrachten folgenden Vierpol (die vier Pole sieht
man durch kleine Kringel verdeutlicht) - nach dem Bild würde man eher dazu neigen, das Paar (U1 , I1 )
als Eingabe und das andere als Ausgabe zu betrachten, aber wir werden sehen, dass man mit linearer
Algebra ganz leicht von der einen zur anderen Version wechseln kann (Stichwort: ’Inverse Matrix’) und
dass die Beziehungen indessen für die angegebene Richtung einfacher wird, weshalb man sie eben auch
in der Elektrotechnik bevorzugt.
I
I2
1
o
o
R
U1
o
U
2
o
(Man beachte die vorgegebenen Zählrichtungen.)
Die Kirchhoffgleichungen hierzu liefern sofort: (I1 − I2 ) R = U1 = U2 , also können U1, I1 wie folgt durch
U2 , I2 ausgedrückt werden:
U1
I1
= U2
1
=
U2 + I2
R
Man beachte: Diese Gleichungen sind linear, U1 , I1 sind durch lineare Funktionen im engeren Sinne (also
ohne additive Konstante, nicht affin) ausgedrückt. Diese Rechnung werden wir sogleich implementieren
als ’Matrix mal Vektor’, was wir schon einmal in diesem Beispiel vorführen:
1 0 −
→
U1
U2
U2
1
=
= f
.
I1
I2
I2
1
R
1 0
Man sieht: Die Matrix
1
besteht einfach aus den abzulesenden Koeffizienten des linearen Gle1
R
ichungssystems mit seinen zwei Zeilen und zwei Spalten. Entsprechend handelt es sich um
eine Matrix
U2
mit zwei Zeilen und zwei Spalten ((2 × 2) − Matrix) ; sie wird mit dem Vektor
derart multiI2
pliziert, dass dieser Vektor quer auf die beiden Zeilen der Matrix gelegt wird, aufeinanderliegende Zahlen
multipliziert werden und in einer Zeile addiert. So ergibt das für die erste Zeile: 1 · U2 + 0 · I2 = U1 , das
1
ist die erste Komponente des Resultats (links). Für die zweite Zeile ergibt das:
· U2 + 1 · I2 , was nach
R
der Kirchhoffgleichung I1 ergibt. Es ist also die Operation ’Matrix mal Vektor’ gerade so gestaltet, dass
die eine Seite eines ordentlich geschriebenen linearen Gleichungssystems herauskommt. Wir werden diese
Operation später viel allgemeiner besprechen und systematisch mit linearen Abbildungen koppeln. Wir
2. LINEARE ABBILDUNGEN
127
−
→
wollen in diesem Beispiel noch einmal konkret verifizieren, dass die eingeführte Abbildung f wirklich
linear ist:
U2 + U3
−
→ U2
U3
1
f
+
=
I2
I3
(U2 + U3 ) + I2 + I3
R
U2
U3
=
1
+
1
U2 + I2
R U3 + I3
R
−
→ U2
−
→ U3
+ f
,
= f
I2
I3
λU2
U2
−
→
−
→ U2
U2
1
1
f λ
=
=λ
=λf
.
I2
I2
λU2 + λI2
U2 + I2
R
R
Rechentechnik: Lineares Rechnen
−
→
−
→ →
−
→ →
−
→ →
−
→ →
→
→
Mit linearem f hat man: f α−
x + β−
y − γ−
z =αf −
x +β f −
y −γ f −
z ,
−
→ −
−
→
allgemeiner folgt sofort die Berechnung eines beliebigen Bildvektors f →
x , wenn f : V → W linear ist und
n
→
−
→
→
→
→
f auf einer Basis a = −
a 1 , ..., −
a n bekannt ist, nämlich mit eindeutiger Darstellung −
x =
αk −
ak :
k=1
n
n
−
−
→ −
→ −
−
→ → α →
α f −
f →
x = f
a
=
a .
k
k
k
k
k=1 k=1 −
→ −
→ −
−
→ −
→ −
→
→
−
→
f 0 = f 0 · 0 = 0 · f 0 = 0 (der Nullvektor wird stets auf den Nullvektor abgebildet)
Anwendungsbeispiele für das ’lineare Hochziehen’ ausgehend von den Bildern der Basisvektoren einer gegebenen Basis:
−
→
1) Sei f die Drehung im R2 um den Ursprung mit Winkel α entgegen dem Uhrzeigersinn. Dann
haben wir für die kartesischen Einheitsvektoren:
−
→ −
−
→ −
cos (α)
− sin (α)
→
→
f e1 =
, f e2 =
, also
sin (α)
cos (α)
−
→ −
−
→ −
−
→ x
−
→ −
cos (α)
− sin (α)
−
→
→
→
→
+y
f
= f xe1+ye2 =xf e1 +y f e2 =x
sin (α)
cos (α)
y
x cos (α) − y sin (α)
=
.
x sin (α) + y cos (α)
Die Fortsetzung läuft also über die Linearkombinationen automatisch, und diesen Automatismus werden
wir im nächsten Abschnitt allgemein durch die Operation ’Matrix mal Vektor’ realisieren.
2) Wir wenden denselben Mechanismus noch einmal an auf den Fall des linearen Vierpols
(Beispiel
U2
4 des letzten Beispielblocks) und finden damit die zugehörige Matrix noch einmal: Eingabe
=
I2
1
1
1
U2
0
1
liefert Ausgabe U1 = 1 und I1 = , also den Vektor
. Eingabe
=
liefert
0
I2
1
R
R
0
Ausgabe U1 = 0 und I1 = 1, also den Vektor
. Lineares Fortsetzen ergibt nunmehr:
1
−
→ U2
−
→ 1
−
→ 0
1
0
U2
f
= U2 f
+ I2 f
= U2
+
I
=
.
2
1
1
I2
0
1
1
R
R U2 + I2
U1
. In der Elektrotechnik nutzt man das gern
Das ist genau die oben angegebene Berechnung von
I1
für kompliziertere lineare Schaltungen aus, indem man die Kirchhoffgleichungen nicht für den allgemeinen
128
6. LINEARE ALGEBRA
1
0
und
. Man kann erken0
1
nen, wenn man stattdessen umgekehrt (U2 , I2 ) durch (U1 , I1 ) ausdrückt, dass die Koeffizienten häßliche
Vorzeichen bekommen, weshalb man die angegebene Richtung als Grundlage bevorzugt.
Aber es ist mit linearer Algebra noch viel größere Vereinfachung möglich, wie wir mit konkreten
Beispielen auch für Vierpole zeigen werden und in der Elektrotechnik gern benutzt wird, Stichwort:
Matrizenoperationen, insbesondere Produkte von Matrizen.
Fazit: Die linearen Abbildungen sind im Eindimensionalen etwas sehr Triviales, im Mehrdimensionalen aber bieten sie schon recht Reichhaltiges, Anwendbares. Daher ist es günstig, eine Reihe völlig
allgemeingültiger Resultate über lineare Abbildungen zu haben. Wie wir sehen werden, ist die Struktur
linearer Abbildungen (jedenfalls im Endlichdimensionalen) noch recht einfach zu handhaben.
Wir kommen nunmehr zu den wesentlichen Aussagen über lineare Abbildungen. Dazu ein paar Definitionen und Notationen:
Fall aufstellt, sondern nur die wesentlich einfacheren für die Fälle
−
→
Definition 34. Es sei f : V → W eine lineare Abbildung des Vektorraums V in den Vektorraum
W. Dann ist definiert:
−
1
−
→
→ → −
→2
→
Kern f := −
x ∈V
f −
x = 0 .
→
→
x 0 +Kern
Für −
x 0 ∈ V bezeichnen wir mit −
−
−
→
→
→
f folgende Menge (Kern f mit −
x 0 parallelverschoben):
−
→
→
→
−
→
→
x 0 + Kern f := −
x0 +−
u
−
u ∈V .
Ferner wie bei Abbildungen sonst auch:
Speziell ist also Kern
1
−
−
→−1 −
→ → → −
→2
→
f
{ b } := −
x ∈ V
f −
x = b .
−
−
1−
2
→ −
→ −
→
→ →
−
→ f = f −1 { 0 } . Ebenso Bild f := f −
x →
x ∈V .
Beispiel 1
−
→
f : R2 → R2 sei eine Drehung um den Ursprung, dann hat man offenbar:
−
−
−
−
→ →
→
→
→
−
→
→−1 −
−
→
→
Bild f = R2 , Kern f = { 0 }. Ferner für alle b ∈ R2 : f
{b} = −
a + Kern f = {−
a },
−
→ −
−
→
→
mit der eindeutigen Lösung von f a = b .
Beispiel 2
−
→
−
→ x
x
f : R2 → R2 sei gegeben durch f
=
(senkrechte Projektion auf die x− Achse), dann
y
0 −
→ −
→ →
−
→
Bild f = Spann −
e 1 = λ→
e 1 λ ∈ R , Kern f = Spann −
e 2 . Ferner
−
−
−
→−1
→
x
x
x x
→
f
=
y
∈
R
=
+
y
e
y
∈
R
=
+
Kern
f .
2
0
y 0
0
Später folgen Techniken, Bild und Kern ökonomisch auszurechnen in allen Fällen, hier genügte die
direkte Beobachtung. Man beachte, dass die Beispiele bereits sämtliche in den folgenden beiden Sätzen
allgemein ausgesprochenen Verhältnisse illustrieren.
2. LINEARE ABBILDUNGEN
gilt:
129
−
→
Satz 47. Es sei f : V → W eine lineare Abbildung des Vektorraums V in den Vektorraum W. Dann
−
→
f ist ein Unterraum von W
−
→
(ii) Kern f ist ein Unterraum von V.
−
−
→
→
−
→
= { 0 }.
(iii) f ist injektiv ⇐⇒ Kern f
−
→
−
→ −
→ →
(iv) Wenn b ∈ W und −
x 0 ∈ f −1 { b } , dann
−
−
→−1 −
→
→ →
f
{b} = −
x 0 + Kern f .
(i)
Bild
Zum konkreteren Verständnis des Satzes: (i) und (ii) besagen zunächst, dass Kern und Bild einer
linearen Abbildung zwischen Vektorräumen nicht irgenwelche ’wirren’ Mengen sind, sondern Unterräume,
die sich, wie wir wissen, darstellen lassen als Mengen aller Linearkombinationen von einigen Basisvektoren.
Es können im Extremfall auch die trivialen Unterräume (Nullräume) sein, mit leerer Basis. Wir werden
später sehen, dass die Lösungsmenge eines linearen homogenen Gleichungssystems stets der Kern einer
linearen Abbildung ist. Somit haben wir dann stets entweder die einzige Lösung ’Nullvektor’ oder aber
r
.
→
→
die allgemeine Lösung (oder parametrisierte Lösungsmenge) in der Form −
x (α , ..., α ) =
λ −
a mit
1
r
j
j
j=1
→
−
→
einer Basis −
a1 , ...,
a r des Kerns.
(Vgl. auch den nächsten Satz dazu (Nummer (v)), der die Dimensionen
−
−
→
→
von V, Kern f und Bild f miteinander verbindet.)
−
→
→
→
a n von V gilt:
Satz 48. Für jede lineare Abbildung f : V → W und jede Basis −
a 1 , ..., −
(i)
(ii)
(iii)
(iv)
Bild
−
→
f
−
→
f surjektiv
−
→
f injektiv
−
→
f bijektiv
=
⇐⇒
⇐⇒
⇐⇒
−
→ → −
→ → Spann f −
a 1 , ... f −
an .
−
→ −
−
→
→
f →
a 1 , ... f −
a n bildet ein Erzeugendensystem für W
−
→ −
−
→
→
f →
a 1 , ... f −
a n linear unabhängig
−
−
→ −
→ → f →
a 1 , ... f −
a n bildet eine Basis für W.
Ferner gilt folgende Dimensionsformel (auch: ’Dimensionssatz’):
(v)
−
−
→
→
dim Kern f
+ dim Bild f
= dim (V ) .
−
→
9
Man nennt dim Bild f
auch den Rang von f.
Aus (iv) ergibt sich die
Folgerung 6. Es gibt einen Isomorphismus zwischen Vektorräumen V und W (über demselben
Körper) genau dann, wenn dim (V ) = dim (W ) .
130
6. LINEARE ALGEBRA
−
→
Berechnung des Bildes einer linearen Abbildung f : Rn → Rm
−
→
−
→ −
−
→
sowie des Ranges von f , gegeben f →
e j = bj , 1 ≤ j ≤ n.
−
−
→
→
Schreibe die b j als Spalten einer Matrix - deren Spalten bilden ein Erzeugendensystem für Bild f
→
1.)
−
→
e(n) −
Diese Matrix heißt im nächsten Abschnitt Me(m) f , Matrix von f bezüglich der kanon. Basen)
Erzeuge Nullen mit elementaren Spaltenumformungen
2.)
(wie beim Gewinnen einer Basis aus einem Erzeugendensystem
−
→
3.) Resultat: Die verbliebenen Vektoren, welche verschieden von Null sind, bilden eine Basis für Bild f
−
→
3
Beispiel:
: R3 →
  f 
 R sei
 linear,
 und


  

1
1
0
−2
1
−1
−
→    −
→  
−
→
0
2
1
2 , f  0  =  4 .
f
=
, f
=
0
−3
0
−2
 1
0
1 −2 −1
2
4 ,
1.) Matrix  2
1 −3

 −2



1 −2 −1
1
0
0
1
0 0
2
4 → 2
6
6 → 2
6 0 
2.)  2
1 −3 
−2   1 
−1
1 −1 0
 −1
1
0
−
→
−
→
3.) Es bildet  2  ,  6  eine Basis für Bild f , und der Rang von f ist 2,
1
−1
die Dimension des Kerns ist also nach Dimensionssatz 1.
(Davon kennen wir allerdings noch nicht den Kern als Menge.)
Rechentechnik:
Abschließend wollen wir uns noch eine anschauliche Vorstellung von einer linearen Abbildung machen.
Das geht nicht ganz so einfach wegen der hohen Dimensionen (wir könnten allenfalls von einer linearen
Abbildung R2 → R1 noch einen Graphen zeichnen.) Aber zunächst einmal können wir immerhin lineare
Abbildungen R2 → R2 so veranschaulichen, dass wir typische einfache Teilmengen des Urbildbereiches
auswählen und die zugehörigen Bilder anschauen. Wir machen das so, dass wir die Abbildung auch für
einzelne Punkte verfolgen können:
2. LINEARE ABBILDUNGEN
131
x
2x + 3y
=
,
y
−x + y
blau: Urbildpunkte, rot: Bildpunkte - zeilenweise wird aufeinander abgebildet.
−
→
Hier ist die lineare Abbildung f
1
0.8
0.6
0.4
0.2
0
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
3
2
1
0
-1
-2
-4
-2
0
2
4
6
8
Wir zeigen auch noch, wie Kreise von derselben Abbildung abgebildet werden:
Dieselbe Abbildung macht aus Kreisen Ellipsen:
2
1
0
-1
-2
-2
0
2
2
1
0
-1
-2
-8
-6
-4
-2
0
2
4
6
8
Wir halten insbesondere fest: Gerade Linien, ebenso auch höherdimensionale geradlinig begrenzte
Gebiete, werden durch eine lineare Abbildung stets auf ebensolche abgebildet. Vorher stellten wir ja
schon allgemein rein algebraisch fest, dass Unterräume wie Geraden, Ebenen usw. auf solche abgebildet
werden. (Das gilt auch für affine Unterräume.) Allerdings können Dimensionen verlorengehen, wenn der
Kern nicht trivial ist. Aus einer Ebene kann dann eine Gerade werden oder auch nur ein Punkt.
Der gerade gewonnenen Anschauung stellen wir noch eine nützliche abstrakte Vorstellung von einer
linearen Abbildung an die Seite, welche nur darauf Bezug nimmt, wie die Basisvektoren abgebildet werden:
−
→
→
→
→
→
f : V → W linear. Sei −
a 1 , ..., −
a n eine Basis für V, die so gewählt sein soll, dass −
a 1 , ..., −
a r (eventuell leer
132
6. LINEARE ALGEBRA
−
→
→
−
→
→
f ist. Dann ergibt die Einschränkung von f auf Spann −
a r+1 , ..., −
an
−
→
(im äußersten Falle r = n wäre das nur der Nullraum) einen Vektorraumisomorsphismus auf Bild f ,
diesen Unterraum von W. Das ergibt folgendes schematische Bild:
mit r = 0) eine Basis von Kern
a1
f
0
V
ar
ar+1
b1
f
Bild (f )
W
bn-r
an
3. Matrixdarstellung einer linearen Abbildung
Grundlegend ist der Satz über eindeutige Fortsetzung einer linearen Abbildung von den Bildern einer
Basis. Nunmehr arbeiten wir statt mit den Linearkombinationen von Basisvektoren (im Definitionsbereich
einerseits, im Wertebereich andererseits) mit den Koordinatendarstellungen dieser Vektoren bezüglich der
ausgewählten Basen, und so können wir jeder linearen Abbildung V → W zwischen endlichdimensionalen
Vektorräumen eindeutig eine Matrix zuordnen. In der folgenden Definitionen und anschließendem Satz
wird das einmal für den konkreten Fall V = Rn , W = Rm mit den kanonischen Basen der Einheitsvektoren
und dann für den allgemeinen Fall realisiert.
Definition 35. Eine (reelle) (m × n) − Matrix ist eine Doppelfolge (aij )1≤i≤m,1≤j≤n von reellen
Zahlen. Die Menge aller dieser Matrizen nennt man Rm×n . Eine solche Matrix schreibt man konkret als
rechteckiges Zahlenschema so (alle m · n Komponenten sind sorgfältig zu trennen!):


a11 a12 · · · a1n
 a21 a22 · · · a2n 


A = (aij )ij = 
..
.. . .
..  .

.
.
.
. 
am1
am2
···
amn
Matrizen bezeichnet man kurz mit großen lateinischen Buchstaben. m ist die Zeilenzahl, n die Spaltenzahl
bei den Bezeichnungen ’(m × n) − Matrix’ und ’Rm×n ’,und es ist stets aij der Eintrag in der i. Zeile und
j. Spalte.
Definition 36 (die Operation ’Matrix mal Vektor’). Wir definieren für eine (m × n) − Matrix
→
A = (aij )ij und einen Spaltenvektor −
x = (xj )j mit n Komponenten:


m
n
n
−
→
(aij )1≤i≤m,1≤j≤n (xj )1≤j≤n :=
ei
aij xj = 
aij xj 
, ausführlicher:
i=1





a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1n
a2n
..
.
am1
am2
···
amn
j=1






j=1

x1
.. 
. 
xn
:
1≤i≤m
 .
n
a x
 j=1 1j j
 n
 .

a2j xj

=  j=1

..

 n .
 .
amj xj
j=1






.




3.
MATRIXDARSTELLUNG EINER LINEAREN ABBILDUNG
133
→
Zum Verständnis der Operation: Sie ist nur dann definiert, wenn die Komponentenzahl von −
x gleich
der Spaltenzahl von A ist. Sie wird anschaulich so ausgeführt: Die i. Komponente des Resultatvektors
→
entsteht, indem man den Vektor −
x auf die i. Zeile der Matrix klappt, die aufeinanderliegenden Zahlen
multipliziert und diese Produkte dann addiert.
Eine sehr wichtige kleine Beobachtung: Wendet man eine Matrix A auf den j. Einheitsvektor an,
so kommt die j. Spalte von A heraus.
Beispiele:
1 −1
2
1 · 2 + (−1) (−3)
5
=
=
2
3
−3
2 · 2 + 3 · (−3)
−5


2
1 2 −3  −3  = 2 − 6 − 12 = −16
 4
0
1 −1 2  
−1
1
=
(der zweite Spaltenvektor der Matrix!)
2
3 1
3
0
Wir haben den grundlegenden
Satz 49 (die linearen Matrixabbildungen). Jede Matrix A ∈ Rm×n definiert folgende lineare Abbildung (ebenfalls mit A bezeichnet):
A : Rn → Rm
9x → A9x
−
→
(über die Operation ’Matrix mal Vektor’). Jede lineare Abbildung f : Rn → Rm lässt sich in dieser Weise
als Matrixabbildung schreiben. (Das Ganze gilt auch völlig allgemein für jeden beliebigen Körper K statt
R.)
Eine Warnung: Man versuche nicht, eine nichtlineare Abbildung mit einer Matrix darzustellen - das
kann nicht gelingen.
Anwendungsbeispiele:
−
→
−
→ −
n
m
1) Aufstellen der Matrix
bei bekannten
f →
e j , j= 1, ..., n :
 für f : R → R 

1
3
2
−
→
−
→ → 
−
→ →   −
→ → 
2 , f −
1
−3  , dann stellt
f : R3 → R3 , f −
e1 =
e2 =
, f −
e3 =
−1
1
2


1 3
2
−
→ →
→
A =  2 1 −3  die zugehörige Matrix dar, so dass stets A−
x = f −
x .
−1
1
2
   
1
6
−
→    
Also f
1
=
0
. (Die doppelte Klammer: Eine für den Vektor, dann die ’von’-Klammer,
1
2
 
1
−
→ 
das schreiben wir dann nicht mehr so penibel, sondern einfacher f
1
usw.)
1
2) Ablesen der zugehörigen Matrix bei koordinatenmäßig gegebener
linearer Abbildungsvorschrift:


x
−
→
−
→
2x − 3y + z
3
2




Sei f : R → R gegeben durch f
y
=
, dann ist
−5x + 2y
z
−
→ →
2 −3 1
→
A=
die zugehörige Matrix, so dass stets f −
x = A−
x.
−5 2 0
134
6. LINEARE ALGEBRA
Im Folgenden werden wir die gerade ausgeführte Bildung ’Matrix A ∈ Rm×n zu gegebenem linearem
−
→
f : Rm → Rn ’ genauer als Spezialfall von ’Matrix einer linearen Abbildung bezüglich einer Basis je
für den Ausgangsraum und den Zielraum’ verstehen und die Sache wesentlich verallgemeinern. Es wird
dabei das Naheliegende herauskommen: Wir haben so weit nicht zwischen Vektoren und Koordinaten−
→
darstellungen unterschieden für das Aufstellen der Matrix zu f : Rn → Rm , also haben wir die Matrix
speziell für die kanonischen Basen e(n) (n-dimensionale Einheitsvektoren) und e(m) gebildet, bei denen
Vektor und Koordinatendarstellung zusammenfallen.
Konsequent nennen wir die nach dem oben befol−
→
−
→
(n)
gten Muster aufgestellten Matrizen: A = Mee(m) f - Matrix für f bezüglich der kanonischen Basen für
Ausgangsraum Rn und Zielraum Rm . Für das Folgende erinnern wir an die Koordinatendarstellungsaba
bildungen (·) und die Linearkombinationsabbilungen La .
−
→
(n)
(n)
→
→
die Basis der
Definition 37. Sei f : Rn → Rm eine lineare Abbildung. Sei e(n) = −
e 1 , ...−
en
(m)
(m)
→
→
Einheitsvektoren für Rn , e(m) = −
e 1 , ..., −
em
die Basis der Einheitsvektoren für Rm (die oberen
−
→
Indizes geben die Zahl der Komponenten an, bei e ist die j. Komponente 1, alle anderen sind Null j
alle Vektoren sind Spaltenvektoren). Dann definieren wir
(n)
Mee(m)
−
→
f
:
= (aij )1≤i≤m,1≤j≤n ∈ Rm×n , mit den Zahlen aij , so dass
m
−
→ −
(n)
(m)
−
→
f →
ej
=
e i aij .
i=1
−
→
−
→
(n)
Die Matrix Mee(m) f heißt ’Matrix von f bezüglich der Basen e(n) für Rn und e(m) für Rm ’ oder kurz
’bezüglich der kanonischen Basen’.
→
−
→
→
Nunder allgemeine
Fall: Sei f : V → W eine lineare Abbildung, a = −
a 1 , ...−
a n eine Basis für V und
−
→
−
→
b = b 1 , ..., b m eine Basis für W. Dann ist
Mba
−
→
f
:
= (aij )1≤i≤m,1≤j≤n ∈ Rm×n , mit den Zahlen aij , so dass
m
−
→ −
−
→
f →
aj
=
b i aij
i=1
−
→
definitionsgemäß die Matrix von f bezüglich der Basen a (für V ) und b (für W ).
Zum Verständnis der Definitionen:
3.
MATRIXDARSTELLUNG EINER LINEAREN ABBILDUNG
135
−
→
−
→
Rezept zur Bildung von Mba f , bei f : V → W linear:
−
→
−
→ →
→
Bekannt: Basen a = −
a 1 , ..., −
a n für V, b = b 1 , ..., b m für W,
−
→ → ferner f −
a j für j = 1, ..., n.
−
→ → b
Dann bilde für alle j = 1, ..., n die Spaltenvektoren f −
aj
∈ Rm .
−
→
Das sind die Spalten der gesuchten Matrix Mba f , also
−
−
b
→ → b
→
−
→ −
Mba f =
f →
a1
, ..., f −
am
.
Beispiel:
−
→
V = W = R3 , f sei die Spiegelung an der Ebene
0,
 x+
y + z = 



1
−1
−1
−
→
→
→
→
a 1 =  1 ,−
a=b= →
a 1 , ..., −
a n sei folgende Basis: −
a 2 =  1 , −
a 3 =  −1  .
1
0
2
−
−
−
→ −
−
→ −
−
→ −
→
→
→
−
→
→
→
∗
Dann berechnen wirf a 1 = − a 1 , f a 2 = a
a 3 = a 3 , rein
).
2, f
 geometrisch

−1
0
0
−
→ → a 
−
→ → a   −
→ → a  
0 , f −
1
0
Also f −
a1
=
a1
=
, f −
a1
=
. Daher
0
0
1


−1 0 0
−
→
Maa f =  0 1 0  .
0 0 1
→
Erläuterung zu ∗ ) : Die Spiegelung kehrt den Vektor −
a 1 um, der senkrecht auf der Spiegelungsebene
−
→
−
→
steht. Die Vektoren a 2 , a 3 bleiben dagegen fest erhalten, weil sie parallel zur Spiegelungsebene liegen.
Man beachte: Durch die Wahl eines zur geometrischen Situation passenden Koordinatensystems
gelang es, die Matrixdarstellung extrem einfach zu gestalten. Aber dennoch möchte man gern zum Rechnen oder für ein die Spiegelung implementierendes Computerprogramm die Matrix zur kanonischen Basis
wissen (die dagegen scheußlich ist und nicht so direkt zu bekommen). Das wird uns später mit den
Koordinatentransformationsmatrizen und der Transformationsformel leicht gelingen. (Für das gegebene
Beispiel wird das noch verbessert, wenn wir zusätzlich die Basisvektoren auf Länge 1 normieren.) Ferner
illustriert das Beispiel bereits, dass man im (wichtigsten!) Fall V = W naheliegend a = b wählt.
Warnung: Es ist darauf zu achten, dass die Koordinatendarstellungen der Bilder der Basisvektoren
in die Spalten der darstellenden Matrix gehören, nicht etwa die Bilder der Basisvektoren. Letzteres gäbe
zwar mit W = Rm auch eine
aber eine völlig falsche und unbrauchbare.
→Matrix,
a −
Für die Matrizen Mb f haben wir genau folgende Aussage, die besagt, dass sie auf der Koordi−
→
natenseite eine genaue Parallele zur linearen Abbildung f darstellen:
−
→
−
→
(n)
Satz 50. 1) Die Matrix Mee(m) f für f : Rn → Rm bewirkt Folgendes: Multipliziert man sie mit
−
→ →
→
x ∈ Rm heraus, es gilt also:
einem Vektor −
x ∈ Rn , so kommt f −
(n) −
→ −
−
→ →
→
Mee(m) f
x= f −
x .
−
→
−
→
2) Die Matrix Mba f für f : V → W hat folgende Wirkung: Wendet man sie auf die Koordinaten→
darstellung bezüglich a eines Vektors −
x ∈ V an, so kommt die Koordinatendarstellung bezüglich b des
−
→ −
→
Vektors f x heraus. Also
→a −
→ →b
Mba −
x = f −
x
−
→
Zum Verständnis der einfachen Aussage 1): Sie besagt auch, dass man jede lineare Abbildung f :
−
→ →
−
→
(n)
→
Rn → Rm durch eine Matrix realisieren kann, so dass stets f −
x = A−
x gilt. Mit A = Mee(m) f
haben wir diese Matrix (eindeutig) gefunden. Das liegt daran, dass für Vektoren aus Rn oder Rm Vektor
136
6. LINEARE ALGEBRA
und Koordinatendarstellung bezüglich der kanonischen Basis dasselbe sind. Komplizierter liegt die Sache
bei anderen Basen oder auch Basen allgemeiner Vektorräume: Dann muss zwischen einem Vektor und
seiner Koordinatendarstellung unterschieden werden. Genau dies behandelt der zweite Teil.
Die Aussage des Satzes lässt sich zu folgendem Bild eines ’kommutativen Diagramms’ vervollständigen,
das uns vor allem bei Koordinatentransformationen nützlich sein wird - die Bezeichnungen sind wie zuvor,
a eine Basis für V, b eine Basis für W :
−
→
f
V
−→
W
(·)a ↓
↓ (·)b
n
m
R
−→
−
R
→
Mba f
−
→
Dass dies ein kommutatives Diagramm ist, bedeutet: Spaziert man von V mit f und dann nach Rm mit
−
→
(·)b , so kommt dasselbe heraus, als spazierte man von V mit (·)a nach Rn und anschließend mit Mba f
−
→
nach Rm . Oder auch: Spaziert man von V mit (·)a nach Rn , dann mit Mba f nach Rm , schließlich mit Lb
−
−
→
→
nach W, so kommt dasselbe heraus wie bei Anwendung von f allein. In diesem Sinne realisiert Mba f
−
→
die Abbildung f auf der Koordinatenseite. Man beachte: Die senkrechten Pfeile stellen umkehrbare
Abbildungen dar (Koordinatendarstellungsabbildungen und umgekehrt Linearkombinationsabbildungen),
die horizontalen Pfeile müssen keineswegs umkehrbar sein.
Bemerkung: Im Falle V = W vereinfacht sich das Bild. Dann wählt man selbstverständlich nur
eine Basis, also a = b (es wäre auch möglich, für Eingabe und Ausgabe verschiedene Koordinatensysteme
zu wählen, aber das erweist sich in keiner Lage als nützlich). Sehr wohl nützlich und wichtig ist es, von
einem Koordinatensystem zu einem anderen zu wechseln und dabei namentlich Matrizendarstellungen
insbesondere für lineare Abbildungen V → V wesentlich zu vereinfachen (Stichworte: Koordinatensysteme
passend zur Geometrie, Diagonalisieren von Matrizen). Dabei möchte man von einer Matrixdarstellung
zur anderen übergehen und fragt, wie sich die Matrix dabei transformieren muss. Im nächsten Abschnitt
werden wir die wichtigen Matrizenverknüpfungen besprechen und interessante Anwendungen davon, dann
folgt die Behandlung des Koordinatentransformationsproblems (für Vektoren und auch für Matrizen).
4. Verknüpfungen von linearen Abbildungen und Matrizen
−
→ →
−
→ →
−
→
Hat man lineare Abbildungen f , −
g : V → W, so sind f + −
g und λ f wiederum lineare Abbildungen
−
→
−
→
V → W. Denn für alle x , y ∈ V und alle Zahlen λ gilt:
−
→ −
−
→ −
→
→ −
−
→ → −
→ → −
→ → −
→
→
→
f +→
g −
x +−
y
= f −
x +→
y +−
g →
x +−
y = f −
x + f −
y +→
g −
x +→
g −
y
−
→
→ −
−
→ → −
=
f +→
g −
x + f +−
g →
y ,
−
−
→
→
→
→ −
−
→ → −
−
→ →
→ → −
→
→
f +→
g λ−
x
= f λ−
x +→
g λ−
x =λf −
x + λ−
g −
x =λ f −
x +→
g −
x .
−
→
Ferner ist die Abbildung, die jeden Vektor auf 0 abbildet, unter den linearen Abbildungen V → W. Man
prüft (langweilig) nach, dass damit alle Vektorraumaxiome erfüllt sind. Damit haben wir folgenden
Satz 51. Die linearen Abbildungen V → W bilden einen Vektorraum, genannt Hom (V, W ) , mit
den üblichen Definitionen der Summe von Abbildungen und der Multiplikation einer Abbildung mit einer
Zahl.
Die Menge Rm×n aller (m × n) − Matrizen bildet mit den komponentenweisen Operationen Addition und
Multiplikation mit einer Zahl ebenfalls einen Vektorraum, und es gilt für Basen a von V und b für W der
Zusammenhang:
−
−
→
→ →
→
Mba f + −
g
= Mba f + Mba −
g ,
−
→
−
→
Mba λ f
= λMba f .
4.
VERKNÜPFUNGEN VON LINEAREN ABBILDUNGEN UND MATRIZEN
137
−
−
→
→
Die Abbildung f −→Mba f stellt also einen Vektorraumisomorphismus dar.
Bemerkung zum Zusatz über die Matrizen: Offensichtlich stellt die Matrixsumme die entsprechende
a
b
Summenabbildung Rn → Rm dar, und die Koordinatendarstellungs-Abbildungen (·) und (·) sind linear. Also stellt die Summe der Matrizen die Summenabbildung V → W dar, Entsprechendes gilt für die
Multiplikation einer linearen Abbildung mit einer Zahl.
Es gibt jedoch noch eine weitere und interessantere Verknüpfung von linearen Abbildungen und
Matrizen, die Verkettung, zunächst beobachten wir:
−
→
−
→
→
→
Satz 52. Wenn f : V → W linear ist und −
g : W → U linear, so ist −
g ◦ f : V → U linear.
−
−
−
→ −
−
−
→ −
→ → −
→ → −
→ → −
→ → −
→ →
→
→
→
Denn −
g ◦ f
x +−
y =−
g f −
x +→
y
=→
g f −
x + f −
y
=→
g f −
x +→
g f −
y .
−
→
−
→
→
→
→
−
→
Analog sieht man, dass −
g ◦ f
λ−
x =λ −
g ◦ f
x .
−
→ →
Wir stellen uns das Problem, wie man aus Matrizen für lineare Abbildungen f , −
g die Matrix zu
−
→
−
→
g ◦ f gewinnt. Die Antwort gibt der Satz nach folgender Definition:
Definition 38. Sei A = (aij )ij eine (m × n) − Matrix und B = (bki )ki eine (r × m) − Matrix, dann
ist definiert:
(bki )ik (aij )ij = (ckj )kj , mit ckj =
bki aij .
i
Plastisch gesagt: Die Matrix BA entsteht so: j. Spalte von BA = Anwendung von B auf die j. Spalte von
A. Man beachte: BA ist nur definiert, wenn Zeilenzahl von A gleich Spaltenzahl von B.
Beispiele:




1 2
−5 4
1
−1
2
−3
1.)  3 4 
=  −11 10 −1  .
−2 1
2
5 6
−17 16 −3
Man
sehe
noch
einmal
nach:
Die
erste
Spalte des Resultats ist


1 2
 3 4  −1 , usw.
−2
5 6


1 2
−1 2 −3 
−10 −12

3
4
2.)
=
−2 1
2
11
12
5 6
0 1
0 0
1 0
=
, aber
0
0
1
0
0 0 0 0
0 1
0 0
3.)
=
, dies zeigt bereits:
1 0
0 0
0 1
Das Produkt der (n × n) − Matrizen ist nicht kommutativ, für alle n > 1.
−
→
Satz 53. Sei a eine Basis für V, b eine Basis für W und c eine Basis für U. Seien f : V → W
→
linear und −
g : W → U linear. Dann gilt
→ a −
−
→
→
→
g ◦ f = Mcb −
g Mb f ,
Mca −
zur Hintereinanderschaltung gehört also das Matrizenprodukt. Insbesondere haben wir für lineare Abbil−
→
→
dungen f : Rn → Rm und −
g : Rm → Rr , welche direkt (also bezüglich der kanonischen Basen) durch
→
−
→ −
→
→
→
→
→
Matrizen gegeben sind, d.h. f →
x = A−
x für alle −
x ∈ Rn und −
g −
y = B−
y für alle −
y ∈ Rm :
−
→ →
−
→
→
g f −
x
= BA−
x.
138
6. LINEARE ALGEBRA
Wir werden das Matrizenprodukt auch im nächsten Abschnitt und weiterhin kräftig benutzen, doch
zunächst sei eine elektrotechnische Anwendung angeführt: Wir betrachten dazu den Vierpol
I
U1
1
R
I2
3
U
R
R
1
2
2
(Man beachte die vorgegebenen Zählrichtungen.)
und fassen ihn als Verkettung von drei besonders einfachen Vierpolen auf: Der erste hat nur R2 (oben
und unten über R2 verbunden), der zweite nur R3 (nur oben Eingang und Ausgang über R3 verbunden),
der letzte nur R1 (analog zum ersten). Das ergibt drei sehr einfach zu bestimmende Kettenmatrizen
(von denen zusätzlich erste und dritte völlig analog gebaut sind), und die wesentlich kompliziertere
Kettenmatrix der obenstehenden Schaltung erhält man einfach als Matrizenprodukt:

1
 1
R1
0
1


1 R3
0
1

1
 1
R2


R2 + R3

R2
=
R1 + R2 + R3
1
R1 R2
0

R3

R1 + R3  .
R1
Das kann man nun analog für noch viel längere Schaltungen fortsetzen.
Eine letzte Verknüpfung fehlt noch: Inversenbildung für umkehrbare lineare Abbildungen und umkehrbare
−
−
→
→−1
Matrizen. Selbstverständlich entspricht der linearen Abbildung f −1 wieder Maa f
bei umkehrbar−
→
er linearer Abbildung f : V → V und Auszeichnung einer Basis a für V. (In diesem Falle wird man nur
eine Basis für Input sowie Output verwenden.) Wir werden noch Ausführliches zur Berechnung inverser
Matrizen sagen, aber an dieser Stelle erst einmal eine einfache Beobachtung zur Inversion von (2 × 2) −
Matrizen anführen:
a b
Satz 54. Die inverse Matrix zu
existiert genau dann, wenn ad − bc = 0, und man hat
c d
dann:
−1
1
a b
d −b
=
.
c d
−c
a
ad − bc
a b
Bemerkung: Die Zahl ad − bc ist die Determinante der Matrix
.
c d
Beweis: Man rechne einfach aus:
1
d −b
a b
1 0
=
.
a
c d
0 1
ad − bc −c
4.
VERKNÜPFUNGEN VON LINEAREN ABBILDUNGEN UND MATRIZEN
Beispiel: Wir invertieren damit die oben gefundene Kettenmatrix:

−1 
R2 + R3
R1 + R3
R3



R
R1
2



 R1 + R2 + R3 R1 + R3  =  R1 + R2 + R3
−
R1 R2
R1
R1 R2
−R3
R2 + R3
R2
139


.

Man beachte: Der Wert der Determinante ist hier 1, so dass man einfach nur die Diagonalelemente
vertauschen und die anderen beiden mit negativem Vorzeichen versehen muss.
−
→ →
−
→
→
Wenn f , −
g bijektive lineare Abbildungen V → V sind, so ist es auch −
g ◦ f . Oder auch für Matrizen:
−1
Sind A, B invertierbar, dann auch BA. Wie kann man aus A−1 , B −1 die Inverse (BA) ausrechnen?
−
→
→
→
Denkt man daran, dass −
g ◦ f rückgängig gemacht wird, indem man zuerst −
g rückgängig macht, dann
−1 −
−
→
−
→
→
−
→
→
−1 −
−1
f , also bildet: g ◦ f
= f
◦ g , so ist auch folgende Formel der Matrizenrechnung klar:
(BA)−1 = A−1 B −1 .
Satz 55. Die invertierbaren (n × n) − Matrizen bilden mit der Multiplikation eine Gruppe. Neutrales
Element darin ist die Einheitsmatrix. Diese Gruppe ist in allen Fällen n > 1 nicht kommutativ.
Eine letzte nützliche Verknüpfung fehlt noch:
Definition 39. Die Transponierte AT zur Matrix A = (aij )ij ist definiert durch:
AT := (aji )ij .
Man erhält sie daher, indem man die Zeilen von A als Spalten von AT schreibt.
Beispiel:


T
T
1 4
1
1
2
3
 2  = 1 2 3 ,
=  2 5 .
4 5 6
3 6
3
→
−
→
→
T−
a und einem Spaltenvektor
Beispielsweise ist also das Matrizenprodukt a b mit einem Spaltenvektor −
−
→
−
→
−
→
b dasselbe wie das Skalarprodukt a · b . Man hat:

Bemerkung 1. (AB)T = (BA)T , (A + B)T = AT + B T , (λA)T = λAT . Zu beachten ist das
Umdrehen beim Produkt der Matrizen.
4.1. Zusammenstellung der wichtigsten Formeln für die Matrixoperationen (Matrixkalkül).
(i) Für die Addition von (m × n) − Matrizen und die Multiplikation
dieser Matrizen mit Zahlen hat man genau die Vektorraumaxiome erfüllt :
(A + B) + C = A + (B + C)
−
→
0 + A = A ( (n × n) − Nullmatrix)
−
→
−A + A = 0
A+B = B+A
λ (µA) = λ (µA)
(λ + µ) A = λA + µA
λ (A + B) = λA + λB
1·A = A
(ii) Für die Multiplikation und Inversenbildung bei invertierbaren (n × n) − Matrizen
hat man die Gruppenaxiome erfüllt (einer nicht kommutativen Gruppe, Kommutativität
liegt nur im Falle n = 1 vor.)
140
6. LINEARE ALGEBRA
(AB) C
EA
−1
A A
−1
(BA)
=
=
=
=
A (BC)
A ( (n × n) − Einheitsmatrix)
E
A−1 B −1
Bemerkungen: die vierte Gleichung folgt aus den ersten drei Gruppenaxiomen. Die ersten beiden Gleichungen gelten allgemeiner, sofern nur A(BC) und (AB) C gebildet werden können. Dasselbe gilt für die
zweite Gleichung.
(iii) Für die Multiplikation von (n × n) − Matrizen in Verbindung mit der Addition
hat man die Axiome eines Rings mit 1-Element erfüllt, zum Vorigen kommt hinzu :
A (B + C) = AB + AC (Distributivgesetz).
Bemerkung: Diese Formel gilt allgemeiner, wenn nur B, C dieselbe Dimensionierung haben und AB
bildbar ist (damit auch automatisch AC und A (B + C)).
Ferner hat man noch für die Transposition:
Für alle (m × n) − Matrizen A, B
T
(A + B)
(λA)T
(AB)T
Für invertierbare (n × n) − Matrizen A, B
−1 T
A
Alle diese Formeln sind völlig elementar nachzuweisen.
:
= AT + B T
= λAT
= B T AT
:
−1
= AT
4.2. Typische nützliche einfache Anwendungen des Matrixkalküls. 1.) Man löst eine Gle−
→
−
→
→
→
ichung A−
x = b im Falle einer invertierbaren Matrix A einfach durch −
x =A−1 b , indem man von links
−
→
→
→
→
→
A−1 anmultipliziert. Denn A−1 A−
x = A1 A −
x = E−
x =−
x , und rechts steht dann A−1 b .
2.) Man löst eine Matrixgleichung AX = B (A, B vorgegeben und X gesucht) mit invertierbarer
Matrix A durch linkes Anmultiplizieren von A−1 mit X = A−1 B, analog löst man XA = B durch rechtes
Anmultiplizieren von A−1 zu X = BA−1 .
3.) Eine Gleichung wie A = T −1 BT mit invertierbarer Matrix T löst man ohne weiteres nach B auf,
indem man links T und rechts T −1 anmultipliziert, zu B = T AT −1 . Matrizen A und B, welche auf diese
Weise zusammenhängen, nennt man ähnlich. So entstehen die verschiedenen Matrixdarstellungen einer
linearen Abbildung V → V auseinander. Dabei ändern sich zwar die Matrizen stark, aber wesentliche
Eigenschaften bleiben erhalten, wie wir noch sehen werden (Rang, Determinante z.B.).
5. Transformation von Matrizen (Basiswechsel)
−
→
Wir haben zu jeder
linearen
Abbildung f : V → W und Basen a für V, b für W eindeutig die
−
→
Matrixdarstellung Mba f . Dabei ergeben sich für verschiedene Basen völlig verschiedene Matrizen. Nun
möchte man gern die Basen so wählen, dass die zugehörige Matrixdarstellung besonders einfache Form
annimmt.
Der wichtigste Fall ist V = W und a = b. Dabei möchte man also die Basis a so wählen, dass
−
→
Maa f möglichst einfach wird. Zweifellos sind unter den quadratischen Matrizen die Diagonalmatrizen
am einfachsten: Bei ihnen übersieht man Rang, Bild und Kern auf einen Blick, und die Anwendung der
linearen Abbildung besteht einfach in Streckungen der Basisvektoren. Wir werden sehen, dass es unter
gewissen Bedingungen, doch nicht immer, möglich ist, zu einer Diagonalisierung zu gelangen. Das werden
wir illustrieren, nachdem wir die Grundlagen für einen Basiswechsel bereitgestellt haben.
5.1. Basiswechel in einem Vektorraum: Transformation der Koordinatendarstellungen.
→
→
Wir stellen uns folgendes
Problem:
Gegeben ein Vektorraum V mit einer Basis a = −
a 1 , ..., −
a n und einer
−
→
−
→
→
weiteren Basis b = b 1 , ..., b n . Wie kann man die Koordinatendarstellungen von Vektoren −
x ∈ V in
die Koordinatendarstellungen bezüglich b umrechnen? Um die Dinge ein wenig plastischer zu gestalten,
5.
TRANSFORMATION VON MATRIZEN (BASISWECHSEL)
141
denken wir an a als ’alte Basis’ und b als ’neue Basis’. Grundlage ist folgende (eindeutige!) Darstellung
der neuen Basisvektoren als Linearkombinationen der alten Basisvektoren:
n
−
→
−
→
(∗) b j =
a i β ij .
i=1
Wir behaupten nun:
Satz 56. Die durch (∗) gegebene Matrix β ij ij ist die Transformationsmatrix, welche die neuen Kon
.
−
→
→
ordinatendarstellungen (bzgl. b) in die alten (bzgl. a) überführt, d.h. für alle Vektoren −
x =
λj b j =
j=1
n
.
i=!
→
µi −
a i aus V gilt:
µi =
oder in Matrixschreibweise mit Tab = β ij ij :

n
β ij λj .
j=1
 
λ1

 
Tab  ...  = 
λn

µ1
.. 
. 
µn
Bemerkung zur Schreibweise: Tab bezeichnet die Matrix, welche die Koordinatendarstellungen bzgl. b in
−1
die bzgl. a überführt. Tab ist bijektiv (invertierbar), und man hat Tab
= Tba , wobei Tba die alten Koordinatendarstellungen bezüglich a in die neuen bzgl. b überführt.
→
→
→
Begründung: Sei id : V → V die identische Abbildung, also id −
x =−
x für alle −
x ∈ V. Dann
b −1
b
b −1
n
n
ist (man denke daran, dass L
dasselbe ist wie (·) ) L
◦ id ◦ La : R → R linear (als Hintereb
inanderschaltung linearer Abbildungen),
wir
nennen
T
die
Matrix,
welche diese Abbildung (bezüglich
a
→
→
der kanonischen Basis e = −
e 1 , ..., −
e n des Rn darstellt.
Es
genügt
also, einzusehen, dass gemäß der
Definition (∗) der Matrix β ij ij die Spalten von β ij ij Koordinatendarstellungen der neuen Basisvek−
→
→
e j , und die
toren in der alten Basis sind. Denn die Koordinatendarstellung von b j bezüglich b ist −
−
→
j. Spalte von β ij ij ist genau die Koordinatendarstellung von b j bezüglich der alten Basis a. Damit
transformiert diese Matrix automatisch auch alle anderen Koordinatendarstellungen
richtig, weil sie auf
den Einheitsvektoren die korrekten Resultate liefert. Folglich ist Tab = β ij ij . Dass Tab invertierbar ist,
sieht man sofort an der Umkehrbarkeit der Abbildungen L−1
woraus die Umkehrbarkeit von
b , id, La , −1
Tab = L−1
◦
id
◦
L
direkt
folgt.
Selbstverständlich
bewirkt
die
Inverse
Tab
genau die Koordinatena
b
transformation in der umgekehrten Richtung und ist daher gleich Tba , in konsequenter Notation.
5.2. Transformation von darstellenden Matrizen bei Basiswechseln. Wir kommen zur Anwendung der Koordinatentransformationsmatrizen und untersuchen, wie man aus einer Matrixdarstellung
für eine lineare Abbildung bezüglich eines Basenpaars die Matrixdarstellung bezüglich neuer Basen errechnen kann.
−
→
Satz 57. Seien a, &
a Basen für V und b, &b Basen für W, f eine lineare Abbildung V → W. Dann gilt:
−
−
→
→
M&b&a f = T&bb Mba f Ta&a .
→
Speziell hat man für −
g :V →V:
→
→ &a
M&a&a −
g = T&aa Maa −
g Ta ,
Schreibt man dabei kurz T für Ta&a , so lautet die letzte Formel:
→
→
M &a −
g = T −1 M a −
g T.
&
a
a
(Allerdings sei zum eigenen Gebrauch die ausführlichere Schreibweise empfohlen.)
142
6. LINEARE ALGEBRA
−
→
f macht definitionsgemäß aus der Koordinatendarstellung eines Vektors
−
→ →
−
→
x ∈ V bzgl. &
a die Koordinatendarstellung von f −
x ∈ W bzgl. &b. Die Hintereinanderschaltung (das
Produkt
-
man denke immer daran: Was am weitesten rechts steht, kommt zuerst, dann nach links so fort)
→
b
a −
T&b Mb f Ta&a tut eben dies, nur auf dem Umweg: Zuerst wird die eingegebene Koordinatendarstellung
→
→
von −
x bzgl.
&
a in die Koordinatendarstellung von −
x bzgl. a umgewandelt (mittels Ta&a ), dann daraus mit
→
−
→ −
→
a −
Mb f die Koordinatendarstellung von f x bzgl. b produziert, dann diese mittels T&bb zur Koordi−
→ →
natendarstellung von f −
x bzgl. &b umgewandelt. Die zweite Aussage spezialisiert dies nur zu V = W
und a = b, &
a = &b.
Beweis: Die Matrix M&b&a
6. Anwendungen des Rechnens mit Matrizen
Grundbegriffe:
Elementarmatrizen
Zeilenrang und Spaltenrang einer Matrix
Resultate:
Zeilen- und Spaltenumformungen über Anmultiplizieren von Elementarmatrizen
Zeilenrang gleich Spaltenrang
Rechentechnik:
Berechnung inverser Matrizen
Simultane Berechnung von Kern und Bild einer linearen Abbildung
6.1. Zeilen- und Spaltenumformungen als Multiplikation mit Elementarmatrizen. Wir
erinnern an die elementaren Zeilen- und Spaltenoperationen: Eine Zeile wird mit α = 0 multipliziert
und eine andere mit β multipliziert und zur ersten hinzuaddiert - analog für die Spalten. Nach dem
Hauptlemma ändert sich dabei nicht der erzeugte Unterraum. Insbesondere bleiben lineare Abhängigkeit
/ Unabhängigkeit des jeweiligen Systems erhalten. Wir haben die Spaltenoperationen zur Gewinnung einer
Basis für das Bild einer Matrixabbildung benutzt, die Zeilenoperationen zum Lösen eines linearen Gleichungssystems. Zu den genannten Operationen kommt das zuweilen benötigte Vertauschen von Zeilen /
Spalten. Das Ganze können wir mittels der Matrizenmultiplikation mit Gewinn neu deuten und darstellen
als Multiplikation der vorliegenden Matrix mit einer sogenannten Elementarmatrix. Wir werden das dann
anwenden, um einige wichtige Grundtatsachen einzusehen, z.B. dass der Zeilenrang einer Matrix gleich
dem Spaltenrang (bisher Rang gleich Dimension des Bildes genannt) ist. Dazu kommt eine nützliche
Darstellung der Matrixinversion sowie eine praktische simultane Bestimmung von Bild und Kern einer
beliebigen linearen Abbildung.
Wir erklären an einem konkreten Beispiel, was die Elementarmatrizen sind und wie sie funktionieren:
6.
ANWENDUNGEN DES RECHNENS MIT MATRIZEN
143
Beispiele für Elementarmatrizen und ihre Funktionsweise:
1.) Vertauschen
von Spalten
 / Zeilen durch Anmultiplizieren einer Elementarmatrix
0 0 1
a1 b1 c1 
c1 b1 a1

0 1 0
=
(Effekt: Vertauschen der Spalten I und III)
a2 b2 c2
c2 b2 a2
1
0
0


 

0 0 1
a1 a2 a3
c1 c2 c3
 0 1 0   b2 b2 b3  =  b2 b2 b3  (Effekt: Vertauschen der Zeilen I und III)
1 0 0
c1 c2 c3
a1 a2 a3
2.) Lineares Kombinieren
von
Spalten
/ Zeilen


1 0 β
a1 b1 c1 
a1 b1 a1 β + c1 α

0 1 0
=
(III ′ = αIII + βI, für Spalten)
a2 b2 c2
a2 b2 a2 β + c2 α

 0 0 α  

1 0 0
a1 a2 a3
a1
a2
a3
 0 1 0   b2 b2 b3  = 
 (III ′ = αIII + βI, für Zeilen)
b2
b2
b3
β 0 α
c1 c2 c3
a1 β + c1 α a2 β + c2 α a3 β + c3 α
Wir sehen also, wie wir die gewünschten Zeilenoperationen und Spaltenoperationen durch Anmultiplizieren sehr einfacher Matrizen (daher ’Elementarmatrizen’ genannt) ausführen können. Wir wollen
nunmehr diese Elementarmatrizen allgemein definieren:
Definition 40 (Elementarmatrizen). Folgende Matrizen Bij , Cα,β,i,j , Dα,β,i,j ∈ Rn×n heißen Elementarmatrizen:
Bij entsteht aus der Einheitsmatrix E durch Vertauschen der Spalten i, j.
Cα,β,i,j entsteht aus der Einheitmatrix E, indem man die i. Spalte mit α = 0 multipliziert und
das β − F ache der j. Spalte hinzuaddiert. Oder : In der i. Spalte wird die Eins durch α ersetzt
und die Null in der j. Zeile durch β ersetzt.
T
(die Transponierte von Cα,β,i,j ).
Dα,β,i,j := Cα,β,i,j
(n)
(n)
Diese Konstruktion ist offenbar für alle n möglich. Bei Bedarf schreiben wir ausführlicher Bij , Cα,β,i,j .
Bemerkung 2. Man kann - für die Theorie ist das einfacher - darauf verzichten, bei der linearen
Kombination von Spalten / Zeilen die zu verändernde Spalte / Zeile mit einem Faktor α = 0 zu multi′
plizieren. Das führt dazu, dass man lediglich die Matrizen Cβ,i,j
:= C1,β,i,j benötigt und damit noch hat:
D1,β,i,j = C1,β,j,i .
Wir fassen nun alles Wissenswerte über die Elementarmatrix in einem Satz zusammen:
Satz 58. Die Elementarmatrizen haben folgende Eigenschaften:
1.) Alle sind invertierbar, und zwar gilt :
−1
= Bij ,
Bij
−1
= C1/α,−β/α,i,j . (Beachte : α = 0.)
Cα,β,i,j
 −
e k für k = i, j
 →
−
→
−
→
e i für k = j
2.) ABij e k =
,
 −
→
e für k = i
j
d.h. die Spalten i,j werden durch rechtes Anmultiplizieren von Bij vertauscht.
−
→
e k für k = i
→
3.) ACα,β,i,j −
ek =
,
→
→
α−
e + β−
e für k = i
i
j
d.h. durch rechtes Anmultiplizieren von Cα,β,i,j wird in A zur i. Spalte mal α das
β − F ache der j. Spalte addiert und als neue i. Spalte geschrieben.
4.) Das Entsprechende gilt für die Zeilen bei linkem Anmultiplizieren von Bij
T
bzw. Cα,β,i,j
.
144
6. LINEARE ALGEBRA
(n)
(m)
Man beachte genauer: Wenn A ∈ Rm×n , dann kann man nur Bij rechts und Bij links anmultiplizieren. Entsprechendes gilt für die Matrizen Cα,β,i,j und ihre Transponierten.
Zur Begründung dieses Satzes verweisen wir für die Punkte 2,3,4 nur auf die Beispiele
oben, die den Mechanismus klar machen sollten. Begründung zu Punkt 1: Diese kann man
anschaulich so geben: Vertauscht man zwei mal die Spalten i, j, so hat man den ursprünglichen Zustand
−1
wiederhergestellt, also Bij
= Bij . Ferner ist die Umkehroperation von: Spalte i mit α multiplizieren und
das β − F ache der Spalte j dazu addieren: Das β − F ache der Spalte j subtrahieren und dann durch α
dividieren. Das bedeutet aber dasselbe wie: Zuerst die Spalte i durch α teilen und dann das β/α − F ache
−1
der j. Spalte davon subtrahieren. Also Cα,β,i,j
= C1/α,−β/α,i,j .
Wir werden nun drei Resultate darstellen, welche man mit sukzessivem Anmultiplizieren von Elementarmatrizen erzielen kann. Hier ist das erste:
6.2. Blockmatrizen, Zeilen- und Spaltenrang.
Satz 59. Jede Matrix M kann durch Zeilen- und Spaltenoperationen zu einer Blockmatrix wie folgt
umgeformt werden:
PMQ =
Er 0
0 0
.
Dabei ist Er die Einheitsmatrix der Dimension r, außerhalb stehen Nullen, die auch fehlen können. P
und Q sind Produkte von Elementarmatrizen.
Folgerung: Zeilenrang (d.h. die Dimension des Spanns der Zeilenvektoren) und Spaltenrang (d.h. die
Dimension des Spanns der Spaltenvektoren) von M sind gleich.
Zum Beweis der Folgerung: Es ändert sich nach dem zuvor Gesagten durch Anmultiplizieren von P
und Q weder der Zeilenrang, noch der Spaltenrang von M . Aber P MQ hat Zeilenrang = Spaltenrang =
r.
6.
ANWENDUNGEN DES RECHNENS MIT MATRIZEN
145
Illustration
des Satzes an

 einem ausgearbeiteten Beispiel:
0 1 −1
3
2
1  . 1.) Wir formen M um mit dem Blockmatrizenziel:
M =  −1 1
1 1
1 −1
Zunächst
führen
wir
diejeweils

 angegebenen Spalten undZeilenumformungen durch:

0
1 −1
3
1
0 −1
3
1
0
0
0
 −1


1
2
1 
2
1 
3
−2 

 →  1 −1
 →  1 −1

 1




1
1 −1
1
1
1 −1
1
1
2
−4 
II
I III
IV
III + I IV− 3 ∗ I
I II III IV


1
0
0
0
1
0 0
0
 1 −1
 1 −1 0
0
0 
0 




→
→
1
1
5
−6 
1
1 5
0 
III + 3 ∗ II IV− 2 ∗II
IV 
+ (6/5) ∗ III

1
0 0 0
1
0 0 0

→∗  0 −1 0 0 II − I  →  0 −1 0 0
0
1 5 0 III − I
0
0 5 0 III + II
(Bei ∗ ) hätten wir auch mit reinen Spaltenumformungen vollenden können.)
2.) Wir
zugehörigen Matrizen
 bestimmen die

  P, Q:


0 1 0 0
1 0 1 0
1 0 0 −3
1 0 0 0
 1 0 0 0  0 1 0 0  0 1 0


0 


 0 1 0 0 ·
Q=
 0 0 1 0  0 0 1 0  0 0 1
0  0 0 1 0 
0 0 0 1
0 0 0 1
0 0 0
1
0 0 0 1


8


0
1
3




1 0 0
0
5 


1 0 0 0
1 0 0
0
 0 1 0


0  
9 
 0 1 3 0   0 1 0 −2  

1
0
1
−



6 
·
5 
=
.
 0 0 1 0  0 0 1
0 
0
0
1


5  
6
 0 0 1

0 0 0 1
0 0 0
1

0 0 0
1
5 
1
0 
0 0



 
1 0 0
1 0 0
1 0 0
1 0 0
P =  0 1 0   0 1 0   −1 1 0  =  −1 1 0  .
0 1 1
−1 0 1
0 0 1
−2 1 1
Beachte: Bei P muss man die Matrizen in umgekehrter Reihenfolge schreiben!
Tatsächlich kommt heraus:


8
0
1
3

5 






1 0 0
0 1 −1
3
 1 0 1 − 9 





−1 1 0
−1 1
2
1
PMQ =
5 



−2 1 1
1 1
1 −1
6 
 0 0 1


5 
1
0 0 0


1 0 0 0
=  0 −1 0 0  .
0 0 5 0
Wir erläutern noch etwas, wie die Matrizen P, Q gewonnen wurden: Zu Q : Jede Spaltenumformung
entspricht rechtem Anmultiplizieren einer Elementarmatrix, wir schreiben also in derselben Reihenfolge
der Umformungen einfach die bekannten zugehörigen Elementarmatrizen als Produkt. (Was weiter links
steht, wird früher angewandt.) Zu P : Jede Zeilenumformung entspricht linkem Anmultiplizieren der
jeweils zugehörigen Elementarmatrix, also müssen diese Matrizen nach der Reihenfolge der Umformungen
von rechts nach links als Produkt geschrieben werden, weil die weiter rechts stehende Operation früher
kommt.
146
6. LINEARE ALGEBRA
Wir haben mit dem Beispiel auch illustriert, dass die Elementarmatrizen im engeren Sinne genügen,
also mit α = 1 und Entfallen der D... .
6.3. Invertieren von Matrizen. Sei A eine (notwendig quadratische) Matrix, A invertierbar. Dann
kann A allein mit Zeilenumformungen zu E, der Einheitsmatrix, umgeformt werden. Damit P A = E.
Rechtes Anmultiplizieren von A−1 ergibt P = A−1 . Aber P = P E. Das heißt: Man gewinnt P = A−1 ,
indem man ausgehend von E dieselben Zeilenoperationen vornimmt, mit denen man A zur Einheitsmatrix
umformt. Wir stellen das als Schema dar:
−−−−−−−−−−−−−−−−→
A|E Zeilenumformungen E|P, dann P = A−1 .
Beispiel:








1 2 −3 1 0 0
1
2 −3 1 0 0
 2 1
2 
 0 1 0  →  0 −3
8 
 −2 1 0  II − 2I
−1 3
1
0 0 1
0
5 
−2 1 0 1
III + I


1
0
0
1
2 −3 
−2
1
0 

→  0 −3
8 


1
7
5
3 
0
0
1 (3III + 5II)
−
34
34
34
34


15
9
21
1
−



34 

34
34
I + 3III (dann)
1 2 0 


1
56
1
40
4


1
→  0 1 0 
 −
−2 +
−
1−
3
34
3
34
17 
 − 3 (II − 8III) (zuerst)
0 0 1 

5
3 
7
−
34
34
34


5
11
7
−


 34
34
34 

1 2 0 

2
1
4 

 I − 2II ,


→
0 1 0 

17
17
17

0 0 1 


7
5
3
−
34
34
34


5
11
7
−
 34

 −1
34
34 


1 2 −3

2
1
4 
.



2 1
2
also
=
17
17
17 


−1 3
1


5
3
7
−
34
34
34
Bemerkung und Warnung: Wir haben die Matrixinversion mit Zeilenumformungen durchgeführt
- es ginge ebenso gut mit reinen Spaltenumformungen. Allerdings überlegt man leicht, dass gemischte
Zeilen- und Spaltenumformungen nicht zum Ziel führen.
6.4. Simultane Bestimmung von Kern und Bild durch Spaltenumformungen. Bringt man
eine Matrix A ∈ Rm×n durch Spaltenumformungen auf untere Dreiecksgestalt B, also bij = 0 für i < j,
so hat man stets im Einzelschritt A von rechts mit einer Elementarmatrix multipliziert, insgesamt also
−
→
gebildet:
B = AT, mit einer Matrix T ∈ Rn×n . Wir bezeichnen mit b j den j. Spaltenvektor von B, also
−
−
→
−
→
→
−
→
B = b 1 , ..., b n . Sei r ≤ n der kleinste Index, so dass b k = 0 für k > r. Dann hat man sofort
→ Kern (B) = Spann (−
e k k>r ), also
−
→ Kern (A) = Spann ( t k
),
k>r
6.
ANWENDUNGEN DES RECHNENS MIT MATRIZEN
147
−
−
→
→
−
→ t 1 , ..., t n . Mehr noch: Die Vektoren t k , r < k ≤ n, bilden eine Basis für
−
−
→
→
die leere Folge, also Kern (A) = { 0 } ⊂ Rn . Ebenso
Kern (A) . Genau im Falle r = n ist t k
k>r
−
→
−
→
einfach ist eine Basis für Bild (A) zu ermitteln: Die Vektoren b 1 , ..., b r bilden eine solche. Genau um
−
→
Falle r = 0 ist diese Folge leer, und Bild (A) = { 0 } ⊂ Rm . Wir formulieren den damit bewiesenen
Sachverhalt in einem Satz, der zugleich ein Verfahren angibt:
also B = AT mit T =
Satz 60.
−
−
→ →
B
, B = b 1 , ..., b n in unterer Dreiecksgestalt, dann
T−
−
→ →
mit T =
t 1 , ..., t n und
−
→
−
→
r : = kleinste Zahl, so dass b k = 0 für r < k ≤ n:
−
→
Bild (A) = Spann
bk
1≤k≤r
−
→
Kern (A) = Spann
tk
A Spaltenumf ormungen AT
→
E
ET
=
r<k≤n
(Mit der ersten Zeile ist gemeint, dass E unter A geschrieben wird, und dass beide Matrizen denselben
Spaltenumformungen unterworfen werden, die man strategisch ausführt, um B etwa auf untere Dreiecksgestalt zu bringen.)
Illustration

1
2
1

1

 0


 0

0
3 −2
3
1
2
3
0 0
1 0
0 1
0 0

1
 2
1
→
1 −3
 0
1

 0
0
0
0
Resultate:





1 3 −2 1
an einem Beispiel: Aα =  2 3
1 α .
1 2
3 3





1
1
0 0
0
1
0 0
0





 2 −3 5 α − 2 
 2 −3
α 
0
0 





3
1 −1 5
2
1 −1 10 8 − α
∗
 → 
 → 

0 
1 −3 2 −1 
1 −3 −9 3 − 3α 


 0
 0
0 
1 0
0 
1
5 α−2 














0 
0 1
0 
0
3
0 
 0
 0

1
0
0
0
1
0
0
0
3

0 0 0
−3 0 0 
−1 10 0
B
=
2 102 − 39α
T
0 −60 + 15α 

1 −24 + 3α 
0
30


102 − 39α
 −60 + 15α 

Kern (Aα ) = Spann 
 −24 + 3α  ,
  30   
1
0
0
Bild (Aα ) = Spann  2  ,  −3  ,  0 
1
−1
1
∗
Kommentar: Mit dem Schritt → ist bereits eine Basis für das Bild bekannt (die ersten drei Spalten
der oberen Matrix bilden eine solche); denn die beiden letzten Spalten sind offenbar linear abhängig.
Natürlich gilt damit Bild (A) = R3 , und man kann einfacher die kanonische Basis der Einheitsvektoren
148
6. LINEARE ALGEBRA
angeben. Aber für den Kern braucht man noch den letzten Schritt. Der wurde so ausgeführt: 10 mal 4.
Spalte minus 8 − α mal die 3. Spalte, um die letzte Null zu schaffen und damit die erforderliche untere
Dreiecksgestalt. Diese Spaltenumformung musste noch mit der unteren Matrix ausgeführt werden, um T
zu erhalten. Rechnung und Resultat sind gültig unabhängig vom Wert des äußeren Parameters α. Das
ist natürlich nicht immer so und sogar untypisch.
Typischeres

1
Aβ =  −2
2
Beispiel
 (mit Fallunterscheidung für den Parameter):
2
3
−
→
1 −1  hat Kern (Aβ ) = { 0 } und folglich Bild (Aβ ) = R3 genau für β = 5,
3
β


  
−1
1
2
Kern (A5 ) = Spann  −1  und Bild (A5 ) = Spann  −2  ,  1  also für β = 5.
1
2
3
Das sollte man mit dem Verfahren noch einmal nachrechnen.
7.
RÄUME MIT SKALARPRODUKT UND ISOMETRIEN
149
7. Räume mit Skalarprodukt und Isometrien
Grundbegriffe:
Skalarprodukt / Hermitesche Form - dadurch definierte Norm
reziproke Basis zu einer gegebenen
Orthogonalbasen
Isometrien und orthogonale / unitäre Matrizen
Resultate:
Algebraische Eigenschaften der Standard-Skalarprodukte auf den Rn
Algebraische Eigenschaften der Standard-Hermiteschen Formen auf den Cn
Existenz von reziproken Basen
Existenz von Orthonormalbasen
Linearität von Isometrien
Inverse gleich Transponierte für reelle orthogonale Matrizen
Inverse gleich Transponiert-Konjugierte für komplexe unitäre Matrizen
Rechentechnik:
Orthonormalisierung einer beliebigen Basis
Vereinfachte Gewinnung der Koordinatendarstellung eines Vektors
bzgl. einer Orthogonalbasis oder Orthonormalbasis
Einfache Berechnung inverser Matrix zu einer orthogonalen Matrix
7.1. Vektorräume mit Skalarprodukt (Euklidische Räme) und unitäre Räume, Orthonormalbasen. 1.) Wir betrachten zumeist speziell den Rn mit dem Standardskalarprodukt
−
−
→
→
λ e
µ e
λµ.
=
i
i
i
i
i
i
i i
i
Wir erinnern daran, dass dies eine symmetrische Bilinearform ist. Folgende weitere Bildungen sind jedoch
von großer Bedeutung:
'b
2.) Das Skalarprodukt f, g := a f (x) g (x) dx auf dem Raum der reellwertigen stetigen Funktionen
auf [a, b]. Dies ist ebenfalls eine symmetrische Bilinearform. Das liegt an der Linearität des Integrals und
dem Kommutativgesetz (fg = gf), die positive Definitheit begründet man leicht so: Wenn f in einem
Punkt x0 ∈ [a, b] einen Wert = 0 besitzt, so ist in einer kleinen Umgebung von x0 der Wert von f 2
'b
mindestens so groß wie eine Zahl ε ≥ 0, folglich ist a f 2 (x) dx > 0.
3.) Für die Vektorräume Cn hat man anstelle der symmetrischen Bilinearformen die sogenannten
Hermiteschen Formen, Standardbildung ist (zi , ci ∈ C):
−
−
→
→
z e
c e
zc.
:=
i
i
i
i
i
i
i i
i
→
→
→
→
Damit hat man ebenfalls Bilinearität, allerdings wird −
z ·−
c =−
c ·−
z , diese Art von
.Symmetrie
. ersetzt
−
→
−
→
die normale. Wesentlich ist: Man hat wieder positive Definitheit; denn z · z =
zi zi =
|zi |2 ist
i√
i
→
−
→
→
→
→
stets reell und größer als Null, sobald −
z = 0 . Damit ist auch wieder durch −
z := −
z ·−
z eine Norm
definiert.
√→
→
a 2 eine Norm, welche dieselben wesentlichen
Bemerkung 3. Jedes Skalarprodukt definiert mit −
a := −
Eigenschaften wie der uns bekannte Betrag
des Rn besitzt. (Entsprechend ist in einem Raum
−
von Vektoren −
→
→
mit Skalarprodukt stets sinnvoll von a als Länge von a zu reden.)
Wir haben folgende grundlegenden Definitionen:
→
→
Definition 41. Eine Orthonormalbasis −
a 1 ,
..., −
a n eines Raumes mit Skalarprodukt ist eine solche
1 für i = j
→
→
Basis, für deren Vektoren gilt: −
ai ·−
a j = δ ij =
. Diese Vektoren haben also alle Länge
0 für i = j
1 und stehen paarweise senkrecht aufeinander. Eine Orthogonalbasis ist eine solche, bei welcher die Basisvektoren paarweise senkrecht aufeinander stehen. (Es fehlt also die Normierung.)
150
6. LINEARE ALGEBRA
Wir stellen eine kleine Beobachtung an:
Bemerkung 4. Ein System von Vektoren, welche alle nicht Null sind und paarweise senkrecht
aufeinander stehen, ist stets linear unabhängig.
. −
−
→
→
→
Begründung: Mit
λi →
a i = 0 hat man nach skalarem Anmultiplizieren von −
a i0 : λi0 −
a 2i0 = 0,
i
also λi0 = 0. Somit für alle i : λi = 0.
Man hat stets die Möglichkeit, ein linear unabhängiges System, insbesondere auch eine jede Basis,
wie folgt zu orthonormalisieren:
→
→
Satz 61. Seien −
a 1 , ..., −
a k linear unabhängige Vektoren in V, V Vektorraum mit Skalarprodukt. Dann
→
−
→
−
→
→
gibt es stets
Vektoren
b 1 , ..., b k , welche ein Orthonormalsystem bilden und für die gilt: Spann −
a 1 , ..., −
ai =
−
→
−
→
Spann b 1 , ..., b i für alle 1 ≤ i ≤ k. Insbesondere gibt es stets Orthonormalbasen. Folgende rekursive
−
→
Definition gibt ein Verfahren (Gram-Schmidt-Orthonormalisierungsverfahren) zur Gewinnung der b j ,
1 ≤ j ≤ k an:
−
→
3
→
b1 : = −
a 1,
−
→
3
i −
→
−
→
−
→
a i+1 · b j 3
3
→
b j , für 1 ≤ i < k.
b i+1 : = −
a i+1 −
2
−
→
3
j=1
bj
−
→
3
Schließlich normiert man noch - die Vektoren b i sind niemals Null:
−
→
3
−
→
bi
b i := , 1 ≤ i ≤ k.
−
→
3
b i
Hinweis: Es ist rechentechnisch wesentlich günstiger, die Normierung wie angegeben erst zum Schluss
→
anzubringen, weil es auch bei einfachen Koordinaten der −
a i sonst unangenehme Wurzelausdrücke in den
Vektoren bei der Durchführung des Induktionsschrittes gibt. Beim angegebenen Verfahren erscheinen
solche erst am Schluss, wo man nichts mehr zu rechnen hat. Noch eine praktische Bemerkung: Auch die
−
→
3
Vektoren b i können unerwünschte Faktoren enthalten. Diese kann man ohne weiteres weglassen!
Folgende Bilder zeigen die anschauliche Idee der Konstruktion:
a
2
~
b
a3
~
b3
2
a
1
~
b1
~
b2
7.
RÄUME MIT SKALARPRODUKT UND ISOMETRIEN
Beispiel zur Orthonormalisierung:

   

1
1
1
−
 −1   1   −1 
→
→
→

   

a 2, −
a3 =
a 1, −
 1  ,  1  ,  2  .
1
2
1


1
 −1 
−
→
3

b1 = 
 1 ,
1

 

1
1

 

 1   −1 
 
 
  
  


 

 ·

 1  
1 
1
1
1
1
1

 

 1 
 −1   1 
 −1 
 7 
−
→
2
1
3
1
3


  


 
b2 = 
 1 −
 1  =  1 − 4  1  = 4  1 ,
4
2
1
2
5
 1
1
 7 
−
→
3

wir lassen den störenden Faktor 14 weg und arbeiten mit 
 1  weiter für b 2 .
5





1
1
1
1






 −1   −1 
 −1   7 

 

 

 
 












2 
1 
2 
1
1
1




 1 
 −1 


−
→
1
1 
1
5 
3
 −1  −

 7 
b3 = 
 2 −



1
1 
4 #
76
5

1


 1


1
1
−5
1



 −1 
1 
1 
5 
 −1 
 7 
 3 

=
 2  − 4  1  − 76  1  = 19  14  . Resultat nach Normierung:
1
5  
−6 
1



1
1
−5
√
√
−
 1  −1 


→ −
→ −
→
19 
266 


 7 
 3 
b 1, b 2, b 3 = 
 2  1  , 38  1  , 266  14 
1
5
−6
151
152
6. LINEARE ALGEBRA
Praktische
/ Orthonormalbasen:
−
Anwendung von Orthogonalbasen
→
→
→
→
a 1 , ..., −
a n sei Orthogonalbasis, d.h. Basis mit: −
ai·−
a j = 0 für alle i = j.
n
→
→
Gesucht: Die Koeffizienten λi für −
x =
λi −
a i .Man hat einfach:
i=1
−
→
→
x ·−
ai
λi = −
2 .
→
i
a−
→
→
Wenn a 1 , ..., −
a n sogar Orthonormalbasis ist, so gilt einfacher:
→
→
λi = −
x ·−
a
i.



 


1
1
1
−7
Beispiel:  1  = α  −1  + β  3  + γ  1  , dann
1
4
 1 
2
1
1
1
1
 1  ·  −1  =
,
α=
6
3
1
2
   
1
1
1
5
 1 · 3 =
,
β=
11
11
1
1
  

1
−7
1
1
 1 · 1 =−
γ=
66
33
1
4
Besonders wichtig wird dies Verfahren bei der Bestimmung von Fourierkoeffizienten (dazu mehr in
Mathematik B). Zunächst stellen wir fest, dass sich Matrizen, deren Spalten bzw. Zeilen eine Orthogonalbasis oder gar Orthonormalbasis bilden, auf besonders einfache Weise verhalten.
7.2. Isometrien, orthogonale und unitäre Abbildungen bzw. Matrizen. Wie immer fragen
wir nach den strukturgerechten Abbildungen, welche also die Struktur des Vektorraums mit Skalarprodukt
bzw. Hermitescher Form respektieren.
Definition 42. Eine Isometrie (oder auch orthogonale Abbildung / im komplexen Fall: unitäre Abbildung) eines Vektorraumes mit Skalarprodukt (bzw. mit Hermitescher Form) auf einen anderen eben−
→
solchen ist eine bijektive Abbildung f , welche das Skalarprodukt erhält, also folgende Bedingung für alle
−
→
−
→
x , y erfüllt:
−
−
→ −
→ → −
→
f →
x f −
y =→
x−
y.
−
→
Bemerkung: Es folgt, dass f bijektive lineare Abbildung ist, also ein Vektorraumisomorphismus.
Wie sehen die Matrizen von Isometrien zwischen Vektorräumen über R aus? Dazu setzen wir natürlich
Orthonormalbasen voraus, so dass die Koordinatendarstellungsabbildungen (·)a Isometrien des Raums
auf den entsprechenden Rn werden. Eine Orthonormalbasis wird durch eine Isometrie auf eine Orthonormalbasis des Zielraums abgebildet. Also bilden auch die Spalten einer darstellenden Matrix eine Orthonormalbasis des Rn . Eine solche Matrix heißt orthogonal. Wir haben dazu folgendes Resultat, mit
dem die Inversion solcher Matrizen besonders einfach wird:
Satz 62. Ist A eine orthogonale Matrix, d.h. die Spaltenvektoren von A bilden eine Orthonormalbasis
des Rn , dann gilt
A−1 = AT .
Die Inverse ist also einfach die Transponierte.
Zum Beweis schauen wir die Inversenbildung bei Matrizen etwas näher an:
→
→
Definition
43
(und Satz). Zu jeder Basis −
a 1 , ..., −
a n des Rn hat man eindeutig die reziproke
−
→
→
→
Basis →
a ∗ , ..., −
a ∗ , für die gilt −
a∗ ·−
a = δ für alle i, j.
1
n
i
j
ij
8.
DETERMINANTEN
153
→
Begründung für den Rn : Schreiben wir die Vektoren −
a i als Spaltenvektoren einer Matrix A, so haben
−1
wir die Inverse Matrix A , weil A eine Bijektion des Rn auf sich darstellt (bezüglich der kanonischen
−
→
Basis). Also mit A−1 A = E = (δ ij )ij (Einheitsmatrix): i. Zeilenvektor von A−1 sei b i . Dann hat man
−
→
−
→
−
→T −
→
a j = δ ij , also bilden die b Ti die reziproke Basis. Setze also −
a ∗i := b Ti . Hat man umgekehrt eine
bi →
reziproke Basis, so bilden deren Vektoren als Zeilen geschrieben die Matrix A−1 , und diese ist eindeutig
bestimmt.
Nunmehr folgt der vorige Satz aus folgender Beobachtung:
Bemerkung 5. Eine Orthonormalbasis ist zu sich selbst reziprok.
Das folgt sofort aus der Definition von ’Orthonormalbasis’. Somit braucht man die Spalten einer
orthogonalen Matrix nur als Zeilen zu schreiben, um die Inverse zu erhalten.
Bemerkung: Für den komplexen Fall erhält man analog für unitäre Matrizen A ∈ Cn×n : A−1 =
T
→
→
→
→
A , weil für die reziproke Basis −
a ∗1 , ..., −
a ∗n zu −
a 1 , ..., −
a n bezüglich des Skalarproduktes in Cn gilt:


 −
→
a ∗1

 ..  −
→
−
→
 .  a 1 , ..., a n = 
−
→
a ∗1

−
→
a ∗1
..  −
→
−
→
.  a 1 , ..., a n = (δ ij )ij = (δ ij )ij = E.
−
→
a ∗1
(Die Matrizen sind durch ihre Zeilen- bzw. Spaltenvektoren angegeben. Der Querstrich über den Vektoren
bedeutet Konjugation aller Einträge.)
Beispiel für den reellen Fall (Inverse einer orthogonalen Matrix ist die Transponierte):

 −1


1 √
1 √
1 √
1 √
1 √
1 √
6
6
6
6
3
2
 6

 6

6
3
3
2




 1 √



√
√
√
√
√
1
1
1
1


 1 6

3
3
−
3
3
−
2
=
 3



3
3
3
2


 6

 1 √



√
√
√
1
1
1
2 −
2
0
6 −
3
0
2
2
3
3


T
1 √
1 √
1 √
6
6 
 6 6
6
3


 1 √
1 √
1 √ 

=
3
3
−
3
 3

3
3


 1 √

1 √
2 −
2
0
2
2
Beispiel für den komplexen Fall (Inverse einer unitären Matrix ist die Transponiert-Konjugierte):
√
√ −1
√
√ 1 1 + √3j −1 +√ 2j
1
1 − j √3 1 − j √2
√
=√
−1 − j 2 1 + j 3
7 1 + 2j 1 − 3j
7
8. Determinanten
Vorbemerkung: Alle folgenden Ausführungen über Determinanten gelten für beliebige
Zahlkörper K anstelle von R, lediglich zur konkreteren Formulierung und insbesondere konkreterer
geometrischer Deutung denken wir an R zuerst. Abgesehen davon handelt es sich um den wichtigsten
Spezialfall. Die konkrete geometrische Deutung der Determinante ist für das Grundverständnis auch
der algebraischen Eigenschaften der Determinante sehr wichtig, aber es sei darauf hingewiesen, dass der
Anwendungsbereich viel weiter gesteckt ist, vgl. den nächsten Abschnitt über Eigenwerte.
154
6. LINEARE ALGEBRA
Grundbegriffe:
Permutationen, Transpositionen und Vorzeichen einer Permutation
Determinante als n − fache alternierende Multilinearform, Versionen:
n
det : Rn×n → R, det : (Rn ) → R
Determinante als n− dimensionales Spatvolumen mit Orientierungsvorzeichen
−
→
Determinante von f (beliebiger linearer Abbildung V → V )
−
→
als Volumenverhältnis (mit Orientierung) des f − Bildspats
zum Ausgangsspat einer beliebigen Basis (Basisunabhängigkeit der Determinante!)
Resultate:
Algebraische Charakterisierung
der Determinante und Leibnizformel
det (A) = det AT
det (A) = 0 ⇐⇒ A regulär (d.h. A invertierbar)
1
Multiplikationsformel det (AB) = det (A) det (B) , also auch det A−1 = det(A)
für invertierbare A
Basisunabhängigkeit der Determinante
Entwicklungssatz
Cramersche Regel
Rechentechnik:
Multilinear alternierendes Rechnen
Praktische Berechnung auch allgemeinerer Determinanten (mit äußeren Parametern),
insbesondere durch Zeilen- oder Spaltenumformungen, Entwicklung, theoret. Überlegung
8.1. Zum geometrischen Verständnis des Spatvolumens mit Orientierungsvorzeichen.
1.) In der Ebene sieht das so aus:
1
0.9
0.8
0.7
0.6
a
0.5
0.4
0.3
0.2
b
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
−
→
→
Der von −
a , b aufgespannte zweidimensionale Spat ist einfach das von den beiden Vektoren aufgespannte
Parallelogramm. Das zweidimensionale Volumen davon ist der Flächeninhalt. Das Orientierungvorzeichen
−
→
→
−
→
→
ist positiv genau dann, wenn −
a, b wie e 1, −
e 2 orientiert
Beispiel sind sie das nicht,
sind. Imgezeichneten
−
→
a b
a
b
−
→
die Determinante der Matrix
mit a =
,b =
sollte daher im Beispielfalle mit
c d
c
d
8.
DETERMINANTEN
155
elementarer Vektorrechnung so auszurechnen sein:
    

a
b
0
 c × d =
.
0
0
0
ad − bc
−
→
a b
→
→
→
Also det
= ad − bc. Man beachte: −
a , b sind orientiert wie −
e 1, −
e 2 genau dann, wenn das
c d
→
gerade berechnete Vektorprodukt in Richtung von −
e zeigt. Im gezeichneten Beispiel resultiert
3


det 

Klar bekommen wir ebenso


det 

1
5
7
10
1
2
0
1
5
7
10
1
2
0


=− 7 .

20


= 7 .
 20
Der Flächeninhalt ist derselbe, das Orientierungsvorzeichen aber umgekehrt. Wir beobachten noch, dass
Null genau dann herauskommt, wenn die Vektoren linear abhängig sind, das Parallelogramm also ausgeartet ist.
2.) Im dreidimensionalen Raum ist ein (dreidimensionaler) Spat so etwas wie ein schiefer Quader. Das
dreidimensionale Volumen ist das, wofür wir im Alltag das Wort ’Volumen’ reservieren. (Nunmehr ist das
nur noch der Spezialfall n = 3 für das allgemeine n− dimansionale Volumen.) Das Orientierungsvorzeichen
−
→ →
→
→
→
→
e 2, −
e 3 , sonst ist es
ist positiv, wenn die drei erzeigenden Vektoren −
a , b,−
c orientiert sind wie −
e 1, −
negativ. Null resultiert wiederum genau dann, wenn der Spat ausgeartet ist, was genau im Falle der
linearen Abhängigkeit des Systems der Fall ist. Das Ganze sieht so aus:
1.5
a
1
b
0.5
c
0
-0.5
0
0.5
1
1.5
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Im gezeichneten Beispiel ist die Orientierung positiv, der rechten Hand entsprechend. Wir wissen bereits,
−
→ →
→
dass das Spatprodukt −
a(b ×−
c ) das Gewünschte leistet. Auch hier können wir die Sache wieder in Matrixform bringen und das Spatprodukt als Determinante einer (3 × 3) − Matrix auffassen. Dazu schreiben
wir die Vektoren als Zeilenvektoren folgender Matrix und sehen uns die Berechnung des Spatproduktes
156
6. LINEARE ALGEBRA
erneut an:

a1
det  b1
c1


 
 

a1
b1
c1
a3
b3  =  a2  ·  b2  ×  c2 
c3
a3
b3
c3
= a1 (b2 c3 − b3 c2 ) + a2 (−(b1 c3 − b3 c1 )) + a3 (b1 c2 − b2 c1 )
b2 b3
b1 b3
b1 b2
= a1 det
− a2 det
+ a3 det
.
c2 c3
c1 c3
c1 c2
a2
b2
c2
Das führt auf die Art, die Determinante einer (3 × 3) − Matrix zu berechnen, welche wir später (auch
analog im allgemeinen (n × n) −Fall ’Entwicklung nach der ersten Zeile’ nennen werden.
Wie bereits im zweidimensionalen Fall erkennt man auch hier, dass die analoge Bildung mit der
Matrix, in welcher die drei Vektoren als Spalten statt Zeilen geschrieben wird, genau dasselbe Resultat
liefert:

a1
det  a2
a3
b1
b2
b3

c1
b2 c2
a2 c2
a2 b2
c2  = a1 det
− b1
+ c1 det
b3 c3
a3 c3
a3 b3
c3
= a1 (b2 c3 − b3 c2 ) − b1 (a2 c3 − a3 c2 ) + c1 (a2 b3 − a3 b2 )
= a1 (b2 c3 − b3 c2 ) + a2 (b3 c1 − b1 c3 ) + a3 (b1 c2 − b2 c1 )
 
 


b1
c1
a1
=  a2   b2  ×  c2  .
a3
b3
c3
In beiden Berechnungen der Determinanten von (3 × 3) − Matrizen haben wir rekursiv auf Determinanten von (2 × 2) − Matrizen zurückgeführt. Analog kann man auch die Determinantenberechnung von
(2 × 2) − Matrizen auf Determinanten von (1 × 1) − Matrizen zurückführen. Sinngemäß (Volumen im
eindimensionalen Fall ist Länge, dazu Orientierungsvorzeichen) hat man det (a) = a, und damit gilt:
det
a b
c d
= a det (d) − b det (c) = ad − bc.
Das ganze Schema lässt sich zu einer rekursiven Definition der Determinanten beliebig großer quadratischer Matrizen verallgemeinern (vgl. Entwicklungssatz unten), aber wir wollen systematisch mit dem Begriff
des orientierten n− dimensionalen Spatvolumens arbeiten.
8.2. Die Determinante quadratischer Matrizen und ihre algebraischen sowie geometrischen
Eigenschaften. Wir wollen eine Abbildung folgender Art haben (für jeden Zahlkörper K und für jede
Zahl n ∈ N):
detn : (K n )n →
→ K −
, (Determinante als Funktion von n Vektoren aus K n ) ,
−
→
→
a 1 , ..., −
a n → det −
a 1 , ..., →
an
auch aufzufassen als :
detn :
K n×n
K
−
→
→
→
A = a 1 , ..., −
a n → det (A)
(Determinante als Funktion quadratischer Matrizen)
welche im Blick auf die gesuchten geometrischen Eigenschaften (wenn man an K = R denkt) folgende
Bedingungen erfüllen soll, die man zusammenfasst
→
mit: det soll n− fache alternierende Multilinearform der
→
→
e n = 1. Den Index n lassen wir ab jetzt fort. Wir definieren
Spaltenvektoren −
a j sein mit detn −
e 1 , ..., −
nunmehr, was dies im Einzelnen heißt:
8.
DETERMINANTEN
157
Definition 44. Eine Abbildung det: (K n )n → K heißt normierte alternierende Multilinearform,
wenn sie folgende Bedingungen erfüllt:
(i) det ist n − f ach linear, d.h. linear in jedem Eingabeschlitz, also
−
→
−
→
→
→
det(..., −
a + b , ...) = det(..., −
a , ...) + det(..., b , ...) und
−
→
→
→
→
det(..., λ−
a , ...) = λ det(..., −
a , ...) für alle −
a , b , λ.
→
→
(ii) det ist alternierend, d.h. det(..., −
a ,...−
a , ...) = 0.
−
→
−
→
(iii) det e 1 , ... e n = 1. (Normierung für den Einheitswürfel)
(Ohne die Eigenschaft (iii) ist das eine alternierende Multilinearform.)
Erläuterung zur Formulierung: Bemerkung zur Formulierung der ersten Eigenschaft (i): die bezeichneten Vektoren stecken stets im selben Eingabeschlitz, und die Pünktchen bedeuten stets denselben
Satz von Vektoren in allen anderen Eingabeschlitzen. Wir erinnern daran, dass genau in diesem Sinne
das Skalarprodukt und das Vektorprodukt bilinear sind, also zweifach linear. Ebenso bedeutet die Formulierung der Eigenschaft (ii), dass in zwei Eingabeschlitzen derselbe Vektor steckt, die anderen Schlitze
beliebig belegt sind. Dass diese Eigenschaft ’alternierend’ heißt, wird klar mit der zweiten der folgenden
Folgerungen - dass diese so einfach gezogen werden können, zeigt gerade die Nützlichkeit der obenstehenden algebraisch-abstrakten Definition von det.
Geometrischer
zu fordern,
→
Sinn der Formulierung: Die angegebenen Eigenschaften→sind alle
→
→
wenn det −
a 1 , ..., −
a n für Rn die Bedeutung haben soll: Spatvolumen des von −
a 1 , ..., −
a n aufgespan→
→
nten Spats mit Orientierungsvorzeichen. Denn −
e 1 , ...−
e n sollte ein Rechtssystem definieren und den
→
→
Einheitswürfel aufspannen, also (iii) . Ferner sollte (ii) gelten, weil mit Wiederholung (..., −
a ,...−
a , ...) ein
entarteter Spat aufgespannt wird, der n− dimensionales Volumen Null bekommen sollte. Schließlich die
beiden zu (i) gehörenden Eigenschaften (Linearität in jedem Eingabeschlitz): Für den Faktor ist das sofort
klar: Streckt man eine Kante eines Spats mit |λ| , so multipliziert sich das (n− dimensionale) Volumen
mit |λ| . Multipliziert man einen der aufspannenden Vektoren mit einer negativen Zahl, so tritt zusätzlich
→
Orientierungsumkehr ein. Für die Addition (erster Teil) sieht man die Sache so: Wenn −
a (oder einer der
nicht aufgeführten Vektoren in den anderen Schlitzen) der Nullvektor ist, so ist die Gleichung klar, da
−
→
→
dann det(..., −
a , ...) = 0 sein sollte (Entartung). Wenn das nicht der Fall ist, so kann man vom Vektor b
−
→
jede Vektor-Komponente abziehen, die nicht parallel zu a ist, ohne das n− dimensionale Volumen zu
ändern (Scherung, siehe weiter unten: Cavalieri-Prinzip). Dann aber ist die Aussage klar, es werden einfach zwei Spate aneinandergesetzt, deren Volumina sich addieren (oder das eine ist bei anderer Richtung
−
→
→
der −
a − Komponente von b abzuziehen).
Wir ziehen nunmehr einige Folgerungen aus der abstrakten Formulierung, die sowohl für die Deutung
der Eigenschaft als auch für das praktische Rechnen sowie Anwendungen der Determinante wichtig sind.
Anschließend beweisen wir die beiden Hauptresultate: Mit der angegebenen Definition ist det bereits eindeutig bestimmt, und es existiert auch eine solche Abbildung, die Leibnizformel gibt für diese Abbildung
die korrekte Berechnung an.
8.2.1. Folgerungen aus den algebraischen Eigenschaften allein. Wir benötigen folgende einfachen
Aussagen über Permutationen - Erinnerung: Eine Permutation der Menge {1, ..., n} ist eine Bijektion
dieser Menge auf sich. Einzelne Permutationen schreibt man gern σ, τ usw. Die Menge dieser Permutationen heißt Sn und bildet die sogenannte symmetrische Gruppe (mit der Verkettung als Multiplikation).
Eine Transposition ist eine Permutation der folgenden Art: Seien i = j aus {1, ..., n}. Dann definiert man

 k für k = i, j
j für k = i
τ i,j (k) :=

i für k = j
Es werden also i und j vertauscht, sonst werden alle Zahlen auf sich selbst abgebildet. Eine solche
Permutation heißt Transposition. Dazu hat man nun folgendes
Lemma 3. Jede Permutation lässt sich als Produkt von Transpositionen schreiben, und dabei ist
eindeutig bestimmt, ob es eine gerade oder aber eine ungerade Anzahl von Transpositionen ist. Daher ist
158
6. LINEARE ALGEBRA
die Definition korrekt:
sign (σ) :=
1, wenn σ Produkt einer geraden Anzahl von Transpositionen ist
−1 sonst.
Da die Inverse von τ ij ebenfalls τ ij ist und daher die Inverse von τ i1 j1 ◦...◦τ ir jr lautet: τ ir jr ◦...◦τ i1 j1 ,
da ferner id das Produkt von Null Transpositionen ist, hat man:
Folgerung 7. sign (σ) = sign (−σ) , sign (id) = 1.
Nunmehr kommen wir zu den wichtigen Folgerungen aus den Eigenschaften (i) und (ii) von alternierenden Multilinearformen.
Folgerung 8.
−
→
−
→
−
→
→
→
(i) det(..., −
a , ..., b , ...) = det(..., −
a + λ b , ..., b , ...)
−
→
−
→
→
→
(ii) det(..., −
a , ..., b , ...) = − det(..., b ,..., −
a ...)
−
→
→
−
→
′
(ii ) det a σ(1) , ..., aσ(n) = sign (σ) det a 1 , ..., −
an
→
→
→
→
(iii)
det(−
a 1 , ..., −
a n ) = 0 ⇐⇒ −
a 1 , ..., −
a n linear abhängig.
Bemerkungen zum Verständnis: (i) ist das wichtige Cavalieri-Prinzip der Scherung. (ii) bedeutet die
Umkehr des Vorzeichens (also der Orientierung) bei Vertauschung zweier der Eingabevektoren. (iii) gibt
uns eine neue Charakterisierung der linearen Unabhängigkeit von n Vektoren im K n , die geometrisch
verständlich ist (’Spat nicht entartet’.)
Beweis: (i): Wir haben unter Ausnutzung von (i) und (ii) der Definition:
−
→
−
→
−
→
−
→
−
→
→
→
det(..., −
a + λ b , ..., b , ...) = det(..., −
a , ..., b , ...) + det(..., λ b , ..., b , ...)
−
→
−
→
−
→
→
= det(..., −
a , ..., b , ...) + λ det(..., b , ..., b , ...)
−
→
→
= det(..., −
a , ..., b , ...).
Zu (ii):
−
→
−
→
→
→
det(..., −
a , ..., b , ...) + det(..., b , ..., −
a , ...)
−
→ −
−
→
−
→
−
→
→
→
= det(..., a , ..., b + a , ...) + det(..., b , ..., −
a + b , ...)
Folg. (i)
=
(i) Def.
−
→
−
→
→
→
det(..., −
a + b , ..., −
a + b , ...)
=
(ii) Def.
0
Aus (ii) folgt mit dem Lemma oben sofort (ii′ ) . Zu (iii): Steht in einem der Eingabeschlitze, sagen wir
ohne Beschränkung der Allgemeinheit im ersten, eine Linearkombination der Vektoren in den anderen
Schlitzen, so haben wir:
n
n
−
→ −
→
−
→
−
→
→
det
λ a , a , ..., a
=
λ det −
a ,→
a , ..., −
a = 0.
k
k
2
n
k=2
k
k
2
n
k=2
8.2.2. Eindeutige Existenz von det und Leibniz-Berechnungsformel. Wir kommen nunmehr zu den
angekündigten Hauptresultaten:
Satz 63. det ist mit den Eigenschaften (i) − (iii) (’normierte alternierende n− fache Multilinearform’) eindeutig bestimmt.
−
→
−
→
→
→
Beweis: Sei −
a 1 , ..., −
a n eine beliebige Basis von K n , und seien b 1 , ..., b n beliebige Vektoren aus K n .
−
→
−
→
→
Dann können die b 1 , ..., b n ∈ K n eindeutig durch Linearkombinationen der −
a j ausgedrückt werden,
also:
−
−
→
b =
λ →
a .
i
ij
j
j
8.
DETERMINANTEN
159
Damit gilt


−
→
−
→ −
→
−
→
det b 1 , ..., b n
= det 
λ1j a j , ...,
λnj a j 
j
j
=
Def. (ii) und Folgerung
−
→
−
→ =
(∗) det b 1 , ..., b n
sign (σ)
n
i=1
σ∈Sn
(ii′ )
σ∈Sn
=
Def. (i)
i1 ,...,in
→
→
λi1 ,1 · ... · λin ,n det −
a i1 , ..., −
a in
→
→
sign (σ) λ1,σ(1) · ... · λn,σ(n) det −
a 1 , ..., −
a n . Also
→
→
λi,σ(i) det −
a 1 , ..., −
a n . Diese Formel nennen wir die
Hauptformel des multilinear alternierenden Rechnens.
(Die allgemeinere Formel (∗) wird beim Beweis der Multiplikationsformel noch einmal wichtig.) Wir
erläutern ein wenig die Hauptschritte: Der erste beruft sich auf die n− fache Linearität, also in jedem
Eingabeschlitz. Wir erinnern uns, dass dies bedeutet: Distributiv rechnen, d.h. ’Jeder mit Jedem’. Genau
das und das Herausziehen der Faktoren geschah mit
dem Gleichheitszeichen
mit Zusatz ’Def. (i)’.
−
→
−
→
′
für
den
Fall
i
Aber mit Folgerung
(ii
)
oben
können
wir
det
a
,
...,
a
i1
in
k = im für k = m schreiben
−
→
−
→
als ± det a 1 , ..., a n , mit positivem Vorzeichen genau dann, wenn die Anzahl
benötigten
Ver→ der −
tauschungen gerade ist. Ferner liefert Eigenschaft (ii) aus der Definition det −
a i1 , ..., →
a in = 0, falls −
→
−
→
(i1 , ..., in ) keine Permutation von (1, ..., n) ist. Damit haben wir eindeutige Berechnung von det b 1 , ..., b n ,
→
→
auf den Wert von det −
a 1 , ..., −
a n für eine beliebige Basis zurückgeführt mittels der eindeutigen Zahlen
→
→
λij . Das Ganze können wir speziell auf den Fall −
ai = −
e i anwenden und erhalten gemäß Normierun−
→
−
→
seigenschaft (iii) den Wert 1 für det a 1 , ..., a n und damit die Leibnizformel:
Folgerung 9 (Leibnizformel). Es gilt für die eindeutige Abbildung det, welche die Eigenschaften
(i) , (ii) , (iii) erfüllt:
n
det (aij )ij =
sign (σ)
ai,σ(i) .
i=1
σ∈Sn
Daraus folgt unter Verwendung von sign (σ) = sign σ −1 sofort:
Folgerung 10.
det (A) = det AT
Also: Transposition einer Matrix ändert nicht den Wert der Determinante.
Denn
det (aij )ij
=
=
sign (σ)
τ ∈Sn
ai,σ(i) =
i=1
σ∈Sn
n
sign (τ )
n
σ∈Sn
aτ (j),j
j=1
n
sign σ −1
aσ−1 (j),j
j=1
= det (aij )Tij .
Wir haben dabei noch verwandt, dass man, wenn man mit σ alle Permutationen durchläuft, dies auch
mit σ−1 tut.
Im systematischen Aufbau der Sache hat man nunmehr noch zu beweisen, dass die mit der Leibnizformel definierte Determinante tatsächlich auch eine alternierende Multilinearform mit der Normierung
ist. Den Beweis dieser Tatsache lassen wir hier weg, formulieren nur noch einmal ausdrücklich:
Satz 64. Die Abbildung
n
sign (σ)
ai,σ(i)
det (aij )ij =
σ∈Sn
i=1
ist eine alternierende Multilinearform mit det (E) = 1, erfüllt also die verlangten Eigenschaften (i) bis
(iii) .
160
6. LINEARE ALGEBRA
8.2.3. Der Multiplikationssatz und Folgerungen für die allgemeinere Deutung der Determinante. Das
ist die wichtigste Formel für die Determinante:
Satz 65 (Multiplikationssatz). Es gilt für A, B ∈ K n×n stets det(BA) = det (B) det (A) .
Beweis: Die Aussage steckt fast unmittelbar in der Hauptformel (∗) des multilinear alternierenden
Rechnens:
n
−
→
−
→ →
→
det b 1 , ..., b n
=
sign (σ)
λi,σ(i) det −
a 1 , ..., −
an
σ∈Sn
−
→
bi
i=1
→
→
a 1 , ..., −
a n , für
= det (λij )ij det −
→
=
λij −
a j , 1 ≤ i ≤ n.
j
−
−
→
→
−
→ →
Dann haben wir mit A = (aij )ij und b i := B −
e i (= i. Spalte von B, also B = b 1 , ..., b n ):
→
→
→
→
det (BA) = det BA−
e 1 , ..., BA−
e n = det B
ai,1 −
e i , ..., B
ai,n −
ei
= det
i
T
→
ai,1 B −
e i , ...,
i
i
i
→
ai,n B −
e i , also unmittelbar mit (∗) :
−
−
→ →
det b 1 , ..., b n = det (A) det (B) .
det (BA) = det A
(Im letzten Schritt war det B T = det (A) zu benutzen.)
Aus dem Multiplikationssatz ergibt sich sofort die
Folgerung 11. det A−1 =
1
für invertierbare Matrizen A.
det (A)
Beweis: A−1 existiere, dann det A−1 det (A) = det (E) = 1, dividiere durch det (A) .
Weiter folgt aus dem Multiplikationssatz sofort:
Folgerung 12. Ähnliche Matrizen haben dieselbe Determinante, d.h. det T −1 AT = det (A) , für
−
→
alle (invertierbaren!) Transformationsmatrizen
T. Das bedeutet aber: Wenn f : V → V eine lineare
−
→
−
→
Abbildung ist und Maa f sowie Mbb f Matrizendarstellungen davon bezüglich zweier verschiedener
−
→
Basen a und b, so gilt wegen der Ähnlichkeit der Matrizen (Transformationsformel!): det Maa f
=
−
→
det Mbb f
.
Daher ist folgende Definition korrekt, eben wegen dieser Basisunabhängigkeit der Determinante:
−
→
Definition 45. Die Determinante einer beliebigen linearen Abbildung f : V → V (V wie immer
hier endlichdimensional) ist definiert als
−
−
→
→
det f := det Maa f
für irgendeine Basis a von V.
Wir sind nunmehr in der Lage, die komplette geometrische Deutung der Determinante zu geben:
−
−
→
→
Satz 66. Sei f : V → V linear. Dann bedeutet der Betrag von det f das Volumenverhältnis: Vol−
→ →
−
→→ →
→
umen des Spates, der von f −
a 1 ), ... f (−
a n aufgespannt wird, geteilt durch Volumen des von −
a 1 , ..., −
an
−
→
→
→
aufgespannten Spates, für jede beliebige Basis −
a 1 , ..., −
a n . Das Vorzeichen von det f ist positiv, wenn
−
→
−
→
f die Orientierung
(jeder) Basis erhält, negativ, wenn f die Orientierung (jeder) Basis umdreht, und
−
→
−
→
natürlich det f = 0 genau dann, wenn f nicht bijektiv ist.
8.
DETERMINANTEN
161
Beweis: Wir setzen V = K n voraus. (Über eine geeignete Koordinatenabbildung ist V mit K n identifizierbar, und die geometrische Bedeutung des orientierten Spatvolumes wird auch darüber übertragen.)
Nun sei eine beliebige Basis für K n gegeben:
→
→
a= −
a , ..., −
a .
1
n
Weiter sei für alle 1 ≤ j ≤ n:
n
−
−
→ −
→
−
→
f →
aj =
a k λkj , also (λkj )kj = Maa f ..
k=1
Nun haben wir mit dem Argument, das wir auch beim Multiplikationssatz verwandten:
−
→
→ → −
→ → →
det f −
a 1 , ..., f −
an
= det (λkj )kj det −
a 1 , ...−
an
−
→
→
→
= det f det −
a 1 , ...−
an .
→
→
Mit det −
a 1 , ...−
a n = 0 also:
−
→ → −
→ → −
det f −
a 1 , ..., f −
an
→
−
= det f .
→
−
→
det a 1 , ... a n
−
→
Der Streckungsfaktor für einen nicht ausgearteten Spat bei Anwendung von f ist also für alle Spate
derselbe!
8.3. Entwicklungssatz für die Determinante quadratischer Matrizen. Vorbemerkung:
Anwendung des Entwicklungssatzes zur praktischen Berechnung von Determinanten ist erst nützlich,
wenn man zusätzlich mittels des Cavalieriprinzips recht viele Nullen in der Zeile oder Spalte geschaffen
hat, nach der man entwickelt.
Wir formulieren den Satz hier ohne Beweis, beschränken uns auf die Erläuterung seiner Anwendung:
Folgerung 13 (allgemeiner Entwicklungssatz). Man kann jede Determinante nach jeder Zeile oder
auch Spalte entwickeln, es gilt also für A = (aij )1≤i≤n+1,1≤j≤n+1 stets, wenn wir mit Aij die Matrix
bezeichnen, welche aus A durch Streichen der i. Zeile und j. Spalte entsteht:
n
det (A) =
(−1)i+j aij det (Aij ) (Entwicklung nach der i. Zeile), und
j=1
det (A) =
n
(−1)i+j aij det (Aij ) (Entwicklung nach der j. Spalte).
i=1
Man beachte, dass im zweiten Fall über i summiert wird, im ersten über j. Das Vorzeichenschema der
Vorfaktoren (−1)i+j denke man sich wie folgt schachbrettartig:


+ − + ···
 − + − ··· 


 + − + ··· .


.. .. .. . .
.
. . .
8.4. Zur praktischen Berechnung von Determinanten. Rekursive Definition oder Leibnizformel empfehlen sich nicht, die unsägliche ’Sarrusformel’ für (3 × 3) schon gar nicht. Sie ergeben allzu
viele Terme, jedenfalls für n ≥ 3. Stattdessen kann man am besten das Cavalieriprinzip anwenden und
zusätzlich Zeilen (Spalten) mit geeigneten Faktoren = 0 multiplizieren - dann muss man jedoch die Kehrwerte dieser Faktoren vor die Determinante der neuen Matrix schreiben, um den Wert der ursprünglichen
Determinante nicht zu ändern. Auf diese Weise betreibt man Zeilen- oder Spaltenumformungen wie
gewohnt, um Nullen zu schaffen und möglichst eine obere Dreiecksgestalt zu erzielen. Noch einmal die
grundlegende Formel dafür (die aufgezählten Vektoren können die Spaltenvektoren oder auch die Zeilenvektoren der Matrix sein):
−
→ 1
−
→
→
→
→
det ...−
a , ..., b , ... = det ...−
a , ..., β b + λ−
a , ... für β = 0.
β
162
6. LINEARE ALGEBRA
Anwendungsbeispiel: (Anmerkung αzk + βzm bedeutet: Zeile k wird
ersetzt
 durch α· Zeile k plus
 β· Zeile
 m)

1 −2
1 1
1 −2
1
1
 2

1
3 3 
5
1
1 
 = det  0
 z2 − 2z1
det 
 3


1
1 1
0
7 −2 −2  z3 − 3z1
−2
2 −1 1
0 −2
1
3
z4 + 2z1


1
1
1 −2
 0
1
1
5 
 Zwei Spaltenvertauschungen,
= det 
 0 −2 −2
7 
Wert bleibt gleich
1
3 −2
 0

1 1 1 −2
 0 1 1
5 


= det 
0 0 0 17  z3 + 2z2
0 0 2 −7  z4 − z2
1 1 1 −2
 0 1 1
5 

 Eine Zeilenvertauschung,
= − det 
0 0 2 −7 
Wert kehrt sich um
0 0 0 17
= −34
In diesem Beispiel wurde die Kompensation für Faktoren, welche an der zu verändernden (!) Zeile
angebracht werden, nicht benötigt. Dagegen wird man gesehen haben, dass die Vertauschungen von
Spalten und einmal Zeilen sehr praktisch waren. Zur Verwendung der allgemeineren Zeilenumformungen
folgendes Beispiel:
Anwendungsbeispiel:




2
4
5
2
4
5
1
1
det  3 −3 −2  = · det  0 −18 −19  2z2 − 3z1
2 2
−5
7
3
0
34
31
2z3 + 5z1
1
= 4 · 2 (−18 · 31 + 34 · 19) = 44
Hier wurde nicht zu Ende bis zur Dreiecksgestalt umgeformt, sondern nach Schaffen der beiden
Nullen nach der ersten Spalte entwickelt. Man sah: durch die Zeilenumformungen wird der Wert der
1 1
Determinante jeweils mit 2 multipliziert, dafür · vorgesetzt, um das Resultat nicht zu ändern.
2 2
Zuweilen ist auch folgendes Resultat praktisch (’Blockmatrizen’): In der Bezeichnung bedeuten A
und C quadratische Matrizen (nicht notwendig gleicher Dimension), C und die Nullmatrix passend, so
dass insgesamt eine quadratische Matrix entsteht:
A B
det
= det (A) det (C) .
0 C
Anwendungsbeispiel:


1 2
5 7
 −3 4
8 9 
1 2
−2 3


det 
= det
det
= −110.
0 0 −2 3 
−3 4
1 4
0 0
1 4
Es sei noch bemerkt, dass man zuweilen eine Determinante einer Matrix mit äußerem Parameter
günstig als Polynom in diesem Parameter auffasst (das gilt gemäß Leibnizformel). Anschließend kann
8.
DETERMINANTEN
163
man überlegen, welchen Grad und welche Nullstellen das Polynom hat und zuweilen die Determinante
selbst daraus direkt erschließen. Ein Beispiel dazu:


1 a 1
det  a 1 1 
b b b
ist sicher ein Polynom ersten Grades in b mit einziger Nullstelle b = 0, ein Polynom zweiten Grades in
2
a, mit einziger Nullstelle a = 1. Daher muss b (a − 1) mit einem Faktor herauskommen, der nur ±1
sein kann, weil nach Leibnizformel das Glied a2 b keinen weiteren Faktor mehr hat. Da die Permutation
(2, 1, 3) das Vorzeichen −1 hat, ist der Faktor −1. Der Wert der Determinante ist also −b (a − 1)2 .
8.5. Cramersche Regel. Es ist mittels der Determinante möglich, eine explizite Formel für die
−
→
→
→
Lösung −
x eines linearen Gleichungssystems A−
x = b mit invertierbarer Matrix A anzugeben, das ist
der Inhalt der folgenden Cramerschen Regel:
−
→
→
→
Satz 67. Sei A invertierbar, −
x die eindeutige Lösung von A−
x = b . Dann ist mit den Matrizen Bi ,
−
→
bei denen die Spalten dieselben wie bei A sind, nur die i. Spalte durch den Vektor b ersetzt:
→
→
xi = −
x−
ei =
det (Bi )
.
det (A)
. −
.
−
→
Beweis: Wir haben b =
xi →
a i , nun sei 1 ≤ i0 ≤ n. Dann det (Bi0 ) =
xi det (Ci ) , wobei
i=1
i=1
−
→
Ci aus A dadurch entsteht, dass die i0 . Spalte durch a i ersetzt wird. Somit sind alle Summanden Null
bis auf den zum Index i0 (Auftreten zweier gleicher Spalten). Aber xi0 det (Ci0 ) = xi0 det (A) . Daher
det (Bi0 ) = xi0 det (A) .
Allerdings stellt diese Formel kein gutes Rezept für das praktische Lösen linearer Gleichungssysteme
dar, weil zumal im Falle höherer Dimensionen die Determinantenberechnungen viel Mühe machen. Für
(2 × 2) − Systeme mit komplizierten, z.B. komplexen, Koeffizienten ist die Sache dagegen sehr praktisch,
auch für den Fall, dass man etwa nur einen Koeffizienten haben möchte.
Anwendungsbeispiel zur Cramerschen Regel:
2−j
z1
1
=
hat die Lösung:
j
z
j
2
1 2−j
det
j
j
j − 2j + j 2
1+j
(1 + j) (2 + 4j)
1
3
=
z1 =
=
=
=− + j
j − 1 − (2 − j) (1 − j)
2 − 4j
20
10 10
1+j 2−j
det
1
−
j
j
1+j 1
det
1−j j
j−1−1+j
1−j
(1 − j) (1 + 2j)
3 1
=
z2 =
=
=
= + j.
−2
+
4j
1
−
2j
5
5
5
1+j 2−j
det
1−j
j
1+j
1−j
164
6. LINEARE ALGEBRA
9. Eigenwerte und Eigenvektoren; Diagonalisierung
Grundbegriffe:
Diagonalmatrix, Diagonalisierbarkeit einer Matrix aus Rn×n über R / über C,
auch einer Matrix aus Cn×n (über C, versteht sich)
−
→
Eigenwerte und zugehörige Eigenvektoren
einer linearen Abbildung f : V → V,
−
→
−
→
Eigenraum zum Eigenwert λ von f : Eλ f
−
→
−
→
− (λ) = det f − λid einer linearen Abbildung f : V → V
charakteristisches Polynom p→
f
algebraische und geometrische Vielfachheit der Eigenwerte
Grundresultate:
Diagonalisierbarkeit ist gleichwertig zur Existenz einer Basis von Eigenvektoren.
−
→
−
→
Die Eigenwerte von f sind die Nullstellen des charakteristischen Polynoms von f .
Eigenvektoren zu verschiedenen Eigenwerten sind stets linear unabhängig.
Diagonalisierbarkeit von A ∈ Rn×n über R bedeutet: Alle Eigenwerte sind reell, und die
algebraische Vielfachheit jedes Eigenwertes ist gleich seiner geometrischen Vielfachheit.
Diagonalisierbarkeit von A ∈ Rn×n über C bedeutet: Algebraische und geometrische
Vielfachheit stimmen überein für alle Eigenwerte. (Das ist nicht immer der Fall!)
Rechentechnik (keine ist neu, es sind nur die bekannten als anzuwendende
zu identifizieren - vgl. die Aussagen mit dem Vorsatz ’d.h.’:
Bestimmung der Eigenwerte (so weit praktisch leicht machbar) einer Matrix A ∈ Rn×n
−
→
bzw. einer linearen Abbildung f : V → V , (d.h. Berechnung einer Determinante und
Berechnung der Nullstellen eines Polynoms in einfachen
Fällen)
−
→
Bestimmung von Basen für die Eigenräume Eλ f ,
(d.h. Lösen eines linearen Gleichungssystems)
Entscheidung auf Diagonalisierbarkeit von A ∈ Rn×n und im positiven Falle:
Berechnung von Diagonalmatrix D und Transformationsmatrix T, so dass D = T −1 AT
(d.h. Anwenden der Transformationsformel für lineare Abbildungen)
Eine besonders einfache lineare Abbildung ist etwa
−
→
f : Rn →

Rn

1
0 0
−
→
→
→
x → A−
x =  0 −2 0  −
x.
0
0 3


1
0 0
 0 −1 0 
 . Das Lösen von linearen
Die Matrix A ist sofort invertierbar, die Inverse ist natürlich 
2


1
0
0
3
−
→
→
→
→
→
Gleichungssystemen A−
x = b und Weiteres wären ebenfalls besonders einfach. Die Vektoren −
e 1, −
e 2, −
e3
−
→
−
→
−
→
−
→
−
→
−
→
werden lediglich auf Vielfache abgebildet: A e 1 = 1· e 1 , A e 2 = −2 e 2 , A e 3 = 3 e 3 . Damit sind 1, −2, 3
→
Eigenwerte von A und die −
e Eigenvektoren zu diesen Eigenwerten. So einfach geht es nicht immer, aber
i
in wichtigen Fällen kann man eine Basis von Eigenvektoren finden, so dass die Matrix der linearen
Abbildung wenigstens bezüglich dieser Basis die einfache Diagonalgestalt erhält. In einigen praktisch
besonders wichtigen Fällen hat man sogar eine Orthonormalbasis von Eigenvektoren. Wir definieren
systematisch:
9. EIGENWERTE UND EIGENVEKTOREN; DIAGONALISIERUNG
165
Definition 46. A = (aij )ij heißt Diagonalmatrix, wenn aij = 0 für i = j. Wir bezeichnen mit
Diag (λ1 , ..., λn ) die Diagonalmatrix mit λi als Eintrag aii , 1 ≤ i ≤ n.
−
→
Definition 47. Sei f : V → V linear, V Vektorraum über dem Körper K. Dann heißt λ ∈ K ein
−
→
−
→ →
−
→
→
→
→
Eigenwert von f , wenn es einen Vektor −
x ∈ V \ { 0 } gibt mit f −
x = λ−
x . Jeder solche Vektor −
x
−
→
heißt dann Eigenvektor zum Eigenwert λ von f .
Hinweis: Der Nullvektor wird auf sich selbst abgebildet, er wäre ’Eigenvektor’ zu jedem Eigenwert,
−
→ −
→
da λ 0 = 0 . Das bringt nichts, und darum wird der Nullvektor völlig aus der Betrachtung ausgeschlossen,
wenn es um die Existenz von Eigenwerten geht. Wir haben folgende
−
→
Bemerkung 6. Ist λ ein Eigenwert von f , so bildet
−
1
2
−
→
→ →
→
→
x ∈V
f −
x = λ−
x
Eλ f := −
−
→
einen
Unterraum von V, den sogenannten Eigenraum zum Eigenwert λ von f , den man auch mit
−
→
−
→
−
→
Eλ f bezeichnet. Dieser Raum hat mindestens Dimension 1, da er einen Vektor = 0 enthält. f hat
−
→
Eigenwert Null genau dann, wenn der Kern von f nichttrivial ist, und dann ist der Kern der Eigenraum
zum Eigenwert Null.
−
→ →
−
→ →
−
→ → −
→
→
Die Begründung ist sehr einfach: Mit f −
x = λ−
x und f −
y =
λ−
y hat man f −
x +→
y =
→ −
→
−
→ →
−
→
λ −
x +→
y und f α−
x = λ α−
x . (Oder auch: Der Eigenraum Eλ f ist der Kern der linearen
−
→
Abbildung f − λid, und wir wissen, dass der Kern ein Unterraum des Urbildraums ist.) Weiter bedeutet
−
→ −
−
→
−
→
→
→
f →
x = 0−
x mit −
x = 0 , dass der Kern von f nichttrivial ist.
−
→
Definition 48 (und Bemerkung).
Eine lineare Abbildung f : V → V heißt diagonalisierbar,
wenn
−
→ −
→
−
→
a →
a −
es eine Basis a gibt, so dass Ma f eine Diagonalmatrix ist. Dann gilt mit Ma f e j = λj e j , dass
−
→
a eine Basis von Eigenvektoren ist. Umgekehrt: Wenn es eine Basis a von Eigenvektoren von f gibt, so
−
→
ist f diagonalisierbar.
−
−
→
→
Satz 68. Jeder Eigenwert von f ist Nullstelle von det f − λid . Dies Polynom heißt charakter−
→
istisches Polynom von f . Konkret für Matrixabbildungen A : Rn → Rn oder auch Cn → Cn ist also
p (λ) = det (A − λE) mit der Einheitsmatrix E das charakteristische Polynom. Es hat höchstens n Nullstellen, wenn n die Dimension von V ist.
→ −
−
→ →
−
→ →
→
−
→
→
→
Beweis: f −
x = λ−
x bedeutet f −
x − λid −
x = 0 , aber −
x = 0 wird für einen Eigenvektor
−
→
verlangt, so dass ein solcher also im Kern von f − λid liegt, der daher nichttrivial
ist für einen Eigenwert
−
−
→
→
λ. Anders gesagt: die Determinante der Abbildung f − λid ist Null. Da det f − λid = det (A − λE)
−
→
für jede f darstellende Matrix A und da det (A − λE) ein Polynom in λ vom Grade n = dim (V ) ist,
hat man höchstens n Nullstellen.
Es kann weniger Nullstellen geben, etwa darum, weil sie nicht im Körper liegen (so bei R), aber es
können auch Eigenwerte als mehrfache Nullstellen auftreten. So etwas kann Diagonalisierbarkeit verhindern. Wir erinnern an den Fundamentalsatz der Algebra: Jedes Polynom mit komplexen Koeffizienten
zerfällt über C in Linearfaktoren. Es fehlen in C also keine Nullstellen!
Man beachte stets: Wenn die Rede ist von einer Matrix mit komplexen Einträgen oder von einem
Polynom mit komplexen Koeffizienten, so ist damit auch der Spezialfall erlaubt, dass alle diese Zahlen
reell sind; denn R ist eine Teilmenge von C.
−
→
Wir erinnern für das Folgende daran: det (A) oder det f sind auch definiert für A ∈ Cn×n bzw.
−
→
f : V → V linear (genauer: C− linear), V endlichdimensionaler Vektorraum über dem Körper C, und
zwar etwa durch die Leibnizformel. Dabei bleiben alle algebraischen Eigenschaften bestehen, es ist an
→
→
deren Begründung kein Wort zu ändern.
Insbesondere sind Vektoren −
a 1 , ..., −
a n ∈ Cn genau dann linear
−
→
−
→
unabhängig, wenn det a 1 , ..., a n = 0.
Wir wollen nunmehr die wesentlichen Verhältnisse allgemein feststellen:
166
6. LINEARE ALGEBRA
Satz 69. Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. Eine lineare Abbildung
bildet ihre Eigenräume in sich selbst ab. Folgerung: Die geometrische Vielfachheit eines Eigenwertes, d.h.
die Dimension des zugehörigen Eigenraums, kann höchstens so groß sein wie die algebraische Vielfachheit
des Eigenwertes (wie vielfache Nullstelle des charakteristischen Polynoms er ist).
Satz 70. Eine reelle (n × n) − Matrix ist genau dann über R diagonalisierbar, wenn alle ihre Eigenwerte reell sind und die algebraische Vielfachheit eines jeden Eigenwertes ebenso groß ist wie seine geometrische Vielfachheit (d.h. die Dimension des zugehörigen Eigenraums genau die algebraische Vielfachheit ist). Eine komplexe (n × n) − Matrix ist genau dann über C diagonalisierbar, wenn die algebraische
Vielfachheit eines jeden Eigenwertes gleich seiner geometrischen Vielfachheit ist. Entsprechendes gilt
allgemeiner für lineare Abbildungen endlichdimensionaler Vektorräume über R bzw. C in sich.
Der Beweis des letzteren Satzes ist sehr einfach: Wenn die geometrische Vielfachheit jedes Eigenwertes gleich seiner algebraischen Vielfachheit ist, dann bildet man eine Basis von Eigenvektoren für den
Gesamtraum, indem man Basen der Eigenräume vereinigt. Das gilt mit der linearen Unabhängigkeit
der Eigenvektoren zu verschiedenen Eigenwerten und damit, dass die Summe der Dimensionen der
Eigenräume gleich der Dimension des Gesamtraums ist.
Daraus ergibt sich folgende allgemeine Strategie:
Praktisches Vorgehen bei der Untersuchung auf Diagonalisierbarkeit von A ∈ Rn××n
und konkreter Diagonalisierung:
1. Schritt: Man stellt das charakteristische Polynom auf und berechnet dessen Nullstellen.
Sollten komplexe Nullstellen dieses Polynoms bei reeller Matrix auftreten, so ist die Matrix
jedenfalls nicht über R diagonalisierbar, sie kann es dann noch über C sein.
−
→
→
2. Schritt: Man löst das homogene lineare Gleichungssystem (A − λE) −
x = 0
für alle Eigenwerte λ von A (die nach dem 1. Schritt bekannt sind, samt deren algebraischen
Vielfachheiten). Ordentliche Berechnung der Lösungsmenge in parametrisierter Form erlaubt
müheloses Ablesen einer Basis jeweils für jeden Eigenraum. Wir wissen bereits, dass die
Dimension jedes Eigenraums wenigstens 1 ist, weil det (A − λE) = 0.
3. Schritt: Man fügt die Basen der Eigenräume zu einer Folge (nach dem Satz zuvor) linear
unabhängiger Vektoren zusammen. Wenn diese Folge Länge n hat, so ist A diagonalisierbar über C.
Wenn alle Eigenwerte reell sind, dann ist A über R diagonalisierbar.
4. Schritt: Aus den Eigenwerten und den Basen der Eigenräume bildet man sofort im
diagonalisierbaren Fall D und T, so dass D = T −1 AT. Dabei ist T = Tea ,
mit der zuvor gewonnenen Basis a von Eigenvektoren.
Wichtige Bemerkung zur Praktikabilität des ersten Schrittes: Nullstellen von Polynomen
bekommt man ab Grad 3 nicht so einfach, ab Grad 5 nur numerisch. Aber man achte darauf, wenn sich
wesentliche Vereinfachung durch gegebene Faktorisierung des charakteristischen Polynoms ergibt.
9. EIGENWERTE UND EIGENVEKTOREN; DIAGONALISIERUNG
167
Anwendungsbeispiele zur Strategie:
1 2
1. Beispiel: A =
−1 1
1−λ
2
1. Schritt: pA (λ) = det
= (1 − λ)2 + 2,
−1 √1 − λ
Eigenwerte sind also λ1,2 = 1 ± 2j, also ist A nicht über R, wohl aber
mittels des vorletzten Satzes über C diagonalisierbar.
2. Schritt: Berechnung
der
Eigenräume:
x
−
→
Die Vektoren x =
∈ Eλi (A) sind die Lösungen des linearen Gleichungssystems ∗ )
y
(1 − λi ) y
x = y (1 − λi ), das sind die Vektoren
, y ∈ C. Daher haben wir:
y
√
√
− 2jy 2jy √ (A) =
E1+j √2 (A) =
y
∈
C
und
E
y
∈
C
1−j 2
y
y
√ √ − 2j
2j
ist Basis für E1+j √2 (A) ,
ist Basis für E1−j √2 (A) .
1
1
√ √ 2j
− 2j
,
3. Schritt: Wir fügen zu einer Basis von Eigenvektoren zusammen: a =
1
1
√ √
2j
− 2j
a
, also
4. Schritt: Damit haben wir: T = Te =
1
1
√
√
√
√ −1 √ 1 + 2j
0√
1 2
− 2j
2j
− 2j
2j
D=
=
.
−1 1
1
1
1
1
0
1 − 2j
Zu ∗ ) : Das Gleichungssystem lautet zunächst vollständig:
x + 2y
−x + y
= λi x
= λi y.
Ordentlicher als lineares Gleichungssystem geschrieben:
(1 − λi ) x + 2y
−x + (1 − λi ) y
= 0
= 0.
Aber wir wissen bereits: Da λi Eigenwert ist, hat dies homogene Gleichungssystem einen Lösungsraum
mindestens von Dimension 1. Also müssen die Gleichungen linear abhängig sein, und wir können uns auf
die bequemere von beiden beschränken. Außerdem benötigen wir vor allem eine Basis für den Eigenraum,
von der wir im Beispiel sofort wissen, dass sie nur je aus einem Vektor bestehen kann.
Wir bringen nunmehr zwei weitere Beispiele, die mit dem ersten zusammen alle wesentlichen Phänomene
zeigen:
168
6. LINEARE ALGEBRA
1 −2
,
−1
1
√
pB (λ) = λ2 − 2λ − 1, also hat B zwei verschiedene reelle Eigenwerte, λ1,2 = 1 ± 2.
Es folgt sofort die Diagonalisierbarkeit über R.
Gleichungen für die Eigenvektoren: −x + λi y = y, also hat man die Basen
1
1
1√
1√
für E1+√2 (B) und
für E1−√2 (B) , daher
−
2
2
2
2
−1 √
1
1
1
1
1+ 2
1 −2
0√
√
√
√
√
1
1
1
1
=
.
−1
1
0
1− 2
−
2
2
−
2
2
2
2
2
2
Man beachte: Die Eigenräume stehen nicht senkrecht aufeinander, was sie auch nur
bei symmetrischen Matrizen können - dann aber auch stets tun, vgl. den übernächsten
Abschnitt über die Diagonalisierbarkeit symmetrischer Matrizen.
2. Beispiel: B =
Das nächste Beispiel zeigt, wie es geschehen kann, das eine Matrix nicht diagonalisierbar ist, weder
über R noch über C.
1 1
3. Beispiel: C =
,
0 1
2
pC (λ) = (1 − λ) , einziger Eigenwert in λ = 1.
Der zugehörige
Eigenraum ist die Lösungsmenge von x + y = x,
1
also ist
Basis für E1 (C) . D.h. die algebraische Vielfachheit
0
des Eigenwertes ist 2, die geometrische nur 1.
Folglich ist die Matrix C weder über R, noch über C diagonalisierbar.
Abschließend behandeln wir noch ein paar (3 × 3) −
Erstes Beispiel:

3 0
A =  −5 4
5 0
Beispiele.

0
0 .
1
Man hat hier direkt das charakteristische Polynom: p (λ) = (3 − λ) (4 − λ) (1 − λ) . Das ist schon faktorisiert (man sollte nicht etwa ausmultiplizieren, wir wollen doch gerade nur die Nullstellen wissen (!)),
wir sehen also die drei verschiedenen reellen Eigenwerte sofort: 3, 4 und 1. Daraus folgt sofort, dass es eine
Basis von Eigenvektoren gibt, weil kein Eigenwert als mehrfache Nullstelle auftritt.
Mit Eigenvektoren
−
→
→
→
→
→
→
a 1 zu 3, −
a 2 zu 4, −
a 3 zu 1 hat die Matrix bezüglich der Basis a = −
a 1, −
a 2, −
a 3 also die Diagonalgestalt


3 0 0
(Tea )−1 ATea =  0 4 0  .
0 0 1
Man braucht nicht zu rechnen, um zu sehen, dass
−
→
→
e 2 Basis für E4 (A) und −
e 3 Basis für E1 (A) ist.


2
Ferner rechne man aus zur Übung, dass  10  eine Basis für E3 (A) bildet. Daher können wir angeben:
5


2 0 0
Tea =  10 1 0  .
5 0 1
10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
169
Zweites Beispiel:


3 0 0
B =  −5 4 0  .
5 0 4
Wie im vorigen Beispiel sieht man die Eigenwerte, wieder sind sie alle reell, aber es sind nur zwei, 3 und
4, letzterer kommt als doppelte Nullstelle. Entscheidend für die Frage der Diagonalisierbarkeit (ob über
R oder C - wenn die Matrix B nicht über R diagonalisierbar ist, so ist sie es auch nicht über C) ist hier:
Ist der Eigenraum E4 (B) zweidimensional oder nicht? Wir rechnen ihn aus:


x
→
→
→
B−
x = 4−
x ergibt im Einzelnen mit −
x =  y :
z
3x = 4x, also x = 0,
−5x + 4y = 4y, also y frei wählbar, ebenso z frei wählbar.
Beachten Sie: Die dritte Gleichung braucht man nicht mehr zu betrachten, sie folgt (das System in
homogen!) aus den ersten beiden, die beide nichttrivial und unabhängig sind. Das Resultat:
E4 (B) wird parametrisiert mit :
 
 
0
0
−
→
u (y, z) = y  1  + z  0  , y, z ∈ R.
0
1
−
→
−
→
→ −
Wir
 lesen
 also die Basis e 1 , e 2 für E4 (B) ab. Zur Übung kann man noch ausrechnen, dass a =
1
 5  eine Basis für E3 (B) bildet. (Ihr Rechenergebnis für eine Basis von E3 (B) muss ein Vielfaches
−5
→ −
→
dieses Vektors sein.) Also ist B diagonalisierbar, und wie üblich lesen wir bezüglich der Basis −
e 1, →
e 2, −
a
die Matrix D = Diag (4, 4, 3) ab.
Drittes Beispiel:


4 0 0
C =  −5 3 0  .
5 0 4
Das sieht sehr ähnlich aus wie B, es wurden nur die ersten beiden Diagonaleinträge vertauscht. Aber
Vorsicht: Wir rechnen wieder E4 (C) aus und erhalten die Bedingungen
−5x + 3y
5x + 4z
= 4y,
= 4z, also x = 0 und y = 0, z frei wählbar.
Man beachte: Die erste aufzustellende Gleichung ergibt hier 4x = 4x, sie entfällt hier also als trivial.
→
Daher bildet −
e 3 eine Basis für E4 (C) , und die Matrix C ist nicht diagonalisierbar.
Eine praktische Warnung: Wenn Sie nicht im Überblick ganz sicher sind, so schreiben Sie die zu
behandelnden homogenen Gleichungssysteme ordentlich hin und lösen sie schematisch mit Gaußverfahren.
Das sollten Sie insbesondere für die gegebenen Beispiele einmal tun, wenn Sie die oben angeführten
Bemerkungen zur schnellen Behandlung nicht ganz genau auf Anhieb verstanden haben. In rechnerisch
komplizierteren Beispielen wird das vielfach erforderlich sein.
10. Symmetrische Bilinearformen, deren Diagonalisierbarkeit, Klassifikation von
Quadriken
10.1. Symmetrische Bilinearformen, quadratische Formen und deren Matrixdarstellungen. Wir verfolgen das Thema der Diagonalisierbarkeit speziell weiter mit der Betrachtung symmetrischer reeller Matrizen. Dazu benötigen wir einige auch sonst nützliche allgemeine Grundbegriffeund Resul
→
→
tate über symmetrische Bilinearformen (Skalarprodukte sind spezielle Fälle davon, hier darf B −
x,−
x =0
−
→
→
→
→
bei −
x = 0 und auch B −
x,−
x < 0 durchaus vorkommen).
170
6. LINEARE ALGEBRA
Vorbemerkung: Man achte darauf, dass im Zusammenhang dieses Abschnittes mit B stets eine
symmetrische Bilinearform und nicht eine Matrix bezeichnet wird. Allerdings werden wir den Bilinearformen auch wieder Matrizen zuordnen und diese analog zum Fall der linearen Abbildungen bezeichnen
mit M a (B) (a für die gewählte Basis wie zuvor). B ist also ein geometrisches Objekt, B wirkt auf ein
Paar von Vektoren (nicht: Koordinatendarstellungen) und liefert dann eine reelle Zahl.
Grundbegriffe:
Symmetrische Bilinearform B : V × V → R, V Vektorraum über R,
Matrixdarstellung mit symmetrischer Matrix M a (B) von B bezüglich einer Basis a von V,
→ −
→a T a
→a so dass B −
x,→
y = −
x
M (B) −
y ,
zugehörige quadratische Form qB : V → R mit Matrixdarstellung M a (B) ,
→
→ −
→a T a
→a x := B −
x,→
x = −
x
so dass qB −
M (B) −
x , →
→
→
→
x +−
a T−
Quadriken: Lösungsmengen von Gleichungen qB −
x = c, c ∈ R und −
a ∈ V fest.
Signatur einer symmetrischen Matrix bzw. einer Bilinearform und Definitheit
Grundresultate:
Transformationsformel: Sind a, b Basen für V, so gilt:
T
M b (B) = (Tba ) M a (B) Tba .
Diagonalisierbarkeit aller symmetrischen Matrizen aus Rn×n über R
durch orthogonale Transformation (’Hauptachsentransformation’)
Grundformen der Quadrikengleichungen und Zurückführung der
allgemeinen Gleichung auf die Grundform durch Hauptachsentransformation
und Verschiebung
Satz von Sylvester und Klassifikation von symmetrischen Bilinearformen
Jacobi-Kriterium für positive (negative) Definitheit bzw. Indefinitheit
Wir beginnen mit einem einfachen Beispiel, das zeigt, wie eine symmetrische Bilinearform aussehen
kann und die Matrixdarstellung bezüglich einer Basis funktioniert - und zwar zunächst bei V = Rn mit
der kanonischen Basis:


1 2 0
Beispiel: A =  2 3 0  ist eine symmetrische Matrix, d.h. AT = A.
0 0 4
→ −
→
→
→
→
B −
x,→
y:= −
xT A−
y ,−
x
,−
y
auf V = R3 .
 ∈ R, definiert eine
 symmetrische
  Bilinearfom

1
2
1 2 0
2
Z.B. B  1  ,  1  = 1 1 2  2 3 0   1  = 3.
2
−1
0 0 4
−1
 

x1
y1
Allgemein B  x2  ,  y2  = x1 y1 + 2x1 y2 + 2x2 y1 + 3x2 y2 + 4x3 y3
x3
y3
−
→
→
→
Diezugehörige
quadratische
ist
Form:
q
x
:= −
x T A−
x , also
B

x1
qB  x2  = x21 + 4x1 x2 + 3x22 + 4x23 . (Direkt an der Matrix abzulesen!)
x3
→
→
Wegen −
x =−
x e mit der kanonischen Basis e heißt A auch M e (B) und M e (qB ) , denn es gilt:
−
−
T →e
→ −
T →e
→
−
→
B x , y = →
x e A−
y , qB −
x = →
x e A−
x . Allgemein ist
→
→
M e (B) = B −
e i, −
e j i,j . Damit gelten automatisch die vorigen Formeln.
10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
171
Nunmehr stellen wir an einem Beispiel die Verbindung zwischen Bilinearform und Matrix bezüglich
einer beliebigen Basis her und geben ein Anwendungsbeispiel der Transformationsformel:
Beispiel für die Matrixdarstellung einer symmetrischen Bilinearform
bezüglich beliebiger Basis:
 



1 √
1 √


 2 2   − 2 2 
0 
 



3
 1 √  ,  1 √  ,  0  ,
V = R , Basis b = 





 2 2   2 2 
1 
0
0
→ −
B −
x,→
y sei
definiert
durch
Vorgabe
auf
den
Basispaarenvon b mit
−
−
−
→ −
→ → → → → −
→ −
−
→ −
B b 1 , b 1 = −1, B b 2 , b 2 = 3, B b 3 , b 3 = 5, B b 1 , b 2 = 2,
−
−
→ −
→ → → −
B b 1 , b 3 = B b 2 , b 3 = 0.


−1 1 0
Dann ist M b (B) = M b (qB ) =  1 3 0  . Damit gilt

0 0 5
−1
1
0
→ −
→b T
→
→
→
 1 3 0 −
y b , für alle −
B −
x,→
y = −
x
x,−
y ∈ R3 . Z.B.
0
0
5
 



 


−1 1 0
1
√0
√0
√0
B  2  ,  2  = qB  2  = 1 1 1  1 3 0   1  = 9,
0 0 5
1
1
1
1
b  



1
√0
√0
−
→
−
→
−
→
da  2  =  1  , wegen  2  = 1 · b 1 + 1 · b 2 + 1 · b 3 .
1
1
1
Die Transformationsformel lautet M a (B) = (Tba )T M b (B) Tba , sie liefert im Beispiel speziell



M e (B) = (Tbe )T M b (B) Tbe = 



1 √
2
2
1 √
−
2
2
0
 T

1 √
1 √


2 0 
 2 2
2
−1
1
0



 1 3 0 
√
1 √

 − 1 2
2 0 

0 0 5
2
2
0
1
0

0 −2 0
2 0  . Probieren wir das aus: Tatsächlich
also M e (B) =  −2
0
 
0 5




0
0
0 −2 0
√
√
√0
√
B  2  ,  2  = 0
2 0   2  = 9, stimmt!
2 1  −2
0
0 5
1
1
1

1 √
2 0 
2

,
1 √
2 0 

2
0
1
Wir beschreiben nunmehr die Sache noch einmal ganz allgemein und geben eine ohne weiteres
verständliche Begründung der Transformationsformel.
Definition 49. Eine Matrix A = (aij )ij ∈ Rn×n heißt symmetrisch, wenn aij = aji für alle 1 ≤
i, j ≤ n gilt, d.h. wenn AT = A gilt.
Dazu ist es jedoch günstig, ein wenig weiter auszuholen und nicht nur auf das Diagonalisierungsresultat für symmetrische Matrizen direkt zu steuern. Denn solche Matrizen definieren interessante Objekte,
die auch sonst vorkommen und eigenständige Bedeutung und vielfältige praktische Anwendungen haben.
Außerdem lässt sich auch das spezielle Resultat durchaus besser verstehen im allgemeineren Rahmen.
Schließlich werden wir auch eine spezielle geometrische Anwendung kennenlernen, die Klassifikation von
Quadriken.
172
6. LINEARE ALGEBRA
Wir beginnen mit einer Beobachtung:
Satz 71. Jede symmetrische Matrix A ∈ Rn×n definiert eine symmetrische Bilinearform auf Rn ×Rn ,
auf folgende Weise:
n
B: R
× Rn →
R
−
.
→
→
→
→
x,−
y
→ −
x T A−
y
Dabei ist eine symmetrische
→ −
Bilinearform definiert als bilineare Abbildung mit der zusätzlichen Eigen→
→
schaft: B −
x,−
y =B −
y ,→
x .
Zum Verständnis wiederholen wir noch
die Gültigkeit folgender Formeln:
→ −
→
B −
x +→
y,−
a
→ −
→
B −
a ,→
x +−
y
→ −
B λ−
x,→
y
einmal die Eigenschaft der Bilinearität: Sie bedeutet für B
→ −
→ −
= B −
x,→
a +B −
y,→
a ,
→ −
→ −
= B −
a ,→
x +B −
a ,→
y ,
→ −
→ −
= λB −
x,→
y =B −
x , λ→
y .
Mit der Symmetrie würde es natürlich genügen, die Linearität nur in einem Eingabeschlitz zu verlangen.
Das sind also gerade die vom reellen Skalarprodukt her bekannten Eigenschaften.
Nur fehlt die Forderung
−
→
→
→
→
→
→
der positiven Definitheit. B −
x,−
x = 0 für −
x = 0 und sogar B −
x,−
x < 0 sind durchaus erlaubt und
→
kommen auch wirklich vor, für irgendwelche Vektoren −
x . Allerdings hat man stets
−
−
→
−
→
→
→
→
→
B −
x, 0 = B −
x,0 · 0 = 0 ·B −
x , 0 = 0.
Der Beweis
−
→
→
B →
a ,−
x +−
y
→ −
B −
a , λ→
x
→ −
B −
x,→
y
→ −
B −
x,→
y
der Aussage des Satzes ist einfach:
→ −
→T −
→ −
→ −
→T −
→
→
→
→
x +→
y =−
a A→
x +−
a T A−
x =B −
a ,→
x +B −
a ,→
y .
= −
aTA −
x + A−
y =−
a A→
→ −
→
→
→
→
= −
a T A λ−
x =→
a T λA−
x . Ferner zur Symmetrie:
x = λ−
a T A−
→ −
→ −
T
−
→
→
−
→
−
→
T −
= x A y , also, da B x , y eine Zahl ist und somit B −
x,→
y = B −
x,→
y
:
−
T
T
→
−
→
→
→
→
→
→
→
→
x TT
y T AT −
x =B −
y,−
x .
= B →
x,−
y
= −
x T A−
y
=−
y T AT −
= →
→
−
−
A=AT , x T T = x T
Mit der Symmetrie folgt auch die Linearität im ersten Eingabeschlitz, so dass insgesamt auch die Bilinearität bewiesen ist.
Umgekehrt kann man auch jede symmetrische Bilinearform auf Rn × Rn auf die angegebene Weise
durch eine symmetrische Matrix A darstellen. Denn wie eine lineare Abbildung durch die Angabe der
Bilder einer Basis eindeutig bestimmt wird, so auch eine bilineare Abbildung durch die Angabe
der
→ −
Bilder
von allen Paaren von Basisvektoren. Definiere dann einfach A = (aij )ij mit aij := B −
e i, →
e j für alle
i, j, bei
Bilinearform.
Tatsächlich hat man dann mit der Bilinearität von B für alle Vektoren
.vorgegebener
. →
−
→
→
→
x = xi −
e i und −
y = yi −
e i:
i
i

y1
→ −
→ −
 →T −

B −
x,→
y =
xi yj B −
e i, →
ej =
xi yj aij = (x1 , ..., xn ) A  ...  = −
x A→
y.
i,j
i,j
yn
.
Hier sieht man auch den allgemeinen Rechenausdruck einer Bilinearform in Koordinaten:
xi yj aij . Bei
i,j
.
.
der vorausgesetzten Symmetrie der Matrix A ist das gleich
(xi yj + yj xi ) aij + xi yi aii . Wir sagen
i<j
i
−
→
e n darstellt:
daher auch, weil A die Bilinearform B bezüglich der Basis e = →
e 1 , ..., −

M e (B) = A, d.h. A stellt B bezüglich der Basis e dar.
→ −
Man erhält M e (B) also einfach
dadurch,
dass man als Eintrag aij setzt: B −
e i, →
e j . Ebenso für jede
→
→
andere Basis a: M a (B) = B −
a i, −
a j ij .
→ −
→
→
→
Anwendung einer Bilinearform auf −
x =−
y ergibt eine Abbildung −
x → B −
x,→
x , die einen eigenen
Namen hat:
10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
173
Definition 50. Eine quadratische Form auf Rn ist eine Abbildung
qB : Rn
−
→
x
→
R →
,
→
→ B −
x,−
x
mit einer Bilinearform B. Also mit irgendwelchen Zahlen aij = aji :
→ →
→
→
→
→
→
qB −
x =
xi xj aij = −
x T A−
x , für −
x =
xi −
e i und −
y =
yi −
e i.
i,j
Die Matrix A stellt dann die Form qB
i
i
→
→
bezüglich der Basis e = −
e 1 , ...−
e n dar.
Bemerkung: Man kann B aus q zurückgewinnen, was nur darauf beruht, dass 1 + 1 = 2 = 0, was
für alle Körper gilt, die nicht gerade aufbauend auf dem Körper {0, 1} mit 1 = 0 und 0 + 1 = 1 + 0 = 1
und 1 + 1 = 0, 1 · 0 = 0 · 1 = 0, 1 · 1 = 1 gebildet sind.
Wir sagen auch: M e (qB ) = M e (B) = A = (aij )ij mit der symmetrischen Matrix A.
Hier sehen wir, dass die Frage der Diagonalisierbarkeit von A (und diese ist positiv zu beantworten!)
auch für symmetrische Bilinearformen und quadratische Formen interessant ist. Denn sie bringt durch
Koordinatentransformation
alle gemischten Terme xi yj aij bzw. xi xj .
mit i = j zum Verschwinden! Es
.
bleibt also nur noch
xi yi aii für die symmetrische Bilinearfom und
x2i aii für die quadratische Form
übrig.
i
i
10.2. Koordinatentransformation bei Bilinearformen. Die entscheidende Einsicht rührt nunmehr daraus, die Koordinatentransformation einer Bilinearform bzw. quadratischen Form zu betrachten
und mit der Koordinatentransformation einer linearen Abbildung - eine symmetrische Matrix stellt auch
eine solche dar! - zu vergleichen. Dazu haben wir den
Satz 72. Für eine symmetrische Bilinearform B und entsprechend für die zugehörige quadratische
Form gilt folgende Transformationsregel:
T
M b (B) = Tab M a (B) Tab .
Bemerkung 1: Die Formel gilt auch für beliebige (unsymmetrische) Bilinearformen, der Beweis wird
auch dies zeigen. Die Formel gilt für jede Transformationsmatrix Tab , also auch für nichtorthogonale (und
dann ist die Transponierte nicht die Inverse (!)).
Bemerkung 2: Das Transformationsgesetz ist völlig anders als bei linearen Abbildungen, aber wenn
T eine orthogonale Matrix ist, dann stimmen beide Gesetze ein: Diagonalisieren der Matrix A = M a (B)
als Matrix einer linearen Abbildung ist dann dasselbe wie Diagonalisieren der Matrix Matrix einer symmetrischen Bilinearform.
Beweis: Sei Tba wie immer die Matrix, welche eine Koordinatendarstellung eines Vektors bezüglich a
→
→
in die bezüglich b umwandelt. Sei nun A = M a (B) . Dann hat man nach Definition mit Vektoren −
x,−
y:
−
T
→
−
→
−
→
−
→
a
a
B x, y = x
A y . Nun ist aber
−
→
→
y a = Tab −
y b . Also auch
T
→b T −
T b T
−
→
xa
= Tab −
x
= →
xb
Ta . Damit
−
−
−
b T
→
−
→
→
−
→
→
→
a T
a
b T
B x, y
=
x
Ay = x
Ta ATab −
y b .
Das Transformationsgesetz ist völlig anders als bei linearen Abbildungen. Das liegt daran, dass eben zwei
Eingabe- Koordinatenvektoren zu transformieren sind und im ersten Schlitz bei der Matrixform eben
ein transponierter Koordinatenvektor, der wie gesehen mit der transponierten Transformationsmatrix
umzuwandeln ist. Nehmen wir aber nunmehr an, dass Tba eine orthogonale Matrix ist: Dann ist die
Inverse die Transponierte, also stimmen in diesem Falle beide Transformationsgesetze überein! Wenn es
gelingt, eine symmetrische Matrix zu diagonalisieren mit einer orthogonalen Transformationsmatrix, dann
hat man auch die zugehörige Bilinearform und quadratische Form diagonalisiert. Dies Resultat wollen
wir nunmehr aufstellen.
174
6. LINEARE ALGEBRA
10.3. Diagonalisierbarkeit reeller symmetrischer Matrizen über R.
Satz 73. Eine reelle symmetrische Matrix A ∈ Rn×n hat nur reelle Eigenwerte, und es gibt eine
Orthonormalbasis von Eigenvektoren, so dass mit der Matrix S, welche diese als Spaltenvektoren hat,
Folgendes gilt:
D = S −1 AS = S T AS ist Diagonalmatrix.
Dabei ist D = Diag (λ1 , ..., λn ) , wobei alle λi Eigenwerte von A sind, aber auch Wiederholungen vorkommen, gemäß den algebraischen Vielfachheiten.
Einen Beweis finden Sie im anderen Skriptum. Hier geht es darum, auf die Anwendbarkeit des Satzes
hinzuweisen: Nicht nur kann man die durch symmetrisches A dargestellte lineare Abbildung diagonalisieren, sondern auch die durch A dargestellte symmetrische Bilinearform und quadratische Form diagonalisieren, also in den Koordinaten der neuen Orthonormalbasis so darstellen:
n
→ −
B −
x,→
x
=
dk x
&2k , mit D = diag (d1 , ..., dn ) und
−
→
x =
k=1
n
k=1
−
→
xb

−
→
−
→
−
→
x
&k b k , b = ( b 1 , ..., b n ) die erwähnte Orthonormalbasis, also

x
&1
n

 −
=  ...  =
x
&k →
e k.
k=1
x
&n
Die gemischten Terme sind in dieser Darstellung verschwunden. Damit kann man die geometrische Gestalt
von Quadriken erkennnen, man kann auch einen Trägheitstensor allein mit den Hauptträgheitsmomenten
darstellen, eine Gesamtheit von n korrelierenden normalverteilten Zufallsvariablen entkorrelieren, usw.
Grundsätzlich sollte einleuchten: Man benötigt nur n Zahlen (einer Diagonalmatrix) statt n (n + 1) Zahlen
(einer beliebigen symmetrischen Matrix), und das ist ein großer Vorteil. Die Anwendung auf Quadriken
und Definitheit von symmetrischen Matrizen fassen wir nunmehr konkreter ins Auge.
10.4. Quadriken und deren Klassifikation mittels Hauptachsentransformation. Wir stellen
das wesentliche Verfahren dar, eine Quadrik geometrisch zu erkennen und auch ihre Lage im Raum zu
beschreiben. Es beruht vor allem auf der Diagonalisierbarkeit von symmetrischen Matrizen durch orthogonale Transformation. Dabei wird der Verschiebungsterm noch zurückgestellt.
Umgang mit Quadriken (volles
−
Programm):
→
Gegeben
ist
eine
Gleichung
q
x
= c mit quadratischer Form q, und zwar konkret durch
→ −
→
q −
x =→
x T A−
x , A symmetrisch in R3×3
Erster Schritt:
Man berechnet die Eigenwerte und Basen für die Eigenräume von A.
Zweiter Schritt:
Für mehrdimensionale Eigenräume zu Eigenwerten bestimmt man Orthonormalbasen
(Orthonormalisierungsverfahren), für eindimensionale normiert man die Basisvektoren.
Dritter Schritt:
Man bestimmt D und die Transformationsmatrix S (deren Spalten gebildet werden von der
zuvor gefundenen Orthonormalbasis von Eigenvektoren, gemäß der Reihenfolge der
Eigenwerte in der Diagonalmatrix D.
Vierter Schritt: Man bestimmt gemäß D und der Zahl c den Grundtyp der Quadrik
(vgl. den nächsten Abschnitt für eine Liste), und man findet über das von der
Orthonormalbasis gebildete Hauptachsensystem die Lage der Quadrik im Raum.
Bemerkung: Will man nur auf den Typ der Quadrik hinaus, ihre Gestalt, dann genügt es natürlich,
die Eigenwerte zu kennen und die Zahl c zu berücksichtigen. Konkrete Anwendungsbeispiele für dies
Schema folgen. Zunächst formulieren wir ausdrücklich die grundlegenden Begriffe und Resultate:
10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
175
Definition 51. Eine Quadrik ist die Lösungsmenge einer Gleichung
→ −
−
→
q −
x +→
x T b = c,
−
→
mit einer Konstanten c, einem festen Vektor b ∈ Rn und einer quadratischen Form q auf Rn . Ausführlicher
mit der Darstellung von q über eine symmetrische Matrix A ∈ Rn×n lautet die Gleichung:
−
→ →
−
→
→
x T A−
x + bT−
x = c.
−
→ →
Wir stellen die Behandlung des Terms b T −
x noch zurück und betrachten also nur Gleichungen
−
→
→
x T A−
x = c. Eine solche Gleichung in Normalform zu bringen und damit die definierte Quadrik zu klassifizieren, bedeutet gerade, die Matrix A zu diagonalisieren. Das kann nach dem vorigen Satz geschehen:
→
→
x = c (A symmetrisch) kann in die Form gebracht werden:
Satz 74. Jede Quadrikengleichung −
x T A−
T−
T →
S →
x D ST −
x = c.
Dabei ist S eine orthogonale Matrix, und S = Teb , entsprechend S T = Teb mit einer Orthogonalbasis b.
Diese Transformation heißt Hauptachsentransformation.
Beweis: Nach dem vorigen Abschnitt hat man mit einer orthogonalen Matrix S, also S −1 = S T :
D = S T AS, also A = SDS T .
Damit gilt:
→ T−
T →
−
→
→
→
x T A−
x =−
x T SDS T −
x= S →
x D ST −
x .
Bemerkung: Zu beachten ist, dass es hier darum geht, die Gleichung in den neuen Koordinaten wesentlich
→
→
einfacher zu formulieren, also −
x T A−
x in den neuen Koordinaten einfacher darzustellen. Daher S = Tbe
mit der neuen Orthonormalbasis b, und daher muss man gewöhnlich S als (Tbe )−1 bestimmen, was jedoch
einfach durch Transponieren geschieht.
Zur Anwendung: b sei eine Orthonormalbasis, mit der A diagonalisiert wird. Eine solche findet
man wie oben beschrieben: Eigenwerte von A, dann Orthonormalbasen für die Eigenräume, dann Zusammenfügen dieser Basen zu einer Orthonormalbasis des Gesamtraums. Nunmehr ist S T die Matrix Tbe . Sie
macht aus den alten Koordinaten bezüglich der kanonischen Basis der Einheitsvektoren die neuen Koordinaten bezüglich b. b stellt ein ’Hauptachsensystem’ dar. In diesen neuen Koordinaten lautet nunmehr
→
→
die Gleichung −
x T A−
x = c:
T
−
→
−
→
3
x D3
x = c,
→
→
3
mit −
x = S−
x . Somit lautet die Gleichung für die Quadrik in den neuen Koordinaten:
di x
&2i = c, mit D = Diag (d1 , ..., dn ) .
i
Es sind also die gemischten Terme verschwunden. Der Vorteil: Es ist nunmehr recht leicht, zu erkennen, um welchen der Grundtypen von Quadriken es sich handelt, da die geometrische Deutung dieselbe
bleibt, gleichgültig, welches Orthonormalsystem man wählt. Dabei zeigt sich, dass der Typ einer Quadrik
wesentlich davon bestimmt wird, wie viele Eigenwerte Null, wie viele positiv und wie viele negativ sind.
T
−
→
−
→
Allerdings spielt auch die Konstante c in der Gleichung 3
x D3
x = c eine Rolle, die aber einfach einzuse-
2
hen ist. Beispielsweise hat die Gleichung x2 +y
+z 2= 1 eine Kugeloberfläche als Lösungsmenge, dagegen
0
die Gleichung x2 + y 2 + z 2 = 0 nur den Punkt  0  als einzige Lösung, die Gleichung x2 + y2 + z 2 = −1
0
dagegen leere Lösungsmenge.
176
6. LINEARE ALGEBRA
1. Anwendungsbeispiel:
x
Quadrik: q
= x2 − xy + y 2 = 1
y

1

Zugehörige Matrix: A = M e (q) = 

1
2


 (direkt ablesen, bei den Einträgen abseits der

1
1
2
Hauptdiagonalen die Hälfte des jeweiligen Koeffizienten, in der Hauptdiag.
der Koeffizient
3 1
1
Erster Schritt: Die Eigenwerte sind , . Man findet Basis
für E3/2 (A) ,
1
2 2
−1
Basis
für E1/2 (A) .
1
√
√
1
−1
1
1
Zweiter Schritt: a = 2 2
,2 2
ist zugehörige Orthonormalbasis von Eigenvektoren.
1
3
1
√
1 −1
0
1
2
Dritter Schritt: D =
.
,S=2 2
1
1
0 12
x
Vierter Schritt: Mit der a− Koordinaten lautet die Gleichung: q
= 32 x
&2 + 12 y&2 = 1,
y
a
x
&
x
x
x
mit
=
= S −1
= ST
. Es handelt sich also um eine Ellipse (die Kurve)
y&
y
y
y
√
1
1
mit Mittelpunkt im Ursprung und Halbachsenlänge 2/3 in Richtung von 2 2
,
1
√
√
−1
Halbachsenlänge 2 in Richtung von 12 2
. Damit kann man die Quadrik zeichnen:
1
1
y
0.5
-1
-0.5
0
-0.5
-1
0.5x
1
10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
177
2. Anwendungsbeispiel:
q
x
y


= x2 + xy − y 2 = 1, Matrix also M e (q) = 

1

1
2

.

1
2
−1
√
√
1
1
1.),2.) Eigenwerte
5, −
5, zugehörige Orthonormalbasis a:
2
2
1
1
√ 1
√1
, ,
√
√
5−2
− 5−2
10 − 4 5
10 + 4 5



1
1
1 √
√
√
0


 2 5

10 − 4 5
10
, S = 
√
√+ 4 5 
3.) D = 

,

1 √ 
− 5−2
 5−2

0
−
5
√
√
2
10 − 4 5
10 + 4 5
4.) Die Quadrik ist eine Hyperbel (Kurve), die Gleichung im neuen System alautet
1√ 2 1√ 2
1
√
5&
x −
5&
y = 1, die Achse der Hyperbel liegt in Richtung des Vektors
,
− 5−2
2
2
4
2
die Asymptoten sind im neuen System y& = ± x
&2 − √ , haben also rechten Winkel zueinander.
5
Damit sieht die Quadrik folgendermaßen aus - das Kreuz der neuen Achsen (Hauptachsen!) ist mit eingezeichnet:
4
y
2
-4
-2
0
2 x
4
-2
-4
Bemerkung: Man kann sie auch so erhalten, dass man sie im neuen System zeichnet,
das man gerade so anordnet
√
wie das gewöhnliche kartesische System, und dann mit
dem Winkel arctan
5 − 2 entgegen dem Uhrzeigersinn dreht, also
mit der Matrix S −1 = S T .
178
6. LINEARE ALGEBRA
3. Anwendungsbeispiel (verkürzte Form):



1

x

2
2
2
e


q
y
= x + y − z + 2xy − xz = 1, also A = M (q) = 


z
1 −
1
2
0



.


1
1
1
−
0
−1
2
1.) Eigenwerte sind mit dem Computer numerisch schnell gefunden:
λ1 ≈ −1.15, λ2 ≈ 0.11, λ3 ≈ 2.04.
4.) Damit lautet die Gleichung in den neuen Koordinaten λ1 x
&2 + λ2 y&2 − λ3 z&2 = 1, entsprechend
a
ist D = diag (λ1 , λ2 , λ3 ) die Diagonalmatrix M (q) mit zugehöriger Orthonormalbasis a.
Es handelt sich also (vgl. die Grundquadriken im nächsten Abschnitt) um ein einschaliges Hyperboloid
mit elliptischem Querschnitt, genauer um dessen Oberfläche.
Es sei noch erwähnt, dass man die Eigenwerte exakt berechnen kann, dass aber die zugehörigen
Formelausdrücke fürchterlich aussehen. Dagegen ist es nützlich, mit dem Computer auch zugehörige
Eigenvektoren zu berechnen und sich damit die Lage im Raum vorstellen
zu können: 
Der Eigenvektor,

0.282 301 7
in dessen Richtung die Achse des Hyperboloids liegt, ist hier etwa  −0.131 392 63  , dazu braucht
0.950 285 08
man in SW P nur die Matrix mit mindestens einer Dezimalzahl zu schreiben und im Menu ’matrices’ auf
’eigenvectors’ zu drücken. Die Achse ist also nur leicht gegen die z− Achse geneigt.
10.5. Die wichtigsten Quadriken im R3 und ihre Standardgleichungen. Man beachte, dass
in allen Fällen die grobe qualitative Gestalt nur von der Signatur und dem Feldwert auf der rechten
Seite bestimmt wird. Außerdem mache man sich klar, dass eine andere Verteilung der Eigenwerte auf die
Achsen nur einen Achsenaustausch bedeutet und dass die nachfolgend beschriebenen Gebilde einerseits
in der Achsenrichtung (hier wurde die z− Achse jeweils dafür genommen) gestreckt oder gestaucht erscheinen sowie elliptische Querschnitte ausbilden können, wenn man andere Faktoren anbringt, welche
die Signaturen nicht ändern (also Faktoren > 0 jeweils bei x2 , y2 , z 2 , z). Ferner ist daran zu denken, dass
in allen Fällen die Flächen beschrieben werden durch die Gleichung, nicht etwa Körper.
Erster Fall: Kein Eigenwert ist Null. Die interessanten Beispiele sind:
Der (beidseitig unbeschränkte) Doppelkegel x2 + y2 - z2 = 0
(Signatur (2,1,0))
2
1.5
1
0.5
z
0
-0.5
-1
-1.5
-2
1.5
1
2
1.5
0.5
1
0
0.5
-0.5
0
-0.5
-1
-1.5
-1
-1.5
10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
179
Ellipsoid ax2 + by2 + cz2 = 1, a,b,c>0
(Signatur (3,0,0))
z
0.5
2.5
0
2
1.5
1
-0.5
0.5
0
-0.5
0.5
y
-1
-1.5
0
x
-2
-0.5
-2.5
Im gezeichneten Beispiel sollte man speziell erkennen: a = 1, b = 19 , c = 4. Man beachte: Die Halbachsenlängen eines Ellipsoids erkennt man besser in der folgenden Form der Gleichung:
x 2
α
+
2 2
y
x
+
= 1,
β
γ
dann sind sie einfach (der Reihe nach für die Achsen): α, β, γ. Andererseits hat man mit einer Diagonalmatrix, welche die quadratische Form darstellt, unmittelbar die Gleichung in der Form ax2 +by2 +cz 2 = 1
oder allgemeiner ax2 + by2 + cz 2 = d, d > 0. Dabei sind a, b, c gerade die Diagonalelemente. Dann produziert man leicht die Halbachsenform. Die Zahl d bewirkt offenbar ein
√ Schrumpfen oder Strecken des
Ellipsoids. Multiplikation von d mit 2 bewirkt z.B. eine Streckung mit 2 (in allen Richtungen).
Einschaliges Hyperboloid x2 + y2 - z2 = 1
(Signatur (2,1,0))
6
4
2
z
0
-2
-4
-6
6
4
6
2
4
0
2
0
-2
-2
-4
-4
-6
-6
180
6. LINEARE ALGEBRA
Zweischaliges Hyperboloid x2 + y2 - z2 = - 1
(Signatur (2,1,0))
3
2
1
z
0
-1
-2
-3
3
2
3
1
2
0
1
0
-1
-1
-2
-2
-3
-3
10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
181
Zweiter Fall: Zwei Eigenwerte sind verschieden von Null, einer ist Null:
Zylinder x2 + y2 = 1
Signatur (2,0,1)
1
0.8
0.6
0.4
z
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
1
0.5
0
-0.5
-1
-1
-0.8
-0.6
-0.4
-0.2
0.2
0
0.6
0.4
0.8
1
Allgemeiner ergibt sich mit Vorfaktoren ax2 +by 2 = 1 mit a, b > 0 ein elliptischer Zylinder. Dagegen
mit der Signatur (1,1,1) ein hyperbolischer Zylinder:
Hyperbolischer Zylinder x2 - y2 = 1
Signatur (1,1,1)
1
0.5
z
0
-0.5
-1
3
4
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
-4
182
6. LINEARE ALGEBRA
→
→
Die weiteren interessanten Beispiele erhält man nur über den Zusatzterm −
a T−
x:
Paraboloid x2 + y2 - z = 0
(Signatur (2,0,1))
9
8
7
6
z
5
4
3
2
1
0
2
2
0
0
-2
-2
Allgemeiner ergibt sich ein elliptisches Paraboloid mit Vorfaktoren a, b > 0 und der Gleichung
ax2 + by 2 − z = 0. Andere Feldwerte als Null führen offenbar zu keiner wesenlichen Veränderung, sondern
nur zu einer Verschiebung längs der z− Achse. Hier folgt noch das Gegenstück, das von der Signatur
(1, −1, 1) produziert wird mit linearem Zusatzterm, das hyperbolische Paraboloid:
Hyperbolisches Paraboloid x2 - y2 - z = 0
(Signatur (1,1,1))
10
8
6
4
z
2
0
-2
-4
-6
-8
-10
4
3
4
2
3
1
y
2
0
1
-1
0
-1
-2
-2
-3
-4
x
-3
-4
−
→
Erklärung: Setzt man y = 0, so erhält man eine Parabel (- Kurve) mit Minimum in 0 . Setzt man x = 0,
−
→
so ergibt sich eine Parabel mit Maximum in 0 . In diesem Punkt liegt also ein Sattel der Fläche vor.
→
→
10.6. Die allgemeine Quadrikengleichung. Wir wollen betrachten, was der Zusatzterm −
a T−
x
in der allgemeinen Quadrikengleichung
→
→
→
→
x +−
a T−
x =c
(∗) −
x T A−
→
bewirken kann. A ist dabei wie zuvor eine reelle symmetrische (n × n) − Matrix, und −
a ist ein fester
−
→
−
→
−
→
−
→
Vektor aus Rn , a T x also dasselbe wie das Skalarprodukt a · x . c ist eine feste Zahl.
Zunächst stellen wir uns die Frage, wie die Gleichung (∗) nach Hauptachsentransformation aussieht.
10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
183
Wir haben mit einer orthogonalen Transformationsmatrix S nach dem Resultat über symmetrische
reelle Matrizen:
D = S T AS, D Diagonalmatrix.
Damit gilt
→
→
3
A = SDS T , also mit −
x := S T −
x:
T
T−
T T −
−
−
→
→
−
→
→
→
→
−
→
T −
T
T−
x A x = x SDS x = S x D S →
x =3
x D3
x.
→
→
Nunmehr drücken wir auch −
a T−
x im neuen System aus. S T ist eine orthogonale Matrix, also haben wir:
→ T −
→T
−
→
→
→
→
a T−
x =−
a ·−
x = ST −
a · S →
x = ST −
a x
&.
Somit lautet die Gleichung (∗) in den neuen Koordinaten:
T
→T
−
→
→
3
(∗∗) −
x D3
x + ST −
& = c.
a x
→T
Es ist also nur noch einzusehen, was der Zusatzterm S T −
a x
& bei schon diagonalisiertem rein quadratisT
−
→
−
→
3
3
chem Term x D x mit diagonaler Matrix D bewirken kann. Es handelt sich um zwei Effekte:
T
−
→
−
→
x D3
x nicht vorkommt, so
1.) Wenn ein Eigenwert Null bei D auftritt, also eine Komponente x
&i in 3
T−
T
→
→
kann sie durch S a x
& in die Gleichung hineinkommen, wenn eben die i. Komponente von S T −
a nicht
Null ist. Das haben wir etwa beim Übergang von der Zylindergleichung zur Gleichung eines Paraboloids
gesehen.
T
−
→
−
→
−
→
x vorkommen, also nicht zu einem Eigenwert Null
2.) Für die Komponenten von 3
x , welche in 3
x D3
→T
von D gehören, ergibt sich eine Verschiebung bzw. auch Streckung durch den Zusatzterm S T −
a x
&, wenn
→
die i. Komponente von S T −
a nicht Null ist. Rechnerisch sieht man das so ein, dass man eine quadratische
Ergänzung für den Term in x
&i vornimmt. Wir zeigen das an einem einfachen Beispiel:
(Wir denken uns die Transformation zu (∗∗) bereits ausgeführt, schreiben aber bequemer x, y statt
x
&, y&. Die Gleichung laute dann
x
x2 + 2y2 + 2 −1
= 1, gleichwertig
y
x2 + 2y2 + 2x − y
2
1
(x + 1)2 + 2 y −
4
= 1, quadratisches Ergänzen ergibt
=
17
.
8
Damit sehen wir: Es handelt sich um eine Ellipse, deren Mittelpunkt vom Ursprung weg verschoben ist.
Außerdem sind die Halbachsen nicht mehr dieselben wie bei x2 + 2y2 = 1, sondern sie sind gestreckt.
Bringen wir die Gleichung noch auf endgültige Normalform, an der man alle Eigenschaften gut ablesen
kann, so kommt über
2
8
16
1
(x + 1)2 +
y−
= 1 heraus:
17
17
4
2 2
y − 14
x+1
+ 1√
= 1.
17/8
4 17


−1
Nunmehr ist abzulesen: Die Ellipse hat ihren Mittelpunkt in 9xM =  1  und x− Halbachsenlänge
4
√
√
17
1
1
=
34 und y− Halbachsenlänge
17. Zuvor hatte man mit der Gleichung x2 + 2y 2 = 1
8
4
4
1
1√
Halbachsenlängen 1 und
=
2.
2
2
184
6. LINEARE ALGEBRA
11. Der Satz von Sylvester
Wir haben gesehen, dass der Typ einer Quadrik wesentlich bestimmt wird von der Anzahl der positiven und der negativen Eigenwerte sowie der Vielfachheit des Eigenwertes Null der definierenden Matrix.
Die Zusammenfassung dieser Information nennt man Signatur:
→ −
→
Definition 52. Sei A eine reelle symmetrische Matrix und q −
x =→
x T A−
x die zugehörige quadratische Form. Dann versteht man unter der Signatur von A bzw. q das Tripel (p, r, s) , wobei p die Anzahl
der echt positiven Eigenwerte von A (> 0), r die Anzahl der echt negativen Eigenwerte von A (< 0) und
s die Vielfachheit des Eigenwertes Null ist.
Zum Verständnis: Die Signatur kann man nach Diagonalisierung (die nach unserem Hauptresultat
stets möglich ist) ohne weiteres ablesen: p ist dann die Anzahl der Einträge auf der Hauptdiagonalen der
Diagonalmatix, welche > 0 sind, usw.
Satz 75 (von Sylvester). Sei A ∈ Rn×n eine reelle symmetrische Matrix. Sei Q ∈ Rn×n eine invertierbare Matrix. Dann haben A und QT AQ dieselbe Signatur.
Zum Verständnis: Man beachte, dass hier nicht vorausgesetzt wird, dass Q eine orthogonale Matrix
ist! Es könnte sich also bei den Spaltenvektoren von Q um ein beliebiges schwiefwinkliges System handeln.
Dieser Satz begründet die Möglichkeit, den Typ einer Quadrik auch bereits über eine nichtorthogonale
Transformation zu bestimmen.
12. Positiv / negativ definite und indefinite symmetrische Matrizen
Es ist insbesondere bei den symmetrischen Hessematrizen, welche in die Näherung 2. oder höherer
Ordnung von Skalarfeldern eingehen (vgl. Mathematik B) recht wichtig, folgende Eigenschaften symmetrischer Metrizen zu betrachten:
→
Definition 53. Eine reelle symmetrische Matrix A bzw. die zugehörige
quadratische Form q −
x =
→
→
→
→
→
−
→
x T A−
x bzw. auch die zugehörige symmetrische Bilinearform B −
x,−
y =−
x T A−
y heißt
−
→
→
→
→
positiv definit, wenn für alle −
x =
0 gilt: −
x T A−
x > 0,
−
→
−
→
−
→
→
T −
negativ definit, wenn für alle x =
0 gilt: x A x < 0.
Beispiele:
→
→
1.) Das Standardskalarprodukt hat .
die symmetrische Matrix E (Einheitsmatrix), und −
x T E−
x =
→
−
→
−
→
−
→
T−
2
x x = x · x , das ist in Koordinaten
xi und größer als Null, wenn wenigstens eine der Zahlen xi
i
ungleich Null ist. Das war gerade dieEigenschaft des Standardskalarproduktes, positiv definit zu sein.
1
0
→
→
2.) Die Matrix A =
ist weder positiv, noch negativ definit, weil −
e T1 A−
e 1 = 1 und
0 −1
−
→
→
T −
e 2 A e 2 = −1. Solche nennt
manauch ’indefinit’.
1 0
→
→
3.) Die Matrix A =
ist ebenfalls weder positiv, noch negativ definit, weil −
e T1 A−
e1 = 1
0 0
−
→
−
→
und e T A e = 0.
2
2
An den Beispielen bemerken wir, dass es bei Diagonalmatrizen sehr einfach ist, die Eigenschaft
positiver / negativer Definitheit abzulesen: Eine Diagonalmatrix ist offenbar genau dann positiv definit
[bzw. negativ definit], wenn sämtliche Einträge auf der Diagonalen größer sind als Null [bzw. kleiner
als Null]. Setzen wir unser Hauptresultat der Diagonalisierbarkeit symmetrischer reeller Matrizen ein, so
erhalten wir mit dieser einfachen Beobachtung folgenden
Satz 76. Eine reelle symmetrische Matrix A (bzw. die zugehörige quadratische Form und Bilinearform) ist genau dann positiv definit [negativ definit], wenn alle Eigenwerte von A größer als Null [kleiner
als Null] sind.
Beweis: Wir haben mit einer orthogonalen Transformationsmatrix S: D = S T AS, mit einer Diagonalmatrix D, und dabei sind die Diagonaleinträge von D genau die Eigenwerte von A. Aber eine
Diagonalmatrix ist offenbar (s.o.) genau dann positiv definit [negativ definit], wenn alle Diagonaleinträge
größer sind als Null [kleiner als Null].
12. POSITIV / NEGATIV DEFINITE UND INDEFINITE SYMMETRISCHE MATRIZEN
185
Tatsächlich kann man über die positive Definitheit einer symmetrischen Matrix auch entscheiden,
ohne Eigenwerte berechnen zu müssen, mit folgendem Jacobischem Kriterium:
Satz 77 (Jacobi-Kriterium für positive Definitheit reeller symmetrischer Matrizen). Es sei A ∈ Rn×n
symmetrisch, und es seien die Matrizen Ak für 1 ≤ k ≤ n die jeweiligen quadratischen Untermatrizen
aus Rk×k , welche aus A durch Streichen der letzten n − k Zeilen und Spalten entstehen, also
Ak := (aij )1≤i,j≤k mit A = (aij )1≤i,j≤n .
Dann gilt:
A ist positiv definit ⇐⇒ ∀1 ≤ k ≤ n : det (Ak ) > 0.
Bemerkung: Natürlich bekommt man die negative Definitheit einer symmetrischen reellen Matrix
B heraus über die (gleichwertige!) positive Definitheit von −B.
Beispiel zur Anwendung: Für


1 2 −1
4 
A= 2 6
−1 4 24
haben wir der Reihe nach:
det (A1 ) = det ((1)) = 1 > 0,
1 2
det (A2 ) = det
= 4 > 0,
2 6


1 2 −1
4 
det (A3 ) = det (A) = det  2 6
−1 4 24


1 0 0
= det  2 2 6  = 46 − 36 = 10,
−1 6 23
also ist A positiv definit, und oben steht die gesamte benötigte Rechnung, leicht von Hand zu machen. Man
beachte, wie mühsam die Berechnung der Eigenwerte hier gewesen wäre. Das charakteristische Polynom
ist χ (λ) = λ3 −31λ2 +153λ−10, und die Eigenwerte sind näherungsweise - ein Compteralgebraprogramm
liefert auch das bequem:


6. 624 677 8 × 10−2

,
6. 071 477
24. 862 276
tatsächlich alle > 0. Entsprechend ist −A eine negativ definite Matrix.
Herunterladen