Mathematik A für Elektrotechnik/Informationstechnologie T. von der

Werbung
Mathematik A für Elektrotechnik/Informationstechnologie
T. von der Twer
Inhaltsverzeichnis
Kapitel 1. Mengen, Zahlenmengen, Abbildungen, Logik, Rechnen
1. Ein wenig Logik
2. Die natürlichen Zahlen, vollständige Induktion bzw. Rekursion
3. Elementare Grundkenntnisse zum Rechnen
1
7
12
13
Kapitel 2. Elementare Vektorrechnung und analytische Geometrie
1. Affiner Raum und Vektorraum
2. Längen und Winkel: Euklidischer Raum
3. Vektorprodukt und Spatprodukt
17
17
29
33
Kapitel 3. Komplexe Zahlen
1. Motivierungen
2. Konstruktion des Körpers (C, +, ·, 0, 1)
3. Beispiele zum kartesischen Rechnen mit komplexen Zahlen
4. Polarkoordinatendarstellung komplexer Zahlen
39
39
39
42
44
Kapitel 4. Reelle Funktionen
1. Besondere Eigenschaften reeller Funktionen
2. Die Grundfunktionen
3. Zusammensetzung von Funktionen
4. Grenzwert bei Funktionen und Stetigkeit
5. Ableitung reeller Funktionen (eindimensionaler Fall)
6. Grundlegende Resultate im Zusammenhang mit Ableitungen
7. Das eindimensionale Integral
47
48
50
54
60
67
74
80
Kapitel 5. Lineare Algebra
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
103
Die Struktur endlichdimensionaler Vektorräume
Lineare Abbildungen
Matrixdarstellung einer linearen Abbildung
Verknüpfungen von linearen Abbildungen und Matrizen
Transformation von Matrizen (Basiswechsel)
Anwendungen des Rechnens mit Matrizen
Räume mit Skalarprodukt und Isometrien
Determinanten
Eigenwerte und Eigenvektoren; Diagonalisierung
Symmetrische Bilinearformen, deren Diagonalisierbarkeit, Klassifikation von Quadriken
Der Satz von Sylvester
iii
103
107
112
115
119
121
124
128
139
143
154
KAPITEL 1
Mengen, Zahlenmengen, Abbildungen, Logik, Rechnen
Von welchen Gegenständen, ’Dingen’, ’Objekten’handelt die Mathematik? Wir wollen diese Frage
nicht zu tief angehen, sondern praktisch danach fragen, welche mathematischen Objekte man kennen
sollte, um Mathematik in√einer Ingenieurwissenschaft anwenden zu können. Da sind einmal die Zahlen
wie 1, 2, aber auch −2, 13 , 2, e, π, schließlich j (die komplexe Zahl mit der Eigenschaft j 2 = 1. Wichtig ist
es nun, die Zahlen nicht nur einzeln zu haben, sondern in ihren jeweiligen Gesamtheiten zu sehen. Dann
sind wir bei den Zahlenmengen. Sie bilden nur Beispiele für Mengen, man braucht weitere, etwa Mengen
von Punkten in einem geometrischen Raum, Mengen von Funktionen. Wir werden sogleich sehen, dass
Mengen wie die der reellen Zahlen nicht interessant sind als Mengen, sondern erst mit ihren Operationen
(Verknüpfungen) wie +, ·. So etwas nennt man eine Struktur. Mathematik handelt also wesentlich von
Strukturen. Das reicht noch nicht, sondern man braucht noch Abbildungen zwischen Strukturen.
Im folgenden Abschnitt werden alle grundlegenden Objekte eingeführt, mittels deren man alles Weitere beliebig Komplizierte zusammensetzen kann. Zugehörige Grundbegriffe und Bezeichnungen müssen
sorgfältig gelernt werden; denn deren Verfügbarkeit entscheidet darüber, ob man einen Text (nicht nur in
mathematischen Werken, sondern auch natur- und ingenieurwissenschaftlichen) versteht oder eigenständig Probleme zu lösen vermag.
0.1. Mengen, Teilmengen und Mengenoperationen. Wir benötigen folgendes Wissen über
Mengen: Zunächst das elementare Verständnis, dass eine Menge beliebige wohlunterschiedene Objekte
als Elemente umfasst und dass für eine Menge A stets eindeutig feststeht, ob ein beliebiges Objekt x zu
A gehört oder nicht, Element von A ist oder nicht. Symbolisch:
x ∈ A für: x ist Element von A
x ∈
/ A für: x ist nicht Element von A.
Man hat folgende beiden wichtigen Arten, eine Menge festzulegen:
{x1 , ..., xn } ist die Menge, deren Elemente genau die Objekte x1 , ..., xn sind.
{ x ∈ A| x hat die Eigenschaft E} ist die Menge aller Objekte aus der Menge A,
welche die Eigenschaft E haben. Auch in der Version, dass keine ’Grundmenge’ A
vorgegeben ist.
Beispiele: 1 ∈ {1, 2, 3} , 4 ∈
/ {1, 2, 3} , 2 ∈ { x| x ist ganze Zahl und x ist durch 4 teilbar} . Insbesondere
hat man die leere Menge ∅ := {} , welche gar kein Element enthält.
Für zwei Mengen A, B definiert man die Teilmengenbeziehung so:
A ⊂ B (lies: ’A ist Teilmenge von B’) : ⇐⇒ für alle x gilt: (wenn x ∈ A, dann x ∈ B) .
Dabei haben wir ein wenig mathematische Notation benutzt: Das Zeichen ⇐⇒ zwischen zwei Aussagen
bedeutet, dass diese Aussagen gleichwertig sind, also aus der einen immer auf die jeweils andere geschlossen
werden kann. Der Doppelpunkt bedeutet, dass diese Gleichwertigkeit definitorisch festgelegt wird (die
Teilmengenbeziehung, symbolisch ⊂, wird oben erst definiert).
Zwei Mengen sind nach Definition genau dann gleich, wenn sie dieselben Elemente haben, das heißt
A = B : ⇐⇒ (A ⊂ B und B ⊂ A) .
Beispiele: {2} = Menge aller geraden Primzahlen. Die leere Menge ist Teilmenge von jeder Menge. In
der Menge der reellen Zahlen interessieren vielfach Teilmengen gewisser Form, die man Intervalle nennt:
Für reelle Zahlen a ≤ b definiert man: [a, b] := { x ∈ R| a ≤ x ≤ b} (’abgeschlossenes Intervall’) und
1
2
1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN
(a, b) := { x ∈ R| a < x < b} (’offenes Intervall’). Es sollte nun klar sein, wie [a, b) und (a, b] zu verstehen
sind.
Man hat folgende wichtigen Operationen, die aus Mengen neue Mengen machen - die Doppelpunkte
bei den Gleichheitszeichen bedeuten definitorische Gleichheit:
A∩B
A∪B
A\B
A×B
:
:
:
:
An
:
Mengenoperationen
= { x| x ∈ A und x ∈ B} (Durchschnitt, A geschnitten mit B)
= { x| x ∈ A oder x ∈ B} (Vereinigung, A vereinigt mit B)
= { x| x ∈ A und x ∈
/ B} (Mengendifferenz, A minus B)
= { (x, y)| x ∈ A und y ∈ B} (kartesisches Produkt, A Kreuz B),
dabei bezeichnet (x, y) das geordnete Paar der Objekte x, y.
= { (x1 , ..., xn )| für alle i mit 1 ≤ i ≤ n gilt xi ∈ A} (mehrfaches
kartesisches Produkt der Menge A mit sich selbst, die Elemente sind
die Folgen der Länge n (n eine natürliche Zahl, im interessanten Fall
größer als 1) von Objekten aus A.
0.2. Die wichtigen Zahlenmengen, und der Körperbegriff.
N : = {1, 2, 3, ...} Menge der natürlichen Zahlen
N0 : = {0, 1, 2, 3, ...}
Z : = {..., −3, −2, −1, 0, 1, 2, 3, ...} Menge der ganzen Zahlen
m
Q : =
m, n ∈ Z, n = 0 Menge der rationalen Zahlen
n
R : = Menge aller reellen Zahlen
C : = { a + jb| a, b ∈ R} (Menge aller komplexen Zahlen)
Dabei wurden alle außer R wenigstens einigermaßen definiert, hier wurde nur das Symbol erklärt. Grundlegendes zu N folgt im Abschnitt 3 dieses Kapitels, Genaueres zu C in Kapitel 4. Tatsächlich ist es sehr
schwierig, die Menge der reellen Zahlen zu definieren. Was man als Anwender wissen darüber wissen
sollte, wird hier kurz zusammengestellt:
√
Zunächst einmal stellt man fest, dass Q ’Löcher’ hat, z.B. ist 2 ein Punkt des Zahlenkontinuums,
der Zahlengeraden, aber keine rationale Zahl. R hat nun gerade den Sinn, die rationalen Zahlen zur
vollständigen Zahlengerade zu erweitern, dass es überhaupt keine Löcher mehr gibt. Insgesamt hat man
Folgendes:
1.) Man kann mit +, ·, 0, 1 rechnen wie in Q, man sagt, (R, +, ·, 0, 1, <) bildet einen angeordneten
Körper, und das bedeutet im Einzelnen:
a) Es gelten folgende Axiome (Grundforderungen) für die Addition, mit denen (R, +, 0) eine abelsche
Gruppe wird (d.h. kommutative Gruppe), und zwar allgemein für alle Zahlen x, y, z ∈ R:
(x + y) + z
0+x
−x + x
x+y
=
=
=
=
x + (y + z) (Assoziativgesetz)
x (neutrales Element)
0 (inverses Element − x für jedes x)
y + x (Kommutativgesetz)
b) Es gelten ferner folgende Axiome für die Multiplikation, mit denen (R \ {0}, ·, 1) ebenfalls eine
kommutative Gruppe wird (man beachte: Damit ist bereits ausgesprochen, dass 0 = 1 sein muss, weil
1 ∈ R \ {0}), allerdings ist die Multiplikation auch mit der Zahl Null ausführbar, d.h. für alle Zahlen
1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN
3
x, y, z ∈ R gilt:
x (yz)
1·x
x−1 x
xy
=
=
=
=
(xy) z
x
1 für x = 0
yx
Hinweis: Für x−1 schreibt man bei den Zahlen im allgemeinen x1 (x nicht Null!).
c) Ferner gilt folgendes wichtige Distributivgesetz, dass Addition und Multiplikation verbindet:
x (y + z) = xy + xz.
d) Die Ordnungsbeziehung hat folgende axiomatischen Eigenschaften:
nicht x <
wenn x <
x >
Mit P :
P +P ⊂
Wichtige Folgerungen sind:
x
y und y < z, so x < z (Transitivität)
0 oder x = 0 oder x < 0 (genau einer der Fälle tritt ein)
= { x ∈ R| x > 0} (Menge der positiven Zahlen) gilt:
P und P · P ⊂ P (d.h.: x, y ∈ P , dann xy ∈ P , analog für · ).
Wenn x < y, so x + c < y + c, für alle x, y, c.
Wenn x < y und c > 0, so xc < yc.
Die Beziehung ≤ (kleiner oder gleich) wird so definiert: x ≤ y : ⇐⇒ x < 0 oder x = y. Sie hat analoge
Eigenschaften, natürlich stets x ≤ x im Unterschied zu <.
e) Nun die Vollständigkeitseigenschaft der reellen Zahlen (alles Vorige gilt auch für (Q, +, ·, 0, 1)!),
zusammen mit der archimedischen Eigenschaft:
Eine Menge A ⊂ R heißt nach oben beschränkt, wenn es eine Zahl M ∈ R gibt, so dass x ≤ M für
alle x ∈ A. Vollständigkeitseigenschaft: Jede nach oben beschränkte nicht leere Menge A ⊂ R hat
eine kleinste obere Schranke α ∈ R, so dass x ≤ α für alle x ∈ A, aber für alle β < α gibt es noch
mindestens eine Zahl x ∈ A, so dass x > β.
Die archimedische Eigenschaft lautet: Zu jeder reellen Zahl x gibt es eine natürliche Zahl n > x.
Wichtige Folgerungen: Eine nichtleere nach unten beschränkte Menge reeller Zahlen hat stets eine
größte untere Schranke. Zu jeder reellen Zahl x > 0 gibt es eine natürliche Zahl n mit n1 < x. Zum
Verhältnis der rellen zu den rationalen Zahlen hat man: Zwischen zwei verschiedenen reellen Zahlen gibt
es stets eine rationale, und vor allem: Jede reelle Zahl kann mit einem beliebig kleinen Fehler durch eine
rationale Zahl angenähert werden.
0.3. Terme (Rechenausdrücke) für reelle Zahlen, und Gleichungen. Mit den Operationen
+, ·, .. und Konstanten wie 0, 1, e, π sowie Variablen x, y, x1 ,... bildet man beliebig zusammengesetzte
Rechenausdrücke oder Terme. Dabei hat man auf notwendige Klammern und Klammerersparnisregeln
zu achten. Beispiel: (x + e) (1 + y) 1+x
y+z . Es kommt noch mehr hinzu, wenn man Potenzen bildet und
Funktionssymbole benutzt, Beispiel: sin (1 + xn ) . (Zu den Funktionen vgl. den nächsten Abschnitt.) Was
tut man mit solchen Rechenausdrücken, und welche Rolle spielen die Buchstaben dabei?
1.) Man setzt in einen Rechenausdruck für die Buchstaben, die keine Konstanten (Eigennamen wie
e, π) sind, Zahlen ein und wertet den Rechenausdruck aus. (Dies ist geläufig, aber es wäre ganz falsch,
die Mathematik für Anwender darin erschöpft zu sehen - das ist vielmehr noch fast gar nichts!)
2.) Man formt gemäß den oben formulierten Gesetzen und weiteren Folgerungen daraus Rechenausdrücke gleichwertig um, so dass
man
Zwecke günstigere Form erhält.
eine für die 2angestrebten praktischen
x−1
2
Beispielsweise f (x) = 2 − 13 x + 4 + 15 x = − 15
x − 2. Oder x(1+x)
= − x1 + 1+x
. Oder x2 − 3x + 1 =
2
x − 32 − 54 .
3.) Man hat eine allgemeingültige Gleichung t2 (x, y, ...) = t2 (x, y, ...) zwischen zwei Termen t1 und
t2 und setzt für die freien Variablen x, y, ... beliebige Rechenausdrücke ein, um eine neue allgemeingültige
Gleichung zu erhalten. Beispiel: in x (y + z) = xy + yz setzt man für x ein: x + y, für y: x, für z:
y und erhält: (x + y) (x + y) = (x + y) x + (x + y) y. Gleichwertiges Umformen mit Kommutativgesetz
4
1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN
2
und Distributivgesetz sowie Anwendung des Assoziativgesetzes führt dann zu (x + y) = x2 + 2xy + y 2 .
(Genaueres zum Einsetzen im Abschnitt ’Ein wenig Logik’.)
hat
(nicht allgemeingültig!) wie etwa x2 + x − 1 = 0, Solution is:
√ eine
√ 4.) Man
Bestimmungsgleichung
1
1
1
1
x = − 2 + 2 5 , x = − 2 − 2 5 und löst diese Gleichung unter Verwendung gleichwertiger Umformungen oder auch einer fertigen Formel. Man sucht hier eine einfache Beschreibung der Erfüllungsmenge
dieser Gleichung, wobei man den Zahlenbereich festlegen muss, in dem man Lösungen sucht. Im Beispiel
etwa:
1 1√
1 1√
x ∈ R| x2 + x − 1 = 0 = − −
5, − +
5 .
2 2
2 2
√
2
Natürlich sagt man lieber: Die einzigen reellen Lösungen von x + x − 1 = 0 sind x1,2 = − 12 ± 12 5.
5.) Bestimmungsgleichung mit äußeren Parametern:
x2 +px+q = 0 ist die Normalform der quadratischen Gleichung. Darin ist die Variable x Unbestimmte, die Variablen p, q dagegen spielen eine ganz andere Rolle, sie sind äußere Parameter, d.h. man stellt
sich vor, ihre Werte seien in beliebiger Weise ’von außen’ fixiert.
Die angestrebte Lösung gibt eine Lö p 2
2
− q, was im Falle p2 − q > 0
sungsformel für beliebige Werte von p, q. Man hat x1,2 = − p2 ±
2
2
zwei verschiedene reelle Lösungen der Gleichung ergibt, im Falle p2 − q = 0 nur die einzige reelle Lö 2
sung x = − p2 , im verbleibenden Fall p2 − q < 0 überhaupt keine reelle Lösung. Daran sollte man sich
gewöhnen: Lösen eines Problems mit äußeren Parametern bedeutet: Beim Rechnen werden die äußeren
Parameter einfach wie Konstanten der Art e, π ’durchgezogen’, aber bei gewissen Rechenoperationen
stößt man gewöhnlich auf Fallunterscheidungen.
Der zweckmäßige Umgang mit Rechenausdrücken fordert stets das Wahrnehmen des ’Typs’ eines
vorliegenden Rechenausdrucks. Parallel zu den Rechenausdrücken typisiert man die Gleichungen. Liegt
ein einfacher Typ vor, so kann man an dazu bekannte Verfahren anknüpfen. Liegt ein schwieriger Typ
vor, so wird man nicht naiv einfache Lösungen eines Problems erwarten. Folgende grobe Einteilung sollte
man kennen:
Typen von Rechenausdrücken für reelle Zahlen
Lineare Ausdrücke in x sind ax + b (man unterscheidet noch ’linear im engeren Sinne’,
dann muss b Null sein, und ’affin’ mit beliebiger Konstanten b
Lineare Ausdrücke in x1 , ..., xn sind a1 x1 + ... + an xn + b (wieder mit der feineren Unterscheidung)
Ein Polynom in x ist ein Ausdruck a0 + a1 x + ... + an xn .
p (x)
Ein gebrochen rationaler Ausdruck in x ist
, mit Polynomen p, q (q nicht die Konstante 0)
q (x)
Algebraische Ausdrücke sind solche, bei denen auch zusätzlich gebrochene Exponenten auftreten.
Transzendente Ausdrücke sind solche, bei denen transzendente Funktionen wie sin, ln auftreten.
Man sollte wissen: Nur lineare Gleichungen und lineare Gleichungssysteme sowie quadratische Gleichungen kann man einfach lösen. Hinzu kommt das Lösen von einfachsten Gleichungen unter Benutzung von
Umkehrfunktionen, vgl. dazu den nächsten Abschnitt. Die Methoden für kompliziertere Gleichungen sind
völlig anderer Art - fast immer sucht man dann mit den Mitteln der Analysis Näherungslösungen. Übrigens gibt es lediglich für Polynomgleichungen bis zum 4. Grad noch Lösungsformeln, darüber hinaus
kann man beweisen, dass es solche Formeln gar nicht geben kann! Später erst werden wir in der Lage sein,
so etwas wie sin(x) mit einem Rechenausdruck zu erfassen, der eine Verallgemeinerung eines Polynoms
darstellt.
Zum Grundwissen gehört ferner, dass man ein Polynom wie 2− x2 + 1 x3 − x + 1 in die geordnete
Standardform schnell überführen kann. (’Ordnen nach Potenzen von x’, Zusammenfassen der Koeffizienten (Vorfaktoren für die Potenzen) im Kopf!). Im Beispiel lautet die Endform: 1 + x − x2 − x5 . Man sollte
stets solche Endformen als Gestalten im Kopf haben und bei einem vorliegenden Ausdruck wahrnehmen,
dass man eine solche Endform erreichen kann.
Eine Bemerkung zu Rechenausdrücken und Gleichungen: Man achte stets darauf, ob man
einen Rechenausdruck bearbeitet oder eine Gleichung. Rechenausdrücke formt man um, Gleichungen
2x
auch, aber aus 2x
3 kann man nicht gleichwertig 2x machen, wohl aber aus der Gleichung 3 = 3 die
gleichwertige Gleichung 2x = 9. Gleichwertigkeit von Termen t1 , t2 bedeutet die Allgemeingültigkeit der
1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN
5
Gleichung t1 = t2 . Gleichwertigkeit von zwei Gleichungen t1 = t2 , u1 = u2 bedeutet dagegen, dass folgende
Aussage allgemeingültig ist: t1 = t2 ⇐⇒ u1 = u2 . Der Doppelpfeil bedeutet ’genau dann, wenn’, also
’wenn..., dann...’ in beiden Richtungen. Vorsicht: Oft wird von Anfängern aus x2 = y 2 gefolgert: x = y.
Das ist falsch, wenn die Zahlen nicht als positive vorauszusetzen sind. Man hat nur: x = y =⇒ x2 = y 2 ,
nicht die umgekehrte Richtung. Sondern: x2 = y 2 ⇐⇒ x = y oder x = −y.
Niemals schreibe man =⇒ , ⇐⇒ zwischen Rechenausdrücke - sie gehören nur zwischen Aussagen,
um eine neue Aussage zu formen.
Man geht ’schrittweise’ vor. Das sollte aber nicht dazu führen, dass man etwa in einem Rechenausdruck nur einen Teilausdruck gleichwertig ersetzen will und eine falsche Gleichung schreibt, die ’den Rest
vergisst’. Wenn nötig, führe man eine Nebenrechnung auf.
Eine Bemerkung zur Verallgemeinerung des Begriffs ’Rechenausdruck’ auf beliebige
Strukturen: Die Teilmengen einer Grundmenge G bilden mit den Verknüpfungen ∪, ∩ ebenfalls eine
Struktur, und man bildet Terme wie A ∩ (B ∪ C) usw., genau wie bei den Zahlen, nur stehen die Buchstaben für Mengen, und an die Stelle der Zahlenoperationen wie +, · treten die Mengenoperationen ∪, ∩.
Später werden wir Vektorräume haben und bilden Terme von Vektoren.
0.4. Abbildungen und Funktionen. Man ordnet Zahlen andere Zahlen eindeutig zu, etwa jeder
reellen Zahl ihr Quadrat. Das ist wieder eine reelle Zahl. Das Ganze fasst man symbolisch so zusammen:
f: R → R
x → x2
Die erste Zeile liest man: ’f geht von R nach R’, das meint: Jeder reellen Zahl x ∈ R wird durch f eine
reelle Zahl (eindeutig!) zugeordnet. Die zweite Zeile (sie die Zuordnungsvorschrift) liest man: ’Der Zahl
x wird ihr Quadrat x2 zugeordnet’, und dies Resultat nennt man auch f(x), was man liest: ’f von x’.
Das ist eine ’von’-Klammer, die man stets laut so lesen sollte. Verwechslung mit einer Multiplikation ist
fatal und unterläuft Anfängern häufig. Manchmal ist es selbstverständlich, dass man von reellen Zahlen
redet, dann formuliert man gern kürzer ’die Funktion f(x) = x2 ’ oder noch kürzer ’die Funktion x2 ’.
Man denke aber stets an die eindeutige Zuordnung x → x2 . Bei Funktionen wird in starkem Maße
wieder die Grundtechnik des Einsetzens wichtig: Im Beispiel f (x) = x2 (die Gleichung ist definitorisch
allgemeingültig für den jeweiligen Zusammenhang, gilt also für alle x) hat man etwa f (x + y) = (x + y)2
(um das Eingesetzte muss man Klammern setzen!). ’f von ...’ zu bilden, bedeutet, in den Rechenausdruck
für f einzusetzen, nicht etwa mit ihm zu multiplizieren!
Hinweis zu einer etwas altväterlichen, aber immer noch nützlichen Sprechweise: Bei einer Funktion
f(x) nennt man gern x die unabhängige Variable und f(x) die abhängige.
Den Zuordnungsbegriff formuliert man nun ganz allgemein so: Seien A und B Mengen, und a → f (a)
gebe eine eindeutige Vorschrift, nach der jedem Element a ∈ A genau ein Element f(a) ∈ B zugeordnet
wird, dann ist f eine Abblidung von A nach B. Symbolisch:
f: A →
B
.
a → f(a)
Das lohnt sich in dieser Allgemeinheit, z.B. Ist + : R2 → R eine Abbildung, die jedem Paar (x, y) von
reellen Zahlen eindeutig die Summe x + y zuordnet. Ebenso ist ∩ eine Abbildung, die jedem Paar von
Teilmengen einer vorgegebenen Grundmenge wieder eine solche Teilmenge zuordnet. Eine Spiegelung
an einer Ebene im dreidimensionalen Raum ordnet jedem Punkt des Raumes seinen Spiegelungspunkt
(bezüglich der vorgegebenen Ebene) zu. Oder: Sie schalten Widerstände der Werte R1 , ..., Rn zusammen
und ordnen jeder Folge (R1 , ..., Rn ) positiver Zahlen den Gesamtwiderstand der Schaltung zu, der sich
eindeutig aus den vorgegebenen Widerständen errechnet.
Zur vollständigen Angabe einer Abbildung gehören drei Dinge: Definitionsbereich (im Schema: A),
Wertebereich (oder Zielmenge) (im Schema: B) und Zuordnungsvorschrift. Oftmals ergeben verschiedene
Vorschriften dieselben Resultate. Wenn das der Fall ist, so handelt es sich um ein und dieselbe Abbildung.
Beispiel: sin(x) oder cos (x − π/2) . Wenn es bei A, B um Mengen von Zahlen oder endlichen Zahlenfolgen
handelt, sagt man gern ’Funktion’ statt ’Abbildung’, ansonsten sind die Begriffe gleich.
Es gibt ein paar stets interessierende Eigenschaften bei Abbildungen, die wir nunmehr definieren:
Eine Abbildung f : A → B heißt injektiv (genau) dann, wenn für alle a1 , a2 ∈ A gilt: f (a1 ) =
f (a2 ) =⇒ a1 = a2 . (Man verwechsle das nicht mit der Eindeutigkeit, die man definitorisch für jede
6
1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN
Abbildung verlangt, die sieht formal so aus: Für alle a1 , a2 ∈ A gilt: a1 = a2 =⇒ f(a1 ) = f (a2 ) .
Man beachte stets, dass man =⇒ nicht ohne weiteres herumdrehen darf. Zum Beispiel gilt für die oben
erwähnte Quadratfunktion f : R → R, f(x) = x2 die letztere Eigenschaft, aber sie ist nicht injektiv, da
etwa f (2) = f(−2) = 4.
Eine Abbildung f : A → B heißt surjektiv (genau) dann, wenn für alle b ∈ B mindestens ein a ∈ A
gibt, so dass f (a) = b ist. Zum Beispiel ist f : R → R, f(x) = x2 auch nicht surjektiv, weil etwa b = −2
niemals als Quadrat einer reellen Zahl herauskommt.
Eine Abbildung f : A → B heißt bijektiv (genau) dann, wenn f injektiv und surjektiv ist. Zum
Beispiel ist die Funktion f : R → R, f(x) = x3 bijektiv.
Man versteht diese Eigenschaften leichter in dieser Form: Injektivität einer Funktion f : A → B
bedeutet, dass eine Gleichung f (a) = b für jedes b ∈ B höchstens eine Lösung a hat. Surjektivität: Die
Gleichung hat für jedes b ∈ B mindestens eine Lösung, Bijektivität: ’genau eine Lösung’.
Wenn eine Abbildung f : A → B bijektiv ist - und nur dann, existiert eindeutig die zugehörige
Umkehrfunktion f −1 (man denke nicht an f1 , das ist eine Gefahr bei dieser Notation), die man dann
völlig allgemein so defnieren kann: f −1 : B → A, b → das eindeutig bestimmte a ∈ A, so dass f (a) = b.
Beispiele: f : R≥0 → R≥0 (Menge der reellen Zahlen ≥ 0 jeweils), f (x) = x2 ist bijektiv (das macht man
oft so, dass man Definitionsbereich und Wertebereich geeignet einschränkt, eine bijektive
Abbildung zu
√
erhalten). Die Umkehrfunktion ist die Wurzelfunktion f −1 : R≥0 → R≥0 , f −1 (x) = x. Ebenso:
sin : [− π2 , π2 ] → [−1, 1]
x
→ sin (x)
ist bijektiv, die Umkehrfunktion heißt arcsin (Arkussinus).
Man merke sich: Ist f : A → B umkehrbar, so hat man f −1 f (a) = a und f f −1 (b) = b für alle
a ∈ A, b ∈ B.
Es sei f : A → B. Dann bildet man für C ⊂ A und D ⊂ B:
f
f (C) : = { f (a)| a ∈ C} , speziell Bild (f ) := f (A) , ferner
−1
(D) : = { a ∈ A| f(a) ∈ D} .
Man nennt f(C) auch ’Bild von C’ und f −1 (D) ’Urbild von D’. Speziell heißt f (A) das Bild der Abbildung f und wird gern bezeichnet mit Bild (f ). Der Wertebereich B ist im allgemeinen größer als Bild(f ) .
Beide Mengen fallen genau dann zusammen, wenn f surjektiv ist. Achtung: für die Bildung f −1 (D) muss
nicht etwa die Umkehrfunktion von f existieren! Beispiel: Für tan: R → R (nicht umkehrbar!) hat man
tan−1 ({0}) = { kπ| k ∈ Z} .
Umkehrfunktionen anzuwenden bedeutet ein wichtiges Mittel zum Auflösen von häufig auftretenden
Gleichungen, etwa löst man die Gleichung 3ex−2 = 5 durch Anwenden der Logarithmusfunktion auf
beiden Seiten, das ergibt ln (3) + x − 2 = ln (5) , also eindeutig x = 2+ln(5)
ln(3) . Man beachte jedoch, dass z.B.
1
die Gleichung sin (x) = 2 nicht eindeutig zu lösen ist. Anwendung der Umkehrfunktion arcsin ergibt nur
die Lösung im Bereich [− π2 , π2 ], das ist π/6. Symmetrisch zu π/2 liegt eine zweite Lösung der Gleichung,
also π/2 + (π/2 − π/6) = 56 π. Alle weiteren Lösungen der Gleichung erhält man durch Addieren von kπ
mit ganzen Zahlen k.
Scharen von Funktionen: Oft hat man im Rechenausdruck für eine Funktion noch einen äußeren
Parameter, etwa f(t) = sin (ωt) . t ist die unabhängige Variable, ω äußerer Parameter. Dann kann man
an eine bestimmte Funktion denken, mit irgendwie fixiertem Wert ω > 0. (Damit wird dann wieder
wie mit einer Konstanten gerechnet, s.o.) Man kann aber auch daran denken, dass man alle Funktionen
fω (t) = sin (ωt) als Schar von Funktionen auf einmal anschaut, für alle Zahlen ω > 0. Man wird dann etwa
zur Veranschaulichung die Graphen einiger Exemplare aufzeichnen und an die Kurven den zugehörigen
Wert von ω schreiben.
0.5. Endliche und unendliche Folgen. Eine endliche Folge von Objekten a1 , ..., an ∈ A notiert
man (a1 , ..., an ) oder auch (ai )1≤i≤n . Genau lässt sie sich verstehen als Abbildung f : {1, ..., n} → A,
mit f (i) = ai für 1 ≤ i ≤ n. Es kommt also auf die Reihenfolge an, und die Schreibweise (a1 , ..., an )
gibt einfach die Bildfolge zu (1, ..., n) . Insbesondere werden für uns die endlichen Folgen reeller Zahlen
wichtig, das sind Koordinatendarstellungen von Vektoren. Vektoren spielen in Physik und speziell in der
Elektrizitätslehre eine tragende Rolle.
1. EIN W ENIG LOGIK
7
Für die Analysis (Lehre von den reellen Funktionen) und bereits für das Verständnis der rellen Zahlen
selbst benötigt man unendliche Folgen reeller Zahlen. Man schreibt sie: (an )n∈N oder auch kürzer (an )n .
(Es könnte auch N0 heißen.) Ausgeschrieben also a1 , a2 , ... und so immer fort. Dabei ist an ∈ R für alle
n ∈ N. Wichtig zu verstehen ist: an ist nur das n− te Folgenglied, also eine Zahl. Aber (an )n ist die
gesamte Folge. Wie schon die endlichen Folgen können wir auch die unendlichen wieder als Abbildungen
verstehen: Es liegt einfach eine Abbildung f : N → R vor, mit f(n) = an für alle natürlichen Zahlen.
Wir wollen einen Grund dafür angeben, warum Folgen wichtig sind: Wie bereits erwähnt, kann man viele
reelle Zahlen wie e nur durch einen Bruch oder eine endliche Dezimalzahl nähern. Das möchte man aber
mit beliebiger Genauigkeit tun. Die Lösung des Problems: Man gibt eine unendliche Folge von Zahlen an,
welche die gewünschte Zahl so gut nähern, wie man möchte.
Folge sollte die’schwierige’
Die angegebene
1
1
1
reelle Zahl dann als Grenzwert haben. Beispiel: die Folge 1 + 11 + 1·2
+ 1·2·3
+ ... + 1·2·...·n
hat e als
n
Grenzwert. Aussagen über die verbleibenden Fehler stellt die Mathematik dann bereit.
Später werden auch Folgen von Funktionen wichtig. also (fn )n , wobei fn jeweils eine Funktion ist. Der
praktische Sinn erklärt sich wie bei den Zahlenfolgen: Es soll der Funktionswert einer schwierigen Funktion
f an beliebiger Stelle
für x als Grenzwert
einer Zahlenfolge angegeben werden. Beispiel: ex
x allgemein
x
x
x
x
als Grenzwert von 1 + x + 1·2 + ... + 1·2·...·n n . Hier wäre f(x) = ex , fn (x) = 1 + x + 1·2
+ ... + 1·2·...·n
.
0.6. Ein Überblick über die benötigten mathematischen Objekte. Man braucht sich nicht
vor einem unübersehbaren Zoo mathematischer Objekte zu fürchten: Aus den bereits angeführten kann
man alles Weitere machen. Wenn es sehr kompliziert wird, dan liegt vielleicht eine Abbildung vor, deren Definitionsbereich und Wertebereich beide Funktionenmengen sind. Das nennt man dann auch einen
Operator, und ein solcher ist Ihnen bereits aus der Schule bekannt: die Ableitung - sie macht aus einer
Funktion eine neue Funktion. Ähnlich das bestimmte Integral: Es macht aus einer Funktion eine Zahl.
Vielmehr sollte man darauf achten, dass man versteht, welche naturwissenschaftlichen Gegenstände mit
welchen mathematischen so gut beschrieben werden können, dass man sie geradezu identifiziert: Etwa
elektrostatische Felder und Abbildungen, welche jedem Raumpunkt einen Vektor zuordnen (den Feldvektor an dieser Stelle). Man nennt sie Vektorfelder. (Ein Vektorfeld auf einer Ebene sieht also ähnlich wie
eine Wiese aus, nur hat man sich die Grashalme völlig gerade vorzustellen.)
1. Ein wenig Logik
In der Mathematik geht man nicht nur mit Rechenausdrücken um, sondern vor allem auch mit
Gleichungen und allgemeiner mit Aussagen. Grundsätzlich ist es wichtig, den Unterschied zwischen der
bloßen Benennung eines Objekts und der Behauptung einer Aussage zu beachten. Auch eine Aussage hat
man oft als ein Objekt zu betrachten, das man erst einmal fixiert, um dann etwa zu untersuchen, ob diese
Aussage wahr ist oder ob sie auch anderen Aussagen folgt. Wie bildet man mathematische Aussagen?
Welche Typen sind besonders wichtig, und welche logischen
Regeln gibt es dafür?
Elementare Aussagen sehen so aus: 2 ≥ 3, sin π2 = 1, 6Z ⊂ 3Z. Von diesen Aussagen sind die beiden
letzten offenbar wahr, die erste ist falsch.
Nun bildet man aus elementaren Aussagen zusammengesetzte, das geschieht einmal mit Partikeln
wie ’und’, ’oder’, ’nicht’, ’wenn...,so,...’, zum anderen mit den Quantifikatoren ’für alle...’, ’es gibt...’.
1.1. Minimale Logik und zugehörige Notation. Unter einer Aussageform versteht man etwas
wie eine Aussage, das aber zusätzlich freie Variablen enthalten kann. Beispiel: 2 < 3 ist eine Aussage,
aber x < 3 eine Aussageform. Erstere ist im Beispiel wahr, letztere wird erst wahr oder falsch, wenn man
für x eine konkrete Zahl einsetzt (genauer: einen Namen für eine konkrete Zahl). Wozu Aussageformen?
Man möchte etwa eine Allaussage oder Existenzaussage machen - dann braucht man einen Aussagekern,
der eine Aussageform ist, z.B.: ∃x ∈ R : x < 3 ist offenbar richtige Existenzaussage.
8
1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN
Aussagen und Aussageformen verbindet man mit einigen logischen Verknüpfungen zu neuen, dabei
sollte man diese kennen:
A ∧ B (lies : A und B) ist genau dann wahr, wenn A und B beide wahr sind.
A ∨ B (lies : A oder B) ist genau dann wahr, wenn mindestens eine der beiden Aussagen wahr ist.
A ⇒ B (lies : wenn A, so B) ist genau dann wahr, wenn A falsch ist oder B wahr.
A ⇐⇒ B (lies : A genau dann, wenn B) ist genau dann wahr, wenn A,B beide wahr
oder beide falsch sind.
∀xA (x) (lies : für alle x gilt A (x) ) ist genau dann wahr, wenn für jedes Element c der
Grundmenge, von der jeweils die Rede ist, gilt, dass A (c)
∃xA (x) (lies : es gibt ein x, so dass gilt : A (x) ) ist genau dann wahr, wenn es mindestens ein
Element der Grundmenge (von der die Rede ist) gibt, so dass A (c) wahr ist.
:
Hinweis Sehr gern benutzt man ∀x ∈ R : A (x) oder ∃x ∈ R : A (x) usw.
Wir werden oft ’und’, ’oder’ sagen und keine Kürzel dafür verwenden. Ebenso ’nicht A’ statt so etwas wie
⇁ A. Aber Pfeil und Doppelpfeil sind recht nützlich und führen vilefach zu größerer Übersichtlichkeit.
Folgende logischen Äquivalenzen und Schlussweisen sollte man kennen:
1.) Anwendung eines Allsatzes auf spezielle Beispiele:
∀xA (x)
A (x/t) (Aussageform A (x) , für x ein Term t eingesetzt)
2.) Modus-ponens-Regel:
A
A =⇒ B
B (aus A und A =⇒ B schließe B)
Folgende logischen Äquivalenzen sind immer wieder nützlich:
(A =⇒ B)
nicht (A ∧ B)
nicht (A ∨ B)
nicht ∀xA (x)
nicht ∃xA (x)
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
(nicht B =⇒ nicht A)
(nicht A ∨ nicht B)
(nicht A ∧ nicht B)
∃x (nicht A (x))
∀x (nicht A (x))
Bei einer solchen logischen Äquivalenz kann man von der linken Seite auf die rechte schließen und umgekehrt.
1.2. Eine etwas weiter ausgearbeitete Logik∗ .
1.2.1. Aussagenlogische Verknüpfungen und zugehörige Regeln. Wir setzen voraus, dass A, B, C, ...
stets Aussagen sind, jede eindeutig wahr oder eindeutig falsch. Wir ordnen den Aussagen A, B, ...
Wahrheitswerte zu, w(A) = 1, wenn A wahr ist, sonst w(A) = 0. Hier sind die wichtigen aussagenlogischen
Verknüpfungen und die Fortsetzung der Wahrheitswertefunktion w auf die zusammengesetzten Aussagen:
A∧B
A∨B
⇁ A
(gelesen : A und B), w(A ∧ B) := w(A)w(B)
(gelesen : A und B), w(A ∨ B) := min(1, w(A) + w(B)) = 1 − (1 − w (A)) (1 − w (B))
(gelesen : nicht A), w( ⇁ A) := 1 − w (A)
A ⇒ B (gelesen : wenn A, so B), w(A ⇒ B) := 1 − w(A)(1 − w(B))
A ⇐⇒ B (gelesen : A genau dann, wenn B),
w(A ⇐⇒ B) := w(A)w(B) + (1 − w(A)) (1 − w (B))
Es ist vor allem wichtig, diese Zusammensetzungen intuitiv richtig zu verstehen und zu nutzen: Anfänger
sollten sich vor allem klar machen, dass A ⇒ B inhaltlich bedeutet: A falsch oder B wahr, oder auch:
1. EIN W ENIG LOGIK
9
Es kann nicht sein, dass A wahr und B falsch ist. Eine zusammengesetzte Aussage kann ihrer Form nach
allgemeingültig sein. Das bedeutet: Ihr Wahrheitswert ist immer 1, gleichgültig, welche Wahrheitswerte
die darin mit Buchstaben bezeichneten Aussagen haben. Ferner gibt es nützliche Äquivalenzen, die man
so formuliert: ’Die Aussage A ⇐⇒ B ist allgemeingültig’. Hier ist eine kleine Liste der wichtigsten Fälle
- man verabredet, dass ⇁ stärker bindet als alle anderen aussagenlogischen Verknüpfungen, dass ferner
∧, ∨ stärker binden als ⇒, ⇐⇒:
Folgende Aussagen sind für alle Aussagen A, B, C allgemeingültig:
⇁⇁ A ⇐⇒ A
⇁ (A ∧ B) ⇐⇒ ⇁ A ⇁ B
⇁ (A ∨ B) ⇐⇒ ⇁ A∧ ⇁ B
(A ⇒ B) ⇐⇒ ⇁ A ∨ B
(A ⇒ B) ⇐⇒ ⇁ (A∧ ⇁ B)
(A ⇒ B) ⇐⇒ (⇁ B ⇒⇁ A)
(A ∧ B ⇒ C) ⇐⇒ (A ⇒ (B ⇒ C))
Diese Äquivalenzen kann man alle direkt mit den angegebenen Regeln für die Funktion w überprüfen,
Im Beispiel der vorletzten Äquivalenz:
w (⇁ B ⇒⇁ A) =
=
=
=
1 − w (⇁ B) (1 − w (⇁ A))
1 − (1 − w (B)) (1 − (1 − w (A)))
1 − w (A) (1 − w (B))
w (A ⇒ B)
Da die Aussagen A ⇒ B und ⇁ B ⇒⇁ A somit stets dieselben Wahrheitswerte haben, hat die Aussage
(A ⇒ B) ⇐⇒ ⇁ A ∨ B stets den Wahrheitswert 1, ist mithin allgemeingültig.
Eine günstige Sprechweise ist es, A ⇒ B so auszudrücken: ’A ist hinreichend für B’, oder auch: ’B
ist notwendig für A’. Beispiel: Ist eine Funktion f an der Stelle x0 differenzierbar, so ist sie dort auch
stetig. Oder: Differenzierbarkeit von f in x0 ist hinreichend für Stetigkeit von f in x0 .Oder: Stetigkeit
in x0 ist notwendig für Differenzierbarkeit in x0 . Aber man weiß, dass Stetigkeit in x0 nicht hinreichend
für Differenzierbarkeit in x0 ist, bzw. Differenzierbarkeit nicht notwendig für Stetigkeit. Die angegebenen
Äquivalenzen kann man natürlich als Regeln lesen: Aus der einen Seite folgt die andere, und umgekehrt.
Es gibt aber noch eine aussagenlogische Regel von überragender Bedeutung:
Modus-ponens-Regel :
Aus A ⇒ B und A folgt B.
Das kann man auch so ausdrücken: Die Aussage ((A ⇒ B) ∧ A ⇒ B) ist allgemeingültig. Diese Regel
wendet man fortlaufend an, wenn man eine längere logische Schlusskette produziert, etwa überlegt: Die
Funktion f(x) = x3 ist überall differenzierbar. Da die Ableitung außer bei x0 = 0 überall > 0 ist, ist die
Funktion streng monoton steigend. Außerdem ist f überall stetig, da differenzierbar. Aber eine stetige
Funktion nimmt auf einem Intervall [a, b] mit zwei Werten c, d auch jeden Wert dazwischen an. Es folgt:
3
Betrachtet man f auf das Intervall [a, b] eingeschränkt, a < b, so ist a3 der kleinste
3 3 Wert, b der größte,
und f(x) durchläuft mit x ∈ (a, b) jeden Wert dazwischen. Jeder Wert aus a , b wird genau einmal
angenommen. Man beachte, dass hier eine Vielzahl von Anwendungen der Modus-ponens-Regel vorliegt:
f ist überall differenzierbar und: Wenn f überall differenzierbar ist, so ist f überall stetig. Also ist f
überall stetig. Dann geht es weiter: Aus der Stetigkeit folgt wieder Neues, das gilt also wiederum für
unsere konkrete Funktion f. Ferner sind die benutzten Sätze der Art: ’Für alle Funktionen f gilt:...’, und
wir haben für f unsere konkrete Funktion f (x) = x3 eingesetzt. Diesen logischen Vorgang erklären wir
genauer im nächsten Abschnitt.
Eine allgemeine Bemerkung zur Aussagenlogik: Aussagenlogik ist völlig primitiv in dem Sinne,
dass man mit der angegebenen Funktion w den Wahrheitswert einer beliebigen Zusammensatzungen aus
den Wahrheitswerten der Bestandteile schematisch ausrechnen kann. Insbesondere kann man mit einem
Computerprogramm die Allgemeingültigkeit in endlich vielen Schritten prüfen. Das wird ganz anders,
wenn Variablen für Objekte von Strukturen und Zeichen für Beziehungen und Funktionen auftreten
10
1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN
sowie die Quantifikatoren ’für alle...’, ’es gibt...’. Wir werden im nächsten Abschnitt sehen, dass dann
Kreativität gefragt ist. Man kann sogar mathematisch beweisen, dass es kein Computerprogramm geben
kann, das allgemein die auftretenden Grundaufgaben zu lösen vermag.
1.2.2. Der Umgang mit Variablen und Quantifikatoren. Die wichtigste Form mathematischer Aussagen ist die der Allaussagen: ’Für alle ... gilt:...’. Die einfachsten Beispiele dafür sind allgemeingültige
Rechenformeln, etwa:
Für alle x, y, z
Für alle Mengen A, B gilt:
∈ R gilt: x (y + z) = xy + xz,
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) .
Dabei lässt man fast stets den Vorpann ’für alle ...’ weg und schreibt bequem nur die Gleichung, mit
den Buchstaben als freien Variablen, mit dem Verständnis: Wenn man für die Buchstaben irgendwelche
Objekte aus dem betreffenden Bereich einsetzt, so entsteht eine gültige Formel. Diese Formel ist im
allgemeinen wieder von allgemeiner Art, dass man wieder für Buchstaben beliebige Objekte einsetzen
kann. Beim Einsetzen hat man folgende Grundregeln zu beachten:
Grundregeln für das Einsetzen :
Für dieselbe freie Variable muss überall dasselbe Objekt eingesetzt werden.
Für verschiedene freie Variablen darf dasselbe Objekt eingesetzt werden.
Wird für eine freie Variable ein zusammengesetztes Objekt eingesetzt, ein Rechenausdruck,
so muss dieser eingeklammert werden (was manchmal nach Überlegung entfallen kann).
Beispiel: Eine korrekte Einsetzung in x (y + z) = xy + xz ist:
(a + b) ((a + b) + a) = (a + b) (a + b) + (a + b) a.
Man kann also folgern:
(a + b) (2a + b) = (a + b)2 + (a + b) a.
Was wurde wofür eingesetzt, wo wurden Klammern gesetzt, welche von den regulär gesetzten Klammern
können entfallen? Im Zusammenhang mit den Allaussagen hat man die folgende wichtigste logische
Quantifikatorenregel:
Aus ∀xα (x) folgt stets α (x/t) .
Dabei steht ∀xα (x) abkürzend für ’für alle x gilt: α (x)’, und α (x/t) bedeutet die Formel α mit der
Einsetzung des Rechenausdrucks (Terms) t für die freie Variable x. Dabei darf α sogar beliebig kompliziert
mit aussagenlogischen Verknüpfungen und weiteren Quantifikatoren sein.
Ein ganz anderer Typ von Gleichungen sind Bestimmungsgleichungen, etwa x2 +x−1 = 0 oder y = x2 .
Sie sind offenbar nicht allgemeingültig, vielmehr sind die Variablen darin Unbestimmte (Unbekannte),
und man
die Lösungsmenge
der Gleichung, im ersten Fall ist das ’auszurechnen’, es kommt die
√
√ sucht
1
1
1
1
Menge
−
−
5,
−
+
5
heraus,
im zweiten Fall ist die Lösungsmenge die Menge der Zahlenpaare
2 2
2 2
(x, y) ∈ R2 y = x2 . Diese kann man nicht einfacher ausdrücken, wohl aber feststellen, dass es sich um
den Graphen einer differenzierbaren Funktion handelt, auch um die Bahn einer differenzierbaren Kurve,
usw.
Wir verbinden Modus-ponens-Regel und Einsetzungsregel zum wichtigsten logischen Instrument:
Aus ∀x (α (x) =⇒ β (x)) und α (x/t) folgt β (x/t) .
Vorn steht der wichtigste Typ von Allaussagen überhaupt, neben den oben erwähnten allgemeingültigen Formeln. Damit haben wir genau das, was man bei jeglicher Anwendung der allgemeinen mathematischen Resultate benötigt.
Aber woher kommen die Allaussagen, deren Gültigkeit man voraussetzen kann? Einmal kommen sie
von den Grundaxiomen der Mathematik, z.B. von denen der Strukturen (N, +, ∗), (R, +, ∗) usw. Die
meisten sind jedoch zu beweisende Sätze, wobei die Grundtechnik eines solchen Beweises folgende ist:
Man möchte (∀a ∈ A) (α (a)) beweisen. Dazu setzt man a als beliebiges Element von A voraus (’Sei a ∈ A
beliebig ...’). Dann beweist man α(a). Da über a nichts weiter als a ∈ A vorausgesetzt war, hat man die
Aussage (∀a ∈ A) (α (a)) bewiesen.
Es gibt aber noch zwei weitere grundlegende Typen von mathematischen Aussagen:
Existenzaussagen: Es gibt x aus der Menge A, so dass α(x). Kurz: (∃x ∈ A) α (x) . Das bedeutet:
Man kann ein Objekt a ∈ A angeben, so dass α (a) eine gültige Aussage ist. Zum Beispiel ist 6 durch
1. EIN W ENIG LOGIK
11
3 teilbar, weil ∃n ∈ Z (3n = 6) eine gültige Aussage ist, mit der Einsetzung von 2 für n in 3n = 6.
Achtung - es ist eine weit verbreitete Unsitte, Existenzquantoren ebenso wegzulassen wie Allquantoren,
und die Folgen sind verheerend! Man beachte ferner: ’es gibt ein’ bedeutet mathematisch stets: ’es gibt
mindestens ein’, keine Eindeutigkeit, zum Beispiel kann man bei der wahren Aussage ∃n ∈ Z (n > 5) in
’n > 5’ einsetzen: n = 6, aber auch n = 1000. Beides liefert die Gültigkeit der Existenzaussage, gemäß
der folgenden allgemeinen Einsetzungsregel für Existenzaussagen:
α (x/t) =⇒ ∃xα (x) .
Ein zweiter Aspekt von Existenzaussagen: Wie nutzt man für weitere Folgerungen eine bereits bewiesene
oder vorauszusetzende Existenzaussage (∃x ∈ A)α (x)? Dazu formuliert man einfach: ’Sei a ∈ A derart,
dass α (a) gilt’. Auf diese Weise hat man den Existenzquantor beseitigt und eine günstige Form für die
weitere Arbeit. Allerdings darf man ohne weitere Begründung nichts sonst als nur eben α(a) für das Objekt
a verlangen. Ein Beispiel: Von einer stetigen Funktion f auf einem Intervall [a, b] mit f (a) = f (b) = 0,
die nicht konstant auf [a, b] ist, weiß man, dass f in (a, b) ein Extremum hat, das sogar global für [a, b]
ein solches ist. Also hat man (∃x ∈ (a, b)) (∀y ∈ [a, b]) f (y) ≤ f (x). Man sagt: ’Sei ξ ein solches, also
(∀y ∈ [a, b]) f(y) ≤ f (ξ)’. Ist f zusätzlich auf (a, b) differenzierbar, so ist f ′ (ξ) = 0. Somit folgt aus der
Existenzaussage (∃x ∈ (a, b)) (∀y ∈ [a, b]) f (y) ≤ f(x) die Existenzaussage (∃x ∈ (a, b))f ′ (x) = 0.
Zur Verneinung von Allaussagen und Existenzaussagen hat man folgende logisch allgemeingültigen Äquivalenzen:
⇁ ∀xα (x) ⇐⇒ ∃x ⇁ α (x)
⇁ ∃xα (x) ⇐⇒ ∀x ⇁ α (x)
Aussagen vom Typ ’für alle x gibt es y, so dass α (x, y)’: Diese Aussagen sind schon recht kompliziert, aber für die Mathematik elementar notwendig. Etwa ’Es gibt keine größte reelle Zahl’ bedeutet:
Zu jeder reellen Zahl x gibt es eine reelle Zahl y, so dass y > x. Kurz: (∀x ∈ R)(∃y ∈ R)(y > x). Man
argumentiert, um die Gültigkeit einer solchen Aussage zu zeigen, so: Sei x0 eine beliebige reelle Zahl. (Auf
diese Weise ist der Allquantor beseitigt - wir betrachten x0 als Konstante, als Eigennamen einer reellen
Zahl!) Dann ist x0 + 1 > x0 . Dies folgern wir aus der Grundregel: Wenn a > b, so a + c > b + c mit der
Einsetzung 1 für a, 0 für b, x0 für c. Mit x0 + 1 > x0 ergibt die Einsetzungsregel für Existenzaussagen:
(∃y ∈ R)y > x0 . Da dies für jedes konkrete x0 ∈ R gilt, haben wir (∀x ∈ R)(∃y ∈ R)(y > x).
Dies war ein besonders einfaches Beispiel einer Aussage der angesprochenen Form, das aber genau
die typischen logischen Schritte zeigt, eine solche Aussage zu bestätigen. Wir wollen wenigstens noch zwei
substantielle Beispiele aufführen, um die überragende Bedeutung dieser Form zu zeigen:
Erstes Beispiel: Begriff der Stetigkeit einer Funktion f an der Stelle x0 . Nach Definition ist
f in x0 genau dann stetig, wenn (∀ε > 0) (∃δ > 0) (∀x ∈ R) (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) . Man
beobachtet: Mit dem zweiten Allquantor ist die Aussage sogar noch komplizierter, aber der Kern der
Sache liegt bei ε und δ. Wir wollen zeigen, dass f (x) = x2 stetig ist in x0 = 1. Wir setzen
eine beliebig
kleine Zahl ε > 0 voraus. Zu finden ist eine Zahl δ > 0, so dass aus |x − 1| < δ folgt: x2 − 12 < ε, für
2
|x2 −1|
−1
alle Zahlen x. Wir haben xx−1
= x + 1. Also |x−1| = |x + 1| . Setzen wir δ = min(1, 2ε ), so haben wir für
alle Zahlen x:
2
x − 12 ≤ |x + 1| |x − 1| < 2δ ≤ ε , wenn |x − 1| < δ.
2
Beachten Sie, dass die logische Struktur genau die des simpleren Beispiels ist, die Idee also, δ mit der
gewünschten Eigenschaft als Ausdruck in ε anzugeben. Gerade hier, im ’Finden eines δ mit den verlangten Eigenschaften passend zu ε’, liegt die oben erwähnte benötigte Kreativität. Diese Aufgabe kann im
Einzelfall beliebig schwierig sein und kann im allgemeinen nicht von einem Computer gelöst werden, man
braucht intuitives ’Sehen’, Strategie, Wahrnehmung und Erfahrung, Flexibilität. Seien Sie darum nicht
enttäuscht, wenn Sie am Anfang nur mit großer Anstrengung eine kleine Sache dieser Art hinbekommen!
→
Zweites Beispiel: ’Jeder Vektor −
x ∈ V (V Vektorraum über R) kann als Linearkombination
−
→
−
→
der Vektoren a 1 , ..., a n dargestellt werden’. Dies
sie
der linearen
→ist eine
Standardaussage, wie
in
n
→
→
Algebra typisch auftritt. Ausgeschrieben lautet sie: ∀−
x ∈ V (∃(λ1 , ..., λn ) ∈ Rn ) −
x = k=1 λk −
a k.
Abschließend bemerken wir noch, dass auch Aussagen vom Typ ’Es gibt ..., so dass für alle ...’
bedeutsam sind. Einmal kommen Sie als Verneinungen der Aussagen ’Für alle ... gibt es ..., so dass ...’
vor. Aber sie haben auch ihre eigene Bedeutung darin, dass ein Objekt sich zu allen anderen in gewisser
Weise verhält. Die Form ’∃∀’ ist zum Beispiel bei Begriffen wie gleichmäßiger Stetigkeit wichtig, und solche
12
1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN
Begriffe bereiten Anfängern immer wieder typische Schwierigkeit - nur deswegen, weil die eigentlich völlig
einsichtige logische Struktur nicht gesehen wird. Darum hier ein einfaches Beispiel zum Vergleich zwischen
’∃∀’ und ’∀∃’: (∀x ∈ R) (∃y ∈ R) x + y = 0 ist ein wahrer Satz (wähle y = −x, diese Einsetzung liefert
das für die Existenz (hier einzige) passende Beispiel). Aber (∃y ∈ R) (∀x ∈ R) x + y = 0 ist offenbar ein
falscher Satz. Dagegen ist (∃y ∈ R) (∀x ∈ R) x + y = x wahr, nämlich mit der Einsetzung 0 für y in
(∀x ∈ R) x + y = x. Man beachte, dass aus ∃y∀xα (x, y) stets folgt ∀x∃yα (x, y) , aber nicht umgekehrt.
2. Die natürlichen Zahlen, vollständige Induktion bzw. Rekursion
Die natürlichen Zahlen bilden eine Grundstruktur, welche die Mutter aller Kombinatorik ist und daher auch für Anwender von eigenem Interesse ist, die eher an die reellen Zahlen denken. Die fundamentale
Eigenschaft der natürlichen Zahlen: Man fängt mit 1 an (wahlweise mit 0) und erzeugt alle weiteren natürlichen Zahlen durch Nachfolgerbildung. Dabei verlangt man, dass die Nachfolgerabbildung injektiv ist.
1 ist die erste in der Ordnung, selber kein Nachfolger. Daraus folgt ein wichtiges Prinzip für Definitionen
von Funktionen f : N → B und für Beweise von Aussagen der Form ∀ (n ∈ N) A (n) . Wir formulieren
das in zwei Sätzen, die unmittelbar aus folgendem Grundaxiom für die Struktur der natürlichen Zahlen
folgen: Jede nichtleere Menge natürlicher Zahlen hat ein kleinstes Element.
S 1. Prinzip der Definition durch Rekursion (Induktion): Das Schema f(1) = a, f(n + 1) =
α(n, f (n)) definiert mit einem beliebigen Rechenausdruck α eindeutig eine Funktion f : N → B, wobei B
eine Menge sein muss, die a und alle weiteren Werte α (n, f(n)) enthält.
S 2. Prinzip des Beweises mit vollständiger Induktion: Aus den Aussagen A (1) (’Induktionsanfang’) und ∀ (n ∈ N) (A(n) =⇒ A (n + 1)) (’Induktionsschluss von n auf n + 1’) folgt die Aussage
∀ (n ∈ N) A (n) .
Beispiel: f(1) = 1, f (n + 1) = f (n) + n + 1 definiert eindeutig eine Funktion N → N. Der Rechenausdruck α ist hier: f(n) + n + 1. Man kann nun mit Induktion beweisen: ∀ (n ∈ N) f (n) = n(n+1)
.
2
n(n+1)
1·2
Hier ist die Aussage A(n) : f (n) =
. A (1) besagt: f (1) = 2 . Das stimmt. Damit ist der
2
Induktionsanfang gemacht. Nun der Induktionsschluss: Die Aussage A(n) =⇒ A (n + 1) ist allgemein für n ∈ N zu beweisen. Sie lautet: Wenn f (n) = n(n+1)
, dann f (n + 1) = (n+1)(n+2)
. Aber
2
2
n(n+1)
nach rekursiver Definition ist f (n + 1) = f (n) + n + 1. Wenn nun f (n) =
, so haben wir
2
n
n(n+1)
(n+1)(n+2)
f (n + 1) =
+ n + 1 = (n + 1) 2 + 1 =
. Man beachte: Wir mussten nur A (n + 1)
2
2
beweisen unter der Voraussetzung, dass A (n) bereits gültig ist. Das ist viel weniger, als etwa A (n + 1)
allgemein zu beweisen! Aber das Prinzip besagt, dass dies zusammen mit dem Induktionsanfang bereits
ausreicht, ∀ (n ∈ N) A (n) zu beweisen. Es sei betont: A(n) =⇒ A (n + 1) kann auch dann allgemeingültig sein, wenn tatsächlich A (n) für alle n falsch ist, nehmen Sie für A (n) etwa die Aussage: ’Alle
natürlichen Zahlen sind gerade und ungerade’. Wenn n gerade und ungerade ist, dann ist es auch n + 1.
Diese ’wenn..., dann...’-Aussage ist allgemeingültig.
Bemerkung zur Begründung aus dem Prinzip vom kleinsten Element: Wenn A (n) für
mindestens eine natürliche Zahl falsch wäre, so wäre die Menge der Zahlen m, für die A (m) falsch ist,
nicht leer, hätte also ein kleinstes Element m0 . Nun kann wegen der Gültigkeit von A (1) die Zahl m0
nur größer als 1 sein. Aber dann gilt A (m0 − 1) . Mit dem Induktionsschluss müsste aber dann auch
A (m0 ) richtig sein, wir haben also einen Widerspruch. (Ähnlich kann man das Prinzip der Definition
durch Rekursion begründen.)
Bemerkung zu einer Verallgemeinerung der Prinzipien: Wie oben formuliert, greift man
für n + 1 nur auf den unmittelbaren Vorgänger n zurück. Aber die Prinzipien bleiben gültig, wenn
man sogar den Rückgriff auf alle Vorgänger erlaubt. Dazu zwei Beispiele: Mit f(0) = 1, f(1) = 1,
f(n + 2) = f(n + 1) + f (n) wird korrekt eine Funktion f : N0 → N definiert. Die rekursive Definition
greift hier auf zwei Vorgänger zurück. Folgendes Beispiel macht Gebrauch von beliebigen Vorgängern:
Man möchte induktiv beweisen, dass jede natürliche Zahl eindeutig in Primfaktoren zerlegt werden kann
und argumentiert für den Induktionsschluss so: Sei n > 2 eine natürlich Zahl. Dann ist n entweder
selbst Primzahl (und die Behauptung stimmt also), oder aber es gibt Zahlen r, s ∈ N, r, s ≥ 2, mit der
Eigenschaft rs = n. Für r, s existiert aber bereits (gemäß verallgemeinerter Induktionsvoraussetzung!) je
eine Primfaktorzerlegung. Die braucht man nur zusammenzufügen und erhält eine solche für n. Es wird
also auf die Behauptung für beliebig weit zurückliegende Vorgänger r, s zurückgegriffen.
3. ELEM ENTARE GRUNDKENNTNISSE ZUM RECHNEN
13
3. Elementare Grundkenntnisse zum Rechnen
Hier werden einige wichtige aus der Schule bekannte Dinge noch einmal bewusster gemacht und einige
Ergänzungen angebracht.
3.1. Anwendungen des Distributivgesetzes. Ein dringender Rat: Ausdrücke wie (x + 1) (x + 2)
sollte man nicht ’automatisch’ ausmultiplizieren, wo das keinen Nutzen bringt, sondern Schaden. Bei
f(x) = (x+1)(x+2)
sieht man sofort die Nullstellen, nach Ausmultiplizieren nicht mehr. Bei g(x) =
x2 +1
x+3
sieht
man
sofort die Pole, mehr noch: Man kann schnell in die für das Integrieren z.B. nützli(x+1)(x+2)
2
1
che Form x+1 − x+2 überführen (Partialbruchzerlegung), entscheidend ist dabei gerade, dass der Nenner
faktorisiert ist.
Weiter: Niemand hat ein Problem damit, die Gleichung 2x − 3 = 4 + 5x zu lösen. Das ist eine lineare
Gleichung mit einer Unbekannten. Stichwort: Zusammenfassen der x− Glieder, der konstanten Glieder,
Trennen, fertig. Also 3x = −7, x = − 73 . Was man sich dabei gewöhnlich nicht klar macht: Nach Subtraktion von 2x erhält man rechts u.a. 5x − 2x, und Anwendung des Distributivgesetzes gerade in der
anderen Richtung - Ausklammern, nicht Ausmultiplizieren - ergibt die gewünschte Zusammenfassung zu
3x. Das rächt sich bitter: Viele Anfänger geraten in größte Schwierigkeiten, wenn eine Gleichung (in x)
zu lösen ist wie (2a + 3) x + 4 = (a − 1) x + 2 (ähnlich, wenn die Vorfaktoren komplexe Zahlen sind oder
gar Ausdrücke mit großem Summenzeichen.) Zunächst wird die Struktur ’lineare Gleichung mit einer
Unbestimmten’ nicht gesehen. Dann wird nicht erkannt, dass genau die Anwendung des Distributivgesetzes wie im ersten Beispiel zur Lösung führt, also: ((2a + 3) − (a − 1)) x = −2, besser im Kopf direkt
−2
. Nun droht wieder die
die Differenz im Faktor vor x ausführen, Resultat: (a + 4) x = −2. Also x = a+4
Gefahr, dass die benötigte Fallunterscheidung unterbleibt. Das Resultat lautet: 1. Fall: a = −4. Dann ist
−2
die eindeutige Lösung der Gleichung x = a+4
. 2. Fall: a = −4. Dann bedeutet (a + 4) x = −2 einfach
0x = −2. Die Gleichung hat also keine Lösung x für a = −4.
3.2. Bruchrechnung. Wie man Brüche kürzt, erweitert, addiert, multipliziert, dividiert, sollte bekannt sein. Es sollte auch kein Zweifel darüber sein, dass bei einem Bruch der Zähler Null sein darf, der
Nenner aber nicht, weil ab die eindeutige Lösung von xa = b (Unbestimmte: x) sein soll, und die existiert
eindeutig nur im Falle a = 0. Auf Korrektheit und Geschicklichkeit in der Anwendung kommt es an.
Etwa: Kaum jemand versagt darin, 12 + 13 auszurechnen. Aber wie steht es mit dem direkten Übersehen
von
ab
1
1
1 = a + b?
a + b
So etwas sollte auch dann noch gehen, wenn a, b wiederum kompliziertere Ausdrücke sind. (Im Beispiel
sollte man nicht die Summe im Nenner bilden und dann den Kehrwert, sondern mit ab erweitern).
1+ √ 1
x+1
Noch ein Beispiel: Wie kann man die Nullstellen sehen von 1 − √x+1
? Hier ist vorauszusehen, dass
die Form ’ein doppelbruchfreier Bruch’ erreicht werden kann und hilft:
√
1
1 + √x+1
x− x+1
1− √
=
.
x+1
x+1
√
Übersehen Sie das schnell? Also weiter mit Bruchrechnung:
Eine Nullstelle x muss erfüllen: x− x + 1 = 0,
√
aber x+1 = 0. Es bleibt die Gleichung x = x + 1. Steht die Unbestimmte unter einem Funktionszeichen
(hier Wurzel), so versucht man es stets mit Anwendung
der Umkehrfunktion, was natürlich nur in einfa√
chen Fällen gelingt. Hier: x2 = x+1, also x = 12 ± 12 5. Nun würden viele Anfänger hereinfallen und diese
beiden Nullstellen angeben. Aber die quadratische Gleichung ist nicht gleichwertig zur ursprünglichen,
sondern nur eine Folgerung davon. Eine Lösung der ursprünglichen√Gleichung muss also unter den beiden
Lösungen der quadratischen
Gleichung sein. Ferner folgt aus x = x + 1, dass x√> 0. Tatsächlich ist die
√
Bedingung x = x + 1 gleichwertig zu x2 = x+ 1 und x > 0. Also ist x0 = 12 + 12 5 die einzige Nullstelle.
3.3. Potenzrechnung. Bei √
Potenzen denke man nicht nur an natürliche Exponenten wie a5 , son4
3/4
dern auch an gebrochene: a
= a3 (nur für a ≥ 0 definiert), an die negativen: a−x = a1x , später auch
daran, dass die Exponenten beliebige reelle Zahlen sein dürfen. Grundlegende allgemeingültige Formeln,
14
1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN
die man kennen sollte - a > 0 ist vorauszusetzen:
a0
ax ay
(ax )y
= 1
= ax+y
= axy
√
√
3
√ √
4
Es folgt zum Beispiel: ab = a b für a, b ≥ 0. Auch a6 a3 = a3 . Oder a8 a4 = a3 . Es sollte bewusst
√
√
√
sein, dass (a + b)n nicht etwa an + bn ist, a + b nicht etwa a + b.
3.4. Das große Summenzeichen und Ähnliches. Wenn man eine Summe hat wie a1 + a2 +
... + a1000 , so benötigt man wohlwollende Ergänzung des Lesers bei den Pünktchen, außerdem ist die
Schreibweise nicht sehr praktisch. Drastischer wird das noch etwa bei (a11 + a12 + ... + a1n ) + ...(am1 +
am2 + ... + amn ). Summen beliebig festzulegender Längen oder gar unendlicher haben wir sehr oft zu
bilden. Daher definieren wir nach dem Prinzip der Rekursion:
0
ak := 0,
k=1
n+1
n
ak :=
k=1
ak + an+1 .
k=1
Man denke aber stets auch noch anschaulich mit den Pünktchen:
n
k=1
ak = a1 + ... + an (für n ≥ 1). Diese
Bildung führt man auch mit anderen Verknüpfungszeichen analog aus, etwa
Oder für Mengen:
n
n
k=1
k=1
ak = a1 · ... · an für n ≥ 1.
An = A1 ∩ ... ∩ An für n ≥ 1. Wir haben ein paar für das Weitere sehr nützliche
Rechengesetze für das große Summenzeichen, die einfach aus den Rechengesetzen für die Addition sowie
dem Distributivgesetz folgen - die Klammern in der dritten Zeile könnten fehlen, sie sollen nur das genaue
Lesen unterstützen:
n
c = nc
k=1
n
ak +
k=1
n
bk
k=1
n
cak
n
=
(ak + bk )
k=1
n
= c
k=1
ak
k=1


m  n 
m m
n
n
ai 
bj  =
ai 
bj  =
bj
ai
i=1
j=1
m n
i=1
ai bj
i=1 j=1
Beispiele:
=
j=1
j=1
i=1
ai bj
1≤i≤m, 1≤j≤n
n
n+1
n
n
n
n
n
(ak+1 − ak ) =
ak −
ak = an+1 − a1 ,
(ak + bk )2 =
a2k +
b2k + 2
ak bk . (Zuk=1
k=2
k=1
k=1
k=1
k=1
k=1
nächst die binomische Formel auf (ak + bk )2 im Innern der Summe anwenden, dann auseinanderziehen.)
n
3.5. Die Binomialkoeffizienten. Wenn man (x + y) für n ∈ N ausmultipliziert, so erhält man
nach Distributivgesetz ’jeder mit jedem’ lauter Glieder xk yn−k , 0 ≤ k ≤ n. Zu diesen Gliedern gehört ein
Vorfaktor (’Koeffizient’), und dann wird alles addiert. Nun tritt xk y n−k genau so oft auf, wie man aus
den n Faktoren x + y das Glied x k mal, y entsprechend n − k mal auswählen kann. Diese Anzahl kann
man wie folgt ausrechnen:
Wir benötigen eine kleine Vorbereitung: Wie viele Möglichkeiten gibt es, k Objekte anzuordnen?
Nennen wir diese Anzahl g(k) Für k = 0 ist das ein wenig merkwürdig, aber man kann sagen: Da ist
nichts anzuordnen, und es gibt genau eine Möglichkeit, nichts zu tun. Also g (0) = 1. Für k = 1 ist klar:
3. ELEM ENTARE GRUNDKENNTNISSE ZUM RECHNEN
15
g(1) = 1. Weiter g(2) = 2. Aber wie geht es weiter? Abzählen hilft nicht bei großem k.Aber wir erhalten
folgende Rekursionsformel: g(k+1) = (k + 1) g (k) . Begründung: Aus den k+1 Objekten wählen wir eines
aus, bestimmen für dies den Ordnungsplatz. Das kann man auf k + 1 Weisen tun. Der Rest kann auf g (k)
Weisen angeordnet werden. Also multiplizieren sich diese Anzahlen zu g(k + 1), was die Rekursionsformel
ergibt. Nach dem Prinzip der Definition durch Rekursion ist mit g (0) = 1, g (k + 1) = (k + 1) g (k) eine
k
eindeutige Funktion bestimmt, und man sieht sofort, dass g (k) =
m für k ≥ 1. Man schreibt nun k!
m=1
(lies: ’k Fakultät’) für g(k) und hat:
S 3. Die Anzahl der Anordnungen einer Menge von k Elementen (k ∈ N0 ) ist k!, wobei 0! = 1,
(k + 1)! = (k + 1) k!. k! ist auch die Anzahl der Bijektionen einer Menge von k Elementen auf sich selbst.
S 4. Sei f(n,k) für 0 ≤ k ≤ n die Anzahl der Möglichkeiten, k Elemente aus einer Menge mit n
Elementen auszuwählen. Dann gilt:
n
n!
.
f(n, k) =
:=
k! (n − k)!
k
(Man liest das Symbol nk : ’n über k’.)
Folgerung:
(x + y)n =
n n k n−k
x y
k
k=0
Die Formel ist schnell begründet: Für k = 0 stimmt sie offenbar: Kein Element auszuwählen, dafür hat
man offenbar genau eine Möglichkeit. Wählt man k Elemente aus, k > 0, entsprechend n ≥ k > 0,
so hat man n Möglichkeiten für die erste Auswahl des ersten Elementes, für die nächste n − 1, usw.
k−1
Das macht
(n − m) Möglichkeiten, da die Anzahlen für die Einzelschritte zu multiplizieren sind.
m=0
Diese Zahl muss man durch k! teilen, da sie die Anzahl der Möglichkeiten ist, k Elemente in einer ganz
k−1
(n−m)
bestimmten Reihenfolge auszuwählen. Nun erweitert man den Bruch
n!
k!(n−k)! . Alternativ könnte man auch die Rekursionsformel
n+1
n
n
=
+
, 1≤k≤n
k
k−1
k
m=0
k!
mit (n − k)! und erhält
beweisen durch direktes Ausrechnen (Bruchrechnung!), und zeigen, dass die Funktion f (n, k) diese Rekursionsformel erfüllt. (Die Randfälle f (n, 0) = 1 und f (n, n) = 1 sind ohnehin klar.) Die Binomialkoeffizienten bilden bekanntlich das Pascalsche Dreieck.
KAPITEL 2
Elementare Vektorrechnung und analytische Geometrie
Zur naturwissenschaftlichen Motivierung für Vektoren: Eine Geschwindigkeit ist bei näherem Hinsehen nicht einfach eine Zahl ≥ 0 (’so viel Meter pro Sekunde’), sondern es gehört eine Richtung
im Raum dazu - selbst im eindimensionalen Raum, durch ein Vorzeichen ausgedrückt. Will man eine
Richtung im Raum (wir nehmen den dreidimensionalen Anschauungsraum) und eine Länge in einem
mathematischen Objekt beschreiben, so tut man das zweckmäßig auf zwei Weisen: Einmal mit einem
geometrischen Pfeil, dessen Richtung die gewünschte angibt und dessen Länge der verlangte Betrag ist.
Zweitens beschreibt man einen solchen Pfeil mit seiner Koordinatendarstellung bezüglich eines geeigneten
dreidimensionalen Koordinatensystems (das sollte drei unabhängige Achsen haben). Warum braucht man
beide Beschreibungen? Mit den Pfeilen kann man Zusammenhänge geometrisch sehen und konstruieren,
mit der Koordinatendarstellungen Komplizierteres ausrechnen, notfalls auf einem Computer. Bekanntlich
kann man durch Addieren aus Kraftvektoren die resultierende Kraft durch einen einzigen Vektor darstellen. Da sieht man bereits, dass eine Mengen von Vektoren zusammen mit einer Addition eine wichtige
Struktur darstellt.
Nicht nur Geschwindigkeiten, Beschleunigungen und Drehmomente, auch elektrische und magnetische Feldstärke (je an einem Ort) werden mit Vektoren beschrieben. Auch hier spielt das Summieren eine
tragende Rolle, beispielsweise erhält man das elektrische Feld, das von einer Punktladung erzeugt wird,
einfach durch ’Überlagern’, d.h. Summieren der Feldvektoren. So kann man also aus einfachen, recht bekannten Feldern sehr komplizierte erzeugen und mathematisch problemlos beschreiben. Dazu kommt der
Abbildungsbegriff: Ein elektrostatisches Feld ist ein Vektorfeld, d.h. eine Abbildung, die jedem Raumpunkt genau einen Vektor zuordnet, den Feldvektor an diesem Punkt. Bei einem zeitlich veränderlichen
’Wechselfeld’ kommt noch als weitere unabhängige Variable die Zeit hinzu, das ergibt einfach wieder ein
Vektorfeld, nur haben die Eingabevektoren eine Dimension mehr.
Eine weitere Motivierung ganz anderer Art kommt hinzu: Naturwissenschaftliche Gegenstände haben vielfach eine geometrische Beschreibungskomponente: Man hat etwa eine elektrische Ladungsverteilung auf einem dreidimensionalen Metallkörper, der eine ganz bestimmte Form besitzt. Dann ist die
rechnerisch-geometrische Beschreibung des Körpers grundlegend für alle naturwissenschaftlichen Berechnungen. Das bedeutet: Analytische Geometrie ist ein Grundnahrungsmittel für Naturwissenschaften, nicht
etwas für mathematische Spezialisten. Man muss Kurven, Flächen und geometrische Körper im Raum
rechnerisch beschreiben, um etwa Gesamtladungen aus Ladungsdichten oder Spannungen aus elektrischen
Feldern auszurechnen. Ähnliches gilt natürlich auch für die Energie, die man benötigt, einen starren Körper gewisser Gestalt und Massenverteilung auf eine gewisse Kreiselgeschwindigkeit um eine Achse zu
bringen.
1. Affiner Raum und Vektorraum
1.1. Punkte im Anschauungsraum, Ortsvektoren und Koordinatensysteme. Vorbemerkung: Wir denken an die Dimension 3, können aber selbstverständlich jederzeit auf nur zwei Dimensionen
spezialisieren, auf der anderen Seite zeigt sich, dass sämtliche Begriffsbildungen dieses Abschnitts für
beliebige (endliche) Dimensionen taugen. Dimension 3 hat nur eben für das Unterbringen naturwissenschaftlicher Sachverhalte besondere Bedeutung, und es ist wichtig, die Anschauung in drei Dimensionen
zu schulen. (Diese Anschauung kann man dann mit großem Gewinn auf höhere Dimensionen einfach
übertragen.)
Die Menge aller Punkte des dreidimensionalen Anschauungsraums bezeichnen wir mit E 3 , die Elemente mit Großbuchstaben P, Q, P1 usw. Wir legen einen beliebigen Punkt O ∈ E 3 fest und stellen
→
bezogen auf O jeden Punkt P durch einen Vektorpfeil dar, der von O nach P geht. Das ist −
xO
P , der
17
18
2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
→
Ortsvektor von P bezüglich O. Die Menge V3O ist die Menge aller Ortsvektoren bezüglich O. −
xO
O speziell
ist der ’Nullvektor’ (ein zum Punkt degenerierter Pfeil).
Wir haben damit eine Bijektion
E 3 → V3O
.
→
P → −
xO
P
Wir können die Punkte des E 3 und damit auch die Ortsvektoren zahlenmäßig erfassen, indem wir ein
Koordinatensystem L wählen, das seinen Ursprung in O hat und drei unabhängige Achsen (genannt
x, y, z−Achse), mit angegebenen Einheiten und Orientierungen ’positiv-negativ’, die nicht in einer Ebene
liegen. Wir identifizieren die Achsen jeweils mit der reellen Zahlengeraden. Man erhält zum Punkt P
→
(gleichwertig: zum Ortsvektor −
xO
P ) wie folgt eindeutig ein Zahlentripel und umgekehrt zu jedem Zahlentripel eindeutig einen Punkt bzw. Ortsvektor: P wird parallel zur z− Achse auf die xy− Ebene projiziert,
dann der Projektionspunkt auf parallel zur x− Achse auf die y− Achse und parallel zur y− Achse auf die
x− Achse. Die abgelesenen Zahlen sind die y− Koordinate yPL und x− Koordinate xL
P . Analog erhält man
etwa nach Projektion von P auf die xz− Ebene parallel zur y− Achse und anschließender Projektion auf
die z− Achse parallel zur y− Achse die z− Koordinate zPL . Folgendes Bild zeigt ein Koordinatensystem
als Dreibein, einen Punkt und diese Projektionsvorgänge.
z
xP
P
xP
zP
y
x
yP
Damit haben wir Bijektionen
E3
3
→ R


xL
P
→
P
→  yPL  =: −
xL
P (lies: ’Koordinatendarstellung von P bezüglich K’)
L
zP
→
→
und entsprechend V3O → R3 , −
x P → −
xL
P . (Ortsvektoren bekommen also dieselben Koordinatendarstellungen wie die zugehörigen Punkte.)
Kartesische Systeme: Wir haben nicht vorausgesetzt, dass die Achsen senkrecht aufeinander stehen, auch nicht gleiche Länge der Einheiten auf den Achsen. Ist beides der Fall, so heißt das System K
kartesisch. Beim Umgang mit Längen, Winkeln, Skalar- und Vektorprodukt brauchen wir solche, vorher
aber noch nicht. Bei dreidimensionalen Koordinatensystemen wählt man die Achsen für ein kartesisches
System zusätzlich so, dass sie ein Rechtssystem bilden, d.h. wie Daumen, Zeigefinger und Mittelfinger der
rechten Hand angeordnet sind. Erst bei Skalarprodukt und Vektorprodukt benötigt man zur praktischen
Erfüllung der sich stellenden Aufgaben kartesische Systeme; für die im Folgenden besprochenen linearen
Operationen allein können die Systeme beliebig sein.
Den Nutzen der Ortsvektoren sehen wir im Abschnitt 1.4.
1.2. Affiner Raum und freie Vektoren, Vektorraumbegriff. Im vorigen Abschnitt haben wir
naiv dem Anschauungsraum bereits eine Euklidische Struktur (mit Längen- und Winkelbegriff) unterstellt, aber die gehört hier eigentlich noch gar nicht her, sondern nur die des affinen Raums. Wir setzen
1. AFFINER RAUM UND VEKTORRAUM
19
nur voraus, dass E 3 ein affiner Raum ist. Das bedeutet: Hat man zwei Punkte P, Q, so kann die Strecke
von P nach Q (dargestellt durch einen Pfeil von P nach Q) von jedem anderen Punkt R aus in eindeutiger Weise abgetragen werden. Das heißt: Der Pfeil von P nach Q kann eindeutig parallel verschoben
werden, so dass er in R beginnt und entsprechend einem eindeutig bestimmten Punkt S endet. Im Falle
P = Q ist der Pfeil wieder degeneriert. Zweitens verlangen wir: Jeder Pfeil zwischen zwei Punkten kann
eindeutig gestreckt werden mit beliebiger Zahl α ∈ R, so dass seine Länge sich mit |α| multipliziert und
im Falle α < 0 seine Pfeilrichtung zusätzlich umgedreht wird. Multiplikation mit α = 1 ändert nichts
am Pfeil. Dabei soll die erwähnte Parallelverschiebung mit der Streckung vertauschbar sein. Man beachte: Dies bedeutet einen Längenvergleich nur in einer Raumrichtung jeweils - Strecken verschiedener
Raumrichtungen können nicht miteinander verglichen werden. Außerdem hat man nur den Winkelbegriff:
’parallel - nicht parallel’, mehr nicht. Schließlich bilden wir eine Summe von Pfeilen: Der Pfeil von P
nach Q plus der Pfeil von Q nach R ist der Pfeil von P nach R, für alle Punkte P, Q, R ∈ E 3 . Auch
für die Summe fordern wir die Vertauschbarkeit mit der Parallelverschiebung. Schließlich verlangen wir
die Vertauschbarkeit der Summenbildung (konkreter Pfeile) mit allen Streckungen sowie: Strecken mit β,
dann mit α ergibt Strecken mit αβ, und Strecken mit α + β ergibt dasselbe wie Addition der Pfeile, die
durch Strecken mit α bzw. β entstehen. Damit können wir aufsetzen:
−−→
→
Ein freier Vektor −
x = P Q ist die Menge (Klasse) aller Pfeile, die durch Parallelverschiebung des
Pfeils von P nach Q entstehen. Dieser Pfeil selbst ist ein Repräsentant dieser Klasse. Mit V3 bezeichnen
wir die Menge aller freien Vektoren. Zunächst haben wir folgende Koordinatendarstellungsabbildung für
→
die freien Vektoren: Es sei wieder ein Koordinatensystem L gegeben. Dann ist −
x L die Koordinatendar−
→
stellung des Repräsentanten von x , der Ortsvektor ist, also in O beginnt. Wir haben also eine Bijektion
V3 → R3 . Nun zu den wichtigen Rechenoperationen in V3 :
−
−→
→
→
→
Die Summe zweier freier Vektoren −
x ,−
y erhält man so: Man wählt Repräsentanten, so dass −
x = PQ
−
−
→
−
→
→
→
→
und −
y = QR, dann definiert man −
x +−
y := P R. Es kommt also die Klasse der Pfeile heraus, die
durch Parallelverschieben des Pfeils von P nach R entstehen. Folgendes Bild zeigt die geometrische
Vektoraddition. Es zeigt auch, dass bei ’Hintereinandersetzen’ und ’Parallelogrammergänzung’ dasselbe
herauskommt - es sollte klar sein, dass die Bilder stets nur Repräsentanten der freien Vektoren zeigen.
b
a
a+b
b
a
−−
→
→
Die Multiplikation eines freien Vektors −
x = P Q mit einer Zahl α ∈ R erklärt man entsprechend:
→
α−
x := die Klasse der Pfeile, die durch Parallelverschiebung aus einem mit α gestreckten Repräsentanten hervorgehen. Bemerkung: Dass diese Operationen eindeutige Resultate liefern, unabhängig von der
Repräsentantenwahl jeweils, folgt aus den oben verlangten Vertauschbarkeiten mit der Parallelverschie−−
→
−
→
bung.) Der Vektor P P heißt Nullvektor und wird mit 0 bezeichnet. Folgendes Bild zeigt anschaulich die
20
2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
geometrische Streckung eines Pfeils mit einem Skalar:
a
(-1)a
2a
Diese beiden Operationen: Addition von Vektoren und Multiplikation eines Vektors mit einer reellen
Zahl (einem Skalar) heißen die linearen Operationen.
−
→
Damit wird V3 zu einem Vektorraum über dem Körper R, das heißt: V3 , +, ·, 0 hat die in
folgender Definition festgelegten Eigenschaften:
−
→
D
1. Es sei (K, +, ·, 0, 1) ein Körper. Eine Menge V mit 0 ∈ V sei gegeben mit einer
inneren Verknüpfung + : V × V → V und einer äußeren Verknüpfung · : K × V → V. heißt Vektorraum
→
→
→
über dem Körper (K, +, ·, 0, 1) , wenn folgendes Axiomensystem erfüllt ist: Für alle −
x,−
y,−
z ∈ V und
alle Zahlen α, β ∈ K gilt:
→ −
−
→
x + −
y +→
z
−
→ −
0 +→
x
−
→
−
→
−x + x
−
→
→
x +−
y
−
→
(αβ) x
→
(α + β) −
x
−
→
−
→
α x + y
=
=
=
=
=
=
=
−
→
→
→
x +−
y +−
z
−
→
x
−
→
0
−
→
→
y +−
x
−
→
α βx
→
→
α−
x + β−
x
−
→
−
→
αx +αy
→
→
1·−
x = −
x
Bemerkung: Wie üblich haben wir Multiplikationszeichen sowohl bei ’Zahl mal Vektor’ als auch
’Zahl mal Zahl’ fortgelassen außer beim letzten Axiom. Ferner beachte man, dass ’+’ in α+β die Addition
→
→
→
der Zahlen im Körper meint, dagegen ’+’ in −
x +−
y die Addition der Vektoren in V . Ebenso ist bei α−
x
−
→
die Multiplikation des Skalars (der Zahl) α mit dem Vektor x gemeint, aber bei αβ die Multiplikation der
Zahlen α, β im Körper. Eigentlich hätte man das wie +V , +K und ·V , ·K zur Unterscheidung schreiben
müssen, aber das wäre sehr unübersichtlich. Außerdem ist die Nichtunterscheidung in der Bezeichnung
gerechtfertigt duch folgende Tatsache, die sich aus den Axiomen ergibt:
Man rechnet mit Ausdrücken der Vektorrechnung (Zahlterme und Vektorterme mit den
linearen Operationen) wie mit Zahlen,
nur kann man nicht etwa durch Vektoren teilen.
−
→
Es ist zu beobachten, dass V, +, 0 mit den ersten vier Axiomen gerade eine abelsche Gruppe wird.
Sehr wichtig sind die beiden Distributivgesetze (vorletztes und drittletztes Axiom).
1. AFFINER RAUM UND VEKTORRAUM
21
Zur Begründung
der
Gültigkeit der Axiome für V3 wollen nur zwei
Bilder
zeigen, welche das Assozia−
→
−
→
−
→
−
→
−
→
→
5
5
5
tivgesetz a + b + c = ( a + b)+ c und das Distributivgesetz λ a + b = λ−
a + λ5b veranschaulichen:
a
b
b+c
a+b
c
(a+b)+c = a+(b+c)
λb
λa
λ (a+b)
b
a
a+b
Bei einem Vektorraum trifft man stets folgende Definiton und kann die anschließenden Folgerungen
ziehen:
→
→
→
→
D
2 (Differenz von Vektoren). −
x −−
y := −
x + −−
y
Anschaulich hat man:
a-b
b
a
22
2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
−
→ → −
→ →
Man verifiziere im Bild: b + −
a − b =−
a , und merke sich die Anordnung.
→
→
F
1. Für alle Vektoren −
x ,−
y ∈ V und alle Zahlen α ∈ K gilt:
−
→
−
→
0x = 0
→
→
→
→
(−α)−
x = − α−
x , insbesondere − −
x = (−1) −
x
−
→
−
→
−
→
−
→
α x − y
= αx −αy.
→
−
→ −
→ −
→
→
→
→
→
Begründungen liefert man leicht: 0 = 0 + 0 , also 0−
x = (0 + 0) −
x = 0−
x + 0−
x , Addition von − 0−
x
−
→
−
→
−
→
−
→
liefert nun mit Assoziativgesetz und Inversengesetz 0 = 0 x . Zur zweiten Gleichung: (−α) x + α x =
−
−
→
→
→
→
(−α + α) −
x = 0−
x = 0 . Addition
von
−
α
x
auf
beiden
Seiten führt
Es
−
−
−
−
zur gewünschten
−
Gleichung.
→
−
→
→
→
−
→
→
−
→
→
−
→
−
→
folgt dann die dritte über α x − y = α x + − y = α x + α − y = α x + −α y = α x − α y .
Mit den Rechengesetzen sollte klar sein, dass man jeden Ausdruck der Vektorrechnung (ausschließlich
→
→
mit den linearen Operationen gebildet) in den Vektor-Buchstaben −
a 1 , ...−
a n in folgende Endform bringen
n
−
→
−
→
−
→
kann:
λk a k . das nennt man eine Linearkombination der a 1 , ... a n . Vertiefendes zur Vektorraumk=1
struktur folgt im Kapitel 4 über lineare Algebra.
1.3. Die Vektorräume V3O und R3 , Vektorrechnung in Koordinatenform. In offensichtlicher Weise liefert V3O ebenfalls einen Vektorraum: Um zwei Ortsvektoren zu addieren und einen solchen
herauszubekommen, addiert man die zugehörigen freien Vektoren, von denen die gegebenen Ortsvektoren
−
→
→
x P,−
x Q Repräsentanten sind, von der Summe dieser freien Vektoren wählt man den Repräsentanten, der
→
→
→
von O startet. Das ist −
xP +−
x Q . Analog kann man α−
x P bilden, indem man einfach nur den konkreten
Ortsvektor streckt. Dann sind die Axiome ebenfalls erfüllt. Anwendung: Die komplexen Zahlen bilden
insbesondere einen Vektorraum über R, den man gerade als V2O veranschaulicht.
Ferner bildet die Menge der Zahlentripel R3 einen Vektorraum über R mit folgenden linearen Operationen:

 



a
x
a+x
 b  +  y  : =  b + y ,
c
z
c+z
 


a
αa
α  b  : =  αb  .
c
αc
Es werden die Operationen also ’komponentenweise’ gebildet. Die Verifikation der Axiome ist sehr einfach
und folgt direkt aus den Rechengesetzen im Körper (daher kann man die Konstruktion für beliebige
Körper ausführen.) Wir geben ein Beispiel dafür, wie man in solchen Fällen mit den Definitionen der
Operationen und den Rechengesetzen in R schließt:

 





a
x
a+x
α(a + x)
α  b  +  y  = α  b + y  =  α(b + y) 
Def. +
Def. ·
c
z
c+z
α(c + z)



 

αa + αx
αa
αx
 αb + αy  =  αb  +  αy 
=
Distributivgesetz in R
Def. +
αc + αz
αc
αz




a
x
= α b  + α y 
Def. ·
c
z
Nun haben wir in 1.1 den Ortsvektoren Koordinatendarstellungen zugeordnet, in 1.2 auch den freien
Vektoren. In V3 haben wir die linearen Operationen, auch im R3 . Man möchte etwa Kräfte addieren,
→
→
dargestellt durch freie geometrische Vektoren. Man bildet also −
x +−
y geometrisch als resultierende Kraft
→
→
(’Kräfteparallelogramm’ !). Aber genau dies Resultat (genauer: die Koordinatendarstellung von −
x +−
y in
−
→
→
L −
L
L, möchte man auch ausrechnen, gegeben x , y . Dafür benötigt man den entscheidenden Sachverhalt:
−
L −
→
→
→
x +−
y
=→
x L +−
y L . Ebenso für die Multiplikation mit Skalaren. Es soll also das geometrische Rechnen
1. AFFINER RAUM UND VEKTORRAUM
23
mit Vektoren dem Rechnen mit den Koordinatendarstellungen genau entsprechen. Glücklicherweise ist
das so, wie wir festhalten im
S 5. Die linearen Operationen sind mit den Koordinatendarstellungen vertauschbar, für jedes
Koordinatensystem L gilt:
−
L
→
→
→
→
x +−
y
= −
xL +−
y L (links: + in V3 , rechts: + in R3 )
−
L
→L α→
x
= α −
x
(links: Zahl mal geom. Vektor, rechts: Zahl mal Zahlentripel)
→
→
x →−
x L ist damit ein Vektorraumisomorphismus, da sie eine Bijektion ist,
Die Abbildung V3 → R3 , −
→
→
welche mit den linearen Operationen vertauscht. Analog ist auch V3O → R3 , −
x P →−
xL
P ein Vektorraumisomorphismus.
Zum Verständnis schaue man folgende zweidimensionalen Bilder an:
1
0.9
y
0.8
0.7
0.6
x
0.5
0.4
x+y
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.4
0.5
0.6
0.7
0.8
0.9
1
1
0.9
0.8
λx
0.7
0.6
0.5
x
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
1
→
→
Man kann im ersten Bild ablesen, dass die x− Koordinate von −
x plus die x− Koordinate von −
y die von
−
→
−
→
→
x + y ergibt, ebenso für die y− Koordinaten. Im zweiten Bild sieht man: Die x− Koordinate von λ−
x
−
→
ist λ mal die x− Koordinate von x , ebenso für die y− Koordinaten (Strahlensatz!).
1.4. Beschreibung geometrischer Gebilde mit Parameterdarstellungen, in geometrischer
Form und in Koordinatenform. Zunächst ein wichtiger Grundgedanke: Ein geometrisches Gebilde
(eine Gerade, eine Kreisfläche, ein Würfel als Körper usw.) ist aufzufassen als Menge von Punkten,
also Teilmenge von E 3 . Gleichwertig als Menge der zugehörigen Ortsvektoren, also Teilmenge von V3O .
Wieder gleichwertig über ein Koordinatensystem L als Menge von Zahlentripeln, Teilmenge von R3 . Dies
24
2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
Zusammenspiel entfaltet seine volle Nützlichkeit erst zusammen mit den Vektorraumoperationen, die man
mit allen beteiligten Objekten ausführt. Wir wollen mit einem einfachen Beispiel beginnen: Die Menge
x x ∈ R beschreibt eine Parabel.
x2 Die Menge
2
x ∈ R beschreibt die zum Scheitel
verschobene Parabel.
3
2
Um die Parallelverschiebung aller Punkte auszuführen, brauchte man nur den Vektor
zu ad3
dieren, hier mit Zahlentripeln ausgeführt, geometrisch: mit Ortsvektoren (Parallelogrammergänzung für
die Summenbildung). Dass man aber die Parallelverschiebung mittels der Addition eines festen Vektors
bekommt, sieht man besser geometrisch mit den Pfeilen ein. Dazu noch eine Erleichterung: Summenbildung mit Parallelogrammergänzung ist schwerfälliger als Summenbildung mit Hintereinanderschaltung
von Pfeilen. Daher legen wir fest: Ortsvektor plus freier Vektor ergibt einen Ortsvektor. Dazu nehmen wir
uns die Freiheit, die Differenz zweier Ortsvektoren als freien (Richtungs-)Vektor aufzufassen. Auf diese
Weise gelingt es mühelos, die Gerade g im Raum zu beschreiben, welche P enthält und deren Richtung
−
→
→
mit dem freien Vektor −
a = 0 beschrieben ist:
1.4.1. Parameterdarstellung einer Geraden. Man betrachte das Bild:
x+2
x2 + 3
xP+(-1)a
P
a
xP
xP+a
O
xP+2a
g
Damit sieht man leicht ein:
→
→
→
g = R ∈ E 3 ∃λ ∈ R : −
xR = −
x P + λ−
a .
Diese mühsame Darstellung verwendet man nicht, sondern schreibt praktischer eine Abbildung hin (nur
die definierende Gleichung, Definitionsbereich ist R, und Wertebereich ist VO3 , die Menge aller Ortsvektoren zum Ursprung O im dreidimensionalen Anschauungsraum:
−
→
→
→
x P + λ−
a , λ ∈ R.
x g (λ) = −
→
Also: Jeder reellen Zahl λ (freier Parameter) wird der Ortsvektor −
x (λ) eindeutig zugeordnet, und die
Pfeilspitzen dieser Ortsvektoren durchlaufen
die
gesamte
Gerade
g.
Die beschriebene Punktmenge (als
→ Menge von Ortsvektoren) ist Bild −
xg .
→
→
→
Will man die Gerade durch P und Q beschreiben, so wählt man einfach −
a =−
xQ −−
x P . So weit die
−
→
−
→
−
→
geometrische Form, mit geometrischen Vektoren x g (λ) , x P , a . Für eine Koordinatenform ersetzt man
sie einfach durch die zugehörigen Koordinatendarstellungen bezüglich eines Systems L.
1. AFFINER RAUM UND VEKTORRAUM
25


1
→
 2 +
Beispiel: So kann man dann etwa ausrechnen, an welcher Stelle die Gerade −
xL
g (λ) =
3


2
λ  −2  , λ ∈ R, die xy− Ebene schneidet. Das geschieht im Punkt, an dem die z− Koordinate
−2


4
→
 −1  .
3 − 2λ = 0 wird, also für λ = 32 . Somit ist der Schnittpunkt in Koordinatendarstellung: −
xL
S =
0


4
Wir werden der allgemeinen Gepflogenheit folgen und einfacher sagen: ’der Punkt  −1 ’ usw., nach0
dem wir ein für allemal klargestellt haben, dass selbstverständlich das Zahlentripel nur eine Koordinatendarstellung eines Punktes bezüglich eines speziellen Koordinatensystems sein kann. Wir werden noch
sehen, dass es sehr nützlich ist, rechnerische Objekte wie Zahlentripel (als Lösungen von Gleichungssystemen etwa) stets auch geometrisch als Punkte aufzufassen.
−
→ −
→
→
1.4.2. Parameterdarstellung einer Ebene. Sind P ∈ E 3 ein beliebiger Punkt und −
a , b = 0 (freie)
−
→
→
Vektoren, so dass für keine Zahl λ gilt: −
a = λ b , so wird die Ebene E durch den Punkt P mit Richtungs−
→
−
→
−
→
−
→
vektoren a , b (d.h. a , b liegen beide parallel zu E) beschrieben durch
−
→
→
→
−
→
x E (λ, µ) = −
x P + λ−
a + µ b , λ, µ ∈ R (geometrische Form).
→
Durchläuft man alle Zahlenpaare λ, µ, so durchlaufen die Pfeilspitzen von −
x (λ, µ) alle Punkte der
E
Ebene E. So weit die geometrische Form, die man mit folgendem Bild einsieht:
E
b
P
a
xP
xP+2a+b
O
Für die rechnerische Koordinatenform braucht man nur die geometrischen Vektoren durch ihre Koordinatendarstellung bezüglich eines Systems L zu eretzen:
−
→
−
→
→
→
x L (λ, µ) = −
x L + λ−
a L + µ b L , λ, µ ∈ R (Koordinatenform).
E
P
Hier entsteht mit Durchlausfen aller Parameterwerte λ, µ eine Menge von Zahlentripeln.
1.4.3. Beschreibung endlicher Gebilde durch Einschränkung der Parameterbereiche. Will man etwa
−
→
→
nur das Parallelogramm mit Eckpunkt P und (freien) Kantenvektoren −
a , b beschreiben, als Menge der
Ortsvektoren aller Punkte auf der Parallelogrammfläche, so bildet man einfach:
−
→
−
→
→
→
x (λ, µ) = −
x P + λ−
a + µ b , 0 ≤ λ, µ ≤ 1.
→
→
→
→
Analog für die Strecke von P nach Q: −
x (λ) = −
xP + λ −
xQ −−
x P , 0 ≤ λ ≤ 1. Oder für die Kurve,
λ →
a
≤
λ
≤
b
welche den Graphen von f (x) = x2 im Bereich x ∈ [a, b] bildet: −
x (λ) =
2
λ
26
2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
1.4.4. Parameterdarstellung eines Kreises oder einer Ellipse. Wir wollen zunächst den Einheitskreis
(gemeint ist genauer die Randkurve!) mit Radius r = 1 und Mittelpunkt im Koordinatenursprung bezüglich eines kartesischen Systemes (hier brauchen wir das!) beschreiben: jeder Ortsvektor eines Kreispunktes hat dann Länge 1 (wir benötigen den Euklidischen Raum, mit Winkeln und Längenvergleich in
allen Richtungen, vgl. den nächsten Abschnitt)., und er wird umkehrbar eindeutig durch einen Winkel
t beschrieben, 0 ≤ t < 2π, im Bogenmaß, zum Vollwinkel gehört 2π, das entspricht also 360 Grad. Das
Bogenmaß wird verwandt, weil das Rechnen damit praktischer ist(!). Nun macht man sich mit den elementaren Dafinitionen am rechtwinkligen Dreieck (Sinus = Länge Gegenkathete : Länge Ankathete usw.)
sowie den Vorzeichen fürsin, cos klar:
Zum Punkt auf dem Einheitskreis mit dem Winkel t gehört die
cos (t)
Koordinatendarstellung
. Folgendes Bild zeigt die Verhältnisse am Einheitskreis um (0, 0):
sin (t)
tan(x)
1
x
sin(x)
cos(x)
Dabei ist x die Länge des Kreisbogens, d.h. der Winkel im Bogenmaß. Genauer bekommt man auch
negative Werte für x, indem man den Kreis im Uhrzeigersinn durchläuft. (tan wurde zur zusätzlichen
Information mit eingezeichnet.)
Das liefert folgende (bijektive) Parametrisierung:
−
→
x (t) =
cos (t)
sin (t)
, 0 ≤ t < 2π.
(Ohne die Einschränkung des Parameterbereiches würde man den Einheitskreis immer wieder durchlaufen.) Daraus bekommt man mit der
die folgende
Parametrisierung des Kreises
Vektorrechnung
mühelos
a
a
cos (t)
−
→
mit Radius r > 0 und Mittelpunkt
: y (t) =
+r
, 0 ≤ t < 2π.
b
b
sin (t)
Wie steht es mit der Parametrisierung eines Kreises im dreidimensionalen Raum? Ganz einfach: Man
−
→
→
nimmt zwei beliebige Vektoren −
a , b ∈ V3 , die senkrecht aufeinander stehen und Länge 1 haben, dazu den
−
→
→
→
→
→
Ortsvektor −
x M des gewünschten Mittelpunktes M, und bildet −
u (t) = −
x M + r cos (t) −
a + r sin (t) b ,
−
→
→
→
→
0 ≤ t < 2π. Oder für die gesamte Kreisfläche dieses Kreises: −
v (t, s) = −
x M + s cos (t) −
a + s sin (t) b ,
0 ≤ t < 2π, 0 ≤ s ≤ r. Bei Koordinatenform erscheinen fann natürlich Zahlentripel.
Für Ellipsen benötigt man lediglich noch einen Faktor für die Streckung
(Stauchung)
in der einen
a cos (t)
−
→
Richtung und einen zweiten für die andere. Speziell hat man x (t) =
, 0 ≤ t < 2π, für
b sin (t)
die Ellipse im E 2 mit Mittelpunkt im Ursprung und Halbachsenlängen a > 0 in x− Richtung, b > 0 in
−
→
→
y− Richtung. Entsprechend bringt man diese Faktoren an −
a , b in der allgemeineren Form an, um diese
Vektoren auf gewünschte Länge zu bringen.
1. AFFINER RAUM UND VEKTORRAUM
27
1.5. Beschreibung durch Parameterdarstellung versus Beschreibung durch Gleichung
oder Gleichungssystem - einfache Schlüsse aus ihrer Gestalt. Beginnen wir mit dem Beispiel des
Einheiskreises mit Mittelpunkt im Ursprung: Bekannter als eine Parameterdarstellung wie oben dürfte die
Gleichungsdarstellung sein: x2 +y 2 =
(vgl. wieder den nächsten Abschnitt über Euklidische Räu 1, womit
x
me) einfach gesagt wird: Ein Vektor
, der diese Gleichung löst, hat Länge 1. (Das setzt allerdings ein
y
kartesisches System voraus.) Wir beschreiben den Kreis (wieder. die Randkurve)
aller Punk
alsdie Menge
x
te aus E 2 , welche den Abstand 1 vom Ursprung haben, also als die Menge
∈ R2 x2 + y 2 = 1 .
y
(Wieder identifizieren wir die Punkte mit den Zahlenpaaren.)
Auch
die
oben
angegebene
Parameterdar
cos (t) stellung liefert genau diese Menge, in der Form
0 ≤ t < 2π . Wir können sagen, dass eine
sin (t) Parameterdarstellung die jeweilige geometrische Menge in ausgerechneter Form angibt. Zugleich liefert
sie ein Verfahren, das nur Punkte der Figur liefert, so viele, wie man will. Also braucht man Parameterdarstellungen zweckmäßig, um eine geometrische Menge auf den Computerbildschrim zu bekommen.
Später werden wir sehen, dass ’Integrieren über eine Kurve / Fläche’ sehr wichtige naturwissenschaftliche
Vorgänge sind. Dafür benötigt man unbedingt Parameterdarstellungen für die betreffenden Kurven oder
Flächen, Gleichungsdarstellung reicht nicht. Andererseits kommen wir auch nicht ohne die Gleichungsdarstellung aus. Einmal kann die naheliegende einfachste Beschreibung einer geometrischen Menge erst
einmal zu einer Gleichungsdarstellung führen. Zweitens gibt es aber auch Aufgaben, welche mit einer
Gleichungsdarstellung viel leichter auszuführen sind als mit Parameterdarstellung. Betrachten wir dazu
folgendes Beispiel: Welche Punkte auf dem Einheitskreis liegen auch auf der Geraden y = −2x + 3?
Für diese Schnittaufgabe bildet man mit den Gleichungsdarstellungen für Kreis und gerade einfach das
Gleichungssystem
x2 + y 2
y
= 1
= −2x + 1,
Einsetzen von −2x + 1 für y in die erste Zeile ergibt x2 + (1 − 2x)2 = 1, diese quadratische Gleichung
in Normalform gebracht: 5x2 − 4x = 0, mit Lösungen x1 = 0, x2 = 45 . Einsetzen in die zweite Gleichung
8
3
liefert
die zugehörigen
y− Werte: y1 = 1, y2 = − 5 + 1 = − 5 . Also haben wir die beiden Schnittpunkte
0
4
und 15
. Das war schon nicht ganz leicht, weil es sich um ein nichtlineares Gleichungs1
−3
system handelt - solche machen im allgemeinen Fall beliebig viel Schwierigkeiten. Wir wollen aber noch
sehen, dass Verwenden von Parameterdarstellungen im selben Beispiel
zu Schlimmerem führt:
durchaus λ
→
Mit Verwenden der naheliegenden Parameterdarstellung −
x (λ) =
, λ ∈ R, hätte man
−2λ + 1
gleichzusetzen:
cos (t) = λ
sin (t) = −2λ + 1
Das ist erst einmal ein schwierigeres System als
das vorige. Natürlich schafft man das noch, indem man
sin (t) = ± 1 − cos2 (t) nutzt und damit ± 1 − λ2 = −2λ + 1 erhält. Das ergibt die gleichwertige
(wegen ±) Folgerung 1 − λ2 = (−2λ + 1)2 , mit den Lösungen λ1 = 0, λ2 = 45 . Nun ist man immer noch
→
nicht fertig: Es müssen diese Werte noch in −
x (λ) für λ eingesetzt werden, erst dann erhält man die oben
angegebenen Schnittpunkte. Zum Vergleich arbeiten wir noch mit der Parameterdarstellung der Geraden
und der Gleichungsdarstellung für den Kreis: Für den Schnitt hätten wir x = λ, y = −2λ + 1 in die
2
Gleichung des Kreises einzusetzen, mit dem Resultat λ2 + (1 − 2λ) = 1, was auf dieselben Werte für λ
wie vorhin führt, nur viel bequemer. Allerdings haben wir auch in diesem Falle noch die Parameterwerte
→
in −
x (λ) einzusetzen.
Dies Beispiel sollte geklärt haben, dass man beiderlei Darstellungsformen braucht und wie man mit
ihnen umgeht.
Wir kommen zur Frage, welche Information über ein geometrisches Gebilde aus seiner Beschreibung in
Gleichungsform oder Parameterform leicht zu gewinnen ist. Solche Informationen sollte man sich niemals
entgehen lassen und sie stets ausdrücklich festhalten.
28
2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
Man möchte stets wissen, welche Dimension eine Punktmenge hat, Dimension Null haben insbesondere alle endlichen Punktmengen. Dimension 1 haben die Kurvenbahnen, Dimension 2 die Flächen,
Dimension 3 die Körper (im geometrischen Sinne des Wortes). Allgemeine Punktmengen in höherdimensionalen Räumen haben auch mehr als drei Dimensionen. Ferner möchte man wissen, ob ein Gebilde
’gerade’ ist oder ’krumm’. Erstere nennt man auch lineare Gebilde. Schließlich möchte man etwas über
Beschränktheit oder Unbeschränktheit im Raume wissen. Besonders die ersten beiden Fragen kann man
im Normalfall ganz leicht bei bloßer Inspektion einer Parameterdarstellung oder Gleichungsdarstellung
beantworten, wir stellen die Information in folgender Tabelle zusammen. Unter dem Grundraum verstehen wir dabei die Punktmenge, aus der durch Gleichungen (welche Beziehungen zwischen den koordinaten
herstellen) oder durch das Bild einer Parameterdarstellung eine Teilmenge ausgesondert wird. Ferner verstehen wir unter denKomponentenfunktionen
einer Parameterdarstellung in Koordinatenform, also

f1 (α, β, ...)


..
→
etwa −
x (α, β, ..) = 
 mit beliebiger Raumdimension n die Funktionen f1 , ..., fn . Diese
.
fn (α, β, ...)
werden als Funktionen mit den Parametern als unabhängigen Veränderlichen betrachtet.
Gleichung(ssystem)
Parameterdarstellung
Dimension des Grundraums minus Anzahl
Anzahl der freien Parameter
der unabhängigen Gleichungen
’Linearität’
nur lineare Gleichungen
nur lineare Komponentenfunktionen fi
’Nichtlinearität’
mindestens eine nichtlineare Gleichung
mindestens eine der Funktionen fi nichtlinear
Dimension
Dabei muss man ein wenig vorsichtig sein: Unter ’Anzahl der Gleichungen’ hat man beim Gleichungssystem zu verstehen: Kleinste wählbare Zahl von Gleichungen, unter ’Anzahl der freien Parameter’ bei
Parameterdarstellung: Kleinste wählbare Zahl von Parametern. Weiter beziehen sich ’Linearität / Nichtlinearität’ bei den Gebilden nur auf kontinuierliche Gebilde einer Dimension ≥ 1. Allerdings bleibt es sinnvoll und wichtig, bei nichtlinearen Gleichungssystemen oder Komponentenfunktionen diese Eigenschaft
auch dann zu beachten, wenn etwa ein Schnittbildungsproblem vorliegt, das entsprechend rechnerisch
schwierig wird, aber zugleich nur eine endliche Menge von Punkten herauskommt wie oben.
Beispiele zur Anwendung:
1. Beispiel: Im Kreisbeipiel hat man eine Gleichung bei Dimension 2 des Grundraums, es resultiert
Dimension 1, eine Kurvenbahn kommt heraus. Bei der Parameterdarstellung sieht man einen freien Parameter , also eine Kurvenbahn. Die Gleichung x2 +y2 = 1 ist nichtlinear, also erwarten wir eine gekrümmte
Kurvenbahn. Ebenso sind die Komponentenfunktionen der Parameterdarstellung (sin (t) , cos (t)) nichtlinear, mit demselben Resultat.


2α − 3β
→
2. Beispiel: Betrachten wir folgende Parameterdarstellung: −
x (α, β) =  1 + 3α − β  , α, β ∈ R.
−1 + 2β
Ein lineares zweidimensionales Gebilde ergibt sich, also eine nicht gekrümmte Fläche, in diesem Falle dank
fehlender Parametereinschränkung eine ganze Ebene. Wir werden im nächsten Abschnitt in der Lage sein,
daraus bequem eine Gleichungsdarstellung zu machen und diese Darstellung unmittelbar geometrisch zu
deuten. Aber wir können schon jetzt verstehen, dass bei Grundmenge R3 eine Gleichungsbedingung
wie 2x − 3y + z = 1 eine Ebene darstellt. Zunächst: Die Gleichung ist linear, und die Dimension der
Erfüllungsmenge ist 2 = 3 − 1. Dass tatsächlich eine Ebene herauskommt, können wir durch Ausrechnen
der Lösungsmenge einsehen: Gibt man x, y frei vor, so bekommt man die Bedingung z = 1 − 2x + 3y. Die
Lösungsmenge ist daher



x



 x, y ∈ R .
y


1 − 2x + 3y Diese Menge bekommt man gerade als Bild der folgenden Parametrisierungsabbildung:


x
−
→
 , x, y ∈ R.
y
y (x, y) = 
1 − 2x + 3y
2. LÄNGEN UND W INKEL: EUKLIDISCHER RAUM
29
(Normalerweise würde man griechische Kleinbuchstaben für die freien Parameter vorziehen, das kann und
sollte man in solchen Fällen nachträglich noch ändern.) Damit sehen wir unmittelbar ein, dass es sich
um eine Ebene handelt, wir stellen noch die Endform mit Aufpunktvektor und Richtungsvektoren her,
durch ’Auseinanderziehen’ im Sinne der Addition und Zahlmultiplikation von Zahlentripeln:
 


 
0
1
0
−
→
y (λ, µ) =  0  + λ  0  + µ  1  , λ, µ ∈ R.
1
−2
3
3. Beispiel: Im Grundraum R3 liefert die Gleichung x2 + y 2 = 1 nicht etwa eine Kreislinie, sondern
den Mantel des Zylinders, der die z− Achse als Zylinderachse hat und beidseitig unbegrenzt ist; denn
über die z− Komponente gibt es keine Bedingung, sie ist frei wählbar. Gemäß Dimensionsregel haben wir
Dimension 2 und erwarten eine gekrümmte Fläche. Eine Parametrisierung desselben Zylinders ist einfach:


cos (t)
−
→
x (t, z) =  sin (t)  , 0 ≤ t < 2π, z ∈ R.
z
Auch daran sähe man: Dimension 2 mit zwei freien Parametern, Krümmung mit den beiden nichtlinearen
Komponentenfunktionen.
4. Beispiel: Hat man 4 unabhängige lineare Gleichungen (dazu später mehr im Kapitel ’Lineare
Algebra’) mit 6 Unbestimmten, so wird die Lösungsmenge (wenn sie nicht leer ist) zu deuten sein als
vierdimensionaler affiner Teilraum des R6 . Eine Parameterdarstellung der Lösungsmenge bekommt man
in Verallgemeinerung der Parameterdarstellung von Ebenen im R3 so: Aufpunktvektor plus erster freier
Parameter mal erster Richtungsvektor plus ... vierter freier Parameter mal vierter Richtungsvektor.
Zur Frage der Beschränktheit / Unbeschränktheit beschriebener geometrischer Gebilde:
Bei Parameterdarstellungen sieht man zuweilen recht leicht Beschränktheit insgesamt oder in gewissen
Richtungen anhand einschänkender Bedingungen bei den zulässigen Parameterwerten, also am Definitionsbereich der Parametrisierungsabbildung. Allerdings
ist das auch nicht ganz zuverlässig, sondern
t
→
man braucht genauere Inspektion. Etwa bei −
x (t) =
, 0 < t < 1, hat man keine Beschränkt1/t
heit der Kurvenbahn. Auch bei Gleichungsdarstellung benötigt man nähere Untersuchung der Frage:
x2 + y2 + z 2 = 1 in der Grundmenge R3 stellt die Oberfläche der Einheitskugel dar. Weil Quadrate
positiv sind, darf keine der Komponenten einen Betrag über 1 haben, also ist das Gebilde beschränkt.
Dagegen hätte man bei x2 + y2 = z 2 beliebig groß wählbare Werte von x, z. Es handelt sich um den unbegrenzten Doppelkegel, dessen Achse die z− Achse ist und dessen Querschnitte parallel zur xy− Ebene
Kreise sind, mit Öffnungswinkel 90 Grad.
2. Längen und Winkel: Euklidischer Raum
Wie bereits erwähnt, können wir mit den linearen (Vektorraum-) Operationen nichts über Längen
−
→
−
→
→
→
→
→
und Winkel sagen außer: α−
a ist bei −
a = 0 gerade |α| mal so lang wie −
a , und −
a ist parallel zu b genau
−
→
−
→
→
→
dann, wenn λ−
a = b oder µ b = −
a für eine wählbare Zahl λ oder µ. Dagegen sind die Längen zweier
nicht paralleler Vektoren nicht vergleichbar, und es sind keine Winkel außer Null Grad oder 180 Grad
ausdrückbar. Wir benötigen das Skalarprodukt, um weiter zu kommen. Zuvor machen wir folgende
Generalvoraussetzung beim Rechnen mit Skalarprodukt und Vektorprodukt in Koordinaten: Sämtliche Koordinatensysteme sind als kartesisch vorausgesetzt.
2.1. Betrag (Länge) von Vektoren. Das ist ein Produkt von Vektoren, bei dem eine Zahl (ein
Sklar) herauskommt (daher der Name). Wir zeigen, wie man
im kartesischen
System ist
 darauf
 kommt:

x x
die Länge eines Vektors aus V3 mit Koodinatendarstellung  y  offenbar:  y  = x2 + y 2 + z 2 .
z z
Zunächst weiß man mit Pythagoras Entsprechendes über V2 , aber eine zweite Anwendung des Pythagoras
liefert die angegebene Formel - man betrachte das rechtwinklige Dreieck mit dem gegebenen Vektor als
Hypotenuse, dessen senkrechte Projektion aus die xy− Ebene als eine und das Lot vom Endpunkt auf
die xy− Ebene als zweite Kathete. Es kommt heraus. Länge des Vektors quadriert = (x2 + y 2 ) + z 2 . Noch
allgemeiner definieren wir folgende Betragsfunktion auf beliebigem Rn :
30
2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
D
3.
|| : 


Rn  →
R≥0
"
x1 #
n
..  → #
$
x2k

.
k=1
xn →
heißt Betragsfunktion. Für geometrische Vektoren −
x ∈ Vn wählt man entsprechend als Betrag den Betrag
seiner Koordinatendarstellung in einem kartesischen System. Speziell für R1 kommt offenbar der bekannte
Betrag von reellen Zahlen heraus.
→
Bemerkung zur Bezeichnung: Bei Vektoren findet man häufig auch die Bezeichnung −
x , mit
zwei Strichen also. Das wollen wir für Normen bei Matrizen oder Funktionen reservieren, weil die Unterscheidung zwischen Zahlen und Vektoren klar sein sollte, auch in der Buchstabenbezeichnung bereits.
Der Betrag hat folgende wesentlichen algebraischen Eigenschaften - überall da, wo sie erfüllt sind,
spricht man von einer Norm oder einem Betrag in einem Vektorraum:
D
4. Sei V ein Vektorraum über R. Eine Abbildung || : V → R≥0 heißt Betragsfunktion
oder Norm, wenn folgende Aussagen allgemein gelten:
−
−
→
→
→
x = 0 ⇐⇒ −
x = 0
−
→
α→
x = |α| −
x
−
→
→
−
→
−
→
x + y ≤ x + −
y.
V (mit seinen linearen Operationen) zusammen mit dieser Norm heißt dann normierter Vektorraum.
→
Man beachte: −
x ≥ 0 steckt bereits im angegebenen Wertebereich. Die Ungleichung heißt Dreiecks-
ungleichung und ist sehr wichtig. Anschaulich besagt sie im Falle von V3 : Geht man über zwei Kanten
eines Dreiecks, so ist der Weg mindestens so lang wie der Weg über die dritte Kante.
S 6. Der oben definierte Betrag für Rn erfüllt die Normaxiome.
Zum Beweis der ersten Aussage braucht man nur zu wissen, dass eine Summe von Quadraten (und
damit deren
Wurzel) genau
> 0 wird,
mindestens
eine der Zahlen ungleich Null ist. Ferner
dann
wenn
2
hat man
(αxk ) =
α2 x2k = α2
x2k = |α|
x2k , was die zweite Aussage zeigt. An
der dritten würde man scheitern, sie so ’einfach nachzurechnen’. Wir werden sie aus der Schwarzschen
Ungleichung bekommen (im Abschnitt 2.4).
−
→
−
→
→
2.2. Skalarprodukt.
Man hat in einem beliebigen Dreieck mit Kantenvektoren
x,−
y = 0 - mit
→
→
→
→
→
→
W inkel −
x,−
y bezeichnen wir den von −
x und −
y eingeschlossenen Winkel: W inkel −
x,−
y = π/2 ⇐⇒
−
2
2
−
→
−
→
−
→
2
→
x + y = x − y , also liegt ein rechter Winkel genau dann vor, wenn gilt:
n
k=1
Nun hat man
n
k=1
x2k +
n
yk2 =
k=1
(xk − yk )2 =
k=1
n
x2k +
k=1
Also liegt ein rechter Winkel genau dann vor, wenn
n
n
(xk − yk )2 .
n
k=1
yk2 + 2
n
xk yk .
k=1
xk yk = 0.
k=1
→
→
Mehr noch: Diese Zahl ist > 0 genau dann, wenn der Winkel zwischen −
x,−
y spitz ist und < 0 genau dann,
wenn er stumpf ist. Wir werden im nächsten Unterabschnitt sehen, dass man damit sogar alle Winkel
genau quantifizieren kann: Wenn man sie durch das Produkt der Beträge teilt, kommt der Cosinus des
Winkels heraus. Zunächst haben wir damit folgende Definition motiviert:
2. LÄNGEN UND W INKEL: EUKLIDISCHER RAUM
31
D
5. Das Standard-Skalarprodukt auf dem Rn ist definiert durch
Rn×
Rn  →
R
y1
x1
n
 ..   .. 
xk yk .
 .  ,  .  →
k=1
xn
yn
· : 
Dass es sich um ein Skalarprodukt handelt, bedeutet die Erfüllung der in der folgenden Definition
festgelegten Eigenschaften:
D
6. Eine Abbildung · : V × V → R heißt Skalarprodukt auf dem Vektorraum V über R,
→
→
→
wenn folgende Eigenschaften gelten, allgemein für −
x,−
y,−
z ∈ V und λ ∈ R :
1. Die Abbildung ist bilinear, d.h.
→
→ −
−
→
→
→
→
→
→
→
→
→
→
→
x +−
y −
z = −
x−
z +−
y−
z , ebenso −
x −
y +→
z = −
x−
y +−
x−
z,
−
→
−
→
−
→
−
→
−
→
−
→
−
→
−
→
λ x y = λ x y , ebenso x λ y = λ x y
2. Die Abbildung
−
→
→
→
→
x−
y = −
y−
x
3. Die Abbildung
−
→
→
x ·−
x = 0 ⇐⇒
ist symmetrisch, d.h.
ist positiv definit, d.h.
−
→
−
→
x = 0
→
Bemerkung zum Begriff der Bilinearität: Halten wir −
z fest und betrachten
die
Abbildung V →
−
−
−
→
−
→
−
→
→
−
→
→
→
→
→
→
V mit x → x z . Sie ist linear, d.h. vertauscht mit den linearen
Operationen:
x
+
y
z
=−
x−
z +−
y−
z.
−
−
−
→
→
→
−
→
Das ist genau die erste Gleichung in der ersten Zeile. Und λ x z = λ x z , die erste Gleichung in der
zweiten Zeile. Analog halten wir die erste unabhängige Variable der Abbildung · (des Skalarproduktes)
fest und fordern die Linearität der so entstehenden Abbildung V → V. Das sind die beiden anderen
Gleichungen. Bilinearität bedeutet also: Linearität in beiden Eingabeschlitzen. Man beachte, dass sich
das für die Summe gerade als Distributivgesetz liest, für die Multiplikation mit Skalaren als Vertauschung
der Faktoren. Die Symmetrie (2. Eigenschaft) macht das zweite Paar bei der Bilinearität überflüssig, aber
es ging auch darum, den Begriff der Bilinearität für sich allein zu definieren, für weitere Zwecke, also etwa
das Vektorprodukt.
S 7. Das definierte Standard-Skalarprodukt auf dem Rn erfüllt die Eigenschaften, die nach Definition von einem Skalarprodukt verlangt werden.
Der Beweis ist sehr einfach nach dem Muster zu führen, das wir oben erwähnten bei dem Beispiel der
Verifikation eines Distributivgesetzes für die linearen Operationen auf dem Rn . Er verlangt keine Idee.
Die letzte Eigenschaft
ergibt sich unmittelbar aus der entsprechenden Betragseigenschaft, man sieht:
2
−
→
→
→
x ·−
x = −
x .
Eine positive und eine warnende Bemerkung zum Rechnen mit dem Skalarprodukt: Das
Distributivgesetz und die Verschiebbarkeit der Zahlfaktoren garantieren weitgehend eine günstige Regel
der Art: Rechnen wie mit reellen Zahlen, nur Vektoren und Zahlen ordentlich unterscheiden, weiterhin
nie durch
Vektoren
teilen.
→−
→ −
→−
Aber das ist nicht die ganze Wahrheit: Man hat kein ’Assoziativgesetz’ der
Form −
x→
y −
z =→
x −
y→
z . Diese Formel ist völlig falsch! Sie stimmt nur in seltenen Ausnahmefällen.
Man beachte: Das wäre auch gar kein Assoziativgesetz, weil man je ein Skalarprodukt hat und einmal
die lineare Operation Zahl malVektor!
→Dass man die gegeneinander austauschen
könnte,
wird man wohl
→
→
→
→
→
nicht erwarten. Man beachte: −
x−
y −
z ist ein Vektor parallel zu 5z, dagegen −
x −
y−
z ein Vektor par→
allel zu −
x . Fazit: Man muss sehr sorgfältig Klammern um Skalarprodukte setzen. Dabei benutzt man
→−
2
→
→
→
→
→
durchaus −
x 2 := −
y 2 . Außerdem kürze man niemals durch
x ·−
x , aber −
x→
y ist etwas Anderes als −
x 2−
Vektoren, was sich aus dem Verbot ergibt, durch einen Vektor zu teilen. Aber die Gefahr besteht, dass
das (korrekte!) Kürzen durch Beträge = 0 (das sind Zahlen > 0!) verwechselt wird mit dem völlig unsinnigen Kürzen durch Vektoren. Manchmal wird angeführt, das habe im konkreten Fall doch zu einem
korrekten Ergebnis geführt. Diese Argumentation ist falsch und sehr gefährlich: Einmal ist eine logisch
falsche Argumentation für ein korrektes Resultat (sogar für ein logisch gültiges) stets möglich - das wusste
man bereits im Mittelalter! Zum Anderen - und das eben ist das Schlimme, kann man mit einer logisch
falschen Argumentation buchstäblich jeden Satz beweisen, er sei noch so falsch. Aus diesem Grunde ist
32
2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
eine logisch falsche Argumentation gar nichts wert. Wenn sie eine oder mehrere gute Ideen enthält, so
rettet man die nur durch Vermeiden der logischen Fehler.
−
→
→
Ein Beispiel zum korrekten Kürzen durch Beträge: Für −
x = 0 hat man:
→−
−
−
→
−
→
→
−
−
−
→
−
→
→
−
→
−
→
→
x
y
x
y
x
y
x
y
x
y
−
→
−
→
−
→
−
→
x = x = .
x = −
x
=
→
−
→
2
2
2
−
2
x
→
→
→
−
−
x
x
x x
→
−→
−→
Schauen Sie sorgfältig nach, dass tatsächlich nur durch eine Zahl gekürzt wird. Aber der Ausdruck x y −
x
→
−
x2
kann überhaupt nicht vereinfacht werden! (Mit dem erwähnten Fehler würde man etwa denken, das
→
→
→
→
Resultat sei einfach −
y , aber dort steht ein Vektor parallel zu −
x , und −
x,−
y müssen keineswegs parallel
−
→
−
→
−
→
sein. Man prüfe nach, dass im Falle y = x tatsächlich korrekt y herauskommt.)
Eine wichtige physikalische Anwendung des Skalarproduktes: Arbeit ist Kraft mal Weg.
Aber genauer im Raum: Die Kraft wird durch einen Kraftvektor K erfasst, der Weg ebenfalls durch einen
Vektor s, und die Arbeit berechnet sich nicht etwa als Produkt der Beträge, sondern als Skalarprodukt
K · s. Das ist also: Kraft in Richtung des Weges genommen. Das hängt zusammen mit der im nächsten
Abschnitt zu besprechenden senkrechten Projektion. Später kommt natürlich die weitere Komplikation
hinzu, dass Kraft und Ort zeitabhängig sind, ein krummliniger Weg zurückgelegt wird. Dann hat man
über K (t) s′ (t) dt zu integrieren.
→
2.3. Senkrechte Projektion und Winkel. Die senkrechte Projektion eines Vektors −
y auf einen
−
→
−
→
Vektor x = 0 hat viele wichtige Anwendungen, die Quantifikation der Winkel ist nur eine davon. Eine
häufige Anwendung in der Physik: Eine Kraft ist in eine vorgegebene Richtung und eine dazu senkrechte
zu zerlegen.
→
→
→
→
→
→
Wir wollen einen beliebigen Vektor −
y so zerlegen: −
y = α−
x +−
u , so dass −
u senkecht auf −
x steht. Wir
−
→
werden sehen, dass dies Problem eindeutig lösbar ist. Der Vektor α x heißt dann die senkrechte Projek→
→
→
→
tion von −
y auf −
x . Die Vektorkomponente parallel zu −
x bei dieser Zerlegung haben wir zweckmäßig α−
x
−
→
genannt. Interessierende Unbekannte ist nur α, dann auch die Vektor-Unbekannte u . Skalares Anmultipli→
→
→
→
→
→
→
→
→
→
→
→
zieren von −
x an die Vektor-Gleichung −
y = α−
x +−
u führt sofort zu −
x−
y = α−
x−
x +−
x−
u = α−
x−
x . Denn
−
→
−
→
x u = 0 mit der gestellten Orthogonalitätsbedingung. Also können wir nach α auflösen und erhalten
−
→
→
−
→
→
x−
y
x−
y
α= −
=
2 . Damit haben wir insgesamt:
→
→
x2
−
x
−
→
→
→
S 8. Die senkrechte Projektion von −
y auf einen Vektor −
x = 0 ist der Vektor
−
→
→
x−
y−
→
−
x.
→
x 2
Daraus resultiert die Zerlegung
−
→
→
x−
y−
→ −
→
−
→
y = −
x + u,
→
x 2
→
−→
−
y −
→
→
→
→
→
x. −
u steht senkrecht auf −
x (was man durch Bilden des Skalarproduktes
mit dem Lotvektor −
u =−
y − x→
−
| x |2
sofort sieht).
Als weitere Anwendung der senkrechten Projektion hat man die Quantifizierung der Winkel:
−
→
→
→
S 9. Der Cosinus des Winkels zwischen zwei Vektoren −
x,−
y = 0 (beide nicht Null) lautet:
−
→
→
→ −
x−
y
−
.
cos ϕ −
x,→
y = −
→
x →
y
→
→
→
→
→
→
Insbesondere −
x−
y = 0 für senkrecht aufeinander
stehende
Vektoren −
x ,−
y (kurz −
x ⊥−
y ). (Zur Notation:
−
−
→
−
→
→
−
→
→
→
Den Winkel zwischen x und y nennen wir ϕ x , y , der Cosinuswert davon ist also cos ϕ −
x,−
y .)
Zur Begründung kann man einmal den Winkel als spitz voraussetzen und dann rechnen gemäß
Cosinus-Definition im rechtwinkligen Dreieck (Länge der Ankathete zu Länge der Gegenkathete):
→
→
−
y −
→
−x→
−
x
2
→
−
→
−
x−
y
|x| →
−
→
= −
→ .
cos ϕ x , y = −
→
→
y
x −
y
3. VEKTORPRODUKT UND SPATPRODUKT
33
(Zur Vereinfachung des Zählers haben wir
die Beispielrechnung im vorigen Abschnitt benutzt.) Da der
−
−
→
→
→
→
Winkel als spitz vorausgesetztwurde,
ist
x
y = −
x−
y , also die Formel für den Fall gezeigt. Für stumpfe
−
→
−
→
−
→
→
→
→
Winkel sieht man dann: cos ϕ x , y = − cos ϕ − x ,−
y , und
zwischen −−
x und −
y ist spitz,
der Winkel
−
→
−
→
−
→
−
→
−
→ −
−
x
y
xy
→
→
−
= − −
−
. Insgesamt: cos ϕ −
also mit dem bereits Bewiesenen: cos ϕ −→
x ,−
y = −
x
,
y
=
→
→
→
→
xy
−xy
−
→
→
→−
x−
y
−
.
− cos ϕ −−
x ,→
y = −
→
x →
y
Schließlich kannten wir für rechte Winkel das Resultat schon vorher: Dann ist das Skalarprodukt
Null.
→ −
→ −
→
→
Bemerkung: Der ’Cosinussatz’ besagt einfach: −
x−
y = cos ϕ −
x ,→
y −
x →
y . Er ergibt sich sofort.
→
→
cos ϕ −
Wenn man nun bereits als Wissen
voraussetzt,
dass
x ,−
y ≤ 1, so erhält man sofort die Schwarz−
−
−
→
−
→
→
→
sche Ungleichung, die besagt: x y ≤ x y . Das wollen wir aber nicht tun und stattdessen diese
Ungleichung im Geiste der Vektorrechnung beweisen sowie die Dreiecksungleichung für Beträge daraus
ableiten.
Das praktische Arbeiten erfordert noch die Winkelbestimmung selbst: Mit
Umkehrfunktion
arccos
der
−
−
−
x→
y|
|→
→
−
→
können wir aus dem Cosinuswert den Winkel ermitteln, bilden also arccos →
für ϕ x , y , den
−
y|
|−x ||→
→
→
Winkel zwischen −
x und −
y.
→
→
2.4. Schwarzsche Ungleichung und Dreiecksungleichung. Seien −
x ,−
y beliebige Vektoren aus
−
→
→
→
→
→
→
→
Rn , aber −
x = 0 . Wir zerlegen den Vektor −
y so: −
y = α−
x +−
u , wobei α−
x die senkrechte Projektion von
−
→
→
→
→
→
→
y auf −
x sei, daher −
u ⊥−
x , d.h. −
u−
x = 0. Wir berechnen
→2
→2 2 −
2
→
→
→
→
→
→
→
→
= −
x 2 α−
x +−
u =−
x 2 α2 −
x + 2α−
x−
u +−
u 2 = α2 −
x
+→
x 2−
u 2 . Andererseits
−
2
2
2
2
→
→
→
→
→
→
→
= −
x α−
x +−
u
= α−
x 2 = α2 −
x−
y
x2 .
→−
→ −
→−
2
→
→
→
→
Weil −
x 2−
u 2 ≥ 0, folgt −
x→
y
≤ −
x 2−
y 2 und mit Wurzelziehen: −
x→
y ≤ −
x →
y . Genau im Falle
→−
→ −
−
→
−
→
→
→
→
→
u = 0 , gleichwertig: −
x nicht parallel zu −
y , haben wir sogar −
x 2−
u 2 > 0, d.h. −
x→
y < −
x →
y . Wenn
−
→
−
→
x = 0 , so gilt die Ungleichung mit dem Gleichheitszeichen offenbar auch. Damit haben wir folgenden
Satz begründet:
→−
→ −
S 10 (Schwarzsche Ungleichung). Für beliebige Vektoren gilt −
x→
y ≤ −
x →
y , und Gleichheit
besteht genau im Falle der Parallelität der Vektoren (wobei wir den Nullvektor parallel zu jedem nennen).
→ −
2
→ −
→ −
Wir folgern die Dreiecksungleichung −
x +→
y ≤ −
x + →
y . Sie ist gleichwertig zu −
x +→
y ≤
−
2
2
2
→
→
→
→
→
→
→
→
→
→
→
→
→
→
−
x + −
y . Dies wiederum zu −
x +−
y ≤−
x 2 +−
y2 +2
x −
y . Aber −
x +−
y =−
x 2 +−
y 2 +2−
x−
y,
−
→
−
→
−
→
−
→
und nach der Schwarzschen Ungleichung ist 2 x y ≤2 x y .
→−
2
→
→
Der Term −
x 2−
y2 − −
x→
y
hat eine einfache geometrische Bedeutung: Er stellt den quadrierten
−
→
−
→
Flächeninhalt des von x , y aufgespannten Parallelogramms dar. Das kann man durch Anwenden der
senkrechten Projektion leicht ausrechnen.
3. Vektorprodukt und Spatprodukt
In den vorigen Abschnitten wurde zwar der Fall R3 bzw. V3 aus Gründen der Anschaulichkeit bevorzugt, aber sämtliche der dort behandelten Elemente funktionieren allgemein für Rn . In diesem Abschnitt
ist das anders: Es handelt sich um Konstruktionen, die ausschließlich in drei Dimensionen möglich sind.
Das Vektorprodukt hat mehrere unmittelbare physikalische Anwendungen, und wegen seiner Beziehung zur Elektrizitätslehre ist es auch besonders wichtig für Elektrotechniker. Es kommt in den Maxwellschen Gleichungen vor (in der Form des Differentialoperators rot (’Rotation’, vgl. Mathematik B) und in
→
einfacher Form bei der Beschreibung der Lorentzkraft, welche auf eine sich mit Geschwindigkeitsvektor −
v
bewegende Ladung q von einem Magnetfeld mit magnetischem Feldvektor B̃ ausgeübt wird. Diese Kraft
→
ist q −
v × B̃, das Vektorprodukt der beiden Vektoren. Wir geben nunmehr eine geometrische und anschließend eine algebraische Charakterisierung des Vektorproduktes, schließlich die Formel, mittels deren man
es in (kartesischen!) Koordinaten ausrechnen kann.
34
2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
−
→
→
D
7 (Geometrische Definition des Vektorprodukts). Es seien −
a , b Vektoren im V3 . Dann
−
→
→
ist −
a × b der Vektor, der eindeutig bestimmt ist durch:
−
→
−
→
−
→→
−
→−
→
−
→
→
→
→
a × b steht senkrecht auf −
a und auf b (also (−
a × b )−
a = (−
a × b ) b = 0.
→
−
→
→ −
→
(ii) −
a × b = Flächeninhalt des von −
a , b aufgespannten Parallelogramms.
−
→ → −
→
→
(iii) −
a, b,−
a × b bilden in dieser Reihenfolge ein Rechtssystem,
−
→
→
wenn −
a , b linear unabhängig sind.
(i)
Folgendes Bild veranschaulicht diese Eigenschaften:
a×
×b
|a×
×b|=|a||b|sin(α)
b
α
a
−
→ → −
→
→
Man beachte: −
a, b,−
a × b sind orientiert wie Daumen, Zeigefinger und Mittelfinger der rechten Hand,
−
→
−
→
→
→
oder: schraubt man eine Rechtsschraube von −
a nach b , so bohrt sie sich in Richtung −
a × b . Sehr
−
→
−
→
→
wichtig ist das folgende Cavalieri-Prinzip der Scherung:
man den Vektor b durch b + λ−
a,
Ersetzt −
−
→
→
−
→
−
→
−
→
so resultiert dasselbe Vektorprodukt, also a × b + λ a = a × b . Folgendes Bild illustriert diesen
Sachverhalt:
H=|b|sin(α)
S 11 (Algebraische Charakterisierung des Vektorprodukts). Das Vektorprodukt besitzt als Abbildung
× : V3 × V3 →
V3
−
→
−
→
−
→
−
→
a, b
→ a × b
die folgenden algebraischen Eigenschaften, und es ist durch diese Eigenschaften wiederum eindeutig be→
stimmt - die Vektoren −
e i , 1 ≤ i ≤ 3 sollen ein kartesisches System bilden, also alle Länge 1 haben und
3. VEKTORPRODUKT UND SPATPRODUKT
35
paarweise senkrecht aufeinander stehen und eine Rechtsschraube in ihrer angegebenen Reihenfolge bilden):
−
→ →
−
→ → −
−
→ → −
−
→ →
→
→
→
→
(i) −
a × b +−
c
= −
a × b +−
a ×→
c , ebenso −
a + b ×−
c =→
a ×−
c + b ×−
c
−
→ −
→
−
→
→
−
→
−
→
→
→
a × λb
= λ(−
a × b ),
ebenso λ−
a × b =λ −
a ×b .
−
→
−
→ →
−
→
(ii)
a × b = −( b × −
a)
−
→
−
→
−
→
−
→
→
→
→
→
→
(iii)
e 1 × e 2 = e 3, e 2 × −
e3 =−
e 1, −
e3×−
e1 =−
e2
Diese Eigenschaften bedeuten im Einzelnen: (i) : Bilinearität (vgl. Skalarprodukt, auch das ist bilinear),
d.h. Linearität in beiden Eingabeschlitzen. Tatächlich würde man hier wegen (ii) die Forderungen nach
’ebenso’ nicht brauchen. (ii) Antisymmetrie, (iii) Normierung: Mit (iii) und der Antisymmetrie weiß
man, was bei Eingabe von Basisvektoren herauskommt, die ein kartesisches Rechtssystem ergeben. Man
→
kann auch an R3 statt V3 denken und die Einheitvektoren −
e i im R3 (i. Komponente 1, alle anderen
Komponenten Null).
Wir wollen kurz einsehen, wie die in diesem Satz formulierten Eigenschaften (i) − (iii) aus den
geometrischen Eigenschaften der Definition folgen:
→ −
→ →
→ −
(ii) und (iii) sind unmittelbar klar: Nach geometrischer Definition gilt −
a × b = b ×−
a , und das
−
→ −
−
→
→
ist wegen der Eigenschaften des Betrags wiederum gleich − b × →
a . Ferner stehen die Vektoren −
a×b
−
→ →
−
→
−
→ → −
→ →
−
→→ −
→
→
→
und b × −
a senkrecht auf −
a , b . Damit b , −
a, b ×−
a ein Rechtssystem bildet ebenso wie −
a , b ,−
a × b,
−
→
−
→
−
→
→
→
→
muss also −
a × b = −( b × −
a ) gelten - bei linearer Abhängigkeit von −
a , b kommt auf beiden Seiten von
(ii) der Nullvektor heraus, also stimmt (ii) dann auch. (iii) folgt sofort aus der geometrischen Definition.
Ebenso einfach ist der zweite Teil von (i), der vom Anbringen eines Zahlfaktors handelt: Wenn
−
→
→
λ > 0, so vervielfacht sich der Flächeninhalt des von −
a , b aufgespannten Parallelogramms mit λ, wenn
−
→
→
man zu −
a , λ b übergeht, weiter sind die Parallelogramme parallel. Außerdem
ändert sich nichts an der
−
→
−
→
→
→
Orientierung, also muss nach geometrischer Definition −
a ×λb = λ −
a × b gelten. Für λ < 0 kommt
eine Orientierungsumkehr hinzu, also dasselbe Resultat. Bei λ = 0 kommt klar auf beiden Seiten der
Nullvektor heraus.
−
→ →
→
Wir kommen zum ersten Teil von (i) , welcher ein wenig schwerer einzusehen ist: −
a × b +−
c =
−
→ −
−
→
−
→
→
−
→
−
→
a × b + a × c . Mittels der senkrechten Prokektion zerlegen wir b und c je in einen Vektor senkrecht
−
→
−
→ −
→ →
→
→
→
→
→
→
→
→
zu −
a und einen Vektor parallel zu −
a : b = λ−
a+b , b · −
a = 0, −
c = µ−
a +−
c ,−
c ·−
a = 0. Dann
1
haben wir
1
1
1
−
→ →
−
→
−
→
→
→
→
a × b +−
c
= −
a × (λ + µ) −
a + b1 +−
c1
−
→
→
→
= −
a × b1 +−
c 1 (nach dem Cavalieri-Prinzip der Scherung!)
−
→
→
→
→
= −
a×b1 +−
a ×−
c 1 (geometrisch einzusehen!)
−
→
−
→
−
→
−
→
= a × b + a × c (wieder mit Scherung)
Nunmehr ist es ganz einfach, aus den algebraischen Eigenschaften der Vektorproduktes die folgende
Berechnungsformel in kartesischen Koordinaten herzuleiten:
S 12 (Berechnungsformel für das Vektorprodukt in Koordinaten). Es gilt
 
 


x1
y1
x2 y3 − x3 y2
 x2  ×  y2  =  − (x1 y3 − x3 y1 )  .
x3
y3
x1 y2 − x2 y1
Merkregel zur Anwendung: Um die i. Komponente des Vektorproduktes auszurechnen, streiche die i. Zeile links und berechne vom verbleibenden (2 × 2) − Zahlenschema (bzw. von dieser (2 × 2) − Matrix) die
Determinante als Produkt der Hauptdiagonalen (von links oben nach rechts unten) minus Produkt der
Nebendiagonalen. Aber: Füge für die zweite Komponente ein negatives Vorzeichen an.
Hinweis: Man kontolliere stets, ob der ausgerechnete Vektor Skalarprodukt Null mit beiden Eingabevektoren ergibt. Das ist sehr schnell und sicher.
36
2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE
Beweis: Mit den Eigenschaften des vorigen Satzes haben wir:
−
→
→
→
→
→
x1 →
e 1 + x2 −
e 2 + x3 −
e 3 × y1 −
e 1 + y2 −
e 2 + y3 −
e3
→
→
→
→
e 2 + x1 y3 −
e3
= x1 y2 −
e1×−
e1×−
−
→
→
−
→
−
→
+x2 y1 e 2 × e 1 + x2 y3 e 2 × −
e3
→
→
→
→
e3×−
e3×−
+x3 y1 −
e 1 + x3 y2 −
e2
−
→
→
→
(x1 y2 − x2 y1 ) e 3 + (− (x1 y3 − x3 y1 )) −
e 2 + (x2 y3 − x3 y2 ) −
e 1.
Für das erste Gleichheitszeichen: Nutze das Distributivgesetz, das Vorziehen von Zahlfaktoren und die
−
→
−
→ →
−
→
→
→
→
e i = 0 , die sofort aus −
a × b = −b × −
a folgt. Für das zweite Gleichheitszeichen:
Tatsache −
ei ×−
→
→
→
→
→
→
Nutze (iii) und die sich daraus mit (ii) ergebenden Tatsachen: −
e2×−
e 1 = −−
e 3, −
e1 ×−
e 3 = −−
e 2,
−
→
−
→
−
→
e 3 × e 2 = − e 1.
Rechenbeispiel:

 
 

2
1
1
 −3  ×  2  =  10  .
4
−3
7
Man rechnet für die erste Komponente: (−3) (−3) − 4 · 2 = 1, für die zweite: 2 (−3) − 4 · 1 = −10, nun
negatives Vorzeichen anbringen: Resultat 10. Dritte Komponente: 2 · 2 − (−3) · 1 = 7.
Kontrolle:

 


 

2
1
1
1
 −3  ·  10  = 0,  2  ·  10  = 0.
4
7
−3
7
Abschließend noch ein Beispiel für das abstrakte Rechnen mit Vektorprodukten gemäß den algebraischen
Eigenschaften:
−
→ →
−
→
−
→
−
→ →
−
→
→
→
→
3−
a − b × −2−
a + 5 b = 15−
a ×b −2b ×−
a = 17−
a × b.
3.1. Das Spatprodukt. Aus dem Skalarprodukt und dem Vektorprodukt kann man (nur für V3
bzw. R3 (!)) folgendes Spatprodukt machen:
D
8. Das Spatprodukt ist die Abbildung
[] : R3 × R3 × R3
−
→
−
→
→
a , b ,−
c
→
−
R
→ −
−
→→ .
−
→
→
→
→
a b × c = [−
a , b ,−
c]
−
→ →
→
S 13. Das Spatprodukt hat folgende geometrische Deutung: −
a b ×−
c ist das Volumen des Spa−
→−
−
→
→
tes (Schiefquaders), der von den Vektoren a , b , c aufgespannt wird, versehen mit einem Vorzeichen
−
→→
→
für die Orientierung des Systems −
a , b ,−
c . (Bei Rechtssystemen kommt eine positive Zahl heraus, bei
−
→→
→
Linkssystemen eine negative, bei linear abhängigen Vektoren −
a , b ,−
c (d.h. wenn einer sich als Linear-
kombination der beiden anderen darstellen lässt, so dass der Spat degeneriert) kommt Null heraus.
−
→
→
Wir wollen das kurz einsehen: betrachten wir das von b und −
c aufgespannte Parallelogramm als
→
’Grundfläche’, dann ist die ’Höhe’ des Spats darzustellen durch die senkrechte Projektion von −
a auf
−
→ −
→
b × c , also gemäß ’Volumen gleich Grundflächeninhalt mal Höhenlänge’:
−
−
−
→ −
−
→ −
→
→
→
→
−
−
−
a
b
×
c
a
b
×
c
−
→ −
→ → → → −
→ −
→ → −
V = b ×−
c· b ×→
c = b ×−
c· b ×→
c = −
a b ×→
c .
2
2
→ −
−
→
−
→
b ×→
c
b ×−
c −
→→
−
→ →
→
→
Ferner
ist −
a, b ,−
c genau dann ein Rechtssystem, wenn der Winkel zwischen −
a und b × −
c spitz ist, d.h.
−
→ −
−
→
→
a b × c > 0. Wir kommen zu den algebraischen Eigenschaften des Spatprodukts (ähnlicher Vorgang
wie beim Vektorprodukt!):
3. VEKTORPRODUKT UND SPATPRODUKT
37
S 14. Das Spatprodukt hat folgende algebraischen Eigenschaften:
(i) Es ist dreifach (in allen drei Eingabeschlitzen) linear.
(ii) Das Vorzeichen kehrt sich um, wenn man zwei der drei Vektoren vertauscht.
→
→
→
e2×−
(iii) −
e1 −
e3 = 1
→−
−
→−
→
Bemerkung: (ii) kann man in Verbindung
mit
−
(i) auch so ausdrücken: Sind zwei der drei Vektoren a , b , c
→
→
→
gleich, so wird das Spatprodukt −
a b ×−
c Null.
Durch diese algebraischen Eigenschaften ist das Spatprodukt wiederum eindeutig bestimmt.
Bemerkung: Die Definition des Spatproduktes war beschränkt auf den Fall der Dimension 3, aber
die algebraischen Eigenschaften dieses Satzes lassen sich sofort auf n Vektoren im Rn bzw. die (n × n) −
Matrix ihrer Komponenten verallgemeinern. Das ergibt dann die Determinante der Matrix, die wiederum
die analoge geometrische Deutung besitzt: n− dimensionales Spatvolumen mit Orientierungsvorzeichen.
Analog zum Vektorprodukt ergibt sich daraus bereits eindeutig, wie man eine Determinante berechnen
muss!
Wir verzichten auf eine Begründung des letzten Satzes, die aus der Berechnungsvorschrift in jedem
Stück simpel nachzurechnen wäre. Stattdessen möchten wir darauf aufmerksam machen welche elementaren Rechnungen koordinatenfrei auszuführen sind mit großer Leichtigkeit. Dafür ein Beispiel:
−
→
−
→ →
→
→
→
→
(2−
a + 3 b − 4−
c ) −2−
a + 3 b × 4−
a + 2−
c
−
−
−
→ → −
→ →
→ →
→
→
= 2 · 3 · 2−
a b ×−
c + 3 (−2) 2 b −
a ×→
c + (−4) 3 · 4−
c b ×−
a
−
→
→
→
= 72−
a b ×−
c
Was man zu tun hat: Nur distributiv rechnen ’jeder mit jedem’, jeden Term mit Vektorwiederholung
fortlassen, Faktoren vorziehen, am Ende benutzen, dass
−
→ →
−
→
−
→ → −
−
→
→
→
a b ×−
c = −
c −
a ×b = b −
c ×→
a
−
−
→ → −
→ →
→
→
→
= −b −
a ×→
c = −−
c b ×−
a = −−
a −
c × 5b .
(Die zyklischen Permutationen ändern das Vorzeichen nicht, weil sie aus zwei Austauschschritten bestehen, die ’antizyklischen’ ändern das Vorzeichen.)
KAPITEL 3
Komplexe Zahlen
Bisher haben wir Zahlkörper gesehen wie Q, R, auf der anderen Seite Vektorräume über R wie insbesondere R2 , R3 . In Vektorräumen konnte man rechnen wie in Körpern, nur eben nie durch Vektoren
dividieren - Skalarprodukt und Veltorprodukt eignen sich in keiner Weise für eine Division, da die Ab−
→
−
→
−
→
→
→
→
→
bildungen −
a −→ −
a · b sowie −
a −→ −
a × b auch im Falle b = 0 nicht umkehrbar sind. Aber es gibt
auf R2 (das ist eine große Ausnahme!) eine Körperstruktur (natürlich muss dabei eine Multiplikation im
Spiel sein, die nichts mit dem Skalarprodukt zu tun hat), die sehr wichtig ist und in natürlicher Weise die
Körperstruktur von R erweitert. Sie war ursprünglich stark innermathematisch motiviert, soch es zeigte
sich schnell eine überragende Bedeutung für naturwissenschaftliche Anwendungen, vor allem in Physik
und Elektrotechnik.
1. Motivierungen
√
Man verwendet die Lösungsformel für quadratische Gleichungen und bekommt bei Bildung von a,
a < 0, keine Lösung in R. Denn Quadrate in R sind stets ≥ 0. So führte man ’imaginäre’ Zahlen ein,
’bloß gedachte’, deren Existenz längere Zeit ein wenig unheimlich war, bemerkte, dass man mit einer
einzigen Zahl j auskam, welche die Eigenschaft haben sollte: j 2 = −1. (In Mathematik und Physik ist die
Bezeichnung ’i’, in der Elektrotechnik
’j’, weil√ man Ströme mit i, I bezeichnet.) Nun überlegt man für
√
alle reellen Zahlen a > 0: −a = (−1) a = aj. Mit j kann man also aus allen negativen Zahlen eine
√
2
Wurzel ziehen, genau genommen stets zwei, weil auch ( a (−j)) = −a. Weitere Untersuchung zeigte
dann, dass alles Gewünschte mit j im Verein mit den reellen Zahlen funktionierte und dass man die
mulmige Frage nach der Existenz mit Gaußscher Konstruktion ohne weiteres klären konnte. (Vgl. den
nächsten Abschnitt.)
Elektrotechnische Motivation: Man stößt darauf, dass ein Wechselstrom durch einen Betrag und
einen Phasenwinkel zu beschreiben ist, und gerade dafür sind komplexe Zahlen geeignet. Außerdem stellt
sich die Frage, wie man das überaus praktische Ohmsche Gesetz (Spannungsabfall gleich Widerstand
mal Stromstärke) retten kann bei Wechselströmen. Mit reeller Rechnung gelingt dies nicht, weil die
Ableitung einer Sinus- oder Cosinusfunktion auf eine Phasenverschiebung hinausläuft. Aber die komplexe
Exponentialfunktion erreicht das Ziel, allerdings hat man komplexe Werte für induktive und kapazitive
1
Widerstände zu setzen, jωL für den Widerstand einer Spule und jωC
für den eines Kondensators (ω ist
dabei die Kreisfrequenz).
2. Konstruktion des Körpers (C, +, ·, 0, 1)
Man möchte nicht einfach nur die neue Zahl j haben, sondern eine Erweiterung von R, die wieder
einen Körper bildet, in der also die Körperaxiome gelten. Man visiert nun den Bereich aller Zahlen x + jy
mit x, y ∈ R an. Diese Zahlen muss der neue Körper jedenfalls enthalten, damit in ihm unbeschränkt
Addition und Multiplikation ausführbar sind. Da die Rechengesetze von (R, +, ·, 0, 1) weiterhin gelten
sollen und j 2 = −1, sind bereits folgende Regeln für Addition und Multiplikation erzwungen:
(a + jb) + (c + jd) = a + c + j (b + d)
(a + jb) (c + jd) = ac − bd + j (ad + bc) .
Addition und Multiplikation führen offenbar aus unserem Minimalbereich der Zahlen x + jy nicht hinaus.
Aber es ist zunächst nicht klar, ob auch die Kehrwerte der Zahlen = 0 darin aufzufinden sind. Es zeigt
sich jedoch, dass dies der Fall ist. Dazu nehmen wir zunächst an, zu a + jb = 0, d.h. a = 0 oder b = 0,
39
40
3. KOM PLEXE ZAHLEN
a, b ∈ R, hätten wir einen Kehrwert, und schauen nach, wie er dann in der Form x + jy aussehen müsste:
1
1
−b
a − jb
1 − jb
=
= 2
= 2
+j 2
.
a + jb
(a + jb) (a − jb)
a + b2
a + b2
a + b2
1
−b
1
Nun drehen wir den Spieß um und erklären die Zahl a2 +b
2 + j a2 +b2 als a+jb , zeigen mit derselben Rech1
nung andersherum, dass tatsächlich damit a+jb (a + jb) = 1 = 1 + j0 gilt. Das war der kritische Punkt.
(Hinweis zur Rechnung: Man sollte den ersten Schritt stets überspringen und wissen, dass das Betragsquadrat von a+jb (als Vektor aus R2 aufgefasst) herauskommt.) Alle anderen Körper-Rechengesetze sind
nur auf langweilige Art nachzuprüfen, ohne jede Schwierigkeit. Wir fassen das Ganze zu einer Definition
und einem Satz zusammen:
D
9. Die Struktur (C, +, ·, 0, 1) ist folgendermaßen definiert:
C
0
1
(a + jb) + (c + jd)
(a + jb) (c + jd)
:
:
:
:
:
= { x + jy| x, y ∈ R}
= 0 + j0
= 1 + j0
= a + c + j (b + d)
= (ac − bd) + j (bc + ad) .
S 15. (C, +, ·, 0, 1) bildet einen Körper, erfüllt also alle Körperaxiome.
Bemerkung: Man kann den Körper (C, +, ·, 0, 1) nicht wie R anordnen, so dass zusätzlich die Ordnungsaxiome gelten, die eine Harmonie zwischen Ordnung und +, · darstellen. Das ergibt sich daraus,
dass in einem angeordneten Körper die Zahl 1 positiv sein muss, die Zahl −1 negativ, aber auch jede
Quadratzahl positiv oder Null sein muss. Aber in C sind sowohl 1 als auch −1 Quadratzahlen. Daher
kann der Körper C nicht zu einem angeordneten Körper gemacht werden.
Das ist so weit ein rundes Resultat. Aber es ist wichtig, die komplexen Zahlen
auch anschaulich zu
a
begreifen. Dazu identifizieren wir die Zahl z = a + jb mit dem Zahlenpaar
∈ R2 und verstehen
b
dies Zahlenpaar wiederum als kartesisches Koordinatenpaar eines Ortsvektors (’Zeigers’). Insbesondere
übernehmen wir den Betrag vom R2 mit
|a + jb| := a2 + b2 .
Die kartesischen Koordinaten a, b von z = a + jb heißen:
Re (a + jb) : = a (’Realteil von z = a + jb’,
Im (a + jb) : = b (’Imaginärteil von z = a + jb’) - Achtung: b, nicht etwa jb (!)
Da sich bei der Addition von komplexen Zahlen einfach die Realteile und die Imaginärteile addieren,
haben wir die anschauliche Deutung der Addition:
Die Addition der komplexen Zahlen ist die Vektoraddition von Ortsvektoren.
Wir heben die bereits oben in der Inversenbildung wichtig gewordene Bildung a + jb → a − jb hervor
mit folgender Definition und anschließendem Satz:
D
10 (komplexe Konjugation). Folgende Abbildung heißt komplexe Konjugation:
:
C
→
C
.
a + jb → a − jb
Anschaulich ist das die Spiegelung an der reellen Achse.
S 16. Die Konjugation ist ein Körperautomorphismus von C, der R festlässt, d.h. ein Körperisomorphismus von C auf sich selbst, so dass also z1 + z2 = z1 + z 2 und z1 · z2 = z1 · z 2 und z = z für
z ∈ R.
Das prüft man sofort durch Rechnung nach. Außerdem merke man sich:
zz = |z|2 .
2. KONSTRUKTION DES KÖRPERS (C, +, ·, 0, 1)
41
Folgendes Bild zeigt, was man von komplexen Zahlen in kartesischen Koordinaten verstehen sollte:
Im
z=a+jb=cos(x)+jsin(x)
cos(x)
Einheitskreis
sin(x)
j
x
1
Re
Konjugierte a-jb von z
Die Zahl 1 ist einfach der Zeiger mit Winkel α = 0 und Betrag 1, also der Einheitsvektor in Richtung der
reellen Achse, die Zahl j der Zeiger mit Winkel π2 und Betrag 1, also der Einheitsvektor in Richtung der
imaginären Achse.
Wie wir sahen, kann man in C zu jeder negativen reellen Zahl zwei Quadratwurzeln bestimmen.
Offene Frage ist zunächst, ob man auch aus komplexen Zahlen in C wieder Quadratwurzeln findet. Man
rechnet mit etwas Mühe nach, dass dies möglich ist. Noch viel allgemeiner ist die Frage, ob jedes Polynom
n
p (x) =
ck xk mit ck ∈ C vom Grad n ≥ 1 wenigstens eine Nullstelle hat. Dazu hat man folgendes
k=0
Resultat, dessen Beweis bei weitem die uns zuhandenen Möglichkeiten übersteigt, das mit seinen günstigen
Konsequenzen aber zu wissen nützlich ist:
S 17 (’Fundamentalsatz der Algebra’). Der Körper (C, +, ·, 0, 1) ist algebraisch abgeschlossen,
n
das heißt jedes Polynom p (x) =
ck xk mit ck ∈ C vom Grad n ≥ 1 hat wenigstens eine Nullstelle.
k=0
Gleichwertig: Jedes solche Polynom ist in lineare Polynome (’Linearfaktoren’) zerlegbar. Oder auch: Jedes Polynom mit komplexen Koeffizienten vom Grade n ≥ 1 hat genau n Nullstellen (wobei einige als
mehrfache auftreten können).
n
F
2. Jedes Polynom p (x) =
ak xk mit ak ∈ R vom Grade n ≥ 1 (mit reellen Koeffizik=0
enten also) zerfällt in ein Produkt von Polynomen mit reellen Koeffizienten, die alle Linearfaktoren sind
oder quadratische Polynome ohne reelle Nullstellen.
Wir beweisen die Folgerung aus dem Satz über folgenden Hilfssatz:
n
L 1. Wenn p (x) =
ak xk mit ak ∈ R eine Nullstelle z = a + jb ∈ C besitzt, so ist auch z =
k=0
a − jb eine Nullstelle von p. Oder: Die Nullstellen von p treten stets paarweise konjugiert auf.
Beweis: p (z) =
n
k=0
ak z k =
n
ak z k =
k=0
n
k=0
ak z k =
n
k=0
ak z k =
n
ak z k = p (z) = 0 = 0. Dabei
k=0
nutzen wir nur die zuvor festgestellte Eigenschaft der Konjugation als Körperautomorphismus von C, der
R festlässt.
Mit dem Hilfssatz ist die Folgerung klar aus dem Fundamentalsatz der Algebra: Nach dem Fundan
mentalsatz der Algebra zerfällt p (x) =
ak xk mit ak ∈ R in einen Zahlfaktor und Faktoren der Form
k=0
x − z, z Nullstelle von p. Wenn z ∈ R, so ist das ein reeller Linearfaktor. Wenn z ∈ C \ R, sagen wir
z = a + jb, b = 0, so hat man mit dem Hilfssatz eine zweite Nullstelle z, also die Faktoren
(x − z) (x − z) = x2 − (z + z) x + zz = x2 − 2a + a2 + b2 .
42
3. KOM PLEXE ZAHLEN
Das ergibt einen der versprochenen quadratischen Faktoren mit reellen Koeffizienten.
3. Beispiele zum kartesischen Rechnen mit komplexen Zahlen
1.) Einfaches Ausrechnen von Termen:
2 − 3j
=
4 + 5j
2 − 3j
=
4 + 5j
2 − 3j 4 + 5j =
(2 − 3j) (4 − 5j)
−7 − 22j
=
.
41
41
2 − 3j
−7 + 22j
2 + 3j
=
=
4 − 5j
41
4 + 5j
√
|2 − 3j|
13
=√ .
|4 + 5j|
41
2.) Lösen einfacher Gleichungen: 2+3zj
4−z = 1 + j, Solution is: z =
⇐⇒
⇐⇒
⇐⇒
18
17
−
4
17 j
2 + 3zj
= 1+j
4−z
2 + 3zj = (1 + j) (4 − z)
z (3j + 1 + j) = 2 + 4j
2 + 4j
(2 + 4j) (1 − 4j)
18
4
z=
=
=
− j.
1 + 4j
17
17 17
3.) Quadratwurzeln einer komplexen Zahl a + jb :
⇐⇒
⇐⇒
mit ε
=
(x + jy)2 = a + jb (gesucht : x, y)
x2 + y2 = a2 + b2 ∧ x2 − y 2 = a ∧ 2xy = b
%
%
1
1 2
1
1 2
2
x=±
a+
a +b ∧y =ε − a+
a + b2 ,
2
2
2
2
± für b ≥ 0 und ε = ∓ für b < 0.
Beispiel: Die beiden Quadratwurzeln aus 1 + j sind:
%
%
1 1√
1 1√
+
2+j − +
2,
2 2
2 2
%
%
1 1√
1 1√
−
+
2−j − +
2.
2 2
2 2
Die beiden Quadratwurzeln aus 1 − j sind:
%
%
1 1√
1 1√
+
2−j − +
2,
2 2
2 2
%
%
1 1√
1 1√
−
+
2+j − +
2.
2 2
2 2
3. BEISPIELE ZUM KARTESISCHEN RECHNEN M IT KOMPLEXEN ZAHLEN
43
A
1
3.) Wir lösen eine quadratische Gleichung in C:
z 2 + (1 + j) z − 3 + j
z1,2
z1
z2
= 0, Lösungsformel ergibt:
1+j 1
±
= −
(1 + j)2 + 12 − 4j
2
2
1 + j 1
12 − 2j
= −
±
2
2
%
%
1+j 1
1√
1√
= −
±
6+
148 − j −6 +
148 ,
2
2
2
2
%
%
1 1
1√
1 1
1√
= − +
6+
148 + j − −
−6 +
148 ,
2 2
2
2 2
2
%
%
1 1
1√
1 1
1√
= − −
6+
148 + j − +
−6 +
148 .
2 2
2
2 2
2
4.) Wir lösen ein lineares Gleichungssystem in komplexen Koeffizienten. Dazu nehmen wir die Maschengleichungen zu folgendem Wechselstromnetz:Dabei laufen die Maschenströme I1 , I2 für beide Maschen im je angezeigten Drehsinn. U ist eine Wechselspannung, R ein Ohmscher Widerstand, L eine Spule
mit Induktivität L, C ein Kondensator mit Kapazität C. Mit den komplexen Widerständen jωL für die
1
Spule und jωC
für den Kondensator lauten die Maschengleichungen:
1
R+
I1 + RI2 = U
jωC
RI1 + (R + jωL)I2 = 0.
Multiplikation der ersten Zeile mit jωC ergibt folgendes System:
(1 + jωRC) I1 + jωRCI2
RI1 + (R + jωL)I2
= jωCU
= 0.
Dies ist ein lineares Gleichungssystem, nur in komplexen Koeffizienten. I1 , I2 sind die Unbestimmten, alle
weiteren Buchstaben stellen äußere Parameter dar. 1. Zeile mal R minus 2. Zeile mal jωRC + 1 ergibt
dann:
jωR2 C − (R + jωL) (1 + jωRC) I2 = jωRCU, also
−ωL + jR ω 2 CL − 1
jωCRU
I2 =
= ωCRU
Rω2 CL − R − jωL
(Rω 2 CL − R)2 + ω 2 L2
Man beachte den viel sparenden Schritt, alle reellen Faktoren und U (hier ωCRU ) hinauszusetzen und
das schwerfällige reelle Quadrat im Nenner nicht etwa auszumultiplizieren. Nunmehr kann man leicht
44
3. KOM PLEXE ZAHLEN
mittels der zweiten Zeile I1 ausrechnen:
(R + jωL) −ωL + jR ω 2 CL − 1
(R + jωL)I2
I1 = −
= −ωCU
2
R
(Rω 2 CL − R) + ω 2 L2
−ω3 RL2 C + j R2 ω 2 CL − 1 − ω2 L2
= −ωCU
2
(Rω2 CL − R) + ω 2 L2
ω3 RL2 C + j ω2 L2 − R2 ω 2 CL − 1
= ωCU
2
(Rω2 CL − R) + ω 2 L2
In komplizierteren Fällen als diesem ist manchmal eine weitere Elimination anstelle des Einsetzens
zum Berechnen der zweiten Unbestimmten günstiger.
4. Polarkoordinatendarstellung komplexer Zahlen
Wir konnten in kartesischen Koordinaten zwar ein Produkt von Zahlen ausrechnen, auch einen Quotienten, aber eine anschauliche Deutung dieser Operationen fehlte. Sie gelingt dagegen leicht mit Polarkoordinaten. Andererseits werden wir auf die so überaus für die Elektrotechnik praktische Kombination
von cos, sin in der komplexen Exponentialfunktion geführt.
D
11 (Polarkoordinatendarstellung komplexer Zahlen). Eine komplexe Zahl z lässt sich
eindeutig beschreiben durch ihre Polarkoordinaten
r
arg (z)
:
:
Schreibweise :
Also definieren wir
Man merke sich
:
:
= |z| und
= der Winkel α ∈ [0, 2π), so dass z = r cos (α) + jr sin (α)
z = r (cos (α) + j sin (α)) = rejα .
ejα := cos (α) + j sin (α) .
ejα ist die Zahl auf dem Einheitskreis mit dem Winkel α.
S 18. Es gilt
ejα ejβ = ej(α+β) . Also hat man
jα jβ rejα
re
se
= rsej(α+β) und jβ =
se
Beweis:
eja ejβ
für Multiplikation und Division komplexer Zahlen:
r j(α−β)
(s = 0)
e
s
= (cos (α) + j sin (α)) (cos (β) + j sin (β))
= cos (α) cos (β) − sin (α) sin (β) + j (sin (α) cos (β) + cos (α) sin (β))
= cos (α + β) + j sin (α + β) (Additionstheoreme für cos, sin (!)
= ej(α+β) .
Die zweite Aussage versteht sich sofort daraus, die dritte folgt so: sejβ rs ej(α−β) = rejα . Also
r j(α−β)
. - Eine Begründung der Additionstheoreme werden wir noch über Drehmatrizen geben.
se
Bemerkung: In Mathematik B werden wir genauer sehen, dass
rejα
sejβ
=
f (a + jb) = ea+jb = ea (cos (b) + j sin (b))
tatsächlich die Fortsetzung der Exponentialfunktion ins Komplexe darstellt. Wir halten aber schon einmal
fest, dass wir mit ejz ganz ’normales’ Rechnen mit Exponenten betreiben können. Mit anderen Worten:
Wir haben das lästige Rechnen mit cos, sin im Rechnen mit der komplexen Exponentialfunktion aufgehen
lassen. Die kurze und sehr einfache Formel ej(α+β) = ejα ejβ umfasst beide Additionstheoreme!
S 19 (Potenzieren und Wurzelziehen mit Polarkoordinaten). Wir haben für n ∈ N0 :
jα n
= rn ejnα ,
re
Alle n − ten Wurzeln von z = rejα sind :
√
α+2kπ
n
rej n , k = 0, ..., n − 1. (r ≥ 0 ist vorausgesetzt!)
Jede komplexe Zahl z = 0 hat also genau n verschiedene Wurzeln, und diese gehen durch fortgesetzte
Drehung um den Winkel 2π/n auseinander hervor.
4. POLARKOORDINATENDARSTELLUNG KOMPLEXER ZAHLEN
45
erste Aussage folgt sofort aus dem vorigen Satz über die Multiplikation. Die zweite:
√ Beweis:
Die
n
j α+2kπ
n
n
re
= rej(α+2kπ) = rejα . (Addition eines Winkels 2kπ mit ganzer Zahl k bedeutet Drehen
mit einem Vielfachen des Vollwinkels, es resultiert also dieselbe Zahl.) Andererseits sind die Wurzeln
√
α+2kπ
n
rej n für verschiedene Werte k1 , k2 ∈ {0, ...n − 1} auch wirklich verschieden, da der Betrag ihres
Winkelunterschiedes gerade 2|k1n−k2 | π < 2π ist.
Zur Umwandlung von kartesischen in Polarkoordinaten und umgekehrt hat man folgende Formeln:
Eindeutige Umwandlung von z = a + jb = 0 in z = rejα :
r = a2 + b2

a>0
arctan ab , wenn



π + arctan ab , wenn a < 0
α =
π
, wenn a = 0 und b > 0


 2π
− 2 , wenn a = 0 und b < 0
Alternative Berechnung des Winkels :

 arccos √ a
, wenn b ≥ 0
a2 +b2 α =
 − arccos √ 2a 2 , wenn b ≤ 0
a +b
Bemerkung: Für a = b = 0, also z = 0, hat man keine eindeutige Winkelbestimmung.
Die Umwandlung in der anderen Richtung ist einfacher:
z = rejα , dann z = r cos (α) + jr sin (α) .
Hier ist eine Tabelle der Sinus- und Cosinuswerte besonders einfacher Winkel, so dass man die kartesischen Koordinaten zu komplexen Zahlen mit diesen Winkeln exakt ausrechnen kann:
Winkel α
sin (α)
cos (α)
1
2
π
6
1
2
√
π
4
√
1
2 √2
1
2 2
3
π
1
2
3
√
3
1
2
√
√
√
Beispiele: 2e−7jπ/4 = 2ejπ/4 = 2 +j 2, 3e−2jπ/3 = − 32 − 32 j 3. (Für die anderen Quadranten muss
man lediglich noch auf die Vorzeichen von sin, cos achten.
Zur Veranschaulichung von Polarkoordinaten betrachte man noch einmal dies Bild:
z=re jx
Quadratwurzel von z
x
z=re -jx
√
√
Dabei ist x im gezeichneten Beispiel 3π
2, also ist 4 2e3jπ/8 eine der beiden Quadratwurzeln von
4 , r =
√ 3jπ/4
. Man beachte, dass die Konjugierte von rejα einfach re−jα ist. Folgendes Bild zeigt alle
z = 2e
fünften Wurzeln einer komplexen Zahl:
46
3. KOM PLEXE ZAHLEN
z
Rot: Alle 5. Wurzeln von z
KAPITEL 4
Reelle Funktionen
Wir verstehen unter diesem Titel Funktionen D → R, mit einer Teilmenge D ⊂ R. D kann alle reellen
Zahlen umfassen, aber auch endlich oder unendlich viele reelle Zahlen auslassen. Oft ist D ein Intervall.
Es geht beim Thema dieser Funktionen um folgende Gesichtspunkte:
- Funktionen beschreiben unmittelbar naturwissenschaftliche Vorgänge, etwa s(t) = 12 gt2 den
beim freien Fall ohne Luftreibung und mit konstanter Beschleunigung g zurückgelegten Weg,
oder U (t) = A sin (ωt + ϕ) einen zeitlichen Spannungsverlauf (wieder ist t die unabhängige
Variable, A, ω, ϕ sind äußere Parameter).
- Funktionen haben Rechenausdrücke und Graphen, deren Zusammenspiel viel zum Verständnis
beiträgt, Rechnen und Anschauen.
- Es gibt für die naturwissenschaftliche Beschreibung außerordentlich bedeutsame Funktionen
wie Sinusfunktion und Exponentialfunktion und damit verwandte, die man als Grundbausteine verwendet, um kompliziertere zusammenzubauen, wie man sie braucht. Der Zusammenbau
geschieht mit arithmetischen Operationen (Addition, Multiplikation usw) sowie Hintereinanderschaltung. Die Eigenschaften der Grundbausteine wirken sich auf die Zusammensetzungen
aus; daher sollte man sowohl die Eigenschaften der Grundfunktionen gut kennen als auch die
Übertragung von Eigenschaften durch das Zusammensetzen.
- Nicht nur die algebraischen Eigenschaften der Struktur der rellen Zahlen mit +, · spielt eine
Rolle, sondern auch die topologische Struktur, also ’Nachbarschaft’, ’Grenzwert’: Man kann
komplizierte reelle Zahlen nur näherungsweise darstellen, erst recht die Werte komplizierter
Funktionen. Methoden der Näherung spielen daher eine überragende Bedeutung, und sie müssen ausgebaut werden. Das reicht vom Grenzwertbegriff bei Folgen, Reihen, Funktionen bis zu
Näherungen beliebiger Ordnung (und Qualität) für Funktionswerte. Insbesondere ist der Zusammenhang zwischen Ableitungen und Näherungen zu sehen.
- Das Ableiten und elementare Integrieren müssen als Grundtechniken gut beherrscht werden,
aber auch im Blick auf die vielfältigen Anwendungen verstanden.
- Es werden zwei kleine Ausblicke ins Mehrdimensionale getan, an den für die anderen Fächer
besonders dringlichen Stellen: Kurven und Skalarfelder sind besonders wichtige beschreibende
Funktionentypen. Kurven: Zum Beispiel ordnet man bei einer Bewegung im dreidimensionalen
Raum einem Zeitpunkt t den Ort eines Teilchens zur Zeit t zu, t → x (t) , in Koordinaten ist
das eine Abbildung R → R3 oder etwa [t1 , t2 ] → R3 . Die Ableitung ergibt hier die vektorielle
Geschwindigkeit, die zweite Ableitung die vektorielle Beschleunigung. Beides ist einfach herzustellen. Skalarfelder: Man ordnet etwa jedem Raumpunkt die dort herrschende Temperatur zu,
dann hat man in Koordinaten eine Abbildung D → R mit D ⊂ R3 . Ein fundamentaler Begriff
ist der des Gradienten bei einem Skalarfeld - das ist aber nun gerade die Ableitung. Man wird
bei dieser ersten Einführung bemerken, wie wichtig der eindimensionale Fall als Grundbaustein
ist.
Wir beginnen mit den Grundfunktionen und ein paar nützlichen Hinweisen darauf, was man aus den
Eigenschaften der Bausteine von Funktionen über die Eigenschaften der Zusammensetzungen schließen
kann. Auch werden die Eigenschaften definiert, nach denen es gewöhnlich zu fragen lohnt. Dann folgt die
vertiefte Behandlung über den Grenzwertbegriff, die Ableitung und das Integral. Das Integral selbst wird
nicht in Breite und Tiefe behandelt - eine gründlichere Besprechung folgt in Mathematik B.
Vorbemerkung: Bei der Vorstellung der Grundfunktionen werden wir manchmal so etwas sagen wie:
’f (x) geht gegen b für x gegen a’ (symbolisch: limx→a f (x) = b) oder auch ’Stetigkeit’, ’Ableitung’
47
48
4. REELLE FUNKTIONEN
erwähnen. Diese Dinge werden im nächsten Abschnitt (’Grenzwerte bei Funktionen, Stetigkeit’) genau
besprochen.
Zunächst stellen wir einige besondere Eigenschaften reeller Funktionen vor, für die man sich allgemein
interessiert.
1. Besondere Eigenschaften reeller Funktionen
Eine erste Abteilung von Begriffen erfasst die Standard-Symmetrien:
D
12 (Symmetrien). Eine Funktion f : D → R mit Definitionsbeich D symmetrisch um 0
heißt gerade, wenn ∀x ∈ D (f(x) = f (−x)) . f heißt ungerade, wenn ∀x ∈ D (f(x) = −f (−x)) .
f heißt periodisch mit Periodendauer T > 0, wenn ∀x ∈ R (f (x + T ) = f (x))
Beispiele: cos ist gerade, sin ungerade, f (x) = x2 ist gerade, f (x) = x3 ist ungerade (Definitionsbereich R in allen Fällen). f ist offenbar genau dann gerade, wenn der Graph achsensymmetrisch zur y−
Achse liegt. f ist ungerade genau dann, wenn der Graph punktsymmetrisch zum Ursprung liegt. Auch
Periodizität bedeutet eine Symmetrie des Graphen: Bei Parallelverschiebung mit dem Vektor (T, 0) wird
der Graph in sich überführt.
Die nächste Abteilung erfasst lokale und globale Extrema sowie Monotonien.
D
13 (Extrema). Sei f : D → R, und D enthalte ein offenes Intervall Uε (x0 ) = { x ∈ R| |x − x0 | < ε} .
f hat ein lokales Maximum in x0
f hat ein strenges lokales Maximum in x0
:
:
⇐⇒ Es gibt δ > 0 : ∀x ∈ Uδ (x0 ) (f (x) ≤ f (x0 ))
⇐⇒ Es gibt δ > 0 : ∀x ∈ Uδ (x0 ) (x = x0 =⇒ f (x) < f (x0 ))
Analog bildet man die Begriffe ’ (strenges) lokales Minimum’, nur sind die Ungleichheitszeichen umzudrehen. Wenn x0 am Rande von D liegt und D kein offenes Intervall um x0 enthält, aber ein Intervall,
das x0 als Randpunkt hat, so spricht man entsprechend von einseitigen Extrema oder Randextrema.
Wichtig sind Zusätze wie ’lokal’-’global’. Wir definieren (ohne jede Anforderung an D):
f
f
: D → R hat ein globales Maximum in x0 : ⇐⇒ ∀x ∈ D (f (x) ≤ f (x0 )) .
: D → R hat ein strenges globales Maximum in x0 : ⇐⇒ ∀x ∈ D (x = x0 =⇒ f (x) < f (x0 ))
Mit ’Extremum’ meint man: ’Maximum oder Minimum’ (mit entprechenden Zusätzen).
Wenn (wie zumeist) D mit jedem Punkt x0 eine Umgebung von x0 enthält, so ist ein globales
Maximum stets auch ein lokales. Aber eine Funktion wie x + sin (2x) hat unendlich viele lokale Maxima
und Minima, doch kein globales Maximum oder Minimum.
Eine Bemerkung zum Begriff ’lokal’: Das bedeutet stets - nicht nur in diesem Beispiel, dass irgend
etwas nur bezüglich einer beliebig klein zu wählenden Umgebung verlangt wird. Wir werden sehen, dass
manche Begriffe wie ’Stetigkeit’, Differenzierbarkeit’ lokalen Charakter haben, auch ohne dass das Wort
’lokal’ erwähnt wird.
Eng mit dem Begriff des lokalen Extremums hängt der eines Wendepunktes zusammen: f hat in x0
genau dann einen Wendepunkt, wenn die Ableitung von f in x0 ein strenges Extremum hat.
Wir illustrieren die Begriffe mit ein paar Bildern:
Periodizität, zugleich einige Extrema, die lokale und keine globalen sind, sowie einige globale Extrema
(Rechenausdruck sin (4x) + sin (8x)):
1.5
1
0.5
-2
-1
0
-0.5
-1
-1.5
1x
2
1. BESONDERE EIGENSCHAFTEN REELLER FUNKTIONEN
49
Lokale Extrema (nicht global), zugleich Punktsymmetrie um den Ursprung - Rechenausdruck x3 − x:
6
4
2
-2
0
-1
1x
2
-2
-4
-6
Globale Randextrema (Funktion auf den gezeigten Definitionsbereich eingeschränkt):
20
15
10
5
-2
-1
0
1x
2
D
14 (Monotonien). Eine Funktion
f
f
: D → R heißt monoton steigend, wenn ∀x1 x2 ∈ D (x1 ≤ x2 =⇒ f (x1 ) ≤ f (x2 )) .
: D → R heißt streng monoton steigend, wenn ∀x1 x2 ∈ D (x1 < x2 =⇒ f (x1 ) < f (x2 )) .
Entsprechend ist mit ’<’ der Begriff ’streng monoton fallend’ zu bilden. f heißt monoton, wenn f monoton
steigend oder monoton fallend ist.
Wenn eine Funktion nicht auf ihrem ganzen Definitionsbereich D monoton steigend ist, aber auf A ⊂ D,
so sagt man gern: ’f ist auf A monoton steigend’, usw.
(Bemerkung zur Bezeichnung: Manchmal finden Sie ’nicht fallend’ für ’monoton steigend’ (im nicht
strengen Sinne) und entsprechend ’nicht steigend’ für ’monoton fallend’.)
Beispiele: f (x) = x3 ist streng monoton steigend auf ganz R, f(x) = x2 ist streng monoton steigend
auf D = R≥0 . f (x) = sin (1/x) ist auf keinem Intervall (0, a], a > 0, monoton (also weder monoton
fallend noch monoton steigend). Die Funktion ’Gaußklammer’ g(x) = [x] := größte ganze Zahl ≤ x ist
monoton steigend, aber nicht streng monoton steigend. Der Graph ergibt eine Treppe. Offenbar sind
streng monotone Funktionen stets injektiv.
Eine dritte Gruppe von Begriffen erfasst asymptotisches Verhalten einer Funktion.
D
15. Wir setzen voraus, dass f für alle x > M definiert ist, mit einer festen Zahl M. Eine
Gerade g (x) = mx + b heißt dann Asymptote für den Graphen von f, wenn limx→∞ (f(x) − g(x)) = 0.
Analog bildet man das für x → −∞ unter der Voraussetzung, dass f für alle x < U definiert ist, mit einer
festen Zahl U. Eine Gerade x = a (parallel zur y− Achse) heißt Asymptote des Graphen von f, wenn
f (x) in einer einseitigen oder zweiseitigen Umgebung von a definiert ist und gilt: limx→a f (x) = ∞ (oder
−∞), bzw. dasselbe für limx→a− f (x) (linksseitiger Limes) oder limx→a+ (rechtsseitig). Eine Asymptote
x = a heißt auch Pol, man sagt dann, f habe in a einen Pol.
Beispiele: f(x) = 1 − 2−x hat die Aymptote y = 1. g (x) = x1 hat die Asymptoten y = 0 und
2
−2
7
x = 0 (einen Pol an der Stelle x0 = 0). h(x) = xx+3
= x − 3 + x+3
hat die Asymptote y = x − 3 (für
50
4. REELLE FUNKTIONEN
x → ±∞) und außerdem die Asymptote x = −3 (Pol in x0 = −3). ln (2x + 1) hat einen Pol in x0 = − 12
(einseitig), aber keine Asymptote für x → ∞. Aber der Graph von ln (2x + 1) nähert sich mit x → ∞
dem einfacheren Graphen von ln(2) + ln (x) . Es lohnt sich, auch Kurven untereinander zu vergleichen,
nicht nur Kurven mit Geraden.
1 x3 −3
1 2
1
2
11
Illustration: f(x) = 10
x+2 = 10 x − 5 x + 5 − 10x+20 , hier ist rot der Funktionsgraph gezeichnet
1 2
1
2
und schwarz der Graph von 10 x − 5 x + 5 , dem sich der Graph von f für große |x| asymptotisch nähert.
√
3
2
Bei x = −2 hat f einen Pol. Bei x0 = − 12 14 + 2 33 − √
− 1 ≈ −3. 15 liegt das einzige lokale
√
3
14+2 33
Extremum vor, ein Minimum (eine Polynomgleichung 3. Grades ist dafür zu lösen, das geht gerade noch
exakt, aber mühsam.) Im Bereich x > −2 steigt f streng monoton, im Bereich (−∞, x0 ] fällt f streng
monoton, im Bereich [x0 , −2) steigt f monoton.
10
8
6
4
2
-10
-8
-6
-4
-2
0
-2
2
4 x 6
8
10
-4
-6
-8
-10
2. Die Grundfunktionen
Folgende Funktionen bilden einen nützlichen Vorrat von ’Grundfunktionen’:
Funktion
Potenzfunktionen
Exponentialfunktion
Logarithmusfunktion
Sinusfunktion
Cosinusfunktion
Arcustangens
Rechenausdruck
f (x) = xa
exp(x) = ex
ln(x) = exp−1 (x)
sin (x)
cos (x)
arctan (x)
x ≥ 0, fester Exponent a > 0
natürliche Basis e
natürliche Basis e, x > 0
(Umkehrfunktion von tan =
sin
cos )
Man könnte diese Liste verkleinern, aber das ist nicht nützlich, insbesondere im Blick auf das Differenzieren und Integrieren. Es kann manchmal auch erforderlich sein, den Grundfunktionenvorrat zu erweitern,
durch Funktionen, die durch Integrale oder als Lösungen von Differentialgleichungen definiert sind. Methodisch geht man jedoch stets so vor, dass man aus einem passenden Bereich von Grundfunktionen alles
weiter Benötigte zusammensetzt. Für sehr viele Zwecke reicht die obenstehende Liste schon aus. Man
wird bemerken, dass für die letzten drei Funktionen nur Namen angegeben sind und kein zur Berechnung
der Werte geeigneter Rechenausdruck. Das liegt daran, dass die einfachsten Ausdrücke für diese Funktionen bereits Potenzreihen sind (Mathematik B). Übrigens gilt dasselbe auch für die genaue rechnerische
Darstellung von ex und sogar für xa (wenn a ∈
/ N), aber immerhin verweisen diese Ausdrück auf mögliche
Näherungen der Werte. Im Augenblick geht es nur darum, die wichtigen elementaren Eigenschaften der
oben erwähnten Grundfunktionen zu erfassen. Die Ableitungs- und Integrationseigenschaften folgen erst
in den Abschnitten über Ableitung und Integration.)
2.1. Die Potenzfunktionen. Die Potenzfunktionen (a > 0 fest)
fa : R≥0
x
→ R≥0
→ xa
sind streng monoton steigend, umkehrbar mit Umkehrfunktionen fa−1 = f1/a , und sie wachsen mit x → ∞
nach ∞. Für a > 1 wird die Steigung immer größer, für a < 1 immer kleiner. Die Graphen haben folgende
2. DIE GRUNDFUNKTIONEN
51
Gestalt:
4
x3
y
3.5
x2
3
2.5
x(1/2)
2
1.5
x(1/3)
1
0.5
x
0
0
0.5
1
1.5
2
2.5
3
3.5
4
Die Steigung geht nach Null für x → 0, wenn a > 1, nach ∞ für x → 0, wenn a < 1.
2.2. Die Exponential- und Logarithmusfunktion zur natürlichen Basis. Die Funktion
exp : R → R>0
x → ex
ist die Exponentialfunktion zur ’natürlichen’ Basis e. Das ist eine transzendente Zahl, nahe bei 2.71.
Sie macht die Exponentialfunktion in dem Sinne besonders einfach, dass genau mit dieser Zahl gilt:
exp′ = exp . So ist die Funktion also gleich ihrer Ableitung. Mit x → ∞ gehen die Werte sehr schnell nach
Unendlich (schneller als jedes Polynom, wie wir sehen werden). Mit x → −∞ gehen die Werte folglich
sehr schnell nach Null. Das ergibt sich aus e−x = e1x . Die Funktion ist streng monoton steigend, und ihre
Umkehrfunktion ist ln: R>0 → R, die natürliche Logarithmusfunktion. Die Graphen sehen so aus:
5
ex
4
3
2x
log2(x)
2
1
ln(x)
0
-1
-2
-3
-4
-5
-5
0
5
Zuweilen benötigt man andere Basen aus einem Anwendungszusammenhang heraus: expa (x) := ax (a >
0, a = 1 fest) definiert allgemein die Exponentialfunktion zur Basis a. Aber man kann dann bei Bedarf
52
4. REELLE FUNKTIONEN
umschreiben auf die natürliche Basis: ax = ex ln(a) . Ebenso für Logarithmusfunktionen loga := exp−1
a ,
dafür kann man schreiben: loga (x) = ln(x)
.
ln(a)
Eine Gleichung ax = b mit a > 0, b > 0 und Unbestimmter x kann man durch Anwenden von ln
auf beiden Seiten leicht lösen: x ln (a) = ln (b) .In folgender Tabelle sind die wichtigen Rechenregeln für
exp, ln zusammengefasst, die einfach auch dem Rechnen mit Potenzen fußen - man beachte, dass die
nebeneinanderstehenden Formeln jeweils auseinander folgen mit der Umkehrfunktionseigenschaft:
Für exp
e0 = 1
ex+y = ex ey
(ex )y = exy
ax = ex ln(a) (a > 0)
für ln
ln (1) = 0
ln (ab) = ln (a) + ln (b) (a, b > 0)
ln (ax ) = x ln (a) (a > 0)
loga (x) = ln(x)
ln(a) (a > 0, x > 0)
Zum Beispiel in der zweiten Zeile: Setzt man ex = a, ey = b, so hat man ab = ex ey = ex+y mit der linken
Formel, also mit ln(ab) = ln (ex+y ) = x + y = ln (a) + ln (b) die Formel auf der rechten Seite.
Die Bedeutung der Exponentialfunktion für naturwissenschaftliche Beschreibungen liegt
darin: Hat man eine zeitabhängige und nach der Zeit differenzierbare Größe q(t), die sich so verhält, dass
ihr Wert sich in einem Zeitintervall der Breite d > 0 stets mit demselben Faktor a > 0, a = 1, multipliziert,
t−t0
so gilt: q(t) = q0 a d , wobei q0 = q (t0 ) ist. Einen solchen Vorgang nennt man eponentielles Wachsen
(a > 1) bzw. Fallen. Das tritt etwa als Amplitudenfaktor bei einer einfachen gedämpften Schwingung auf.
Eine andere Version lautet: Die momentane Steigung einer Größe ist proportional zum momentanen Wert
der Größe - dann wird die Größe als Funktion von der Zeit durch eine Exponentialfunktion beschrieben.
Auch Logarithmusfunktionen treten häufig in der unmittelbaren Beschreibung von Sachverhalten auf,
etwa bei der Messung von Informationsmengen oder Entropien.
2.3. Trigonometrische Funktionen. Wir kennen die anschauliche Deutung von sin, cos im Einheitskreis bereits aus der Polardarstellung komplexer Zahlen, ebenso die trigonometrischen Funktionen
tan, arctan . Hier werden daher nur kurz noch einmal die Graphen von sin,cos sowie ihren Umkehrfunktionen gezeigt und eine Tabelle nützlicher Formeln angefügt:
Sinus- und Cosinusfunktion (rot : sin, blau : cos )
1
-6
-4
-2
0
-1
2
x
4
6
2. DIE GRUNDFUNKTIONEN
Arcussinus mit Sinus
53
' π π (
im Bereich − ,
2 2
1.5
arcsin
1
sin
0.5
0
-0.5
-1
-1.5
-1.5
-1
-0.5
0
0.5
1
1.5
Arcuscosinus mit Cosinus (im Bereich [−0, π])
3
arccos
2.5
2
1.5
1
0.5
cos
0
-0.5
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
3.5
54
4. REELLE FUNKTIONEN
Arcustangens und Tangens
π π im Bereich − ,
2 2
10
tan
8
6
4
2
arctan
0
-2
-4
-6
-8
-10
-10
-5
0
5
10
Bemerkungen zu den Bildern: In allen Fällen von Umkehrfunktionen wurde die Gerade y = x
mit eingezeichnet , um zu zeigen, dass der Graph der Umkehrfunktion von f jeweils durch Spiegelung an
dieser Geraden aus dem Graphen von f entsteht. Außerdem wurde in allen Bildern dafür gesorgt, dass
lineare Skalentransformation unterblieb, so dass man mit bloßem Auge die richtigen Steigungen sieht,
auch wenn das nicht optimal für die Ansicht der Graphen selbst ist. Man merke sich: sin und tan haben
bei x = 0 Steigung 1. tan sieht bei x = 0 also ganz anders aus als g(x) = x3 .
Hier eine Tabelle mit nützlichen Formeln zu den trigonometrischen Funktionen:
sin2 (x) + cos2 (x)
sin (x + 2π)
cos (x + 2π)
sin (x + π/2)
cos (x − π/2)
tan (x + π)
cos (x ± y)
sin (x ± y)
tan (x + y)
sin (x) sin (y)
cos (x) cos (y)
sin (x) cos (y)
=
1
(Pythagorasbeziehung)
=
sin (x)
(Periodizität von sin, Periodendauer 2π)
=
cos (x)
(Periodizität)
=
cos (x)
(Verschiebung)
=
sin (x)
(Verschiebung)
=
tan (x)
(Periodizität von tan, Periodendauer π)
= cos (x) cos (y) ∓ sin (x) sin (y)
(Additionstheorem)
= sin (x) cos (y) ± cos (x) sin (y)
(Additionstheorem)
tan(x)+tan(y)
=
(Additionstheorem)
1−tan(x) tan(y)
1
= 2 (cos (x − y) − cos (x + y))
Sonderfall: sin2 (x) = 12 (1 − cos (2x))
= 12 (cos (x − y) + cos (x + y))
Sonderfall: cos2 (x) = 12 (1 + cos (2x))
1
=
Sonderfall: sin (x) cos (x) = 12 sin (2x)
2 (sin (x − y) + sin (x + y))
3. Zusammensetzung von Funktionen
Mit Funktionen f, g bildet man αf (α ∈ R), f +g, f ·g, fg und g◦f. Wir wiederholen: f, g : D → R, dann
f + g : D → R, mit (f + g) (x) := f (x) + g (x) . Analog für die andern arithmetischen Verknüpfungen,
nur muss man bei fg als maximal möglichen Definitionsbereich wählen: D { x ∈ D| g (x) = 0} . Eine
besonders wichtige Rolle spielt die Hintereinanderschaltung, und sie macht in jeder Hinsicht etwas größere
Schwierigkeiten. Man merke sich: (g ◦ f ) (x) := g (f (x)) , und der maximal mögliche Definitionsbereich
bei f : Df → R, g : Dg → R für g ◦ f lautet: { x ∈ Df | f (x) ∈ Dg )} . Achtung: Es ist ein wenig misslich,
dass bei g ◦ f zuerst f, dann g angewandt wird, entgegen der Gewohnheit, von links nach rechts zu lesen.
Das liegt an der rechts gestellten ’von’-Klammer. Klarer wird das in der Bezeichnung mit Argument:
g (f (x)) : Zuerst ist f (x) zu bilden, auf diese Zahl dann g anzuwenden.
3. ZUSAM MENSETZUNG VON FUNKTIONEN
55
Wir wollen uns einen kleinen Überblick darüber verschaffen, welche Funktionenmengen man mit
den angesprochenen Verknüpfungen aus welchen Grundfunktionen bilden kann, und noch einmal gewisse
Mengen von Funktionen herausstellen.
3.1. Konstante Funktionen, lineare Funktionen. Sie sind die einfachsten überhaupt, konstante
haben die Gestalt f(x) = c für alle x. Ihre Graphen sind einfach Geraden parallel zur x− Achse. Was
man in diesem Bereich ’lineare Funktionen’ nennt, sind eigentlich affine, da eine additive Konstante
zugelassen ist. Sie haben die Gestalt f(x) = mx + b, und ihre Graphen sind Geraden, die allerdings
niemals parallel zur y− Achse liegen. Man sollte sich allerdings für diese Funktionen die folgende Form
merken (’Punkt-Richtungs-Form’):
f (x) = f(x0 ) + α (x − x0 ) , auch gern geschrieben:
f (x0 + ∆x) = f (x0 ) + α∆x, wenn man an kleine |∆x| denkt,
gern steht auch h für ∆x.
Letztere Form ist die der Näherung erster Ordnung für eine nichtlineare Funktion g, dann ist f (x0 ) =
g(x0 ) und α = g ′ (x0 ) . Man fasst dabei x0 als fest auf und betrachtet den Ausdruck g (x0 ) + α∆x als
Funktion von ∆x.
konstante Funktionen
f(x) = c
affin lineare Funktionen f(x) = a0 + a1 x
Wir stellen fest: Genau alle linearen Funktionen gewinnt man mit den Verknüpfungen αf, f + g aus den
Funktionen h0 (x) = 1 und h1 (x) = x allein.
3.2. Polynomfunktionen (auch: ganzrationale Funktionen). Es sind die Funktionen der Gen
ak xk . Ist an = 0, heißt f Polynom vom Grad n. Die Vorfaktoren ak heißen Koeffizienten.
stalt f (x) =
k=0
Offenbar bilden die konstanten und linearen Funktionen die Spezialfälle n = 0, 1.
Zum Rechnen mit Polynomen: Addition bedeutet Addition der Koeffizienten, Multiplikation mit
α ∈ R, dass alle Koeffizienten mit α multipliziert werden. Multiplikation zweier Polynome:
m
r=0
Hier stellt die Summe
m
ar xr
n
s=0
bs xs =
n+m
m
ar bk−r xk .
k=0 r=0
ar bk−r einen allgemeinen Rechenausdruck für den Koeffizienten ck des Produk-
r=0
tes dar. (Diese Figur nennt man ’Faltung’, und Sie werden ihr noch öfter begegnen.)
Ferner ist grundlegend:
S 20 (Divisionsalgorithmus). Für alle Polynome p (x) und q (x) , q (x) nicht konstant Null, gibt
es ein Polynom s (x) sowie ein Polynom r (x) mit Grad (r) < Grad (q) , so dass
p (x) = s (x) q (x) + r (x) , also auch
p (x)
r (x)
= s (x) +
.
q (x)
q (x)
Das nennt man auch Division mit Rest, r (x) ist dabei der verbleibende Rest.
Illustration an einem einfachen und einem etwas größeren Beispiel:
x
−
(x − 1)
_______
1
: (x − 1) = 1, Rest 1
56
Also r(x) = 1, und
4. REELLE FUNKTIONEN
x
x−1
=1+
1
x−1 ,
oder x = 1 · (x − 1) + 1
(x3 − 2x2 + 4)
−
x3 − x
_________
2
−
:
2
x − 1 = x − 2, Rest x + 2.
−2x + x + 4 −2x2 + 2
_____________
x+2
2
3
2
+4
3
2
Also x −2x
= x−2+ x2+x
2 −1 , oder x −2x +4 = (x − 2) x − 1 +x+2. Hier r (x) = x+2, s (x) = x−2.
x2 −1
Mittels der Polynomdivision macht man sich folgende Eigenschaften ohne weiteres klar:
Polynom vom Grade n p (x) =
n
k=0
ak xk , an = 0
1. p hat höchstens n Nullstellen. Ist p (a) = 0, so gilt
p (x) = q(x) (x − a) , (x − a) teilt also p (x) .
2. Der führende Term an xn bestimmt das Verhalten
für x → ±∞. Mit n ≥ 1 stets limx→±∞ f(x) ∈ {−∞, ∞}
Man beachte, dass aus der Eigenschaft 2 unmittelbar die lineare Unabhängigkeit der Funktionen hn (x) =
xn (n ∈ N0 ) . Wären sie linear abhängig, so ließe sich ein Polynom von einem Grade n > 0 durch eine
Linearkombination von Polynomen kleineren Grades darstellen - das ergibt aber ein Polynom kleineren
Grades. Die Differenz beider Polynome hätte also führenden Term an xn , n > 0. Das kann nach 2. nicht
die Nullfunktion sein. Wir sehen also, dass der Vektorraum der Polynome unendlichdimensional ist - aus
den Funktionen hn (x) = xn (n ∈ N0 ) erzeugt man allein mit den Verknüpfungen αf, f + g die Klasse
der Polynome. Dass aber der führende Term eines Polynoms p (x) für große |x| über den Rest dominiert,
kann man nach Polynomdivision des führenden Terms durch die Summe der niederen Terme sehen: Es
kommt ein Polynom vom Grad ≥ 1 plus ein Term,dergegen Null geht. Ebenso sieht man Eigenschaft 1
über Polynomdivision: Es gibt mit Divisionsalgorithmus für p(x) mit p (a) = 0 Polynome q, r, so dass
p (x) = q (x − a) + r (x), mit Grad (r) < Grad (x − a) = 1, also ist r eine Konstante. Mit p (a) = 0 folgt
nach Einsetzen: r = 0.
Bemerkungen zum graphischen Verhalten von Polynomen: Der Graph einer Polynomfunktion ist völlig glatt, er kann endlich viele Maxima und Minima (mit zugehörigen Buckeln) entwickeln,
auch Sättel, und für große |x| gehen die Werte ins unendliche. Man kann durch n + 1 Punkte (xi , yi ) mit
xi = xj für i = j in eindeutiger Weise ein Polynom vom Grade n legen. Aber interessanter für die Praxis
ist oft das Anpassen eines Polynoms relativ kleinen Grades als Modell an eine Messreihe, die außerdem
noch etwa Zufallsfluktuationen enthält.
3.3. Gebrochen rationale Funktionen. Erlaubt man zusätzlich Division von Funktionen, so bekommt man die Klasse der gebrochen rationalen Funktionen. Die Rechenausdrücke können immer in die
Endform p(x)
q(x) mit Polynomen p, q gebracht werden (q nicht die Konstante Null) . Die Nullstellen sind diejenigen des Zählers, bei denen der Nenner nicht Null wird. Interessant sind die Nullstellen des Nenners.
Zunächst ist der Ausdruck p(x)
q(x) für q (x) = 0 nicht definiert. Aber es ist genauer zu beschreiben, was an
einer solchen Stelle auftreten kann. Zunächst definieren wir:
D
16. Eine Funktion f hat einen Pol an der Stelle a, wenn f (x) gegen ±∞ geht, wenn
man sich mit x der Stelle a von rechts oder von links nähert.
Bei beidseitigen Polen können die Vorzeichen auf beiden Seiten gleich sein oder verschieden (betrachte
um x = 0 und x1 um x = 0). Bei einem Pol nähert sich der Funktionsgraph asymptotisch einer Geraden
parallel zur y− Achse, zumindest auf einer Seite dieser Geraden.
1
x2
3. ZUSAM MENSETZUNG VON FUNKTIONEN
57
f (x) = p(x)
k ≥ 1 sei die Ordnung dieser Nullstelle von q (p, q sind Polynome)
q(x) , q (a) = 0
1. Fall: p (a) = 0
Dann hat f an der Stelle a einen Pol.
2. Fall: p (a) = 0, Nullstelle von p der Ordnung m ≥ 1, dann treten folgende drei Fälle auf:
1. Unterfall: k > m Dann hat f an der Stelle a einen Pol.
2. Unterfall: k = m Dann existiert limx→a f (x) ∈ R{0}, damit kann f in a stetig ergänzt werden.
3. Unterfall: k < m Dann existiert limx→a f (x) = 0, und f kann damit stetig in a ergänzt werden.
Ferner ist das Verhalten für |x| → ∞ interessant und leicht beschrieben: Polynomdivision zeigt, dass
für Zählergrad > N ennergrad der Zähler dominiert und f (x) gegen ±∞ geht für x → ±∞ (mit allen
denkbaren Vorzeichenverteilungen!). Sie zeigt auch, dass für Zählergrad = N ennergrad eine Konstante
= 0 herauskommt als Asymptote für x ± ∞. Im Falle Zählergrad < N ennergrad hat man die Konstante
mit Wert 0 als Asymptote für x ± ∞. Es ist daher vernünftig, bei gebrochen rationalen Funktionen
stets eine Darstellung p(x)
q(x) mit teilerfremden Polynomen zu wählen, so dass Zähler und Nenner keine
gemeinsamen Nullstellen mehr haben (sonst ist zu kürzen). Dann gilt einfach: An den Nullstellen des
Nenners liegen Pole vor, die Funktion ist dort nicht definiert.
Insgesamt: Die vertikalen und horizontalen bzw. schrägen Asymptoten sind gegenüber den Polynomen
die möglichen neuen Phänomene; die Graphen zerfallen beim Auftreten von Polen in mehrere völlig glatte
Äste.Gebrochen rationale Funktionen
Erlaubt man zusätzlich Division von Funktionen, so bekommt man die Klasse der gebrochen rationalen Funktionen. Die Rechenausdrücke können immer in die Endform p(x)
q(x) mit Polynomen p, q gebracht
werden (q nicht die Konstante Null) . Die Nullstellen sind diejenigen des Zählers, bei denen der Nenner
nicht Null wird. Interessant sind die Nullstellen des Nenners. Zunächst ist der Ausdruck p(x)
q(x) für q (x) = 0
nicht definiert. Aber es ist genauer zu beschreiben, was an einer solchen Stelle auftreten kann. Zunächst
definieren wir:
D
17. Eine Funktion f hat einen Pol an der Stelle a, wenn f (x) gegen ±∞ geht, wenn
man sich mit x der Stelle a von rechts oder von links nähert.
Bei beidseitigen Polen können die Vorzeichen auf beiden Seiten gleich sein oder verschieden (betrachte
um x = 0 und x1 um x = 0). Bei einem Pol nähert sich der Funktionsgraph asymptotisch einer Geraden
parallel zur y− Achse, zumindest auf einer Seite dieser Geraden.
1
x2
f (x) = p(x)
k ≥ 1 sei die Ordnung dieser Nullstelle von q (p, q sind Polynome)
q(x) , q (a) = 0
1. Fall: p (a) = 0
Dann hat f an der Stelle a einen Pol.
2. Fall: p (a) = 0, Nullstelle von p der Ordnung m ≥ 1, dann treten folgende drei Fälle auf:
1. Unterfall: k > m Dann hat f an der Stelle a einen Pol.
2. Unterfall: k = m Dann existiert limx→a f (x) ∈ R{0}, damit kann f in a stetig ergänzt werden.
3. Unterfall: k < m Dann existiert limx→a f (x) = 0, und f kann damit stetig in a ergänzt werden.
Ferner ist das Verhalten für |x| → ∞ interessant und leicht beschrieben: Polynomdivision zeigt, dass
für Zählergrad > N ennergrad der Zähler dominiert und f (x) gegen ±∞ geht für x → ±∞ (mit allen
denkbaren Vorzeichenverteilungen!). Sie zeigt auch, dass für Zählergrad = N ennergrad eine Konstante
= 0 herauskommt als Asymptote für x ± ∞. Im Falle Zählergrad < N ennergrad hat man die Konstante
mit Wert 0 als Asymptote für x ± ∞. Es ist daher vernünftig, bei gebrochen rationalen Funktionen
stets eine Darstellung p(x)
q(x) mit teilerfremden Polynomen zu wählen, so dass Zähler und Nenner keine
gemeinsamen Nullstellen mehr haben (sonst ist zu kürzen). Dann gilt einfach: Die Nullstellen sind genau
die des Zählers, und genau an den Nullstellen des Nenners liegen Pole vor, die Funktion ist genau an
diesen Stellen nicht definiert.
Insgesamt: Die vertikalen und horizontalen bzw. schrägen Asymptoten sind gegenüber den Polynomen
die möglichen neuen Phänomene; die Graphen zerfallen beim Auftreten von Polen in mehrere völlig
glatte Äste. Wir ergänzen einen besonders einfachen Fall der Partialbruchzerlegung, in welchem diese
sehr nützliche Zerlegung ganz schnell ausgeführt werden kann:
58
4. REELLE FUNKTIONEN
S 21 (Partialbruchzerlegung im einfachsten Fall). Seien p, q Polynome mit Grad (p) < Grad (q) ,
Grad (q) > 1, und q (x) zerfalle in lauter verschiedene Linearfaktoren der Form (x − αi ) , also q (x) =
n
(x − αi ) , αi = αj für i = j, 1 ≤ i, j ≤ n > 1. Dann gilt:
i=1
p (x)
q (x)
=
Ai
=
n
i=1
Ai
, mit
(x − αi )
p (αi )
n
j=i, 1≤j≤n
(Man beachte, dass Ai Konstanten sind.)
Praktischer Zusatz: Allgemeiner hat man auch mit q (x) =
(αi − αj )
n
i=1
p (x)
q (x)
=
Ai
=
n
i=1
.
(β i x − αi ) , β i = 0 für alle i, die Zerlegung
Ai
, mit
(β i x − αi )
p (αi /β i )
n
j=i, 1≤j≤n
(αi /β i − αj )
Die Formel für die Konstanten findet man leicht so: Multiplikation der ersten Gleichung mit x − αi
ergibt
n
p (x)
Aj (x − αi )
=
A
+
.
i
n
(x − αj )
j
=
i
(x − αj )
j=i, 1≤j≤n
Einsetzen von x = αi führt sofort zur angegebenen Formel.
Bemerkung: Man achte auf die Bedingung Zählergrad < Nennergrad. Ist das nicht der Fall, so
bekommt man eine praktische Summenzerlegung nach Polynomdivision. Zu dem Term in (∗) ist dann
lediglich ein Polynom zu addieren.
x2 −1
1
8
5
Beispiele: (2x−1)(x+3)(x+4)
= − 21(2x−1)
− 7(x+3)
+ 3(x+4)
. Hier (zu den Linearfaktoren der Reihe
1 2
2
( 2 ) −1
(−3) −1
(−4)2 −1
1
nach): A1 = 1 +3 1 +4 = − 21
, A2 = (2·(−3)−1)(−3+4)
= − 87 , A3 = (2·(−4)−1)(−4+3)
= 53 .
( 2 )( 2 )
x4 −1
80
255
2
(x+3)(x+4) = x − 7x + 37 + x+3 − x+4 erhält man so: Zunächst führt man Polynomdivision durch:
4
−445 − 175x
x − 1 : x2 + 7x + 12 = x2 − 7x + 37 +
.
(x + 3) (x + 4)
Dann mit dem verbleibenden Bruch
−445−175x
(x+3)(x+4)
wie im ersten Beispiel:
80
255
−445 − 175x
=
−
,
(x + 3) (x + 4)
x+3 x+4
wobei man rechnet: A1 =
−445−175·(−3)
(−3+4)
= 80, A2 =
−445−175(−4)
(−4+3)
= −255.
3.4. Lineare Transformationen von Funktionen. Viele praktisch auftretende Funktionen haben
Rechenausdrücke wie g(x) = α + βf (γx + δ) , mit Konstanten α, β, γ, δ, entstehen also aus f durch Vorund Nachschalten einer linearen Funktion (im Sinne von affin). Dabei ist f oft eine bereits bekannte
Funktion wie sin oder exp . Es ist recht praktisch, zu wissen, welche geometrischen Operationen man
mit dem Graphen von f ausführen muss, um den Graphen von g zu bekommen. Der Reihe nach: Man
verschiebt den Graphen von f um δ nach links, staucht den Graphen längs der x− Achse mit α (oder
streckt mit 1/α), streckt ihn anschließend längs der y− Achse mit β und verschiebt ihn um α nach oben.
Man beachte die Reihenfolge - jede Operation ist jeweils auf das vorige Zwischenergebnis anzuwenden.
’Strecken’ längs einer Achse mit einem negativen Faktor bedeutet dabei stets: Strecken mit dem Betrag des
3. ZUSAM MENSETZUNG VON FUNKTIONEN
59
Faktors und Spiegeln an der jeweils anderen Achse. Verschieben ’nach rechts’ mit −3 bedeutet Verschieben
nach links um 3, usw.
Beispiel: 4 sin (3t + π/4) (wir deuten die unabhängige Variable t als Zeit) ergibt eine nur leicht
modifizierte Sinusschwingung. Die Amplitude ist 4, der Mittelwert ist Null wie bei Sinus, der Faktor 3
bei x bedeutet Stauchung längs der t− Achse mit 3, es läuft also alles drei mal so schnell ab - richtig: 3
3
ist die Kreisfrequenz, d.h. die Periodendauer ist 2π
der
3 , die Frequenz also ν = 2π . π/4 schließlich ist √
Nullphasenwinkel, d.h. die y− Achse schneidet durch den Graphen im Aufsteigen beim y− Wert 2 + 2 2.
So kann man das ganz schnell zeichnen:
4
2
-3
-2
-1
0
1
t
2
3
-2
-4
Die Maxima liegen an den Stellen u (k) = (π/2 − π/4 + 2kπ) /3 = π/12 + 2kπ/3, k ∈ Z. Dazu setzt man
3t + π/4 = π/2 + 2kπ und löst nach t auf. Durchführung der erwähnten Operationen mit den Maxima
von sin führt sofort auf dasselbe Ergebnis, schon aufgelöst nach t: Verschieben der Zahl π/2 + 2kπ auf
der Zahlengeraden nach links um π/4, dann Stauchen mit 3. Also gerade (π/2 − π/4 + 2kπ) /3.
Beispiel: at/d , mit d > 0, a > 0 , a = 1, läuft mit anderer Geschwindigkeit als at , und zwar so, dass
Vervielfachung der Werte mit a im Zeitintervall der Breite d auftritt, also langsamer mit d > 1, schneller
mit d < 1. Ebenso erklärt sich mit den erwähnten linearen Transformationen der Ausdruck a(t−t0 )/d :
Zusätzlich ist um t0 nach rechts verschoben worden. (Verschiebung des Graphen nach (!) Streckung mit
d.)
3.5. Übertragung von Eigenschaften von Funktionen auf ihre Verknüpfungen. Multiplikation einer Funktion mit einer Konstanten: Diese wurde bereits im letzten Abschnitt besprochen.
Addition von Funktionen: Sind f, g beide positiv, so ist es die Summe. Sind f, g monoton steigend,
so ist es die Summe (ebenso für ’fallend’). Eine Summe gerader (ungerader) Funktionen ist wieder gerade
(ungerade).
Multiplikation von Funktionen: Sind f, g positiv, so ist es fg. (Analog weitere Vorzeichenregeln.)
Sind f, g monoton steigend und positiv, so ist f g monoton steigend.
Verkettung von Funktionen: Ist f periodisch, so ist es auch g ◦ f. Ist f gerade, so ist es auch
g ◦ f. Sind f, g beide ungerade, so ist g ◦ f gerade. Sind f, g beide monoton steigend oder beide monoton
fallend, so ist g ◦ f monoton steigend. Ist eine der beiden Funktionen f, g monoton steigend, die andere
monoton fallend, so ist g ◦ f monoton fallend.
Solche Zusammenhänge sollte man nutzen. Auswendiglernen solcher kleinen Beobachtungen wird
nicht funktionieren, besser ist es, sich jeweils die Frage nach der Erschließbarkeit einer solchen Eigenschaft für eine Zusammensetzung zu stellen und diese Frage selbständig zu beantworten - durch logisches
Überlegen. Eine solche Überlegung wollen wir an zwei Beipielen demonstrieren - analog zeigt man alle genannten Aussagen: ’Wenn f monoton steigend ist und g monoton fallend, dann ist g ◦ f monoton fallend’.
Sei x ≤ y. Dann mit der ersten Voraussetzung f (x) ≤ f (y) , also mit der zweiten g (f (x)) ≥ g (f (y)) .
Somit: x ≤ y =⇒ g ◦ f (x) ≥ g ◦ f (y) . Oder: ’Wenn f gerade ist, so ist es auch g ◦ f - völlig unabhängig
von den Eigenschaften von g’. Dazu hat man: f (x) = f (−x) , also g (f (x)) = g (f (−x)) . Damit ist g ◦ f
gerade.
Umkehrfunktion: Ist f streng monoton steigend, so ist es auch die Umkehrfunktion. Dasselbe gilt
für ’fallend’.
60
4. REELLE FUNKTIONEN
4. Grenzwert bei Funktionen und Stetigkeit
4.1. Der Begriffsapparat. Einerseits sind die hier vorzustellenden Eigenschaften von eigenständiger großer Bedeutung, andererseits werden sie auch bei der Behandlung der Ableitung wieder wichtig.
Man fragt immer wieder: Wenn x gegen a geht - wohin geht dann f (x)? Das ist die Frage nach einem
Grenzwert bei einer Funktion. Von einer ’ordentlichen’ Funktion stellt man sich vor, dass dann f (x)
eben gegen f (a) geht - das ist eine Weise, die Stetigkeit von f in a auszugrücken. Eine andere Version
der Stetigkeit, die noch etwas zu präzisieren sein wird: Bei kleinem Unterschied zwischen x und a sollte
auch der Unterschied zwischen f (x) und f (a) klein bleiben. Das formulieren nunmehr genau. Zunächst
brauchen wir eine kleine Vorbereitung zum Begriff ’Unendlich’. Wir sagen, dass x1 nach Null geht, wenn
x nach ∞ geht, oder dass x2 nach ∞ geht für x nach ∞. Das benutzen wir gerade so, wie wenn wir sagen:
x2 geht nach 4, wenn x nach 2 geht. Wie ist genauer mit −∞, ∞ umzugehen?
D
18 (Einführung der Objekte −∞, ∞). Wir fügen der Menge der rellen Zahlen zwei neue
Objekte hinzu, −∞ und ∞. Beide sind verschieden, beide sind keine Elemente von R. Wir erweitern die
Anordnung von R zu einer Anordnung von R ∪ {−∞, ∞} durch die Vorschrift: −∞ < a < ∞ für alle
a ∈ R.
Vorsicht: Es sind keinerlei arithmetische Operationen mit −∞, ∞ definiert! Manchmal findet man
Aussagen wie ∞ + b = ∞, wenn b ∈ R. Dies ist aber nur eine Abkürzung für folgende genaue Aussage:
Wenn limx→a f (x) = ∞ und limx→a g(x) = b, dann limx→a (f (x) + g(x)) = ∞. Bildet man dagegen ’∞· 0’
und übersetzt in diesem Sinne diesen Term, so findet man, dass keine Aussage der Form ’∞·0 = b’ richtig
ist! Es ist daher von solcher Notation überhaupt abzuraten.
Wohl aber ist es sinnvoll und wichtig, den Begriff der ’Umgebung’ sowohl für reelle Zahlen als auch
für −∞, ∞ zu bilden:
D
19 (Begriff der Umgebung). Eine Umgebung einer Zahl a ∈ R ist eine Zahlenmenge,
welche ein offenes Intervall um a enthält, also eine Zahlenmenge, welche Uε (a) := { x ∈ R| |x − a| < ε}
enthält für ein ε > 0. Eine Umgebung von ∞ ist eine Zahlenmenge, welche eine Menge der Form
{ x ∈ R| x > M } enthält für eine reelle Zahl M. Eine Umgebung von −∞ ist eine Zahlenmenge, welche
eine Menge der Form { x ∈ R| x < m} enthält für eine reelle Zahl m.
Beipiele: x ∈ R| x < −1010 ist eine Umgebung von −∞. { x ∈ R| − 0.1 < x < 0.1} = U0.1 (0) ist
eine Umgebung von 0, und U0.01 ist eine kleinere Umgebung von 0.
Wichtige Bemerkung: Wenn man von beliebig kleinen Umgebungen spricht, so kann man sich
auf solche offenen Intervalle beschränken. Denn zu jeder Umgebung gibt es eine kleinere, welche diese
spezielle Form hat. Damit werden Umgebungen sehr handlich.
D
20 (Grenzwert bei Funktionen). Seien a, b ∈ R ∪ {−∞, ∞}. Sei f (x) für alle x in einer
Umgebung von a definiert, außer etwa in a selbst. Dann definieren wir:
lim f (x) = b : ⇐⇒
x→a
Für jede beliebig kleine Umgebung V von b gibt es eine Umgebung
Das bedeutet handlich für a, b ∈ R:
lim f (x) = b : ⇐⇒
x→a
U von a, so dass ∀x ∈ U {a} : f (x) ∈ V
∀ε > 0∃δ > 0∀x = a : (|x − a| < δ =⇒ |f (x) − b| < ε) .
Für a, b = ∞ bedeutet die Definition:
lim f (x) = ∞ : ⇐⇒
x→∞
∀M ∃N∀x > N : f (x) > M.
Bemerkung: Mit Hilfe der Definition des Begriffs ’Umgebung’ kann man zwingend erschließen, wie
die konkretisierte Fassung für die verbleibenden Fälle aussieht, z.B. für a ∈ R, b = −∞.
Eine völlig präzise verbale Formulierung zum Verständnis: Die Definition für die Beziehung
limx→a f (x) = b besagt gerade: Die Bilder liegen in einer beliebig klein gewählten Umgebung von b, wenn
nur die Urbilder = a in einer hinreichend kleinen Umgebung von a liegen.
Konkrete Beispiele zum Verständnis, mit Strategien, limx→a f (x) = b oder die Verneinung
davon zu zeigen:
4. GRENZW ERT BEI FUNKTIONEN UND STETIGKEIT
61
1.) f(x) = x2 , a = 2, b = 4. Wir behaupten limx→2 x2 = 4. Zum Beweis geben wir beliebiges ε > 0
vor. Dazu müssen wir eine passende Zahl δ aufweisen (wir werden gewöhnlich versuchen, eine solche als
Rechenausdruck in ε auszudrücken, aber wir werden manchmal
auch bequem noch ’verschenken’ können,
d.h. δ unnötig klein wählen). Wir wollen im Beispiel haben: x2 − 4 < ε. Also insbesondere x2 − 4 < ε,
d.h. x2 < 4 + ε. Denken wir an x = 2 + η, η > 0. Dann haben wir die Bedingung x2 = η2 + 4η + 4 <√4 + ε.
Das bedeutet η 2 + 4η − ε < 0. Lösen wir die Gleichung η 2 + 4η − ε = 0, dann erhalten wir
√ η = −2+ 4 + ε
(nur die positive Lösung ist brauchbar!). Damit wissen wir: Wenn δ = δ (ε) = −2 + 4+ ε (das ist der
besagte Ausdruck in ε hier!), so wissen wir jetzt: Wenn x > 2, |x − 2| < δ, dann x2 − 4 < ε. Probieren
wir aus, ob das auch für x < 2, |x − 2| < δ gilt: Wir haben dann mit einem η > 0 : x = 2− η > 2−δ. Aber
√
√
2
2
(2 − δ) = 4 − 4δ + δ 2 , mit δ = −2 + 4 + ε also: (2 − δ) − 4 = 16 −8 4 + ε + ε und damit für δ < 2
√
(was etwa mit ε < 1 automatisch der Fall ist): x2 − 4 < (2 − δ)2 − 4 = −8 4 + ε + 16 + ε < ε. Denn
√
−8 4 + ε + 16 < 0. Wir haben im Beispiel sogar δ (ε) optimal ausgerechnet. So etwas macht typisch
2
ein wenig Aufwand.
2 Im
Beispiel wäre folgender Weg vielε einfacher: x − 4 = (x − 2) (x + 2) . Mitε ε < 1
hat
2 man
dann x − 4 ≤ |x − 2| · 5, also reicht δ (ε) = 5 . Dann wird nämlich mit |x − 2| < δ = 5 auch
x − 4 ≤ ε · 5. Die Voraussetzung ε < 1 ist harmlos. Für ε > 1 wähle einfach δ (ε1 ) mit einem ε1 < 1.
5
(Unten wird man sehen, dass wir damit die Stetigkeit der Quadratfunktion an der Stelle x0 = 2 gezeigt
haben. Analog kann man einsehen, dass stets limx→x0 x2 = x20 gilt.
2.) limx→0 x12 = ∞. Dafür haben wir zu zeigen: Wählt man |x| klein genug, so ist x12 > M für
vorgegebene Zahl M. Wieder dürfen wir M beliebig groß voraussetzen, wir verlangen M > 0. Dazu lösen
1
wir einfach die Ungleichung nach |x| auf: x12 > M ⇐⇒ |x|2 < M
⇐⇒ |x| < √1M . In diesem Falle war
sogar das optimale δ (M ) leicht auszurechnen.
3.) limx→0 x1 existiert nicht, schon gar nicht als Zahl, aber auch nicht in der Form ±∞. Wir zeigen das
ausführlich, den Umgang mit der Verneinung der Bedingung zu üben. Um zu zeigen, dass der Grenzwert
hier keine reelle Zahl sein kann, haben wir Folgendes zu tun: Für eine beliebige Zahl
b ∈ R ist eine
Umgebung Uε (b) anzugeben, so dass mit |x| < δ, δ > 0, niemals garantiert ist, dass x1 − a < ε, so klein
1
man auch δ wählt. Wir wählen
mit x = 0,
ε = 1. Wir lösen x − b 1> 1 - nur eine Lösung ist verlangt
1
1
|x| < δ! Die Bedingung x − b > 1 ist sicher erfüllt mit x > |b| + 1, also x > 0 und x < |b|+1
. Aber die
1
zweite Bedingung verlangt |x| < δ. Beides ist erfüllt mit x = min δ/2, |b|+2
. Aber der Limes kann auch
nicht ∞ sein; denn dann müsste x1 > M > 0 gelten für |x| < δ, mit passendem δ. Aber mit x = −δ/2 ist
1
x < 0 < M. Ebenso kann auch −∞ nicht Grenzwert sein, wozu man N < 0 wählt und x = δ/2.
4.) Ist limx→a f (x) = b und limx→a g (x) = c, so gilt limx→a (f (x) + g (x)) = b + c. Denn seien zu
beliebiger Zahl ε > 0 nach Voraussetzung existierende Zahlen δ 1 , δ 2 > 0 derart gegeben, dass |f (x) − b| <
ε/2 für |x − a| < δ 1 und |g (x) − c| < ε/2 für |x − a| < δ 2 . Dann wählen wir δ = min (δ 1 , δ 2 ) und haben:
|f (x) + g (x) − (b + c)| = |f (x) − b + g (x) − c| ≤ |f (x) − b| + |g (x) − c| < ε/2 + ε/2 = ε. Damit haben
wir einen der praktischen typischen Grenzwertsätze, die wir noch ein wenig ausbauen wollen. Zunächst
haben wir die grundlegende Tatsache:
S 22 (Eindeutigkeit des Grenzwerts). Wenn limx→a f (x) existiert, so ist dieser eindeutig bestimmt.
Begründung: Wenn b1 = b2 , so gibt es Umgebungen V1 von b1 und V2 von b2 mit V1 ∩ V2 = ∅. Also
kann eine Umgebung von a ihre f− Bilder nicht in V1 und V2 zugleich haben.
Zu Ungleichungen bei Grenzwerten hat man folgende Grundtatsache:
S 23 (Monotonie des Grenzwertes). Wenn f (x) ≤ g (x) für alle x = a (in einer beliebig kleinen
Umgebung von a) und limx→a f (x) , limx→a g (x) beide existieren, so ist limx→a f (x) ≤ limx→a g (x) .
(Analog für ≥ .) Insbesondere folgt aus α ≤ f (x) ≤ β für alle x in einer beliebig kleinen Umgebung von
a, dass α ≤ limx→a f (x) ≤ β, wenn dieser Grenzwert existiert.
Vorsicht: Die entsprechend Aussage gilt nicht mit <, > . Beispiel: x1 > 0 für x > 0, aber limx→∞ x1 =
0, nicht mehr > 0.
Begründung: Wäre b = limx→a f (x) > limx→a g (x) = c, so gäbe es eine Umgebung U von b und
eine Umgebung V von c, so dass alle Elemente von U größer als elle Elemente von V wären. Wegen der
Limesbeziehungen gäbe es jedoch eine Umgebung W von a, so dass für alle x ∈ W \ {a}: f (x) ∈ U und
g (x) ∈ V. Für jedes solche x ∈ W \ {a} wäre f (x) > g(x) entgegen der Voraussetzung, dass f(x) ≤ g(x)
62
4. REELLE FUNKTIONEN
zumindest in einer kleinen Umgebung von a. Für die zweite Aussage braucht man nur g(x) = β (konstant)
zu setzen bzw. g(x) = α und die erste darauf anzuwenden.
Man kann die Monotonie des Grenzwertes zuweilen ausnutzen, um einen neuen Grenzwert zu bestimmen, wenn es gelingt, die Werte geeignet einzuschließen:
S 24 (Einschließungsprinzip). Wenn limx→a f (x) = limx→a h (x) = c ∈ R und f (x) ≤ g (x) ≤
h (x) für alle x (wieder genügt es, dies für alle x in einer beliebig kleinen Umgebung von a zu fordern),
dann gilt limx→a g (x) = c.
Beweis: Nach Voraussetzung haben wir zu vorgelegtem ε > 0 stets δ > 0, so dass |f(x) − c| < ε/2
und |h (x) − c| < ε/2 für alle x mit |x − a| < δ, x = a. Mit der Ungleichung f(x) ≤ g (x) ≤ h (x) gilt
dann |g(x) − c| ≤ |f (x) − c| + |g (x) − c| < ε.
Anwendungsbeispiel: Sei 0 < x < π/2. Wir betrachten das Dreieck mit den Eckpunkten (0, 0),
(0, cos (x)) , (cos (x) , sin (x)) . Sein Flächeninhalt ist 12 sin (x) cos (x) . Der Kreisbogen des Einheitskreises
zwischen den letzten beiden Eckpunkten schließt mit dem Ursprung einen Kreissektor ein mit Flächenx
inhalt 2π
· π = x2 . Also 12 sin (x) cos (x) ≤ x2 . Der Kreissektor ist aber dem Dreieck mit den Eckpunkten
sin(x)
(0, 0) , (1, 0) , (1, tan (x)) einbeschrieben. Also x2 ≤ 12 tan (x) = 12 cos(x)
. Das liefert die Ungleichung
sin (x)
sin (x) cos (x) ≤ x ≤
, 0 < x < π/2. Folglich
cos (x)
x 1
≤
cos (x) ≤ für 0 < |x| < π/2. Daher (Ungleichung für die Kehrwerte!)
sin (x) cos (x)
sin (x) 1
≥ cos (x) für 0 < |x| < π/2.
≥ cos (x)
x 1
= 1. (Dafür benutzen wir allerdings die Stetigkeit von cos sowie
Aber limx→0 cos (x) = limx→0 cos(x)
an der Stelle x0 = 0, s.u.) Mit dem Einschließungsprinzip haben wir:
lim
x→0
1
cos
sin (x)
= 1.
x
Wie wir später sehen werden, ist dies genau die Aussage: sin′ (0) = 1 = cos (0) . Also: sin ist an der Stelle 0
differenzierbar, und die Ableitung hat dort den Wert 1. Damit werden wir ganz leicht allgemein sin′ = cos
beweisen können.
Zuweilen sind wie im Beispiel 4.) oben Überlegungen nützlich, sich an eine Stelle a einmal von rechts
und einmal von links zu nähern. Das wollen wir systematisieren:
D
21 (einseitige Grenzwerte). Sei a ∈ R. Dann definiert man
lim f (x) = b : ⇐⇒ Für jede beliebig kleine Umgebung V von b gibt es eine Umgebung
U von a, so dass ∀x ∈ U{a} : x > a =⇒ f (x) ∈ V
x→a+
Entsprechend definiert man limx→a− f (x) = b mit der eingefügten Bedingung x < a. (Einziger Unterschied zur Definition des gewöhnlichen ’beidseitigen’ Grenzwertes: Es werden nur jeweils die x > a bzw.
die x < a betrachtet, die Forderung auf diese eingeschränkt.)
Beispiel: Man hat limx→0+ x1 = ∞, aber limx→0−
Grenzwerte mit dem beidseitigen:
1
x
= −∞. Folgender Satz verbindet die einseitigen
S 25. limx→a f(x) = b ⇐⇒ limx→a− f (x) = b und limx→a+ f (x) = b.
Begründung: ’ =⇒ ’ ist unmittelbar klar (beide Bedingungen auf der rechten Seite verlangen weniger.)
Zu ’ ⇐= ’: Auch das ist reine Logik: Nach beliebiger Wahl einer Umgebung V von b gibt es Umgebungen
U1 , U2 von a jeweils zur Erfüllung der beiden einseitigen
Grenzwertforderungen.
Damit kann man aber ein
∈
∈
heitlich U = U1 ∩U2 wählen.
Somit
für
alle
x
∈
U
:
x
>
a
=⇒
f
(x)
V
und
x
<
a
=⇒
f
(x)
V
.
Daher für alle x ∈ U x < a oder x > a =⇒ f (x) ∈ V , also x = a =⇒ f (x) ∈ V für alle x ∈ U.
Genau das verlangt die Definion von limx→a f(x) = b.
Wir kommen zum Begriff der Stetigkeit:
4. GRENZW ERT BEI FUNKTIONEN UND STETIGKEIT
63
D
22. Es sei f eine Funktion, deren Definitionsbereich eine Umgebung von x0 ∈ R umfasst.
f heißt stetig an der Stelle x0 genau dann, wenn limx→x0 f (x) = f (x0 ) . (Entsprechend formuliert man
’halbstetig von oben / unten’ mit den entsprechenden einseitigen Grenzwerten).
Bemerkung zum konkreteren Verständnis: Die Definition besagt, dass man f mit dem Grenzprozess vertauschen kann. Wir haben hier den Begriff der Konvergenz von Zahlenfolgen nicht eingeführt
(Mathematik B), aber immerhin können wir intuitiv verstehen: ’Wenn eine Folge von Zahlen gegen x0
konvergiert, so konvergiert die Folge der f − Bilder gegen f (x0 )’. Genau dies fordert die Definition für
beliebige Zahlenfolgen.
Handlich benutzbar wird die Stetigkeitsdefinition durch folgendes Einsetzen der Definition des Grenzwertes bei Funktionen (mit der Erleichterung, dass sowohl x0 als auch f (x0 ) Zahlen sind und nicht ±∞):
S 26. Mit den Voraussetzungen der vorigen Definition gilt:
f stetig in x0 ⇐⇒ ∀ε > 0∃δ > 0∀x (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) .
Das ist eine unmittelbare Umformulierung von limx→x0 f (x) = f (x0 ) . Lediglich die Einschränkung
auf x = x0 fehlt - diese war wesentlich bei der allgemeinen Grenzwertdefinition, da f (a) nicht definiert
zu sein brauchte - und bei a ∈ {−∞, ∞} auch nicht sein konnte. Hier ist die Kernaussage für x = x0
banal richtig.
4.2. Praktische Ermittlung von Grenzwerten und Entscheidung von Stetigkeit. Meist
wird man nicht unmittelbar die zuvor gegebenen Definitionen anwenden, sondern so arbeiten: Man kennt
schon gewisse Grenzwerte oder sieht sie sofort, dann schließt man auf Grenzwerte zusammengesetzter
Ausdrücke (sowohl für die Frage der Existenz als auch für die Frage des Wertes). Ebenso beim Umgang
mit dem Stetigkeitsbegriff: Man weiß schon von vielen Funktionen globale Stetigkeit und schließt auf die
Stetigkeit zusammengesetzter Funktionen. Daher stellen wir in den folgenden beiden Sätzen die nützlichen
Grundresultate zusammen, darunter auch ein solche, die erst später begründet werden kann, da sie die
Ableitung benutzen.
4.2.1. Grenzwertsätze.
S 27 (über Grenzwerte bei Funktionen). Es sei a ∈ R ∪ {−∞, ∞}. Es seien limx→a f (x) = b ∈ R
und limx→a g (x) = c ∈ R. Dann gilt:
1. Abteilung: Arithmetisches Rechnen mit endlichen Grenzwerten
Es seien limx→a f (x) = b ∈ R und limx→a g (x) = c ∈ R. Dann gilt:
lim αf (x) = α lim f (x)
x→a
x→a
lim (f (x) ± g (x)) = b ± c
x→a
lim (f (x) · g (x)) = b · c
x→a
lim
x→a
f (x)
g (x)
=
b
, wenn c = 0
c
2. Abteilung: Arithmetisches Verhalten von Grenzwerten einschließlich ∞
Wenn lim f(x) = ∞ und lim g(x) = c ∈ R, dann lim (f (x) + g(x)) = ∞
x→a
x→a
x→a
Wenn lim f(x) = ∞ und ∀x(0 < m < g (x)), dann lim (f (x) g (x)) = ∞
x→a
x→a
f (x)
=0
g(x)
f (x)
Wenn lim f(x) = ∞ und ∀x(0 < g (x) ≤ M ), M ∈ R, dann lim
= ∞.
x→a
x→a g(x)
Wenn ∀x |f (x)| ≤ c ∈ R und lim g (x) ∈ {−∞, ∞}, dann lim
x→a
x→a
Bemerkung: die Aussagen ∀x... in den Voraussetzungen der letzten drei Aussagen werden jeweils nur für
x ∈ U \ {a} für eine Umgebung U von a benötigt.
3. Wenn f stetig ist in a ∈ R, so ist limx→a f (x) = f(a).
64
4. REELLE FUNKTIONEN
4 . Abteilung : Regel von de L’Hospital zum arithmetischen Verhalten von Grenzwerten von
Brüchen in den problematischen Fällen (Zähler und Nenner beide gegen Null oder beide gegen ∞)
Sei a ∈ R ∪ {−∞, ∞}. Es sei lim f (x) = lim g (x) = 0 oder lim f (x) = lim g (x) = ∞.
x→a
x→a
x→a
x→a
f ′ (x)
f (x)
f (x)
f ′ (x)
= limx→a ′
existiert, dann existiert limx→a
, und limx→a
.
Wenn limx→a ′
g (x)
g (x)
g (x)
g (x)
Begründungen: Die Aussagen der 4. Abteilung werden wir erst mittels der Ableitung und theoretischer Resultate über sie beweisen können (Stichwort Mittelwertsatz). Von den Aussagen der ersten
beiden Abteilungen beweisen wir nur einige Beispiele - das Andere geht analog mit denselben Mitteln:
Zu limx→a f (x) = b und limx→a g(x) = c =⇒ limx→a (f(x)g(x)) = bc. (Die Aussage über die Summe
wurde schon in den Beispielen oben bewiesen.) Wir zeigen hier die grundlegende Strategie: Wir rollen die
Sache vom Ziel her auf, und das ist die Aussage
|f (x)g(x) − bc| < ε
für beliebig klein vorgewähltes ε > 0. Gesucht ist eine Umgebung V von a, so dass diese Ungleichung für
alle x ∈ V \{a} gilt. Wir wissen, dass wir |f (x) − b| und |g (x) − c| beliebig klein machen können für x = a
aus einer Umgebung V von a. (Zunächst getrennt, dann bilden wir den Durchschnitt der Umgebungen
und haben V , so dass beide Beträge klein sind.) Der Ausdruck |f (x)g(x) − bc| muss nun mit einem sehr
typischen Mittel, der Dreiecksungleichung auf die Ausdrücke |f (x) − b| , |g (x) − c| zurückgeführt werden.
Dazu haben wir:
|f (x)g(x) − bc| = |f (x)g (x) − bg(x) + bg(x) − bc|
≤ |f (x)g(x) − bg(x)| + |bg(x) − bc|
= |g(x)| |f (x) − b| + |b| |g (x) − c| .
Es leuchtet bereits ein, dass dies so klein wird, wie wir wollen, wenn wir |f (x) − b| , |g (x) − c| hinreichend
klein gemacht haben. Das wird deutlich, wenn wir
|g(x)| < |c| + 1
setzen, was nach Voraussetzung limx→a g(x) = c sicherlich für x = a in einer Umgebung W von a gilt.
Wir haben also
|f (x)g(x) − bc| < (|c| + 1) |f (x) − b| + |b| |g (x) − c| .
Wir wollen den Ausdruck auf der rechten Seite ≤ ε mit beliebig vorgelegtem ε > 0 bekommen. Setzen
wir
ε
ε1 := min 1,
,
2 max(|c| + 1, |b|)
so folgt aus |f (x) − b| < ε1 , |g (x) − c| < ε1 das Gewünschte:
(|c| + 1) |f (x) − b| + |b| |g (x) − d| < ε.
Nach den Voraussetzungen limx→a f(x) = b, limx→a g(x) = c haben wir aber eine Umgebung V von a,
so dass für alle x = a aus V gilt: |f (x) − b| < ε1 , |g (x) − c| < ε1 . Somit gilt |f (x)g(x) − bc| < ε für alle
x = a aus W ∩ V, und W ∩ V ist wieder eine Umgebung von a.
(x)
Zu limx→a fg(x)
= bc , wenn c = 0 und limx→a f (x) = b, limx→a g (x) = c: Man sieht schnelle, dass
1
1
limx→a g(x) = c ; denn
1
1 1 g(x) − c = cg (x) |c − g (x)| ,
für g (x) = 0. Man hat für x = a in einer Umgebung W von a: g (x) = 0, und |g (x)| > |c| − α > 0, also:
1
1 1
−
g(x) c < (|c| − α) |c| |c − g (x)| .
Nach Voraussetzung limx→a g (x) = c hat man eine Umgebung V von a, so dass für alle x ∈ V \ {a}:
|c − g (x)| < ε1 , für beliebiges ε1 > 0. Wir setzen zu beliebig vorgelegtem ε > 0: ε1 := ε ((|c| − α) |c|) und
haben damit für x ∈ W ∩ V \ {a}:
1
1 −
g(x) c < ε.
4. GRENZW ERT BEI FUNKTIONEN UND STETIGKEIT
65
1
Das Resultat für die Quotienten folgt nunmehr aus dem für die Produkte durch Anwenden auf f (x) g(x)
.
Ein Beispiel zur 2. Abteilung - es sei bemerkt, dass diese Aussagen allesamt ziemlich banal sind und
eigentlich stets intuitiv richtig gesehen werden: Wenn limx→a f (x) = ∞ und ∀x ∈ U \{a}(0 < g (x) ≤ M ),
(x)
M ∈ R, dann limx→a fg(x)
= ∞. Nach der Voraussetzung limx→a f (x) = ∞ hat man zu jeder beliebig
großen Zahl A ∈ R eine Umgebung V von a, so dass |f (x)| > A für alle x ∈ V \ {a}. Mit U aus der
Voraussetzung bilden wir W := U ∩ V und haben für alle x ∈ W \ {a}:
f (x) ≥ 1 |f (x)| ≥ A .
(∗) g (x) M
M
wir eine beliebig große Zahl B ∈ R voraus, so wählen wir dazu A > MB und haben mit (∗):
Setzen
f (x) g(x) > B.
Zur Nummer 3. bemerken wir, dass die Aussage direkt die Definition der Stetigkeit darstellt. Aber
die Aussage ist recht nützlich. Wenn man z.B. weiß, dass limx→∞ arctan (x) = π/2, so weiß man sofort:
limx→∞ ln (arctan (x)) = ln (π/2) . Vgl. auch das zweite Anwendungsbeipiel zur 4. Abteilung.
Zur 4. Abteilung zwei Anwendungsbeispiele:
Erstes Beispiel:
x
1
lim
= lim x = 0.
x→∞ ex
x→∞ e
Also dominiert exp über x1 . Das geht aber für jede Potenz von x. Sei a > 0. Dann gibt es eine natürliche
Zahl n, so dass a < n. Wir zeigen durch Induktion, dass für alle n ∈ N0 gilt:
xn
= 0.
x→∞ ex
lim
0
Induktionsanfang: limx→∞ xex = 0 ist eine banale richtige Aussage aus der 2. Abteilung.
n
Induktionsschluss: Sei n eine beliebige Zahl aus N0 , so dass limx→∞ xex = 0. Wir haben zu zeigen,
dass die Aussage dann auch für n + 1 gilt. Aber
xn+1
x→∞ ex
lim
de
(n + 1) xn
xn
=
(n
+
1)
lim
x→∞ ex
L’Hospital x→∞
ex
=
lim
=
Ind.-Vor. und Konstantenregel
(n + 1) · 0 = 0.
Genauer lautet das Argument: Da der Grenzwert auf der rechten Seite des ersten Gleichheitszeichens mit
n+1
Wert Null existiert, existiert auch limx→∞ x ex und hat den Wert Null.
Zweites Beispiel: Was ist
lim xx ?
x→0+
x
x ln(x)
Wir schreiben für x > 0: x = e
. Wir haben
ln (y)
lim (x ln (x)) = lim
y→∞
x→0+
y
=
lim
de L’Hospital y→∞
1/y
= 0.
1
Also mit den Stetigkeitsargument Nummer 3.:
lim xx = lim ex ln(x) = e0 = 1.
x→0+
x→0+
4.2.2. Stetigkeitssätze (Übertragung der Stetigkeit von Bestandteilen einer Funktion auf ihre Zusammensetzungen). Aus den erwähnten Grenzwertsätzen der ersten und dritten Abteilung folgt über den
Begriff der Stetigkeit direkt folgender
S 28. Seien f, g stetig in x0 . Dann sind auch f + g, f − g, fg in x0 stetig. Wenn außerdem
g (x0 ) = 0, so ist auch fg in x0 stetig.
Sei f stetig in x0 , g stetig in f (x0 ) . Dann ist auch g ◦ f stetig in x0 .
Zum Beweis zeigen wir die erste Aussage für den Fall f + g (die anderen gehen völlig analog, es
ist nur das Verknüpfungszeichen auszuwechseln). Zu zeigen ist: limx→x0 (f (x) + g (x)) = (f + g) (x0 ) =
f (x0 ) + g (x0 ) . Aber mit der Vertauschung von lim mit + haben wir nach Grenzwertsatz:
lim (f (x) + g (x))
x→x0
=
lim (f (x)) + lim (g (x))
Grenzwertsatz x→x0
x→x0
=
Vorauss. der Stetigkeit von f,g
f (x0 ) + g (x0 ) .
66
4. REELLE FUNKTIONEN
Zur zweiten Aussage: Zu zeigen ist: limx→x0 g (f (x)) = g (f (x0 )) . Wir haben:
lim g (f (x))
=
g lim f(x)
=
x→x0
Stetigkeit von g in f (x0 )
x→x0
Stetigkeit von f in x0 und Grenzwertsatz
g (f (x0 )) .
Dass man in vielen Fällen mit dem Begriff der Stetigkeit erst gar nicht operieren muss, garantiert folgender
S 29. Wenn f differenzierbar in x0 ist, so ist f in x0 stetig.
Diesen Satz werden wir bei der folgenden Behandlung der Ableitung einsehen.
4.3. Einige wichtige theoretische Sätze über Stetigkeit.
D
23. Eine Funktion f heißt auf [a, b] (global) stetig, wenn für alle x0 ∈ (a, b) gilt: f ist
in x0 stetig und ferner für die Ränder gilt: limx→a+ f (x) = f (a) und limx→b− f (x) = b. Eine Funktion
heißt auf (a, b) stetig, wenn f in allen x0 ∈ (a, b) stetig ist. Analog definiert man globale Stetigkeit für
halboffene Intervalle, indem man jeweils für den Rand die Bedingung wie oben hinzufügt.
D
24 (gleichmäßige Stetigkeit). Eine Funktion f heißt auf einem Intervall I gleichmäßig
stetig, wenn Folgendes gilt:
∀ε > 0∃δ > 0∀x, x0 ∈ I (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) .
Bemerkung: Das bedeutet mehr als nur die globale Stetigkeit in allen x0 ∈ I. Letztere verlangt nur,
dass man in Abhängigkeit von x0 zu jedem ε > 0 ein δ > 0 hat mit
∀x ∈ I (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) .
Gleichmäßige Stetigkeit heißt dagegen, dass man die Strategie, mit der man zu ε ein solches δ angeben
kann, unabhängig von x0 formulieren kann. Folgenden Satz geben wir ohne Beweis an:
S 30. Eine auf einem abgeschlossenen Intervall global stetige Funktion ist dort gleichmäßig stetig.
Bemerkung: Dies gilt nicht für offene oder halboffene Intervalle, z.B. ist f (x) = x1 auf (0, 1] global
stetig, aber nicht gleichmäßig stetig. Denn man kann zu x0 ∈ (0, 1] sagen: Zu ε > 0 wähle δ = min(εx0 ·
x0 /2, x0 /2). Dann gilt für x mit |x − x0 | < δ (also x > x0 /2 (!)):
1
1
− 1 = 1 |x0 − x| <
|x − x0 | < ε.
x x0 xx0
x0 · x0 /2
Damit ist f global stetig auf (0, 1]. Aber das zu ε angegebene δ hängt wesentlich von x0 ab. Tatsächlich
ist es unmöglich, ein passendes δ zu ε > 0 uniform für alle x0 aus (0, 1] anzugeben. Wählen wir z.B. ε = 12 ,
und nehmen wir an, δ > 0 wäre eine Zahl, so dass
1
− 1 <ε
x x0 für alle x0 ∈ (0, 1] und alle x mit |x − x0 | < δ. Dann hätte man mit x0 =
|x − x0 | < δ, aber
1
− 1 = 1 − 1 = 1 > 1 = ε.
x x0 2δ 4δ 2δ
2
δ
2
und x =
δ
4
natürlich
S 31 (Zwischenwertsatz). Eine auf einem Intervall I global stetige Funktion nimmt dort mit zwei
Werten a = f (x1 ) und b = f (x2 ) > a, x1 , x2 ∈ I, auch jeden Zwischenwert c mit a < c < b an. Es gibt
also zu jeder solchen Zahl c eine Zahl x0 ∈ I mit f (x0 ) = c.
Beweisidee: Nehmen wir an, es sei x1 < x2 mit f(x1 ) = a, f (x2 ) = b. Dann hat die Menge
{ x ∈ [x1 , x2 ]| f (x) ≤ c} die obere Schranke x2 , also eine kleinste obere Schranke in R (axiomatische
Grundeigenschaft von R (!)). Nennen wir diese x0 . Damit gibt es eine Folge (an )n von Zahlen aus [x1 , x2 ],
so dass limn→∞ (f (an )) = c. Nun hat die Folge (an )n eine konvergente Teilfolge (ank )k , deren Grenzwert
x0 in [x1 , x2 ] liegen muss. Damit gilt auch limk→∞ f (ank ) = c. Aber wegen der Stetigkeit von f gilt
limk→∞ f (ank ) = f (x0 ) . Somit f (x0 ) = c. (Im Falle x1 > x2 kann man völlig analog mit einer größten
unteren Schranke argumentieren.)
5. ABLEITUNG REELLER FUNKTIONEN (EINDIM ENSIONALER FALL)
67
S 32. Eine auf [a, b] stetige Funktion f nimmt auf diesem Intervall ein absolutes Maximum und
ein absolutes Minimum an. Das heißt: Es gibt x1 ∈ [a, b], so dass für alle x ∈ [a, b] : f (x) ≤ f (x1 ). Und
es gibt x2 ∈ [a, b], so dass für alle x ∈ [a, b] : f(x) ≥ f(x1 ). Es folgt insbesondere, dass die Menge der
Werte von f auf [a, b] (nach oben und nach unten) beschränkt ist.
Bemerkung: Dieser Satz bildet den Ausgangspunkt des überaus wichtigen Mittelwertsatzes der
Differentialrechnung, den wir im nächsten Abschnitt kennenlernen werden.
Beweisidee (für das Maximum, für das Minimum kann man zu −f übergehen und die Existenz eines
absoluten Maximums benutzen): Die Menge der Werte { f (x)| x ∈ [a, b]} ist nach oben beschränkt. Sonst
gäbe es eine Folge von Zahlen (an )n , an ∈ [a, b] für alle n, so dass limn→∞ f (an ) = ∞. Aber diese Folge
hat auf dem abgeschlossenen Intervall eine konvergente Teilfolge (ank )k . Somit limk→∞ ank = x0 ∈ [a, b],
mit der Stetigkeit von f also limk→∞ f (ank ) = f (x0 ) , im Widerspruch zu limn→∞ (f (an )n ) = ∞, woraus
auch limk→∞ f (ank ) = ∞ folgen würde. Als nach oben beschränkte Menge hat nun { f (x)| x ∈ [a, b]}
eine kleinste obere Schranke, nennen wir sie M. Damit gibt es wieder mit ähnlichem Argument eine
konvergente Folge (bn )n von Zahlen aus [a, b], so dass limn→∞ f (bn ) = M, aber limn→∞ bn = x1 ∈ [a, b],
und nach Stetigkeit hat man f (x1 ) = M. Somit wird in x1 das absolute Maximum angenommen.
5. Ableitung reeller Funktionen (eindimensionaler Fall)
5.1. Erste Motivierung: Lokale Steigung einer Funktion. Eine Durchschnittsgeschwindigkeit
bei einer eindimensionalen Bewegung während der Zeitspanne von t0 bis t1 > t0 rechnet man so aus s (t) ist der Ort zur Zeit t (auf der Zahlengeraden):
v [t0 ,t1 ] =
s (t1 ) − s (t0 )
.
t1 − t0
Wir rechnen mit einer sich ständig ändernden Geschwindigkeit. Dann fragt sich: Was ist unter der Momentangeschwindigkeit v (t0 ) zum genauen Zeitpunkt t0 zu verstehen? Für eine praktische Messung werden
wir einfach nur das Intervall [t0 , t1 ] sehr klein wählen, also t1 = t0 + ∆t, mit sehr kleiner Zahl ∆t und
sagen: v (t0 ) ≈ v[t0 ,t0 +∆t] . Ungefähr, nicht exakt, und wir werden mit kleineren Daher die mathematische Idee zu folgender exakten Definition der Momentangeschwindigkeit: v (t0 ) = lim∆t→0 s(t+∆t)−s(t)
.
∆t
Gemeint ist der beidseitige Limes, also ist das Vorzeichen von ∆t beliebig.
Wir gehen zum Allgemeinen über. Es sei f eine Funktion, welche in einem offenen Intervall um x0
definiert ist. Dann ist
f (x0 + ∆x) − f (x0 )
die mittlere Steigung von f auf dem Intervall [x0 , x0 + ∆x] bzw.
∆x
bei negativem ∆x auf dem Intervall [x0 + ∆x, x0 ],
anschaulich die Steigung der Sekante des Graphen von f durch die Punkte
(x0 , f (x0 )) und (x0 + ∆x, f (x0 + ∆x)) , und
f (x0 + ∆x) − f (x0 )
lim
(wenn dieser Grenzwert existiert) ist die Steigung der Tangente
∆x→0
∆x
an den Graphen von f im Punkt (x0 , f (x0 )) , vgl. folgende Abbildung :
68
4. REELLE FUNKTIONEN
Schwarze Kurve: Graph von f
Rot: Tangente, schwarz: Sekante
Steigung: Ableitung von f in x0
Steigung (f(x0+∆x)-f(x0))/∆x
x0
x0+∆ x
Man beachte: es handelt sich genau um den im vorigen Abschnitt eingeführten Grenzwertbegriff bei
Funktionen, nur lautet die unabhängige Variable ∆x oder bei unabhängiger Variablen t der Funktion f
dann ∆t usw., weil man an beliebig kleine Beträge denkt - es wird der Grenzwert für ∆x → 0 gebildet.
Wir fassen die Haultsache in folgender Definition zusammen:
D
25. Sei f in einer (beidseitigen!) Umgebung von x0 definiert. Dann ist
f ′ (x0 ) := lim
∆x→0
f (x0 + ∆x) − f (x0 )
, falls dieser Grenzwert in R existiert.
∆x
f ′ (x0 ) heißt Ableitung von f an der Stelle x0 . Wenn der genannte Grenzwert nicht existiert oder ±∞
ist, so heißt f an der Stelle x0 nicht ableitbar oder nicht differenzierbar.
(x0 )
Bemerkung: f ′ (x0 ) existiert also genau dann, wenn die Funktion g (∆x) = f(x0 +∆x)−f
im Punkt
∆x
∆x = 0 stetig ergänzbar ist. Klar muss dafür auch der Zähler mit ∆x → 0 gegen Null gehen, und zwar
nicht langsamer als der Nenner ∆x.
Einige Beispiele für Existenz und Nichtexistenz von Ableitungen, unter direkter Anwendung der Definition:
1.) f (x) = sin (x) , x0 ∈ R. Wir behaupten:
sin′ (x0 ) = cos (x0 ) .
Dazu bilden wir
sin (x0 + ∆x) − sin (x0 )
∆x
sin (x0 ) cos (∆x) + cos (x0 ) sin (∆x) − sin (x0 )
∆x
(cos (∆x) − 1)
sin (∆x)
= sin (x0 )
+ cos (x0 )
∆x
∆x
−2 sin2 (∆x/2)
sin (∆x)
= sin (x0 )
+ cos (x0 )
.
2∆x/2
∆x
=
Also
sin (x0 + ∆x) − sin (x0 )
∆x→0
∆x
lim
−2 sin2 (∆x/2)
sin (∆x)
+ cos (x0 ) lim
∆x→0
∆x→0
2∆x/2
∆x
= sin (x0 ) · 0 + cos (x0 ) · 1
= cos (x0 ) .
= sin (x0 ) lim
5. ABLEITUNG REELLER FUNKTIONEN (EINDIM ENSIONALER FALL)
69
Dabei haben wir die zuvor bewiesenen arithmetischen Eigenschaften des Grenzwerts benutzt sowie
das bereits hergeleitete Resultat lim∆x→0 sin(∆x)
= 1. Aus diesem folgt auch sofort:
∆x
−2 sin2 (∆x/2)
− sin2 (∆x/2)
sin (∆x/2)
= lim
= lim
− sin (∆x/2)
= 0 · 1 = 0.
lim
∆x→0
2∆x/2
∆x/2→0
∆x/2
∆x/2→0
∆x/2
2.) Wir behaupten, dass die Funktion f (x) = |x| in x0 = 0 nicht differenzierbar ist. (Anschaulich ist
das auch klar, weil der Graph in x0 = 0 eine Ecke hat, also keine Tangente an den Graphen in diesem
Punkt existieren kann.) Dazu bilden wir
|0 + ∆x| − |0|
∆x→0+
∆x
|0 + ∆x| − |0|
lim
∆x→0−
∆x
lim
∆x
= 1,
∆x→0+ ∆x
−∆x
=
= −1.
∆x
=
lim
Da beide einseitigen Grenzwerte verschieden sind, kann der beidseitige lim∆x→0 |0+∆x|−|0|
nicht existieren.
∆x
f ′ (0) existiert also nicht. Man beachte aber, dass f in x0 stetig ist. Wir werden im nächsten Unterabschnitt
sehen, dass umgekehrt Differenzierbarkeit in x0 Stetigkeit in x0 erzwingt. Damit haben wir natürlich, dass
eine Funktion insbesondere an Unstetigkeitsstellen nicht differenzierbar sein kann.
3.) Wir setzen voraus, dass exp(x) = ex in x0 = 0 differenzierbar ist mit exp′ (0) = 1.Wir wollen
zeigen, dass dann für alle x0 ∈ R folgt: exp′ (x0 ) = exp (x0 ) . Wir haben
0+∆x
ex0 +∆x − ex0
− e0
e0+∆x − e0
x0 e
lim
= lim e
= ex0 lim
= ex0 exp′ (0) = ex0 .
∆x→0
∆x→0
∆x→0
∆x
∆x
∆x
Mehr können wir erst in Mathematik B mit den Potenzreihen ausrichten.
Wir haben damit den ersten Teil des angegebenen Programms begonnen, die Ableitungen der Grundfunktionen bereitzustellen. Daher geben wir nunmehr eine vollständige Liste der Ableitungen unserer
grundlegenden Funktionen (fehlende Begründungen liefern wir nach, sobald wir die Ableitungsregeln zur
d
(Rechenausdruck(x))’, die
Verfügung haben). In dieser Liste verwenden wir die praktische Notation ’ dx
es erspart, immer zuerst einen Namen für die Funktion einzuführen. Beispielsweise heißt die erste Zeile:
Für f (x) = xa gilt f ′ (x) = axa−1 . - In anderen Fällen liegt ein Name der Funktion bereits vor, so
d
ln (x) = x1 ’. Übrigens hat diese Notation auch gerade in
dass ’ln′ (x) = x1 ’ eben praktischer ist als ’ dx
naturwissenschaftlich-technischer Anwendung großen Nutzen, sie bei Anwesenheit von äußeren Paramed
tern sofort klarstellt, nach welcher unabhängigen Variablen abgeleitet wird, etwa dt
(αet ) = αet .)
Grundableitungen :
d a
x = axa−1
dx
d x
e = ex
dx
1
ln′ (x) =
x
sin′ (x) = cos (x)
cos′ (x) = − sin (x)
1
arctan′ (x) =
1 + x2
Glücklicherweise braucht man nun nicht für jede Funktion eine solche Prozedur wie oben erneut durchzuführen, den Limes eines Differenzenquotienten zu bestimmen. Stattdessen verfährt man viel praktischer
so: Aus unseren wenigen Grundfunktionen werden alle weiter wichtigen aufgebaut durch die arithmetischen Operationen sowie die Verkettung (Hintereinanderschaltung). Man kennt die Ableitungen der
Grundfunktionen und baut aus diesen nach den sogenannten Ableitungsregeln die Ableitung beliebiger
damit aufgebauter Funktionen zusammen. Das Ganze ist dann der sogenannte Ableitungskalkül, der im
dritten Unterabschnitt folgen wird. Zuvor aber werden wir eine zweite wichtige Motivierung bringen,
die anschließend auch weiter tragfähig sein wird als die erstere, die zudem die in naturwissenschaftlichtechnischer Hinsicht wichtigere ist. Außerdem hat sie den Vorteil, dass sie mit ihrer neuen Version der
Ableitung die Ableitungsregeln für Zusammensetzungen von Funktionen leichter herzuleiten gestattet.
70
4. REELLE FUNKTIONEN
5.2. Zweite Motivierung: Lineare Näherung einer Funktion in einer kleinen Umgebung
von x0 . Wir stellen uns vor, dass wir die Werte einer schwierige Funktion f , denken wir etwa an sin,
näherungsweise in einer kleinen Umgebung von x0 ausrechnen wollen, bei bekanntem Wert f (x0 ) an der
Stelle x0 . Im Beispiel sin wählen wir x0 = 0 und kennen sin (0) = 0. Wie ist also sin (∆x) für kleine |∆x|
vernünftig zu nähern?
Die Idee ist es, f (x0 + ∆x) als Funktion von ∆x durch eine besonders einfache Funktion anzunähern, deren Werte man problemlos ausrechnen kann. Nun sind die einfachsten Funktionen die Polynome,
welche dies Merkmal haben. Unter ihnen sind die allereinfachsten die Konstanten (des Grades 0) und
die Polynome 1. Grades. Diese werden wir hier verwenden. Später werden die Polynome höheren Grades herangezogen werden und zur Potenzreihendarstellung führen. Hier geht es um die Näherung ersten
Grades, oder auch erster Ordnung, die technisch-wissenschaftlich sehr wichtig ist. Gerade sie ist mit der
Ableitung verbunden. Zum besseren Verständnis beginnen wir aber mit der Näherung 0. Ordnung, durch
eine Konstante.
Es ist klar, dass man grob sagen wird: f (x0 + ∆x) ≈ f (x0 ) . Die sich anbietende Konstante ist also
allein f (x0 ) . Aber damit das vernünftig ist, muss gelten: Wenn ∆x einen hinreichend kleinen Betrag
hat, so wird auch der Unterschied zwischen f (x0 + ∆x) und f (x0 ) klein. Verschärft man Letzteres zu:
’so klein, wie man möchte’, dann hat man genau die Bedingung der Stetigkeit von f an der Stelle x0 .
Bei jeder Art von Näherung wird man systematisch nach dem Fehler fragen, und so führen wir nun ein
Fehlerglied ein, indem wir aus der ’Ungefähr’-Gleichung eine Gleichung machen. Wir setzen:
f (x0 + ∆x) = f (x0 ) + R (∆x) .
R (∆x) ist also definiert durch f (x0 + ∆x) − f (x0 ) , es ist das Restglied oder Fehlerglied. Nun definieren
wir:
D
26 (und Satz: Näherung 0. Ordnung). Sei f in x0 stetig. Dann existiert die Näherung
0. Ordnung von f um x0 , definiert durch
f (x0 + ∆x) = f (x0 ) + R (∆x)
und die Restgliedbedingung 0. Ordnung:
lim R (∆x) = 0.
∆x→0
Die Näherung 0. Ordnung von f um x0 lautet
f (x0 + ∆x)
≈
0. O rdnung
f (x0 ) .
Die Konstante ist durch die Restgliedbedingung eindeutig als f (x0 ) bestimmt.
Für das Behauptete ist wenig zu beweisen: R (∆x)∆x→0 = 0 ist eine unmittelbare Umformulierung
der Stetigkeit von f in x0 , und bei Näherung durch eine Konstante c = x0 hätte man:
Rc (∆x) = f (x0 + ∆x) − c, also
lim Rc (∆x) = lim f (x0 + ∆x) − c = f (x0 ) − c = 0.
∆x→0
∆x→0
Wir gehen nunmehr über zur Näherung 1. Ordnung, also durch eine lineare Funktion, ein Polynom 1.
Grades. Setzen wir ein solches allgemein an und schreiben die Gleichung mit Restglied:
f (x0 + ∆x) = a + b∆x + Rc,d (∆x) .
Nun soll diese Näherung sicher nicht schlechter werden als die Näherung 0. Ordnung. Insbesondere sollte
also lim∆x→0 Rc,d (∆x) = 0 sein. Das erzwingt aber: c = f (x0 ) , da das Glied b∆x gegen Null geht für
∆x → 0. Somit schreiben wir:
f (x0 + ∆x) = f (x0 ) + b∆x + Rb (∆x) .
Nun stellen wir fest, dass wir nicht weiterkommen, wenn wir bei der Restgliedbedingung 0. Ordnung
bleiben: Sie wäre für Rb mit jeder Zahl b erfüllt. Natürlich soll die Näherung 1. Ordnung besser werden als
die Näherung 0. Ordnung. Wir werden nunmehr in der folgenden Definition die entsprechend verschärfte
Resttermbedingung 1. Ordnung formulieren und ein Eindeutigkeitsresultat für b erhalten:
5. ABLEITUNG REELLER FUNKTIONEN (EINDIM ENSIONALER FALL)
71
D
27 (Tangentenzerlegung und Näherung 1. Ordnung). Sei f in einer Umgebung von x0
definiert. Dann heißt eine Zerlegung
f (x0 + ∆x) = f (x0 ) + b∆x + Rb (∆x)
mit b ∈ R genau dann Tangentenzerlegung für f um die Stelle x0 , wenn der Restterm Rb die folgende
Resttermbedingung 1. Ordnung erfüllt:
Rb (∆x)
= 0.
∆x
Eine solche Zerlegung existiert genau dann, wenn f ′ (x0 ) existiert, und b ist dann eindeutig bestimmt
durch
b = f ′ (x0 ) .
Wenn die Tangentenzerlegung von f um x0 existiert, so hat man folgende Näherung 1. Ordnung:
lim
∆x→0
f (x0 + ∆x)
≈
1. O rdnung
f (x0 ) + f ′ (x0 ) ∆x.
Die optimale Steigung für die Wahl einer f um x0 approximierenden linearen Funktion ist also die
Tangentensteigung, die Ableitung. Existiert diese nicht, so hat man keine sinnvolle Näherung 1. Ordnung.
Zur Begründung haben wir nur die Existenz einer Tangentenzerlegung vorauszusetzen und dann
umzuschreiben zu
f (x0 + ∆x) − f (x0 )
Rb (∆x)
=b+
.
∆x
∆x
Nun lassen wir ∆x gegen Null gehen, die rechte Seite geht nach Voraussatzung gegen b, die linke hat also
auch einen Grenzwert, und der ist b. Somit hat man nach Definition der Ableitung als Grenzwert von Differenzenquotienten: f ′ (x0 ) existiert und ist gleich b. Setzen wir umgekehrt die Existenz von f ′ (x0 ) voraus
(x0 )
= f ′ (x0 ) auch, dass der Restterm Rf ′ (x0 ) (∆x) die
und setzen b = 0, so folgt aus lim∆x→0 f (x0 +∆x)−f
∆x
Resttermbedingung 1. Ordnung erfüllt, weil
Rf ′ (x0 ) (∆x)
f (x0 + ∆x) − f (x0 ) − f ′ (x0 ) ∆x
f (x0 + ∆x) − f (x0 )
=
=
− f ′ (x0 ) ,
∆x
∆x
∆x
also
Rf ′ (x0 ) (∆x)
f (x0 + ∆x) − f (x0 )
lim
= lim
− f ′ (x0 ) = 0.
∆x→0
∆x→0
∆x
∆x
Also existiert dann die Tangentenzerlegung und lautet
f (x0 + ∆x) = f (x0 ) + f ′ (x0 ) ∆x + Rf ′ (x0 ) (∆x) .
Hier ist zur Veranschaulichung ein Bild von der Sache (im Beispiel hat R (∆x) einen negativen Wert):
Schwarze Kurve: Graph von f
Rote Gerade: Näherung 1. Ordnung um x0
R(∆ x)
x0
x0+∆ x
72
4. REELLE FUNKTIONEN
Beispiele für Tangentenzerlegungen und Näherung 1. Ordnung
1.) Näherung 1. Ordnung von sin (∆x) (für kleine |∆x|):
sin (∆x) = sin (0 + ∆x) ≈ sin (0) + sin′ (0) ∆x = ∆x.
1 Dies können wir natürlich dann auch so formulieren,
dass
sin
(x)
≈
x
für
kleine
|x|
.
Daher
ist
sin
100
1 1
1
etwa 100
, tatsächlich ist (Computernäherung) sin 100
− 100
etwa −1.67 · 10−7 . Man beachte: Es ist nicht
der Sinn des Restterms, ihn auszurechnen, sondern ihn nach oben abzuschätzen, was wir später mittels
Integralrechnung tun werden. Die volle Tangentenzerlegung ist dann
sin (∆x) = ∆x + R (∆x) ,
mit lim∆x→0 R(∆x)
∆x = 0.
2.) Näherung 1. Ordnung für ex für kleine |x| ist 1 + x; denn:
e∆x = e0+∆x ≈ e0 + exp′ (0) ∆x = 1 + ∆x.
Wir leiten nunmehr die wichtigen Ableitungsregeln (in Beispielen) her und sehen dabei, dass die
Version der Tangentenzerlegung dafür sehr nützlich ist.
5.3. Ableitungsregeln für Verknüpfungen von Funktionen. Wir stellen diese Ableitungsregeln zunächst vor und leiten die schwierigeren anschließend her.
(f + g)′ = f ′ + g′
Linearität der Ableitung :
(αf)′ = αf ′
(fg)′ = f ′ g + g ′ f
′
f
f ′g − g′f
=
g
g2
Produktregel :
Quotientenregel
:
Kettenregel
:
Umkehrfunktionsregel
:
(g ◦ f)′ = f ′ (g′ ◦ f ).
−1 ′
1
f
(f (x0 )) = ′
(wenn f ′ (x0 ) = 0).
f (x0 )
Die Gleichungen sind genau so zu lesen: Wenn die auf der rechten Seite vorkommenden Ableitungen
existieren, so existiert die Ableitung auf der linken Seite, und beide sind gleich. Ferner stehen hier abstrakt Funktionengleichungen, die eben die Gleichung allgemein für einzusetzende unabhängige Variable
x0 bedeuten. So bedeutet die Kettenregel konkreter gefasst: Wenn f ′ (x0 ) und g′ (f (x0 )) existieren, so
existiert (g ◦ f )′ (x0 ) , und es gilt: (g ◦ f )′ (x0 ) = f ′ (x0 ) g′ (f (x0 )) .
Beispiele zur Anwendung der Regeln:
′
tan =
sin
cos
′
=
cos2 + sin2
1
=
= 1 + tan2 .
cos2
cos2
Konkreter mit ’von’-Klammern geschrieben:
tan′ (x) =
d sin (x)
cos (x) · cos (x) − sin (x) (− sin (x))
1
=
=
= 1 + tan2 (x) .
dx cos (x)
cos2 (x)
cos2 (x)
d
sin5 (x) = cos (x) · 5 sin4 (x) , Erläuterung: Wir haben hier
dx
sin5 (x) = g (f (x)) mit f (x) = sin (x) und g (x) = x5 . Also
f ′ (x) = cos (x) und g′ (x) = 5x4 , daher g′ (f (x)) = 5 sin4 (x) .
d 2
x
x +1= √
dx
x2 + 1
5. ABLEITUNG REELLER FUNKTIONEN (EINDIM ENSIONALER FALL)
73
Abschließend noch zwei typische Anwendungen der Umkehrregel, welche zwei zu merkende Grundableitungen ergeben:
1
1
ln′ (ex ) =
für alle x ∈ R, also ln′ (x) = für alle x > 0.
ex
x
π π
1
1
arctan′ (tan (x)) =
=
,
für
alle
x
∈
− ,
, also
tan′ (x)
2 2
1 + tan2 (x)
1
arctan′ (x) =
für alle x ∈ R.
1 + x2
Zu den Begründungen der Ableitungsregeln: Wir nehmen uns lediglich ein paar der interessanteren Beispiele vor, als ein einfacheres die Produktregel und als schwierigeres die Kettenregel. Die Technik
besteht einfach darin, die vorauszusetzenden Tangentenzerlegungen (aufgrund der Ableitbarkeitsvoraussetzungen) einzusetzen.
Zur Produktregel: Seien f und g in x0 differenzierbar. Dann behaupten wir, dass auch fg an dieser
′
Stelle differenzierbar ist und dass gilt: (f g) (x0 ) = f ′ (x0 ) g (x0 ) + g′ (x0 ) f (x0 ) . Nach Voraussetzung
haben wir mit Resttermen R, S, welche die Resttermbedingung 1. Ordnung erfüllen:
(f g) (x0 + ∆x) = f (x0 + ∆x) g (x0 + ∆x)
= (f (x0 ) + f ′ (x0 ) ∆x + R (∆x)) (g (x0 ) + g ′ (x0 ) ∆x + S (∆x))
= f (x0 ) g (x0 ) + (f (x0 ) g ′ (x0 ) + f ′ (x0 ) g(x0 ))∆x + f (x0 ) S (∆x) + g (x0 ) R (∆x)
+f ′ (x0 ) ∆xS (∆x) + g ′ (x0 ) ∆xR (∆x) + R (∆x) S (∆x)
= (f g) (x0 ) + (f (x0 ) g′ (x0 ) + f ′ (x0 ) g(x0 ))∆x + T (∆x) ,
wobei der Term T (∆x) offenbar die Resttermbedingung 1. Ordnung erfüllt. (Man wende nur auf jeden Summanden von T (∆x) /∆x die Grenzwertsätze zum arithmetischen Verhalten von Grenzwerten
an.) Daher schließen wir, dass der Faktor bei ∆x die Ableitung ergibt. Das ist genau die angegebene
Produktregel.
Zur Kettenregel: Sei f in x0 differenzierbar, g in f (x0 ) differenzierbar. Nunmehr schreiben wir in
den demnach existierenden Tangentenzerlegungen:
) (∆x) ,
f (x0 + ∆x) = f (x0 ) + f ′ (x0 ) ∆x + ∆xR
) (∆x) = 0.
mit lim R
∆x→0
Dabei haben wir lediglich für den ursprünglichen Restterm R (∆x) mit der Eigenschaft lim∆x→0 R (∆x) /∆x =
) (∆x) := R (∆x) /∆x. Damit haben wir R (∆x) = ∆xR
) (∆x) und lim∆x→0 R
) (∆x) = 0. Das0 gesetzt: R
selbe tun wir für die zweite vorauszusetzende Tangentenzerlegung:
g (f (x0 ) + ∆y) = g (f (x0 )) + g′ f (x0 ) + ∆y S) (∆y) ,
mit lim S) (∆y) = 0.
∆y→0
Nunmehr haben wir
) (∆x)
(g ◦ f) (x0 + ∆x) = g (f (x0 + ∆x)) = g f (x0 ) + f ′ (x0 ) ∆x + ∆xR
) (∆x) )
= g(f (x0 )) + g′ (f (x0 )) ∆y + ∆y S) (∆y) (mit ∆y := f ′ (x0 ) ∆x + ∆xR
) (∆x) + f ′ (x0 ) ∆x + ∆xR
) (∆x) S) (∆y)
= g (f (x0 )) + g ′ (f (x0 )) f ′ (x0 ) ∆x + g ′ (f (x0 )) ∆xR
Das hat die gewünschte Form der Tangentenzerlegung, nachzuprüfen ist nur, ob der Restterm
) (∆x) + f ′ (x0 ) ∆x + ∆xR
) (∆x) S) (∆y)
T (∆x) := g ′ (f (x0 )) ∆xR
die Resttermbedingung 1. Ordnung erfüllt. Dafür genügt es nach Grenzwertsatz, dass beide Summanden
von T (∆x) es tun. Zum ersten:
) (∆x)
g ′ (f (x0 )) ∆xR
) (∆x) = g ′ (f (x0 )) lim R
) (∆x) = 0,
= lim g ′ (f (x0 )) R
∆x→0
∆x→0
∆x→0
∆x
) (∆x) = 0.
da lim R
lim
∆x→0
74
4. REELLE FUNKTIONEN
) (∆x) und somit
Zum zweiten: Beachten wir, dass ∆y = f ′ (x0 ) ∆x + ∆xR
lim ∆y = 0,
∆x→0
so haben wir:
lim
=
lim
) (∆x) S) (∆y)
f ′ (x0 ) + R
∆x→0
∆x
)
)
)
lim f (x0 ) S (∆y) + lim R (∆x) S (∆y) = 0 + 0 = 0.
∆x→0
=
) (∆x) S) (∆y)
f ′ (x0 ) ∆x + ∆xR
∆x→0
′
∆x→0
Zur Quotientenregel sieht man mit der Kettenregel und der Grundableitung
d a
dx x
= axa−1 ein:
−g ′ (x)
d 1
d
=
(g (x))−1 = −g ′ (x) (g (x))−2 = 2
,
dx g (x)
dx
g (x)
anschließend bekommt man mit der Produktregel die volle Quotientenregel:
d f (x)
1
d 1
f ′ (x) f (x) g′ (x)
f ′ (x) g (x) − g ′ (x) f (x)
= f ′ (x)
+ f (x)
=
−
=
.
dx g (x)
g (x)
dx g (x)
g (x)
g 2 (x)
g2 (x)
d a
Zur Grundableitung dx
x = axa−1 verwenden wir die Ableitung von exp und wiederum die Kettenregel
- setze x > 0 voraus, so dass ln (x) gebildet werden kann:
d a
d a ln(x)
a
a
x =
e
= ea ln(x) = xa = axa−1 .
dx
dx
x
x
Zur Umkehrfunktionsregel wollen wir nur darauf hinweisen, dass bei Existenz einer Tangente an den
Graphen von f im Punkt (x0 , f (x0 )) sicherlich auch der Graph der Umkehrfunktion (der durch Spiegelung
an y = x hervorgeht!) an dem Spiegelungspunkt (f (x0 ) , x0 ) eine Tangente besitzt und dass natürlich die
′
1
(Bedingung
Steigung der letzteren der Kehrwert der Steigung der ersteren ist. Also f −1 (f (x0 )) = f ′ (x
0)
′
natürlich: f (x0 ) = 0. Oder (wiederum nach Existenzvoraussetzung) mit der Kettenregel: Wir haben mit
der Funktion id (x) = x:
′
′
′
1
.
1 = id′ (x0 ) = f −1 ◦ f (x0 ) = f ′ (x0 ) f −1 (f (x0 )) , also f −1 (f(x0 )) = ′
f (x0 )
6. Grundlegende Resultate im Zusammenhang mit Ableitungen
Das erste der folgenden Resultate ist das wohlbekannte über lokale Extrema. Aber die nachfolgenden
sind von noch allgemeinerer fundamentaler Bedeutung und sehr oft mit großem Gewinn anzuwenden.
S 33 (notwendige Bedingung für lokale Extrema). Es sei f in einer (beidseitigen!) Umgebung von
x0 definiert und es existiere f ′ (x0 ) . Dann gilt:
f hat in x0 ein lokales Extremum =⇒ f ′ (x0 ) = 0.
Bemerkungen zur Anwendung des Satzes:
1.) Der Satz sagt überhaupt nichts aus über Stellen, an denen eine Funktion nicht differenzierbar
ist. Zum Beispiel hat f (x) = |x| in x0 = 0 ein absolutes strenges Minimum, aber das bekommt man
nicht mit der Ableitung zu sehen, weil diese in x0 = 0 gar nicht existiert. Allenfalls könnte man zur
differenzierbaren Funktion f 2 (x) = x2 übergehen.
2.) Der Satz sagt nichts aus über Extrema am Rande eines Definitionsintervalls (Randextrema). Zum
Beispiel hat f : [1, 3] → R, f (x) = x2 , ein absolutes Minimum bei x0 = 1 und ein absolutes Maximum
bei x1 = 3, aber die (einseitig gebildeten) Ableitungen sind eben nicht Null.
3.) Man denke daran, dass die Nullstellen der Ableitung einer differenzierbaren Funktion nur erst
Kandidaten für Extremstellen ergeben und dass diese Kandidaten weiter zu prüfen sind - der Satz
besagt eben nicht, dass eine Nullstelle der Ableitung eine Extremstelle ergibt. Einfachstes Gegenbeispiel:
f (x) = x3 hat in x0 = 0 kein lokales Extremum, aber f ′ (x0 ) = 0. Der praktische Nutzen des Satzes
ist dennoch immens: Es bleiben im Allgemeinen nur wenige Kandidaten übrig, die zu prüfen sind. Wie
ist diese Prüfung vorzunehmen? Es gibt mehrere Wege. In den meisten Fällen ist es am besten, den
Graphen der Funktion qualitativ herauszubekommen und daher einen Überblick darüber zu haben, wie
viele Extremstellen (und von welcher Art) es minimal geben muss. Liefert die Ableitung dann nicht mehr
Kandidaten, so ist man fertig. Eine zweite gute Möglichkeit, wenn (wie fast immer) die Funktion in einer
6. GRUNDLEGENDE RESULTATE IM ZUSAM M ENHANG MIT ABLEITUNGEN
75
ganzen Umgebung von x0 differenzierbar ist: Wenn die Ableitung an der Stelle x0 einen Vorzeichenwechsel
macht, so liegt ein Extremum vor (von plus nach minus: Maximum, sonst Minimum). Wechselt die
Ableitung indessen nicht ihr Vorzeichen, so liegt ein Wendepunkt mit horizontaler Tangente vor. Es sei
bemerkt, dass der Weg über die zweite Ableitung fast stets viel schlechter ist - das liegt vor allem daran,
dass die zweite Ableitung normalerweise viel komplizierter ist als die erste, hier täuscht das Verhalten
der Polynome stark. Es kommt hinzu, dass auch die zweite Ableitung keine Entscheidung bringen muss
und dass sie auch noch stetig in einer Umgebung existieren muss. Schließlich benötigt man stärkere
Voraussetzungen, dass nämlich die zweite Ableitung existiert und zudem noch stetig in einer Umgebung
von x0 ist.
Beweis des Satzes: f habe in x0 ein lokales Maximum (für Minima kann man völlig analog argumentieren). Wir haben für ein δ > 0: ∀x (|x − x0 | < δ =⇒ f (x) ≤ f (x0 )) . Dann gilt für alle Differenzenquotienten mit |∆x| < δ:
f (x0 + ∆x) − f (x0 )
∆x
f (x0 + ∆x) − f (x0 )
∆x
Es folgt mit der Monotonie des Grenzwertes:
f (x0 + ∆x) − f (x0 )
≤ 0,
∆x
Nun existiert aber f ′ (x0 ) , also
lim
∆x→0+
≥ 0 für ∆x < 0,
≤ 0 für ∆x > 0.
lim
∆x→0−
f (x0 + ∆x) − f (x0 )
≥ 0.
∆x
f (x0 + ∆x) − f (x0 )
f (x0 + ∆x) − f (x0 )
f (x0 + ∆x) − f (x0 )
= lim
= lim
.
∆x→0+
∆x→0−
∆x
∆x
∆x
Es folgt: f ′ (x0 ) ≤ 0 und f ′ (x0 ) ≥ 0. Somit f ′ (x0 ) = 0.
f ′ (x0 ) = lim
∆x→0
S 34 (Mittelwertsatz). Wenn a < b und f auf [a, b] stetig ist und auf (a, b) differenzierbar, dann
existiert eine Zahl ξ ∈ (a, b) mit
f (b) − f (a)
= f ′ (ξ) .
b−a
Der Satz besagt also, dass die mittlere Steigung von f auf [a, b] auch an mindestens einer Stelle im
Innern des Intervalls lokal realisiert ist.
Beweis:
1. Schritt: Beweis des Satzes unter der Zusatzvoraussetzung f (a) = f(b). In diesem Fall ist die mittlere
Steigung auf [a, b] Null. Also wird eine Zahl ξ ∈ (a, b) gesucht, für die f ′ (ξ) = 0 wird. Mit dem Satz
über die Existenz von absoluten Maxima und absoluten Minima einer stetigen Funktion auf [a, b] haben
wir aber ein absolutes Maximum oder Minimum von f auf [a, b] an einer Stelle ξ ∈ (a, b). Denn wegen
f (a) = f (b) ist entweder f konstant auf [a, b]; dann können wir jede Zahl ξ ∈ (a, b) wählen. Oder aber
es gibt ein x ∈ (a, b) mit f (x) < f (a) oder f (x) > f (a) . Im ersten Fall gibt es ein absolutes Minimum
im Innern, im zweiten ein absolutes Maximum im Innern. Es folgt, dass f ein lokales Extremum in (a, b)
besitzt, sagen wir an einer Stelle ξ ∈ (a, b), und nach dem vorigen Satz gilt dann f ′ (ξ) = 0.
2. Schritt: Verallgemeinerung auf beliebige Werte von f an den Rändern: Wir definieren eine neue
Funktion g durch
f (b) − f (a)
g (x) := f (x) − f (a) −
(x − a)
b−a
(von f wird die Sekante durch (a, f (a)) und (b, f (b)) abgezogen!) und stellen fest: g (a) = g (b) = 0.
Ferner ist g wiederum stetig auf [a, b] (da mit +, · aus auf [a, b] stetigen Funktionen aufgebaut) und
differenzierbar auf (a, b) (nach den Ableitungsregeln). Somit kann das Resultat vom ersten Schritt auf g
angewandt werden und liefert eine Zahl ξ ∈ (a, b), so dass
g ′ (ξ) = 0, aber
f (b) − f (a)
, also
b−a
f (b) − f (a)
.
b−a
g ′ (ξ) = f ′ (ξ) −
f ′ (ξ) =
76
4. REELLE FUNKTIONEN
Wir besprechen nunmehr einige sehr wichtige Folgerungen aus dem Mittelwertsatz. Zuerst kommt
ein weiteres allgemeines Resultat heraus, das eine gute Methode ergibt, Abschätzungen herzuleiten.
S 35 (Satz vom beschränkten Zuwachs). Sei a < b, und seien f, g stetig auf [a, b] und differenzierbar auf (a, b) . Sei weiter
f ′ (x) ≤ g ′ (x) für alle x ∈ (a, b).
Dann folgt:
f (x) − f (a) ≤ g (x) − g (a) .
Bemerkung: Der Satz drückt die intuitiv gut einsichtige Tatsache aus, dass bei einem Start zweier
Funktionen f, g mit demselben Wert in a (also f (a) = g (a) , in der zweiten Zeile steht dann gleichwertig
f (x) ≤ g (x)) die Werte von f immer unter denen von g bleiben, solange die lokalen Steigungen von f
unter denen von g bleiben.
Beweis: Wir definieren h(x) = f(x) − g(x) − (f (a) − g (a)) . Dann erfüllt h die Voraussetzungen
des Mittelwertsatzes - h ist stetig auf [a, b] und differenzierbar auf (a, b). Nehmen wir an, wir hätten
eine Zahl x0 ∈ [a, b], so dass die Aussage der Folgerung des zu beweisenden Satzes verletzt wäre, also
f (x0 ) − f (a) > g (x0 ) − g (a) , d.h. h (x0 ) > 0. Dann klar x0 > a,da h (a) = 0. Also hätten wir nach
Mittelwertsatz (angewandt auf das Intervall [a, x0 ] eine Zahl ξ ∈ (a, x0 ) ⊂ (a, b), so dass
0<
Aber
h (x0 ) − h (a)
h (x0 )
=
= h′ (ξ) .
x0 − a
x0 − a
h′ (ξ) = f ′ (ξ) − g′ (ξ) , also f ′ (ξ) > g ′ (ξ) .
und nach der Voraussetzung des Satzes müsste f ′ (ξ) ≤ g′ (ξ) sein. das ist ein Widerspruch.
Als Anwendungbeispiel zeigen wir:
(1) sin (x) ≤ x −
x3 x5
+
für alle x ≥ 0.
3!
5!
Für die Funktionen auf beiden Seiten gelten die Voraussetzungen des Satzes vom beschränkten Zuwachs
(für jedes Intervall [0, b], b > 0. Der Satz liefert also, da beide Funktionen den Wert Null bei x = 0 haben:
Für die Gültigkeit von (1) genügt es, wenn gilt:
(2) cos (x) ≤ 1 −
x2 x4
+
für alle x ≥ 0.
2
4!
Zur Gewinnung dieser Ungleichung ist erneute Anwendung des Satzes geeignet, für (2) genügt demnach:
(3) − sin (x) ≤ −x +
x3
für x ≥ 0.
3!
(4) − cos (x) ≤ −1 +
x2
für x ≥ 0,
2
Mit demselben Argument genügt
dafür wieder
(5) sin (x) ≤ x für x ≥ 0,
dafür wieder
(6) cos (x) ≤ 1 für x ≥ 0.
Nun gilt (6) offenbar, und man schließt über (5) , (4) ... auf (1) . Man kann das induktiv verallgemeinern
zu folgenden Aussagen: Für alle natürlichen Zahlen N ≥ 1 gilt (x ≥ 0 wie zuvor) :
2N−1
k=0
2N
(−1)k
(−1)k 2k+1
x
≤ sin (x) ≤
x2k+1 .
(2k + 1)!
(2k + 1)!
k=0
6. GRUNDLEGENDE RESULTATE IM ZUSAM M ENHANG MIT ABLEITUNGEN
77
Da nun die Summenglieder abwechselnd positives und negatives Vorzeichen haben und ihre Beträge nach
Null gehen, folgt daraus:
sin (x) =
lim
N→∞
2N−1
k=0
2N
k
k
(−1)
(−1)
x2k+1 =
x2k+1 , also
(2k + 1)!
(2k + 1)!
k=0
∞
(−1)k 2k+1
sin (x) =
, für alle x ∈ R (da beide Seiten ungerade Funktionen darstellen).
x
(2k + 1)!
k=0
Das ist die Reihendarstellung für sin . (Zu solchen Reihen mehr in Mathematik B.)
S 36 (Ableitung und Monotonie). Sei a < b und f auf (a, b) differenzierbar und auf [a, b] stetig.
Dann gilt:
(i)
(ii)
(iii)
(iv)
f ′ (x)
f ′ (x)
f ′ (x)
f ′ (x)
≥
≤
>
<
0
0
0
0
für
für
für
für
alle
alle
alle
alle
x ∈ (a, b)
x ∈ (a, b)
x ∈ (a, b)
x ∈ (a, b)
⇐⇒
⇐⇒
=⇒
=⇒
f ist auf [a, b] monoton steigend.
f ist auf [a, b] monoton fallend.
f ist auf [a, b] streng monoton steigend.
f ist auf [a, b] streng monoton fallend.
Beweis: Zu (i) , Richtung ’ =⇒ ’: Wäre f auf [a, b] nicht monoton steigend, so hätte man Zahlen
x1 ∈ [a, b] und x2 ∈ (a, b], so dass x1 < x2 und f (x1 ) > f (x2 ). Also wäre auf [x1 , x2 ] die mittlere Steigung
von f negativ. Da für das Intervall [x1 , x2 ] die Voraussetzungen des Mittelwertsatzes erfüllt sind, hätte
man eine Zahl ξ ∈ (x1 , x2 ) ⊂ (a, b) mit
f ′ (ξ) < 0.
Das wirderspricht der Voraussetzung f ′ (x) ≥ 0 für alle x ∈ (a, b).
Richtung ’ =⇒ ’: Wenn f ′ (ξ) = α < 0 für eine Zahl ξ ∈ (a, b), so gilt für hinreichend kleine ∆x > 0 :
f (ξ + ∆x) − f (ξ)
α
≤
< 0, also
∆x
2
f (ξ + ∆x) − f (ξ) < 0,
so dass f nicht monoton steigend auf [a, b] ist.
Zu (ii) braucht man nur zu −f überzugehen und (i) anzuwenden.
Zu (iii) , (iv) kann man völlig analog argumentieren, man beachte aber, dass nur eine Pfeilrichtung
gilt: Es kann durchaus vereinzelt ein Ableitungswert Null vorkommen bei streng monoton steigenden
Funktionen. Ein Beispiel bildet f (x) = x3 . Sie ist streng monoton steigend auf R, aber f ′ (0) = 0.
d
e−2x
ex
ex
Beispiel: dx
ex +e−x = 2 (1+e−2x )2 > 0 für alle x ∈ R, also ist die Funktion f (x) = ex +e−x auf ganz R
streng monoton steigend.
F
3. Sei a < b. Wenn f und g stetig sind auf [a, b] und differenzierbar auf (a, b) mit
f ′ (x) = g ′ (x) für alle x ∈ [a, b],
dann gilt: f − g ist eine konstante Funktion auf [a, b]. Zwei Stammfunktionen einer Funktion h auf einem
Intervall (deren Ableitungen also h ergeben) unterscheiden sich daher nur um eine Konstante.
Beweis: Man wende (i) , (ii) des vorigen Satzes auf f −g an. Damit ist f −g sowohl monoton steigend
als auch fallend auf [a, b], somit eine Konstante auf [a, b].
Beispiel: F (x) = 12 e2x ist eine Stammfunktion von f (x) = e2x , also gilt für jede andere Stammfunktion F) von f (d.h. F)′ (x) = f (x)): F) (x) = F (x) + c = e2x + c mit einer Konstanten c. Umgekehrt ist
klar, dass man durch Addition einer Konstanten zu einer Stammfunktion von f wieder eine solche erhält.
F
4 (hinreichende Bedingung für Extrema). Es sei f in einer Umgebung von x0 definiert
und f ′ existiere ebenfalls in einer Umgebung U von x0 . Ferner sei f ′ (x0 ) = 0. Wenn f ′ (x) > 0 für
x < x0 , x ∈ U, und f ′ (x) < 0 für x > x0 , x ∈ U, dann hat f in x0 ein strenges lokales Maximum.
(Entsprechend ist auf ein strenges lokales Minimum in x0 zu schließen, wenn der Vorzeichenwechsel der
Ableitung in umgekehrter Richtung verläuft.)
78
4. REELLE FUNKTIONEN
Beweis: Nach dem vorigen Satz ist f auf einem Intervall [x0 − δ, x0 ] mit einem δ > 0 streng monoton
steigend und auf [x0 , x0 + δ] streng monoton fallend. Also liegt in x0 ein strenges Maximum.
Wir benötigen die folgende Verallgemeinerung des Mittelwertsatzes, um ökonomisch die Regeln von
de L’Hospital beweisen zu können:
S 37 (verallgemeinerter Mittelwertsatz von Cauchy). Seien f, g wie in den Voraussetzungen des
Mittelwertsatzes, also mit a < b auf (a, b) differenzierbar und auf [a, b] stetig. Ferner sei g ′ (x) = 0 für
alle x ∈ (a, b). Dann existiert eine Zahl ξ ∈ (a, b), so dass
f (b) − f (a)
f ′ (ξ)
= ′
.
g (b) − g (a)
g (ξ)
Beweis: Zunächst ist mit g ′ (x) = 0 für alle x ∈ (a, b) klar, dass g(a) = g (b) , so dass der Ausdruck auf
der linken Seite jedenfalls sinnvoll ist. Denn mit g (a) = g (b) gäbe es nach dem einfachen Mittelwertsatz
eine Zahl ξ ∈ (a, b), so dass g ′ (ξ) = 0. Nun geht der Beweis gerade so wie beim ersten Mittelwertsatz:
Man bildet
f (b) − f (a)
h (x) = f (x) − f (a) −
(g (x) − g (a)) ,
g (b) − g (a)
so dass also h (a) = h (b) = 0 und h wiederum die Voraussetzungen des Mittelwertsatzes erfüllt. Daher
h′ (ξ) = 0 für ein ξ ∈ (a, b), und das bedeutet klar die Gleichung des Satzes mit ξ.
Daraus kann man die Regeln von de L’Hospital folgern:
′
(x)
(i) Es sei a ∈ R, limx→a+ f (x) = limx→a+ g (x) = 0 und limx→a+ fg′ (x)
= b ∈ R ∪ {−∞, ∞}
′
(insbesondere g (x) = 0 für x > a, a − x < δ 0 , mit einer Zahl δ 0 > 0). Wir behaupten: Dann existiert
(x)
auch limx→a+ fg(x)
und hat den Wert b. Beweis: Zunächst können wir f und g bis zum Wert a (einseitig
von rechts) stetig fortsetzen mit f (a) = g (a) = 0. Sei x > a − δ 0 . Dann hat man
(∗)
f (x)
f (x) − f (a)
f ′ (ξ)
=
= ′
mit einem ξ ∈ (a, x),
g (x)
g (x) − g (a)
g (ξ)
da f, g die Voraussetzungen des verallgemeinerten Mittelwertsatzes auf (a, x) und [a, x] erfüllen. Wir
nennen eine solche Zahl ξ zu x deutlicher ξ (x) , denken uns zu jeder Zahl x > a − ε eine solche Zahl ξ (x)
(x)
ausgewählt. Mit der Voraussetzung limx→a+ fg(x)
wissen wir, dass es zu jeder beliebig kleinen Umgebung
U von b eine Zahl δ > 0 gibt mit der Eigenschaft
|a − ξ| < δ =⇒
f ′ (ξ)
∈ U, für alle ξ.
g′ (ξ)
Wir lassen δ stets ≤ δ 0 sein. Mit (∗) folgt sofort für alle x (man beachte, dass mit |a − x| < δ auch
|ξ (x) − a| < δ gilt):
f (x)
f ′ (ξ(x))
|a − x| < δ =⇒
= ′
∈ U.
g (x)
g (ξ(x))
Damit ist die Aussage bewiesen.
′
(x)
= b, dann gilt
(ii) Wir können mit (i) zeigen: Wenn limx→∞ f (x) = limx→∞ g (x) = 0, limx→∞ fg′ (x)
auch limx→∞
f (x)
g(x)
= b. Dazu sehen wir nur ein:
f ′ u1
f ′ (x)
= lim ′ 1 =
b = lim ′
x→∞ g (x)
u→0+ g
u
− u12 f ′ u1
lim
u→0+ − 12 g ′ 1
u
u
f u1
= lim (i) u→∞ g 1
u
=
=
d
f u1
lim du
u→0+ d g 1
du
u
lim
x→∞
f (x)
.
g (x)
Bemerkung: Es ist klar, dass auf demselben Wege wie (i) , (ii) die entsprechenden Aussagen für
x → a− und x → −∞ zu bekommen sind, ebenso wie die über beidseitige Grenzwerte für x → a.
′
(x)
(x)
(iii) Beh.: Wenn limx→a− f (x) = limx→a− g (x) = ∞, limx→a fg′ (x)
= b ∈ R ∪ {∞}, dann limx→a fg(x)
=
(x)−f (α)
(x)
b. Hier ist es ein wenig unbequemer, vom Ausdruck fg(x)−g(α)
für α < x < a auf den Ausdruck fg(x)
zu
kommen, um dann wieder den verallgemeinerten Mittelwertsatz anwenden zu können. Aber so gelingt es:
6. GRUNDLEGENDE RESULTATE IM ZUSAM M ENHANG MIT ABLEITUNGEN
79
Sei β < b, beliebig nahe an b (im Falle b = ∞ also eine beliebig große reelle Zahl). Nach Voraussetzung
haben wir dann eine Zahl α < a, so dass
f ′ (x)
> β.
g ′ (x)
(1) für alle x ∈ (α, a) :
Wegen Wenn limx→a− f (x) = limx→a− g (x) = ∞ können wir α zugleich so groß wählen, dass stets
f (x) , g (x) = 0 für x ∈ (α, a) . Nun haben wir nach dem erweiterten Mittelwertsatz:
(2) Für alle x ∈ (α, a) existiert ein ξ ∈ (α, x) , so dass
f (x) − f (α)
f ′ (ξ)
=
> β (Ungleichung wegen (1) ).
g (x) − g (α)
g′ (ξ)
Wir formen dies etwas um (dafür wollten wir f (x) , g (x) = 0) zu:
f (α)
f
(x)
1
−
f (x)
f (x) − f (α)
, also mit (2)
=
g(α)
g (x) − g (α)
g (x) 1 −
g(x)
f (x)
g (x)
=
f ′ (ξ) 1 −
·
g ′ (ξ) 1 −
g(α)
g(x)
f (α)
f (x)
.
Wir haben mit limx→a− f (x) = limx→a− g (x) = ∞ auch
lim
x→a−
1−
1−
g(α)
g(x)
f (α)
f (x)
= 1,
also gibt es für alle ε1 > 0 eine Zahl α1 > α, α1 < a, so dass
∀x ∈ (α1 , a)
1−
1−
g(α)
g(x)
f (α)
f (x)
> 1 − ε1 .
Das ergibt zusammen mit (2) und der Umformung:
g(α)
f (x)
f ′ (ξ) 1 − g(x)
(3) ∀ε1 > 0∃α1 < a∀x ∈ (α1 , a) ∃ξ ∈ (α, a)
= ′
·
> β (1 − ε1 ) .
g (x)
g (ξ) 1 − f (α)
f (x)
Wählen wir zu beliebig vorgegebener Zahl ε > 0 nunmehr ε1 <
(4) ∀β < b∀ε > 0∃α1 < a∀x ∈ (α1 , a)
|β|
ε ,
so haben wir:
f (x)
> β − ε.
g (x)
Für den Fall b = ∞ folgt mit (4) sofort die gewünschte Aussage. Für b ∈ R folgt sie mit (4) zusammen
mit folgender Aussage:
f (x)
(5) ∀ε > 0∃α1 < a∀x ∈ (α1 , a)
< b + ε.
g (x)
Diese gewinnen wir völlig analog zu (4) , indem wir aus der Bedingung
lim
x→a−
1−
1−
g(α)
g(x)
f(α)
f (x)
=1
herausziehen, dass
∀ε1 > 0∃α1 < a∀x ∈ (α1 , α)
Weiter können wir mit limx→a−
f ′ (x)
g′ (x)
1−
1−
g(α)
g(x)
f (α)
f (x)
< 1 + ε1 .
= b auch α1 dabei so wählen, dass
∀x ∈ (α1 , a)
f ′ (x)
< b + ε1 .
g ′ (x)
80
4. REELLE FUNKTIONEN
Das ergibt
f (x)
f ′ (ξ) 1 −
= ′
∀ε1 > 0∃α1 < a∀x ∈ (α1 , a) ∃ξ ∈ (α, a)
g (x)
g (ξ) 1 −
g(α)
g(x)
f (α)
f(x)
< (b + ε1 ) (1 + ε1 ) .
Nun ist (b + ε1 ) (1 + ε1 ) = b + (b + 1) ε1 +ε21 , und zubeliebigem ε > 0 finden wir sicher ε1 > 0, so dass
ε
(b + 1) ε1 + ε21 < ε. Wähle etwa ε1 < min 2|b+1|
, ε2 , 1 . Somit haben wir (5) durch Anwendung von (6)
auf ε1 wie gerade zu ε bestimmt.
7. Das eindimensionale Integral
7.1. Einstieg: Das Problem des Mittelwertes einer Funktion. Es sei eine stetige Funktion f
auf dem Intervall [a, b] gegeben, a < b. Was sollte man unter dem Mittelwert von f auf [a, b] verstehen,
und wozu wäre ein solcher Mittelwert gut?
Bezeichnung: f [a,b] := Mittelwert von f auf [a, b]
Dazu drei Beispiele:
1.) Ein Schwingungsvorgang ist beschrieben mit f(t) = 2 + sin (t) . Was ist der Mittelwert von f auf
[0, 2π]? Betrachten wir das graphisch:
3
2.8
2.6
F1
2.4
2.2
2
1.8
F
1.6
2
1.4
1.2
1
0
π/2
π
3π/2
2π
Offenbar schwingt die Funktion um den Mittelwert f [0,2π] = 2, dessen Höhe rot markiert ist. Diese Höhe
ist daran zu erkennen, dass die Fläche F1 oberhalb des Mittelwertes, welche vom Graphen von f und dem
Graphen der konstanten Funktion (rot) eingeschlossen wird, gleich der Fläche F2 unterhalb Mittelwertes
ist.
Unmittelbar stellt sich die Frage nach einem solchen Mittelwert, wenn man die mittlere Leistung
eines Wechselstroms wissen möchte.
2.) Ein Teilchen bewege sich auf der x− Achse. Es sei für jeden Zeitpunkt t die Geschwindigkeit
v (t) bekannt, für t ∈ [0, 2], und zwar sei v (t) = 1 − t2 . Der Ort zur Zeit t = 0 sei x (0) = 0. Positive
Geschwindigkeit bedeutet Bewegung nach rechts auf der x− Achse, negative Geschwindigkeit Bewegung
nach links. Was man wissen möchte, ist natürlich der Ort x (t) zur Zeit t für alle t ∈ [0, 2]. Betrachten
wir den Spezialfall t = 2. Dann ist klar: x (2) = x (0) + v [0,2] · 2. Allgemein für t ∈ [0, 2]: x (t) =
x (0) + v[0,t] · t. Also: Ort zur Zeit t minus Ort zur Zeit 0 gleich mittlere Geschwindigkeit im Zeitintervall
[0, t] mal t (Zeitdifferenz!). Wir betrachten auch hier graphisch die Geschwindigkeitsfunktion v (t) und
7. DAS EINDIM ENSIONALE INTEGRAL
81
ihren Mittelwert v[0,t] speziell im Intervall [0, 2]:
v(t)
1
0.5
Graph von v
F1
0
-0.5
-1
Mittelwert von v auf [0,2]
F
2
-1.5
-2
-2.5
-3
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
t
Wieder sind die Flächen F1 und F2 gleich, und genau daran ist der Mittelwert zu erkennen. Dieser negative
Mittelwert führt dazu, dass x (2) < 0. Wir zeigen im nächsten Bild die Funktion x (t) , 0 ≤ t ≤ 2.
x(t)
0.8
0.6
0.4
Graph der Ortsfunktion x(t)
0.2
0
-0.2
-0.4
-0.6
-0.8
Ortsfunktion bei konstant eingehaltener
mittlerer Geschwindigkeit
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
t
Die blaue Kurve zeigt den Verlauf der Ortsfunktion x (t) , die rote Gerade ist der Graph von y (t) =
x (0)+v[0,2] t , wobei im Bild vm für steht. Sie zeigt die Ortsfunktion, welche man bei konstant eingehaltener
mittlerer Geschwindigkeit v[0,2] bekäme. Man erkennt, dass x (t) ab t = 1 fällt: Bis t = 1 ist v (t) positiv,
ab t = 1 negativ. Aus dem Zusammenhang x′ (t) = v (t) können wir Folgendes entnehmen:
x (2) − x (0)
2−0
=
mittlere Geschwindigkeit von v auf [0, 2] = v[0,2] . Also:
(1)
=
1
(V (2) − V (0)), mit einer Funktion V, so dass V ′ = v.
2−0
v[0,2]
Solch eine Funktion V heißt Stammfunktion von v. Ferner hat sicher v (t)−v (v kurz für v[0,2] ) Mittelwert
Null, das heißt: der Flächeninhalt, den der Graph dieser Funktion mit der x− Achse oberhalb der Achse
82
4. REELLE FUNKTIONEN
einschließt, ist gleich dem eingeschlossenen Flächeninhalt, der unterhalb der Achse liegt. Die Differenz
dieser Flächeninhalte ist aber gerade der Wert des bestimmten Integrals über diese Funktion, also:
*
* 2
* 2
* 2
(v (t) − v)dt =
v (t) dt −
vdt =
v (t) dt − 2v. Daher
0
0
0
0
*
1 2
v (t) dt. Zusammen mit (1) :
2 0
0 =
v
(2)
(3)
*
0
=
2
2
v (t) dt = (V (2) − V (0)) .
Damit ist im Beispiel die Verbindung zwischen Stammfunktion V von v und bestimmtem Integral über
v hergestellt, wie sie im ’Hauptsatz der Differential- und Integralrechnung’ allgemein ausgesprochen und
bewiesen wird. Aber ein inhaltliches Verständnis dieser äußerlich überraschenden Tatsache haben wir
damit schon jetzt.
3.) Wir führen ein typisches Generalbeispiel für die Anwendung von Mittelwert und Integral von Funktionen aus: Eine Größe besitze auf einem Intervall [a, b] eine ’Dichte’, zum Beispiel: Elektrische Ladung,
dann spricht man von ’Ladungsdichte’, oder Massendichte, d.h. Masse pro Längeneinheit, oder ’Wahrscheinlichkeitsdichte’, d.h. Wahrscheinlichkeit pro Längeneinheit. Man denke auch an Bevölkerungsdichte
(Anzahl der Individuen pro Längeneinheit). Das letzte Beispiel zeigt bereits deutlich, dass man den Begriff
der Dichte nicht nur auf eindimensionalen Punktmengen hat, sondern häufiger nich auf mehrdimensionalen Punktmengen. Dies wird eine wichtige Motivation für mehrdimensionale oder Mehrfachintegrale
bilden. Wichtig ist, dass eine solche Dichte sich kontinuierlich ändern kann. Schreiben wir also ρ (x) allgemein für ’Dichte an der Stelle x ∈ [a, b]’, später dann auch ρ (x) für ’Dichte am Ort x’, der durch einen
Ortsvektor x beschrieben ist. Dann hat man folgende allgemeine Beziehung:
*
b
ρ (x) dx = Gesamtmasse auf [a, b],
a
im Falle der Ladungsdichte ist das die Ladung, im Falle der Massendichte die Masse, im Falle der Wahrscheinlichkeitsdichte die Wahrscheinlichkeit, welche auf das Intervall [a, b] entfällt. Wir beobachten in
diesem Zusammenhang erneut die Beziehung zwischen Integral und Mittelwert: Sicher ist auch
ρ[a,b] · (b − a) = Gesamtmasse auf [a, b]. Also wiederum
* b
ρ (x) dx = ρ[a,b] · (b − a) .
a
Allgemeiner tritt an die Stelle der Länge b − a des Intervalls [a, b] das (zur jeweiligen Raumdimension
gehörige) n− dimensionale Volumen eines n− dimensionalen Bereichs, zugleich wird aus dem Intergal ein
Volumenintegral über diesen Bereich.
Wir halten noch einmal die anschauliche Deutung des bestimmten Integrals fest (zur Existenzfrage s.u.):
Das bestimmte Integral
*
a
b
f (x) dx gibt für a < b den Flächeninhalt zwischen x − Achse und
dem Graphen von f mit Orientierungsvorzeichen, also werden Flächen oberhalb der x − Achse
dabei positiv gezählt, Flächen unterhalb der x − Achse negativ.
* b
* a
Für a > b definiert man dementsprechend :
f (x) dx := −
f (x) dx.
a
b
Aus dieser anschaulichen Deutung ergeben sich sofort folgende Rechenregeln, die man auch mittels der
nachfolgenden Limites von Riemann-Summen bekommt.
7.2. Grundlegende Rechenregeln für das bestimmte Integral.
7. DAS EINDIM ENSIONALE INTEGRAL
83
S 38. Das Integral ist linear, d.h.
*
(i)
*
b
(f (x) + g (x)) dx =
a
*
(ii)
b
f (x) dx +
a
b
cf (x) dx = c
a
*
b
*
b
g (x) dx
a
f (x) dx.
a
Das Integral ist additiv bezüglich der Grenzen:
*
(iii)
b
f (x) dx +
a
*
c
f (x) dx =
b
*
c
f (x) dx.
a
Das Integral ist monoton:
(iv) Wenn f (x) ≤ g (x) auf [a, b], a < b, so
*
a
b
f (x) dx ≤
*
b
g (x) dx.
a
Aus der Monotonieeigenschaft gewinnt man noch eine praktische Abschätzung: Wenn f auf [a, b] ein
absolutes Minimum fmin und ein absolutes Maximum fmax hat (bei stetigem f ist das z.B. der Fall),
dann
* b
fmin · (b − a) ≤
f (x) dx ≤ fmax · (b − a) , wenn a < b.
a
(Die Vorzeichen kehren sich um, wenn a > b.)
7.3. Näherung von bestimmtem Integral und Mittelwert. Man hat folgende naheliegende
+b
Näherung für a f(x)dx. Wir setzen dabei f als stetig voraus, so dass die Existenz des Intergals und
des Mittelwertes gewährleistet ist (vgl. den nächsten Abschnitt). Das Intervall [a, b] wird in Teilintervalle
zerlegt durch Zwischenpunkte a0 = a, a0 < a1 < ...an = b. Aus jedem der n Teilintervalle [ai , ai+1 ] wählt
man eine beliebige Zahl xi aus. Dann hat man für genügend kleine Abstände ∆xi := ai − ai−1 , 1 ≤ i ≤ n,
sicher eine gute Näherung:
*
b
f (x) dx ≈
a
n
f (xi ) ∆xi (’Riemannsche Summe’)
i=1
Diese ’Riemannschen Summen’ erklären auch, wie Leibniz auf seine heute noch übliche Integralnotation
kam: Das Integralzeichen ist ein stilisiertes Summenzeichen, und ’dx’ steht dafür, dass man die maximale
Intervallbreite gegen Null gehen lässt.
Analog bekommt man eine naheliegende Näherung des Mittelwertes von f auf [a, b]:
n
f [a,b] ≈
1
f (xi ) .
n i=1
Diese liegt für sich genommen nahe: Man bildet xi auf der x− Achse, deren Abstände klein sind , x1 nahe
bei a und xn nahe bei b, und bildet das arithmetische Mittel von deren Funktionswerten. Diese Näherung
des Mittelwertes ergibt sich auch sofort aus der vorigen Näherung des Integrals, indem man ∆xi = b−a
n
setzt, also in gleich breite Streifen unterteilt. Denn damit hat man
f [a,b] =
1
b−a
*
a
n
b
f (x) dx ≈
n
1 b−a
1
f (xi )
=
f (xi ) .
b − a i=1
n
n i=1
84
4. REELLE FUNKTIONEN
Wir schauen die Näherung des Integrals durch eine Riemannsumme in zwei graphischen Beispielen an,
mit einer gröberen und einer feineren Zerlegung:
1
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
0
1
2
3
4
5
6
0
1
2
3
4
5
6
1
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
Man bemerkt sofort, dass die zweite Näherung des Integrals durch die (mit richtigem Vorzeichen versehenen) Rechteckflächen bereits sehr genau ist. In beiden Fällen wurde xi = 12 (ai−1 + ai ) gewählt. Aber
bei der feinen Einteilung kommt es darauf schon kaum mehr an. Der Fehler bei der Integralberechnung
liegt im Beispiel unter 2 · 10−16 (!)
7.4. Genauer Begriff des Riemannschen Integrals und Existenzfrage. Dieser Begriff ist
+b
recht kompliziert, aber naheliegend. Sagen wir es anschaulich: Das Integral a f (x) dx existiert genau
n
dann, wenn die Riemannsummen
f (xi ) ∆xi eindeutig gegen einen endlichen Grenzwert konvergieren,
i=1
so dass diese als Näherungen einen Sinn machen. Die Komplikation besteht darin, dass es sich nicht
einfach um Folgenglieder an handelt, die nur von n abhängen. Das macht die Komplikation, die genaue
Definition kann man so geben:
7. DAS EINDIM ENSIONALE INTEGRAL
85
D
28. Unter einer Zerlegung (für das Intervall [a, b] mit a < b versteht man eine Folge
Z
xi
= (a0 , ..., an ; x1 , ..., xn ) mit a = a0 < a1 < ... < an = b,
∈ [ai−1 , ai ] für 1 ≤ i ≤ n (’Zwischenpunkte’).
Die maximale Streifenbreite von Z ist
max (ai+1 − ai ) .
1≤i≤n
Die Riemannsumme der Funktion f auf [a, b] zu Z lautet
R (Z, f) :=
n
i=1
f (xi ) (ai+1 − ai ) .
+b
Das Integral a f (x) dx existiert im Riemannschen Sinne genau dann, wenn es für alle ε > 0 eine
maximale Streifenbreite ∆ (ε) gibt, so dass für alle Zerlegungen Z1 , Z2 mit maximaler Streifenbreite ≤
∆ (ε) gilt:
|R (Z1 , f) − R (Z2 , f )| < ε.
Dann ist der Wert des Integrals so definiert: Sei (Zn )n eine beliebige Folge von Zerlegungen, deren
maximale Streifenbreiten ∆n eine Nullfolge bilden. Dann ist
*
a
b
f (x) dx := lim R (Zn , f) .
n→∞
Zum Verständnis: Der Wert der Riemannsummen darf also bei Riemann-Integrierbarkeit von f nicht
wesentlich von der Art der Zerlegung abhängen (ob gleichbreite Intervalle oder nicht, Auswahl der xi ),
sondern nur von der maximalen Streifenbreite. Ist diese ≤ ∆ (ε) , so unterscheiden sich alle Riemannsummen nur um weniger als ε. Auf diese Weise kann man eine Folge von Zerlegungen (Zn )n angeben, die
immer feiner wird, so dass die Zahlenfolge R (Zn , f) eine Cauchyfolge ist. Deren Grenzwert ist dann das
+b
Integral a f (x) dx. Die Bedingung besagt gerade, dass der Grenzwert nicht von der Art der Zerlegungsfolge abhängt, also immer dasselbe Resultat liefert.
Man hat folgenden Satz:
S 39. Wenn f stetig ist auf [a, b], so existiert das Riemann-Integral
+b
a
f (x) dx.
Beweis: Wir wissen (vgl. Mathematik A), dass stetiges f auf [a, b] sogar gleichmäßig stetig ist, d.h.
|f (x) − f (y)| < ε, wenn |x − y| < δ (ε) , für x, y ∈ [a, b].
Wenn nun Z1 , Z2 Zerlegungen sind mit maximaler Streifenbreite ∆ = δ (ε) , dann gilt:
m
n
|R (Z1 , f) − R (Z2 , f)| = f (xi ) (ai+1 − ai ) −
f (yj ) (bj+1 − bj )
i=1
j=1
86
4. REELLE FUNKTIONEN
Wir wählen eine gemeinsame Verfeinerung Z von Z1 , Z2 , also Z = (c0 , ...c/r , u1 , ...ur ), r ≥ m, n, so dass
ai = cki für ein ki und ebenso bj = clj für ein i gilt, für alle i, 0 ≤ i ≤ r. Dann gilt:
|R (Z, f ) − R (Z2 , f )| =
=
≤
=
<
r
n
f (uk ) (ck+1 − ck ) −
f (xi ) (ai+1 − ai )
i=1
k=1
n
n
f
(u
)
(c
−
c
)
−
f
(x
)
(a
−
a
)
k
k+1
k
i
i+1
i i=1 ki ≤k<ki+1
i=1
n (f
(u
)
(c
−
c
)
−
f
(x
)
(c
−
c
))
k
k+1
k
i
k+1
k i=1 ki ≤k<ki+1
n (c
−
c
)
(f
(u
)
−
f
(x
))
k+1
k
k
i i=1 ki ≤k<ki+1
n
i=1
(ai+1 − ai ) ε = (b − a) ε.
Für das letzte Ungleichheitszeichen wurde |f (uk ) − f (xi )| < ε benutzt. Das gilt, weil |uk − xi | < δ (ε) .
Dieselbe Abschätzung gilt auch für |R (Z, f ) − R (Z2 , f )| . Also
|R (Z1 , f ) − R (Z2 , f )| = |R (Z1 , f ) − R (Z, f ) + R (Z, f ) − R (Z2 , f )|
≤ |R (Z1 , f ) − R (Z, f )| + |R (Z, f) − R (Z2 , f)|
< 2 (b − a) ε.
Wir sind fertig mit dem üblichen Argument, dass man nicht ’< ε’ zeigen muss, sondern ’< cε’ mit einer
Konstanten c genügt.
Nun ist Stetigkeit zwar hinreichend. aber keineswegs notwendig für Riemann-Intergierbarkeit auf
einem Intervall. Wir wollen und merken, dass ohne weiteres stückweise Stetigkeit (also mit endlichen
Sprüngen an den Grenzen von endlich vielen Teilintervallen) ohne Weiteres genügt. Es gilt sogar folgender
bemerkenswerte Satz: Wenn f auf [a, b] beschränkt ist und die Menge ihrer Unstetigkeitspunkte vom
Maße Null ist (d.h. diese Menge enthält kein Intervall - insbesondere ist eine endliche oder auch abzählbar
unendliche Menge vom Maße Null), dann ist f Riemann-integrierbar. Z.B. hat die Funktion f (x) = sin x1
für x > 0, f (x) = 0 für x = 0 nur einen Unstetigkeitspunkt, und die Werte liegen zwischen −1 und
+1
1. Also existiert nach diesem Satz 0 sin x1 dx. Dagegen ist die Funktion f (x) = 1 für rationale x,
f (x) = 0 für irrationale x, nicht Riemann-integrierbar. (Sie ist offenbar zwar beschränkt, aber überall
unstetig. Die Menge ihrer Unstetigkeitsstellen ist demnach [0, 1] und vom Maße 1.) Denn man hat klar
beliebig feine Zerlegungen, die auf [0, 1] zu Riemannsummen mit Wert 1 führen, und auch solche, die zu
Riemannsummen mit Wert Null führen, je nach dem, ob man alle Zwischenpunkte rational oder irrational
wählt.
7.5. Hauptsatz (Integral und Stammfunktion), Mittelwertsätze. Der folgende Satz stellt
den bereits oben beispielhaft genannten Zusammenhang her und bildet die Grundlage des exakten Ausrechnens (so weit möglich) von Integralen.
D
29. F heißt Stammfunktion von f auf [a, b], wenn F ′ (x) = f (x) auf [a, b] (an den
Rändern als einseitige Ableitungen).
Aus Mathematik A wissen wir, dass mit F (x) auch F (x) + c (c Konstante) eine Stammfunktion von
f ist, und dass sich zwei Stammfunktionen von f nur um eine Konstante unterscheiden, dass also mit
F (x) + c die Schar aller Stammfunktionen von f gegeben ist.
7. DAS EINDIM ENSIONALE INTEGRAL
87
S 40 (Hauptsatz der Differential- und Integralrechnung). Es sei f auf [a, b] stetig. Dann gilt für
alle x ∈ [a, b]:
* x
f (t) dt ist eine Stammfunktion von f auf [a, b].
(i)
F (x) : =
a
* x
(ii)
f (t) dt = F1 (x) − F1 (a) für jede Stammfunktion F1 von f.
a
+x
Beweis: Zu (i) rechnen wir die Ableitung der Funktion F (x) := a f (t) dt nach. Zunächst ist die
Funktion F (als Funktion der oberen Intergationsgrenze!) eindeutig definiert, da nach dem Satz über die
Riemann-Integrierbarkeit der stetigen Funktionen das Integral für alle diese oberen Grenzen eindeutig
existiert. Zu zeigen ist:
lim
∆x→0
F (x0 + ∆x) − F (x0 )
= f (x0 ) für x0 ∈ [a, b].
∆x
Für x0 = a ist der Limes nur für ∆x > 0 zu bilden, analog für x0 = b nur für ∆x < 0. Wir haben
* x0 +∆x
F (x0 + ∆x) − F (x0 ) =
f (t) dt.
x0
Sei nun fmin (∆x) das Minimum von f auf [x0 , x0 + ∆x] bzw. [x0 + ∆x, x0 ] bei ∆x < 0. Ebenso fmax (∆x)
das Maximum. (Diese existieren wegen der Stetigkeit von f .) Dann
* x0 +∆x
fmin (∆x) · ∆x ≤
f (t) dt ≤ fmax (∆x) · ∆x, (∆x > 0) ,
x0
für ∆x < 0 drehen sich die Vorzeichen um, also in beiden Fällen :
* x0 +∆x
1
fmin (∆x) ≤
f (t) dt ≤ fmax (∆x) .
∆x x0
Wir haben fmin (∆x) → f (x0 ) , fmin (∆x) → f (x0 ) für ∆x → 0. Also geht auch gemäß Einschließungs+ x0 +∆x
1
f (t) dt gegen f (x0 ) . Anschaulich ist das auch klar, indem wir diesen Term wie oben
prinzip ∆x
x0
als Mittelwert der Funktion
f auf [x0 , x0 + ∆x] bzw. [x0 + ∆x, x0 ] deuten.
+x
Zu
(ii)
Mit
(i):
f
(t)
dt
= F (x) − F (a) , da nach Definition F (a) = 0. Mit F1 (x) = F (x) + c also
a
+x
a f (t) dt = (F (x) + c) − (F (a) + c) = F1 (x) − F1 (a) .
Vorbemerkung zur Anwendung beim Ausrechnen eines bestimmten Integrals mittels
einer Stammfunktion: Man wird stets zwei Schritte benötigen. Zuerst bestimmt man den Rechenausdruck irgendeiner Stammfunktion F (das muss nicht die in (i) definierte sein, sondern wird eine wie F1
in (ii) sein) zu f, dann hat man die Grenzen einzusetzen und die Differenz zu bilden. Daher schreibt man
gern mit einem Zwischenschritt:
* b
f (x) dx = [F (x)]ba := F (b) − F (a) .
a
Diese Bezeichnung mit der eckigen Klammer sollte man sich merken und auch selber nutzen.
Anwendungen:
1.) Sobald man durch Umkehrung der Ableitungsregeln eine Stammfunktion gefunden hat, kann man
bestimmte Integrale ausrechnen, Beispiele:
√
+2√
,
-2
d a
xa+1
xdx = 23 x3/2 0 = 23 · 8.
dx x = a+1 , wenn a = −1. Also 0
+2 1
d 1
dx x = ln |x| , also 1 x dx = ln (2) . Wir kommen im nächsten Abschnitt systematisch zum Integralkalkül.
2.) Eine wichtige praktische Anwendung des Hauptsatzes ist folgende: Wenn von einer Funktion f (t)
die Ableitung f ′ (t) überall im Bereich von t0 bis t1 bekannt ist und ferner f (t0 ) gegeben ist, dann kann
man f (t) für diesen Bereich so ausrechnen:
* t
f (t) = f (t0 ) +
f ′ (s) ds, t ∈ [t0 , t1 ] (bzw. [t1 , t0 ] bei t1 < t0 ).
t0
88
4. REELLE FUNKTIONEN
Begründung: Das Integral ist nach Hauptsatz f (t)−f (t0 ) . So integriert man beispielsweise die Geschwindigkeitsfunktion über die Zeit, um die Ortsfunktion herauszubekommen, und addiert den Anfangsort
dazu. Es ist übrigens günstig, hier mit bestimmten Integralen zu arbeiten.
S 41 (Mittelwertsätze der Integralrechnung).
(i) Wenn f stetig ist, so für ein ξ ∈ [a, b]
*
b
a
f (x) dx = f (ξ) · (b − a)
(ii) Wenn f, g stetig und g ≥ 0 auf [a, b], dann für ein ξ ∈ [a, b] :
* b
* b
f (x) g (x) dx = f (ξ)
g (x) dx.
a
a
Beweis: (i) Seien fmin , fmax minimaler und maximaler Funktionswert von f auf [a, b]. Dann fmin (b − a) ≤
f
(x) dx ≤ fmax (b − a) , also folgt das Resultat mit dem Zwischenwertsatz über stetige Funktionen (vgl.
a
Mathematik A).
Zu (ii): Mit der Monotonieeigenschaft des Integrals folgt aus fmin g (x) ≤ f (x) g (x) ≤ fmax g (x) für
alle x ∈ [a, b], dass
* b
* b
* b
* b
* b
fmin
g (x) dx =
fmin g (x) dx ≤
f (x) g (x) dx ≤
fmax g (x) dx = fmax
g (x) dx.
+b
a
a
a
Anwendung des Zwischenwertsatzes auf die Funktion f (x)
+b
a
a
a
g (x) dx liefert das Resultat.
7.6. Integralkalkül: Berechnung von Stammfunktionen.
+
D
30. Das unbestimmte Integral f (x) dx ist die Schar aller Stammfunktionen von f.
Wenn es eine Stammfunktion F von f gibt, d.h. F ′ = f, dann also
*
f (x) dx = F (x) + c.
Grundsätzliche Vorbemerkungen: Man kann sich komplizierteste Stammfunktionen, die in den
elementaren Funktionen ausdrückbar sind, bequem mit einem Computeralgebraprogramm beschaffen.
Aber es ist unerlässlich, Einiges selber von Hand zu können, um gewissen immer wieder angestellten
theoretischen Rechnungen folgen zu können und um Einfaches direkt zu beschaffen. Weiter sollte man
vorab wissen: Es gibt gar nicht einmal komplizierte Funktionen, deren Stammfunktionen zwar beweisbar
existieren (z.B. weil die Originalfunktion stetig ist), die aber prinzipiell nicht in elementaren Funktionen
ausdrückbar sind. Auch das kann
feststellen, indem man den
+ man2 mittels Computeralgebraprogramms
√
Auswertungsbefehl etwa gibt für e−x dx und erhält: 12 π erf (x) (’error function’, das ist nach Definition
+x
2
erf (x) = √2π 0 e−t dt). Auftreten eines solchen Eigennamens zeigt an, dass es sich um keine elementar
+
berechenbare Stammfunktion handelt. Weiteres Beispiel: sin(x)
x dx = Si (x) (sogenannte ’Integralsinus’).
Wir verabreden, dass im Folgenden stets F eine Stammfunktion zu f ist, G zu g usw. Also F ′ = f,
G′ = g.
Wo das angezeigt ist, weisen wir gesondert darauf hin, wie man eine Stammfunktionsregel nutzt, um
ein bestimmtes Integral auszurechnen.
7.6.1. Stammfunktionen der Grundfunktionen. Die folgende Liste kann man mit Tafel oder Computeralgebraprogramm erweitern.
+
f (x)
f (x) dx
xa+1
a
x (a = −1)
a+1 + c
1
ln
|x| + c
x
1
arctan
(x) + c
1+x2
x
x
e
e +c
ln (x)
x ln (x) − x + c
sin (x)
− cos (x) + c
cos (x)
sin (x)
√ 1
arcsin
(x)
1−x2
tan (x)
− ln |cos (x)|
7. DAS EINDIM ENSIONALE INTEGRAL
89
Diese Regeln bestätige man durch Ableiten. Wir werden die weniger offensichtlichen Beispiele wie
f (x) = ln (x) usw. als Beispiele für die Anwendung der Zusammensetzungsregeln behandeln. Auch die
folgenden Regeln ergeben sich unmittelbar duch Ableiten, als Umkehrung entsprechender Ableitungsregeln:
7.6.2. Summen- und Konstantenregel.
*
(f (x) + g (x)) dx = F (x) + G (x) + c, mit F ′ = f, G′ = g.
*
αf (x) dx = αF (x) + c, mit F ′ = f.
7.6.3. Partielle Integration (Umkehrung der Produktregel des Differenzierens.
*
*
f (x) G (x) dx = F (x) G (x) − F (x) g (x) dx + c, also
* b
* b
b
f (x) G (x) dx = [F (x) G (x)]a −
F (x) g (x) dx
a
+
d
dx
a
Begründung: (F (x) G (x)) = f+ (x) G (x)+F (x) g (x) , also (f (x)
= F (x) G (x)+
+ G (x)+F (x) g (x))dx
+
d1 , dazu mit der Summenregel: (f (x) G (x) + F (x) g (x))dx = f (x) G (x) dx + F (x) g (x) dx + d2 ,
also die Behauptung.
Bemerkung: Es bleibt ein Integral übrig, und man hofft, dass dies einfacher wird als das ursprüngliche. Manchmal muss man die Regel zweifach anwenden.
Warnung: Die Regel taugt nur für spezielle Produkte, keineswegs denke man: ’Da ist ein Produkt zu
integrieren, also wende ich diese Produktregel des Integrierens an.’ Typische günstige Ausdrücke: 1·f (x) ,
wobei f eine Umkehrfunktion wie ln oder arctan ist, Polynom mal transzendente Standardfunktion wie
ln, exp, sin, ex sin (x) usw. Allerdings ist die Regel, wie wir noch sehen werden, unglaublich effizient zur
Herstellung wichtigster theoretischer Zusammenhänge.
7.6.4. 1/α− Regel.
*
1
f (αx + β) dx = F (αx + β) + c (α = 0)
α
Bemerkung: Diese Regel sollte man sich merken und in entsprechenden Fällen anwenden, was viel
bequemer als die folgende allgemeine Substitutionsregel ist.
7.6.5. Substitutionsregel (Umkehrung der Kettenregel des Differenzierens).
*
*
dxf ′ (x) g (f (x)) = dug (u) = G (u) + c = G (f (x)) + c.
d
Begründung: dx
(G (f (x)) + c) = f ′ (x) g (f (x)) nach Kettenregel. Die Zwischenschritte weisen auf
die praktische Anwendung: Man macht die Substitution
u = f (x)
du = f ′ (x) dx
+
und ersetzt im Integral dxf ′ (x) g (f (x)): dxf ′ (x) durch du, g (f (x)) durch g (u) , erhält G (u) + c als
unbestimmtes Integral, ersetzt dann wieder zurück u durch f (x) .
Bemerkung: Hier und auch in vielen weiteren Fällen, insbesondere bei Mehrfachintegralen, ist es
sehr nützlich, das ’dx’ usw. voranzustellen. Allerdings verlangt mein Computeralgebraprogramm diesen
Ausdruck als Abschluss des Integrals.
Warnung: Man schreibe niemals Integrale, in welchen alte Integrationsvariable (hier x) und neue
(hier u) gemischt vorkommen, und man denke immer daran, dass dx auch in du umgerechnet werden
muss.
Für bestimmte Integrale lautet die Regel:
* b
* f (b)
f (b)
dxf ′ (x) g (f (x)) =
g (u) du = [G (u)]f (a) = G (f (b)) − G (f (a)) .
a
f (a)
+b
+ f (b)
Hier ist das Substitutionsschema zu ergänzen mit der Grenzentransformation a ... → f (a) .... Man beachte, dass diese Grenzentransformation das Rückeinsetzen aus dem vorigen Schema erspart und auch
90
4. REELLE FUNKTIONEN
+ f (b)
ersetzen muss: f (a) g (u) du ist ein bestimmtes Integral, nur heißt die Integrationsvariable u. Unbestimmte Integrale werden wegen der damit verbundenen Unklarheiten durchaus von einigen ernstzunehmenden
Menschen rundweg abgelehnt. Aber das Schema ist doch so praktisch, dass man nicht ganz darauf verzichten mag. Es ist nur Vorsicht geboten.
7.6.6. Die eigentliche Substitution (nicht nur: Umkehrung der Kettenregel). Betrachtet man die Substitutionsregel, die oben formuliert wurde, so wird man enttäuscht sein, weil man sie nur auf Integrale
anwenden kann, in welchen der Faktor f ′ (x) auftritt neben der Schachtelung g (f (x)) . In diesen Fällen
kann man auch sofort sagen, es sei nur +die Stammfunktion
von
und auf
f (x)
anzuwenden,
+ G zu bilden
und man ist mit G (f (x)) fertig. Z.B. x2 sin x3 dx = 13 3x2 sin x3 dx = 13 − cos x3 + c. Das
Beispiel zeigt auch, wie man typisch einen fehlenden konstanten Faktor zur Ableitung f ′ (x) ergänzen
und kompensieren kann. Mit etwas Routine macht man das so schneller als mit dem Substitutionsschema.
Viel interessanter sind die Fälle, bei denen ein solcher Ableitungsfaktor fehlt. Wie kann man dann
trotzdem die Substitutionsregel anwenden? Dazu gibt es zwei Möglichkeiten, die man auch beide praktisch
verwendet:
Erstes Schema der eigentlichen Substitution: Mit umkehrbarer Funktion f und Umkehrfunktion f −1 kann man die Substitutionsgleichung u = f (x) nach x auflösen und bekommt:
x = f −1 (u) , damit wird dx in du umgerechnet:
′
dx = f −1 (u) du, womit aus der Substitutionsregel wird:
*
*
′
dxg (f (x)) =
du f −1 (u) g (u) = H (u) = H (f (x)) (wieder mit Rückeinsetzen).
′
Dabei ist H (u) eine Stammfunktion zu f −1 (u) g (u) .
Für bestimmte Integrale lautet die Regel:
* b
* f (b)
′
f (b)
dxg (f (x)) =
du f −1 (u) g (u) = [H (u)]f (a) = H (f (b)) − H (f (a)) .
a
f (a)
Beispiel zur Anwendung:
*
1
1
dx, Substitution : u = ex , x = ln (u) , dx = du, also :
1 + ex
u
*
*
* 1
1 1
−1
1
=
=
dx
du
+
du = − ln |1 + u| + ln |u|
1 + ex
1+uu
1+u u
= − ln (1 + ex ) + x
Dabei kamen typische weiter benötigte Schritte nach der Substitution vor. Diese führte auf eine gebrochen rationale Funktion (mit typischer Partialbruchzerlegung, vgl. den nächsten Abschnitt), anschließend
wurde noch die α1 − Regel verwandt. Die Sache hat also mit der Umkehrbarkeit von exp zu ln geklappt,
dass der Ableitungsfaktor dagestanden hätte, der wäre hier ex gewesen. (Man vergleiche noch einmal
+ohne
ex
1
x
x
1+ex dx = ln (1 + e ) , was man direkt sagen kann, indem man identifiziert: f (x) = 1 + e , g (x) = x ,
x
also G (f (x)) = ln (1 + e ) . Das wäre also mit bloßer Umkehrung der Kettenregel zu machen.)
Zweites Schema zur eigentlichen Substitution: Man substituiert sofort x = h (u) und damit
dx = h′ (u) du. Dann hat man:
*
*
dx g (f (x)) = du h′ (u) g (f (h (u))) .
Für bestimmte Integrale lautet die Regel dann:
*
a
b
dx g (f (x)) =
*
h−1 (b)
du h′ (u) g (f (h (u))) .
h−1 (a)
Das ist nicht so unsinnig, wie es aussieht, eben dann, wenn g (f (h (u))) im Ergebnis viel einfacher wird
als g (f (x)) .
7. DAS EINDIM ENSIONALE INTEGRAL
91
+√
Beispiel:
1 − x2 dx. Man wird die (tendenziell immer äußerst ungünstige) Wurzel los mit x =
sin (u) , also dx = cos (u) du, und erhält:
* * *
*
1
1 − x2 dx =
cos2 (u) cos (u) du = cos2 (u) du =
(cos (2u) + 1) du
2
1
1
1
1
=
sin (2u) + u = sin (u) cos (u) + u
4
2
2
2
1
1 =
x 1 − x2 + arcsin (x) (Rückeinsetzen)
2
2
Es sei bemerkt, dass man cos2 (u) auch mit partieller Integration bewältigen kann, aber die hier angesprochene Anwendung der Additionstheoreme ist bedeutend günstiger. Vielfach hat man beim Rückeinsetzen
auch die Gleichung x = h (u) nach u aufzulösen, im Beispiel x = arcsin (u) .
7.6.7. Standardsubstitutionen für gewisse Funktionstypen. Mit ’Standard’ ist hier eher etwas ursprünglich recht Raffiniertes gemeint - und nun ist es bekannt. Das gilt besonders für Nummer 2.
Wir erlauben uns in komplizierteren Beispielen,
die ewige Konstante ’+c’ wegzulassen.
√
1.a) Für den Standard-Wurzelausdruck 1 − ax2 mit a > 0 hilft (2. Schema der eigentlichen Substitution):
x =
dx =
1
√ sin (t)
a
1
√ cos (t) dt.
a
z.B.
* *
1
1
1
1
√ cos2 (t) dt = √
1 − ax2 dx =
cos t sin t + t
a
a 2
2
√ 1 1
=
x 1 − ax2 + √ arcsin ax .
2
2 a
+
√
1
1
Analog erhält man so: √1−ax2 dx = √a arcsin ( ax) . Es ist ein wenig zu empfehlen, in solchen Fällen
zunächst durch eine lineare Substitution den Parameter zu beseitigen: Mit x = √1a u, dx = √1a du hat
√
+
+√
+√
+√
1 − ax2 dx = √1a 1 − u2 du = √1a
1 − u2 du, so dass man sich auf
1 − u2 du beschränken
man
kann. In 1.b) werden wir so vorgehen.
√
1.b) Für den Standard-Wurzelausdruck 1 + x2 , a > 0, hilft (wieder 2. Schema):
x = sinh (t)
dx = cosh (t) dt.
Dann hat man z.B.
* *
1 + x2 dx = cosh2 (t) dt.
Das kann man nun weiter verarbeiten mit den hyperbolischen Formeln (ganz analog zu den trigonometrischen, nur mit charakteristischen Vorzeichunterschieden). Also etwa mit
1
(1 + cosh (2t)) :
*
*2
1
1
1
cosh2 (t) dt =
(1 + cosh (2t)) dt = t + sinh (2t)
2
2
4
1
1
=
t + sinh (t) cosh (t) . Also
2
2
* 1
1 2
1 + x dx =
arcsinh(x) + x 1 + x2 .
2
2
cosh2 (t) =
Man hat dabei:
arcsinh(x) = ln x + 1 + x2 .
92
Die Berechnung von
4. REELLE FUNKTIONEN
+
cosh2 (t) dt gelingt auch mit partieller Integration:
*
*
cosh2 (t) dt = sinh (t) cosh (t) − sinh2 (t) dt
*
= sinh (t) cosh (t) −
cosh2 (t) − 1 dt, also
*
1
1
cosh2 (t) dt =
sinh (t) cosh (t) + t.
2
2
(Typischer Vorgang, dass der zu integrierende Ausdruck rechts wieder auftaucht, man bringt ihn dann
auf die andere Seite.) Hier sind einige praktische Formeln, die wir benutzten, für die hyperbolischen
Funktionen:
cosh2 (x) − sinh2 (x) = 1
cosh′ (x) = sinh (x) , sinh′ (x) = cosh (x) ,
cosh (x + y) = cosh2 (x) + sinh2 (y) ,
sinh (x + y) = sinh (x) cosh (y) + sinh (y) cosh (x)
Völlig analog erhält man auch
1.c) Für x ≥ 1:
* 1 1 x2 − 1dx = x x2 − 1 − ln x + x2 − 1 + c.
2
2
√
√
+√
1
Für x ≤ −1 hat man entsprechend:
x2 − 1dx = 2 x x2 − 1 + 12 ln −x + x2 − 1 + c (über die
ungerade Fortsetzung).
2.) Gebrochen rationale Funktionen in sin (x) , cos (x) , tan (x): Für eine gebrochen rationale Funktion
1 ,...,xn )
in x1 , ...xn , also p(x
q(x1 ,...xn ) , setzt man solche trigonometrischen Funktionen überall für xi ein. Dann hilft
folgende schlaue Substitution, nach dem 2. Schema der eigentlichen Substitution
x = 2 arctan (t) ,
2
dx =
1 + t2
Aus den beteiligten trigonometrischen Funktionen wird dann
sin (x) =
1 − t2
2t
2t
,
cos
(x)
=
, tan (x) =
,
2
2
1+t
1+t
1 − t2
2t(1−t2 )
auch weiter mit Additionstheoremen sin (2x) = 2 sin (x) cos (x) = (1+t2 )2 usw. Es entsteht nach dieser
Substitution eine gewöhnliche gebrochen rationale Funktion (zu deren Integration im Allgemeinen vgl.
den nächsten Abschnitt).
+ 1
+
+ 1
2
2
Beispiel: sin(x)
dx = 1+t
2t 1+t2 dt =
t dt = ln |t| = ln |tan (x/2)| . Man beobachte aber einfachere
+ 1
+ cos(x)
Fälle wie 1+sin2 x dx = 1+u2 du = arctan (u) = arctan (sin (x)) . Hier genügt die Umkehrung der
Kettenregel!
3.) Gebrochen rationale Funktionen in sinh (x) , cosh (x) , tanh (x) könnte man analog behandeln,
indem man die analogen hyperbolisch-geometrischen Beziehungen ausnutzt, aber es geht auch einfacher:
Man fasst eine solche Funktion als gebrochen rationale Funktion in ek1 x , ..., ekr x auf, ki ganze Zahlen.
Dann genügt folgende Substitution (wieder nach 2. Schema):
x = ln (t)
1
dx =
dt.
t
Es entsteht eine gebrochen rationale Funktion in t. Ein Beispiel wurde oben bereits gegeben.
7. DAS EINDIM ENSIONALE INTEGRAL
93
7.6.8. Integration gebrochen rationaler Funktionen: Partialbruchzerlegung. Vorbemerkung: Es geht
hier nur um das Verständnis und praktische Handrechnung in einfachen Einzelfällen, wie sie häufig vorkommen. Langwierige Rechnungen sind gerade hier mit einem Computeralgebraprogramm zu vermeiden.
Oftmals wird man darauf geführt, dass noch eine gebrochen rationale Funktion der Gestalt
f (x) =
p (x)
mit Polynomen p, q
q (x)
zu integrieren ist. Das ist dann so zu machen (so weit möglich):
Erster Schritt: Wenn Grad (p) ≥ Grad (q) , so führe man Polynomdivision durch. Der Polynom1 (x)
summand ist simpel zu integrieren, es verbleibt eine gebrochen rationale Funktion pq(x)
mit Grad (p1 ) <
Grad (q) . (Im Folgenden heißt p1 einfach wieder p, wir setzen Grad (p) < Grad (q) voraus.)
Zweiter Schritt: Man führt folgende Partialbruchzerlegung durch (es sei denn, man ist bereits
bei einem der möglichen Endprodukte jeder solchen Zerlegung angelangt, dann hat man mit Standardfunktionen zu tun, deren Stammfunktionen man wissen oder nachschlagen kann). Wenn der Nenner q
mindestens zwei Faktoren (x − a) , (x − b) mit a = b hat oder mindestens einen Faktor (x − a) und einen
quadratischen ohne reelle Nullstelle oder aber mindestens zwei quadratische Faktoren ohne gemeinsame
komplexe Nullstelle, dann ist die folgende Partialbruchzerlegung auszuführen:
1.) Man zerlegt den Nenner in lauter Linearfaktoren und qudratische Faktoren ohne reelle Nullstelle.
(Dies ist nur in einfachen Fällen möglich, auch für ein Computeralgebraprogramm!)
2.) Man schreibt folgenden Ansatz hin. Es ist dabei k ≥ 1 und l ≥ 1 vorauszusetzen. Ferner soll
x2 + αx + β ein Polynom ohne reelle Nullstelle sein. A1 , ..., Ak , B1 , ..., Bl , C1 , ..., Cl stehen für gesuchte
unbekannte reelle Zahlen.
p (x)
k
l
(x − a) (x2 + αx + β) · ...
=
A1
B1 + C1 x
Ak
Bl + Cl x
+ 2
+ ...
+ ... +
+ ... + 2
k
x−a
x + αx + β
(x + αx + β)l
(x − a)
Dabei stehen die Pünktchen im Nenner links für weitere Linearfaktoren und weitere quadratische Faktol
ren ohne reelle Nullstelle, welche keine gemeinsamen Teiler mit (x − a)k x2 + αx + β haben. Auf der
rechten Seite stehen die Pünktchen dafür, dass man für jeden weiteren Faktor im Nenner den nämlichen
Ansatz wie für die beispielhaft genannten beiden noch anzufügen hat. Man beachte: Wenn k = 1, so
Ak
A1
A1
steht auf der rechten Seite nur x−a
statt x−a
+ ... + (x−a)
k . Wenn l = 1, so steht für den zweiten Block
1 +C1 x
. Summanden der Form, wie sie auf der rechten Seite stehen, sind gerade die erwähnten
nur xB2 +αx+β
Endprodukte der Partialbruchzerlegung. Es ist ein mathematischer Satz, dass es die gesuchten Zahlen
eindeutig gibt.
Bemerkung: Es darf durchaus γx − a mit γ = 0 statt x − a stehen und δx2 + αx + β mit δ = 0 statt
2
x + αx + β. Am Ansatz ändert das nichts. Auch die Weiterverarbeitung ist nicht wesentlich schwieriger.
3.) Die unbekannten Zahlen können auf jeden Fall ausgerechnet werden. Dabei geht man zweckmäßig
so vor: Man rechnet direkt aus:
Ak =
p (a)
, wobei q1 (a) der Nenner q ohne den Faktor (x − a)k ist.
q1 (a)
Für die verbleibenden Unbestimmten bildet man einfache (lineare!) Gleichungen, so viele wie man noch
Unbestimmte hat, indem man auf beiden Seiten des Ansatzes für x möglichst einfache (ganze) reelle
Zahlen einsetzt. Dann löst man das lineare Gleichungssystem.
Dritter Schritt: Man rechnet Stammfunktionen zu den Endprodukten aus bzw. schlägt solche nach,
und bildet die Summe dieser Stammfunktionen.
Ein paar einfache Beispiele:
1. Beispiel:
x
A
B
C
=
+
+
.
(x − 1) (x − 2) (2x + 3)
x − 1 x − 2 2x + 3
Das ist der Ansatz, rechts stehen bequemer A, B, C statt A1 , A2 , A3 . Die drei Nennerfaktoren haben
verschiedene Nullstellen. Dies ist der einfachste Fall überhaupt. Gemäß 3.) vom zweiten Schritt berechnet
94
4. REELLE FUNKTIONEN
man sofort:
A =
Also
B
=
C
=
1
1
=− ,
(1 − 2) (2 · 1 + 3)
5
2
2
= ,
(2 − 1) (4 + 3)
7
−3/2
6
3
=− .
35
− 2 − 1 − 32 − 2
x
1
2
6
=−
+
−
.
(x − 1) (x − 2) (2x + 3)
5 (x − 1) 7 (x − 2) 35 (2x + 3)
Nun reicht die Linearität des Integrals und die α1 − Regel, das Integral auszurechnen:
*
x
1
2
3
dx = − ln |x − 1| + ln |x − 2| −
ln |2x + 3| + c.
(x − 1) (x − 2) (2x + 3)
5
7
35
Damit sollte klar sein, wie man alle Fälle behandeln kann, bei denen im Nenner ein Produkt aus lauter
Linearfaktoren ohne gemeinsame Nullstelle auftritt.
2. Beispiel:
1
A
B
C
+
= +
.
x
x − 1 (x − 1)2
x (x − 1)2
Gemäß 3. vom zweiten Schritt berechnet man direkt:
1
A =
= 1,
(0 − 1)2
C = 1.
Zur Bestimmung von B setzt man x = −1 in die Gleichung ein (0 und 1 sind verboten) und erhält diese
lineare Gleichung für B, wobei man die bekannten Zahlenwerte für A, C bereits einsetzt:
B 1
1
2 = −1 − 2 + 4 . Das ergibt B = −1.
− (−1 − 1)
Also
Grundregeln und
1
1
α−
x (x − 1)
2
=
1
1
1
.
−
+
x x − 1 (x − 1)2
Regel ermöglichen die Integralberechnung:
*
1
1
+c
dx = ln |x| − ln |x − 1| −
x−1
x (x − 1)2
3. Beispiel: Man stellt fest, dass 2x2 + x + 1 keine reelle Nullstelle hat, Ansatz daher im folgenden
Fall:
x
A
B + Cx
=
+ 2
.
2
(x − 1) (2x + x + 1)
x − 1 2x + x + 1
Man rechnet direkt aus:
1
A= .
4
Für B und C setzt man x = 0 und x = −1 (am einfachsten) in die Gleichung ein und bekommt
Damit
1
1
0 = − + B, also B = ,
4
4
−1
1 1/4 − C
1
= − +
, also C = − .
−2 · 2
8
2
2
x
1/4
1/4 − x/2
=
+ 2
.
2
(x − 1) (2x + x + 1)
x − 1 2x + x + 1
7. DAS EINDIM ENSIONALE INTEGRAL
95
Für das Integrieren des zweiten Summanden:
2x2
*
2x2
1
+x+1
=
1/4
dx =
+x+1
*
−x/2 − 1/8
dx =
2x2 + x + 1
*
−x/2
dx =
2x2 + x + 1
=
8/7
8/7
=
, damit
2
1 2
x+ 4 +1
√4 x + √1
+
1
7
7
√
√
√
7
7
7
2
4
1
·
arctan √ x + √
arctan
(4x + 1) + c.
+c=
7 4
14
7
7
7
*
*
1
4x + 1
1
du
1
1 −
dx = −
= − ln (u) = − ln 2x2 + x + 1 , also
8
2x2 + x + 1
8
u
8
8
*
1 1/8
− ln 2x2 + x + 1 +
dx
8
2x2 + x + 1
√
√
1 2
7
7
− ln 2x + x + 1 +
arctan
(4x + 1) + c
8
28
7
1
2
2 x + 14 +
7
8
=
16
7
Wir halten fest: Bei der Integration gebrochen rationaler Funktionen können Summanden folgender
Art auftreten: Polynome, gebrochen rationale Funktionen, ln − Glieder und arctan − Glieder.
7.7. Beispiele zur Anwendung des Integralkalküls. Zur partiellen Integration:
Umkehrfunktionen kann man zweckmäßig damit behandeln:
*
*
ln (x) dx =
arcsin (x) dx =
=
*
=
arctan (x) dx =
*
*
1
x dx = ln (x) − x
x
*
*
x
dx
1 · arcsin (x) dx = x arcsin (x) − √
1 − x2
*
1
−2x
√
x arcsin (x) −
dx
2
1 − x2
x arcsin (x) + 1 − x2 . Analog
1 x arctan (x) − ln 1 + x2 .
2
1 · ln (x) dx = x ln (x) −
Produkte
der Form ex sin (x) usw. sind weitere wichtige Beispiele (die Formel noch einmal:
+
F G − F g in Kurzform.):
Zunächst mit f (x) = ex , G (x) = sin (x) :
*
*
ex sin (x) dx = ex sin (x) − ex cos (x) dx, nun G (x) = cos (x) :
*
x
x
= e sin (x) − e cos (x) − ex cos (x) dx, also
*
1 x
ex sin (x) dx =
e (sin (x) − cos (x))
2
+
fG =
96
4. REELLE FUNKTIONEN
+
Nun möchte man etwa auch haben: eαt sin (ωt + ϕ) dt, mit α, ω = 0. Dann wird die partielle Integration
etwas mühsam. Mit der komplexen Darstellung der Sinusfunktion als Kombination von Exponentialausdrücken geht so etwas eleganter:
sin (t) =
*
eαt sin (ωt + ϕ) dt =
=
=
=
=
ejt − e−jt
, also
2j
*
ej(ωt+ϕ) − e−j(ωt+ϕ)
eαt
dt
2j
* 1
et(α+jω)+jϕ − et(α−jω)−jϕ dt
2j
t(α+jω)+jϕ
1
1
1
e
−
et(α−jω)−jϕ
2j α + jω
α − jω
αt+j(ωt+ϕ)
1
1
1
e
eαt−j(ωt+ϕ)
−
2j α + jω
α − jω
eαt
(α sin (ωt + ϕ) − ω cos (ωt + ϕ))
α2 + ω 2
Man kommt also mit der α1 − Regel aus. Es wäre nicht einmal nötig, den Ausdruck der drittletzten Zeile
noch zu verändern, weil er perfekt funktioniert und das rein reell auszudrückende Endresultat ergibt die letzte Umformung belassen wir als Übung im Rechnen mit komplexen Zahlen.
Zur Umkehrung der Kettenregel bzw. Substitution:
Zunächst ein paar Beispiele für die einfache Umkehrung der Kettenregel (d.h. die Ableitung der
inneren Funktion steht als Faktor da, jedenfalls bis auf einen konstanten Faktor):
*
*
1
1
sin (x) cos (x) dx =
udu = u2 = sin2 (x) (mit u = sin x)).
2
2
*
*
*
sin (x)
1
tan (x) dx =
dx = −
du = − ln |cos (x)| (mit u = cos (x) ).
cos (x)
u
*
*
*
x ln 1 + x2
2x ln 1 + x2
1
1
dx =
=
udu
1 + x2
2
1 + x2
2
1 2
=
u (mit u = ln(1 + x2 ))
4
1 =
ln 1 + x2 .
4*
* *
1
1 √
1 2
x 1 + x2 dx =
2x 1 + x2 dx =
udu = · u3/2
2
2
2 3
1
3/2
=
1 + x2
(mit u = 1 + x2 ).
3
Es folgen ein paar Beispiele mit eigentlicher Substitution:
* √
* x−1
√
dx =
2 u2 − 1du (mit x = u2 )
x
= u u2 − 1 − ln u + u2 − 1
√
√
√ √
=
x x − 1 − ln x + x − 1 .
+√
Die Substitution führte also auf das bereits bekannte Integral
u2 − 1du.
*
*
x2
1
√
dt (mit x = 3 sin (t))
dx =
6
3
1−x
1
1
=
t = arcsin x3 .
3
3
7. DAS EINDIM ENSIONALE INTEGRAL
97
7.8. Uneigentliche Integrale als+Grenzwerte. Zuweilen ist es
+ ∞erforderlich, über einen unend∞
lichen Bereich zu integrieren, also etwa 0 f (x) dx oder auch sogar −∞ f (x) zu bilden. Ein analoges
Problem tritt auf, wenn man eine Funktion f mit einem Pol in a oder b (oder beiden) im Intervall [a, b] zu
integrieren. Der Sinn eines solchen Integrals ist der, dass es als Grenzwert gewöhnlicher Riemann-Integrale
existiert, also z.B.
* ∞
* x
e−t dt = lim
e−t dt = lim 1 − e−t = 1.
x→∞ 0
0
Aber
*
x→∞
* 1
1
1
dx = lim
dx = lim (− ln (x)) = ∞.
x→0 x x
x→0
0 x
Dies Integral divergiert also nach ∞. Man definiert also
1
D
31 (uneigentliche Integrale). Wenn f in a rechtsseitig einen Pol hat und auf (a, b] stetig
+b
+b
ist, so existiert a f (t) dt, falls limx→a+ x f (t) dt in R existiert. Dann ist der Wert des Integrals:
* b
* b
f (t) dt := lim
f (t) dt.
a
x→a+
x
Analog für einen Pol linksseitig in b und f stetig auf [a, b):
* x
* b
f (t) dt := lim
f (t) dt, falls dieser Grenzwert in R existiert.
a
x→b−
a
Für einen Pol in c ∈ (a, b) bei stetigem f auf [a, c) und auf (c, b] im Innern des Integrationsintervalls
+b
+c
+b
verlangt man für die Existenz des Integrals a f (t) dt, dass sowohl a f (t) dt als auch c f (t) dt als
endliche Grenzwerte existieren.
+x
+∞
Wenn f auf [a, ∞) stetig ist, so existiert a f (t) dt, falls limx→∞ a f (t) dt in R existiert und hat dann
+b
+b
diesen Wert. Analog ist für f stetig auf (−∞, b] definiert: −∞ f (t) dt := limx→−∞ x f (t) dt, falls dieser
+0
Grenzwert in R existiert. Wiederum wird für f stetig auf R sowohl die Existenz von −∞ f (t) dt als auch
+∞
+∞
die Existenz von 0 f (t) dt verlangt dafür, dass −∞ f (t) dt existiere. Analog für einen Pol rechtsseitig
+∞
+b
+∞
in a und a f (t) dt, f stetig auf (a, ∞): Sowohl a f (t) dt als auch b f (t) dt müssen existieren für ein
b mit a < b < ∞.
+∞
+1
Zum Verständnis: 1 x12 dx = 1, das existiert. Aber 0 x12 dx = ∞. Das divergiert. Daher existiert
+∞ 1
+∞ 1
+0
+∞ 1
1
π
auch nicht 0 x2 dx. −∞ 1+x2 dx = 2 0 1+x2 dx = π existiert, da −∞ 1+x
2 dx ebenfalls den Wert 2
hat.
Ebenso wie bei Reihen hat man:
+β
S 42. Wenn ein uneigentliches Integral α |f (t)| dt existiert (das Integral also absolut konvergent
+β
ist), dann existiert auch α f (t) dt.
Für die absolute Konvergenz nimmt man gern wiederum konvergierende Majoranten, für absolute
Divergenz divergierende Minoranten, insbesondere die folgenden:
* ∞
1
dx konvergiert für α > 1, divergiert für α ≤ 1.
α
x
1
+∞
Also folgt aus f+ stetig auf [1, ∞), |f (x)| ≤ xKα , x ∈ [1, ∞), mit α > 1, dass 1 + |f (x)| dx existiert
∞
∞
und damit auch 1 f (x) dx. Ebenso divergiert für stetiges f auf [1, ∞) das Integral 1 |f (x)| dx, wenn
|f (x)| ≥ xKα mit K > 0 und α ≤ 1. Analog für Pole, dafür hat man als Vergleiche:
* 1
1
dx konvergiert für α < 1, divergiert für α ≥ 1.
α
0 x
+1
Wenn daher für stetiges f auf (0, 1] gilt: |f (x)| ≤ xKα , x ∈ (0, 1], mit α < 1, dann existiert 0 |f (x)| dx.
+1
(Analog hat man wieder Divergenz von 0 |f (x)| dx bei Minorante xKα mit α ≥ 1.
98
4. REELLE FUNKTIONEN
Beispiele:
*
* 1
1
1
√ dx = 2,
dx = ∞,
x
x
* 0∞
*0 ∞
1
1
√ dx = ∞,
dx = 10.
1.1
x
x
1
1
* 1
* ∞
1
ln (x) dx = −1,
dx = ∞
ln (x)
0
2
1
Für die letzten beiden: Am Pol wächst |ln (x)| langsamer nach ∞ als jede Potenz x−α mit 0 < α < 1.
+2 1
1
Dagegen geht ln(x)
für x → ∞ langsamer nach Null als jede Potenz, z.B. x1 . Auch 1 ln(x)
dx = ∞, weil
1
1
ln(x) für x → 1+ etwa so schnell nach ∞ geht wie x für x → 0 + .
+∞
Hier ist noch ein Beispiel für ein uneigentliches Integral, das konvergiert, aber nicht absolut: 0 sin(x)
x dx.
+ t sin(x)
Man beachte: Der Integrand ist in 0 stetig, es geht nur um limt→∞ 0 x dx. Wir argumentieren so: Sei
∞
an das Integral von der n. Nullstelle bis zur n + 1. Nullstelle, für n ≥ 1. Dann ist
an eine alternien=1
rende Reihe, deren Glieder monoton gegen Null fallen. Also ist die Reihe konvergent und somit auch das
Integral von der ersten
Nullstelle an, daher auch von 0 an. Andererseits besteht im Bereich [kπ, (k + 1) π]
1
die Ungleichung sin(x)
x ≥ (k+1)π |sin (x)| , so dass
*
(k+1)π
kπ
* π
sin (x) 2
1
dx ≥
sin (x) dx =
.
x (k + 1) π 0
(k + 1) π
∞
2
Aber die Reihe
kπ divergiert (im Wesentlichen ist das die harmonische). Somit divergiert auch das
k=2
+ ∞ Integral 0 sin(x)
x dx.
7.9. Integrale über Kurven (vektorwertige Funktionen einer unabhängigen Variablen).
+ b→
→
Was sollte man unter a −
x (t) dt verstehen? Denken wir an das Beispiel von Geschwindigkeitsvektor −
v (t)
−
→
−
→
zur Zeit t. Bei Ort x (t0 ) zur Zeit t0 sollte dann gelten für den Ort x (t) zur Zeit t ≥ t0 :
→
→
−
→
→
v [t0 ,t] (−
v [t0 ,t] ist die mittlere (vektorielle) Geschwindigkeit in [t0 , t])
x (t) = −
x (t0 ) + (t − t0 ) −
* t
→
−
→
= −
x (t0 ) +
v (t) dt.
t0
Mit Orts- und Geschwindigkeitsvektoren wird komponentenweise gerechnet, ebenso werden Mittelwerte
und Intergale von Vektoren komponentenweise ausgerechnet. Das entspricht ganz dem, dass Ableitungen
von Vektoren komponentenweise zu nehmen sind. Also:


x1 (t)


..
→
D
32. Für −
x (t) = 
 wird allgemein definiert:
.
xn (t)
 +b

x
(t)
x1 (t) dt
1
* b
* b
 a .


.
−
→

..
..
x (t) dt =

 dt := 
a
a
+b
xn (t)
a xn (t) dt



.

7.10. Einige Anwendungen eindimensionaler Integrale. Hier sollen nur einige Beispiele gegeben werden. Es sei jedoch darauf hingewiesen, dass man beim Lösen von exakt lösbaren Differentialgleichungen wieder auf eine Fülle von Anwendungen trifft und dass man die Integration im Mehrdimensionalen wesentlich auf die eindimensionale Integration rechnerisch zurückführt.
7. DAS EINDIM ENSIONALE INTEGRAL
99
−
→
7.10.1. Ort, Geschwindigkeit und Beschleunigung. Gegeben seien der Beschleunigungsvektor b (t)
→
→
für alle Zeiten t und der Ortsvektor −
x (t0 ) sowie der Geschwindigleitsvektor −
v (t0 ) zur Zeit t0 . Es gelten
−
→
−
→
−
→
−
→
−
→
′
′
′′
die Beziehungen x (t) = v (t) und b (t) = v (t) = x (t) . Dann rechnet man aus:
→
→
(i) −
v (t) = −
v (t0 ) +
→
→
(ii) −
x (t) = −
x (t0 ) +
*
t
t0
t
*
t0
−
→
b (t) dt
−
→
v (t) dt.
Bemerkung: Manchmal finden Sie a (t) fürdei Beschleunigung
(’acceleration’).
−
→
sin (t)
1
1
−
→
−
→
Beispiel: (Ebene Bewegung) b (t) =
für alle t, x (0) =
, v (0) =
. Dann
cos (2t)
1
0
hat man:
−
→
v (t) =
(i)
=
=
−
→
x (t) =
(ii)
=
=
sin (t)
+
dt
cos (2t)
0
.
/t
− cos (t)
1
+ 1
0
2 sin (2t) 0
2 − cos (t)
.
1
2 sin (2t)
* t
1
2 − cos (t)
+
dt
1
1
0
2 sin (2t)
.
/t
1
2t − sin (t)
+
1
− 14 cos (2t) 0
1 + 2t − sin (t)
5
1
4 − 4 cos (2t)
1
0
* t
1.5
1.4
1.3
1.2
1.1
1
0
10
20
30
40
50
60
Hinweis: Solche Dinge sollte man mit bestimmten Integralen rechnen, das ist vielfach günstiger als die
−
→
→
Version, bei der man zuerst eine beliebige Stammfunktion von b (t) ausrechnet und dann mittels −
v (t0 )
die (vektorielle) Integrationskonstante bestimmt, usw. Das bestimmte Integral erspart das Lösen der
dabei auftretenden Gleichungen.
→
7.10.2. Länge einer Kurvenbahn. Es sei −
x (t) , t0 ≤ t ≤ t1 , eine (differenzierbare) Parametrisierung
einer Kurvenbahn, derart, dass keine Verbindung zweier Punkte auf der Bahn doppelt durchlaufen wird.
Dann ist
*
t1
t0
′
−
x (t) dt
→
100
4. REELLE FUNKTIONEN
→
die Länge dieser Bahn. Beispiel: Länge einer Ellipse, −
x (t) =
−a sin (t)
−
→
:
x ′ (t) =
b cos (t)
Länge der Ellipse =
*
2π
0
a cos (t)
b sin (t)
, 0 ≤ t ≤ 2π. Dann ist mit
a2 sin2 (t) + b2 cos2 (t)dt.
Für a = b, beide nicht Null, ist dies Integral
nicht elementar berechenbar, das berühmte ’elliptische
+ 2π
Integral’. Für r = a = b kommt heraus: 0 rdt = 2πr, der bekannte Kreisumfang.
−t
e cos (t)
→
Für die sogenannte logarithmische Spirale −
x (t) =
, 0 ≤ t < ∞, bekommt man zur
e−t sin (t)
Länge ein konvergentes uneigentliches Integral:
*
∞
e−t dt = 1.
0
→
7.10.3. Sektorenformel für Flächeninhalte. Ein Ortsvektor −
x (t), t0 ≤ t ≤ t1 , überstreiche eine gewisse Fläche, ohne ein Stück davon mehrfach zu überstreichen. Dann ist der Inhalt diese Fläche:
F =
*
0

→
Beispiel: −
x (t) = 
1
2
1
1 −
′
→
x (t) × −
x (t) dt.
→
2

sin (2t)
sin (t)  , 0 ≤ t ≤ 2π, die Bahn sieht so aus:
0
1
0.8
0.6
0.4
0.2
-0.4-0.20
-0.2
0.2 0.4
-0.4
-0.6
-0.8
-1
Wir haben



cos (2t)
′
′
−
→
−
→
−
→
x (t) =  cos (t)  , x (t) × x (t)) = 
0

0
,
0
1
sin
(2t)
cos
(t)
−
sin
(t)
cos
(2t)
2
Der Inhalt der in der Acht eingeschlossenen Fläche ist daher:
F =
*
0
2π
1
sin (2t) cos (t) − sin (t) cos (2t) dt.
2
7. DAS EINDIM ENSIONALE INTEGRAL
101
Das ist ein wenig unbequem, weil 12 sin (2t) cos (t)− sin (t) cos (2t) das Vorzeichen wechselt. Aber mit [0, π]
erfasst man die obere Hälfte der Fläche, dort ist diese Funktion positiv, und man hat:
* π
1
sin (2t) cos (t) − sin (t) cos (2t) dt
F = 2
2
*0 π
* π
= 2
sin (t) cos2 (t) − 2
sin (t) cos2 (t) − sin2 (t)
*0 π
* π 0
3
= 2
sin (t) dt = 2
sin (t) (1 − cos2 (t))dt
0
*
0
−1
= −2
(1 − u2 )du (mit u = cos (t) )
1
* 1
8
= 4
(1 − u2 )du = .
3
0
7.10.4. Oberflächeninhalt und Volumen eines Rotationskörpers. Lässt man den Graphen einer Funktion f (x) (stückweise stetig) im Intervall [a, b] um die x− Achse rotieren, so hat der eingeschlossene
Köper das Volumen
* b
V =
πf 2 (x) dx.
a
Idee: Man zerlegt in kleine Zylinderscheibchen quer zur x− Achse, und die Zylinder haben Volumina
πf 2 (x) ∆x. Das ergibt Riemannsummen, welche zum obenstehenden Integral führen.
Auch der Oberflächeninhalt der Mantelfläche des Körpers lässt sich mit ähnlicher Idee berechnen:
* b
O=
2π |f (x)| 1 + f ′2 (x)dx.
a
Dabei setzen wir noch die Ableitung von f als stetig voraus. Eine genauere Begründung
dieser Formel
geben wir im Rahmen der mehrdimensionalen Integration. Zu beachten ist der Faktor 1 + f ′2 (x), der
an die Bogenlänge erinnert. Man erhält natürlich den gesamten Oberflächeninhalt, indem man noch die
Inhalte der begrenzenden Kreisscheiben hinzufügt.
KAPITEL 5
Lineare Algebra
Lineare Algebra ist das Gebiet der Mathematik, das von Vektorräumen und linearen Abbildungen
(den Vektorraumhomomorphismen) handelt. Matrizen gehören dazu als lineare Abbildungen bzw. Koordinatendarstellungen linearer Abbildungen. In diesem Rahmen sind lineare Gleichungssysteme umfassend
und systematisch zu behandeln. Schließlich umfasst das Gebiet auch mehrfach lineare Abbildungen (seien
es Skalarprodukte oder Determinanten). Wir haben einige dieser Dinge bereits im zweiten Kapitel unter dem Titel ’Vektorrechnung’ im konkreten Fall R2 , R3 gesehen. Nunmehr geht es um den Ausbau der
abstrakteren Strukturen und um die Betonung beliebiger Dimensionen, allerdings mit zwei Einschränkungen: Wir behandeln nur endlichdimensionale Vektorräume, und nur über den Körpern R, C mit starker
Betonung auf ersterem - er soll es immer sein, wenn nicht ausdrücklich etwas anderes gesagt wird.
Wir beginnen mit ’Vektorraum, lineare Unabhängigkeit, Basis, Dimension’.
Wir verweisen auf die bereits zuvor gegebene Definition des Begriffs ’Vektorraum über einem Körper
K’, allerdings behandeln wir nur die besonders wichtigen Fälle K = R oder K = C.
Beispiele für Vektorräume:
1) Rn ist Vektorraum über R. Cn ist Vektorraum über C (beide mit den komponentenweisen Operationen). Wir werden sehen, dass diese Dimension n haben. Weiter noch ist Cn ein 2n− dimensionaler
Vektorraum über R (da C bereits ein zweidimensionaler Raum über R ist).
2) Die Polynome mit reellen Koeffizienten bilden einen Vektorraum über R, allerdings mit abzählbar
unendlicher Dimension. (Die linearen Operationen sind dabei die übliche Addition von Polynomen und
Multiplikation eines Polynoms mit einer reellen Zahl.)
3) Für ein Intervall I ⊂ R sei C (I) := { f : I → R| f stetig} . Dann bildet C (I) mit der üblichen
Addition der Funktionen und Multiplikation einer Funktion mit einer Zahl einen Vektorraum über R;
denn mit f, g sind auch f +g sowie cf (c ∈ R) stetig. Allerdings hat C (I) sogar überabzählbar unendliche
Dimension.
4) Die Menge der reellen Lösungen der Schwingungsgleichung x′′ (t) + 2ρx′ (t) + ω20 x (t) = 0 bildet
einen Vektorraum der Dimension 2, welcher Unterraum des Vektorraums aller auf R differenzierbaren
Funktionen ist.
Wir werden uns auf die Behandlung endlichdimensionaler Vektorräume beschränken.
1. Die Struktur endlichdimensionaler Vektorräume
Zur Vektorraumstruktur gehören nur die linearen Operationen. Diese führen bei näherer Betrachtung
n
→
→
→
zu folgendem Grundbegriff: Eine Linearkombination von Vektoren −
a , ..., −
a ist ein Ausdruck
λ −
a .
1
n
k
k
k=1
→
→
Das ist die Endform, in die jeder Ausdruck in −
a 1 , ..., −
a n zu bringen ist. Dabei stellen sich folgende Fragen:
n
→
→
1.) Ist eine solche Linearkombination eindeutig bestimmt, das heißt: Kann jeder Vektor −
x =
λ −
a
k
k=1
k
→
nur auf eine Weise so dargestellt werden, sind also die Koeffizienten λk durch −
x eindeutig bestimmt? 2.)
Kann jeder Vektor des Raums so dargestellt werden? Wir legen diese Fragen in folgenden Rahmen:
D
33 (Lineare Unabhängigkeit, Erzeugendensystem, Basis, Spann, Unterraum). Seien
−
→
→
a 1 , ..., −
an ∈V
103
104
5. LINEARE ALGEBRA
beliebige Vektoren des Vektorraums V über R. Dann hat man stets folgende Linearkombinationsabbildung:
n
−
−
L→
a 1 ,...,→
an :  R  →
λ1
 .. 
 .  →
λn
V
n
k=1
→
λk −
ak
→
→
Die Vektoren −
a 1 , ..., −
a n bilden definitionsgemäß genau dann ein Erzeugendensystem für V, wenn diese
→
→
Abbildung surjektiv ist. Das System der Vektoren −
a 1 , ..., −
a n heißt linear unabhängig genau dann, wenn
−
→
−
→
diese Abbildung injektiv ist. Die Vektoren a 1 , ..., a n bilden eine Basis für V genau dann, wenn diese
Abbildung bijektiv ist.
Ein Vektorraum V heißt endlichdimensional genau dann, wenn es ein endliches Erzeugendensystem für
ihn gibt.
−
→
−
→ −
→
−
→
−
−
Das Bild von L→
a 1 ,...,→
a n heißt Spann a 1 , ..., a n , der von den Vektoren a 1 , ..., a n aufgespannte Unterraum. Ein Unterraum von V ist definitionsgemäß eine Teilmenge von V, welche den Nullvektor von V
→
→
→
→
enthält und aus der die linearen Operationen nicht hinausführen, also −
x ,−
y ∈ U =⇒ −
x +−
y ∈ U, und
−
→
−
→
α ∈ R, x ∈ U =⇒ α x ∈ U.
Wir treffen die Generalvoraussetzung: Alle betrachteten Vektorräume sind endlichdimensional.
(Das bedeutet nach Definition zuerst einmal, dass es ein endliches Erzeugendensystem gibt, gleichwertig
aber, wie gleich einzusehen sein wird, dass es eine endliche Basis gibt.)
Eine Erläuterung zum Begriff der Basis: Eine Basis ist nichts anderes als ein Koordinatensystem:
n
→
→
→
Wenn jeder Vektor −
x ∈ V eine eindeutige Darstellung −
x =
λ −
a besitzt, so sind die Zahlen λ die
k
k=1
k

k

λ1
 .. 
−
→
−
→
−
→
Koordinaten von x bezüglich der Basis a 1 , ..., a n , und der Vektor  .  ∈ Rn ist die Koordinatenλn
→
darstellung von −
x bezüglich dieser Basis.
−
→
Zunächst zum Begriff des Unterraums: { 0 } ist der stets vorhandene sogenannte triviale Unterraum.
Ebenso ist V Unterraum von sich selbst. Eine Gerade y = mx + b ist genau
dann ein Unterraum von
1
R2 , wenn sie durch den Ursprung geht, also b = 0. Sie ist der Spann von
. Alle eindimensionalen
m
→
→
−
→ −
Unterräume von V (beliebig) erhält man als Spann −
a mit einem Vektor
. Die Vereinigung
a = 0 W der
1
1
1
2
+
=
∈
/ W.
beiden Geraden y = x und y = −x ist kein Unterraum des R . Denn
1
−1
0
Wir halten noch als Satz fest:
→
→
→
→
S 43. V sei endlichdimensionaler Vektorraum, −
a , ..., −
a ∈ V. Dann ist Spann −
a , ..., −
a
1
n
1
n
ein Unterraum von V. Jeder beliebige Unterraum von V lässt sich als Spann einer endlichen Folge von
Vektoren ausdrücken.
n
n
n
n
−
→
→
→
→
→
→
→
Die erste Aussage ist klar: 0 = 0−
a 1 +...0−
a n.
λk −
a k+
µk −
ak =
(λk + µk ) −
a k. α
λk −
ak =
n
k=1
k=1
k=1
k=1
k=1
→
(αλk ) −
a k . Also führen die linearen Operationen nicht aus dem Spann hinaus. Die zweite Aussage ist
eine Folgerung aus dem Basisergänzungssatz weiter unten.
Zur Illustration der Begriffe einige Beispiele: V = R3 , darin betrachten wir das System der Vektoren
−
→
→
e 1, −
e 2 , also
   
1
0
 0 , 1 .
0
0
Das ist linear unabhängig. Wenn nämlich
 
 
 
 
1
0
1
0
λ1  0  + λ2  1  = µ1  0  + µ2  1  ,
0
0
0
0
1. DIE STRUKTUR ENDLICHDIMENSIONALER VEKTORRÄUME
105
−
−
dann λ1 = µ1 und λ2 = µ2 . Also ist L→
e 1 ,→
e 2 injektiv. Aber die Abbildung ist nicht surjektiv: Der Vek→
→
→
tor −
e 3 ist nicht als Linearkombination der −
e 1, −
e 2 darstellbar. Die beiden Vektoren bilden daher kein
3
Erzeugendensystem für R . Der Spann dieser beiden Vektoren ist offenbar die xy− Ebene. Sie bildet
−
→ −
→ −
→
−
−
−
einen Unterraum des R3 . Aber die Abbildung L→
e 1 ,→
e 2 ,→
e 3 ist offenbar bijektiv. Das System e 1 , e 2 , e 3
3
3
bildet eine Basis für R . Diese drei Vektoren bilden insbesondere eine Erzeugendensystem für R . Daher
ist R3 jedenfalls endlichdimensional. Wir werden sogleich beweisen, dass in einem Raum, der eine Basis
der Länge n besitzt, die Länge einer jeden Basis wieder dieselbe ist. Das werden wir Dimension von V
nennen. Mit diesem Resultat ist dann klar, dass R3 mit der eingeführten Struktur dreidimensional ist.
→
→
→
→
→
Betrachten wir noch das System folgender vier Vektoren im R3 : −
e 1, −
e 2, −
e 3, −
e1 +−
e 2 . Das ist wieder
ein Erzeugendensystem (setze λ4 = 0 und verwende die eindeutige Linearkombinationsdarstellung mit
−
→
→
→
e 1, −
e 2, −
e 3 ). Aber es ist nicht mehr linear unabhängig. Das können wir sofort daran sehen: Der Vektor
−
→
−
→
−
→
−
→
e 1 + e 2 lässt sich
einmal darstellen als 1 · e 1 + 1 · e 2 , also λ1 = λ2 = 1, λ3 = λ4 = 0, andererseits
−
→
−
→
als 1 · e 1 + e 2 , d.h. mit µ1 = µ2 = µ3 = 0 und µ4 = 1. Somit ist die zugehörige Linearkombinationsabbildung nicht injektiv. Wir bemerken noch, dass kein linear unabhängiges System von Vektoren
den Nullvektor enthalten kann, da in einer Linearkombination eines solchen Systems der Koeffizient vor
einem Nullvektor beliebig wählbar wäre, ohne den Wert der Linearkombination zu verändern.
Zunächst entfalten wir den Begriff der linearen Unabhängigkeit in drei Versionen, von denen jede
eine eigene Nützlichkeit besitzt:
→
→
a n ist genau dann
S 44 (Charakterisierungen der linearen Unabhängigkeit). Ein System −
a 1 , ..., −
linear unabhängig, wenn eine der folgenden gleichwertigen Bedingungen erfüllt ist:
(i)
(ii)
n
k=1
n
→
λk −
ak
=
→
λk −
ak
=
k=1
(iii)
−
→
0 =⇒ für alle i, 1 ≤ i ≤ n, gilt: λi = 0
n
k=1
−
→
ai
=
→
µk −
a k =⇒ für alle i, 1 ≤ i ≤ n, gilt: λi = µi
→
λk −
a k für alle i und alle λk , k < i.
1≤k<i
Beweis: (ii) ist die Wiederholung der oben gegebenen Definition. (i) folgt aus (ii) als Spezialfall
→
→
µ1 = ... = µn = 0. Dass (iii) aus (i) folgt, sieht man so: Wenn nicht (iii) , also −
ai =
λk −
a k mit
1≤k<i
−
→
→
→
irgendwelchen Zahlen λk , 1 ≤ k < i, dann −
a i+
−λk −
a k = 0 , also haben wir eine Linearkombination
1≤k<i
der Vektoren, bei der nicht alle Koeffizienten Null sind, die aber den Nullvektor ergibt, was (i) widerspricht. Aber nicht (iii) =⇒ nicht (i) ist gleichwertig zu (i) =⇒ (iii) . (Man beachte, dass für i = 1
−
→
→
die Summe
λk −
a k leer ist, nach Definition hat sie dann den Wert 0 .) Fehlt noch (iii) =⇒ (ii):
1≤k<i
Auch hier zeigen wir stattdessen: Wenn nicht (iii) , dann nicht (ii). Wenn
n
k=1
→
λk −
ak =
n
k=1
→
µk −
a k , für ein
k: λk = µk , dann gibt es einen größten Index mit dieser Eigenschaft, nennen wir ihn k0 . Dann hat man:
k0
k0
k
0 −1
→
→
→
→
λk −
µk −
(µk − λk ) −
a k und mit λk0 − µk0 = 0:
ak =
a k , also λk0 − µk0 −
a k0 =
k=1
k=1
k=1
k
0 −1
µk − λk −
−
→
→
a k0 =
a k , Widerspruch zu (iii) .
λk0 − µk0
k=1
−
→
(Die Summe ist wieder leer mit Wert 0 im Falle k0 = 1.)
Wir kommen nun zur eindeutigen Definition der Dimension über den Basisergänzungssatz. Dazu
beweisen wir zunächst den folgenden Hilfssatz, der sehr wichtig ist und eigenständige Bedeutung hat ihn werden wir ebenso wie den Basisergänzungssatz auch später noch oft anwenden.
106
5. LINEARE ALGEBRA
→
→
S 45 (Hilfssatz zum Austausch von Erzeugenden). Es seien −
a 1 , ..., −
a n ∈ V beliebige Vektoren,
n ≥ 2. Dann gilt mit beliebigen Zahlen λ = 0 und µ:
→
→ −
→
→
→
→
(i) Spann λ−
a 1 + µ−
a 1, →
a 2, −
a 2 , ...−
a n = Spann −
a 2 , ..., −
an .
→
→
→
→
→
→
→
(ii) λ−
a + µ−
a ,−
a , ...−
a linear unabhängig ⇐⇒ −
a ,−
a , ..., −
a linear unabhängig.
1
2
2
n
1
2
n
Beweis: Zu (i):
n
n
→
→
→
→
→
→
α λ−
a 1 + µ−
a2 +
λk −
a k = αλ−
a 1 + (αµ + λ2 ) −
a2 +
λk −
a k.
k=2
k=3
→
→
→
a 2 , ..., −
a n . Also
Das ist eine Linearkombination der −
a 1, −
−
→ −
→
−
→
−
→
→
→
Spann λ a 1 + µ a 2 , a 2 , ...−
a 1, →
a n ⊂ Spann −
a 2 , ..., −
an .
Weiter hat man
n
k=1
Daher
n
λ1 −
µλ1 −
→
→
→
→
λk −
ak =
λ→
a 1 + µ−
a 2 + λ2 −
a2 +
λk −
a k.
λ
λ
k=3
→ −
→
→
→
→
→
Spann −
a 1, →
a 2 , ..., −
a n ⊂ Spann λ−
a 1 + µ−
a 2, −
a 2 , ...−
an .
→
→
→
→
→
→
a 2, −
a 2 , ...−
a n ein linear unabhängiges System. Dann ist insbesondere −
a 2 , ...−
an
Zu (ii): Es sei λ−
a 1 +µ−
n
−
−
→
−
→
−
→
−
→
→
linear unabhängig. Wäre a 1 , a 2 , ... a n linear abhängig, so müsste daher a 1 =
λk a k gelten, mit
k=2
geeigneten Koeffizienten. Aber dann:
n
n
→
→
→
→
→
→
λ−
a 1 + µ−
a2 =λ
λk −
a k + µ−
a 2 = (λλ2 + µ) −
a2+
λλk −
a k.
k=2
k=3
→
→
→
→
Also wäre das System λ−
a 1 + µ−
a 2, −
a 2 , ...−
a n linear abhängig. Damit ist die Richtung ’ =⇒ ’ bewiesen.
−
→
−
→
−
→
→
→
Umgekehrt: Sei a 1 , a 2 , ..., a n linear unabhängig. Dann ist es wieder insbesondere −
a 2 , ..., −
a n . Lineare
n
−
→
−
→
−
→
−
→
−
→
−
→
−
→
Abhängigkeit von λ a 1 + µ a 2 , a 2 , ... a n würde also bedeuten: λ a 1 + µ a 2 =
λk a k mit geeigneten
k=2
λk . Aber dann
n
−
λk − µ −
−
→
→
a1 =
a2+
λk →
a k,
λ
k=3
→
→
→
was der linearen Unabhängigkeit von −
a 1, −
a 2 , ..., −
a n widerspricht.
→
→
Bemerkung: Selbstverständlich geht das Ganze ebenso durch mit λ−
a k0 + µ−
a k1 für andere Paare
k0 , k1 . (k0 , k1 statt 1, 2 oben.) Es sollte nur die Notation von den Doppelindizes entlastet werden.
Wir kommen zur Existenz von Basen, zur Basisergänzung und zur Eindeutigkeit der Länge einer
jeden Basis von V.
→
→
S 46 (Basisergänzungssatz, und Existenz von Basen). Es mögen −
a 1 , ...−
a n ein beliebiges Erzeu−
→
−
→
gendensystem für V bilden. Jedes linear unabhängige System b 1 , ... b r von Vektoren aus V kann dann
zu einer Basis für V ergänzt werden durch eventuelle Hinzunahme von Vektoren ausschließlich aus dem
→
→
vorgegebenen Erzeugendensystem −
a 1 , ...−
a n . Insbesondere besitzt jeder endlichdimensionale Vektorraum
eine Basis.
−
→
−
→ →
→
Beweis: Wir bilden das System b , ... b , −
a , ...−
a . Es ist wieder einErzeugendensystem für V.
1
r
1
n
Aus dieser Reihe streichen wir jeden Vektor, der von den Vorgängern erzeugt wird. (Insbesondere wird
jeder Nullvektor gestrichen, da er von der leeren Menge bereits erzeugt wird.) Es entsteht eine Reihe
von Vektoren, in der keiner von den Vorgängern erzeugt wird. Eventuell ist diese Reihe leer - das ist
−
→
→
aber nur dann der Fall, wenn alle Vektoren −
a i = 0 waren. Dann ist der Raum der Nullraum, eine
Basis leer, sie hat Länge Null. Oder aber es bleibt eine nichtleere Folge von Vektoren, die nach Version
(iii) linear unabhängig ist. Außerdem bildet sie nach wie vor ein Erzeugendensystem, weil nur Vektoren
herausgestrichen wurden, die bereits als Linearkombination der vorigen, also verbliebenen, darstellbar
waren. Somit ist sie eine Basis. Wir hätten auch mit leerer linear unabhängiger Folge beginnen können,
→
→
dann entsteht eine Basis durch Auswahl aus den Vektoren −
a 1 , ...−
a n allein.
2. LINEARE ABBILDUNGEN
107
−
→
−
→
→
→
→
S 47. Wenn −
a 1, −
a 2 , ..., −
a m und b 1 , ..., b n Basen für V sind, so gilt m = n. Diese eindeutig
bestimmte Länge einer jeden Basis für V heißt Dimension von V.
→
→
Beweis: Wir können n ≥ m ≥ 1 voraussetzen. Wir betrachten das (eventuell leere) System −
a 2 , ..., −
a m.
−
→
−
→
−
→
Es ist linear unabhängig und wegen der linearen Unabhängigkeit der a 1 , a 2 , ..., a m noch keine Basis.
−
→
−
→
Andererseits ist b 1 , ..., b n ein Erzeugendensystem für V. Also können wir nach dem Basisergänzungssatz
−
→
−
→ →
→
→
→
mit einem b i0 eine neue Basis b i0 , −
a 2 , ..., −
a m bilden. Wenn m = 1, sind wir fertig, die Reihe −
a 2 , ..., −
am
war dann leer, alle Vektoren der ersten Basis sind durch solche der zweiten ersetzt. Wenn m > 1, setzen wir
−
→ →
→
a 3 , ..., −
a m . Das kann mit demselben
das Verfahren fort und bilden das linear unabhängige System b i0 , −
−
→
Argument durch ein b i1 , i1 = i0 , zu einer Basis ergänzt werden. Dies setzen wir so lange fort, bis die
−
→
−
→
→
→
Vektoren −
a 1 , ..., −
a m durch Vektoren b i0 , ..., b im sämtlich ersetzt sind. Da diese Vektoren eine Basis
−
→
−
→
bilden, kann nicht n > m gelten, da sonst b 1 , ..., b n linear abhängig wäre. Somit n = m.
2. Lineare Abbildungen
−
→
D
34. Es seien V, W Vektorräume über K. Eine Abbildung f : V → W heißt linear, wenn
−
→ −
−
→ → −
→ →
→
→
→
f →
x +−
y
= f −
x + f −
y für alle −
x,−
y ∈ V und
−
→ −
−
→ −
→
→
−
→
(ii)
f λx
= λ f x für alle x ∈ V, λ ∈ K.
(i)
−
→
−
→ −
−
→ −
→ −
→
→
Bemerkung: Eine lineare Abbildung f hat stets die Eigenschaft f 0 = 0 . Denn f 0 =
−
→ −
−
→ −
→
→ −
→
f 0· 0 = 0 f 0 =0.
Beispiele:
1) Sei m ∈ R, dann ist fm : R → R, fm (x) = mx, eine lineare Abbildung, und jede lineare Abbildung
R → R hat diese Gestalt. Achtung: Man nennt auch zuweilen Funktionen g (x) = mx + b linear, aber
mit b = 0 sind sie nicht lineare Abbildungen im Sinne der linearen Algebra, genauer nennt man sie affin.
Denn wir haben g (0) = b = 0.
2) Die Drehung um den Ursprung im R2 entgegen dem Uhrzeigersinn mit Winkel α ist eine lineare
Abbildung, da offenbar Drehung und Streckung mit λ vertauschen und ein Dreieck mit Kantenvektoren
−
→ → −
→
−
→
a , b,−
a + b starr als ganze Figur gedreht wird, so dass die Drehung auch mit der Vektoraddition
−
→
vertauscht. Dagegen ist eine Drehung um einen Punkt P, 5xP = 0 , mit einem Winkel α, der kein Vielfaches
von 2π ist, offenbar nicht linear, weil diese Drehung den Ursprung nicht in sich überführt. Allerdings
ist eine solche Drehung affin. Denn bezeichnen wirsie mit D
Drehung um den
und die entsprechende
→
→
→
Ursprung mit D0 , so haben wir D−
x = 5xP + D0 −
x − 5xP = 5xP − D0 5xP + D0 −
x , mit der linearen
Abbildung D0 . Analoge weitere Beispiele sind Drehungen um eine Koordinatenachse im R3 oder auch
die Spiegelung an einer Koordinatenebene. (Spiegelungen an anderen Ebenen sind wiederum affin.)
3) Die Projektion im R3 auf die xy− Ebene parallel zur z− Achse ist linear, die Projektion auf eine
Ebene parallel zur xy− Ebene, welche den Usprung nicht erhält, ist wiederum eine affine Abbildung.
4) In der Elektrotechnik betrachtet man lineare Vierpole, die mit Schaltungen von Widerständen aus
einer Eingabespannung U2 und einem Eingabestrom I2 eine Ausgangsspannung U1 und einen Ausgangs−
→
strom I1 in linearer Weise machen, so dass die Abbildung f (U2 , I2 ) = (U1 , I1 ) eine lineare Abbildung
R2 → R2 ist. Ein konkretes Beispiel dazu: Wir betrachten folgenden Vierpol (die vier Pole sieht man
durch kleine Kringel verdeutlicht) - nach dem Bild würde man eher dazu neigen, das Paar (U1 , I1 ) als
Eingabe und das andere als Ausgabe zu betrachten, aber wir werden sehen, dass man mit linearer Algebra ganz leicht von der einen zur anderen Version wechseln kann (Stichwort: ’Inverse Matrix’) und dass
die Beziehungen indessen für die angegebene Richtung einfacher wird, weshalb man sie eben auch in der
108
5. LINEARE ALGEBRA
Elektrotechnik bevorzugt.
I
I2
1
o
o
R
U1
o
U
2
o
(Man beachte die vorgegebenen Zählrichtungen.)
Die Kirchhoffgleichungen hierzu liefern sofort: (I1 − I2 ) R = U1 = U2 , also können U1, I1 wie folgt durch
U2 , I2 ausgedrückt werden:
U1
= U2
1
I1 =
U2 + I2
R
Man beachte: Diese Gleichungen sind linear, U1 , I1 sind durch lineare Funktionen im engeren Sinne (also
ohne additive Konstante, nicht affin) ausgedrückt. Diese Rechnung werden wir sogleich implementieren
als ’Matrix mal Vektor’, was wir schon einmal in diesem Beispiel vorführen:
−
→
U1
1 0
U2
U2
=
=
f
.
1
I1
I2
I2
1
R
1 0
Man sieht: Die Matrix
besteht einfach aus den abzulesenden Koeffizienten des linearen Glei1
1
R
chungssystems mit seinen zwei Zeilen und zwei Spalten. Entsprechend handeltes sich um eine Matrix
U2
mit zwei Zeilen und zwei Spalten ((2 × 2) − Matrix) ; sie wird mit dem Vektor
derart multipliI2
ziert, dass dieser Vektor quer auf die beiden Zeilen der Matrix gelegt wird, aufeinanderliegende Zahlen
multipliziert werden und in einer Zeile addiert. So ergibt das für die erste Zeile: 1 · U2 + 0 · I2 = U1 , das
ist die erste Komponente des Resultats (links). Für die zweite Zeile ergibt das: R1 · U2 + 1 · I2 , was nach
der Kirchhoffgleichung I1 ergibt. Es ist also die Operation ’Matrix mal Vektor’ gerade so gestaltet, dass
die eine Seite eines ordentlich geschriebenen linearen Gleichungssystems herauskommt. Wir werden diese
Operation später viel allgemeiner besprechen und systematisch mit linearen Abbildungen koppeln. Wir
−
→
wollen in diesem Beispiel noch einmal konkret verifizieren, dass die eingeführte Abbildung f wirklich
linear ist:
−
→ U2
U2 + U3
U
f
+ 3
=
1
I2
I3
(U2 + U3 ) + I2 + I3
R
U2
U3
=
+
1
1
U3 + I3
R U2 + I2
R
−
→ U2
−
→ U3
= f
+ f
,
I2
I3
−
→
−
→ U2
λU2
U2
U
f λ 2
=
=
λ
=
λ
f
.
1
1
I2
I2
R λU2 + λI2
R U2 + I2
2. LINEARE ABBILDUNGEN
109
Man kann erkennen, wenn man stattdessen umgekehrt (U2 , I2 ) durch (U1 , I1 ) ausdrückt, dass die Koeffizienten häßliche Vorzeichen bekommen, weshalb man die angegebene Richtung als Grundlage bevorzugt.
Fazit: Die linearen Abbildungen sind im Eindimensionalen etwas sehr Triviales, im Mehrdimensionalen aber bieten sie schon recht Reichhaltiges, Anwendbares. Daher ist es günstig, eine Reihe völlig
allgemeingültiger Resultate über lineare Abbildungen zu haben. Wie wir sehen werden, ist die Struktur
linearer Abbildungen (jedenfalls im Endlichdimensionalen) noch recht einfach zu handhaben.
Wir kommen nunmehr zu den wesentlichen Aussagen über lineare Abbildungen. Dazu ein paar Definitionen und Notationen:
−
→
D
35. Es sei f : V → W eine lineare Abbildung des Vektorraums V in den Vektorraum
W. Dann ist definiert:
−
−
→
→ → −
→
→
Kern f := −
x ∈V f −
x = 0 .
−
−
→
→
→
→
→
Für −
x 0 ∈ V bezeichnen wir mit −
x 0 +Kern f folgende Menge (Kern f mit −
x 0 parallelverschoben):
−
→
→
→
−
→
→
x 0 + Kern f := −
x0 +−
u−
u ∈V .
Ferner wie bei Abbildungen sonst auch:
−
−
→−1 −
→ → → −
→
→
{ b } := −
x ∈ V f −
x = b .
f
−
−
−
→
→ → −
→ −
→ −
→ x →
x ∈V .
Speziell ist also Kern f = f −1 { 0 } . Ebenso Bild f := f −
gilt:
−
→
S 48. Es sei f : V → W eine lineare Abbildung des Vektorraums V in den Vektorraum W. Dann
−
→
f ist ein Unterraum von W
−
→
(ii) Kern f ist ein Unterraum von V.
−
−
→
→
−
→
= { 0 }.
(iii) f ist injektiv ⇐⇒ Kern f
−
→
−
→ −
→ →
(iv) Wenn b ∈ W und −
x 0 ∈ f −1 { b } , dann
−
→ −
→−1 −
→
→
f
{b} = −
x 0 + Kern f .
(i)
Bild
Beweis:
−
−
−
→
−
→ −
→
→
−
→
→ −
→
→
→
(i) : 0 ∈ Bild f , da f 0 = 0 . Also ist Bild f nicht leer. Ferner mit −
y 1, −
y 2 ∈ Bild f ,
−
→ → −
−
→ → −
→
→
x ∈ V, so dass f −
x =→
x =→
also existierenden −
x ,−
y , f −
y :
1
2
1
1
2
2
−
−
→ −
→ → −
→ → −
→
→
f →
x1 +−
x2 = f −
y 2,
x1 + f −
x2 = →
y1 +−
−
−
−
→ → →
−
→ →
→
→
→
→
daher −
y 1 +−
y 2 ∈ Bild f . Ferner mit einer Zahl λ : f λ−
x1 = λ f −
x 1 = λ−
y 1 ∈ Bild f . Somit
−
−
→
→
−
→
ist Bild f unter den linearen Operationen abgeschlossen und mit 0 ∈ Bild f daher ein Unterraum
von W.
−
−
→
→
−
→
→
→
(ii) 0 ∈ Kern f , ferner mit −
x 1, −
x 2 ∈ Kern f :
−
−
→ −
−
→ → −
→ → −
→
→ −
→ −
→
→
→
→
f →
x1 +−
x2 = f −
x1 + f −
x 2 = 0 + 0 = 0 , somit −
x1 +−
x 2 ∈ Kern f .
−
−
→ −
−
→ → →
−
→ −
→
→
f λ→
x1 = λ f −
x 1 = λ 0 = 0 , also λ−
x 1 ∈ Kern f für jede Zahl λ.
−
→
−
→ →
−
→
→
(iii) ’ =⇒ ’: Wenn Kern f noch mindestens ein Element −
x = 0 enthält, so hat man f −
x =
−
→ −
−
→
−
→
→ −
→
→
→
f 0 = 0 , und f ist nicht injektiv. ’ ⇐= ’: Wenn f nicht injektiv ist, so gibt es ∈ V mit −
x 1 = −
x2
−
→ −
−
→ −
−
→ −
−
→ −
−
→ −
−
→
→
→
→
−
→
→
→
−
→
−
→
und f x 1 = f x 2 . Also f x 1 − x 2 = f x 1 − f x 2 = 0 , es wäre also x 1 − x 2 ein
Element des Kerns, das nicht Null ist.
110
5. LINEARE ALGEBRA
−
−
−
→
→ −
→ → −
→
→
−
→ → −
→
→
u ∈ Kern f , also f −
u =0:
(iv) Sei b ∈ Bild f , f −
x 0 = b . Dann hat man mit −
−
−
→ −
→ −
→
−
→
−
→
−
→
−
→
−
→ → −
→
→
→
→
f →
x0 +−
u = b + 0 = b . Somit auch −
x 0 +−
u ∈ f −1 { b } . Das zeigt: −
x 0 +Kern f ⊂ f −1 { b } .
−
→ −
→ →
Sei umgekehrt −
x 1 ∈ f −1 { b } . Dann
−
−
→ −
→ → −
→ → −
→ −
→ −
→
→
f →
x1 −−
x1 − f −
x0 = b − b = 0.
x0 = f −
−
→
−
→ −
→ →
→
→
→
→
→
→
→
Also mit −
u = −
x1 − −
x0 +
x0 : −
u ∈ Kern f , und −
x1 = −
x0 + −
u . Das zeigt f −1 { b } ⊂ −
−
→
Kern f .
Zum konkreteren Verständnis des Satzes: (i) und (ii) besagen zunächst, dass Kern und Bild einer
linearen Abbildung zwischen Vektorräumen nicht irgenwelche ’wirren’ Mengen sind, sondern Unterräume,
die sich, wie wir wissen, darstellen lassen als Mengen aller Linearkombinationen von einigen Basisvektoren.
Es können im Extremfall auch die trivialen Unterräume (Nullräume) sein, mit leerer Basis. Wir werden
später sehen, dass die Lösungsmenge eines linearen homogenen Gleichungssystems stets der Kern einer
linearen Abbildung ist. Somit haben wir dann stets entweder die einzige Lösung ’Nullvektor’ oder aber die
r
→
→
allgemeine Lösung (oder parametrisierte Lösungsmenge) in der Form −
x (α , ..., α ) =
λ −
a mit einer
1
r
j
j
j=1
−
→
→
→
Basis −
a 1 , ..., −
a r des Kerns. (Vgl. auch den nächsten Satz dazu, der die Dimensionen von V, Kern f
−
→
und Bild f miteinander verbindet.)
−
→
−
→ → S
49. Eine
lineare Abbildung f : V → W ist bereits durch die Bilder f −
a j einer Basis
−
→
a n von V eindeutig bestimmt.
a= →
a 1 , ..., −
n
→
→
Denn sei −
x =
λj −
a j ein beliebiger Vektor aus V. Dann gilt
j=1


n
n
−
→ −
−
→
−
→ → →
f →
x = f 
λj −
λj f −
aj .
a j =
j=1
j=1
−
→
−
→
Es genügt also die Kenntnis der f − Bilder einer Basis von V , um f zu kennen.
Anwendungsbeispiele:
−
→
1) Sei f die Drehung im R2 um den Ursprung mit Winkel α entgegen dem Uhrzeigersinn. Dann
haben wir für die kartesischen Einheitsvektoren:
−
→ → −
→ −
cos (α)
− sin (α)
, f −
e2 =
, also
f →
e1 =
sin (α)
cos (α)
−
→ x
−
→ →
−
→ → −
→ → cos (α)
− sin (α)
→
f
= f x−
e 1 + y−
e2 =xf −
e1 +y f −
e2 =x
+y
y
sin (α)
cos (α)
x cos (α) − y sin (α)
=
.
x sin (α) + y cos (α)
Die Fortsetzung läuft also über die Linearkombinationen automatisch, und diesen Automatismus werden
wir im nächsten Abschnitt allgemein durch die Operation ’Matrix mal Vektor’ realisieren.
2) Wir wenden denselben Mechanismus noch einmal an auf den Fall des linearen Vierpols
(Beispiel
U2
4 des letzten Beispielblocks) und finden damit die zugehörige Matrix noch einmal: Eingabe
=
I
2
1
1
U2
0
liefert Ausgabe U1 = 1 und I1 = R1 , also den Vektor
. Eingabe
=
liefert
1
0
I
1
2
R
0
Ausgabe U1 = 0 und I1 = 1, also den Vektor
. Lineares Fortsetzen ergibt nunmehr:
1
−
→ U2
−
→ 1
−
→ 0
1
U2
0
f
= U2 f
+ I2 f
= U2
+
I
=
.
2
1
1
I2
0
1
1
R
R U2 + I2
2. LINEARE ABBILDUNGEN
111
U1
. In der Elektrotechnik nutzt man das gern
I1
für kompliziertere lineare Schaltungen aus, indem man die Kirchhoffgleichungen
nichtfür den allgemeinen
1
0
Fall aufstellt, sondern nur die wesentlich einfacheren für die Fälle
und
.
0
1
Aber es ist mit linearer Algebra noch viel größere Vereinfachung möglich, wie wir mit konkreten
Beispielen auch für Vierpole zeigen werden und in der Elektrotechnik gern benutzt wird, Stichwort:
Matrizenoperationen, insbesondere Produkte von Matrizen.
−
→
→
→
S 50. Für jede lineare Abbildung f : V → W und jede Basis −
a 1 , ..., −
a n von V gilt:
−
→
−
→ −
−
→
→
(i)
Bild f
=
Spann f →
a 1 , ... f −
an .
−
→
−
→ −
−
→
→
(ii) f surjektiv
⇐⇒
f →
a 1 , ... f −
a n bildet ein Erzeugendensystem für W
−
−
→
−
→ −
→ −
→
→
(iii)
f injektiv
⇐⇒
f a 1 , ... f a n linear unabhängig
−
−
→
−
→ −
→ → (iv)
f bijektiv
⇐⇒
f →
a , ... f −
a
bildet eine Basis für W.
Das ist genau die oben angegebene Berechnung von
1
n
Ferner gilt folgende Dimensionsformel (auch: ’Dimensionssatz’):
−
−
→
→
(v) dim Kern f
+ dim Bild f
= dim (V ) .
−
→
5
Man nennt dim Bild f
auch den Rang von f.
Beweis:
→
−
→ →
→
→
→
→
(i) und (ii) Mit −
x ∈ V hat und einer Basis −
a 1 , ..., −
a n von V hat man −
x = λj −
a j , also f −
x =
j
−
→→
−
→
a j ), also bilden die Bilder der Basisvektoren ein Erzeugendensystem für Bild f . Surjektivität
λj f (−
j
−
→
bedeutet Bild f = W, also folgt (ii) .
−
−
−
→ −
→ −
→−
−
→ −
−
→
→
→
→
→
(iii) Wenn f a 1 , ... f a n linear abhängig sind, so haben wir λj f ( a j ) = f
λj a j = 0 ,
j
j
→ → −
→
−
→ → −
−
→
→
a j = 0 im Kern, also f nicht injektiv. Wenn dagegen f −
nicht alle λj = 0. Somit wäre λj −
a 1 ,... ,f −
an
j
−
−
→ → −
→
→
linear unabhängig sind, so folgt für beliebigen Vektor −
x =
λj →
a j aus V : Wenn f −
x = 0 , dann
j
−
→
−
→→
−
→
→
f
λj −
a j = λj f (−
a j ) = 0 , also mit der vorausgesetzten linearen Unabhängigkeit: Alle λj Null,
j
j
−
−
→
−
→
→
somit −
x =
λj →
a j = 0 . D.h. der Kern von f besteht nur aus dem Nullvektor.
j
(iv) folgt sofort aus (ii) und (iii) .
−
→
→
→
(v) Der Kern von f hat als Unterraum von V eine Basis, sagen wir −
a 1 , ..., −
a r . (Wenn der Kern
−
→
nur { 0 } ist, so ist diese Folge leer, r = 0.) Nach Basisergänzungssatz können wir diese Basis mittels
−
→
−
→
−
→
−
→
Vektoren b 1 , ..., b s zu einer
Basis von V ergänzen. Also r + s = dim (V ) . Die Folge b 1 , ... b s könnte
−
→
im Extremfall, d.h. Kern f = V , auch leer sein, dann ist s = 0.Wenn s = 0, so r = dim (V ) , also gilt
−
→
−
→ die Aussage (v) für diesen Fall. Wenn s > 0, so behaupten wir: Der Unterraum Spann b 1 , ..., b s wird
−
→
injektiv durch f in W abgebildet. Denn wenn


s
s
−
→
−
→  −
→ 
−
→
→
−
→
→
f
λj b j
= 0 , so ist
λj b j ∈ Kern f = Spann −
a 1 , ..., −
a r , also
j=1
j=1
= 0 für alle j,
−
→
→
weil sonst einer der Vektoren b j linear abhängig von den übrigen zusammen mit den Vektoren −
a i wäre,
−
→
−
→
−
→
−
→
was der Voraussetzung widerspricht, dass a 1 , ..., a r , b 1 , ... b s linear unabhängiges System ist. Also folgt
λj
112
5. LINEARE ALGEBRA
−
−
→ −
→ −
→ −
→ →
mit (ii) , dass f b 1 , ..., f b s linear unabhängig ist. Mit (i) folgt, dass Bild f aufgespannt wird
−
→ → −
→ −
→ −
→
−
→ −
→ von den Vektoren f −
a 1 , ..., f (ar ) , f b 1 , ..., f b s . Aber die ersten r davon spannen nur den
−
→
Nullraum auf, somit haben wir dim Bild f = s. Mit r + s = dim (V ) also die Aussage des Satzes.
Aus (iv) ergibt sich die
F
5. Es gibt einen Isomorphismus zwischen Vektorräumen V und W (über demselben
Körper) genau dann, wenn dim (V ) = dim (W ) .
Denn nach (iv) vom vorigen Satz muss bei einer bijektiven linearen Abbildung von V nach W eine
Basis von V in eine Basis von W überführt werden, so dass die Dimensionen gleich sind. Umgekehrt kann
man bei gleicher Dimension Basen auswählen für V und W, die dann gleiche Länge haben, eine Basis von
V auf eine von W schicken und dann linear fortsetzen zu einem Isomorphismus.
3. Matrixdarstellung einer linearen Abbildung
Grundlegend ist der Satz über eindeutige Fortsetzung einer linearen Abbildung von den Bildern einer
Basis. Nunmehr arbeiten wir statt mit den Linearkombinationen von Basisvektoren (im Definitionsbereich
einerseite, im Wertebereich andererseits) mit den Koordinatendarstellungen dieser Vektoren bezüglich der
ausgewählten Basen, und so können wir jeder linearen Abbildung V → W zwischen endlichdimensionalen
Vektorräumen eindeutig eine Matrix zuordnen. Im folgenden Definitionen und Satz wird das einmal für
den konkreten Fall V = Rn , W = Rm mit den kanonischen Basen der Einheitsvektoren und dann für den
allgemeinen Fall realisiert.
D
36. Eine (reelle) (m × n) − Matrix ist eine Doppelfolge (aij )1≤i≤m,1≤j≤n von reellen
Zahlen. Die Menge aller dieser Matrizen nennt man Rm×n . Eine solche Matrix schreibt man konkret als
rechteckiges Zahlenschema so (alle m · n Komponenten sind sorgfältig zu trennen!):


a11 a12 · · · a1n
 a21 a22 · · · a2n 


A = (aij )ij = 
..
.. . .
..  .

.
.
.
. 
am1
am2
···
amn
Matrizen bezeichnet man kurz mit großen lateinischen Buchstaben. m ist die Zeilenzahl, n die Spaltenzahl
bei den Bezeichnungen ’(m × n) − Matrix’ und ’Rm×n ’,und es ist stets aij der Eintrag in der i. Zeile und
j. Spalte.
D
37 (die Operation ’Matrix mal Vektor’). Wir definieren für eine (m × n) − Matrix
→
A = (aij )ij und einen Spaltenvektor −
x = (xj )j mit n Komponenten:


m
n
n
−
→
(aij )1≤i≤m,1≤j≤n (xj )1≤j≤n :=
ei
aij xj = 
aij xj 
, ausführlicher:
i=1





a11
a21
..
.
a12
a22
..
.
···
···
..
.
a1n
a2n
..
.
am1
am2
···
amn
j=1






j=1

x1
.. 
. 
xn
:
1≤i≤m
 n
a x
 j=1 1j j
 n
 
a2j xj

=  j=1

..

 n .
 amj xj
j=1






.




→
Zum Verständnis der Operation: Sie ist nur dann definiert, wenn die Komponentenzahl von −
x gleich
der Spaltenzahl von A ist. Sie wird anschaulich so ausgeführt: Die i. Komponente des Resultatvektors
→
entsteht, indem man den Vektor −
x auf die i. Zeile der Matrix klappt, die aufeinanderliegenden Zahlen
multipliziert und diese Produkte dann addiert.
Eine sehr wichtige kleine Beobachtung: Wendet man eine Matrix A auf den j. Einheitsvektor an,
so kommt die j. Spalte von A heraus.
3.
M ATRIXDARSTELLUNG EINER LINEAREN ABBILDUNG
113
Für das Folgende
benötigen
wir den Begriff ’Koordinatendarstellung eines Vektors aus V bezüglich
→
→
der Basis a = −
a 1 , ...−
a n von V ’ - wir setzen n ≥ 1 voraus:
→
→
D
38. Sei V ein Vektorraum und a = −
a n , n ≥ 1, eine Basis für V. Dann ist die
a 1 , ...−
n
→
→
Koordiatendarstellung von −
x =
a bezüglich der Basis a einfach der Spaltenvektor der Koeffizienλ −
j
j
j=1
ten λj , 1 ≤ j ≤ n. Das ist also dasselbe wie
−
→
→
L−1
x =: Koordinatendarstellung von −
x bezüglich a,
a
mit der Inversen der im Falle einer Basis a bijektiven Linearkombinationsabbildung.


λ1
n
→


→
→
λj −
a j , und a = −
a 1 , ...−
a n ist eine
Erinnerung: La wurde oben eingeführt durch La  ...  :=
j=1
λn
Basis für V definitionsgemäß genau dann, wenn diese Abbildung umkehrbar ist.
Bemerkung: La ist im Falle einer Basis a ein Isomorphismus von Rn auf V. Umgekehrt ist dann
−1
La ein Isomorphismus von V auf Rn . Diese Abbildungen ermöglichen daher ein problemloses Wechseln zwischen den Vektoren (sie seien geometrische Pfeile oder auch Funktionen eines Funktionenraums)
und Zahlentupeln, Koordinatendarstellungen. Was wir jetzt in Angriff nehmen, ist so etwas wie eine
Koordinatendarstellung einer linearen Abbildung durch eine Matrix.
→
→
→
Wichtige kleine Beobachtung: Die Koordinatendarstellung von −
a j bezüglich der Basis −
a 1 , ...−
an
→
→
→
→
ist einfach −
e j , der j. Einheitsvektor der kanonischen Basis des Rn . Denn −
aj = 1·−
aj +
0−
a k , und
k=j
diese Darstellung ist wegen der Basiseigenschaft eindeutig.
−
→
(n)
(n)
→
→
D
39. Sei f : Rn → Rm eine lineare Abbildung. Sei e(n) = −
e 1 , ...−
en
die Basis der
(m)
(m)
→
→
Einheitsvektoren für Rn , e(m) = −
e
, ..., −
e
die Basis der Einheitsvektoren für Rm (die oberen
1
m
→
Indizes geben die Zahl der Komponenten an, bei −
e j ist die j. Komponente 1, alle anderen sind Null alle Vektoren sind Spaltenvektoren). Dann definieren wir
−
(n)
→
Mee(m) f
: = (aij )1≤i≤m,1≤j≤n ∈ Rm×n , mit den Zahlen aij , so dass
m
−
→ −
(n)
(m)
−
→
e i aij .
f →
ej
=
i=1
−
→
−
→
Die Matrix Mee(m) f heißt ’Matrix von f bezüglich der Basen e(n) für Rn und e(m) für Rm ’ oder kurz
’bezüglich der kanonischen Basen’.
→
−
→
→
Nunder allgemeine
Fall: Sei f : V → W eine lineare Abbildung, a = −
a 1 , ...−
a n eine Basis für V und
−
→
−
→
b = b 1 , ..., b m eine Basis für W. Dann ist
−
→
Mba f
: = (aij )1≤i≤m,1≤j≤n ∈ Rm×n , mit den Zahlen aij , so dass
(n)
m
−
→ −
−
→
f →
aj
b i aij
=
i=1
−
→
definitionsgemäß die Matrix von f bezüglich der Basen a (für V ) und b (für W ).
Zum Verständnis der Definitionen:
−
→
−
→
−
→
(n)
1) Die Matrix Mee(m) f für f : Rn → Rm erhält man, indem man die f − Bilder der Einheits−
→ →(n) vektoren des Rn - das sind die (Spalten-) Vektoren f −
ej
des Rm - der Reihe nach als Spalten der
Matrix schreibt.
−
→
−
→
2) Die Matrix Mba f für f : V → W erhält man, indem man die Koordinatendarstellungen
−
→
→
bezüglich der Basis b der f − Bilder der Basisvektoren −
a als Spalten der Matrix schreibt. Also: Man
j
114
5. LINEARE ALGEBRA
m −
−
→ → →
bildet im Einzelnen f −
aj =
b i aij . Die Koordinatendarstellung dieses Vektors bezüglich der Basis
i=1


a1j
−
→
 .. 
b lautet  .  . Dies wird die j. Spalte von Mba f .
amj
Für diese Matrizen haben wir genau folgende Aussage, die besagt, dass sie auf der Koordinatenseite
−
→
eine genaue Parallele zur linearen Abbildung f darstellen:
−
→
−
→
(n)
S 51. 1) Die Matrix Mee(m) f für f : Rn → Rm bewirkt Folgendes: Multipliziert man sie mit
−
→ →
→
x ∈ Rm heraus, es gilt also:
einem Vektor −
x ∈ Rn , so kommt f −
(n) −
→ −
−
→ →
→
Mee(m) f
x= f −
x .
−
→
−
→
f für f : V → W hat folgende Wirkung: Wendet man sie auf die Koordinaten→
darstellung bezüglich a eines Vektors −
x ∈ V an, so kommt die Koordinatendarstellung bezüglich b des
−
→ −
Vektors f →
x heraus.
2) Die Matrix Mba
−
→
Zum Verständnis der einfachen Aussage 1): Sie besagt auch, dass man jede lineare Abbildung f :
−
→
−
→
(n)
→
→
x = A−
x gilt. Mit A = Mee(m) f
Rn → Rm durch eine Matrix realisieren kann, so dass stets f −
haben wir diese Matrix (eindeutig) gefunden. Das liegt daran, dass für Vektoren aus Rn oder Rm Vektor
und Koordinatendarstellung bezüglich der kanonischen Basis dasselbe sind. Komplizierter liegt die Sache
bei anderen Basen oder auch Basen allgemeiner Vektorräume: Dann muss zwischen einem Vektor und
seiner Koordinatendarstellung unterschieden werden. Genau dies behandelt der zweite Teil.
→
Wir begründen 2) ausführlich: Ein Vektor −
x ∈ V hat eine eindeutige Koordinatendarstellung bezüglich
a, mit
n
→
−
→
→
a j ist die Koordinatendarstellung von −
λj −
x bezüglich a:
x =
j=1

λ1
−
 ..  mit der Inversen L−1
→
a der oben eingeführten
L−1
x
=
 .  , Linearkombinationsabbildung.
a
λn
−
→
→
Das f − Bild von −
x ist



n
n
m
m
n
−
→ −
−
→ −
−
→
−
→ 
→
→
f x =
λj f a j =
λj
b i aij =
bi
aij λj  .
j=1
j=1
Also ist
 n
a λ
 j=1 1j j

−
→ −

..
= 
L−1
f →
x
b
 n .
 amj λj
j=1

i=1



−
→ 

 = Mba f 


i=1
j=1

λ1
.. 
. 
λn
−
→ →
die Koordinatendarstellung von f −
x bezüglich b.
Die Aussage des Satzes lässt sich zu folgendem Bild eines ’kommutativen Diagramms’ vervollständigen, das uns vor allem bei Koordinatentransformationen nützlich sein wird - die Bezeichnungen sind wie
4.
VERKNÜPFUNGEN VON LINEAREN ABBILDUNGEN UND M ATRIZEN
115
zuvor, a eine Basis für V, b eine Basis für W :
L−1
a
V
↓
Rn
−
→
f
→
W
↓
m
→
R
→
a −
Mb f
L−1
b
−
→
Dass dies ein kommutatives Diagramm ist, bedeutet: Spaziert man von V mit f und dann nach Rm mit
→
−1
n
a −
L−1
f
b , so kommt dasselbe heraus, als spazierte man von V mit La nach R und anschließend mit Mb
→
m
−1
n
a −
m
nach R . Oder auch: Spaziert man von V mit La nach R , dann mit Mb f nach R , schließlich mit Lb
−
−
→
→
nach W, so kommt dasselbe heraus wie bei Anwendung von f allein. In diesem Sinne realisiert Mba f
−
→
die Abbildung f auf der Koordinatenseite. Man beachte: Die senkrechten Pfeile stellen umkehrbare
Abbildungen dar (Koordinatendarstellungsabbildungen und umgekehrt Linearkombinationsabbildungen),
die horizontalen Pfeile müssen keineswegs umkehrbar sein.
Bemerkung: Im Falle V = W vereinfacht sich das Bild. Dann wählt man selbstverständlich nur
eine Basis, also a = b (es wäre auch möglich, für Eingabe und Ausgabe verschiedene Koordinatensysteme
zu wählen, aber das erweist sich in keiner Lage als nützlich). Sehr wohl nützlich und wichtig ist es, von
einem Koordinatensystem zu einem anderen zu wechseln und dabei namentlich Matrizendarstellungen
insbesondere für lineare Abbildungen V → V wesentlich zu vereinfachen (Stichworte: Koordinatensysteme
passend zur Geometrie, Diagonalisieren von Matrizen). Dabei möchte man von einer Matrixdarstellung
zur anderen übergehen und fragt, wie sich die Matrix dabei transformieren muss. Im nächsten Abschnitt
werden wir die wichtigen Matrizenverknüpfungen besprechen und interessante Anwendungen davon, dann
folgt die Behandlung des Koordinatentransformationsproblems (für Vektoren und auch für Matrizen).
4. Verknüpfungen von linearen Abbildungen und Matrizen
−
→ →
−
→ →
−
→
Hat man lineare Abbildungen f , −
g : V → W, so sind f + −
g und λ f wiederum lineare Abbildungen
→
→
V → W. Denn für alle −
x,−
y ∈ V und alle Zahlen λ gilt:
−
→ −
−
→ −
→
→ −
−
→ → −
→ → −
→ → −
→
−
→
−
→
→
f + g
x+y
= f −
x +→
y +−
g →
x +−
y = f −
x + f −
y +→
g −
x +→
g −
y
−
→
→ −
−
→ → −
=
f +→
g −
x + f +−
g →
y ,
−
−
→
→
→
→ → −
→ −
−
→ → −
−
→ →
→
→
x +→
g −
x .
f +→
g λ−
x
= f λ−
x +→
g λ−
x =λf −
x + λ−
g −
x =λ f −
−
→
Ferner ist die Abbildung, die jeden Vektor auf 0 abbildet, unter den linearen Abbildungen V → W. Man
prüft (langweilig) nach, dass damit alle Vektorraumaxiome erfüllt sind. Damit haben wir folgenden
S 52. Die linearen Abbildungen V → W bilden einen Vektorraum, genannt Hom (V, W ) , mit
den üblichen Definitionen der Summe von Abbildungen und der Multiplikation einer Abbildung mit einer
Zahl.
Die Menge Rm×n aller (m × n) − Matrizen bildet mit den komponentenweisen Operationen Addition und
Multiplikation mit einer Zahl ebenfalls einen Vektorraum, und es gilt für Basen a von V und b für W der
Zusammenhang:
−
−
→
→ →
→
Ma f + −
g ,
g
= Ma f + Ma −
b
b
−
−
→
→
Mba λ f
= λMba f .
b
−
−
→
→
Die Abbildung f −→Mba f stellt also einen Vektorraumisomorphismus dar.
Bemerkung zum Zusatz über die Matrizen: Offensichtlich stellt die Matrixsumme die entspre−1
chende Summenabbildung Rn → Rm dar, und die Abbildungen L−1
a und Lb sind linear. Also stellt die
Summe der Matrizen die Summenabbildung V → W dar, Entsprechendes gilt für die Multiplikation einer
linearen Abbildung mit einer Zahl.
116
5. LINEARE ALGEBRA
Es gibt jedoch noch eine weitere und interessantere Verknüpfung von linearen Abbildungen und
Matrizen, die Verkettung, zunächst beobachten wir:
−
→
−
→
→
→
S 53. Wenn f : V → W linear ist und −
g : W → U linear, so ist −
g ◦ f : V → U linear.
−
−
−
→ −
−
−
→ −
→ → −
→ → −
→ → −
→ → −
→ →
→
→
→
Denn −
g ◦ f
x +−
y =−
g f −
x +→
y
=→
g f −
x + f −
y
=→
g f −
x +→
g f −
y .
−
→
−
→
→
→
→
−
→
Analog sieht man, dass −
g ◦ f
λ−
x =λ −
g ◦ f
x .
−
→ →
Wir stellen uns das Problem, wie man aus Matrizen für lineare Abbildungen f , −
g die Matrix zu
−
→
−
→
g ◦ f gewinnt. Die Antwort gibt der Satz nach folgender Definition:
D
40. Sei A = (aij )ij eine (m × n) − Matrix und B = (bki )ki eine (r × m) − Matrix, dann
ist definiert:
(bki )ik (aij )ij = (ckj )kj , mit ckj =
bki aij .
i
Plastisch gesagt: Die Matrix BA entsteht so: j. Spalte von BA = Anwendung von B auf die j. Spalte von
A. Man beachte: BA ist nur definiert, wenn Zeilenzahl von A gleich Spaltenzahl von B.
Beispiel:




1 2
−5 4
1
 3 4  −1 2 −3
=  −11 10 −1  .
−2 1
2
5 6
−17 16 −3


1 2
−1


, usw.
Man sehe noch einmal nach: Die erste Spalte des Resultats ist
3 4
−2
5 6
−
→
S 54. Sei a eine Basis für V, b eine Basis für W und c eine Basis für U. Seien f : V → W
→
linear und −
g : W → U linear. Dann gilt
→ a −
−
→
→
→
Mca −
g ◦ f = Mcb −
g Mb f ,
zur Hintereinanderschaltung gehört also das Matrizenprodukt. Insbesondere haben wir für lineare Abbil−
→
→
dungen f : Rn → Rm und −
g : Rm → Rr , welche direkt (also bezüglich der kanonischen Basen) durch
→
−
→ −
→
→
→
→
→
g −
y = B−
y für alle −
y ∈ Rm :
Matrizen gegeben sind, d.h. f →
x = A−
x für alle −
x ∈ Rn und −
−
→ →
−
→
→
g f −
x
= BA−
x.
−
→ → → →
Beweis: Zunächst sehen wir die zweite Aussage ein: −
g f −
e j = B A−
e j = Anwendung von
B auf die j. Spalte von A. Aber das istnach Definition
gerade
die
j.
Spalte
der
Matrix
C = BA. Somit
−
→ −
−
→
−
→
→
−
→
→
gilt für alle Basisvektoren e j ,dass g f e j
= (BA) e j , daraus folgt aber, dass dies für alle −
x
−
→
aus Rn gilt, mit linearer Fortsetzung. Die erste Aussage folgt nunmehr sofort: Mba f macht aus der
−
→ →
→
Koordinatendarstellung von −
x aus V bezüglich a die Koordinatendarstellung
von f −
x ∈ W bzgl.
→
−
→ −
−
→
→
b −
b, Mc g macht aus dieser die Koordinatendarstellung von g f x
∈ U bezüglich c. Die Matrix
−
→
→
Mb −
g M a f besorgt diese zwei Schritte in einem nach der eben angestellten Beobachtung.
c
b
4.
VERKNÜPFUNGEN VON LINEAREN ABBILDUNGEN UND M ATRIZEN
117
Wir werden das Matrizenprodukt auch im nächsten Abschnitt und weiterhin kräftig benutzen, doch
zunächst sei eine elektrotechnische Anwendung angeführt: Wir betrachten dazu den Vierpol
I
U1
1
R
I2
3
U
R
R
1
2
2
(Man beachte die vorgegebenen Zählrichtungen.)
und fassen ihn als Verkettung von drei besonders einfachen Vierpolen auf: Der erste hat nur R2 (oben
und unten über R2 verbunden), der zweite nur R3 (nur oben Eingang und Ausgang über R3 verbunden),
der letzte nur R1 (analog zum ersten). Das ergibt drei sehr einfach zu bestimmende Kettenmatrizen
(von denen zusätzlich erste und dritte völlig analog gebaut sind), und die wesentlich kompliziertere
Kettenmatrix der obenstehenden Schaltung erhält man einfach als Matrizenprodukt:
R2 +R3
R3
1 0
1 0
1 R3
R
2
=
.
1
1
R1 +R2 +R3
R1 +R3
1
1
0
1
R1
R2
R R
R
1
2
1
Das kann man nun analog für noch viel längere Schaltungen fortsetzen.
Eine letzte Verknüpfung fehlt noch: Inversenbildung für umkehrbare lineare Abbildungen und um
−
−
→
→−1
kehrbare Matrizen. Selbstverständlich entspricht der linearen Abbildung f −1 wieder Maa f
bei
−
→
umkehrbarer linearer Abbildung f : V → V und Auszeichnung einer Basis a für V. (In diesem Falle wird
man nur eine Basis für Input sowie Output verwenden.) Wir werden noch Ausführliches zur Berechnung
inverser Matrizen sagen, aber an dieser Stelle erst einmal eine einfache Beobachtung zur Inversion von
(2 × 2) − Matrizen anführen:
a b
S 55. Die inverse Matrix zu
existiert genau dann, wenn ad − bc = 0, und man hat
c d
dann:
−1
1
a b
d −b
=
.
c d
−c
a
ad − bc
a b
Bemerkung: Die Zahl ad − bc ist die Determinante der Matrix
.
c d
Beweis: Man rechne einfach aus:
1
d −b
a b
1 0
=
.
a
c d
0 1
ad − bc −c
Beispiel: Wir invertieren damit die oben gefundene Kettenmatrix:
−1 R2 +R3
R1 +R3
R
−R
3
3
R2
R1
=
.
R1 +R2 +R3
R1 +R3
R2 +R3
2 +R3
− R1 +R
R1 R2
R1
R1 R2
R2
118
5. LINEARE ALGEBRA
Man beachte: Der Wert der Determinante ist hier 1, so dass man einfach nur die Diagonalelemente
vertauschen und die anderen beiden mit negativem Vorzeichen versehen muss.
−
→ →
−
→
→
Wenn f , −
g bijektive lineare Abbildungen V → V sind, so ist es auch −
g ◦ f . Oder auch für Matrizen:
Sind A, B invertierbar, dann auch BA. Wie kann man aus A−1 , B −1 die Inverse (BA)−1 ausrechnen?
−
→
→
→
Denkt man daran, dass −
g ◦ f rückgängig gemacht wird, indem man zuerst −
g rückgängig macht, dann
−1
−
→
−
→
−
→
−
→
→
−1 −
−1
f , also bildet: g ◦ f
= f
◦ g , so ist auch folgende Formel der Matrizenrechnung klar:
−1
(BA)
= A−1 B −1 .
S 56. Die invertierbaren (n × n) − Matrizen bilden mit der Multiplikation eine Gruppe. Neutrales
Element darin ist die Einheitsmatrix. Diese Gruppe ist in allen Fällen n > 1 nicht kommutativ.
Eine letzte nützliche Verknüpfung fehlt noch:
D
41. Die Transponierte AT zur Matrix A = (aij )ij ist definiert durch:
AT := (aji )ij .
Man erhält sie daher, indem man die Zeilen von A als Spalten von AT schreibt.
Beispiel:

T


T
1
1 4
1
2
3
 2  = 1 2 3 ,
=  2 5 .
4 5 6
3
3 6
→
−
→
→
T−
Beispielsweise ist also das Matrizenprodukt a b mit einem Spaltenvektor −
a und einem Spaltenvektor
−
→
−
→
−
→
b dasselbe wie das Skalarprodukt a · b . Man hat:
B
1. (AB)T = (BA)T , (A + B)T = AT + B T , (λA)T = λAT . Zu beachten ist das
Umdrehen beim Produkt der Matrizen.
4.1. Zusammenstellung der wichtigsten Formeln für die Matrixoperationen (Matrixkalkül).
(i) Für die Addition von (m × n) − Matrizen und die Multiplikation
dieser Matrizen mit Zahlen hat man genau die Vektorraumaxiome erfüllt :
(A + B) + C = A + (B + C)
−
→
0 + A = A ( (n × n) − Nullmatrix)
−
→
−A + A = 0
A+B = B+A
λ (µA) = λ (µA)
(λ + µ) A = λA + µA
λ (A + B) = λA + λB
1·A = A
(ii) Für die Multiplikation und Inversenbildung bei invertierbaren (n × n) − Matrizen
hat man die Gruppenaxiome erfüllt (einer nicht kommutativen Gruppe, Kommutativität
liegt nur im Falle n = 1 vor.)
(AB) C = A (BC)
EA = A ( (n × n) − Einheitsmatrix)
A−1 A = E
(BA)−1 = A−1 B −1
5.
TRANSFORM ATION VON M ATRIZEN (BASISWECHSEL)
119
Bemerkungen: die vierte Gleichung folgt aus den ersten drei Gruppenaxiomen. Die ersten beiden Gleichungen gelten allgemeiner, sofern nur A(BC) und (AB) C gebildet werden können. Dasselbe gilt für die
zweite Gleichung.
(iii) Für die Multiplikation von (n × n) − Matrizen in Verbindung mit der Addition
hat man die Axiome eines Rings mit 1-Element erfüllt, zum Vorigen kommt hinzu :
A (B + C) = AB + AC (Distributivgesetz).
Bemerkung: Diese Formel gilt allgemeiner, wenn nur B, C dieselbe Dimensionierung haben und AB
bildbar ist (damit auch automatisch AC und A (B + C)).
Ferner hat man noch für die Transposition:
Für alle (m × n) − Matrizen A, B
T
(A + B)
(λA)T
(AB)T
Für invertierbare (n × n) − Matrizen A, B
−1 T
A
Alle diese Formeln sind völlig elementar nachzuweisen.
:
= AT + B T
= λAT
= B T AT
:
−1
= AT
4.2. Typische nützliche einfache Anwendungen des Matrixkalküls. 1.) Man löst eine Glei−
→
−
→
→
→
chung A−
x = b im Falle einer invertierbaren Matrix A einfach durch −
x =A−1 b , indem man von links
−
→
→
→
→
→
A−1 anmultipliziert. Denn A−1 A−
x = A1 A −
x = E−
x =−
x , und rechts steht dann A−1 b .
2.) Man löst eine Matrixgleichung AX = B (A, B vorgegeben und X gesucht)mit invertierbarer Matrix A durch linkes Anmultiplizieren von A−1 mit X = A−1 B, analog löst man XA = B durch rechtes
Anmultiplizieren von A−1 zu X = BA−1 .
3.) Eine Gleichung wie A = T −1 BT mit invertierbarer Matrix T löst man ohne weiteres nach B auf,
indem man links T und rechts T −1 anmultipliziert, zu B = T AT −1 . Matrizen A und B, welche auf diese
Weise zusammenhängen, nennt man ähnlich. So entstehen die verschiedenen Matrixdarstellungen einer
linearen Abbildung V → V auseinander. Dabei ändern sich zwar die Matrizen stark, aber wesentliche
Eigenschaften bleiben erhalten, wie wir noch sehen werden (Rang, Determinante z.B.).
5. Transformation von Matrizen (Basiswechsel)
−
→
Wir haben zu jeder
linearen
Abbildung f : V → W und Basen a für V, b für W eindeutig die
−
→
Matrixdarstellung Mba f . Dabei ergeben sich für verschiedene Basen völlig verschiedene Matrizen. Nun
möchte man gern die Basen so wählen, dass die zugehörige Matrixdarstellung besonders einfache Form
annimmt.
Der wichtigste Fall ist V = W und a = b. Dabei möchte man also die Basis a so wählen, dass
−
→
Maa f möglichst einfach wird. Zweifellos sind unter den quadratischen Matrizen die Diagonalmatrizen
am einfachsten: Bei ihnen übersieht man Rang, Bild und Kern auf einen Blick, und die Anwendung der
linearen Abbildung besteht einfach in Streckungen der Basisvektoren. Wir werden sehen, dass es unter
gewissen Bedingungen, doch nicht immer, möglich ist, zu einer Diagonalisierung zu gelangen. Das werden
wir illustrieren, nachdem wir die Grundlagen für einen Basiswechsel bereitgestellt haben.
5.1. Basiswechel in einem Vektorraum: Transformation der Koordinatendarstellungen.
−
→
−
→
Wir stellen uns folgendes
Problem:
Gegeben
ein
Vektorraum
V
mit
einer
Basis
a
=
a
,
...,
a
und einer
1
n
−
→
−
→ −
→
weiteren Basis b = b 1 , ..., b n . Wie kann man die Koordinatendarstellungen von Vektoren x ∈ V in
die Koordinatendarstellungen bezüglich b umrechnen? Um die Dinge ein wenig plastischer zu gestalten,
denken wir an a als ’alte Basis’ und b als ’neue Basis’. Grundlage ist folgende (eindeutige!) Darstellung
der neuen Basisvektoren als Linearkombinationen der alten Basisvektoren:
n
−
→
−
→
(∗) b j =
a i β ij .
i=1
Wir behaupten nun:
120
5. LINEARE ALGEBRA
S 57. Die durch (∗) gegebene Matrix β ij ij ist die Transformationsmatrix, welche die neuen Kon
−
→
→
ordinatendarstellungen (bzgl. b) in die alten (bzgl. a) überführt, d.h. für alle Vektoren −
x =
λj b j =
j=1
n
i=!
→
µi −
a i aus V gilt:
µi =
oder in Matrixschreibweise mit Tab = β ij ij :

n
β ij λj .
j=1
 
λ1

 
Tab  ...  = 
λn

µ1
.. 
. 
µn
Bemerkung zur Schreibweise: Tab bezeichnet die Matrix, welche die Koordinatendarstellungen bzgl. b in
−1
die bzgl. a überführt. Tab ist bijektiv (invertierbar), und man hat Tab
= Tba , wobei Tba die alten Koordinatendarstellungen bezüglich a in die neuen bzgl. b überführt.
→
→
→
Begründung: Sei id : V → V die identische Abbildung, also id −
x =−
x für alle −
x ∈ V. Dann
n
n
b
ist L−1
b ◦ id ◦ La : R → R linear (als Hintereinanderschaltung linearer Abbildungen),
wir nnennen Ta
−
→
−
→
die Matrix, welche diese Abbildung (bezüglich der kanonischen Basis e = e1 , ..., e n des R darstellt.
Es genügt also, einzusehen, dass gemäß der Definition (∗) der Matrix β ij ij die Spalten von β ij ij
Koordinatendarstellungen der neuen Basisvektoren in der alten Basis sind. Denn die Koordinatendar −
→
→
e j , und die j. Spalte von β ij ij ist genau die Koordinatendarstellung
stellung von b j bezüglich b ist −
−
→
von b j bezüglich der alten Basis a. Damit transformiert diese Matrix automatisch auch alle anderen
Koordinatendarstellungen
richtig, weil sie auf den Einheitsvektoren die korrekten Resultate liefert. Folg lich ist Tab = β ij ij . Dass Tab invertierbar ist, sieht man sofort an der Umkehrbarkeit der Abbildungen
−1
b
L−1
b , id,La ,woraus die Umkehrbarkeit von Ta = Lb ◦ id ◦ La direkt folgt. Selbstverständlich bewirkt die
−1
Inverse Tab
genau die Koordinatentransformation in der umgekehrten Richtung und ist daher gleich
Tba , in konsequenter Notation.
5.2. Transformation von darstellenden Matrizen bei Basiswechseln. Wir kommen zur Anwendung der Koordinatentransformationsmatrizen und untersuchen, wie man aus einer Matrixdarstellung
für eine lineare Abbildung bezüglich einem Basenpaar die Matrixdarstellung bezüglich neuer Basen errechnen kann.
−
→
S 58. Seien a, )
a Basen für V und b, )b Basen für W, f eine lineare Abbildung V → W. Dann gilt:
−
−
→
→
M)b)a f = T)bb Mba f Ta)a .
→
Speziell hat man für −
g :V →V:
→
→ )a
M)a)a −
g = T)aa Maa −
g Ta ,
Schreibt man dabei kurz T für Ta)a , so lautet die letzte Formel:
→
→
M )a −
g = T −1 M a −
g T.
)
a
a
(Allerdings sei zum eigenen Gebrauch die ausführlichere Schreibweise empfohlen.)
−
→
Beweis: Die Matrix M)b)a f macht definitionsgemäß aus der Koordinatendarstellung eines Vektors
−
→ →
−
→
x ∈ V bzgl. )
a die Koordinatendarstellung von f −
x ∈ W bzgl. )b. Die Hintereinanderschaltung (das
Produkt - man
denke immer daran: Was am weistesten rechts steht, kommt zuerst, dann nach links so
−
→
fort) T)bb Mba f Ta)a tut eben dies, nur auf dem Umweg: Zuerst wird die eingegebene Koordinatendar→
→
stellung von −
x bzgl.
a in die Koordinatendarstellung von −
x bzgl. a umgewandelt (mittels Ta)a ), dann
)
−
→
−
→
→
daraus mit M a f die Koordinatendarstellung von f −
x bzgl. b produziert, dann diese mittels T b
b
)b
6.
ANWENDUNGEN DES RECHNENS M IT M ATRIZEN
zur Koordinatendarstellung von
zu V = W und a = b, )
a = )b.
121
−
→ −
f →
x bzgl. )b umgewandelt. Die zweite Aussage spezialisiert dies nur
6. Anwendungen des Rechnens mit Matrizen
6.1. Zeilen- und Spaltenumformungen als Multiplikation mit Elementarmatrizen. Matrizen folgender Art heißen Elementarmatrizen und besorgen das Vertauschen von Zeilen (Spalten), das
Addieren eines Vielfachen einer anderen Zeile zu einer Zeile (entsprechendes für die Spalten):
D
42 (Elementarmatrizen). Folgende Matrizen Bij , Cα,β,i,j ∈ Rn×n heißen Elementarmatrizen:
→ →
→
→
→
→
Bij −
e i , Bij −
e k für k = i, j.
e j := −
e i := −
e j , Bij −
e k := −
D.h. Bij entsteht aus der (n × n) − Einheitsmatrix, indem die Spalten i, j vertauscht werden.
Seien α =
0, β ∈ R, 1 ≤ i, j ≤ n, i = j. Dann definieren wir:
→
→
−
→
e i + β−
e j,
Cα,β,i,j e i : = α−
−
→
−
→
Cα,β,i,j e k : = e k für k = i.
D.h. Cα,β,i,j entsteht aus der Einheitsmatrix, indem die Spalte i mit α = 0 multipliziert wird und das β−
Fache der Spalte j hinzuaddiert. Alle anderen Spaltenvektoren bleiben unverändert.
(n)
Genauer notieren wir bei Bedarf Cα,β,i,j , Bij , um zu bezeichnen, dass es sich um die entsprechende
(n × n) − Matrix handelt.
Wir beobachten sofort:
B
2. Die Elementarmatrizen stellen bijektive lineare Abbildungen Rn → Rn dar, sind also
umkehrbar.
Zur Übung fomuliere man einfach verbal die Umkehroperationen. Man stelle auch fest, dass die
Inversen wieder Elementarmatrizen sind.
Mittels der Elementarmatrizen können die elementaren Zeilen- und Spaltenumformungen auf einfache
Weise als Multiplikationen mit Elementarmatrizen realisiert werden. Das wird in folgendem Satz genau
formuliert:
S 59. Die Vertauschung der Spalten i,j in A ∈ Rm×n geschieht durch rechtes Anmultiplizieren
(n)
(m)
von Bij ∈ Rn×n . Die Vertauschung der Zeilen i,j geschieht durch linkes Anmultiplizieren von Bij ∈
Rm×m .
Ersetzung der Spalte i durch α · Spalte i plus β· Spalte j geschieht durch rechtes Anmultiplizieren von
(n)
Cα,β,i,j . Ersetzung der Zeile i durch α · Zeile i plus β· Zeile j geschieht durch linkes Anmultiplizieren
(m)
von Cα,β,i,j .
Wir beweisen den Satz für die Spaltenumformungen. (Für die Zeilen ist alles völlig analog, bzw.
→
→
→
→
→
man argumentiert über die Transposition.) Wir haben mit A−
ek = −
a k : ABij −
e i = A−
ej = −
a j , analog
−
→
−
→
−
→
−
→
−
→
ABij e j = a ij und ABij e k = A
e
=
a
für
k
=
i,
j.
Also
ist
AB
die
versprochene
Matrix.
k ij
→k
→
→
→
→
Weiter gilt ACα,β,i,j −
e i = A α−
e i + β−
e j = α−
a i +β −
a j , d.h. Spalte i wird wie angekündigt ersetzt.
→
→
→
e k = A−
Die anderen bleiben unverändert: ACα,β,i,j −
ek =−
a k für k = i.
Nach dem Hilfssatz über lineare Unabhängigkeit und Spann ändern die Zeilenoperationen nicht den
Zeilenrang, die Spaltenoperationen nicht den Spaltenrang. Es gehe nun die Matrix N aus der Matrix M
durch fortgesetzte Zeilenoperationen hervor. Dann ist P M = N, mit einer Matrix P, welche Produkt von
Elementarmatrizen ist. Weil P bijektiv ist, haben wir dim (Bild (P M )) = dim (Bild (M )) , also bleibt
durch die Zeilenoperationen auch der Spaltenrang unverändert. Nach dem Dimensionssatz ändern daher
beiderlei Operationen auch nicht die Dimension des Kerns. Aber mit Zeilen- und Spaltenoperationen
zusammen können wir jede Matrix M auf Diagonalgestalt bringen, so dass in der Diagonalen zuerst ein
(eventuell leerer) Block von Einsen, dann ein (eventuell leerer) Block von Nullen kommt. Wir zeigen das
mit Induktion über das Maximum s von Zeilen- und Spaltenzahl: Für s = 1 ist nichts zu zeigen, da die
Matrix bereits die gewünschte Form hat. Sei also s > 1. Wir können annehmen, dass die Matrix nicht aus
lauter Nullen besteht (dann wären wir schon fertig). Wir bringen durch Zeilen- und Spaltenvertauschungen
ein Element = 0 in die Position ganz links oben. Anschließend schaffen wir durch Zeilenoperationen lauter
122
5. LINEARE ALGEBRA
Nullen in die erste Spalte (ab der 2. Zeile, falls vorhanden), dann durch Spaltenoperationen lauter Nullen
in die erste Zeile (ab der 2. Spalte, falls vorhanden). Nennen wir die resultierende Matrix M ′ . Sollte
M ′ nur eine Zeile oder nur eine Spalte haben, sind wir fertig. Sonst verbleibt nach Streichen der ersten
Zeile und Spalte eine kleinere Matrix M1 , die nach Induktionsvoraussetzung durch Anmultiplizieren von
Elementarmatrizen wie gewünscht umgeformt werden kann. Insgesamt P1 M1 Q1 = D1 , D1 in verlangter
Form. P1 und Q1 bezeichnen die entsprechenden Produkte von Elementarmatrizen. Aber wir brauchen die
beteiligten Elementarmatrizen in P1 , Q1 nur zu vergrößern, indem wir eine erste Zeile und Spalte zufügen,
so dass nur eine Eins links oben und sonst lauter Nullen in der ersten Zeile und Spalte stehen, dann werden
daraus Elementarmatrizen, welche entsprechend auf M ′ angewandt genau dieselben Veränderungen in N
als Untermatrix von M ′ bewirken. Nennen wir die so aus P1 bzw. Q1 entstehenden Matrizen R, S. Also
haben wir insgesamt P M Q = M ′ und RM ′ S = D, wobei D die Diagonalmatrix der gwünschten Form ist
mit D1 als Untermatrix ab der 2. Zeile und 2. Spalte. Daher RP M SQ = D, mit T = RP und U = SQ
also T M U = D wie verlangt, und T, U sind dabei Produkte von Elementarmatrizen. Das Resultat fassen
wir noch einmal in einem Satz zusammen:
S 60. Jede Matrix M kann durch Zeilen- und Spaltenoperationen zu einer Blockmatrix wie folgt
umgeformt werden:
Er 0
PMQ =
.
0 0
Dabei ist Er die Einheitsmatrix der Dimension r, außerhalb stehen Nullen, die auch fehlen können. P
und Q sind Produkte von Elementarmatrizen.
Folgerung: Zeilenrang und Spaltenrang von M sind gleich.
Zum Beweis der Folgerung: Es ändert sich nach dem zuvor Gesagten durch Anmultiplizieren von P
und Q weder der Zeilenrang, noch der Spaltenrang von M . Aber P MQ hat Zeilenrang = Spaltenrang =
r.
In den nächsten beiden Abschnitten folgen praktische Anwendungen dieser Technik des Anmultiplizierens von Matrizen, die Produkte von Elementarmatrizen sind.
6.2. Invertieren von Matrizen. Sei A eine (notwendig quadratische) Matrix, A invertierbar. Dann
kann A allein mit Zeilenumformungen zu E, der Einheitsmatrix, umgeformt werden. Damit P A = E.
Rechtes Anmultiplizieren von A−1 ergibt P = A−1 . Aber P = P E. Das heißt: Man gewinnt P = A−1 ,
indem man ausgehend von E dieselben Zeilenoperationen vornimmt, mit denen man A zur Einheitsmatrix
umformt. Wir stellen das als Schema dar:
A|E
Beispiel:

1 2
 2 1
−1 3

1
→  0
0

1
→  0
0

1
→  0
0
Das heißt also
Zeilenumformungen
→
E|P, dann P = A−1 .
 


 

−3 1 0 0
1
2 −3 1 0 0
2   0 1 0  →  0 −3
8   −2 1 0  II − 2I
1
0 0 1
0
5 −2 1 0 1
III + I
 

2 −3 1
0
0
1
0 
−3
8   −2
5
3
7
1
0
1
− 34 34 34
34 (3III + 5II)
 

15
9
2 0 1 − 21
34
34
34
I + 3III (dann)
4 
1 0   − 13 −2 + 56
− 13 (1 − 40
,
1
34
34 )
17
−
(II
− 8III) (zuerst)
7
5
3
3
0 1 − 34
34
 
 34
5
11
7
−
0 0 34
34
34
2
1
4  I − 2II
1 0   17
17
17
7
5
3
0 1 − 34
34
34

−1 
5
1 2 −3
34
2
 2 1


2
=
17
7
−1 3
1
− 34
11
34
1
17
5
34
7
− 34
4
17
3
34

.
6.
ANWENDUNGEN DES RECHNENS M IT M ATRIZEN
123
6.3. Simultane Bestimmung von Kern und Bild durch Spaltenumformungen. Bringt man
eine Matrix A ∈ Rm×n durch Spaltenumformungen auf untere Dreiecksgestalt B, also bij = 0 für i < j,
so hat man stets im Einzelschritt A von rechts mit einer Elementarmatrix multipliziert, insgesamt also
−
→
gebildet:
B = AT, mit einer Matrix T ∈ Rn×n . Wir bezeichnen mit b j den j. Spaltenvektor von B, also
−
→
−
→
−
→
−
→
B = b 1 , ..., b n . Sei r ≤ n der kleinste Index, so dass b k = 0 für k > r. Dann hat man sofort
→ Kern (B) = Spann (−
e k k>r ), also
−
→ Kern (A) = Spann ( t k
),
k>r
−
→
−
→ −
→
also B = AT mit T = t 1 , ..., t n . Mehr noch: Die Vektoren t k , r < k ≤ n, bilden eine Basis für
−
−
→
→ Kern (A) . Genau im Falle r = n ist t k
die leere Folge, also Kern (A) = { 0 } ⊂ Rn . Ebenso
k>r
−
→
−
→
einfach ist eine Basis für Bild (A) zu ermitteln: Die Vektoren b 1 , ..., b r bilden eine solche. Genau um
−
→
Falle r = 0 ist diese Folge leer, und Bild (A) = { 0 } ⊂ Rm . Wir formulieren den damit bewiesenen
Sachverhalt in einem Satz, der zugleich ein Verfahren angibt:
S 61.
A Spaltenumf ormungen AT
→
E
ET
−
−
→ →
B
, B = b 1 , ..., b n in unterer Dreiecksgestalt, dann
T−
→
−
→ mit T =
t 1 , ..., t n und
−
→
−
→
r : = kleinste Zahl, so dass b k = 0 für r < k ≤ n:
−
→
Bild (A) = Spann
bk
1≤k≤r
−
→
Kern (A) = Spann
tk
=
r<k≤n
(Mit der ersten Zeile ist gemeint, dass E unter A geschrieben wird, und dass beide Matrizen denselben
Spaltenumformungen unterworfen werden, die man strategisch ausführt, um B auf untere Dreiecksgestalt
zu bringen.)
Illustration

1
 2
1

1
 0

 0
0
an einem Beispiel:


3 −2 1
1
0 0
 2 −3 5
3
1 α 
2
3 3
1 −1 5


→
0 0 0
1 −3 2
 0
1 0 0 
1 0


 0
0 1 0 
0 1
0 0 1
0
0 0

1
0
 2 −3
1 −1
→ 
1 −3 2
 0
1 0

 0
0 1
0
0 0
∗



1
0 0
0
0
 2 −3 0
0 
α−2 
1 −1 10 8 − α
2
∗
 →


−1
1 −3 −9 3 − 3α
 0
0 
1
5 α−2 





0
0
0
3
0 
1
0
0
0
3

0 0
0 0 
10 0
B
=
T
102 − 39α
−60 + 15α 

−24 + 3α 
30
Mit dem Schritt → ist bereits eine Basis für das Bild bekannt (die ersten drei Spalten der oberen
Matrix bilden eine solche); denn die beiden letzten Spalten sind offenbar linear abhängig. Natürlich gilt
damit Bild (A) = R3 , und man kann einfacher die kanonische Basis der Einheitsvektoren angeben. Aber
für den Kern braucht man noch den letzten Schritt. Der wurde so ausgeführt: 10 mal 4. Spalte minus
8 − α mal die 3. Spalte, um die letzte Null zu schaffen und damit die erforderliche untere Dreiecksgestalt.
124
5. LINEARE ALGEBRA
Diese Spaltenumformung musste noch mit der unteren Matrix ausgeführt werden, um T zu erhalten. Das
Resultat für den Kern lautet somit:


102 − 39α
 −60 + 15α 


Kern (A) = Spann 
 −24 + 3α  .
30
Rechnung und Resultat sind gültig unabhängig vom Wert des äußeren Parameters α. Das ist natürlich
nicht immer so. Ein Beispiel:


1 2
3
−
→
Aβ =  −2 1 −1  hat Kern (Aβ ) = { 0 } genau für β = 5,
2 3
β


−1
Kern (A5 ) = Spann  −1  , also für β = 5.
1
Das sollte man mit dem Verfahren noch einmal nachrechnen.
7. Räume mit Skalarprodukt und Isometrien
1.) Wir betrachten zumeist speziell den Rn mit dem Standardskalarprodukt
−
→
−
→
λi e i
µi e i =
λi µi .
i
i
i
Wir erinnern daran, dass dies eine symmetrische Bilinearform ist. Folgende weitere Bildungen sind jedoch
von großer Bedeutung:
+b
2.) Das Skalarprodukt f, g := a f (x) g (x) dx auf dem Raum der reellwertigen stetigen Funktionen
auf [a, b]. Dies ist ebenfalls eine symmetrische Bilinearform. Das liegt an der Linearität des Integrals und
dem Kommutativgesetz (fg = gf ), die positive Definitheit begründet man leicht so: Wenn f in einem
Punkt x0 ∈ [a, b] einen Wert = 0 besitzt, so ist in einer kleinen Umgebung von x0 der Wert von f 2
+b
mindestens so groß wie eine Zahl ε ≥ 0, folglich ist a f 2 (x) dx > 0.
3.) Für die Vektorräume Cn hat man anstelle der symmetrischen Bilinearformen die sogenannten
Hermiteschen Formen, Standardbildung ist (zi , ci ∈ C):
−
−
→
→
z e
c e
zc.
:=
i
i
i
i
i
i
i i
i
→
→
→
→
Damit hat man ebenfalls Bilinearität, allerdings wird −
z ·−
c =−
c ·−
z , diese Art von
Symmetrie
ersetzt
→
→
die normale. Wesentlich ist: Man hat wieder positive Definitheit; denn −
z ·−
z =
zi zi =
|zi |2 ist
i√
i
→
−
→
→
→
→
stets reell und größer als Null, sobald −
z = 0 . Damit ist auch wieder durch −
z := −
z ·−
z eine Norm
definiert.
√→
→
B
3. Jedes Skalarprodukt definiert mit −
a := −
a 2 eine Norm, welche dieselben wesentlichen Eigenschaften wie der uns bekannte Betrag
des Rn besitzt. (Entsprechend ist in einem
→ von Vektoren −
Raum mit Skalarprodukt stets sinnvoll von −
a als Länge von →
a zu reden.)
Wir haben folgende grundlegenden Definitionen:
D
43. Eine Isometrie (oder auch orthogonale Abbildung) eines Vektorraumes mit Skalar−
→
produkt auf einen anderen ebensolchen ist eine bijektive Abbildung f , welche das Skalarprodukt erhält,
→
→
also folgende Bedingung für alle −
x,−
y erfüllt:
−
−
→ −
→ → −
→
f →
x f −
y =→
x−
y.
−
→
Bemerkung: Es folgt, dass f lineare Abbildung ist, also ein Vektorraumisomorphismus.
Bemerkung: Orthogonale Abbildungen nennt man gern auch ’unitär’, wenn von Vektorräumen über C die
Rede ist.
7.
RÄUM E MIT SKALARPRODUKT UND ISOM ETRIEN
125
Eine Begründung der Bemerkung folgt später nach der Einführung von Orthonormalbasen und der
Begründung ihrer Existenz.
→
→
a
D
44. Eine Orthonormalbasis −
a 1 , ..., −
n eines Raumes mit Skalarprodukt ist eine sol1 für i = j
→
→
che Basis, für deren Vektoren gilt: −
ai · −
a j = δ ij =
. Diese Vektoren haben also alle
0 für i = j
Länge 1 und stehen paarweise senkrecht aufeinander. Eine Orthogonalbasis ist eine solche, bei welcher
die Basisvektoren paarweise senkrecht aufeinander stehen. (Es fehlt also die Normierung.)
Wir stellen eine kleine Beobachtung an:
B
4. Ein System von Vektoren, welche alle nicht Null sind und paarweise senkrecht aufeinander stehen, ist stets linear unabhängig.
−
−
→
→
→
Begründung: Mit
λi →
a i0 : λi0 −
a i = 0 hat man nach skalarem Anmultiplizieren von −
a 2i0 = 0,
i
also λi0 = 0. Somit für alle i : λi = 0.
Man hat stets die Möglichkeit, ein linear unabhängiges System, insbesondere auch eine jede Basis,
wie folgt zu orthonormalisieren:
→
→
S 62. Seien −
a 1 , ..., −
a k linear unabhängige Vektoren in V, V Vektorraum mit Skalarprodukt. Dann
−
−
→
−
→
→
−
→
,
...,
b
,
welche
ein
Orthonormalsystem
bilden
und
für
die
gilt:
Spann
a
,
...,
a
=
gibt es stets
Vektoren
b
1
k
1
i
−
→
−
→
Spann b 1 , ..., b i für alle 1 ≤ i ≤ k. Insbesondere gibt es stets Orthonormalbasen. Folgende rekursive
−
→
Definition gibt ein Verfahren (Gram-Schmidt-Orthonormalisierungsverfahren) zur Gewinnung der b j ,
1 ≤ j ≤ k an:
−
→
0
→
b1 : = −
a 1,
−
→
0
i −
→
−
→
−
→
a i+1 · b j 0
0
−
→
b i+1 : = a i+1 −
b j , für 1 ≤ i < k.
2
−
→
0
j=1
bj
−
→
0
Schließlich normiert man noch - die Vektoren b i sind niemals Null:
−
→
0
−
→
bi
b i := , 1 ≤ i ≤ k.
−
→
0
b i
Hinweis: Es ist rechentechnisch wesentlich günstiger, die Normierung wie angegeben erst zum Schluss
→
anzubringen, weil es auch bei einfachen Koordinaten der −
a i sonst unangenehme Wurzelausdrücke in den
Vektoren bei der Durchführung des Induktionsschrittes gibt. Beim angegebenen Verfahren erscheinen
solche erst am Schluss, wo man nichts mehr zu rechnen hat. Noch eine praktische Bemerkung: Auch die
−
→
0
Vektoren b i können unerwünschte Faktoren enthalten. Diese kann man ohne weiteres weglassen!
−
→
−
→
0
0
Beweis: Wir zeigen zunächst, dass b i+1 stets senkrecht auf allen b j ist, für 1 ≤ j < i + 1. Sei
1 ≤ j0 < i + 1. Man hat
−
→
−
→
0
0
i −
→
−
→
−
→
−
→
−
→
−
→ 0
−
→
−
→
−
→2
a i+1 · b j0 0
a i+1 · b j 0
0
0
0
0
→
−
→
a i+1 · b j0 −
·
b
=
a
·
b
−
b i+1 · b j0 = −
b
b j0 = 0.
j
j
i+1
j
0
0
−
→2
−
→2
0
0
j=1
bj
b j0
−
−
→
0
→
Mit Induktion
stehen
damit
alle
Vektoren
b
paarweise
senkracht
aufeinander.
Weiter
ist
Spann
a
=
i
1
−
→
0
Spann b 1 nach Definition und mit der Induktionsvoraussetzung
→
−
→
−
→
0
0
→
a i = Spann b 1 , ..., b i
Spann −
a 1 , ..., −
folgt auch
→
−
→
−
→
0
0
→
Spann −
a 1 , ..., −
a i+1 = Spann b 1 , ..., b i+1 .
126
5. LINEARE ALGEBRA
−
→
−
→
−
→ →
0
0
0
Denn einerseits ist b i+1 eine Linearkombination der Vektoren b 1 , ..., b i , −
a i+1 , somit der Vektoren
−
→
−
→
0
0
−
→
−
→
−
→
a 1 , ..., a i+1 . Andererseits ist a i+1 eine Linearkombination der Vektoren b 1 , ..., b i+1 . Daraus folgt
−
→
−
→
0
0
weiter, dass die Vektoren b 1 , ..., b k linear unabhängig sind, also auf Länge 1 anschließend gebracht
1 werden können mit den Faktoren →
.
−
) b i
Hier ist ein Beispiel zur Orthonormalisierung: Seien

 
1
1




−
−1
→
→
→

  1
a 1, −
a 2, −
a3 =
 1  ,  1
1
2
 

1
  −1 
,

  2  .
1
Wir berechnen:
−
→
0
b1
−
→
0
b2
−
→
0
b3


1
 −1 

= 
 1 ,
1

 

1
1
 1   −1 
 

  
 1 · 1  1  
1
 −1  
 1 
2
1

 

= 
 1 −
 1 =
4
2
1



 
1
1
1
 −1  1  7 
3
1 
 =  ,
− 
1  4 1  4 1 
2
1
5
 
1
 7 
−
→
1
0

wir lassen den störenden Faktor weg und arbeiten mit 
 1  weiter für b 2 .
4
5




 
1
1
1
1
 −1   −1 
 −1   7 



 

 
 2  1   1   2  1   1 
1
 −1 
 −1 
 7 
1
1
1
5


−
 
= 
 2 −


 1 
1
4
76
1
1
5




 


1
1
1
−5
 −1  5  −1 


1 
1 


 7 
 3 

= 
 2  − 4  1  − 76  1  = 19  14 
1
1
5
−6
−
→
0
Man prüfe nach, dass die Vektoren
b i paarweise
senkrecht aufeinander stehen. Das Resultat mit der
√
√
1
19 √ 1
266
√
Normierung lautet also ( 76 = 38 , 266 = 266 )
 


1
√
−
 1  −1 
→ −
→ −
→
19 



b 1, b 2, b 3 = 
 2  1  , 38 
1



1
−5
√


7 
 , 266  3  .


1
14 
266
5
−6
7.
RÄUM E MIT SKALARPRODUKT UND ISOM ETRIEN
127
→
→
Wir begründen nunmehr die Linearität der Isometrien: Sei −
a 1 , ..., −
a n eine Orthonormalbasis des
Raums. Dann haben wir
−
→ −
−
→ −
→ → −
→
f →
ai · f −
x +→
y
= −
ai· −
x +→
y
−
→ → −
→ → −
→ → −
→ →
→
→
→
→
= −
ai·−
x +−
ai·−
y=f −
ai · f −
x + f −
ai · f −
y
−
−
−
→ −
→ −
→ −
→
→
→
= f a i · f x + f y . Also für alle i :
−
−
−
→ −
→ −
→ → −
→ →
→
= 0.
f →
x +−
y − f −
x + f −
y
f →
ai
−
→ → −
→ → Nun ist aber f −
a 1 , ..., f −
a n wieder ein linear unabhängiges System, also eine Basis. Denn mit
−
→ −
−
→ →
−
→ → −
→ → →
→
f →
x f −
y =−
x−
y sind die Vektoren f −
a 1 , ..., f −
a n alle von der Länge 1 und paarweise senkrecht aufeinander. Daraus folgt ihre
lineare
Unabhängigkeit
nach der oben begründeten Bemerkung. Also
−
−
−
→ −
→ −
→ −
→
−
→
→
→
sind die Vektoren f x + y − f x + f y
senkrecht auf allen Vektoren einer Basis und damit
−
→ →
→
auf allen Vektoren überhaupt. Daher müssen sie alle Null sein. Analog folgt nun f λ−
x = λ−
x über
−
→ −
−
→ −
→ →
→
→
x
= −
a i · λ−
x= λ −
ai·→
x
f →
a i · f λ−
−
→ → −
→ →
= λ f −
ai · f −
x
−
→ →
−
→ →
= f −
ai ·λf −
x , also
−
−
→ −
→
−
→
→
→
f λ−
x −λf −
x
= 0.
f →
ai
Wie sehen die Matrizen von Isometrien aus? Dazu setzen wir natürlich Orthonormalbasen voraus,
n
so dass die Koordinatendarstellungsabbildungen L−1
a Isometrien des Raums auf den entsprechenden R
werden. Eine Orthonormalbasis wird durch eine Isometrie auf eine Orthonormalbasis des Zielraums abgebildet. Also bilden auch die Spalten einer darstellenden Matrix eine Orthonormalbasis des Rn . Eine
solche Matrix heißt orthogonal. Wir haben dazu folgendes Resultat, mit dem die Inversion solcher Matrizen besonders einfach wird:
S 63. Ist A eine orthogonale Matrix, d.h. die Spaltenvektoren von A bilden eine Orthonormalbasis
des Rn , dann gilt
A−1 = AT .
Die Inverse ist also einfach die Transponierte.
Zum Beweis schauen wir die Inversenbildung bei Matrizen etwas näher an:
→
→
D
45
(und Satz). Zu jeder Basis −
a 1 , ..., −
a n des Rn hat man eindeutig die reziproke
−
→
→
→
Basis →
a ∗1 , ..., −
a ∗n , für die gilt −
a ∗i · −
a j = δ ij für alle i, j.
→
Begründung für den Rn : Schreiben wir die Vektoren −
a i als Spaltenvektoren einer Matrix A, so haben
−1
wir die Inverse Matrix A , weil A eine Bijektion des Rn auf sich darstellt (bezüglich der kanonischen
−
→
Basis). Also mit A−1 A = E = (δ ij )ij (Einheitsmatrix): i. Zeilenvektor von A−1 sei b i . Dann hat man
−
→T −
−
→
−
→
→
b →
a = δ , also bilden die b T die reziproke Basis. Setze also −
a ∗ := b T . Hat man umgekehrt eine
i
j
ij
i
i
i
reziproke Basis, so bilden deren Vektoren als Zeilen geschrieben die Matrix A−1 , und diese ist eindeutig
bestimmt.
Nunmehr folgt der vorige Satz aus folgender Beobachtung:
B
5. Eine Orthonormalbasis ist zu sich selbst reziprok.
Das folgt sofort aus der Definition von ’Orthonormalbasis’. Somit braucht man die Spalten einer
orthogonalen Matrix nur als Zeilen zu schreiben, um die Inverse zu erhalten.
Bemerkung: Für den komplexen Fall erhält man analog für orthogonale Matrizen A ∈ Cn×n :
T
→
→
→
→
A−1 = A , weil für die reziproke Basis −
a ∗1 , ..., −
a ∗n zu −
a 1 , ..., −
a n bezüglich des Skalarproduktes in Cn
128
5. LINEARE ALGEBRA
gilt:
 −

 −

→
→
a ∗1
a ∗1
 ..  −
 .  −
→
−
→
→
−
→
 .  a 1 , ..., a n =  ..  a 1 , ..., a n = (δ ij )ij = (δ ij )ij = E.
−
→
−
→
a ∗1
a ∗1
(Die Matrizen sind durch ihre Zeilen- bzw. Spaltenvektoren angegeben. Der Querstrich über den Vektoren
bedeutet Konjugation aller Einträge.)
Beispiel für den reellen Fall:
√
√ −1  1 √
√
√ 
 1√
1
1
1
1
6
2
6 √6
6 √6
3 √
6 √6
3 √3
2 √
 1 3 1 3 −1 3  =  1 6 1 3 −1 2 
3√
3 √
3
6√
3 √
2
1
1
1
1
0
0
2 2 −2 2
3 6 −3 3
8. Determinanten
Vorbemerkung: Alle folgenden Ausführungen über Determinanten gelten für beliebige
Zahlkörper K anstelle von R, lediglich zur konkreteren Formulierung und insbesondere konkreterer
geometrischer Deutung denken wir an R zuerst. Abgesehen davon handelt es sich um den wichtigsten
Anwendungsfall.
Mit den Mittel der elementaren
sieht man Folgendes:
Vektorrechnung
a
b
1.) Zu zwei Vektoren
,
∈ R2 stellt die Zahl ad − bc das zweidimensionale Volumen (also
c
d
den Flächeninhalt) dar des von beiden Vektoren aufgespannten Parallelogramms, jedoch mit zusätzlichem
Orientierungsvorzeichen: Die Zahl ad−bc ist genau dann positiv, wenn die Vektoren in dieser Reihenfolge
→
→
ein zweidimensionales Rechtssystem bilden, also ebenso orientiert sind wie −
e 1, −
e 2 . (Drehen entgegen dem
Uhrzeigersinn.) Sämtliche angegebene Deutungen setzen ein kartesisches Koordinatensystem voraus. Wir
sehen das leicht ein, wenn wir den R2 als xy− Ebene des R3 auffassen und bilden:
    

a
b
0
 c × d =
.
0
0
0
ad − bc
Der Flächeninhalt des von beiden Vektoren aufgespannten Parallelogramms ist demnach |ad − bc| , insbesondere haben wir ad − bc = 0 genau dann, wenn die beiden Vektoren linear abhängig sind. Außerdem
−
→ → −
→
−
→
→
→
wissen wir, dass −
a, b,−
a × b bei linear unabhängigen −
a , b ein (dreidimensionales) Rechtssystem bilden. Daraus ergibt sich die Aussage über das Vorzeichen: ad−
bc
>0 genau
dann, wenn das obenstehende
a
b
−
→
Vektorprodukt in Richtung e 3 zeigt, also die Vektoren
,
ein Rechtssystem im R2 bilden
c
d
→
→
e 2 . Wir schreiben die Sache noch einmal anders, indem wir die beiden Vektoren als Zeilen oder
wie −
e 1, −
Spalten einer (2 × 2) − Matrix auffassen:
a c
a b
oder
,
b d
c d
und stellen fest, dass die Zahl ad − bc in beiden Fällen herauskommt, wenn man das Produkt der Zahlen
in der Hauptdiagonalen nimmt (von links oben nach rechts unten) und das Produkt über die Zahlen der
Nebendiagonalen davon abzieht. Wir definieren:
a c
:= ad − bc
det
b d
a c
und nennen diese Zahl Determinante der Matrix
. Diese Zahl hat also die oben aufgeführten
b d
geometrischen Bedeutungen, sie liefert das zweidimensionale Volumen des von den Zeilenvektoren (oder
von den Spaltenvektoren) aufgespannten linearen Gebildes (hier Parallelogramms) mit Orientierungsvorzeichen. Dazu gehört auch der Grenzfall: Die Matrix ist genau dann invertierbar, wenn die Determinante
nicht Null ist. (Wir wissen bereits, dass eine jede quadratische Matrix genau dann invertierbar ist, wenn
das System ihrer Zeilenvektoren oder das System ihrer Spaltenvektoren linear unabhängig ist.)
8.
DETERMINANTEN
129
−
→ →
→
2.) Wir betrachten den dreidimensionalen Fall: Drei Vektoren −
a , b,−
c ∈ R3 spannen einen Spat
−
→ →
→
auf (so etwas wie einen schiefen Quader). Wir wissen bereits, dass das Spatprodukt −
a(b × −
c ) Folgendes leistet: Es stellt das dreidimensionale Volumen des von den Vektoren aufgespannten Spates mit
Orientierungsvorzeichen dar. Insbesondere wird es Null genau im Falle der linearen Abhängigkeit des
−
→ →
→
Systems −
a , b,−
c . Auch hier können wir die Sache wieder in Matrixform bringen und das Spatprodukt
als Determinante einer (3 × 3) − Matrix auffassen. Dazu schreiben wir die Vektoren als Zeilenvektoren
folgender Matrix und sehen uns die Berechnung des Spatproduktes erneut an:


a1 a2 a3
b2 b3
b1 b3
b1 b2


b1 b2 b3
det
:= a1 det
− a2 det
+ a3 det
.
c2 c3
c1 c3
c1 c2
c1 c2 c3
Man rechnet sofort nach, dass dies genau denselben Wert ergibt wie das Spatprodukt, also gilt:

 
 
 

a1 a2 a3
a1
b1
c1
det  b1 b2 b3  =  a2   b2  ×  c2  .
c1 c2 c3
a3
b3
c3
Wie bereits im zweidimensionalen Fall erkennt man auch hier, dass die analoge Bildung mit der Matrix,
in welcher die drei Vektoren als Spalten statt Zeilen geschrieben wird, genau dasselbe Resultat liefert:


a1 b1 c1
b2 c2
a2 c2
a2 b2


a2 b2 c2
det
= a1 det
− b1
+ c1 det
b3 c3
a3 c3
a3 b3
a3 b3 c3
= a1 (b2 c3 − b3 c2 ) − b1 (a2 c3 − a3 c2 ) + c1 (a2 b3 − a3 b2 )
= a1 (b2 c3 − b3 c2 ) + a2 (b3 c1 − b1 c3 ) + a3 (b1 c2 − b2 c1 )

 
 

a1
b1
c1
=  a2   b2  ×  c2  .
a3
b3
c3
In beiden Berechnungen der Determinanten von (3 × 3) − Matrizen haben wir rekursiv auf Determinanten von (2 × 2) − Matrizen zurückgeführt. Analog kann man auch die Determinantenberechnung von
(2 × 2) − Matrizen auf Determinanten von (1 × 1) − Matrizen zurückführen. Sinngemäß (Volumen im
eindimensionalen Fall ist Länge, dazu Orientierungsvorzeichen) hat man det (a) = a, und damit gilt:
a b
det
= a det (d) − b det (c) = ad − bc.
c d
Das ganze Schema lässt sich zu einer rekursiven Definition der Determinanten beliebig großer quadratischer Matrizen verallgemeinern (vgl. Entwicklungssatz unten), aber wir wollen systematisch mit dem
Begriff des orientierten n− dimensionalen Spatvolumens arbeiten.Die Determinante quadratischer Matrizen und ihre algebraischen sowie geometrischen Eigenschaften
Wir wollen eine Abbildung folgender Art haben (für jeden Zahlkörper K und für jede Zahl n ∈ N):
detn : (K n )n →
→ K −
, (Determinante als Funktion von n Vektoren aus K n ) ,
−
→
→
a 1 , ..., −
a n → det −
a 1 , ..., →
an
auch aufzufassen als :
detn :
K n×n
K
−
→
→
→
A = a 1 , ..., −
a n → det (A)
(Determinante als Funktion quadratischer Matrizen)
welche im Blick auf die gesuchten geometrischen Eigenschaften (wenn man an K = R denkt) folgende
Bedingungen erfüllen soll, die man zusammenfasst
→
mit: det soll n− fache alternierende Multilinearform der
→
→
e n = 1. Den Index n lassen wir ab jetzt fort. Wir definieren
Spaltenvektoren −
a j sein mit detn −
e 1 , ..., −
nunmehr, was dies im Einzelnen heißt:
130
5. LINEARE ALGEBRA
Eine Abbildung det: (K n )n → K heißt normierte alternierende Linearform, wenn sie folgende Bedingungen erfüllt:
(i) det ist n − f ach linear, d.h. linear in jedem Eingabeschlitz, also
−
→
−
→
→
→
det(..., −
a + b , ...) = det(..., −
a , ...) + det(..., b , ...) und
−
→
→
→
→
det(..., λ−
a , ...) = λ det(..., −
a , ...) für alle −
a , b , λ.
→
→
(ii) det ist alternierend, d.h. det(..., −
a ,...−
a , ...) = 0.
−
−
→
→
(iii) det e 1 , ... e n = 1. (Normierung für den Einheitswürfel)
Erläuterung zur Formulierung: Bemerkung zur Formulierung der ersten Eigenschaft (i): die bezeichneten Vektoren stecken stets im selben Eingabeschlitz, und die Pünktchen bedeuten stets denselben Satz
von Vektoren in allen anderen Eingabeschlitzen. Wir erinnern daran, dass genau in diesem Sinne das Skalarprodukt und das Vektorprodukt bilinear sind, also zweifach linear. Ebenso bedeutet die Formulierung
der Eigenschaft (ii), dass in zwei Eingabeschlitzen derselbe Vektor steckt, die anderen Schlitze beliebig
belegt sind. Dass diese Eigenschaft ’alternierend’ heißt, wird klar mit der zweiten der folgenden Folgerungen - dass diese so einfach gezogen werden können, zeigt gerade die Nützlichkeit der obenstehenden
algebraisch-abstrakten Definition von det.
Geometrischer
sind alle zu fordern,
→
Sinn der Formulierung: Die angegebenen Eigenschaften
→
→
→
wenn det −
a 1 , ..., −
a n für Rn die Bedeutung haben soll: Spatvolumen des von −
a 1 , ..., −
a n aufgespannten
−
→
−
→
Spats mit Orientierungsvorzeichen. Denn e 1 , ... e n sollte ein Rechtssystem definieren und den Einheits→
→
würfel aufspannen, also (iii) . Ferner sollte (ii) gelten, weil mit Wiederholung (..., −
a ,...−
a , ...) ein entarteter
Spat aufgespannt wird, der n− dimensionales Volumen Null bekommen sollte. Schließlich die beiden zu
(i) gehörenden Eigenschaften (Linearität in jedem Eingabeschlitz): Für den Faktor ist das sofort klar:
Streckt man eine Kante eines Spats mit |λ| , so multipliziert sich das (n− dimensionale) Volumen mit |λ| .
Multipliziert man einen der aufspannenden Vektoren mit einer negativen Zahl, so tritt zusätzlich Orien→
tierungsumkehr ein. Für die Addition (erster Teil) sieht man die Sache so: Wenn −
a (oder einer der nicht
aufgeführten Vektoren in den anderen Schlitzen) der Nullvektor ist, so ist die Gleichung klar, da dann
−
→
→
det(..., −
a , ...) = 0 sein sollte (Entartung). Wenn das nicht der Fall ist, so kann man vom Vektor b jede
→
Vektor-Komponente abziehen, die nicht parallel zu −
a ist, ohne das n− dimensionale Volumen zu ändern
(Scherung, siehe weiter unten: Cavalieri-Prinzip). Dann aber ist die Aussage klar, es werden einfach zwei
→
Spate aneinandergesetzt, deren Volumina sich addieren (oder das eine ist bei anderer Richtung der −
a−
−
→
Komponente von b abzuziehen).
Wir ziehen nunmehr einige Folgerungen aus der abstrakten Formulierung, die sowohl für die Deutung
der Eigenschaft als auch für das praktische Rechnen sowie Anwendungen der Determinante wichtig sind.
Anschließend beweisen wir die beiden Hauptresultate: Mit der angegebenen Definition ist det bereits eindeutig bestimmt, und es existiert auch eine solche Abbildung, die Leibnizformel gibt für diese Abbildung
die korrekte Berechnung an.
8.0.1. Folgerungen aus den algebraischen Eigenschaften allein.
F
6.
−
→
−
→
−
→
→
→
(i) det(..., −
a , ..., b , ...) = det(..., −
a + λ b , ..., b , ...)
−
→
−
→
→
→
(ii) det(..., −
a , ..., b , ...) = − det(..., b ,..., −
a ...)
−
→
−
→
−
→
→
(iii)
det( a 1 , ..., a n ) = 0 ⇐⇒ a 1 , ..., −
a n linear abhängig.
Bemerkungen zum Verständnis: (i) ist das wichtige Cavalieri-Prinzip der Scherung. (ii) bedeutet die
Umkehr des Vorzeichens (also der Orientierung) bei Vertauschung zweier der Eingabevektoren. (iii) gibt
uns eine neue Charakterisierung der linearen Unabhängigkeit von n Vektoren im K n , die geometrisch
verständlich ist (’Spat nicht entartet’.)
Beweis: (i): Wir haben unter Ausnutzung von (i) und (ii) der Definition:
−
→
−
→
−
→
−
→
−
→
→
→
det(..., −
a + λ b , ..., b , ...) = det(..., −
a , ..., b , ...) + det(..., λ b , ..., b , ...)
−
→
−
→
−
→
→
= det(..., −
a , ..., b , ...) + λ det(..., b , ..., b , ...)
−
→
→
= det(..., −
a , ..., b , ...).
8.
DETERMINANTEN
131
Zu (ii):
−
→
−
→
→
→
det(..., −
a , ..., b , ...) + det(..., b , ..., −
a , ...)
−
→
−
→
−
→
−
→
−
→
→
= det(..., a , ..., b + a , ...) + det(..., b , ..., −
a + b , ...)
Folg. (i)
=
(i) Def.
−
→
−
→
→
→
det(..., −
a + b , ..., −
a + b , ...)
=
(ii) Def.
0
Zu (iii): Steht in einem der Eingabeschlitze, sagen wir ohne Beschränkung der Allgemeinheit im ersten,
eine Linearkombination der Vektoren in den anderen Schlitzen, so haben wir:
n
n
−
→ −
→
−
→
−
→
→
det
λ a , a , ..., a
=
λ det −
a ,→
a , ..., −
a = 0.
k
k
2
n
k=2
k
k
2
n
k=2
8.0.2. Eindeutige Existenz von det und Leibniz-Berechnungsformel. Wir kommen nunmehr zu den
angekündigten Hauptresultaten:
S 64. det ist mit den Eigenschaften (i) − (iii) (’normierte alternierende n− fache Multilinearform’) eindeutig bestimmt.
→
→
a n ∈ K n kann eindeutig durch Linearkombinationen der
Beweis: Jeder Satz von Vektoren −
a 1 , ..., −
−
→
e i ausgedrückt werden, also:
−
−
→
→
a =
e λ .
j
i ij
i
→
Damit hat die Matrix Λ = (λij )ij jeweils −
a j als j. Spaltenvektor.
→
−
−
→
−
→
−
→
→
→
e i λi1 , ...,
e i λin
λi1 ,1 · ... · λin ,n det −
e i1 , ..., −
e in
det a 1 , ..., a n = det
=
i
i
Def. (i)
i1 ,...,in
Wir erläutern ein wenig die Hauptschritte: Der erste beruft sich auf die n− fache Linearität, also in jedem
Eingabeschlitz. Wir erinnern uns, dass dies bedeutet: Distributiv rechnen, d.h. ’Jeder mit Jedem’. Genau
das und das Herausziehen der Faktoren geschah mit
dem Gleichheitszeichen
mit Zusatz ’Def. (i)’.
−
→
−
→
Aber mit Folgerung
(ii)
oben
können
wir
det
e
,
...,
e
für
den
Fall
i
i
i
k = im für k = m schreiben
1
n
→
→
als ± det −
e 1 , ..., −
e n , mit positivem Vorzeichen genau
dann,
wenn
die
Anzahl
der benötigten Vertau→
−
→
schungen gerade ist. Ferner wissen wir bereits, dass det −
e i1 , ...,
e
=
=
0,
falls
i
in
k
m für ein Paar
−
i−
(k, m)
→
−
→
→
−
→
mit k = m. Damit haben wir eindeutige Berechnung von det a 1 , ..., a n , auf det e 1 , ..., e n = 1 mittels der eindeutigen Zahlen λij zurückgeführt.
Es ist nun zu beachten: Wir haben damit nur gezeigt, dass es nicht möglich ist, zwei verschiedene Abbildungen det zu haben, welche die gestellten algebraischen Forderungen erfüllen. Es könnten immer noch
diese Forderungen widersprüchlich sein. Das Problem der Existenz lösen wir nun durch die Leibnizsche
rechnerische Definition der Determinante und die Verifikation der verlangten Eigenschaften.
Dazu müssen wir ein wenig ausholen. Wir erinnern daran, dass man eine Bijektion der Menge
{1, 2, ..., n} oder allgemeiner einer Menge {a1 , .., an } mit ai = aj für i = j auf sich selbst eine Permutation nennt. Die Menge aller Permutationen von {1, ..., n} nennen wir Sn . Spezielle einfache Permutationen
sind für n > 1 diejenigen, welche nur zwei Elemente i = j miteinander vertauschen, also Permutationen
τ mit τ (i) = j, τ (j) = i, und alle übrigen festlassen, also τ (k) = k für alle k ∈
/ {i, j}. Diese nennt man
Transpositionen, wir schreiben τ i,j für die eben beschriebene Transposition, welche nur die Elemente i, j
vertauscht. Dazu haben wir folgendes Resultat:
L 2. Jede Permutation ist eine Hintereinanderschaltung von Transpositionen, und jede Permutation lässt sich stets nur entweder mit einer geraden oder einer ungeraden Anzahl von Transpositionen
darstellen. Also ist eindeutig definiert:
sign (σ) :=
1, wenn σ Produkt einer geraden Zahl von Transpositionen ist
−1, wenn σ Produkt einer ungeraden Zahl von Transpositionen ist.
Beweis durch Induktion über n: Für n = 1 ist die Identität die einzige Permutation, sie ist leeres
Produkt von Transpositionen, lässt sich also nur durch Null Transpositionen darstellen. (Wem das nicht
so lieb ist, der fange mit n = 2 an.) Die Aussage gelte für n. Wir wollen folgern, dass sie dann auch für
132
5. LINEARE ALGEBRA
n+1 gilt. Sei also σ eine Permutation der Menge {1, ..., n+1}. Erster Fall: σ(1) = 1. Dann gilt die Aussage
nach Induktionsvoraussetzung für die Einschränkung σ
) von σ auf {2, ..., n+1}. Also ist σ
) als Produkt von
Transpositionen zu schreiben, wobei auch eindeutig ist, ob das mit einer geraden oder ungeraden Anzahl
von Transpositionen geht. Damit gilt dasselbe für σ - es ist nur noch σ (1) = 1 hinzuzufügen. Zweiter Fall:
σ(1) = i > 1. Wir bilden nunmehr die Transposition τ 1,i . Dann ist α := τ 1,i ◦ σ eine Permutation von
{1, ..., n + 1}, welche 1 festlässt, also α (1) = 1. Für α gilt nach dem ersten Fall wieder die Aussage des
−1
Satzes. Nun haben wir aber σ = τ −1
1,i ◦ α = τ 1,i ◦ α. Denn τ 1,i = τ 1,i . Also ist mit α auch σ als Produkt
von Transpositionen darstellbar. Weiter geht das nur entweder mit einer geraden oder einer ungeraden
Zahl von Transpositionen. Denn wäre beides möglich, so hätte man mit α = τ 1,i ◦σ denselben Sachverhalt
auch für α, was nach dem erledigten ersten Fall ausgeschlossen ist.
Wir benötigen noch eine einfache
F
7. sign (σ) = sign σ −1 für alle Permutationen σ.
Beweis: Mit σ = τ n ◦ ... ◦ τ 1 , τ k Transposition für 1 ≤ k ≤ n, hat man
−1
σ−1 = τ −1
1 ◦ ... ◦ τ n = τ 1 ◦ ... ◦ τ n .
Also ist σ−1 durch dieselben Anzahlen von Transpositionen darstellbar wie σ.
Nunmehr können wir eine geschlossene Formel für die Determinante angeben - und diese ’fällt nicht
vom Himmel’, sondern ergibt sich zwangsläufig aus obenstehender Begründung der Eindeutigkeit von
det . Wir brauchen nur mit dem Wissen über die Permutationen zu ergänzen:
→
→
det −
a 1 , ..., −
an =
=
i1 ,...,in
σ∈Sn
=
→
→
λi1 ,1 · ... · λin ,n det −
e i1 , ..., −
e in
→
→
λσ(1),1 · ... · λσ(n),n sign (σ) det −
e 1 , ..., −
en
sign (σ)
n
aσ(j),j .
j=1
σ∈Sn
Wir definieren nunmehr det durch diese Leibnizformel und zeigen dann, dass diese Abbildung eine alternierende Multilinearform ist mit der Normierungseigenschaft:
D
46. Es sei definiert:
det :
Dann haben wir den
(K n )n
→
−
→
−
→
a 1 , ..., a n →
K
sign (σ)
σ∈Sn
n
1
j=1
aσ(j),j .
S 65. det ist normierte alternierende Linearform, erfüllt also die Eigenschaften (i) bis (iii).
−
→
→
→
→
Beweis: Zu (i): Es seien Spaltenvektoren −
a j = (a1,j , ..., an,j )T gegeben. Ferner sei −
a j0 = b j0 + −
c j0 ,
−
→
alle anderen Schlitze stets mit a j besetzt für j = j0 .
−
→
→
det (A) = det ..., b j0 + −
c j0 , ...
=
sign (σ) aσ(1),1 · ... · aσ(n),n =
sign (σ) bσ(j0 ),j0 + cσ(j0 ),j0
aσ(j),j
σ
=
σ
sign (σ) bσ(j0 ),j0
j=j0
σ
aσ(j),j +
σ
−
→
→
= det ..., b i0 , ... + det ..., −
c i0 , ...
sign (σ) cσ(j0 ),j0
j=j0
j=j0
aσ(j),j
8.
DETERMINANTEN
133
Noch einfacher sieht man:
→
det ..., λ−
a j0 , ... =
sign (σ) λaσ(j0 ),j0
aσ(j),j
σ
= λ
j=j0
sign (σ) aσ(j0 ),j0
σ
aσ(j),j
j=j0
→
= λ det ..., −
a j0 , ... .
→
→
a j1 gleich. Dann haben wir:
Zu (ii): Seien die Spaltenvektoren −
a j0 und −
→
→
det −
a 1 , ..., −
an =
sign (σ) aσ(j0 ),j0 aσ(j1 ),j1
aσ(j),j
σ
=
j=j0 ,j1
sign (σ) aσ(j1 ),j0 aσ(j0 ),j1
σ
aσ(j),j .
j=j0 ,j1
Nunmehr betrachten wir zu jeder Permutation σ die Permutation σ
) := σ ◦ τ j0 ,j1 , mit der Transposition
) durch alle
τ j0 ,j1 , welche j0 und j1 vertauscht und alle andern Elemente festlässt. Mit σ läuft auch σ
Permutationen, ferner gilt sign ()
σ) = −sign (σ) . Schließlich hat man σ
) (j0 ) = σ (j1 ) und σ
) (j1 ) = σ (j0 ) ,
aber σ
) (j) = σ (j) für alle j = j0 , j1 . Somit
→
→
det −
a 1 , ..., −
an =
sign ()
σ) aσ) (j0 ),j0 aσ) (j1 ),j1
aj,)σ(j)
σ
=
j=j0 ,j1
sign ()
σ) aσ(j1 ),j0 aσ(j0 ),j1
σ
= −
aj,σ(j)
j=j0 ,j1
sign (σ) aσ(j1 ),j1 aσ(j0 ),j0
σ
aj,σ(j)
j=j0 ,j1
→
→
= − det −
a 1 , ..., −
a n = 0.
→
→
→
→
Also det −
a 1 , ..., −
a n = 0, wenn für zwei Spaltenvektoren −
a j0 = −
a j1 mit j0 = j1 .
Schließlich ist die Normierungseigenschaft (iii) sofort klar:
n
→
→
det −
e 1 , ..., −
en =
sign (σ)
δ σ(j),j = 1.
σ∈Sn
Denn für alle σ = id verschwindet das Produkt
n
1
j=1
j=1
δ σ(j),j .
8.0.3. Weitere zentrale Eigenschaften der Determinante als Funktion von quadratischen Matrizen.
Wir haben zunächst die einfache Beobachtung:
S 66. det (A) = det AT .
Beweis: Mit sign (σ) = sign σ−1 haben wir sofort:
det (A) =
σ
sign (σ)
n
j=1
aσ(j),j =
σ
n
n
sign σ−1
aj,σ−1 (j) =
sign (τ )
ai,τ (i) . = det AT .
j=1
τ
i=1
Dies bedeutet, dass es gleichgültig ist, ob wir die Determinante als Funktion der Spaltenvektoren oder der
Zeilenvektoren ansehen. Die beiden Spate, welche von den Zeilenvektoren bzw. den Spaltenvektoren aufgespannt werden, haben also dasselbe orientierte Volumen. Es folgt auch, dass es gleichgültig ist, ob man
n
die definierende Leibnizformel so schreibt wie oben geschehen oder so: det (A) :=
sign (τ )
ai,τ (i) .
τ ∈Sn
i=1
Es kommt eine überaus bedeutsame Eigenschaft hinzu, die wir sehr leicht mit den abstrakten algebraischen Eigenschaften zeigen können, die uns aber im nächsten Abschnitt für das tiefere Verständnis
der Determinante sehr nützlich wird:
S 67 (Multiplikationssatz). Es gilt für A, B ∈ K n×n stets det(BA) = det (B) det (A) .
134
5. LINEARE ALGEBRA
→
Beweis: Es seien wie immer −
e j , 1 ≤ j ≤ n, die Einheitsvektoren in K n . Ferner seien:
−
→
aj
−
→
bs
: =
: =
n
k=1
n
s=1
Dann haben wir:
−
→
bs =
n
j=1
−
→
a j µjs =
n
n
j=1
k=1
−
→
e k λkj
−
→
e k λkj , 1 ≤ j ≤ n,
−
→
a j µjs , 1 ≤ s ≤ n.
µjs =
n
k=1


n
n
−
→
−
→


λkj µjs =
ek
e k cks .
j=1
k=1
Man beachte dabei, dass gemäß der Definition des Matrizenproduktes gilt:
(cks )ks = (λkj )kj · µjs js .
Nun wissen wir mit dem für die Eindeutigkeit von det verwandten Argument und der Leibnizformel:
−
→
→
−
→ →
det b 1 , ..., b n
= det ((cks )ks ) det −
e 1 , ..., −
e n = det ((cks )ks ) , und ebenso:
−
→
→
→
−
→ →
→
= det µjs js det −
a 1 , ..., −
e 1 , ..., −
det b 1 , ..., b n
a n = det µjs js det (λkj )kj det −
en
= det µjs js det (λkj )kj .
Insgesamt:
det ((cks )ks ) = det µjs js det (λkj )kj .
Nun waren aber (λkj )kj und µjs js beliebige (n × n) − Matrizen aus K n×n .
Aus dem Multiplikationssatz ergibt sich sofort die
1
F
8. det A−1 =
für invertierbare Matrizen A.
det (A)
Beweis: A−1 existiere, dann det A−1 det (A) = det (E) = 1, dividiere durch det (A) .
8.1. Die koordinatenfreie Bedeutung der Determinante, Determinante einer linearen
Abbildung V → V . Wir sind nunmehr in der Lage, die komplette Deutung der Determinante zu geben:
−
→
S 68. Wenn f : V → V lineare Abbildung ist (V wie immer endlichdimensional,
Dimension
sei
−
−
→
→
,
n), dann kann man korrekt unabhängig von jeder Basiswahl (!) definieren: det f := det Maa f
−
→
mit irgendeiner Basis a von V. Ferner bedeutet der Betrag von det f das Volumenverhältnis: Volumen
−
→ →
−
→→ →
→
des Spates, der von f −
a 1 ), ... f (−
a n aufgespannt wird, geteilt durch Volumen des von −
a 1 , ..., −
an
−
→
→
→
aufgespannten Spates, für jede beliebige Basis −
a 1 , ..., −
a n . Das Vorzeichen von det f ist positiv, wenn
−
→
−
→
f die Orientierung
jeder Basis erhält, negativ, wenn f die Orientierung jeder Basis umdreht, und
−
→
−
→
natürlich det f = 0 genau dann, wenn f nicht bijektiv ist.
−
→
Beweis: Die Unabhängigkeit von det Maa f
von der Basis a ergibt sich durch
−
−
−1 a −
→
→
→
Mbb f
= Tba Maa f Tab = Tab
Ma f Tab , also
−
−
−
→
→
→
1
det Mbb f
=
det Maa f
det Tab = det Maa f
.
b
det (Ta )
−
→
Zur Deutung der Determinante det f als Verhältnis zwischen orientiertem Spatvolumen des Bildspates
einer beliebigen Basis und orientiertem Spatvolumen des Basisspats: Wir setzen V = K n voraus. (Über
8.
DETERMINANTEN
135
eine geeignete Koordinatenabbildung ist V mit K n identifizierbar, und die geometrische Bedeutung des
orientierten Spatvolumes wird auch darüber übertragen.) Nun sei eine beliebige Basis für K n gegeben:
→
→
a= −
a , ..., −
a .
1
n
Weiter sei für alle 1 ≤ j ≤ n:
n
−
−
→ −
→
−
→
f →
aj =
a k λkj , also (λkj )kj = Maa f ..
k=1
Nun haben wir mit dem Argument, das wir auch beim Multiplikationssatz verwandten:
−
→
→ → −
→ → →
det f −
a 1 , ..., f −
an
= det (λkj )kj det −
a 1 , ...−
an
−
→
→
→
= det f det −
a 1 , ...−
an .
→
→
Mit det −
a 1 , ...−
a n = 0 also:
−
→ → −
→ → −
det f −
a 1 , ..., f −
an
→
−
=
det
f .
→
det →
a 1 , ...−
an
−
→
Der Streckungsfaktor für einen nicht ausgearteten Spat bei Anwendung von f ist also für alle Spate
derselbe!
8.2. Entwicklungssatz für die Determinante quadratischer Matrizen.
S 69 (von der Entwickelbarkeit

a11
a12
 a21
a22

det 
..
..

.
.
an+1,1
an+1,2
der Determinante nach der ersten Zeile).

···
a1,n+1
n
···
a2,n+1 

(−1)1+j a1j det (A1j ) ,
 =
..
..

.
.
j=1
···
an+1,n+1
wobei für 1 ≤ j ≤ n + 1 die (n × n) − Matrix A1j durch Streichen der
1. Zeile und der j. Spalte der Matrix A = (aij )1≤i≤n+1,1≤j≤n+1 entsteht.
Bemerkung: Das Rechenschema dieser Definition heißt naheliegend: ’Entwicklung der Determinante nach der ersten Zeile’. Es ist im allgemeinen nicht praktisch, außer wenn man viele Nullen in der
Matrix hat. Erst wenn wir die abstrakten algebraisch-geometrischen Eigenschaften besser kennenglernt
haben, können wir recht praktisch Determinanten ausrechnen. Mit dem Induktionsanfang det (a) = a für
die Determinante einer (1 × 1) − Matrix ergäbe das auch eine induktive Definition für det. Wir haben
aber det durch die Leibnizformel definiert und ihre algebraischen Eigenschaften (Bedingungen (i) − (iii)
für ’normierte alternierende Multilinearform’) eindeutig charakterisiert. Das setzt uns in die Lage, den
Entwicklungssatz zu beweisen.
Beweis des Satzes: Wenn die gesamte erste Zeile der Nullvektor ist, dann haben wir nichts zu
zeigen, die Formel ist dann offenbar richtig. Wir dürfen weiter annehmen, dass a11 = 0 ist, weil wir sonst
durch Spaltenvertauschung diese Eigenschaft erreichen, die wir anschließend wieder rückgängig machen
können. Das Cavalieri-Prinzip (Folgerung aus (i) − (iii)) ergibt dann mit A = (aij )1≤i,j≤n+1 :


a11
a12
···
a1,n+1
 a21
a22
···
a2,n+1 


det (A) = det 

..
..
..
..


.
.
.
.



= det 

an+1,1
a11
a21
..
.
an+1,1
an+1,2
···
an+1,n+1
0
a22 −
an+1,2 −
a12
a11 a21
..
.
a12
a11 an+1,1
···
···
..
.
···
0
a2,n+1 − a1,n+1
a11 a21
..
.
an+1,n+1 − a1,n+1
a11 an+1,1



,

136
5. LINEARE ALGEBRA
a12
wobei von der zweiten Spalte abgezogen wird:
· erste Spalte, usw., schließlich von
a11
a1,n+1
· erste Spalte. Aus der Leibnizformel ergibt sich nun unmittelbar
a11

a11
0
···
0
a1,n+1
a12
 a21
a
−
a
·
·
·
a
−
22
21
2,n+1
a11
a11 a21

det 
..
..
.
.
..
..

.
.
a
a12
an+1,1 an+1,2 − a11 an+1,1 · · · an+1,n+1 − 1,n+1
a11 an+1,1


a1,n+1
a12
a22 − a11 a21
···
a2,n+1 − a11 a21


..
..
..
= a11 det 
,
.
.
.
a1,n+1
a12
an+1,2 − a11 an+1,1 · · · an+1,n+1 − a11 an+1,1
weil für alle Permutationen σ mit σ (1) = 1 der Ausdruck sign (σ)
n+1
der n + 1. Spalte





aσ(j),j = 0 wird. Wir bezeichnen
j=1
−
→
−
→
ak
die n Spalten der letzten Matrix mit b 2 , ..., b n+1 , die Faktoren
für k = 2, ..., n + 1 mit λ, den ersten
a11
−
→
Spaltenvektor der ursprünglichen Matrix ohne seine erste Komponente mit b 1 . Dann lässt sich die letzte
Determinante so ausdrücken:
−
−
→ −
→
−
→
−
→
−
→ →
det b 2 − λ2 b 1 , b 3 − λ3 b 1 , ..., b n+1 − λn+1 b 1 .
Multilinear alternierendes Rechnen ergibt dann sofort:
−
→
−
→
→
−
→ −
−
→
−
→ det b 2 − λ2 b 1 , b 3 − λ3 b 1 , ..., b n+1 − λn+1 b 1
−
−
n+1
→ −
→
−
→
→(k) −
→(k)
−
→(k) λk det b 2 , b 3 , ..., b n+1 ,
= det b 2 , b 3 , ..., b n+1 +
k=2
wobei für 2 ≤ k, s ≤ n + 1 :
−
→
b s für s = k .
−
→
a 1 für s = k
Aber damit haben wir, weil a11 · λk = a1k für k = 2, ..., n + 1 :
−
−
→ −
−
→
−
→ →
→
−
→
a11 det b 2 − λ2 b 1 , b 3 − λ3 b 1 , ..., b n+1 − λn+1 b 1
−
→(k)
b s :=
−
n+1
−
→ −
→
−
→
→(k) −
→(k)
−
→(k) = a11 det b 2 , b 3 , ..., b n+1 +
a1k det b 2 , b 3 , ..., b n+1 .
k=2
Weiter gilt für alle k ≥ 2 :
−
−
→(k) −
→(k)
−
→(k) → −
→
−
→
det b 2 , b 3 , ..., b n+1 = (−1)k−1 det b 2 , b 3 , ..., b n+1 ,
−
→(k) −
→(k)
−
→(k) →
weil man genau k − 1 Spaltenvertauschungen benötigt, um die Spalte −
a 1 in b 2 , b 3 , ..., b n+1 nach
vorn ’durchzuschieben’. Mit a11 = (−1)2 a11 und (−1)k−1 = (−1)k+1 sowie der Bezeichnung
−
−
→ −
→(1) −
→(1)
−
→(1) →
−
→
b 2 , b 3 , ..., b n+1 := b 2 , b 3 , ..., b n+1
gewinnt man
−
n+1
−
→ −
→
−
→
→(k) −
→(k)
−
→(k) a11 det b 2 , b 3 , ..., b n+1 +
a1k det b 2 , b 3 , ..., b n+1
k=2
=
n+1
k=1
Aber
−
→(k) −
→(k)
−
→(k) (−1)k+1 a1k det b 2 , b 3 , ..., b n+1 .
−
→(k) −
→(k)
−
→(k) b 2 , b 3 , ..., b n+1 = A1,k für k = 1, ..., n + 1,
8.
DETERMINANTEN
137
wobei wie im Satz formuliert A1,k aus A entsteht durch Streichen der ersten Zeile und der k. Spalte.
Den allgemeinen Entwicklungssatz können wir nun ohne Mühe folgern:
F
9 (allgemeiner Entwicklungssatz). Man kann jede Determinante nach jeder Zeile oder
auch Spalte entwickeln, es gilt also für A = (aij )1≤i≤n+1,1≤j≤n+1 stets, wenn wir mit Aij die Matrix
bezeichnen, welche aus A durch Streichen der i. Zeile und j. Spalte entsteht:
det (A) =
det (A) =
n
j=1
n
i+j
aij det (Aij ) (Entwicklung nach der i. Zeile), und
i+j
aij det (Aij ) (Entwicklung nach der j. Spalte).
(−1)
(−1)
i=1
Man beachte, dass im zweiten Fall über i summiert wird. Das Vorzeichenschema der Vorfaktoren (−1)i+j
denke man sich wie folgt schachbrettartig:





+ − +
− + −
+ − +
.. .. ..
. . .
···
···
···
..
.



.

Beweis der Folgerung: Es ist nur die Entwickelbarkeit nach allen Zeilen zu zeigen, für die Spalten
folgt alles dann mit der bereits bewiesenen Formel det (A) = det AT . Es sei B = (bij )ij die Matrix,
welche aus A durch Vertauschen der i0 . Zeile (i0 > 1) mit der 1. Zeile entsteht. Also b1j = ai0 j , bi0 j = a1j ,
für i = i0 , 1 ist bij = aij . Dann haben wir
det (A) = − det (B) =∗ −
= −
n
n
(−1)1+j b1j det (B1j )
j=1
(−1)1+j ai0 j det (B1j ) .
j=1
Nun entsteht Ai0 j aus B1j , indem man die i0 − 1. Zeile von B1j ganz nach oben durchschiebt, wofür man
i0 − 1 Zeilenvertauschungen benötigt, also (−1)i0 −1 det (Ai0 j ) = det (B1j )
−
n
j=1
(−1)1+j ai0 j det (B1j ) =
n
(−1)i0 +j ai0 j det (Ai0 j ) .
j=1
8.3. Zur praktischen Berechnung von Determinanten. Rekursive Definition oder Leibnizformel empfehlen sich nicht, die unsägliche ’Sarrusformel’ für (3 × 3) schon gar nicht. Sie ergeben allzu viele
Terme, jedenfalls für n ≥ 3. Stattdessen kann man am besten das Cavalieriprinzip anwenden und zusätzlich Zeilen (Spalten) mit geeigneten Faktoren = 0 multiplizieren - dann muss man jedoch die Kehrwerte
dieser Faktoren vor die Determinante der neuen Matrix schreiben, um den Wert der ursprünglichen Determinante nicht zu ändern. Auf diese Weise betreibt man Zeilen- oder Spaltenumformungen wie gewohnt,
um Nullen zu schaffen und möglichst eine obere Dreiecksgestalt zu erzielen. Noch einmal die grundlegende
Formel dafür (die aufgezählten Vektoren können die Spaltenvektoren oder auch die Zeilenvektoren der
Matrix sein):
−
→ 1
−
→
→
→
→
det ...−
a , ..., b , ... = det ...−
a , ..., β b + λ−
a , ... für β = 0.
β
Dazu ein Beispiel mit Beschreibung der Schritte (αzi + βzj bedeutet: Zeile zi wird durch die bezeichnete
ersetzt):
138
5. LINEARE ALGEBRA

1 −2
1
 2
1
3
det 
 3
1
1
−2
2 −1


1
1
 0
3 
 = det 
 0
1 
1
0

1
 0
= det 
 0
0

1
 0
= det 
 0
0


−2
1
1
5
1
1 
 z2 − 2z1
7 −2 −2  z3 − 3z1
−2
1
3
z4 + 2z1

1
1 −2
1
1
5 
 Zwei Spaltenvertauschungen,
−2 −2
7 
Wert bleibt gleich
1
3 −2

1 1 −2
1 1
5 

0 0 17  z3 + 2z2
0 2 −7
z4 − z2

1 1 1 −2
 0 1 1
5 

= − det 
 0 0 2 −7  Eine Zeilenvertauschung,
Wert kehrt sich um
0 0 0 17
= −34.
In diesem Beispiel wurde die Kompensation für Faktoren, welche an der zu verändernden (!) Zeile angebracht werden, nicht benötigt. Dagegen wird man gesehen haben, dass die Vertauschungen von Spalten
und einmal Zeilen sehr praktisch waren. Zur Verwendung der allgemeineren Zeilenumformungen folgendes
Beispiel:




2
4
5
2
4
5
1
1
det  3 −3 −2  =
· det  0 −18 −19  2z2 − 3z1
2 2
−5
7
3
0
34
31
2z + 5z
3
=
1
1
· 2 (−18 · 31 + 34 · 19) = 44
4
Hier wurde nicht zu Ende bis zur Dreiecksgestalt umgeformt, sondern nach Schaffen der beiden
Nullen nach der ersten Spalte entwickelt. Man sah: durch die Zeilenumformungen wird der Wert der
Determinante jeweils mit 2 multipliziert, dafür 12 · 12 vorgesetzt, um das Resultat nicht zu ändern.
Zuweilen ist auch folgendes Resultat praktisch (’Blockmatrizen’): In der Bezeichnung bedeuten A
und C quadratische Matrizen (nicht notwendig gleicher Dimension), C und die Nullmatrix passend, so
dass insgesamt eine quadratische Matrix entsteht:
A B
= det (A) det (C) .
det
0 C
Beispiel:

1
 −3
det 
 0
0

2
5 7
4
8 9 
1 2
−2 3
 = det
det
= −110.
0 −2 3 
−3 4
1 4
0
1 4
8.4. Cramersche Regel. Es ist mittels der Determinante möglich, eine explizite Formel für die
−
→
→
→
Lösung −
x eines linearen Gleichungssystems A−
x = b mit invertierbarer Matrix A anzugeben, das ist
der Inhalt der folgenden Cramerschen Regel:
−
→
→
→
S 70. Sei A invertierbar, −
x die eindeutige Lösung von A−
x = b . Dann ist mit den Matrizen Bi ,
−
→
bei denen die Spalten dieselben wie bei A sind, nur die i. Spalte durch den Vektor b ersetzt:
→
→
xi = −
x−
ei =
det (Bi )
.
det (A)
9.
EIGENW ERTE UND EIGENVEKTOREN; DIAGONALISIERUNG
139
−
→ −
Beweis: Wir haben b =
xi →
xi det (Ci ) , wobei Ci
a i , nun sei 1 ≤ i0 ≤ n. Dann det (Bi0 ) =
i=1
i=1
→
aus A dadurch entsteht, dass die i0 . Spalte durch −
a i ersetzt wird. Somit sind alle Summanden Null
bis auf den zum Index i0 (Auftreten zweier gleicher Spalten). Aber xi0 det (Ci0 ) = xi0 det (A) . Daher
det (Bi0 ) = xi0 det (A) .
Allerdings stellt diese Formel kein gutes Rezept für das praktische Lösen linearer Gleichungssysteme
dar, weil zumal im Falle höherer Dimensionen die Determinantenberechnungen viel Mühe machen.
9. Eigenwerte und Eigenvektoren; Diagonalisierung
Eine besonders einfache lineare Abbildung ist etwa
−
→
f : Rn →

Rn

1
0 0
−
→
→
→
x → A−
x =  0 −2 0  −
x.
0
0 3


1 0
0
Die Matrix A ist sofort invertierbar, die Inverse ist natürlich  0 − 12 0  . Das Lösen von Gleichungs1
0 0
3
→
→
→
systemen und Weiteres wären ebenfalls besonders einfach. Die Vektoren −
e 1, −
e 2, −
e 3 werden einfach auf
−
→
−
→
−
→
−
→
−
→
−
→
Vielfache abgebildet: A e 1 = 1 · e 1 , A e 2 = −2 e 2 , A e 3 = 3 e 3 . Damit sind 1, −2, 3 Eigenwerte von A
→
und die −
e i Eigenvektoren zu diesen Eigenwerten. So einfach geht es nicht immer, aber in wichtigen Fällen
kann man eine Basis von Eigenvektoren finden, so dass die Matrix der linearen Abbildung wenigstens
bezüglich dieser Basis die einfache Diagonalgestalt erhält. In einigen praktisch besonders wichtigen Fällen
hat man sogar eine Orthonormalbasis von Eigenvektoren. Wir definieren systematisch:
D
47. A = (aij )ij heißt Diagonalmatrix, wenn aij = 0 für i = j. Wir bezeichnen mit
Diag (λ1 , ..., λn ) die Diagonalmatrix mit λi als Eintrag aii , 1 ≤ i ≤ n.
−
→
D
48. Sei f : V → V linear, V Vektorraum über dem Körper K. Dann heißt λ ∈ K ein
−
→
−
→ →
−
→
→
→
→
Eigenwert von f , wenn es einen Vektor −
x ∈ V \ { 0 } gibt mit f −
x = λ−
x . Jeder solche Vektor −
x
−
→
heißt dann Eigenvektor zum Eigenwert λ von f .
Hinweis: Der Nullvektor wird auf sich selbst abgebildet, er wäre ’Eigenvektor’ zu jedem Eigenwert,
−
→ −
→
da λ 0 = 0 . Das bringt nichts, und darum wird der Nullvektor völlig aus der Betrachtung ausgeschlossen,
wenn es um die Existenz von Eigenwerten geht. Wir haben folgende
−
−
→
→ →
→
→
B
6. Ist λ ein Eigenwert von f , so bildet −
x ∈V f −
x = λ−
x einen Unterraum von
−
−
→
→
V, den sogenannten Eigenraum zum Eigenwert λ von f , den man auch mit Eλ f bezeichnet. Dieser
−
→
−
→
Raum hat mindestens Dimension 1, da er einen Vektor = 0 enthält. f hat Eigenwert Null genau dann,
−
→
wenn der Kern von f nichttrivial ist, und dann ist der Kern der Eigenraum zum Eigenwert Null.
−
→ →
−
→ →
−
→ → −
→
→
Die Begründung ist sehr einfach: Mit f −
x = λ−
x und f −
y = λ−
y hat man f −
x +→
y =
→ −
→
−
→ →
−
→ →
−
→
−
→
→
→
λ −
x +→
y und f α−
x = λ α−
x . Weiter bedeutet f −
x = 0−
x mit −
x = 0 , dass der Kern von f
nichttrivial ist.
D
49 (und
Bemerkung). Eine lineare Abbildung heißt diagonalisierbar,
wenn es eine Basis
−
−
→
→ →
→
a gibt, so dass Maa f eine Diagonalmatrix ist. Dann gilt mit Maa f −
e j = λj −
e j , dass a eine
−
→
−
→
Basis von Eigenvektoren ist. Umgekehrt: Wenn es eine Basis a von Eigenvektoren von f gibt, so ist f
diagonalisierbar.
−
−
→
→
S 71. Jeder Eigenwert von f ist Nullstelle von det f − λid . Dies Polynom heißt charakte−
→
ristisches Polynom von f . Konkret für Matrixabbildungen A : Rn → Rn oder auch Cn → Cn ist also
p (λ) = det (A − λE) mit der Einheitsmatrix E das charakteristische Polynom. Es hat höchstens n Nullstellen, wenn n die Dimension von V ist.
140
5. LINEARE ALGEBRA
→ −
−
→ →
−
→ →
→
−
→
→
→
Beweis: f −
x = λ−
x bedeutet f −
x − λid −
x = 0 , aber −
x = 0 wird für einen Eigenvektor
−
→
verlangt, so dass ein solcher also im Kern von f − λid liegt, der daher nichttrivial
ist für einen Eigenwert
−
−
→
→
λ. Anders gesagt: die Determinante der Abbildung f − λid ist Null. Da det f − λid = det (A − λE)
−
→
für jede f darstellende Matrix A und da det (A − λE) ein Polynom in λ vom Grade n = dim (V ) ist,
hat man höchstens n Nullstellen.
Es kann weniger Nullstellen geben, etwa darum, weil sie nicht im Körper liegen (so bei R), aber es
können auch Eigenwerte als mehrfache Nullstellen auftreten. So etwas kann Diagonalisierbarkeit verhindern. Wir erinnern an den Fundamentalsatz der Algebra: Jedes Polynom mit komplexen Koeffizienten
zerfällt über C in Linearfaktoren. Es fehlen in C also keine Nullstellen!
Man beachte stets: Wenn die Rede ist von einer Matrix mit komplexen Einträgen oder von einem
Polynom mit komplexen Koeffizienten, so ist damit auch der Spezialfall erlaubt, dass alle diese Zahlen
reell sind; denn R ist eine Teilmenge von C.
Wir benötigen für das Folgende die
−
→
−
→
Beobachtung: det (A) oder det f sind auch definiert für A ∈ Cn×n bzw. f : V → V linear
(genauer: C− linear), V endlichdimensionaler Vektorraum über dem Körper C, und zwar etwa durch
die Leibnizformel. Dabei bleiben alle algebraischen Eigenschaften bestehen, es ist an deren Begründung
→
→
a n ∈ Cn genau dann linear unabhängig, wenn
kein Wort zu ändern.
Insbesondere sind Vektoren −
a 1 , ..., −
−
→
−
→
det a 1 , ..., a n = 0.
Beispiele:
√
1 2
1.) A =
hat nur die komplexen Eigenwerte 1 ± j 2. Denn das charakteristische Polynom
−1 1
ist
1−λ
2
p (λ) = det
= (1 − λ)2 + 2 = λ2 − 2λ + 3, Nullstellen
−1 1 − λ
√
λ1,2 = −1 ± j 2.
Daher kann diese
Matrix über R nicht diagonalisierbar sein. Sie ist es aber über C.
1 −2
2.) B =
hat das charakteristische Polynom λ2 − 2λ − 1, wie man nachrechne, damit
−1
1
√
→
→
die Eigenwerte λ1,2 = 1 ± 2. Wir rechnen wiefolgtEigenvektoren dazu aus: Für A−
x = λ−
x ergibt sich
x
−
→
das Gleichungssystem, mit Ansetzen von x =
:
y
x − 2y
−x + y
= λx
= λy.
Nun erinnern wir uns, dass mit einem bereits festgestellten Eigenwert sofort klar ist, dass dies Gleichungssystem eine Gerade als Lösungsmenge hat, so dass man nur eine Gleichung zu betrachten braucht. Ferner
kann man für eine spezielle Lösung einfach x = 1 ansetzen. Das ergibt mit der ersten Gleichung:
√
1−λ
y =
, also für λ1 = 1 + 2 :
2
√
1√
y = −
2, für λ2 = 1 − 2 :
2
1√
y =
2.
2
Damit haben wir speziell die Eigenvektoren
√
1√
zum Eigenwert 1 + 2,
1
− 2
2 √
1
√
zum Eigenwert 1 − 2.
1
2 2
Die zugehörigen Eigenräume sind also die von diesen erzeugten eindimensionalen Unterräume (Ursprungsgeraden). Wir haben damit eine (nicht orthogonale !) Basis von Eigenvektoren, bezüglich der die Matrix
9.
EIGENW ERTE UND EIGENVEKTOREN; DIAGONALISIERUNG
141
√
−1 1√
1
1√
1
1 −2
1+ 2
0√
√
√
die Diagonalgestalt
=
an−1
1
− 12 2 12 2
− 12 2 12 2
0
1− 2
nimmt. Die Matrix B ist also über R diagonalisierbar. (Für symmetrische Matrizen stellen wir später fest,
dass es eine orthogonale Transformation zur Diagonalgestalt gibt. Das geht aber nur bei symmetrischen
Matrizen.) 1 1
2
3.) C =
hat charakteristisches Polynom (1 − λ) , also nur den einzigen Eigenwert 1. Aber
0 1
→
nur die Vielfachen von −
e 1 bilden E1 (C) . Also gibt es keine Basis von Eigenvektoren. Die algebraische
Vielfachheit des Eigenwertes ist 2, aber die geometrische Vielfachheit (= Dimension des Eigenraums ist
nur 1. So etwas bildet ein wesentliches Hindernis für Diagonalisierung, auch über C ist diese Matrix nicht
diagonalisierbar.
Wir wollen nunmehr die wesentlichen Verhältnisse allgemein feststellen:
B
7. Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. Eine lineare
Abbildung bildet ihre Eigenräume in sich selbst ab. Folgerung: Die geometrische Vielfachheit eines Eigenwertes, d.h. die Dimension des zugehörigen Eigenraums, kann höchstens so groß sein wie die algebraische
Vielfachheit des Eigenwertes (wie vielfache Nullstelle des charakteristischen Polynoms er ist).
−
→ →
Beweis: Seien λ1 , ..., λr paarweise verschiedene Eigenwerte von f , −
a i Eigenvektor zu λi , 1 ≤ i ≤ r.
Induktion über r: Für r = 1 stimmt die Aussage. Induktionsvoraussetzung: Die Aussage gelte für r. Seien
→
nunmehr −
a i Eigenvektoren zu λi , 1 ≤ i ≤ r + 1. Wären die Eigenvektoren linear abhängig, so hätte man
r
r
−
→
→
→
→
a r+1 =
µi −
µi λr+1 −
a i , also λr+1 −
a r+1 =
a i , andererseits
i=1
→
λr+1 −
a r+1
i=1
r
r
−
−
→ −
→ −
→
→
→
= f a r+1 = f
µi a i =
µi λi −
a i . Damit
i=1
r
i=1
→
µi λr+1 −
ai
=
r
i=1
→
µi λi −
a i.
i=1
→
→
a r laut Induktionsvoraussetzung)
Koeffizientenvergleich (mit der linearen Unabhängigkeit von −
a 1 , ..., −
−
→
−
→
ergibt µi λi = µi λr+1 für alle 1 ≤ i ≤ r. Mit a r+1 = 0 muss wenigstens ein µi0 ungleich Null sein.
Also λi0 = λr+1 . Das widerspricht aber der Voraussetzung, dass die Eigenwerte paarweise verschieden
−
→
→
seien. Zur zweiten Aussage: Jeder Eigenraum wird durch f in sich selbst abgebildet. Sei dann −
g die
−
→
−
→
Einschränkung von f auf diesen Eigenraum. Das charakteristische Polynom von g hat dann diesen
Eigenwert als einzige Nullstelle, deren algebraische Vielfachheit die Dimension dieses Eigenraums ist. Der
Eigenraum kann also keine höhere Dimension als diese Vielfachheit besitzen.
S 72. Eine reelle (n × n) − Matrix ist genau dann über R diagonalisierbar, wenn alle ihre Eigenwerte reell sind und die algebraische Vielfachheit eines jeden Eigenwertes ebenso groß ist wie seine
geometrische Vielfachheit (d.h. die Dimension des zugehörigen Eigenraums genau die algebraische Vielfachheit ist). Eine komplexe (n × n) − Matrix ist genau dann über C diagonalisierbar, wenn die algebraische Vielfachheit eines jeden Eigenwertes gleich seiner geometrischen Vielfachheit ist. Entsprechendes
gilt allgemeiner für lineare Abbildungen endlichdimensionaler Vektorräume über R bzw. C in sich.
Der Beweis ist einfach: Wenn die geometrische Vielfachheit jedes Eigenwertes gleich seiner algebraischen Vielfachheit ist, dann bildet man eine Basis von Eigenvektoren für den Gesamtraum, indem man
Basen der Eigenräume vereinigt. Das gilt mit der linearen Unabhängigkeit der Eigenvektoren zu verschiedenen Eigenwerten und damit, dass die Summe der Dimensionen der Eigenräume gleich der Dimension
des Gesamtraums ist.
Praktisches Vorgehen bei der Untersuchung auf Diagonalisierbarkeit:
1. Schritt: Man stellt das charakteristische Polynom auf und berechnet dessen Nullstellen. Sollten
komplexe Nullstellen dieses Polynoms bei reeller Matrix auftreten, so ist die Matrix jedenfalls nicht über
R diagonalisierbar, sie kann es dann noch über C sein.
142
5. LINEARE ALGEBRA
−
→
→
2. Schritt: Man löst das homogene lineare Gleichungssystem (A − λE) −
x = 0 . für alle Eigenwerte
λ von A (die nach dem 1. Schritt bekannt sind, samt deren algebraischen Vielfachheiten). Ordentliche
Berechnung der Lösungsmenge in parametrisierter Form erlaubt müheloses Ablesen einer Basis jeweils für
jeden Eigenraum. Nunmehr erkennt man mittels des vorigen Satzes, ob A diagonalisierbar ist (ob über
R oder C). Im positiven Falle ist man im Besitz einer Basis a von Eigenvektoren, so dass T −1 AT = D
eine Diagonalmatrix ist, wobei T = Tea .
Wichtige Bemerkung zur Praktikabilität des ersten Schrittes: Wir wissen, dass es ohnehin
nur für Polynomgrad bis 4 Formeln (mit vielen Wurzeln für n = 3, 4) zur Bestimmung der Nullstellen gibt
- und nur geben kann. Dabei sind die Fälle n = 3, 4 auch bereits im allgemeinen Fall äußerst mühevoll.
Also wird man für komplizierte Fälle numerische Arbeit mit dem Computer machen.
Hier zwei einfache Beispiele, wie man sie noch gut von Hand rechnen kann, dies Vorgehen zu illustrieren:
Erstes Beispiel:


3 0 0
A =  −5 4 0  .
5 0 1
Man hat hier sofort das charakteristische Polynom: p (λ) = (3 − λ) (4 − λ) (1 − λ) . Das ist sofort faktorisiert (man sollte nicht etwa ausmultiplizieren, wir wollen doch gerade nur die Nullstellen wissen (!)), wir
sehen also die drei verschiedenen reellen Eigenwerte sofort: 3, 4 und 1. Daraus folgt sofort, dass es eine
Basis von Eigenvektoren gibt, weil kein Eigenwert als mehrfache Nullstelle auftritt.
Mit Eigenvektoren
−
→
→
→
→
→
→
a 1 zu 3, −
a 2 zu 4, −
a 3 zu 1 hat die Matrix bezüglich der Basis a = −
a 1, −
a 2, −
a 3 also die Diagonalgestalt


3 0 0
−1
(Tea ) ATea =  0 4 0  .
0 0 1
Wir verzichten hier auf die Berechnun solcher Eigenvektoren (Übung für die Leser).
Zweites Beispiel:


3 0 0
B =  −5 4 0  .
5 0 4
Wie im vorigen Beispiel sieht man die Eigenwerte, wieder sind sie alle reell, aber es sind nur zwei, 3 und
4, letzterer kommt als doppelte Nullstelle. Entscheidend für die Frage der Diagonalisierbarkeit (ob über
R oder C - wenn die Matrix B nicht über R diagonalisierbar ist, so ist sie es auch nicht über C) ist hier:
Ist der Eigenraum E4 (B) zweidimensional oder nicht? Wir rechnen ihn aus:


x
−
→
−
→
−
→
B x = 4 x ergibt im Einzelnen mit x =  y  :
z
3x = 4x, also x = 0,
−5x + 4y = 4y, also y frei wählbar, ebenso z frei wählbar.
Beachten Sie: Die dritte Gleichung braucht man nicht mehr zu betrachten, sie folgt (das System in
homogen!) aus den ersten beiden, die beide nichttrivial und unabhängig sind. Das Resultat:
E4 (B) wird parametrisiert mit :
 
 
0
0
−
→
u (y, z) = y  1  + z  0  , y, z ∈ R.
0
1
−
→
−
→
−
→
Wir
 lesen
 also die Basis e 1 , e 2 für E4 (B) ab. Zur Übung kann man noch ausrechnen, dass a =
1
 5  ein Eigenvektor zum Eigenwert 3 ist. (Ihr Rechenergebnis für eine Basis von E3 (B) muss ein
−5
dieses
Vektors sein.) Also ist B diagonalisierbar, und wie üblich lesen wir bezüglich der Basis
Vielfaches
−
→
→
→
e 1, −
e 2, −
a die Matrix D = Diag (4, 4, 3) ab.
10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
143
Drittes Beispiel:


4 0 0
C =  −5 3 0  .
5 0 4
Das sieht sehr ähnlich aus wie B, es wurden nur die ersten beiden Diagonaleinträge vertauscht. Aber
Vorsicht: Wir rechnen wieder E4 (C) aus und erhalten die Bedingungen
−5x + 3y
5x + 4z
= 4y,
= 4z, also x = 0 und y = 0, z frei wählbar.
Man beachte: Die erste aufzustellende Gleichung ergibt hier 4x = 4x, sie entfällt hier also als trivial.
→
Daher bildet −
e 3 eine Basis für E4 (C) , und die Matrix C ist nicht diagonalisierbar.
Eine praktische Warnung: Wenn Sie nicht im Überblick ganz sicher sind, so schreiben Sie die zu
behandelnden homogenen Gleichungssysteme ordentlich hin und lösen sie schematisch mit Gaußverfahren.
Das sollten Sie insbesondere für die gegebenen Beispiele einmal tun, wenn Sie die oben angeführten
Bemerkungen zur schnellen Behandlung nicht ganz genau auf Anhieb verstanden haben. In rechnerisch
komplizierteren Beispielen wird das vielfach erforderlich sein.
10. Symmetrische Bilinearformen, deren Diagonalisierbarkeit, Klassifikation von
Quadriken
10.1. Symmetrische Bilinearformen, quadratische Formen und deren Matrixdarstellungen. Wir verfolgen das Thema der Diagonalisierbarkeit speziell weiter mit der Betrachtung symmetrischer reeller Matrizen.
Vorbemerkung: Man achte darauf, dass im Zusammenhang dieses Abschnittes mit B stets eine
symmetrische Bilinearform und nicht eine Matrix bezeichnet wird. Allerdings werden wir den Bilinearformen auch wieder Matrizen zuordnen und diese analog zum Fall der linearen Abbildungen bezeichnen
mit M a (B) (a für die gewählte Basis wie zuvor). B ist also ein geometrisches Objekt, B wirkt auf ein
Paar von Vektoren (nicht: Koordinatendarstellungen) und liefert dann eine reelle Zahl.
D
50. Eine Matrix A = (aij )ij ∈ Rn×n heißt symmetrisch, wenn aij = aji für alle 1 ≤
i, j ≤ n gilt, d.h. wenn AT = A gilt.
Dazu ist es jedoch günstig, ein wenig weiter auszuholen und nicht nur auf das positive Diagonalisierungsresultat direkt zu steuern. Denn solche Matrizen definieren interessante Objekte, die auch sonst
vorkommen und eigenständige Bedeutung und vielfältige praktische Anwendungen haben. Außerdem lässt
sich auch das spezielle Resultat durchaus besser verstehen im allgemeineren Rahmen. Schließlich werden
wir auch eine spezielle geometrische Anwendung kennenlernen, die Klassifikation von Quadriken.
Wir beginnen mit einer Beobachtung:
S 73. Jede symmetrische Matrix A ∈ Rn×n definiert eine symmetrische Bilinearform auf Rn ×Rn ,
auf folgende Weise:
n
× Rn →
R
B: R
−
.
→
→
→
→
x,−
y
→ −
x T A−
y
Dabei ist eine symmetrische
→ −
Bilinearform definiert als bilineare Abbildung mit der zusätzlichen Eigen→
→
schaft: B −
x,−
y =B −
y ,→
x .
Zum Verständnis wiederholen wir noch
die Gültigkeit folgender Formeln:
→ −
→
B −
x +→
y,−
a
→ −
→
B −
a ,→
x +−
y
→ −
B λ−
x,→
y
einmal die Eigenschaft der Bilinearität: Sie bedeutet für B
→ −
→ −
= B −
x,→
a +B −
y,→
a ,
→ −
→ −
= B −
a ,→
x +B −
a ,→
y ,
→ −
→ −
= λB −
x,→
y =B −
x , λ→
y .
Mit der Symmetrie würde es natürlich genügen, die Linearität nur in einem Eingabeschlitz zu verlangen.
Das sind also gerade die vom reellen Skalarprodukt her bekannten Eigenschaften. Nur fehlt die Forderung
144
5. LINEARE ALGEBRA
→ −
→ −
−
→
→
der positiven Definitheit. B −
x,→
x = 0 für −
x = 0 und sogar B −
x,→
x < 0 sind durchaus erlaubt und
→
kommen auch wirklich vor, für irgendwelche Vektoren −
x . Allerdings hat man stets
−
−
→
−
→
→
→
→
→
B −
x, 0 = B −
x,0 · 0 = 0 ·B −
x , 0 = 0.
Der Beweis
−
→
→
B →
a ,−
x +−
y
→ −
B −
a , λ→
x
→ −
B −
x,→
y
→ −
B −
x,→
y
der Aussage des Satzes ist einfach:
→T −
→ −
→T −
→ −
→ −
→
→
→
→
x + A−
y =−
a A→
= −
aTA −
x +→
y =−
a A→
x +−
a T A−
x =B −
a ,→
x +B −
a ,→
y .
→
→ −
→
→
→
x = λ−
a T A−
x =→
a T λA−
x . Ferner zur Symmetrie:
= −
a T A λ−
→ −
→ −
T
−
→
→
−
→
−
→
T −
= x A y , also, da B x , y eine Zahl ist und somit B −
x,→
y = B −
x,→
y
:
−
T −
T −
−
→
→
→
→
−
→
→
−
→
→
→
−
→
T −
T T−
TT
T T−
= x Ay
= y A x
= →
= B x, y
y A x = B y, x .
→
−
−
A=AT , x T T = x T
Mit der Symmetrie folgt auch die Linearität im ersten Eingabeschlitz, so dass insgesamt auch die Bilinearität bewiesen ist.
Umgekehrt kann man auch jede symmetrische Bilinearform auf Rn × Rn auf die angegebene Weise
durch eine symmetrische Matrix A darstellen. Denn wie eine lineare Abbildung durch die Angabe der
Bilder einer Basis eindeutig bestimmt wird, so auch eine bilineare Abbildung durch die Angabe
der
→ −
Bilder
e i, →
e j für alle
von allen Paaren von Basisvektoren. Definiere dann einfach A = (aij )ij mit aij := B −
i, j, bei
Bilinearform.
Tatsächlich hat man dann mit der Bilinearität von B für alle Vektoren
→
vorgegebener
→
−
→
→
x = xi −
y = yi −
e i und −
e i:
i
i

y1
→ −
→ −
 →T −

B −
x,→
y =
x A→
xi yj B −
e i, →
ej =
xi yj aij = (x1 , ..., xn ) A  ...  = −
y.
i,j
i,j
yn
xi yj aij . Bei
Hier sieht man auch den allgemeinen Rechenausdruck einer Bilinearform in Koordinaten:
i,j
der vorausgesetzten Symmetrie der Matrix A ist das gleich
(xi yj + yj xi ) aij + xi yi aii . Wir sagen
i<j
i
−
→
daher auch, weil A die Bilinearform B bezüglich der Basis e = →
e 1 , ..., −
e n darstellt:

M e (B) = A, d.h. A stellt B bezüglich der Basis e dar.
→ −
Man erhält M e (B) also einfach
dadurch,
dass man als Eintrag aij setzt: B −
e i, →
e j . Ebenso für jede
→
→
andere Basis a: M a (B) = B −
a i, −
a j ij .
→ −
→
→
→
Anwendung einer Bilinearform auf −
x =−
y ergibt eine Abbildung −
x → B −
x,→
x , die einen eigenen
Namen hat:
D
51. Eine quadratische Form auf Rn ist eine Abbildung
q: Rn
−
→
x
→
R →
,
→
→ B −
x,−
x
mit einer Bilinearform B. Also mit irgendwelchen Zahlen aij = aji :
→ →
→
→
→
→
→
q −
x =
xi xj aij = −
x T A−
x , für −
x =
xi −
e i und −
y =
yi −
e i.
i,j
i
→
→
Die Matrix A stellt dann die Form q bezüglich der Basis e = −
e 1 , ...−
e n dar.
i
Bemerkung: Man kann B aus q zurückgewinnen, was nur darauf beruht, dass 1 + 1 = 2 = 0, was
für alle Körper gilt, die nicht gerade aufbauend auf dem Körper {0, 1} mit 1 = 0 und 0 + 1 = 1 + 0 = 1
und 1 + 1 = 0, 1 · 0 = 0 · 1 = 0, 1 · 1 = 1 gebildet sind.
Wir sagen auch: M e (q) = M e (B) = A = (aij )ij mit der symmetrischen Matrix A.
Hier sehen wir, dass die Frage der Diagonalisierbarkeit von A (und diese ist positiv zu beantworten!)
auch für symmetrische Bilinearformen und quadratische Formen interessant ist. Denn sie bringt durch
Koordinatentransformation
alle gemischten Terme xi yj aij bzw. xi xj mit i = j zum Verschwinden! Es
bleibt also nur noch
xi yi aii für die symmetrische Bilinearfom und
x2i aii für die quadratische Form
übrig.
i
i
10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
145
10.2. Koordinatentransformation bei Bilinearformen. Die entscheidende Einsicht rührt nunmehr daraus, die Koordinatentransformation einer Bilinearform bzw. quadratischen Form zu betrachten
und mit der Koordinatentransformation einer linearen Abbildung - eine symmetrische Matrix stellt auch
eine solche dar! - zu vergleichen. Dazu haben wir den
S 74. Für eine symmetrische Bilinearform B und entsprechend für die zugehörige quadratische
Form gilt folgende Transformationsregel:
T
M b (B) = Tab M a (B) Tab .
Bemerkung 1: Die Formel gilt auch für beliebige (unsymmetrische) Bilinearformen, der Beweis wird
auch dies zeigen. Die Formel gilt für jede Transformationsmatrix Tab , also auch für nichtorthogonale (und
dann ist die Transponierte nicht die Inverse (!)).
Bemerkung 2: Das Transformationsgesetz ist völlig anders als bei linearen Abbildungen, aber wenn
T eine orthogonale Matrix ist, dann stimmen beide Gesetze ein: Diagonalisieren der Matrix A = M a (B)
als Matrix einer linearen Abbildung ist dann dasselbe wie Diagonalisieren der Matrix Matrix einer symmetrischen Bilinearform.
Beweis: Sei Tba wie immer die Matrix, welche eine Koordinatendarstellung eines Vektors bezüglich
−
−
→
→
a in die bezüglich b umwandelt. Wir wissen, dass mit b j =
a i λij gilt: Tba = (λij )ij . Sei M a (B) =
i
−
T
→
B →
a i, −
a j ij = (aij )ij . Wir bezeichnen mit λTij die Zahl λji , so dass λTij genau die Zahl in Tab in
−
→ −
→ :
der i. Zeile und j. Spalte ist. Dann haben wir mit M b (B) = B b r , b s
rs
−
→ −
→ −
→
B b r, b s =
λir λjs B −
a i, →
aj =
λTri aij λjs .
i,j
i,j
b
Links steht der Eintrag in Zeile r und Spalte s von M (B) , rechts der Eintrag Zeile r und Spalte s
T
von Tab M a (B) Tab . Damit ist die behauptete Gleichung mit Indexkalkül nachgerechnet. Wir
→können
→
→
→
die Sache aber auch so verstehen: Sei A = M a (B) . Dann hat man mit Vektoren −
x,−
y: B −
x,−
y =
−1 −
T −1 −
→ −
→a T −
→
→
→
→
A L
A →
ya .
L
x
y , also mit übersichtlicherer Notation −
x a für L−1 −
x :B →
x,−
y = −
x
a
Nun ist aber
a
a
−
−
→
→b
−
→
→
b−
y a = L−1
y = Tab L−1
a
b y = Ta y . Also auch
−
→b T −
T
T b T
→
xa
= Tab −
x
= →
xb
Ta . Damit
−
−
T b T
T
→
−
→
→
→
−
→
−
→
B x, y
=
xa A ya = xb
y b .
Ta ATab −
Das Transformationsgesetz ist völlig anders als bei linearen Abbildungen. Das liegt daran, dass eben zwei
Eingabe- Koordinatenvektoren zu transformieren sind und im ersten Schlitz bei der Matrixform eben
ein transponierter Koordinatenvektor, der wie gesehen mit der transponierten Transformationsmatrix
umzuwandeln ist. Nehmen wir aber nunmehr an, dass Tba eine orthogonale Matrix ist: Dann ist die
Inverse die Transponierte, also stimmen in diesem Falle beide Transformationsgesetze überein! Wenn es
gelingt, eine symmetrische Matrix zu diagonalisieren mit einer orthogonalen Transformationsmatrix, dann
hat man auch die zugehörige Bilinearform und quadratische Form diagonalisiert. Dies Resultat wollen
wir nunmehr aufstellen.
10.3. Diagonalisierbarkeit reeller symmetrischer Matrizen über R.
S 75. Eine reelle symmetrische Matrix A ∈ Rn×n hat nur reelle Eigenwerte, und es gibt eine
Orthonormalbasis von Eigenvektoren, so dass mit der Matrix S, welche diese als Spaltenvektoren hat,
Folgendes gilt:
D = S −1 AS = S T AS ist Diagonalmatrix.
Dabei ist D = Diag (λ1 , ..., λn ) , wobei alle λi Eigenwerte von A sind, aber auch Wiederholungen vorkommen, gemäß den algebraischen Vielfachheiten.
→ −
→
→
→
→
Beweis: Da A symmetrisch ist, hat man −
x · A−
y = A−
x ·→
y für alle −
x,−
y ∈ Rn . Aber wir wollen
−
→
−
→
noch etwas mehr: Für Vektoren x , y ∈ Cn gilt sogar:
2−
3 2 → −
3
2→ −
3
→
→
x , A−
y = A−
x,→
y , mit dem Standard-Skalarprodukt −
x,→
y auf Cn .
146
5. LINEARE ALGEBRA
Denn
2−
3
→
→
x , A−
y
=
xi yj aij =
xi yj aij
i,j
i,j
i,j
i,j
2 −
3
→
A→
x,−
y
=
aij xj yi =
aji xj yi (letztere Gleichung mit aij = aji .
Die Summen sind gleich, nur die Indexbezeichnungen sind ausgetauscht. Sei nun λ ein Eigenwert von A,
−
→
→
x ein Eigenvektor dazu, λ und −
x könnten komplex sein (!). Dann hat man:
2−
3
2→ −
3
2→ −
3
→
→
x , A−
x
= −
x , λ→
x =λ −
x,→
x ,
2 −
3
2 → −
3
2→ −
3
→
A→
x,−
x
= λ−
x,→
x =λ −
x,→
x .
2→ −
3 2 → −
3
2→ −
3
Nach dem Vorigen gilt −
x , A→
x = A−
x,→
x , also ist mit −
x,→
x > 0 notwendig λ = λ. Somit ist jeder
Eigenwert reell.
Nunmehr zeigen wir, dass Eigenvektoren für verschiedene Eigenwerte von A senkrecht aufeinander
→
stehen. Seien also λ = µ zwei verschiedene (notwendig reelle) Eigenwerte von A und −
x Eigenvektor zu
−
→
λ, y Eigenvektor zu µ. Man hat:
2→ −
3
2→ −
3
2→ −
3 2 → −
3 2 → −
3 2→ −
3 2→ −
3
x,→
y =µ −
x,→
y .
λ −
x,→
y = λ−
x,→
y = A−
x,→
y = −
x , A→
y = −
x , µ→
y =µ −
2→ −
3
→
→
Mit λ = µ ist das nur möglich, wenn −
x,→
y = 0. Bemerkung: Da −
x,−
y ohnehin in Rn sind, kann man
dasselbe2 auch einfacher
3 2→ mit
3dem reellen Skalarprodukt machen. Es ging darum, die ’Hinüberwälzeigen→
→
→
schaft’ A−
x,−
y = −
x , A−
y als die allein entscheidende hervorzuheben.
Wir kommen zum letzten Punkt, dass auch keine algebraische Vielfachheit eines Eigenvektors größer
als die geometrische (die Dimension des zugehörigen Eigenraums) sein kann: Sei λ ein Eigenwert von A,
−
→
−
→
mit algebraischer Vielfachheit k. Wir wählen eine Orthonormalbasis b 1 , ..., b r für Eλ (A) und ergänzen
−
→
−
→
diese mit c 1 , ..., c s zu einer Orthonormalbasis von Rn (’orthonormal’ auf das reelle Standardskalarproa
e
a T
dukt bezogen). Nennen wir diese ganze Basis a. Dann
−
ist S = Te orthogonal, somit Ta = (Te ) . Daraus
→
−
→ −
→
−
→
folgt für die Darstellung von f x = A x : Maa f = S T AS. Man rechnet sofort nach, dass mit A
T
auch diese Matrix wieder symmetrisch ist: S T AS
= S T AT S T T = S T AS.
Nun beginnt die Matrix
−
→ −
→ −
→
T
r×r
S AS links oben mit einer Diagonalmatrix Diag (λ, ...λ) ∈ R . Denn f b j = λ b j , 1 ≤ j ≤ r.
Damit sind aber auch alle Einträge in den ersten r Spalten von S T AS Null, außer λ in der Diagonalen.
Aus der Symmetrie von S T AS folgt damit, dass auch die Einträge in den ersten r Zeilen außerhalb der
Hauptdiagonalen Null sind. Daher ist S T AS und somit S T AS − µE eine Blockmatrix:


λ−µ
0
0


.
0 

0 ..
0
S T AS − µE = 
,


0
0 λ−µ
0
B
und man hat
det (A − µE) = det S T AS − µE = (λ − µ)r · det (B) .
det (B) ist ein Polynom in µ vom Grade n − r, und λ ist keine Nullstelle davon. Daraus folgt: r ist auch
die algebraische Vielfachheit der Nullstelle λ von det (A − µE) .
10.4. Quadriken und deren Klassifikation mittels Hauptachsentransformation.
D
52. Eine Quadrik ist die Lösungsmenge einer Gleichung
→ −
−
→
q −
x +→
x T b = c,
−
→
mit einer Konstanten c, einem festen Vektor b ∈ Rn und einer quadratischen Form q auf Rn . Ausführlicher mit der Darstellung von q über eine symmetrische Matrix A ∈ Rn×n lautet die Gleichung:
−
→ →
−
→
→
x T A−
x + bT−
x = c.
10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
147
−
→ →
Wir stellen die Behandlung des Terms b T −
x noch zurück und betrachten also nur Gleichungen
→
−
→
x = c. Eine solche Gleichung in Normalform zu bringen und damit die definierte Quadrik zu klasx T A−
sifizieren, bedeutet gerade, die Matrix A zu diagonalisieren. Das kann nach dem vorigen Satz geschehen:
→
→
S 76. Jede Quadrikengleichung −
x T A−
x = c (A symmetrisch) kann in die Form gebracht werden:
T−
T →
S →
x D ST −
x = c.
Dabei ist S eine orthogonale Matrix, und S = Teb , entsprechend S T = Teb mit einer Orthogonalbasis b.
Diese Transformation heißt Hauptachsentransformation.
Beweis: Nach dem vorigen Abschnitt hat man mit einer orthogonalen Matrix S, also S −1 = S T :
D = S T AS, also A = SDS T .
Damit gilt:
→ T−
T →
→
→
−
→
x= S →
x =−
x T SDS T −
x D ST −
x .
x T A−
Bemerkung: Zu beachten ist, dass es hier darum geht, die Gleichung in den neuen Koordinaten wesentlich
→
→
einfacher zu formulieren, also −
x T A−
x in den neuen Koordinaten einfacher darzustellen. Daher S = Tbe
mit der neuen Orthonormalbasis b, und daher muss man gewöhnlich S als (Tbe )−1 bestimmen, was jedoch
einfach durch Transponieren geschieht.
Zur Anwendung: b sei eine Orthonormalbasis, mit der A diagonalisiert wird. Eine solche findet
man wie oben beschrieben: Eigenwerte von A, dann Orthonormalbasen für die Eigenräume, dann Zusammenfügen dieser Basen zu einer Orthonormalbasis des Gesamtraums. Nunmehr ist S T die Matrix Tbe . Sie
macht aus den alten Koordinaten bezüglich der kanonischen Basis der Einheitsvektoren die neuen Koordinaten bezüglich b. b stellt ein ’Hauptachsensystem’ dar. In diesen neuen Koordinaten lautet nunmehr
→
→
die Gleichung −
x T A−
x = c:
T
−
→
−
→
0
x D0
x = c,
→
→
0
mit −
x = S−
x . Somit lautet die Gleichung für die Quadrik in den neuen Koordinaten:
di x
)2i = c, mit D = Diag (d1 , ..., dn ) .
i
Es sind also die gemischten Terme verschwunden. Der Vorteil: Es ist nunmehr recht leicht, zu erkennen,
um welchen der Grundtypen von Quadriken es sich handelt, da die geometrische Deutung dieselbe bleibt,
gleichgültig, welches Orthonormalsystem man wählt. Dabei zeigt sich, dass der Typ einer Quadrik wesentlich davon bestimmt wird, wie viele Eigenwerte Null, wie viele positiv und wie viele negativ sind.
T
−
→
−
→
Allerdings spielt auch die Konstante c in der Gleichung 0
x D0
x = c eine Rolle, die aber einfach einzuse-
2
hen ist. Beispielsweise hat die Gleichung x2 +y
+z 2= 1 eine Kugeloberfläche als Lösungsmenge, dagegen
0
die Gleichung x2 + y 2 + z 2 = 0 nur den Punkt  0  als einzige Lösung, die Gleichung x2 + y2 + z 2 = −1
0
dagegen leere Lösungsmenge.
Beispiel:
Wir betrachten die Gleichung x2 − xy + y 2 = 1. Also q(x, y) = x2 + xy + y 2 . Dann liest man ab:
1 12
x
q (x, y) = x y
.
1
y
1
2
1 12
Wir bestimmen von der darstellenden symmetrischen reellen Matrix A =
die Eigenwerte:
1
2 1 √
√
1 12
1
−1
3
1
1
1
, das sind 2 und 2 , zugehörige Orthonormalbasis von Eigenvektoren ist 2 2
,2 2
.
1
1
1
1
2
Aber um die geometrische
Gestalt der Quadrik zu erkennen, benötigen wir nur die Eigenwerte: Jedenfalls
3
0
2
stellt
die Matrix der quadratischen Form bezüglich eines neuen Orthonormalsystems dar. Also
0 12
lautet in den neuen Koordinaten die Gleichung für die Quadrik:
3 2 1 2
x
) + y) = 1,
2
2
148
5. LINEARE ALGEBRA
√
und wir sehen, dass es sich um eine Ellipse handelt. Die Halbachsenlängen lauten: 2/3 und 2. Wenn
wir nunmehr die geometrische Punktmenge haben wollen, welche durch die alte Gleichung beschrieben
wird, so haben wir (Achtung!) die Matrix
1√
1 −1
2
1
1
2
auf die achsenparallele
Ellipse mit Mittelpunkt im Ursprung, x− Halbachsenlänge 2/3 und y− Halb√
achsenlänge 2 anzuwenden. Denn das neue Koordinatensystem ist das alte um π/4 entgegen dem Uhrzeigersinn gedreht.
2. Beispiel:
2
2
Aus √der Gleichung
eine Glei√ 2 x + xy − y = 1 wird mit geeigneter Koordinatentransformation
√
√
1
1
1
1
2
chung
5)
x
−
5)
y
=
1,
wie
man
allein
an
den
Eigenwerten
5,
−
5
der
darstellenden
Matrix
2
2
2
2
1
1
2
abliest. Daraus erkennt man, dass es sich um eine Hyperbel (mit zwei Ästen) handelt. Im
1
−1
2
neuen Koordinatensystem sieht sie so aus:
4
y
2
-4
0
-2
2 x
4
-2
-4
Im alten System ist sie wiederum gedreht:
4
y
2
-4
-2
0
2 x
4
-2
-4
3. Beispiel:
Die Gleichung x2 + y 2 − z 2 + 2xy − xz = 1 hat für die quadratische Form q (x, y, z) = x2 + y 2 − z 2 +
2xy − xz die Matrixdarstellung


1 1 − 12
0 .
A= 1 1
− 12 0 −1
Noch einmal zum direkten Ablesen: Die Koeffizienten bei x2 , y 2 , z 2 bilden die Einträge in der Hauptdiagonalen, die Hälfte (!) des Koeffizienten bei xy den Eintrag a12 = a21 , schließlich die Hälfte des Koeffizienten
bei xz die Einträge a13 = a31 , ebenso für yz und den Eintrag a23 = a23 (im Beispiel ist das Null). Wir
bestimmen die Eigenwerte: Numerisch finden wir mit dem Computer sofort zwei positive und einen negativen Eigenwert, was auf eine Grundgleichung in neuen Koordinaten der Form ax2 + by 2 − cz 2 = 1 mit
positiven a, b, c führt. Das ist ein einschaliges Hyperboloid.
10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
149
10.5. Die wichtigsten Quadriken im R3 und ihre Standardgleichungen. Man beachte, dass
in allen Fällen die grobe qualitative Gestalt nur von der Signatur und dem Feldwert auf der rechten Seite bestimmt wird. Außerdem mache man sich klar, dass eine andere Verteilung der Eigenwerte auf die
Achsen nur einen Achsenaustausch bedeutet und dass die nachfolgend beschriebenen Gebilde einerseits
in der Achsenrichtung (hier wurde die z− Achse jeweils dafür genommen) gestreckt oder gestaucht erscheinen sowie elliptische Querschnitte ausbilden können, wenn man andere Faktoren anbringt, welche
die Signaturen nicht ändern (also Faktoren > 0 jeweils bei x2 , y2 , z 2 , z). Ferner ist daran zu denken, dass
in allen Fällen die Flächen beschrieben werden durch die Gleichung, nicht etwa Körper.
Erster Fall: Kein Eigenwert ist Null. Die interessanten Beispiele sind:
Der (beidseitig unbeschränkte) Doppelkegel x2 + y2 - z2 = 0
(Signatur (2,1,0))
2
1.5
1
0.5
z
0
-0.5
-1
-1.5
-2
1.5
1
2
1.5
0.5
1
0
0.5
-0.5
0
-0.5
-1
-1
-1.5
-1.5
Ellipsoid ax2 + by2 + cz2 = 1, a,b,c>0
(Signatur (3,0,0))
z
0.5
2.5
0
2
1.5
1
-0.5
0.5
0
-0.5
0.5
-1
x
y
-1.5
0
-2
-0.5
-2.5
Im gezeichneten Beispiel sollte man speziell erkennen: a = 1, b = 19 , c = 4. Man beachte: Die Halbachsenlängen eines Ellipsoids erkennt man besser in der folgenden Form der Gleichung:
x 2
α
+
2 2
y
x
+
= 1,
β
γ
150
5. LINEARE ALGEBRA
dann sind sie einfach (der Reihe nach für die Achsen): α, β, γ. Andererseits hat man mit einer Diagonalmatrix, welche die quadratische Form darstellt, unmittelbar die Gleichung in der Form ax2 +by 2 +cz 2 = 1
oder allgemeiner ax2 + by2 + cz 2 = d, d > 0. Dabei sind a, b, c gerade die Diagonalelemente. Dann produziert man leicht die Halbachsenform. Die Zahl d bewirkt offenbar ein
√ Schrumpfen oder Strecken des
Ellipsoids. Multiplikation von d mit 2 bewirkt z.B. eine Streckung mit 2 (in allen Richtungen).
Einschaliges Hyperboloid x2 + y2 - z2 = 1
(Signatur (2,1,0))
6
4
2
z
0
-2
-4
-6
6
4
6
2
4
0
2
0
-2
-2
-4
-4
-6
-6
Zweischaliges Hyperboloid x2 + y2 - z2 = - 1
(Signatur (2,1,0))
3
2
1
z
0
-1
-2
-3
3
2
3
1
2
0
1
0
-1
-1
-2
-2
-3
-3
Zweiter Fall: Zwei Eigenwerte sind verschieden von Null, einer ist Null:
10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
151
Zylinder x2 + y2 = 1
Signatur (2,0,1)
1
0.8
0.6
0.4
z
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
1
0.5
0
-0.5
-1
-1
-0.8
-0.6
-0.4
-0.2
0.2
0
0.6
0.4
0.8
1
Allgemeiner ergibt sich mit Vorfaktoren ax2 +by 2 = 1 mit a, b > 0 ein elliptischer Zylinder. Dagegen
mit der Signatur (1,1,1) ein hyperbolischer Zylinder:
Hyperbolischer Zylinder x2 - y2 = 1
Signatur (1,1,1)
1
0.5
z
0
-0.5
-1
3
4
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
-4
152
5. LINEARE ALGEBRA
→
→
Die weiteren interessanten Beispiele erhält man nur über den Zusatzterm −
a T−
x:
Paraboloid x2 + y2 - z = 0
(Signatur (2,0,1))
9
8
7
6
z
5
4
3
2
1
0
2
2
0
0
-2
-2
Allgemeiner ergibt sich ein elliptisches Paraboloid mit Vorfaktoren a, b > 0 und der Gleichung
ax2 + by 2 − z = 0. Andere Feldwerte als Null führen offenbar zu keiner wesenlichen Veränderung, sondern
nur zu einer Verschiebung längs der z− Achse. Hier folgt noch das Gegenstück, das von der Signatur
(1, −1, 1) produziert wird mit linearem Zusatzterm, das hyperbolische Paraboloid:
Hyperbolisches Paraboloid x2 - y2 - z = 0
(Signatur (1,1,1))
10
8
6
4
z
2
0
-2
-4
-6
-8
-10
4
3
4
2
3
1
y
2
0
1
-1
0
-1
-2
-2
-3
-4
x
-3
-4
−
→
Erklärung: Setzt man y = 0, so erhält man eine Parabel (- Kurve) mit Minimum in 0 . Setzt man x = 0,
−
→
so ergibt sich eine Parabel mit Maximum in 0 . In diesem Punkt liegt also ein Sattel der Fläche vor.
→
→
10.6. Die allgemeine Quadrikengleichung. Wir wollen betrachten, was der Zusatzterm −
a T−
x
in der allgemeinen Quadrikengleichung
→
→
→
→
x +−
a T−
x =c
(∗) −
x T A−
→
bewirken kann. A ist dabei wie zuvor eine reelle symmetrische (n × n) − Matrix, und −
a ist ein fester
−
→
−
→
−
→
−
→
Vektor aus Rn , a T x also dasselbe wie das Skalarprodukt a · x . c ist eine feste Zahl.
Zunächst stellen wir uns die Frage, wie die Gleichung (∗) nach Hauptachsentransformation aussieht.
10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN
153
Wir haben mit einer orthogonalen Transformationsmatrix S nach dem Resultat über symmetrische
reelle Matrizen:
D = S T AS, D Diagonalmatrix.
Damit gilt
−
→
→
A = SDS T , also mit 0
x := S T −
x:
T
→ 0
T
−
→
→
→
−
→
→
→
→
x T A−
x = −
x T SDS T −
x.
x = ST −
x D ST −
x =−
x D0
→
→
Nunmehr drücken wir auch −
a T−
x im neuen System aus. S T ist eine orthogonale Matrix, also haben wir:
→ T −
→T
−
→
→
→
→
a T−
).
x =−
a ·−
x = ST −
a · S →
x = ST −
a x
Somit lautet die Gleichung (∗) in den neuen Koordinaten:
T
→T
→
→
0
0
(∗∗) −
x D−
x + ST −
) = c.
a x
→T
) bei schon diagonalisiertem rein quadraEs ist also nur noch einzusehen, was der Zusatzterm S T −
a x
T
−
→
−
→
0
0
tischem Term x D x mit diagonaler Matrix D bewirken kann. Es handelt sich um zwei Effekte:
T
−
→
−
→
1.) Wenn ein Eigenwert Null bei D auftritt, also eine Komponente x
)i in 0
x D0
x nicht vorkommt, so
T−
T
→
→
kann sie durch S a x
) in die Gleichung hineinkommen, wenn eben die i. Komponente von S T −
a nicht
Null ist. Das haben wir etwa beim Übergang von der Zylindergleichung zur Gleichung eines Paraboloids
gesehen.
T
−
→
−
→
→
0
2.) Für die Komponenten von 0
x , welche in 0
x D−
x vorkommen, also nicht zu einem Eigenwert Null
→T
von D gehören, ergibt sich eine Verschiebung bzw. auch Streckung durch den Zusatzterm S T −
a x
), wenn
→
die i. Komponente von S T −
a nicht Null ist. Rechnerisch sieht man das so ein, dass man eine quadratische
Ergänzung für den Term in x
)i vornimmt. Wir zeigen das an einem einfachen Beispiel:
(Wir denken uns die Transformation zu (∗∗) bereits ausgeführt, schreiben aber bequemer x, y statt
x
), y). Die Gleichung laute dann
x
2
2
x + 2y + 2 −1
= 1, gleichwertig
y
x2 + 2y 2 + 2x − y
2
1
2
(x + 1) + 2 y −
4
= 1, quadratisches Ergänzen ergibt
=
17
.
8
Damit sehen wir: Es handelt sich um eine Ellipse, deren Mittelpunkt vom Ursprung weg verschoben ist.
Außerdem sind die Halbachsen nicht mehr dieselben wie bei x2 + 2y 2 = 1, sondern sie sind gestreckt.
Bringen wir die Gleichung noch auf endgültige Normalform, an der man alle Eigenschaften gut ablesen
kann, so kommt über
2
8
16
1
2
(x + 1) +
y−
= 1 heraus:
17
17
4
2 2
y − 14
x+1
+ 1√
= 1.
17/8
4 17
−1
Nunmehr ist abzulesen: Die Ellipse hat ihren Mittelpunkt in 5xM =
und x− Halbachsenlän1
4
√
√
17
1
1
2
2
ge
8 = 4 34 und y− Halbachsenlänge 4 17. Zuvor hatte man mit der Gleichung x + 2y = 1
√
Halbachsenlängen 1 und 12 = 12 2.
154
5. LINEARE ALGEBRA
11. Der Satz von Sylvester
Wir haben gesehen, dass der Typ einer Quadrik wesentlich bestimmt wird von der Anzahl der positiven und der negativen Eigenwerte sowie der Vielfachheit des Eigenwertes Null der definierenden Matrix.
Die Zusammenfassung dieser Information nennt man Signatur:
→ −
→
D
53. Sei A eine reelle symmetrische Matrix und q −
x =→
x T A−
x die zugehörige quadratische Form. Dann versteht man unter der Signatur von A bzw. q das Tripel (p, r, s) , wobei p die Anzahl
der echt positiven Eigenwerte von A (> 0), r die Anzahl der echt negativen Eigenwerte von A (< 0) und
s die Vielfachheit des Eigenwertes Null ist.
Zum Verständnis: Die Signatur kann man nach Diagonalisierung (die nach unserem Hauptresultat
stets möglich ist) ohne weiteres ablesen: p ist dann die Anzahl der Einträge auf der Hauptdiagonalen der
Diagonalmatix, welche > 0 sind, usw.
S 77 (von Sylvester). Sei A ∈ Rn×n eine reelle symmetrische Matrix. Sei Q ∈ Rn×n eine invertierbare Matrix. Dann haben A und QT AQ dieselbe Signatur.
Zum Verständnis: Man beachte, dass hier nicht vorausgesetzt wird, dass Q eine orthogonale Matrix
ist! Es könnte sich also bei den Spaltenvektoren von Q um ein beliebiges schwiefwinkliges System handeln.
Beweis: Wir wissen bereits, dass mit A auch QT AQ eine symmetrische Matrix ist. Ferner hat der
Kern in beiden Fällen gleiche Dimension, weil Q invertierbar ist. Schließlich wissen wir auch nach dem
Satz über das Transformationsverhalten von symmetrischen Bilinearformen, dass wir eine Bilinearform B
auf Rn ×Rn haben, von welcher A und QT AQ nur zwei verschiedene Matrizendarstellungen sind, bezüglich
zweier verschiedener Basen. Ferner können wir durch abermalige (nunmehr orthogonale!) Transformationen beide Matrizen (A und QT AQ) diagonalisieren. Also haben wir zwei Orthonormalbasen von Rn :
−
→
−
→ →
−
→
→
→
a 1 , ..., −
a p , b 1 , ..., b r , −
c 1 , ..., −
c s,
−
→
−
→
−
→
−
→
→
→
′
′
′
′ −
′
a 1 , ..., a p′ , b 1 , ..., b r′ , c 1 , ..., −
c ′s ,
wobei sie erste zur Diagonalisierung von A gehöre, die zweite zur Diagonalisierung von QT AQ. Und zwar
−
→
−
→
→
→
sollen die −
a 1 , ..., −
a p zu positiven Eigenwerten gehören, die b 1 , ..., b r zu negativen Eigenwerten und die
−
→
−
→
c 1 , ..., c s zum Eigenwert Null. Analog für die zweite Basis und die Eigenwerte von QT AQ. Daher:
(p, r, s) =
′
′
(p , r , s) =
Signatur von A,
Signatur von QT AQ.
Wir wissen bereits, dass die Blöcke zum Eigenwert Null gleich lang sein müssen. Was wir für den
Satz zu zeigen haben, ist: p = p′ und damit
auch q= q ′ . Für die erwähnte Bilinearform B gilt nunmehr:
−
→ −
−
→
−
→
→
B →
a i, −
a i = αi > 0 für 1 ≤ i ≤ p, B b j , b j = β j < 0 für 1 ≤ j ≤ r, B −
c k, →
c k = 0 für alle
−
→ −
→ −
→ 1 ≤ k ≤ s. Ferner B −
a i, →
a j = 0 für i = j, B b i , b j = 0 für i = j. Völlig entsprechend für die
−
→′ −
→ −
→ zweite Orthonormalbasis: B −
a i, →
a ′i = α′i > 0 für 1 ≤ i ≤ p′ , B b ′j , b ′j = β ′j < 0 für 1 ≤ j ≤ r′ ,
−
→′ −
→′ −
→ −
→ B −
c k, →
c ′k = 0 für alle 1 ≤ k ≤ s. Ferner B −
a i, →
a ′j = 0 für i = j, B b ′i , b ′j = 0 für i = j.
Wir zeigen nun:
−
→
−
→
−
→
→
a 1 , ..., −
a p , b ′1 , ..., b ′r′ ist ein linear unabhängiges System.
11. DER SATZ VON SYLVESTER
155
Setzen wir nämlich an:
p
→
λi −
ai+
i=1
B
p
B
i=1
−
→
µj b ′j
=
−
→
0 , so ist
i=1
p
→
λi −
ai
i=1
→
λi −
a i,
i=1
p
′
r
p
→
λi −
ai
→
λi −
ai
i=1
→
λi −
a i,
p
i=1
p
′
= −
r
i=1

= B −
=
p
i=1
′
λ2i αi
i=1
−
→
µj b ′j , also
=
r
′
r
i=1
−
→
µj b ′j , −

λ2i αi , B −
′
r
i=1
′
r
i=1

−
→
µj b ′j  . Aber
−
→
µj b ′j , −
′
r
i=1

r′
−
→
µj b ′j  =
µ2j β ′j , also
j=1
µ2j β ′j . Da nun alle αi > 0 und alle β j < 0, ist notwendig:
j=1
λi
= 0 für alle i, und µj = 0 für alle j.
Dies zeigt die behauptete lineare Unabhängigkeit. Daraus folgt aber:
p + r′ ≤ n − s, und somit p + r′ ≤ p′ + r′ = n − s. Also p ≤ p′ .
Andererseits hätten wir ebenso gut die Rollen beider Basen vertauschen und zeigen können: p′ ≤ p. Damit
haben wir insgesamt p = p′ und wegen p + r + s = n = p′ + r′ + s auch r = r′ . Daher sind die Signaturen
von A und QT AQ gleich.
Dieser Satz begründet die Möglichkeit, den Typ einer Quadrik auch bereits über eine nichtorthogonale
Transformation zu bestimmen.
11.1. Positiv definite und negativ definite symmetrische Matrizen. Es ist insbesondere bei
den symmetrischen Hessematrizen, welche in die Näherung 2. oder höherer Ordnung von Skalarfeldern
eingehen (vgl. Mathematik B) recht wichtig, folgende Eigenschaften symmetrischer Metrizen zu betrachten:
→
D
54. Eine reelle symmetrische Matrix A bzw. die zugehörige
quadratische Form q −
x =
−
→
→
→
→
→
→
x T A−
x bzw. auch die zugehörige symmetrische Bilinearform B −
x,−
y =−
x T A−
y heißt
−
→
→
→
→
x > 0,
positiv definit, wenn für alle −
x =
0 gilt: −
x T A−
−
→
−
→
−
→
→
T −
negativ definit, wenn für alle x = 0 gilt: x A x < 0.
Beispiele:
→
→
1.) Das Standardskalarprodukt hat die symmetrische Matrix E (Einheitsmatrix), und −
x T E−
x =
−
→
→
−
→
−
→
T−
2
x x = x · x , das ist in Koordinaten
xi und größer als Null, wenn wenigstens eine der Zahlen xi
i
ungleich Null ist. Das war gerade dieEigenschaft des Standardskalarproduktes, positiv definit zu sein.
1
0
→
→
2.) Die Matrix A =
ist weder positiv, noch negativ definit, weil −
e T1 A−
e 1 = 1 und
0 −1
−
→
→
T −
e 2 A e 2 = −1. Solche nennt
manauch ’indefinit’.
1 0
→
→
3.) Die Matrix A =
ist ebenfalls weder positiv, noch negativ definit, weil −
e T1 A−
e1 = 1
0 0
−
→
−
→
und e T A e = 0.
2
2
An den Beispielen bemerken wir, dass es bei Diagonalmatrizen sehr einfach ist, die Eigenschaft
positiver / negativer Definitheit abzulesen: Eine Diagonalmatrix ist offenbar genau dann positiv definit
[bzw. negativ definit], wenn sämtliche Einträge auf der Diagonalen größer sind als Null [bzw. kleiner
als Null]. Setzen wir unser Hauptresultat der Diagonalisierbarkeit symmetrischer reeller Matrizen ein, so
erhalten wir mit dieser einfachen Beobachtung folgenden
156
5. LINEARE ALGEBRA
S 78. Eine reelle symmetrische Matrix A (bzw. die zugehörige quadratische Form und Bilinearform) ist genau dann positiv definit [negativ definit], wenn alle Eigenwerte von A größer als Null [kleiner
als Null] sind.
Beweis: Wir haben mit einer orthogonalen Transformationsmatrix S: D = S T AS, mit einer Diagonalmatrix D, und dabei sind die Diagonaleinträge von D genau die Eigenwerte von A. Aber eine
Diagonalmatrix ist offenbar (s.o.) genau dann positiv definit [negativ definit], wenn alle Diagonaleinträge
größer sind als Null [kleiner als Null].
Tatsächlich kann man über die positive Definitheit einer symmetrischen Matrix auch entscheiden,
ohne Eigenwerte berechnen zu müssen, mit folgendem Jacobischem Kriterium:
S 79 (Jacobi-Kriterium für positive Definitheit reeller symmetrischer Matrizen). Es sei A ∈ Rn×n
symmetrisch, und es seien die Matrizen Ak für 1 ≤ k ≤ n die jeweiligen quadratischen Untermatrizen
aus Rk×k , welche aus A durch Streichen der letzten n − k Zeilen und Spalten entstehen, also
Ak := (aij )1≤i,j≤k mit A = (aij )1≤i,j≤n .
Dann gilt:
A ist positiv definit ⇐⇒ ∀1 ≤ k ≤ n : det (Ak ) > 0.
Bemerkung: Natürlich bekommt man die negative Definitheit einer symmetrischen reellen Matrix
B heraus über die (gleichwertige!) positive Definitheit von −B.
Beispiel zur Anwendung: Für


1 2 −1
A= 2 6
4 
−1 4 24
haben wir der Reihe nach:
det (A1 ) = det ((1)) = 1 > 0,
1 2
det (A2 ) = det
= 4 > 0,
2 6


1 2 −1
4 
det (A3 ) = det (A) = det  2 6
−1 4 24


1 0 0
= det  2 2 6  = 46 − 36 = 10,
−1 6 23
also ist A positiv definit, und oben steht die gesamte benötigte Rechnung, leicht von Hand zu machen. Man
beachte, wie mühsam die Berechnung der Eigenwerte hier gewesen wäre. Das charakteristische Polynom
ist χ (λ) = λ3 −31λ2 +153λ−10, und die Eigenwerte sind näherungsweise - ein Compteralgebraprogramm
liefert auch das bequem:


6. 624 677 8 × 10−2
,

6. 071 477
24. 862 276
tatsächlich alle > 0. Entsprechend ist −A eine negativ definite Matrix.
Herunterladen