Mathematik für Physiker I Steffen Fröhlich 20. Juli 2012 2 Inhaltsverzeichnis 1 Grundlagen 1.1 1.2 1.3 1.4 1 Elemente der mathematischen Logik . . . . . . . . . . . . . . . . . . 1 1.1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.2 Mathematische Aussagen . . . . . . . . . . . . . . . . . . . . 1 1.1.3 Quantoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.4 Beweismethoden . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1.5 Literaturnachweis . . . . . . . . . . . . . . . . . . . . . . . . 4 Elemente der Mengenlehre . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1 Cantors Mengendefinition . . . . . . . . . . . . . . . . . . . 5 1.2.2 Das Zermelo-Russell-Paradox . . . . . . . . . . . . . . . . . 6 1.2.3 Mengenrelationen und Mengenoperationen . . . . . . . . . . 6 1.2.4 Rechenregeln für Mengen . . . . . . . . . . . . . . . . . . . 7 1.2.5 Literaturnachweis . . . . . . . . . . . . . . . . . . . . . . . . 8 Zahlensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.1 Die Menge der reellen Zahlen . . . . . . . . . . . . . . . . . 8 1.3.2 Die arithmetischen Axiome . . . . . . . . . . . . . . . . . . 9 1.3.3 Folgerungen aus den arithmetischen Axiomen . . . . . . . . . 10 1.3.4 Die reellen Zahlen bilden einen Zahlenkörper . . . . . . . . . 11 1.3.5 Die Anordnungsaxiome . . . . . . . . . . . . . . . . . . . . 11 1.3.6 Folgerungen aus den Anordnungsaxiomen . . . . . . . . . . . 11 1.3.7 Das Vollständigkeitsaxiom . . . . . . . . . . . . . . . . . . . 12 1.3.8 Über den axiomatischen Aufbau . . . . . . . . . . . . . . . . 13 1.3.9 Literaturnachweis . . . . . . . . . . . . . . . . . . . . . . . . 14 Natürliche und ganze Zahlen . . . . . . . . . . . . . . . . . . . . . . 14 i INHALTSVERZEICHNIS ii 1.5 1.6 1.4.1 Definition der natürlichen Zahlen . . . . . . . . . . . . . . . 14 1.4.2 Das Prinzip der vollständigen Induktion . . . . . . . . . . . . 15 1.4.3 Die ganzen Zahlen . . . . . . . . . . . . . . . . . . . . . . . 16 1.4.4 Literaturnachweis . . . . . . . . . . . . . . . . . . . . . . . . 17 Die reellen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.5.1 Rationale Zahlen . . . . . . . . . . . . . . . . . . . . . . . . 17 1.5.2 Abbildungen zwischen Mengen . . . . . . . . . . . . . . . . 17 1.5.3 Die rationalen Zahlen sind abzählbar . . . . . . . . . . . . . 18 1.5.4 Existenz irrationaler Zahlen . . . . . . . . . . . . . . . . . . 19 1.5.5 Dualformdarstellung der reellen Zahlen . . . . . . . . . . . . 19 1.5.6 Die rationalen Zahlen liegen dicht . . . . . . . . . . . . . . . 21 1.5.7 Überabzählbarkeit der reellen Zahlen . . . . . . . . . . . . . 22 1.5.8 Literaturnachweis . . . . . . . . . . . . . . . . . . . . . . . . 23 Die komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.6.1 Historische Bemerkungen . . . . . . . . . . . . . . . . . . . 24 1.6.2 Der Körper der komplexen Zahlen . . . . . . . . . . . . . . . 25 1.6.3 Die Gaußsche Zahlenebene . . . . . . . . . . . . . . . . . . . 25 2 Lineare Algebra und Geometrie 2.1 2.2 2.3 2.4 29 Reelle und komplexe Vektorräume . . . . . . . . . . . . . . . . . . . 29 2.1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.1.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.3 Abstrakte Vektorräume und Beispiele . . . . . . . . . . . . . 30 2.1.4 Unterräume . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Basis und Erzeugendensysteme . . . . . . . . . . . . . . . . . . . . . 31 2.2.1 Linearkombinationen und lineare Hülle . . . . . . . . . . . . 31 2.2.2 Lineare Abhängigkeit und Unabhängigkeit . . . . . . . . . . 32 2.2.3 Basis und Dimension . . . . . . . . . . . . . . . . . . . . . . 33 Lineare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.3.1 Definition und erste Eigenschaften . . . . . . . . . . . . . . . 37 2.3.2 Drehungen und Winkelfunktionen . . . . . . . . . . . . . . . 38 Verknüpfung von linearen Abbildungen . . . . . . . . . . . . . . . . 44 2.4.1 Der Vektorraum L(V,W ) . . . . . . . . . . . . . . . . . . . . 44 2.4.2 Hintereinanderausführung von linearen Abbildungen . . . . . 44 INHALTSVERZEICHNIS 2.5 iii Die Dimensionsformel . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.5.1 Kern und Bild linearer Abbildungen . . . . . . . . . . . . . . 45 2.5.2 Injektive lineare Abbildungen . . . . . . . . . . . . . . . . . 46 2.5.3 Die Dimensionsformel . . . . . . . . . . . . . . . . . . . . . 46 Lineare Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . 48 2.6.1 Basisdarstellung . . . . . . . . . . . . . . . . . . . . . . . . 48 2.6.2 Matrixdarstellung linearer Abbildungen . . . . . . . . . . . . 49 2.6.3 Spezielle Matrizen . . . . . . . . . . . . . . . . . . . . . . . 50 Matrizenalgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.7.1 Matrix-Vektor-Multiplikation . . . . . . . . . . . . . . . . . 52 2.7.2 Summe und Vielfaches von Matrizen . . . . . . . . . . . . . 53 2.7.3 Produkte von Matrizen . . . . . . . . . . . . . . . . . . . . . 54 2.7.4 Weitere Rechenregeln für Matrizen . . . . . . . . . . . . . . 55 2.7.5 Die Algebra der quadratischen Matrizen . . . . . . . . . . . . 55 Vektorraumisomorphismen . . . . . . . . . . . . . . . . . . . . . . . 56 2.8.1 Invertierbare lineare Abbildungen . . . . . . . . . . . . . . . 56 2.8.2 Was sind Isomorphismen? . . . . . . . . . . . . . . . . . . . 57 2.8.3 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.8.4 Isomorphe Vektorräume . . . . . . . . . . . . . . . . . . . . 58 2.8.5 Der Rang linearer Abbildungen und Matrizen . . . . . . . . . 58 2.8.6 Charakterisierungssatz . . . . . . . . . . . . . . . . . . . . . 59 2.8.7 Inverse Matrizen . . . . . . . . . . . . . . . . . . . . . . . . 60 2.8.8 Die Inverse eines Produktes . . . . . . . . . . . . . . . . . . 60 Basistransformationen . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.9.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . 61 2.9.2 Die Transformationsmatrix . . . . . . . . . . . . . . . . . . . 61 2.9.3 Die Transformationsmatrix und lineare Abbildungen . . . . . 61 2.9.4 Transformationsverhalten . . . . . . . . . . . . . . . . . . . 62 2.9.5 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.10 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . 64 2.10.1 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . 64 2.10.2 Beispiel: Schnitt zweier Ebenen . . . . . . . . . . . . . . . . 64 2.10.3 Beispiel: Basisdarstellungen . . . . . . . . . . . . . . . . . . 65 2.10.4 Beispiel: Lineare Abhängigkeit und Unabhängigkeit . . . . . 65 2.6 2.7 2.8 2.9 INHALTSVERZEICHNIS iv 2.10.5 Allgemeine lineare Gleichungen . . . . . . . . . . . . . . . . 65 2.10.6 Wie viele Lösung gibt es? . . . . . . . . . . . . . . . . . . . 66 2.10.7 Lösungsstruktur linearer Gleichungen . . . . . . . . . . . . . 66 2.10.8 Zeilenrang gleich Spaltenrang . . . . . . . . . . . . . . . . . 67 2.10.9 Die Rangbedingung . . . . . . . . . . . . . . . . . . . . . . 68 2.10.10 Das Gaußsche Eliminationsverfahren . . . . . . . . . . . . . 69 2.10.11 Bestimmung der Inversen einer Matrix . . . . . . . . . . . . . 72 2.11 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.11.1 Multilinearformen und Determinantenformen . . . . . . . . . 73 2.11.2 Inneres Produkt, Vektorprodukt und Determinanten . . . . . . 74 2.11.3 Multilinearformen und lineare Unabhängigkeit . . . . . . . . 78 2.11.4 Hauptsatz über Determinanten . . . . . . . . . . . . . . . . . 79 2.11.5 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . 82 2.11.6 Die Cramersche Regel . . . . . . . . . . . . . . . . . . . . . 84 2.11.7 Lineare Abbildungen und Determinanten . . . . . . . . . . . 85 2.12 Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . 85 2.12.1 Problem der Diagonalisierbarkeit . . . . . . . . . . . . . . . 85 2.12.2 Der Eigenraum . . . . . . . . . . . . . . . . . . . . . . . . . 87 2.12.3 Lineare Unabhängigkeit der Eigenvektoren . . . . . . . . . . 87 2.12.4 Das charakteristische Polynom . . . . . . . . . . . . . . . . . 88 2.12.5 Algebraische und geometrische Vielfachheit . . . . . . . . . . 90 2.12.6 Summe und Produkte der Eigenwerte . . . . . . . . . . . . . 91 2.12.7 Diagonalisierbarkeit . . . . . . . . . . . . . . . . . . . . . . 91 2.12.8 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 2.13 Hauptachsentransformation . . . . . . . . . . . . . . . . . . . . . . . 96 2.13.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 2.13.2 Beschreibung vermittels Matrizen . . . . . . . . . . . . . . . 97 2.13.3 Über das Spektrum symmetrischer Matrizen . . . . . . . . . . 98 2.13.4 Hermitesches Skalarprodukt . . . . . . . . . . . . . . . . . . 99 2.13.5 Hauptsatz über reelle, symmetrische Matrizen . . . . . . . . . 100 2.13.6 Hauptachsentransformation in R2 . . . . . . . . . . . . . . . 2.13.7 Praxis der Hauptachsentransformation im R2 102 . . . . . . . . . 103 2.13.8 Klassifikation ebener Kegelschnitte . . . . . . . . . . . . . . 103 2.13.9 Hauptachsentransformation für Flächen zweiter Ordnung . . . 104 INHALTSVERZEICHNIS v 2.13.10 Klassifikation von Flächen zweiter Ordnung . . . . . . . . . . 105 2.13.11 Ausblick: Jordansche Normalformen . . . . . . . . . . . . . 107 2.13.12 Verwendete Literatur . . . . . . . . . . . . . . . . . . . . . . 107 3 Stetige Funktionen im Rm 109 3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 3.2 Folgen und Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 3.2.1 Eindimensionale Zahlenfolgen . . . . . . . . . . . . . . . . . 110 3.2.2 Topologische Eigenschaften höherdimensionaler Mengen . . . 116 Stetige Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . 119 3.3.1 Definition der Stetigkeit . . . . . . . . . . . . . . . . . . . . 119 3.3.2 Verknüpfungen stetiger Funktionen . . . . . . . . . . . . . . 120 3.3 0 n 3.3.3 Der normierte Raum C (Ω, R ) . . . . . . . . . . . . . . . . 121 3.3.4 Literaturnachweis . . . . . . . . . . . . . . . . . . . . . . . . 123 4 Differentialrechnung im R1 4.1 125 Reelle Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . 125 4.1.1 Der Begriff der Ableitung . . . . . . . . . . . . . . . . . . . 125 4.1.2 Differenzierbarkeit und Stetigkeit . . . . . . . . . . . . . . . 126 4.1.3 Verknüpfung differenzierbarer Funktionen . . . . . . . . . . . 127 Die reelle und die komplexe Exponentialfunktion . . . . . . . . . . . 129 4.2.1 Die Exponentialfunktion . . . . . . . . . . . . . . . . . . . . 130 4.2.2 Der hyperbolische Sinus und der hyperbolische Kosinus . . . 130 4.2.3 Die Winkelfunktionen Sinus und Kosinus . . . . . . . . . . . 132 4.2.4 Polarkoordinaten . . . . . . . . . . . . . . . . . . . . . . . . 134 Mittelwertsätze und Zwischenwertsätze . . . . . . . . . . . . . . . . 136 4.3.1 Der Zwischenwertsatz von Bolzano und Weierstraß . . . . . . 136 4.3.2 Der Satz von Rolle . . . . . . . . . . . . . . . . . . . . . . . 137 4.3.3 Der Mittelwertsatz von Cauchy . . . . . . . . . . . . . . . . 138 4.3.4 Der Mittelwertsatz der Differentialrechnung . . . . . . . . . . 139 4.4 Die Regel von de l’Hospital . . . . . . . . . . . . . . . . . . . . . . . 139 4.5 Die Taylorsche Formel in einer Veränderlichen . . . . . . . . . . . . 141 4.6 Maxima und Minima eindimensionaler Funktionen . . . . . . . . . . 145 4.2 4.3 5 Das eindimensionale Riemannintegral 149 INHALTSVERZEICHNIS vi 5.1 Einführung des Riemannintegrals . . . . . . . . . . . . . . . . . . . . 149 5.2 Kriterien zur Riemannintegrierbarkeit . . . . . . . . . . . . . . . . . 151 5.3 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 5.4 Eigenschaften Riemannintegrierbarer Funktionen . . . . . . . . . . . 153 5.5 Integration nach Darboux . . . . . . . . . . . . . . . . . . . . . . . . 155 5.6 Riemannintegrierbare Funktionen . . . . . . . . . . . . . . . . . . . 157 5.7 Der Fundamentalsatz der Differential- und Integralrechnung . . . . . 159 5.8 Partielle Integration und Substitution . . . . . . . . . . . . . . . . . . 161 5.9 Literaturnachweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 Kapitel 1 Grundlagen 1.1 Elemente der mathematischen Logik 1.1.1 Einleitung Mathematik basiert auf den Methoden und Erkenntnissen der Logik (z.B. Aussagenlogik, Prädikatenlogik) und der Mengenlehre (z.B. Axiomsystem nach Zermelo und Fraenkel). In den folgenden Abschnitten wollen wir aus diesen beiden Bereichen wichtige und grundlegende Elemente kennenlernen. Mathematik bedeutet Analysis mathematischer Aussagen, wie z.B.: Die Zahl 3 ist eine Primzahl. Die Zahl 4 ist eine Primzahl. Es gibt unendlich viele Primzahlzwillinge. Die erste Aussage ist richtig, die zweite Aussage ist falsch; über den Wahrheitsgehalt der dritten Aussage können wir zum heutigen Zeitpunkt noch nicht entscheiden, sind aber überzeugt, dass sie entweder wahr oder falsch ist. Die mathematische Logik ist zweiwertig. Oder mit anderen Worten: Eine Aussage ist entweder wahr oder falsch. Es gibt keine weitere Möglichkeit. Genau das ist der Inhalt des Satzes vom ausgeschlossenen Dritten. 1.1.2 Mathematische Aussagen Mathematische Aussagen bezeichnen wir im Folgenden mit kleinen Buchstaben a, b, c usw. Nach dem eben Gesagten können sie genau einen der beiden Werte annehmen entweder w (wahr) oder f (falsch). 1 KAPITEL 1. GRUNDLAGEN 2 Aussagen setzen wir durch folgende fünf Verknüpfungen miteinander in Beziehung ¬, ∧, ∨, →, ↔. In dieser Reihenfolge bedeuten diese Symbole: nicht, und, oder, folgt, äquivalent. Ihre aussagenlogischen Bedeutungen definieren wir in Form einer Wahrheitstabelle: a w w f f ¬a f f w w b w f w f ¬b f w f w a∧b w f f f a∨b w w w f a→b w f w w b→a w w f w a↔b w f f w Beispiel 1. Dieser Tabelle entnehmen wir z.B. die beiden Äquivalenzen a→b ↔ ¬a ∨ b sowie (a ↔ b) ↔ (a → b) ∧ (b → a). Diese abgeleiteten Ausdrücke ermöglichen es uns insbesondere, die Äquivalenz ↔ allein durch die Verknüpfungen ¬, ∧ und ∨ auszudrücken. Zukünftig werden wir statt ↔“ an geeigneter Stelle =“ schreiben, um die Formeln ” ” übersichtlicher zu gestalten. Im vorliegenden Beispiel heißt das also a → b = ¬a ∨ b, (a ↔ b) = (a → b) ∧ (b → a). Die runden Klammern geben dabei vor, in welcher Reihenfolge die logischen Verknüpfungen auszuführen sind. Lässt man sie weg, so gilt stillschweigend folgende Vereinbarung über deren Priorität: ¬, ∧, ∨, → und ↔ (von der höchsten zur niedrigsten). Beispiel 2. Wir benötigen später die Identität a ∧ (b ∨ c) = (a ∧ b) ∨ (a ∧ c). Zu ihrem Beweis stellen wir eine Wahrheitstabelle auf: a w w w w f f f f b w w f f w w f f c w f w f w f w f b∨c w w w f w w w f a ∧ (b ∨ c) w w w f f f f f a∧b w w f f f f f f a∧c w f w f f f f f (a ∧ b) ∨ (a ∧ c) w w w f f f f f Die Behauptung ergibt sich nach Vergleich der fünften mit der achten Spalte. 1.1. ELEMENTE DER MATHEMATISCHEN LOGIK 3 Aufgabe 1. Beweisen Sie die Identität a ∨ (b ∧ c) = (a ∨ b) ∧ (a ∨ c). Schließlich kommen wir zu folgenden wichtigen Negierungsregeln für ∧ und ∨. Satz 1.1. (de Morgansche Regeln der Aussagenlogik) Es gelten ¬(a ∧ b) = ¬a ∨ ¬b, ¬(a ∨ b) = ¬a ∧ ¬b. Aufgabe 2. Beweisen Sie diese Regeln mit Hilfe von Wahrheitstabellen. Aus allen diesen Regeln ziehen wir den Nutzen, weitere Identitäten ohne aufwendige Wahrheitstabellen zu beweisen. Betrachten Sie dazu als Beispiel die äquivalenten Umformungen ¬(a → b) = ¬(¬a ∨ b) = ¬¬a ∧ ¬b = a ∧ ¬b. Es gilt also ¬(a → b) = a ∧ ¬b. Aufgabe 3. Verifizieren Sie auf diese Art und Weise die Äquvivalenz ¬(a ↔ b) = (a ∧ ¬b) ∨ (b ∧ ¬a). 1.1.3 Quantoren Aussagenlogische Methoden genügen allein natürlich nicht, um Mathematik betreiben zu können. Wir werden es stets mit mathematischen Variablen verschiedenster Individuenmengen zu tun haben. Für ihre Beschreibung verwenden wir den Allquantor ∀ und den Existenzquantor ∃, und zwar wie folgt: ◦ ∀x ∈ X : p(x) bedeutet, dass für alle Elemente x aus der Individuenmenge X die Aussage p(x) wahr ist ◦ ∃x ∈ X : p(x) bedeutet, dass es ein Element x aus der Individuenmenge X gibt, für das p(x) wahr ist. Formeln dieser und ähnlicher Art gehören der sogenannten Prädikatenlogik an, auf die wir in ihrer Tiefgründigkeit (mehrstufiges Prädikatenkalkül und zugehörige Gödelsche Sätze) nicht eingehen. Es sei aber betont, dass sie die eigentliche Grundlage aller mathematischen Disziplinen bildet. Beispiel 3. Stetige Funktionen stehen im Zentrum der Analysis, und wir werden uns später mit ihnen sehr detailliert auseinander setzen. Wir sagen, eine Funktion f : Ω → R heißt stetig in einem Punkt x ∈ Ω, wenn gilt ∀ε > 0 ∃δ > 0 ∀y ∈ Ω : |x − y| < δ −→ | f (x) − f (y)| < ε . Diese Definition benötigt drei Quantoren, während Stetigkeit für alle x ∈ Ω bereits vier Quantoren erfordert. KAPITEL 1. GRUNDLAGEN 4 1.1.4 Beweismethoden Es gibt Aussageformen, die für jede Belegung w oder f in eine wahre Aussage übergehen, sogenannte Tautologien. Hier einige Beispiele: ◦ a ∨ ¬a (Satz vom ausgeschlossenen Dritten) ◦ ¬(¬a) → a (Satz von der doppelten Verneinung) ◦ (a → b) ∧ a → b (Satz zum modus ponens) ◦ (a → b) ∧ (b → c) → (a → c) (Satz zum modus barbara) ◦ ◦ ◦ ¬(a ∧ ¬a) (oder: [b → (a ∧ ¬a)] → ¬b) (Satz vom Widerspruch) (a → b) ↔ (¬b → ¬a) (a → b) ∧ ¬b → ¬a (Satz von der Kontraposition) (Satz zum modus tollens) Aufgabe 4. Verifizieren Sie, dass diese Aussagen tatsächlich Tautologien sind. Eine Tautologie bezeichnen wir auch als stets erfüllbar oder allgemeingültig, eine Aussage, deren Negation eine Tautologie ist, als nie erfüllbar. Tautologien sind für uns deswegen interessant, weil sie wichtige Beweisprinzipien der Mathematik liefern, wie z.B. ◦ den direkten Beweis: Folgt aus dem modus ponens, d.h. gilt a, und folgt b aus a, so gilt auch b; ◦ den indirekten Beweis: Folgt aus dem modus tollens, d.h. gilt ¬b, kann aber b aus a abgeleitet werden, so gilt ¬a und a ist falsch. Schließlich noch zwei Beweismethoden unter Verwendung der Quantoren ∃ and ∀ : ◦ ◦ ¬∀xp = ∃x¬p ¬∃xp = ∀x¬p Aufgabe 5. Überlegen Sie sich als Übung zu jeder Beweismethode ein Beispiel. 1.1.5 Literaturnachweis Für detaillierte und weiterführende Studien der hier vorgestellten Methoden und Techniken empfehlen wir ◦ Reinhardt, F.; Soeder, H.: dtv-Atlas Mathematik I ◦ Wolf, R.S.: A tour through mathematical logic ◦ Ziegler, M.: Mathematische Logik ◦ Zoglauer, T.: Einführung in die formale Logik für Philosophen 1.2. ELEMENTE DER MENGENLEHRE 5 1.2 Elemente der Mengenlehre 1.2.1 Cantors Mengendefinition G. Cantors Beträge zur Begründung der transfiniten Mengenlehre aus dem Jahre 1895 beginnen mit folgender Erklärung: Unter einer Menge“ verstehen wir jede Zusammenfassung M von be” stimmten wohlunterschiedenen Objekten m unsrer Anschauung oder unseres Denkens (welche Elemente“ von M genannt werden) zu einem Gan” zen. Eine Menge M lässt sich auf genau zwei Arten charakterisieren: ◦ durch Angabe ihrer Elemente m1 , m2 , m3 usw., in Zeichen M = {m1 , m2 , m3 , . . .} , wobei die Reihenfolge der Elemente nicht wichtig ist; ◦ durch Angabe einer ihr definierenden Eigenschaft, z.B. M = {x ∈ X : p(x)} , so dass die Menge M aus allen Elementen x einer Obermenge X besteht, in Zeichen x ∈ X, für welche die Eigenschaft oder Aussage p wahr ist. Wir werden beide Schreibweisen verwenden. Beispiel 4. 1. Die Menge M = {1} besteht aus dem einzigen Element 1. 2. Die Menge N = {1, 2, 3, . . .} bezeichnet die unendliche Menge der natürlichen Zahlen ohne Null, auf deren Konstruktion wir in Kürze detailliert eingehen. √ √ √ √ 3. Die Menge M = {0, 2, − 2} besteht aus den drei Elementen 0, 2 und − 2. Da diese Zahlen auch die einzigen Lösungen der algebraischen Gleichung x3 = 2x im Bereich der reellen Zahlen R sind, können wir M auch durch genau diese charakterisierende Eigenschaft angeben: √ √ M = {x ∈ R : x3 = 2x} = {0, 2, − 2} . 4. Die Menge M = 0, / die sogenannte leere Menge, besitzt nach Vereinbarung kein Element. Wir sprechen von einer endlichen Menge, falls die Anzahl ihrer Elemente eine endliche natürliche Zahl ist, wie im Beispiel {n ∈ N : 2n < n2 } = {3} , andernfalls sprechen wir von einer unendlichen Menge, z.B. {x ∈ R : sin x = 0} = {x : x = kπ , k ∈ Z} . KAPITEL 1. GRUNDLAGEN 6 1.2.2 Das Zermelo-Russell-Paradox Cantors Mengenlehre litt bereits von Beginn an unter gravierenden Inkonsistenzen. Denn, wie unabhängig voneinander Zermelo und Russell aufzeigen, wird Cantors Men” gendefinition“ insbesondere dann problematisch, wenn als Elemente einer Menge wieder Mengen zugelassen werden. Beide stellten nämlich die Frage nach der Menge M aller derjenigen Mengen A, die sich nicht selbst als Element enthalten, also M = {A : A 6∈ A} . Nach Definition dieser Menge ist dann aber M ∈ M genau dann, wenn M 6∈ M – ein offensichtlicher Widerspruch! Dieses Beispiel wurde später in folgender Interpretation bekannt: In einer Stadt gibt es einen Barbier, der nur die Männer rasiert, die sich nicht selbst rasieren. Wer rasiert aber dann den Barbier? Die heutige Mathematik basiert auf einer, die ursprünglichen Ideen von E. Zermelo und A. Fraenkel weiterführenden axiomatischen Mengenlehre, in welcher solche Widersprüche durch sogenannte Regularitätsaxiome“ ausgeschlossen werden. Wir wer” den hierauf nicht eingehen, sondern berufen uns auf unser intuitives Verständnis“ des ” Mengenbegriffs. 1.2.3 Mengenrelationen und Mengenoperationen Wir stellen in diesem Paragraphen stichpunktartig die grundlegenden Relationen und Operationen zwischen Mengen zusammen. Seien also A und B zwei beliebige Mengen. ◦ Mengenrelationen A = B A ist gleich B x ∈ A ⇐⇒ x ∈ B A ⊆ B A ist Teilmenge von B x ∈ A =⇒ x ∈ B A ⊂ B A ist echte Teilmenge von B A ⊆ B ∧ A 6= B Die Mengengleichheit können wir offenbar auch so auffassen A=B genau dann, wenn A ⊆ B und B ⊆ A, und genau auf dieser Auffassung basieren alle Beweise zu Mengengleichheiten! ◦ Vereinigung, Durchschnitt, Differenz A ∪ B A vereinigt mit B A ∩ B A geschnitten mit B A \ B A weniger B {x : x ∈ A ∨ x ∈ B} {x : x ∈ A ∧ x ∈ B} {x : x ∈ A ∧ x ∈ 6 B} ◦ Kartesisches Produkt A × B = {(a, b) : a ∈ A, b ∈ B}. 1.2. ELEMENTE DER MENGENLEHRE 7 Beispiel 5. Sind A = {1, 2} und B = {a, b}, so ist A × B = {(1, a), (1, b), (2, a), (2, b)} . 1.2.4 Rechenregeln für Mengen Satz 1.2. Für drei Mengen A, B und C gelten A ∩ (B ∪C) = (A ∩ B) ∪ (A ∩C), A ∪ (B ∩C) = (A ∪ B) ∩ (A ∪C). Beweis. Wir beweisen nur die erste Identität. Dazu erinnern wir an die aus dem ersten Abschnitt bekannte Gleichheit a ∧ (b ∨ c) = (a ∧ b) ∨ (a ∧ c), welche wir mittels einer Wahrheitstafel bewiesen haben, und ermitteln (wir werden gewöhnlich ⇒“ für Implikationen schreiben) ” x ∈ A ∩ (B ∪C) =⇒ =⇒ =⇒ =⇒ =⇒ x ∈ A ∧ x ∈ (B ∪C) x ∈ A ∧ (x ∈ B ∨ x ∈ C) (x ∈ A ∧ x ∈ B) ∨ (x ∈ A ∧ x ∈ C) (x ∈ A ∩ B) ∨ (x ∈ A ∩C) x ∈ (A ∩ B) ∪ (A ∩C), was die Inklusion A ∩ (B ∪C) ⊆ (A ∩ B) ∪ (A ∩C) zeigt. Wir überzeugen uns auch, dass wir in dieser Schlusskette alle Implikationen umkehren dürfen, d.h. statt =⇒ gilt stets ⇐⇒“, was ” ” ” (A ∩ B) ∪ (A ∩C) ⊆ A ∩ (B ∪C) liefert. Damit ist die erste Mengengleichheit bewiesen. Aufgabe 6. Beweisen Sie auch die zweite Behauptung dieses Satzes. Unser nächstes Resultat beinhaltet die de Morganschen Regeln. Satz 1.3. (de Morgansche Regeln für Mengen) Sind A und B Teilmengen einer Obermenge X, so gelten X \ (A ∪ B) ⇐⇒ X \ (A ∩ B) ⇐⇒ (X \ A) ∩ (X \ B), (X \ A) ∪ (X \ B). Aufgabe 7. Beweisen Sie diese Aussagen dieses Satzes. KAPITEL 1. GRUNDLAGEN 8 1.2.5 Literaturnachweis Ausführliche Betrachtungen, angefangen von Cantors ursprünglicher Mengenlehre bis zur modernen mengentheoretischen Axiomatik finden sich u.a. in ◦ ◦ ◦ ◦ Deiser, O.: Einführung in die Mengenlehre Spivak, M.: Calculus Stillwell, J.: Mathematics and its history Wolf, R.S.: A tour through mathematical logic Zahlreiche Beispiel haben wir dem umfangreichen Lehr- und Übungsbuch ◦ Merziger, G.; Wirth, T.: Repetitorium der höheren Mathematik entnommen. 1.3 Zahlensysteme 1.3.1 Die Menge der reellen Zahlen Hierunter wollen wir eine nichtleere Menge verstehen, deren Elemente wir als reelle Zahlen bezeichnen. Reelle Zahlen sollen miteinander vergleichbar sein. Wir fordern daher die Existenz ◦ einer Gleichheitsrelation =“ ” ◦ und einer Ordnungsrelation <“ ” Die Ordnungsrelation y“ sei trichotomisch, d.h. zwei beliebige Elemente x, y ∈ R sol” len genau eine der folgenden drei Beziehungen eingehen entweder x < y oder x = y oder y < x (in Worten: x ist kleiner als y, x ist gleich y oder y ist kleiner als x). Die Gleichheitsrelation =“ erfülle die folgenden Eigenschaften: ” ◦ Reflexivität: x = x für alle x ∈ R. ◦ Symmetrie: Falls x = y, so auch y = x für alle x, y ∈ R. ◦ Transitivität: Falls x = y und y = z, so auch x = z für alle x, y, z ∈ R. Definition 1.1. Eine Relation mit diesen drei Eigenschaften Reflexivität, Symmetrie und Transitivität heißt eine Äquivalenzrelation. Aufgabe 8. Finden Sie eigene Beispiele für Äquivalenzrelationen aus der Mathematik, Physik, Chemie, aus dem Alltag usw. Definieren Sie dazu jeweils geeignete Mengen, Elemente dieser Mengen und Äquivalenzrelationen zwischen diesen Elementen. 1.3. ZAHLENSYSTEME 9 Neben der Trichotomie für die Ordnungsrelation <“ fordern wir schließlich ihre ” ◦ Transitivität: Falls x < y und y < z, so auch x < z für alle x, y, z ∈ R. Unter Verwendung der Gleichheitsrelation werden wir in Form der folgenden Axiome (I1 ) bis (I9 ) die zwei arithmetischen Operationen Addition + : R × R −→ R Multiplikation · : R × R −→ R vermöge x, y ∈ R 7→ x + y ∈ R x, y ∈ R 7→ x · y ∈ R erklären (die sogenannten arithmetischen Axiome). Für diese arithmetischen Operationen vereinbaren wir anschließend in den Axiomen (II1) bis (II3 ) gewisse Verträglichkeitsregeln mit der Ordnungsrelation <“(die soge” nannten Axiome der Anordnung). Schließlich werden wir die Menge der reellen Zahlen durch ein besonderes Vollständigkeitsaxiom von den übrigen Zahlenmengen (natürliche Zahlen, ganze Zahlen, rationale Zahlen) auszeichnen, die wir später separat diskutieren. Insgesamt beinhaltet also der axiomatische Aufbau der reellen Zahlen neben der Einführung einer Gleichheits- und einer Ordnungsrelation folgende Axiomgruppen ◦ die arithmetischen Axiome, ◦ die Anordnungsaxiome, ◦ das Vollständigkeitsaxiom. Diese drei Axiomgruppen wollen wir nun im Detail vorstellen. 1.3.2 Die arithmetischen Axiome Die arithmetischen Axiome beinhalten die grundlegenden arithmetischen Eigenschaften der Addition und Multiplikation reeller Zahlen. Wir unterteilen sie in ◦ die arithmetischen Axiome der Addition, ◦ die arithmetischen Axiome der Multiplikation, ◦ das Distributivgesetz. Wir beginnen mit den arithmetischen Axiomen der Addition. (I1 ) Kommutativgesetz der Addition Für alle x, y ∈ R gilt x + y = y + x. (I2 ) Assoziativgesetz der Addition Für alle x, y, z ∈ R gilt (x + y) + z = x + (y + z). (I3 ) Existenz des neutralen Elements der Addition Es gibt genau ein Element 0 ∈ R mit x + 0 = x für alle x ∈ R. (I4 ) Existenz des inversen Elements der Addition Zu jedem x ∈ R gibt es genau ein y ∈ R mit x + y = 0. Dieses Element y bezeichnen wir mit −x. KAPITEL 1. GRUNDLAGEN 10 Entsprechende Regeln wollen wir auch für die Multiplikation festlegen. (I5 ) Kommutativgesetz der Multiplikation Für alle x, y ∈ R gilt x · y = y · x. (I6 ) Assoziativgesetz der Multiplikation Für alle x, y, z ∈ R gilt (x · y) · z = x · (y · z). (I7 ) Existenz des neutralen Elements der Multiplikation Es gibt genau ein Element 1 ∈ R \ {0} mit x · 1 = x für alle x ∈ R. (I8 ) Existenz des inversen Elements der Multiplikation Zu jedem x ∈ R \ {0} gibt es genau ein y ∈ R \ {0} mit x · y = 1. Dieses Element bezeichnen wir mit 1y oder y−1 . Das Distributivgesetz endlich verknüpft Addition und Multiplikation. (I9 ) Distributivgesetz Für alle x, y, z ∈ R gilt x · (y + z) = x · y + x · z. 1.3.3 Folgerungen aus den arithmetischen Axiomen Aus den arithmetischen Axiomen lassen sich alle arithmetischen Regeln beweisen, welche wir in Zukunft benötigen. Das betrifft zunächst ◦ ◦ ◦ −(−x) = x, (−x) + (−y) = −(x + y) (x−1 )−1 = x, x−1 · y−1 = (x · y)−1 , falls x, y 6= 0 x · 0 = 0, x · (−y) = −(x · y), (−x) · (−y) = x · y, x · (y − z) = x · y − x · z Die detaillierten Argumentationen, um jede dieser scheinbar elementaren Behauptungen unter alleiniger Verwendung obiger Axiome zu beweisen, sind allerdings oft sehr umfangreich. Wir wollen das an einem Beispiel veranschaulichen. Satz 1.4. Es gilt x·0 = 0 für alle x ∈ R. Beweis. Wegen x ∈ R und 0 ∈ R ist zunächst x · 0 ∈ R, und damit ist auch −(x · 0) ∈ R nach (I4 ). Wir erhalten x · 0 = x · (0 + 0) = x · 0 + x · 0 nach (I3 ) und (I9 ) =⇒ x + − (x · 0) = x · 0 + x · 0 + − (x · 0) nach Addition von − (x · 0) =⇒ 0 = x · 0 + 0 = x · 0 nach (I4 ) und (I3 ) Es gilt also x · 0 = 0, was die Behauptung zeigt. Ferner implizieren die arithmetischen Axiome die Regeln der Bruchrechnung ◦ x u xv + yu + = , y v yv x u xu · = , y v yv xv xu−1 = , yv−1 yu wobei natürlich die Nenner in allen Brüchen ungleich 0 sein müssen. 1.3. ZAHLENSYSTEME 11 1.3.4 Die reellen Zahlen bilden einen Zahlenkörper Eine nichtleere Menge K, die wie R allen vorgestellten arithmetischen Axiomen genügt, bekommt in der Mathematik einen speziellen Namen. Definition 1.2. Eine Menge K von Elementen, auf denen eine additative Verknüpfung + : K × K → K und eine multiplikative Verknüpfung · : K × K → K definiert sind, welche den arithmetischen Axiomen (I1 ) bis (I9 ) genügen, heißt ein Körper. Insbesondere sprechen wir vom Körper der reellen Zahlen R. 1.3.5 Die Anordnungsaxiome Die drei Axiome der Anordnung, die die Ordnungsrelation <“ betreffen, lauten nun ” wie folgt. (II1 ) Transitivität der Anordnung Aus x < y und y < z folgt stets x < z. (II2 ) Verträglichkeit mit der Addition Aus x < y folgt x + z < y + z für alle z ∈ R. (II3 ) Verträglichkeit mit der Multiplikation Aus x < y und 0 < z folgt stets xz < yz. Insbesondere sprechen wir im Falle von R von einem angeordneten Körper. 1.3.6 Folgerungen aus den Anordnungsaxiomen Die Anordnungsaxiome genügen, um alle für uns notwendigen Regeln, welche zwei Elemente x, y ∈ R vermittels der Relation < in Beziehung setzen, zu beweisen. Das betrifft insbesondere ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ x < y genau dann, wenn x − y < 0 x < 0 genau dann, wenn − x > 0 x > 0 genau dann, wenn − x < 0 x < y genau dann, wenn − x > −y x < y und u < v, dann x + u < y + v xy > 0, dann (x > 0 und y > 0) oder (x < 0 und y < 0) xy < 0, dann (x > 0 und y < 0) oder (x < 0 und y > 0) x 6= 0 genau dann, wenn x2 > 0 x < y und z < 0, dann xz > yz x > 0 genau dann, wenn x−1 > 0 x2 < y2 und x ≥ 0 und y > 0, dann x < y Das Relationssymbol ≥ in der letzten Folgerung ist dabei so zu verstehen: x ≥ y genau dann, wenn x > y oder x = y. KAPITEL 1. GRUNDLAGEN 12 1.3.7 Das Vollständigkeitsaxiom Um dieses, für alle Grenzwertprozesse der Analysis wesentliche Axiom formulieren zu können, benötigen wir die Definition 1.3. Eine nichtleere Teilmenge M ⊂ R heißt nach oben beschränkt, falls es eine reelle Zahl b ∈ R gibt mit der Eigenschaft x ≤ b für alle x ∈ M. Die Zahl b bezeichnen wir dabei als obere Schranke von M. Beachte, dass sogleich alle Zahlen k′ ∈ R mit k′ ≥ b obere Schranken dieser Teilmenge M darstellen. Definition 1.4. Eine nichtleere Teilmenge M ⊂ R heißt nach unten beschränkt, falls es eine reelle Zahl a ∈ R gibt mit der Eigenschaft a≤x für alle x ∈ M. Die Zahl a bezeichnen wir als eine untere Schranke von M. Schließlich heißt M ⊂ R beschränkt, falls gilt a ≤ x ≤ b für alle x ∈ M. Unter einer kleinsten oberen Schranke von M (bzw. größten unteren Schranke) wollen wir nun eine reelle Zahl verstehen, ◦ wenn sie eine obere (untere) Schranke von M ist, ◦ wenn es keine kleinere obere (keine größere untere) Schranke von M gibt. Das Vollständigkeitsaxiom lautet dann wie folgt. (III) Jede nichtleere, nach oben beschränkte Teilmenge M ⊂ R besitzt eine kleinste obere Schranke, das sogenannte Supremum sup M von M. Oder dazu äquivalent: Jede nichtleere, nach unten beschränkte Teilmenge M ⊂ R besitzt eine größte untere Schranke, das sogenannte Infimum inf M von M. Beachten Sie dabei, dass Supremum und Infimum tatsächlich für beliebige Teilmengen M ⊂ R definiert werden können. Insbesondere schreiben wir sup M < +∞, falls M nach oben beschränkt ist, andernfalls sup M = +∞ inf M > −∞, falls M nach unten beschränkt ist, andernfalls inf M = −∞ Das Symbol ∞“ lesen wir als Unendlich.“ ” ” Beispiel 6. Jede der Mengen (−1, 1), (−1, 1], [−1, 1) oder M = [−1, 1] besitzt −1 als Infimum und +1 als Supremum. Warum? 1.3. ZAHLENSYSTEME 13 1.3.8 Über den axiomatischen Aufbau Die Ausführungen in diesem Abschnitt sind kursorisch und dienen lediglich einer allgemeinen Einordnung des bisher behandelten Stoffes. Die hier vorgestellte Methode, die reellen Zahlen einzuführen, ist nicht die einzig mögliche. Häufig wählt man auch folgenden Weg: 1. Definiere vermöge der Peanoschen Axiome eine Arithmetik der natürlichen Zahlen. Diese selbst können nach J. von Neumann aus mengentheoretischer Sicht über sogenannte Paarbildung der leeren Menge definiert werden: 0 := 0, / 1 := {0} / 2 := {0, / {0}}, / 3 := {0, / {0}, / {0, / {0}}} / usw. 2. Führe vermöge der natürlichen Zahlen die Menge Z der ganzen Zahlen und aus diesen durch Verhältnisbildung die Menge Q der rationalen Zahlen ein. 3. Führe vermöge der rationalen Zahlen die Menge R der reellen Zahlen ein, z.B. durch Äquivalenzklassenbildung rationaler Cauchyfolgen. Auf den für die gesamte Analysis fundamentalen Begriff Cauchyfolge werden wir im Verlaufe unserer Vorlesungen noch wiederholt zurückkommen. Wir gehen hier jedoch den Weg, zunächst die Menge R der reellen Zahlen axiomatisch einzuführen, um dann die natürlichen, die ganzen und die rationalen Zahlen aus dieser umfassenden Menge herauszufiltern. Welche Anforderungen sollten wir an ein solches Axiomensystem eigentlich stellen? ◦ Das Axiomensystem muss widerspruchsfrei sein, d.h. es darf nicht möglich sein, aus den Axiomen eine Aussage als auch ihre Negation abzuleiten. ◦ Die einzelnen Axiome sollen untereinander unabhängig sein, d.h. ein Axiom sollte möglichst nicht aus den anderen durch logische Schlussfolgerungen ableitbar und damit von diesen Axiomen abhängig sein. ◦ Das Axiomensystem soll vollständig sein, d.h. alle innerhalb der Sprache“ des ” Axiomensystems formulierbaren Sätze sollten auch möglichst innerhalb dieses Systems beweisbar sein. Aber genügt unser hier vorgestelltes Axiomensystem diesen Anforderungen? Es ist möglich, die am Anfang unserer Vorlesung angesprochene Aussagenlogik axiomatisch vollständig und widerspruchsfrei zu formulieren. Ein solches Systems findet sich z.B. in T. Zoglauers Lehrbuch Einführung in die formale Logik für Philosophen. Dasselbe gilt aber auch für gewisse Elemente der Euklidischen Geometrie, die der polnische Logiker A. Tarski später als elementar bezeichnete, und die wir im Rahmen der Linearen Algebra und Geometrie kennenlernen werden. Wir verweisen auf S. Givants und A. Tarskis Übersichtsartikel Tarski’s system of geometry. Aber bereits die oben angesprochenen Peanoschen Axiome, die uns die gewöhnliche Arithmetik in der Menge N der natürlichen Zahlen zur Verfügung stellen, zusammen mit einem Induktionsprinzip, das wir in Kürze einführen werden, erfüllen diese Anforderungen schon nicht mehr. KAPITEL 1. GRUNDLAGEN 14 Vielmehr gelten die folgenden Gödelschen Sätze (siehe T. Zoglauer). Satz 1.5. 1. Wenn die Peano-Arithmetik widerspruchsfrei ist, dann ist sie unvollständig. Und wenn sie vollständig ist, dann ist sie nicht widerspruchsfrei. 2. Wenn die Peano-Arithmetik widerspruchsfrei ist, dann kann ihre Widerspruchsfreiheit nicht bewiesen werden. D. Hilbert verfolgte das ehrgeizige Programm, die Regeln der gesamten Mathematik, d.h. der Peanoschen Arithmetik, der Mengenlehre, der Geometrie usw., auf die Grundlage eines einziges Axiomensystems aufzubauen. Einen Eindruck seiner Ideen gewinnt man beim Studium seiner Axiomatik der Euklidischen Geometrie, enthalten in seinem Lehrbuch Grundlagen der Geometrie. Durch Projektion“ seiner Axiome der Euklidi” schen Geometrie auf die Axiome der Arithmetik konnte er die Widerspruchsfreiheit der Euklidischen Geometrie nachweisen, falls nur die Axiome der Arithmetik widerspruchsfrei sind. Wir sprechen hierbei von relativer Widerspruchsfreiheit. Ein Nachweis der Widerspruchsfreiheit der Arithmetik blieb aber zunächst aus. Die Versuche der Mathematiker gipfelten schließlich in B. Russells und A.N. Whiteheads monumentalem Werk Principia Mathematica. Im Jahre 1931 bewies K. Gödel jedoch, dass das Hilbertschen Programm prinzipiell nicht durchführbar ist. Gödels Arbeit trägt den interessanten Titel Über formal unentscheidbare Sätze der Principia Mathematica und verwandter Systeme I – ein zweiter Teil war ursprünglich angedacht. Auf Grund des enormen Interesses an seinen spektakulären Resultaten aus mathematischer und philosophischer Sicht und den daraufhin unzähligen Anschlussarbeiten anderer Forscher machte für Gödel eine Fortsetzung seiner Arbeit aber keinen Sinn mehr. 1.3.9 Literaturnachweis Nur der letzten Paragraphen haben wir nicht auf Hildebrandts Lehrbuch zur Analysis gestützt. ◦ Paragraphen 1.3.1 bis 1.3.7 Hildebrandt, S.: Analysis 1 ◦ Paragraph 1.3.8 Wolf, R.S.: A tour through mathematical logic; Zoglauer, T.: Einführung in die formale Logik für Philosophen 1.4 Natürliche und ganze Zahlen 1.4.1 Definition der natürlichen Zahlen Eine Teilmenge M ⊂ R der reellen Zahlen R wollen wir als eine induktive Menge bezeichnen, falls gelten ◦ 1 ∈ M, ◦ x ∈ M, dann auch x + 1 ∈ M. 1.4. NATÜRLICHE UND GANZE ZAHLEN 15 Beispielsweise sind folgende Mengen induktiv: ◦ Die Menge R der reellen Zahlen. ◦ Die Menge der positiven reellen Zahlen. Sind ferner M1 ⊂ R und M2 ⊂ R zwei induktive Mengen, so ist auch ihr Durchschnitt M1 ∩ M2 = {x ∈ R : x ∈ M1 und x ∈ M2 } eine induktive Menge. Eine endliche Menge, d.h. eine Menge, die nur aus endlich vielen Elementen besteht, ist nicht induktiv. Aufgabe 9. Beweisen Sie diese Behauptungen. Definition 1.5. Die Menge N der natürlichen Zahlen ist der Durchschnitt aller induktiven Teilmengen M ⊂ R. Beachte, dass nach unserer Definition 0 6∈ N ist. Gelegentlich wird die Zahl 0 aber auch willkürlich zu N hinzugerechnet, oder man schreibt einfach N0 = N ∪ {0}. Die Menge N ist abgeschlossen bez. Addition und Multiplikation, d.h. mit zwei Elementen x, y ∈ N gilt auch stets x + y ∈ N, x · y ∈ N. Es ist N aber nicht abgeschlossen bez. Subtraktion und Division. Aufgabe 10. Beweisen Sie auch diese Behauptungen. 1.4.2 Das Prinzip der vollständigen Induktion Als Durchschnitt aller möglichen induktiven Teilmengen ist N überhaupt die kleinste induktive Teilmenge von R. Das besagt nämlich der Satz 1.6. (Induktionsprinzip) Ist M ⊂ R induktiv, und gilt M ⊂ N, so muss gelten M = N. Beweis. Nach Voraussetzung ist zunächst M ⊂ N. Aus der Definition von N als Durchschnitt aller induktiven Teilmengen in R folgt aber auch N ⊂ M. Also gilt M = N. Diesem Resultat entnehmen wir nun das Prinzip der vollständigen Induktion. Satz 1.7. Für jedes n ∈ N sei eine Aussage An der Art gegeben, so dass gelten (i) A1 ist richtig, und (ii) aus der Richtigkeit von An für ein beliebig gewähltes n ∈ N folgt die Richtigkeit von An+1 . Dann gilt An für alle n ∈ N. KAPITEL 1. GRUNDLAGEN 16 Beweis. Wir definieren die Menge M := {n ∈ N : An ist richtig} ⊂ N. Diese Menge ist nichtleer, denn nach Voraussetzung (i) ist A1 richtig, d.h. es ist bereits 1 ∈ M. Gemäß Voraussetzung (ii) ist M aber auch induktiv, so dass voriger Satz M = N impliziert, was schließlich die Richtigkeit aller Aussagen An beweist. Die Voraussetzungen (i) und (ii) des vorigen Satzes bezeichnet man in dieser Reihenfolge gewöhnlich als (i) Induktionsvoraussetzung, (ii) Induktionsschluss. Das Beweisprinzip der vollständigen Induktion verlangt beides: das Verifizieren der Induktionsvoraussetzung und das Durchführen des Induktionsschlusses. Beispiel 7. Wir zeigen die Aussage n An : ∑ k = 1 + 2 + . . .+ n = k=1 n(n + 1) 2 für alle n ∈ N. (i) Induktionsanfang: Die Aussage A1 ist offenbar richtig, denn wir verifizieren 1 n(n + 1) = 1. ∑ k = 1 und n=1 2 k=1 (ii) Induktionsschluss: Für ein n ∈ N sei An richtig, d.h. es gelte n ∑k= k=1 n(n + 1) . 2 Dann ermitteln wir n+1 ∑k= k=1 n ∑ k + (n + 1) = k=1 (n + 1)(n + 2) n(n + 1) + (n + 1) = , 2 2 d.h. mit der Richtigkeit von An folgt die Richtigkeit von An+1 . Nach dem Prinzip der vollständigen Induktion gilt daher die Aussage An für alle n ∈ N. 1.4.3 Die ganzen Zahlen Die Menge Z der ganzen Zahlen definieren wir als die Vereinigung Z := N− ∪ {0} ∪ N mit der Setzung N− := {−n : n ∈ N} . Innerhalb der Menge der rationalen Zahlen kann man addieren, subtrahieren und multiplizieren. Bezüglich der Division ist Z nicht abgeschlossen. 1.5. DIE REELLEN ZAHLEN 17 1.4.4 Literaturnachweis Dieser Abschnitt basiert vollständig auf S. Hildebrandts Lehrbuch zur Analysis. ◦ Paragraphen 1.4.1 bis 1.4.3 Hildebrandt, S.: Analysis 1 1.5 Die reellen Zahlen 1.5.1 Rationale Zahlen Die Menge Q der rationalen Zahlen definieren wir als Q := {p/q : p, q ∈ Z, q 6= 0}. Innerhalb dieser Zahlenmenge lässt sich nun auch die Multiplikation umkehren und die Division ausführen. Division durch 0 ist natürlich ausgeschlossen. 1.5.2 Abbildungen zwischen Mengen Bevor wir mit der Theorie der rationalen Zahlen fortfahren können, benötigen wir einige neue Begriffe. Unter einer Abbildung zwischen zwei Mengen M und N, in Zeichen f : M −→ N, verstehen wir eine Zuordnungsvorschrift, die jedem Element m ∈ M genau ein Element n ∈ N zuordnet. Es heißen dabei M die Urbildmenge und N die Bildmenge oder der Wertebereich der Abbildung f . Definition 1.6. Die Abbildung f : M → N zwischen den Mengen M und N heißt ◦ surjektiv genau dann, wenn f (M) = N, d.h. f ist Abbildung auf N; ◦ injektiv genau dann, wenn f (m1 ) 6= f (m2 ), falls nur m1 6= m2 ; ◦ bijektiv genau dann, wenn f surjektiv und injektiv ist. Eine bijektive Abbildung bezeichnet man auch als eineindeutig. In diesem Fall können wir ihre Umkehrabbildung f −1 : N → M bilden, die ebenfalls eine Abbildung in unserem Sinne ist. Definieren wir im allgemeinen e = {m ∈ M : f (m) ∈ N} e f −1 (N) e ⊂ N, so ordnet dieses f −1 Teilmengen von N Teilfür alle möglichen Teilmengen N mengen von M zu. Es handelt sich aber nicht unbedingt um eine Abbildung im Sinne unserer Definition. KAPITEL 1. GRUNDLAGEN 18 1.5.3 Die rationalen Zahlen sind abzählbar Eine nichtleere Menge M besitzt entweder endlich viele Elemente, und wir können sie in der Form M = {m1 , m2 , m3 , . . . , mn } schreiben mit einer geeigneten natürlichen Zahl n ∈ N, oder sie besitzt unendlich viele Elemente. Nach G. Cantor unterscheiden wir in diesem Fall zwischen abzählbar unendlichen Mengen und überabzählbar unendlichen Mengen. Definition 1.7. Eine unendliche Menge M heißt abzählbar, falls sie umkehrbar eindeutig auf die Menge der natürlichen Zahlen N abgebildet werden kann, d.h. wenn es eine bijekive Abbildung f : N −→ M gibt, welche jedem Element m ∈ M genau eine natürliche Zahl n ∈ N zuordnet. Satz 1.8. Die Menge Q der rationalen Zahlen ist abzählbar. Beweis. Es genügt, eine Abzählung der positiven rationalen Zahlen zu finden. Eine solche Abbildung vermittelt das folgende, ebenfalls auf Cantor zurückgehende Diagonalverfahren, dass die gewünschte Abzählung mittels Pfeile veranschaulicht: 1 1 2 1 → ւ ↓ ր 1 2 × 2 2 3 2 3 1 4 1 ւ ↓ ր ×24 5 2 5 1 1 3 ր ւ ր ւ 2 3 × 3 3 4 3 → ւ ր ւ 1 4 1 5 × 2 4 3 4 ր ւ 2 5 ··· 5 4 ··· ւ 1 6 ··· ··· ··· ×44 5 3 → ւ .. .. .. .. . . . . Die positiven rationalen Zahlen lassen sich also wie folgt abzählen 1 7→ 1, 2 7→ 1 , 2 3 7→ 2 , 1 4 7→ 3 , 1 5 7→ 1 , 3 6 7→ 1 , 4 7 7→ 2 , 3 ... bzw. unter Verwendung einer bijektiven Abbildung f : N → M f (1) = 1, f (2) = 1 , 2 f (3) = 2 , 1 f (4) = 3 , 1 f (5) = 1 , 3 f (6) = 1 , 4 ... Tritt in Cantors Schema eine rationale Zahl q mehrfach auf, so wird sie lediglich beim ersten Erscheinen gezählt und anschließend gestrichen. Aufgabe 11. Wie zeigt man nun die Abzählbarkeit der gesamten Menge Q? 1.5. DIE REELLEN ZAHLEN 19 1.5.4 Existenz irrationaler Zahlen √ Es gibt Zahlen, wie etwa die Kreiszahl π oder die Zahl 2, welche für einen lückenlosen Aufbau der Mathematik nicht mehr wegzudenken sind, aber welche sich nicht als Verhältnis zweier ganzer Zahlen darstellen lassen und daher als irrational zu bezeichnen sind. √ Satz 1.9. Die Zahl 2, welche die Länge der Diagonale des Einheitsquadrates wiedergibt, ist irrational. √ Beweis. Wir führen einen Widerspruchsbeweis. Zunächst ist 2 > 0. Angenommen, √ 2 ist rational, d.h. mit teilerfremden natürlichen Zahlen p und q gelte √ p 2= . q Quadrieren und Umstellen liefert 2q2 = p2 , d.h. p2 ist eine gerade Zahl. Dann muss aber auch p selbst gerade sein, denn quadrieren wir eine ungerade Zahl, so erhalten wir auch wieder eine ungerade Zahl zurück: (2k + 1)(2k + 1) = 4k2 + 4k + 1. Da also p = 2r mit geeignetem r ∈ N sein muss, ist p2 durch 4 teilbar. Mithin schließen wir, dass q2 gerade, daher auch q gerade sind. Es besitzen also p und q den gemeinsamen Teiler 2 im Widerspruch zur Annahme der Teilerfremdheit. Im Jahre 1861 √ ersann J.W.R. Dedekind eine bestechend einfache Methode, die Irrationalität von k für alle Nicht-Quadratzahlen k ∈ N zu beweisen. √ Satz 1.10. Ist k ∈ N keine Quadratzahl, so ist k irrational. √ Beweis. Wäre nämlich√ k > 0 rational, so gibt es eine kleinste natürliche Zahl n ∈ N, so dass das Produkt n k > 0 ganzzahlig ist. Bezeichnen wir nun mit dem Symbol [a] die größte √ ganze Zahl kleiner oder gleich a, so genügt also die positive Zahl (nehme √ k − [ k] > 0 an) √ √ m := ( k − [ k])n der Ungleichung 0 < m < n, und daher ist auch die Zahl √ √ √ √ √ √ m k = ( k − [ k]) k n = kn − [ k] k n positiv und ganzzahlig im Widerspruch zur Wahl von n. 1.5.5 Dualformdarstellung der reellen Zahlen In diesem und im folgenden Paragraphen werden wir veranschaulichen, dass die Menge Q der rationalen Zahlen auf dem reellen Zahlenstrahl keine Lücken“ aufweist, d.h. ” dicht“ in R liegen. Damit zeigt sich, dass jede reelle Zahl beliebig genau durch eine ” sogenannte Folge rationaler Zahlen approximiert werden kann. Wir wollen unsere Untersuchungen mit einer Aufgabe beginnen. KAPITEL 1. GRUNDLAGEN 20 Aufgabe 12. Zeigen Sie, dass sich jede natürliche Zahlen n ∈ N eindeutig in folgender Dualform schreiben lässt n = 2 p z p + 2 p−1 z p−1 + . . . + 21 z1 + 20 z0 mit geeigneten Koeffizienten zk ∈ {0, 1} für k = 0, 1, . . . , p und geeignetem Index p ∈ N0 . Reelle Zahlen lassen sich natürlich auch bez. anderen Grundzahlen“ darstellen: ” ◦ Wählen wir statt der Grundzahl 2“ die Grundzahl 10“, so erhalten wir die all” ” gemein übliche Dezimaldarstellung. ◦ Das babylonische Sexagesimalsystem beruht auf einer Zahlendarstellung bez. der Grundzahl 60“. ” Ganz allgemein spricht man von einer p-adischen Darstellung im Falle einer natürlichen Grundzahl p > 1. Wir wollen uns im Folgenden auf p = 2 beschränken. Ist also nun x ∈ R eine nichtnegative reelle Zahl, und bezeichnen wir mit [x] wie im vorigen Paragraphen diejenige ganze Zahl, welche kleiner oder höchstens gleich x ist, so können wir schreiben x = [x] + ξ mit einem nicht ganzzahligen Rest ξ ∈ [0, 1). Mit g := [x] haben wir daher den Satz 1.11. Jede nichtnegative reelle Zahl x kann geschrieben werden in der Form x = g+ξ mit einem ganzzahligen Anteil p g = [x] = ∑ 2k zk , k=0 zk ∈ {0, 1} für k = 0, 1, 2, . . ., p, und einem geeigneten ξ ∈ [0, 1). Dabei sind die z0 , z1 , . . . , zn eindeutig bestimmt. Der nicht ganzzahlige Rest ξ kann mittels der Methode der Intervallhalbierung beliebig genau approximiert werden. Betrachte dazu das halboffene Intervall I1 := {x ∈ R : 0 ≤ x < 1} . Dieses Intervall heißt halboffen, weil die Zahl 0 zur Menge I1 gehört, die Zahl 1 gehört dagegen nicht zu I1 . Wir fahren nun wie folgt fort: ◦ Wir halbieren das halboffene Intervall I1 , und es muss ξ in genau einem der beiden halboffenen Intervalle Iℓ := [0, 21 ) = {x ∈ R : 0 ≤ x < 21 } oder Ir := [ 12 , 1) = {x ∈ R : 1 2 ≤ x < 1} enthalten sein. Ohne Einschränkung sei ξ ∈ Iℓ , und wir schreiben I2 := Iℓ . 1.5. DIE REELLEN ZAHLEN 21 ◦ Wir halbieren das halboffene I2 , und es muss ξ in genau einem der beiden halboffenen Intervalle Iℓ := [0, 14 ) oder Ir := [ 41 , 12 ) enthalten sein. Ohne Einschränkung sei ξ ∈ Ir , und wir schreiben I3 := Ir . Führen wir dieses Verfahren immer weiter fort, erhalten wir eine Folge von halboffenen Teilintervallen I1 , I2 , I3 usw., in Zeichen {In }n=1,2,... Aufgabe 13. Veranschaulichen Sie sich diese Verfahrensweise an einer Skizze. Satz 1.12. Es gibt eine eindeutig bestimmte Folge {In }n=1,2,... von halboffenen Teilintervallen, die sukzessive durch Intervallhalbierung entstehen, so dass gilt ξ ∈ In für alle n ∈ N. Umgekehrt wird durch jede Folge {I n }n=1,2,... von ineinander geschachtelten, abgeschlossenen Intervallen I n = [xn , xn + 2−n], n xn = zk ∑ 2k k=1 mit zk ∈ {0, 1} eine Zahl ξ ∈ [0, 1] erfasst, welche im Grenzfall die Dualformdarstellung ξ= z1 z2 z3 + + + ... 21 22 23 besitzt. Diese Darstellung ist darüber hinaus eindeutig, wenn ξ keiner der Intervallhalbierungspunkte ist. Wir lassen diese Aussagen an dieser Stelle unbewiesen. Die hier angesprochenden Tatsachen aus dem Bereich der mathematischen Analysis werden wir an späterer Stelle unserer Vorlesung erneut aufgreifen und vertiefen. 1.5.6 Die rationalen Zahlen liegen dicht Die im vorigen Paragraphen vorgestellte Intervallhalbierungsmethode veranschaulicht, dass wir zu beliebig vorgelegtem x ∈ R eine rationale Zahl pn ∈ Q in Dualform n zk k 2 k=1 pn = g + ∑ mit g = [pn ], zk ∈ {0, 1}, finden können mit der Eigenschaft 0 ≤ x − pn ≤ 1 , 2n d.h. x und pn liegen nach n-maliger Intervallhalbierung in einem gemeinsamen, beliebig kleinen Teilintervall der Länge 2−n . KAPITEL 1. GRUNDLAGEN 22 Die Elemente der Zahlenfolge {2−n}n=1,2,... = { 12 , 41 , 81 , . . .} streben aber mit wachsendem n ∈ N gegen Null, in Zeichen lim 1 n→∞ 2n = 0, d.h. die zugehörige Folge {pn }n=1,2,... der rationalen Zahlen approximiert die reelle Zahl x mit wachsendem n ∈ N beliebig genau. Diese Aussage formulieren wir genauer in dem Satz 1.13. Es sei x ∈ R beliebig gewählt. Dann gibt es zu jeder reellen Zahl ε > 0 eine rationale Zahl p ∈ Q mit der Eigenschaft |x − p| < ε . Hierin bedeutet |x| der Absolutbetrag der reellen Zahl x, während |x − p| den Abstand“ ” zwischen den Zahlen p und q wiedergibt. Definition 1.8. Die Betragsfunktion | · | : R −→ [0, ∞) := {x ∈ R : x ≥ 0} ist definiert gemäß |x| := x, falls x ≥ 0 . −x, falls x < 0 Wir sagen auch, die rationalen Zahlen liegen dicht in der Menge der reellen Zahlen R. Oder mit anderen Worten: Jede reelle Zahl kann beliebig genau durch rationale Zahlen approximiert werden. 1.5.7 Überabzählbarkeit der reellen Zahlen Eine abzählbare, unendliche Menge, welche also vermittels einer geeigneten Abbildung bijektiv auf die natürlichen Zahlen N abgebildet werden kann, bezeichnen wir als gleichmächtig zur Menge N, sie besitzt die gleiche Mächtigkeit wie N. Cantors Begriff der Gleichmächtigkeit verallgemeinert den Begriff der Elementan” zahl“, welcher bei unendlichen Mengen und Vergleichen der Quantitäten unendlicher Mengen keinen Sinn mehr macht. Definition 1.9. Eine unendliche Menge heißt nicht abzählbar oder überabzählbar, falls sie nicht gleichmächtig zur Menge N der natürlichen Zahlen ist. Wir wissen bereits, dass Q und N gleiche Mächtigkeit besitzen, obwohl doch Q mehr“ ” Elemente besitzt als N. Wir wissen aber auch, dass es reelle Zahlen gibt, die nicht zu Q gehören und nur durch eine Folge √ rationaler Zahlen beliebig genau approximiert werden können, wie z.B. die Zahl 2. Tatsächlich gilt der folgende, auf G. Cantor zurückgehende 1.5. DIE REELLEN ZAHLEN 23 Satz 1.14. Das Intervall [0, 1] = {x ∈ R : 0 ≤ x ≤ 1} ist nicht abzählbar. Überhaupt ist die Menge R der reellen Zahlen überabzählbar. Beweis. Mit dem nachstehenden Beweis orientieren wir uns erneut an S. Hildebrandts Lehrbuch Analysis 1: Angenommen, das abgeschlossene I = [0, 1] ist abzählbar. Dann gibt es eine bijektive Abbildung n 7→ xn der natürlichen Zahlen N auf die Elemente xn ∈ I. Wir konstruieren eine Intervallschachtelung {In }n=1,2,... , so dass In ⊂ I sowie 1 3n für die Länge eines jeden In richtig sind, und so dass xn 6∈ In für alle n ∈ N. |In | := max{|x − y| : x, y ∈ In } = ◦ Zerlege I = [0, 1] in drei gleich lange, abgeschlossene Teilintervalle. Eines dieser Teilintervalle enthält das Element x1 nicht. Wir bezeichnen es mit I1 : x1 6∈ I1 , |I1 | = 1 . 31 ◦ Zerlege I1 in drei gleich lange, abgeschlossene Teilintervalle. Eines dieser Teilintervalle enthält das Element x2 nicht. Wir bezeichnen es mit I2 : x2 6∈ I2 ⊂ I1 , |I2 | = 1 . 32 Wir fahren auf diese Weise fort und erhalten eine Intervallschachtelung {In }n=1,2,... mit der Eigenschaft xn 6∈ In ⊂ In−1 ⊂ . . . ⊂ I2 ⊂ I1 , d.h. xn 6∈ I1 ∩ I2 ∩ . . . ∩ In−1 ∩ In . Wie in den vorigen Paragraphen erkennen wir aber, dass ein ξ ∈ [0, 1] existiert im unendlichen Durchschnitt ξ = I1 ∩ I2 ∩ . . . ∩ In−1 ∩ In ∩ . . . = ∞ \ Ik . k=1 Dieser Punkt ξ kommt nach Konstruktion nicht in der Folge {xn }n=1,2,... vor und ist damit nicht im Bild der angenommenen Bijektion zwischen N und I. Das ist aber ein Widerspruch zur Voraussetzung der Abzählbarkeit von I = [0, 1]. 1.5.8 Literaturnachweis Die Grundlage für diesen Abschnitt bildet erneut S. Hildebrandts Lehrbuch Analysis 1. Genauer haben wir folgende Literatur verwendet: ◦ Paragraph 1.5.1 Hildebrandt, S.: Analysis 1 ◦ Paragraph 1.5.2 Merziger, G.; Wirth, T.: Repetitorium der höheren Mathematik ◦ Paragraph 1.5.3, 1.5.4 Hildebrandt, S.: Analysis 1; Schröder, H.: Wege zur Analysis ◦ Paragraph 1.5.5, 1.5.6, 1.5.7 Hildebrandt, S.: Analysis 1 KAPITEL 1. GRUNDLAGEN 24 1.6 Die komplexen Zahlen 1.6.1 Historische Bemerkungen Für die quadratische Gleichung x(10 − x) = 40, welche im reellen Zahlenbereich R nicht lösbar ist, gab G. Cardano im Jahre 1545 folgende Lösungen“ an: ” √ √ 5 + −15 und 5 − −15 . Bereits 1777 führte L. Euler die Notation i := √ −1 ein, womit sich Cardanos Lösungen nun wie folgt schreiben lassen √ 5 + 15 i, √ 5 − 15 i. Definition 1.10. Unter einer komplexen Zahl z verstehen wir ein Tupel z = (x, y), auch in der symbolischen Form z = x + iy geschrieben, mit zwei reellen Zahlen x, y ∈ R und der imaginären Einheit i = Dabei heißen x der Realteil und y der Imaginärteil der Zahl z. Was aber bedeutet i = √ −1. √ −1? Und wie rechnet man mit komplexen Zahlen? Definition 1.11. Die Summe z1 + z2 und das Produkt z1 z2 zweier komplexer Zahlen z1 = a + ib und z2 = c + id sind definiert gemäß z1 + z2 := (a + c) + i(b + d), z1 z2 := (ac − bd) + i(ad + bc). Die zweite Definition rechtfertigt sich durch folgendes Argument“ ” z1 · z2 = (a + ib) · (c + id) = ac + iad + ibc + i2bd = ac − bd + i(ad + bc). L. Euler gab aber auch folgendes negative Beispiel“ ” p √ √ √ −2 = i · (2i) = −1 · −4 = (−1) · (−4) = 4 = 2. Was läuft hier falsch? 1.6. DIE KOMPLEXEN ZAHLEN 25 1.6.2 Der Körper der komplexen Zahlen Aus der Definition der komplexen Zahlen unter Verwendung der bekannten Rechenregeln aus R läßt sich leicht folgender Satz beweisen. Satz 1.15. Für alle x, y, z ∈ C gelten ◦ das Kommutativgesetz der Addition x + y = y + x, ◦ das Assoziativgesetz der Addition (x + y) + z = x + (y + z), ◦ das Kommutativgesetz der Multiplikation x · y = y · x, ◦ das Assoziativgesetz der Multiplikation (x · y) · z = x · (y · z), ◦ das Distributivgesetz (x + y) · z = x · z + y · z. Ferner gibt es ein neutrales Element bez. der Addition, 0 = 0 + i · 0 ∈ C, und ein neutrales Element bez. der Multiplikation, 1 = 1 + i · 0 ∈ C. Ist schließlich x = a + ib ∈ C mit x 6= 0, so läßt sich wie folgt das Inverse bestimmen b a 1 −i 2 . = x−1 = 2 x a + b2 a + b2 Wir berechnen nämlich a a2 + b2 −ab + ab b x · x−1 = (a + ib) · 2 = 2 − i + 2 i = 1 + i · 0 = 1. 2 2 2 a +b a +b a + b2 a + b2 Dieses Inverse ist auch eindeutig bestimmt. Aufgabe 14. Beweisen Sie alle hier offen gelassenen Behauptungen. Wie auch im Falle von R bildet also die Menge C der komplexen Zahlen, zusammen mit der im vorigen Paragraphen eingeführten Addition und Multiplikation, einen Zahlenkörper. Wir sprechen vom Körper der komplexen Zahlen. Die Menge C ist, wie der Zahlenkörper R, abgeschlossenen gegenüber den arithmetischen Operationen. Zusätzlich sind wir aber jetzt in der Lage, beliebige Wurzeln zu berechnen, was in R nicht möglich ist. 1.6.3 Die Gaußsche Zahlenebene Komplexe Zahlen z = a + ib können in der sogenannten Gaußschen Zahlenebene wie folgt veranschaulicht werden: KAPITEL 1. GRUNDLAGEN 26 Im z = a + ib b a C Re z = a − ib In dieser Skizze haben wir neben z = a + ib einen weiteren Punkt z = a − ib eingezeichnet, der sich aus z durch Spiegelung an der x-Achse ergibt. Definition 1.12. Es heißt z := a − ib die zu z = a + ib komplex-konjugierte Zahl. Interpretieren wir also eine komplexe Zahl geometrisch als Vektor in der Gaußschen Zahlenebene, so lässt sich z.B. die Addition z1 + z2 als Vektoraddition veranschaulichen, wie wir sie im nächsten Kapitel detailliert besprechen werden. In Paragraph 1.5.2 haben wir Abbildungen zwischen Mengen betrachtet. Im Falle einer Abbildung f : R → R sprechen wir genauer von einer reellwertigen Funktion. Die reellwertige Funktion x 7→ x2 , die einer reellen Zahl x ∈ R ihr Quadrat x ·x = x2 ∈ R zuordnet, ist injektiv auf der positiven Halbachse {x ∈ R : x ≥ 0}. Hierauf können wir also ihre Umkehrfunktion betrachten: √ Umkehrfunktion von f (x) = x2 auf {x ∈ R : x ≥ 0} : g(x) = x . Insbesondere gelten f (g(x)) = x und g( f (x)) = x auf der positiven Halbachse. Definition 1.13. Es heißt die reelle Zahl p |z| := a2 + b2 ≥ 0 der Betrag der komplexen Zahl z = a + ib. Der Betrag der komplexen Zahl z entspricht also der Euklidischen Länge des kom” plexen Vektors“ z = a + ib in der Gaußschen Zahlenebene. Auch hierzu gehen wir im nächsten Kapitel genauer ein. Satz 1.16. Seien x und y zwei komplexe Zahlen. Dann gelten ◦ ◦ ◦ ◦ |x| = 0 genau dann, wenn x = 0 (x) = x und x · x = |x|2 x + y = x + y und x · y = x · y |x · y| = |x| · |y| 1.6. DIE KOMPLEXEN ZAHLEN Beweis. Wir beweisen nur die letzte Regel, die restlichen verbleiben als Übung: |x · y|2 = (x · y)(x · y) = x · y · x · y = x · x · y · y = |x|2 |y|2 , Das war zu zeigen. 27 28 KAPITEL 1. GRUNDLAGEN Kapitel 2 Lineare Algebra und Geometrie 2.1 Reelle und komplexe Vektorräume 2.1.1 Einleitung In diesem zweiten Kapitel unserer Vorlesung beschäftigen wir uns mit den Grundlagen der linearen Algebra und der analytischen Geometrie. Im Kern werden wir also grundlegende Aspekte der Euklidischen und kartesischen Geometrie unter Benutzung analytischer Methoden behandeln. Unsere besonderen Zielstellungen in diesem Kapitel sind ◦ eine möglichst einfache, daher abstrakte Beschreibung Euklidischer Räume beliebiger, aber endlicher Dimension; ◦ die Aufhellung und ein sicherer Umgang mit Begriffe wie Basis“, Erzeugen” ” densystem“ und Dimension“; ” ◦ die Untersuchung gegenseitiger Lagebeziehungen zwischen Punkten, Geraden, Ebenen und allgemeinen mehrdimensionalen Räumen; ◦ das Ausleuchten der inneren Geometrie Eukldischer Räume mittels linearer Ab” bildungen“; ◦ die äquivalente Beschreibung linearer Abbildungen durch Matrizen; ◦ das Verständnis der geometrischen Eigenschaften linearer und quadratischer ” Formen“. Die Sprache der Linearen Algebra ist zu umfassend, als dass lediglich als eine alternative Formulierung eines Modells der Euklidische Geometrie dient. Vielmehr werden sie im Verlaufe Ihrer Vorlesungen die Lineare Algebra als wesentliche Grundlage vieler weitere Bereiche kennen lernen: für die Differential- und Integralrechnung, die Differentialgeometrie, die Theorie der Mannigfaltigkeiten, die Funktionalanalysis. 29 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 30 2.1.2 Definition Wir beginnen mit der Definition 2.1. Eine Menge V heißt linearer Raum oder Vektorraum über R bzw. C, wenn in V eine Addition und eine Multiplikation mit Zahlen aus R bzw. C definiert sind, d.h. ◦ zwei Elementen u, v ∈ V eindeutig ein Element u + v ∈ V ◦ sowie einem Element u ∈ V und einer Zahl λ eindeutig ein Element λ u ∈ V zugeordnet ist, und wenn diese Zuordnung folgendes erfüllt: 1. (V, +, ·) ist eine kommutative (Abelsche) Gruppe bez. der Addition, d.h. es gelten (1.1) (u + v) + w = u + (v + w) (1.2) u+v = v+u (1.3) u+0 = u (1.4) u + (−u) = 0 2. (V, +, ·) genügt bez. der Multiplikation den Regeln (2.1) (2.2) (2.3) (2.4) λ (u + v) = λ u + λ v (λ + µ )u = λ u + µ v λ (µ u) = (λ µ )u 1·u = u Je nachdem, ob die Skalare λ und µ aus R oder C stammen, sprechen wir von einem reellen oder komplexen Vetorraum. Die Elemente u, v usw. bezeichnen wir als Vektoren. 2.1.3 Abstrakte Vektorräume und Beispiele Vektorräume können auch über andere Körper K, wie wir sie in Definition 1.2 eingeführt haben, definiert werden, nicht nur über R oder C. Dabei verlangt man wieder, dass (V, +) eine kommutative (abelsche) Gruppe bildet und V mit einer Multiplikation · : V → V ausgestattet ist, welche die Eigenschaften (2.1) bis (2.4) erfüllt. Unsere Definition ist also ein Spezialfall einer allgemeineren algebraischen Struktur. Beispiel 1. Folgende Strukturen bilden Vektorräume. ◦ die Euklidische Ebene R2 mit den Pfeilklassen“ als Vektoren und den reellen ” Zahlen als Skalare; ◦ der Raum der affinen Funktionen f : R −→ R vermöge x 7→ a · x + b mit reellen Zahlen a und b, wobei die Funktionen f als Vektoren, die reellen Zahlen R als Skalare agieren; 2.2. BASIS UND ERZEUGENDENSYSTEME 31 ◦ der Raum der reellwertigen Polynome a 0 + a 1 x + a 2 x2 + a 3 x3 + . . . mit den Polynomen als Vektoren und den Skalaren ai ∈ R für i ∈ N. 2.1.4 Unterräume Wir benötigen ferner die Definition 2.2. Eine nichtleere Teilmenge U ⊂ V, die mit den von V vorgegebenen Verknüpfungen wieder ein linearer Raum bzw. ein Vektorraum ist, nennen wir einen linearen Unterraum von V. 2.2 Basis und Erzeugendensysteme 2.2.1 Linearkombinationen und lineare Hülle Gegeben seien ein Vektorraum V über dem Körper R der reellen Zahlen sowie Elemente v1 , . . . , vn ∈ V und α1 , . . . , αn ∈ R. Definition 2.3. Der Vektor u := α1 v1 + . . . αn vn = n ∑ αk vk k=1 heißt eine Linearkombination der Vektoren v1 , . . . , vn . Die Menge aller möglichen Linearkombinationen von Vektoren v1 , . . . , vn ∈ V nennen wir deren Spann oder auch deren lineare Hülle und schreiben Lin {v1 , . . . , vn } . Satz 2.1. Die lineare Hülle der Vektoren v1 , . . . , vn ∈ V ist ein linearer Unterraum des Vektorraums V. Aufgabe 1. Beweisen Sie diesen Satz. Man sagt, die Vektoren v1 , . . . , vn bilden ein Erzeugendensystem des linearen Raumes Lin {v1 , . . . , vn } . Zu diesen Begriffen zwei Beispiele: ◦ Für einen Vektor v 6= 0 bildet die Menge Lin {v} = {tv : t ∈ R} diejenige Ursprungsgerade, welche von dem Vektor v erzeugt wird. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 32 ◦ Seien u, v ∈ V \ {0} so gewählt, dass es kein λ ∈ R gibt mit u = λ v. Dann bildet Lin {u, v} = {su + tv : s,t ∈ R} die Ursprungsebene, welche von u und v erzeugt wird. Definition 2.4. Für eine nichtleere Menge M ⊂ V bezeichnet Lin M die Menge aller Linearkombinationen aus je endlich vielen Vektoren aus M. Diese Menge heißt die lineare Hülle von M. Satz 2.2. Die Menge Lin M ist ein linearer Unterraum des zugrunde liegenden Vektorraums V. Aufgabe 2. Beweisen Sie diesen Satz. Insbesondere besitzt also ein linearer Raum auch stets die Menge aller seiner endlichen Linearkombinationen als Elemente. 2.2.2 Lineare Abhängigkeit und Unabhängigkeit Definition 2.5. Die Vektoren v1 , . . . , vn ∈ V heißen linear unabhängig, wenn aus α1 v1 + . . . + αn vn = 0 notwendig α1 = . . . = αn = 0 folgen. Andernfalls heißen sie linear abhängig. Dazu zwei Beispiele. ◦ Im Falle n = 1 bedeutet lineare Unabhängigkeit einfach v1 6= 0. ◦ Im Falle n = 2 bedeutet lineare Unabhängigkeit zweier Vektoren v1 und v2 , dass Lin {v1 , v2 } eine zweidimensionale Ebene darstellt. Satz 2.3. Für n ≥ 2 sind die nichtverschwindenden Vektoren v1 , . . . , vn linear abhängig genau dann, wenn wenigstens einer von ihnen Linearkombination der übrigen ist. Beweis. 1. Sei zunächst α1 v1 + . . . + αn vn = 0 mit αk 6= 0 für ein k ∈ {1, . . . , n}. Umstellen liefert n αℓ vℓ , vk = ∑ − αk ℓ=1 ℓ6=k womit also vk Linearkombination der übrigen Vektoren ist. 2. Es sei nun vk Linearkombination der Vektoren v1 , . . . , vk−1 , vk+1 , . . . , vn , d.h. vk = β1 v1 + . . . + βk−1vk−1 + βk+1vk+1 + . . . + βnvn . Dann sind aber v1 , . . . , vk , . . . , vn linear abhängig, denn es ist (−1)vk + β1v1 + . . . + βk−1 vk−1 + βk+1 vk+1 + . . . + βn vn = 0, womit der Satz gezeigt ist. 2.2. BASIS UND ERZEUGENDENSYSTEME 33 Auch hierzu betrachten wir zwei Beispiele. 1. Die Vektoren u = (1, 0, 3) und v = (4, 0, 12) sind linear abhängig, denn es ist v = 4u. Mit anderen Worten: α u + β v = 0 zieht nicht α = 0 und β = 0 nach sich. 2. Betrachte nun u = (1, 0, −1, 0), v = (0, 1, 1, −2) und w = (3, −1, −4, 2). Falls diese Vektoren linear unabhängig sind, besitzt die vektorielle Gleichung αu + β v + γw = 0 nach Definition nur die triviale Lösung α = β = γ = 0. Diese Gleichung besteht genauer aus den vier skalaren Gleichungen α + β − −α + β − − 2β + 3γ γ 4γ 2γ = = = = 0 0 0 0 Aus den ersten beiden Gleichungen folgen α = −3γ und β = γ . Damit sind aber die beiden restlichen Gleichungen identisch erfüllt und liefern keine neuen Aussagen, um die Koeffizienten α , β und γ näher zu bestimmen! Wir können daher beispielsweise setzen α = −3, β = 1, γ =1 und erhalten −3u + v + w = 0. Die Vektoren u, v und w sind also linear abhängig. 2.2.3 Basis und Dimension Definition 2.6. Die Menge B := b1 , . . . , bn von Vektoren b1 , . . . , bn ∈ V heißt eine Basis von V, wenn sich jeder Vektor v ∈ V als Linearkombination v = α1 b1 + . . . + αn bn mit eindeutig bestimmten Koeffizienten αi darstellen läßt. Wir bezeichnen die Koeffizienten αi in dieser Definition als die Koordinaten von v bez. der Basis B und schreiben auch vB = (α1 , . . . , αn ). Die Wahl einer Basis eines Vektorraums V ist nicht eindeutig. Darstellungen eines Vektors v ∈ V bez. verschiedener Basen werden wir später diskutieren. Der Zusammenhang zwischen Basis und Erzeugendensystem ist Inhalt des KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 34 Satz 2.4. Die Menge B = {b1 , . . . , bn } ist genau dann eine Basis von V, wenn die Vektoren b1 , . . . , bn ein linear unabhängiges Erzeugendensystem bilden. Beweis. (i) Sei B = {b1 , . . . , bn } eine Basis von V. Da nach Definition jeder Vektor v ∈ V eindeutig als Linearkombination der vi darstellbar ist, gilt zunächst V = Lin {b1 , . . . , bn } . Wir prüfen die lineare Unabhängigkeit der bi : Es gelten natürlich 0 = 0 · b1 + . . . + 0 · b1 und 0 = β1 b1 + . . . + βn bn mit unbekannten, aber eindeutig bestimmten Koeffizienten βi . Aus dieser Eindeutigkeit bekommen wir aber βi = 0 für alle i = 1, . . . , n. Also ist {b1 , . . . , bn } linear unabhängig. (ii) Sei nun B = {b1 , . . . , bn } ein linear unabhängiges Erzeugendensystem von V. Dann läßt sich jeder Vektor v ∈ V darstellen in der Form v = α1 b1 + . . . + αn bn . Die αi sind dabei eindeutig bestimmt, denn mit einer weiteren Darstellung v = β1 b1 + . . . + βn bn folgern wir 0 = (β1 − α1 )b1 + . . . + (βn − αn )bn und daher βi = αi für i = 1, . . . , n wegen der linearen Unabhängigkeit. Also ist B auch Basis. Beispiel 2. Die sogenannte kanonische Basis oder Standardbasis des Rn ist gegeben durch die zueinander orthogonalen Einheitsvektoren e1 = (1, 0, 0, . . . , 0), e2 = (0, 1, 0, . . . , 0), . . . , en = (0, 0, 0, . . . , 1). Zweitens bildet p0 (x) = 1, p1 (x) = x, p2 (x) = x2 , . . . , pn (x) = xn eine Basis des Vektorraums der Polynome vom Grad n. Für eine geometrische Deutung von Basen eines Vektorraumes V kommen wir nun zu Hilfssatz 2.1. Ist {v1 , . . . , vn } ein Erzeugendensystem für V, und sind u1 , . . . , um linear unabhängige Vektoren in V, so gilt m ≤ n. Wir können diese Aussage auch so ausdrücken: Besitzt V ein Erzeugendensystem {v1 , . . . , vn }, so ist jede aus m > n Vektoren bestehende Menge {u1 , . . . , um } linear abhängig. 2.2. BASIS UND ERZEUGENDENSYSTEME 35 Beweis. ∗ Wir werden genau diese Formulierung beweisen. ◦ Der Fall n = 1 : Seien V = Lin {v1 } und ui = αi v1 für i = 1, . . . , m mit m > 1. Für zwei nicht verschwindende Vektoren u1 = α1 v1 und u2 = α2 v1 mit α1 6= 0 und α2 6= 0 berechnen wir aber α2 u1 − α1 u2 = α2 α1 v1 − α1 α2 v1 = 0, also sind u1 und u2 linear abhängig. ◦ Die Behauptung sei nun für n − 1 bereits gezeigt. In V = Lin {v1 , . . . , vn } seien m > n Vektoren u1 , . . . , um gegeben, d.h. es gelten die Linearkombinationen n ui = ∑ αik vk , i = 1, . . . , m. k=1 O.B.d.A. sei α11 6= 0, was man z.B. durch Umnummerieren erreichen kann. Für i = 2, . . . , m betrachten wir dann die Vektoren uei := ui − n αi1 α u1 = ∑ αik vk − i1 α11 α 11 k=1 n α11 αi1 − αi1 α1k vk , α11 k=1 n ∑ α1k vk = ∑ k=1 d.h. es gilt uei ∈ Lin {v2 , . . . , vn } für alle i = 2, . . . , m. Da m − 1 > n − 1, folgt nach Induktionsvoraussetzung, dass {e u2 , . . . , uem } linear abhängig ist. Es gibt also λ2 , . . . , λm , welche nicht alle verschwinden, mit m m m m α λi αi1 0 = ∑ λi uei = ∑ λi ui − i1 u1 = ∑ λi ui − ∑ u1 α11 i=2 i=2 α11 i=2 i=2 bzw. ∑ λi ui λi αi1 , i=2 α11 m m 0= mit der Setzung i=1 λ1 := − ∑ und nicht alle λi verschwinden. Also ist {u1 , . . . , um } linear abhängig. Die zentrale Aussage dieses Resultats fassen wir in folgendem Satz zusammen. Satz 2.5. Besitzt der Vektorraum V eine Basis B aus n Vektoren, so besteht auch jede andere Basis aus genau n Vektoren. Definition 2.7. Die hierdurch charakterisierte Zahl n bezeichnen wir als die Basis des Vektorraums V und schreiben n = dimV. Im Fall V = {0} setzen wir dimV := 0. Die lineare Algebra beschräftigt sich mit endlich-dimensionalen Vektorräumen. Ausgehend von einem beliebigen, linear unabhängigen System läßt sich stets eine Basis konstruieren. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 36 Satz 2.6. (Basisergänzungssatz) Ist {v1 , . . . , vn } ein Erzeugendensystem von V, und bildet das linear unabhängige System {u1 , . . . , um } keine Basis von V, so lassen sich die u1 , . . . , um durch Hinzunahme geeigneter vk zu einer Basis von V ergänzen. Beweis. Setze U := {u1 , . . . , um } und M := {u1 , . . . , um , v1 , . . . , vn }. Betrachte nun alle Mengen S mit U ⊂S⊂M und V = Lin S. Dabei ist M selbst eine solche, eventuell in Frage kommende Menge (wir unterscheiden nicht zwischen ⊂ und ⊆). Weiter gibt es eine solche Menge S0 mit kleinster Elementezahl. Dann sind aber alle Vektoren aus S0 linear unabhängig, denn: ◦ Wäre ein vk ∈ S0 Linearkombination der restlichen Vektoren aus S0 , so wäre S0 nicht minimal in unserem Sinne. ◦ Wäre ein uℓ ∈ S0 Linearkombination der restlichen Vektoren aus S0 , so müsste für eine solche Linearkombination mindestens ein vk einen von Null verschiedenen Vorfaktor haben, da nämlich das System {u1, . . . , um } linear unabhängig ist. Dieses vk wäre dann aber Linearkombination der restlichen Vektoren aus S0 , und wir sind wieder beim Gegenargument des ersten Punktes. Also enthält S0 ein linear unabhängiges Erzeugendensystem, d.h. eine Basis. Aus diesem Beweis lässt sich leicht folgendes Resultat ableiten. Satz 2.7. Besitzt der Vektorraum V 6= {0} mit {v1 , . . . , vn } ein endliches Erzeugendensystem, so läßt sich aus diesem eine Basis von V auswählen. Aufgabe 3. Beweisen Sie diesen Satz. Wir wollen diesen Abschnitt mit zwei Bemerkungen abschließen. 1. In einem n-dimensionalen Vektorraum bilden je n linear unabhängige Vektoren eine Basis. 2. Hat ein Unterraum W ⊂ V die gleiche Dimension wie V, so gilt V = W. Die erste Aussage folgt direkt aus dem Basisergänzungssatz. Für die zweite Aussage betrachten wir zwei Basen B = {b1 , . . . , bn } und B ∗ = {b∗1 , . . . , b∗n } von V bzw. W. Wäre W ein echter Teilraum von V, so ist B ∗ auch keine Basis von V, lässt sich aber durch Hinzunahme geeigneter Elemente zu einer solchen Basis ergänzen. Dann ist aber dimV > n im Widerspruch zur Voraussetzung. 2.3. LINEARE ABBILDUNGEN 37 2.3 Lineare Abbildungen 2.3.1 Definition und erste Eigenschaften Wir beginnen mit der Definition 2.8. Eine Abbildung L : V → W zwischen zwei Vektorräumen V und W über R (oder C oder K) heißt linear, falls gilt L(α u + β v) = α L(u) + β L(v) für alle Skalare α , β ∈ R (oder C oder K) und alle Vektoren u, v ∈ V. Auch hier können wir also die Definition ausdehnen auf Vektorräume V und W, welche über allgemeinen Körpern K definiert sind, nicht nur über R oder C. Ein wesentliches Interesse der Linearen Algebra besteht in einem detaillierten Studium solcher linearen Abbildungen zwischen endlich-dimensionalen Vektorräumen. Wir wollen erste Eigenschaften linearer Abbildungen vorstellen. ◦ L(0) = 0 bzw. genauer L(0V ) = 0W mit 0V ∈ V und 0W ∈ W. Es ist nämlich L(0) = L(0 · 0 + 0 · 0) = 0 · L(0) + 0 · L(0) = 0. ◦ L(u + v) = L(u) + L(v) und L(α u) = α L(u) n n ◦ L ∑ αi ui = ∑ αi L(ui ) i=1 i=1 Die einfachsten Beispiele linearer Abbildungen sind ◦ die Nullabbildung 0 : V → W vermöge u 7→ 0; ◦ die Identität id : V → V vermöge u 7→ u. Auch die Abbildung L : R3 −→ R2 vermöge R3 ∋ (x, y, z) 7→ (x − y, x − y) ∈ R2 ist linear: Bezeichnen nämlich w = (x, y, z) und w′ = (x′ , y′ , z′ ), so verifizieren wir L(α w + β w) = = = = (α x + β x′ − α y − β y′, α x + β x′ − α x′ − β y′) (α (x − y) + β (x′ − y′ ), α (x − y) + β (x′ − y′ )) α (x − y, x − y) + β (x′ − y′ , x′ − y′ ) α L(w) + β L(w′ ). 38 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 2.3.2 Drehungen und Winkelfunktionen Hier zunächst weitere einfache Beispiele linearer Abbildungen: ◦ Es sei V = W = R2 . Die Abbildung L(v) = −v, v ∈ R2 , ist linear und vermittelt eine Drehung der gesamten Ebene um den Koordinatenursprung und um den Winkel 180◦. ◦ Es sei V = W = R2 . Die Abbildung v ∈ R2 , L(v) = 2v, ist linear und vermittelt eine Streckung der gesamten Ebene um den Faktor 2. ◦ Es sei V = W = R2 . Die Abbildung L(v) = (x, 0), v = (x, y) ∈ R2 , ist linear und vermittelt eine Orthogonalprojektion der gesamten Ebene auf die x-Achse. Aufgabe 4. Veranschaulichen Sie sich diese Abbildungen anhand eigener Skizzen. Warum sind sie linear? Betrachten wir Drehungen einmal genauer. Unter Verwendung der Winkelfunktionen Sinus sin : R → R und Kosinus cos : R → R lassen sich zunächst allgemeine Drehungen wie folgt einführen. Definition 2.9. Eine Drehung Dϕ um den Koordinatenursprung und um den Winkel ϕ ordnet jedem Punkt x = (x1 , x2 ) ∈ R2 den Bildpunkt zu Dϕ (x) := (x1 cos ϕ − x2 sin ϕ , x1 sin ϕ + x2 cos ϕ ) ∈ R2 . Aufgabe 5. Verifizieren Sie, dass diese Abbildung linear ist. Wir müssen klären, was unter diesen Winkelfunktionen zu verstehen ist. In einen Einheitskreis, d.h. in einen Kreis mit Radius r = 1, zeichnen wir einen Radiusvektor ein, welcher, wie skizziert, mit der x-Achse einen Winkel ϕ ∈ [0, 2π ) einschließt. y sin ϕ cos ϕ x 2.3. LINEARE ABBILDUNGEN 39 Auf eine genaue Definition des Begriffs Winkel verzichten wir an dieser Stelle und verlassen uns auf unsere Anschauung. Winkel werden wir abwechselnd in Bogenmaß oder in Gradmaß angegeben. Als Bogenmaß nach einem vollen Umlauf erhält man den Wert 2π , was genau der Länge des Einheitskreises entspricht. Definition 2.10. Den x-Anteil des Radiusvektors bezeichnen wir als den Kosinus des Winkels ϕ , den y-Anteil als den entsprechenden Sinus des Winkels, in Zeichen x = cos ϕ , y = sin ϕ . Dem Satz des Pythagoras entnehmen wir unmittelbar Satz 2.8. Es gilt stets cos2 ϕ + sin2 ϕ = 1. Ferner lesen wir aus obiger Skizze auch sofort folgende spezielle Werte ab: Winkel ϕ 0 cos ϕ 1 sin ϕ 0 π 4 √ 2 2 √ 2 2 π 2 0 1 Hieraus gewinnen wir auch die Sinus- bzw. Kosinuswerte für die Winkel ϕ= 3π 5π 3π 7π , π, , , 4 4 2 4 in den drei anderen Quadranten des Koordinatensystems. Wie lassen sich weitere Werte der Winkelfunktionen ermitteln, z.B. für die Winkel ϕ = π6 bzw. ϕ = π3 ? Betrachte dazu folgende Skizzen: y y P1 P2 x x Wir drehen die Aufgabenstellung um und suchen denjenigen Winkel ϕ , für welchen √ 3 1 1 sin ϕ = bzw. cos ϕ = wegen + cos2 ϕ = 1. 2 2 4 Nun verifiziert man für die Euklidischen Abstände der Punkte P1 , P2 und (0, 1) (vergleiche mit der Skizze) √ |P1 − (0, 1)|2 = |P1 − P2 |2 = |P2 − (1, 0)|2 = 2 − 3 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 40 mit den beiden Punkten P1 = √ 1 (1, 3), 2 P2 = 1 √ ( 3, 1). 2 Daher schließen wir sin 30◦ = 1 , 2 cos 30◦ = √ 3 , 2 sin 60◦ = √ 3 , 2 cos 60◦ = 1 . 2 Tatsächlich verifiziert dieser Beweis nur, was wir vorher schon wussten. π. 3 Aufgabe 6. Ermitteln Sie auf direktem Wege Sinus und Kosinus von Erweitern“ wir unsere Definition der Winkelfunktionen auf den gesamten Bereich der ” reellen Zahlen, so erhalten wir Satz 2.9. Die Funktionen sin : R → [−1, 1] und cos : R → [−1, 1] sind 2π -periodisch, d.h. für alle x ∈ R gelten sin x = sin(x + 2kπ ), cos x = cos(x + 2kπ ) für k ∈ Z. Außerdem sind Sinus und Kosinus gegenseitig verschoben gemäß π = cos x. sin x + 2 Die erweiterten“ Winkelfunktionen veranschaulichen wir dann wie gewohnt wie folgt: ” y sin x −π cos x π x Von zentraler Bedeutung ist nun folgender Satz 2.10. Es gelten die Additionsregeln cos(ϕ ± ψ ) = cos ϕ cos ψ ∓ sin ϕ sin ψ , sin(ϕ ± ψ ) = sin ϕ cos ψ ± cos ϕ sin ψ . Beweis. Die folgenden grafischen Beweise“ sind Roger B. Nelsens zweibändiger Samm” lung Proofs without words entnommen. Wir verweisen auch auf Glaesers Der mathematische Werkzeugkasten sowie auf Glaeser und Polthier Bilder der Mathematik. 2.3. LINEARE ABBILDUNGEN 41 1. Wir zeigen zunächst die Additionsregel für den Kosinus und betrachten dazu die folgende Skizze: y C β 1 B x D O A α Die folgenden Winkel sind rechte Winkel: ∠(OAB) und ∠(BDC) ◦ Wir wenden die Definition der Kosinusfunktion auf den Kreis mit Radius |OB| an und entnehmen |OA| = |OB| cos α sowie |AB| = |OB| sin α . Es folgt cos α = |OA| , |OB| sin α = |AB| . |OB| Damit schließen wir unter erneuter Anwendung der Definition des Kosinus, diesmal auf den Kreis vom Radius |OC| = 1, cos(α + β ) = |OA|, also cos(α + β ) = |OB| cos α bzw. cos(α + β ) . cos α ◦ Ferner wissen wir |DC| = sin β und folgern jetzt mit einem bekannten Strahlensatz, angewendet auf die Dreiecke △(OAB) und △(BDC), |OB| = |AB|/|OB| sin α |BD| |AB| |BD| = = = = |OA|/|OB| |OA| |DC| sin β cos α bzw. |BD| = sin β ◦ Zusammenfassend erhalten wir |OB| + |BD| = sin α . cos α sin α cos(α + β ) + sin β cos α cos α bzw. nach Multiplikation mit cos α und unter Beachtung von |OD| = cos β cos(α + β ) = |OB| + |BD| cos α − sin α sin β = |OD| cos α − sin α sin β = cos β cos α − sin α sin β , was das Additionstheorem für den Kosinus zeigt. 42 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 2. Wir wollen ebenfalls grafisch das Additionstheorem für den Sinus beweisen. Dazu betrachten wir die folgende Skizze: α β a b h Die Winkel α und β sind aus (0, π2 ) gewählt. Nach Definition der Kosinusfunktion berechnet sich die Höhe h des Dreiecks zu h = a cos α und h = b cos β . Wir zerlegen nun das Dreieck in seinen linken und rechten Anteil: α β a b h h Jetzt werden die einzelnen Flächeninhalte miteinander verglichen: 1 ab sin(α + β ) − Ausgangsdreieck 2 1 ah sin α − linkes Teildreieck 2 1 bh sin β − rechtes Teildreieck 2 Zusammen erhalten wir 1 1 1 ab sin(α + β ) = ah sin α + bh sin β 2 2 2 1 1 = ab cos β sin α + ba cos α sin β , 2 2 woraus nach Kürzen das Additionstheorem für den Sinus folgt. Aufgabe 7. Machen Sie sich die in diesem Beweis benutzten Strahlensätze und Flächeninhaltsformeln klar. Aufgabe 8. Beweisen Sie das Additionstheorem für die Sinusfunktion aus dem für die Kosinusfunktion. 2.3. LINEARE ABBILDUNGEN 43 Wir wollen uns schließlich von der Stetigkeit der auf ganz R fortgesetzten“ Winkel” funktionen sin : R −→ [−1, 1], cos : R −→ [−1, 1] überzeugen. Dazu wiederholen wir aus Paragraph 1.1.3 die Definition 2.11. Die Funktion f heißt im Punkt x stetig, wenn für jedes ε > 0 ein δ = δ (x, ε ) > 0 existiert, so dass gilt | f (x) − f (y)| < ε für alle y mit |x − y| < δ (x, ε ). Satz 2.11. Die Winkelfunktionen Sinus und Kosinus sind stetig. Erster Beweisteil. Wir zeigen nur die Stetigkeit der Sinusfunktion. 1. Aus ihrer Definition am Einheitskreis lesen wir zunächst ab | sin y| ≤ |y|. Damit folgt aber bereits für x = 0 | sin 0 − siny| = | sin y| ≤ |y| = |0 − y| < ε , falls nur δ (0, ε ) := ε für vorgelegtes ε > 0 gesetzt wird. Also ist der Sinus stetig im Punkt x = 0. 2. Als Übung möge man die Stetigkeit der Kosinusfunktion in x = 0 nachweisen. Aufgabe 9. Zeigen Sie, dass die Kosinusfunktion in x = 0 stetig ist. Wir benötigen im weiteren Verlauf des Beweise folgende fundamentale Dreiecksungleichung für die Betragsfunktion. Satz 2.12. Für alle reellen Zahlen x, y ∈ R gilt |x + y| ≤ |x| + |y|. Aufgabe 10. Beweisen Sie die Dreiecksungleichung durch Unterscheidung der möglichen Fälle x > 0, y > 0 usw. Zweiter Beweisteil. Wir verwenden das Additionstheorem für den Sinus und schätzen mit Hilfe der Dreiecksungleichung für beliebige x ∈ R und kleine Störungen“ |h| > 0 ” sowie der Regel |ab| = |a||b wie folgt ab | sin(x + h) − sinx| = = ≤ = | sin x cos h + cosx sin h − sinx| | sin x cos h − sinx cos 0 + cosx sin h − cosx sin 0| | sin x(cos h − cos0)| + | cosx(sin h − sin0)| | sin x|| cos h − cos0| + | cosx|| sin h − sin0|. Beachte nun | sin x| ≤ 1 und | cos x| ≤ 1 für alle x ∈ R, so dass folgt | sin(x + h) − sinx| ≤ | cos h − cos0| + | sin h − sin0|. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 44 Zu vorgelegtem ε > 0 finden wir aber ein δ = δ (ε ) > 0, so dass | cos h − cos0| ≤ ε und | sin h − sin 0| ≤ ε für alle |h| ≤ δ (ε ), da Sinus und Kosinus im Punkt x = 0 nach dem ersten Beweisteil stetig sind. Also folgt | sin(x + h) − sinx| ≤ 2ε für alle |h| ≤ δ (ε ), weshalb der Sinus in jedem Punkt x ∈ R stetig ist. Aufgabe 11. Zeigen Sie, dass die Kosinusfunktion stetig ist. 2.4 Verknüpfung von linearen Abbildungen 2.4.1 Der Vektorraum L(V,W ) Hilfssatz 2.2. Sind L1 , L2 : V → W zwei lineare Abbildungen zwischen den Vektorräumen V und W über dem gemeinsamen Körper K, so ist auch α L1 + β L2 : V −→ W vermöge u 7→ α L1 (u) + β L2(u) mit α , β ∈ K eine lineare Abbildung. Aufgabe 12. Beweisen Sie diesen Satz. Die sich hieraus ergebende Folgerung ist für unsere weiteren Untersuchungen von besonderer Wichtigkeit. Satz 2.13. Seien V und W zwei Vektorräume über dem gemeinsamen Köper K. Dann bildet die Menge L(V,W ) aller L : V → W ebenfalls einen Vektorraum über K. Im Falle V = W schreiben wir einfach L(V ) = L(V,V ). 2.4.2 Hintereinanderausführung von linearen Abbildungen Auch die nächste Eigenschaft linearer Abbildungen belassen wir als Übung. Satz 2.14. Es seien S : V → W und T : U → V zwei lineare Abbildungen zwischen den Vektorräumen U, V und W über dem gemeinsamen Körper K. Dann ist auch die Hintereinanderausführung S ◦ T : U −→ W eine lineare Abbildung. Aufgabe 13. Beweisen Sie diesen Satz. Sind also insbesondere T (u) = v und S(v) = w, so bedeutet diese Verknüpfung u 7→ w = S(v) = S(T (u)). 2.5. DIE DIMENSIONSFORMEL 45 2.5 Die Dimensionsformel 2.5.1 Kern und Bild linearer Abbildungen Die Dimensionsformel gehört zu den grundlegenden Identität der gesamten Linearen Algebra. Zu ihrem Verständnis benötigen wir einige weitere Begriffe. Definition 2.12. Das Bild und der Kern einer linearen Abbildung L : V → W sind definiert gemäß Bild L := {L(u) : u ∈ V } ⊂ W, Kern L := {u ∈ V : L(u) = 0} ⊂ V. Wir wollen diese beiden Begriffe auf die Beispiele aus Paragraph 2.3.2 anwenden. ◦ Für die Drehung L(v) = −v, v ∈ R2 , über den Winkel 180◦ gelten Bild L = R2 , Kern L = {0}. Beachte dim Bild L = 2, dim Kern L = 0. ◦ Für die Streckung L(v) = 2v, ∈ R2 , mit dem Faktor 2 gelten Bild L = R2 , Kern L = {0}. Beachte dim Bild L = 2, dim Kern L = 0. ◦ Für die Projektion L(v) = (x, 0), v = (x, y) ∈ R2 , gelten Bild L = R, Kern L = {(x, y) ∈ R2 : x = 0}. Beachte dim Bild L = 1, dim Kern L = 1. Hilfssatz 2.3. Es sind Bild L ein linearer Unterraum von W und Kern L ein linearer Unterraum von V. Beweis. 1. Die Menge Bild L ist nicht leer, da 0 = L(0), d.h. 0 ∈ Bild L. Gehören ferner w1 = L(v1 ) und w2 = L(v2 ) zu Bild L, so auch α L(v1 ) + β L(v2 ), denn wir berechnen α L(v1 ) + β L(v2) = L(α v1 ) + L(β v2 ) = L(α v1 + β v2 ) ∈ Bild L. 2. Wegen 0 = L(0) ist auch Kern L nicht leer, d.h. 0 ∈ Kern L. Sind v1 , v2 ∈ Kern L, so berechnen wir L(α v1 + β v2 ) = α L(v1 ) + β L(v2 ) = α · 0 + β · 0 = 0, d.h. α v1 + β v2 ∈ Kern L. Damit sind beide Behauptungen gezeigt. 46 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 2.5.2 Injektive lineare Abbildungen Wir wiederholen zunächst den Begriff einer injektiven Abbildung. Definition 2.13. Die lineare Abbildung L : V → W heißt injektiv, wenn L(v1 ) = L(v2 ) stets v1 = v2 zur Folge hat. Injektive lineare Abbildungen sind also eineindeutig und können über folgende Kerneigenschaft charakterisiert werden. Satz 2.15. Die lineare Abbildung L : V → W ist genau dann injektiv, wenn ihr Kern nur aus der 0 besteht, d.h. Kern L = {0}. Beweis. 1. Es sei L injektiv. Es gilt bekanntlich 0 ∈ Kern L, und 0 ∈ V ist dann wegen der Injektivität auch das einzige Element im Kern von L : Aus L(v) = 0 und L(0) = 0 folgt nämlich v = 0. 2. Umgekehrt sei nun Kern L = {0}. Seien v1 , v2 ∈ V gewählt mit L(v1 ) = L(v2 ). Dann berechnen wir 0 = L(v1 ) − L(v2 ) = L(v1 − v2 ), d.h. v1 − v2 ∈ Kern L. Da aber der Kern von L nur aus der 0 besteht, folgern wir v1 − v2 = 0 bzw. v1 = v2 . Daher ist L nach Definition injektiv. Dieses Resultat wird uns insbesondere bei der Lösung linearer Gleichungssysteme sehr oft wieder begegnen. 2.5.3 Die Dimensionsformel Wir kommen nun zum angekündigten Hauptergebnis dieses Abschnitts. Satz 2.16. Sei L : V → W eine lineare Abbildung. Besitzt der Vektorraum V die endliche Dimension n, so gilt die Dimensionsformel dim Kern L + dim Bild L = n. Beweis. ∗ Aus Gründen der Vollständigkeit wollen wir einen Beweis dieser Aussage nur im vorliegenden Manuskript erbringen. 1. Ist L die Nullabbildung, i.Z. L = 0, d.h. bildet L alle v ∈ V auf 0 ∈ W ab, so sind offenbar Kern L = V und dim Bild L = dim {0} = 0. Hier ist die Dimensionsformel also verifiziert, denn es ist dim Kern L = n. 2. Sei nun L 6= 0. Setze m := dim Kern L. Dann ist aber m < n (im Falle m = n wäre nämlich wieder V = Kern L). 2.5. DIE DIMENSIONSFORMEL 47 ◦ Ist nun m > 0, so wählen wir eine Basis {b1 , . . . , bm } von Kern L und ergänzen diese zu einer Basis des größeren Raums V : {b1 , . . . , bm , bm+1 , . . . , bn }. ◦ Ist hingegen m = 0, so wählen wir irgend eine Basis {b1 , . . . , bn } von V. Nun zum eigentlichen Beweis. (i) Zunächst zeigen wir Bild L = Span L(bm+1 ), . . . , L(bn ) . Denn einerseits enthält Bild L mit L(bm+1 ), . . . , L(bn ) auch deren lineare Hülle, d.h. Span L(bm+1 ), . . . , L(bn ) ⊂ BildV. Und andererseits gilt für ein beliebiges v = α1 b1 + . . . + αn bn wegen L(bk ) = 0 für alle k ≤ m (denn die b1 , . . . , bm bilden Basis vom Kern von L) L(v) = = n m n k=1 n k=1 k=m+1 ∑ αk L(bk ) = ∑ αk L(bk ) + ∑ ∑ k=m+1 und das bedeutet αk L(bk ) αk L(bk ) ∈ Span L(bm+1 ), . . . , L(bn ) , BildV ⊂ Span L(bm+1 ), . . . , L(bn ) . Daher gilt Mengengleichheit. (ii) Wir zeigen nun die lineare Unabhängigkeit von L(bm+1 ), . . . , L(bn ). Das würde dann dim Bild L = n − m nach sich ziehen, und wegen dim Kern L = m wäre die Dimensionsformel bewiesen. Mit n ∑ αk L(bk ) = 0, (∗) k=m+1 müssen wir dazu auf αm+1 = . . . = αn = 0 schließen. Für ein n v := ∑ αk bk k=m+1 bedeutet das aber L(v) = 0 wegen der Linearität von L, also v ∈ Kern L. ◦ Im Fall m = 0 eines eindimensionalen Kerns folgt v = 0, insbesondere also n auch ∑ αk bk = 0, woraus wiederrum αm+1 = . . . = αn = 0 folgen. k=m+1 ◦ Im Fall m > 0 gibt es Zahlen β1 , . . . , βm mit n v= ∑ k=m+1 αk bk = m ∑ βk bk , k=1 wobei die zweite Identität aus v ∈ Kern L folgt. Auch hier schließen wir αm+1 = . . . = αn = 0 aus der Eindeutigkeit der Basisdarstellung für v. Damit ist die Dimensionsformel gezeigt. 48 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE Beispiel 3. Betrachte die lineare Abbildung L(x, y) = (0, x − y, 2y), (x, y) ∈ R2 . ◦ Für deren Kern ermitteln wir unmittelbar Kern L = {(x, y) ∈ R2 : (0, x − y, 2y) = 0} = {(0, 0)}, denn x − y = 0 und y = 0 lassen sich nur für (x, y) = (0, 0) erfüllen. Zur Bestimmung des Kerns einer linearen Abbildung ist stets ein lineares Gleichungssystem zu lösen. ◦ Da also dim Kern L = 0, ist der Bildraum der linearen Abbildung L zweidimensional nach dem Dimensionssatz: dim Bild L = 2. Das erscheint uns unmittelbar schlüssig, denn die erste Komponente der Abbildung ist gleich Null. ◦ Zur näheren Bestimmung des Bildes der Abbildung L führen wir zwei unabhängige Parameter s ∈ R und t ∈ R ein gemäß s := x, t := y. − Im Falle t = 0 wird Bild L beschrieben durch {(0, s, 0) = s(0, 1, 0) ∈ R3 : s ∈ R} . − Im Falle s = 0 wird Bild L beschrieben durch {(0, −t, 2t) = t(0, −1, 2) ∈ R3 : t ∈ R} . Die Vektoren (0, 1, 0) und (0, −1, 2) sind linear unabhängig und bilden daher eine Basis für einen zweidimensionalen Unterraum des R3 , nämlich genau für den Bildraum der Abbildung L in parametrischer Darstellung Bild L = {s(0, 1, 0) + t(0, −1, 2) : s,t ∈ R} . 2.6 Lineare Abbildungen und Matrizen In diesem Kapitel werden wir lineare Abbildungen mittels sogenannter Matrizen beschreiben. Das Matrizenkalkül wurde besonders von C.F. Gauß, J.J. Sylvester und A. Cayley im 19. Jahrhundert entwickelt. 2.6.1 Basisdarstellung Die Kenntnis der Bilder der Basisvektoren erlaubt einen Rückschluss auf die Struktur der lineare Abbildung. Das lehrt der 2.6. LINEARE ABBILDUNGEN UND MATRIZEN 49 Satz 2.17. Es stelle {b1 , . . . , bn } eine Basis des Vektorraums V dar. 1. Eine lineare Abbildung L : V → W ist unter Kenntnis der Bildvektoren L(b1 ), . . . , L(bn ) vollständig bestimmt. 2. Zu vorgegebenen Vektoren w1 , . . . , wn ∈ W gibt es genau eine lineare Abbildung L : V → W mit L(b1 ) = w1 , . . . , L(bn ) = wn . n Beweis. 1. Es sei ein beliebiges v = ∑ αk bk ∈ V gewählt. Dann gilt k=1 n L(v) = ∑ αk L(bk ), k=1 aber die L(bk ) sind nach Voraussetzung bekannt. Damit ist L(v) bestimmt. 2. Gegeben seien w1 , . . . , wn , und gesucht ist eine lineare Abbildung L : V → W mit n ∑ αk bk setzen wir L(bi ) = wi . Für beliebiges v = k=1 n L(v) := ∑ αk wk . k=1 Diese Abbildung ist linear, und nach dem ersten Beweispunkt ist L auf ganz V vollständig bestimmt und eindeutig. 2.6.2 Matrixdarstellung linearer Abbildungen Betrachte eine lineare Abbildung L : V → W zwischen zwei Vektorräumen V und W über R (oder C oder K). Nach dem eben Gesagten genügt es, die Bilder einer Basis V = {v1 , . . . , vn } von V zu kennen, um L vollständig zu beschreiben. Bezüglich einer Basis W = {w1 , . . . , wm } des Vektorraums W lassen sich diese Bilder L(vk ) schreiben als m L(vk ) = ∑ aik wi , k = 1, . . . , n, i=1 mit eindeutig bestimmten Koeffizienten aki ∈ R. Diese Koeffizienten ordnen wir in Form einer reellwertigen (komplexwertigen etc.) Matrix a11 a12 · · · a1n a21 a22 · · · a2n m×n . A := . .. ∈ R .. .. . . am1 am2 ··· amn KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 50 Wir sprechen auch von einer (m × n)-Matrix mit Komponenten aik und mit m Zeilen und n Spalten. Dabei sind m die Dimension von W und n die Dimension von V. Definition 2.14. Die Matrix A heißt die Übergangsmatrix der linearen Abbildung L : V → W und wird mit MW V (L) bezeichnet. Im Falle V = W schreiben wir kurz MV = MVV , gelegentlich auch einfach M(L). An dieser Stelle führen wir folgende wichtige Bemerkungen an: ◦ Zu jeder linearen Abbildung gehört nach voriger Konstruktion eine Matrix. ◦ Die Spalten von MW V entsprechen den Bildern L(vi ) der Basisvektoren vi von V. ◦ Wir werden sehen, dass auch umgekehrt zu jeder Matrix eine lineare Abbildung gehört. Beachten Sie ferner, dass Vektoren gewöhnlich als Spaltenvektoren verstanden werden. Aus Gründen der Übersichtlichkeit notieren wir aber in unserer Vorlesung Vektoren meist in transponierter Zeilenform, siehe unten. Beispiel 4. Es sei L : R2 → R2 eine lineare Abbildung, V = R2 und W = R2 seien jeweils mit der Standardbasis {e1 , e2 } ausgestattet. Ferner sei L(e1 ) = 2e1 − e2 , Dann ist M(L) = L(e2 ) = e2 . 2 0 . −1 1 2.6.3 Spezielle Matrizen Wir wollen zunächst wichtige Beispiele von Matrizen vorstellen. ◦ Die Nullmatrix 0 ∈ Rm×n ist eine Matrix mit m Zeilen und n Spalten, deren Koeffizienten sämtlich Null sind. ◦ Die Einheitsmatrix En ∈ Rn×n ist eine quadratische Matrix mit den Koeffizienten ( 1 für i = j ai j = δi j := . 0 für i 6= j Dabei heißt δi j das Kroneckersymbol. ◦ Bezüglich der kanonischen Basis {e1 , e2 } des R2 besitzen Drehmatrizen folgende Gestalt ! cos ϕ − sin ϕ Dϕ = sin ϕ cos ϕ mit einem Drehwinkel ϕ ∈ [0, 2π ]. 2.7. MATRIZENALGEBRA 51 Diese spezielle Darstellung entnimmt man sofort den entsprechenden Bildern der Basisvektoren e1 und e2 : e1 7→ Dϕ ◦ e1 = (cos ϕ , sin ϕ )T , e2 7→ Dϕ ◦ e2 = (− sin ϕ , cos ϕ )T . In Dϕ stehen nun die Bilder der Basis {e1 , e2 } als Spalten, d.h. cos ϕ (cos ϕ , sin ϕ )T = usw. sin ϕ Den Begriff des transponierten Vektors werden wir gleich definieren. Offenbar hängt die Abbildungsmatrix von der gewählten Basis ab. Unter Umständen lässt sich eine Abbildungsmatrix auch unter Verwendung einer geeigneten Basis in besonders einfacher Form schreiben. Doch bevor wir dazu näher eingehen, benötigen wir weitere Begriffe. Definition 2.15. ◦ Die zu der Matrix A = (ai j )i, j transponierte Matrix ist AT := (a ji ) j,i ◦ Die quadratische Matrix A = (ai j )i, j=1,...,n heißt symmetrisch, falls gilt ai j = a ji für alle i, j = 1, . . . , n, insbesondere also AT = A. ◦ Die quadratische Matrix A = (ai j )i, j=1,...,n heißt antisymmetrisch oder schiefsymmetrisch, falls gilt (die Multiplikation von Matrizen mit Skalaren, in diesem Fall also mit dem Skalar −1, behandeln wir ausführlich in Paragraph 2.7.3) AT = −A. Insbesondere verschwinden in diesem Fall alle Diagonalelemente: aii = 0 für alle i = 1, . . . , n. Transponieren bildet einen Spaltenvektor auf seinen Zeilenvektor und umgekehrt ab: v1 .. T (v1 , . . . , vn ) = . . vn 2.7 Matrizenalgebra Über die Wirkungen linearer Abbildungen wollen wir nun skalare Vielfache, Summen und Produkte von Matrizen ermitteln. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 52 2.7.1 Matrix-Vektor-Multiplikation Die lineare Abbildung L : V → W bilde v ∈ V auf L(v) ∈ W. Seien ferner V = {v1 , . . . , vn } und W = {w1 , . . . , wm } Basen von V bzw. W. Ein x ∈ V und sein Bild z = L(x) ∈ W besitzen bez. dieser Basen die Komponenten xV = (ξ1 , . . . , ξn )T , zW = L(x)W = (ζ1 , . . . , ζm )T . Die Wirkung der Abbildungsmatrix MW V = A = (ai j )i, j auf die Basisvektoren v1 , . . . , vn war ferner gegeben durch m L(vk ) = ∑ aik wi , k = 1, . . . , n. i=1 T Satz 2.18. Die Wirkung der Matrix MW V auf den Vektor xV = (ξ1 , . . . , ξn ) bez. der Basis V und sein Bild zW = L(x)W = (ζ1 , . . . , ζm )T bez. der Basis W ist n ∑ aik ξk , ζi = i = 1, . . . , m. k=1 Beweis. Mit x = ξ1 v1 + . . . + ξn vn berechnen wir nämlich L(x) = L(ξ1 v1 + . . . + ξn vn ) = ξ1 L(v1 ) + . . . + ξn L(vn ) m m = ξ1 ∑ ai1 wi . . . + ξn ∑ ain wi = i=1 = m n i=1 k=1 ∑ ∑ aik ξk ! i=1 n n k=1 k=1 ∑ (a1k ξk )w1 + . . . + ∑ (amk ξk )wm wi . Daraus folgt die Behauptung. Mit den Setzungen ζ = zW ∈ Rm und ξ = xV ∈ Rn , d.h. ζ = (ζ1 , . . . , ζm )T ∈ Rm , ξ = (ξ1 , . . . , ξn )T ∈ Rn können wir die Identität des Satzes in der prägnanten Form schreiben ζ = A◦ξ bzw. ζi = n ∑ aik ξk . k=1 Beachten Sie, dass die Vektoren ξ und ζ Spaltenvektoren sind. Das ist die angekündigte Matrix-Vektor-Multiplikation: Die (m × n)-Matrix A = (aik )i, j überführt den Vektor ξ ∈ Rn in den Vektor ζ ∈ Rm . 2.7. MATRIZENALGEBRA 53 Beispiel 5. Es ist 2 3 0 ◦ −1 = . 6 3 0 1 2 4 5 Machen Sie sich die Einzelheiten unserer vorigen theoretischen Aussagen an diesem Beispiel deutlich! Beispiel 6. Wir greifen das Beispiel aus Paragraph 2.6.2 auf. Die lineare Abbildung L : R2 → R2 vermöge L(e1 ) = 2e1 − e2 , L(e2 ) = e2 besitzt bez. der Standardbasis {e1 , e2 } die Matrixdarstellung 2 0 M(L) = . −1 1 Wir verifizieren 2 −1 2 M(L) ◦ e2 = −1 M(L) ◦ e1 = 0 1 2 ◦ = = L(e1 ), 1 0 −1 0 0 0 ◦ = = L(e2 ). 1 1 1 Wir haben mit der Übergangsmatrix einer vorgelegten linearen Abbildungen eine Matrix zugeordnet. Es gilt aber auch das Umgekehrte: Es sei M ∈ Rm×n eine (m, n)Matrix. Dann ist die durch Rn ∋ v 7→ L(v) = M ◦ v ∈ Rm gegebene Abbildung linear. Aufgabe 14. Beweisen Sie diese Aussage. 2.7.2 Summe und Vielfaches von Matrizen Satz 2.19. Die Summe zweier Matrizen A = (ai j )i, j und B = (bi j )i, j , deren Zeilen- und Spaltenzahl jeweils übereinstimmen, ist nach der Wirkung additativ zusammengesetzter linearer Abbildungen gegeben durch A + B := (ai j + bi j )i, j . Für ein λ ∈ K ist ferner ein Vielfaches der Matrix A gegeben durch λ · A = (λ ai j )i, j . KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 54 Beweis. Seien S, T : V → W zwei lineare Abbildungen zwischen den Vektorräumen V und W über dem gemeinsamen Körper R, welche ihrerseits mit Basen V = {v1 , . . . , vn } und W = {w1 , . . . , wm } ausgestattet seien. In Paragraph 2.4.1 haben wir Summe und Vielfaches zweier linearer Abbildungen kennen gelernt. Mit λ , µ ∈ R betrachten wir also die lineare Abbildung λ S + µ T : V −→ W. Die zugehörige Abbildungsmatrix C bez. der Basen V und W ist in eindeutiger Weise gegeben durch m (λ S + µ T )(vk ) = ∑ cik wi , k = 1, . . . , n. i=1 Wir berechnen insbesondere m m i=1 i=1 (λ S + µ T )(vk ) = λ S(vk ) + µ T (vk ) = λ · ∑ aik wi + µ · ∑ bik wi m = ∑ (λ aik + µ bik )wi i=1 bzw. nach Vergleich cik = λ aik + µ bik . Damit ist die Aussage gezeigt. Beispiel 7. Es sind 1 3 2 0 7 + −2 1 2 sowie 4· 2 1 0 −1 8 = 0 3 5 2 −1 −2 4 −1 8 −4 = . −2 4 −8 Machen Sie sich an diesen Beispielen die Einzelheiten unserer vorigen theoretischen Aussagen deutlich. 2.7.3 Produkte von Matrizen Wie in Paragraph 2.4.2 betrachten wir die Komposition L = S ◦ T mit T : U −→ V, S : V −→ W, wobei die Vektorräume U, V und W mit folgenden Basen ausgestattet seien: U V W mit U = {u1 , . . . , un }, mit V = {v1 , . . . , vm }, mit W = {w1 , . . . , wℓ }. Die zugehörigen Abbildungsmatrizen seien bezeichnet mit ℓ×m MW , V (S) = A = (ai j )i, j ∈ R MVU (T ) = B = (bi j )i, j ∈ Rm×n . 2.7. MATRIZENALGEBRA 55 Satz 2.20. Die Abbildungsmatrix MW U der Verknüpfung L = S ◦ T : U → W ist gegeben durch das Matrixprodukt C = A ◦ B ∈ Rℓ×n m mit den Komponenten cik = ∑ ai j b jk , i = 1, . . . , ℓ, k = 1, . . . , n. j=1 Aufgabe 15. Beweisen Sie diesen Satz. Beispiel 8. Es ist 1 0 0 1 2 −1 3 ◦ 1 2 = 1 0 1 −1 3 2 . 2 Machen Sie sich auch an diesem Beispiel die Einzelheiten unserer vorigen theoretischen Aussagen deutlich. 2.7.4 Weitere Rechenregeln für Matrizen Aus den bisher gelernten Regeln entnehmen wir den als Übung zu beweisenden Satz 2.21. Es gelten die folgenden Regeln. 1. Bei fest gewählten Basen V und W der Vektorräume V (der Dimension n) bzw. W (der Dimension m) gibt es zu jeder m× n-Matrix genau eine lineare Abbildung L : V → W mit A = MW V (L) . 2. Die m × n-Matrizen mit Koeffizienten aus dem Körper K bilden einen K-Vektorraum der Dimension m · n. 3. Für die Multiplikation zweier Matrizen (geeigneter Dimensionen) gelten (i) das Assoziativitätsgesetz A ◦ (B ◦ C) = (A ◦ B) ◦ C; (ii) das Distributivitätsgesetz A ◦ (B + C) = A ◦ B + A ◦ C. Aufgabe 16. Beweisen Sie diesen Satz. 2.7.5 Die Algebra der quadratischen Matrizen Ebenso mache man sich folgende Aussagen klar. Satz 2.22. Es gelten die folgenden Regeln. ◦ Die n × n-Matrizen mit Koeffizienten aus K bilden einen K-Vektorraum der Dimension n2 . ◦ Die Matrixmultiplikation ist assoziativ und distributiv. ◦ Die Einheitsmatrix En ist das neutrale Element der Matrixmultiplikation. ◦ Die Matrixmultiplikation ist für n ≥ 2 i.A. nicht kommutativ. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 56 ◦ Die Matrixmultiplikation ist nicht nullteilerfrei, d.h. i.A. folgt aus A ◦ B nicht A = 0 oder B = 0. Beweis. Wir wollen nur ein Gegenbeispiel für die letzten zwei Aussagen geben. Betrachte dazu die Matrizen 0 1 0 0 A= und B = . 0 0 1 0 Dann berechnen wir A◦B = 1 0 , 0 0 B◦A = 0 0 , 0 1 d.h. es gilt A ◦ B 6= B ◦ A. Wir haben aber auch 0 0 A2 = A ◦ A = , 0 0 obwohl A 6= 0. Wir sagen, die Menge M(n, K) der n × n-Matrizen bildet eine nichtkommutative Algebra mit Einselement En . 2.8 Vektorraumisomorphismen 2.8.1 Invertierbare lineare Abbildungen In diesem Abschnitt betrachten wir invertierbare lineare Abbildungen. Dazu sei an folgenden Begriff erinnert: Die lineare Abbildung heißt bijektiv, falls sie sowohl injektiv als auch surjektiv ist. Ist L : V → W bijektiv, so kann ihre Inverse oder Umkehrabbildung L−1 : W → V erklärt werden: Für jedes w ∈ W existiert dann genau ein v ∈ V mit L(v) = w, in Zeichen L−1 (w) = v. Satz 2.23. Ist die lineare Abbildung L : V → W bijektiv, so ist ihre Umkehrung L−1 : W → V ebenfalls linear. Beweis. Seien w1 , w2 ∈ W und α1 , α2 ∈ K. Wegen der Bijektivität von L gibt es eindeutig bestimmte v1 , v2 ∈ V mit w1 = L(v1 ), w2 = L(v2 ) bzw. v1 = L−1 (w1 ), v2 = L−1 (w2 ). Wegen der Linearität von L gilt L(α1 v1 + α2 v2 ) = α1 w1 + α2 w2 ∈ W, und daher ist L−1 (α1 w1 + α2 w2 ) = α1 v1 + α2 v2 = α1 L(w1 ) + α2 L(w2 ), was zu zeigen war. 2.8. VEKTORRAUMISOMORPHISMEN 57 Dazu folgendes Beispiel: Die Abbildung L : R2 −→ R2 vermöge L(x, y) = (x + 2y, x − y) ist eine bijektive lineare Abbildung mit der Umkehrabbildung −1 L 2 : R −→ R −1 2 vermöge L (u, v) = 1 1 (u + 2v), (u − v) . 3 3 2.8.2 Was sind Isomorphismen? Wir wollen die Strukturen bijektiver, linearer Abbildungen genauer studieren. Definition 2.16. Eine bijektive lineare Abbildung L : V → W heißt Vektorraumisomorphismus oder kurz Isomorphismus. Satz 2.24. Ist L : V → W ein Isomorphismus, so auch die Umkehrung L−1 : W → V. Beweis. Man mache sich klar, dass mit L auch L−1 bijektiv ist. Nach vorigem Satz ist zudem auch L−1 linear. Das zeigt bereits die Aussage. 2.8.3 Folgerungen Wir können jetzt folgende wichtige Charakterisierungen von Isomorphismen beweisen. Satz 2.25. Sei L : V → W ein Vektorraumisomorphismus. Dann gelten (i) Sind v1 , . . . , vℓ ∈ V linear unabhängig, so auch L(v1 ), . . . , L(vℓ ). (ii) Wird V von {v1 , . . . , vℓ } erzeugt, so wird W von {L(v1 ), . . . , L(vℓ )} erzeugt. (iii) Ist {v1 , . . . , vn } Basis von V, so ist {L(v1 ), . . . , L(vn )} Basis von W. (iv) Es gilt dimV = dimW. Beweisskizze. (i) Diese Aussage belassen wir als Übungsaufgabe. (ii) Sei w ∈ W gegeben. Zu v = L−1 (w) gibt es α1 , . . . , αℓ ∈ K mit ℓ v = ∑ αi vi , i=1 ℓ also auch w = L(v) = ∑ αi L(vi ). i=1 (ii) Folgt aus (i) und (ii) (iv) Folgt aus (i) und der entsprechenden Aussage für L−1 . Der Student möge den Beweis selbst vervollständigen. 58 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 2.8.4 Isomorphe Vektorräume Vektorräume, zwischen denen ein Isomorphismus existiert, sind also sehr eng miteinander verwandt. Definition 2.17. Zwei Vektorräume V und W heißen isomorph, in Zeichen V ≈ W, falls ein Isomorphismus L : V → W existiert. Wir kommen nun zu dem zentralen Resultat unserer bisherigen Theorie. Satz 2.26. Sei V ein Vektorraum mit Basis {v1 , . . . , vn }. Dann gilt V ≈ Rn . Zum Beweis benötigen wir folgenden Hilfssatz 2.4. Die Abbildung L : V → W ist genau dann bijektiv, wenn ein T : W → V existiert mit T ◦ L = idV und L ◦ T = idW . Für ein solches T gilt also L−1 = T. Aufgabe 17. Beweisen Sie diesen Satz. Beweis des Satzes. Wir versehen den Rn mit der kanonischen Basis {e1 , . . . , en }. Nach Satz 2.17 gibt es eindeutig bestimmte lineare Abbildungen S : Rn → V und Sb: V → Rn mit den Eigenschaften S(ei ) = vi b i ) = ei und S(v für i = 1, . . . , n. b i ) = vi folgen Aus (Sb◦ S)(ei ) = ei und (S ◦ S)(v Sb◦ S = idRn sowie S ◦ Sb = idV , denn die linearen Abbildungen S ◦ Sb und Sb ◦ S sind durch die Werte auf einer Basis ja eindeutig festgelegt. Die Aussage folgt jetzt aus vorigem Hilfssatz. 2.8.5 Der Rang linearer Abbildungen und Matrizen Für die Invertierbarkeit linearer Abbildungen ist also der Begriff der Bijektivität grundlegend. Zunächst halten wir fest, dass wegen der Dimensionsformel, d.h. wegen der zentralen Kern-Bild-Formel dim Kern L + dim Bild L = n, bijektive lineare Abbildungen L : V → W nur zwischen Vektorräumen derselben Dimension existieren, d.h. es muss notwendig (nicht unbedingung hinreichend!) sein dimV = dimW. Bevor wir zu einer umfassenden Charakterisierung invertierbarer linearer Abbildungen kommen, müssen wir weitere Begriffe einführen. 2.8. VEKTORRAUMISOMORPHISMEN 59 Definition 2.18. Als den Rang der linearen Abbildung L : V → W verstehen wir die Dimension ihres Bildraums, in Zeichen Rang L := dim Bild L. Der Corang oder Defekt der linearen Abbildung L : V → W ist definiert als Corang L := dim Kern L. Es sei nun A die zur linearen Abbildung L : V → W gehörige (m × n)-dimensionale Abbildungsmatrix. Definition 2.19. Der Spaltenrang der Matrix A ist definiert als der Rang der zugehörigen linearen Abbildung L. Der Zeilenrang von A ist schließlich der Spaltenrang der transponierten Matrix AT . Zusammengefasst sind also SpaltenrangA ZeilenrangA = = Rang L, SpaltenrangAT . Wie können wir uns diese Definition veranschaulichen? ◦ Wegen V ≈ Rn dürfen wir V = Rn annehmen. ◦ Die Bilder L(ei ) der Standardbasis {e1 , . . . , en } des Rn bilden ein Erzeugendensystem von Bild L. Nach dem Basisauswahlsatz lässt sich hieraus eine Basis von Bild L auswählen. ◦ Andererseits lassen sich die Spalten von A auch durch L(e1 ) = A ◦ e1 , . . . , L(en ) = A ◦ en darstellen, und daher reden wir vom Spaltenrang, wenn die Dimension der Bildmenge Bild L in Frage steht. 2.8.6 Charakterisierungssatz Da bijektive lineare Abbildungen nur zwischen Vektorräumen derselben Dimension existieren, können wir o.B.d.A. einfach Abbildungen L : Rn → Rn betrachten. Das ist der Inhalt des allgemeinen Isomorphieresultats Satz 2.26. Satz 2.27. Es sei L : Rn → Rn eine lineare Abbildung mit zugehöriger Abbildungsmatrix A ∈ Rn×n . Dann sind folgende Aussagen äquivalent: ◦ L ist invertierbar. ◦ A ist nichtsingulär bzw. regulär, d.h. es gibt eine (n × n)-Matrix B mit A ◦ B = B ◦ A = En . ◦ Es gibt eine (n × n)-Matrix B mit B ◦ A = En . 60 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE ◦ Es gibt eine (n × n)-Matrix B mit A ◦ B = En . ◦ Zeilenrang und Spaltenrang sind gleich n (siehe Paragraph 2.10.8 für die Rangidentität) ◦ Alle Spalten von A sind lineare unabhängig. ◦ Alle Zeilen von A sind linear unabhängig. ◦ L ist injektiv. ◦ L ist surjektiv. Aufgabe 18. Beweisen Sie diesen Satz. 2.8.7 Inverse Matrizen An diesen Satz schließt sich unmittelbar folgende Begriffsbildung an. Definition 2.20. Die quadratische Matrix B aus dem zweiten Punkt des vorigen Satzes heißt die zur quadratischen Matrix A gehörige inverse Matrix und wird mit A−1 bezeichnet. Unter den Voraussetzungen des vorigen Satzes können wir damit schreiben A−1 ◦ A = A ◦ A−1 = En . Und noch präziser haben wir den Satz 2.28. Die invertierbare lineare Abbildung L : V → V mit zugehöriger Abbildungsmatrix A = MV (L) bez. einer Basis V von V sei gegeben. Dann gilt A−1 = MV (L−1 ). Beweis. Es bezeichne L−1 : V → V die Inverse zu L : V → V, so dass L−1 ◦ L = L ◦ L−1 = idV . Für die zugehörigen Abbildungsmatrizen A = MV (L) und B = MV (L−1 ) schließen wir daraus A ◦ B = B ◦ A = En , d.h. es gilt A−1 = B, was die Behauptung beweist. 2.8.8 Die Inverse eines Produktes Unsere einführenden Betrachtungen zu invertierbaren Abbildungen schließen wir mit folgendem Resultat ab, dessen Beweis wir als Übung belassen. Satz 2.29. Sind A und B invertierbare Matrizen, so ist auch A ◦ B invertierbar mit (A ◦ B)−1 = B−1 ◦ A−1 . Aufgabe 19. Beweisen Sie diesen Satz. 2.9. BASISTRANSFORMATIONEN 61 2.9 Basistransformationen 2.9.1 Problemstellung Der Vektorraum V sei mit zwei Basen A = {a1 , . . . , an } und B = {b1, . . . , bn } ausgestattet. In Termen dieser Basisvektoren lässt sich also ein beliebiger Vektor v ∈ V darstellen in der Form n v = ∑ αi ai = i=1 n ∑ β jb j . j=1 Unter Benutzung von Koordinaten schreiben wir vA = (α1 , . . . , αn ), vB = (β1 , . . . , βn ). Wie lassen sich aber diese beiden Darstellungen ineinander überführen? 2.9.2 Die Transformationsmatrix Wir wollen einen in der Basis A = {a1, . . . , an } gegebenen Vektor v ∈ V umrechnen in eine Darstellung bez. einer weiteren Basis B = {b1, . . . , bn } von V. Definition 2.21. Als Transformationsmatrix zwischen den Basen A und B, S ∈ Rn×n , bezeichnen wir diejenige quadratische Matrix, deren k-te Spalte gleich dem Koordinatenvektor von bk ∈ V bez. der Ausgangsbasis A ist. 2.9.3 Die Transformationsmatrix und lineare Abbildungen Um S näher zu bestimmen, erinnern wir zunächst an unsere Definition der Abbildungsmatrix A = MW V (L) einer linearen Abbildung L : V → W zwischen zwei Vektorräumen V und W, deren Spalten die Bilder L(vk ) der Basisvektoren vk ∈ V enthalten, d.h. m L(vk ) = ∑ aik wi , A = MW V (L), i=1 mit einer Basis W = {w1 , . . . , wm } von W. In unserem Fall ist der einzige Vektorraum V = W mit zwei Basen A und B ausgestattet, und es geht um die Bilder der Basisvektoren bk ∈ B bez. der Basis A nach Anwenden der identischen Abbildung id : V → V. Es ist also zu setzen S = MA B (id). KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 62 Satz 2.30. Die Abbildungsmatrix S ist regular, und ihre Inverse ist gegeben durch S−1 = MB A (id). Die Spalten von S−1 entsprechen also den Koordinatenvektoren (ak )B . Beweis. Wieder beginnen wir mit dem allgemeinen Fall: Die Vektorräume U, V und W seien mit Basen U , V und W ausgestattet. Wir betrachten die lineare Verknüpfung L = S ◦ T : U −→ W mit zwei linearen Abbildungen T : U → V und S : V → W. Dann gilt W V MW U (L) = MV (S) ◦ MU (T ). In unserem Fall gelten aber U = V = W und S = T = idV . Es ergibt sich also A A B B En = MA A (id) = MA (id ◦ id) = MB (id) ◦ MA (id) = S ◦ MA (id). Daraus schließen wir auf die Regularität von S mit S−1 = MB A (id). 2.9.4 Transformationsverhalten Es ist immer noch S = MA B (id). Satz 2.31. Es sei L : V → V eine lineare Abbildung. Zwischen den Abbildungsmatrizen A B = MB B (L) und A = MA (L) besteht der folgende Zusammenhang B = S−1 ◦ A ◦ S. Beweis. Wir berechnen nämlich B B A −1 B = MB ◦ MA B (L) = MB (id ◦ L) = MA (id) ◦ MB (L) = S B (L) −1 ◦ MA (L) ◦ MA (id) = S−1 ◦ MA (L) ◦ S. = S−1 ◦ MA B (L ◦ id) = S A B A Das wurde behauptet. Unser nächstes Resultat beantwortet nun die eingangs gestellte Frage nach der Darstellung eines gegebenen Vektors bez. zweier verschiedener Basen. Satz 2.32. Der Vektorraum V sei mit Basen A = {a1 , . . . , an } und B = {b1 , . . . , bn } ausgestattet. Sei ferner ein v ∈ V beliebig gewählt mit den Koordinatendarstellungen v A ∈ Rn und vB ∈ Rn . Dann gelten vA = S ◦ vB und vB = S−1 ◦ vA mit der Transformationsmatrix S = MA B (id). 2.9. BASISTRANSFORMATIONEN 63 Beweis. Hierzu erinnern wir daran, wie man mittels der Abbildungsmatrix MW V (L) einer linearen Abbildung L : V → W mit Basen V bzw. W Koordinaten umrechnet: Sind nämlich ein Vektor ξV = (ξ1 , . . . , ξn )T bez. der Basis V und ein zweiter Vektor ζW = (ζ1 , . . . , ζm )T bez. der Basis W gegeben, so wissen wir aus Satz 2.18 ζi = n ∑ a i j ξk , i = 1, . . . , m, k=1 in Komponentenschreibweise mit MW V (L) = A = (aik )i,k bzw. kurz ζW = MW V (L) ◦ ξV . Das wenden wir nun auf unsere Situation mit V = W, zugehörigen Basen A und B und der linearen Abbildunge L = id an und erhalten vA = (id(v))A = MA B (id) ◦ vB = S ◦ vB , was zu zeigen war. 2.9.5 Ein Beispiel Es seien A = (1, 0), (0, 1) , √ √ B = (− 3, −1), (−1, 3) zwei Basen des R2 , gegeben bez. der Standardbasis {e1 , e2 }. Ferner seien zwei Vektoren gegeben √ xA = (− 3, −1)T , yB = (−2, 3)T . Gesucht sind die Darstellungen xB und yA . Offenbar entspricht xA genau dem ersten Basisvektor von B. Wir erwarten daher, dass xA bez. dieser neuen Basis die Komponenten (1, 0) besitzt, d.h. xB = (1, 0). Eine vergleichbare Vorüberlegung für yB ist schwieriger. Zur Lösung schreiben wir zunächst S = MA B (id) = √ − 3 √ −1 3 −1 (die erste Spalte enthält den Koordinatenvektor b1 bez. der Basis A , die zweite Spalte enthält b2 bez. A ) mit der Inversen √ 1 3 1 √ . S−1 = MB (id) = − A 4 1 − 3 Damit berechnen wir xB = S−1 ◦ xA = − 1 4 √ √ 1 −4 3 1 1 − 3 √ =− ◦ = , 0 −1 1 − 3 4 0 was unsere Vorüberlegung verifiziert. Für yA erhalten wir schließlich √ √ −2 2 3− − 3 √ −1 √3 . ◦ = yA = S ◦ yB = 3 −1 2+3 3 3 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 64 2.10 Lineare Gleichungssysteme 2.10.1 Lineare Gleichungssysteme Lineare Gleichungssysteme und die Analyse ihrer Lösungsstrukturen bilden den Kern der Linearen Algebra und analytischen Geometrie. Definition 2.22. Ein lineares Gleichungssystem ist ein System von m Gleichungen für n Unbekannte x1 , . . . , xn der Gestalt a11 x1 + a12 x2 + . . . + a1n xn = b1 a21 x1 + a22 x2 + . . . + a2n xn = b2 .. .. .. .. . . . . am1 x1 + am2 x2 + . . . + amn xn = bm mit gegebenen Koeffizienten ai j ∈ R und bi ∈ R (oder C oder K). Der Vektor x = (x1 , . . . , xn )T ∈ Rn genügt demnach A◦x = b mit den Setzungen A = (ai j )i, j ∈ Rm×n , b = (b1 , . . . , bm ) ∈ Rm . Im Fall ◦ b = 0 sprechen wir von einem homogenen, ◦ b= 6 0 von einem inhomogenen Gleichungssystem. Für lineares Gleichungssystem“ verwenden wir häufig die Abkürzung LGS.“ ” ” 2.10.2 Beispiel: Schnitt zweier Ebenen Im R3 ist eine zweidimensionale Ebene E gegeben durch eine Gleichung a11 x1 + a12x2 + a13x3 = b1 (eine Gleichung für drei Parameter). Schneiden sich daher zwei Ebenen E1 : a11 x1 + a12x2 + a13x3 = b1 , E2 : a21 x1 + a22x2 + a23x3 = b2 , genügt also x = (x1 , x2 , x3 )T beiden linearen Gleichungen, so werden wir auf folgendes lineare (2 × 3)-Gleichungssystem geführt a11 x1 + a12 x2 + a13x3 = b1 , a21 x1 + a22 x2 + a23x3 = b2 . Genauso können lineare Gleichungssysteme den Schnitt von Geraden, Ebenen, Räumen usw. beschreiben. Uns geht es gerade um das Bestimmen und Charakterisieren solcher Schnittmengen. 2.10. LINEARE GLEICHUNGSSYSTEME 65 2.10.3 Beispiel: Basisdarstellungen Ist A = {a1 , . . . , an } eine Basis des Rn , so führt die Bestimmung der Basisdarstellung v = x 1 a 1 + . . . + x n a n ∈ Rn , d.h. die Bestimmung der Basiskomponenten x1 ∈ R, . . . , xn ∈ R, auf ein quadratisches (n × n)-Gleichungssystem (früher haben wir hierfür vorrangig α1 , . . . , αn geschrieben). Schreiben wir nämlich v = (v1 , . . . , vn )T ∈ Rn , ai = (a1i , . . . , ani )T ∈ Rn für i = 1, . . . , n, so erhalten wir folgendes LGS a11 x1 + . . . + a1nxn = v1 .. .. . . an1 x1 + . . . + annxn = vn zur Darstellung der Komponenten vi von v ∈ Rn . 2.10.4 Beispiel: Lineare Abhängigkeit und Unabhängigkeit In Paragraph 2.2.2 dieses Kapitels haben wir die lineare Abhängigkeit der Vektoren u = (1, 0, −1, 0)T , v = (0, 1, 1, −2)T , w = (3, −1, −4, 2)T verifiziert. Nach Definition besitzt also die lineare Gleichung x1 u + x2 v + x3 w = 0 nur die triviale Lösung x1 = x2 = x3 = 0. Diese eine vektorielle Gleichung steht für das (4 × 2)-LGS x1 + 3x3 = 0 x2 − x3 = 0 −x1 + x2 − 4x3 = 0 − 2x2 + 2x3 = 0 Als nichttriviale Lösung haben wir damals x1 = −3, x2 = 1 und x3 = 1 gefunden, d.h. die Vektoren u, v und w sind linear abhängig. 2.10.5 Allgemeine lineare Gleichungen Wir formulieren nun folgende allgemeine Aufgabenstellung: Gegeben ist eine lineare Abbildung L : V → W zwischen den Vektorräumen V und W sowie ein Vektor b ∈ W. Gesucht ist ein Lösungsvektor v ∈ V der linearen inhomogenen Gleichung L(v) = b. 66 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE Die bislang betrachteten linearen Gleichungssysteme ordnen sich dieser allgemeinen Aufgabenstellung wie folgt unter: V = Rn , W = Rm und L : Rn ∋ x 7→ A ◦ x ∈ Rm . Hierin ist A die zur linearen Abbildung L gehörige Abbildungsmatrix. 2.10.6 Wie viele Lösung gibt es? Betrachten wir gesondert injektive, surjektive und bijektive Abbildungen L. Hilfssatz 2.5. Ist die Abbildung L : V → W injektiv, so besitzt die Gleichung L(v) = b höchstens eine Lösung v ∈ V. Beweis. Nach Satz 2.15 aus Paragraph 2.5.2 wissen wir nämlich, dass L genau dann injektiv ist, wenn für ihren Kern gilt Kern L = {0}. Sind nun v1 ∈ V und v2 ∈ V zwei Lösungen von L(v) = b, so ermitteln wir 0 = b − b = L(v1 ) − L(v2 ) = L(v1 − v2 ), d.h. v1 − v2 ∈ Kern L. Da aber der Kern nur aus dem Nullelement besteht, schließen wir v1 − v2 = 0 und damit v1 = v2 , d.h. es gibt höchstens eine Lösung. Zudem mache man sich folgende Aussagen klar. Hilfssatz 2.6. Ist die lineare Abbildung L : V → W ◦ surjektiv, so gilt → L(v) = b besitzt für jedes b ∈ W mindestens eine Lösung; ◦ bijektiv, so gilt → L(v) = b besitzt für jedes b ∈ W genau eine Lösung. Aufgabe 20. Beweisen Sie diese Aussagen. 2.10.7 Lösungsstruktur linearer Gleichungen Wir benutzen im Folgenden die Abkürzungen L0 := {Lösungsmenge von L(v) = 0} , Lb := {Lösungsmenge von L(v) = b} . Unseren Kenntnissen über den Kern linearer Abbildungen entnehmen wir den 2.10. LINEARE GLEICHUNGSSYSTEME 67 Hilfssatz 2.7. Die Lösungsmenge L0 der homogenen linearen Gleichung L(v) = 0 ist ein linearer Unterraum von V - es handelt sich nämlich genau um der Kern der linearen Abbildung L. Desweiteren gilt der grundlegende Satz 2.33. Ist v0 ∈ V eine spezielle Lösung der inhomogenen Gleichung L(v) = b, so ist die Lösungsmenge Lb dieser Gleichung gegeben durch Lb = w + L0 : v0 + w, w ∈ L0 . Beweis. Sei nämlich ein beliebiges v ∈ Lb gewählt, d.h. wir haben nun eventuell zwei Lösungen L(v0 ) = b – nämlich nach Voraussetzung – und L(v) = b. Setze jetzt w := v − v0, also v = w + v0 . Aus der Linearität der Abbildung L erhalten wir L(w) = L(v − v0 ) = L(v) − L(v0 ) = 0, d.h. w ∈ L0 . Aber v = w + v0 ist bereits die behauptete Darstellung. Definition 2.23. Eine Teilmenge v0 + V := v0 + v : v ∈ V die aus einem linearen Unterraum V durch Verschieben um einen Vektor v0 hervorgeht, heißt affiner Teilraum. In unserem Fall ist also Lb entweder leer oder ein affiner Teilraum. 2.10.8 Zeilenrang gleich Spaltenrang Wir wollen unsere bisherigen Resultate in die Sprache der Matrizen umformulieren. Dazu beginnen wir mit dem Satz 2.34. Für eine (m × n)-Matrix A mit Koeffizienten aus R (oder C oder K) sind folgende Zahlen gleich: ◦ die Maximalzahl linear unabhängiger Zeilen (Zeilenrang) ◦ die Maximalzahl linear unabhängiger Spalten (Spaltenrang) ◦ die Dimension des Bildraums der linearen Abbildung Rn ∋ x 7→ A ◦ x ∈ Rm . KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 68 Definition 2.24. Diese eindeutig festgelegte Zahl heißt der Rang der Matrix A bzw. der Rang der zugehörigen linearen Abbildung L. Bemerkung zum Beweis des Satzes. Hiermit schließt sich der Kreis zu unseren einführenden Betrachtungen aus Paragraph 2.8.5. Wir übergehen einen detaillierten Beweis, bemerken aber, dass sich seine Einzelheiten aus dem im Folgenden darzustellenden Gaußschen Eliminierungsverfahren ergeben. Beispiel 9. Die Matrix 1 A = −2 −1 −2 1 −1 4 −1 3 0 2 2 5 −6 ∈ R3×5 −1 besitzt den Rang 2, denn die Summe der ersten beiden Zeilen, welche linear unabhängig sind, ergibt die dritte Zeile. Die Matrix a11 B= 0 ··· .. . a1n .. . ··· ann ··· a1m .. . anm mit nichtverschwindenden Neben-Diagonalelementen aii besitzt den Rang n. 2.10.9 Die Rangbedingung Wir kommen nun zu dem wichtigen Satz 2.35. Haben V die Dimension n und W die Dimension m, so ist die lineare Abbildung L : V → W ◦ genau dann injektiv, wenn Rang L = n; ◦ genau dann surjektiv, wenn Rang L = m. Demnach gelten → das LGS A ◦ x = b ist genau dann eindeutig für jede rechte Seite lösbar, wenn Rang A = n; → das LGS A ◦ x = b besitzt für jede rechte Seite b ∈ Rn mindestens eine Lösung, wenn Rang A = m. Aufgabe 21. Beweisen Sie diesen Satz. Im folgenden Paragraphen werden wir diese Ergebnisse mittels des Gaußschen Elimininationsverfahrens zur Anwendung bringen. 2.10. LINEARE GLEICHUNGSSYSTEME 69 2.10.10 Das Gaußsche Eliminationsverfahren Wir erläutern diese zentrale Methode an einem Beispiel. Gesucht sind alle Lösungen des LGS 4x2 + 4x3 + 3x4 − 2x5 = 16 −3x1 − 3x2 + 3x3 + x4 − 2x5 = −2 2x2 + 2x3 + 3x4 − 4x5 = 14 4x1 − x2 − 9x3 − 2x4 − x5 = −5 Zunächst schreiben wir das System in Matrixform und abstrahieren von den Bezeichnungen x1 , . . . , x5 . Dabei ist es völlig unerheblich, in welcher Reihenfolge die Zeilen angeordnet werden, so dass wir sie wie folgt vorsortieren“ können: ” −2 −5 14 16 −3 −3 3 1 −2 4 −1 −9 −2 −1 0 2 2 3 −4 0 4 4 3 −2 → Ziel ist es, die linke Matrix in eine obere Dreiecksmatrix“ zu überführen, aus ” der sich dann die gesuchten Lösungen des ursprünglichen Systems sukzessive ablesen lassen. Man mache sich klar, dass alle nun folgenden Operationen die Lösungsmenge des Gleichungssystems nicht ändern; erlaubt sind Multiplikation einer Zeile mit einem Skalar, vielfache Addition einer Zeile zu einer weiteren Zeile usw. ◦ Multipliziere die erste Zeile mit zweite und die vierte Zeile: −3 −3 3 1 −2 −2 × 34 3 −4 14 ×2 4 −1 −9 −2 −1 0 2 2 0 4 4 ◦ 3 −2 −5 4 3 und die dritte Zeile mit 2, und belasse die −4 −4 4 − 83 − 83 6 −8 28 4 3 4 −1 −9 −2 −1 16 0 4 4 0 4 4 −5 3 −2 16 Addiere nun die erste Zeile zur zweiten, und subtrahiere die dritte Zeile von der vierten: −4 −4 4 − 83 − 83 6 −8 28 4 3 4 −1 −9 −2 −1 0 4 4 0 4 4 3 −2 −5 16 −4 −4 4 0 −5 −5 4 3 − 23 0 4 4 6 0 0 0 −3 − 38 − 11 3 −8 6 − 83 − 23 3 28 −12 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 70 ◦ Normiere die ersten nichtverschwindenden Komponenten jeder Zeile auf 1 : −4 −4 4 0 −5 −5 ◦ 4 3 − 23 0 4 4 0 0 0 −3 − 38 − 11 3 −8 6 1 − 23 3 1 −1 − 13 0 1 1 28 0 1 1 −12 0 0 0 − 83 6 2 15 3 2 2 3 11 15 2 3 23 15 −2 7 1 −2 4 Nun subtrahieren wir die zweite Zeile von der dritten, und anschließend normieren wir die dritte Zeile des Resultats: 1 1 −1 − 31 0 1 1 0 1 1 0 0 0 2 15 3 2 2 3 2 11 15 15 41 41 − 30 15 2 3 11 15 2 3 23 15 1 1 −1 − 13 0 1 1 −2 7 0 0 0 4 0 0 0 1 1 −1 − 13 0 1 −2 2 3 23 15 82 15 −2 4 1 1 2 3 11 15 2 3 23 15 0 0 0 41 −82 164 0 0 0 1 2 15 1 −2 4 Beachte, dass im letzten Schema die dritte und die vierte Zeile voneinander linear abhängig sind! In unserer ursprünglichen Schreibweise unter Verwendung der gesuchten Koeffizienten x1 , . . . , x5 entspricht dies x1 + x2 − x3 − x2 + x3 + 1 3 x4 2 15 x4 + + 2 3 x5 11 15 x5 = = 2 3 23 15 41x4 − 82x5 = 164 x4 − 2x5 = 4 Offenbar können wir die dritte Zeile streichen, da sie von der vierten Zeile linear abhängt, und wir erhalten das LGS x1 + x2 − x3 − x2 + x3 + 1 3 x4 2 15 x4 + + 2 3 x5 11 15 x5 = = 2 3 23 15 x4 − 2x5 = 4 Dieses LGS enstand allein durch zulässige Zeilen- und Spaltenoperationen aus dem anfangs gegebenen System, d.h. beide Systeme sind äquivalent. Wie sieht aber nun die Lösungsmenge unseres LGS aus? Das obere Dreiecksschema erlaubt es, das verbleibende System besonders leicht nach den Unbekannten xi aufzulösen, und zwar sukzessive von x5 bis x1 . Dass wir den jeweils ersten Koeffizienten jeder Zeile zu 1 normiert haben, stellt lediglich eine weitere Vereinfachung dar. 2.10. LINEARE GLEICHUNGSSYSTEME 71 Aus 3 Zeilen für 5 Unbekannte x1 , . . . , x5 schließen wir zunächst, dass 2 Koeffizienten als Parameter frei wählbar sind. Sei beispielsweise x5 = λ . Aus der dritten Gleichung bestimmt sich dann x4 zu x4 = 4 + 2 λ . Als zweites sei x3 = µ . Das alles setzen wir nun in die zweite Gleichung ein: x2 = 23 15 2 − µ − 15 x4 − 11 15 x5 = 23 15 2 11 − µ − 15 (4 + 2λ ) − 15 λ = 23 15 4 8 11 − µ − 15 − 15 λ − 15 λ = 15 15 − µ − 15 15 λ = 1 − λ − µ. Und das kommt schließlich in die erste Gleichung: x1 = 2 3 − x2 + x3 + 13 x4 − 23 x5 = 2 3 − (1 − λ − µ ) + µ + 31 (4 + 2λ ) − 32 λ = 2 3 − 1 + λ + µ + µ + 34 + 23 λ − 32 λ = 1 + λ + 2µ . Wir fassen zusammen: E : x1 = 1 + λ + 2 µ , x2 = 1 − λ − µ , x3 = µ , x4 = 4 + 2 λ , x5 = λ . Hierin können die Parameter µ und λ beliebig gewählt werden, stets ergibt sich eine Lösung des ursprünglichen LGS Mit anderen Worten: Die zum LGS gehörige Lösungsmenge L ist zweidimensional und spannt eine Urpsrungsbene auf im fünfdimensionalen Euklidischen Raum R5 . Wir wollen diese Ursprungsebene unter Verwendung von zwei geeigneten Basisvektoren darstellen. Zu diesem Zweck setzen wir zunächst λ = µ = 0 und erhalten p := (x1 , x2 , x3 , x4 , x5 )T = (1, 1, 0, 4, 0)T für λ = µ = 0. Dieser spezielle Punkt im R5 gehört zur Lösungsmenge. Zwei weitere Lösungen sind z1 := (x1 , x2 , x3 , x4 , x5 )T = (3, 0, 1, 4, 0)T z2 := (x1 , x2 , x3 , x4 , x5 )T = (2, 0, 0, 6, 1)T für µ = 1, λ = 0, für µ = 0, λ = 1. Damit haben wir drei voneinander verschiedene Punkte bestimmt, die in der Lösungsmenge enthalten sind. Ferner liegen diese drei Punkt nicht auf einer gemeinsamen Geraden (dafür haben wir mit unserer speziellen Wahl von λ und µ gesorgt). Diese drei Punkte spannen daher wie folgt die Lösungsebene auf: KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 72 Ausgehend vom ersten Punkt p ∈ R5 konstruieren wir zwei Vektoren v1 := z1 − p = (2, −1, 1, 0, 0)T , v2 := z2 − p = (1, −1, 0, 2, 1)T , welche p mit z1 bzw. z2 verbinden. Es ist an dieser Stelle noch einmal zu verifizieren, dass v1 und v2 linear unabhängig sind (was mit der Wahl der drei Punkte sichergestellt wurde). Also spannen v1 und v2 die Lösungsmenge parametrisch auf: E : x = (x1 , x2 , x3 , x4 , x5 )T = (1, 1, 0, 4, 0)T + (2, −1, 1, 0, 0)T µ + (1, −1, 0, 2, 1)T λ . Um dies als Probe noch einmal zu verifizieren, setzen wir λ = µ = 0 und erhalten zum Punkt p. Für µ = 1, λ = 0 ist x = z1 , für µ = 0, λ = 1 rekonstruieren wir x = z2 . Damit ist die Lösungsmenge L des LGS in parametrischer Form vollständig bestimmt. 2.10.11 Bestimmung der Inversen einer Matrix Es sei A ∈ Rn×n eine reguläre Matrix mit vollem Rang Rand A = n. Dann gibt es zu beliebig vorgegebener rechter Seite b ∈ Rn genau ein x ∈ Rn mit der Eigenschaft A ◦ x = b, nämlich x = A−1 ◦ b. Andererseits können wir A ◦ x = En ◦ b = b wie im bisherigen Sinne als LGS deuten. Eine Anwendung des Gaußschen Eliminationsverfahrens auf (A | En ) erzeugt also wegen der Eindeutigkeit der Aufgabe automatisch die inverse Matrix A−1 in der Form (En | A−1 ). Aufgabe 22. Machen Sie sich diese Behauptung klar. Dazu folgendes Beispiel: Gesucht ist die Inverse der Matrix 0 1 −1 3 2 . A= 1 2 −1 12 Dann berechnen wir 0 1 −1 1 3 2 2 −1 12 1 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 1 −38 11 −5 8 −2 1 7 −2 1 nach mehrmaliger Anwendung der bekannten Zeilen- und Spaltenoperationen, die wir hier nicht detailliert darstellen. Wir lesen also ab −38 11 −5 8 −2 1 . A−1 = 7 −2 1 Aufgabe 23. Führen Sie die ausgelassene Rechnung explizit durch. Bestätigen Sie abschließend Ihr Resultat durch eine Probe. 2.11. DETERMINANTEN 73 2.11 Determinanten 2.11.1 Multilinearformen und Determinantenformen Es sei wieder K der Körper R oder C der reellen bzw. komplexen Zahlen. Definition 2.25. Eine Abbildung F : Kn × . . . × Kn → K mit n ≥ 2 heißt ◦ eine Multilinearform auf Kn oder kurz n-Form, wenn F in jedem der n Argumente linear ist, d.h. F(. . . , α v + β w, . . .) = α F(. . . , v, . . .) + β F(. . . , w, . . .); ◦ eine alternierende Multilinearform auf Kn , wenn noch zusätzlich beim Vertauschen zweier Argumente das Vorzeichen wechselt, also F(. . . , v, w, . . .) = −F(. . . , w, v, . . .). In diesem Abschnitt diskutieren wir sogenannten Determinantenformen. Definition 2.26. Eine alternierende Multilinearform heißt Determinantenform, falls F(e1 , . . . , en ) = 1 für die kanonische Basis e1 , . . . , en ∈ Kn richtig ist. Beispiel 10. Von besonderer Wichtigkeit für die Elementargeometrie sind die folgenden beiden Beispiele. 1. Seien v = (v1 , v2 ) und w = (w2 , w2 ) zwei Vektoren in R2 . Dann stellt det(v, w) := v1 w2 − v2 w1 eine Determinantenform dar. Denn offenbar gelten ◦ det: R2 × R2 → R ist multilinear: det (α u + β v, w) = (α u1 + β v1)w2 − (α u2 + β v2)w1 = α det(u, w) + β det(v, w), und entsprechend verfahren wir mit dem zweiten Argument w; ◦ det: R2 × R2 → R ist alternierend: det(w, v) = w1 v2 − w2 v1 = −(v1 w2 − v2 w1 ) = −det(v, w); ◦ es gilt det (e1 , e2 ) = 1 · 1 − 0 · 0 = 1. 2. Seien als nächstes u = (u1 , u2 , u3 ), v = (v1 , v2 , v3 ) und w = (w1 , w2 , w3 ) drei Vektoren im R3 . Dann ist mit det(u, v, w) := u1 (v2 w3 − v3 w2 ) − u2 (v1 w3 − v3 w1 ) + u3(v1 w2 − v2 w1 ) ebenfalls eine Determinantenform gegeben. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 74 Aufgabe 24. Beweisen Sie diese zweite Behauptung. Diese beiden Funktionen det(v, w) bzw. det(u, v, w) besitzen folgende geometrische Bedeutungen: ◦ Der Betrag |det (v, w)| ist gleich dem Flächeninhalt des von den Vektoren v und w aufgespannten Parallelogramms. ◦ Der Betrag |det(u, v, w)| ist gleich dem Volumen des von den Vektoren u, v und w aufgespannten dreidimensionalen Spats. Aufgabe 25. Beweisen Sie diese beiden Aussagen. Auf diese Weise lassen sich auch Volumenformen in beliebig dimensionalen Vektorräumen konstruieren. 2.11.2 Inneres Produkt, Vektorprodukt und Determinanten Es ist an der Zeit, zwei der wichtigsten elementargeometrischen Operationen zwischen Vektoren im Euklidischen Raum Rn einzuführen. Definition 2.27. Für zwei Vektoren v = (v1 , . . . , vn ) und w = (w1 , . . . , wn ) erklären wir ihr Skalarprodukt als die reelle Zahl n v · w = ∑ vi wi ∈ R i=1 Dieses Skalarprodukt besitzt folgende Eigenschaften: ◦ es gilt v · w = |v||w| cos (v, w); ◦ v · w = 0 genau dann, wenn v orthogonal auf w ist; ◦ v, w 7→ v · w ist eine Bilinearform. Aufgabe 26. Machen Sie sich diese Aussagen klar. Satz 2.36. Das Skalarprodukt genügt ◦ v·w = w·v ◦ (α v) · w = v · (α w) = α (v · w) ◦ u · (v + w) = u · v + u · w ◦ v · v ≥ 0 mit hv, vi = 0 genau dann, wenn v = 0 für alle u, v, w ∈ Rn und alle α ∈ R. Aufgabe 27. Beweisen Sie diesen Satz. (Symmetrie) (Linearität I) (Linearität II) (Positive Definitheit) 2.11. DETERMINANTEN 75 Insbesondere bezeichnen wir mit |v| := √ v·v = s n ∑ v2i i=1 die Länge oder auch als Betrag des Vektors v ∈ Rn . Das |v| tatsächlich die elementargeometrische Länge wiedergibt, entnehmen wir dem Satz des Pythagoras. Das Skalarprodukt ist ein Spezialfall eines sogenannten inneren Produkt, welches wir zur Unterscheidung zum Standartskalarprodukt mit h·, ·i bezeichnen. Definition 2.28. Ein inneres Produkt h·, ·i : V × V → R auf einem reellen Vektorraum V ist eine positiv definite und symmetrische Bilinearform. Wir wollen einige weiterführende Beispiele für innere Produkte aufführen. Beispiel 11. 1. Häufig bezeichnet man v, w 7→ v · w : Rn × Rn → R auch als Stan” dardskalarprodukt.“ 2. Auf dem Vektorraum der (m × n)-Matrizen ist durch m n hA, Bi = Spur (AT ◦ B) = ∑ ∑ ai j bi j i=1 j=1 ein inneres Produkt definiert, wobei wir mit n Spur M = ∑ mi j i=1 die Spur einer quadratischen Matrix M ∈ Rn×n bezeichnen. 3. Wir können Vektoren a = (a1 , . . . , an ) ∈ Rn auch als endlich-dimensionale Zah” lenfolgen“ a = {a1 , . . . , an } ∈ Rn interpretieren. Für solche Zahlenfolgen a und b ist durch n ha, bi = ∑ ai bi i=1 ein Skalarprodukt erklärt. Im Grenzfall n → ∞ gelangen wir zu dem Hilbertschen Folgenraum ℓ2 , den wir in einem späteren Kapitel ausführlich diskutieren. 4. Für stetige Funktionen f , g : [0, 1] → R ist durch h f , gi = Z1 f (x)g(x) dx 0 ein Skalarprodukt erklärt. Man spricht vom Hilbertraum L2 (0, 1), dessen Eigenschaften ebenfalls erst später genauer untersucht werden. Bemerkung 1. Halten Sie das reelle Skalarprodukt und sogenannte komplexwertige Hermitesche Formen auseinander, welches wir in Paragraph 2.13.4 einführen werden. 76 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE Beispiel 12. Die Vektoren ei der Standardbasis {e1 , . . . , en } des Raumes R2 sind offenbar orthonormal zueinander, d.h. sie besitzen sämtlich die Länge 1 und stehen aufeinander senkrecht: 1, falls i = j ei · e j = δi j := 0, falls i 6= j mit dem bekannten Kroneckersymbol δi j . Wir wollen nun auf die Elemente ei der Standardbasis eine orthogonale Matrix M ∈ Rn×n anwenden. Orthogonale Matrizen sind durch folgende drei Eigenschaften charakterisiert: ◦ MT ◦ M = M ◦ MT = E n bzw. ausgeschrieben n n j=1 n j=1 n j=1 j=1 ∑ mTij m jk = ∑ m ji m jk = δik , ∑ mi j mTjk = ∑ mi j mk j = δik mit M = (mi j )i, j sowie MT = (mTji ) j,i ; ◦ MT = M−1 ; ◦ M ist winkeltreu unter Skalarproduktbildung. Wir erinnern an den Begriff einer Gruppe aus Definition 2.1. Satz 2.37. Die Menge aller orthogonalen Matrizen der Dimension n × n bildet eine Gruppe mit der gewöhnlichen Matrixverknüpfung als Gruppenoperation, die sogenannte orthogonale Gruppe O(n). Die Menge aller orthogonalen Matrizen, deren Determinantenform +1 beträgt, bildet eine Untergruppe der orthogonalen Gruppe, die sogenannte spezielle orthogonale Gruppe SO(n). Jedes Element M ∈ SO(n) gehört also auch zu O(n). Ein Verfahren, nach welchem wir Determinanten“ (d.h. die Determinantenform) von ” Matrizen auch tatsächlich berechnen können, lernen wir mit dem Hauptsatz über Determinanten in Paragraph 2.11.4 kennen. Beispiel 13. Im Falle n = 2 ist die bekannte Drehmatrix cos ϕ − sin ϕ Dϕ = sin ϕ cos ϕ eine orthogonale Matrix mit Determinante +1, d.h. es gilt Dϕ ∈ SO(2). Bezeichnet nun {e1 , e2 } orthonormale Standartbasis des R2 , so verifizieren wir, dass auch ee1 := cos ϕ e1 + sin ϕ e2 , ee2 := − sin ϕ e1 + cos ϕ e2 eine orthonormale Basis des R2 repräsentiert. 2.11. DETERMINANTEN 77 Aufgabe 28. Verallgemeinern Sie dieses Beispiel auf Fall beliebiger Dimensionen. Die zweite wichtige geometrische Operation zwischen Vektoren ist Inhalt der Definition 2.29. Das Vektorprodukt zwischen den Vektoren v = (v1 , v2 , v3 ) ∈ R3 und w = (w1 , w2 , w3 ) ∈ R3 ist gegeben als der dreidimensionale Vektor v × w = (v2 w3 − v3w2 , v3 w1 − v1 w3 , v1 w2 − v2 w1 ) ∈ R3 . Dieses Vektorprodukt besitzt folgende Eigenschaften: ◦ v × w steht senkrecht auf v und w; ◦ für den Betrag gilt |v × w| = |v||w| sin (v, w); ◦ die Vektoren v, w und v × w bilden in dieser Reihenfolge ein Rechtssystem. Aufgabe 29. Machen Sie sich diese Aussagen klar. Satz 2.38. Das Vektorprodukt genügt ◦ v × v = 0, ◦ v × w = −w × v, ◦ u × (α v + β w) = α u × v + β u × w für alle u, v, w ∈ R3 und alle α , β ∈ R. Aufgabe 30. Beweisen Sie diesen Satz. Desweiteren benötigt man in der geometrischen Analysis oft den Satz 2.39. Für alle Vektoren u, v, w, z ∈ R3 gelten die Identitäten ◦ die Grassmann-Identität u × (v × w) = (u · w)v − (u · v)w; ◦ die Jacobi-Identität u × (v × w) + v × (w × u) + w × (u × v) = 0; ◦ die Lagrange-Identität (u × v) · (w × z) = (u · w)(v · z) − (v · w)(u · z). Aufgabe 31. Beweisen Sie diese Identitäten. Mit der zu Beginn dieses Paragraphens definierten Determinantenform det : R3×3×3 −→ R erkennen wir nun den folgenden zentralen Zusammenhang det (u, v, w) = u · (v × w). Der Betrag dieser Zahl entspricht dem Volumen des von den Vektoren u, v und w aufgespannten dreidimensionalen Parallelepipeds bzw. Spats. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 78 Aufgabe 32. Verifizieren Sie diesen Zusammenhang. Das Kreuzprodukt dreidimensionaler Vektoren lässt sich auch auf den Fall beliebiger Dimension erweitern. Seien dazu Vektoren v1 , . . . , vn−1 ∈ Rn gegeben, so ist das Produkt v1 × v2 × . . . × vn−1 ∈ Rn dadurch charakterisiert, dass u · (v1 × v2 × . . . × vn−1) = det (u, v1 , v2 , . . . , vn−1 ) für alle u ∈ Rn richtig ist, wobei der rechts stehende Ausdruck gemäß dem in Kürze folgenden Hauptsatz über Determinanten ausgewertet wird. Es gelten ◦ v1 × . . . × vn−1 steht senkrecht auf v1 , . . . , vn−1 ; ◦ {v1 × . . . × vn , v1 , . . . , vn } bildet ein Rechtssystem; ◦ |v1 × . . . × vn−1| entspricht dem Volumen des von den Vektoren v1 , . . . , vn−1 gebildeten (n − 1)-dimensionalen Parallelepipeds. Aufgabe 33. Machen Sie sich diese Aussagen klar. 2.11.3 Multilinearformen und lineare Unabhängigkeit Für die eben definierten Formen gilt der bemerkenswerte Satz 2.40. Es sei F eine alternierende Multilinearform. Sind die Vektoren {u, v, w, . . .} linear abhängig, so ist F(u, v, w, . . .) = 0. Insbesondere folgt F(u, v, w, . . .) = 0, falls zwei Argumente gleich sind. Beweis. Wir verifizieren die Aussage für den Fall F : Rn × Rn × Rn → R. Es sei etwa u = α v + β w. Dann berechnen wir F(u, v, w) = F(α v + β w, v, w) = α F(v, v, w) + β F(w, v, w). Beide Summanden auf der rechten Seite verschwinden aber identisch, da F alternierend ist, z.B. nach Vertauschen von v im ersten Eintrag mit v im zweiten Argument F(v, v, w) = −F(v, v, w) = 0. Das war zu zeigen. Dieser Satz bestätigt unsere geometrische Anschauung, dass das Volumenen eines Parallelepids, welches von linear abhängigen Vektoren aufgespannt wird, tatsächlich gleich Null sein muss. 2.11. DETERMINANTEN 79 2.11.4 Hauptsatz über Determinanten Das theoretische Fundament aller Betrachtungen dieses Abschnitts ist nun Inhalt des zentralen Satz 2.41. (i) Für jedes n ≥ 2 gibt es genau eine Determinantenform auf Kn , bezeichnet mit det(v1 , v2 , . . . , vn ) mit Vektoren v1 , . . . , vn ∈ Kn . (ii) Besitzt die quadratische Matrix A = (ai j )i, j ∈ Kn×n die Spalten ai , i = 1, . . . , n, so wird ihr durch diese Funktion det (a1 , . . . , an ) ihre Determinante zugeordnet, symbolisch det A := det (a1 , . . . , an ). Oft schreiben wir auch abkürzend |A| := det A. Diese Determinante läßt sich numerisch auf 2n Weisen durch (n − 1) × (n − 1)Determinanten ausdrücken (Entwicklung nach der i-ten Zeile bzw. Entwicklung nach der k-ten Spalte) n |A| = ∑ (−1)i+ j ai j |Ai j | = j=1 n ∑ (−1) j+k a jk |A jk |, j=1 wobei Ai j diejenige Teilmatrix von A ist, welche aus A durch Streichen der iten Zeile und j-ten Spalte entsteht. Ist insbesondere A = (a11 ), so setzen wir A := a11 . Die Aussage in Teil (ii) dieses Satzes wird in der Literatur als der Laplacesche Entwicklungssatz bezeichnet. Beispiel 14. Wir betrachten zunächst den Fall einer 2 × 2-Matrix a a12 . A = 11 a21 a22 Es sind dann A11 = a22 , A12 = a21 , A21 = a12 , A22 = a11 . ◦ Wir entwickeln nach der 1. Zeile (erste Darstellung, i = 1): 2 |A| = ∑ (−1)1+ j a1 j |A1 j | = a11|A11| − a12|A12| = a11a22 − a12a21 . j=1 ◦ Wir entwickeln nach der 2. Zeile (zweite Darstellung, k = 2): 2 |A| = ∑ (−1) j+2a j2 |A j2| = −a12|A12 | + a22|A22 = −a12a21 + a22a11 . j=1 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 80 Beide Entwicklungen führen natürlich zu demselben Resultat. Für die uns bekannte Drehmatrix Dϕ bedeutet das cos ϕ − sin ϕ detDϕ = det = cos2 ϕ + sin2 ϕ = 1 sin ϕ cos ϕ für alle ϕ ∈ R. Beispiel 15. Betrachte nun die 3 × 3-Matrix a11 a12 A = a21 a22 a31 a32 a13 a23 . a33 Wir entwickeln nach der 1. Zeile (erste Darstellung, i = 1): 3 |A| = ∑ (−1)1+ j a1 j |A1 j | = a11 |A11| − a12|A12| + a13|A13|. j=1 In diesem Falle sind aber det A11 = det det A12 = det det A13 = det a22 a23 a32 a33 a21 a23 a31 a33 a21 a22 a31 a32 ! = a22 a33 − a23a32 , ! = a21 a33 − a23a31 , ! = a21 a32 − a22a31 , so dass wir insgesamt erhalten detA = a11 (a22 a33 − a23a32 ) − a12(a21 a33 − a23a31 ) + a13(a21 a32 − a22a31 ). Diese Identität heißt die Regel von Sarrus.Beispielsweise beschreibt die Matrix 1 0 0 Dϕ = 0 cos ϕ − sin ϕ 0 sin ϕ cos ϕ eine Drehung des Raumes R3 um die x-Achse um den Winkel ϕ in mathematisch positiver Richtung. Wir verifizieren unmittelbar Dϕ (x) ∈ SO(3), d.h. detDϕ = 1 für alle Drehwinkel ϕ . Aufgabe 34. Wie sehen die Drehmatrizen aus für ◦ eine positiv-orientierte Drehung des Raumes R3 um die y-Achse, ◦ eine positiv-orientierte Drehung des Raumes R3 um die z-Achse? 2.11. DETERMINANTEN 81 Beweis∗ des Hauptsatzes I: Eindeutigkeit Hilfssatz 2.8. Gilt F(e1 , . . . , en ) = 0 für eine alternierende Multilinearform, so auch F ≡ 0. Beweis. Wir konzentrieren uns auf den Fall n = 3. Sei also F eine alternierende 3-Form mit F(e1 , e2 , e3 ) = 0. Dann gilt auch F(eν1 , eν2 , eν3 ) = 0 für alle ν1 , ν2 , ν3 . Stimmen nämlich zwei Indizes aus {ν1 , ν2 , ν3 } übereinstimmen, so folgt diese Identität sofort aus der Tatsache, dass F alternierend ist. Sonst schließt man die Behauptung aus F(e1 , e2 , e3 ) = 0 durch geeignetes Vertauschen der Argumente. Seien nun beliebige Vektoren gegeben u = u1 e1 + u2 e2 + u3 e3 , v = v1 e1 + v2 e2 + v3 e3 , w = w1 e1 + w2 e2 + w3 e3 . Wir berechnen dann 3 F(u, v, w) = 3 3 ∑ ∑ ∑ uk vℓ wm F(ek , eℓ , em ) = 0, k=1 ℓ=1 m=1 was bereits zu zeigen war. Hilfssatz 2.9. Stimmen zwei alternierende Multilinearformen F und G auf der kanonischen Basis überein, so sind sie gleich. Insbesondere gibt es höchstens eine Determinantenform auf dem Kn . Beweis. Das folgt nun aus dem vorigen Hilfssatz, denn H := F − G ist eine alternierende Multilinearform mit der Eigenschaft H(e1 , . . . , en ) = 0. Beweis∗ des Hauptsatzes II: Konstruktion durch Zeilenentwicklung Induktiv zeigen wir, dass es zu jedem n ≥ 2 eine Determinantenform gibt und beweisen so den Laplaceschen Entwicklungssatz nach Zeilen. Wir begnügen uns allerdings nur mit einer Beweisidee. 1. Im Fall n = 2 kennen wir bereits eine Determinantenform: det A = a11 a22 − a12 a21 für die Matrix A, welche aus den Spalten a1 = (a11 , a21 ) und a2 = (a12 , a22 ) besteht. Nach dem vorigen Paragraphen ist diese Form aber eindeutig bestimmt. Wir bezeichnen diese für den Augenblick mit D2 . 2. Angenommen, für n ≥ 3 ist bereits eine Determinantenform Dn−1 auf Kn−1 definiert. Fixiere ein beliebiges i ∈ {1, . . . , n}. Dann definieren wir für ein A ∈ Kn×n n Dn (A) := ∑ (−1)i+ j ai j Dn−1 (Ai j ), j=1 wobei Ai j aus A durch Streichen der i-ten Zeile und j-ten Spalte entsteht. Als Übungsaufgabe überlege man sich nun, warum Dn tatsächlich eine Determinantenform ist, d.h. man zeige ◦ Dn ist eine Multilinearform; ◦ Dn ist alternierend; ◦ Dn (e1 , . . . , en ) = 1. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 82 Zusammend gibt es also für jedes n ≥ 2 wenigstens eine Determinantenform Dn auf Kn . Dass im Beweis der Index i ∈ {1, . . . , n} zur Definition dieser Form scheinbar willkürlich gewählt wurde, läßt sich mit dem Eindeutigkeitsresultat des vorigen Paragraphen begründen: Da es höchstens eine Determinantenform auf Kn gibt, ist Dn (A) tatsächlich unabhängig von der Wahl von i. Beweis∗ des Hauptsatzes III: Determinante der Transponierten Auch hier wollen wir uns nur mit der folgender Aussage begnügen: Hilfssatz 2.10. Es gilt det A = det AT . Die Richtigkeit dieses Hilfssatzes verifiziert man im Fall n = 2 sofort: ! a11 a12 = a11 a22 − a12 a21 , det a21 a22 det a11 a21 a12 a22 ! = a11 a22 − a21 a12 , und beide Formen stimmen überein. Beweis des Hauptsatzes IV: Spaltenentwicklung Aus der Identität (AT )k j = (A jk )T bzw. |(AT )k j | = |(A jk )T | = |A jk | schließen wir (entwickle AT = (aTij )i, j nach der k-ten Zeile) |A| = |AT | = n n j=1 j=1 ∑ (−1)k+ j aTjk |(AT ) jk | = ∑ (−1) j+k ak j |(Ak j )T | n = ∑ (−1) j+k ak j |Ak j |. j=1 Damit ist der Hauptsatz bewiesen. 2.11.5 Folgerungen Aus den bisherigen Betrachtungen wollen wir für die Praxis wichtige Eigenschaften von Determinanten ausarbeiten. Folgerung 2.1. Für die Determinante gelten folgende elementaren Rechenregeln. ◦ Das Vorzeichen der Determinante ändert sich, wenn man zwei Zeilen (oder Spalten) miteinander vertauscht. ◦ Multipliziert man eine Zeile (oder eine Spalte) mit einer Zahl α , so multipliziert sich die Determinante ebenfalls mit diesem α . ◦ Addition eines Vielfachen einer Zeile (oder Spalte) zu einer anderen Zeile (bzw. Spalte) ändert den Wert der Determinante nicht. 2.11. DETERMINANTEN 83 Aufgabe 35. Beweisen Sie diese Folgerung. Folgerung 2.2. Für zwei (n × n)-Matrizen A und B gilt det A ◦ B = det A · detB. Beweis. ∗ Bezeichnen bk die Spalten von B, so besteht das Produkt A ◦ B aus den Spalten A ◦ bk für k = 1, . . . , n. Für fest gewähltes A betrachte die Form F(b1 , . . . , bn ) := det (A ◦ b1 , . . . , A ◦ bn ) = |A ◦ B|. Dann ist F linear in jedem bk als Hintereinanderausführung der linearen Abbildungen bk 7→ A ◦ bk und ak 7→ det (a1 , . . . , ak , . . . , an ) mit den Spalten aℓ von A. Ferner ist F auch alternierend. Schließlich gilt F(e1 , . . . , en ) = det (a1 , . . . , an ) = |A|. Andererseits definiert G(b1 , . . . , bn ) := |A| · det (b1 , . . . , bn ) = |A| · |B| ebenfalls eine n-Form mit G(e1 , . . . , en ) = |A|. Es stimmen also F und G auf {e1 , . . . , en } überein, und nach unserem Eindeutigkeitssatz folgt F ≡ G. Beispiel 16. Wir betrachten zwei Drehungen cos ϕ − sin ϕ cos ψ Dϕ = , Dψ = sin ϕ cos ϕ sin ψ − sin ψ , cos ψ die wir wie folgt hintereinander ausführen: cos ψ − sin ψ cos ϕ − sin ϕ Dψ ◦ Dϕ = ◦ sin ψ cos ψ sin ϕ cos ϕ cos ϕ cos ψ − sin ϕ sin ψ − sin ϕ cos ψ − cos ϕ sin ψ = cos ϕ sin ψ + sin ϕ cos ψ − sin ϕ sin ψ + cos ϕ cos ψ cos(ϕ + ψ ) sin(ϕ + ψ ) = sin(ϕ + ψ ) cos(ϕ + ψ ) = Dϕ + ψ . Dieses Ergebnis entspricht sicher unserer Anschauung. Wir verifizieren schließlich det Dϕ +ψ = detDψ · detDϕ = 1 · 1 = 1. Folgerung 2.3. Für invertierbare Matrizen A ∈ Rn×n gelten det A 6= 0 und det A−1 = 1 . detA Beweis. Dem eben bewiesenen Multiplikationssatz entnehmen wir nämlich 1 = |En | = |A ◦ A−1| = |A| · |A−1 |, woraus die Behauptung folgt. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 84 Folgerung 2.4. Es ist A genau dann invertierbar, wenn detA 6= 0 richtig ist. Insbesondere gelten detA 6= 0 ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ das LGS A ◦ x = b ist für alle b ∈ Rn eindeutig lösbar die Spalten von A sind linear unabhängig die Zeilen von A sind linear unabhängig Rang A = n Beweis. Beweisen Sie diese Folgerung. 2.11.6 Die Cramersche Regel An diese letzte Folgerung schließt sich folgende Regel an. Satz 2.42. Ist A ∈ Rn×n eine quadratische Matrix mit detA 6= 0, so ist das LGS A◦x = b eindeutig lösbar, und die Lösung x = (x1 , . . . , xn ) lässt sich wie folgt darstellen detAi für i = 1, . . . , n. det A Hierin bezeichnet Ai diejenige quadratische Matrix, welche aus A entsteht, indem man die i-te Spalte durch den Vektor b ∈ Rn ersetzt. xi = Diese sogenannte Cramersche Regel (Gabriel Cramer, um 1750) ist allerdings für praktische Zwecke ungeeignet, da u.U. viele Determinanten zu berechnen sind. Aus praktischer Sicht ist in der Regel das Gaußsche Eliminierungsverfahren vorzuziehen. Hier ein Beispiel für diese Cramersche Regel: Löse das LGS A ◦ x = b mit den Daten −1 8 3 2 A= 2 4 −1 , b = 1 . −2 1 2 −1 Zunächst ermitteln wir det A = 5 6= 0, also ist das gegeben LGS eindeutig lösbar ist. Wir berechnen nun 2 8 3 4 −1 = 25, det A1 = det 1 −1 1 2 −1 2 3 det A2 = det 2 1 −1 = −5, −2 −1 2 −1 8 2 4 1 = 25. det A3 = det 2 −2 1 −1 2.12. EIGENWERTE UND EIGENVEKTOREN 85 Damit folgen für die Komponenten der xi der Lösung x x1 = 25 det A1 = = 5, det A 5 x2 = det A2 = −1, det A x3 = detA3 = 5. det A Die gesuchte Lösung lautet also x = (5, −1, 5). 2.11.7 Lineare Abbildungen und Determinanten Wir erinnern schließlich an unsere Untersuchungen zu den Basistransformationen. Mit der dort eingeführten Transformationsmatrix S haben wir in Satz 2.31 gezeigt: Besitzt der Vektorraum V die Basen A und B, so besteht zwischen den Matrizen A = MA A (id) und B = MB (id) die Beziehung B B = S−1 ◦ A ◦ S. Definition 2.30. Zwei (n × n)-Matrizen A und B heißen ähnlich, wenn sie zu derselben linearen Abbildung bez. verschiedener Basen gehören, d.h. wenn gilt B = S−1 ◦ A ◦ B. Nun zum Satz 2.43. Zwei ähnliche Matrizen A und B haben die gleiche Determinante, d.h. es gilt det A = det B. Beweis. Die Aussage entnehmen wir dem Multiplikationssatz für Determinanten: Es gilt nämlich det B = det S−1 · det A · detS = det A. Folgerung 2.5. Für eine lineare Abbildung L : V → V ist die Zahl det B = det MB B (L) unabhängig von der gewählten Basis B. Beweis. Ist nämlich A eine weitere Basis, so gilt ja B = S−1 ◦ A ◦ S, und die Aussage folgt aus dem vorigen Satz. 2.12 Eigenwerte und Eigenvektoren 2.12.1 Problem der Diagonalisierbarkeit Es sei wieder K gleich R oder C. Wir schließen direkt an die Betrachtungen des letzten Paragraphens an. 86 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE Definition 2.31. Eine (n × n)-Matrix A mit Koeffizienten aus K heißt diagonalisierbar,, wenn es eine invertierbare Matrix S ∈ Kn×n gibt mit der Eigenschaft λ1 0 n×n .. S−1 ◦ A ◦ S = ∈K . . λn 0 Bezeichnen wir nun mit v1 = (v11 , . . . , v1n ) bis vn = (vn1 , . . . , vnn ) die Spalten der Matrix S, so liefert Umstellen λ1 v11 v21 · · · vn1 0 .. .. ◦ .. A ◦ S = ... . . . 0 v1n v2n · · · vnn λ1 v11 λ2 v21 · · · λn vn1 .. .. = ... . . λ1 v1n λ2 v2n · · · λn vnn λn bzw. abkürzend in Spaltenform geschrieben A ◦ v1 = λ 1 v1 , A ◦ vn = λ n vn . Die Bestimmung einer Matrix S ∈ Kn×n aus unserer Definition führt also auf folgendes Eigenwertproblem. Definition 2.32. Eine nichtverschwindende Lösung v ∈ Kn \ {0} der Gleichung A◦v = λv heißt ein Eigenvektor zum Eigenwert λ ∈ K. In diesem das zweite Kapitel unserer Vorlesung abschließenden Abschnitt betrachten wir Eigenwertprobleme für endlichdimensionale Matrizen. In der Mathematik und Physik spielen jedoch auch Eigenwertprobleme für unendlich dimensionale Probleme, z.B. für Differentialoperatoren, eine wichtige Rolle. Ein sehr populäres Beispiel ist das Auffinden der Eigenzustände des Schrödingeroperators, eines unendlich dimensionalen Differentialoperators. Wir möchten in diesem Zusammenhang insbesondere auf folgende Literatur verweisen: A. Sommerfeld: Vorlesungen über theoretische Physik, Band 6, Partielle Differentialgleichungen in der Physik. Beispiel 17. Die Vektoren v = µ (1, 0, 0)T mit µ ∈ R sind Eigenvektoren der dreidimensionalen Drehmatrix 1 0 0 0 cos ϕ − sin ϕ , 0 sin ϕ cos ϕ die den gesamten R3 um die x-Achse mit einem Drehwinkel ϕ dreht. Diese Eigenvektoren verhalten sich unter Anwendung der Drehmatrix invariant. 2.12. EIGENWERTE UND EIGENVEKTOREN 87 2.12.2 Der Eigenraum Wir führen unsere Betrachtungen wie folgt weiter: λ ist genau dann Eigenwert der Matrix A, wenn es einen nicht verschwindenden Vektor v ∈ Kn gibt mit A ◦ v = λ v bzw. (A − λ En ) ◦ v = 0, worin En wie gewöhnlich die n-dimensionale Einheitsmatrix bedeutet. Mit anderen Worten heißt das: Der Kern der linearen Abbildung v 7→ (A − λ En ) ◦ v besitzt neben dem Element 0 ∈ Kn , welches nicht als Eigenvektor zugelassen ist, mindestens dieses eine weitere Element v ∈ Kn . Die Abbildung A − λ En ist also nicht injektiv. Definition 2.33. Es heißt die Menge Nλ := Kern (A − λ En ) der Eigenraum der Matrix A zum Eigenwert λ . Beispiel 18. Wir betrachten zwei weitere elementare Beispiele. 1. Ein Beispiel ist die Identitätsabbildung id : Kn −→ Kn vermöge v 7→ v. Jedes Element v ∈ Kn wird auf sich selbst abgebildet. Diese Abbildung besitzt den Eigenwert λ = 1, und jeder Vektor v ∈ Kn \ {0} ist Eigenvektor. Da aber auch gilt 0 ∈ Kern (id − 1 · En), folgern wir N1 = Kn . 2. Zweitens besitzt die Spiegelung an der Ebene Lin {v, w} ⊂ R3 ◦ einen Eigenwert λ1 = 1 mit Eigenraum N1 = Lin {v, w}; ◦ einen zweiten Eigenwert λ2 = −1 mit Eigenraum N−1 = Lin{v × w} . Auch das ergibt sich aus unserer reinen Anschauung. 2.12.3 Lineare Unabhängigkeit der Eigenvektoren Wir beweisen den folgenden Satz 2.44. Die Eigenvektoren zu verschiedenen Eigenwerten einer Matrix A sind stets linear unabhängig. Beweis. Es bedeuten λ1 , . . . , λm verschiedene Eigenwerte, und v1 , . . . , vm bezeichnen zugehörige Eigenvektoren. Die Behauptung ist klar für den speziellen Fall m = 1. Sei also die Behauptung auch für ein ℓ ≥ 1 bereits bewiesen: Die Eigenvektoren v1 , . . . , vℓ zu den zueinander verschiedenen Eigenvektoren λ1 , . . . , λℓ seien linear unabhängig. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 88 Dann sei für Eigenvektoren v1 , . . . , vℓ+1 zu verschiedenen Eigenwerten λ1 , . . . , λℓ+1 angenommen α1 v1 + . . . + αℓ+1 vℓ+1 = 0, und wir wollen α1 = . . . = αℓ+1 = 0 folgern. Es ist aber ℓ+1 0 = (A − λℓ+1En ) ◦ 0 = (A − λℓ+1En ) ◦ ∑ αk vk k=1 = ℓ+1 ℓ+1 k=1 k=1 ∑ αk (A ◦ vk − λℓ+1En ◦ vk ) = ∑ αk (A ◦ vk − λℓ+1vk ) ℓ = ∑ αk (λk − λℓ+1)vk + αℓ+1 · 0 . k=1 Die v1 , . . . , vℓ sind aber nach Voraussetzung linear unabhängig, und da ebenfalls stets λk − λℓ+1 6= 0 für alle k = 1, . . . , ℓ richtig ist, schließen wir α1 = . . . = αℓ = 0. Dann muss aber αℓ+1 vℓ+1 = 0 sein, und da vℓ+1 nicht verschwindet, folgt αℓ+1 = 0. Folgerung 2.6. Sind λ1 , . . . , λm paarweise verschiedene Eigenwerte von A, und sind Bi Basen von Ni = Kern (A − λi En ), i = 1, . . . , m, so bilden diese zusammen genommen eine linear unabhängige Menge M . Beweis. Beweisen Sie diese Folgerung. 2.12.4 Das charakteristische Polynom Für eine (n × n)-Matrix A wird durch pA (x) := det(A − x En ) ihr sogenanntes charakteristisches Polynom definiert. Beispiel 19. Für die Einheitsmatrix E2 berechnen wir ihr charakteristisches Polynom 1−x 0 pE2 (x) = det = (1 − x)2 = (1 − x)(1 − x) 0 1−x mit der zweifachen Nullstelle −1. Für die SO(2)-wertige Matrix Dϕ haben wir weiter cos ϕ − x − sin ϕ = x2 − 2x cos ϕ + 1 pDϕ (x) = det sin ϕ cos ϕ − x mit pD0 (x) = pE2 (x). Im Falle ϕ = π 2 hingegen besitzt pD π (x) = x2 + 1 = (x + i)(x − i) 2 nur die rein imaginären Nullstellen ±i. 2.12. EIGENWERTE UND EIGENVEKTOREN 89 Satz 2.45. Dieses charakteristische Polynom ist stets von der Form pA (x) = (−x)n + SpurA (−x)n−1 + . . . + detA mit der Spur der Matrix A n Spur A = ∑ akk . k=1 Ferner ist λ ∈ K genau dann Eigenwert von A, wenn gilt det (A − λ En ) = 0, d.h. λ ist Nullstelle des charakteristischen Polynoms. Beweis. In der Vorlesung beweisen wir nur die zweite Aussage, hier der Punkt 1. des Beweises. Der Beweis der zweiten Aussage ist kursorisch. 1. Wir beginnen mit der zweiten Aussage: Es ist λ genau dann Eigenwert von A, wenn es ein v 6= 0 gibt mit (A − λ En ) ◦ v = 0. Damit ist v im Kern der linearen Abbildung A − λ En , d.h. diese Abbildung ist nicht invertierbar, und es gilt det (A − λ En ) = 0 nach Folgerung 2.4. 2.∗ Die im Satz behauptete Form des charakteristischen Polynoms beweist man induktiv. Zunächst einmal machen wir uns klar, dass der Grad dieses Polynoms kleiner, höchstens gleich n ist. Den konstanten Term in pA (x) kann man ferner wie folgt bestimmen: pA (0) = det (A − 0 · En ) = det A. Nun zu den Koeffizienten vor xn und xn−1 : Im Fall n = 2 berechnen wir explizit a −x a12 det 11 = x2 − (a11 + a22 )x + (a11 a22 − a212 ). a21 a22 − x Die Behauptung sei jetzt induktiv für alle k < n bewiesen, wobei n ≥ 3. Es sei nun A ∈ Kn×n . Entwicklung nach der ersten Zeile liefert a11 − x a12 ··· a1n a21 n a22 − x · · · a2n ≡ (a11 − x)P1 (x) + ∑ a1k Pk (x) . .. .. . .. .. . . k=2 a an2 · · · ann − x n1 mit geeigneten Polynomen P1 (x) und Pk (x), k = 2, . . . , n. Nach Induktionsannahme wissen wir aber a22 − x · · · ! a2n n . . n−1 . .. .. .. P1 (x) = + ∑ akk (−x)n−2 + . . . = (−x) k=2 a ··· a n2 nn−x Es ist wichtig zu bemerken, dass alle anderen Pk , k = 2, . . . , n, Polynome vom Grade höchstens n − 2 sind, was sich nach Entwicklung der ersten Zeile ergibt, welche nicht von KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 90 x abhängt! Insgesamt erhalten wir also ( det (A − xEn ) n−1 = (a11 − x) (−x) n + ∑ akk k=2 ! n−2 (−x) ) +... = (−x)n + Spur A (−x)n−1 + . . . Das war zu zeigen. Wir wollen auf den Begriff ähnlicher Matrizen aus Definition 2.30 zurück kommen. Satz 2.46. Ähnliche Matrizen besitzen dasselbe charakteristische Polynom. Beweis. Es seien A und B ähnlich, d.h. mit einer Transformationsmatrix S gilt B = S−1 ◦ A ◦ S. Dann berechnen wir mit dem Determinantenmultiplikationssatz pB (x) = |B − xEn | = |S−1 ◦ A ◦ S − x S−1 ◦ En ◦ S| = |S−1 ◦ (A − xEn) ◦ S| = |S−1 ||A − xEn ||S| = |A − xEn | = pA (x), woraus die Behauptung folgt. Die Matrix S werden wir später aus Eigenvektoren von A aufbauen. 2.12.5 Algebraische und geometrische Vielfachheit Definition 2.34. Ein Eigenwert λ der Matrix A besitzt die algebraische Vielfachheit k ∈ N, wenn er k-fache Nullstelle des zugehörigen charakteristischen Polynoms ist, d.h. wenn gilt pA (x) = (x − λ )k q(x) mit einem Polynom q mit der Eigenschaft q(λ ) 6= 0. Die geometrische Vielfachheit von λ hingegen ist definiert als die Dimension des zugehörigen Eigenraums Nλ . Beispiel 20. Die Matrix λ A= 0 1 λ mit reellem λ ∈ R besitzt das charakteristische Polynom pA (x) = (λ − x)2 . 2.12. EIGENWERTE UND EIGENVEKTOREN 91 Also ist λ ein zweifacher Eigenwert von A, d.h. → die algebraische Vielfachheit von λ ist 2. Der zum Eigenwert λ gehörige Eigenraum bestimmt sich aus 0 1 2 Nλ = Kern (A − λ E ) = Kern = Lin {e1 } mit e1 = (1, 0). 0 0 Die Dimension des zu λ gehörigen Eigenraumes ist also gleich 1, d.h. → die geometrische Vielfachheit von λ ist 1. Die geometrische Vielfachheit ist kleiner als die algebraische Vielfachheit. Diese Beobachtung as gilt auch ganz allgemein. Satz 2.47. Die geometrische Vielfachheit eines Eigenwertes ist höchstens gleich seiner algebraischen Vielfachheit. Beweis. Den nicht ganz einfachen Beweis dieses Satzes müssen wir übergehen. 2.12.6 Summe und Produkte der Eigenwerte Den Vietaschen Wurzelsätzen entnimmen wir den folgenden Satz 2.48. Sind λ1 , . . . , λr die verschiedenen reellen Nullstellen des charakteristischen Polynoms der Matrix A, und bezeichnen k1 , . . . , kr die zugehörigen Ordnungen bzw. algebraischen Vielfachheiten, so gelten Spur A = k1 λ1 + . . . + kr λr sowie detA = λ1k1 · . . . · λrkr . Beweis. Beweisen Sie diese Aussage. 2.12.7 Diagonalisierbarkeit Wir wollen nun den Begriff der Diagonalisierbarkeit präzisieren. Definition 2.35. Eine lineare Abbildung L auf dem Vektorraum V über dem Körper K nennen wir diagonalisierbar, falls es eine allein aus Eigenvektoren bestehende Basis B = {v1 , . . . , vn } von V gibt, so dass also gelten L(vk ) = λk vk mit Eigenwerten λk ∈ K. für k = 1, . . . , n 92 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE Die Abbildungsmatrix bez. dieser ausgezeichneten Basis besitzt also die Form λ1 0 .. MB . . B (L) = 0 λn → Der Sinn der Diagonalisierung besteht also darin, eine Basis zu finden, bezüglich derer sich eine gegeben lineare Abbildung möglichst einfach schreiben läßt! Das Problem der Diagonalisierung von Matrizen und der genannten Konsequenzen stellt eines der zentralen Probleme der Linearen Algebra und Geometrie dar. Satz 2.49. Die Matrix A ∈ Kn×n ist genau dann diagonalisierbar, wenn ◦ ihr charakteristisches Polynom pA (x) über dem Körper K in Linearfaktoren zerfällt ◦ und für jede Nullstelle von pA (x) die algebraische Vielfachheit und die geometrische Vielfachheit übereinstimmen. Insbesondere ist A sicher dann diagonalisierbar, wenn ihr charakteristisches Polynom n verschiedene Nullstellen in K hat. Bevor wir zum Beweis dieses Satzes kommen, noch zwei wichtige Bemerkungen: ◦ Der Fundamentalsatz der Algebra besagt, dass sich über dem Körper der komplexen Zahlen C jedes Polynom n-ten Grades in genau n Linearfaktoren x − βi aufspaltet: pA (x) = n n k=0 i=1 ∑ αk xk = c · ∏(x − βi). Man sagt, dass Polynom zerfällt in seine Linearfaktoren. ◦ Ob also eine Matrix diagonalisierbar ist, hängt vom verwendeten Zahlenkörper K ab. Dieser muss, damit Polynome in Linearfaktoren zerlegt werden können, groß“ genug sein. ” Beispiel 21. Die Matrix 1 1 A= 0 1 besitzt den einzigen Eigenwert λ = 1 der algebraischen Vielfachheit 2. Der zugehörige Eigenraum ist aber Lin {e1 } und besitzt die Dimension 1, d.h. die geometrische Vielfachheit von λ ist gleich 1. Algebraische und geometrische Vielfachheit stimmen nicht überein, d.h. die Matrix A ist nicht diagonalisierbar. Vielmehr liegt sie in triagonalisiert vor, uns zwar als sogenannte Jordanschen Normalform; wir sprechen auch von einem Jordanblock. Eine solche Matrix kann man nicht weiter vereinfachen. Es gibt im Wesentlichen zwei Gründe geben, weshalb Diagonalisierbarkeit scheitern kann: 2.12. EIGENWERTE UND EIGENVEKTOREN 93 ◦ der verwendete Zahlenkörper ist zu klein“ und gestattet keine Linearfaktorzer” legung; ◦ es sind nicht genügend“ Eigenwerte vorhanden. ” Der Beweis des Satzes ist wieder kursorisch. Beweis. ∗ Wir identifizieren die Matrix A mit der zugehörigen linearen Abbildung L. 1. L sei diagonalisierbar, d.h. wir wissen L(vk ) = λk vk für k = 1, . . . , n, und B = {v1 , . . . , vn } bildet eine Basis von V. Die Abbildungsmatrix MB B (L) besitzt dann die oben angegebene Diagonalgestalt. Bezeichnen wir diese kurz mit D, so lautet das zugehörige charakteristische Polynom pL (x) = pD (x) = |D − xEn |. Seien nun µ1 , . . . , µr die verschiedenen Nullstellen von pL (x) und k1 , . . . , kr die zugehörigen algebraischen Vielfachheiten. Wir denken uns die Basisvektoren der Art sortiert, dass λ1 = . . . = λk1 = µ1 , ..., λn−kr +1 = . . . = λn = µr . Wir zeigen nun dim Nµ1 = k1 , woraus wir schließen, dass die geometrische Vielfachheit von µ1 gleich der algebraischen Vielfachheit ist. Durch eventuelles Umnummerieren und Umsortieren zeigt man auf die gleiche Weise dim Nµi = ki . Wir betrachten also einen Vektor v ∈ Nµ1 mit den Koordinaten vB = x = (x1 , . . . , xn ) bez. der Basis B. Wir ermitteln v ∈ Nµ1 Also folgt ⇐⇒ (D − µ1 En ) ◦ v = 0 ⇐⇒ (λk − µk )xk = 0 für k > k1 ⇐⇒ xk = 0 ⇐⇒ x ∈ Lin {e1 , . . . , ek1 } . für k > k1 dim Nµ1 = dim Kern (D − µ1 En ) = k1 . 2. Seien nun andererseits µ1 , . . . , µr die verschiedenen Eigenwerte von L und k1 , . . . , kn die zugehörigen algebraischen Vielfachheiten (Ordnungen) mit dim Nµi = ki für i = 1, . . . , r. Es gelte ferner r ∑ ki = n. i=1 Sind nun B1 eine Basis von Nµ1 , B2 eine Basis von Nµ2 usw., so bildet die Menge B = B1 ∪ B2 ∪ . . . ∪ Br eine Basis des gesamten Raumes V. 3. Hat schließlich L lauter verschiedene Eigenwerte λ1 , . . . , λn , und bezeichnen v1 , . . . , vn die zugehörigen Eigenvektoren, so sind diese linear unabhängig und bilden damit eine Basis von V. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 94 2.12.8 Beispiele 1. Spiegelung an einer Ebene Es seien v ∈ R3 und w ∈ R3 linear unabhängig, E = Lin {v, w}. Die Spiegelung an der Ebene E bez. der Basis {v, w, v × w} besitzt dann die Diagonalgestalt 1 0 0 0 1 0 . 0 0 −1 Das ist sicher die einfachste algebraische Beschreibung der geometrischen Operation Spiegelung.“ Beschreiben Sie zum Vergleich die Spiegelung an einer be” liebigen Ebene unter Verwendung der Standardbasis! 2. Ein umfangreiches dreidimensionales Beispiel Die Matrix 2 1 A = 1 2 2 2 besitzt das charakteristische Polynom 1 2 1 2 2 pA (x) = (2 − x)3 − 3(2 − x) + 2 = z3 − 3z + 2 mit z := 2 − x. Offenbar ist z = 1 eine Nullstelle. Eine hierauf fällige Polynomdivision ergibt die Linearfaktorzerlegung (z3 − 3z + 2) = (z − 1)(z2 + z − 2) = (z − 1)(z − 1)(z + 2). Es ist also z = 1 und mithin x = 1 ist zweifache Nullstelle, während z = −2 bzw. x = 4 eine einfache Nullstelle ist. Zusammengefasst haben wir also Nullstellen des charakteristischen Polynoms: λ1 = 1 (zweifach), λ2 = 4 (einfach). ◦ Der Eigenraum N1 zum Eigenwert λ1 = 1 ergibt sich zu 1 1 21 Kern (A − 1 · E3) = Kern 1 1 12 . 2 2 1 Die Matrix auf der rechten Seite besitzt den Rang 1, und nach dem KernBild-Satz ist ihr Kern zweidimensional (denn es ist ja n = 3). Die algebraische Vielfachheit und die geometrische Vielfachheit des Eigenwerts λ1 = 1 stimmen also überein! ◦ Entsprechendes verifiziert man auch für λ2 (Bitte selbst klar machen!). Wir schließen daher, dass A diagonalisierbar ist. Wir wollen nun aber N1 und N2 explizit bestimmen. 2.12. EIGENWERTE UND EIGENVEKTOREN 95 ◦ N1 ist Lösungsmenge der Gleichung 2x1 + 2x2 + x3 = 0. Hierin führen wir zwei freie Parameter x1 = α und x2 = β ein und erhalten die Darstellung α 1 0 = α 0 + β 1 =: α v + β w β −2 −2 −2α − 2β mit den Eigenvektoren v = (1, 0, −2)T und w = (0, 1, −2)T . Damit haben wir N1 = Lin {v, w} gezeigt. ◦ Um N2 zu bestimmen, ist das lineare Gleichungssystem 2 1 12 x1 x1 1 2 1 ◦ x2 = 4 x2 2 x3 x3 2 2 2 zu lösen (Eigenwert ist 4). Hierzu wenden wir Gaußsche Eliminationsverfahren an und erhalten nach mehreren Umformungen 1 −2 1 2 1 1 −2 2 2 2 −2 geht über in 1 0 1 −2 2 1 − 12 Also ist N2 Lösungsmenge des linearen Gleichungssystems 1 x1 − 2x2 + x3 = 0, 2 1 x2 − x3 = 0. 2 Wir führen einen freien Parameter x3 = α ein und erhalten N2 = Lin{(1, 1, 2)} . Durch Probe möge man dies bestätigen. Schließlich bemerken wir, dass die drei Eigenvektoren (1, 0, −2)T und (0, 1, −2)T (1, 1, 2)T zum Eigenwert 1, zum Eigenwert 4 linear unabhängig sind und damit eine Basis des gesamten Raumes R3 bilden. Nun setzen wir mit diesen Eigenvektoren für unsere Transformationsmatrix S 4 −2 −1 1 0 1 1 S := 0 1 1 mit der Inversen S−1 = −2 4 −1 . 6 2 2 1 −2 −2 2 Die Spalten von S entsprechen also genau den Eigenvektoren von A. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 96 Jetzt berechnen wir 4 1 S−1 ◦ A ◦ S = −2 6 2 4 1 = −2 6 2 1 0 = 0 1 0 0 −2 −1 1 0 2 1 12 4 −1 ◦ 1 2 12 ◦ 0 1 2 1 −2 −2 2 2 2 −2 −1 6 1 0 4 1 4 −1 ◦ 0 1 4 = 0 6 2 1 0 −2 −2 8 0 0 = B. 4 1 1 2 0 6 0 0 0 24 → Die rechte Matrix ist die Abbildungsmatrix B, welche die lineare Abbildung beschreibt innerhalb derjenigen Basis des R3 , welche aus den drei Eigenvektoren besteht. → Die Wirkung der Matrix B entspricht der Wirkung der Ausgangsmatrix A. Beide Matrizen unterscheiden sich lediglich in ihrer algebraischen Darstellung. Die Darstellung der zu Grunde liegenden linearen Abbildung in Form der Matrix B ist offenbar die einfachste Darstellungsmöglichkeit. → Die Matrizen A und B sind zueinander ähnlich. 2.13 Hauptachsentransformation 2.13.1 Motivation Wir beginnen mit der Definition 2.36. Eine Gleichung der Form a11 x2 + a22y2 + 2a12xy + b = 0 mit a11 , a12 , a22 , b ∈ R stellt einen Kegelschnitt bzw. eine Kurve zweiter Ordnung in der Euklidischen Ebene R2 dar. Bemerkung 2. ◦ Eigentlich sollten wir a11 x2 + a22y2 + 2a12xy + b1x + b2y + c = 0 mit zwei zusätzlichen linearen Termen b1 x und b2 y als Kegelschnitt definieren. Da die quadratischen Terme jedoch unser Hauptaugenmerk fordern, betrachten wir vorerst nur die speziellere Form aus unserer Definition und kommen zum allgemeinen Fall am Ende des Paragraphen 2.13.6 zurück. ◦ Kegelschnitte ergeben sich aus dem Schnitt einer Ebene mit einer Kreiszylinder oder einem Kreiskegel. Fertigen Sie eigene Skizzen zur Veranschaulichung an. 2.13. HAUPTACHSENTRANSFORMATION 97 Ein Beispiel für einen solchen Kegelschnitt ist 4x2 + 4y2 − 4xy − 6 = 0. Die Menge aller (x, y) ∈ R2 , welche dieser Relation genügen, stellt eine Ellipse dar, deren Achsen nicht in Richtung der Koordinatenachsen zeigen, da ein gemischtes Glied −4xy vorkommt. Wir substituieren daher x = u cos ϕ − v sin ϕ , y = u sin ϕ + v cos ϕ mit einem noch zu bestimmenden Drehwinkel ϕ ∈ [0, 2π ) und erhalten nach Einsetzen in die Ausgangsgleichung (4 − 4 cos ϕ sin ϕ )u2 + (4 + 4 cos ϕ sin ϕ )v2 + (−4 cos2 ϕ + 4 sin2 ϕ )uv − 6 = 0. √ Wählen wir nun ϕ = π4 , so dass gilt cos2 ϕ = sin2 ϕ wegen cos π4 = sin π4 = 12 2, so verschwindet der gemischte Term. Nach Anwenden der Transformation x= 1√ 1√ 2u − 2 v, 2 2 y= 1√ 1√ 2u + 2v 2 2 geht unser Kegelschnitt also über in die einfachere Form 2u2 + 6v2 − 6 = 0. Die angegebene Koordinatentransformation entspricht geometrisch einer Drehung des [x, y]-Koordinatensystems um 45◦ in ein neues [u, v]-Koordinatensystem, dessen Koordinatenrichtungen nun mit den Achsen der Ellipse übereinstimmen. Diesen Vorgang nennt man Hauptachsentransformation. Eine Hauptachsentransformation hat zum Ziel, eine gegebene Kegelschnittgleichung in eine Form zu überführen, aus welcher man die geometrische Gestalt der Lösungsmenge dieser Gleichung unmittelbar ablesen kann. Diese besondere Form bezeichnen wir als Normalform des Kegelschnitts. Beispiele solcher Normalformen sind x2 + y2 = 1 2 für den Kreis vom Radius 1 2 y x + =1 a2 b2 x2 y2 − =1 a2 b2 für eine Ellipse mit Hauptradien a > 0 und b > 0 für einen Hyperbelast mit Hauptradien a > 0 und b > 0 2.13.2 Beschreibung vermittels Matrizen Die abstrakte Sprache der linearen Algebra wird das Durchführen einer Hauptachsentransformation in Situationen, die über der von uns in den folgenden Paragraphen betrachten hinausgehen, deutlich vereinfachen. Vom praktischen Beispiel des vorigen Paragraphen geleitet, wollen wir daher ein allgemeines Schema einer Hauptachsentransformation ausarbeiten. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 98 Die quadratische Gleichung a11 x2 + 2a12xy + a22y2 + b = 0 lässt sich zunächst wie folgt schreiben x a11 a12 x ◦ 0 = (x, y) ◦ + c = (x, y) ◦ A ◦ +c a12 a22 y y mit der symmetrischen 2 × 2-Matrix A. Der Vektor (x, y) ∈ R2 wird vermittels der Drehmatrix cos ϕ − sin ϕ D= sin ϕ cos ϕ auf einen Vektor (u, v) ∈ R2 abgebildet. Für das weitere Vorgehen benötigen wir einige Vorbetrachtungen. Insbesondere möchten wir die Sätze 2.50 und 2.51 herausstellen. 2.13.3 Über das Spektrum symmetrischer Matrizen Wir erinnern an das Euklidische Standardskalarprodukt n v · w = ∑ vi wi i=1 für Vektoren v, w ∈ Rn . Hilfssatz 2.11. Ist A ∈ Rn×n symmetrisch, so gilt v · (A ◦ w) = w · (A ◦ v) für alle v, w ∈ Rn . Beweis. Wir berechnen nämlich in Komponenten n v · (A ◦ w) = = ∑ vi (A ◦ w)i = i=1 n n n ∑ ∑ a i j vi w j = i=1 j=1 n n ∑ ∑ a jivi w j i=1 j=1 ∑ w j (A ◦ v) j = w · (A ◦ vi), j=1 was zu zeigen war. Unser nächstes Resultat spezialisiert Satz 2.44. Satz 2.50. Ist A ∈ Rn×n symmetrisch, so sind die zu verschiedenen Eigenwerten gehörigen Eigenvektoren nicht nur voneinander linear unabhängig, sondern sie sind zueinander orthogonal. 2.13. HAUPTACHSENTRANSFORMATION 99 Beweis. Es sei v ∈ Rn \ {0} Eigenvektor zum Eigenwert λ , und w ∈ Rn \ {0} sei Eigenvektor zum Eigenwert µ , d.h. es gelten A ◦ v = λ v, A ◦ w = µ w mit λ 6= µ . Wir multiplizieren nun wie folgt w · (A ◦ v) = λ v · w, v · (A ◦ w) = µ w · v. Nach vorigem Hilfssatz sind aber die linken Seiten dieser beider Identitäten jeweils gleich, so dass wir λ v · w = µ w · v = µ v · w bzw. (λ − µ )v · w = 0 entnehmen. Die Behauptung folgt auf Grund der Voraussetzung λ 6= µ . 2.13.4 Hermitesches Skalarprodukt Für das nächste Resultat ist es notwendig, das reelle Skalarprodukt v, w 7→ v · w des Euklidischen Raums Rn auf den komplexen Vektorraum Cn zu erweitern. Definition 2.37. Für komplex-wertige Vektoren v = (v1 , . . . , vn ) ∈ Cn und w = (w1 , . . . , wn ) ∈ Cn definieren wir ihr Hermitesches Skalarprodukt n hv, wiC := ∑ vi wi i=1 mit dem komplex Konjugierten wi = Re wi − Imwi . Das Hermitesche Skalarprodukt lässt sich als Komplexifizierung des Euklidischen Skalarprodukts verstehen. Es stellt eine sogenannte positiv-definite Sesquilinearform dar, d.h. es besitzt die folgenden Eigenschaften: ◦ ◦ ◦ ◦ ◦ ◦ hu + v, wiC = hu, wiC + hv, wiC ; hu, v + wiC = hu, viC + hu, wiC ; hλ u, viC = λ hu, viC , hu, λ vi = λ hu, viC ; hv, wiC = hw, viC ; hv, viC ≥ 0 mit hv, viC = 0 genau dann, wenn v = 0. Aufgabe 36. Beweisen Sie diese Eigenschaften des komplexen Skalarprodukts. Die vierte Eigenschaft bedeutet Hermitizität und ersetzt die Symmetrie im Euklidischen Skalarprodukt. Außerdem gilt stets hv, viC ∈ R, da hv, viC = hv, viC . 100 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE Aufgabe 37. Einen nichtverscwindenden komplex-wertigen Vektor v ∈ Cn bezeichnet man als isotrop, falls n ∑ v2i = 0. i=1 Finden Sie Beispiele solcher Vektoren. Wiederholen Sie an dieser Stelle bitte unsere Ausführungen aus Paragraph 2.11.2. Was können wir über die Eigenwerte reellwertiger, symmetrischer Matrizen aussagen? Satz 2.51. Ist A ∈ Rn×n symmetrisch, so sind alle Eigenwerte reell, d.h. das charakteristische Polynom besitzt nur reelle Eigenwerte. Beweis. Sei nämlich λ ∈ C eine Nullstelle des charakteristischen Polynoms pA (x). Dann gibt es auch einen zugehörigen Eigenvektor v ∈ Cn \ {0}. Wir berechnen das Hermitesche Produkt hA ◦ v, viC = hλ v, viC = λ hv, viC . Andererseits gilt wegen der Reellwertigkeit und Symmetrie von A hA ◦ v, viC = hv, A ◦ viC = λ hv, viC . Wegen v 6= 0 folgt λ = λ , mithin also λ ∈ R. 2.13.5 Hauptsatz über reelle, symmetrische Matrizen Wir kommen nun zu dem wichtigen Satz 2.52. Jede symmetrische und reelle Matrix A ∈ Rn×n ist diagonalisierbar. Es gibt also eine Orthonormalbasis des Rn aus Eigenvektoren von A. Wir wollen uns den Beweis dieses Satzes genauer ansehen, da die verwendeten Techniken von zentraler Bedeutung für die Mathematik und Physik sind. Beweis. Der Beweis wird induktiv geführt. Im Fall n = 1 ist einfach A = (λ ) ∈ R. 1. Sei also n > 1. Wähle nach Satz 2.51 einen reellen Eigenwert λ ∈ R und einen zugehörigen Eigenvektor u ∈ Rn und betrachte das zu diesem Eigenvektor gehörige orthogonale Komplement u⊥ := v ∈ Rn : u · v = 0 = v ∈ Rn : u1 v1 + . . . + unvn = 0 . Diese Menge ist ein linearer Unterraum des Rn , da sie als Lösungsmenge einer homogenen linearen Gleichung entsteht. 2. Wir zeigen A ◦ v ∈ u⊥ für alle v ∈ u⊥ unter Ausnutzung der Symmetrie der Matrix A. 2.13. HAUPTACHSENTRANSFORMATION 101 Nach Hilfssatz 2.11 ist nämlich (A ◦ v) · u = v · (A ◦ u) = v · (λ u) = λ v · u = 0. Die Anwendung von A vermöge u⊥ ∋ v 7→ A ◦ v ∈ u⊥ stellt also eine lineare Abbildung LA von u⊥ in u⊥ selbst dar. 3. Wir wählen nun im linearen Unterraum u⊥ eine Orthonormalbasis1 bestehend aus {w1 , . . . , wn−1 } und erhalten so eine Orthonormalbasis A = u, w1 , . . . , wn−1 des Rn , falls wir unterstellen, dass der Eigenvektor u ∈ Rn ein Einheitsvektor ist, was wir durch Normieren stets erreichen können, da ja u 6= 0. Die Matrix S, gebildet aus den Spalten u, w1 , . . . , wn−1 , beschreibt den Basiswechsel von der kanonischen Basis des Rn zu dieser neuen Basis A . 4. Es gilt nun λ 0 ··· 0 0 S−1 ◦ A ◦ S = . .. M 0 mit einer noch zu spezifizierenden Matrix M ∈ R(n−1)×(n−1). Da aber nun S orthogonal ist mit der charakterisierenden Eigenschaft2 S−1 = ST , und da A symmetrisch ist, schließen wir T S−1 ◦ A ◦ S = ST ◦ AT ◦ (S−1 )T = S−1 ◦ A ◦ S . Damit ist auch M symmetrisch mit M = MT . 5. Wir können die Induktionsvoraussetzung also auch auf M anwenden: Es gibt eine Orthonormalbasis M = {v1 , . . . , vn−1 } von u⊥ , die nur aus Eigenvektoren von LA besteht. Fügen wir den Eigenvektor u zu dieser Basis hinzu, erhalten wir schließlich eine Orthonormalbasis von Rn . Damit ist der Satz vollständig bewiesen. Dieses zentrale Resultat wollen wir noch anders formulieren. Satz 2.53. Es gibt eine orthogonale Matrix S, welche durch die Eigenschaft S−1 = ST ausgezeichnet ist, so dass S−1 ◦ A ◦ S Diagonalgestalt besitzt, wobei in der Hauptdiagonale die Eigenwerte von A stehen. 1 Eine Basis in diesem linearen Unterraum erhalten wir zunächst nach Lösen des zugehörigen linearen Gleichungssystems. Verallgemeinern wir im zweiten Schritt das in Aufgabe 33 von Übungsblatt 7 angesprochene Orthogonalisierungsverfahren“ nach Gram und Schmidt, so können wir diese Basis in eine ” Orthonormalbasis überführen. Führen Sie dieses Verfahren explizit aus! 2 Beachte, dass S den Übergang der Standardbasis in die Orthonormalbasis A beschreibt, d.h. die Spalten von S bestehen aus zueinander orthogonalen Vektoren, deren Längen sämtlich 1 sind. KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 102 2.13.6 Hauptachsentransformation in R2 Wir kommen nun zurück auf unser eingangs betrachtetes Problem einer ebenen quadratischen Form x (x, y) ◦ A ◦ +c = 0 y mit einer reellwertigen, symmetrischen Matrix A ∈ R2×2 . Sind nun λ1 und λ2 ihre reellen Eigenwerte, und bedeutet cos ϕ − sin ϕ D= ∈ SO(2) sin ϕ cos ϕ eine orthogonale Basis von zugehörigen normierten Eigenvektoren, ausgedrückt durch einen noch zu bestimmenden Drehwinkel ϕ ∈ [0, 2π ), so können wir unsere Ergebnisse der vorigen Paragraphen wie folgt zusammenfassen: λ1 0 −1 T . D ◦A◦D = D ◦A◦D = 0 λ2 Beachte, dass tatsächlich D ∈ SO(2), denn wir berechnen unmittelbar mit den uns bekannten Regeln für das Transponieren bzw. Invertieren von (2 × 2)-Matrizen sin ϕ cos ϕ T = D−1 . D = − sin ϕ cos ϕ Setzen wir also x u ≡ D◦ , y v so erhalten wir x 0 = a11 x + 2a12xy + a22y + b = (x, y) ◦ A ◦ +b y u u λ1 0 T = (u, v) ◦ D ◦ A ◦ D ◦ + b = (u, v) ◦ ◦ +b v v 0 λ2 2 2 = λ12 u2 + λ2u2 + b. → Bezüglich der neuen Basis, dargestellt durch die zueinander orthogonalen Vektoren als Spalten der orthogonalen Drehmatrix D, d.h. im neuen [u, v]-Koordinatensystem, stellt sich der Kegelschnitt in sogenannter Hauptachsenform dar: Seine Achsen zeigen nach einer Hauptachsentransformation in die Richtungen der Koordinatenachsen. Jetzt wird auch klar, wie allgemeinere Kegelschnitte a11 x2 + 2a12xy + a22y2 + b1x + b2y + c = 0 mit zusätzlichen linearen Termen b1 x1 + b2 x2 zu behandeln sind. 2.13. HAUPTACHSENTRANSFORMATION Es geht nämlich (x, y) ◦ A 103 x x + (b1 , b2 ) · +c = 0 y y nach der Transformation (x, y)T = D ◦ (u, v)T über in (u, v) ◦ DT ◦ A ◦ D ◦ u u + (b1, b2 ) ◦ DT ◦ + c = 0. v v Der linke Summand ist wieder von der gewünschten Diagonalform λ1 u2 + λ2v2 . Aufgabe 38. Führen Sie die Argumentationskette weiter, um diese Gleichung in eine der Normalformen aus Paragraph 2.13.8 zu überführen. 2.13.7 Praxis der Hauptachsentransformation im R2 Wir fassen unsere einzelnen Schritte in knapper Form zu einem Schema zur Durchführung einer Hauptachsentransformation für ebene Kegelschnitte zusammen: Ausgangspunkt ist eine reeller Kegelschnittgleichung der Form a11 x2 + 2a12xy + a22y2 + b = 0. 1. Bestimme Eigenwerte λ1 und λ2 von A. 2. Bestimme die zugehörigen Eigenvektoren v1 und v2 und normiere diese auf die gemeinsame Länge 1. 3. Berechne eventuell einen Drehwinkel ϕ ∈ [0, 2π ) mit v1 = (cos ϕ , − sin ϕ ) und v2 = (sin ϕ , cos ϕ ); das sind die Spalten der Drehmatrix D ∈ SO(2). 4. Führe die Koordinatentransformation aus x u = D◦ . y v Der Kegelschnitt geht damit über in die Hauptachsenform λ1 u2 + λ2 v2 + b = 0. 2.13.8 Klassifikation ebener Kegelschnitte Ist A nicht die Nullmatrix, so ist wenigstens ein Eigenwert ungleich Null, z.B. λ1 . Durch eventuelle Multiplikation mit −1 können wir auch stets λ1 > 0 annehmen. In Abhängigkeit von den Vorzeichen des Eigenwertes λ2 (λ1 ist nach Voraussetzung positiv) und der Konstante c ergibt sich folgendes klassifizierendes Schema für die sogenannten Normalformen: KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 104 1. Der Fall λ1 u2 + λ2v2 + c = 0 λ1 λ2 c + + + + + + + + + + + − − 0 0 0 + 0 − ± 0 + 0 − Typ der Kurve leere Menge Nullpunkt Ellipse Hyperbel zwei Geraden durch (0, 0) leere Menge v-Achse zwei Geraden parallel zur v-Achse 2. Der Fall λ1 u2 + bv = 0 : λ1 b + ± Typ der Kurve Parabel Aufgabe 39. Finden Sie zu jeder dieser Normalformen ein eigenes Beispiel. 2.13.9 Hauptachsentransformation für Flächen zweiter Ordnung Die eigentliche Kraft, die das algebraische Verfahren der Hauptachsentransformation besitzt, zeigt sich besonders deutlich an der Behandlung sogenannter Flächen zweiter Ordnung, dargestellt durch x a11 a12 a13 x (x, y, z) ◦ a12 a22 a23 ◦ y + (b1, b2 , b3 ) · y + c = 0. a13 a23 a33 z z Dabei setzen wir A als reellwertig und symmetrisch voraus. Lassen wir auch hier aus Gründen der Einfachheit die Terme erste Ordnung weg, ergibt sich quadratische Gleichung a11 x2 + a22y2 + a33z2 + 2a12xy + 2a13xz + 2a23yz + b = 0. Das praktische Schema zur Durchführung einer Hauptachsentransformation gestaltet sich wie folgt: 1. Bestimme die Eigenwerte λ1 , λ2 und λ3 der Matrix A. 2. Bestimme zugehörige normierte Eigenvektoren v1 , v2 und v3 . 3. Konstruiere die Drehmatrix D = (v1 , v2 , v3 ) ∈ SO(3).3 3 An dieser Stelle bestimmen wir keine räumlichen Drehwinkel, sondern berufen uns auf die Allgemeinheit unseres algebraischen Verfahrens. 2.13. HAUPTACHSENTRANSFORMATION 105 4. Führe die Koordinatentransformation aus x u y = D◦ v . z w Die quadratische Gleichung geht über in die Hauptachsenform λ1 u2 + λ2 v2 + λ3w3 + b = 0. Die Vektoren v1 , v2 und v3 bilden die normierten Hauptachsen, welche jeweils in Richtung der u, v- bzw. w-Achsen zeigen. 2.13.10 Klassifikation von Flächen zweiter Ordnung Ist A nicht die Nullmatrix, so ist ein Eigenwert stets ungleich Null, z.B. λ1 . Durch eventuelle Multiplikation mit −1 können wir zudem λ1 > 0 annehmen. In Abhängigkeit von λ2 , λ3 und c ergibt sich folgendes klassifizierendes Schema für die sogenannten Normalformen für Flächen zweiter Ordnung 1. Der Fall λ1 u2 + λ2 v2 + λ3 w2 + c = 0 : λ1 λ2 λ3 c + + + + + + + + + + + + + − − + 0 − + 0 + + + + + + + + + + + + + − − 0 0 0 − 0 0 0 0 0 0 0 0 − + 0 − ± 0 + 0 − Typ der Fläche leere Menge Nullpunkt Ellipsoid zweischaliges Hyperboloid elliptischer Doppelkegel um w-Achse einschaliges Hyperboloid leere Menge w-Achse elliptischer Zylinder hyperbolischer Zylinder zwei Ebenen durch w-Achse leere Menge [v, w]-Ebene zwei Ebenen parallel zur [v, w]-Ebene 2. Der Fall λ1 u2 + λ2 v2 + bw = 0 λ1 λ2 b + + + − ± ± + 0 ± Typ der Fläche elliptisches Paraboloid hyperbolisches Paraboloid (Sattelfläche) parbolischer Zylinder KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE 106 Aufgabe 40. Finden Sie zu jeder dieser Normalformen ein eigenes Beispiel. Wir wollen hierzu ein Beispiel betrachten. Beispiel 22. Für die folgende Fläche zweiter Ordnung 16x2 + 9y2 + 16z2 + 40xy − 36 = 0 bestimme man Hauptachsenform und Typ. Zunächst bestimmen wir also die Koeffizientenmatrix 16 0 20 A=0 9 0 20 0 16 mit zugehörigen Eigenwerten λ1 = 9, λ2 = 36, λ3 = −4, als auch die normierten Eigenvektoren v1 = (0, 1, 0)T , 1 v2 = √ (1, 0, 1)T , 2 1 v3 = √ (1, 0, −1)T . 2 Diese ordnen wir nun spaltenweise zu einer Drehmatrix 0 1 2 D= 2 0 √ √ 2 2 0 0 √ √ . 2 − 2 Diese Matrix repräsentiert eine kartesische Basis im R3 , bestehend aus den drei zueinander orthonormalen Vektoren v1 , v2 und v3 . Sie überführt A in Diagonalform 9 0 0 DT ◦ A ◦ D = 0 36 0 . 0 0 −4 Beachte, dass auch hier wieder gilt D−1 = DT . Die Normalform der Fläche erhalten wir mit 9u2 + 36v2 − 4w2 − 36 = 0 bzw. u2 v2 w2 + − = 1. 4 1 9 Es handelt sich als um ein einschaliges Hyperboloid. 2.13. HAUPTACHSENTRANSFORMATION 107 2.13.11 Ausblick: Jordansche Normalformen Die sogenannte Jordansche Normalform einer quadratischen Matrix A über dem komplexen Zahlenkörper C ist eine Blockdiagonalmatrix der Form J1 0 .. . 0 Jk mit den Jordanblöcken Jk = λk 1 λk 0 0 1 .. . .. . λk 1 λk Dabei bedeuten die λk wieder die Eigenwerte von A, und zu jedem Eigenwert existieren seiner geometrischen Vielfachheit entsprechend viele Jordanblöcke. Die Gesamtdimension aller Jordanblöcke eines Eigenwertes entspricht seiner algebraischen Vielfachheit. M.E.C. Jordan führte solche Normalformen 1871 im Zusammenhang mit der Lösungstheorie komplexer Differentialgleichungssysteme ein. Im Spezialfall einer diagonalisierbaren Matrix ist die Jordansche Normalform gleich einer Diagonalmatrix. Aufgabe 41. Studieren Sie in Ihrer bevorzugten Literatur die Theorie und die Praxis Jordanscher Normalformen. 2.13.12 Verwendete Literatur In diesem Kapitel haben wir hauptsächlich Band I des unten aufgeführten Lehrbuches von Fischer und Kaul benutzt. Ausführlicher empfehlen wir zum Selbststudium folgende Literatur: ◦ ◦ ◦ ◦ ◦ ◦ Baule, B.: Die Mathematik des Naturforschers und Ingenieurs Fischer, H.; Kaul, H.: Mathematik für Physiker Goldhorn, K.-H.; Heinz, H.-P.: Mathematik für Physiker Grauert, H.; Grunau, H.-Chr.: Lineare Algebra und analytische Geometrie Merziger, G.; Wirth, T.: Repetitorium der höheren Mathematik Wille, D.: Repetitorium der linearen Algebra 108 KAPITEL 2. LINEARE ALGEBRA UND GEOMETRIE Kapitel 3 Stetige Funktionen im Rm 3.1 Einleitung In diesem Kapitel betrachten wir mehrdimensionale Abbildungen f : Ω ⊂ Rm −→ Rn auf einem Definitionsbereich Ω ⊂ Rm im n-dimensionalen Zahlenraum Rm . Dabei sind m, n ∈ N beliebige natürliche Zahlen ungleich Null. Beispiel 1. Im Fall n = 1 sprechen wir von einer m-dimensionalen Funktion f : Ω → R. Beispiele eindimensionaler Funktionen sind ◦ die Signumfunktion −1 für x ∈ (−∞, 0) f (x) := 0 für x = 0 , 1 für x ∈ (0, ∞) ◦ die Dirichletsche Sprungfunktion f (x) := ( 1 0 x∈Q . x ∈ R\Q Beispiele mehrdimensionaler Funktionen m > 1 sind ◦ Hyperebenen f (x1 , . . . , xm ) = α1 x1 + α2 x2 + . . . + αm xm + β , mit Koeffizienten α1 , . . . , αm ∈ R und β ∈ R, 109 (x1 , . . . , xm ) ∈ Rm , 110 KAPITEL 3. STETIGE FUNKTIONEN IM RM ◦ beliebig nichtlineare Funktionen, wie z.B. die Paraboloidfläche f (x, y) = x2 + y2 , (x, y) ∈ R2 . Im Falle n = 2 sprechen wir auch von komplexwertigen Funktionen, falls im Bildbereich R2 ≈ C die komplexe Addition und Multiplikation verwendet wird. Ein Beispiel einer solchen Funktion ist die komplexwertige Exponentialfunktion ∞ exp(z) = zk ∑ , k=0 k! z ∈ C, unter Verwendung der Fakultät k! = 1 · 2 · . . . · k. 3.2 Folgen und Mengen 3.2.1 Eindimensionale Zahlenfolgen Das Studium beliebig nichtlinearer Funktionen bedarf einer genauen Kenntnis der topologischen Eigenschaften der verwendeten Räume, in denen diese Funktionen und Abbildungen wirken. Wir beginnen unsere Untersuchungen daher mit der Analysis eindimensionaler, reeller Zahlenfolgen {x(n) }n=1,2,... ⊂ R. Definition 3.1. Eine reelle Zahlenfolge {x(n) }n=1,2,... heißt konvergent gegen einen Punkt x0 ∈ R, falls es zu jedem ε > 0 einen natürlichen Index N = N(ε ) ∈ N gibt mit der Eigenschaft |x(n) − x0 | < ε für alle n ≥ N(ε ). Wir schreiben auch lim x(n) = x0 . n→∞ Wir können natürlich genauso gut fordern, dass die Differenzfolge {x(n) − x0 }n=1,2,... ⊂ R eine Nullfolge bildet, denn in der Definition ist ε > 0 beliebig wählbar, insbesondere also auch – und das ist der interessante Fall – beliebig klein. Beispiel 2. Folgende reelle Zahlenfolgen konvergieren: n mit lim x(n) = 1 ◦ {x(n) }n=1,2,..., gegeben durch x(n) = n→∞ n+1 1 ◦ {x(n) }n=1,2,..., gegeben durch x(n) = 1 + mit lim x(n) = 1 n→∞ n n 1 ◦ {x(n) }n=1,2,..., gegeben durch x(n) = 1 + mit lim x(n) = e mit der Eulern→∞ n schen Zahl e ≈ 2.71828 . . . 3.2. FOLGEN UND MENGEN 111 √ √ n + 1 − n mit lim x(n) = 1 n→∞ √ (n) (k) n (n) ◦ {x }n=1,2,... , gegeben durch x = n mit lim x = 1. ◦ {x(n) }n=1,2,... , gegeben durch x(n) = n→∞ Wir wollen den letzten dieser Grenzwerte unter Verwendung der folgenden Version des binomischen Lehrsatzes zeigen: Satz 3.1. Für alle reellen Zahlen x ≥ 0 und alle natürlichen Zahlen n ≥ 1 gilt n n k n n 2 n 3 x = 1+ x+ x + x + . . . + xn (1 + x)n = ∑ k 1 2 3 k=0 mit dem Binomialkoeffizienten n! n := k!(n − k)! k für n > k und der Fakulät n! := 1 · 2 · . . . · n. Bemerkung 1. Der Satz beinhaltet eine spezielle Form des allgemeinen binomischen Lehrsatzes n n n−k k a b . (a + b)n = ∑ k=0 k Beweis. Beweisen Sie den allgemeinen binomischen Lehrsatz als Übungsaufgabe. Nun zu unserem Grenzwert: Es ist zu verifizieren √ lim n n = 1. n→∞ Mit Hilfe des binomischen Lehrsatzes ist zunächst n n n 2 n n (1 + x) = 1 + x+ + ...+ x ≥ x , 1 2 2 da wegen x ≥ 0 jeder Summand nicht negativ ist. Desweiteren wissen wir n−1 ≥ n 2 bzw. 1 2 ≤ n−1 n für alle n ≥ 2, so dass wir schließen 2 1 4 · · (1 + x)n ≤ 2 (1 + x)n n n−1 n √ Wir setzen hierin x = n n − 1 ein und erhalten x2 ≤ für alle x ≥ 0 und alle n ≥ 2. √ 4 √ 4n 4 ( n n − 1)2 ≤ 2 ( n n)n = 2 = . n n n KAPITEL 3. STETIGE FUNKTIONEN IM RM 112 Nach Ziehen der Wurzel folgt daher √ 2 | n n − 1| ≤ √ −→ 0 n für n → ∞, so dass die Behauptung folgt. Aufgabe 1. Beweisen Sie die Richtigkeit der anderen behaupteten Grenzwerte. Wir stellen nun wichtige Regeln für das Rechnen mit Grenzwerten eindimensionaler Zahlenfolgen dar. Satz 3.2. Seien {x(n) }n=1,2,... und {y(n) }n=1,2,... zwei konvergente Zahlenfolgen mit lim x(n) = x ∈ R, n→∞ lim y(n) = y ∈ R. n→∞ Dann gelten (i) lim (x(n) + y(n)) = x + y; n→∞ (ii) lim x(n) y(n) = xy; n→∞ (iii) es gibt ein reelles c ∈ R mit |x(n) | ≤ c für alle n ∈ N; 1 1 (iv) lim (n) = , falls x 6= 0. n→∞ x x Beweis. Wir zeigen nur die letzte Behauptung. Zu vorgelegtem ε > 0 gibt es zunächst einen Index N = N(ε ), so dass gilt |x(n) − x| < ε für alle n ≥ N(ε ). Da aber x 6= 0, ist auch |x| ≥ µ mit einer geeigneten reellen Zahl µ > 0. Wir können dann ε > 0 bzw. damit N = N(ε ) auch der Art wählen, dass |x(n) | ≥ µ 2 für alle n ≥ N(ε ) richtig ist. Zusammenfassend haben wir also 1 x − x(n) |x − x(n)| ε 2 1 x(n) − x = x · x(n) = |x||x(n) | ≤ µ · µ = µ 2 · ε 2 für alle n ≥ N(ε ). Die Behauptung folgt mit ε → 0. Wir wollen die Gelegenheit nutzen und auf das Vollständigkeitsaxiom der reellen Zahlen aus Paragraph 1.3.7 zurück kommen: Jede nichtleere, nach oben beschränkte Teilmenge M ⊂ R besitzt eine kleinste obere Schranke, das sogenannte Supremum sup M von M. Oder dazu äquivalent: Jede nichtleere, nach unten beschränkte Teilmenge M ⊂ R besitzt eine größte untere Schranke, das sogenannte Infimum inf M von M. 3.2. FOLGEN UND MENGEN 113 Definition 3.2. Die reelle Zahlenfolge {x(n) }n=1,2,... heißt eine Cauchyfolge, falls zu vorgelegtem ε > 0 ein Index N = N(ε ) ∈ N der Art existiert, so dass gilt |x(m) − x(n) | < ε für alle m, n ≥ N(ε ). Bemerkung 2. Vergleichen Sie diese Formulierung sorgfältig mit unserer Definition des Grenzwertes einer reellen Zahlenfolge. Es ist nun nicht schwer zu zeigen, dass eine konvergente reelle Zahlenfolge zugleich eine Cauchyfolge ist. Aufgabe 2. Beweisen Sie diese Aussage. Anders verhält es sich jedoch mit der Umkehrung dieser Aussage! Das ist genau der Inhalt des folgenden Cauchyschen Konvergenzkriteriums, welches tatsächlich äquivalent zur Vollständigkeit der reellen Zahlen ist. Satz 3.3. Eine reelle Zahlenfolge {x(n) }n=1,2,... ist genau dann konvergent, wenn sie eine Cauchyfolge ist. Aufgabe 3. Studieren Sie in der Literatur einen Beweis dieses Satzes. Unser abschließendes Resultat in diesem Paragraphen filtert eine wichtige Eigenschaft nicht notwendig konvergierender reeller Zahlenfolgen heraus. Betrachte dazu die durch 1 −1 + , falls n ungerade n x(n) = +1 − 1 , falls n gerade n gegebene Zahlenfolge. Offenbar konvergiert diese Folge nicht, sondern pendelt“ sich ” für große n abwechselnd von rechts auf −1 und von links auf +1 ein. Wir können aber zwei Teilfolgen auswählen, die aus den ungeraden bzw. den geraden Indizes bestehen: 2 4 1. Teilfolge (n ungerade): 0, − , − , . . . konvergent gegen − 1 3 5 1 3 5 , , ,... konvergent gegen + 1 2. Teilfolge (n gerade: 2 4 6 Die beiden Grenzwerte −1 und +1 heißen Häufungspunkte der Zahlenfolge. Die allgemeine Situation wird nun mit dem folgenden Weierstraßschen Häufungsstellensatz abgedeckt. Satz 3.4. Sei {x(n) }n=1,2,... ⊂ R eine beschränkte Zahlenfolge, d.h. es gebe ein reelles c ∈ (0, +∞) mit der Eigenschaft |x(n) | ≤ c für alle n = 1, 2, . . . Dann gibt es eine konvergente Teilfolge {x(nk ) }k=1,2,... ⊂ {x(n) }n=1,2,..., d.h. lim x(nk ) = x ∈ R. k→∞ KAPITEL 3. STETIGE FUNKTIONEN IM RM 114 Aufgabe 4. Studieren Sie in der Literatur einen Beweis dieses Satzes. Der Beweis des Weierstraßschen Häufungsstellensatzes beruht auf einer geeigneten Auswahl“ einer Teilfolge aus der ursprünglichen Folge {x(n) }n=1,2,... Man spricht da” her auch vom Weierstraßschen Auswahlsatz. Den Grenzwert der ausgewählten konvergenten Teilfolge bezeichnet man als Häufungswert oder Häufungsstelle der Folge {x(n) }n=1,2,... Das begründet den Namen Häufungs” stellensatz.“ → Als Häufungsstellen lassen wir Zahlen der erweiterten reellen Zahlenachse zu R = [−∞, +∞]. Auswahlsätze spielen in der mathematischen Analysis eine zentrale Rolle. Für die Lösbarkeitstheorie partieller Differentialgleichungen beispielsweise nennen wir stellvertretend den Hilbertschen und den Rellichschen Auswahlsatz. Als Anwendung des Weierstraßschen Häufungsstellensatzes wollen wir folgendes Resultat beweisen. Satz 3.5. Es sei {x(n) }n=1,2,... ⊂ R (i) entweder eine monoton wachsende, nach oben beschränkte Zahlenfolge, d.h. x(n) ≤ x(n+1) und x(n) ≤ c für alle n ∈ N mit einer reellen Zahl c ∈ (0, +∞), (ii) oder eine monoton fallende, nach unten beschränkte Zahlenfolge, d.h. x(n) ≥ x(n+1) und x(n) ≥ c für alle n ∈ N mit einem geeigneten c ∈ (0, +∞). Dann ist die Zahlenfolge {x(n) }n=1,2,... konvergent. Beweis. Es sei ohne Beschränkung {x(n) }n=1,2,... monoton wachsend. Dann gilt mit der Zahl c ∈ (0, +∞) aus dem Satz x(1) ≤ x(2) ≤ . . . ≤ c, d.h. die Folge ist beschränkt nach unten durch x(1) und nach oben durch c. Nach dem Weierstraßschen Häufungsstellensatz können wir daher eine gegen einen Punkt x0 ∈ R konvergente Teilfolge {x(nk ) }k=1,2,... ⊂ {x(n) }n=1,2,... auswählen, d.h. lim x(nk ) = x0 . k→∞ Man mache sich dabei klar, dass der Grenzwert dieser Teilfolge alle Glieder der ursprünglichen Folge majorisiert, also x(n) ≤ lim x(nk ) = x0 k→∞ für alle n = 1, 2, . . . 3.2. FOLGEN UND MENGEN 115 Zu vorgelegtem ε > 0 gibt es nun einen Index K(ε ) ∈ N mit |x(nk ) − x0 | < ε für alle k ≥ K(ε ), und wegen der vorausgesetzten Monotonie gilt ebenfalls x0 − ε ≤ x(nk ) ≤ x0 für alle k ≥ K(ε ). Halten wir nun den Index nk fest, so schließen wir, und zwar erneut unter Beachtung der Monotonie, x0 − ε ≤ x(nk ) ≤ x(n) ≤ x0 für alle n ≥ nk . Da ε > 0 aber beliebig war, gelangen wir zu lim x(n) = x0 , was den Satz zeigt. n→∞ Beispiel 3. In den Übungen werden wir verifizieren, dass die durch 1 n x(n) = 1 + , n = 1, 2, . . . , n gegebene Zahlenfolge streng monoton wächst, nach oben beschränkt ist und gegen die Eulersche Zahl e ≈ 2.71 . . . konvergiert. Definition 3.3. Seien {x(n) }n=1,2,... ⊂ R eine Zahlenfolge und Θ 6= 0/ die Menge ihrer Häufungsstellen. Dann führen wir folgende Bezeichnungen ein: ◦ lim sup x(n) := sup Θ als den Limes superior der Folge, n→∞ ◦ lim inf x(n) := inf Θ als den Limes inferior der Folge. n→∞ Satz 3.6. Die reelle Zahlenfolge {x(n) }n=1,2,... ⊂ R ist konvergent genau dann, wenn lim inf x(n) = lim sup x(n) n→∞ n→∞ richtig ist. In diesem Fall schreiben wir für diese Zahl einfach lim x(n) . n→∞ Beispiel 4. Betrachte die durch 2− 1 , falls n = 2k, d.h. n gerade (n) n . x = (−1) n−1 2 n − n, falls n = 2k + 1, d.h. n ungerade gegebene Zahlenfolge. Wir berechnen 1 (2m) lim x = lim 2 − = 2, m→∞ m→∞ 2m lim x(4m+1) = lim (−1)2m · (4m + 1) − (4m + 1) = 0, m→∞ m→∞ (4m+3) lim x = lim (−1)2m+1 · (4m + 3) − (4m + 3) = −∞ m→∞ Also ist Θ = {−∞, 0, 2}. m→∞ KAPITEL 3. STETIGE FUNKTIONEN IM RM 116 3.2.2 Topologische Eigenschaften höherdimensionaler Mengen Bereits in Kapitel 1 unserer Vorlesung sowie im vorigen Paragraphen haben wir Mengen und einige ihrer elementaren Eigenschaften kennen gelernt, die es im Folgenden zu präzisieren gelten. Definition 3.4. Ein Punkt x ∈ Ω heißt ◦ Häufungspunkt von Ω, wenn es zu jedem ε > 0 ein y ∈ Ω \ {x} gibt mit y ∈ Bε (x) := {z ∈ Rm : |z − x| < ε } , ◦ isolierter Punkt von Ω, wenn x ∈ Ω kein Häufungspunkt von Ω ist, ◦ innerer Punkt von Ω, wenn es ein ε > 0 gibt, so dass Bε (x) ⊂ Ω. Beispiel 5. Jeder Punkt des m-dimensionalen offenen Balls Br (x) ∈ Rm mit Mittelpunkt x und Radius r > 0 ist ein Häufungspunkt. Definition 3.5. Eine Menge Ω ⊂ Rm heißt ◦ offen, falls sie nur aus inneren Punkten besteht, ◦ abgeschlossen, falls jeder Häufungspunkt von Ω selbst zu Ω gehört, ◦ beschränkt, falls es eine positive Zahl c ∈ R gibt mit |x| ≤ c für alle x ∈ Ω. Eine beschränkte und abgeschlossene Teilmenge des Rn heißt auch kompakt. Beispiel 6. Das reelle Zahlenintervall Ω = {x ∈ R : −1 ≤ x ≤ 1}, ist abgeschlossen. Definition 3.6. Sei Ω ⊂ Rm eine beliebige Menge. ◦ Die Menge aller ihrer inneren Punkte heißt ihr offener Kern Ω̊. ◦ Die Menge Ω := {x ∈ Rm : x ∈ Ω und x ist Häufungspunkt von Ω} heißt ihre abgeschlossene Hülle oder auch ihr Abschluss. ◦ Die Menge Ωc := {x ∈ Rm : x 6∈ Ω} heißt ihr Komplement. ◦ Ein x ∈ Ω heißt Randpunkt von Ω, falls in jeder ε -Umgebung von x ein Punkt von Ω als auch ein Punkt von Ωc liegen. Die Menge aller ihrer Randpunkte, bezeichnet mit ∂ Ω := Ω \ Ω̊ = {x ∈ Ω : x 6∈ Ω̊} , heißt ihr Rand. 3.2. FOLGEN UND MENGEN 117 Beispiel 7. Der Abschluss des m-dimensionalen offenen Balls Br (x) ⊂ Rm ist Br (x) = {y ∈ Rm : |x − y| ≤ r} , und sein (m − 1)-dimensionaler Rand besteht aus den Punkten ∂ Br (x) = {y ∈ Rm : |x − y| = r} . Diese sämtlichen Begriffe sind topologischer Natur. Aus analytischer Sicht ist es oft bequemer, mit mehrdimensionalen Punktfolgen zu arbeiten, (k) (k) (k) x(k) = (x1 , x2 , . . . , xm ) ∈ Rm für k = 1, 2, 3, . . . Wir sagen, eine solche Punktfolge konvergiert gegen einen Punkt x ∈ Rm , in Zeichen lim x(k) k→∞ oder x(k) −→ x für k → ∞, falls es zu jedem ε > 0 einen natürlichen Index N(ε ) ∈ N gibt mit x(k) ∈ Bε (x) für alle k ≥ N(ε ). Die Konvergenz mehrdimensionaler Punktfolgen ist damit durch die Euklidische Abstandsdefinition zurück geführt auf den Konvergenzbegriff reeller Zahlenfolgen. Satz 3.7. Ein Punkt x ∈ Rm ist genau dann Häufungspunkt der Menge Ω ⊂ Rm , wenn es eine Punktfolge {x(k) }k=1,2,... ⊂ Ω \ {x} gibt mit lim x(k) = x. k→∞ Aufgabe 5. Versuchen Sie, einen eigenen Beweis zu führen. Aus dieser Aussage schließen wir unmittelbar die Folgerung 3.1. Die Menge Ω ⊂ Rm ist genau dann abgeschlossen, wenn aus x(k) ∈ Ω für jedes k ∈ N und aus x(k) → x folgt, dass x ∈ Ω richtig ist. Oft werden wir auch von folgenden Charakterisierungen Gebrauch machen: ◦ Ω ist genau dann abgeschlossen, wenn Ωc offen ist. ◦ Ω ist genau dann offen, wenn Ωc abgeschlossen ist. Aufgabe 6. Beweisen Sie diese beiden Aussagen. Von besonderer Wichtigkeit in vielen Situationen ist der Satz 3.8. Es gelten die folgenden vier Aussagen. (i) Die Vereinigung beliebig vieler offener Mengen ist offen. (ii) Die Vereinigung endlich vieler abgeschlossener Mengen ist abgeschlossen. KAPITEL 3. STETIGE FUNKTIONEN IM RM 118 (iii) Der Durchschnitt beliebig vieler abgeschlossener Mengen ist abgeschlossen. (iv) Der Durchschnitt endlich vieler offener Mengen ist offen. Beweis. Wir beweisen nur die erste und die zweite Eigenschaft. (i) Für Indizes i ∈ I einer beliebigen Indexmenge I bezeichnen wir mit Ωi offene Mengen und mit [ Ω := Ωi i∈I ihre Vereinigung. Ist also x ∈ Ω ein beliebiger Punkt, so gibt es ein i ∈ I mit x ∈ Ωi . Da weiter Ωi offen ist, muss x ein innerer Punkt sein, d.h. es gibt ein ε > 0 und einen offenen Ball Bε (x) mit x ∈ Bε (x) ⊂ Ωi ⊂ Ω. Aber x ∈ Ω wurde beliebig gewählt, und daher ist Ω offen. (ii) Wir setzen nun Ω := m [ Ωi i=1 mit endlich vielen abgeschlossenen Mengen Ωi , i = 1, . . . , m. Hiervon betrachten wir das Komplement ! Ω = c m [ i=1 c Ωi = m \ Ωci i=1 und argumentieren wie folgt: Da alle Ωi abgeschlossen sind, folgt nach obiger Charakterisierung der Komplementbildung offener bzw. abgeschlossener Mengen, dass alle Ωci offen sind. Eigenschaft (iv) zeigt, dass dann auch die Durchschnittsmenge Ωc offen ist, und damit ist Ω abgeschlossen. Aufgabe 7. Beweisen Sie auch die Eigenschaften (iii) und (iv) – natürlich ohne Verwendung von (ii), um einen Zirkelschluss zu vermeiden! Beispiel 8. Der Durchschnitt abzählbar unendlich vieler offener Mengen muss nicht wieder offen sein, wie das Beispiel ∞ \ 1 1 = [0, 1] − ,1 + i i i=1 zeigt. Ebenso belegt ∞ [ 1 i=1 i − 1, 1 − 1 = (−1, 1), i dass die Vereinigung abzählbar unendlich vieler abgeschlossener Mengen nicht mehr abgeschlossen sein muss. 3.3. STETIGE ABBILDUNGEN 119 Wir wollen diesen Paragraphen mit einem zentralen Resultat der Cantorschen Mengenlehre, dem sogenannten Cantorschen Durchschnittssatz abschließen. Satz 3.9. Es sei {Ωi }i=1,2,... ⊂ Rm eine abzählbar unendliche Folge nichtleerer und abgeschlossener Mengen. Ist nun A1 beschränkt, und gilt A1 ⊃ A2 ⊃ A3 ⊃ . . . , so existiert ein Punkt x ∈ Rm mit x∈ ∞ \ Ωi . i=1 Beispiel 9. Auch hier wollen wir die Voraussetzungen durch zwei Gegenbeispiele verifizieren: Zunächst finden wir ∞ \ [i, ∞) = 0/ für die unbeschränkten Teilmengen Ωi = [i, ∞), i=1 d.h. auf die Beschränktheit kann nicht verzichtet werden. Und ferner gilt der Satz nicht für offene statt abgeschlossene Mengen, wie unser zweites Beispiel lehrt ∞ \ 1 1 = 0/ für die offenen Teilmengen Ωi = 0, . 0, i i i=1 3.3 Stetige Abbildungen 3.3.1 Definition der Stetigkeit Angesicht seiner Bedeutung haben wir den Begriff der stetigen Abbildungen“ bereits ” in den ersten beiden Kapiteln unserer Vorlesung kennen gelernt. Definition 3.7. Die Funktion f : Ω ⊂ Rm → Rn heißt stetig im Punkt x0 ∈ Ω, falls zu jedem vorgegebenen ε > 0 ein δ (x0 , ε ) > 0 existiert, so dass gilt | f (x) − f (x0 )| < ε für alle x ∈ Ω mit |x − x0| < δ (x0 , ε ). Sie heißt stetig in Ω, falls sie in jedem Punkt x ∈ Ω stetig ist. Sie heißt ferner auf Ω gleichmäßig stetig, falls δ = δ (ε ) gleichmäßig für alle x ∈ Ω gewählt werden kann und damit nicht mehr vom einzelnen Punkt x0 ∈ Ω abhängt. Die Forderung |x − x0| < δ (x0 , ε ) können wir auch durch x ∈ Bδ (x0 ,ε ) (x0 ) ausdrücken. Aufgabe 8. Zeigen Sie, dass jede auf einem isolierten Punkt x definierte Funktion f stetig ist. Warum? KAPITEL 3. STETIGE FUNKTIONEN IM RM 120 Um die Äquivalenz dieser ε − δ -Definition der Stetigkeit mit der sogenannten Folgenstetigkeit einzusehen, wollen wir folgenden Grenzwert einer Funktion f : Ω → Rn in einem Punkt x ∈ Ω erklären: Es sei x0 ∈ Ω ein Häufungspunkt von Ω, und es sei f : Ω → Rn eine beliebige Funktion. Ferner lasse sich zu einem Vektor A ∈ Rn und zu beliebig vorgelegtem ε > 0 ein reelles δ = δ (ε ) > 0 der Art finden, dass gilt | f (x) − A| < ε für alle x ∈ Ω mit |x − x0| < δ (ε ). Dann heißt A der Grenzwert von f an der Stelle x0 . Wir schreiben genauer lim x→x0 , x∈Ω f (x) = A oder f (x) −→ A für x → x0 . Satz 3.10. Es seien f : Ω ⊂ Rm → Rn eine Funktion und x0 ∈ Ω ein Häufungspunkt von Ω. Dann sind folgende Aussage äquivalent: (i) f ist stetig in x0 ; (ii) lim f (x) = f (x0 ); x→x0 , x∈Ω (iii) für alle Folgen x(k) ⊂ Ω \ {x0} mit lim x(k) = x0 gilt k→∞ lim f (x(k) ) = f ( lim x(k) ) = f (x0 ). k→∞ k→∞ Aussage (iii) beinhaltet die erwähnte Folgenstetigkeit. Aufgabe 9. Beweisen Sie diesen Satz. 3.3.2 Verknüpfungen stetiger Funktionen Wir wollen elementare Verkettungen stetiger Funktionen auf ihre Stetigkeit überprüfen. Die erste Behauptung im folgenden Satz besagt, dass die Menge aller stetigen Funktionen f : Ω → Rn einen linearen Raum, d.h. einen Vektorraum bildet. Satz 3.11. Es seien die Funktionen f , g : Ω ⊂ Rm → Rn stetig in einem Punkt x0 ∈ Ω. Dann sind auch die folgenden Funktionen stetig in x0 ∈ Ω : ◦ h(x) = α f (x) + β g(x) mit reellen α , β ∈ R; ◦ h(x) = f (x)g(x); ◦ h(x) = f (x)g(x)−1 , falls g(x) 6= 0 für alle x ∈ Ω. Seien weiter f : Ω ⊂ Rℓ → Θ ⊂ Rm und g : Θ ⊂ Rm → Rn zwei in x0 bzw. y = f (x0 ) stetige Funktionen. Dann ist auch die verkettete Funktion h : Ω −→ Rn stetig im Punkt x0 ∈ Ω. vermöge h(x) := g ◦ f (x) = g( f (x)) 3.3. STETIGE ABBILDUNGEN 121 Aufgabe 10. Beweisen Sie diesen Satz. Beispiel 10. ◦ Die Funktion sin 1 x f (x) = 0 für x 6= 0 für x = 0 ist im Punkt x0 = 0 nicht stetig. ◦ Die Funktion x · sin 1 x f (x) = 0 ist im Punkt x0 = 0 stetig. ◦ Die Funktion 2 2 x −y f (x, y) = x2 + y2 0 für x 6= 0 für x = 0 für (x, y) 6= (0, 0) für (x, y) = (0, 0) ist im Nullpunkt (x0 , y0 ) = (0, 0) nicht stetig: Betrachte dazu den Grenzübergang auf der x-Achse mit y ≡ 0 und den Grenzübergang auf der y-Achse mit x ≡ 0. Wir wollen auch noch die Stetigkeit einer eventuellen Inversen untersuchen. Satz 3.12. Auf der kompakten Menge Ω ⊂ Rm betrachten wir die stetige Funktion f : Ω → Rn mit Wertebereich W f = f (Ω) = {y ∈ Rn : y = f (x) mit einem x ∈ Ω} . Weiter sei f injektiv, d.h. es gelte f (x1 ) 6= f (x2 ), falls nur x1 6= x2 . Dann ist die Umkehrfunktion g : W f → Rm von f , definiert durch g(y) := x für y ∈ W f und x ∈ Ω mit f (x) = y, stetig auf W f . Aufgabe 11. Beweisen Sie diesen Satz. 3.3.3 Der normierte Raum C0 (Ω, Rn) Wir schließen unsere einführenden Untersuchungen zu stetigen Funktionen mit einigen wenigen funktionalanalytischen Betrachtungen ab. Definition 3.8. Den Vektorraum der stetigen Funktionen f : Ω → Rn bezeichnen wir mit dem Symbol C0 (Ω, Rn ). KAPITEL 3. STETIGE FUNKTIONEN IM RM 122 Auf diesem linearen Raum führen wir nun folgende reellwertige Funktion ein k f k0,Ω := sup | f (x)|, x∈Ω wobei auf der rechten Seite | f (x)| die Euklidische Länge des Vektors f (x) ∈ Rn angibt. Diese Funktion k f k0,Ω ist ein Beispiel einer sogenannten Norm, die den Begriff der Euklidischen Länge verallgemeinert. Speziell sprechen wir in diesem Fall von der Supremumsnorm. Definition 3.9. Unter einer Norm auf einem reellen Vektorraum V verstehen wir eine Abbildung k · k : V → R mit den drei Eigenschaften (N1) kxk ≥ 0 für alle x ∈ V, und kxk = 0 genau dann, wenn x = 0; (N2) kλ xk = |λ | · kxk für alle λ ∈ R und alle x ∈ V ; (N3) kx + yk ≤ |xk + kyk für alle x, y ∈ V. Die Eigenschaft (N3) bezeichnet man als Dreiecksungleichung. Beispielen von Normen werden wir im Verlaufe unserer Vorlesungen mehrfach begegnen. In späteren Untersuchungen werden wir wiederholt auf die folgende Cauchy-Schwarzsche Ungleichung zurückkommen, der wir bereits bei unserer Diskussion des Standardskalarprodukts begegnet sind. Satz 3.13. Der (reelle) Vektorraum V sei mit einem Skalarprodukt h·, ·i : V × V → V ausgestattet. Dann gilt khx, yik2 ≤ hx, xi · hy, yi für alle x, y ∈ V. Beweis. Spätere Übungsaufgabe. Schließlich wollen wir den Begriff der Normäquivalenz einführen. Satz 3.14. Seien k · k(1) und k · k(2) zwei verschiedene Normen auf dem endlich dimensionalen Vektorraum V. Dann findet man stets zwei reelle Zahlen 0 < α ≤ β < ∞ mit der Eigenschaft α kxk(1) ≤ kxk(2) ≤ β kxk(1) für alle x ∈ V. Aufgabe 12. Beweisen Sie diese Aussage. Beispiel 11. Auf dem Vektorraum Rn haben wir beispielsweise die Normen q kxk1 := max |xi |, kxk2 := x21 + . . . + x2n i=1,...,n bzw. ganz allgemein kxk p := |x1 | p + . . . + |xn | p mit der Setzung x = (x1 , . . . , xn ) ∈ Rn . 1p Man sagt, beide Normen sind zueinander äquivalent. Mit anderen Worten: Welche Norm zum Messen“ in der Praxis benutzt wird, ist im Wesentlichen egal. In unendlich ” dimensionalen Vektorräumen ist die Aussage allerdings falsch. 3.3. STETIGE ABBILDUNGEN 3.3.4 Literaturnachweis Hauptsächlich haben wir uns an ◦ Sauvigny, F.: Analysis 1 Vorlesungsmanuskript Wintersemester 1994/95, BTU Cottbus orientiert. Als begleitende Literatur empfehlen wir ◦ ◦ ◦ ◦ ◦ Courant, R.: Differential- und Integralrechnung 1/2 Forster, O.: Analysis 1/2 Heuser, H.: Analysis 1/2 de Jong, T.: Analysis Rudin, W.: Analysis 123 124 KAPITEL 3. STETIGE FUNKTIONEN IM RM Kapitel 4 Differentialrechnung im R1 4.1 Reelle Differenzierbarkeit 4.1.1 Der Begriff der Ableitung Wir beginnen dieses Kapitel mit dem Begriff der reellen Differenzierbarkeit. Definition 4.1. Die Funktion f : (x1 , x2 ) → Rn heißt im Punkt x0 ∈ (x1 , x2 ) differenzierbar, falls der Grenzwert f ′ (x0 ) := lim x→x0 x6=x0 f (x) − f (x0 ) ∈ Rn x − x0 existiert. Dabei bezeichnen wir mit f ′ (x0 ) ∈ Rn die (erste) Ableitung von f an der Stelle x0 ∈ (x1 , x2 ). Ist f in jedem Punkt x ∈ (x1 , x2 ) differenzierbar, so heißt f in (x1 , x2 ) differenzierbar. Der Grenzwert in dieser Definition bedeutet dabei f ′ (x0 ) = lim n→∞ f (x(n) ) − f (x0 ) x(n) − x0 für jede Folge {x(n) }n=1,2,... ⊂ R mit lim x(n) = x0 . n→∞ Beispiel 1. ◦ Die eindimensionale Funktion f (x) = x2 , x ∈ R, ist für alle x ∈ R differenzierbar, denn wir berechnen für einen ausgewählten Punkt x0 ∈ R mit x 6= x0 f (x) − f (x0 ) x2 − x20 (x − x0 )(x + x0) = = = x + x0 , x − x0 x − x0 x − x0 d.h. für den Grenzwert gilt lim x→x0 x6=x0 f (x) − f (x0 ) = 2x0 . x − x0 125 KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 126 ◦ Mit Vektoren a, b, c ∈ Rm betrachten wir die Funktion zweiter Ordnung f (x) = a + bx + cx2, x ∈ R. Es folgt f ′ (x0 ) = lim x→x0 x6=x0 = x→x lim 0 x6=x0 b(x − x0) + c(x2 − x20 ) f (x) − f (x0 ) = lim x→x0 x − x0 x − x0 x6=x0 b(x − x0) + c(x − x0)(x + x0 ) = b + c(x + x0). x − x0 ◦ Die Betragsfunktion f (x) = |x| = ( −x x für x < 0 für x ≥ 0 ist im Punkt x0 = 0 nicht differenzierbar, denn wir berechnen lim x→0 x<0 aber auch lim x→0 x>0 f (x) − f (0) |x| = lim = −1, x→0 x x−0 x<0 |x| f (x) − f (0) = lim = +1. x→0 x x−0 x>0 4.1.2 Differenzierbarkeit und Stetigkeit Wichtig für das spätere Verständnis der Taylorschen Formel ist folgende Darstellung einer differenzierbaren Funktion. Satz 4.1. Die Funktion f : (x1 , x2 ) → Rn sei gegeben. Dann sind äquivalent: (i) Die Funktion f ist im Punkt x0 ∈ (x1 , x2 ) differenzierbar. (ii) Es gibt eine im Punkt x0 ∈ (x1 , x2 ) stetige Funktion ϕ : (x1 , x2 ) → Rn mit ϕ (x0 ) = 0 sowie f (x) = f (x0 ) + f ′ (x0 )(x − x0 ) + (x − x0)ϕ (x) für alle x ∈ (x1 , x2 ). Beweis. Wir gehen in zwei Schritten vor. ◦ Ist nämlich zunächst die Funktion f in x0 differenzierbar, so setze f (x) − f (x0 ) − f ′ (x ) , falls x ∈ (x , x ) \ {x } 0 1 2 0 x − x0 ϕ (x) := 0, falls x = x0 4.1. REELLE DIFFERENZIERBARKEIT 127 Diese neue Funktion erfüllt offenbar lim ϕ (x) = 0, x→x0 x6=x0 und sie genügt nach Umstellen der behaupteten Entwicklung. ◦ Sei nun die im Satz behauptete Entwicklung mit einer stetigen Funktion ϕ richtig. Stellen wir diese um, so folgt zunächst f (x) − f (x0 ) = f ′ (x0 ) + ϕ (x) für alle x ∈ (x1 , x2 ) \ {x0} . x − x0 Wegen ϕ (x0 ) = 0 erhalten wir im Grenzfall lim x→x0 x6=x0 f (x) − f (x0 ) = f ′ (x0 ), x − x0 d.h. f ist differenzierbar mit der Ableitung f ′ (x0 ). Damit ist der Satz bewiesen. Mit diesem Resultat gelangen wir zu folgender Charakterisierung differenzierbarer Funktionen. Folgerung 4.1. Ist die Funktion f : (x1 , x2 ) → R im Punkt x0 ∈ (x1 , x2 ) differenzierbar, so ist sie dort auch stetig. Beweis. Übungsaufgabe. Nutzen Sie die Entwicklung aus dem vorigen Satz. Aus obigem Beispiel der Betragsfunktion wissen wir, dass die Umkehrung dieses Satzes nicht richtig ist. 4.1.3 Verknüpfung differenzierbarer Funktionen Wir wollen Verknüfpungen differenzierbarer Funktionen auf ihre Differenzierbarkeit untersuchen. Beachte, dass der folgende Satz eine Aussage über reellwertige Funktionen macht. Satz 4.2. Es seien f , g : (x1 , x2 ) → R in x0 ∈ (x1 , x2 ) differenzierbare Funktionen. Dann sind in diesem Punkt auch differenzierbar: ◦ h(x) = α f (x) + β g(x) mit der Ableitung (Summenregel) h′ (x0 ) = α f ′ (x0 ) + β g′(x0 ) für beliebige α , β ∈ R; KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 128 ◦ h(x) = f (x)g(x) mit der Ableitung (Produktregel) h′ (x0 ) = f ′ (x0 )g(x0 ) + f (x0 )g′ (x0 ); ◦ h(x) = f (x)g(x)−1 , falls g 6= 0 in (x1 , x2 ), mit der Ableitung (Quotientenregel) h′ (x0 ) = f ′ (x0 )g(x0 ) − f (x0 )g′ (x0 ) . g(x0 )2 Bemerkung 1. Die Summenregel lässt sich unmittelbar auf den Fall vektorwertiger Funktionen f : (x1 , x2 ) → Rn übertragen. Um in diesem allgemeineren Fall jedoch eine Produktregel“ formulieren zu können, muss ein sinnvolles Produkt zwischen vektor” wertigen Funktionen definiert werden, z.B. das Standardskalarprodukt im Rn oder das Euklidische Vektorprodukt im R3 . Dann würdne tatsächlich gelten ′ f (x) · g(x) x=x = f ′ (x0 ) · g(x0 ) + f (x0 ) · g(x0 ) 0 sowie f (x) × g(x)]′x=x0 = f ′ (x0 ) × g(x0) + f (x0 ) × g′(x0 ). Aufgabe 1. Beweisen Sie die in dieser Bemerkung behaupteten Ableitungsregeln. Beweis des Satzes. Wir beweisen nur die Produktregel. Es ist nämlich h(x) − h(x0) f (x)g(x) − f (x0 )g(x0 ) = x − x0 x − x0 = f (x)g(x) − f (x)g(x0 ) + f (x)g(x0 ) − f (x0 )g(x0 ) x − x0 = f (x) − f (x0 ) g(x) − g(x0) f (x) + g(x0 ). x − x0 x − x0 Auf der rechten Seite existieren beide Grenzwerte für x → x0 wegen der vorausgesetzten Differenzierbarkeit von f und g, was die behauptete Regel beweist. Aufgabe 2. Vervollständigen Sie den Beweis des Satzes. Satz 4.3. Es sei f : (x1 , x2 ) → Θ ⊂ R, wobei Θ offen ist, eine im Punkt x0 ∈ (x1 , x2 ) differenzierbare Funktion. Ferner sei g : Θ → Rn eine zweite, in jedem Punkt y = f (x) differenzierbare Funktion mit der Ableitung g′ (y). Dann erfüllt die Verkettung h(x) := g ◦ f (x) = g( f (x)), x ∈ (x1 , x2 ), gilt die Kettenregel h′ (x) = g′ ( f (x)) f ′ (x) ∈ Ω ∈ Rn für alle x ∈ (x1 , x2 ) ⊂ R. Aufgabe 3. Geben Sie einen eigenen Beweis dieses Satzes. 4.2. DIE REELLE UND DIE KOMPLEXE EXPONENTIALFUNKTION 129 Unser nächstes Resultat bezieht sich auf invertierbare Funktionen mit einer nicht notwendig explizit gegebenen Umkehrfunktion f −1 = g und deren Ableitung in einem Punkt. Satz 4.4. Es sei f : (x1 , x2 ) → (y1 , y2 ) ∈ R eine stetige, streng monotone Funktion mit der stetigen Umkehrfunktion g : (y1 , y2 ) → (x1 , x2 ). Ferner sei f in (x1 , x2 ) differenzierbar mit der Eigenschaft f ′ (x) 6= 0 für alle x ∈ (x1 , x2 ). Dann ist auch g für alle (y1 , y2 ) differenzierbar, und es gilt die Regel für die Differentiation der Umkehrfunktion 1 . g′ (y) = ′ f (g(y)) Beweis. Es sei {y(n) }n=1,2,... ⊂ (y1 , y2 ) \ {y0 } eine gegen y0 konvergierende Folge. Dann gilt zunächst auch (warum?) lim x(n) = g(y0 ) = x0 n→∞ für die Folge x(n) := g(y(n) ). Wir berechnen damit x(n) − x0 g(y(n) ) − g(y0 ) = = f (x) − f (x0 ) y(n) − y0 1 f (x(n) )− f (x0 ) x(n) −x0 . Der Grenzwert x → x0 auf der rechten Seite existiert, also existiert auch g′ (y0 ) mit 1 g(y(n) ) − g(y0) = ′ . (n) n→∞ f (g(y0 )) y − y0 g′ (y0 ) = lim Das beweist den Satz. Beispiel 2. Wir betonen noch einmal, dass die explizite Kenntnis der Umkehrfunktion für diese Regel nicht notwendig ist. Wende zur Veranschaulichung dieser Tatsache vorigen Satz auf die Funktion f (x) = x + ex , x ∈ R, an, und ermittle die Ableitung der zugehörigen Umkehrfunktion im Punkt y = 1. 4.2 Die reelle und die komplexe Exponentialfunktion In diesem Abschnitt wollen wir für die gesamte Mathematik wichtigen hyperbolischen und Winkelfunktionen an Hand der sogenannten Exponentialreihe einführen. Verschiedene Aussagen müssen an dieser Stelle unbewiesen bleiben. Wir benötigen die folgende Ableitungsregel f (x) = xk , dann f ′ (x) = kxk−1 die man als Übung beweisen möge. für natürliche Zahlen k = 1, 2, . . . , KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 130 4.2.1 Die Exponentialfunktion Wir betrachten einige wichtige Beispiele. Definition 4.2. Unter der reellen Exponentialfunktion x 7→ ex verstehen wir die Potenzreihe ∞ x2 x3 x4 x ex := ∑ = 1 + x + + + + . . . , x ∈ R, 2! 3! 4! k=0 k! mit der Fakultät k! := 1 · 2 · . . . · k, 0! = 1. Der Theorie solcher reellen bzw. komplexwertigen Potenzreihen, der wir uns in einem späteren Kapitel widmen, werden wir entnehmen, dass zur Berechnung der ersten Ableitung diese unendliche Summe gliedweise differenziert werden darf. Mit der Leibnizschen Schreibweise d f (x) := f ′ (x) dx wird sich also konkret herausstellen d d x e = dx dx ∞ xk d ∑ k! = dx k=0 = 0+1+x+ 1+x+ x2 x3 + + ... 2! 3! 3x2 4 · x3 + + ... = 2! · 3 3! · 4 ∞ xk ∑ k! = ex . k=0 Satz 4.5. Die Exponentialfunktion x 7→ ex ist eine auf ganz R stetige, streng monoton wachsende und differenzierbare Funktion mit der Ableitung d x e = ex . dx Eine zweite Möglichkeit, die Exponentialfunktion ex einzuführen, besteht in der Tatsache, dass sie die eindeutig bestimmte Funktion f : R → R, die folgendem Anfangswertproblem genügt f ′ (x) = f (x), f (0) = 1. 4.2.2 Der hyperbolische Sinus und der hyperbolische Kosinus Mit der Exponentialreihe sind die hyperbolischen Funktionen Definition 4.3. Der hyperbolische Sinus sinh : R → R und der hyperbolische Kosinus cosh : R → R lauten sinh x := 1 x (e − e−x ), 2 cosh x := 1 x (e + e−x ). 2 4.2. DIE REELLE UND DIE KOMPLEXE EXPONENTIALFUNKTION 131 Aus der Reihenentwicklung der Exponentialfunktion ermitteln wir ex − e−x = ∞ xk ∞ (−x)k k=0 k! ∑ k! − ∑ k=0 x2 x3 x4 x5 x2 x3 x4 x5 = 1 + x + + + + + ... − 1 − x + − + − + ... 2! 3! 4! 5! 2! 3! 4! 5! x3 x5 + 2 · + ... 3! 5! bzw. nach Umstellen = 2·x+2· x3 x5 + + ... 3! 5! Analog bekommen wir die Entwicklung des hyperbolischen Kosinus sinh x = x + x2 x4 x6 + + + ... 2! 4! 6! Daran schließen sich sogleich einige Folgerungen an: cosh x = 1 + ◦ sinh und cosh sind auf ganz R stetig (auch das können wir erst später der Theorie der reellen Potenzreihen entnehmen); ◦ es gelten sinh 0 = 0 und cosh 0 = 1; 3 2 ◦ es gelten sinh x = x + x3! und cosh x = 1 + x2 für kleine“ Argumente x. ” Satz 4.6. Der hyperbolische Sinus x 7→ sinh x und der hyperbolische Kosinus x 7→ cosh sind auf ganz R stetige und differenzierbare Funktionen mit den Ableitungen d sinh x = cosh x, dx d cosh x = sinh x. dx Beweis. Für einen Beweis dieser Aussagen müssen wir erneut auf unser späteres Kapitel über Potenzreihen verweisen. Ebenfalls aus der Definition der hyperbolischen Funktionen über die Exponentialfunktion gelangen wir zu folgenden Additionstheoremen. Satz 4.7. Für alle x, y ∈ R gelten sinh(x ± y) = sinh x cosh y ± sinhy cosh x, cosh(x ± y) = cosh x cosh y ± sinhx sinh y. Beweis. Wir beweisen nur die erste behauptete Identität: 1 1 x (e − e−x )(ey + e−y ) + (ey − e−y )(ex + e−x ) 4 4 1 x+y x−y −x+y −x−y x+y −x+y = e +e −e −e +e +e − ex−y − e−x−y 4 1 2ex+y − 2e−x−y = 2 sinh(x + y). = 4 Das war zu zeigen. sinh x cosh y + sinhy cosh x = KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 132 Aufgabe 4. Zeigen Sie auch die zweite Behauptung. Setzen wir in diese Identitäten x = y ein, so erhalten wir die Folgerung 4.2. Es gelten sinh(2x) = 2 sinh x cosh x sowie cosh2 x − sinh2 = 1 für alle x ∈ R. Aufgabe 5. Beweisen Sie die Behauptungen. 4.2.3 Die Winkelfunktionen Sinus und Kosinus Schließlich wollen wir die Exponentialreihe von reellen Argumenten x ∈ R auf rein komplexe Argumente ix ∈ C mit x ∈ R “fortsetzen“, d.h. wir betrachten nun eix = ∞ (ix)k . k=0 k! ∑ In den Kapiteln 1 und 2 haben wir bereits komplexe Zahlen z = x + iy mit Realteil x und Imaginärteil z betrachtet. Wir wollen mit den dort bereit gestellten Mitteln zeigen, dass die Zahl eix für reelle x ∈ R stets auf dem Einheitskreis zu liegen kommt. Zu diesem Zweck berechnen wir zunächst ihr komplex Konjugiertes ∞ eix = ∞ ∞ ∞ (ix)k (−ix)k [i(−x)]k (ix)k =∑ =∑ =∑ = e−ix . k! k! k=0 k! k=0 k! k=0 k=0 ∑ Damit folgt für ihre Euklidische Länge |eix |2 = eix · eix = eix e−ix = e0 = 1, womit die Eigenschaft eix ∈ S1 := {(x, y) ∈ R2 : x2 + y2 = 1} bereits gezeigt ist. Kosinus x 7→ cos x und Sinus x 7→ sin x lassen sich dann, anders als unsere Herangehensweise im zweiten Kapitel dieser Vorlesung, als Real- bzw. Imaginärteil von eix definieren: cos x := Re eix , sin x := Im eix , x ∈ R. Satz 4.8. Es gilt die Eulersche Formel eix = cos x + i sin x für alle x ∈ R. 4.2. DIE REELLE UND DIE KOMPLEXE EXPONENTIALFUNKTION 133 y z = eit sin ϕ cos ϕ x Dem Satz des Pythagoras entnehmen wir dann unmittelbar cos2 ϕ + sin2 ϕ = 1, welche mit der entsprechenden Identität cosh2 x − sinh2 x = 1 für die hyperbolischen Funktionen zu vergleichen ist. Satz 4.9. Sinus x 7→ sin x und Kosinus x 7→ cosx sind für alle x ∈ R stetige und differenzierbare Funktionen. Für alle x ∈ R erlauben sie den Potenzreihenentwicklungen x3 x5 x7 + − + . . ., 3! 5! 7! x2 x4 x6 cos x = 1 − + − + . . . 2! 4! 6! sin x = x − Für ihre Ableitungen gelten d sin x = cos x, dx d cos x = − sin x. dx Beweis. Aus der komplexen Exponentialreihe erhalten wir nämlich ∞ (ix)k i · x i2 x2 i3 x3 i4 x4 i5 x5 i6 x6 i7 x7 = 1+ + + + + + + + ... 1! 2! 3! 4! 5! 6! 7! k=0 k! x3 x5 x7 x2 x4 x6 = 1 − + − + . . . + x − + − + . . . i. 2! 4! 6! 3! 5! 7! ∑ Daraus folgen die behaupteten Reihenentwicklungen. Die Ableitungen ergeben sich nach (formal noch zu rechtfertigender) gliedweiser Differentiation der Reihen. Aus diesen Entwicklungen lesen wir außerdem ab sin(−x) = − sin x, cos(−x) = cos x, d.h. der Sinus ist antisymmetrisch, der Kosinus ist symmetrisch. Die Eulersche Formel liefert daher eix = cos x + i sin x, e−ix = cos x − i sin x, KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 134 und nach Summation bzw. Subtraktion beider Gleichungen erhalten wir die neuen Darstellungen 1 ix (e − e−ix ), 2i sin x = cos x = 1 ix e + e−ix für alle x ∈ R. 2 Tatsächlich lassen sich auf diese Weise Sinus und Kosinus ins Komplexe fortsetzen gemäß 1 1 sin z = (eiz − e−iz ), cos z = (eiz + e−iz ) für alle z ∈ C. 2i 2 Satz 4.10. Für alle x, y ∈ R gelten die Additionstheoreme sin(x ± y) = sin x cos y ± siny cos x, cos(x ± y) = cosx cos y ∓ sinx sin y. Beweis. Wir haben die Additionstheoreme für Sinus und Kosinus bereits in Kapitel 2 auf rein geometrische Art und Weise hergeleitet. Um uns jedoch von Nützlichkeit des komplexen Kalküls zu überzeugen, wollen wir die erste Behauptung noch einmal beweisen: sin x cos y + sin y cos x = 1 ix 1 (e − e−ix )(eiy + e−iy ) + (eiy − e−iy )(eix + e−ix ) 4i 4i 1 i(x+y) e + ei(x−y) − ei(y−x) − e−i(x+y) + ei(x+y) + ei(y−x) − ei(x−y) − e−i(x+y) 4i 1 i(x+y) = e − e−i(x+y) = sin(x + y), 2i = was zu zeigen war. Aufgabe 6. Zeigen Sie auch die zweite behauptete Identität. Folgerung 4.3. Für alle x ∈ R gelten cos(2x) = cos2 x − sin2 x sin(2x) = 2 sin x cos x, sowie sin x ≈ x und cos x ≈ 1 − x für kleine“ x. ” 4.2.4 Polarkoordinaten Die Winkelfunktionen Sinus und Kosinus geben uns Anlass, an Stelle der kartesischen Koordinaten x und y sogenannte Polarkoordinaten r und ϕ einzuführen vermöge x = r cos ϕ , bzw. y = r sin ϕ , p x2 + y2 , y ϕ = arctan , x Von einer Koordinatentransformation r= (x, y) r > 0, ϕ ∈ [0, 2π ) (x, y) ∈ R2 \ {x ∈ R : x > 0}. ←→ (e x, ye) 4.2. DIE REELLE UND DIE KOMPLEXE EXPONENTIALFUNKTION 135 zwischen zwei Koordinatensystemen (x, y) und (e x, ye) werden wir stets Eineindeutigkeit verlangen. Im speziellen Fall der Transformation kartesischer Koordinaten auf Polarkoordianten sind also r = 0 und ϕ = 2π auszuschließen. Beispiel 3. Die Funktion 2 2 xy x − y , falls (x, y) 6= (0, 0) 2 2 x +y f (x, y) = 0, falls (x, y) = (0, 0) ist auf Stetigkeit im Punkt (x0 , y0 ) = (0, 0) zu untersuchen. Dazu führen wir Polarkoordinaten (r, ϕ ) ein und erhalten f (r, ϕ ) = r2 sin ϕ cos ϕ r2 cos2 ϕ − r2 sin2 ϕ r2 sin 2ϕ cos2ϕ , = 2 2 r2 cos2 ϕ + r2 sin ϕ r > 0, unter Beachtung der Identitäten sin 2ϕ = 2 sin ϕ cos ϕ , cos 2ϕ = cos2 ϕ − sin2 ϕ . Wegen f (0, 0) = 0 folgt 2 r r2 −→ 0 für r → 0. | f (x, y) − f (0, 0)| = sin 2ϕ cos2ϕ ≤ 2 2 Also ist f (x, y) im Ursprung (x0 , y0 ) = (0, 0) stetig. Kreise und Radiusvektoren des Polarkoordinatensystems bilden eine Schar zueinander orthogonaler Kurven, die die Ebene zweifach überdecken, d.h. durch jeden Punkt der Ebene (wir nehmen den Koordinatenursprung aus der Diskussion heraus) gehen genau ein Kreis und ein Radiusvektor. Eine zweite derartige Schar orthogonaler Kurven, die die Ebene zweifach überdecken, bilden die konfokalen Ellipsen und die dazu gehörigen konfokalen Hyperbeln, d.h. die Schar aller Ellipsen und Hyperbeln zu zwei fest vorgegebenen Brennpunkten.1 1 Es steht konfokal“ für gleiche Brennpunkte“. ” ” KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 136 Durch jeden Punkt der Ebene gehen also genau zwei Kurven des Systems konfokaler Ellipsen und Hyperbeln durch. Im Gegensatz zu den obigen Polarkoordinaten sprechen wir von sogenannten elliptischen Koordinaten. 4.3 Mittelwertsätze und Zwischenwertsätze 4.3.1 Der Zwischenwertsatz von Bolzano und Weierstraß In diesem Abschnitt betrachten wir wieder reellwertige Funktionen f : R → R und beginnen mit dem sogenannten Zwischenwertsatz von Bolzano und Weierstraß. Satz 4.11. Sei −∞ < x1 < x2 < +∞. Die Funktion f : R → R sei auf dem kompakten Intervall [x1 , x2 ] ⊂ R stetig und erfülle f (x1 ) < f (x2 ). Dann gibt es zu jedem η ∈ ( f (x1 ), f (x2 )) ein ξ ∈ (a, b) mit f (ξ ) = η . Beweis. ∗ Für die nichtleere Menge Θ := {x ∈ [x1 , x2 ] : f (x) < η } ⊂ [x1 , x2 ] setzen wir ξ := sup x. x∈Θ Nach Voraussetzung gilt x1 ≤ ξ < x2 . Es ist aber auch ξ ≥ x für alle x ∈ Θ. Mit einer gegen ξ konvergierenden Folge {x(k) }k=1,2,... erhalten wir f (ξ ) = lim f (x(k) ) ≤ η k→∞ wegen der Stetigkeit von f . Ist aber f (ξ ) < η , so finden wir – erneut auf Grund der Stetigkeit – ein reelles δ > 0, so dass ebenfalls f (x) < η für alle x ∈ (ξ , ξ + δ ) richtig ist. Das ist ein Widerspruch. Folgerung 4.4. Gilt in der Situation des Satzes f (x1 ) < 0 < f (x2 ), so findet sich stets eine Nullstelle ξ ∈ (x1 , x2 ) der stetigen Funktion mit f (ξ ) = 0. 4.3. MITTELWERTSÄTZE UND ZWISCHENWERTSÄTZE 137 4.3.2 Der Satz von Rolle Wir kommen nun zu den sogenannten Mittelwersätzen der Differentialrechnung. Am Anfang steht der sogenannten Satz von Rolle. Satz 4.12. Sei −∞ < x1 < x2 < +∞. Die Funktion f : R → R sei auf dem kompakten Intervall [x1 , x2 ] ⊂ R stetig und auf dem offenen Intervall (x1 , x2 ) ⊂ R differenzierbar. Es gelte außerdem f (x1 ) = f (x2 ) = 0. Dann gibt es einen Zwischenwert ξ ∈ (x1 , x2 ) mit der Eigenschaft f ′ (ξ ) = 0. Zum Beweis benötigen wir ein zentrales, auf K. Weierstraß zurückgehendes Resultat über die Maxima und Minima stetiger Funktionen auf Kompakta. Hilfssatz 4.1. Auf der kompakten Menge K ⊂ R sei die stetige Funktion f : K → R gegeben. Dann gibt es Punkte x∗ ∈ K und x∗ ∈ K mit der Eigenschaft f (x∗ ) ≤ f (x) ≤ f (x∗ ) für alle x ∈ K. Wir bemerken, dass wir in dieser Formulierung weder auf die Stetigkeit der Funktion f noch auf die Abgeschlossenheit und Beschränktheit des Definitionsgebietes K ⊂ R verzichten können: ◦ Die stetige Funktion f (x) = x nimmt auf dem offenen Intervall (0, 1) ⊂ R weder Minimum noch Maximum an. ◦ Die stetige Funktion f (x) = x nimmt auf der abgeschlossenen Zahlengeraden R weder Minimum noch Maximum an. ◦ Die nicht stetige Funktion 0, falls x = −1 x, falls − 1 < x < 1 f (x) = 0, falls x = 1 nimmt auf dem kompakten Intervall [−1, 1] ⊂ R weder Minimum noch Maximum an. Beweis des Satzes. ∗ Im Falle f ≡ 0 auf [x1 , x2 ] folgt f ′ (x) = 0 für alle x, so dass die Aussage des Satzes richtig ist. Konzentrieren wir uns also auf den allgemeinen Fall f 6≡ 0. Ohne Einschränkung können wir annehmen, dass es ein x0 ∈ (x1 , x2 ) gibt mit f (x0 ) > 0. Die stetige Funktion f nimmt auf dem kompakten Intervall [x1 , x2 ] in einem Punkt ξ ∈ (x1 , x2 ) ihr Maximum an, d.h. f (x) ≤ f (ξ ) für alle x ∈ [x1 , x2 ]. Wir berechnen damit f (x) − f (ξ ) ≥ 0 für alle x1 ≤ x < ξ , x−ξ f (x) − f (ξ ) ≤ 0 für alle ξ < x ≤ x2 . x−ξ KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 138 Es ist aber f in (x1 , x2 ), insbesondere also auch im Punkt ξ nach Voraussetzung differenzierbar. Für den links- bzw. rechtsseitigen Grenzwert ihres Differenzenquotienten schließen wir aber jeweils f (x) − f (ξ ) f (x) − f (ξ ) f ′ (ξ ) = lim ≥ 0, f ′ (ξ ) = lim ≤ 0. x→ξ x→ξ x−ξ x−ξ x<ξ Insgesamt folgt also x>ξ f ′ (ξ ) = 0. Für den Beweis des Satzes von Weierstraß verweisen wir auf die angegebene Literatur zur Analysis. 4.3.3 Der Mittelwertsatz von Cauchy Wir kommen jetzt zum Cauchyschen Mittelwertsatz der Differentialrechnung. Satz 4.13. Sei −∞ < x1 < x2 < +∞. Die Funktionen f , g : R → R seien auf dem abgeschlossenen Intervall [x1 , x2 ] ⊂ R stetig und auf dem offenen Intervall (x1 , x2 ) ⊂ R differenzierbar. Ferner sei g′ (x) 6= 0 für alle x ∈ (x1 , x2 ) sowie g(x1 ) 6= g(x2 ) richtig. Dann gibt es ein ξ ∈ (x1 , x2 ) mit der Eigenschaft f ′ (ξ ) f (x2 ) − f (x1 ) = . g′ (ξ ) g(x2 ) − g(x1) Beweis. ∗ Betrachte die Funktion h(x) := α f (x) + β g(x) + 1, wobei die reellen Koeffizienten α , β ∈ R der Art gewählt seien, dass h(x1 ) = α f (x1 ) + β g(x1 ) + 1 = 0, h(x2 ) = α f (x2 ) + β g(x2 ) + 1 = 0. Nach dem Satz von Rolle gibt es ein ξ ∈ (x1 , x2 ) mit h′ (ξ ) = α f ′ (ξ ) + β g′ (ξ ) = 0 bzw. nach Umstellen f ′ (ξ ) β =− . g′ (ξ ) α Andererseits ermitteln wir nach Subtraktion beider obigen Gleichungen α · f (x2 ) − f (x1 ) + β · g(x2 ) − g(x1 ) = 0 bzw. β f (x2 ) − f (x1 ) =− , g(x2 ) − g(x1 ) α weshalb nach Vergleich der beiden letzten Identitäten die Behauptung des Satzes folgt. 4.4. DIE REGEL VON DE L’HOSPITAL 139 4.3.4 Der Mittelwertsatz der Differentialrechnung Setzen wir in diesem Satz g(x) = x, so erhalten wir den gewöhnlichen Mittelwertsatz der Differentialrechnung, den wir als eine direkte Verallgemeinerung des Satzes von Rolle ansehen können. Folgerung 4.5. Sei −∞ < x1 < x2 < +∞. Die Funktion f : R → R sei auf dem abgeschlossenen Intervall [x1 , x2 ] ⊂ R stetig und auf dem offenen Intervall (x1 , x2 ) ⊂ R differenzierbar. Dann gibt es ein ξ ∈ (x1 , x2 ) mit der Eigenschaft f ′ (ξ ) = f (x2 ) − f (x1 ) . x2 − x1 Mit anderen Worten: Die durch den Punkt ξ ∈ (x1 , x2 ) verlaufende Tangente an den Funktionsgraphen ist parallel zu der von f (x1 ) und f (x2 ) definierten Sekante. Beispiel 4. Es ist der Wert sin 35◦ geeignet in Schranken einzuschließen: π sin 35◦ = sin(30◦ + 5◦) = sin π6 + 5 · 180 = sin π6 + 0.087 . . . . Setze x1 := π6 und x2 := π6 + 0.087 . . . Dann ist nach dem Mittelwertsatz der Differentialrechnung mit einem ξ ∈ (x1 , x2 ) (cos ist die Ableitung von sin) sin 35◦ = sin(x1 ) + 0.087 . . . · cos(ξ ) = 1 + 0.087 . . . · cos 2 π 6 π + ϑ · 5 · 180 mit einem geeigenten ϑ ∈ (0, 1). Dabei gibt uns ϑ = 0 rechts den größt möglichen Wert, der Wert ϑ = 1 den kleinst möglichen Wert für die gesuchte Abschätzung. Es ist aber vielleicht cos 35◦ auch nicht bekannt (unsere kleine Tabelle in Paragraph 2.3.2 enthielt nur die Werte 0, π4 und π2 ). Also ersetzen wir cos 35◦ durch den kleineren Wert √ 2 2 √ und erhalten mit cos π6 = 23 √ √ 1 1 3 2 ◦ > sin 35 > + 0.087 . . . · ≈ 0.561. 0.576 ≈ + 0.087 . . . · 2 2 2 2 cos45◦ = 4.4 Die Regel von de l’Hospital Wir kommen direkt zu einer Anwendung des gewöhnlichen Mittelwertsatzes der Differentialrechnung des vorigen Paragraphens. Unbestimmte Ausdrücken der Form 0 ∞ , , 0 · ∞, 00 , ∞0 , 1∞ , ∞ − ∞ 0 ∞ sehen wir nicht als Zahlen, sondern als Grenzwerte von Quotienten, Produkten oder Potenzen f (x) , f (x) · g(x), f (x)g(x) , f (x) − g(x) g(x) an, in denen für gewisse Argumente x = x0 beide Funktionen f (x) und g(x) zugleich 0 oder zugleich ∞ usw. sind. KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 140 Beispiel 5. Aus der Reihendarstellung sin x = x − x3 x5 x7 + − ± ... 3! 5! 7! entnehmen wir unmittelbar sin x x2 x4 x6 = lim 1 − + − ± . . . = 1. x→0 x x→0 3! 5! 7! lim Dieser Ausdruck ist von der Form 00 . Seien jetzt wieder f , g : (x1 , x2 ) → R zwei differenzierbare Funktionen. Wir suchen nach dem Grenzwert f (x0 + h) h→0 g(x0 + h) lim mit g(x0 + h) 6= 0 für alle hinreichend kleinen h 6= 0 unter der Voraussetzung f (x0 ) = 0 und g(x0 ) = 0, und g(x0 + h) 6= 0 wird durch die zusätzliche Forderung g′ (x0 ) 6= 0 abgesichert. Dem gewöhnlichen Mittelwertsatz der Differentialrechnung des vorigen Paragraphens entnehmen wir zu diesem Zweck die Existenz zweier ξ1 , ξ2 ∈ (x0 , x0 + h) mit der Eigenschaft (setze dort x1 = x0 und x2 = x0 + h) f ′ (ξ1 ) f (x0 + h) f (x0 ) + h f ′ (ξ1 ) = = g(x0 + h) g(x0 ) + hg′(ξ2 ) g′ (ξ2 ) bzw. nach Grenzübergang f (x0 + h) f ′ (x0 ) = ′ . h→0 g(x0 + h) g (x0 ) lim Damit haben wir bereits die wichtige Regel von de l’Hospital gewonnen. Satz 4.14. Es seien f , g : (x1 , x2 ) → R differenzierbare Funktionen mit f (x0 ) = g(x0 ) = 0 und g′ (x0 ) 6= 0 für ein x0 ∈ (x1 , x2 ). Dann gilt lim x→x0 f (x) f ′ (x) = lim ′ . g(x) x→x0 g (x) Falls notwendig, und falls die Funktionen f (x) und g(x) höhere Ableitungen erlauben, dürfen wir diese Regel auch mehrfach anwenden wie im folgenden Beispiel. Beispiel 6. Wir ermitteln x2 2 2x 2 = lim = lim = = 2. x→0 1 − cosx x→0 sin x x→0 cos x 1 lim 4.5. DIE TAYLORSCHE FORMEL IN EINER VERÄNDERLICHEN 141 ∞ können wir, wie das folgende Beispiel andeutet, auf den Den unbestimmten Fall ∞ 0 unbestimmten Fall 0 zurückführen. Beispiel 7. Mit der natürlichen Logarithmusfunktion ln : (0, ∞) −→ R als die Inverse der reellen Exponentialfunktion x 7→ ex , x ∈ R, und ihrer ersten Ableitung d 1 ln x = , x ∈ (0, ∞), dx x cosx und dem Kotangens cot x = sin x berechnen wir ln x = lim x→0 − x→0 cot x lim 1 x 1 sin2 x 2 sin x cos x 0 sin2 x = − lim = = 0. x→0 x→0 x 1 1 = − lim Der dritte Grenzwert ist von der Form 00 . 4.5 Die Taylorsche Formel in einer Veränderlichen Es sei f : (x1 , x2 ) → R eine differenzierbare Funktion. Seien ferner x0 ∈ (x1 , x2 ) und x0 + h ∈ (x1 , x2 ) mit einem hinreichend kleinen h ∈ R. Nach dem gewöhnlichen Mittelwertsatz gilt dann f (x0 + h) = f (x0 ) + h f ′ (ξ ) mit einem Mittelwert ξ ∈ (x0 , x0 + h), den wir durch x0 + ϑ h mit einem reellen Parameter ϑ ∈ (0, 1) ausdrücken wollen: f (x0 + h) = f (x0 ) + h f ′ (x0 + ϑ h). Setzen wir voraus, dass f (x) höhere Ableitungen erlaubt, können wir den Mittelwertsatz auf die rechte Seite dieser Gleichung wiederhholt anwenden und erhalten f (x0 + h) = f (x0 ) + h f ′ (x0 + ϑ1 h), ′ ′′ 0 + ϑ1 h) = f (x0 ) + ϑ1 h f (x0 + ϑ2 h), f ′′ (x0 + ϑ2 h) = f ′′ (x0 ) + ϑ2 ϑ1 h f ′′′ (x0 + ϑ3 h) f ′ (x usw. mit geeignet zu wählenden ϑ1 , ϑ2 , . . . ∈ (0, 1). Setzen wir diese Identitäten sukzessive ineinander ein, so gelangen wir zu dem Satz 4.15. Für die beliebig oft differenzierbare Funktion f : (x1 , x2 ) → R gibt es unter den genannten Voraussetzungen eine Zahlenfolge ϑ1 , ϑ2 , . . . ∈ (0, 1), so dass folgende Taylorsche Entwicklungen richtig sind f (x0 + h) = f (x0 ) + h f ′ (x0 + ϑ1 h) = f (x0 ) + h f ′ (x0 ) + ϑ1 h2 f ′′ (x0 + ϑ2 h) = f (x0 ) + h f ′ (x0 ) + ϑ1 h2 f ′′ (x0 + ϑ2 h) + ϑ1ϑ2 h3 f ′′′ (x0 + ϑ3 h) usw. KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 142 Wir wollen die tatsächlichen Werte der ϑi , die sich nicht unmittelbar aus dem gewöhnlichen Mittelwertsatz erschließen lassen, bestimmen. Satz 4.16. Die n-mal differenzierbare Funktion f : (x1 , x2 ) → R zusammen mit ihren Ableitungen f ′ (x), . . . , f (n) (x) sei gegeben. Seien x0 ∈ (x1 , x2 ) als auch x0 + h ∈ (x1 , x2 ) mit hinreichend kleinem h ∈ R. Dann gibt es ein ϑ ∈ (0, 1), so dass folgende Taylorsche Formel richtig ist f (x0 + h) = f (x0 ) + h f ′ (x0 ) + h2 ′′ h3 ′′′ hn (n) f (x0 ) + f (x0 ) + . . . + f (x0 + ϑ h). 2! 3! n! Beweis. ∗ Wir zeigen f (x0 + h) = f (x0 ) + h f ′ (x0 ) + hn−1 (n−1) h2 ′′ f (x0 ) + . . . + f (x0 ) + Rn 2! (n − 1)! mit einem Fehlerterm (Restglied) Rn = hn (n) f (x0 + ϑ h). n! Es geht genau darum, diesen Fehlerterm zu kontrollieren. Zu diesem Zweck wenden wir auf die beiden wie folgt definierten Hilfsfunktionen ϕ (x) = f (x) + (x1 − x)2 ′′ (x1 − x)n−1 (n−1) x1 − x ′ f (x) + f (x) + . . . + f (x) 1! 2! (n − 1)! mit x1 = x0 + h sowie ψ (x) = (x1 − x)n den Cauchyschen Mittelwertsatz aus Paragraph 4.3.3 an mit den Setzungen b = x0 +h und a = x0 und erhalten ϕ (x0 + h) − ϕ (x0 ) ϕ ′ (x0 + ϑ h) = . ψ (x0 + h) − ψ (x0 ) ψ ′ (x0 + ϑ h) Beachte nun ϕ (x0 + h) = ϕ (x1 ) = f (x0 + h), hn−1 (n−1) h2 ′′ f (x0 ) + . . . + f (x0 ), 2! (n − 1)! ψ (x0 ) = hn . ϕ (x0 ) = f (x0 ) + h f ′ (x0 ) + ψ (x0 + h) = 0, Mit der Entwicklung von f (x0 + h) vom Beginn unseres Beweises schließen wir also ϕ (x0 + h) − ϕ (x0 ) = Rn , ψ (x0 + h) − ψ (x0 ) = −hn . Weiter berechnen wir die Ableitungen ϕ ′ (x) = f ′ (x) − f ′ (x) + (x1 − x) f ′′ (x) − (x1 − x) f ′′ (x) + ...+ = (x1 − x)n−1 (n) f (x) (n − 1)! (x1 − x)n−1 (n) f (x0 ) (n − 1)! (x1 − x)2 ′′′ f (x) ∓ . . . 2! 4.5. DIE TAYLORSCHE FORMEL IN EINER VERÄNDERLICHEN sowie 143 ψ ′ (x) = −n(x1 − x)n−1 , woraus wir ϕ ′ (x0 + ϑ h) = = (x1 − x0 − ϑ h)n−1 (n) (x + h − x0 − ϑ h)n−1 (n) f (x0 + ϑ h) = 0 f (x0 + ϑ h) (n − 1)! (n − 1)! hn−1 (1 − ϑ )n−1 (n) f (x0 + ϑ h) (n − 1)! als analog entnehmen. Das bedeutet aber ψ ′ (x0 +) = −nhn−1 (1 − ϑ )n−1 Rn ϕ (x0 + h) − ϕ (x0 ) ϕ ′ (x0 + ϑ h) 1 = = ′ = f (n) (x0 + ϑ h), n −h ψ (x0 + h) − ψ (x0 ) ψ (x0 + ϑ h) (n − 1)! · n womit die genannte Form des Restgliedes Rn gezeigt ist. Damit ist die im Satz behauptete Taylorsche Formel bewiesen. Bemerkung 2. ◦ Die Funktion f = f (x) lässt sich genau dann in eine unendliche Taylorreihe ∞ hk (k) f (x0 + h) = ∑ f (x0 ) k=0 k! entwickeln, falls für das Restglied Rn in der endlichen Taylorformel gilt hn (n) f (x0 + ϑ h) = 0. n→∞ n! lim Rn = lim n→∞ ◦ Reellwertige Funktionen, die sich in eine unendliche Taylorreihe entwickeln lassen, nennen wir reell analytisch. Die Funktion ( −1 e x2 , falls x > 0, f (x) = 0, falls x ≤ 0 ist eine Beispiel einer Funktion, die sich wegen f (k) (0) = 0 für alle k = 0, 1, 2, . . . im Punkt x0 = 0 nicht in eine unendliche Taylorreihe entwickeln lässt. Aufgabe 7. Beweisen Sie die Aussage aus der letzten Bemerkung. Zwei Spezialfälle der Taylorschen Formel seien hervorgehoben: ◦ Unter der sogenannten Maclaurinschen Formel verstehen wir die Entwicklung f (x) = f (0) + x f ′ (0) + welche sogleich für x0 = 0 folgt. x2 ′′ xn (n) f (0) + . . . + f (ϑ h), 2! n! KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 144 ◦ Schreiben wir ferner x statt x0 + h, also h = x − x0 , so gelangen wir zur dritten Form der Taylorschen Formel, nämlich (x − x0 )n (n) f (x + ϑ (x − x0)). n! Beispiel 8. In Paragraph 4.2.1 haben wir aus der Reihenentwicklung f (x) = f (x0 ) + (x − x0) f ′ (x0 ) + . . . + ex = 1 + x + x2 x3 + + ... 2! 3! der reellen Exponentialfunktion für deren Ableitungen geschlossen d x d x d2 d e , = e = ex usw. dx dx dx dx Es ist also f (n) (0) = 1 für alle n = 1, 2, . . . , und die Maclaurinsche Formel liefert genau diese Reihenentwicklung der Exponentialfunktion. Aber Achtung: Vermeiden Sie an dieser Stelle unbedingt einen Zirkelschluss! Beispiel 9. Der Wert von ln 1.5 ist in geeignete Grenzen einzuschließen. Zu diesem Zweck schreiben wir zunächst ln 1.5 = ln(1 + 0.5) = ln(x0 + h) mit x0 = 1 und h = 0.5. Nun haben wir an dieser Stelle x0 = 1 f (x) = ln x, f (1) = 0, 1 , x f ′ (1) = 1, f ′ (x) = f ′′ (x) = − 1 , x2 f ′′ (x0 + ϑ h) = − 1 (x0 + ϑ h)2 mit einem ϑ ∈ (0, 1). Die dritte Form der Taylorschen Formel besagt dann 0.5 0.25 −1 −1 h h2 = 0+ + · + · x0 2! (x0 + ϑ h)2 1 2 (1 + 0.5 · ϑ )2 0.125 = 0.5 − . (1 + 0.5ϑ )2 ln 1.5 = ln x0 + Hierin setzen wir nun ϑ = 0 und ϑ = 1 ein und erhalten die Schranken 0.125 = 0.5 − 0.125 < ln 1.5, (1 + 0.5 · 0)2 4 0.125 ln 1.5 < 0.5 − (1+0.5·1) 2 = 0.5 − 0.125 · 9 0.5 − bzw. 0.375 < ln 1.5 < 0.444. Für genauere Approximationen sind eventuell weitere Ableitungen auswerten bzw. die Werte für die Unbestimmte ϑ zu variieren. 4.6. MAXIMA UND MINIMA EINDIMENSIONALER FUNKTIONEN 145 4.6 Maxima und Minima eindimensionaler Funktionen Wir wollen die Taylorsche Entwicklung nutzen, um erste geometrische Eigenschaften von Funktionen kennenzulernen. Insbesondere gehen wir der Frage nach, wie sich Maxima, Minima und Wendepunkte einer hinreichend oft differenzierbaren Funktion bestimmen lassen. Wir beginnen mit der Definition 4.4. Die Funktion f : [x1 , x2 ] → R besitzt im Punkt x0 ein absolutes Minimum oder ein absolutes Maximum, falls gilt f (x) ≤ f (x0 ) bzw. f (x) ≥ f (x0 ) für alle x ∈ [x1 , x2 ]. Sie besitzt in x0 ∈ [x1 , x2 ] ein lokales Minimum oder ein lokales Maximum, falls es ein hinreichend kleines ε > 0 gibt, so dass f (x) ≤ f (x0 ) bzw. f (x) ≥ f (x0 ) für alle x ∈ [x1 , x2 ] ∩ {x ∈ [x1 , x2 ] : |x − x0 | < ε }. Für diese Definition verlangen wir weder Differenzierbarkeit noch Stetigkeit der in Frage stehenden Funktion. Hierzu zwei einfache Beispiele. ◦ Die Betragsfunktion f (x) = |x|, x ∈ [−1, 1], besitzt im Punkt x0 = 0 ein absolutes, also auch ein lokales Minimum, ist dort aber nicht differenzierbar. ◦ Die Funktion 0, x ∈ [−1, 0) 1, x = 0 f (x) = 0, x ∈ (0, 1] besitzt in x0 = 0 ein absolutes, also auch ein lokales Maximum, ist dort aber nicht einmal stetig. Um detailliertere Aussagen über solche Extrema von Funktionen zu bekommen, konzentrieren wir uns auf Funktionen f : [x1 , x2 ] → R, die im offenen Intervall (x1 , x2 ) hinreichend oft differenzierbar, im abgeschlossenen Intervall [x1 , x2 ] stetig sind. Unter der zukünftigen Annahme, → dass sich die betrachteten Funktionen in eine Taylorreihe entwickeln lassen (siehe unser Gegenbeispiel aus Bemerkung 2), entnehmen wir dieser Formel wir zunächst f (x0 + h) − f (x0) = h f ′ (x0 ) + h3 ′′′ hn (n) h2 ′′ f (x0 ) + f (x0 ) + . . . + f (x0 + ϑ h) 2! 3! n! mit hinreichend kleinem h > 0, so dass mit x0 ∈ (x1 , x2 ) auch noch x0 + h ∈ (x1 , x2 ) richtig ist. Wir schließen damit KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 146 ◦ liegt in x0 ∈ (x1 , x2 ) ein lokales Minimum vor, so muss gelten f (x0 + h) − f (x0) ≥ 0 für alle hinreichend kleinen h ∈ R; ◦ liegt in x0 ∈ (x1 , x2 ) ein lokales Maximum vor, so muss gelten f (x0 + h) − f (x0) ≤ 0 für alle hinreichend kleinen h ∈ R. Da die Störung h ∈ R also hinreichend klein, ansonsten aber beliebig wählbar ist, gelangen wir unmittelbar zu Satz 4.17. Besitzt die (in eine Taylorreihe entwickelbare) differenzierbare Funktion f : (x1 , x2 ) → R im Punkt x0 ∈ (x1 , x2 ) ein lokales Minimum oder ein lokales Maximum, so gilt in diesem Punkt notwendig f ′ (x0 ) = 0. Geometrisch gesprochen, kommt die Tangente an den Funktionsgraphen im Punkt (x0 , f (x0 )) horizontal zum liegen. Bemerkung 3. Der Zusatz in eine Taylorreihe entwickelbar“ im Satz ist nötig, da wir ” über die Taylorreihenentwicklung argumentieren. Überlegen Sie sich, ob die notwendige Bedingung f ′ (x0 ) = 0 unabhängig von diesem Argument ist. Diese Bedingung ist jedoch nicht notwendig, wie das Beispiel der Funktion f (x) = x3 , x ∈ [−1, 1], lehrt, welche in x0 verschwindende Ableitung f ′ (0) = 0 besitzt, es sich dort aber sicher kein lokales Minimum oder lokales Maximum findet. Betrachten wir erneut obige Taylorsche Entwicklung, so erkennen wir, dass tatsächlich → der erste von Null verschiedene Koeffizient f (k) (x0 ) über das Vorzeichen dieser Differenz △ f (x0 ; h) := f (x0 + h) − f (x0) entscheidet. Genauer gilt: ◦ wird dieser Koeffizient mit einer ungeraden Potenz von h multipliziert, so ändert sich mit dem Vorzeichen von h auch das Vorzeichen von △ f (x0 ; h), und es kann kein Extremum vorliegen; ◦ wird dieser Koeffizient mit einer geraden Potenz von h multipliziert, so ist das Vorzeichen von h belanglos, d.h. das Vorzeichen dieses Koeffizienten bestimmt das Vorzeichen von △ f (x0 ; h). Damit erhalten wir folgendes hinreichende Kriterium. 4.6. MAXIMA UND MINIMA EINDIMENSIONALER FUNKTIONEN 147 Satz 4.18. Die in eine (endliche) Taylorreihe entwickelbare, differenzierbare Funktion f : (x1 , x2 ) → R erfülle im Punkt x0 ∈ (x1 , x2 ) die Bedingung f ′ (x0 ) = 0. Ist dann die erste nichtverschwindende Ableitung f (k) (x0 ) von gerader Ordnung, so liegt sich ein lokales Minimum oder ein lokales Minimum vor. Insbesondere gelten dann: ◦ ist diese Ableitung positiv, so handelt es sich um ein lokales Minimum, ◦ ist diese Ableitung negativ, so handelt es sich um ein lokales Maximum. Beispiel 10. Betrachte die Funktion f (x) = x4 mit den Ableitungen f ′ (x) = 4x3 , f ′′ (x) = 12x2 , f ′′′ (x) = 24x, f (4) (x) = 24 im Punkt x0 = 0 : f (0) = 0, f ′ (0) = 0, f ′′ (0) = 0, f ′′′ (0) = 0, f (4) (0) = 24 > 0. Im Punkt x0 = 0 liegt also ein lokales Minimum vor. Bemerkung 4. ◦ Funktionen f : [x1 , x2 ] → R können natürlich auch am Rand x1 oder x2 lokales Extremwerte annehmen, auch wenn die eventuell existierende einseitige Ableitung nicht verschwindet. Hier sind also zusätzliche Betrachtungen anzustellen. ◦ Ebenso muss jede Funktion als Spezialfall untersucht werden, die keine Taylorreihenentwicklung im kritischen Punkt x0 besitzt. Wir wollen noch sogenannte Wendepunkte diskutieren. Definition 4.5. Die in eine (endliche) Taylorreihe entwickelbare, differenzierbare Funktion f : (x1 , x2 ) → R besitzt in x0 ∈ (x1 , x2 ) einen Wendepunkt, falls die Ableitungsfunktion f ′ (x) in x0 ∈ (x1 , x2 ) ein lokales Minimum oder ein lokales Maximum besitzt. Im Falle höherer Differenzierbarkeit der Funktion argumentieren wir wie eben: → In einem Wendepunkt muss die zweite Ableitung der Funktion verschwinden, und die nächste nicht verschwindende Ableitung muss von ungerader Ordnung sein. Das positive oder negative Vorzeichen der ersten Ableitung entscheidet darüber, ob im Wendepunkt Steigung oder Gefälle herrscht. Verschwindet die erste Ableitung, so ist die Tangente an diesem Punkt des Funktionsgraphen horizontal. Beispiel 11. Die Funktion f (x) = x + x3 besitzt die Ableitungen f ′ (x) = 1 + 3x2 , f ′′ (x) = 6x, f ′′′ (x) = 6. Im Punkt x0 = 0 haben wir insbesondere f (0) = 0, f ′ (0) = 1 > 0, f ′′ (0) = 0, f ′′′ (0) = 6 > 0. Also besitzt die Funktion in x0 = 0 einen Wendepunkt geringster Steigung. 148 KAPITEL 4. DIFFERENTIALRECHNUNG IM R1 Aufgabe 8. Können Sie diesen Satz ohne den Zusatz in eine (endliche) Taylorreihe entwickel” bar“ formulieren? Bemerkung 5. Das Vorzeichen f ′′ (x0 ) der Funktion f (x) können wir auch geometrisch deuten: Ist nämlich f ′′ (x0 ) > 0, so nimmt ihre Steigung in x0 zu. Ihr Graph ist (nach unten) konvex oder nach oben offen. Im Falle f ′′ (x0 ) < 0 sagen wir, der Funktionsgraph ist im Punkt x0 konkav. Wir kommen zum abschließenden Beispiel 12. Mit gegebenem Umfang u soll ein möglichst flächengroßes Rechteck umgrenzt werden. Zur Lösung bezeichnen wir mit x und y die zwei zueinander parallelen Flächenseiten, d.h. u u = 2x + 2y bzw. y = − x. 2 Der Inhalt F(x, y) = F(x) des umgrenzten Rechtecks berechnet sich daher gemäß u u F(x) = xy = x − x = x − x2 . 2 2 Aus F ′ (x) = u2 − 2x und F ′′ (x) = −2 < 0 finden wir ein Maximum in x = u4 . Das flächengrößte Rechteck gegebenem Umfangs ist also das Quadrat. Literaturnachweis Unsere Quellen in diesem Kapitel waren ◦ Baule, B.: Die Mathematik des Naturwissenschaftlers und Ingenieurs ◦ Sauvigny, F.: Analysis I Vorlesungsmanuskript Wintersemester 1994/1995, BTU Cottbus Kapitel 5 Das eindimensionale Riemannintegral 5.1 Einführung des Riemannintegrals Seien −∞ < xℓ < xr < +∞. Wir wollen in diesem Kapitel nach B. Riemann einen Integrationsbegriff für reellwertige Funktionen f : [xℓ , xr ] → R entwickeln. ◦ 1. Schritt Dazu betrachten wir zunächst eine Zerlegung Z des Intervalls [xℓ , xr ] in N ∈ N abgeschlossene Teilintervalle [xk−1 , xk ] der Form xℓ = x0 < x1 < x2 < . . . < xN = xr . (n) Falls notwendig, betrachten wir auch eine ganze Folge Zn=1,2,... solcher Zerlegungen. Definition 5.1. Es heißt kZ k := max{x1 − x0 , x2 − x1 , . . . , xN − xN−1 } das Feinheitsmaß der Zerlegung Z . Besitzt ferner eine Folge {Z (n) }n=1,2,... von Zerlegungen (n) (n) Z (n) : xℓ = x0 < x1 < x2 < . . . < xN (n) = xr , n = 1, 2, . . . , des Intervalls [xℓ , xr ] die Eigenschaft lim kZ (n) k = 0, n→∞ so nennen wir diese Folge eine ausgezeichnet Zerlegungsfolge. 149 KAPITEL 5. DAS EINDIMENSIONALE RIEMANNINTEGRAL 150 Beachten Sie, dass die Zahl N (n) der Teilintervalle jeder einzelnen Zerlegung Z (n) einer (ausgezeichneten) Zerlegungsfolge stets endlich ist. Diese Tatsache stellt ein charakteristisches Merkmal der Riemannschen Integrationstheorie dar. ◦ 2. Schritt Für jedes neue Teilintervall [xi−1 , xi ] einer Zerlegung Z wählen wir nun irgendwelche Zwischenwerte ξi ∈ [xi−1 , xi ] für i = 1, . . . , n. Definition 5.2. Mit diesen Zwischenwerten ξ = (ξ1 , . . . , ξN ) ∈ RN bez. der Zerlegung Z heißt N R( f , Z , ξ ) := ∑ f (ξi )(xi − xi−1 ) i=1 die Riemannsche Zwischensumme. Bezüglich einer Folge {Z (n) }n=1,2,... von Zerlegungen bedeutet das: Wähle für jedes Folgenelement Z (n) Zwischenwerte (n) ξi (n) (n) ∈ [xi−1 , xi ], i = 1, . . . , N (n) , n = 1, 2, . . . Definition 5.3. Die Funktion f : [xℓ , xr ] → R heißt Riemannintegrierbar auf dem kompakten Intervall [xℓ , xr ], falls für jede ausgezeichnete Zerlegungsfolge {Z (n) }n=1,2,... und jede, zu den Zerlegungen gehörige Folge von Zwischenwerten (n) (n) (n) ξ (n) := (ξ1 , ξ2 , . . . , ξN (n) ) ∈ RN (n) , n = 1, 2, . . . , die Folge der Riemannschen Zwischensummen R( f , Z (n) , ξ (n) ), n = 1, 2, . . . , eine konvergente Zahlenfolge bildet. In diesem Fall schreiben wir Zxr f (x) dx := lim R( f , Z (n) , ξ (n) ) n→∞ xℓ und bezeichnen die linke Seite als das Riemannsche Integral der Funktion f . Aufgabe 1. Zeigen Sie, dass der Wert Zxr f (x) dx xℓ des Integrals einer Riemannintegrierbaren Funktion eindeutig bestimmt ist. ◦ Da die Riemannschen Zwischensummen aus obiger Definition Zxr konvergieren, gilt für ihren Grenzwert f (x) dx < ∞. Bemerkung 1. xℓ 5.2. KRITERIEN ZUR RIEMANNINTEGRIERBARKEIT 151 ◦ Riemann entwickelte diesen Integrationsbegriff in der Abhandlung Ueber die Darstellbarkeit einer Function durch eine trigonometrische Reihe aus dem Jahre 1854 im Zuge seiner Habilitation an der Universität zu Göttingen. ◦ Ein ähnlicher Integrationsbegriff wurde bereits von A.L. Cauchy vorgeschlagen. Als ξi wählt Cauchy jeweils die linken Endpunkte xi−1 der durch die Zerlegung Z resultierenden Teilintervalle [xi−1 , xi ]. 5.2 Kriterien zur Riemannintegrierbarkeit Wir wollen die vorige Definition zur Riemannintegrierbarkeit in zwei analytische Kriterien umformulieren. Satz 5.1. Die Funktion f : [xℓ , xr ] → R ist genau dann Riemannintegrierbar, falls es eine reelle Zahl I ∈ R gibt, so dass für alle ε > 0 ein δ = δ (ε ) > 0 existiert mit der Eigenschaft |R( f , Z , ξ ) − I| < ε für alle Zerlegungen Z mit kZ k < δ (ε ) und mit zur Zerlegung Z gehörigen Zwischenwerten ξ = (ξ1 , . . . , ξN ). In diesem Fall gilt natürlich I = Zxr f (x) dx mit dem Riemannschen Integral aus obiger xℓ Definition 5.3. Dieses Kriterium macht explizit vom Grenzwert I der Riemannschen Zwischensummen Gebrauch. Unter Berücksichtigung der Vollständigkeit der reellen Zahlen und des zugehörigen Cauchyschen Konvergenzkriteriums Satz 3.3, Kapitel 3, können wir folgendes zweite, zu obigem Satz 5.1 äquivalente Cauchysche Kriterium zur Riemannintegrabilität formulieren. Satz 5.2. Die Funktion f : [xℓ , xr ] → R ist genau dann Riemannintegrierbar, falls es zu jedem vorgelegtem ε > 0 ein δ = δ (ε ) > 0 existiert, so dass für zwei beliebig gegebene Zerlegungen Z (1) und Z (2) mit Feinheitsmaß kZ (1) k < δ (ε ), kZ (2) k < δ (ε ) (i) und für beliebig zugehörige Zwischenwerte ξ (i) = (ξ1 , . . . , ξ (i) ) N (i) für i = 1, 2 gilt |R( f , Z (1) , ξ (1) ) − R( f , Z (2) , ξ (2) )| < ε . Aufgabe 2. Beweisen Sie diese beiden Kriterien. 5.3 Beispiele Unsere Definition des Riemannintegrals beruht auf einer Grenzwertanalyse reeller Zahlenfolgen. In diesem Sinne lassen die folgenden ersten Beispiele auf elementare Art und Weise ausführen. 152 KAPITEL 5. DAS EINDIMENSIONALE RIEMANNINTEGRAL ◦ Die charakteristische Funktion χ (x) := ( 1, falls x ∈ [xℓ , xr ] 0, falls x 6∈ [xℓ , xr ] des kompakten Intervalls [xℓ , xr ] ist Riemannintegrierbar mit Zxr xℓ χ (x) dx = xr − xℓ . ◦ Die Funktion f (x) = x, x ∈ [xℓ , xr ] ist Riemannintegrierbar mit Zxr f (x) dx = xℓ 1 2 1 2 x − x . 2 r 2 ℓ Aufgabe 3. Führen Sie diese beiden Beispiel aus. Die Riemannsche Methode erlaubt aber auch die Integration von Funktionen mit wenigstens endlich vielen Unstetigkeitsstellen. Ein berühmtes Gegenbeispiel für eine nicht Riemannintegrierbare Funktion mit unendlich vielen Unstetigkeitsstellen ist aber folgendes: ◦ Die Dirichletsche Sprungfunktion ( 1, falls x ∈ [0, 1] ∩ Q f (x) := , 0, falls x ∈ [0, 1] \ Q der wir in leicht allgemeinerer Form bereits zu Beginn des dritten Kapitels begegnet sind, ist nicht Riemannintegrierbar. Zum Beweis betrachten wir eine Zerlegung Z des Intervalls [0, 1]. Jede beliebige solcher Zerlegungen enthält in jedem ihrer Teilintervalle [xi−1 , xi ] ⊂ [0, 1] stets rationale Punkte pi ∈ [xi−1 , xi ] wie auch irrationale Punkt ri ∈ [xi−1 , xi ]. Das bedeutet aber, → wählen wir als Zwischenwerte ausschließlich rationale Punkte ξi = pi für alle i = 1, . . . , N, so ist N N i=1 i=1 R( f , Z , ξ ) = ∑ f (pi )(xi − xi−1 ) = ∑ (xi − xi−1 ) = 1; → wählen wir als Zwischenwerte ausschließlich irratonale Punkt ξi = ri für alle i = 1, . . . , N, so ist N R( f , Z , ξ ) = ∑ 0 · (xi − xi−1) = 0. i=1 Angenommen, f ist über [0, 1] Riemannintegrierbar mit Riemannintegral I. 5.4. EIGENSCHAFTEN RIEMANNINTEGRIERBARER FUNKTIONEN 153 → Sei dann ein ε < 21 vorgelegt, und sei ein zugehöriges δ = δ (ε ) gewählt. Für eine beliebige Zerlegung Z mit Feinheitsmaß kZ k < δ (ε ) und rationalen Zwischenwerten p = (p1 , . . . , pN ) bzw. irrationalen Zwischenwerten r = (r1 , . . . , rN ) finden wir 1 = |R( f , Z , p) − R( f , Z , r)| ≤ |R( f , Z , p) − I| + |I − R( f , Z , r)| < ε + ε < 1. Dieser Widerspruch zeigt aber, dass f nicht Riemannintegrierbar ist. 5.4 Eigenschaften Riemannintegrierbarer Funktionen Auf der Menge der Riemannintegrierbaren Funktionen ist das Riemannsche Integral gemäß nachfolgendem Satz linear. Satz 5.3. Sind f , g : [xℓ , xr ] → R Riemannintegrierbar, und sind α , β ∈ R, so ist auch α f + β g Riemannintegrierbar mit dem Riemannintegral Zxr xℓ {α f (x) + β g(x)} dx = α Zxr f (x) dx + β xℓ Zxr g(x) dx. xℓ Aufgabe 4. Beweisen Sie diesen Satz. Die Riemannintegrierbarkeit ist dabei wesentlich. Betrachte nämlich das Beispiel ( ( 1, falls x ∈ [0, 1] ∩ Q −1, falls x ∈ [0, 1] ∩ Q f (x) := , g(x) := 0, falls x ∈ [0, 1] \ Q 0, falls x ∈ [0, 1] \ Q mit h(x) := f (x) + g(x) ≡ 0 in [0, 1]. Im Gegensatz zu dieser Summe h(x) sind die Funktionen f (x) und g(x) nicht Riemannintegrierbar. Satz 5.4. Seien f , g : [xℓ , xr ] → R Riemannintegrierbare Funktionen. ◦ Ist f (x) ≥ 0 für alle x ∈ [xℓ , xr ], so gilt Zxr xℓ f (x) dx ≥ 0. ◦ Ist f (x) ≤ g(x) für alle x ∈ [xℓ , xr ], so gilt Zxr xℓ f (x) dx ≤ Zxr g(x) dx. xℓ Die erste Behauptung ist offenbar ein Spezialfall der zweiten Aussage. KAPITEL 5. DAS EINDIMENSIONALE RIEMANNINTEGRAL 154 Aufgabe 5. Beweisen Sie diesen Satz. Satz 5.5. Sind f , g : [xℓ , xr ] → R Riemannintegrierbar, so auch das Produkt f (x)g(x). Aufgabe 6. Beweisen Sie diesen Satz. Von besonderer Wichtigkeits ist folgender Satz, den wir auch beweisen möchten. Satz 5.6. Ist die Funktion f : [xℓ , xr ] → R Riemannintegrierbar, so ist f (x) auch beschränkt. Beweis. Wir wählen ein δ > 0 mit Zxr R( f , Z , ξ ) − f (x) dx < 1 2 x ℓ für jede Zerlegung Z mit Feinheitsmaß kZ k < δ und zugehörig gewählten Zwischenwerten ξ = (ξ1 , . . . , ξN ). Setze1 M := max{| f (ξ1 )|, | f (ξ2 )|, . . . , | f (ξn )|} ∈ [0, ∞) sowie σ := min{x1 − x0 , x2 − x1 , . . . , xN − xN−1 } . Sei nun ein x ∈ [xℓ , xr ] \ {ξ1 , . . . , ξN } beliebig gewählt, und bezeichne mit i ∈ N den kleinsten Index, so dass x ∈ [xi−1 , xi ]. Wir betrachten dann die neuen Zwischenwerte und beachten ξe := (ξ1 , ξ2 , . . . , ξi−1 , x, ξi+1 , . . . , ξN ) ∈ RN+1 | f (x)(xi − xi−1 ) − f (ξi )(xi − xi−1 )| = |R( f , Z , ξ ) − R( f , Z , ξe)|. Beide rechts stehende Riemannsche Zwischensummen unterscheiden sich nämlich nur in dem einen Summanden mit Index i. Weiter ist nach der Dreiecksungleichung Zxr Zxr e e |R( f , Z , ξ ) − R( f , Z , ξ )| = R( f , Z , ξ ) − f (x) dx + f (x) dx − R( f , Z , ξ ) xℓ xℓ Zxr Zxr ≤ R( f , Z , ξ ) − f (x) dx + R( f , Z , ξe) − f (x) dx x x ℓ ≤ ℓ 1 1 + = 1. 2 2 1 Machen Sie sich klar, dass die Setzung einer solchen Zahl M ∈ [0,∞) ohne die Voraussetzung der Beschränktheit überhaupt zulässig ist. 5.5. INTEGRATION NACH DARBOUX 155 Unter Verwendung der inversen Dreiecksungleichung |b| − |a| ≤ |b − a| für alle a, b ∈ R folgt daher | f (x)|(xi − xi−1 ) < | f (ξi )|(xi − xi−1) + 1 ≤ M(xi − xi−1 ) + 1 bzw. | f (x)| < M + 1 1 ≤M+ . xi − xi−1 σ Da aber x ∈ [xℓ , xr ] beliebig gewählt wurde, ist f (x) auf [xℓ , xr ] beschränkt. Für die letzte Eigenschaft des Riemannschen Integrals, die wir in diesem Abschnitt vorstellen wollen, betrachten wir die folgenden Zerlegungen einer beliebig gegebenen Funktion f : [xℓ , xr ] → R f + (x) := max{ f (x), 0}, f − (x) := max{− f (x), 0} . Aus f (x) = f + (x) − f − (x) und | f (x)| = f + (x) + f − (x) sehen wir sogleich f + (x) = | f (x)| + f (x) , 2 f − (x) = | f (x)| − f (x) . 2 Satz 5.7. Die Riemannintegrierbare Funktion f : [xℓ , xr ] → R sei gegeben. Dann sind auch f + (x), f − (x) und | f (x)| Riemannintegrierbar auf [xℓ , xr ], und es gilt Zxr Zxr f (x) dx ≤ | f (x)| dx ≤ (xr − xℓ ) · sup | f (x)|. x∈[xℓ ,xr ] x x ℓ ℓ Aufgabe 7. Beweisen Sie diesen Satz. 5.5 Integration nach Darboux Die in den vorigen Abschnitten beschriebene Integrationsmethode geht auf B. Riemann aus dem Jahre 1854 zurück. Zwanzig Jahre später, genauer 1875, schlug der französische Mathematiker G. Darboux folgende Herangehensweise vor. Vorgelegt seien eine beschränkte Funktion f : [xℓ , xr ] → R und eine Zerlegung Z des Definitionsbereichs [xℓ , xr ] gemäß xℓ = x0 < x1 < x2 < . . . < xN = xr . Wir setzen mi := inf { f (x) : xi−1 ≤ x ≤ xi } , Mi := sup { f (x) : xi−1 ≤ x ≤ xi } . 156 KAPITEL 5. DAS EINDIMENSIONALE RIEMANNINTEGRAL Definition 5.4. Die untere Darbouxsumme S( f , Z ) und die obere Darbouxsumme S( f , Z ) einer beschränkten Funktion f : [xℓ , xr ] → R und einer Zerlegung Z ihres kompakten Definitionsbereichs [xℓ , xr ] ⊂ R lauten N N S( f , Z ) := ∑ mi (xi − xi−1), S( f , Z ) := ∑ Mi (xi − xi−1). i=1 i=1 Es gilt offenbar S( f , Z ) ≤ S( f , Z ), und allgemeiner m(x2 − x1 ) ≤ S( f , Z ) ≤ S( f , Z ) ≤ M(x2 − x1) mit den globalen Setzungen m := inf { f (x) : xℓ ≤ x ≤ xr } , M := sup { f (x) : xℓ ≤ x ≤ xr } . Bemerkung 2. Häufig wird Darboux’ Methode B. Riemann zugeschrieben. Die Größen S( f , Z ) und S( f , Z ) bezeichnet man dann als Riemannsche Unter- bzw. Obersumme. Beispiel 1. Die Darbouxsummen liefern Schranken an die Fläche, die der Graph einer beschränkten Funktion f (x) mit der x-Achse einschließt. Zur Veranschaulichung betrachten wir die Funktion f (x) = sin π x, x ∈ [0, 3], und die Zerlegung Z des Intervalls [0, 3] gemäß xℓ = x0 = 0, x1 = 3 , 4 x2 = 4 , 3 x3 = xr = 3. Dann berechnen wir √ 3 4 5 7 √ 4 3 3 3 S( f , Z ) = 0 · −1· 3− =− − −0 − · − 4 2 3 4 3 3 24 sowie √ 2 3 4 29 7 √ 4 3 S( f , Z ) = 1 · 2. +1· 3− = −0 + · − + 4 2 3 4 3 12 24 Definition 5.5. Als das untere und das obere Darbouxintegral der beschränkten Funktion f : [xℓ , xr ] → R bezeichnen wir die Größen D( f ) := sup {S( f , Z ) : Z ist Zerlegung von [xℓ , xr ]} sowie D( f ) := inf {S( f , Z ) : Z ist Zerlegung von [xℓ , xr ]} . Stimmen für die beschränkte Funktion f (x) beide diese Werte überein, so heißt die Funktion Darbouxintegrierbar, und wir schreiben kurz Zxr xℓ f (x) dx := D( f ) = D( f ). 5.6. RIEMANNINTEGRIERBARE FUNKTIONEN 157 Zxr f (x) dx für das Riemannintegral Dass wir in dieser Definition einfach die Notation xℓ benutzen, liegt, unter Beachtung unseres Resultas aus Satz 5.6, wie folgt begründet: Satz 5.8. Die Funktion f : [xℓ , xr ] → R ist genau dann Riemannintegrierbar, wenn sie beschränkt und Darbouxintegrierbar ist. Aufgabe 8. Studieren Sie einen Beweis dieser Aussage in der Literatur. Analog zu Satz 5.2 gilt auch hier folgendes Cauchykriterium. Satz 5.9. Die beschränkte Funktion f : [xℓ , xr ] → R ist genau dann im Darbouxschen Sinne integrierbar, wenn zu beliebig vorgelegtem ε > 0 eine Zerlegung Z des kompakten Intervalls [xℓ , xr ] ⊂ R existiert mit S( f , Z ) − S( f , Z ) < ε . Beweis. Ist f (x) Darbouxintegrierbar, so folgt sicher sofort eine Richtung der Behauptung. Um andererseits die Darbouxintegrierbarkeit von f (x) nachzuweisen, seien ein ε > 0 und zu diesem eine Zerlegung Z vorgelegt, die der Voraussetzung des Satzes genügen. Dann schätzen wir wie folgt ab S( f , Z ) ≤ D( f ) ≤ D( f ) ≤ S( f , Z ) ≤ S( f , Z ) + ε . Mit ε → 0 folgt die Aussage des Satzes. 5.6 Riemannintegrierbare Funktionen Unter Verwendung der Darbouxschen Formulierung des Riemannintegrals wollen wir nun beweisen, dass monotone Funktionen wie auch stetige Funktionen Riemannintegrierbar sind. Beachte, dass wir im ersteren Fall außer der Monotonie keine weiteren Voraussetzungen an die Funktion stellen. Satz 5.10. Eine auf dem kompakten Intervall [xℓ , xr ] ⊂ R monotone Funktion f (x) ist dort auch Riemannintegrierbar. Beweis. Die Funktion f sei ohne Einschränkung nicht konstant und monoton wachsend. Damit ist sie aber auch beschränkt durch | f (x)| ≤ max{| f (xℓ )|, | f (xr )|} für alle x ∈ [xℓ , xr ]. Sei ε > 0 vorgelegt, und sei Z eine beliebige Zerlegung mit Feinheitsmaß kZ k ≤ ε . f (xr ) − f (xℓ ) Mit den obigen Setzungen mi = inf{ f (x) : xi−1 ≤ x ≤ xi } , Mi = sup{ f (x) : xi−1 ≤ x ≤ xi } , i = 1, . . . , N, 158 KAPITEL 5. DAS EINDIMENSIONALE RIEMANNINTEGRAL ersehen wir sofort mi = f (xi−1 ) und Mi = f (xi ) auf Grund der Monotonie, und für die Differenz der Darbouxschen Unter- und Obersumme folgt (in der letzten Zeile werten wir eine Teleskopsumme aus) N S( f , Z ) − S( f , Z ) = ≤ ∑ (Mi − mi)(xi − xi−1) = N ∑ { f (xi ) − f (xi−1 )}(xi − xi−1) i=1 i=1 N ε ∑ { f (xi ) − f (xi−1)} f (xr ) − f (xℓ) i=1 = { f (xr ) − f (xℓ )} ε = ε. f (xr ) − f (xℓ ) Nach Satz 5.9 ist f (x) daher Darboux- bzw. Riemannintegrierbar auf [xℓ , xr ] ⊂ R. Für unser zweites Resultat kommen wir auf den Begriff der gleichmäßigen Stetigkeit aus Paragraph 3.3.1 zurück: Das δ > 0 in der Stetigkeitsdefinition kann dann unabhängig vom einzelnen Punkt x0 ∈ [xℓ , xr ] gleichmäßig gewählt werden, d.h. δ = δ (ε ). Hilfssatz 5.1. Jede auf einer kompakten Menge K ⊂ Rm stetige Funktion f : K → R ist auf K auch gleichmäßig stetig. Aufgabe 9. Studieren Sie in der Literatur einen Beweis dieser Aussage. Satz 5.11. Ist f : [xℓ , xr ] → R stetig auf [xℓ , xr ], so ist f (x) auf diesem Intervall auch Riemannintegrierbar. Beweis. ∗ Die stetige Funktion f (x) ist auf dem kompakten Teilintervall [xℓ , xr ] zunächst beschränkt nach Hilfssatz 4.1 aus Kapitel 4 und gleichmäßig stetig nach vorigem Hilfssatz 5.1. Zu ε > 0 wählen wir nun ein δ (ε ) > 0 so, dass, falls |x − y| < δ (ε ) für x, y ∈ [xℓ , xr ] richtig ist, auch gilt ε | f (x) − f (y)| < . xr − xℓ Sei jetzt Z eine Zerlegung von [xℓ , xr ] mit Feinheitsmaß kZ k < δ (ε ). Da f stetig auf jedem kompakten Teilintervall [xi−1 , xi ] dieser Zerlegung ist, finden wir, erneut nach Hilfssatz 4.1 aus Kapitel 4, Punkte ti , Ti ∈ [xi−1 , xi ] mit mi = inf { f (x) : xi−1 ≤ x ≤ xi } = f (ti ), Mi = sup { f (x) : xi−1 ≤ x ≤ xi } = f (Ti ) für i = 1, . . . , N. Wegen |Ti − ti | ≤ kZ k < δ (ε ) ist weiter Mi − mi = | f (Ti ) − f (ti )| < ε , xr − xℓ und das führt uns schließlich auf S( f , Z ) − S( f , Z ) = N N i=1 i=1 ε ∑ (Mi − mi )(xi − xi−1 ) < ∑ xr − xℓ · (xi − xi−1 ) = ε . Nach Satz 5.9 ist f (x) also Riemannintegrierbar auf [xℓ , xr ] ⊂ R. 5.7. DER FUNDAMENTALSATZ DER DIFFERENTIAL- UND INTEGRALRECHNUNG159 5.7 Der Fundamentalsatz der Differential- und Integralrechnung Der folgende fundamentale Satz bildet die Brücke zwischen Differential- und Integralrechnung. Er besagt, dass Differentiation und Integration zueinander inverse Operationen sind. Der Satz wurde 1667 vom englischen Mathematiker J. Gregory entdeckt. Satz 5.12. Folgende zwei Aussagen sind richtig. ◦ Sind die Funktion f : [xℓ , xr ] → R und ihre Ableitung f ′ : [xℓ , xr ] → R Riemannintegrierbar auf [xℓ , xr ], so gilt Zxr xℓ f ′ (x) dx = f (xr ) − f (xℓ ). ◦ Die Funktion f : [xℓ , xr ] → R sei Riemannintegrierbar auf [xr , xℓ ]. Setze F(x) := Zx f (t) dt, xℓ x ∈ [xℓ , xr ]. Dann ist F(x) stetig auf [xℓ , xr ]. Ist zusätzlich f (x) stetig in ξ ∈ [xℓ , xr ], so ist F(x) in diesem Punkt differenzierbar mit der Ableitung F ′ (ξ ) = f (ξ ). Bemerkung 3. Unter Differenzierbarkeit von f auf [xℓ , xr ] verstehen wir die gewöhnliche Differenzierbarkeit von f in inneren Punkten ξ ∈ (xℓ , xr ) sowie einseitige Differenzierbarkeit von f in den Randpunkten xℓ und xr . Beweis. Es sei Z eine beliebige Zerlegung von [xℓ , xr ]. Auf jedem ihrer Teilintervalle finden wir dann nach dem gewöhnlichen Mittelwertsatz der Differentialrechnung Punkte ξi ∈ [xi−1 , xi ] mit f (xi ) − f (xi−1 ) = f ′ (ξi )(xi − xi−1), i = 1, . . . , N. Mit ξ = (ξ1 , . . . , ξN ) bilden wir die Riemannsche Zwischensumme für die Ableitung f ′ (x) und erhalten N N i=1 i=1 R( f ′ , Z , ξ ) = ∑ f ′ (ξi )(xi − xi−1 ) = ∑ { f (xi ) − f (xi−1 )} = f (xr ) − f (xℓ ). Diese Argumentation führen wir nun für eine ausgezeichnete Zerlegungsfolge durch, was den Satz beweist. Beispiel 2. In Punkten, in denen f (x) stetig ist, sichert der Satz die Differenzierbarkeit von F(x). Die Signumfunktion x , falls x 6= 0 |x| f (x) := 0, falls x = 0 KAPITEL 5. DAS EINDIMENSIONALE RIEMANNINTEGRAL 160 hingegen ist ein Beispiel einer im Punkt x0 = 0 nicht stetigen Funktion, ihr Integral F(x) = |x| ist in diesem Punkt nicht differenzierbar. Definition 5.6. Eine differenzierbare Funktion F(x) mit der Eigenschaft F ′ (x) = f (x) heißt ein Integral oder eine Stammfunktion von f (x). Eine Stammfunktion einer Riemannintegrierbaren Funktion f (x) ist nicht eindeutig. Mit F(x) bilden vielmehr alle Fc (x) := F(x) + c, c ∈ R, Stammfunktionen von f (x), was wir durch Differenzieren leicht bestätigen. Um das Riemannsche Integral einer vorgelegten Funktion f (x) für praktische Zwecke zu berechnen, können wir wie folgt vorgehen: ◦ Bestimme das Integral mit den aus der Definition zur Verfügung stehenden elementargeometrischen Methoden, was einen ersten Satz an sogenannten Grun” dintegralen“ liefert, von denen wir gleich eine kurze Auflistung geben. ◦ Wende die vorgestellten und noch vorzustellenden Sätze für das Riemannintegral an, um diesen Satz an Grundintegralen“ zu erweitern (Regel der partiellen ” Integration, Substitutionsregel, Partialbruchzerlegung usw.). ◦ Erweitere diesen Satz an Grundintegralen“ durch Anwendung des Fundamen” talsatzes der Differential- und Integralrechnung. Der Fundamentalsatz der Differential- und Integralrechnung erlaubt nämlich die un” bestimmte“ Ausführung des Riemannintegrals: Z f (x) dx = F(x) + const mit einer Stammfunktion F(x) des Integranden f (x), welche F ′ (x) = f (x) erfüllt. Grundintegrale“ sind beispielsweise ” Z xα +1 + const mit α ∈ R \ {−1} und x > 0 ◦ xα dx = α +1 ◦ Z ex dx = ex + const ◦ Z ax dx = ◦ Z dx = ln x + const mit x ∈ R \ {0} x ◦ Z cosx dx = sin x + const ax + c mit a > 0, a 6= 1 ln a In großen Tafelwerken finden sich umfangreiche Listen solcher Integrale. 5.8. PARTIELLE INTEGRATION UND SUBSTITUTION 161 5.8 Partielle Integration und Substitution Zwei wichtige Rechenmethoden zur Integration ergeben sich als unmittelbare Konsequenzen des Fundamentalsatzes der Differential- und Integralrechnung, nämlich die Regel der partiellen Integration und die Substitutionsregel. Zunächst kommen wir zur Regel der partiellen Integration. Folgerung 5.1. Seien die differenzierbaren Funktionen f , g : [xℓ , xr ] → R gegeben mit ihren Riemannintegrierbaren Ableitungen f ′ (x) und g′ (x). Dann sind auch f (x)g′ (x) und f ′ (x)g(x) auf [xℓ , xr ] ⊂ R Riemannintegrierbar, und es gilt Zxr xℓ ′ f (x)g (x) dx = f (xr )g(xr ) − f (xℓ )g(xℓ ) − Z[ xr f ′ (x)g(x) dx. xℓ Beweis. ∗ 1. Zunächst verifizieren wir die Riemannintegrierbarkeit der einzelnen Funktionen und deren Produkte. ◦ Nach Folgerung 4.1 aus Kapitel 4 sind die differenzierbaren Funktionen f (x) und g(x) stetig, nach Satz 5.11 also auch Riemannintegrierbar. ◦ Nach Satz 5.5 sind dann ebenfalls die Produkte f (x)g′ (x) und f ′ (x)g(x) Riemannintegrierbar. ◦ Unter Beachtung der Produktregel d f (x)g(x) = f ′ (x)g(x) + f (x)g′ (x) dx ist hier auch die linke Seite, d.h. ( f g)′ Riemannintegrierbar, da die rechte Seite diese Eigenschaft besitzt. 2. Nun kommen wir zum Beweis der behaupteten Regel: Dem vorigen Satz zufolge unter Einbeziehung der Produktregel erhalten wir nämlich Zxr ′ f (x)g (x) dx + xℓ Zxr ′ f (x)g(x) dx = xℓ Zxr xℓ d f (x)g(x) dx dx = f (xr )g(xr ) − f (xℓ )g(xℓ ), was die Aussage beweist. Beispiel 3. Wir ermitteln Z1 −1 Z1 x=1 x=1 xe dx = xe − ex dx = e1 + e−1 − ex x x x=−1 x=−1 −1 1 = e1 + e−1 − e + e−1 = 2e−1 . KAPITEL 5. DAS EINDIMENSIONALE RIEMANNINTEGRAL 162 Als nächstes diskutieren wir die sogenannte Substitutionsmethode. Folgerung 5.2. Sei f : [xℓ , xr ] → R eine stetige Funktion. Ferner sei ϕ : [tℓ ,tr ] → R eine stetig differenzierbare Abbildung mit den Eigenschaften ϕ (t) = x, ϕ ([tℓ ,tr ]) = [xℓ , xr ], ϕ (tℓ ) = xℓ , ϕ (tr ) = xr . Dann ist die Verkettung ( f ◦ ϕ )ϕ ′ (t) Riemannintegrierbar auf [tℓ ,tr ] ⊂ R, und es gilt Ztr f (ϕ (t))ϕ ′ (t) dt = tℓ Zxr f (x) dx. xℓ Beweis. ∗ Wir setzen zunächst F(x) := Zx f (z) dz, H(t) := Zt f (ϕ (τ ))ϕ ′ (τ ) d τ . tℓ xℓ Nach Voraussetzung sind beide Integranden stetig, so dass nach dem Fundamentalsatz der Differential- und Integralrechnung sind also F(x) und H(t) differenzierbar. Also ist auch die Verkettung F ◦ ϕ (t) nach t differenzierbar, und es gilt mit der Kettenregel dF(ϕ (t)) d ϕ (t) d ϕ (t) dH(t) d [F ◦ ϕ (t)] = = f (ϕ (t)) = . dt dx dt dt dt Daher folgern wir mit einer noch zu bestimmenden Integrationskonstante F ◦ ϕ (t) = H(t) + const. Da aber dann auch wegen F(xℓ ) = 0, H(tℓ ) = 0 gilt 0 = F(xℓ ) = F(ϕ (tℓ )) = F ◦ ϕ (tℓ ) = H(tℓ ) + const = 0 + const, verschwindet diese Integrationskonstante. Jetzt haben wir Zxr xℓ f (x) dx = F(xr ) = f ◦ ϕ (tr ) = H(tr ) = Ztr f (ϕ (τ ))ϕ ′ (τ ) d τ , tℓ was die Behauptung zeigt. Beispiel 4. Zu bestimmen ist Zxr cos(5x + 1) dx. xℓ Mit f (x) = cos(5x + 1) setzen wir t = 5x + 1, d.h. x= t −1 5 bzw. ϕ (t) = t −1 5 mit tℓ = 5xℓ + 1, tr = 5xr + 1. 5.9. LITERATURNACHWEIS 163 Diese Substitution führt uns auf ein Grundintegral“ aus dem vorigen Abschnitt. Wir ” berechnen also Zxr cos(5x + 1) dx = xℓ Ztr tℓ = 1 1 cost · dt = 5 5 Ztr tℓ cost dt = tr 1 sint 5 tℓ o 1 1 1n sin(5xr + 1) − sin(5xℓ + 1) . sintr − sintℓ = 5 5 5 5.9 Literaturnachweis In diesem Kapitel haben wir uns an folgender Literatur orientiert: ◦ Burk, F.E.: A garden of integrals ◦ Kurtz, D.S.; Swartz, C.W.: Theories of integration ◦ Sauvigny, F.: Einführung in die reelle und komplexe Analysis mit ihren gewöhnlichen Differentialgleichungen 1. Vorlesungsmanuskript BTU Cottbus 164 KAPITEL 5. DAS EINDIMENSIONALE RIEMANNINTEGRAL