Skriptum Mathematik A WS 09/10 für Ingenieure und Naturwissenschaftler T. von der Twer Inhaltsverzeichnis Kapitel 1. Logischer Grundbaukasten, Mengen, Strukturen, Abbildungen 1. Logik, Mengen und Strukturen 2. Die wichtigen Zahlenmengen, und die Struktur der reellen Zahlen 3. Abbildungen und Funktionen 4. Die natürlichen Zahlen, vollständige Induktion bzw. Rekursion 1 1 6 8 11 Kapitel 2. Elementare Grundkenntnisse zum Rechnen 1. Terme (Rechenausdrücke) für reelle Zahlen, und Gleichungen 2. Eine grundsätzliche Bemerkung zum Rechnen 13 14 16 Kapitel 3. Elementare Vektorrechnung und analytische Geometrie 1. Affiner Raum und Vektorraum 2. Längen und Winkel: Euklidischer Raum 3. Vektorprodukt und Spatprodukt 19 20 32 36 Kapitel 4. Reelle Funktionen 1. Grundfunktionen und zusammengesetzte Funktionen, Grenzwerte bei Funktionen 2. Ableitung reeller Funktionen 3. Grundlegende Resultate im Zusammenhang mit Ableitungen 4. Das eindimensionale Integral 41 42 63 74 79 Kapitel 5. Komplexe Zahlen 1. Motivierungen 2. Konstruktion des Körpers (C, +, ·, 0, 1) 3. Beispiele zum kartesischen Rechnen mit komplexen Zahlen 4. Polarkoordinatendarstellung komplexer Zahlen 107 108 109 111 113 Kapitel 6. Lineare Algebra 1. Grundbegriffe der linearen Algebra und wichtige Resultate dazu 2. Lineare Abbildungen 3. Matrixdarstellung einer linearen Abbildung 4. Verknüpfungen von linearen Abbildungen und Matrizen 5. Transformation von Matrizen (Basiswechsel) 6. Anwendungen des Rechnens mit Matrizen 7. Räume mit Skalarprodukt und Isometrien 8. Determinanten 9. Eigenwerte und Eigenvektoren; Diagonalisierung 10. Symmetrische Bilinearformen, deren Diagonalisierbarkeit, Klassifikation von Quadriken 11. Der Satz von Sylvester 12. Positiv / negativ definite und indefinite symmetrische Matrizen 117 117 125 132 136 140 142 149 153 164 169 184 184 iii KAPITEL 1 Logischer Grundbaukasten, Mengen, Strukturen, Abbildungen 1. Logik, Mengen und Strukturen Leitfaden zu den gesamten logischen Grundlagen: Aussagenlogik: Aussagen werden mit 'und', 'oder', 'nicht', (symbolisch ∧, ∨, ¬) ' wenn...,so...' (→), 'genau dann..., wenn...' (↔) verbunden Erweiterung zur Prädikatenlogik, der genaueren Analyse von Aussagen, vor allem mit dem Gebrauch von 'Für alle x gilt: α(x)' , symbolisch: ∀x α(x) sowie: 'Es gibt ein x, so dass α(x)' , symbolisch: ∃x α(x) Das entspricht genau der Mengenalgebra mit den Mengenoperationen des Durchschnittes ('und'), der Vereinigung ('oder') und Komplementbildung ('nicht') Es geht in diesem Abschnitt darum, gewisse Grundlagen für das Verständnis präziser Definitionen und Aussagen zu schaffen. Der Umgang damit sollte stets mit genauem Beobachten und vollem Bewusstsein verbunden sein. Dazu ein paar Beispiele, welche direkt ein paar typische Missverständnisse ausräumen sollen: Zum logischen Grundverständnis mathematischer Sätze Ein mathematischer Satz hat typisch die Form: Wenn die Voraussetzungen ... erfüllt sind, kann man (stets) auf Folgendes schließen.... Einfaches Beispiel: Wenn die Funktion f in x0 differenzierbar ist und in x0 ein Extremum hat, so gilt f ′ (x0 ) = 0. Was ist damit gesagt - und was nicht? Was bedeutet genau die Verbindung ’wenn..., so...’ ? Positiver Gebrauch: Die Funktion f (x) = x2 hat in x0 = 0 ein Minimum, ferner ist sie in x0 = 0 differenzierbar, also muss ihre Ableitung Null sein an der Stelle x0 = 0. So ist es auch. Dasselbe kann man auch sofort für g (x) = ln 1 + x2 und x0 = 0 schließen, ohne die Ableitung überhaupt ausrechnen zu können. Aber meist (und viel fruchtbarer) benutzen wir den Satz negativ: Wenn eine Funktion überall differenzierbar ist, so kommen nur die Nullstellen der ersten Ableitung als Kandidaten für Extrema in Frage. An keiner Stelle kann ein Extremum vorliegen, an welcher die Ableitung nicht verschwindet. Tatsächlich sagt der Satz das nicht wörtlich-direkt, sondern wir haben eine logische Folgerung gezogen und dabei insbesondere benutzt: Wenn aus ’f ist in x0 differenzierbar und f hat in x0 ein Extremum’ folgt: ’f ′ (x0 ) = 0’, dann folgt aus ’f ist in x0 differenzierbar und f ′ (x0 ) = 0’, dass f in x0 kein Extremum hat. Wir benutzen dabei die Kontraposition als wichtige logische Figur, das geht so: Aus ’wenn α, so β’ folgt unmittelbar: ’Wenn nicht β, dann nicht α’. Es gibt ein paar wichtige derartige Figuren, die zum Arsenal des Denkens gehören sollten. Bleiben wir noch im Beispiel: Der Satz wird häufig von Anfängern in der Weise missbraucht, dass sie aus f ′ (x0 ) = 0 schließen auf: ’f hat in x0 1 2 1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN ein Extremum’. Das ist aber ein falscher Schluss, und er ist in keiner Weise gedeckt durch den Satz. (Aus ’Wenn α, so β’ darf man keinesfalls schließen auf: ’Wenn β, so α’.) Zum logischen Grundverständnis mathematischer Definitionen Eine mathematische Definition hat die typische Form: ’Das Objekt a hat die Eigenschaft E genau dann, wenn α (a)’. Dabei ist α (a) eine Aussage über a, welche man unabhängig von einem Bezug auf E prüfen kann. Zunächst einmal: Hier steht ’genau dann, wenn’, also: Aus α (a) darf man schließen: a hat die Eigenschaft E. Und aus ’nicht α (a)’ darf man schließen: a hat nicht die Eigenschaft E. Es kommt noch schlimmer: Tatsächlich wird oft in Definitionen nur gesagt: ’wenn’ (statt ’genau dann, wenn’), aber gemeint ist ’genau dann, wenn’. Man beachte, dass diese sprachliche Konvention nur für Definitionen gilt, nicht etwa für mathematische Sätze (siehe oben). Aber das Wesentliche ist: Wissen, was man mit einer solchen Definition anstellt: Man hat ein Objekt a, für das man feststellen will, ob es die Eigenschaft E hat. Dann muss man a (ganz präzise: einen Namen dafür) in die Aussageform α (x) einsetzen und feststellen, ob α (a) gilt. Das ist immer derselbe Grundvorgang, der sich größter Unbekanntheit erfreut und immer wieder Rätsel aufgibt. Wenn man einmal bei einer Aufgabe gar nicht weiß, was zu tun ist, so hilft es häufig weiter, genau an diese Sache zu denken. Wir geben zwei Beispiele: Ist 213 eine Primzahl? (E ist also hier die Eigenschaft: ’Primzahl sein’.) Eine gängige Definition besagt: Eine natürliche Zahl x ist eine Primzahl genau dann, wenn x > 1 und es nicht natürliche Zahlen y, z > 1 gibt, so dass x = yz. Also ist α (x) hier genau diese Aussageform: x ist natürliche Zahl, und für alle natürichen Zahlen y, z > 1 gilt: x = yz. Wir setzen 213 für x ein und haben zu prüfen, ob es natürliche Zahlen y, z > 1 gibt, so dass 213 = yz. Das ist der Fall, 213 = 3 · 71. Also ist 213 keine Primzahl. Zweites Beispiel: Eine Funktion f , welche auf einem symmetrischen Intervall um 0 definiert ist, heißt eine ungerade Funktion, wenn für alle x aus dem Definitionsbereich von f gilt: f (−x) = −f (x) . Erste Anwendung der Definition: Ist f (x) = x+x2 (Definitionsbereich: Alle reellen Zahlen) ungerade? Nein, weil f (−1) = 0 und f (1) = 2. Zweite Anwendung der Definition - diesmal zur Gewinnung einer allgemeinen Aussage: Sei f eine (für alle reellen Zahlen definierte) Funktion, welche ungerade ist und umkehrbar. Ist dann auch die Umkehrfunktion f −1 eine ungerade Funktion? (Man hat f −1 (f (x)) = x für alle x, die Funktion f −1 ist nicht etwa 1/f (!).) Wenn wir das behaupten und beweisen wollen, so haben wir zu zeigen: (1) f −1 (−y) = −f −1 (y) für alle y, so dass es eine Zahl x gibt mit f (x) = y. Zuvor haben wir uns zu vergewissern, dass mit y im Definitionsbereich von f −1 auch −y in diesem Definitionsbereich liegt. Das ist so, weil mit f (x) = y auch gilt: f (−x) = −y (da f ungerade ist nach Voraussetzung), also f −1 (−y) = −x. Damit gilt aber auch die Gleichung (1) bereits, weil −x = −f −1 (y) . Dies folgt sofort aus f (x) = y, gleichwertig f −1 (y) = x. Übrigens haben wir eine andere Definition dabei zwangsläufig benutzt: y ist im Definitionsbereich von f −1 genau dann, wenn es eine Zahl x (im Definitionsbereich von f ) gibt, so dass f (x)) = y. Genaueres Hinsehen lehrt, dass die Sache auch allgemeiner für f mit symmetrischem Definitionsbereich um 0 gilt. 1. LOGIK, MENGEN UND STRUKTUREN 3 Zusammenfassung der Aussagenlogik: Eine aussagenlogische Formel wird aus Aussagenvariablen p, q, r usw. mittels ∧ (’und’), ∨ (’oder’), ⇁ (’nicht’), =⇒ (’wenn...,so...’), ⇐⇒ (’genau dann, wenn’) zusammengesetzt (unter Verwendung von Klammern). ⇁ bindet am stärksten, schwächer ∧, ∨, am schwächsten =⇒ , ⇐⇒ . Also α ∧ β =⇒ γ für (α ∧ β) =⇒ γ usw. Man nennt die ’oder’-Verbindung auch ’Disjunktion’, die ’und’-Verbindung auch ’Konjunktion, ’Negation’ für ’Verneinung’ ist sicher geläufig. Wir schreiben α, β, γ usw. für Formeln, die bereits zusammengesetzt sein können. Beispiel : (p =⇒ (q =⇒ r)) ⇐⇒ ((p =⇒ q) =⇒ (p =⇒ r)). Die Wahrheitsdefinitionen der aussagenlogischen Verbindungen : ⇁ α ist genau dann wahr, wenn α falsch ist, α ∧ β ist genau dann wahr, wenn α und β beide wahr sind, α ∨ β ist genau dann wahr, wenn α wahr ist oder β wahr ist (mindestens eines von beiden), α =⇒ β ist genau dann wahr, wenn α falsch ist oder β wahr ist, α ⇐⇒ β ist genau dann wahr, wenn α und β beide wahr sind oder beide falsch Definition der Allgemeingültigkeit und Erfüllbarkeit einer aussagenlogischen Verbindung : Eine aussagenlogische Formel ist genau dann allgemeingültig, wenn sie für jede Wahl der Wahrheitswerte ihrer Aussagenvariablen den Wahrheitswert W oder 1 bekommt. Eine aussagenlogische Formel ist genau dann erfüllbar, wenn sie für mindestens eine Wahl der Wahrheitswerte ihrer Aussagenvariablen den Wahrheitswert 1 bekommt. Eine gültige Schlussregel ist eine solche, bei der die Wahrheit der Voraussetzungen stets die Wahrheit der Folgerung nach sich zieht. Die wichtigsten allgemeingültigen aussagenlogischen Formeln : ⇁ (α ∨ β) ⇐⇒ ⇁ α ∧ ⇁ β, ⇁ (α ∧ β) ⇐⇒ ⇁ α ∨ ⇁ β (de Morgansche Regeln), α ∧ (β ∨ γ) ⇐⇒ (α ∧ β) ∨ (α ∧ γ) , α ∨ (β ∧ γ) ⇐⇒ (α ∨ β) ∧ (α ∨ γ) (Distributivgesetze) (α =⇒ β) ⇐⇒ (⇁ β =⇒ ⇁ α) (Kontraposition) (α =⇒ β) ⇐⇒ ⇁ α ∨ β ⇐⇒ ⇁ (α∧ ⇁ β) (Ausdrücken von =⇒ mittels ∨, ⇁ oder ∧, ⇁) Die wichtigsten aussagenlogischen Schlussregeln (über dem Strich stehen die Voraussetzungen, darunter die Folgerung: α =⇒ β α =⇒ β α ⇁β (modus ponens), (modus tollens) β ⇁α Satz zur Aussagenlogik: Aussagenlogische Allgemeingültigkeit und Erfüllbarkeit sind entscheidbar, d.h. ein Computerprogramm kann das tun. Dazu bringt man eine beliebige Formel auf folgende Formen: nk p, wenn ε = 1 Konjunktive Normalform : εkl pkl mit εkl ∈ {1, −1} und εp = ⇁ p, wenn ε = −1 k l=1 nk Disjunktive Normalform : εkl pkl (ε wie oben). k l=1 Satz: Eine Formel in konjunktiver Normalform ist offenbar genau dann allgemeingültig, wenn in jeder nk der Disjunktionen εkl pkl mindestens eine Aussagenvariable mit beiden Vorzeichen auftritt. l=1 Eine Formel in disjunktiver Normalform ist genau dann erfüllbar, wenn in keiner der Konjunktionen nk εkl pkl eine Aussagenvariable mit beiden Vorzeichen vorkommt. l=1 4 1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN Zusammenfassung der Mengenalgebra: Beschreibung von Mengen: Eine Menge ist eine abstrakte Zusammenfassung von Objekten zu einem Ganzen, dabei kommt es nur darauf an, welche Objekte zur Menge gehören und welche Objekte nicht. a ∈ A bedeutet: Das Objekt a ist Element der Menge A, Verneinung: a ∈ / A. Beispiele: {1, 3, 5} ist die Menge, deren Elemente genau die Zahlen 1, 3, 5 sind, { x ∈ R| x > 5} ist die Menge derjenigen reellen Zahlen, die größer als 5 sind. Beziehungen zwischen Mengen: A ⊂ B genau dann, wenn für alle Objekte x gilt: Wenn x ∈ A, so x ∈ B. (Teilmengenbeziehung) A = B genau dann, wenn A ⊂B und B ⊂ A, d.h. wenn A und B genau dieselben Elemente haben. 2 Beispiele: { x ∈ R| x > 5} ⊂ x ∈ R| es gibt ein y ∈ R mit x = y , { x ∈ R| x ≥ 0} = x ∈ R| es gibt ein y ∈ R mit x = y 2 Mengenoperationen: A ∩ B := { x| x ∈ A und x ∈ B} (Durchschnitt), A ∪ B := { x| x ∈ A oder x ∈ B} (Vereinigung), A \ B := { x| x ∈ A und x ∈ / B} (Differenz), ferner bei fixierter ’Allmenge’ Ω: A := { x ∈ Ω| x ∈ / A} = Ω \ A. A × B := { (a, b)| a ∈ A und b ∈ B} (kartesisches Oridukt, Menge der geordneten Paare) Folgende Rechengesetze entsprechen genau den Regeln für ’und’,’oder’,’nicht’: A ∪ B = A ∩ B, A ∩ B = A ∪ B (de Morgansche Gesetze), A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) , A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) (Distributivgesetze). Beispiele zum Umgang mit Aussagenlogik und Mengenalgebra: 1. α =⇒ (β =⇒ α) ist aussagenlogisch allgemeingültig, wie man sofort so sieht: Wäre das falsch, so hätte man: α =⇒ (β =⇒ α) F (Die unterstrichenen Wahrheitswerte zeigen einen Widerspruch.) W F W F Alternativ bringen wir auf konkunktive (!) Normalform - es tritt nur eine Disjunktion auf: (α =⇒ (β =⇒ α)) ⇐⇒ ⇁ α∨ ⇁ β ∨ α, Allgemeingültigkeit ist offensichtich. 2. (α ∨ β =⇒ γ) =⇒ (α =⇒ γ) ∧ (β =⇒ γ) ist allgemeingültig, wie man so sieht: (α ∨ β) =⇒ γ) =⇒ (α =⇒ γ) ∧ (β =⇒ γ) F W F F oder F (W F ) oder (W F) W W In jedem Falle gibt es einen Widerspruch mit den unterstrichenen Wahrheitswerten. Wieder bringen wir auch auf konjunktive Normalform: (α ∨ β =⇒ γ) =⇒ (α =⇒ γ) ∧ (β =⇒ γ) ⇐⇒ ⇁ (α ∨ β =⇒ γ) ∨ (α =⇒ γ) ∧ (β =⇒ γ) ⇐⇒ ((α ∨ β) ∧ ⇁ γ) ∨ (⇁ α ∨ γ) ∨ (⇁ β ∨ γ) Damit ist Allgemeingültigkeit klar. (α ∨ β∨ ⇁ α ∨ γ∨ ⇁ β ∨ γ) ⇐⇒ ∧ (⇁ γ∨ ⇁ α ∨ γ∨ ⇁ β ∨ γ) A ∪ B ∩ A = (A ∪ B) ∩ A ∪ A = A ∪ B, 3. (auch direkt zu verstehen!) da A ∪ A = Ω, und Ω ∩ C = C für alleC ⊂ Ω. (A ∩ B∪ A ∩B = (A ∪ A) ∩ A ∪ B ∩ (B ∪ A) ∩ (B ∪ B) 4. (auch direkt zu sehen.) = A ∩ B ∪ B = A. 1. LOGIK, MENGEN UND STRUKTUREN 5 Zusammenfassung des Umgangs mit ’für alle’, ’es gibt’: Feinere logische Analyse von Aussagen: Strukturen und Aussageformen: Strukturen: Man hat eine nicht leere Menge A, darin Konstanten wie etwa 0, 1, ferner aus A einige Verknüpfungen wie etwa +, · und Beziehungen wie =, < . Dann ist (A, 0, 1, +, ·, <) eine Struktur. Aussageformen: Man hat Symbole für die Verknüpfungen und Beziehungen einer Struktur, ferner Variablen für die Elemente der Struktur, d.h. der Menge A. Gültigkeit einer Aussageform in einer Struktur: Man setzt für die freien Variablen Namen von Elementen von A ein, dann ist klar, was die Gültigkeit einer Aussageform wie x + (y + z) < x · y (mit dieser Einsetzung) bedeutet. Zum Beispiel gilt 2 + (3 + 0) < 2 · 3, aber nicht 2 + (2 + 0) < 2 · 2. Die Bedeutung von ’für alle’, ’es gibt’: Es sei α (x) eine Aussageform, dann sind auch ∀xα (x) und ∃xα (x) Aussageformen, und ihre Gültigkeit in einer Struktur A, ... ist so zu verstehen: ∀xα (x) gilt in der Struktur (A, ...) genau dann, wenn α (a) für alle a ∈ A gilt. ∃xα (x) gilt in der Struktur (A, ...) genau dann, wenn es (mindestens) ein a ∈ A gibt, so dass α (a) gilt. Relativierte Form von ’für alle’ ’es gibt’ - die mathematische Umgangssprache ist voll davon: (∀x ∈ B) α (x) bedeutet: ∀x (x ∈ B =⇒ α (x)) . Man behauptet also α (x) nicht für alle, sondern nur für die Elemente einer ausgezeichneten Teilmenge. (∃x ∈ B) α (x) bedeutet: ∃x (x ∈ B ∧ α (x)) . Man behauptet die Existenz eines α erfüllenden Objektes bereits in B. Man beachte die verschiedenartigen aussagenlogischen Ausführungen! Die wichtigsten allgemeingültigen Formeln für die Quantifikation: ⇁ ∀xα (x) ⇐⇒ ∃x ⇁ α (x) , ⇁ ∃xα (x) ⇐⇒ ∀x ⇁ α (x) , ∃x∀yα (x, y) =⇒ ∀y∃xα (x, y) (nicht jedoch: Doppelpfeil!) Die wichtigsten Schlussregeln für die Quantifikation: Termeinsetzung: α (x/t) bedeutet: Überall, wo x frei in α (x) vorkommt, wird der Rechenausdruck (Term) t für x eingesetzt (und zwar mit Klammer um t, die eventuell erspart werden kann) (0) Eine aussagenlogisch gültige Formel darf hingeschrieben werden. α (x/t) ∀xα (x) (1) , , ∃xα (x) α (x/t) α =⇒ β (x) α (x) =⇒ β , wenn x nicht frei in α vorkommt, (wenn x nicht frei in β). (2) α =⇒ ∀xβ (x) ∃xα (x) =⇒ β ∀x (α (x) =⇒ β (x)) α (x/t) (3) (prädikatenlogische Verfeinerung des modus ponens) β (x/t) Zum Verständnis einige Beispiele: Die Aussageform ∃x (x < y) gilt nicht mit der Einsetzung von 1 für y in der Struktur N, < . In dieser Aussageform kommt die Variable y frei vor, die Variable x nur gebunden. Die Aussageform ∃x (x < y) gilt mit der Einsetzung von 2 für y in der Struktur N, < . Die Aussageform ∀x∃y (x < y) gilt in der Struktur N, < . Denn für jede natürliche Zahl n existiert eine größere, zum Beispiel n + 1. Wir schließen so: n<n+1 ∀x (x = x) =⇒ ∃yn < y (mit (1)), nun (mit (2) , da n nicht frei in ∀x (x = x)), ∃yn < y ∀x (x = x) =⇒ ∀n∃yn < y ∀x (x = x) =⇒ ∀n∃yn < y ∀x (x = x) . ∀n∃yn < y Die Aussageform ∃x∀y (x + y = y) gilt in Z, 0, + , weil 0 + y = y für alle y ∈ Z. Wir schließen ∀y (0 + y = y) mit (1) , ∀y (0 + y = y) ist α (x/0) mit α (x) = ∀y (x + y = y) . ∃x∀y (x + y = y) Aus dem Distributivgesetz ∀x∀y∀z (x (y + z) = xy + xz) (gültig in R, 0, 1, +, ·) folgt: ∀x∀y (x + y)2 = (x + y) x + (x + y) y mit (1) , setze x + y für x ein und x für y und y für z. Mit dem Kommutativgesetz und wieder Distributivgesetz (mehrmals) erschließt man ∀x∀y (x + y)2 = x2 + 2xy + y 2 . 6 1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN Diese Beispiele sollten gezeigt haben: Es ist einerseits klar, dass man nicht stets in logische Einzelschritte zerlegen kann, wenn man sich nicht völlig verlieren und noch zu Dingen kommen will. Andererseits ist die logische Analyse und Klarheit sehr wichtig, auch der Blick für die wirklich zwingenden logischen Schlüsse. Dazu betrachten wir noch folgendes kompliziertere (aber typische!) Beispiel: Begriff der Stetigkeit einer Funktion f an der Stelle x0 . Nach Definition ist f in x0 genau dann stetig, wenn (∀ε > 0) (∃δ > 0) (∀x ∈ R) (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) . Man beobachtet: Mit dem zweiten Allquantor ist die Aussage sogar noch komplizierter, aber der Kern der Sache liegt bei ε und δ. Wir wollen zeigen, dass f(x) = x2 stetig ist in x0 = 1. Wir setzen eine beliebig kleine Zahl ε > 0 voraus. Zu finden ist eine Zahl δ > 0, so dass aus |x − 1| < δ folgt: x2 − 12 < ε, für alle Zahlen x. Wir haben |x2 −1| x2 −1 ε x−1 = x + 1. Also |x−1| = |x + 1| . Setzen wir δ = min(1, 2 ), so haben wir für alle Zahlen x: 2 x − 12 ≤ |x + 1| |x − 1| < 2δ ≤ ε , wenn |x − 1| < δ. 2 Beachten Sie, dass die logische Struktur genau die des simpleren Beispiels ist, die Idee also, δ mit der gewünschten Eigenschaft als Ausdruck in ε anzugeben. Gerade hier, im ’Finden eines δ mit den verlangten Eigenschaften passend zu ε’, liegt die oben erwähnte benötigte Kreativität. Diese Aufgabe kann im Einzelfall beliebig schwierig sein und kann im allgemeinen nicht von einem Computer gelöst werden, man braucht intuitives ’Sehen’, Strategie, Wahrnehmung und Erfahrung, Flexibilität. Seien Sie darum nicht enttäuscht, wenn Sie am Anfang nur mit großer Anstrengung eine kleine Sache dieser Art hinbekommen! Eine Bemerkung zum (besonders häufigen) logischen Umgang mit Allaussagen, also Aussagen der Form ∀x1 ∀x2 ...∀xn α, wobei α keine Quantoren mehr enthält - typisch ist α nur eine Gleichung oder Ungleichung. Ständig setzt man hier Terme ein und erscchließt neue Allaussagen. Dann ist es lästig und eigentlich überflüssig, überall monoton die Allquantoren mitzuschleppen. Daher schreibt man in diesem Kontext (aber auch nur in diesem!) nur die Gleichungen oder Ungleichungen und meint überall die Allgemeingültigkeit, also die Aussage mit dem vollen Block von Allquantoren. Beispiel: x > 1 x2 + 1 0 =⇒ x1 > 0, also mit x > 0: + x = ≥ 2, da x2 + 1 ≥ 2x und damit x1 x2 + 1 ≥ x1 · 2x = 2. x x Alles Gesagte gilt für alle x > 0. Also haben wir insgesamt folgende Aussage bewiesen (Rechenregeln für 1 angeordnete Körper vorausgesetzt und massiv benutzt): ∀x x > 0 =⇒ +x≥2 . x 2. Die wichtigen Zahlenmengen, und die Struktur der reellen Zahlen Grundbegriffe: natürliche, ganze, rationale, reelle, komplexe Zahlen, Gruppenstruktur, Körperstruktur (K, 0, 1, +, ·) : übliche Rechenregeln, Struktur der reellen Zahlen: Mit Anordnung. Vollständigkeit und archimedische Eigenschaft der reellen Zahlen Hauptresultate: Jede reelle Zahl kann so gut wie gewünscht durch eine rationale Zahl genähert werden. Ungleichungen bleiben erhalten, wenn auf beiden Seiten dieselbe reelle Zahl addiert wird, sie bleiben auch erhalten, wenn auf beiden Seiten mit derselben positiven Zahl multipliziert wird. Jede nicht leere Menge reeller Zahlen, die nach oben beschränkt ist, hat eine kleinste obere Schranke. (Bei Beschränkung nach unten: Eine größte untere Schranke) Hier sind die wichtigen Zahlenmangen: N := {1, 2, 3, ...} Menge der natürlichen Zahlen N0 := {0, 1, 2, 3, ...} Z := {..., −3, −2, −1, 0, 1, 2,3, ...} Menge der ganzen Zahlen Q := m Menge der rationalen Zahlen n m, n ∈ Z, n = 0 C := { a + jb| a, b ∈ R} (Menge aller komplexen Zahlen) Dabei wurden alle außer R wenigstens einigermaßen definiert, hier wurde nur das Symbol erklärt. Grundlegendes zu N folgt im Abschnitt 3 dieses Kapitels, Genaueres zu C in Kapitel 4. Tatsächlich ist es 2. DIE WICHTIGEN ZAHLENMENGEN, UND DIE STRUKTUR DER REELLEN ZAHLEN 7 sehr schwierig, die Menge der reellen Zahlen zu definieren. Was man als Anwender wissen darüber wissen sollte, wird hier kurz zusammengestellt: √ Zunächst einmal stellt man fest, dass Q ’Löcher’ hat, z.B. ist 2 ein Punkt des Zahlenkontinuums, der Zahlengeraden, aber keine rationale Zahl. R hat nun gerade den Sinn, die rationalen Zahlen zur vollständigen Zahlengerade zu erweitern, dass es überhaupt keine Löcher mehr gibt. Insgesamt hat man Folgendes: 1.) Man kann mit +, ·, 0, 1 rechnen wie in Q, man sagt, (R, +, ·, 0, 1, <) bildet einen angeordneten Körper, und das bedeutet im Einzelnen: a) Es gelten folgende Axiome (Grundforderungen) für die Addition, mit denen (R, +, 0) eine abelsche Gruppe wird (d.h. kommutative Gruppe), und zwar allgemein für alle Zahlen x, y, z ∈ R: (x + y) + z 0+x −x + x x+y = = = = x + (y + z) (Assoziativgesetz) x (neutrales Element) 0 (inverses Element − x für jedes x) y + x (Kommutativgesetz) b) Es gelten ferner folgende Axiome für die Multiplikation, mit denen (R \ {0}, ·, 1) ebenfalls eine kommutative Gruppe wird (man beachte: Damit ist bereits ausgesprochen, dass 0 = 1 sein muss, weil 1 ∈ R \ {0}), allerdings ist die Multiplikation auch mit der Zahl Null ausführbar, d.h. für alle Zahlen x, y, z ∈ R gilt: x (yz) 1·x x−1 x xy = = = = (xy) z x 1 für x = 0 yx Hinweis: Für x−1 schreibt man bei den Zahlen im allgemeinen x1 (x nicht Null!). c) Ferner gilt folgendes wichtige Distributivgesetz, dass Addition und Multiplikation verbindet: x (y + z) = xy + xz. d) Die Ordnungsbeziehung hat folgende axiomatischen Eigenschaften:Wichtige Folgerungen sind: Wenn x < y, so x + c < y + c, für alle x, y, c. Wenn x < y und c > 0, so xc < yc. Die Beziehung ≤ (kleiner oder gleich) wird so definiert: x ≤ y : ⇐⇒ x < 0 oder x = y. Sie hat analoge Eigenschaften, natürlich stets x ≤ x im Unterschied zu <. e) Nun die Vollständigkeitseigenschaft der reellen Zahlen (alles Vorige gilt auch für (Q, +, ·, 0, 1)!), zusammen mit der archimedischen Eigenschaft: Eine Menge A ⊂ R heißt nach oben beschränkt, wenn es eine Zahl M ∈ R gibt, so dass x ≤ M für alle x ∈ A. Vollständigkeitseigenschaft: Jede nach oben beschränkte nicht leere Menge A ⊂ R hat eine kleinste obere Schranke α ∈ R, so dass x ≤ α für alle x ∈ A, aber für alle β < α gibt es noch mindestens eine Zahl x ∈ A, so dass x > β. Die archimedische Eigenschaft lautet: Zu jeder reellen Zahl x gibt es eine natürliche Zahl n > x. Wichtige Folgerungen: Eine nichtleere nach unten beschränkte Menge reeller Zahlen hat stets eine größte untere Schranke. Zu jeder reellen Zahl x > 0 gibt es eine natürliche Zahl n mit n1 < x. Zum Verhältnis der rellen zu den rationalen Zahlen hat man: Zwischen zwei verschiedenen reellen Zahlen gibt es stets eine rationale, und vor allem: Jede reelle Zahl kann mit einem beliebig kleinen Fehler durch eine rationale Zahl angenähert werden. und bilden Terme von Vektoren. 8 1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN 3. Abbildungen und Funktionen Grundbegriffe: Abbildung, Funktion, dazu: Definitions- und Wertebereich, f: A → B Schema: Abbildung f von A nach B, a → f (a) A : Definitionsbereich von f, B : Wertebereich von f, Bild (f) := { b ∈ B| ∃x ∈ A : f (x) = b} = { f (a)| a ∈ A} , Urbild von C ⊂ B unter f : f −1 (C) := { a ∈ A| f (a) ∈ C} (zu bilden für alle f, C, auch wenn es keine Umkehrabbildung gibt!) f injektiv : ⇐⇒ ∀a, b ∈ A (f (a) = f (b) =⇒ a = b) f surjektiv : ⇐⇒ Bild (f ) = B f bijektiv : ⇐⇒ f injektiv und f surjektiv f −1 (Umkehrabbildung von f , nur wenn f bijektiv): f −1 : B → A b → die eindeutige Lösung a von f (a) = b Allgemeiner bildet man zu f : A → B injektiv als Umkehrabbildung: f −1 : Bild (f ) → A b → die eindeutige Lösung a von f (a) = b Hintereinanderschaltung (Komposition) von g und f : f : A → B und g : B → C, dann g◦f : A → C (zuerst f, dann g, lies: ’g hinter f ’) a → g (f (a)) Identische Abbildung auf A : idA : A → A , für bijektive Abbildung f : A → B also: a → a −1 f ◦ f = idA , f ◦ f −1 = idB . Gleichheit von Abbildungen: f = g : ⇐⇒ Definitions- und Wertebereich sind gleich, also f, g : A → B, und ∀a ∈ A : f (a) = g (a) Man ordnet Zahlen andere Zahlen eindeutig zu, etwa jeder reellen Zahl ihr Quadrat. Das ist wieder eine reelle Zahl. Das Ganze fasst man symbolisch so zusammen: f: R → R x → x2 Die erste Zeile liest man: ’f geht von R nach R’, das meint: Jeder reellen Zahl x ∈ R wird durch f eine reelle Zahl (eindeutig!) zugeordnet. Die zweite Zeile (sie die Zuordnungsvorschrift) liest man: ’Der Zahl x wird ihr Quadrat x2 zugeordnet’, und dies Resultat nennt man auch f(x), was man liest: ’f von x’. Das ist eine ’von’-Klammer, die man stets laut so lesen sollte. Verwechslung mit einer Multiplikation ist fatal und unterläuft Anfängern häufig. Manchmal ist es selbstverständlich, dass man von reellen Zahlen redet, dann formuliert man gern kürzer ’die Funktion f(x) = x2 ’ oder noch kürzer ’die Funktion x2 ’. Man denke aber stets an die eindeutige Zuordnung x → x2 . Bei Funktionen wird in starkem Maße wieder die Grundtechnik des Einsetzens wichtig: Im Beispiel f(x) = x2 (die Gleichung ist definitorisch allgemeingültig für den jeweiligen Zusammenhang, gilt also für alle x) hat man etwa f (x + y) = (x + y)2 (um das Eingesetzte muss man Klammern setzen!). ’f von ...’ zu bilden, bedeutet, in den Rechenausdruck für f einzusetzen, nicht etwa mit ihm zu multiplizieren! Hinweis zu einer etwas altväterlichen, aber immer noch nützlichen Sprechweise: Bei einer Funktion f(x) nennt man gern x die unabhängige Variable und f (x) die abhängige. Den Zuordnungsbegriff formuliert man nun ganz allgemein so: Seien A und B Mengen, und a → f (a) gebe eine eindeutige Vorschrift, nach der jedem Element a ∈ A genau ein Element f (a) ∈ B zugeordnet wird, dann ist f eine Abblidung von A nach B. Symbolisch: f: A → B . a → f(a) 3. ABBILDUNGEN UND FUNKTIONEN 9 Das lohnt sich in dieser Allgemeinheit, z.B. Ist + : R2 → R eine Abbildung, die jedem Paar (x, y) von reellen Zahlen eindeutig die Summe x + y zuordnet. Ebenso ist ∩ eine Abbildung, die jedem Paar von Teilmengen einer vorgegebenen Grundmenge wieder eine solche Teilmenge zuordnet. Eine Spiegelung an einer Ebene im dreidimensionalen Raum ordnet jedem Punkt des Raumes seinen Spiegelungspunkt (bezüglich der vorgegebenen Ebene) zu. Oder: Sie schalten Widerstände der Werte R1 , ..., Rn zusammen und ordnen jeder Folge (R1 , ..., Rn ) positiver Zahlen den Gesamtwiderstand der Schaltung zu, der sich eindeutig aus den vorgegebenen Widerständen errechnet. Zur vollständigen Angabe einer Abbildung gehören drei Dinge: Definitionsbereich (im Schema: A), Wertebereich (oder Zielmenge) (im Schema: B) und Zuordnungsvorschrift. Oftmals ergeben verschiedene Vorschriften dieselben Resultate. Wenn das der Fall ist, so handelt es sich um ein und dieselbe Abbildung. Beispiel: sin(x) oder cos (x − π/2) . Wenn es bei A, B um Mengen von Zahlen oder endlichen Zahlenfolgen handelt, sagt man gern ’Funktion’ statt ’Abbildung’, ansonsten sind die Begriffe gleich. Es gibt ein paar stets interessierende Eigenschaften bei Abbildungen, die wir nunmehr definieren: Eine Abbildung f : A → B heißt injektiv (genau) dann, wenn für alle a1 , a2 ∈ A gilt: f (a1 ) = f (a2 ) =⇒ a1 = a2 . (Man verwechsle das nicht mit der Eindeutigkeit, die man definitorisch für jede Abbildung verlangt, die sieht formal so aus: Für alle a1 , a2 ∈ A gilt: a1 = a2 =⇒ f(a1 ) = f (a2 ) . Man beachte stets, dass man =⇒ nicht ohne weiteres herumdrehen darf. Zum Beispiel gilt für die oben erwähnte Quadratfunktion f : R → R, f(x) = x2 die letztere Eigenschaft, aber sie ist nicht injektiv, da etwa f (2) = f(−2) = 4. Eine Abbildung f : A → B heißt surjektiv (genau) dann, wenn für alle b ∈ B mindestens ein a ∈ A gibt, so dass f (a) = b ist. Zum Beispiel ist f : R → R, f(x) = x2 auch nicht surjektiv, weil etwa b = −2 niemals als Quadrat einer reellen Zahl herauskommt. Eine Abbildung f : A → B heißt bijektiv (genau) dann, wenn f injektiv und surjektiv ist. Zum Beispiel ist die Funktion f : R → R, f (x) = x3 bijektiv. Man versteht diese Eigenschaften leichter in dieser Form: Injektivität einer Funktion f : A → B bedeutet, dass eine Gleichung f (a) = b für jedes b ∈ B höchstens eine Lösung a hat. Surjektivität: Die Gleichung hat für jedes b ∈ B mindestens eine Lösung, Bijektivität: ’genau eine Lösung’. Wenn eine Abbildung f : A → B bijektiv ist - und nur dann, existiert eindeutig die zugehörige Umkehrfunktion f −1 (man denke nicht an f1 , das ist eine Gefahr bei dieser Notation), die man dann völlig allgemein so defnieren kann: f −1 : B → A, b → das eindeutig bestimmte a ∈ A, so dass f(a) = b. Beispiele: f : R≥0 → R≥0 (Menge der reellen Zahlen ≥ 0 jeweils), f (x) = x2 ist bijektiv (das macht man oft so, dass man Definitionsbereich und Wertebereich geeignet einschränkt, eine bijektive Abbildung zu √ erhalten). Die Umkehrfunktion ist die Wurzelfunktion f −1 : R≥0 → R≥0 , f −1 (x) = x. Ebenso: sin : [− π2 , π2 ] → [−1, 1] x → sin (x) ist bijektiv, die Umkehrfunktion heißt arcsin (Arkussinus). Man merke sich: Ist f : A → B umkehrbar, so hat man f −1 f (a) = a und f f −1 (b) = b für alle a ∈ A, b ∈ B. Es sei f : A → B. Dann bildet man für C ⊂ A und D ⊂ B: f (C) : = { f (a)| a ∈ C} , speziell Bild (f ) := f (A) , ferner f (D) : = { a ∈ A| f(a) ∈ D} . −1 Man nennt f(C) auch ’Bild von C’ und f −1 (D) ’Urbild von D’. Speziell heißt f (A) das Bild der Abbildung f und wird gern bezeichnet mit Bild (f ). Der Wertebereich B ist im allgemeinen größer als Bild(f ) . Beide Mengen fallen genau dann zusammen, wenn f surjektiv ist. Achtung: für die Bildung f −1 (D) muss nicht etwa die Umkehrfunktion von f existieren! Beispiel: Für tan: R → R (nicht umkehrbar!) hat man tan−1 ({0}) = { kπ| k ∈ Z} . Umkehrfunktionen anzuwenden bedeutet ein wichtiges Mittel zum Auflösen von häufig auftretenden Gleichungen, etwa löst man die Gleichung 3ex−2 = 5 durch Anwenden der Logarithmusfunktion auf beiden Seiten, das ergibt ln (3) + x − 2 = ln (5) , also eindeutig x = 2+ln(5) ln(3) . Man beachte jedoch, dass z.B. 1 die Gleichung sin (x) = 2 nicht eindeutig zu lösen ist. Anwendung der Umkehrfunktion arcsin ergibt nur die Lösung im Bereich [− π2 , π2 ], das ist π/6. Symmetrisch zu π/2 liegt eine zweite Lösung der Gleichung, 10 1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN also π/2 + (π/2 − π/6) = 56 π. Alle weiteren Lösungen der Gleichung erhält man durch Addieren von kπ mit ganzen Zahlen k. Scharen von Funktionen: Oft hat man im Rechenausdruck für eine Funktion noch einen äußeren Parameter, etwa f(t) = sin (ωt) . t ist die unabhängige Variable, ω äußerer Parameter. Dann kann man an eine bestimmte Funktion denken, mit irgendwie fixiertem Wert ω > 0. (Damit wird dann wieder wie mit einer Konstanten gerechnet, s.o.) Man kann aber auch daran denken, dass man alle Funktionen fω (t) = sin (ωt) als Schar von Funktionen auf einmal anschaut, für alle Zahlen ω > 0. Man wird dann etwa zur Veranschaulichung die Graphen einiger Exemplare aufzeichnen und an die Kurven den zugehörigen Wert von ω schreiben. 3.1. Endliche und unendliche Folgen als spezielle Abbildungen. Eine endliche Folge von Objekten a1 , ..., an ∈ A notiert man (a1 , ..., an ) oder auch (ai )1≤i≤n . Genau lässt sie sich verstehen als Abbildung f : {1, ..., n} → A, mit f(i) = ai für 1 ≤ i ≤ n. Es kommt also auf die Reihenfolge an, und die Schreibweise (a1 , ..., an ) gibt einfach die Bildfolge zu (1, ..., n) . Insbesondere werden für uns die endlichen Folgen reeller Zahlen wichtig, das sind Koordinatendarstellungen von Vektoren. Vektoren spielen in Physik und speziell in der Elektrizitätslehre eine tragende Rolle. Für die Analysis (Lehre von den reellen Funktionen) und bereits für das Verständnis der rellen Zahlen selbst benötigt man unendliche Folgen reeller Zahlen. Man schreibt sie: (an )n∈N oder auch kürzer (an )n . (Es könnte auch N0 heißen.) Ausgeschrieben also a1 , a2 , ... und so immer fort. Dabei ist an ∈ R für alle n ∈ N. Wichtig zu verstehen ist: an ist nur das n− te Folgenglied, also eine Zahl. Aber (an )n ist die gesamte Folge. Wie schon die endlichen Folgen können wir auch die unendlichen wieder als Abbildungen verstehen: Es liegt einfach eine Abbildung f : N → R vor, mit f (n) = an für alle natürlichen Zahlen. Wir wollen einen Grund dafür angeben, warum Folgen wichtig sind: Wie bereits erwähnt, kann man viele reelle Zahlen wie e nur durch einen Bruch oder eine endliche Dezimalzahl nähern. Das möchte man aber mit beliebiger Genauigkeit tun. Die Lösung des Problems: Man gibt eine unendliche Folge von Zahlen an, welche die gewünschte Zahl so gut nähern, wie man möchte. Die angegebene Folge sollte die ’schwierige’ reelle Zahl 1 1 1 1 dann als Grenzwert haben. Beispiel: die Folge 1+ + + + ... + hat e als 1 1·2 1·2·3 1 · 2 · ... · n n Grenzwert. Aussagen über die verbleibenden Fehler stellt die Mathematik dann bereit. Später werden auch Folgen von Funktionen wichtig. also (fn )n , wobei fn jeweils eine Funktion ist. Der praktische Sinn erklärt sich wie bei den Zahlenfolgen: Es soll der Funktionswert einer schwierigen Funktion f an beliebiger Stellex allgemein für x als Grenzwert einer Zahlenfolge angegeben werden. 2 n x x Beispiel: ex als Grenzwert von 1 + x + . Hier wäre f (x) = ex , fn (x) = 1 + + ... + 1·2 1 · 2 · ... · n n n x2 xn 1 k x + 1·2 + ... + 1·2·...·n = k! x . k=0 3.2. Ein Überblick über die benötigten mathematischen Objekte. Man braucht sich nicht vor einem unübersehbaren Zoo mathematischer Objekte zu fürchten: Aus den bereits angeführten kann man alles Weitere machen. Wenn es sehr kompliziert wird, dan liegt vielleicht eine Abbildung vor, deren Definitionsbereich und Wertebereich beide Funktionenmengen sind. Das nennt man dann auch einen Operator, und ein solcher ist Ihnen bereits aus der Schule bekannt: die Ableitung - sie macht aus einer Funktion eine neue Funktion. Ähnlich das bestimmte Integral: Es macht aus einer Funktion eine Zahl. Vielmehr sollte man darauf achten, dass man versteht, welche naturwissenschaftlichen Gegenstände mit welchen mathematischen so gut beschrieben werden können, dass man sie geradezu identifiziert: Etwa elektrostatische Felder und Abbildungen, welche jedem Raumpunkt einen Vektor zuordnen (den Feldvektor an dieser Stelle). Man nennt sie Vektorfelder. 4. DIE NATÜRLICHEN ZAHLEN, VOLLSTÄNDIGE INDUKTION BZW. REKURSION 11 4. Die natürlichen Zahlen, vollständige Induktion bzw. Rekursion Grundbegriffe und Resultate: 1.) Definition einer Abbildung f : N → N durch Rekursion: f (1) = a a und eine Funktion g : N × N → N fest gegeben. f (n + 1) = g (n, f (n)) (Auch: Start bei Null, N0 statt N. Auch allgemeiner: Rückgriff auf alle Funktionswerte f (k) , 1 ≤ k ≤ n.) Satz dazu: Es gibt genau eine Funktion, welche die gegebenen Gleichungen erfüllt. Diese definieren also f. 2.) Beweis durch vollständige Induktion bzw. Rekursion: α (1) (’Induktionsanfang’ ∀n ∈ N (α (n) =⇒ α (n + 1)) ’Induktionsschluss’ (Start auch bei Null, N0 statt N) ∀n ∈ N : α (n) Allgemeineres induktives Beweisschema: α (1) ∀n ∈ N (∀k ∈ N(k ≤ n =⇒ α (k)) =⇒ α (n + 1)) ∀n ∈ N : α (n) (schwächere Aussage des Induktionsschlusses, da stärkere Voraussetzung) Satz dazu: Die angegebenen Schlussregeln sind logisch korrekt. Grundtechniken: Konkrete Anwendung einer rekursiven Definition (etwa programmieren!), Anwendung des rekursiven Beweisschemas durch korrektes Einsetzen in einfachen Fällen Anwendungsbeispiele: 1. Es sei f : N → N rekursiv definiert durch f (1) = 1 f (2) = 2 (n + 2) = 2f (n) + 3f (n + 1) (n ∈ N) Dann ist f (3) = 2 + 6 = 8, f (4) = 4 + 24 = 28, f (5) = 16 + 3 · 28 = 100, usw. 2. Wir beweisen rekursiv, dass f streng monoton wächst, also die Aussage (i) ∀n, m ∈ N : (n < m =⇒ f (n) < f (m)). Dazu beweisen wir zuerst: (ii) ∀n ∈ N : f (n) < f (n + 1) . Induktionsanfang, wird hier für zwei Fälle benötigt: Die Aussage (ii) gilt für n = 1, 2 mit f (2) = 2, f (3) = 8. Induktionsschluss: Die Aussage (ii) gelte für n. Es ist zu zeigen, dass Sie auch für n + 1 gilt. Wir haben mit n = k + 1: f (n + 1) = f (k + 2) = 2f (k) + 3f (k + 1) > f (k + 1) = f (n) . Dabei haben wir benutzt: (iii) f (n) > 0 für alle n. (Zuerst muss man diese Aussage rekursiv beweisen, tun Sie das.) Nun beweisen wir (offenbar gleichwertig zu (i): ∀k ∈ N : (∀n ∈ N : f (n) < f (n + k)) . Induktionsanfang: Die Aussage gilt für k = 1 (das ist die eben bewiesene Aussage.) Induktionsschluss: Sie gelte für k. D.h. ∀n ∈ N : f (n) < f (n + k) . Zu zeigen ist nun: ∀n ∈ N : f (n) < f (n + k + 1) . Wir haben f (n + k) < f (n + k + 1) für alle n, k mit dem vorigen Satz, also für alle n f (n) < f (n + k) < f (n + k + 1) (erste Ungleichung mit Induktionsvoraussetzung), somit für alle n : f (n) < f (n + k + 1) . Die natürlichen Zahlen bilden eine Grundstruktur, welche die Mutter aller Kombinatorik ist und daher auch für Anwender von eigenem Interesse, die eher an die reellen Zahlen denken. Die fundamentale Eigenschaft der natürlichen Zahlen: Man fängt mit 1 an (wahlweise mit 0) und erzeugt alle weiteren natürlichen Zahlen durch Nachfolgerbildung. Dabei verlangt man, dass die Nachfolgerabbildung injektiv ist. 1 ist die erste in der Ordnung, selber kein Nachfolger. Daraus folgt ein wichtiges Prinzip für Definitionen von Funktionen f : N → B und für Beweise von Aussagen der Form ∀ (n ∈ N) α (n) . Wir formulieren 12 1. LOGISCHER GRUNDBAUKASTEN, MENGEN, STRUKTUREN, ABBILDUNGEN das in zwei Sätzen, die unmittelbar aus folgendem Grundaxiom für die Struktur der natürlichen Zahlen folgen: Jede nichtleere Menge natürlicher Zahlen hat ein kleinstes Element. Satz 1. Prinzip der Definition durch Rekursion (Induktion): Das Schema f(1) = a, f (n + 1) = g(n, f (n)) definiert mit einem beliebigen Rechenausdruck α eindeutig eine Funktion f : N → B, wobei B eine Menge sein muss, die a und alle weiteren Werte g (n, f (n)) enthält. Satz 2. Prinzip des Beweises mit vollständiger Induktion: Aus den Aussagen α (1) (’Induktionsanfang’) und ∀ (n ∈ N) (α(n) =⇒ α (n + 1)) (’Induktionsschluss von n auf n + 1’) folgt die Aussage ∀ (n ∈ N) α (n) . Beispiel: f (1) = 1, f(n + 1) = f(n) + n + 1 definiert eindeutig eine Funktion N → N. Der Rechenausn (n + 1) druck α ist hier: f(n) + n + 1. Man kann nun mit Induktion beweisen: ∀ (n ∈ N) f (n) = . 2 n (n + 1) 1·2 Hier ist die Aussage α(n) : f (n) = . α (1) besagt: f(1) = . Das stimmt. Damit ist der 2 2 Induktionsanfang gemacht. Nun der Induktionsschluss: Die Aussage α(n) =⇒ α (n + 1) ist allgemein n (n + 1) (n + 1) (n + 2) für n ∈ N zu beweisen. Sie lautet: Wenn f (n) = , dann f (n + 1) = . Aber 2 2 n (n + 1) nach rekursiver Definition ist f (n + 1) = f (n) + n + 1. Wenn nun f (n) = , so haben wir 2 n (n + 1) n (n + 1) (n + 2) + n + 1 = (n + 1) +1 = . Man beachte: Wir mussten nur f (n + 1) = 2 2 2 α (n + 1) beweisen unter der Voraussetzung, dass α (n) bereits gültig ist. Das ist viel weniger, als etwa α (n + 1) allgemein zu beweisen! Aber das Prinzip besagt, dass dies zusammen mit dem Induktionsanfang bereits ausreicht, ∀ (n ∈ N) α (n) zu beweisen. Es sei betont: α(n) =⇒ α (n + 1) kann auch dann allgemeingültig sein, wenn tatsächlich α (n) für alle n falsch ist, nehmen Sie für α (n) etwa die Aussage: ’Alle natürlichen Zahlen sind gerade und ungerade’. Wenn n gerade und ungerade ist, dann ist es auch n + 1. Diese ’wenn..., dann...’-Aussage ist allgemeingültig. Bemerkung zur Begründung aus dem Prinzip vom kleinsten Element: Wenn α (n) für mindestens eine natürliche Zahl falsch wäre, so wäre die Menge der Zahlen m, für die α (m) falsch ist, nicht leer, hätte also ein kleinstes Element m0 . Nun kann wegen der Gültigkeit von α (1) die Zahl m0 nur größer als 1 sein. Aber dann gilt α (m0 − 1) . Mit dem Induktionsschluss müsste aber dann auch α (m0 ) richtig sein, wir haben also einen Widerspruch. (Ähnlich kann man das Prinzip der Definition durch Rekursion begründen.) Bemerkung zu einer Verallgemeinerung der Prinzipien: Wie oben formuliert, greift man für n + 1 nur auf den unmittelbaren Vorgänger n zurück. Aber die Prinzipien bleiben gültig, wenn man sogar den Rückgriff auf alle Vorgänger erlaubt. Dazu zwei Beispiele: Mit f (0) = 1, f(1) = 1, f(n + 2) = f(n + 1) + f(n) wird korrekt eine Funktion f : N0 → N definiert. Die rekursive Definition greift hier auf zwei Vorgänger zurück. Folgendes Beispiel macht Gebrauch von beliebigen Vorgängern: Man möchte induktiv beweisen, dass jede natürliche Zahl eindeutig in Primfaktoren zerlegt werden kann und argumentiert für den Induktionsschluss so: Sei n > 2 eine natürlich Zahl. Dann ist n entweder selbst Primzahl (und die Behauptung stimmt also), oder aber es gibt Zahlen r, s ∈ N, r, s ≥ 2, mit der Eigenschaft rs = n. Für r, s existiert aber bereits (gemäß verallgemeinerter Induktionsvoraussetzung!) je eine Primfaktorzerlegung. Die braucht man nur zusammenzufügen und erhält eine solche für n. Es wird also auf die Behauptung für beliebig weit zurückliegende Vorgänger r, s zurückgegriffen. KAPITEL 2 Elementare Grundkenntnisse zum Rechnen Grundbegriffe: Fakultät 0! = 1, (n + 1)! =(n + 1) n! n n! Binomialkoeffizienten: = k k! (n − k)! n Großes Summenzeichen: ak = a1 + ... + an , leere Summe, etwa ak = 0. (Definition!) k=1 1<k<1 (Analog wird großes Produktzeichen benutzt, leeres Produkt hat den Wert 1.) n n Wieder analog auch: Ak := A1 ∩ ... ∩ An sowie Ak := A1 ∪ ... ∪ An k=1 Polynome p (x) = n k=0 k=1 αk xk , αk sind die Koeffizienten; mit αn = 0 hat p den Grad n; Polynomdivision Partialbruchzerlegung von Brüchen p (x) mit p, q Polynomen, Grad (p) < Grad (q) q (x) Ein paar dringende Ratschläge zum Rechnen: 1 √ 1 1. Ausdrücke wie , 2, sind so perfekt! (Keine Dezimalzahlen!) 7 1 + ln (2) 2. Man versäume nicht, in Brüchen so viel wie möglich zu kürzen. 3. Man multipliziere niemals aus, ohne einen triftigen Grund dafür zu haben. x x Also: 5 ist viel besser als x5 − 5x4 + 10x3 − 10x2 + 5x − 1 , usw. (x − 1) Einziger Grund für Ausmultiplizieren: Zusammenfassen von Gliedern zur selben Potenz wie z.B. 2 (x − 1) + 3 (4 − x) = 10 − x. 4. Stattdessen klammert man so viel wie möglich aus, mit großem Gewinn, z.B. 2 2e−x − 3xe−x = (2 − 3x) e−x , das wird also Null genau für x = . 3 5. Man beseitige stets sofort Doppelbrüche: Sie geben beim Rechnen einen unübersichtlichen Brei, aus dem man elementarsten Eigenschaften nicht erkennt. √ alsbald die x 1 + x2 + √1+x 2 1 + x + x2 Beispiel: = . Man erkennt nunmehr sofort, √ 2 (1 − x) (1 − x)2 1 + x2 dass alle Werte des Bruchs (definiert genau für x = 1) positiv sind, niemals Null. 6. Bei Rechenausdrücken und Gleichungen klassifiziere man stets, dann ist klar, was sinnvoll zu tun ist und was nicht. Ein Beispiel: Die Gleichung a2 x − 3ax + 5x = 2 ist nach x aufzulösen. Das ist eine lineare Gleichung in x, also klammern wir x aus und erhalten dann sofort die 2 Lösung x = 2 (gültig für jeden Wert von a, da der Nenner nie Null wird). a − 3a + 5 7. Wenn man mit äußeren Parametern rechnet, so ist stets darauf zu achten, ob gewünschte Operationen erlaubt sind oder nicht. Dafür sind dann öfter Fallunterscheidungen anzubringen. Beispiel: Auf die Frage nach den Lösungen (x ist Unbestimmte, a äußerer Parameter) der Gleichung a2 x − 3ax − 5x = 2 ist korrekt zu antworten: √ 2 Die einzige Lösung ist x (a) = 2 für a = 32 ± 12 29, sonst ist die Lösungsmenge leer. a − 3a − 5 8. Routinemäßig und rasch sollte man quadratische Gleichungen und kleine lineare Gleichungssysteme lösen können. Ferner sollte man Gleichungen der Form f (x) = a (Unbestimmte x) bei umkehrbarer Funktion f lösen mit x = f −1 (a) . (a im Bild von f.) 13 14 2. ELEMENTARE GRUNDKENNTNISSE ZUM RECHNEN Grundresultate: 1. n! = Anzahl der Anordnungen von n Objekten = Anzahl der Menge Sn := { f| f : {1, ..., n} → {1, ..., n}, f bijektiv} n 2. = Anzahl der Möglichkeiten, k Objekte aus n Objekten auszuwählen k (das sind die Zahlen im Pascalschen Dreieck) n n n n n n 4. Großes Summenzeichen: ak + bk = (ak + bk ) , λak = λ ak , c = n · c, k=1 k=1 k=1 k=1 k=1 k=1 n m n n m m n n m m ak · br = ak br = br ak = ak br = br ak r=1 r=1 r=1 r=1 r=1 k=1 k=1 k=1 k=1 k=1 n n·n n m n = ak br ,insbesondere ak · ak = ak as−k 1≤k≤n, 1≤r≤m n n k n−k n k=0 k=0 s=0 k=1 3. (a + b) = a b (allgemeine binomische Formeln) k 4. (Polynomdivision) p Polynom, q Polynom vom Grad ≥ 1, dann gibt es eindeutig Polynome s, r, so dass: p (x) = s (x) q (x) + r (x) , und dabei ist Grad (r) < Grad (q) 5. Partialbruchzerlegung: Wenn p, q reelle Polynome sind mit Grad (p) < Grad (q) und m k q (x) = (x − α) x2 + 1 · ... (weitere derartige Faktoren, jedoch ohne Nullstelle α und ohne die komplexen Nullstellen des quadratischen Polynoms), dann gibt es Zahlen A1 , ..., Ak , B1 , , , .Bm , C1 , ..., Cm , so dass p (x) A1 Ak B1 + C1 x Bm + Cm = + ... + + + ... + 2 + ... (usw. für weitere k 2+1 q (x) x−α x (x + 1)m (x − α) Faktoren des Nenners). Berechnung: p (α) Stets Ak = , mit q1 (x) = q (x) / (x − α)k , q1 (α) Restliche Koeffizienten über lineares Gleichungssystem etwa (setze einfache Werte für x in die Gleichung (∗) ein, welche keine Nullstellen des Nenners sind). Wichtiger einfachster Fall: α1 , ..., αn paarweise verschieden, dann An p (αi) p (x) A1 + ... · mit Ai = = (x − α1 ) · ... · (x − αn ) x − α1 x − αn (αi − αk ) k=0 k=i 1. Terme (Rechenausdrücke) für reelle Zahlen, und Gleichungen Mit den Operationen +, ·, .. und Konstanten wie 0, 1, e, π sowie Variablen x, y, x1 ,... bildet man beliebig zusammengesetzte Rechenausdrücke oder Terme. Dabei hat man auf notwendige Klammern und Klammerersparnisregeln zu achten. Beispiel: (x + e) (1 + y) 1+x y+z . Es kommt noch mehr hinzu, wenn man Potenzen bildet und Funktionssymbole benutzt, Beispiel: sin (1 + xn ) . (Zu den Funktionen vgl. Kapitel 4.) Was tut man mit solchen Rechenausdrücken, und welche Rolle spielen die Buchstaben dabei? 1.) Man setzt in einen Rechenausdruck für die Buchstaben, die keine Konstanten (Eigennamen wie e, π) sind, Zahlen ein und wertet den Rechenausdruck aus. (Dies ist geläufig, aber es wäre ganz falsch, die Mathematik für Anwender darin erschöpft zu sehen - das ist vielmehr noch fast gar nichts!) 2.) Man formt gemäß den oben formulierten Gesetzen und weiteren Folgerungen daraus Rechenausdrücke gleichwertig um, so dass man einefür die angestrebten praktischen Zwecke günstigere Form 1 1 2 x−1 1 2 x + 4 + x = − x − 2. Oder = − + . Oder erhält. Beispielsweise f(x) = 2 − 3 5 15 x (1 + x) x 1+x 2 3 5 x2 − 3x + 1 = x − − . 2 4 3.) Man hat eine allgemeingültige Gleichung t2 (x, y, ...) = t2 (x, y, ...) oder Ungleichung t1 ≤ t2 zwischen zwei Termen t1 und t2 und setzt für die freien Variablen x, y, ... beliebige Rechenausdrücke ein, um eine neue allgemeingültige Gleichung bzw. Ungleichung zu erhalten. Beispiel: Man hat die allgemeingültige 1. TERME (RECHENAUSDRÜCKE) FÜR REELLE ZAHLEN, UND GLEICHUNGEN Ungleichung n n 1 n ak ≤ ak , für alle n ∈ N, ak ≥ 0 für 1 ≤ k ≤ n. n k=1 Man setzt ein: ak = 15 k=1 1 und erhält: k n 1 11 1 √ ≤ = n n k n n! k=1 1 1 1 + + ... + . 2 n 4.) Man hat eine Bestimmungsgleichung (nicht allgemeingültig!) wie etwa x2 +x−1 = 0 und löst diese Gleichung unter Verwendung gleichwertiger Umformungen oder auch einer fertigen Formel. Man sucht hier eine einfache Beschreibung der Erfüllungsmenge dieser Gleichung, wobei man den Zahlenbereich festlegen muss, in dem man Lösungen sucht. Im Beispiel etwa: 1 1√ 1 1√ 2 x ∈ R| x + x − 1 = 0 = − − 5, − + 5 . 2 2 2 2 √ Natürlich sagt man lieber: Die einzigen reellen Lösungen von x2 + x − 1 = 0 sind x1,2 = − 12 ± 12 5. 5.) Bestimmungsgleichung mit äußeren Parametern: x2 + px + q = 0 ist die Normalform der quadratischen Gleichung. Darin ist die Variable x Unbestimmte, die Variablen p, q dagegen spielen eine ganz andere Rolle, sie sind äußere Parameter, d.h. man stellt sich vor, ihre Werte seien in beliebiger Weise ’von außen’ fixiert.Die angestrebte Lösung p 2 p − q, was im Falle gibt eine Lösungsformel für beliebige Werte von p, q. Man hat x1,2 = − ± 2 2 p 2 p 2 − q > 0 zwei verschiedene reelle Lösungen der Gleichung ergibt, im Falle 2 − q = 0 nur die 2 p 2 p − q < 0 überhaupt keine reelle Lösung. einzige reelle Lösung x = − , im verbleibenden Fall 2 2 Daran sollte man sich gewöhnen: Lösen eines Problems mit äußeren Parametern bedeutet: Beim Rechnen werden die äußeren Parameter einfach wie Konstanten der Art e, π ’durchgezogen’, aber bei gewissen Rechenoperationen stößt man gewöhnlich auf Fallunterscheidungen. Der zweckmäßige Umgang mit Rechenausdrücken fordert stets das Wahrnehmen des ’Typs’ eines vorliegenden Rechenausdrucks. Parallel zu den Rechenausdrücken typisiert man die Gleichungen. Liegt ein einfacher Typ vor, so kann man an dazu bekannte Verfahren anknüpfen. Liegt ein schwieriger Typ vor, so wird man nicht naiv einfache Lösungen eines Problems erwarten. Folgende grobe Einteilung sollte man kennen: Typen von Rechenausdrücken für reelle Zahlen Lineare Ausdrücke in x sind ax + b (man unterscheidet noch ’linear im engeren Sinne’, dann muss b Null sein, und ’affin’ mit beliebiger Konstanten b Lineare Ausdrücke in x1 , ..., xn sind a1 x1 + ... + an xn + b (wieder mit der feineren Unterscheidung) Ein Polynom in x ist ein Ausdruck a0 + a1 x + ... + an xn . p (x) Ein gebrochen rationaler Ausdruck in x ist , mit Polynomen p, q (q nicht die Konstante 0) q (x) Algebraische Ausdrücke sind solche, bei denen auch zusätzlich gebrochene Exponenten auftreten. Transzendente Ausdrücke sind solche, bei denen transzendente Funktionen wie sin, ln auftreten. Man sollte wissen: Nur lineare Gleichungen und lineare Gleichungssysteme sowie quadratische Gleichungen kann man einfach lösen. Hinzu kommt das Lösen von einfachsten Gleichungen unter Benutzung von Umkehrfunktionen, vgl. dazu den nächsten Abschnitt. Die Methoden für kompliziertere Gleichungen sind völlig anderer Art - fast immer sucht man dann mit den Mitteln der Analysis Näherungslösungen. Übrigens gibt es lediglich für Polynomgleichungen bis zum 4. Grad noch Lösungsformeln, darüber hinaus kann man beweisen, dass es solche Formeln gar nicht geben kann! Später erst werden wir in der Lage sein, so etwas wie sin(x) mit einem Rechenausdruck zu erfassen, der eine Verallgemeinerung eines Polynoms darstellt. 16 2. ELEMENTARE GRUNDKENNTNISSE ZUM RECHNEN Zum Grundwissen gehört ferner, dass man ein Polynom wie 2− x2 + 1 x3 − x + 1 in die geordnete Standardform schnell überführen kann. (’Ordnen nach Potenzen von x’, Zusammenfassen der Koeffizienten (Vorfaktoren für die Potenzen) im Kopf!). Im Beispiel lautet die Endform: 1 + x − x2 − x5 . Man sollte stets solche Endformen als Gestalten im Kopf haben und bei einem vorliegenden Ausdruck wahrnehmen, dass man eine solche Endform erreichen kann. Eine Bemerkung zu Rechenausdrücken und Gleichungen: Man achte stets darauf, ob man einen Rechenausdruck bearbeitet oder eine Gleichung. Rechenausdrücke formt man um, Gleichungen 2x auch, aber aus 2x 3 kann man nicht gleichwertig 2x machen, wohl aber aus der Gleichung 3 = 3 die gleichwertige Gleichung 2x = 9. Gleichwertigkeit von Termen t1 , t2 bedeutet die Allgemeingültigkeit der Gleichung t1 = t2 . Gleichwertigkeit von zwei Gleichungen t1 = t2 , u1 = u2 bedeutet dagegen, dass folgende Aussage allgemeingültig ist: t1 = t2 ⇐⇒ u1 = u2 . Der Doppelpfeil bedeutet ’genau dann, wenn’, also ’wenn..., dann...’ in beiden Richtungen. Vorsicht: Oft wird von Anfängern aus x2 = y 2 gefolgert: x = y. Das ist falsch, wenn die Zahlen nicht als positive vorauszusetzen sind. Man hat nur: x = y =⇒ x2 = y 2 , nicht die umgekehrte Richtung. Sondern: x2 = y 2 ⇐⇒ x = y oder x = −y. Niemals schreibe man =⇒ , ⇐⇒ zwischen Rechenausdrücke - sie gehören nur zwischen Aussagen, um eine neue Aussage zu formen. Man geht ’schrittweise’ vor. Das sollte aber nicht dazu führen, dass man etwa in einem Rechenausdruck nur einen Teilausdruck gleichwertig ersetzen will und eine falsche Gleichung schreibt, die ’den Rest vergisst’. Wenn nötig, führe man eine Nebenrechnung auf. Eine Bemerkung zur Verallgemeinerung des Begriffs ’Rechenausdruck’ auf beliebige Strukturen: Die Teilmengen einer Grundmenge G bilden mit den Verknüpfungen ∪, ∩ ebenfalls eine Struktur, und man bildet Terme wie A ∩ (B ∪ C) usw., genau wie bei den Zahlen, nur stehen die Buchstaben für Mengen, und an die Stelle der Zahlenoperationen wie +, · treten die Mengenoperationen ∪, ∩. Später werden wir Vektorräume haben. Darin sieht die Endform eines Rechenausdrucks in den Vektoren n − → − → → → → α − a , ..., a so aus: a =α − a + ... + α − a . 1 n k k 1 1 n n k=1 2. Eine grundsätzliche Bemerkung zum Rechnen Rechnen heißt nicht: Irgendwelche formalen Operationen werden ausgeführt, dann wird in lauter atomaren Schritten gedacht und geschrieben, geschrieben, geschrieben. Am Ende steht das Resultat da, vollautomatisch, ohne dass man etwas gedacht hätte. Dies Verhalten führt ständig zu grandiosem Misserfolg, und es hat mit Rechnen überhaupt nichts zu tun. Was aber ist dann ’Rechnen’ ? Zunächst muss es einige Aussagen und Daten als Voraussetzungen geben, dann eine Frage. Dann ist zunächst einmal zu überlegen, welche Form die Antwort auf die Frage haben sollte. Daraus ergibt sich ein Ziel für das Rechnen: Man möchte einen Ausdruck etwa so umformen, dass gewisse Eigenschaften daraus ersichtlich werden, gewisse Aussagen zu erschließen sind. Aber auch dann, wenn das Gesuchte völlig klar ist, etwa eine Gleichung zu lösen ist, dann hat man der Sache nach zu klären, was darin vorgegebene Parameter und was Unbestimmte sind. Das sollte man auch in der Notation verdeutlichen und beim Rechnen nicht vergessen. Dann ist die Sache zu beobachten: Handelt es sich um eine Routineaufgabe, die man einfach mit einem bekannten Verfahren lösen kann? Oder muss man ein paar kleine Schritte machen, eine Routineaufgabe zu erhalten? Oder handelt es sich um eine schwierigere Sache, zu der man weitergehende Methoden braucht, etwa auch numerisch mit dem Computer zu arbeiten hat? Nach der Lösung dann: Der Rückbezug auf die ursprüngliche Frage ist herzustellen. Beobachtung und zielgerichtete strategische Überlegung sind das Wichtigste. Das sind sie auch beim Rechnen im engsten Sinne: Man hat etwa auszurechnen: (a + 2)2 − 3 (a − 3)2 . Dann hat man die etwa gewünschte Endform eines Polynoms in a vor Augen und fasst beobachtend im Kopf zusammen: (a + 2)2 − 2 2 2 3 (a − 3) = −2a2 + 22a − 23. Also nicht einzeln: (a + 2) − 3 (a − 3) = a2 + 4a + 4 − 3 a2 − 6a + 9 = ..., sondern gleich: Welche Beiträge gibt es der Form αa2 , welche der Form αa, welche der Form α? Das Klein-Klein-Rechnen ist der größte Feind des Rechnens und führt keineswegs zu korrekteren Ergebnissen, sondern zu mehr Rechenfehlern und vor allem zum völligen ’Versanden’ von Rechnungen, die auch bei mäßiger Komplexität dann schon undurchführbar werden. Das Schlimmste ist: Man verliert das Ziel völlig aus den Augen. Wir bringen noch zwei Beispiele: 2. EINE GRUNDSÄTZLICHE BEMERKUNG ZUM RECHNEN 17 Wir beseitigt man die Doppelbrüche in 1 a + 1 2a 1 b 1 − ab ? 1 + 3b Nicht etwa sollte man Zähler und Nenner addieren (auf Hauptnenner bringend) und dann die Brüche dividieren, sondern man sollte den Bruch direkt mit 6ab erweitern und sofort hinschreiben: 1 a + 1 2a 1 b 1 − ab a+b−1 =6 . 1 2a + 3b + 3b 1 1 + Diese Gleichung gilt natürlich nur für den Fall, dass beide Seiten definiert sind, also dürfen a, b, 2a 3b alle nicht Null sein, ebenso 2a + 3b. Aber man erkennt: Für a, b = 0 sind die beiden letzten Bedingungen a+b−1 ist nur für den Fall 2a + 3b = 0 gleichwertig. Man erkennt aber noch mehr: Der Ausdruck 6 2a + 3b nicht definiert, dagegen darf sehr wohl a = 0 sein (b nicht) oder umgekehrt. Folgerung: lim a→0 1 a + 1 2a 1 b 1 − ab b−1 (für b = 0) =2 1 b + 3b Außerdem erlaubt die Umformung sofort zu sehen, dass der Ausdruck nur für a + b = 1 den Wert Null hat. All das ist in der Doppelbruchform nicht zu sehen. Zweites Beispiel - etwas ganz Einfaches: Vielfach wird aus dem Zusammenhang so etwas geschrieben 1 wie −3 2 (c − b) . Man sollte sofort im Kopf noch vereinfachen zu 3a 2 (b − c) . Also gleich Übersichtlicheres a schreiben und nicht mit dem Unausgegorenen in Einzelschritten weiterarbeiten. KAPITEL 3 Elementare Vektorrechnung und analytische Geometrie Grundbegriffe: Affine Punkträume E 2 , E 3 → Vektorräume der Ortsvektoren VO2 , VO3 , − x P = Ortsvektor des Punktes P Vektorräume der freien Vektoren V 2 , V 3 Vektorräume R2 , R3 , allgemein Rn , dazu: Die (geometrisch inV 3 ,rechnerisch in R3 ) (linearen) Vektorraumoperationen a λa a x a+x λ b = λb , b + y = b + y (auch allgemein im Rn ) c λc c z c+z Betrag und Skalarprodukt im n− dimensionalen Vektorraum: x1 x y 1 1 n n .. x2k , ... · ... = xk yk , . = k=1 xn xn yn k=1 y1 x2 y3 − x3 y2 x1 Vektorprodukt im V 3 bzw. R3 : x2 × y2 = − (x1 y3 − x3 y1 ) xn yn x1 y2 − x2 y1 − → → → Spatprodukt als Volumen mit Orientierungsvorzeichen (im V 3 bzw. R3 ): − a b ×− c Grundresultate: Gültigkeit der Vektorraumaxiome in den eingeführten Vektorräumen, − → → Parameterdarstellung für Gerade g mit P ∈ g und Richtungsvektor − a = 0 : − → − → − → x g (λ) = x P + λ a , λ ∈ R. Parameterdarstellung für Ebene E mit P ∈ E und linear Vektoren unabhängigen x a cos (t) 0 − → Parametrisierung für Ellipsenbahn (a, b > 0): x (t) = + , 0 ≤ t < 2π y b sin (t) 20 2 x − x0 y − y0 Gleichungsdarstellung derselben Ellipsenbahn: + = 1. a b − → − → − → → → → a , b parallel zu E : − x g (λ) = − x P + λ− a + µ b , λ, µ ∈ R. Rechenregeln Skalarprodukt (bilinear, symmetrisch, positiv definit): − für das − → 2 − − → − − → − → → − − → − →→ − − → → − → → − → → − → a b + c = a b + a c, λa b = λ a b , → a b = b− a, → a 2 = − a . − →− → − → ba − − → → → Formel für senkrechte Projektion von b auf − a = 0 : − a → a2 − → − → − → − ab → → Formel für cos (α) , α der Winkel zwischen − a , b = 0 : cos (α) = − → → − a b Rechenregeln für das Vektorprodukt: (Bilinear und antisymmetrisch) − → − → − − → → − → − → → − → − → → − → → → → a × b + c =− a × b +− a ×→ c , λ− a × b =λ − a ×b ,− a × b = −b ×− a, − → − → − → − → − → − → − → − → − → e 1 × e 2 = e3 , e 2 × e 3 = e 1 , e 3 × e 2 = e 1 . (Resultate für die Einheitsvektoren.) − → → − → − →→ − → → → → a × b ×− c = (− a− c ) b − (− a b )− c − → → − → → → → → → → Spatprodukt: − a, b,− c → − a b ×− c ist triliniear, alternierend, und − e1 − e2×− e 3 = 1. 19 20 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE Rechentechniken: Geometrisches und komponentenweises Rechnen mit Vektoren, Parallelverschieben bei Parameterdarstellungen, Beschreibung einfacher geometrischer Gebilde durch Parameterdarstellung oder oder durch Gleichung (bzw. Gleichungssystem) Lineares und bilineares Rechnen, algebraisches Vereinfachen von Ausdrücken der Vektorrechnung Zur naturwissenschaftlichen Motivierung für Vektoren: Eine Geschwindigkeit ist bei näherem Hinsehen nicht einfach eine Zahl ≥ 0 (’so viel Meter pro Sekunde’), sondern es gehört eine Richtung im Raum dazu - selbst im eindimensionalen Raum, durch ein Vorzeichen ausgedrückt. Will man eine Richtung im Raum (wir nehmen den dreidimensionalen Anschauungsraum) und eine Länge in einem mathematischen Objekt beschreiben, so tut man das zweckmäßig auf zwei Weisen: Einmal mit einem geometrischen Pfeil, dessen Richtung die gewünschte angibt und dessen Länge der verlangte Betrag ist. Zweitens beschreibt man einen solchen Pfeil mit seiner Koordinatendarstellung bezüglich eines geeigneten dreidimensionalen Koordinatensystems (das sollte drei unabhängige Achsen haben). Warum braucht man beide Beschreibungen? Mit den Pfeilen kann man Zusammenhänge geometrisch sehen und konstruieren, mit der Koordinatendarstellungen Komplizierteres ausrechnen, notfalls auf einem Computer. Bekanntlich kann man durch Addieren aus Kraftvektoren die resultierende Kraft durch einen einzigen Vektor darstellen. Da sieht man bereits, dass eine Mengen von Vektoren zusammen mit einer Addition eine wichtige Struktur darstellt. Nicht nur Geschwindigkeiten, Beschleunigungen und Drehmomente, auch elektrische und magnetische Feldstärke (je an einem Ort) werden mit Vektoren beschrieben. Auch hier spielt das Summieren eine tragende Rolle, beispielsweise erhält man das elektrische Feld, das von einer Punktladung erzeugt wird, einfach durch ’Überlagern’, d.h. Summieren der Feldvektoren. So kann man also aus einfachen, recht bekannten Feldern sehr komplizierte erzeugen und mathematisch problemlos beschreiben. Dazu kommt der Abbildungsbegriff: Ein elektrostatisches Feld ist ein Vektorfeld, d.h. eine Abbildung, die jedem Raumpunkt genau einen Vektor zuordnet, den Feldvektor an diesem Punkt. Bei einem zeitlich veränderlichen ’Wechselfeld’ kommt noch als weitere unabhängige Variable die Zeit hinzu, das ergibt einfach wieder ein Vektorfeld, nur haben die Eingabevektoren eine Dimension mehr. Eine weitere Motivierung ganz anderer Art kommt hinzu: Naturwissenschaftliche Gegenstände haben vielfach eine geometrische Beschreibungskomponente: Man hat etwa eine elektrische Ladungsverteilung auf einem dreidimensionalen Metallkörper, der eine ganz bestimmte Form besitzt. Dann ist die rechnerischgeometrische Beschreibung des Körpers grundlegend für alle naturwissenschaftlichen Berechnungen. Das bedeutet: Analytische Geometrie ist ein Grundnahrungsmittel für Naturwissenschaften, nicht etwas für mathematische Spezialisten. Man muss Kurven, Flächen und geometrische Körper im Raum rechnerisch beschreiben, um etwa Gesamtladungen aus Ladungsdichten oder Spannungen aus elektrischen Feldern auszurechnen. Ähnliches gilt natürlich auch für die Energie, die man benötigt, einen starren Körper gewisser Gestalt und Massenverteilung auf eine gewisse Kreiselgeschwindigkeit um eine Achse zu bringen. 1. Affiner Raum und Vektorraum 1.1. Punkte im Anschauungsraum, Ortsvektoren und Koordinatensysteme. Vorbemerkung: Wir denken an die Dimension 3, können aber selbstverständlich jederzeit auf nur zwei Dimensionen spezialisieren, auf der anderen Seite zeigt sich, dass sämtliche Begriffsbildungen dieses Abschnitts für beliebige (endliche) Dimensionen taugen. Dimension 3 hat nur eben für das Unterbringen naturwissenschaftlicher Sachverhalte besondere Bedeutung, und es ist wichtig, die Anschauung in drei Dimensionen zu schulen. (Diese Anschauung kann man dann mit großem Gewinn auf höhere Dimensionen einfach übertragen.) Die Menge aller Punkte des dreidimensionalen Anschauungsraums bezeichnen wir mit E 3 , die Elemente mit Großbuchstaben P, Q, P1 usw. Wir legen einen beliebigen Punkt O ∈ E 3 fest und stellen → bezogen auf O jeden Punkt P durch einen Vektorpfeil dar, der von O nach P geht. Das ist − xO P , der − → O O Ortsvektor von P bezüglich O. Die Menge V3 ist die Menge aller Ortsvektoren bezüglich O. x O speziell ist der ’Nullvektor’ (ein zum Punkt degenerierter Pfeil). 1. AFFINER RAUM UND VEKTORRAUM 21 Wir haben damit eine Bijektion E3 P → V3O . → → − xO P Wir können die Punkte des E 3 und damit auch die Ortsvektoren zahlenmäßig erfassen, indem wir ein Koordinatensystem L wählen, das seinen Ursprung in O hat und drei unabhängige Achsen (genannt x, y, z−Achse), mit angegebenen Einheiten und Orientierungen ’positiv-negativ’, die nicht in einer Ebene liegen. Wir identifizieren die Achsen jeweils mit der reellen Zahlengeraden. Man erhält zum Punkt P (gle→ ichwertig: zum Ortsvektor − xO P ) wie folgt eindeutig ein Zahlentripel und umgekehrt zu jedem Zahlentripel eindeutig einen Punkt bzw. Ortsvektor: P wird parallel zur z− Achse auf die xy− Ebene projiziert, dann der Projektionspunkt auf parallel zur x− Achse auf die y− Achse und parallel zur y− Achse auf die x− Achse. Die abgelesenen Zahlen sind die y− Koordinate yPL und x− Koordinate xL P . Analog erhält man etwa nach Projektion von P auf die xz− Ebene parallel zur y− Achse und anschließender Projektion auf die z− Achse parallel zur y− Achse die z− Koordinate zPL . Folgendes Bild zeigt ein Koordinatensystem als Dreibein, einen Punkt und diese Projektionsvorgänge. z xP P xP zP y x yP Damit haben wir Bijektionen E3 3 → R xL P → P → yPL =: − xL P (lies: ’Koordinatendarstellung von P bezüglich K’) L zP → → und entsprechend V3O → R3 , − x P → − xL P . (Ortsvektoren bekommen also dieselben Koordinatendarstellungen wie die zugehörigen Punkte.) Kartesische Systeme: Wir haben nicht vorausgesetzt, dass die Achsen senkrecht aufeinander stehen, auch nicht gleiche Länge der Einheiten auf den Achsen. Ist beides der Fall, so heißt das System K kartesisch. Beim Umgang mit Längen, Winkeln, Skalar- und Vektorprodukt brauchen wir solche, vorher aber noch nicht. Bei dreidimensionalen Koordinatensystemen wählt man die Achsen für ein kartesisches System zusätzlich so, dass sie ein Rechtssystem bilden, d.h. wie Daumen, Zeigefinger und Mittelfinger der rechten Hand angeordnet sind. Erst bei Skalarprodukt und Vektorprodukt benötigt man zur praktischen Erfüllung der sich stellenden Aufgaben kartesische Systeme; für die im Folgenden besprochenen linearen Operationen allein können die Systeme beliebig sein. Den Nutzen der Ortsvektoren sehen wir im Abschnitt 1.4. 1.2. Affiner Raum und freie Vektoren, Vektorraumbegriff. Im vorigen Abschnitt haben wir naiv dem Anschauungsraum bereits eine Euklidische Struktur (mit Längen- und Winkelbegriff) unterstellt, aber die gehört hier eigentlich noch gar nicht her, sondern nur die des affinen Raums. Wir setzen nur voraus, dass E 3 ein affiner Raum ist. Das bedeutet: Hat man zwei Punkte P, Q, so kann die Strecke von P nach Q (dargestellt durch einen Pfeil von P nach Q) von jedem anderen Punkt R aus in eindeutiger 22 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE Weise abgetragen werden. Das heißt: Der Pfeil von P nach Q kann eindeutig parallel verschoben werden, so dass er in R beginnt und entsprechend einem eindeutig bestimmten Punkt S endet. Im Falle P = Q ist der Pfeil wieder degeneriert. Zweitens verlangen wir: Jeder Pfeil zwischen zwei Punkten kann eindeutig gestreckt werden mit beliebiger Zahl α ∈ R, so dass seine Länge sich mit |α| multipliziert und im Falle α < 0 seine Pfeilrichtung zusätzlich umgedreht wird. Multiplikation mit α = 1 ändert nichts am Pfeil. Dabei soll die erwähnte Parallelverschiebung mit der Streckung vertauschbar sein. Man beachte: Dies bedeutet einen Längenvergleich nur in einer Raumrichtung jeweils - Strecken verschiedener Raumrichtungen können nicht miteinander verglichen werden. Außerdem hat man nur den Winkelbegriff: ’parallel - nicht parallel’, mehr nicht. Schließlich bilden wir eine Summe von Pfeilen: Der Pfeil von P nach Q plus der Pfeil von Q nach R ist der Pfeil von P nach R, für alle Punkte P, Q, R ∈ E 3 . Auch für die Summe fordern wir die Vertauschbarkeit mit der Parallelverschiebung. Schließlich verlangen wir die Vertauschbarkeit der Summenbildung (konkreter Pfeile) mit allen Streckungen sowie: Strecken mit β, dann mit α ergibt Strecken mit αβ, und Strecken mit α + β ergibt dasselbe wie Addition der Pfeile, die durch Strecken mit α bzw. β entstehen. Damit können wir aufsetzen: −− → → Ein freier Vektor − x = P Q ist die Menge (Klasse) aller Pfeile, die durch Parallelverschiebung des Pfeils von P nach Q entstehen. Dieser Pfeil selbst ist ein Repräsentant dieser Klasse. Mit V3 bezeichnen wir die Menge aller freien Vektoren. Zunächst haben wir folgende Koordinatendarstellungsabbildung → für die freien Vektoren: Es sei wieder ein Koordinatensystem L gegeben. Dann ist − x L die Koordina− → tendarstellung des Repräsentanten von x , der Ortsvektor ist, also in O beginnt. Wir haben also eine Bijektion V3 → R3 . Nun zu den wichtigen Rechenoperationen in V3 : − −→ → → → Die Summe zweier freier Vektoren − x ,− y erhält man so: Man wählt Repräsentanten, so dass − x = PQ − − → − → → → → und − y = QR, dann definiert man − x +− y := P R. Es kommt also die Klasse der Pfeile heraus, die durch Parallelverschieben des Pfeils von P nach R entstehen. Folgendes Bild zeigt die geometrische Vektoraddition. Es zeigt auch, dass bei ’Hintereinandersetzen’ und ’Parallelogrammergänzung’ dasselbe herauskommt - es sollte klar sein, dass die Bilder stets nur Repräsentanten der freien Vektoren zeigen. b a a+b b a −− → → Die Multiplikation eines freien Vektors − x = P Q mit einer Zahl α ∈ R erklärt man entsprechend: → α− x := die Klasse der Pfeile, die durch Parallelverschiebung aus einem mit α gestreckten Repräsentanten hervorgehen. Bemerkung: Die Resultate dieser Operationen sind unabhängig von der Wahl der Repräsentanten: − − → Das folgt aus den oben verlangten Vertauschbarkeiten mit der Parallelverschiebung. Der Vektor P P heißt − → Nullvektor und wird mit 0 bezeichnet. Folgendes Bild zeigt anschaulich die geometrische Streckung eines 1. AFFINER RAUM UND VEKTORRAUM 23 Pfeils mit einem Skalar: a (-1)a 2a Diese beiden Operationen: Addition von Vektoren und Multiplikation eines Vektors mit einer reellen Zahl (einem Skalar) heißen die linearen Operationen. − → Damit wird V3 zu einem Vektorraum über dem Körper R, das heißt: V3 , +, ·, 0 hat die in folgender Definition festgelegten Eigenschaften: − → Definition 1. Es sei (K, +, ·, 0, 1) ein Körper. Eine Menge V mit 0 ∈ V sei gegeben mit einer inneren Verknüpfung + : V × V → V und einer äußeren Verknüpfung · : K × V → V. heißt Vektorraum → → → über dem Körper (K, +, ·, 0, 1) , wenn folgendes Axiomensystem erfüllt ist: Für alle − x,− y,− z ∈ V und alle Zahlen α, β ∈ K gilt: → − − → x + − y +→ z − → − 0 +→ x − → − → −x + x − → → x +− y → (αβ) − x − → (α + β) x → − α − x +→ y = = = = = = = − → → → x +− y +− z − → x − → 0 − → → y +− x − α β→ x → → α− x + β− x − → − → αx +αy → → 1·− x = − x Bemerkung: Wie üblich haben wir Multiplikationszeichen sowohl bei ’Zahl mal Vektor’ als auch ’Zahl mal Zahl’ fortgelassen außer beim letzten Axiom. Ferner beachte man, dass ’+’ in α+β die Addition → → → der Zahlen im Körper meint, dagegen ’+’ in − x +− y die Addition der Vektoren in V . Ebenso ist bei α− x − → die Multiplikation des Skalars (der Zahl) α mit dem Vektor x gemeint, aber bei αβ die Multiplikation der Zahlen α, β im Körper. Eigentlich hätte man das wie +V , +K und ·V , ·K zur Unterscheidung schreiben müssen, aber das wäre sehr unübersichtlich. Außerdem ist die Nichtunterscheidung in der Bezeichnung gerechtfertigt duch folgende Tatsache, die sich aus den Axiomen ergibt: Man rechnet mit Ausdrücken der Vektorrechnung (Zahlterme und Vektorterme mit den linearen Operationen) wie mit Zahlen, nur kann man nicht etwa durch Vektoren teilen. − → Es ist zu beobachten, dass V, +, 0 mit den ersten vier Axiomen gerade eine abelsche Gruppe wird. Sehr wichtig sind die beiden Distributivgesetze (vorletztes und drittletztes Axiom). Zur Begründung der Gültigkeit der Axiome für V3 wollen nur zwei Bilder zeigen, welche das As − → − − → − → − → − → → − → → → → soziativgesetz a + b + c = ( a + b ) + − c und das Distributivgesetz λ − a + b = λ− a + λb 24 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE veranschaulichen: a b b+c a+b c (a+b)+c = a+(b+c) λb λa λ (a+b) b a a+b Bei einem Vektorraum trifft man stets folgende Definiton und kann die anschließenden Folgerungen ziehen: → → → → Definition 2 (Differenz von Vektoren). − x −− y := − x + −− y Anschaulich hat man: a-b b a − → → − → → Man verifiziere im Bild: b + − a − b =− a , und merke sich die Anordnung. 1. AFFINER RAUM UND VEKTORRAUM 25 → → Folgerung 1. Für alle Vektoren − x ,− y ∈ V und alle Zahlen α ∈ K gilt: − → − → 0x = 0 → → → → (−α)− x = − α− x , insbesondere − − x = (−1) − x − → − → − → − → α x − y = αx −αy. → − → − → − → → → → → Begründungen liefert man leicht: 0 = 0 + 0 , also 0− x = (0 + 0) − x = 0− x +0− x , Addition von − 0− x − → − → − → − → liefert nun mit Assoziativgesetz und Inversengesetz 0 = 0 x . Zur zweiten Gleichung: (−α) x + α x = − − → → → → (−α + α) − x = 0− x = 0 . Addition von − α x auf beiden Seiten führt Es − − − − zur gewünschten − Gleichung. → − → → → − → → − → → − → − → folgt dann die dritte über α x − y = α x + − y = α x + α − y = α x + −α y = α x − α y . Mit den Rechengesetzen sollte klar sein, dass man jeden Ausdruck der Vektorrechnung (ausschließlich → → mit den linearen Operationen gebildet) in den Vektor-Buchstaben − a 1 , ...− a n in folgende Endform bringen n → → → kann: λk − a k . das nennt man eine Linearkombination der − a 1 , ...− a n . Vertiefendes zur Vektorraumk=1 struktur folgt im Kapitel 4 über lineare Algebra. 1.3. Die Vektorräume V3O und R3 , Vektorrechnung in Koordinatenform. In offensichtlicher Weise liefert V3O ebenfalls einen Vektorraum: Um zwei Ortsvektoren zu addieren und einen solchen herauszubekommen, addiert man die zugehörigen freien Vektoren, von denen die gegebenen Ortsvektoren → − → x Q Repräsentanten sind, von der Summe dieser freien Vektoren wählt man den Repräsentanten, der x P,− → → → von O startet. Das ist − xP +− x Q . Analog kann man α− x P bilden, indem man einfach nur den konkreten Ortsvektor streckt. Dann sind die Axiome ebenfalls erfüllt. Anwendung: Die komplexen Zahlen bilden insbesondere einen Vektorraum über R, den man gerade als V2O veranschaulicht. Ferner bildet die Menge der Zahlentripel R3 einen Vektorraum über R mit folgenden linearen Operationen: a x a+x b + y : = b + y , c z c+z a αa α b : = αb . c αc Es werden die Operationen also ’komponentenweise’ gebildet. Die Verifikation der Axiome ist sehr einfach und folgt direkt aus den Rechengesetzen im Körper (daher kann man die Konstruktion für beliebige Körper ausführen.) Wir geben ein Beispiel dafür, wie man in solchen Fällen mit den Definitionen der Operationen und den Rechengesetzen in R schließt: a x a+x α(a + x) α b + y = α b + y = α(b + y) Def. + Def. · c z c+z α(c + z) αa + αx αa αx αb + αy = αb + αy = Distributivgesetz in R Def. + αc + αz αc αz a x = α b + α y Def. · c z Nun haben wir in 1.1 den Ortsvektoren Koordinatendarstellungen zugeordnet, in 1.2 auch den freien Vektoren. In V3 haben wir die linearen Operationen, auch im R3 . Man möchte etwa Kräfte addieren, → → dargestellt durch freie geometrische Vektoren. Man bildet also − x +− y geometrisch als resultierende Kraft → → (’Kräfteparallelogramm’ !). Aber genau dies Resultat (genauer: die Koordinatendarstellung von − x +− y in − → → L − L L, möchte man auch ausrechnen, gegeben x , y . Dafür benötigt man den entscheidenden Sachverhalt: − L − → → → x +− y =→ x L +− y L . Ebenso für die Multiplikation mit Skalaren. Es soll also das geometrische Rechnen mit Vektoren dem Rechnen mit den Koordinatendarstellungen genau entsprechen. Glücklicherweise ist das so, wie wir festhalten im 26 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE Satz 3. Die linearen Operationen sind mit den Koordinatendarstellungen vertauschbar, für jedes Koordinatensystem L gilt: − L → → x +− y − L α→ x → → = − xL +− y L (links: + in V3 , rechts: + in R3 ) →L (links: Zahl mal geom. Vektor, rechts: Zahl mal Zahlentripel) = α − x → → Die Abbildung V3 → R3 , − x →− x L ist damit ein Vektorraumisomorphismus, da sie eine Bijektion ist, → → welche mit den linearen Operationen vertauscht. Analog ist auch V3O → R3 , − x P →− xL P ein Vektorraumisomorphismus. Zum Verständnis schaue man folgende zweidimensionalen Bilder an: 1 0.9 y 0.8 0.7 0.6 x 0.5 0.4 x+y 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.4 0.5 0.6 0.7 0.8 0.9 1 1 0.9 0.8 λx 0.7 0.6 0.5 x 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 1 → → Man kann im ersten Bild ablesen, dass die x− Koordinate von − x plus die x− Koordinate von − y die von − → − → → x + y ergibt, ebenso für die y− Koordinaten. Im zweiten Bild sieht man: Die x− Koordinate von λ− x − → ist λ mal die x− Koordinate von x , ebenso für die y− Koordinaten (Strahlensatz!). 1.4. Beschreibung geometrischer Gebilde mit Parameterdarstellungen, in geometrischer Form und in Koordinatenform. Zunächst ein wichtiger Grundgedanke: Ein geometrisches Gebilde (eine Gerade, eine Kreisfläche, ein Würfel als Körper usw.) ist aufzufassen als Menge von Punkten, also Teilmenge von E 3 . Gleichwertig als Menge der zugehörigen Ortsvektoren, also Teilmenge von V3O . Wieder gleichwertig über ein Koordinatensystem L als Menge von Zahlentripeln, Teilmenge von R3 . Dies Zusammenspiel entfaltet seine volle Nützlichkeit erst zusammen mit den Vektorraumoperationen, die man 1. AFFINER RAUM UND VEKTORRAUM 27 mit allen beteiligten Objekten ausführt. Wir wollen mit einem einfachen Beispiel beginnen: Die Menge x x ∈ R beschreibt eine Parabel. x2 Die Menge x+2 x2 + 3 2 x ∈ R beschreibt die zum Scheitel verschobene Parabel. 3 2 zu ad3 dieren, hier mit Zahlentripeln ausgeführt, geometrisch: mit Ortsvektoren (Parallelogrammergänzung für die Summenbildung). Dass man aber die Parallelverschiebung mittels der Addition eines festen Vektors bekommt, sieht man besser geometrisch mit den Pfeilen ein. Dazu noch eine Erleichterung: Summenbildung mit Parallelogrammergänzung ist schwerfälliger als Summenbildung mit Hintereinanderschaltung von Pfeilen. Daher legen wir fest: Ortsvektor plus freier Vektor ergibt einen Ortsvektor. Dazu nehmen wir uns die Freiheit, die Differenz zweier Ortsvektoren als freien (Richtungs-)Vektor aufzufassen. Auf diese Weise gelingt es mühelos, die Gerade g im Raum zu beschreiben, welche P enthält und deren Richtung − → → mit dem freien Vektor − a = 0 beschrieben ist: 1.4.1. Parameterdarstellung einer Geraden. Man betrachte das Bild: Um die Parallelverschiebung aller Punkte auszuführen, brauchte man nur den Vektor xP+(-1)a P a xP xP+a O xP+2a g Damit sieht man leicht ein: → → → xR = − x P + λ− a . g = R ∈ E 3 ∃λ ∈ R : − Diese mühsame Darstellung verwendet man nicht, sondern schreibt praktischer eine Abbildung hin (nur die definierende Gleichung, Definitionsbereich ist R, und Wertebereich ist VO3 , die Menge aller Ortsvektoren zum Ursprung O im dreidimensionalen Anschauungsraum: − → → → x g (λ) = − x P + λ− a , λ ∈ R. → Also: Jeder reellen Zahl λ (freier Parameter) wird der Ortsvektor − x (λ) eindeutig zugeordnet, und die Pfeilspitzen dieser Ortsvektoren durchlaufen die gesamte Gerade g. Die beschriebene Punktmenge (als → Menge von Ortsvektoren) ist Bild − xg . → → → Will man die Gerade durch P und Q beschreiben, so wählt man einfach − a =− xQ−− x P . So weit die − → − → − → geometrische Form, mit geometrischen Vektoren x g (λ) , x P , a . Für eine Koordinatenform ersetzt man sie einfach durch die zugehörigen Koordinatendarstellungen bezüglich eines Systems L. 28 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE 1 → 2 + Beispiel: So kann man dann etwa ausrechnen, an welcher Stelle die Gerade − xL g (λ) = 3 2 λ −2 , λ ∈ R, die xy− Ebene schneidet. Das geschieht im Punkt, an dem die z− Koordinate −2 4 → −1 . 3 − 2λ = 0 wird, also für λ = 32 . Somit ist der Schnittpunkt in Koordinatendarstellung: − xL S = 0 4 Wir werden der allgemeinen Gepflogenheit folgen und einfacher sagen: ’der Punkt −1 ’ usw., nach0 dem wir ein für allemal klargestellt haben, dass selbstverständlich das Zahlentripel nur eine Koordinatendarstellung eines Punktes bezüglich eines speziellen Koordinatensystems sein kann. Wir werden noch sehen, dass es sehr nützlich ist, rechnerische Objekte wie Zahlentripel (als Lösungen von Gleichungssystemen etwa) stets auch geometrisch als Punkte aufzufassen. − → − → → 1.4.2. Parameterdarstellung einer Ebene. Sind P ∈ E 3 ein beliebiger Punkt und − a , b = 0 (freie) − → → Vektoren, so dass für keine Zahl λ gilt: − a = λ b , so wird die Ebene E durch den Punkt P mit Rich− → − → − → − → tungsvektoren a , b (d.h. a , b liegen beide parallel zu E) beschrieben durch − → → → − → x E (λ, µ) = − x P + λ− a + µ b , λ, µ ∈ R (geometrische Form). → Durchläuft man alle Zahlenpaare λ, µ, so durchlaufen die Pfeilspitzen von − x (λ, µ) alle Punkte der E Ebene E. So weit die geometrische Form, die man mit folgendem Bild einsieht: E b P a xP xP+2a+b O Für die rechnerische Koordinatenform braucht man nur die geometrischen Vektoren durch ihre Koordinatendarstellung bezüglich eines Systems L zu eretzen: − → − → → → x L (λ, µ) = − x L + λ− a L + µ b L , λ, µ ∈ R (Koordinatenform). E P Hier entsteht mit Durchlausfen aller Parameterwerte λ, µ eine Menge von Zahlentripeln. 1.4.3. Beschreibung endlicher Gebilde durch Einschränkung der Parameterbereiche. Will man etwa − → → nur das Parallelogramm mit Eckpunkt P und (freien) Kantenvektoren − a , b beschreiben, als Menge der Ortsvektoren aller Punkte auf der Parallelogrammfläche, so bildet man einfach: − → − → → → x (λ, µ) = − x P + λ− a + µ b , 0 ≤ λ, µ ≤ 1. → → → → Analog für die Strecke von P nach Q: − x (λ) = − xP +λ − xQ −− x P , 0 ≤ λ ≤ 1. Oder für die Kurve, λ → a ≤ λ ≤ b welche den Graphen von f (x) = x2 im Bereich x ∈ [a, b] bildet: − x (λ) = 2 λ 1. AFFINER RAUM UND VEKTORRAUM 29 1.4.4. Parameterdarstellung eines Kreises oder einer Ellipse. Wir wollen zunächst den Einheitskreis (gemeint ist genauer die Randkurve!) mit Radius r = 1 und Mittelpunkt im Koordinatenursprung bezüglich eines kartesischen Systemes (hier brauchen wir das!) beschreiben: jeder Ortsvektor eines Kreispunktes hat dann Länge 1 (wir benötigen den Euklidischen Raum, mit Winkeln und Längenvergleich in allen Richtungen, vgl. den nächsten Abschnitt)., und er wird umkehrbar eindeutig durch einen Winkel t beschrieben, 0 ≤ t < 2π, im Bogenmaß, zum Vollwinkel gehört 2π, das entspricht also 360 Grad. Das Bogenmaß wird verwandt, weil das Rechnen damit praktischer ist(!). Nun macht man sich mit den elementaren Dafinitionen am rechtwinkligen Dreieck (Sinus = Länge Gegenkathete : Länge Ankathete usw.) sowie den Vorzeichen fürsin, cos klar: Zum Punkt auf dem Einheitskreis mit dem Winkel t gehört die cos (t) Koordinatendarstellung . Folgendes Bild zeigt die Verhältnisse am Einheitskreis um (0, 0): sin (t) tan(x) 1 x sin(x) cos(x) Dabei ist x die Länge des Kreisbogens, d.h. der Winkel im Bogenmaß. Genauer bekommt man auch negative Werte für x, indem man den Kreis im Uhrzeigersinn durchläuft. (tan wurde zur zusätzlichen Information mit eingezeichnet.) Das liefert folgende (bijektive) Parametrisierung: − → x (t) = cos (t) sin (t) , 0 ≤ t < 2π. (Ohne die Einschränkung des Parameterbereiches würde man den Einheitskreis immer wieder durchlaufen.) Daraus bekommt man mit der die folgende Parametrisierung des Kreises Vektorrechnung mühelos a a cos (t) − → mit Radius r > 0 und Mittelpunkt : y (t) = +r , 0 ≤ t < 2π. b b sin (t) Wie steht es mit der Parametrisierung eines Kreises im dreidimensionalen Raum? Ganz einfach: Man − → → nimmt zwei beliebige Vektoren − a , b ∈ V3 , die senkrecht aufeinander stehen und Länge 1 haben, dazu den − → → → → → Ortsvektor − x M des gewünschten Mittelpunktes M, und bildet − u (t) = − x M + r cos (t) − a + r sin (t) b , − → → → → 0 ≤ t < 2π. Oder für die gesamte Kreisfläche dieses Kreises: − v (t, s) = − x M + s cos (t) − a + s sin (t) b , 0 ≤ t < 2π, 0 ≤ s ≤ r. Bei Koordinatenform erscheinen fann natürlich Zahlentripel. Für Ellipsen benötigt man lediglich noch einen Faktor für die Streckung (Stauchung) in der einen a cos (t) − → Richtung und einen zweiten für die andere. Speziell hat man x (t) = , 0 ≤ t < 2π, für b sin (t) die Ellipse im E 2 mit Mittelpunkt im Ursprung und Halbachsenlängen a > 0 in x− Richtung, b > 0 in − → → y− Richtung. Entsprechend bringt man diese Faktoren an − a , b in der allgemeineren Form an, um diese Vektoren auf gewünschte Länge zu bringen. 30 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE 1.5. Beschreibung durch Parameterdarstellung versus Beschreibung durch Gleichung oder Gleichungssystem - einfache Schlüsse aus ihrer Gestalt. Beginnen wir mit dem Beispiel des Einheiskreises mit Mittelpunkt im Ursprung: Bekannter als eine Parameterdarstellung wie oben dürfte die Gleichungsdarstellung sein: x2 + y 2 = 1, womit (vgl. wieder den nächsten Abschnitt über Eukx lidische Räume) einfach gesagt wird: Ein Vektor , der diese Gleichung löst, hat Länge 1. (Das y setzt allerdings ein kartesisches System voraus.) Wir beschreiben den Kreis (wieder. die Randkurve) alsdie Menge aller Punkteaus E 2 , welche den Abstand 1 vom Ursprung haben, also als die Menge x ∈ R2 x2 + y 2 = 1 . (Wieder identifizieren wir die Punkte mit den Zahlenpaaren.) Auch die y cos (t) oben angegebene Parameterdarstellung liefert genau diese Menge, in der Form 0 ≤ t < 2π . sin (t) Wir können sagen, dass eine Parameterdarstellung die jeweilige geometrische Menge in ausgerechneter Form angibt. Zugleich liefert sie ein Verfahren, das nur Punkte der Figur liefert, so viele, wie man will. Also braucht man Parameterdarstellungen zweckmäßig, um eine geometrische Menge auf den Computerbildschrim zu bekommen. Später werden wir sehen, dass ’Integrieren über eine Kurve / Fläche’ sehr wichtige naturwissenschaftliche Vorgänge sind. Dafür benötigt man unbedingt Parameterdarstellungen für die betreffenden Kurven oder Flächen, Gleichungsdarstellung reicht nicht. Andererseits kommen wir auch nicht ohne die Gleichungsdarstellung aus. Einmal kann die naheliegende einfachste Beschreibung einer geometrischen Menge erst einmal zu einer Gleichungsdarstellung führen. Zweitens gibt es aber auch Aufgaben, welche mit einer Gleichungsdarstellung viel leichter auszuführen sind als mit Parameterdarstellung. Betrachten wir dazu folgendes Beispiel: Welche Punkte auf dem Einheitskreis liegen auch auf der Geraden y = −2x + 3? Für diese Schnittaufgabe bildet man mit den Gleichungsdarstellungen für Kreis und gerade einfach das Gleichungssystem x2 + y 2 y = 1 = −2x + 1, Einsetzen von −2x + 1 für y in die erste Zeile ergibt x2 + (1 − 2x)2 = 1, diese quadratische Gleichung in Normalform gebracht: 5x2 − 4x = 0, mit Lösungen x1 = 0, x2 = 45 . Einsetzen in die zweite Gleichung 8 3 liefert die zugehörigen y− Werte: y1 = 1, y2 = − 5 + 1 = − 5 . Also haben wir die beiden Schnittpunkte 0 4 und 15 . Das war schon nicht ganz leicht, weil es sich um ein nichtlineares Gleichungssys1 −3 tem handelt - solche machen im allgemeinen Fall beliebig viel Schwierigkeiten. Wir wollen aber noch sehen, dass Verwenden von Parameterdarstellungen im selben Beispiel durchaus zu Schlimmerem führt: λ − → Mit Verwenden der naheliegenden Parameterdarstellung x (λ) = , λ ∈ R, hätte man gle−2λ + 1 ichzusetzen: cos (t) = λ sin (t) = −2λ + 1 Das ist erst einmal ein schwierigeres System als das vorige. Natürlich schafft man das noch, indem man sin (t) = ± 1 − cos2 (t) nutzt und damit ± 1 − λ2 = −2λ + 1 erhält. Das ergibt die gleichwertige (wegen ±) Folgerung 1 − λ2 = (−2λ + 1)2 , mit den Lösungen λ1 = 0, λ2 = 45 . Nun ist man immer noch → nicht fertig: Es müssen diese Werte noch in − x (λ) für λ eingesetzt werden, erst dann erhält man die oben angegebenen Schnittpunkte. Zum Vergleich arbeiten wir noch mit der Parameterdarstellung der Geraden und der Gleichungsdarstellung für den Kreis: Für den Schnitt hätten wir x = λ, y = −2λ + 1 in die 2 Gleichung des Kreises einzusetzen, mit dem Resultat λ2 + (1 − 2λ) = 1, was auf dieselben Werte für λ wie vorhin führt, nur viel bequemer. Allerdings haben wir auch in diesem Falle noch die Parameterwerte → in − x (λ) einzusetzen. Dies Beispiel sollte geklärt haben, dass man beiderlei Darstellungsformen braucht und wie man mit ihnen umgeht. Wir kommen zur Frage, welche Information über ein geometrisches Gebilde aus seiner Beschreibung in Gleichungsform oder Parameterform leicht zu gewinnen ist. Solche Informationen sollte man sich niemals entgehen lassen und sie stets ausdrücklich festhalten. 1. AFFINER RAUM UND VEKTORRAUM 31 Man möchte stets wissen, welche Dimension eine Punktmenge hat, Dimension Null haben insbesondere alle endlichen Punktmengen. Dimension 1 haben die Kurvenbahnen, Dimension 2 die Flächen, Dimension 3 die Körper (im geometrischen Sinne des Wortes). Allgemeine Punktmengen in höherdimensionalen Räumen haben auch mehr als drei Dimensionen. Ferner möchte man wissen, ob ein Gebilde ’gerade’ ist oder ’krumm’. Erstere nennt man auch lineare Gebilde. Schließlich möchte man etwas über Beschränktheit oder Unbeschränktheit im Raume wissen. Besonders die ersten beiden Fragen kann man im Normalfall ganz leicht bei bloßer Inspektion einer Parameterdarstellung oder Gleichungsdarstellung beantworten, wir stellen die Information in folgender Tabelle zusammen. Unter dem Grundraum verstehen wir dabei die Punktmenge, aus der durch Gleichungen (welche Beziehungen zwischen den koordinaten herstellen) oder durch das Bild einer Parameterdarstellung eine Teilmenge ausgesondert wird. Ferner verstehen wir unter denKomponentenfunktionen einer Parameterdarstellung in Koordinatenform, also etwa f1 (α, β, ...) .. − → x (α, β, ..) = mit beliebiger Raumdimension n die Funktionen f1 , ..., fn . Diese werden . fn (α, β, ...) als Funktionen mit den Parametern als unabhängigen Veränderlichen betrachtet. Gleichung(ssystem) Parameterdarstellung Dimension Dimension des Grundraums minus Anzahl Anzahl der freien Parameter der unabhängigen Gleichungen ’Linearität’ nur lineare Gleichungen nur lineare Komponentenfunktionen fi ’Nichtlinearität’ mindestens eine nichtlineare Gleichung mindestens eine der Funktionen fi nichtlinear Dabei muss man ein wenig vorsichtig sein: Unter ’Anzahl der Gleichungen’ hat man beim Gleichungssystem zu verstehen: Kleinste wählbare Zahl von Gleichungen, unter ’Anzahl der freien Parameter’ bei Parameterdarstellung: Kleinste wählbare Zahl von Parametern. Weiter beziehen sich ’Linearität / Nichtlinearität’ bei den Gebilden nur auf kontinuierliche Gebilde einer Dimension ≥ 1. Allerdings bleibt es sinnvoll und wichtig, bei nichtlinearen Gleichungssystemen oder Komponentenfunktionen diese Eigenschaft auch dann zu beachten, wenn etwa ein Schnittbildungsproblem vorliegt, das entsprechend rechnerisch schwierig wird, aber zugleich nur eine endliche Menge von Punkten herauskommt wie oben. Beispiele zur Anwendung: 1. Beispiel: Im Kreisbeipiel hat man eine Gleichung bei Dimension 2 des Grundraums, es resultiert Dimension 1, eine Kurvenbahn kommt heraus. Bei der Parameterdarstellung sieht man einen freien Parameter , also eine Kurvenbahn. Die Gleichung x2 + y 2 = 1 ist nichtlinear, also erwarten wir eine gekrümmte Kurvenbahn. Ebenso sind die Komponentenfunktionen der Parameterdarstellung (sin (t) , cos (t)) nichtlinear, mit demselben Resultat. 2α − 3β → 2. Beispiel: Betrachten wir folgende Parameterdarstellung: − x (α, β) = 1 + 3α − β , α, β ∈ R. −1 + 2β Ein lineares zweidimensionales Gebilde ergibt sich, also eine nicht gekrümmte Fläche, in diesem Falle dank fehlender Parametereinschränkung eine ganze Ebene. Wir werden im nächsten Abschnitt in der Lage sein, daraus bequem eine Gleichungsdarstellung zu machen und diese Darstellung unmittelbar geometrisch zu deuten. Aber wir können schon jetzt verstehen, dass bei Grundmenge R3 eine Gleichungsbedingung wie 2x − 3y + z = 1 eine Ebene darstellt. Zunächst: Die Gleichung ist linear, und die Dimension der Erfüllungsmenge ist 2 = 3 − 1. Dass tatsächlich eine Ebene herauskommt, können wir durch Ausrechnen der Lösungsmenge einsehen: Gibt man x, y frei vor, so bekommt man die Bedingung z = 1 − 2x + 3y. Die Lösungsmenge ist daher x x, y ∈ R . y 1 − 2x + 3y Diese Menge bekommt man gerade als Bild der folgenden Parametrisierungsabbildung: x − → , x, y ∈ R. y y (x, y) = 1 − 2x + 3y 32 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE (Normalerweise würde man griechische Kleinbuchstaben für die freien Parameter vorziehen, das kann und sollte man in solchen Fällen nachträglich noch ändern.) Damit sehen wir unmittelbar ein, dass es sich um eine Ebene handelt, wir stellen noch die Endform mit Aufpunktvektor und Richtungsvektoren her, durch ’Auseinanderziehen’ im Sinne der Addition und Zahlmultiplikation von Zahlentripeln: 0 1 0 − → y (λ, µ) = 0 + λ 0 + µ 1 , λ, µ ∈ R. 1 −2 3 3. Beispiel: Im Grundraum R3 liefert die Gleichung x2 + y 2 = 1 nicht etwa eine Kreislinie, sondern den Mantel des Zylinders, der die z− Achse als Zylinderachse hat und beidseitig unbegrenzt ist; denn über die z− Komponente gibt es keine Bedingung, sie ist frei wählbar. Gemäß Dimensionsregel haben wir Dimension 2 und erwarten eine gekrümmte Fläche. Eine Parametrisierung desselben Zylinders ist einfach: cos (t) − → x (t, z) = sin (t) , 0 ≤ t < 2π, z ∈ R. z Auch daran sähe man: Dimension 2 mit zwei freien Parametern, Krümmung mit den beiden nichtlinearen Komponentenfunktionen. 4. Beispiel: Hat man 4 unabhängige lineare Gleichungen (dazu später mehr im Kapitel ’Lineare Algebra’) mit 6 Unbestimmten, so wird die Lösungsmenge (wenn sie nicht leer ist) zu deuten sein als vierdimensionaler affiner Teilraum des R6 . Eine Parameterdarstellung der Lösungsmenge bekommt man in Verallgemeinerung der Parameterdarstellung von Ebenen im R3 so: Aufpunktvektor plus erster freier Parameter mal erster Richtungsvektor plus ... vierter freier Parameter mal vierter Richtungsvektor. Zur Frage der Beschränktheit / Unbeschränktheit beschriebener geometrischer Gebilde: Bei Parameterdarstellungen sieht man zuweilen recht leicht Beschränktheit insgesamt oder in gewissen Richtungen anhand einschänkender Bedingungen bei den zulässigen Parameterwerten, also am Definitionsbereich der Parametrisierungsabbildung. Allerdings ist das auch nicht ganz zuverlässig, sondern man t − → braucht genauere Inspektion. Etwa bei x (t) = , 0 < t < 1, hat man keine Beschränktheit der 1/t Kurvenbahn. Auch bei Gleichungsdarstellung benötigt man nähere Untersuchung der Frage: x2 +y 2 +z 2 = 1 in der Grundmenge R3 stellt die Oberfläche der Einheitskugel dar. Weil Quadrate positiv sind, darf keine der Komponenten einen Betrag über 1 haben, also ist das Gebilde beschränkt. Dagegen hätte man bei x2 + y 2 = z 2 beliebig groß wählbare Werte von x, z. Es handelt sich um den unbegrenzten Doppelkegel, dessen Achse die z− Achse ist und dessen Querschnitte parallel zur xy− Ebene Kreise sind, mit Öffnungswinkel 90 Grad. 2. Längen und Winkel: Euklidischer Raum Wie bereits erwähnt, können wir mit den linearen (Vektorraum-) Operationen nichts über Längen − → − → → → → → und Winkel sagen außer: α− a ist bei − a = 0 gerade |α| mal so lang wie − a , und − a ist parallel zu b genau − → − → → → dann, wenn λ− a = b oder µ b = − a für eine wählbare Zahl λ oder µ. Dagegen sind die Längen zweier nicht paralleler Vektoren nicht vergleichbar, und es sind keine Winkel außer Null Grad oder 180 Grad ausdrückbar. Wir benötigen das Skalarprodukt, um weiter zu kommen. Zuvor machen wir folgende Generalvoraussetzung beim Rechnen mit Skalarprodukt und Vektorprodukt in Koordinaten: Sämtliche Koordinatensysteme sind als kartesisch vorausgesetzt. 2.1. Betrag (Länge) von Vektoren. Das ist ein Produkt von Vektoren, bei dem eine Zahl (ein Sklar) herauskommt (daher der Name). Wir zeigen, wie man im kartesischen System ist darauf kommt: x x die Länge eines Vektors aus V3 mit Koodinatendarstellung y offenbar: y = x2 + y 2 + z 2 . z z Zunächst weiß man mit Pythagoras Entsprechendes über V2 , aber eine zweite Anwendung des Pythagoras liefert die angegebene Formel - man betrachte das rechtwinklige Dreieck mit dem gegebenen Vektor als Hypotenuse, dessen senkrechte Projektion aus die xy− Ebene als eine und das Lot vom Endpunkt auf die xy− Ebene als zweite Kathete. Es kommt heraus. Länge des Vektors quadriert = (x2 + y 2 ) + z 2 . Noch allgemeiner definieren wir folgende Betragsfunktion auf beliebigem Rn : 2. LÄNGEN UND WINKEL: EUKLIDISCHER RAUM 33 Definition 3. || : Rn → R≥0 x1 n .. → x2k . k=1 xn → heißt Betragsfunktion. Für geometrische Vektoren − x ∈ Vn wählt man entsprechend als Betrag den Betrag seiner Koordinatendarstellung in einem kartesischen System. Speziell für R1 kommt offenbar der bekannte Betrag von reellen Zahlen heraus. → Bemerkung zur Bezeichnung: Bei Vektoren findet man häufig auch die Bezeichnung − x , mit zwei Strichen also. Das wollen wir für Normen bei Matrizen oder Funktionen reservieren, weil die Unterscheidung zwischen Zahlen und Vektoren klar sein sollte, auch in der Buchstabenbezeichnung bereits. Der Betrag hat folgende wesentlichen algebraischen Eigenschaften - überall da, wo sie erfüllt sind, spricht man von einer Norm oder einem Betrag in einem Vektorraum: Definition 4. Sei V ein Vektorraum über R. Eine Abbildung || : V → R≥0 heißt Betragsfunktion oder Norm, wenn folgende Aussagen allgemein gelten: − − → → → x = 0 ⇐⇒ − x = 0 − → α→ x = |α| − x − → → − → − → x + y ≤ x + − y . V (mit seinen linearen Operationen) zusammen mit dieser Norm heißt dann normierter Vektorraum. → Man beachte: − x ≥ 0 steckt bereits im angegebenen Wertebereich. Die Ungleichung heißt Dreieck- sungleichung und ist sehr wichtig. Anschaulich besagt sie im Falle von V3 : Geht man über zwei Kanten eines Dreiecks, so ist der Weg mindestens so lang wie der Weg über die dritte Kante. Satz 4. Der oben definierte Betrag für Rn erfüllt die Normaxiome. Zum Beweis der ersten Aussage braucht man nur zu wissen, dass eine Summe von Quadraten (und damit deren Wurzel) genau > 0 wird, mindestens eine der Zahlen ungleich Null ist. Ferner % %dann % wenn % 2 hat man (αxk ) = α2 x2k = α2 x2k = |α| x2k , was die zweite Aussage zeigt. An der dritten würde man scheitern, sie so ’einfach nachzurechnen’. Wir werden sie aus der Schwarzschen Ungleichung bekommen (im Abschnitt 2.4). − → − → → 2.2. Skalarprodukt. Man hat in einem beliebigen Dreieck mit Kantenvektoren x,− y = 0 - mit → → → → → → W inkel − x,− y bezeichnen wir den von − x und − y eingeschlossenen Winkel: W inkel − x,− y = π/2 ⇐⇒ − 2 2 − → − → − → 2 → x + y = x − y , also liegt ein rechter Winkel genau dann vor, wenn gilt: n k=1 Nun hat man n k=1 x2k + n yk2 = k=1 (xk − yk )2 = k=1 n x2k + k=1 Also liegt ein rechter Winkel genau dann vor, wenn n n (xk − yk )2 . n k=1 yk2 + 2 n xk yk . k=1 xk yk = 0. k=1 → → Mehr noch: Diese Zahl ist > 0 genau dann, wenn der Winkel zwischen − x,− y spitz ist und < 0 genau dann, wenn er stumpf ist. Wir werden im nächsten Unterabschnitt sehen, dass man damit sogar alle Winkel genau quantifizieren kann: Wenn man sie durch das Produkt der Beträge teilt, kommt der Cosinus des Winkels heraus. Zunächst haben wir damit folgende Definition motiviert: 34 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE Definition 5. Das Standard-Skalarprodukt auf dem Rn ist definiert durch Rn× Rn → R y1 x1 n .. .. xk yk . . , . → k=1 xn yn · : Dass es sich um ein Skalarprodukt handelt, bedeutet die Erfüllung der in der folgenden Definition festgelegten Eigenschaften: Definition 6. Eine Abbildung · : V × V → R heißt Skalarprodukt auf dem Vektorraum V über R, → → → wenn folgende Eigenschaften gelten, allgemein für − x,− y,− z ∈ V und λ ∈ R : 1. Die Abbildung ist bilinear, d.h. → → − − → → → → → → → → → → → x +− y − z = − x− z +− y− z , ebenso − x − y +→ z = − x− y +− x− z, − → − → − → − → − → − → − → − → λ x y = λ x y , ebenso x λ y = λ x y 2. Die Abbildung − → → → → x− y = − y− x 3. Die Abbildung − → → x ·− x = 0 ⇐⇒ ist symmetrisch, d.h. ist positiv definit, d.h. − → − → x = 0 → Bemerkung zum Begriff der Bilinearität: Halten wir − z fest und betrachten die Abbildung V → − − − → − → − → → − → → → → → → V mit x → x z . Sie ist linear, d.h. vertauscht mit den linearen Operationen: x + y z =− x− z +− y− z. − − − → → → − → Das ist genau die erste Gleichung in der ersten Zeile. Und λ x z = λ x z , die erste Gleichung in der zweiten Zeile. Analog halten wir die erste unabhängige Variable der Abbildung · (des Skalarproduktes) fest und fordern die Linearität der so entstehenden Abbildung V → V. Das sind die beiden anderen Gleichungen. Bilinearität bedeutet also: Linearität in beiden Eingabeschlitzen. Man beachte, dass sich das für die Summe gerade als Distributivgesetz liest, für die Multiplikation mit Skalaren als Vertauschung der Faktoren. Die Symmetrie (2. Eigenschaft) macht das zweite Paar bei der Bilinearität überflüssig, aber es ging auch darum, den Begriff der Bilinearität für sich allein zu definieren, für weitere Zwecke, also etwa das Vektorprodukt. Satz 5. Das definierte Standard-Skalarprodukt auf dem Rn erfüllt die Eigenschaften, die nach Definition von einem Skalarprodukt verlangt werden. Der Beweis ist sehr einfach nach dem Muster zu führen, das wir oben erwähnten bei dem Beispiel der Verifikation eines Distributivgesetzes für die linearen Operationen auf dem Rn . Er verlangt keine Idee. Die letzte Eigenschaft ergibt sich unmittelbar aus der entsprechenden Betragseigenschaft, man sieht: 2 − → → → x ·− x = − x . Eine positive und eine warnende Bemerkung zum Rechnen mit dem Skalarprodukt: Das Distributivgesetz und die Verschiebbarkeit der Zahlfaktoren garantieren weitgehend eine günstige Regel der Art: Rechnen wie mit reellen Zahlen, nur Vektoren und Zahlen ordentlich unterscheiden, weiterhin nie durch Vektoren teilen. →− → − →− Aber das ist nicht die ganze Wahrheit: Man hat kein ’Assoziativgesetz’ der Form − x→ y − z =→ x − y→ z . Diese Formel ist völlig falsch! Sie stimmt nur in seltenen Ausnahmefällen. Man beachte: Das wäre auch gar kein Assoziativgesetz, weil man je ein Skalarprodukt hat und einmal die lineare Operation Zahl mal Vektor! man die gegeneinander austauschen könnte, →− Dass →− wird man → → wohl nicht erwarten. Man beachte: − x→ y − z ist ein Vektor parallel zu 9z, dagegen − x − y→ z ein Vektor → parallel zu − x . Fazit: Man muss sehr sorgfältig Klammern um Skalarprodukte setzen. Dabei benutzt →− 2 → → → → → man durchaus − x 2 := − y 2 . Außerdem kürze man niemals x ·− x , aber − x→ y ist etwas Anderes als − x 2− durch Vektoren, was sich aus dem Verbot ergibt, durch einen Vektor zu teilen. Aber die Gefahr besteht, dass das (korrekte!) Kürzen durch Beträge = 0 (das sind Zahlen > 0!) verwechselt wird mit dem völlig unsinnigen Kürzen durch Vektoren. Manchmal wird angeführt, das habe im konkreten Fall doch zu einem korrekten Ergebnis geführt. Diese Argumentation ist falsch und sehr gefährlich: Einmal ist eine logisch falsche Argumentation für ein korrektes Resultat (sogar für ein logisch gültiges) stets möglich - das wusste man bereits im Mittelalter! Zum Anderen - und das eben ist das Schlimme, kann man mit einer logisch falschen Argumentation buchstäblich jeden Satz beweisen, er sei noch so falsch. Aus diesem Grunde ist 2. LÄNGEN UND WINKEL: EUKLIDISCHER RAUM 35 eine logisch falsche Argumentation gar nichts wert. Wenn sie eine oder mehrere gute Ideen enthält, so rettet man die nur durch Vermeiden der logischen Fehler. − → → Ein Beispiel zum korrekten Kürzen durch Beträge: Für − x = 0 hat man: →− − − → − → → − − − → − → → − → − → → x y x y x y x y x y − → − → − → − → x = x = . x = − x = → − → 2 2 2 − 2 x → → → − − x x x x → −→ −→ Schauen Sie sorgfältig nach, dass tatsächlich nur durch eine Zahl gekürzt wird. Aber der Ausdruck x y − x → − x2 kann überhaupt nicht vereinfacht werden! (Mit dem erwähnten Fehler würde man etwa denken, das → → → → Resultat sei einfach − y , aber dort steht ein Vektor parallel zu − x , und − x,− y müssen keineswegs parallel − → − → − → sein. Man prüfe nach, dass im Falle y = x tatsächlich korrekt y herauskommt.) Eine wichtige physikalische Anwendung des Skalarproduktes: Arbeit ist Kraft mal Weg. Aber genauer im Raum: Die Kraft wird durch einen Kraftvektor K erfasst, der Weg ebenfalls durch einen Vektor s, und die Arbeit berechnet sich nicht etwa als Produkt der Beträge, sondern als Skalarprodukt K · s. Das ist also: Kraft in Richtung des Weges genommen. Das hängt zusammen mit der im nächsten Abschnitt zu besprechenden senkrechten Projektion. Später kommt natürlich die weitere Komplikation hinzu, dass Kraft und Ort zeitabhängig sind, ein krummliniger Weg zurückgelegt wird. Dann hat man über K (t) s′ (t) dt zu integrieren. → 2.3. Senkrechte Projektion und Winkel. Die senkrechte Projektion eines Vektors − y auf einen − → − → Vektor x = 0 hat viele wichtige Anwendungen, die Quantifikation der Winkel ist nur eine davon. Eine häufige Anwendung in der Physik: Eine Kraft ist in eine vorgegebene Richtung und eine dazu senkrechte zu zerlegen. → → → → → → Wir wollen einen beliebigen Vektor − y so zerlegen: − y = α− x +− u , so dass − u senkecht auf − x steht. Wir − → werden sehen, dass dies Problem eindeutig lösbar ist. Der Vektor α x heißt dann die senkrechte Projek→ → → → tion von − y auf − x . Die Vektorkomponente parallel zu − x bei dieser Zerlegung haben wir zweckmäßig α− x − → genannt. Interessierende Unbekannte ist nur α, dann auch die Vektor-Unbekannte u . Skalares Anmulti→ → → → → → → → → → → → plizieren von − x an die Vektor-Gleichung − y = α− x +− u führt sofort zu − x− y = α− x− x +− x− u = α− x− x . Denn − → − → x u = 0 mit der gestellten Orthogonalitätsbedingung. Also können wir nach α auflösen und erhalten − → → − → → x− y x− y α= − = 2 . Damit haben wir insgesamt: → → x2 − x − → → → Satz 6. Die senkrechte Projektion von − y auf einen Vektor − x = 0 ist der Vektor − → → x− y− → − x. → x 2 Daraus resultiert die Zerlegung − → → x− y− → − → − → y = − x + u, → x 2 → −→ − y − → → → → → mit dem Lotvektor − u =− y − x→ x. − u steht senkrecht auf − x (was man durch Bilden des Skalarproduktes − | x |2 sofort sieht). Als weitere Anwendung der senkrechten Projektion hat man die Quantifizierung der Winkel: − → → → Satz 7. Der Cosinus des Winkels zwischen zwei Vektoren − x,− y = 0 (beide nicht Null) lautet: − → → → − x− y − . cos ϕ − x,→ y = − → x → y → → → → → → Insbesondere − x− y = 0 für senkrecht aufeinander stehende Vektoren − x ,− y (kurz − x ⊥− y ). (Zur Notation: − − → − → → − → → → Den Winkel zwischen x und y nennen wir ϕ x , y , der Cosinuswert davon ist also cos ϕ − x,− y .) Zur Begründung kann man einmal den Winkel als spitz voraussetzen und dann rechnen gemäß Cosinus-Definition im rechtwinkligen Dreieck (Länge der Ankathete zu Länge der Gegenkathete): → → − y − → −x→ − x 2 → − → − x− y |x| → − → = − → . cos ϕ x , y = − → → y x − y 36 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE (Zur Vereinfachung des Zählers haben wir die Beispielrechnung im vorigen Abschnitt benutzt.) Da der − − → → → → Winkel als spitz vorausgesetztwurde, ist x y = − x− y , also die Formel für den Fall gezeigt. Für stumpfe − → − → − → → → → Winkel sieht man dann: cos ϕ x , y = − cos ϕ − x ,− y , und zwischen −− x und − y ist spitz, der Winkel − → − → − → − → − → − − x y xy → → − = − − − . Insgesamt: cos ϕ − also mit dem bereits Bewiesenen: cos ϕ −→ x ,− y = − x , y = → → → → x y −x y − → → →− x− y − . − cos ϕ −− x ,→ y = − → x → y Schließlich kannten wir für rechte Winkel das Resultat schon vorher: Dann ist das Skalarprodukt Null. → − − →− →= cos ϕ − → → Bemerkung: Der ’Cosinussatz’ besagt einfach: x ,− y − x → y . Er ergibt sich sofort. x y− →− → Wenn man nun bereits als Wissen voraussetzt, − − dass cos ϕ x , y ≤ 1, so erhält man sofort die Schwarzsche − → − → → → Ungleichung, die besagt: x y ≤ x y . Das wollen wir aber nicht tun und stattdessen diese Ungleichung im Geiste der Vektorrechnung beweisen sowie die Dreiecksungleichung für Beträge daraus ableiten. Das praktische Arbeiten erfordert noch die Winkelbestimmung selbst: Mit Umkehrfunktion arccos der − − − x→ y| |→ → − → können wir aus dem Cosinuswert den Winkel ermitteln, bilden also arccos → für ϕ x , y , den − y| |−x ||→ → → Winkel zwischen − x und − y. → → 2.4. Schwarzsche Ungleichung und Dreiecksungleichung. Seien − x ,− y beliebige Vektoren aus − → → → → → → → Rn , aber − x = 0 . Wir zerlegen den Vektor − y so: − y = α− x +− u , wobei α− x die senkrechte Projektion von − → → → → → → y auf − x sei, daher − u ⊥− x , d.h. − u− x = 0. Wir berechnen →2 →2 2 − 2 → → → → → → → → x +− u =− x = − x 2 α− x 2 α2 − x + 2α− x− u +− u 2 = α2 − +→ x 2− u 2 . Andererseits − 2 2 2 2 → → → → → → → = − x α− x +− u = α− x 2 = α2 − x2 . x− y →− → − →− 2 → → → → Weil − x 2− u 2 ≥ 0, folgt − x→ y ≤ − x 2− y 2 und mit Wurzelziehen: − x→ y ≤ − x → y . Genau im Falle →− → − − → − → → → → → u = 0 , gleichwertig: − x nicht parallel zu − y , haben wir sogar − x 2− u 2 > 0, d.h. − x→ y < − x → y . Wenn − → − → x = 0 , so gilt die Ungleichung mit dem Gleichheitszeichen offenbar auch. Damit haben wir folgenden Satz begründet: →− → − Satz 8 (Schwarzsche Ungleichung). Für beliebige Vektoren gilt − x→ y ≤ − x → y , und Gleichheit besteht genau im Falle der Parallelität der Vektoren (wobei wir den Nullvektor parallel zu jedem nennen). → − → − → − 2 Wir folgern die Dreiecksungleichung − x +→ y ≤ − x + → y . Sie ist gleichwertig zu − x +→ y ≤ − 2 2 2 → → → → → → → → → → → → → → − x + − y . Dies wiederum zu − x +− y ≤− x 2 +− y 2 +2 x − y . Aber − x +− y =− x 2 +− y 2 +2− x− y, − → − → − → − → und nach der Schwarzschen Ungleichung ist 2 x y ≤2 x y . →− 2 → → Der Term − x 2− y2 − − x→ y hat eine einfache geometrische Bedeutung: Er stellt den quadrierten − → − → Flächeninhalt des von x , y aufgespannten Parallelogramms dar. Das kann man durch Anwenden der senkrechten Projektion leicht ausrechnen. 3. Vektorprodukt und Spatprodukt In den vorigen Abschnitten wurde zwar der Fall R3 bzw. V3 aus Gründen der Anschaulichkeit bevorzugt, aber sämtliche der dort behandelten Elemente funktionieren allgemein für Rn . In diesem Abschnitt ist das anders: Es handelt sich um Konstruktionen, die ausschließlich in drei Dimensionen möglich sind. Das Vektorprodukt hat mehrere unmittelbare physikalische Anwendungen, und wegen seiner Beziehung zur Elektrizitätslehre ist es auch besonders wichtig für Elektrotechniker. Es kommt in den Maxwellschen Gleichungen vor (in der Form des Differentialoperators rot (’Rotation’, vgl. Mathematik B) und in ein→ facher Form bei der Beschreibung der Lorentzkraft, welche auf eine sich mit Geschwindigkeitsvektor − v bewegende Ladung q von einem Magnetfeld mit magnetischem Feldvektor B̃ ausgeübt wird. Diese Kraft → ist q − v × B̃, das Vektorprodukt der beiden Vektoren. Wir geben nunmehr eine geometrische und anschließend eine algebraische Charakterisierung des Vektorproduktes, schließlich die Formel, mittels deren man es in (kartesischen!) Koordinaten ausrechnen kann. 3. VEKTORPRODUKT UND SPATPRODUKT 37 − → → Definition 7 (Geometrische Definition des Vektorprodukts). Es seien − a , b Vektoren im V3 . Dann − → → ist − a × b der Vektor, der eindeutig bestimmt ist durch: − → − → − →→ − →− → − → → → → a × b steht senkrecht auf − a und auf b (also (− a × b )− a = (− a × b ) b = 0. → − → → − → (ii) − a × b = Flächeninhalt des von − a , b aufgespannten Parallelogramms. − → → − → → (iii) − a, b,− a × b bilden in dieser Reihenfolge ein Rechtssystem, − → → wenn − a , b linear unabhängig sind. (i) Folgendes Bild veranschaulicht diese Eigenschaften: a× ×b |a× ×b|=|a||b|sin(α) b α a − → → − → → Man beachte: − a , b,− a × b sind orientiert wie Daumen, Zeigefinger und Mittelfinger der rechten Hand, − → − → → → oder: schraubt man eine Rechtsschraube von − a nach b , so bohrt sie sich in Richtung − a × b . Sehr − → − → → wichtig ist das folgende Cavalieri-Prinzip der Scherung: man den Vektor b durch b + λ− a, Ersetzt − − → → − → − → − → so resultiert dasselbe Vektorprodukt, also a × b + λ a = a × b . Folgendes Bild illustriert diesen Sachverhalt: H=|b|sin(α) Satz 9 (Algebraische Charakterisierung des Vektorprodukts). Das Vektorprodukt besitzt als Abbildung × : V3 × V3 → V3 − → − → − → − → a, b → a × b die folgenden algebraischen Eigenschaften, und es ist durch diese Eigenschaften wiederum eindeutig bes→ timmt - die Vektoren − e i , 1 ≤ i ≤ 3 sollen ein kartesisches System bilden, also alle Länge 1 haben und 38 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE paarweise senkrecht aufeinander stehen und eine Rechtsschraube in ihrer angegebenen Reihenfolge bilden): − → → − → → − − → → − − → → → → → → (i) − a × b +− c = − a × b +− a ×→ c , ebenso − a + b ×− c =→ a ×− c + b ×− c − → − → − → → − → − → → → a × λb = λ(− a × b ), ebenso λ− a × b =λ − a ×b . − → − → → − → (ii) a × b = −( b × − a) − → − → − → − → → → → → → (iii) e 1 × e 2 = e 3, e 2 × − e3 =− e 1, − e3×− e1 =− e2 Diese Eigenschaften bedeuten im Einzelnen: (i) : Bilinearität (vgl. Skalarprodukt, auch das ist bilinear), d.h. Linearität in beiden Eingabeschlitzen. Tatächlich würde man hier wegen (ii) die Forderungen nach ’ebenso’ nicht brauchen. (ii) Antisymmetrie, (iii) Normierung: Mit (iii) und der Antisymmetrie weiß man, was bei Eingabe von Basisvektoren herauskommt, die ein kartesisches Rechtssystem ergeben. Man → kann auch an R3 statt V3 denken und die Einheitvektoren − e i im R3 (i. Komponente 1, alle anderen Komponenten Null). Wir wollen kurz einsehen, wie die in diesem Satz formulierten Eigenschaften (i) − (iii) aus den geometrischen Eigenschaften der Definition folgen: → − → → → − (ii) und (iii) sind unmittelbar klar: Nach geometrischer Definition gilt − a × b = b ×− a , und das − → − − → → ist wegen der Eigenschaften des Betrags wiederum gleich − b × → a . Ferner stehen die Vektoren − a×b − → → − → − → → − → → − →→ − → → → und b × − a senkrecht auf − a , b . Damit b , − a, b ×− a ein Rechtssystem bildet ebenso wie − a , b ,− a × b, − → − → − → → → → muss also − a × b = −( b × − a ) gelten - bei linearer Abhängigkeit von − a , b kommt auf beiden Seiten von (ii) der Nullvektor heraus, also stimmt (ii) dann auch. (iii) folgt sofort aus der geometrischen Definition. Ebenso einfach ist der zweite Teil von (i), der vom Anbringen eines Zahlfaktors handelt: Wenn − → → λ > 0, so vervielfacht sich der Flächeninhalt des von − a , b aufgespannten Parallelogramms mit λ, wenn − → → man zu − a , λ b übergeht, weiter sind die Parallelogramme parallel. Außerdem ändert sich nichts an der − → − → → → Orientierung, also muss nach geometrischer Definition − a ×λb = λ − a × b gelten. Für λ < 0 kommt eine Orientierungsumkehr hinzu, also dasselbe Resultat. Bei λ = 0 kommt klar auf beiden Seiten der Nullvektor heraus. − → → → Wir kommen zum ersten Teil von (i) , welcher ein wenig schwerer einzusehen ist: − a × b +− c = − → − − → − → → − → − → a × b + a × c . Mittels der senkrechten Prokektion zerlegen wir b und c je in einen Vektor senkrecht − → − → − → → → → → → → → → → zu − a und einen Vektor parallel zu − a : b = λ− a+b , b · − a = 0, − c = µ− a +− c ,− c ·− a = 0. Dann 1 haben wir 1 1 1 − → → − → − → → → → a × b +− c = − a × (λ + µ) − a + b1 +− c1 − → → → = − a × b1 +− c 1 (nach dem Cavalieri-Prinzip der Scherung!) − → → → → = − a×b1 +− a ×− c 1 (geometrisch einzusehen!) − → − → − → − → = a × b + a × c (wieder mit Scherung) Nunmehr ist es ganz einfach, aus den algebraischen Eigenschaften der Vektorproduktes die folgende Berechnungsformel in kartesischen Koordinaten herzuleiten: Satz 10 (Berechnungsformel für das Vektorprodukt in Koordinaten). Es gilt x1 y1 x2 y3 − x3 y2 x2 × y2 = − (x1 y3 − x3 y1 ) . x3 y3 x1 y2 − x2 y1 Merkregel zur Anwendung: Um die i. Komponente des Vektorproduktes auszurechnen, streiche die i. Zeile links und berechne vom verbleibenden (2 × 2) − Zahlenschema (bzw. von dieser (2 × 2) − Matrix) die Determinante als Produkt der Hauptdiagonalen (von links oben nach rechts unten) minus Produkt der Nebendiagonalen. Aber: Füge für die zweite Komponente ein negatives Vorzeichen an. Hinweis: Man kontolliere stets, ob der ausgerechnete Vektor Skalarprodukt Null mit beiden Eingabevektoren ergibt. Das ist sehr schnell und sicher. 3. VEKTORPRODUKT UND SPATPRODUKT 39 Beweis: Mit den Eigenschaften des vorigen Satzes haben wir: − → → → → → x1 → e 1 + x2 − e 2 + x3 − e 3 × y1 − e 1 + y2 − e 2 + y3 − e3 → → → → = x1 y2 − e1×− e 2 + x1 y3 − e1×− e3 − → − → − → → +x2 y1 e 2 × e 1 + x2 y3 e 2 × − e3 − → − → − → − → +x3 y1 e 3 × e 1 + x3 y2 e 3 × e 2 → → → (x1 y2 − x2 y1 ) − e 3 + (− (x1 y3 − x3 y1 )) − e 2 + (x2 y3 − x3 y2 ) − e 1. Für das erste Gleichheitszeichen: Nutze das Distributivgesetz, das Vorziehen von Zahlfaktoren und die − → − → → − → → → → Tatsache − ei ×− e i = 0 , die sofort aus − a × b = −b × − a folgt. Für das zweite Gleichheitszeichen: → → → → → → Nutze (iii) und die sich daraus mit (ii) ergebenden Tatsachen: − e2 ×− e 1 = −− e 3, − e1 ×− e 3 = −− e 2, − → − → − → e 3 × e 2 = − e 1. Rechenbeispiel: 2 1 1 −3 × 2 = 10 . 4 −3 7 Man rechnet für die erste Komponente: (−3) (−3) − 4 · 2 = 1, für die zweite: 2 (−3) − 4 · 1 = −10, nun negatives Vorzeichen anbringen: Resultat 10. Dritte Komponente: 2 · 2 − (−3) · 1 = 7. Kontrolle: 2 1 1 1 −3 · 10 = 0, 2 · 10 = 0. 4 7 −3 7 Abschließend noch ein Beispiel für das abstrakte Rechnen mit Vektorprodukten gemäß den algebraischen Eigenschaften: − → → − → − → − → → − → → → → 3− a − b × −2− a + 5 b = 15− a ×b −2b ×− a = 17− a × b. 3.1. Das Spatprodukt. Aus dem Skalarprodukt und dem Vektorprodukt kann man (nur für V3 bzw. R3 (!)) folgendes Spatprodukt machen: Definition 8. Das Spatprodukt ist die Abbildung [] : R3 × R3 × R3 − → − → → a , b ,− c → − R → − − →→ . − → → → → a b × c = [− a , b ,− c] − → → → Satz 11. Das Spatprodukt hat folgende geometrische Deutung: − a b ×− c ist das Volumen des − →− − → → Spates (Schiefquaders), der von den Vektoren a , b , c aufgespannt wird, versehen mit einem Vorze− →→ → ichen für die Orientierung des Systems − a , b ,− c . (Bei Rechtssystemen kommt eine positive Zahl − →→ → heraus, bei Linkssystemen eine negative, bei linear abhängigen Vektoren − a , b ,− c (d.h. wenn einer sich als Linearkombination der beiden anderen darstellen lässt, so dass der Spat degeneriert) kommt Null heraus. − → → Wir wollen das kurz einsehen: betrachten wir das von b und − c aufgespannte Parallelogramm als → ’Grundfläche’, dann ist die ’Höhe’ des Spats darzustellen durch die senkrechte Projektion von − a auf − → − → b × c , also gemäß ’Volumen gleich Grundflächeninhalt mal Höhenlänge’: − − − → − − → − → → → → − − − a b × c a b × c − → − → − → − → → − → − − → → → → → b × c = b × c · V = b ×− c · b × c = a b × c . 2 2 → − − → − → b ×→ c b ×− c − →→ − → → → → Ferner ist − a, b ,− c genau dann ein Rechtssystem, wenn der Winkel zwischen − a und b × − c spitz ist, d.h. − → − − → → a b × c > 0. Wir kommen zu den algebraischen Eigenschaften des Spatprodukts (ähnlicher Vorgang wie beim Vektorprodukt!): 40 3. ELEMENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE Satz 12. Das Spatprodukt hat folgende algebraischen Eigenschaften: (i) Es ist dreifach (in allen drei Eingabeschlitzen) linear. (ii) Das Vorzeichen kehrt sich um, wenn man zwei der drei Vektoren vertauscht. → → → e2×− (iii) − e1 − e3 = 1 →− − →− → Bemerkung: (ii) kann man in Verbindung mit − (i) auch so ausdrücken: Sind zwei der drei Vektoren a , b , c → → → gleich, so wird das Spatprodukt − a b ×− c Null. Durch diese algebraischen Eigenschaften ist das Spatprodukt wiederum eindeutig bestimmt. Bemerkung: Die Definition des Spatproduktes war beschränkt auf den Fall der Dimension 3, aber die algebraischen Eigenschaften dieses Satzes lassen sich sofort auf n Vektoren im Rn bzw. die (n × n) − Matrix ihrer Komponenten verallgemeinern. Das ergibt dann die Determinante der Matrix, die wiederum die analoge geometrische Deutung besitzt: n− dimensionales Spatvolumen mit Orientierungsvorzeichen. Analog zum Vektorprodukt ergibt sich daraus bereits eindeutig, wie man eine Determinante berechnen muss! Wir verzichten auf eine Begründung des letzten Satzes, die aus der Berechnungsvorschrift in jedem Stück simpel nachzurechnen wäre. Stattdessen möchten wir darauf aufmerksam machen welche elementaren Rechnungen koordinatenfrei auszuführen sind mit großer Leichtigkeit. Dafür ein Beispiel: − → − → → → → → → a + 3 b × 4− a + 2− c (2− a + 3 b − 4− c ) −2− − − → → − → → − → → → → = 2 · 3 · 2− a b ×− c + 3 (−2) 2 b − a ×→ c + (−4) 3 · 4− c b ×− a − → → → = 72− a b ×− c Was man zu tun hat: Nur distributiv rechnen ’jeder mit jedem’, jeden Term mit Vektorwiederholung fortlassen, Faktoren vorziehen, am Ende benutzen, dass − → → − → − → → − − → → → a b ×− c = − c − a ×b = b − c ×→ a − − → → − → → − → → → → = −b − a ×→ c = −− c b ×− a = −− a − c ×b . (Die zyklischen Permutationen ändern das Vorzeichen nicht, weil sie aus zwei Austauschschritten bestehen, die ’antizyklischen’ ändern das Vorzeichen.) KAPITEL 4 Reelle Funktionen 41 42 4. REELLE FUNKTIONEN 1. Grundfunktionen und zusammengesetzte Funktionen, Grenzwerte bei Funktionen Grundbegriffe: Eine reelle Funktion f : D → R, D ⊂ R. ist eine Abbildung x x ∈ D , als Punktmenge zu deuten (Kurve). Graph von f := f (x) Standard - Symmetrien: Gerade und ungerade Funktionen, periodische Funktionen: f gerade : ⇐⇒ ∀x (f (−x) = f (x)) (f in symmetrischem Intervall um 0 definiert) f ungerade: ⇐⇒ ∀x (f (−x) = −f (x)) (wieder in symmetrischem Intervall um 0) f periodisch mit Periodendauer T : ⇐⇒ f (x + T ) = f (x) für alle x Lineare Transformationen von Funktionen: g (x) = a + bf (cx + d) , c nicht Null. Graphisch geschieht Folgendes mit dem Graphen von f, um den von g zu erhalten: 1.Verschieben längs x − Achse nach links mit d, 2. Stauchen mit c längs der x − Achse, bei negativem c mit Spiegelung an der y − Achse gekoppelt, 3. Strecken längs y − Achse mit b (gekoppelt mit Spiegelung an der x − Achse bei negativem b 4.Verschieben um a nach oben längs der y − Achse) (Reihenfolge ist wichtig, 1,2 und 3,4 dürfen untereinander nicht vertauscht werden!) Monotonie von Funktionen: Monotones bzw. streng monotones Steigen bzw. Fallen f heißt auf dem Intervall I monoton steigend, wenn ∀x1 , x2 ∈ I : (x1 ≤ x2 =⇒ f (x1 ) ≤ f (x2 )) , streng monoton steigend, wenn diese Bedingung mit ’ < ’ statt ’ ≤ ’ gilt. f heißt auf I monoton fallend, wenn ∀x1 , x2 ∈ I : (x1 ≤ x2 =⇒ f (x1 ) ≥ f (x2 )) , streng monoton fallend, wenn ∀x1 , x2 ∈ I : (x1 < x2 =⇒ f (x1 ) > f (x2 )) . Umgebungsbegriff: Eine Umgebung von x0 ist eine Menge ⊂ R, welche ein offenes Intervall um x0 enthält. Extrema: f sei in einer Umgebung von x0 definiert. Dann hat f in x0 ein lokales Maximum, wenn (∃ε > 0) ∀x (|x − x0 | < ε =⇒ f (x0 ) ≥ f (x)) (entsprechend mit ’ ≤ ’ für lokales Minimum). f hat in x0 ein globales Maximum, wenn für alle x im Definitionsbereich von f gilt: f (x0 ) ≥ f (x) . (’Globales Minimum’: Ersetze ’ ≥ ’ durch ’ ≤ ’.) Für die entsprechenden Begriffe strenger Extrema ersetze die Zeichen ’ ≤, ≥ ’ durch ’ <, > ’. Grenzwert bei Funktionen: Symbolisch: lim x → a f (x) = b, mit a, b ∈ R ∪ {−∞, ∞}, genauer Begriff: lim x → a f (x) = b : ⇐⇒ Zu jeder Umgebung V von b gibt es eine Umgebung U von a, so dass f (U ) ⊂ V. einseitiger Grenzwert: lim x → a+ f (x) = b (von rechts), lim x → a− f (x) = b (von links) Asymptoten: Eine Asymptote x = a parallel zur y− Achse (d.h. ein Pol bei x = a) liegt vor, wenn lim x → a− f (x) = ∞ (bzw. −∞) oder wenn lim x → a+ f (x) = ∞ (bzw. −∞). Weitere Asymptoten: y = mx + b ist Asymptote des Graphen von f, wenn lim x → ∞ (f (x) − mx − b) = 0 oder limx→−∞ (f (x) − mx − b) = 0 Stetigkeit einer Funktion an einer Stelle: Eine Funktion heißt stetig in x0 , wenn sie in einer (beidseitigen) Umgebung von x0 definiert ist und lim x → x f (x) = f (x0 ) gilt. 0 Entsprechend bildet man: f in x0 stetig von links: lim x → x − f (x) = f (x0 ) , analog ’stetig von rechts’. 0 Globale Stetigkeit: f heißt auf dem ganzen Intervall I stetig, wenn f in allen x0 ∈ I stetig ist, also genau dann, wenn (∀x0 ∈ I) (∀ε > 0) (∃δ > 0) (∀x ∈ I) (|x − x0 | < δ =⇒ |f (x) − f (x0 ) < ε|) Gleichmäßige Stetigkeit: f heißt auf I gleichmäßig stetig, wenn (∀ε > 0) (∃δ > 0) (∀x0 ∈ I) (∀x ∈ I) (|x − x0 | < δ =⇒ |f (x) − f (x0 ) < ε|) . Man beachte: δ darf hier nur von ε abhängen, nicht aber von x0 , im Gegensatz zur bloßen globalen Stetigkeit. Gleichmäßige Stetigkeit impliziert Stetigkeit, nicht aber umgekehrt. 1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN Beispiele zur Illustration der Grundbegriffe: x3 − x , x ∈ R, ist eine ungerade Funktion, ohne Pol, aber 1 + x2 mit Asymptote y = x für x → ±∞. (Man hat lim f (x) = ∞ und lim f (x) = −∞, x→∞ x → −∞ x3 − x 2x aber genauer lim (f (x) − x) = 0, das sieht man mit =x− . 2 1+x 1 + x2 x → ±∞ √ f hat an der Stelle − −2 + 5 ein strenges lokales Maximumt (das nicht global ist), √ mit der Symmetrie also an der Stelle −2 + 5 ein strenges lokales Minimum. Die Funktion ist offenbar überall differenzierbar, also überall stetig, aber sie ist sogar auf ganz R gleichmäßig stetig, weil es einen maximalen Betrag der Ableitung gibt. Man sieht auch, dass im Ursprung ein Wendepunkt vorliegt, dort ist die Steigung minimal. Weiter gibt es zwangsläufig noch zwei weitere Wendepunkte, an denen die Steigung maximal ist. Der Graph sieht so aus - die Asymptote ist mit eingezeichnet: 1. f (x) = 4 2 -4 0 -2 2 x 4 -2 -4 x , x = ±1, hat Pole bei x = ±1, sie ist ebenfalls ungerade. 1 − x2 An den Polen hat man einseitige verschiedene (unendliche) Grenzwerte: lim g (x) = ∞, x → −1− aber lim g (x) = −∞. x → 1+ Ferner hat sie die Asymptote y = 0, man hat lim g (x) = lim g (x) = 0. x→∞ x → −∞ g hat keine lokalen und erst recht keine globalen Extrema und nur in x = 0 einen Wendepunkt. g ist streng monoton steigend jeweils innnerhalb der Bereiche (−∞, −1) , (−1, 1) , (1, ∞) , aber g ist nicht global monoton steigend. (Das wird möglich durch die Pole.) Die Funktion g ist in diesen drei Bereichen jeweils global stetig, aber nicht gleichmäßig, weil man stets kleinere δ für gegebenes ε benötigt, je näher man einem Pol kommt. Der Graph sieht so aus: 2. Die Funktion g (x) = 4 2 -4 -2 2 x -2 -4 4 43 44 4. REELLE FUNKTIONEN 3. Die Funktion h (x) = sin (4x) + sin (8x), x ∈ R, ist periodisch mit Periodenlänge π/2. Sie ist wiederum ungerade, auf ganz R gleichmäßig stetig, und sie besitzt verschiedene strenge lokale Extrema, die keine globalen sind, aber auch globale Extrema, die keine strengen sind. Im Rahmen einer vollen Periodenlänge hat man ein globales strenges Maximum und ein globales strenges Minimum, dazu je ein nur lokales strenges Maximum und Minimum. Das sieht so aus: 1.5 1 0.5 -2 -1 0 1x 2 -0.5 -1 -1.5 Beispiele zur Illustration der linearen Transformationen: Ausgangspunkt: Graph von f (x) = sin (x) , dann werden der Reihe nach folgende geometrischen Operationen durchgeführt, jede Operation jeweils mit dem zuvor erreichten Zwischenresultat - man vergleiche, wie sich das im jeweiligen Rechenausdruck niederschlägt: 1.) Verschieben um π/4 nach rechts, 2.) Stauchen längs der x− Achse mit Faktor 2, 3.) Strecken längs der y− Achse mit Faktor −2, also Spiegeln an der x− Achse und Strecken mit Faktor 2 längs der x− Achse. -4 -2 1 1 0.5 0.5 0 2 x 4 -4 -2 -0.5 -0.5 -1 -1 sin (x) -4 -2 0 2 0.5 1 2 x 4 -4 -2 0 -0.5 -1 -1 -2 sin (2x − π/4) 4 2 x 4 sin (x − π/4) 1 0 2 x −2 sin (2x − π/4) 1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN 45 Grundresultate: Grenzwertsätze: lim (f (x) g (x)) = lim f (x) lim g (x) ,wenn beide Grenzwerte x→a x→a x→a auf der rechten Seite in R existieren und eine der Operationen +, −, ·, ·· ist (zusätzlich im Falle der Division lim g (x) = 0). x→a Zusätzlich gelten ein paar völlig selbstverständliche Sätze dieser Form auch für unendliche Grenzwerte mit der Vereinbarung ∞ + ∞ = ∞, −∞ + −∞ = −∞, ∞ · ∞ = ∞, ∞ · (−∞) = −∞, (−∞) · (−∞) = ∞, ∞ = ∞ (a > 0), ferner für a ∈ R: ∞ + a = ∞, ∞ · a = ∞ (a > 0), a (Für die kritischen Fälle insbesondere bei Quotienten vgl. die spätere Regel von de L’Hospital.) Einseitige und zweiseitige Grenzwerte: Für a ∈ R gilt: lim f (x) existiert genau dann, wenn lim f (x) und lim f (x) x→a x→a+ x→a− beide existieren und denselben Wert haben. (So auch für unendliche Grenzwerte.) Einseitige sowie zweiseitige Grenzwerte bei Funktionen sind eindeutig bestimmt, wenn sie überhaupt existieren. Monotonie des Grenzwertes: Wenn f (x) ≤ M für alle x, dann lim f (x) ≤ M (falls dieser Limes existiert). x→a Analog lim x → a f (x) ≥ M, wenn f (x) ≥ M für alle x. (Vorsicht: Das gilt nicht mit ’<’, ’>’.) Sätze über Stetigkeit: 1. Wenn f, g in x0 stetig sind, dann auch fg ( wie oben, bei Division muss g (x0 ) = 0 sein). 2. Wenn f stetig ist in x0 und g stetig in f (x0 ) , dann ist g ◦ f stetig in x0 . 3. Zwischenwertsatz: Wenn eine auf einem Intervall I stetige Funktion die Werte a, b annimmt, dann nimmt sie dort auch alle Werte zwischen a und b an. 3. Eine auf einem abgeschlossenen Intervall stetige Funktion ist dort gleichmäßig stetig. 4. Eine auf einem abgeschlossenen Intervall stetige Funktion nimmt dort ein absolutes Maximum und ein absolutes Minimum an (und ist insbesondere dort beschränkt). 1.1. Die Grundfunktionen. Hier ist eine gewisse Liste von Grundfunktionen, aus denen man das Benötigte in aller Regel aufbauen kann. (Für spezielle Zwecke hat man diese Liste gegebenenfalls zu erweitern, insbesondere mit Stammfunktionen oder allgemeiner Lösungen von Differentialgleichungen, für welche sich kein Ausdruck mit diesem Material angeben lässt.) Funktion Potenzfunktionen Exponentialfunktion Logarithmusfunktion Sinusfunktion Cosinusfunktion Arcustangens hyperbolischer Sinus hyp. Arcussinus hyp. Cosinus hyp. Tangens hyp. Arcustangens Rechenausdruck f(x) = xa exp(x) = ex ln(x) = exp−1 (x) sin (x) cos (x) arctan (x) ex − e−x sinh (x) = √ 2 arcsinh(x) = ln x + x2 + 1 ex + e−x cosh (x) = 2 ex − e−x sinh (x) tanh (x) = = x cosh (x) e + e−x 1 1+x arctanh(x) = ln 2 1−x x ≥ 0, fester Exponent a > 0 natürliche Basis e natürliche Basis e, x > 0 (Umkehrf. von tan = sin / cos) (Umkehrf. von sinh) (Umkehrf. von tanh) 46 4. REELLE FUNKTIONEN Wichtige Formeln zu den Grundfunktionen: A. Für exp und ln: Für exp e0 = 1 ex+y = ex ey (ex )y = exy ax = ex ln(a) für ln ln (1) = 0 ln (ab) = ln (a) + ln (b) (a, b > 0) ln (ax ) = x ln (a) (a > 0) ln (x) (a > 0) loga (x) = (a > 0, x > 0) ln (a) B. Für die trigonometrischen Funktionen: sin2 (x) + cos2 (x) sin (x + 2π) cos (x + 2π) sin (x + π/2) cos (x − π/2) tan (x + π) cos (x ± y) sin (x ± y) tan (x + y) sin (x) sin (y) cos (x) cos (y) sin (x) cos (y) = 1 (Pythagorasbeziehung) = sin (x) (Periodizität von sin, Periodendauer 2π) = cos (x) (Periodizität) = cos (x) (Verschiebung) = sin (x) (Verschiebung) = tan (x) (Periodizität von tan, Periodendauer π) = cos (x) cos (y) ∓ sin (x) sin (y) (Additionstheorem) = sin (x) cos (y) ± cos (x) sin (y) (Additionstheorem) tan (x) + tan (y) = (Additionstheorem) 1 − tan (x) tan (y) 1 = 12 (cos (x − y) − cos (x + y)) Sonderfall: sin2 (x) = (1 − cos (2x)) 2 1 = 12 (cos (x − y) + cos (x + y)) Sonderfall: cos2 (x) = (1 + cos (2x)) 2 1 1 = Sonderfall: sin (x) cos (x) = sin (2x) 2 (sin (x − y) + sin (x + y)) 2 C. Für die hyperbolisch trigonometrischen Funktionen: cosh2 (x) − sinh2 (x) = 1 sinh (x + y) = sinh (x) cosh (y) + cosh (x) sinh (y) cosh (x + y) arcsinh(x) arctanh(x) = cosh (x) cosh (y) + sinh (x) sinh (y) = ln x + x2 + 1 1 1+x = ln 2 1−x (Statt Pythagorasbeziehung) Additionstheorem, wie trig. Fall Additionstheorem, charakteristische Vorzeichenänderung x∈R (−1 < x < 1) 1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN 47 Die Graphen der Grundfunktionen: Potenzfunktionen (Exponent ist fest > 0, Basis ist die unabhängige Variable): 4 x3 y 3.5 x2 3 2.5 x(1/2) 2 1.5 x(1/3) 1 0.5 x 0 0 0.5 1 1.5 2 2.5 3 3.5 4 Exponential- und Logarithmusfunktionen verschiedener Basen (Basis ist fest > 0, verschieden von 1, der Exponent ist die unabhängige Variable): 5 ex 4 3 2x log2(x) 2 1 ln(x) 0 -1 -2 -3 -4 -5 -5 0 5 48 4. REELLE FUNKTIONEN Hyperbolisch trigonometrische Funktionen: Drücken sich in der Exponentialfunktion einfach aus, 1 x e − e−x , haben jedoch Eigenschaften analog zu den trigonometrischen Funktionen. (sinh (x) = 2 1 x e + e−x , tanh = sinh / cosh) cosh (x) = 2 3 cosh 2 1 0 -1 -2 sinh -3 -4 -3 -2 -1 0 1 2 3 4 3 2 1 0 tanh -1 -2 -3 -3 arctanh -2 -1 0 1 2 3 1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN 49 Trigonometrische Funktionen: sin, cos, Umkehrfunktionen arcsin, arccos, tan = sin / cos, Umkehrfunktion arctan). Man beachte stets, wie sich der Graph der Umkehrfunktion jeweils durch Spiegelung aun der Geraden y = x ergibt. 2 1.5 1 cos 0.5 0 -0.5 sin -1 -1.5 -2 -3 -2 -1 0 1 2 3 1.5 arcsin 1 sin 0.5 0 -0.5 -1 -1.5 -1.5 -1 -0.5 0 0.5 1 1.5 50 4. REELLE FUNKTIONEN 3 arccos 2.5 2 1.5 1 0.5 cos 0 -0.5 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 10 tan 8 6 4 2 arctan 0 -2 -4 -6 -8 -10 -10 -5 0 5 10 1.2. Zusammensetzung von Funktionen. Mit Funktionen f, g bildet man αf (α ∈ R), f +g, f ·g, und g◦f. Wir wiederholen: f, g : D → R, dann f +g : D → R, mit (f + g) (x) := f (x)+g (x) . Analog für die andern arithmetischen Verknüpfungen, nur muss man bei fg als maximal möglichen Definitionsbereich wählen: D { x ∈ D| g (x) = 0} . Eine besonders wichtige Rolle spielt die Hintereinanderschaltung, und sie macht in jeder Hinsicht etwas größere Schwierigkeiten. Man merke sich: (g ◦ f) (x) := g (f (x)) , und der f g 1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN 51 maximal mögliche Definitionsbereich bei f : Df → R, g : Dg → R für g ◦ f lautet: { x ∈ Df | f (x) ∈ Dg )} . Achtung: Es ist ein wenig misslich, dass bei g ◦ f zuerst f, dann g angewandt wird, entgegen der Gewohnheit, von links nach rechts zu lesen. Das liegt an der rechts gestellten ’von’-Klammer. Klarer wird das in der Bezeichnung mit Argument: g (f (x)) : Zuerst ist f(x) zu bilden, auf diese Zahl dann g anzuwenden. Wir wollen uns einen kleinen Überblick darüber verschaffen, welche Funktionenmengen man mit den angesprochenen Verknüpfungen aus welchen Grundfunktionen bilden kann, und noch einmal gewisse Mengen von Funktionen herausstellen. 1.2.1. Konstante Funktionen, lineare Funktionen. Sie sind die einfachsten überhaupt, konstante haben die Gestalt f (x) = c für alle x. Ihre Graphen sind einfach Geraden parallel zur x− Achse. Was man in diesem Bereich ’lineare Funktionen’ nennt, sind eigentlich affine, da eine additive Konstante zugelassen ist. Sie haben die Gestalt f (x) = mx + b, und ihre Graphen sind Geraden, die allerdings niemals parallel zur y− Achse liegen. Man sollte sich allerdings für diese Funktionen die folgende Form merken (’Punkt-Richtungs-Form’): f (x) = f(x0 ) + α (x − x0 ) , auch gern geschrieben: f (x0 + ∆x) = f (x0 ) + α∆x, wenn man an kleine |∆x| denkt, gern steht auch h für ∆x. Letztere Form ist die der Näherung erster Ordnung für eine nichtlineare Funktion g, dann ist f (x0 ) = g(x0 ) und α = g ′ (x0 ) . Man fasst dabei x0 als fest auf und betrachtet den Ausdruck g (x0 ) + α∆x als Funktion von ∆x. konstante Funktionen f (x) = c affin lineare Funktionen f (x) = a0 + a1 x Wir stellen fest: Genau alle linearen Funktionen gewinnt man mit den Verknüpfungen αf, f + g aus den Funktionen h0 (x) = 1 und h1 (x) = x allein. 1.2.2. Polynomfunktionen (auch: ganzrationale Funktionen). Es sind die Funktionen der Gestalt n ak xk . Ist an = 0, heißt f Polynom vom Grad n. Die Vorfaktoren ak heißen Koeffizienten. f (x) = k=0 Offenbar bilden die konstanten und linearen Funktionen die Spezialfälle n = 0, 1. Zum Rechnen mit Polynomen: Addition bedeutet Addition der Koeffizienten, Multiplikation mit α ∈ R, dass alle Koeffizienten mit α multipliziert werden. Multiplikation zweier Polynome: m ar xr r=0 Hier stellt die Summe m n s=0 bs xs = n+m m ar bk−r xk . k=0 r=0 ar bk−r einen allgemeinen Rechenausdruck für den Koeffizienten ck des Produk- r=0 tes dar. (Diese Figur nennt man ’Faltung’, und Sie werden ihr noch öfter begegnen.) Ferner ist grundlegend: Satz 13 (Divisionsalgorithmus). Für alle Polynome p (x) und q (x) , q (x) nicht konstant Null, gibt es ein Polynom s (x) sowie ein Polynom r (x) mit Grad (r) < Grad (q) , so dass p (x) = s (x) q (x) + r (x) , also auch r (x) p (x) = s (x) + . q (x) q (x) Das nennt man auch Division mit Rest, r (x) ist dabei der verbleibende Rest. Illustration an einem einfachen und einem etwas größeren Beispiel: x : (x − 1) = 1, Rest 1 − (x − 1) 1 52 Also r(x) = 1, und 4. REELLE FUNKTIONEN x x−1 =1+ 1 x−1 , oder x = 1 · (x − 1) + 1 3 2 (x − 2x + 4) : − x3 − x 2 x − 1 = x − 2, Rest x + 2. 2 −2x 2+ x + 4 − −2x + 2 x+2 2 3 2 +4 3 2 Also x −2x = x−2+ x2+x 2 −1 , oder x −2x +4 = (x − 2) x − 1 +x+2. Hier r (x) = x+2, s (x) = x−2. x2 −1 Mittels der Polynomdivision macht man sich folgende Eigenschaften ohne weiteres klar: Polynom vom Grade n p (x) = n k=0 ak xk , an = 0 1. p hat höchstens n Nullstellen. Ist p (a) = 0, so gilt p (x) = q(x) (x − a) , (x − a) teilt also p (x) . 2. Der führende Term an xn bestimmt das Verhalten für x → ±∞. Mit n ≥ 1 stets limx→±∞ f(x) ∈ {−∞, ∞} Man beachte, dass aus der Eigenschaft 2 unmittelbar die lineare Unabhängigkeit der Funktionen hn (x) = xn (n ∈ N0 ) . Wären sie linear abhängig, so ließe sich ein Polynom von einem Grade n > 0 durch eine Linearkombination von Polynomen kleineren Grades darstellen - das ergibt aber ein Polynom kleineren Grades. Die Differenz beider Polynome hätte also führenden Term an xn , n > 0. Das kann nach 2. nicht die Nullfunktion sein. Wir sehen also, dass der Vektorraum der Polynome unendlichdimensional ist - aus den Funktionen hn (x) = xn (n ∈ N0 ) erzeugt man allein mit den Verknüpfungen αf, f + g die Klasse der Polynome. Dass aber der führende Term eines Polynoms p (x) für große |x| über den Rest dominiert, kann man nach Polynomdivision des führenden Terms durch die Summe der niederen Terme sehen: Es kommt ein Polynom vom Grad ≥ 1 plus ein Term,dergegen Null geht. Ebenso sieht man Eigenschaft 1 über Polynomdivision: Es gibt mit Divisionsalgorithmus für p(x) mit p (a) = 0 Polynome q, r, so dass p (x) = q (x − a) + r (x), mit Grad (r) < Grad (x − a) = 1, also ist r eine Konstante. Mit p (a) = 0 folgt nach Einsetzen: r = 0. Bemerkungen zum graphischen Verhalten von Polynomen: Der Graph einer Polynomfunktion ist völlig glatt, er kann endlich viele Maxima und Minima (mit zugehörigen Buckeln) entwickeln, auch Sättel, und für große |x| gehen die Werte ins unendliche. Man kann durch n + 1 Punkte (xi , yi ) mit xi = xj für i = j in eindeutiger Weise ein Polynom vom Grade n legen. Aber interessanter für die Praxis ist oft das Anpassen eines Polynoms relativ kleinen Grades als Modell an eine Messreihe, die außerdem noch etwa Zufallsfluktuationen enthält. 1.2.3. Gebrochen rationale Funktionen. Erlaubt man zusätzlich Division von Funktionen, so bekommt man die Klasse der gebrochen rationalen Funktionen. Die Rechenausdrücke können immer in die Endform p(x) q(x) mit Polynomen p, q gebracht werden (q nicht die Konstante Null) . Die Nullstellen sind diejenigen des Zählers, bei denen der Nenner nicht Null wird. Interessant sind die Nullstellen des Nenners. Zunächst ist der Ausdruck p(x) q(x) für q (x) = 0 nicht definiert. Aber es ist genauer zu beschreiben, was an einer solchen Stelle auftreten kann. Zunächst definieren wir: Definition 9. Eine Funktion f hat einen Pol an der Stelle a, wenn f (x) gegen ±∞ geht, wenn man sich mit x der Stelle a von rechts oder von links nähert. Bei beidseitigen Polen können die Vorzeichen auf beiden Seiten gleich sein oder verschieden (betrachte um x = 0 und x1 um x = 0). Bei einem Pol nähert sich der Funktionsgraph asymptotisch einer Geraden parallel zur y− Achse, zumindest auf einer Seite dieser Geraden. 1 x2 1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN 53 f (x) = p(x) k ≥ 1 sei die Ordnung dieser Nullstelle von q (p, q sind Polynome) q(x) , q (a) = 0 1. Fall: p (a) = 0 Dann hat f an der Stelle a einen Pol. 2. Fall: p (a) = 0, Nullstelle von p der Ordnung m ≥ 1, dann treten folgende drei Fälle auf: 1. Unterfall: k > m Dann hat f an der Stelle a einen Pol. 2. Unterfall: k = m Dann existiert limx→a f (x) ∈ R{0}, damit kann f in a stetig ergänzt werden. 3. Unterfall: k < m Dann existiert limx→a f (x) = 0, und f kann damit stetig in a ergänzt werden. Ferner ist das Verhalten für |x| → ∞ interessant und leicht beschrieben: Polynomdivision zeigt, dass für Zählergrad > N ennergrad der Zähler dominiert und f (x) gegen ±∞ geht für x → ±∞ (mit allen denkbaren Vorzeichenverteilungen!). Sie zeigt auch, dass für Zählergrad = N ennergrad eine Konstante = 0 herauskommt als Asymptote für x ± ∞. Im Falle Zählergrad < N ennergrad hat man die Konstante mit Wert 0 als Asymptote für x ± ∞. Es ist daher vernünftig, bei gebrochen rationalen Funktionen stets eine Darstellung p(x) q(x) mit teilerfremden Polynomen zu wählen, so dass Zähler und Nenner keine gemeinsamen Nullstellen mehr haben (sonst ist zu kürzen). Dann gilt einfach: An den Nullstellen des Nenners liegen Pole vor, die Funktion ist dort nicht definiert. Insgesamt: Die vertikalen und horizontalen bzw. schrägen Asymptoten sind gegenüber den Polynomen die möglichen neuen Phänomene; die Graphen zerfallen beim Auftreten von Polen in mehrere völlig glatte Äste.Gebrochen rationale Funktionen Erlaubt man zusätzlich Division von Funktionen, so bekommt man die Klasse der gebrochen rationalen Funktionen. Die Rechenausdrücke können immer in die Endform p(x) q(x) mit Polynomen p, q gebracht werden (q nicht die Konstante Null) . Die Nullstellen sind diejenigen des Zählers, bei denen der Nenner nicht Null wird. Interessant sind die Nullstellen des Nenners. Zunächst ist der Ausdruck p(x) q(x) für q (x) = 0 nicht definiert. Aber es ist genauer zu beschreiben, was an einer solchen Stelle auftreten kann. Zunächst definieren wir: Definition 10. Eine Funktion f hat einen Pol an der Stelle a, wenn f (x) gegen ±∞ geht, wenn man sich mit x der Stelle a von rechts oder von links nähert. Bei beidseitigen Polen können die Vorzeichen auf beiden Seiten gleich sein oder verschieden (betrachte um x = 0 und x1 um x = 0). Bei einem Pol nähert sich der Funktionsgraph asymptotisch einer Geraden parallel zur y− Achse, zumindest auf einer Seite dieser Geraden. 1 x2 f (x) = p(x) k ≥ 1 sei die Ordnung dieser Nullstelle von q (p, q sind Polynome) q(x) , q (a) = 0 1. Fall: p (a) = 0 Dann hat f an der Stelle a einen Pol. 2. Fall: p (a) = 0, Nullstelle von p der Ordnung m ≥ 1, dann treten folgende drei Fälle auf: 1. Unterfall: k > m Dann hat f an der Stelle a einen Pol. 2. Unterfall: k = m Dann existiert limx→a f (x) ∈ R{0}, damit kann f in a stetig ergänzt werden. 3. Unterfall: k < m Dann existiert limx→a f (x) = 0, und f kann damit stetig in a ergänzt werden. Ferner ist das Verhalten für |x| → ∞ interessant und leicht beschrieben: Polynomdivision zeigt, dass für Zählergrad > N ennergrad der Zähler dominiert und f (x) gegen ±∞ geht für x → ±∞ (mit allen denkbaren Vorzeichenverteilungen!). Sie zeigt auch, dass für Zählergrad = N ennergrad eine Konstante = 0 herauskommt als Asymptote für x ± ∞. Im Falle Zählergrad < N ennergrad hat man die Konstante mit Wert 0 als Asymptote für x ± ∞. Es ist daher vernünftig, bei gebrochen rationalen Funktionen stets eine Darstellung p(x) q(x) mit teilerfremden Polynomen zu wählen, so dass Zähler und Nenner keine gemeinsamen Nullstellen mehr haben (sonst ist zu kürzen). Dann gilt einfach: Die Nullstellen sind genau die des Zählers, und genau an den Nullstellen des Nenners liegen Pole vor, die Funktion ist genau an diesen Stellen nicht definiert. Insgesamt: Die vertikalen und horizontalen bzw. schrägen Asymptoten sind gegenüber den Polynomen die möglichen neuen Phänomene; die Graphen zerfallen beim Auftreten von Polen in mehrere völlig glatte Äste. Wir ergänzen einen besonders einfachen Fall der Partialbruchzerlegung, in welchem diese sehr nützliche Zerlegung ganz schnell ausgeführt werden kann: 54 4. REELLE FUNKTIONEN Satz 14 (Partialbruchzerlegung im einfachsten Fall). Seien p, q Polynome mit Grad (p) < Grad (q) , Grad (q) > 1, und q (x) zerfalle in lauter verschiedene Linearfaktoren der Form (x − αi ) , also q (x) = n (x − αi ) , αi = αj für i = j, 1 ≤ i, j ≤ n > 1. Dann gilt: i=1 p (x) q (x) = Ai = n i=1 Ai , mit (x − αi ) p (αi ) n j=i, 1≤j≤n (Man beachte, dass Ai Konstanten sind.) Praktischer Zusatz: Allgemeiner hat man auch mit q (x) = (αi − αj ) n i=1 p (x) q (x) = Ai = n i=1 . (β i x − αi ) , β i = 0 für alle i, die Zerlegung Ai , mit (β i x − αi ) p (αi /β i ) n j=i, 1≤j≤n (αi /β i − αj ) Die Formel für die Konstanten findet man leicht so: Multiplikation der ersten Gleichung mit x − αi ergibt n p (x) Aj (x − αi ) = Ai + . n (x − αj ) j = i (x − αj ) j=i, 1≤j≤n Einsetzen von x = αi führt sofort zur angegebenen Formel. Bemerkung: Man achte auf die Bedingung Zählergrad < Nennergrad. Ist das nicht der Fall, so bekommt man eine praktische Summenzerlegung nach Polynomdivision. Zu dem Term in (∗) ist dann lediglich ein Polynom zu addieren. x2 − 1 1 8 5 Beispiele: =− − + . Hier (zu den Linearfak(2x − 1) (x + 3) (x + 4) 21 (2x − 1) 7 (x + 3) 3 (x + 4) 1 2 −1 1 (−3)2 −1 (−4)2 −1 = − , A2 = (2·(−3)−1)(−3+4) = − 87 , A3 = (2·(−4)−1)(−4+3) = toren der Reihe nach): A1 = 1 2 1 21 2 +3 2 +4 5 3. x4 −1 80 255 2 (x+3)(x+4) = x − 7x + 37 + x+3 − x+4 erhält man so: Zunächst führt man Polynomdivision durch: 4 −445 − 175x x − 1 : x2 + 7x + 12 = x2 − 7x + 37 + . (x + 3) (x + 4) Dann mit dem verbleibenden Bruch −445−175x (x+3)(x+4) wie im ersten Beispiel: −445 − 175x 80 255 = − , (x + 3) (x + 4) x+3 x+4 wobei man rechnet: A1 = −445−175·(−3) = 80, A2 = −445−175(−4) = −255. (−3+4) (−4+3) 1.2.4. Lineare Transformationen von Funktionen. Viele praktisch auftretende Funktionen haben Rechenausdrücke wie g(x) = α + βf (γx + δ) , mit Konstanten α, β, γ, δ, entstehen also aus f durch Vor- und Nachschalten einer linearen Funktion (im Sinne von affin). Dabei ist f oft eine bereits bekannte Funktion wie sin oder exp . Es ist recht praktisch, zu wissen, welche geometrischen Operationen man mit dem Graphen von f ausführen muss, um den Graphen von g zu bekommen. Der Reihe nach: Man verschiebt den Graphen von f um δ nach links, staucht den Graphen längs der x− Achse mit α (oder streckt mit 1/α), streckt ihn anschließend längs der y− Achse mit β und verschiebt ihn um α nach oben. Man beachte 1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN 55 die Reihenfolge - jede Operation ist jeweils auf das vorige Zwischenergebnis anzuwenden. ’Strecken’ längs einer Achse mit einem negativen Faktor bedeutet dabei stets: Strecken mit dem Betrag des Faktors und Spiegeln an der jeweils anderen Achse. Verschieben ’nach rechts’ mit −3 bedeutet Verschieben nach links um 3, usw. Beispiel: 4 sin (3t + π/4) (wir deuten die unabhängige Variable t als Zeit) ergibt eine nur leicht modifizierte Sinusschwingung. Die Amplitude ist 4, der Mittelwert ist Null wie bei Sinus, der Faktor 3 bei x bedeutet Stauchung längs der t− Achse mit 3, es läuft also alles drei mal so schnell ab - richtig: 3 3 ist die Kreisfrequenz, d.h. die Periodendauer ist 2π der 3 , die Frequenz also ν = 2π . π/4 schließlich ist √ Nullphasenwinkel, d.h. die y− Achse schneidet durch den Graphen im Aufsteigen beim y− Wert 2 + 2 2. So kann man das ganz schnell zeichnen: 4 2 -3 -2 -1 0 1 t 2 3 -2 -4 Die Maxima liegen an den Stellen u (k) = (π/2 − π/4 + 2kπ) /3 = π/12 + 2kπ/3, k ∈ Z. Dazu setzt man 3t + π/4 = π/2 + 2kπ und löst nach t auf. Durchführung der erwähnten Operationen mit den Maxima von sin führt sofort auf dasselbe Ergebnis, schon aufgelöst nach t: Verschieben der Zahl π/2 + 2kπ auf der Zahlengeraden nach links um π/4, dann Stauchen mit 3. Also gerade (π/2 − π/4 + 2kπ) /3. Beispiel: at/d , mit d > 0, a > 0 , a = 1, läuft mit anderer Geschwindigkeit als at , und zwar so, dass Vervielfachung der Werte mit a im Zeitintervall der Breite d auftritt, also langsamer mit d > 1, schneller mit d < 1. Ebenso erklärt sich mit den erwähnten linearen Transformationen der Ausdruck a(t−t0 )/d : Zusätzlich ist um t0 nach rechts verschoben worden. (Verschiebung des Graphen nach (!) Streckung mit d.) 1.2.5. Übertragung von Eigenschaften von Funktionen auf ihre Verknüpfungen. Multiplikation einer Funktion mit einer Konstanten: Diese wurde bereits im letzten Abschnitt besprochen. Addition von Funktionen: Sind f, g beide positiv, so ist es die Summe. Sind f, g monoton steigend, so ist es die Summe (ebenso für ’fallend’). Eine Summe gerader (ungerader) Funktionen ist wieder gerade (ungerade). Multiplikation von Funktionen: Sind f, g positiv, so ist es fg. (Analog weitere Vorzeichenregeln.) Sind f, g monoton steigend und positiv, so ist f g monoton steigend. Verkettung von Funktionen: Ist f periodisch, so ist es auch g ◦ f. Ist f gerade, so ist es auch g ◦ f. Sind f, g beide ungerade, so ist g ◦ f gerade. Sind f, g beide monoton steigend oder beide monoton fallend, so ist g ◦ f monoton steigend. Ist eine der beiden Funktionen f, g monoton steigend, die andere monoton fallend, so ist g ◦ f monoton fallend. Solche Zusammenhänge sollte man nutzen. Auswendiglernen solcher kleinen Beobachtungen wird nicht funktionieren, besser ist es, sich jeweils die Frage nach der Erschließbarkeit einer solchen Eigenschaft für eine Zusammensetzung zu stellen und diese Frage selbständig zu beantworten - durch logisches Überlegen. Eine solche Überlegung wollen wir an zwei Beipielen demonstrieren - analog zeigt man alle genannten Aussagen: ’Wenn f monoton steigend ist und g monoton fallend, dann ist g◦f monoton fallend’. Sei x ≤ y. Dann mit der ersten Voraussetzung f (x) ≤ f (y) , also mit der zweiten g (f (x)) ≥ g (f (y)) . Somit: x ≤ y =⇒ g ◦ f (x) ≥ g ◦ f (y) . Oder: ’Wenn f gerade ist, so ist es auch g ◦ f - völlig unabhängig von den Eigenschaften von g’. Dazu hat man: f (x) = f (−x) , also g (f (x)) = g (f (−x)) . Damit ist g ◦ f gerade. Umkehrfunktion: Ist f streng monoton steigend, so ist es auch die Umkehrfunktion. Dasselbe gilt für ’fallend’. 56 4. REELLE FUNKTIONEN 1.3. Grenzwert bei Funktionen und Stetigkeit. 1.3.1. Der Begriffsapparat. Einerseits sind die hier vorzustellenden Eigenschaften von eigenständiger großer Bedeutung, andererseits werden sie auch bei der Behandlung der Ableitung wieder wichtig. Man fragt immer wieder: Wenn x gegen a geht - wohin geht dann f (x)? Das ist die Frage nach einem Grenzwert bei einer Funktion. Von einer ’ordentlichen’ Funktion stellt man sich vor, dass dann f (x) eben gegen f (a) geht - das ist eine Weise, die Stetigkeit von f in a auszugrücken. Eine andere Version der Stetigkeit, die noch etwas zu präzisieren sein wird: Bei kleinem Unterschied zwischen x und a sollte auch der Unterschied zwischen f (x) und f (a) klein bleiben. Das formulieren nunmehr genau. Zunächst brauchen wir eine kleine Vorbereitung zum Begriff ’Unendlich’. Wir sagen, dass x1 nach Null geht, wenn x nach ∞ geht, oder dass x2 nach ∞ geht für x nach ∞. Das benutzen wir gerade so, wie wenn wir sagen: x2 geht nach 4, wenn x nach 2 geht. Wie ist genauer mit −∞, ∞ umzugehen? Definition 11 (Einführung der Objekte −∞, ∞). Wir fügen der Menge der rellen Zahlen zwei neue Objekte hinzu, −∞ und ∞. Beide sind verschieden, beide sind keine Elemente von R. Wir erweitern die Anordnung von R zu einer Anordnung von R ∪ {−∞, ∞} durch die Vorschrift: −∞ < a < ∞ für alle a ∈ R. Vorsicht: Es sind keinerlei arithmetische Operationen mit −∞, ∞ definiert! Manchmal findet man Aussagen wie ∞ + b = ∞, wenn b ∈ R. Dies ist aber nur eine Abkürzung für folgende genaue Aussage: Wenn limx→a f (x) = ∞ und limx→a g(x) = b, dann limx→a (f (x) + g(x)) = ∞. Bildet man dagegen ’∞· 0’ und übersetzt in diesem Sinne diesen Term, so findet man, dass keine Aussage der Form ’∞·0 = b’ richtig ist! Es ist daher von solcher Notation überhaupt abzuraten. Wohl aber ist es sinnvoll und wichtig, den Begriff der ’Umgebung’ sowohl für reelle Zahlen als auch für −∞, ∞ zu bilden: Definition 12 (Begriff der Umgebung). Eine Umgebung einer Zahl a ∈ R ist eine Zahlenmenge, welche ein offenes Intervall um a enthält, also eine Zahlenmenge, welche Uε (a) := { x ∈ R| |x − a| < ε} enthält für ein ε > 0. Eine Umgebung von ∞ ist eine Zahlenmenge, welche eine Menge der Form { x ∈ R| x > M } enthält für eine reelle Zahl M. Eine Umgebung von −∞ ist eine Zahlenmenge, welche eine Menge der Form { x ∈ R| x < m} enthält für eine reelle Zahl m. Beipiele: x ∈ R| x < −1010 ist eine Umgebung von −∞. { x ∈ R| − 0.1 < x < 0.1} = U0.1 (0) ist eine Umgebung von 0, und U0.01 ist eine kleinere Umgebung von 0. Wichtige Bemerkung: Wenn man von beliebig kleinen Umgebungen spricht, so kann man sich auf solche offenen Intervalle beschränken. Denn zu jeder Umgebung gibt es eine kleinere, welche diese spezielle Form hat. Damit werden Umgebungen sehr handlich. Definition 13 (Grenzwert bei Funktionen). Seien a, b ∈ R ∪ {−∞, ∞}. Sei f (x) für alle x in einer Umgebung von a definiert, außer etwa in a selbst. Dann definieren wir: lim f (x) = b : ⇐⇒ x→a Für jede beliebig kleine Umgebung V von b gibt es eine Umgebung Das bedeutet handlich für a, b ∈ R: lim f (x) = b : ⇐⇒ x→a U von a, so dass ∀x ∈ U {a} : f (x) ∈ V ∀ε > 0∃δ > 0∀x = a : (|x − a| < δ =⇒ |f (x) − b| < ε) . Für a, b = ∞ bedeutet die Definition: lim f (x) = ∞ : ⇐⇒ x→∞ ∀M ∃N∀x > N : f (x) > M. Bemerkung: Mit Hilfe der Definition des Begriffs ’Umgebung’ kann man zwingend erschließen, wie die konkretisierte Fassung für die verbleibenden Fälle aussieht, z.B. für a ∈ R, b = −∞. Eine völlig präzise verbale Formulierung zum Verständnis: Die Definition für die Beziehung limx→a f (x) = b besagt gerade: Die Bilder liegen in einer beliebig klein gewählten Umgebung von b, wenn nur die Urbilder = a in einer hinreichend kleinen Umgebung von a liegen. Konkrete Beispiele zum Verständnis, mit Strategien, limx→a f (x) = b oder die Verneinung davon zu zeigen: 1.) f(x) = x2 , a = 2, b = 4. Wir behaupten limx→2 x2 = 4. Zum Beweis geben wir beliebiges ε > 0 vor. Dazu müssen wir eine passende Zahl δ aufweisen (wir werden gewöhnlich versuchen, eine solche als 1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN 57 Rechenausdruck in ε auszudrücken, aber wir werden manchmal auch bequem noch ’verschenken’ können, d.h. δ unnötig klein wählen). Wir wollen im Beispiel haben: x2 − 4 < ε. Also insbesondere x2 − 4 < ε, d.h. x2 < 4 + ε. Denken wir an x = 2 + η, η > 0. Dann haben wir die Bedingung x2 = η 2 + 4η + 4 <√4 + ε. Das bedeutet η 2 + 4η − ε < 0. Lösen wir die Gleichung η 2 + 4η − ε = 0, dann erhalten wir √ η = −2+ 4 + ε (nur die positive Lösung ist brauchbar!). Damit wissen wir: Wenn δ = δ (ε) = −2 + 4 + ε (das ist der besagte Ausdruck in ε hier!), so wissen wir jetzt: Wenn x > 2, |x − 2| < δ, dann x2 − 4 < ε. Probieren wir aus, ob das auch für x < 2, |x − 2| < δ gilt: Wir haben dann mit einem η > 0 : x = 2− η > 2−δ. Aber √ √ (2 − δ)2 = 4 − 4δ + δ 2 , mit δ = −2 + 4 + ε also: (2 − δ)2 − 4 = 16 − 8 4 + ε + ε und damit für δ < 2 √ (was etwa mit ε < 1 automatisch der Fall ist): x2 − 4 < (2 − δ)2 − 4 = −8 4 + ε + 16 + ε < ε. Denn √ −8 4 + ε + 16 < 0. Wir haben im Beispiel sogar δ (ε) optimal ausgerechnet. So etwas macht typisch 2 ein wenig Aufwand. 2 Im Beispiel wäre folgender Weg vielε einfacher: x − 4 = (x − 2) (x + 2) . Mitε ε < 1 hat 2 man dann x − 4 ≤ |x − 2| · 5, also reicht δ (ε) = 5 . Dann wird nämlich mit |x − 2| < δ = 5 auch x − 4 ≤ ε · 5. Die Voraussetzung ε < 1 ist harmlos. Für ε > 1 wähle einfach δ (ε1 ) mit einem ε1 < 1. 5 (Unten wird man sehen, dass wir damit die Stetigkeit der Quadratfunktion an der Stelle x0 = 2 gezeigt haben. Analog kann man einsehen, dass stets limx→x0 x2 = x20 gilt. 2.) limx→0 x12 = ∞. Dafür haben wir zu zeigen: Wählt man |x| klein genug, so ist x12 > M für vorgegebene Zahl M. Wieder dürfen wir M beliebig groß voraussetzen, wir verlangen M > 0. Dazu lösen 1 wir einfach die Ungleichung nach |x| auf: x12 > M ⇐⇒ |x|2 < M ⇐⇒ |x| < √1M . In diesem Falle war sogar das optimale δ (M) leicht auszurechnen. 3.) limx→0 x1 existiert nicht, schon gar nicht als Zahl, aber auch nicht in der Form ±∞. Wir zeigen das ausführlich, den Umgang mit der Verneinung der Bedingung zu üben. Um zu zeigen, dass der Grenzwert hier keine reelle Zahl sein kann, haben wir Folgendes zu tun: Für eine beliebige Zahl b ∈ R ist eine Umgebung Uε (b) anzugeben, so dass mit |x| < δ, δ > 0, niemals garantiert ist, dass x1 − a < ε, so klein 1 man auch δ wählt. Wir wählen mit x = 0, ε = 1. Wir lösen x − b 1> 1 - nur eine Lösung ist verlangt 1 1 |x| < δ! Die Bedingung x − b > 1 ist sicher erfüllt mit x > |b| + 1, also x > 0 und x < |b|+1 . Aber die 1 zweite Bedingung verlangt |x| < δ. Beides ist erfüllt mit x = min δ/2, |b|+2 . Aber der Limes kann auch nicht ∞ sein; denn dann müsste x1 > M > 0 gelten für |x| < δ, mit passendem δ. Aber mit x = −δ/2 ist 1 x < 0 < M. Ebenso kann auch −∞ nicht Grenzwert sein, wozu man N < 0 wählt und x = δ/2. 4.) Ist limx→a f (x) = b und limx→a g (x) = c, so gilt limx→a (f (x) + g (x)) = b + c. Denn seien zu beliebiger Zahl ε > 0 nach Voraussetzung existierende Zahlen δ 1 , δ 2 > 0 derart gegeben, dass |f (x) − b| < ε/2 für |x − a| < δ 1 und |g (x) − c| < ε/2 für |x − a| < δ 2 . Dann wählen wir δ = min (δ 1 , δ 2 ) und haben: |f (x) + g (x) − (b + c)| = |f (x) − b + g (x) − c| ≤ |f (x) − b| + |g (x) − c| < ε/2 + ε/2 = ε. Damit haben wir einen der praktischen typischen Grenzwertsätze, die wir noch ein wenig ausbauen wollen. Zunächst haben wir die grundlegende Tatsache: Satz 15 (Eindeutigkeit des Grenzwerts). Wenn limx→a f (x) existiert, so ist dieser eindeutig bestimmt. Begründung: Wenn b1 = b2 , so gibt es Umgebungen V1 von b1 und V2 von b2 mit V1 ∩ V2 = ∅. Also kann eine Umgebung von a ihre f − Bilder nicht in V1 und V2 zugleich haben. Zu Ungleichungen bei Grenzwerten hat man folgende Grundtatsache: Satz 16 (Monotonie des Grenzwertes). Wenn f (x) ≤ g (x) für alle x = a (in einer beliebig kleinen Umgebung von a) und limx→a f (x) , limx→a g (x) beide existieren, so ist limx→a f (x) ≤ limx→a g (x) . (Analog für ≥ .) Insbesondere folgt aus α ≤ f (x) ≤ β für alle x in einer beliebig kleinen Umgebung von a, dass α ≤ limx→a f (x) ≤ β, wenn dieser Grenzwert existiert. Vorsicht: Die entsprechend Aussage gilt nicht mit <, > . Beispiel: x1 > 0 für x > 0, aber limx→∞ x1 = 0, nicht mehr > 0. Begründung: Wäre b = limx→a f (x) > limx→a g (x) = c, so gäbe es eine Umgebung U von b und eine Umgebung V von c, so dass alle Elemente von U größer als elle Elemente von V wären. Wegen der Limesbeziehungen gäbe es jedoch eine Umgebung W von a, so dass für alle x ∈ W \ {a}: f (x) ∈ U und g (x) ∈ V. Für jedes solche x ∈ W \ {a} wäre f (x) > g(x) entgegen der Voraussetzung, dass f (x) ≤ g(x) zumindest in einer kleinen Umgebung von a. Für die zweite Aussage braucht man nur g(x) = β (konstant) zu setzen bzw. g(x) = α und die erste darauf anzuwenden. 58 4. REELLE FUNKTIONEN Man kann die Monotonie des Grenzwertes zuweilen ausnutzen, um einen neuen Grenzwert zu bestimmen, wenn es gelingt, die Werte geeignet einzuschließen: Satz 17 (Einschließungsprinzip). Wenn limx→a f (x) = limx→a h (x) = c ∈ R und f(x) ≤ g (x) ≤ h (x) für alle x (wieder genügt es, dies für alle x in einer beliebig kleinen Umgebung von a zu fordern), dann gilt limx→a g (x) = c. Beweis: Nach Voraussetzung haben wir zu vorgelegtem ε > 0 stets δ > 0, so dass |f(x) − c| < ε/2 und |h (x) − c| < ε/2 für alle x mit |x − a| < δ, x = a. Mit der Ungleichung f(x) ≤ g (x) ≤ h (x) gilt dann |g(x) − c| ≤ |f (x) − c| + |g (x) − c| < ε. Anwendungsbeispiel: Sei 0 < x < π/2. Wir betrachten das Dreieck mit den Eckpunkten (0, 0), (0, cos (x)) , (cos (x) , sin (x)) . Sein Flächeninhalt ist 12 sin (x) cos (x) . Der Kreisbogen des Einheitskreises zwischen den letzten beiden Eckpunkten schließt mit dem Ursprung einen Kreissektor ein mit Flächeninhalt x x 1 x 2π · π = 2 . Also 2 sin (x) cos (x) ≤ 2 . Der Kreissektor ist aber dem Dreieck mit den Eckpunkten (0, 0) , sin(x) (1, 0) , (1, tan (x)) einbeschrieben. Also x2 ≤ 12 tan (x) = 12 cos(x) . Das liefert die Ungleichung sin (x) sin (x) cos (x) ≤ x ≤ , 0 < x < π/2. Folglich cos (x) x 1 ≤ cos (x) ≤ für 0 < |x| < π/2. Daher (Ungleichung für die Kehrwerte!) sin (x) cos (x) sin (x) 1 ≥ cos (x) für 0 < |x| < π/2. ≥ cos (x) x 1 Aber limx→0 cos (x) = limx→0 cos(x) = 1. (Dafür benutzen wir allerdings die Stetigkeit von cos sowie an der Stelle x0 = 0, s.u.) Mit dem Einschließungsprinzip haben wir: 1 cos sin (x) = 1. x Wie wir später sehen werden, ist dies genau die Aussage: sin′ (0) = 1 = cos (0) . Also: sin ist an der Stelle 0 differenzierbar, und die Ableitung hat dort den Wert 1. Damit werden wir ganz leicht allgemein sin′ = cos beweisen können. Zuweilen sind wie im Beispiel 4.) oben Überlegungen nützlich, sich an eine Stelle a einmal von rechts und einmal von links zu nähern. Das wollen wir systematisieren: lim x→0 Definition 14 (einseitige Grenzwerte). Sei a ∈ R. Dann definiert man lim f (x) = b : ⇐⇒ Für jede beliebig kleine Umgebung V von b gibt es eine Umgebung U von a, so dass ∀x ∈ U {a} : x > a =⇒ f (x) ∈ V x→a+ Entsprechend definiert man limx→a− f (x) = b mit der eingefügten Bedingung x < a. (Einziger Unterschied zur Definition des gewöhnlichen ’beidseitigen’ Grenzwertes: Es werden nur jeweils die x > a bzw. die x < a betrachtet, die Forderung auf diese eingeschränkt.) Beispiel: Man hat limx→0+ x1 = ∞, aber limx→0− Grenzwerte mit dem beidseitigen: 1 x = −∞. Folgender Satz verbindet die einseitigen Satz 18. limx→a f (x) = b ⇐⇒ limx→a− f(x) = b und limx→a+ f (x) = b. Begründung: ’ =⇒ ’ ist unmittelbar klar (beide Bedingungen auf der rechten Seite verlangen weniger.) Zu ’ ⇐= ’: Auch das ist reine Logik: Nach beliebiger Wahl einer Umgebung V von b gibt es Umgebungen U1 , U2 von a jeweils zur Erfüllung der beiden einseitigen Grenzwertforderungen. Damit kann man aber ein ∈ heitlich U = U1 ∩U2 wählen. Somit für alle x ∈ U: x > a =⇒ f (x) V und x < a =⇒ f (x) ∈ V . Daher für alle x ∈ U x < a oder x > a =⇒ f (x) ∈ V , also x = a =⇒ f (x) ∈ V für alle x ∈ U. Genau das verlangt die Definion von limx→a f(x) = b. Wir kommen zum Begriff der Stetigkeit: Definition 15. Es sei f eine Funktion, deren Definitionsbereich eine Umgebung von x0 ∈ R umfasst. f heißt stetig an der Stelle x0 genau dann, wenn limx→x0 f (x) = f (x0 ) . (Entsprechend formuliert man ’halbstetig von oben / unten’ mit den entsprechenden einseitigen Grenzwerten). 1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN 59 Bemerkung zum konkreteren Verständnis: Die Definition besagt, dass man f mit dem Grenzprozess vertauschen kann. Wir haben hier den Begriff der Konvergenz von Zahlenfolgen nicht eingeführt (Mathematik B), aber immerhin können wir intuitiv verstehen: ’Wenn eine Folge von Zahlen gegen x0 konvergiert, so konvergiert die Folge der f− Bilder gegen f (x0 )’. Genau dies fordert die Definition für beliebige Zahlenfolgen. Handlich benutzbar wird die Stetigkeitsdefinition durch folgendes Einsetzen der Definition des Grenzwertes bei Funktionen (mit der Erleichterung, dass sowohl x0 als auch f (x0 ) Zahlen sind und nicht ±∞): Satz 19. Mit den Voraussetzungen der vorigen Definition gilt: f stetig in x0 ⇐⇒ ∀ε > 0∃δ > 0∀x (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) . Das ist eine unmittelbare Umformulierung von limx→x0 f (x) = f (x0 ) . Lediglich die Einschränkung auf x = x0 fehlt - diese war wesentlich bei der allgemeinen Grenzwertdefinition, da f (a) nicht definiert zu sein brauchte - und bei a ∈ {−∞, ∞} auch nicht sein konnte. Hier ist die Kernaussage für x = x0 banal richtig. 1.3.2. Praktische Ermittlung von Grenzwerten und Entscheidung von Stetigkeit. Meist wird man nicht unmittelbar die zuvor gegebenen Definitionen anwenden, sondern so arbeiten: Man kennt schon gewisse Grenzwerte oder sieht sie sofort, dann schließt man auf Grenzwerte zusammengesetzter Ausdrücke (sowohl für die Frage der Existenz als auch für die Frage des Wertes). Ebenso beim Umgang mit dem Stetigkeitsbegriff: Man weiß schon von vielen Funktionen globale Stetigkeit und schließt auf die Stetigkeit zusammengesetzter Funktionen. Daher stellen wir in den folgenden beiden Sätzen die nützlichen Grundresultate zusammen, darunter auch ein solche, die erst später begründet werden kann, da sie die Ableitung benutzen. 1.3.3. Grenzwertsätze. Satz 20 (über Grenzwerte bei Funktionen). Es sei a ∈ R ∪ {−∞, ∞}. Es seien limx→a f (x) = b ∈ R und limx→a g (x) = c ∈ R. Dann gilt: 1. Abteilung: Arithmetisches Rechnen mit endlichen Grenzwerten Es seien limx→a f (x) = b ∈ R und limx→a g (x) = c ∈ R. Dann gilt: lim αf (x) = α lim f (x) x→a x→a lim (f (x) ± g (x)) = b ± c x→a lim (f (x) · g (x)) = b · c x→a lim x→a f (x) g (x) = b , wenn c = 0 c 2. Abteilung: Arithmetisches Verhalten von Grenzwerten einschließlich ∞ Wenn lim f(x) = ∞ und lim g(x) = c ∈ R, dann lim (f(x) + g(x)) = ∞ x→a x→a x→a Wenn lim f(x) = ∞ und ∀x(0 < m < g (x)), dann lim (f (x) g (x)) = ∞ x→a x→a f (x) =0 g(x) f(x) Wenn lim f(x) = ∞ und ∀x(0 < g (x) ≤ M ), M ∈ R, dann lim = ∞. x→a x→a g(x) Wenn ∀x |f (x)| ≤ c ∈ R und lim g (x) ∈ {−∞, ∞}, dann lim x→a x→a Bemerkung: die Aussagen ∀x... in den Voraussetzungen der letzten drei Aussagen werden jeweils nur für x ∈ U \ {a} für eine Umgebung U von a benötigt. 3. Wenn f stetig ist in a ∈ R, so ist limx→a f (x) = f(a). 4 . Abteilung : Regel von de L’Hospital zum arithmetischen Verhalten von Grenzwerten von Brüchen in den problematischen Fällen (Zähler und Nenner beide gegen Null oder beide gegen ∞) 60 4. REELLE FUNKTIONEN Sei a ∈ R ∪ {−∞, ∞}. Es sei lim f (x) = lim g (x) = 0 oder lim f (x) = lim g (x) = ∞. x→a x→a x→a x→a f ′ (x) f (x) f (x) f ′ (x) = limx→a ′ Wenn limx→a ′ existiert, dann existiert limx→a , und limx→a . g (x) g (x) g (x) g (x) Begründungen: Die Aussagen der 4. Abteilung werden wir erst mittels der Ableitung und theoretischer Resultate über sie beweisen können (Stichwort Mittelwertsatz). Von den Aussagen der ersten beiden Abteilungen beweisen wir nur einige Beispiele - das Andere geht analog mit denselben Mitteln: Zu limx→a f(x) = b und limx→a g(x) = c =⇒ limx→a (f (x)g(x)) = bc. (Die Aussage über die Summe wurde schon in den Beispielen oben bewiesen.) Wir zeigen hier die grundlegende Strategie: Wir rollen die Sache vom Ziel her auf, und das ist die Aussage |f (x)g(x) − bc| < ε für beliebig klein vorgewähltes ε > 0. Gesucht ist eine Umgebung V von a, so dass diese Ungleichung für alle x ∈ V \{a} gilt. Wir wissen, dass wir |f (x) − b| und |g (x) − c| beliebig klein machen können für x = a aus einer Umgebung V von a. (Zunächst getrennt, dann bilden wir den Durchschnitt der Umgebungen und haben V , so dass beide Beträge klein sind.) Der Ausdruck |f (x)g(x) − bc| muss nun mit einem sehr typischen Mittel, der Dreiecksungleichung auf die Ausdrücke |f (x) − b| , |g (x) − c| zurückgeführt werden. Dazu haben wir: |f (x)g(x) − bc| = |f (x)g (x) − bg(x) + bg(x) − bc| ≤ |f (x)g(x) − bg(x)| + |bg(x) − bc| = |g(x)| |f (x) − b| + |b| |g (x) − c| . Es leuchtet bereits ein, dass dies so klein wird, wie wir wollen, wenn wir |f (x) − b| , |g (x) − c| hinreichend klein gemacht haben. Das wird deutlich, wenn wir |g(x)| < |c| + 1 setzen, was nach Voraussetzung limx→a g(x) = c sicherlich für x = a in einer Umgebung W von a gilt. Wir haben also |f (x)g(x) − bc| < (|c| + 1) |f (x) − b| + |b| |g (x) − c| . Wir wollen den Ausdruck auf der rechten Seite ≤ ε mit beliebig vorgelegtem ε > 0 bekommen. Setzen wir ε ε1 := min 1, , 2 max(|c| + 1, |b|) so folgt aus |f (x) − b| < ε1 , |g (x) − c| < ε1 das Gewünschte: (|c| + 1) |f (x) − b| + |b| |g (x) − d| < ε. Nach den Voraussetzungen limx→a f(x) = b, limx→a g(x) = c haben wir aber eine Umgebung V von a, so dass für alle x = a aus V gilt: |f (x) − b| < ε1 , |g (x) − c| < ε1 . Somit gilt |f (x)g(x) − bc| < ε für alle x = a aus W ∩ V, und W ∩ V ist wieder eine Umgebung von a. (x) Zu limx→a fg(x) = bc , wenn c = 0 und limx→a f (x) = b, limx→a g (x) = c: Man sieht schnelle, dass 1 limx→a g(x) = 1c ; denn 1 1 1 − = g(x) c cg (x) |c − g (x)| , für g (x) = 0. Man hat für x = a in einer Umgebung W von a: g (x) = 0, und |g (x)| > |c| − α > 0, also: 1 1 1 − g(x) c < (|c| − α) |c| |c − g (x)| . Nach Voraussetzung limx→a g (x) = c hat man eine Umgebung V von a, so dass für alle x ∈ V \ {a}: |c − g (x)| < ε1 , für beliebiges ε1 > 0. Wir setzen zu beliebig vorgelegtem ε > 0: ε1 := ε ((|c| − α) |c|) und haben damit für x ∈ W ∩ V \ {a}: 1 1 g(x) − c < ε. 1 Das Resultat für die Quotienten folgt nunmehr aus dem für die Produkte durch Anwenden auf f (x) g(x) . 1. GRUNDFUNKTIONEN UND ZUSAMMENGESETZTE FUNKTIONEN, GRENZWERTE BEI FUNKTIONEN 61 Ein Beispiel zur 2. Abteilung - es sei bemerkt, dass diese Aussagen allesamt ziemlich banal sind und eigentlich stets intuitiv richtig gesehen werden: Wenn limx→a f (x) = ∞ und ∀x ∈ U \{a}(0 < g (x) ≤ M ), (x) M ∈ R, dann limx→a fg(x) = ∞. Nach der Voraussetzung limx→a f (x) = ∞ hat man zu jeder beliebig großen Zahl A ∈ R eine Umgebung V von a, so dass |f (x)| > A für alle x ∈ V \ {a}. Mit U aus der Voraussetzung bilden wir W := U ∩ V und haben für alle x ∈ W \ {a}: f (x) ≥ 1 |f (x)| ≥ A . (∗) g (x) M M Setzen wir eine beliebig große Zahl B ∈ R voraus, so wählen wir dazu A > M B und haben mit (∗): f (x) g(x) > B. Zur Nummer 3. bemerken wir, dass die Aussage direkt die Definition der Stetigkeit darstellt. Aber die Aussage ist recht nützlich. Wenn man z.B. weiß, dass limx→∞ arctan (x) = π/2, so weiß man sofort: limx→∞ ln (arctan (x)) = ln (π/2) . Vgl. auch das zweite Anwendungsbeipiel zur 4. Abteilung. Zur 4. Abteilung zwei Anwendungsbeispiele: Erstes Beispiel: x 1 lim = lim x = 0. x→∞ ex x→∞ e Also dominiert exp über x1 . Das geht aber für jede Potenz von x. Sei a > 0. Dann gibt es eine natürliche Zahl n, so dass a < n. Wir zeigen durch Induktion, dass für alle n ∈ N0 gilt: xn lim x = 0. x→∞ e 0 Induktionsanfang: limx→∞ exx = 0 ist eine banale richtige Aussage aus der 2. Abteilung. n Induktionsschluss: Sei n eine beliebige Zahl aus N0 , so dass limx→∞ xex = 0. Wir haben zu zeigen, dass die Aussage dann auch für n + 1 gilt. Aber xn+1 (n + 1) xn xn = lim = (n + 1) lim x = (n + 1) · 0 = 0. x x x→∞ e x→∞ e Ind.-Vor. und Konstantenregel de L’Hospital x→∞ e Genauer lautet das Argument: Da der Grenzwert auf der rechten Seite des ersten Gleichheitszeichens mit n+1 Wert Null existiert, existiert auch limx→∞ x ex und hat den Wert Null. Zweites Beispiel: Was ist lim xx ? lim x→0+ x x ln(x) Wir schreiben für x > 0: x = e . Wir haben ln (y) lim (x ln (x)) = lim y→∞ x→0+ y Also mit den Stetigkeitsargument Nummer 3.: = lim de L’Hospital y→∞ 1/y = 0. 1 lim xx = lim ex ln(x) = e0 = 1. x→0+ x→0+ 1.3.4. Stetigkeitssätze (Übertragung der Stetigkeit von Bestandteilen einer Funktion auf ihre Zusammensetzungen). Aus den erwähnten Grenzwertsätzen der ersten und dritten Abteilung folgt über den Begriff der Stetigkeit direkt folgender Satz 21. Seien f, g stetig in x0 . Dann sind auch f + g, f − g, f g in x0 stetig. Wenn außerdem g (x0 ) = 0, so ist auch fg in x0 stetig. Sei f stetig in x0 , g stetig in f (x0 ) . Dann ist auch g ◦ f stetig in x0 . Zum Beweis zeigen wir die erste Aussage für den Fall f + g (die anderen gehen völlig analog, es ist nur das Verknüpfungszeichen auszuwechseln). Zu zeigen ist: limx→x0 (f (x) + g (x)) = (f + g) (x0 ) = f (x0 ) + g (x0 ) . Aber mit der Vertauschung von lim mit + haben wir nach Grenzwertsatz: lim (f (x) + g (x)) x→x0 = lim (f (x)) + lim (g (x)) Grenzwertsatz x→x0 x→x0 = Vorauss. der Stetigkeit von f,g Zur zweiten Aussage: Zu zeigen ist: limx→x0 g (f (x)) = g (f (x0 )) . Wir haben: lim g (f (x)) = g lim f(x) = x→x0 Stetigkeit von g in f (x0 ) x→x0 f (x0 ) + g (x0 ) . Stetigkeit von f in x0 und Grenzwertsatz g (f (x0 )) . 62 4. REELLE FUNKTIONEN Dass man in vielen Fällen mit dem Begriff der Stetigkeit erst gar nicht operieren muss, garantiert folgender Satz 22. Wenn f differenzierbar in x0 ist, so ist f in x0 stetig. Diesen Satz werden wir bei der folgenden Behandlung der Ableitung einsehen. 1.3.5. Einige wichtige theoretische Sätze über Stetigkeit. Definition 16. Eine Funktion f heißt auf [a, b] (global) stetig, wenn für alle x0 ∈ (a, b) gilt: f ist in x0 stetig und ferner für die Ränder gilt: limx→a+ f(x) = f (a) und limx→b− f (x) = b. Eine Funktion heißt auf (a, b) stetig, wenn f in allen x0 ∈ (a, b) stetig ist. Analog definiert man globale Stetigkeit für halboffene Intervalle, indem man jeweils für den Rand die Bedingung wie oben hinzufügt. Definition 17 (gleichmäßige Stetigkeit). Eine Funktion f heißt auf einem Intervall I gleichmäßig stetig, wenn Folgendes gilt: ∀ε > 0∃δ > 0∀x, x0 ∈ I (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) . Bemerkung: Das bedeutet mehr als nur die globale Stetigkeit in allen x0 ∈ I. Letztere verlangt nur, dass man in Abhängigkeit von x0 zu jedem ε > 0 ein δ > 0 hat mit ∀x ∈ I (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) . Gleichmäßige Stetigkeit heißt dagegen, dass man die Strategie, mit der man zu ε ein solches δ angeben kann, unabhängig von x0 formulieren kann. Folgenden Satz geben wir ohne Beweis an: Satz 23. Eine auf einem abgeschlossenen Intervall global stetige Funktion ist dort gleichmäßig stetig. Bemerkung: Dies gilt nicht für offene oder halboffene Intervalle, z.B. ist f (x) = x1 auf (0, 1] global stetig, aber nicht gleichmäßig stetig. Denn man kann zu x0 ∈ (0, 1] sagen: Zu ε > 0 wähle δ = min(εx0 · x0 /2, x0 /2). Dann gilt für x mit |x − x0 | < δ (also x > x0 /2 (!)): 1 1 − 1 = 1 |x0 − x| < |x − x0 | < ε. x x0 xx0 x0 · x0 /2 Damit ist f global stetig auf (0, 1]. Aber das zu ε angegebene δ hängt wesentlich von x0 ab. Tatsächlich ist es unmöglich, ein passendes δ zu ε > 0 uniform für alle x0 aus (0, 1] anzugeben. Wählen wir z.B. ε = 12 , und nehmen wir an, δ > 0 wäre eine Zahl, so dass 1 − 1 <ε x x0 für alle x0 ∈ (0, 1] und alle x mit |x − x0 | < δ. Dann hätte man mit x0 = |x − x0 | < δ, aber 1 − 1 = 1 − 1 = 1 > 1 = ε. x x0 2δ 4δ 2δ 2 δ 2 und x = δ 4 natürlich Satz 24 (Zwischenwertsatz). Eine auf einem Intervall I global stetige Funktion nimmt dort mit zwei Werten a = f (x1 ) und b = f (x2 ) > a, x1 , x2 ∈ I, auch jeden Zwischenwert c mit a < c < b an. Es gibt also zu jeder solchen Zahl c eine Zahl x0 ∈ I mit f(x0 ) = c. Beweisidee: Nehmen wir an, es sei x1 < x2 mit f(x1 ) = a, f (x2 ) = b. Dann hat die Menge { x ∈ [x1 , x2 ]| f (x) ≤ c} die obere Schranke x2 , also eine kleinste obere Schranke in R (axiomatische Grundeigenschaft von R (!)). Nennen wir diese x0 . Damit gibt es eine Folge (an )n von Zahlen aus [x1 , x2 ], so dass limn→∞ (f (an )) = c. Nun hat die Folge (an )n eine konvergente Teilfolge (ank )k , deren Grenzwert x0 in [x1 , x2 ] liegen muss. Damit gilt auch limk→∞ f (ank ) = c. Aber wegen der Stetigkeit von f gilt limk→∞ f (ank ) = f (x0 ) . Somit f (x0 ) = c. (Im Falle x1 > x2 kann man völlig analog mit einer größten unteren Schranke argumentieren.) Satz 25. Eine auf [a, b] stetige Funktion f nimmt auf diesem Intervall ein absolutes Maximum und ein absolutes Minimum an. Das heißt: Es gibt x1 ∈ [a, b], so dass für alle x ∈ [a, b] : f (x) ≤ f (x1 ). Und es gibt x2 ∈ [a, b], so dass für alle x ∈ [a, b] : f(x) ≥ f(x1 ). Es folgt insbesondere, dass die Menge der Werte von f auf [a, b] (nach oben und nach unten) beschränkt ist. 2. ABLEITUNG REELLER FUNKTIONEN 63 Bemerkung: Dieser Satz bildet den Ausgangspunkt des überaus wichtigen Mittelwertsatzes der Differentialrechnung, den wir im nächsten Abschnitt kennenlernen werden. Beweisidee (für das Maximum, für das Minimum kann man zu −f übergehen und die Existenz eines absoluten Maximums benutzen): Die Menge der Werte { f (x)| x ∈ [a, b]} ist nach oben beschränkt. Sonst gäbe es eine Folge von Zahlen (an )n , an ∈ [a, b] für alle n, so dass limn→∞ f (an ) = ∞. Aber diese Folge hat auf dem abgeschlossenen Intervall eine konvergente Teilfolge (ank )k . Somit limk→∞ ank = x0 ∈ [a, b], mit der Stetigkeit von f also limk→∞ f (ank ) = f (x0 ) , im Widerspruch zu limn→∞ (f (an )n ) = ∞, woraus auch limk→∞ f (ank ) = ∞ folgen würde. Als nach oben beschränkte Menge hat nun { f (x)| x ∈ [a, b]} eine kleinste obere Schranke, nennen wir sie M. Damit gibt es wieder mit ähnlichem Argument eine konvergente Folge (bn )n von Zahlen aus [a, b], so dass limn→∞ f (bn ) = M, aber limn→∞ bn = x1 ∈ [a, b], und nach Stetigkeit hat man f(x1 ) = M. Somit wird in x1 das absolute Maximum angenommen.Ableitung reeller Funktionen (eindimensionaler Fall) 2. Ableitung reeller Funktionen Leitfaden zum Komplex: Ableitung von reellen Funktionen (eindimensional): Ableitungskalkül zur Berechnung der Ableitungen: Grundableitungen plus Regeln für Zusammensetzungen Ableitung f'(x 0) von f an der Stelle x 0: 1.) Limes der Differenzenquotienten (wenn existent) 2.) Lineare Näherung von f um x 0: f(x 0+∆ x) = f(x 0) + f'(x 0)∆x + R(∆x), mit lim x->0 R(∆x)/∆ x = 0 ∆ Anwendungen der Ableitung: Extrema von Funktionen, Wendepunkte Monotonie von Funktionen, Konvexität von Funktionen Mittelwertsatz mit vielen Anwendungen de L'Hospitalsche Regeln zur Grenzwertbestimmung Unmittelbare physikalische Anwendungen: (Momentangeschwindigkeit und Momentanbeschleunigung, Strom als Ableitung der Ladung usw.) 64 4. REELLE FUNKTIONEN Grundbegriffe und Bezeichnungen: Ableitung von f an der Stelle x0 : f ′ (x0 ) := lim ∆x→0 f (x0 + ∆x) − f (x0 ) (wenn existent) ∆x d f (x) . dx Tangentenzerlegung von f um x0 : f (x0 + ∆x) = f (x0 ) + f ′ (x0 ) ∆x + R (∆x) R (∆x) mit Restbedingung 1. Ordnung: lim = 0. ∆x→0 ∆x Näherung 1. Ordnung von f um x0 : f (x0 + ∆x) ≈ f (x0 ) + f ′ (x0 ) ∆x. (ohne Restterm!) Für f ′ (x) schreibt man auch 1. Ordnung Ableitungsfunktion f ′ zu f: Die Zuordnung x → f ′ (x) (für existierende Ableitungen) Höhere Ableitungen: f ′′ ist die Ableitung von f ′ , usw. ′ x (t) x (t) → d y (t) = y′ (t) . Ableitung einer Kurve − x (t) : Wird komponentenweise gebildet. Also dt z (t) z ′ (t) Grundresultate: Ableitungen der Grundfunktionen und Ableitungsregeln (vgl. die folgenden Tabellen) Satz: Wenn die Ableitung f ′ (x0 ) existiert, dann existiert die Tangentenzerlegung mit Resttermbedingung eindeutig. Umgekehrt: Existiert eine Tangentenzerlegung mit erfüllter Resttermbedingung, dann existiert f ′ (x0 ) und ist der Faktor bei ∆x in der Zerlegung. Satz: Wenn f ′ (x0 ) existiert und f in x0 ein Extremum hat, dann gilt f ′ (x0 ) = 0.Wenn zusätzlich f ′ noch in einer Umgebung von x0 existiert, so garantiert ein Vorzeichenwechsel von f ′ in x0 ein Extremum in x0 . (Bei −/+ ein Mimimum, sonst ein Maximum.) Wechselt das Vorzeichen nicht, liegt ein Sattel vor. Satz (Mittelwertsatz): Wenn f auf [a, b] stetig ist (a < b) und auf (a, b) differenzierbar, f (b) − f (a) dann wird die mittlere Steigung von f auf (a, b) , das ist , an einer b−a f (b) − f (a) Stelle ξ ∈ (a, b) lokal realisiert, also f ′ (ξ) = . b−a Satz vom beschränkten Zuwachs: Unter den Voraussetzungen des Mittelwertsatzes für f und g hat man: Wenn f ′ (x) ≤ g ′ (x) für alle x ∈ (a, b) , dann f (x) − f (a) ≤ g (x) − g (a) für alle x ∈ [a, b]. Folgerung: Unter den Voraussetzungen des Mittelwertsatzes für f gilt: Wenn f ′ (x) > 0 für alle x ∈ (a, b) , dann ist f streng monoton steigend auf [a, b]. Ebenso: (∀x ∈ (a, b) : f ′ (x) < 0) =⇒ f streng monoton fallend auf [a, b]. Vorsicht: Diese Aussagen sind nicht umkehrbar. Wohl aber hat man unter denselben Voraussetzungen: f auf [a, b] monoton steigend [fallend] ⇐⇒ (∀x ∈ (a, b) : f ′ (x) ≥ 0) [(∀x ∈ (a, b) : f ′ (x) ≤ 0)]. Es folgt die wichtige Aussage: Wenn die Voraussetzungen des Mittelwertsatzes für f, g erfüllt sind und f ′ = g′ auf (a, b) erfüllt ist, dann unterscheiden sich f, g nur um eine Konstante auf [a, b], also f = g + c mit festem c auf [a, b]. (Dies begründet die Eindeutigkeit von Stammfunktionen stetiger Funktionen.) Regeln von de L’Hospital zur Grenzwertbestimmung: a ∈ R ∪ {−∞, ∞}. Wenn lim f (x) = lim g (x) = 0 oder lim f (x) = lim g (x) = ∞, ferner x→a x→a x→a x→a f ′ (x) f (x) lim ′ existiert, so existiert lim , und beide Grenzwerte sind gleich. x→a g (x) x→a g (x) 2. ABLEITUNG REELLER FUNKTIONEN Ableitung der Grundfunktionen: d α x dx d x e dx d ln (x) dx d sin (x) dx d cos (x) dx d tan (x) dx d arcsin (x) dx d arccos (x) dx d arctan (x) dx d sinh (x) dx d cosh (x) dx d tanh (x) dx d arcsinh(x) dx d arctanh(x) dx = αxα−1 α∈R = ex 1 x − cos (x) merken! = = = sin (x) = 1 + tan2 (x) = ” 1 = = sinh (x) = 1 − tanh2 (x) 1 √ 1 + x2 1 1 − x2 = = = = ” cos2 (x) 1 1 − x2 1 −√ 1 − x2 1 1 + x2 cosh (x) = ” √ merken! Die Ableitungsregeln: Linearität der Ableitung: (f + g)′ (cf )′ Produktregel: (fg)′ Quotientenregel: ′ f g Kettenregel: d g (f (x)) x Umkehrfunktionsregel: −1 ′ f (f (x)) = = f ′ + g′ cf ′ = f ′ g + g′ f = f ′ g − g′ f g2 c Konstante ” ” ” = g′ (f (x)) · f ′ (x) = 1 f ′ (x) für f ′ (x) = 0 65 66 4. REELLE FUNKTIONEN Beispiele zur Anwendung des Ableitungskalküls: 1 d 1 1 d −1/3 1. √ = = − x−4/3 = − √ x 3 dx 3 x dx 3 3 x4 1 , für −π/2 < x < π/2 2. arcsin′ (sin (x)) = cos (x) 1 also: arcsin′ (y) = für −1 < y < 1. (Setze y = sin (x) .) 1 − y2 sin2 (x) 2 sin (x) cos (x) (1 − 2 cos (x)) − 2 sin3 (x) d 3. = 2 dx 1 − 2 cos (x) (1 − 2 cos (x)) 2 cos (x) (1 − 2 cos (x)) − 1 + cos (x) cos x − cos2 x − 1 = 2 sin (x) = 2 sin (x) . (1 − cos (x))2 (1 − cos (x))2 Beispiele zur Anwendung der Sätze: 1. Extrema und Wendepunkte: x 1 − x2 f (x) = 2 hat Ableitung f ′ (x) = 2 2 , Extrema können also x +1 x +1 nur in x = ±1 liegen, bei x = 1 wechselt die Ableitung ihr Vorzeichen von + nach −, also liegt dort ein strenges lokales Maximum vor. (Analog: Strenges Minimum in x = −1.) √ √ x2 − 3 f ′′ (x) = 2x 2 3 , also kommen nur x1 = 0, x2 = 3, x3 = − 3 als x +1 Wendepunkte in Frage. An all diesen Stellen liegen auch Wendepunkte vor: In x1 hat man ein strenges lokales Maximum der Steigung (weil das Vorzeichen von f ′′ wechselt von + nach −), analog in x2 , x3 strenge lokale Minima der Steigung. 2. Monotonie: 1 ′ ,∞ f (x) = x ln (x) hat die Ableitung f (x) = 1 + ln (x) , ist also im Bereich e streng monoton steigend, weil die Ableitung in diesem Bereich überall > 0 ist. 1 Ebenso folgt, dass f im Bereich 0, streng monoton fällt. e 3. Regeln von deL’Hospital: ln2 1 + x2 Man hat lim = 0, weil limx→∞ ln2 1 + x2 = limx→∞ x = ∞ x→∞ x 4x ln 1 + x2 und lim = 0. Dies gilt wiederum, weil Zähler und Nenner x→∞ 1 + x2 x2 ln 1 + x2 + 1+x 2 nach Unendlich gehen und lim 4 = 0. x→∞ 2x 2x ln 1 + x2 2 Dafür genügt wiederum, dass limx→∞ = 0 wegen lim 1+x = 0 x→∞ 2x 2 und lim x2 1+x2 = 0. (Diese sind nun wirklich unmittelbar zu sehen.) 2x 4. Satz vom beschränkten Zuwachs: 1 Wir wollen zeigen, dass x ln (x) ≤ x2 − 1 für x ≥ 1. Da die Ungleichung für x = 1 gilt, 2 genügt die Ungleichung der Ableitungen: 1 + ln (x) ≤ x für x ≥ 1. Da diese für x = 1 gilt, 1 genügt wiederum die Ungleichung der Ableitungen: ≤ 1 für x ≥ 1. x Das ist aber offensichtlich. x→∞ 2. ABLEITUNG REELLER FUNKTIONEN 67 2.1. Erste Motivierung: Lokale Steigung einer Funktion. Eine Durchschnittsgeschwindigkeit bei einer eindimensionalen Bewegung während der Zeitspanne von t0 bis t1 > t0 rechnet man so aus s (t) ist der Ort zur Zeit t (auf der Zahlengeraden): v [t0 ,t1 ] = s (t1 ) − s (t0 ) . t1 − t0 Wir rechnen mit einer sich ständig ändernden Geschwindigkeit. Dann fragt sich: Was ist unter der Momentangeschwindigkeit v (t0 ) zum genauen Zeitpunkt t0 zu verstehen? Für eine praktische Messung werden wir einfach nur das Intervall [t0 , t1 ] sehr klein wählen, also t1 = t0 + ∆t, mit sehr kleiner Zahl ∆t und sagen: v (t0 ) ≈ v[t0 ,t0 +∆t] . Ungefähr, nicht exakt, und wir werden mit kleineren Daher die mathematische Idee zu folgender exakten Definition der Momentangeschwindigkeit: v (t0 ) = lim∆t→0 s(t+∆t)−s(t) . ∆t Gemeint ist der beidseitige Limes, also ist das Vorzeichen von ∆t beliebig. Wir gehen zum Allgemeinen über. Es sei f eine Funktion, welche in einem offenen Intervall um x0 definiert ist. Dann ist f (x0 + ∆x) − f (x0 ) die mittlere Steigung von f auf dem Intervall [x0 , x0 + ∆x] bzw. ∆x bei negativem ∆x auf dem Intervall [x0 + ∆x, x0 ], anschaulich die Steigung der Sekante des Graphen von f durch die Punkte (x0 , f (x0 )) und (x0 + ∆x, f (x0 + ∆x)) , und f (x0 + ∆x) − f (x0 ) lim (wenn dieser Grenzwert existiert) ist die Steigung der Tangente ∆x→0 ∆x an den Graphen von f im Punkt (x0 , f (x0 )) , vgl. folgende Abbildung : Schwarze Kurve: Graph von f Rot: Tangente, schwarz: Sekante Steigung: Ableitung von f in x0 Steigung (f(x0+∆x)-f(x0))/∆x x0 x0+∆ x Man beachte: es handelt sich genau um den im vorigen Abschnitt eingeführten Grenzwertbegriff bei Funktionen, nur lautet die unabhängige Variable ∆x oder bei unabhängiger Variablen t der Funktion f dann ∆t usw., weil man an beliebig kleine Beträge denkt - es wird der Grenzwert für ∆x → 0 gebildet. Wir fassen die Haultsache in folgender Definition zusammen: Definition 18. Sei f in einer (beidseitigen!) Umgebung von x0 definiert. Dann ist f ′ (x0 ) := lim ∆x→0 f (x0 + ∆x) − f (x0 ) , falls dieser Grenzwert in R existiert. ∆x f ′ (x0 ) heißt Ableitung von f an der Stelle x0 . Wenn der genannte Grenzwert nicht existiert oder ±∞ ist, so heißt f an der Stelle x0 nicht ableitbar oder nicht differenzierbar. 68 4. REELLE FUNKTIONEN (x0 ) Bemerkung: f ′ (x0 ) existiert also genau dann, wenn die Funktion g (∆x) = f(x0 +∆x)−f im Punkt ∆x ∆x = 0 stetig ergänzbar ist. Klar muss dafür auch der Zähler mit ∆x → 0 gegen Null gehen, und zwar nicht langsamer als der Nenner ∆x. Einige Beispiele für Existenz und Nichtexistenz von Ableitungen, unter direkter Anwendung der Definition: 1.) f (x) = sin (x) , x0 ∈ R. Wir behaupten: sin′ (x0 ) = cos (x0 ) . Dazu bilden wir sin (x0 + ∆x) − sin (x0 ) ∆x sin (x0 ) cos (∆x) + cos (x0 ) sin (∆x) − sin (x0 ) ∆x (cos (∆x) − 1) sin (∆x) = sin (x0 ) + cos (x0 ) ∆x ∆x 2 −2 sin (∆x/2) sin (∆x) = sin (x0 ) + cos (x0 ) . 2∆x/2 ∆x = Also sin (x0 + ∆x) − sin (x0 ) ∆x→0 ∆x lim −2 sin2 (∆x/2) sin (∆x) + cos (x0 ) lim ∆x→0 ∆x→0 2∆x/2 ∆x = sin (x0 ) · 0 + cos (x0 ) · 1 = cos (x0 ) . = sin (x0 ) lim Dabei haben wir die zuvor bewiesenen arithmetischen Eigenschaften des Grenzwerts benutzt sowie das bereits hergeleitete Resultat lim∆x→0 sin(∆x) = 1. Aus diesem folgt auch sofort: ∆x −2 sin2 (∆x/2) − sin2 (∆x/2) sin (∆x/2) lim = lim = lim = 0 · 1 = 0. − sin (∆x/2) ∆x→0 2∆x/2 ∆x/2 ∆x/2 ∆x/2→0 ∆x/2→0 2.) Wir behaupten, dass die Funktion f (x) = |x| in x0 = 0 nicht differenzierbar ist. (Anschaulich ist das auch klar, weil der Graph in x0 = 0 eine Ecke hat, also keine Tangente an den Graphen in diesem Punkt existieren kann.) Dazu bilden wir |0 + ∆x| − |0| ∆x |0 + ∆x| − |0| lim ∆x→0− ∆x lim ∆x→0+ = = lim ∆x→0+ ∆x = 1, ∆x −∆x = −1. ∆x nicht existieren. Da beide einseitigen Grenzwerte verschieden sind, kann der beidseitige lim∆x→0 |0+∆x|−|0| ∆x f ′ (0) existiert also nicht. Man beachte aber, dass f in x0 stetig ist. Wir werden im nächsten Unterabschnitt sehen, dass umgekehrt Differenzierbarkeit in x0 Stetigkeit in x0 erzwingt. Damit haben wir natürlich, dass eine Funktion insbesondere an Unstetigkeitsstellen nicht differenzierbar sein kann. 3.) Wir setzen voraus, dass exp(x) = ex in x0 = 0 differenzierbar ist mit exp′ (0) = 1.Wir wollen zeigen, dass dann für alle x0 ∈ R folgt: exp′ (x0 ) = exp (x0 ) . Wir haben ex0 +∆x − ex0 e0+∆x − e0 e0+∆x − e0 lim = lim ex0 = ex0 lim = ex0 exp′ (0) = ex0 . ∆x→0 ∆x→0 ∆x→0 ∆x ∆x ∆x Mehr können wir erst in Mathematik B mit den Potenzreihen ausrichten. Wir haben damit den ersten Teil des angegebenen Programms begonnen, die Ableitungen der Grundfunktionen bereitzustellen. Daher geben wir nunmehr eine vollständige Liste der Ableitungen unserer grundlegenden Funktionen (fehlende Begründungen liefern wir nach, sobald wir die Ableitungsregeln zur d Verfügung haben). In dieser Liste verwenden wir die praktische Notation ’ dx (Rechenausdruck(x))’, die es erspart, immer zuerst einen Namen für die Funktion einzuführen. Beispielsweise heißt die erste Zeile: Für f (x) = xa gilt f ′ (x) = axa−1 . - In anderen Fällen liegt ein Name der Funktion bereits vor, so d dass ’ln′ (x) = x1 ’ eben praktischer ist als ’ dx ln (x) = x1 ’. Übrigens hat diese Notation auch gerade in 2. ABLEITUNG REELLER FUNKTIONEN 69 naturwissenschaftlich-technischer Anwendung großen Nutzen, sie bei Anwesenheit von äußeren Paramed tern sofort klarstellt, nach welcher unabhängigen Variablen abgeleitet wird, etwa dt (αet ) = αet .) Grundableitungen (minimale zu merkende Liste) : d a x dx d x e dx = axa−1 = ex 1 x sin′ (x) = cos (x) cos′ (x) = − sin (x) 1 arctan′ (x) = 1 + x2 Glücklicherweise braucht man nun nicht für jede Funktion eine solche Prozedur wie oben erneut durchzuführen, den Limes eines Differenzenquotienten zu bestimmen. Stattdessen verfährt man viel praktischer so: Aus unseren wenigen Grundfunktionen werden alle weiter wichtigen aufgebaut durch die arithmetischen Operationen sowie die Verkettung (Hintereinanderschaltung). Man kennt die Ableitungen der Grundfunktionen und baut aus diesen nach den sogenannten Ableitungsregeln die Ableitung beliebiger damit aufgebauter Funktionen zusammen. Das Ganze ist dann der sogenannte Ableitungskalkül, der im dritten Unterabschnitt folgen wird. Zuvor aber werden wir eine zweite wichtige Motivierung bringen, die anschließend auch weiter tragfähig sein wird als die erstere, die zudem die in naturwissenschaftlichtechnischer Hinsicht wichtigere ist. Außerdem hat sie den Vorteil, dass sie mit ihrer neuen Version der Ableitung die Ableitungsregeln für Zusammensetzungen von Funktionen leichter herzuleiten gestattet. ln′ (x) = 2.2. Zweite Motivierung: Lineare Näherung einer Funktion in einer kleinen Umgebung von x0 . Wir stellen uns vor, dass wir die Werte einer schwierige Funktion f , denken wir etwa an sin, näherungsweise in einer kleinen Umgebung von x0 ausrechnen wollen, bei bekanntem Wert f (x0 ) an der Stelle x0 . Im Beispiel sin wählen wir x0 = 0 und kennen sin (0) = 0. Wie ist also sin (∆x) für kleine |∆x| vernünftig zu nähern? Die Idee ist es, f (x0 + ∆x) als Funktion von ∆x durch eine besonders einfache Funktion anzunähern, deren Werte man problemlos ausrechnen kann. Nun sind die einfachsten Funktionen die Polynome, welche dies Merkmal haben. Unter ihnen sind die allereinfachsten die Konstanten (des Grades 0) und die Polynome 1. Grades. Diese werden wir hier verwenden. Später werden die Polynome höheren Grades herangezogen werden und zur Potenzreihendarstellung führen. Hier geht es um die Näherung ersten Grades, oder auch erster Ordnung, die technisch-wissenschaftlich sehr wichtig ist. Gerade sie ist mit der Ableitung verbunden. Zum besseren Verständnis beginnen wir aber mit der Näherung 0. Ordnung, durch eine Konstante. Es ist klar, dass man grob sagen wird: f (x0 + ∆x) ≈ f (x0 ) . Die sich anbietende Konstante ist also allein f (x0 ) . Aber damit das vernünftig ist, muss gelten: Wenn ∆x einen hinreichend kleinen Betrag hat, so wird auch der Unterschied zwischen f (x0 + ∆x) und f (x0 ) klein. Verschärft man Letzteres zu: ’so klein, wie man möchte’, dann hat man genau die Bedingung der Stetigkeit von f an der Stelle x0 . Bei jeder Art von Näherung wird man systematisch nach dem Fehler fragen, und so führen wir nun ein Fehlerglied ein, indem wir aus der ’Ungefähr’-Gleichung eine Gleichung machen. Wir setzen: f (x0 + ∆x) = f (x0 ) + R (∆x) . R (∆x) ist also definiert durch f (x0 + ∆x) − f (x0 ) , es ist das Restglied oder Fehlerglied. Nun definieren wir: Definition 19 (und Satz: Näherung 0. Ordnung). Sei f in x0 stetig. Dann existiert die Näherung 0. Ordnung von f um x0 , definiert durch f (x0 + ∆x) = f (x0 ) + R (∆x) und die Restgliedbedingung 0. Ordnung: lim R (∆x) = 0. ∆x→0 70 4. REELLE FUNKTIONEN Die Näherung 0. Ordnung von f um x0 lautet f (x0 + ∆x) ≈ 0. Ordnung f (x0 ) . Die Konstante ist durch die Restgliedbedingung eindeutig als f (x0 ) bestimmt. Für das Behauptete ist wenig zu beweisen: R (∆x)∆x→0 = 0 ist eine unmittelbare Umformulierung der Stetigkeit von f in x0 , und bei Näherung durch eine Konstante c = x0 hätte man: Rc (∆x) = f (x0 + ∆x) − c, also lim Rc (∆x) = lim f (x0 + ∆x) − c = f (x0 ) − c = 0. ∆x→0 ∆x→0 Wir gehen nunmehr über zur Näherung 1. Ordnung, also durch eine lineare Funktion, ein Polynom 1. Grades. Setzen wir ein solches allgemein an und schreiben die Gleichung mit Restglied: f (x0 + ∆x) = a + b∆x + Rc,d (∆x) . Nun soll diese Näherung sicher nicht schlechter werden als die Näherung 0. Ordnung. Insbesondere sollte also lim∆x→0 Rc,d (∆x) = 0 sein. Das erzwingt aber: c = f (x0 ) , da das Glied b∆x gegen Null geht für ∆x → 0. Somit schreiben wir: f (x0 + ∆x) = f (x0 ) + b∆x + Rb (∆x) . Nun stellen wir fest, dass wir nicht weiterkommen, wenn wir bei der Restgliedbedingung 0. Ordnung bleiben: Sie wäre für Rb mit jeder Zahl b erfüllt. Natürlich soll die Näherung 1. Ordnung besser werden als die Näherung 0. Ordnung. Wir werden nunmehr in der folgenden Definition die entsprechend verschärfte Resttermbedingung 1. Ordnung formulieren und ein Eindeutigkeitsresultat für b erhalten: Definition 20 (Tangentenzerlegung und Näherung 1. Ordnung). Sei f in einer Umgebung von x0 definiert. Dann heißt eine Zerlegung f (x0 + ∆x) = f (x0 ) + b∆x + Rb (∆x) mit b ∈ R genau dann Tangentenzerlegung für f um die Stelle x0 , wenn der Restterm Rb die folgende Resttermbedingung 1. Ordnung erfüllt: Rb (∆x) = 0. ∆x Eine solche Zerlegung existiert genau dann, wenn f ′ (x0 ) existiert, und b ist dann eindeutig bestimmt durch b = f ′ (x0 ) . Wenn die Tangentenzerlegung von f um x0 existiert, so hat man folgende Näherung 1. Ordnung: lim ∆x→0 f (x0 + ∆x) ≈ 1. Ordnung f (x0 ) + f ′ (x0 ) ∆x. Die optimale Steigung für die Wahl einer f um x0 approximierenden linearen Funktion ist also die Tangentensteigung, die Ableitung. Existiert diese nicht, so hat man keine sinnvolle Näherung 1. Ordnung. Zur Begründung haben wir nur die Existenz einer Tangentenzerlegung vorauszusetzen und dann umzuschreiben zu f (x0 + ∆x) − f (x0 ) Rb (∆x) =b+ . ∆x ∆x Nun lassen wir ∆x gegen Null gehen, die rechte Seite geht nach Voraussatzung gegen b, die linke hat also auch einen Grenzwert, und der ist b. Somit hat man nach Definition der Ableitung als Grenzwert von Differenzenquotienten: f ′ (x0 ) existiert und ist gleich b. Setzen wir umgekehrt die Existenz von (x0 ) = f ′ (x0 ) auch, dass der Restterm f ′ (x0 ) voraus und setzen b = 0, so folgt aus lim∆x→0 f (x0 +∆x)−f ∆x Rf ′ (x0 ) (∆x) die Resttermbedingung 1. Ordnung erfüllt, weil Rf ′ (x0 ) (∆x) f (x0 + ∆x) − f (x0 ) − f ′ (x0 ) ∆x f (x0 + ∆x) − f (x0 ) = = − f ′ (x0 ) , ∆x ∆x ∆x also lim ∆x→0 Rf ′ (x0 ) (∆x) f (x0 + ∆x) − f (x0 ) = lim − f ′ (x0 ) = 0. ∆x→0 ∆x ∆x 2. ABLEITUNG REELLER FUNKTIONEN 71 Also existiert dann die Tangentenzerlegung und lautet f (x0 + ∆x) = f (x0 ) + f ′ (x0 ) ∆x + Rf ′ (x0 ) (∆x) . Hier ist zur Veranschaulichung ein Bild von der Sache (im Beispiel hat R (∆x) einen negativen Wert): Schwarze Kurve: Graph von f Rote Gerade: Näherung 1. Ordnung um x0 R(∆ x) x0 x0+∆ x Beispiele für Tangentenzerlegungen und Näherung 1. Ordnung 1.) Näherung 1. Ordnung von sin (∆x) (für kleine |∆x|): sin (∆x) = sin (0 + ∆x) ≈ sin (0) + sin′ (0) ∆x = ∆x. 1 Dies können wir natürlich dann auch so formulieren, dass sin (x) ≈ x für kleine |x| . Daher ist sin 100 1 1 1 etwa 100 , tatsächlich ist (Computernäherung) sin 100 etwa −1.67 · 10−7 . Man beachte: Es ist nicht − 100 der Sinn des Restterms, ihn auszurechnen, sondern ihn nach oben abzuschätzen, was wir später mittels Integralrechnung tun werden. Die volle Tangentenzerlegung ist dann sin (∆x) = ∆x + R (∆x) , mit lim∆x→0 R(∆x) ∆x = 0. 2.) Näherung 1. Ordnung für ex für kleine |x| ist 1 + x; denn: e∆x = e0+∆x ≈ e0 + exp′ (0) ∆x = 1 + ∆x. Wir leiten nunmehr die wichtigen Ableitungsregeln (in Beispielen) her und sehen dabei, dass die Version der Tangentenzerlegung dafür sehr nützlich ist. 2.3. Ableitungsregeln für Verknüpfungen von Funktionen. Wir stellen diese Ableitungsregeln zunächst vor und leiten die schwierigeren anschließend her. (f + g)′ = f ′ + g′ Linearität der Ableitung : (αf )′ = αf ′ Produktregel : Quotientenregel : (fg)′ = f ′ g + g ′ f ′ f f ′g − g′f = g g2 (g ◦ f)′ = f ′ (g′ ◦ f ). −1 ′ 1 (f (x0 )) = ′ Umkehrfunktionsregel : f (wenn f ′ (x0 ) = 0). f (x0 ) Die Gleichungen sind genau so zu lesen: Wenn die auf der rechten Seite vorkommenden Ableitungen existieren, so existiert die Ableitung auf der linken Seite, und beide sind gleich. Ferner stehen hier abstrakt Funktionengleichungen, die eben die Gleichung allgemein für einzusetzende unabhängige Variable Kettenregel : 72 4. REELLE FUNKTIONEN x0 bedeuten. So bedeutet die Kettenregel konkreter gefasst: Wenn f ′ (x0 ) und g′ (f (x0 )) existieren, so ′ ′ existiert (g ◦ f ) (x0 ) , und es gilt: (g ◦ f ) (x0 ) = f ′ (x0 ) g ′ (f (x0 )) . Beispiele zur Anwendung der Regeln: ′ tan = sin cos ′ = cos2 + sin2 1 = = 1 + tan2 . cos2 cos2 Konkreter mit ’von’-Klammern geschrieben: tan′ (x) = d sin (x) cos (x) · cos (x) − sin (x) (− sin (x)) 1 = = = 1 + tan2 (x) . dx cos (x) cos2 (x) cos2 (x) d sin5 (x) = cos (x) · 5 sin4 (x) , Erläuterung: Wir haben hier dx sin5 (x) = g (f (x)) mit f (x) = sin (x) und g (x) = x5 . Also f ′ (x) = cos (x) und g′ (x) = 5x4 , daher g′ (f (x)) = 5 sin4 (x) . d 2 x x +1= √ 2 dx x +1 Abschließend noch zwei typische Anwendungen der Umkehrregel, welche zwei zu merkende Grundableitungen ergeben: ln′ (ex ) = arctan′ (tan (x)) = arctan′ (x) = 1 1 für alle x ∈ R, also ln′ (x) = für alle x > 0. ex x π π 1 1 = , also , für alle x ∈ − , ′ 2 tan (x) 2 2 1 + tan (x) 1 für alle x ∈ R. 1 + x2 Zu den Begründungen der Ableitungsregeln: Wir nehmen uns lediglich ein paar der interessanteren Beispiele vor, als ein einfacheres die Produktregel und als schwierigeres die Kettenregel. Die Technik besteht einfach darin, die vorauszusetzenden Tangentenzerlegungen (aufgrund der Ableitbarkeitsvoraussetzungen) einzusetzen. Zur Produktregel: Seien f und g in x0 differenzierbar. Dann behaupten wir, dass auch fg an dieser Stelle differenzierbar ist und dass gilt: (f g)′ (x0 ) = f ′ (x0 ) g (x0 ) + g′ (x0 ) f (x0 ) . Nach Voraussetzung haben wir mit Resttermen R, S, welche die Resttermbedingung 1. Ordnung erfüllen: (f g) (x0 + ∆x) = f (x0 + ∆x) g (x0 + ∆x) = (f (x0 ) + f ′ (x0 ) ∆x + R (∆x)) (g (x0 ) + g ′ (x0 ) ∆x + S (∆x)) = f (x0 ) g (x0 ) + (f (x0 ) g ′ (x0 ) + f ′ (x0 ) g(x0 ))∆x + f (x0 ) S (∆x) + g (x0 ) R (∆x) +f ′ (x0 ) ∆xS (∆x) + g ′ (x0 ) ∆xR (∆x) + R (∆x) S (∆x) = (f g) (x0 ) + (f (x0 ) g′ (x0 ) + f ′ (x0 ) g(x0 ))∆x + T (∆x) , wobei der Term T (∆x) offenbar die Resttermbedingung 1. Ordnung erfüllt. (Man wende nur auf jeden Summanden von T (∆x) /∆x die Grenzwertsätze zum arithmetischen Verhalten von Grenzwerten an.) Daher schließen wir, dass der Faktor bei ∆x die Ableitung ergibt. Das ist genau die angegebene Produktregel. Zur Kettenregel: Sei f in x0 differenzierbar, g in f (x0 ) differenzierbar. Nunmehr schreiben wir in den demnach existierenden Tangentenzerlegungen: & (∆x) , f (x0 + ∆x) = f (x0 ) + f ′ (x0 ) ∆x + ∆xR & (∆x) = 0. mit lim R ∆x→0 2. ABLEITUNG REELLER FUNKTIONEN 73 Dabei haben wir lediglich für den ursprünglichen Restterm R (∆x) mit der Eigenschaft lim∆x→0 R (∆x) /∆x = & (∆x) := R (∆x) /∆x. Damit haben wir R (∆x) = ∆xR & (∆x) und lim∆x→0 R & (∆x) = 0. Das0 gesetzt: R selbe tun wir für die zweite vorauszusetzende Tangentenzerlegung: g (f (x0 ) + ∆y) = g (f (x0 )) + g′ f (x0 ) + ∆y S& (∆y) , mit lim S& (∆y) = 0. ∆y→0 Nunmehr haben wir & (∆x) (g ◦ f) (x0 + ∆x) = g (f (x0 + ∆x)) = g f (x0 ) + f ′ (x0 ) ∆x + ∆xR & (∆x) ) = g(f (x0 )) + g′ (f (x0 )) ∆y + ∆y S& (∆y) (mit ∆y := f ′ (x0 ) ∆x + ∆xR & (∆x) + f ′ (x0 ) ∆x + ∆xR & (∆x) S& (∆y) = g (f (x0 )) + g ′ (f (x0 )) f ′ (x0 ) ∆x + g ′ (f (x0 )) ∆xR Das hat die gewünschte Form der Tangentenzerlegung, nachzuprüfen ist nur, ob der Restterm & (∆x) + f ′ (x0 ) ∆x + ∆xR & (∆x) S& (∆y) T (∆x) := g ′ (f (x0 )) ∆xR die Resttermbedingung 1. Ordnung erfüllt. Dafür genügt es nach Grenzwertsatz, dass beide Summanden von T (∆x) es tun. Zum ersten: & (∆x) g ′ (f (x0 )) ∆xR & (∆x) = g ′ (f (x0 )) lim R & (∆x) = 0, = lim g ′ (f (x0 )) R ∆x→0 ∆x→0 ∆x→0 ∆x & (∆x) = 0. da lim R lim ∆x→0 & (∆x) und somit Zum zweiten: Beachten wir, dass ∆y = f ′ (x0 ) ∆x + ∆xR lim ∆y = 0, ∆x→0 so haben wir: lim = lim & (∆x) S& (∆y) f ′ (x0 ) + R ∆x→0 ∆x & & & lim f (x0 ) S (∆y) + lim R (∆x) S (∆y) = 0 + 0 = 0. ∆x→0 = & (∆x) S& (∆y) f ′ (x0 ) ∆x + ∆xR ∆x→0 ′ ∆x→0 Zur Quotientenregel sieht man mit der Kettenregel und der Grundableitung d a dx x = axa−1 ein: d 1 d −g ′ (x) = (g (x))−1 = −g ′ (x) (g (x))−2 = 2 , dx g (x) dx g (x) anschließend bekommt man mit der Produktregel die volle Quotientenregel: d f (x) 1 d 1 f ′ (x) f (x) g′ (x) f ′ (x) g (x) − g ′ (x) f (x) = f ′ (x) + f (x) = − = . dx g (x) g (x) dx g (x) g (x) g 2 (x) g2 (x) d a x = axa−1 verwenden wir die Ableitung von exp und wiederum die Kettenregel Zur Grundableitung dx - setze x > 0 voraus, so dass ln (x) gebildet werden kann: d a d a ln(x) a a x = e = ea ln(x) = xa = axa−1 . dx dx x x Zur Umkehrfunktionsregel wollen wir nur darauf hinweisen, dass bei Existenz einer Tangente an den Graphen von f im Punkt (x0 , f (x0 )) sicherlich auch der Graph der Umkehrfunktion (der durch Spiegelung an y = x hervorgeht!) an dem Spiegelungspunkt (f (x0 ) , x0 ) eine Tangente besitzt und dass natürlich die ′ 1 Steigung der letzteren der Kehrwert der Steigung der ersteren ist. Also f −1 (f (x0 )) = f ′ (x (Bedingung 0) ′ natürlich: f (x0 ) = 0. Oder (wiederum nach Existenzvoraussetzung) mit der Kettenregel: Wir haben mit der Funktion id (x) = x: ′ ′ ′ 1 1 = id′ (x0 ) = f −1 ◦ f (x0 ) = f ′ (x0 ) f −1 (f (x0 )) , also f −1 (f(x0 )) = ′ . f (x0 ) 74 4. REELLE FUNKTIONEN 3. Grundlegende Resultate im Zusammenhang mit Ableitungen Das erste der folgenden Resultate ist das wohlbekannte über lokale Extrema. Aber die nachfolgenden sind von noch allgemeinerer fundamentaler Bedeutung und sehr oft mit großem Gewinn anzuwenden. Satz 26 (notwendige Bedingung für lokale Extrema). Es sei f in einer (beidseitigen!) Umgebung von x0 definiert und es existiere f ′ (x0 ) . Dann gilt: f hat in x0 ein lokales Extremum =⇒ f ′ (x0 ) = 0. Bemerkungen zur Anwendung des Satzes: 1.) Der Satz sagt überhaupt nichts aus über Stellen, an denen eine Funktion nicht differenzierbar ist. Zum Beispiel hat f (x) = |x| in x0 = 0 ein absolutes strenges Minimum, aber das bekommt man nicht mit der Ableitung zu sehen, weil diese in x0 = 0 gar nicht existiert. Allenfalls könnte man zur differenzierbaren Funktion f 2 (x) = x2 übergehen. 2.) Der Satz sagt nichts aus über Extrema am Rande eines Definitionsintervalls (Randextrema). Zum Beispiel hat f : [1, 3] → R, f (x) = x2 , ein absolutes Minimum bei x0 = 1 und ein absolutes Maximum bei x1 = 3, aber die (einseitig gebildeten) Ableitungen sind eben nicht Null. 3.) Man denke daran, dass die Nullstellen der Ableitung einer differenzierbaren Funktion nur erst Kandidaten für Extremstellen ergeben und dass diese Kandidaten weiter zu prüfen sind - der Satz besagt eben nicht, dass eine Nullstelle der Ableitung eine Extremstelle ergibt. Einfachstes Gegenbeispiel: f (x) = x3 hat in x0 = 0 kein lokales Extremum, aber f ′ (x0 ) = 0. Der praktische Nutzen des Satzes ist dennoch immens: Es bleiben im Allgemeinen nur wenige Kandidaten übrig, die zu prüfen sind. Wie ist diese Prüfung vorzunehmen? Es gibt mehrere Wege. In den meisten Fällen ist es am besten, den Graphen der Funktion qualitativ herauszubekommen und daher einen Überblick darüber zu haben, wie viele Extremstellen (und von welcher Art) es minimal geben muss. Liefert die Ableitung dann nicht mehr Kandidaten, so ist man fertig. Eine zweite gute Möglichkeit, wenn (wie fast immer) die Funktion in einer ganzen Umgebung von x0 differenzierbar ist: Wenn die Ableitung an der Stelle x0 einen Vorzeichenwechsel macht, so liegt ein Extremum vor (von plus nach minus: Maximum, sonst Minimum). Wechselt die Ableitung indessen nicht ihr Vorzeichen, so liegt ein Wendepunkt mit horizontaler Tangente vor. Es sei bemerkt, dass der Weg über die zweite Ableitung fast stets viel schlechter ist - das liegt vor allem daran, dass die zweite Ableitung normalerweise viel komplizierter ist als die erste, hier täuscht das Verhalten der Polynome stark. Es kommt hinzu, dass auch die zweite Ableitung keine Entscheidung bringen muss und dass sie auch noch stetig in einer Umgebung existieren muss. Schließlich benötigt man stärkere Voraussetzungen, dass nämlich die zweite Ableitung existiert und zudem noch stetig in einer Umgebung von x0 ist. Beweis des Satzes: f habe in x0 ein lokales Maximum (für Minima kann man völlig analog argumentieren). Wir haben für ein δ > 0: ∀x (|x − x0 | < δ =⇒ f (x) ≤ f (x0 )) . Dann gilt für alle Differenzenquotienten mit |∆x| < δ: f (x0 + ∆x) − f (x0 ) ∆x f (x0 + ∆x) − f (x0 ) ∆x Es folgt mit der Monotonie des Grenzwertes: f (x0 + ∆x) − f (x0 ) ≤ 0, ∆x→0+ ∆x Nun existiert aber f ′ (x0 ) , also lim ≥ 0 für ∆x < 0, ≤ 0 für ∆x > 0. f (x0 + ∆x) − f (x0 ) ≥ 0. ∆x→0− ∆x lim f (x0 + ∆x) − f (x0 ) f (x0 + ∆x) − f (x0 ) f (x0 + ∆x) − f (x0 ) = lim = lim . ∆x→0 ∆x→0+ ∆x→0− ∆x ∆x ∆x Es folgt: f ′ (x0 ) ≤ 0 und f ′ (x0 ) ≥ 0. Somit f ′ (x0 ) = 0. f ′ (x0 ) = lim Satz 27 (Mittelwertsatz). Wenn a < b und f auf [a, b] stetig ist und auf (a, b) differenzierbar, dann existiert eine Zahl ξ ∈ (a, b) mit f (b) − f (a) = f ′ (ξ) . b−a 3. GRUNDLEGENDE RESULTATE IM ZUSAMMENHANG MIT ABLEITUNGEN 75 Der Satz besagt also, dass die mittlere Steigung von f auf [a, b] auch an mindestens einer Stelle im Innern des Intervalls lokal realisiert ist. Beweis: 1. Schritt: Beweis des Satzes unter der Zusatzvoraussetzung f (a) = f(b). In diesem Fall ist die mittlere Steigung auf [a, b] Null. Also wird eine Zahl ξ ∈ (a, b) gesucht, für die f ′ (ξ) = 0 wird. Mit dem Satz über die Existenz von absoluten Maxima und absoluten Minima einer stetigen Funktion auf [a, b] haben wir aber ein absolutes Maximum oder Minimum von f auf [a, b] an einer Stelle ξ ∈ (a, b). Denn wegen f (a) = f (b) ist entweder f konstant auf [a, b]; dann können wir jede Zahl ξ ∈ (a, b) wählen. Oder aber es gibt ein x ∈ (a, b) mit f (x) < f (a) oder f (x) > f (a) . Im ersten Fall gibt es ein absolutes Minimum im Innern, im zweiten ein absolutes Maximum im Innern. Es folgt, dass f ein lokales Extremum in (a, b) besitzt, sagen wir an einer Stelle ξ ∈ (a, b), und nach dem vorigen Satz gilt dann f ′ (ξ) = 0. 2. Schritt: Verallgemeinerung auf beliebige Werte von f an den Rändern: Wir definieren eine neue Funktion g durch f (b) − f (a) g (x) := f (x) − f (a) − (x − a) b−a (von f wird die Sekante durch (a, f (a)) und (b, f (b)) abgezogen!) und stellen fest: g (a) = g (b) = 0. Ferner ist g wiederum stetig auf [a, b] (da mit +, · aus auf [a, b] stetigen Funktionen aufgebaut) und differenzierbar auf (a, b) (nach den Ableitungsregeln). Somit kann das Resultat vom ersten Schritt auf g angewandt werden und liefert eine Zahl ξ ∈ (a, b), so dass g′ (ξ) = 0, aber f (b) − f (a) , also b−a f (b) − f (a) . b−a g′ (ξ) = f ′ (ξ) − f ′ (ξ) = Wir besprechen nunmehr einige sehr wichtige Folgerungen aus dem Mittelwertsatz. Zuerst kommt ein weiteres allgemeines Resultat heraus, das eine gute Methode ergibt, Abschätzungen herzuleiten. Satz 28 (Satz vom beschränkten Zuwachs). Sei a < b, und seien f, g stetig auf [a, b] und differenzierbar auf (a, b) . Sei weiter f ′ (x) ≤ g ′ (x) für alle x ∈ (a, b). Dann folgt: f (x) − f (a) ≤ g (x) − g (a) . Bemerkung: Der Satz drückt die intuitiv gut einsichtige Tatsache aus, dass bei einem Start zweier Funktionen f, g mit demselben Wert in a (also f (a) = g (a) , in der zweiten Zeile steht dann gleichwertig f (x) ≤ g (x)) die Werte von f immer unter denen von g bleiben, solange die lokalen Steigungen von f unter denen von g bleiben. Beweis: Wir definieren h(x) = f(x) − g(x) − (f (a) − g (a)) . Dann erfüllt h die Voraussetzungen des Mittelwertsatzes - h ist stetig auf [a, b] und differenzierbar auf (a, b). Nehmen wir an, wir hätten eine Zahl x0 ∈ [a, b], so dass die Aussage der Folgerung des zu beweisenden Satzes verletzt wäre, also f (x0 ) − f (a) > g (x0 ) − g (a) , d.h. h (x0 ) > 0. Dann klar x0 > a,da h (a) = 0. Also hätten wir nach Mittelwertsatz (angewandt auf das Intervall [a, x0 ] eine Zahl ξ ∈ (a, x0 ) ⊂ (a, b), so dass 0< Aber h (x0 ) − h (a) h (x0 ) = = h′ (ξ) . x0 − a x0 − a h′ (ξ) = f ′ (ξ) − g′ (ξ) , also f ′ (ξ) > g ′ (ξ) . und nach der Voraussetzung des Satzes müsste f ′ (ξ) ≤ g ′ (ξ) sein. das ist ein Widerspruch. Als Anwendungbeispiel zeigen wir: (1) sin (x) ≤ x − x3 x5 + für alle x ≥ 0. 3! 5! 76 4. REELLE FUNKTIONEN Für die Funktionen auf beiden Seiten gelten die Voraussetzungen des Satzes vom beschränkten Zuwachs (für jedes Intervall [0, b], b > 0. Der Satz liefert also, da beide Funktionen den Wert Null bei x = 0 haben: Für die Gültigkeit von (1) genügt es, wenn gilt: x2 x4 + für alle x ≥ 0. 2 4! Zur Gewinnung dieser Ungleichung ist erneute Anwendung des Satzes geeignet, für (2) genügt demnach: (2) cos (x) ≤ 1 − (3) − sin (x) ≤ −x + x3 für x ≥ 0. 3! (4) − cos (x) ≤ −1 + x2 für x ≥ 0, 2 Mit demselben Argument genügt dafür wieder (5) sin (x) ≤ x für x ≥ 0, dafür wieder (6) cos (x) ≤ 1 für x ≥ 0. Nun gilt (6) offenbar, und man schließt über (5) , (4) ... auf (1) . Man kann das induktiv verallgemeinern zu folgenden Aussagen: Für alle natürlichen Zahlen N ≥ 1 gilt (x ≥ 0 wie zuvor) : 2N−1 k=0 2N (−1)k (−1)k 2k+1 x ≤ sin (x) ≤ x2k+1 . (2k + 1)! (2k + 1)! k=0 Da nun die Summenglieder abwechselnd positives und negatives Vorzeichen haben und ihre Beträge nach Null gehen, folgt daraus: sin (x) = lim N→∞ 2N−1 k=0 2N (−1)k 2k+1 (−1)k 2k+1 = , also x x (2k + 1)! (2k + 1)! k=0 ∞ (−1)k 2k+1 , für alle x ∈ R (da beide Seiten ungerade Funktionen darstellen). sin (x) = x (2k + 1)! k=0 Das ist die Reihendarstellung für sin . (Zu solchen Reihen mehr in Mathematik B.) Satz 29 (Ableitung und Monotonie). Sei a < b und f auf (a, b) differenzierbar und auf [a, b] stetig. Dann gilt: (i) (ii) (iii) (iv) f ′ (x) f ′ (x) f ′ (x) f ′ (x) ≥ ≤ > < 0 0 0 0 für für für für alle alle alle alle x ∈ (a, b) x ∈ (a, b) x ∈ (a, b) x ∈ (a, b) ⇐⇒ ⇐⇒ =⇒ =⇒ f ist auf [a, b] monoton steigend. f ist auf [a, b] monoton fallend. f ist auf [a, b] streng monoton steigend. f ist auf [a, b] streng monoton fallend. Beweis: Zu (i) , Richtung ’ =⇒ ’: Wäre f auf [a, b] nicht monoton steigend, so hätte man Zahlen x1 ∈ [a, b] und x2 ∈ (a, b], so dass x1 < x2 und f(x1 ) > f (x2 ). Also wäre auf [x1 , x2 ] die mittlere Steigung von f negativ. Da für das Intervall [x1 , x2 ] die Voraussetzungen des Mittelwertsatzes erfüllt sind, hätte man eine Zahl ξ ∈ (x1 , x2 ) ⊂ (a, b) mit f ′ (ξ) < 0. Das wirderspricht der Voraussetzung f ′ (x) ≥ 0 für alle x ∈ (a, b). Richtung ’ =⇒ ’: Wenn f ′ (ξ) = α < 0 für eine Zahl ξ ∈ (a, b), so gilt für hinreichend kleine ∆x > 0 : f (ξ + ∆x) − f (ξ) α ≤ < 0, also ∆x 2 f (ξ + ∆x) − f (ξ) < 0, so dass f nicht monoton steigend auf [a, b] ist. Zu (ii) braucht man nur zu −f überzugehen und (i) anzuwenden. 3. GRUNDLEGENDE RESULTATE IM ZUSAMMENHANG MIT ABLEITUNGEN 77 Zu (iii) , (iv) kann man völlig analog argumentieren, man beachte aber, dass nur eine Pfeilrichtung gilt: Es kann durchaus vereinzelt ein Ableitungswert Null vorkommen bei streng monoton steigenden Funktionen. Ein Beispiel bildet f(x) = x3 . Sie ist streng monoton steigend auf R, aber f ′ (0) = 0. d e−2x ex ex Beispiel: dx ex +e−x = 2 (1+e−2x )2 > 0 für alle x ∈ R, also ist die Funktion f (x) = ex +e−x auf ganz R streng monoton steigend. Folgerung 2. Sei a < b. Wenn f und g stetig sind auf [a, b] und differenzierbar auf (a, b) mit f ′ (x) = g ′ (x) für alle x ∈ [a, b], dann gilt: f − g ist eine konstante Funktion auf [a, b]. Zwei Stammfunktionen einer Funktion h auf einem Intervall (deren Ableitungen also h ergeben) unterscheiden sich daher nur um eine Konstante. Beweis: Man wende (i) , (ii) des vorigen Satzes auf f −g an. Damit ist f −g sowohl monoton steigend als auch fallend auf [a, b], somit eine Konstante auf [a, b]. Beispiel: F (x) = 12 e2x ist eine Stammfunktion von f (x) = e2x , also gilt für jede andere Stammfunktion F& von f (d.h. F&′ (x) = f (x)): F& (x) = F (x) + c = e2x + c mit einer Konstanten c. Umgekehrt ist klar, dass man durch Addition einer Konstanten zu einer Stammfunktion von f wieder eine solche erhält. Folgerung 3 (hinreichende Bedingung für Extrema). Es sei f in einer Umgebung von x0 definiert und f ′ existiere ebenfalls in einer Umgebung U von x0 . Ferner sei f ′ (x0 ) = 0. Wenn f ′ (x) > 0 für x < x0 , x ∈ U, und f ′ (x) < 0 für x > x0 , x ∈ U, dann hat f in x0 ein strenges lokales Maximum. (Entsprechend ist auf ein strenges lokales Minimum in x0 zu schließen, wenn der Vorzeichenwechsel der Ableitung in umgekehrter Richtung verläuft.) Beweis: Nach dem vorigen Satz ist f auf einem Intervall [x0 − δ, x0 ] mit einem δ > 0 streng monoton steigend und auf [x0 , x0 + δ] streng monoton fallend. Also liegt in x0 ein strenges Maximum. Wir benötigen die folgende Verallgemeinerung des Mittelwertsatzes, um ökonomisch die Regeln von de L’Hospital beweisen zu können: Satz 30 (verallgemeinerter Mittelwertsatz von Cauchy). Seien f, g wie in den Voraussetzungen des Mittelwertsatzes, also mit a < b auf (a, b) differenzierbar und auf [a, b] stetig. Ferner sei g ′ (x) = 0 für alle x ∈ (a, b). Dann existiert eine Zahl ξ ∈ (a, b), so dass f (b) − f (a) f ′ (ξ) = ′ . g (b) − g (a) g (ξ) Beweis: Zunächst ist mit g ′ (x) = 0 für alle x ∈ (a, b) klar, dass g(a) = g (b) , so dass der Ausdruck auf der linken Seite jedenfalls sinnvoll ist. Denn mit g (a) = g (b) gäbe es nach dem einfachen Mittelwertsatz eine Zahl ξ ∈ (a, b), so dass g ′ (ξ) = 0. Nun geht der Beweis gerade so wie beim ersten Mittelwertsatz: Man bildet f (b) − f (a) h (x) = f (x) − f (a) − (g (x) − g (a)) , g (b) − g (a) so dass also h (a) = h (b) = 0 und h wiederum die Voraussetzungen des Mittelwertsatzes erfüllt. Daher h′ (ξ) = 0 für ein ξ ∈ (a, b), und das bedeutet klar die Gleichung des Satzes mit ξ. Daraus kann man die Regeln von de L’Hospital folgern: ′ (x) (i) Es sei a ∈ R, limx→a+ f (x) = limx→a+ g (x) = 0 und limx→a+ fg′ (x) = b ∈ R ∪ {−∞, ∞} (insbesondere g ′ (x) = 0 für x > a, a − x < δ 0 , mit einer Zahl δ 0 > 0). Wir behaupten: Dann existiert (x) auch limx→a+ fg(x) und hat den Wert b. Beweis: Zunächst können wir f und g bis zum Wert a (einseitig von rechts) stetig fortsetzen mit f (a) = g (a) = 0. Sei x > a − δ 0 . Dann hat man f (x) f (x) − f (a) f ′ (ξ) = = ′ mit einem ξ ∈ (a, x), g (x) g (x) − g (a) g (ξ) da f, g die Voraussetzungen des verallgemeinerten Mittelwertsatzes auf (a, x) und [a, x] erfüllen. Wir nennen eine solche Zahl ξ zu x deutlicher ξ (x) , denken uns zu jeder Zahl x > a − ε eine solche Zahl ξ (x) (x) ausgewählt. Mit der Voraussetzung limx→a+ fg(x) wissen wir, dass es zu jeder beliebig kleinen Umgebung U von b eine Zahl δ > 0 gibt mit der Eigenschaft f ′ (ξ) |a − ξ| < δ =⇒ ′ ∈ U, für alle ξ. g (ξ) (∗) 78 4. REELLE FUNKTIONEN Wir lassen δ stets ≤ δ 0 sein. Mit (∗) folgt sofort für alle x (man beachte, dass mit |a − x| < δ auch |ξ (x) − a| < δ gilt): f (x) f ′ (ξ(x)) = ′ ∈ U. |a − x| < δ =⇒ g (x) g (ξ(x)) Damit ist die Aussage bewiesen. ′ (x) (ii) Wir können mit (i) zeigen: Wenn limx→∞ f (x) = limx→∞ g (x) = 0, limx→∞ fg′ (x) = b, dann gilt auch limx→∞ f (x) g(x) = b. Dazu sehen wir nur ein: f′ 1 f ′ (x) b = lim ′ = lim ′ 1u = x→∞ g (x) u→0+ g u − u12 f ′ u1 u→0+ − 12 g ′ 1 u u f u1 = lim (i) u→∞ g 1 u lim = = d 1 du f u d 1 u→0+ du g u lim f (x) . x→∞ g (x) lim Bemerkung: Es ist klar, dass auf demselben Wege wie (i) , (ii) die entsprechenden Aussagen für x → a− und x → −∞ zu bekommen sind, ebenso wie die über beidseitige Grenzwerte für x → a. ′ (x) (x) = b ∈ R ∪ {∞}, dann limx→a fg(x) = (iii) Beh.: Wenn limx→a− f (x) = limx→a− g (x) = ∞, limx→a fg′ (x) (x)−f (α) (x) b. Hier ist es ein wenig unbequemer, vom Ausdruck fg(x)−g(α) für α < x < a auf den Ausdruck fg(x) zu kommen, um dann wieder den verallgemeinerten Mittelwertsatz anwenden zu können. Aber so gelingt es: Sei β < b, beliebig nahe an b (im Falle b = ∞ also eine beliebig große reelle Zahl). Nach Voraussetzung haben wir dann eine Zahl α < a, so dass f ′ (x) > β. (1) für alle x ∈ (α, a) : ′ g (x) Wegen Wenn limx→a− f (x) = limx→a− g (x) = ∞ können wir α zugleich so groß wählen, dass stets f (x) , g (x) = 0 für x ∈ (α, a) . Nun haben wir nach dem erweiterten Mittelwertsatz: (2) Für alle x ∈ (α, a) existiert ein ξ ∈ (α, x) , so dass f (x) − f (α) f ′ (ξ) = > β (Ungleichung wegen (1) ). g (x) − g (α) g′ (ξ) Wir formen dies etwas um (dafür wollten wir f (x) , g (x) = 0) zu: f (x) 1 − ff (α) (x) f (x) − f (α) , also mit (2) = g (x) − g (α) g (x) 1 − g(α) g(x) f (x) g (x) = f ′ (ξ) 1 − · g ′ (ξ) 1 − g(α) g(x) f (α) f (x) . Wir haben mit limx→a− f (x) = limx→a− g (x) = ∞ auch lim x→a− 1− 1− g(α) g(x) f (α) f (x) = 1, also gibt es für alle ε1 > 0 eine Zahl α1 > α, α1 < a, so dass ∀x ∈ (α1 , a) 1− 1− g(α) g(x) f (α) f (x) > 1 − ε1 . Das ergibt zusammen mit (2) und der Umformung: (3) ∀ε1 > 0∃α1 < a∀x ∈ (α1 , a) ∃ξ ∈ (α, a) g(α) f (x) f ′ (ξ) 1 − g(x) = ′ · > β (1 − ε1 ) . g (x) g (ξ) 1 − f (α) f (x) Wählen wir zu beliebig vorgegebener Zahl ε > 0 nunmehr ε1 < (4) ∀β < b∀ε > 0∃α1 < a∀x ∈ (α1 , a) |β| ε , so haben wir: f (x) > β − ε. g (x) 4. DAS EINDIMENSIONALE INTEGRAL 79 Für den Fall b = ∞ folgt mit (4) sofort die gewünschte Aussage. Für b ∈ R folgt sie mit (4) zusammen mit folgender Aussage: f (x) (5) ∀ε > 0∃α1 < a∀x ∈ (α1 , a) < b + ε. g (x) Diese gewinnen wir völlig analog zu (4) , indem wir aus der Bedingung lim x→a− 1− 1− g(α) g(x) f(α) f (x) =1 herausziehen, dass ∀ε1 > 0∃α1 < a∀x ∈ (α1 , α) Weiter können wir mit limx→a− f ′ (x) g ′ (x) 1− 1− g(α) g(x) f (α) f (x) < 1 + ε1 . = b auch α1 dabei so wählen, dass ∀x ∈ (α1 , a) f ′ (x) < b + ε1 . g ′ (x) Das ergibt ∀ε1 > 0∃α1 < a∀x ∈ (α1 , a) ∃ξ ∈ (α, a) f (x) f ′ (ξ) 1 − = ′ g (x) g (ξ) 1 − g(α) g(x) f (α) f(x) < (b + ε1 ) (1 + ε1 ) . Nun ist (b + ε1 ) (1 + ε1 ) = b + (b + 1) ε1 +ε21 , und zubeliebigem ε > 0 finden wir sicher ε1 > 0, so dass ε (b + 1) ε1 + ε21 < ε. Wähle etwa ε1 < min 2|b+1| , 2ε , 1 . Somit haben wir (5) durch Anwendung von (6) auf ε1 wie gerade zu ε bestimmt. 4. Das eindimensionale Integral Leitfaden: Existenz und Berechnungsgrundlage (Hauptsatz): b ∫a f(x)dx = F(b) - F(a) (F eine Stammfunktion von f, d.h. F'=f ) b ∫a f(x)dx = Flächeninhalt zwischen dem Graphen von f und der x - Achse mit Orientierungsvorzeichen (von a bis b) Zusammenhang mit dem Mittelwert : b Mittelwert von f auf [a,b] = 1/(b-a) ⋅ ∫a f(x)dx Integralkalkül: Grundintegrale und Integrationsregeln Numerische Berechnung von Integralen Standard - Anwendungen von Integralen:Massen und Ladungen bei inhomogenen Verteilungen von ihnen, Längen, Flächeninhalte, Volumina (Rotationskörper), Wahrscheinlichkeiten, Erwartungswerte, Streuungen, Schluss von x'(t) und x(t0) auf x(t) 80 4. REELLE FUNKTIONEN Grundbegriffe: 'b ' Bestimmtes Integral a f (x) dx ∈ R und unbestimmtes Integal f (x) dx = F (x) + c, F ′ = f, '∞ 'a 'b Uneigentliche Integrale wie a f (x) dx, −∞ f (x) dx, auch a f (x) dx mit Pol a oder b von f, 'b→ → Mittelwert von f auf [a, b], Verallgemeinerung auf Kurven − x (t) : a − x (t) dt ist komponentenweise zu bilden nichtkonstante Dichtefunktionen (Massendichte, Ladungsdichte, Wahrscheinlichkeitsdichte) und Resultat der Integration darüber auf [a, b] : Masse, Ladung, Wahrscheinlichkeit Grundresultate: Hauptsatz: Wenn f auf [a, b] stetig ist, so existiert eine Stammfunktion F von f auf [a, b], es 't 't existieren alle Integrale a f (x) dx für t ∈ [a, b], und F (t) := a f (x) dx ist eine Stammfunktion 'b von f, und für jede Stammfunktion F von f gilt: a f (x) dx = F (b) − F (a) Monotonie des Integrals: 'b 'b Wenn f ≤ g auf [a, b], dann a f (x) dx ≤ a g (x) dx. Mittelwertsatz der Integralrechnung: Wenn f, g stetig auf [a, b] und g ≥ 0 auf [a, b], dann gibt es eine Zahl ξ ∈ (a, b) , so dass 'b 'b 'b f (x) g (x) dx = f (ξ) a g (x) dx. Für g = 1 konstant ergibt das speziell a f (x) dx = f (ξ) (b − a) . a Differenzieren unter dem Integralzeichen: d Wenn f (x, y) stetig ist auf dem Rechteck [a, b] × [c, d] und auch dy f (x, y) auf diesem Rechteck stetig ist, 'b 'b 'b d d dann ist die Funktion g (y) := a f (x, y) dx ableitbar, und es gilt dy a f (x, y) dx = a dy f (x, y) dx. Grundintegrale: Die beliebige zu addierende Konstante ’+c’ ist weggelassen: ( xα+1 xα dx = , für α = −1 α+1 ( 1 dx = ln |x| x ( 1 dx = arctan (x) ( 1 + x2 ( ( ( ex dx = ex ln (x) dx = x ln (x) − x sin (x) dx = − cos (x) cos (x) dx = sin (x) ( 1 1 − x2 dx = x 1 − x2 + 2 ( 1 1 + x2 dx = x 1 + x2 + 2 1 arcsin (x) 2 1 arcsinh (x) 2 4. DAS EINDIMENSIONALE INTEGRAL Regeln für bestimmte Integrale und Definition uneigentlicher Integrale: Schema zur Berechnung eines bestimmten Integrals, wenn eine Stammfunktion 'b F zu f angebbar ist: a f (x) dx = [F (x)]ba = F (b) − F (a) 'b 'a f (x) dx = − b f (x) (Orientierung) 'ab 'c 'c f (x) dx + b f (x) dx = a f (x) dx (Additivität bezüglich der Grenzen) a '∞ 't f (x) dx := limt→∞ a f (x) dx (falls dieser Limes existiert), analog: 'ab 'b f (x) dx := limt→−∞ −∞ f (x) dx (falls dieser Limes existiert). −∞ 'b 't a f (x) dx := limt→b− a f (x) dx (falls f in b einen Pol hat und dieser Limes existiert) Integralkalkül ' ' ' ' (f + g) = ' f+ g Linearität des Integrals - für bestimmte und unbestimmte Integrale ' αf = α f '(α Konstante) F g = F G − f G (partielle Integration, für bestimmte und unbestimmte Integrale) 1 ’-Regel, (α Konstante, α = 0, β Konstante): ’ α ( 1 f (αx + β) dx = F (αx + β) (F eine Stammfunktion von f) α Umkehrung der Kettenregel: ' ′ dxf (x) g (f (x)) = G ' ' (f (x)) , G eine Stammfunktion von g, formuliert als Substitutionsregel: dxf ′ (x) g (f (x)) = dug(u) = G (u) =∗ G (f (x)) (∗ ) : Rückeinsetzung von f (x) für u). u = f (x) Einsetzungsschema dazu: du = f ′ (x) dx Dasselbe für bestimmte Integrale formuliert: 'b ' f (b) dxf ′ (x) g (f (x)) = f (a) dug (u) = [G (u)]ba = G (b) − G (a) (Kein ’Rückeinsetzen’ !) a Eigentliche Substitution (Ableitungsfaktor fehlt!): ' ' dxg (f (x)) = duh′ (u) g(f (h (u))) = K (u) = K h−1 (x) (∗ ) : Rückeinsetzen;) x = h (u) Einsetzungsschema dazu: (das zweite Integral sollte einfacher sein!) dx = h′ (u) du 81 82 4. REELLE FUNKTIONEN Typische Beispiele zur Berechnung von Stammfunktionen: ( 2/3 1 1 (2x + 5) 3 2/3 √ 1. (Grundintegral und 1/α− Regel) dx = · = (2x + 5) 3 2 2/3 4 2x + 5 Partielle Integration: ' ' −x 2. xe(−x dx = −xe−x − −e−x dx = −xe − e−x (typisches Beispiel, F (x) = x, g((x) = e−x ) ( 1 x ln (x) dx = x (x ln (x) − x) − (x ln (x) − x) dx = x2 ln (x) − x2 + x2 − x ln (x) dx, also 2 ( 3. 1 1 x ln (x) dx = x2 ln (x) − x2 (partielle Integration, mit typischem ’Hinüberbringen’) 2 4 Umformungen und Umkehrung der Kettenregel: ( ( 1 1 sin (x) cos (x) dx = udu = u2 = sin2 (x) (Umkehrung Kettenregel, u = sin (x)) 2 2 ( ( 1 1 1 1 1 1 sin (x) cos (x) dx = sin (2x) dx = − cos (2x) = − cos2 (x) + sin2 (x) = − + sin2 (x) 4. 2 4 4 4 4 2 Man beachte, dass sich - korrekt - beide Resultate nur um eine additive Konstante unterscheiden. Partielle Integration ginge auch, ist aber typisch ungünstiger in solchen Fällen. ( ( 1 1 1 2 (1 − cos (2x)) dx = x − sin (2x) , analog für cos2 : sin (x) dx = ( 2 2 4 ( 1 1 1 5. 2 (x) dx = (1 + cos (2x)) dx = x + sin (2x) cos 2 2 4 (Typische günstige Anwendungen der Additionstheoreme zur Umformung von trig. Integranden) Integration gebrochen rationaler Funktionen ( mittels Partialbruchzerlegung: ( x 2 1 dx = − dx = 2 ln |x − 2| − ln |x − 1| ( x − 2 x − 1 ( (x − 1) (x − 2) 6. 1/2 1 1−x 1 1 1 x dx = + dx = ln |x − 1| + arctan (x) − ln 1 + x2 2 2 (x − 1) (x + 1) x−1 2x +1 2 2 4 Umkehrung ( ( der Kettenregel: 3/2 1 1 2 2 x 1 − x dx = − , ausgeführt als Substitution: 2x 1 − x2 dx = − · 1 − x2 2 2 3 ( ( ( 7. 3/2 √ 1 1 1 1 x 1 − x2 dx = − udu = − u3/2 = − 1 − x2 2x 1 − x2 dx = − 2 2 3 3 ( ( ( 2 2 √ 1 1√ 1 x + x 1 (u + 1) /2 + ((u + 1) /2) 1 1 3/2 √ √ dx = u+ √ + u + u+ √ du = du 2 u 4 4 u 8 4 8 u 2x − 1 8. 3√ 1 1 3√ 1 1 = u3/2 + u + u5/2 = (2x − 1)3/2 + 2x − 1 + (2x − 1)5/2 3 4 20 3 4 20 (Wir führten die Substitution u = 2x − 1 aus, um den Integranden wesentich zu vereinfachen.) Eigentliche Substitution: ( ( 2 1 + x dx = cosh2 (u) du, mit x = sinh (u) , dx = cosh (u) du, nun weiter ( ( 1 1 1 1 1 9. 2 cosh (u) du = (cosh (0) + cosh (2u)) du = u + sinh (2u) = u + sinh (u) cosh (u) , 2 2 4 2 2 √ '√ also insgesamt 1 + x2 dx = 12 arcsinh (x) + 12 x 1 + x2 (Additionstheoreme für sinh, cosh!) ( ( 1 2 1 2 2t dx = dt · , mit t = tan (x/2) , dx = dt, sin (x) = , 2t 2 2 1 + sin (x) 1 + t 1 + 1+t2 1+t 1 + t2 1 − t2 10. dazu noch was wir hier nicht brauchen: cos (x) = (raffinierte Standard-Substitution!), 1 + t2 ( ( 1 2 2 2 dx = dt =− =− also 1 + sin (x) 1+t 1 + tan (t/2) (1 + t)2 4. DAS EINDIMENSIONALE INTEGRAL 83 Typische Anwendungen des Integrals: ( 1 π 2 1. Mittelwert von f (x) = sin (x) auf [0, π] : m = sin (x) dx = π 0 π Flächeninhalt der Fläche, die von den Graphen von f (x) = x und g (x) = ex '2 2. eingeschlossen wird im Bereich [0, 2] : F = 0 (ex − x) dx = e2 − 3 Volumen des Kegels, der als Rotationskörper entsteht, wenn man die Gerade y = mx im Bereich [0, h] um die x − Achse rotieren lässt: 3. '2 * +h V = 0 πm2 x2 dx = πm2 13 x3 0 = 13 πm2 h3 Masse eines Zylinders der Höhe h, bei inhomogener Massendichte 1 an der Stelle x (x − Wert des betreffenden ρ (x) = √ x+1 Achsenpunktes, die Zylinderachse liegt auf der x − Achse im Bereich [0, h]) 4. Einheit von ρ: kg pro Längeneinheit: ( h √ 1 √ dx = 2 h + 1 − 2 (Einheit: kg) M= x+1 0 5. Gegeben ist die Wahrscheinlichkeitsdichte f (t) = λe−λt auf [0, ∞), λ > 0 Konstante. Sei T eine mit ( dieser Dichte verteilte Zufallsgröße, dann hat man a P (T ≤ a) = 0 λe−λt dt = 1 − e−λa . Dabei ist P (T ≤ a) die Wahrscheinlichkeit dafür, dass der Wert von T im Bereich [0, a] liegt, für alle a ≥ 0. Der Erwartungswert von T ist dann definitionsgemäß ( ∞ 1 tλe−λt dt = . E (T ) = λ 0 1 Der Median von T ist dann definitionsgemäß die Zahl m, für die gilt: P (T ≤ m) = , 2 1 ln 2 also ist der Median die Lösung m von 1 − e−λm = , und das ist m = . 2 λ Der Median ist wegen der Asymmetrie der (fallenden) Verteilung kleiner als der Erwartungswert! Die Varianz ( ∞von T ist definitionsgemäß 1 1 σ2 (T ) = t2 λe−λt dt = 2 . Die Streuung ist dann σ (T ) = , Wurzel λ λ 0 der Varianz. (’Standardabweichung’ ist nicht dasselbe, sondern nur ein empirischer Schätzwert für σ.) Bemerkung: T ist nichts anderes als die Variable: Zeitspanne, in der ein radioaktives Teilchen zerfällt, für eine Teilchenart, bei der λ Zerfälle pro Zeiteinheit zu erwarten sind. E (T ) ist dann die mittlere ’Überlebenszeit’ eines Teilchens, der Median ist die Halbwertszeit. Wir nehmen bewege sich zu jeder Zeit t mit der Momentangeschwindigkeit an, ein Teilchen cos (t) 1 − → − → − → v (t) = und sei zur Zeit t0 = 0 am Ort x 0 = x (0) = . 1 + sin (t) 1 − → Wir wollen den Ort x (t) zu jeder Zeit t wissen: (t 't− 1 cos (s) 1 + sin (t) − → − → → 6. x (t) = x (0) + 0 v (s) ds = + ds = . 1 1 + sin (s) 2 + t − cos (t) 0 Zu einer geradlinig gleichförmigen Bewegung kommt noch ein Kreisen entgegen dem Uhrzeigersinn. Man beachte, dass die bestimmte Integration das Lösen von Gleichungen erspart. Für die Berechnung des Ortes aus der Momentanbeschleunigung benötigt man zwei Integrationsschritte und dazu zwei Vorgaben: Anfangsort und Anfangsgeschwindigkeit. Der Anfangszeitpunkt t0 ist beliebig. Die Länge des Graphen der Parabel y = x2 im Bereich [0, 2] ist: , -2 ( 2 √ √ 1 1 1 7. L= 1 + 4x2 dx = (2x) 1 + 4x2 + arcsinh (2x) = 17 + ln 4 + 17 4 4 4 0 0 Bemerkung: Es ist nicht typisch, dass man Bogenlängen geschlossen ausrechnen kann. 84 4. REELLE FUNKTIONEN 4.1. Einstieg: Das Problem des Mittelwertes einer Funktion. Es sei eine stetige Funktion f auf dem Intervall [a, b] gegeben, a < b. Was sollte man unter dem Mittelwert von f auf [a, b] verstehen, und wozu wäre ein solcher Mittelwert gut? Bezeichnung: f [a,b] := Mittelwert von f auf [a, b] Dazu drei Beispiele: 1.) Ein Schwingungsvorgang ist beschrieben mit f(t) = 2 + sin (t) . Was ist der Mittelwert von f auf [0, 2π]? Betrachten wir das graphisch: 3 2.8 2.6 F1 2.4 2.2 2 1.8 F 1.6 2 1.4 1.2 1 0 π/2 π 3π/2 2π Offenbar schwingt die Funktion um den Mittelwert f [0,2π] = 2, dessen Höhe rot markiert ist. Diese Höhe ist daran zu erkennen, dass die Fläche F1 oberhalb des Mittelwertes, welche vom Graphen von f und dem Graphen der konstanten Funktion (rot) eingeschlossen wird, gleich der Fläche F2 unterhalb Mittelwertes ist. Unmittelbar stellt sich die Frage nach einem solchen Mittelwert, wenn man die mittlere Leistung eines Wechselstroms wissen möchte. 2.) Ein Teilchen bewege sich auf der x− Achse. Es sei für jeden Zeitpunkt t die Geschwindigkeit v (t) bekannt, für t ∈ [0, 2], und zwar sei v (t) = 1 − t2 . Der Ort zur Zeit t = 0 sei x (0) = 0. Positive Geschwindigkeit bedeutet Bewegung nach rechts auf der x− Achse, negative Geschwindigkeit Bewegung nach links. Was man wissen möchte, ist natürlich der Ort x (t) zur Zeit t für alle t ∈ [0, 2]. Betrachten wir den Spezialfall t = 2. Dann ist klar: x (2) = x (0) + v [0,2] · 2. Allgemein für t ∈ [0, 2]: x (t) = x (0) + v[0,t] · t. Also: Ort zur Zeit t minus Ort zur Zeit 0 gleich mittlere Geschwindigkeit im Zeitintervall [0, t] mal t (Zeitdifferenz!). Wir betrachten auch hier graphisch die Geschwindigkeitsfunktion v (t) und 4. DAS EINDIMENSIONALE INTEGRAL 85 ihren Mittelwert v[0,t] speziell im Intervall [0, 2]: v(t) 1 0.5 Graph von v F1 0 -0.5 -1 Mittelwert von v auf [0,2] F 2 -1.5 -2 -2.5 -3 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 t Wieder sind die Flächen F1 und F2 gleich, und genau daran ist der Mittelwert zu erkennen. Dieser negative Mittelwert führt dazu, dass x (2) < 0. Wir zeigen im nächsten Bild die Funktion x (t) , 0 ≤ t ≤ 2. x(t) 0.8 0.6 0.4 Graph der Ortsfunktion x(t) 0.2 0 -0.2 -0.4 -0.6 -0.8 Ortsfunktion bei konstant eingehaltener mittlerer Geschwindigkeit 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 t Die blaue Kurve zeigt den Verlauf der Ortsfunktion x (t) , die rote Gerade ist der Graph von y (t) = x (0)+v [0,2] t , wobei im Bild vm für steht. Sie zeigt die Ortsfunktion, welche man bei konstant eingehaltener mittlerer Geschwindigkeit v[0,2] bekäme. Man erkennt, dass x (t) ab t = 1 fällt: Bis t = 1 ist v (t) positiv, ab t = 1 negativ. Aus dem Zusammenhang x′ (t) = v (t) können wir Folgendes entnehmen: x (2) − x (0) 2−0 = mittlere Geschwindigkeit von v auf [0, 2] = v[0,2] . Also: (1) = 1 (V (2) − V (0)), mit einer Funktion V, so dass V ′ = v. 2−0 v[0,2] Solch eine Funktion V heißt Stammfunktion von v. Ferner hat sicher v (t)−v (v kurz für v[0,2] ) Mittelwert Null, das heißt: der Flächeninhalt, den der Graph dieser Funktion mit der x− Achse oberhalb der Achse 86 4. REELLE FUNKTIONEN einschließt, ist gleich dem eingeschlossenen Flächeninhalt, der unterhalb der Achse liegt. Die Differenz dieser Flächeninhalte ist aber gerade der Wert des bestimmten Integrals über diese Funktion, also: ( ( 2 ( 2 ( 2 (v (t) − v)dt = v (t) dt − vdt = v (t) dt − 2v. Daher 0 0 0 0 ( 1 2 v (t) dt. Zusammen mit (1) : 2 0 0 = v (2) (3) ( 0 = 2 2 v (t) dt = (V (2) − V (0)) . Damit ist im Beispiel die Verbindung zwischen Stammfunktion V von v und bestimmtem Integral über v hergestellt, wie sie im ’Hauptsatz der Differential- und Integralrechnung’ allgemein ausgesprochen und bewiesen wird. Aber ein inhaltliches Verständnis dieser äußerlich überraschenden Tatsache haben wir damit schon jetzt. 3.) Wir führen ein typisches Generalbeispiel für die Anwendung von Mittelwert und Integral von Funktionen aus: Eine Größe besitze auf einem Intervall [a, b] eine ’Dichte’, zum Beispiel: Elektrische Ladung, dann spricht man von ’Ladungsdichte’, oder Massendichte, d.h. Masse pro Längeneinheit, oder ’Wahrscheinlichkeitsdichte’, d.h. Wahrscheinlichkeit pro Längeneinheit. Man denke auch an Bevölkerungsdichte (Anzahl der Individuen pro Längeneinheit). Das letzte Beispiel zeigt bereits deutlich, dass man den Begriff der Dichte nicht nur auf eindimensionalen Punktmengen hat, sondern häufiger nich auf mehrdimensionalen Punktmengen. Dies wird eine wichtige Motivation für mehrdimensionale oder Mehrfachintegrale bilden. Wichtig ist, dass eine solche Dichte sich kontinuierlich ändern kann. Schreiben wir also ρ (x) allgemein für ’Dichte an der Stelle x ∈ [a, b]’, später dann auch ρ (x) für ’Dichte am Ort x’, der durch einen Ortsvektor x beschrieben ist. Dann hat man folgende allgemeine Beziehung: ( b ρ (x) dx = Gesamtmasse auf [a, b], a im Falle der Ladungsdichte ist das die Ladung, im Falle der Massendichte die Masse, im Falle der Wahrscheinlichkeitsdichte die Wahrscheinlichkeit, welche auf das Intervall [a, b] entfällt. Wir beobachten in diesem Zusammenhang erneut die Beziehung zwischen Integral und Mittelwert: Sicher ist auch ρ[a,b] · (b − a) = Gesamtmasse auf [a, b]. Also wiederum ( b ρ (x) dx = ρ[a,b] · (b − a) . a Allgemeiner tritt an die Stelle der Länge b − a des Intervalls [a, b] das (zur jeweiligen Raumdimension gehörige) n− dimensionale Volumen eines n− dimensionalen Bereichs, zugleich wird aus dem Intergal ein Volumenintegral über diesen Bereich. Wir halten noch einmal die anschauliche Deutung des bestimmten Integrals fest (zur Existenzfrage s.u.): Das bestimmte Integral ( b a f (x) dx gibt für a < b den Flächeninhalt zwischen x − Achse und dem Graphen von f mit Orientierungsvorzeichen, also werden Flächen oberhalb der x − Achse dabei positiv gezählt, Flächen unterhalb der x − Achse negativ. ( b ( a Für a > b definiert man dementsprechend : f (x) dx := − f (x) dx. a b Aus dieser anschaulichen Deutung ergeben sich sofort folgende Rechenregeln, die man auch mittels der nachfolgenden Limites von Riemann-Summen bekommt. 4.2. Grundlegende Rechenregeln für das bestimmte Integral. 4. DAS EINDIMENSIONALE INTEGRAL 87 Satz 31. Das Integral ist linear, d.h. ( (i) ( b (f (x) + g (x)) dx = a ( (ii) b f (x) dx + a b cf (x) dx = c a ( ( b g (x) dx a b f (x) dx. a Das Integral ist additiv bezüglich der Grenzen: ( (iii) b f (x) dx + a ( c f (x) dx = b ( c f (x) dx. a Das Integral ist monoton: (iv) Wenn f (x) ≤ g (x) auf [a, b], a < b, so ( a b f (x) dx ≤ ( b g (x) dx. a Aus der Monotonieeigenschaft gewinnt man noch eine praktische Abschätzung: Wenn f auf [a, b] ein absolutes Minimum fmin und ein absolutes Maximum fmax hat (bei stetigem f ist das z.B. der Fall), dann ( b fmin · (b − a) ≤ f (x) dx ≤ fmax · (b − a) , wenn a < b. a (Die Vorzeichen kehren sich um, wenn a > b.) 4.3. Näherung von bestimmtem Integral und Mittelwert. Man hat folgende naheliegende 'b Näherung für a f(x)dx. Wir setzen dabei f als stetig voraus, so dass die Existenz des Intergals und des Mittelwertes gewährleistet ist (vgl. den nächsten Abschnitt). Das Intervall [a, b] wird in Teilintervalle zerlegt durch Zwischenpunkte a0 = a, a0 < a1 < ...an = b. Aus jedem der n Teilintervalle [ai , ai+1 ] wählt man eine beliebige Zahl xi aus. Dann hat man für genügend kleine Abstände ∆xi := ai − ai−1 , 1 ≤ i ≤ n, sicher eine gute Näherung: ( b f (x) dx ≈ a n f (xi ) ∆xi (’Riemannsche Summe’) i=1 Diese ’Riemannschen Summen’ erklären auch, wie Leibniz auf seine heute noch übliche Integralnotation kam: Das Integralzeichen ist ein stilisiertes Summenzeichen, und ’dx’ steht dafür, dass man die maximale Intervallbreite gegen Null gehen lässt. Analog bekommt man eine naheliegende Näherung des Mittelwertes von f auf [a, b]: n f [a,b] ≈ 1 f (xi ) . n i=1 Diese liegt für sich genommen nahe: Man bildet xi auf der x− Achse, deren Abstände klein sind , x1 nahe bei a und xn nahe bei b, und bildet das arithmetische Mittel von deren Funktionswerten. Diese Näherung des Mittelwertes ergibt sich auch sofort aus der vorigen Näherung des Integrals, indem man ∆xi = b−a n setzt, also in gleich breite Streifen unterteilt. Denn damit hat man f [a,b] = 1 b−a ( a n b f (x) dx ≈ n 1 b−a 1 f (xi ) = f (xi ) . b − a i=1 n n i=1 88 4. REELLE FUNKTIONEN Wir schauen die Näherung des Integrals durch eine Riemannsumme in zwei graphischen Beispielen an, mit einer gröberen und einer feineren Zerlegung: 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 0 1 2 3 4 5 6 0 1 2 3 4 5 6 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 Man bemerkt sofort, dass die zweite Näherung des Integrals durch die (mit richtigem Vorzeichen versehenen) Rechteckflächen bereits sehr genau ist. In beiden Fällen wurde xi = 12 (ai−1 + ai ) gewählt. Aber bei der feinen Einteilung kommt es darauf schon kaum mehr an. Der Fehler bei der Integralberechnung liegt im Beispiel unter 2 · 10−16 (!) 4.4. Genauer Begriff des Riemannschen Integrals und Existenzfrage. Dieser Begriff ist 'b recht kompliziert, aber naheliegend. Sagen wir es anschaulich: Das Integral a f (x) dx existiert genau n . dann, wenn die Riemannsummen f (xi ) ∆xi eindeutig gegen einen endlichen Grenzwert konvergieren, i=1 so dass diese als Näherungen einen Sinn machen. Die Komplikation besteht darin, dass es sich nicht einfach um Folgenglieder an handelt, die nur von n abhängen. Das macht die Komplikation, die genaue Definition kann man so geben: 4. DAS EINDIMENSIONALE INTEGRAL 89 Definition 21. Unter einer Zerlegung (für das Intervall [a, b] mit a < b versteht man eine Folge Z xi = (a0 , ..., an ; x1 , ..., xn ) mit a = a0 < a1 < ... < an = b, ∈ [ai−1 , ai ] für 1 ≤ i ≤ n (’Zwischenpunkte’). Die maximale Streifenbreite von Z ist max (ai+1 − ai ) . 1≤i≤n Die Riemannsumme der Funktion f auf [a, b] zu Z lautet R (Z, f) := n i=1 f (xi ) (ai+1 − ai ) . 'b Das Integral a f (x) dx existiert im Riemannschen Sinne genau dann, wenn es für alle ε > 0 eine maximale Streifenbreite ∆ (ε) gibt, so dass für alle Zerlegungen Z1 , Z2 mit maximaler Streifenbreite ≤ ∆ (ε) gilt: |R (Z1 , f) − R (Z2 , f )| < ε. Dann ist der Wert des Integrals so definiert: Sei (Zn )n eine beliebige Folge von Zerlegungen, deren maximale Streifenbreiten ∆n eine Nullfolge bilden. Dann ist ( a b f (x) dx := lim R (Zn , f) . n→∞ Zum Verständnis: Der Wert der Riemannsummen darf also bei Riemann-Integrierbarkeit von f nicht wesentlich von der Art der Zerlegung abhängen (ob gleichbreite Intervalle oder nicht, Auswahl der xi ), sondern nur von der maximalen Streifenbreite. Ist diese ≤ ∆ (ε) , so unterscheiden sich alle Riemannsummen nur um weniger als ε. Auf diese Weise kann man eine Folge von Zerlegungen (Zn )n angeben, die immer feiner wird, so dass die Zahlenfolge R (Zn , f) eine Cauchyfolge ist. Deren Grenzwert ist dann das 'b Integral a f (x) dx. Die Bedingung besagt gerade, dass der Grenzwert nicht von der Art der Zerlegungsfolge abhängt, also immer dasselbe Resultat liefert. Man hat folgenden Satz: Satz 32. Wenn f stetig ist auf [a, b], so existiert das Riemann-Integral 'b a f (x) dx. Beweis: Wir wissen, dass stetiges f auf [a, b] sogar gleichmäßig stetig ist, d.h. |f (x) − f (y)| < ε, wenn |x − y| < δ (ε) , für x, y ∈ [a, b]. Wenn nun Z1 , Z2 Zerlegungen sind mit maximaler Streifenbreite ∆ = δ (ε) , dann gilt: m n |R (Z1 , f) − R (Z2 , f)| = f (xi ) (ai+1 − ai ) − f (yj ) (bj+1 − bj ) i=1 j=1 90 4. REELLE FUNKTIONEN Wir wählen eine gemeinsame Verfeinerung Z von Z1 , Z2 , also Z = (c0 , ...cr , u1 , ...ur ), r ≥ m, n, so dass ai = cki für ein ki und ebenso bj = clj für ein i gilt, für alle i, 0 ≤ i ≤ r. Dann gilt: |R (Z, f ) − R (Z2 , f )| = = ≤ = < r n f (uk ) (ck+1 − ck ) − f (xi ) (ai+1 − ai ) i=1 k=1 n n f (u ) (c − c ) − f (x ) (a − a ) k k+1 k i i+1 i i=1 ki ≤k<ki+1 i=1 n (f (u ) (c − c ) − f (x ) (c − c )) k k+1 k i k+1 k i=1 ki ≤k<ki+1 n (c − c ) (f (u ) − f (x )) k+1 k k i i=1 ki ≤k<ki+1 n i=1 (ai+1 − ai ) ε = (b − a) ε. Für das letzte Ungleichheitszeichen wurde |f (uk ) − f (xi )| < ε benutzt. Das gilt, weil |uk − xi | < δ (ε) . Dieselbe Abschätzung gilt auch für |R (Z, f) − R (Z2 , f)| . Also |R (Z1 , f ) − R (Z2 , f )| = |R (Z1 , f ) − R (Z, f ) + R (Z, f ) − R (Z2 , f )| ≤ |R (Z1 , f ) − R (Z, f )| + |R (Z, f) − R (Z2 , f)| < 2 (b − a) ε. Wir sind fertig mit dem üblichen Argument, dass man nicht ’< ε’ zeigen muss, sondern ’< cε’ mit einer Konstanten c genügt. Nun ist Stetigkeit zwar hinreichend. aber keineswegs notwendig für Riemann-Integrierbarkeit auf einem Intervall. Wir wollen und merken, dass ohne weiteres stückweise Stetigkeit (also mit endlichen Sprüngen an den Grenzen von endlich vielen Teilintervallen) ohne Weiteres genügt. Es gilt sogar folgender bemerkenswerte Satz: Wenn f auf [a, b] beschränkt ist und die Menge ihrer Unstetigkeitspunkte vom Maße Null ist (d.h. diese Menge enthält kein Intervall - insbesondere ist eine endliche oder auch abzählbar unendliche Menge vom Maße Null), dann ist f Riemann-integrierbar. Z.B. hat die Funktion f (x) = sin x1 für x > 0, f (x) = 0 für x = 0 nur einen Unstetigkeitspunkt, und die Werte liegen zwischen −1 und '1 1. Also existiert nach diesem Satz 0 sin x1 dx. Dagegen ist die Funktion f (x) = 1 für rationale x, f (x) = 0 für irrationale x, nicht Riemann-integrierbar. (Sie ist offenbar zwar beschränkt, aber überall unstetig. Die Menge ihrer Unstetigkeitsstellen ist demnach [0, 1] und vom Maße 1.) Denn man hat klar beliebig feine Zerlegungen, die auf [0, 1] zu Riemannsummen mit Wert 1 führen, und auch solche, die zu Riemannsummen mit Wert Null führen, je nach dem, ob man alle Zwischenpunkte rational oder irrational wählt. 4.5. Hauptsatz (Integral und Stammfunktion), Mittelwertsätze. Der folgende Satz stellt den bereits oben beispielhaft genannten Zusammenhang her und bildet die Grundlage des exakten Ausrechnens (so weit möglich) von Integralen. Definition 22. F heißt Stammfunktion von f auf [a, b], wenn F ′ (x) = f (x) auf [a, b] (an den Rändern als einseitige Ableitungen). Wir wissen vom Ableiten, dass mit F (x) auch F (x) + c (c Konstante) eine Stammfunktion von f ist, und aus dem Mittelwertsatz erfuhren wir, dass sich zwei Stammfunktionen von f nur um eine Konstante unterscheiden, dass also mit F (x) + c die Schar aller Stammfunktionen von f gegeben ist. 4. DAS EINDIMENSIONALE INTEGRAL 91 Satz 33 (Hauptsatz der Differential- und Integralrechnung). Es sei f auf [a, b] stetig. Dann gilt für alle x ∈ [a, b]: ( x (i) F (x) : = f (t) dt ist eine Stammfunktion von f auf [a, b]. a ( x f (t) dt = F1 (x) − F1 (a) für jede Stammfunktion F1 von f. (ii) a 'x Beweis: Zu (i) rechnen wir die Ableitung der Funktion F (x) := a f (t) dt nach. Zunächst ist die Funktion F (als Funktion der oberen Intergationsgrenze!) eindeutig definiert, da nach dem Satz über die Riemann-Integrierbarkeit der stetigen Funktionen das Integral für alle diese oberen Grenzen eindeutig existiert. Zu zeigen ist: F (x0 + ∆x) − F (x0 ) = f (x0 ) für x0 ∈ [a, b]. ∆x Für x0 = a ist der Limes nur für ∆x > 0 zu bilden, analog für x0 = b nur für ∆x < 0. Wir haben ( x0 +∆x F (x0 + ∆x) − F (x0 ) = f (t) dt. lim ∆x→0 x0 Sei nun fmin (∆x) das Minimum von f auf [x0 , x0 + ∆x] bzw. [x0 + ∆x, x0 ] bei ∆x < 0. Ebenso fmax (∆x) das Maximum. (Diese existieren wegen der Stetigkeit von f .) Dann ( x0 +∆x fmin (∆x) · ∆x ≤ f (t) dt ≤ fmax (∆x) · ∆x, (∆x > 0) , x0 für ∆x < 0 drehen sich die Vorzeichen um, also in beiden Fällen : ( x0 +∆x 1 fmin (∆x) ≤ f (t) dt ≤ fmax (∆x) . ∆x x0 Wir haben fmin (∆x) → f (x0 ) , fmin (∆x) → f (x0 ) für ∆x → 0. Also geht auch gemäß Einschließungsprinzip ' x0 +∆x 1 f (t) dt gegen f (x0 ) . Anschaulich ist das auch klar, indem wir diesen Term wie oben als Mit∆x x0 telwert der Funktion' f auf [x0 , x0 + ∆x] bzw. [x0 + ∆x, x0 ] deuten. x ' x Zu (ii) Mit (i): a f (t) dt = F (x) − F (a) , da nach Definition F (a) = 0. Mit F1 (x) = F (x) + c also f (t) dt = (F (x) + c) − (F (a) + c) = F1 (x) − F1 (a) . a Vorbemerkung zur Anwendung beim Ausrechnen eines bestimmten Integrals mittels einer Stammfunktion: Man wird stets zwei Schritte benötigen. Zuerst bestimmt man den Rechenausdruck irgendeiner Stammfunktion F (das muss nicht die in (i) definierte sein, sondern wird eine wie F1 in (ii) sein) zu f, dann hat man die Grenzen einzusetzen und die Differenz zu bilden. Daher schreibt man gern mit einem Zwischenschritt: ( b f (x) dx = [F (x)]ba := F (b) − F (a) . a Diese Bezeichnung mit der eckigen Klammer sollte man sich merken und auch selber nutzen. Anwendungen: 1.) Sobald man durch Umkehrung der Ableitungsregeln eine Stammfunktion gefunden hat, kann man bestimmte Integrale ausrechnen, Beispiele: , -2 ( 2 √ d a xa+1 2 3/2 2 √ x = , wenn a = −1. Also xdx = x = · 8. dx a+1 3 3 0 0 ( 2 d 1 1 = ln |x| , also dx = ln (2) . Wir kommen im nächsten Abschnitt systematisch zum Intedx x 1 x gralkalkül. 2.) Eine wichtige praktische Anwendung des Hauptsatzes ist folgende: Wenn von einer Funktion f (t) die Ableitung f ′ (t) überall im Bereich von t0 bis t1 bekannt ist und ferner f (t0 ) gegeben ist, dann kann man f (t) für diesen Bereich so ausrechnen: ( t f (t) = f (t0 ) + f ′ (s) ds, t ∈ [t0 , t1 ] (bzw. [t1 , t0 ] bei t1 < t0 ). t0 92 4. REELLE FUNKTIONEN Begründung: Das Integral ist nach Hauptsatz f (t)−f (t0 ) . So integriert man beispielsweise die Geschwindigkeitsfunktion über die Zeit, um die Ortsfunktion herauszubekommen, und addiert den Anfangsort dazu. Es ist übrigens günstig, hier mit bestimmten Integralen zu arbeiten. Satz 34 (Mittelwertsatz der Integralrechnung). Wenn f, g stetig und g ≥ 0 auf [a, b], dann für ein ξ ∈ (a, b) : ( b ( b f (x) g (x) dx = f (ξ) g (x) dx. Insbesondere mit g (x) = 1 konstant: a a ( Wenn f stetig ist, so für ein ξ ∈ (a, b) b f (x) dx = f (ξ) · (b − a) a Beweis: Man hat mit fmin := min { f (x)| x ∈ [a, b} und fmax := max { f (x)| x ∈ [a, b} , welche wegen der Stetigkeit von f existieren, und wegen der Monotonieeigenschaft des Integrals: ( b ( b ( b fmin · g (x) dx ≤ f (x) g (x) dx ≤ fmax g (x) dx für alle x ∈ [a, b]. Ferner a fmin · ( a b g (x) dx ≤ Nun nimmt die stetige Funktion ( a a a b f (x) g (x) dx ≤ fmax h (x) := f (x) ( ( b g (x) dx. a b g (x) dx a b ( ( b jeden Zwischenwert zwischen fmin · g (x) dx und fmax · g (x) dx an, also auch den Integralwert a a ( b f (x) g (x) dx. Diesen Wert nimmt h also auf [a, b] an. Aber man macht sich noch klar, dass dies a bereits auf (a, b) passieren muss: Wenn f konstant ist oder g konstant Null, dann ist das sofort klar. Wenn beides nicht der Fall ist, dann hat man für eine Zahl ξ ∈ [a, b] mit ( b ( b f (ξ) g (x) dx = f (x) g (x) dx a a jedenfalls, dass f (ξ) = fmin , fmax . Also findet sich ξ echt zwischen zwei Werten, an denen fmin , fmax angenommen werden von f, somit kann ξ ∈ (a, b) gewählt werden. 4.6. Integralkalkül: Berechnung von Stammfunktionen. ' Definition 23. Das unbestimmte Integral f (x) dx ist die Schar aller Stammfunktionen von f. Wenn es eine Stammfunktion F von f gibt, d.h. F ′ = f, dann also ( f (x) dx = F (x) + c. Grundsätzliche Vorbemerkungen: Man kann sich komplizierteste Stammfunktionen, die in den elementaren Funktionen ausdrückbar sind, bequem mit einem Computeralgebraprogramm beschaffen. Aber es ist unerlässlich, Einiges selber von Hand zu können, um gewissen immer wieder angestellten theoretischen Rechnungen folgen zu können und um Einfaches direkt zu beschaffen. Weiter sollte man vorab wissen: Es gibt gar nicht einmal komplizierte Funktionen, deren Stammfunktionen zwar beweisbar existieren (z.B. weil die Originalfunktion stetig ist), die aber prinzipiell nicht in elementaren Funktionen ausdrückbar sind. Auch das kann feststellen, indem man den ' man2 mittels Computeralgebraprogramms √ Auswertungsbefehl etwa gibt für e−x dx und erhält: 12 π erf (x) (’error function’, das ist nach Definition 'x 2 erf (x) = √2π 0 e−t dt). Auftreten eines solchen Eigennamens zeigt an, dass es sich um keine elementar ' berechenbare Stammfunktion handelt. Weiteres Beispiel: sin(x) x dx = Si (x) (sogenannte ’Integralsinus’). Wir verabreden, dass im Folgenden stets F eine Stammfunktion zu f ist, G zu g usw. Also F ′ = f, G′ = g. Wo das angezeigt ist, weisen wir gesondert darauf hin, wie man eine Stammfunktionsregel nutzt, um ein bestimmtes Integral auszurechnen. 4. DAS EINDIMENSIONALE INTEGRAL 93 4.6.1. Stammfunktionen der Grundfunktionen. Es sei auf die zu Beginn des Kapitels angegebene Liste verwiesen. Zu bemerken ist jedoch, dass man diese Liste extrem erweitern kann mit Benutzen eines ordentlichen Computeralgebraprogramms. (Formelsammlungen sind nunmehr wirklich unmodern!) Aber man sollte sich einige Hauptformeln merken, die man immer wieder braucht. Es sei auch angeregt, das Ableiten zu üben, indem man solche Grundregeln durch Ableiten bestätigt. Wir werden die weniger offensichtlichen Beispiele wie f (x) = ln (x) usw. als Beispiele für die Anwendung der Zusammensetzungsregeln behandeln. Auch die folgenden Regeln ergeben sich unmittelbar duch Ableiten, als Umkehrung entsprechender Ableitungsregeln: 4.6.2. Summen- und Konstantenregel. ( (f (x) + g (x)) dx = F (x) + G (x) + c, mit F ′ = f, G′ = g. ( αf (x) dx = αF (x) + c, mit F ′ = f. 4.6.3. Partielle Integration (Umkehrung der Produktregel des Differenzierens. ( ( f (x) G (x) dx = F (x) G (x) − F (x) g (x) dx + c, also ( b ( b b f (x) G (x) dx = [F (x) G (x)]a − F (x) g (x) dx a a ' d (F (x) G (x)) = f (x) G (x)+F (x) g (x) , also (f (x) G (x)+F (x) g (x))dx = F (x) G (x)+ dx ' ' ' d1 , dazu mit der Summenregel: (f (x) G (x) + F (x) g (x))dx = f (x) G (x) dx + F (x) g (x) dx + d2 , also die Behauptung. Bemerkung: Es bleibt ein Integral übrig, und man hofft, dass dies einfacher wird als das ursprüngliche. Manchmal muss man die Regel zweifach anwenden. Warnung: Die Regel taugt nur für spezielle Produkte, keineswegs denke man: ’Da ist ein Produkt zu integrieren, also wende ich diese Produktregel des Integrierens an.’ Typische günstige Ausdrücke: 1·f (x) , wobei f eine Umkehrfunktion wie ln oder arctan ist, Polynom mal transzendente Standardfunktion wie ln, exp, sin, ex sin (x) usw. Allerdings ist die Regel, wie wir noch sehen werden, unglaublich effizient zur Herstellung wichtigster theoretischer Zusammenhänge. 4.6.4. 1/α− Regel. ( 1 f (αx + β) dx = F (αx + β) + c (α = 0) α Bemerkung: Diese Regel sollte man sich merken und in entsprechenden Fällen anwenden, was viel bequemer als die folgende allgemeine Substitutionsregel ist. 4.6.5. Substitutionsregel (Umkehrung der Kettenregel des Differenzierens). ( ( ′ dxf (x) g (f (x)) = dug (u) = G (u) + c = G (f (x)) + c. Begründung: d Begründung: dx (G (f (x)) + c) = f ′ (x) g (f (x)) nach Kettenregel. Die Zwischenschritte weisen auf die praktische Anwendung: Man macht die Substitution u = f (x) du = f ′ (x) dx ' und ersetzt im Integral dxf ′ (x) g (f (x)): dxf ′ (x) durch du, g (f (x)) durch g (u) , erhält G (u) + c als unbestimmtes Integral, ersetzt dann wieder zurück u durch f (x) . Bemerkung: Hier und auch in vielen weiteren Fällen, insbesondere bei Mehrfachintegralen, ist es sehr nützlich, das ’dx’ usw. voranzustellen. Allerdings verlangt mein Computeralgebraprogramm diesen Ausdruck als Abschluss des Integrals. Warnung: Man schreibe niemals Integrale, in welchen alte Integrationsvariable (hier x) und neue (hier u) gemischt vorkommen, und man denke immer daran, dass dx auch in du umgerechnet werden muss. 94 4. REELLE FUNKTIONEN Für bestimmte Integrale lautet die Regel: ( b dxf ′ (x) g (f (x)) = a ( f (b) f (a) f (b) g (u) du = [G (u)]f (a) = G (f (b)) − G (f (a)) . Hier ist das Substitutionsschema zu ergänzen mit der Grenzentransformation ( a b ... → ( f (b) .... Man f (a) beachte, dass diese Grenzentransformation das Rückeinsetzen aus dem vorigen Schema erspart und ( f (b) auch ersetzen muss: g (u) du ist ein bestimmtes Integral, nur heißt die Integrationsvariable u. f (a) Unbestimmte Integrale werden wegen der damit verbundenen Unklarheiten durchaus von einigen ernstzunehmenden Menschen rundweg abgelehnt. Aber das Schema ist doch so praktisch, dass man nicht ganz darauf verzichten mag. Es ist nur Vorsicht geboten. 4.6.6. Die eigentliche Substitution (nicht nur: Umkehrung der Kettenregel). Betrachtet man die Substitutionsregel, die oben formuliert wurde, so wird man enttäuscht sein, weil man sie nur auf Integrale anwenden kann, in welchen der Faktor f ′ (x) auftritt neben der Schachtelung g (f (x)) . In diesen Fällen kann man auch sofort sagen, es sei nur(die Stammfunktion von ( G zu bilden und auf f (x) anzuwenden, 3 1 1 2 und man ist mit G (f (x)) fertig. Z.B. x sin x dx = 3x2 sin x3 dx = − cos x3 + c. Das 3 3 Beispiel zeigt auch, wie man typisch einen fehlenden konstanten Faktor zur Ableitung f ′ (x) ergänzen und kompensieren kann. Mit etwas Routine macht man das so schneller als mit dem Substitutionsschema. Viel interessanter sind die Fälle, bei denen ein solcher Ableitungsfaktor fehlt. Wie kann man dann trotzdem die Substitutionsregel anwenden? Dazu gibt es zwei Möglichkeiten, die man auch beide praktisch verwendet: Erstes Schema der eigentlichen Substitution: Mit umkehrbarer Funktion f und Umkehrfunktion f −1 kann man die Substitutionsgleichung u = f (x) nach x auflösen und bekommt: x = f −1 (u) , damit wird dx in du umgerechnet: ′ dx = f −1 (u) du, womit aus der Substitutionsregel wird: ( ( ′ dxg (f (x)) = du f −1 (u) g (u) = H (u) = H (f (x)) (wieder mit Rückeinsetzen). ′ Dabei ist H (u) eine Stammfunktion zu f −1 (u) g (u) . Für bestimmte Integrale lautet die Regel: ( a b dxg (f (x)) = ( f (b) f (a) ′ f (b) du f −1 (u) g (u) = [H (u)]f (a) = H (f (b)) − H (f (a)) . Beispiel zur Anwendung: ( 1 1 dx, Substitution : u = ex , x = ln (u) , dx = du, also : 1 + ex u ( ( ( 1 1 1 −1 1 = = dx du + du = − ln |1 + u| + ln |u| 1 + ex 1+uu 1+u u = − ln (1 + ex ) + x Dabei kamen typische weiter benötigte Schritte nach der Substitution vor. Diese führte auf eine gebrochen rationale Funktion (mit typischer Partialbruchzerlegung, vgl. den nächsten Abschnitt), anschließend wurde noch die α1 − Regel verwandt. Die Sache hat also mit der Umkehrbarkeit von exp zu ln geklappt, ohne der Ableitungsfaktor dagestanden hätte, der wäre hier ex gewesen. (Man vergleiche ( dass ex noch einmal dx = ln (1 + ex ) , was man direkt sagen kann, indem man identifiziert: f (x) = 1+ex , 1 + ex 1 g (x) = , also G (f (x)) = ln (1 + ex ) . Das wäre also mit bloßer Umkehrung der Kettenregel zu machen.) x 4. DAS EINDIMENSIONALE INTEGRAL 95 Zweites Schema zur eigentlichen Substitution: Man substituiert sofort x = h (u) und damit dx = h′ (u) du. Dann hat man: ( ( dx g (f (x)) = du h′ (u) g (f (h (u))) . Für bestimmte Integrale lautet die Regel dann: ( b ( dx g (f (x)) = a h−1 (b) du h′ (u) g (f (h (u))) . h−1 (a) Das ist nicht so unsinnig, wie es aussieht, eben dann, wenn g (f (h (u))) im Ergebnis viel einfacher wird als g (f (x)) . ' √ Beispiel: 1 − x2 dx. Man wird die (tendenziell immer äußerst ungünstige) Wurzel los mit x = sin (u) , also dx = cos (u) du, und erhält: ( ( ( ( 1 2 2 2 1 − x dx = cos (u) cos (u) du = cos (u) du = (cos (2u) + 1) du 2 1 1 1 1 sin (2u) + u = sin (u) cos (u) + u = 4 2 2 2 1 1 2 = x 1 − x + arcsin (x) (Rückeinsetzen) 2 2 Es sei bemerkt, dass man cos2 (u) auch mit partieller Integration bewältigen kann, aber die hier angesprochene Anwendung der Additionstheoreme ist bedeutend günstiger. Vielfach hat man beim Rückeinsetzen auch die Gleichung x = h (u) nach u aufzulösen, im Beispiel x = arcsin (u) . 4.6.7. Standardsubstitutionen für gewisse Funktionstypen. Mit ’Standard’ ist hier eher etwas ursprünglich recht Raffiniertes gemeint - und nun ist es bekannt. Das gilt besonders für Nummer 2. Wir erlauben uns in komplizierteren Beispielen, die ewige Konstante ’+c’ wegzulassen. 1.a) Für den Standard-Wurzelausdruck 1 − ax2 mit a > 0 hilft (2. Schema der eigentlichen Substitution): x = dx = 1 √ sin (t) a 1 √ cos (t) dt. a z.B. ( ( 1 1 1 1 √ cos2 (t) dt = √ 1 − ax2 dx = cos t sin t + t a a 2 2 √ 1 1 x 1 − ax2 + √ arcsin ax . = 2 2 a ( √ 1 1 √ Analog erhält man so: dx = √ arcsin ax . Es ist ein wenig zu empfehlen, in solchen 2 a 1 − ax 1 1 Fällen zunächst durch eine lineare Substitution den Parameter zu beseitigen: Mit x = √ u, dx = √ du a a ( ( ( ( 1 1 √ hat man 1 − ax2 dx = 1 − u2 du = √ 1 − u2 du, so dass man sich auf 1 − u2 du a a beschränken kann. In 1.b) werden wir so vorgehen. 1.b) Für den Standard-Wurzelausdruck 1 + x2 , a > 0, hilft (wieder 2. Schema): x = sinh (t) dx = cosh (t) dt. Dann hat man z.B. ( ( 1 + x2 dx = cosh2 (t) dt. 96 4. REELLE FUNKTIONEN Das kann man nun weiter verarbeiten mit den hyperbolischen Formeln (ganz analog zu den trigonometrischen, nur mit charakteristischen Vorzeichunterschieden). Also etwa mit 1 (1 + cosh (2t)) : ( (2 1 1 1 cosh2 (t) dt = (1 + cosh (2t)) dt = t + sinh (2t) 2 2 4 1 1 t + sinh (t) cosh (t) . Also = 2 2 ( 1 1 arcsinh(x) + x 1 + x2 . 1 + x2 dx = 2 2 cosh2 (t) = Man hat dabei: Die Berechnung von arcsinh(x) = ln x + 1 + x2 . ' cosh2 (t) dt gelingt auch mit partieller Integration: ( ( cosh2 (t) dt = sinh (t) cosh (t) − sinh2 (t) dt ( = sinh (t) cosh (t) − cosh2 (t) − 1 dt, also ( 1 1 cosh2 (t) dt = sinh (t) cosh (t) + t. 2 2 (Typischer Vorgang, dass der zu integrierende Ausdruck rechts wieder auftaucht, man bringt ihn dann auf die andere Seite.) Hier sind einige praktische Formeln, die wir benutzten, für die hyperbolischen Funktionen: cosh2 (x) − sinh2 (x) = 1 cosh′ (x) = sinh (x) , sinh′ (x) = cosh (x) , cosh (x + y) = cosh2 (x) + sinh2 (y) , sinh (x + y) = sinh (x) cosh (y) + sinh (y) cosh (x) Völlig analog erhält man auch 1.c) Für x ≥ 1: ( 1 1 x2 − 1dx = x x2 − 1 − ln x + x2 − 1 + c. 2 2 ( 1 1 Für x ≤ −1 hat man entsprechend: x2 − 1dx = x x2 − 1 + ln −x + x2 − 1 + c (über die 2 2 ungerade Fortsetzung). 2.) Gebrochen rationale Funktionen in sin (x) , cos (x) , tan (x): Für eine gebrochen rationale Funktion p (x1 , ..., xn ) in x1 , ...xn , also , setzt man solche trigonometrischen Funktionen überall für xi ein. Dann q (x1 , ...xn ) hilft folgende schlaue Substitution, nach dem 2. Schema der eigentlichen Substitution x = 2 arctan (t) , 2 dx = 1 + t2 Aus den beteiligten trigonometrischen Funktionen wird dann 2t 1 − t2 2t , cos (x) = , tan (x) = , 2 2 1+t 1+t 1 − t2 2t 1 − t2 auch weiter mit Additionstheoremen sin (2x) = 2 sin (x) cos (x) = usw. Es entsteht nach dieser (1 + t2 )2 Substitution eine gewöhnliche gebrochen rationale Funktion (zu deren Integration im Allgemeinen vgl. den nächsten Abschnitt). sin (x) = 4. DAS EINDIMENSIONALE INTEGRAL 97 ( ( 1 1 1 + t2 2 dx = dt = dt = ln |t| = ln |tan (x/2)| . Man beobachte aber 2 sin (x) 2t 1 + t t ( ( cos (x) 1 einfachere Fälle wie du = arctan (u) = arctan (sin (x)) . Hier genügt die dx = 1 + u2 1 + sin2 x Umkehrung der Kettenregel! 3.) Gebrochen rationale Funktionen in sinh (x) , cosh (x) , tanh (x) könnte man analog behandeln, indem man die analogen hyperbolisch-geometrischen Beziehungen ausnutzt, aber es geht auch einfacher: Man fasst eine solche Funktion als gebrochen rationale Funktion in ek1 x , ..., ekr x auf, ki ganze Zahlen. Dann genügt folgende Substitution (wieder nach 2. Schema): Beispiel: ( x = ln (t) 1 dt. dx = t Es entsteht eine gebrochen rationale Funktion in t. Ein Beispiel wurde oben bereits gegeben. 4.6.8. Integration gebrochen rationaler Funktionen: Partialbruchzerlegung. Vorbemerkung: Es geht hier nur um das Verständnis und praktische Handrechnung in einfachen Einzelfällen, wie sie häufig vorkommen. Langwierige Rechnungen sind gerade hier mit einem Computeralgebraprogramm zu vermeiden. Oftmals wird man darauf geführt, dass noch eine gebrochen rationale Funktion der Gestalt f (x) = p (x) mit Polynomen p, q q (x) zu integrieren ist. Das ist dann so zu machen (so weit möglich): Erster Schritt: Wenn Grad (p) ≥ Grad (q) , so führe man Polynomdivision durch. Der Polynomp1 (x) summand ist simpel zu integrieren, es verbleibt eine gebrochen rationale Funktion mit Grad (p1 ) < q (x) Grad (q) . (Im Folgenden heißt p1 einfach wieder p, wir setzen Grad (p) < Grad (q) voraus.) Zweiter Schritt: Man führt folgende Partialbruchzerlegung durch (es sei denn, man ist bereits bei einem der möglichen Endprodukte jeder solchen Zerlegung angelangt, dann hat man mit Standardfunktionen zu tun, deren Stammfunktionen man wissen oder nachschlagen kann). Wenn der Nenner q mindestens zwei Faktoren (x − a) , (x − b) mit a = b hat oder mindestens einen Faktor (x − a) und einen quadratischen ohne reelle Nullstelle oder aber mindestens zwei quadratische Faktoren ohne gemeinsame komplexe Nullstelle, dann ist die folgende Partialbruchzerlegung auszuführen: 1.) Man zerlegt den Nenner in lauter Linearfaktoren und qudratische Faktoren ohne reelle Nullstelle. (Dies ist nur in einfachen Fällen möglich, auch für ein Computeralgebraprogramm!) 2.) Man schreibt folgenden Ansatz hin. Es ist dabei k ≥ 1 und l ≥ 1 vorauszusetzen. Ferner soll x2 + αx + β ein Polynom ohne reelle Nullstelle sein. A1 , ..., Ak , B1 , ..., Bl , C1 , ..., Cl stehen für gesuchte unbekannte reelle Zahlen. p (x) k (x − a) (x2 l + αx + β) · ... = A1 Ak B1 + C1 x Bl + Cl x + ... + + 2 + ... + 2 + ... k x−a x + αx + β (x + αx + β)l (x − a) Dabei stehen die Pünktchen im Nenner links für weitere Linearfaktoren und weitere quadratische Fak l toren ohne reelle Nullstelle, welche keine gemeinsamen Teiler mit (x − a)k x2 + αx + β haben. Auf der rechten Seite stehen die Pünktchen dafür, dass man für jeden weiteren Faktor im Nenner den nämlichen Ansatz wie für die beispielhaft genannten beiden noch anzufügen hat. Man beachte: Wenn k = 1, so steht A1 A1 Ak auf der rechten Seite nur statt + ... + . Wenn l = 1, so steht für den zweiten Block x−a x−a (x − a)k B1 + C1 x nur 2 . Summanden der Form, wie sie auf der rechten Seite stehen, sind gerade die erwähnten x + αx + β Endprodukte der Partialbruchzerlegung. Es ist ein mathematischer Satz, dass es die gesuchten Zahlen eindeutig gibt. Bemerkung: Es darf durchaus γx − a mit γ = 0 statt x − a stehen und δx2 + αx + β mit δ = 0 statt 2 x + αx + β. Am Ansatz ändert das nichts. Auch die Weiterverarbeitung ist nicht wesentlich schwieriger. 98 4. REELLE FUNKTIONEN 3.) Die unbekannten Zahlen können auf jeden Fall ausgerechnet werden. Dabei geht man zweckmäßig so vor: Man rechnet direkt aus: p (a) k Ak = , wobei q1 (a) der Nenner q ohne den Faktor (x − a) ist. q1 (a) Für die verbleibenden Unbestimmten bildet man einfache (lineare!) Gleichungen, so viele wie man noch Unbestimmte hat, indem man auf beiden Seiten des Ansatzes für x möglichst einfache (ganze) reelle Zahlen einsetzt. Dann löst man das lineare Gleichungssystem. Dritter Schritt: Man rechnet Stammfunktionen zu den Endprodukten aus bzw. schlägt solche nach, und bildet die Summe dieser Stammfunktionen. Ein paar einfache Beispiele: 1. Beispiel: x A B C = + + . (x − 1) (x − 2) (2x + 3) x − 1 x − 2 2x + 3 Das ist der Ansatz, rechts stehen bequemer A, B, C statt A1 , A2 , A3 . Die drei Nennerfaktoren haben verschiedene Nullstellen. Dies ist der einfachste Fall überhaupt. Gemäß 3.) vom zweiten Schritt berechnet man sofort: 1 1 =− , A = (1 − 2) (2 · 1 + 3) 5 2 2 B = = , (2 − 1) (4 + 3) 7 −3/2 6 =− . C = 3 35 − 2 − 1 − 32 − 2 Also 1 2 6 x =− + − . (x − 1) (x − 2) (2x + 3) 5 (x − 1) 7 (x − 2) 35 (2x + 3) 1 Nun reicht die Linearität des Integrals und die − Regel, das Integral auszurechnen: α ( x 1 2 3 dx = − ln |x − 1| + ln |x − 2| − ln |2x + 3| + c. (x − 1) (x − 2) (2x + 3) 5 7 35 Damit sollte klar sein, wie man alle Fälle behandeln kann, bei denen im Nenner ein Produkt aus lauter Linearfaktoren ohne gemeinsame Nullstelle auftritt. 2. Beispiel: A 1 B C . 2 = x + x−1 + x (x − 1) (x − 1)2 Gemäß 3. vom zweiten Schritt berechnet man direkt: 1 A = = 1, (0 − 1)2 C = 1. Zur Bestimmung von B setzt man x = −1 in die Gleichung ein (0 und 1 sind verboten) und erhält diese lineare Gleichung für B, wobei man die bekannten Zahlenwerte für A, C bereits einsetzt: B 1 1 2 = −1 − 2 + 4 . Das ergibt B = −1. − (−1 − 1) Also Grundregeln und 1 α− 1 1 1 1 . 2 = x − x−1 + x (x − 1) (x − 1)2 Regel ermöglichen die Integralberechnung: ( 1 1 2 dx = ln |x| − ln |x − 1| − x − 1 + c x (x − 1) 4. DAS EINDIMENSIONALE INTEGRAL 99 3. Beispiel: Man stellt fest, dass 2x2 + x + 1 keine reelle Nullstelle hat, Ansatz daher im folgenden Fall: x A B + Cx = + 2 . 2 (x − 1) (2x + x + 1) x − 1 2x + x + 1 Man rechnet direkt aus: 1 A= . 4 Für B und C setzt man x = 0 und x = −1 (am einfachsten) in die Gleichung ein und bekommt 1 1 0 = − + B, also B = , 4 4 −1 1 1/4 − C 1 = − + , also C = − . −2 · 2 8 2 2 Damit x 1/4 1/4 − x/2 = + . (x − 1) (2x2 + x + 1) x − 1 2x2 + x + 1 Für das Integrieren des zweiten Summanden: 1 2x2 + x + 1 ( = 1/4 dx = 2x2 + x + 1 ( −x/2 − 1/8 dx = 2x2 + x + 1 ( −x/2 dx = 2 2x + x + 1 = 8/7 8/7 = , damit 2 1 2 x+ 4 +1 √4 x + √1 + 1 7 7 √ √ √ 2 4 7 1 7 7 · arctan √ x + √ +c= arctan (4x + 1) + c. 7 4 14 7 7 7 ( ( 1 4x + 1 1 du 1 1 − dx = − = − ln (u) = − ln 2x2 + x + 1 , also 2 8 2x + x + 1 8 u 8 8 ( 1 2 1/8 − ln 2x + x + 1 + dx 8 2x2 + x + 1 √ √ 1 2 7 7 − ln 2x + x + 1 + arctan (4x + 1) + c 8 28 7 1 2 2 x + 14 + 7 8 = 16 7 Wir halten fest: Bei der Integration gebrochen rationaler Funktionen können Summanden folgender Art auftreten: Polynome, gebrochen rationale Funktionen, ln − Glieder und arctan − Glieder. 4.7. Beispiele zur Anwendung des Integralkalküls. Zur partiellen Integration: Umkehrfunktionen kann man zweckmäßig damit behandeln: ( ( ln (x) dx = arcsin (x) dx = = ( = arctan (x) dx = ( ( 1 x dx = ln (x) − x x ( ( x 1 · arcsin (x) dx = x arcsin (x) − √ dx 1 − x2 ( 1 −2x √ x arcsin (x) − dx 2 1 − x2 x arcsin (x) + 1 − x2 . Analog 1 x arctan (x) − ln 1 + x2 . 2 1 · ln (x) dx = x ln (x) − 100 4. REELLE FUNKTIONEN Produkte der Form ex sin (x) usw. sind weitere wichtige Beispiele (die Formel noch einmal: ( F G − F g in Kurzform.): ( fG = Zunächst mit f (x) = ex , G (x) = sin (x) : ( ( ex sin (x) dx = ex sin (x) − ex cos (x) dx, nun G (x) = cos (x) : ( x x = e sin (x) − e cos (x) − ex cos (x) dx, also ( 1 x ex sin (x) dx = e (sin (x) − cos (x)) 2 ( Nun möchte man etwa auch haben: eαt sin (ωt + ϕ) dt, mit α, ω = 0. Dann wird die partielle Integration etwas mühsam. Mit der komplexen Darstellung der Sinusfunktion als Kombination von Exponentialausdrücken geht so etwas eleganter: sin (t) = ( eαt sin (ωt + ϕ) dt = = = = = ejt − e−jt , also 2j ( ej(ωt+ϕ) − e−j(ωt+ϕ) e αt · dt 2j ( 1 t (α + jω) + jϕ t (α − jω) − jϕ e −e dt 2j t (α + jω) + jϕ 1 1 1 e − e t (α − jω) − jϕ 2j α + jω α − jω αt + j (ωt + ϕ) 1 1 1 αt − j (ωt + ϕ) e − e 2j α + jω α − jω e αt (α sin (ωt + ϕ) − ω cos (ωt + ϕ)) α2 + ω 2 1 Man kommt also mit der − Regel aus. Es wäre nicht einmal nötig, den Ausdruck der drittletzten Zeile α noch zu verändern, weil er perfekt funktioniert und das rein reell auszudrückende Endresultat ergibt die letzte Umformung belassen wir als Übung im Rechnen mit komplexen Zahlen. Zur Umkehrung der Kettenregel bzw. Substitution: Zunächst ein paar Beispiele für die einfache Umkehrung der Kettenregel (d.h. die Ableitung der inneren Funktion steht als Faktor da, jedenfalls bis auf einen konstanten Faktor): ( ( 1 1 sin (x) cos (x) dx = udu = u2 = sin2 (x) (mit u = sin x)). 2 2 ( ( ( sin (x) 1 tan (x) dx = dx = − du = − ln |cos (x)| (mit u = cos (x) ). cos (x) u ( ( ( x ln 1 + x2 2x ln 1 + x2 1 1 dx = = udu 1 + x2 2 1 + x2 2 1 2 = u (mit u = ln(1 + x2 )) 4 1 = ln 1 + x2 . 4( ( ( 1 1 √ 1 2 x 1 + x2 dx = 2x 1 + x2 dx = udu = · u3/2 2 2 2 3 1 3/2 = 1 + x2 (mit u = 1 + x2 ). 3 Es folgen ein paar Beispiele mit eigentlicher Substitution: 4. DAS EINDIMENSIONALE INTEGRAL 101 ( √ ( x−1 √ dx = 2 u2 − 1du (mit x = u2 ) x = u u2 − 1 − ln u + u2 − 1 √ √ √ √ = x x − 1 − ln x + x − 1 . '√ Die Substitution führte also auf das bereits bekannte Integral u2 − 1du. ( ( x2 1 √ dx = dt (mit x = 3 sin (t)) 3 1 − x6 1 1 = t = arcsin x3 . 3 3 4.8. Uneigentliche Integrale ' ∞ als Grenzwerte. Zuweilen ' ∞ist es erforderlich, über einen unendlichen Bereich zu integrieren, also etwa 0 f (x) dx oder auch sogar −∞ f (x) zu bilden. Ein analoges Problem tritt auf, wenn man eine Funktion f mit einem Pol in a oder b (oder beiden) im Intervall [a, b] zu integrieren. Der Sinn eines solchen Integrals ist der, dass es als Grenzwert gewöhnlicher Riemann-Integrale existiert, also z.B. ( ∞ ( x e−t dt = lim e−t dt = lim 1 − e−t = 1. x→∞ 0 0 Aber ( x→∞ ( 1 1 1 dx = lim dx = lim (− ln (x)) = ∞. x→0 x→0 x x 0 x Dies Integral divergiert also nach ∞. Man definiert also 1 Definition 24 (uneigentliche Integrale). Wenn f in a rechtsseitig einen Pol hat und auf (a, b] stetig 'b 'b ist, so existiert a f (t) dt, falls limx→a+ x f (t) dt in R existiert. Dann ist der Wert des Integrals: ( b ( b f (t) dt := lim f (t) dt. x→a+ a x Analog für einen Pol linksseitig in b und f stetig auf [a, b): ( b ( x f (t) dt := lim f (t) dt, falls dieser Grenzwert in R existiert. x→b− a a Für einen Pol in c ∈ (a, b) bei stetigem f auf [a, c) und auf (c, b] im Innern des Integrationsintervalls ( b ( c ( b verlangt man für die Existenz des Integrals f (t) dt, dass sowohl f (t) dt als auch f (t) dt als endliche Grenzwerte existieren. ( Wenn f auf [a, ∞) stetig ist, so existiert a a ( ∞ c x f (t) dt, falls lim f (t) dt in R existiert und hat dann x→∞ a ( b ( b diesen Wert. Analog ist für f stetig auf (−∞, b] definiert: f (t) dt := lim f (t) dt, falls dieser x→−∞ x −∞ ( 0 Grenzwert in R existiert. Wiederum wird für f stetig auf R sowohl die Existenz von f (t) dt als auch −∞ ( ∞ ( ∞ die Existenz von f (t) dt verlangt dafür, dass f (t) dt existiere. Analog für einen Pol rechtsseitig 0 ( ∞ (−∞ ( ∞ b in a und f (t) dt, f stetig auf (a, ∞): Sowohl f (t) dt als auch f (t) dt müssen existieren für a a ein b mit a < b < ∞. a ( b ( 1 1 1 Zum Verständnis: dx = 1, das existiert. Aber dx = ∞. Das divergiert. Daher existiert 2 2 x x 0 ( ∞ (1 ∞ ( ∞ ( 0 1 1 1 1 auch nicht dx. dx = 2 dx = π existiert, da dx ebenfalls den 2 2 2 2 x 1+x 0 −∞ 1 + x 0 −∞ 1 + x Wert π2 hat. ∞ 102 4. REELLE FUNKTIONEN Ebenso wie bei Reihen hat man: Satz 35. Wenn ein uneigentliches Integral ( β ist), dann existiert auch f (t) dt. ( β α |f (t)| dt existiert (das Integral also absolut konvergent α Für die absolute Konvergenz nimmt man gern wiederum konvergierende Majoranten, für absolute Divergenz divergierende Minoranten, insbesondere die folgenden: ( ∞ 1 dx konvergiert für α > 1, divergiert für α ≤ 1. α x 1 ( ∞ K Also folgt aus f stetig auf [1, ∞), |f (x)| ≤ α , x ∈ [1, ∞), mit α > 1, dass |f (x)| dx existiert und x 1 ( ∞ ( ∞ damit auch f (x) dx. Ebenso divergiert für stetiges f auf [1, ∞) das Integral |f (x)| dx, wenn |f (x)| ≥ K xα 1 1 mit K > 0 und α ≤ 1. Analog für Pole, dafür hat man als Vergleiche: ( 1 1 dx konvergiert für α < 1, divergiert für α ≥ 1. α 0 x K xα , x ∈ (0, 1], mit α < 1, dann existiert Wenn daher für stetiges f auf (0, 1] gilt: |f (x)| ≤ ( 1 (Analog hat man wieder Divergenz von |f (x)| dx bei Minorante xKα mit α ≥ 1. ( 0 1 |f (x)| dx. 0 Beispiele: ( ( 1 1 1 √ dx = 2, dx = ∞, x 0 0 x ( ∞ ( ∞ 1 1 √ dx = ∞, dx = 10. 1.1 x x 1 1 ( 1 ( ∞ 1 ln (x) dx = −1, dx = ∞ ln (x) 0 2 1 Für die letzten beiden: Am Pol wächst |ln (x)| langsamer nach ∞ als jede Potenz x−α mit 0 < α < 1. ( 2 1 1 Dagegen geht für x → ∞ langsamer nach Null als jede Potenz, z.B. x1 . Auch dx = ∞, ln (x) 1 ln (x) 1 1 weil für x → 1+ etwa so schnell nach ∞ geht wie für x → 0 + . ln (x) x ( ∞ sin (x) Hier ist noch ein Beispiel für ein uneigentliches Integral, das konvergiert, aber nicht absolut: dx. x 0 ( t sin (x) Man beachte: Der Integrand ist in 0 stetig, es geht nur um lim dx. Wir argumentieren so: Sei t→∞ 0 x ∞ an das Integral von der n. Nullstelle bis zur n + 1. Nullstelle, für n ≥ 1. Dann ist an eine alternierende n=1 Reihe, deren Glieder monoton gegen Null fallen. Also ist die Reihe konvergent und somit auch das Integral von der ersten Nullstelle an, daher auch von 0 an. Andererseits besteht im Bereich [kπ, (k + 1) π] die sin(x) 1 Ungleichung x ≥ (k+1)π |sin (x)| , so dass ( (k+1)π ( π 1 2 sin (x) dx ≥ sin (x) dx = . x (k + 1) π 0 (k + 1) π kπ ∞ 2 Aber die Reihe divergiert (im Wesentlichen ist das die harmonische). Somit divergiert auch das kπ k=2 ( ∞ sin (x) Integral x dx. 0 4. DAS EINDIMENSIONALE INTEGRAL 103 4.9. Integrale über Kurven (vektorwertige Funktionen einer unabhängigen Variablen). ' b→ → Was sollte man unter a − x (t) dt verstehen? Denken wir an das Beispiel von Geschwindigkeitsvektor − v (t) − → − → zur Zeit t. Bei Ort x (t0 ) zur Zeit t0 sollte dann gelten für den Ort x (t) zur Zeit t ≥ t0 : − → → → → x (t) = − x (t0 ) + (t − t0 ) − v [t0 ,t] (− v [t0 ,t] ist die mittlere (vektorielle) Geschwindigkeit in [t0 , t]) ( t → − → = − x (t0 ) + v (t) dt. t0 Mit Orts- und Geschwindigkeitsvektoren wird komponentenweise gerechnet, ebenso werden Mittelwerte und Intergale von Vektoren komponentenweise ausgerechnet. Das entspricht ganz dem, dass Ableitungen von Vektoren komponentenweise zu nehmen sind. Also: x1 (t) .. → Definition 25. Für − x (t) = wird allgemein definiert: . xn (t) ' b x (t) x1 (t) dt 1 a b b . .. − → . x (t) dt = dt := . . a a 'b xn (t) a xn (t) dt ( ( . 4.10. Einige Anwendungen eindimensionaler Integrale. Hier sollen nur einige Beispiele gegeben werden. Es sei jedoch darauf hingewiesen, dass man beim Lösen von exakt lösbaren Differentialgleichungen wieder auf eine Fülle von Anwendungen trifft und dass man die Integration im Mehrdimensionalen wesentlich auf die eindimensionale Integration rechnerisch zurückführt. − → 4.10.1. Ort, Geschwindigkeit und Beschleunigung. Gegeben seien der Beschleunigungsvektor b (t) → → für alle Zeiten t und der Ortsvektor − x (t0 ) sowie der Geschwindigleitsvektor − v (t0 ) zur Zeit t0 . Es gelten − → − → − → − → − → ′ ′ ′′ die Beziehungen x (t) = v (t) und b (t) = v (t) = x (t) . Dann rechnet man aus: → → (i) − v (t) = − v (t0 ) + → → (ii) − x (t) = − x (t0 ) + ( t t0 t ( t0 − → b (t) dt − → v (t) dt. → Bemerkung: Manchmal finden Sie − a (t) für (’acceleration’). dei Beschleunigung − → sin (t) 1 1 → → Beispiel: (Ebene Bewegung) b (t) = für alle t, − x (0) = ,− v (0) = . Dann cos (2t) 1 0 hat man: ( t 1 sin (t) − → (i) v (t) = + dt 0 cos (2t) 0 , -t 1 − cos (t) = + 1 0 2 sin (2t) 0 2 − cos (t) = . 1 2 sin (2t) ( t 2 − cos (t) 1 − → (ii) x (t) = + dt 1 1 0 2 sin (2t) , -t 2t − sin (t) 1 = + 1 − 14 cos (2t) 0 1 + 2t − sin (t) = 5 1 4 − 4 cos (2t) 104 4. REELLE FUNKTIONEN 1.5 1.4 1.3 1.2 1.1 1 0 10 20 30 40 50 60 Hinweis: Solche Dinge sollte man mit bestimmten Integralen rechnen, das ist vielfach günstiger als die − → → Version, bei der man zuerst eine beliebige Stammfunktion von b (t) ausrechnet und dann mittels − v (t0 ) die (vektorielle) Integrationskonstante bestimmt, usw. Das bestimmte Integral erspart das Lösen der dabei auftretenden Gleichungen. → 4.10.2. Länge einer Kurvenbahn. Es sei − x (t) , t0 ≤ t ≤ t1 , eine (differenzierbare) Parametrisierung einer Kurvenbahn, derart, dass keine Verbindung zweier Punkte auf der Bahn doppelt durchlaufen wird. Dann ist ( t1 t0 ′ − x (t) dt → → die Länge dieser Bahn. Beispiel: Länge einer Ellipse, − x (t) = −a sin (t) − → x ′ (t) = : b cos (t) Länge der Ellipse = ( 0 2π a cos (t) b sin (t) , 0 ≤ t ≤ 2π. Dann ist mit % a2 sin2 (t) + b2 cos2 (t)dt. Für a = b, beide nicht Null, ist dies Integral nicht elementar berechenbar, das berühmte ’elliptische ' 2π Integral’. Für r = a = b kommt heraus: 0 rdt = 2πr, der Kreisumfang. bekannte e−t cos (t) − → Für die sogenannte logarithmische Spirale x (t) = , 0 ≤ t < ∞, bekommt man zur e−t sin (t) Länge ein konvergentes uneigentliches Integral: ( ∞ e−t dt = 1. 0 → 4.10.3. Sektorenformel für Flächeninhalte. Ein Ortsvektor − x (t), t0 ≤ t ≤ t1 , überstreiche eine gewisse Fläche, ohne ein Stück davon mehrfach zu überstreichen. Dann ist der Inhalt diese Fläche: F = ( 0 1 1 − ′ → x (t) × − x (t) dt. → 2 4. DAS EINDIMENSIONALE INTEGRAL → Beispiel: − x (t) = 1 2 105 sin (2t) sin (t) , 0 ≤ t ≤ 2π, die Bahn sieht so aus: 0 1 0.8 0.6 0.4 0.2 -0.4-0.20 -0.2 0.2 0.4 -0.4 -0.6 -0.8 -1 Wir haben cos (2t) ′ ′ − → → → x (t) = cos (t) , − x (t) × − x (t)) = 0 0 , 0 1 sin (2t) cos (t) − sin (t) cos (2t) 2 Der Inhalt der in der Acht eingeschlossenen Fläche ist daher: ( 2π 1 F = 2 sin (2t) cos (t) − sin (t) cos (2t) dt. 0 1 Das ist ein wenig unbequem, weil sin (2t) cos (t)−sin (t) cos (2t) das Vorzeichen wechselt. Aber mit [0, π] 2 erfasst man die obere Hälfte der Fläche, dort ist diese Funktion positiv, und man hat: ( π 1 F = 2 sin (2t) cos (t) − sin (t) cos (2t) dt 2 (0 π ( π 2 = 2 sin (t) cos (t) − 2 sin (t) cos2 (t) − sin2 (t) ( π 0 (0 π 3 sin (t) dt = 2 sin (t) (1 − cos2 (t))dt = 2 0 0 ( −1 = −2 (1 − u2 )du (mit u = cos (t) ) 1 ( 1 8 = 4 (1 − u2 )du = . 3 0 4.10.4. Oberflächeninhalt und Volumen eines Rotationskörpers. Lässt man den Graphen einer Funktion f (x) (stückweise stetig) im Intervall [a, b] um die x− Achse rotieren, so hat der eingeschlossene Köper das Volumen ( b V = πf 2 (x) dx. a Idee: Man zerlegt in kleine Zylinderscheibchen quer zur x− Achse, und die Zylinder haben Volumina πf 2 (x) ∆x. Das ergibt Riemannsummen, welche zum obenstehenden Integral führen. Auch der Oberflächeninhalt der Mantelfläche des Körpers lässt sich mit ähnlicher Idee berechnen: ( b O= 2π |f (x)| 1 + f ′2 (x)dx. a Dabei setzen wir noch die Ableitung von f als stetig voraus. Eine genauere Begründung dieser Formel geben wir im Rahmen der mehrdimensionalen Integration. Zu beachten ist der Faktor 1 + f ′2 (x), der an die Bogenlänge erinnert. Man erhält natürlich den gesamten Oberflächeninhalt, indem man noch die Inhalte der begrenzenden Kreisscheiben hinzufügt. KAPITEL 5 Komplexe Zahlen Grundbegriffe und Grundrechenarten: Menge C als R2 , Grundgleichung für j: j 2 = −1 Kartesische Darstellung einer komplexen Zahl: z = a + jb, a, b ∈ R, Realteil und Imaginärteil sind dann: Re (a + jb) := a, Im (a + jb) := b (Achtung, nicht etwa ist jb der Imaginärteil!) Polardarstellung einer komplexen Zahl: rejα , r > 0, r, α reell. jα Koordinatenumwandlung: re kartesisch bzw. polar vorgegeben: jα z = a + jb oderz = jα = r cos (α) , Im re = r polar → kartesisch: Re re sin (α) , b , wenn a > 0, arctan a b π + arctan , wenn a < 0 2 2 kartesisch → polar: r = a + b , α = a π , wenn a = 0, b > 0, 2π − , wenn a = 0, b < 0. 2 Die exakten kartesischen Darstellungen für ejα bei den einfachsten Standardwinkeln: 1√ 1 1√ 1√ 1 1√ ejπ/6 = 3 + j , ejπ/4 = 2+j 2, ejπ/3 = + j 3. 2 2 2 2 2 2 Bemerkungen: Nur für wenige mehr lassen sich exakte Wurzelausdrücke angeben. Für z = 0 hat man keine eindeutige Polardarstellung, der Winkel ist dabei beliebig. r ist der Betrag, α ∈ R der Winkel (von 1 an entgegen dem Uhrzeigersinn gezählt. : C → C Konjugation: (a, b reell), also a + jb → a − jb = a + jb a + jb = a − jb, rejα = re−jα (Konjugation in kartesischen und Polarkoordinaten) Addition und Multiplikation kartesisch a, b, c, d alle reell: a + jb + c + jd = a + c + j (b + d) (a + jb) (c + jd) = ac − bd + j (ad + bc) Betrag einer √ komplexen Zahl: |a + jb| = a2 + b2 (a, b ∈ R), rejα = r (r > 0, α reell), merke: z · z = |z|2 . Division kartesisch a, b, c, d reell, dazu c + jd = 0, gleichwertig: c2 + d2 > 0 : a + jb (a + jb) (c − jd) ac + bd bc − ad = = 2 +j 2 c + jd c2 + d2 c + d2 c + d2 Operationen in Polarkoordinaten (stets α, β ∈ R, r ≥ 0, s > 0): rejα sejβ = rsej(α+β) (Enthält für r = s = 1 beide Additionstheoreme!) rejα r = ej(α−β) jβ s sejα n re = rn ejnα (auch für allgemeineExponenten, nur ist das dann keine Endform) α + k · 2π √ j n Alle n. Wurzeln von rejα sind: n re , k = 0, ..., n − 1. 107 108 5. KOMPLEXE ZAHLEN Grundresultate: 1. (C, 0, 1, +, ·) ist ein Körper wie (R, 0, 1, +, ·) , also gelten alle bekannten Rechengesetze und auch deren Konsequenzen, wir nennen die wichtigsten: Allgemeine Regeln der Bruchrechnung, Binomische Formeln, auch die ganz allgemeine, Lösungsformel für quadratische Gleichungen, Additionsmethode zum Lösen linearer Gleichungssysteme. (C, 0, 1, +, ·) verhält sich in einem Punkt grundlegend anders als (R, 0, 1, +, ·) : Man kann (C, 0, 1, +, ·) nicht mit der Körperstruktur verträglich anordnen, so 2. dass die bekannten Gesetze für (R, 0, 1, +, ·, <) gelten. Das liegt daran, dass −1 in (C, 0, 1, +, ·) ein Quadrat ist und dann positiv sein müsste wie 1. 3. Die Konjugation ist ein Automorphismus des Körpers (C, 0, 1, +, ·) , der R festlässt, d.h. sie ist eine bijektive Abbildung C → C, so dass gilt: z1 + z2 = z1 + z2 , z1 · z2 = z1 · z2 für alle z1 , z2 ∈ C. Ferner r = r für alle r ∈ R. Dieser Automorphismus ist involutorisch, d.h. z = z für alle z ∈ C. Geometrische Deutung der Konjugation: Spiegelung an der reellen Achse. 4. (Folgerung aus 3.) Wenn z eine Nullstelle eines Polynoms mit reellen Koeffizienten ist, so ist auch z eine solche. D.h. die Nullstellen eines solchen Polynoms treten paarweise konjugiert auf. 5. Jedes Polynom mit komplexen Koeffizienten hat wenigstens eine komplexe Nullstelle, und damit zerfällt jedes Polynom über C in lauter Linearfaktoren. D.h. C ist algebraisch abgeschlossen. Anwendung der komplexen Zahlen in der Wechselstromlehre: Beschreibt man die Widerstände bei einem sinusförmigen Wechselstrom der Kreisfrequenz ω so: Z = jωL für eine Spule mit Induktivität L, 1 Z= für einen Kondensator der Kapazität C, jωC dann hat man wieder das Ohmsche Gesetz: U = Z · I Man kann dann Netzwerkberechnungen nach demselben Muster wie bei Gleichstromnetzen ausführen. Bisher haben wir Zahlkörper gesehen wie Q, R, auf der anderen Seite Vektorräume über R wie insbesondere R2 , R3 . In Vektorräumen konnte man rechnen wie in Körpern, nur eben nie durch Vektoren dividieren - Skalarprodukt und Vektorprodukt eignen sich in keiner Weise für eine Division, da die Ab− → − → − → → → → → bildungen − a −→ − a · b sowie − a −→ − a × b auch im Falle b = 0 nicht umkehrbar sind. Aber es gibt auf R2 (das ist eine große Ausnahme!) eine Körperstruktur (natürlich muss dabei eine Multiplikation im Spiel sein, die nichts mit dem Skalarprodukt zu tun hat), die sehr wichtig ist und in natürlicher Weise die Körperstruktur von R erweitert. Sie war ursprünglich stark innermathematisch motiviert, soch es zeigte sich schnell eine überragende Bedeutung für naturwissenschaftliche Anwendungen, vor allem in Physik und Elektrotechnik. 1. Motivierungen √ Man verwendet die Lösungsformel für quadratische Gleichungen und bekommt bei Bildung von a, a < 0, keine Lösung in R. Denn Quadrate in R sind stets ≥ 0. So führte man ’imaginäre’ Zahlen ein, ’bloß gedachte’, deren Existenz längere Zeit ein wenig unheimlich war, bemerkte, dass man mit einer einzigen Zahl j auskam, welche die Eigenschaft haben sollte: j 2 = −1. (In Mathematik und Physik ist die Bezeichnung ’i’, in der Elektrotechnik man Ströme mit i, I bezeichnet.) Nun überlegt man für ’j’, weil √ √ alle reellen Zahlen a > 0: −a = (−1) a = aj. Mit j kann man also aus allen negativen Zahlen eine √ 2 Wurzel ziehen, genau genommen stets zwei, weil auch ( a (−j)) = −a. Weitere Untersuchung zeigte dann, dass alles Gewünschte mit j im Verein mit den reellen Zahlen funktionierte und dass man die mulmige Frage nach der Existenz mit Gaußscher Konstruktion ohne weiteres klären konnte. (Vgl. den nächsten Abschnitt.) Elektrotechnische Motivation: Man stößt darauf, dass ein Wechselstrom durch einen Betrag und einen Phasenwinkel zu beschreiben ist, und gerade dafür sind komplexe Zahlen geeignet. Außerdem stellt sich die Frage, wie man das überaus praktische Ohmsche Gesetz (Spannungsabfall gleich Widerstand mal Stromstärke) retten kann bei Wechselströmen. Mit reeller Rechnung gelingt dies nicht, weil die 2. KONSTRUKTION DES KÖRPERS (C, +, ·, 0, 1) 109 Ableitung einer Sinus- oder Cosinusfunktion auf eine Phasenverschiebung hinausläuft. Aber die komplexe Exponentialfunktion erreicht das Ziel, allerdings hat man komplexe Werte für induktive und kapazitive 1 Widerstände zu setzen, jωL für den Widerstand einer Spule und jωC für den eines Kondensators (ω ist dabei die Kreisfrequenz). 2. Konstruktion des Körpers (C, +, ·, 0, 1) Man möchte nicht einfach nur die neue Zahl j haben, sondern eine Erweiterung von R, die wieder einen Körper bildet, in der also die Körperaxiome gelten. Man visiert nun den Bereich aller Zahlen x + jy mit x, y ∈ R an. Diese Zahlen muss der neue Körper jedenfalls enthalten, damit in ihm unbeschränkt Addition und Multiplikation ausführbar sind. Da die Rechengesetze von (R, +, ·, 0, 1) weiterhin gelten sollen und j 2 = −1, sind bereits folgende Regeln für Addition und Multiplikation erzwungen: (a + jb) + (c + jd) = a + c + j (b + d) (a + jb) (c + jd) = ac − bd + j (ad + bc) . Addition und Multiplikation führen offenbar aus unserem Minimalbereich der Zahlen x + jy nicht hinaus. Aber es ist zunächst nicht klar, ob auch die Kehrwerte der Zahlen = 0 darin aufzufinden sind. Es zeigt sich jedoch, dass dies der Fall ist. Dazu nehmen wir zunächst an, zu a + jb = 0, d.h. a = 0 oder b = 0, a, b ∈ R, hätten wir einen Kehrwert, und schauen nach, wie er dann in der Form x + jy aussehen müsste: 1 a −b a − jb a − jb = = 2 = 2 +j 2 . 2 2 a + jb (a + jb) (a − jb) a +b a +b a + b2 −b a 1 Nun drehen wir den Spieß um und erklären die Zahl 2 +j 2 als a+jb , zeigen mit derselben a + b2 a + b2 1 Rechnung andersherum, dass tatsächlich damit (a + jb) = 1 = 1 + j0 gilt. Das war der kritische a + jb Punkt. (Hinweis zur Rechnung: Man sollte den ersten Schritt stets überspringen und wissen, dass das Betragsquadrat von a+jb (als Vektor aus R2 aufgefasst) herauskommt.) Alle anderen Körper-Rechengesetze sind nur auf langweilige Art nachzuprüfen, ohne jede Schwierigkeit. Wir fassen das Ganze zu einer Definition und einem Satz zusammen: Definition 26. Die Struktur (C, +, ·, 0, 1) ist folgendermaßen definiert: C 0 1 (a + jb) + (c + jd) (a + jb) (c + jd) : : : : : = { x + jy| x, y ∈ R} = 0 + j0 = 1 + j0 = a + c + j (b + d) = (ac − bd) + j (bc + ad) . Satz 36. (C, +, ·, 0, 1) bildet einen Körper, erfüllt also alle Körperaxiome. Bemerkung: Man kann den Körper (C, +, ·, 0, 1) nicht wie R anordnen, so dass zusätzlich die Ordnungsaxiome gelten, die eine Harmonie zwischen Ordnung und +, · darstellen. Das ergibt sich daraus, dass in einem angeordneten Körper die Zahl 1 positiv sein muss, die Zahl −1 negativ, aber auch jede Quadratzahl positiv oder Null sein muss. Aber in C sind sowohl 1 als auch −1 Quadratzahlen. Daher kann der Körper C nicht zu einem angeordneten Körper gemacht werden. Das ist so weit ein rundes Resultat. Aber es ist wichtig, die komplexen Zahlen auch anschaulich zu a begreifen. Dazu identifizieren wir die Zahl z = a + jb mit dem Zahlenpaar ∈ R2 und verstehen b dies Zahlenpaar wiederum als kartesisches Koordinatenpaar eines Ortsvektors (’Zeigers’). Insbesondere übernehmen wir den Betrag vom R2 mit |a + jb| := a2 + b2 . Die kartesischen Koordinaten a, b von z = a + jb heißen: Re (a + jb) : = a (’Realteil von z = a + jb’, Im (a + jb) : = b (’Imaginärteil von z = a + jb’) - Achtung: b, nicht etwa jb (!) 110 5. KOMPLEXE ZAHLEN Da sich bei der Addition von komplexen Zahlen einfach die Realteile und die Imaginärteile addieren, haben wir die anschauliche Deutung der Addition: Die Addition der komplexen Zahlen ist die Vektoraddition von Ortsvektoren. Wir heben die bereits oben in der Inversenbildung wichtig gewordene Bildung a + jb → a − jb hervor mit folgender Definition und anschließendem Satz: Definition 27 (komplexe Konjugation). Folgende Abbildung heißt komplexe Konjugation: : C → C . a + jb → a − jb Anschaulich ist das die Spiegelung an der reellen Achse. Satz 37. Die Konjugation ist ein Körperautomorphismus von C, der R festlässt, d.h. ein Körperisomorphismus von C auf sich selbst, so dass also z1 + z2 = z1 + z 2 und z1 · z2 = z1 · z 2 und z = z für z ∈ R. Das prüft man sofort durch Rechnung nach. Außerdem merke man sich: zz = |z|2 . Folgendes Bild zeigt, was man von komplexen Zahlen in kartesischen Koordinaten verstehen sollte: Im z=a+jb=cos(x)+jsin(x) cos(x) Einheitskreis sin(x) j x 1 Re Konjugierte a-jb von z Die Zahl 1 ist einfach der Zeiger mit Winkel α = 0 und Betrag 1, also der Einheitsvektor in Richtung der π reellen Achse, die Zahl j der Zeiger mit Winkel und Betrag 1, also der Einheitsvektor in Richtung der 2 imaginären Achse. Wie wir sahen, kann man in C zu jeder negativen reellen Zahl zwei Quadratwurzeln bestimmen. Offene Frage ist zunächst, ob man auch aus komplexen Zahlen in C wieder Quadratwurzeln findet. Man rechnet mit etwas Mühe nach, dass dies möglich ist. Noch viel allgemeiner ist die Frage, ob jedes Polynom n p (x) = ck xk mit ck ∈ C vom Grad n ≥ 1 wenigstens eine Nullstelle hat. Dazu hat man folgendes k=0 Resultat, dessen Beweis bei weitem die uns zuhandenen Möglichkeiten übersteigt, das mit seinen günstigen Konsequenzen aber zu wissen nützlich ist: Satz 38 (’Fundamentalsatz der Algebra’). Der Körper (C, +, ·, 0, 1) ist algebraisch abgeschlossen, das n . heißt jedes Polynom p (x) = ck xk mit ck ∈ C vom Grad n ≥ 1 hat wenigstens eine Nullstelle. Gleichk=0 wertig: Jedes solche Polynom ist in lineare Polynome (’Linearfaktoren’) zerlegbar. Oder auch: Jedes Polynom mit komplexen Koeffizienten vom Grade n ≥ 1 hat genau n Nullstellen (wobei einige als mehrfache auftreten können). 3. BEISPIELE ZUM KARTESISCHEN RECHNEN MIT KOMPLEXEN ZAHLEN Folgerung 4. Jedes Polynom p (x) = n . k=0 111 ak xk mit ak ∈ R vom Grade n ≥ 1 (mit reellen Koef- fizienten also) zerfällt in ein Produkt von Polynomen mit reellen Koeffizienten, die alle Linearfaktoren sind oder quadratische Polynome ohne reelle Nullstellen. Wir beweisen die Folgerung aus dem Satz über folgenden Hilfssatz: Lemma 1. Wenn p (x) = n . k=0 ak xk mit ak ∈ R eine Nullstelle z = a + jb ∈ C besitzt, so ist auch z = a − jb eine Nullstelle von p. Oder: Die Nullstellen von p treten stets paarweise konjugiert auf. Beweis: p (z) = n . ak z k = k=0 n . ak z k = k=0 n . ak z k = k=0 n . k=0 ak z k = n . ak z k = p (z) = 0 = 0. Dabei k=0 nutzen wir nur die zuvor festgestellte Eigenschaft der Konjugation als Körperautomorphismus von C, der R festlässt. Mit dem Hilfssatz ist die Folgerung klar aus dem Fundamentalsatz der Algebra: Nach dem Fundan . mentalsatz der Algebra zerfällt p (x) = ak xk mit ak ∈ R in einen Zahlfaktor und Faktoren der Form k=0 x − z, z Nullstelle von p. Wenn z ∈ R, so ist das ein reeller Linearfaktor. Wenn z ∈ C \ R, sagen wir z = a + jb, b = 0, so hat man mit dem Hilfssatz eine zweite Nullstelle z, also die Faktoren (x − z) (x − z) = x2 − (z + z) x + zz = x2 − 2a + a2 + b2 . Das ergibt einen der versprochenen quadratischen Faktoren mit reellen Koeffizienten. 3. Beispiele zum kartesischen Rechnen mit komplexen Zahlen 1.) Einfaches Ausrechnen von Termen: 2 − 3j = 4 + 5j 2 − 3j = 4 + 5j 2 − 3j 4 + 5j = 2.) Lösen einfacher Gleichungen: 2+3zj 4−z ⇐⇒ ⇐⇒ ⇐⇒ (2 − 3j) (4 − 5j) −7 − 22j = . 41 41 2 − 3j −7 + 22j 2 + 3j = = 4 − 5j 41 4 + 5j √ |2 − 3j| 13 =√ . |4 + 5j| 41 4 = 1 + j, Solution is: z = 18 17 − 17 j 2 + 3zj = 1+j 4−z 2 + 3zj = (1 + j) (4 − z) z (3j + 1 + j) = 2 + 4j 2 + 4j (2 + 4j) (1 − 4j) 18 4 z= = = − j. 1 + 4j 17 17 17 3.) Quadratwurzeln einer komplexen Zahl a + jb : ⇐⇒ ⇐⇒ mit ε = (x + jy)2 = a + jb (gesucht : x, y) x2 + y2 = a2 + b2 ∧ x2 − y 2 = a ∧ 2xy = b 1 1 1 2 1 2 x=± a+ a + b2 ∧ y = ε − a + a + b2 , 2 2 2 2 ± für b ≥ 0 und ε = ∓ für b < 0. Beispiel: Die beiden Quadratwurzeln aus 1 + j sind: 1 1√ 1 1√ + 2+j − + 2, 2 2 2 2 1 1√ 1 1√ − + 2−j − + 2. 2 2 2 2 112 5. KOMPLEXE ZAHLEN Abbildung 1 Die beiden Quadratwurzeln aus 1 − j sind: 1 1√ 1 1√ + 2−j − + 2, 2 2 2 2 1 1√ 1 1√ + 2+j − + 2. − 2 2 2 2 3.) Wir lösen eine quadratische Gleichung in C: z 2 + (1 + j) z − 3 + j z1,2 z1 z2 = 0, Lösungsformel ergibt: % 1+j 1 = − ± (1 + j)2 + 12 − 4j 2 2 1 + j 1 = − ± 12 − 2j 2 2 1√ 1√ 1+j 1 = − ± 6+ 148 − j −6 + 148 , 2 2 2 2 1 1 1√ 1 1 1√ = − + 6+ 148 + j − − −6 + 148 , 2 2 2 2 2 2 1 1 1√ 1 1 1√ = − − 6+ 148 + j − + −6 + 148 . 2 2 2 2 2 2 4.) Wir lösen ein lineares Gleichungssystem in komplexen Koeffizienten. Dazu nehmen wir die Maschengleichungen zu folgendem Wechselstromnetz:Dabei laufen die Maschenströme I1 , I2 für beide Maschen im je angezeigten Drehsinn. U ist eine Wechselspannung, R ein Ohmscher Widerstand, L eine Spule mit Induktivität L, C ein Kondensator mit Kapazität C. Mit den komplexen Widerständen jωL für die Spule 1 und jωC für den Kondensator lauten die Maschengleichungen: 1 R+ I1 + RI2 = U jωC RI1 + (R + jωL)I2 = 0. Multiplikation der ersten Zeile mit jωC ergibt folgendes System: (1 + jωRC) I1 + jωRCI2 RI1 + (R + jωL)I2 = jωCU = 0. Dies ist ein lineares Gleichungssystem, nur in komplexen Koeffizienten. I1 , I2 sind die Unbestimmten, alle weiteren Buchstaben stellen äußere Parameter dar. 1. Zeile mal R minus 2. Zeile mal jωRC + 1 ergibt 4. POLARKOORDINATENDARSTELLUNG KOMPLEXER ZAHLEN dann: I2 113 jωR2 C − (R + jωL) (1 + jωRC) I2 = jωRCU, also −ωL + jR ω 2 CL − 1 jωCRU = ωCRU = Rω2 CL − R − jωL (Rω 2 CL − R)2 + ω 2 L2 Man beachte den viel sparenden Schritt, alle reellen Faktoren und U (hier ωCRU ) hinauszusetzen und das schwerfällige reelle Quadrat im Nenner nicht etwa auszumultiplizieren. Nunmehr kann man leicht mittels der zweiten Zeile I1 ausrechnen: (R + jωL) −ωL + jR ω 2 CL − 1 (R + jωL)I2 I1 = − = −ωCU 2 R (Rω 2 CL − R) + ω 2 L2 −ω3 RL2 C + j R2 ω 2 CL − 1 − ω2 L2 = −ωCU 2 (Rω2 CL − R) + ω 2 L2 ω3 RL2 C + j ω2 L2 − R2 ω 2 CL − 1 = ωCU 2 (Rω2 CL − R) + ω 2 L2 In komplizierteren Fällen als diesem ist manchmal eine weitere Elimination anstelle des Einsetzens zum Berechnen der zweiten Unbestimmten günstiger. 4. Polarkoordinatendarstellung komplexer Zahlen Wir konnten in kartesischen Koordinaten zwar ein Produkt von Zahlen ausrechnen, auch einen Quotienten, aber eine anschauliche Deutung dieser Operationen fehlte. Sie gelingt dagegen leicht mit Polarkoordinaten. Andererseits werden wir auf die so überaus für die Elektrotechnik praktische Kombination von cos, sin in der komplexen Exponentialfunktion geführt. Definition 28 (Polarkoordinatendarstellung komplexer Zahlen). Eine komplexe Zahl z lässt sich eindeutig beschreiben durch ihre Polarkoordinaten r arg (z) : : Schreibweise : Also definieren wir : Man merke sich : = |z| und = der Winkel α ∈ [0, 2π), so dass z = r cos (α) + jr sin (α) z = r (cos (α) + j sin (α)) = rejα . ejα := cos (α) + j sin (α) . ejα ist die Zahl auf dem Einheitskreis mit dem Winkel α. Satz 39. Es gilt ejα ejβ = ej(α+β) . Also hat man jα jβ rejα re se = rsej(α+β) und jβ = se Beweis: eja ejβ für Multiplikation und Division komplexer Zahlen: r j(α−β) (s = 0) e s = (cos (α) + j sin (α)) (cos (β) + j sin (β)) = cos (α) cos (β) − sin (α) sin (β) + j (sin (α) cos (β) + cos (α) sin (β)) = cos (α + β) + j sin (α + β) (Additionstheoreme für cos, sin (!) = ej(α+β) . Die zweite Aussage versteht sich sofort daraus, die dritte folgt so: sejβ rs ej(α−β) = rejα . Also r j(α−β) . - Eine Begründung der Additionstheoreme werden wir noch über Drehmatrizen geben. se Bemerkung: In Mathematik B werden wir genauer sehen, dass rejα sejβ = f (a + jb) = ea+jb = ea (cos (b) + j sin (b)) tatsächlich die Fortsetzung der Exponentialfunktion ins Komplexe darstellt. Wir halten aber schon einmal fest, dass wir mit ejz ganz ’normales’ Rechnen mit Exponenten betreiben können. Mit anderen Worten: Wir haben das lästige Rechnen mit cos, sin im Rechnen mit der komplexen Exponentialfunktion aufgehen lassen. Die kurze und sehr einfache Formel ej(α+β) = ejα ejβ umfasst beide Additionstheoreme! 114 5. KOMPLEXE ZAHLEN Satz 40 (Potenzieren und Wurzelziehen mit Polarkoordinaten). Wir haben für n ∈ N0 : jα n = rn ejnα , re Alle n − ten Wurzeln von z = rejα sind : √ α+2kπ n rej n , k = 0, ..., n − 1. (r ≥ 0 ist vorausgesetzt!) Jede komplexe Zahl z = 0 hat also genau n verschiedene Wurzeln, und diese gehen durch fortgesetzte Drehung um den Winkel 2π/n auseinander hervor. erste Aussage folgt sofort aus dem vorigen Satz über die Multiplikation. Die zweite: Die √ Beweis: n α+2kπ n rej n = rej(α+2kπ) = rejα . (Addition eines Winkels 2kπ mit ganzer Zahl k bedeutet Drehen mit einem Vielfachen des Vollwinkels, es resultiert also dieselbe Zahl.) Andererseits sind die Wurzeln √ α+2kπ n rej n für verschiedene Werte k1 , k2 ∈ {0, ...n − 1} auch wirklich verschieden, da der Betrag ihres Winkelunterschiedes gerade 2|k1n−k2 | π < 2π ist. Zur Umwandlung von kartesischen in Polarkoordinaten und umgekehrt hat man folgende Formeln: Eindeutige Umwandlung von z = a + jb = 0 in z = rejα : r = a2 + b2 arctan ab , wenn a>0 π + arctan ab , wenn a < 0 α = π , wenn a = 0 und b > 0 2π − 2 , wenn a = 0 und b < 0 Alternative Berechnung des Winkels : arccos √ 2a 2 , wenn b ≥ 0 a +b α = − arccos √ 2a 2 , wenn b ≤ 0 a +b Bemerkung: Für a = b = 0, also z = 0, hat man keine eindeutige Winkelbestimmung. Die Umwandlung in der anderen Richtung ist einfacher: z = rejα , dann z = r cos (α) + jr sin (α) . Hier ist eine Tabelle der Sinus- und Cosinuswerte besonders einfacher Winkel, so dass man die kartesischen Koordinaten zu komplexen Zahlen mit diesen Winkeln exakt ausrechnen kann: Winkel α sin (α) cos (α) 1 2 π 6 1 2 √ 3 π 4 √ 1 2 √2 1 2 2 π 1 2 3 √ 3 1 2 √ √ √ Beispiele: 2e−7jπ/4 = 2ejπ/4 = 2 +j 2, 3e−2jπ/3 = − 32 − 32 j 3. (Für die anderen Quadranten muss man lediglich noch auf die Vorzeichen von sin, cos achten. 4. POLARKOORDINATENDARSTELLUNG KOMPLEXER ZAHLEN 115 Zur Veranschaulichung von Polarkoordinaten betrachte man noch einmal dies Bild: z=re jx Quadratwurzel von z x z=re -jx √ √ Dabei ist x im gezeichneten Beispiel 3π , r = 2, also ist 4 2e3jπ/8 eine der beiden Quadratwurzeln von 4 √ z = 2e3jπ/4 . Man beachte, dass die Konjugierte von rejα einfach re−jα ist. Folgendes Bild zeigt alle fünften Wurzeln einer komplexen Zahl: z Rot: Alle 5. Wurzeln von z KAPITEL 6 Lineare Algebra 1. Grundbegriffe der linearen Algebra und wichtige Resultate dazu Grundbegriffe: Vektorraum (über einem Körper K), Unterraum, Linearkombination, lineare Unabhängigkeit, Koeffizientenvergleich, Erzeugendensystem, Basis, Dimension Basen und Koordinatensysteme, Koordinatendarstellung eines Vektors bezüglich einer Basis Sätze: Operationen an einem System von Vektoren, welche nichts Wesentliches ändern Existenz von Basen eindeutiger Länge Basisergänzungssatz Rechentechnik: Praktische Feststellung linearer Unabhängigkeit (Abh.) eines Systems von Vektoren aus K n Ausdünnen eines Erzeugendensystems (für einen Unterraum des K n ) zu einer Basis Vorbemerkung: Es genügt hier, bei ’Körper’ an R oder vielleicht noch C zu denken. Definition 29. Ein Vektorraum über dem Körper (K, +, ·, 0, 1) ist eine nicht leere Menge V zusammen mit einer inneren Verknüpfung (oder zweistelligen Operation) einer einstelligen Operation + : V × V → V , − → → → → x,− y → − x +− y −: V → V − → → x → −− x und einer äußeren Verknüpfung : K × V → V → → λ, − x → λ− x 117 118 6. LINEARE ALGEBRA derart, dass folgende Axiome erfüllt sind: → − − → x + − y +→ z = − → − → 0 + x = − → → −x +− x = − → − → x + y = → (αβ) − x = − → → → x +− y +− z − → x − → 0 − → → y +− x − → α βx → → → (α + β) − x = α− x + β− x − → → → α → x +− y = α− x + α− y − → − → 1· x = x Beispiele für Vektorräume: V 3 , VO3 sind die bereits bekannten konkreten geometrischen Vektorräume der Pfeilklassen bzw. der Ortsvektoren im dreidimensionalen Anschauungsraum, Rn ist Vektorraum über R, allgemeiner K n über K, Cn ist Vektorraum über C, (n− dimensional über C, s.u.) Cn ist Vektorraum über R, (2n− dimensional über R, s.u.) Die Menge { f| f : [0, 1] → R, f stetig} ist mit den Operationen f + g, λf ein Vektorraum über R (fürchterlicher unendlicher Dimension) Bemerkung: Rn spielt die größte Rolle bei der unmittelbaren Beschreibung naturwissenschaftlicher Sachverhalte, aber Funktionenräume (einiger Arten von Funktionen) bilden das Rückgrat der angewandten Mathematik. Zum Beispiel besagt ein wichtiger Satz der Mathematik (Approximationssatz von Bernstein), dass man jede stetige Funktion auf [0, 1] (oder einem anderen abgeschlossenen Intervall) beliebig gut und gleichmäßig durch ein Polynom annähern kann. Der Raum der Polynome ist aber schon nicht mehr ganz so fürchterlich, er hat eine abzählbar unendliche Basis (konkrete Erläuterung weiter unten). Praktisches Rechnen: Wie im Körper, nur niemals durch einen Vektor dividieren: − → → 0− x = 0, − → − → λ 0 = 0 , − → → → → λ x − − y = λ− x − λ− y, − → − → → → → → (α + β) x − y + γ δ − x −− y = (α + β + γδ) − x − (α + β + γ) − y (stets so zusammenfassen!) n → → → Definition 30. Eine Linearkombination der Vektoren − x 1 , ..., − x n ist ein Ausdruck αk − x k . Die skalaren Vorfaktoren nennt man gern ’Koeffizienten’. k=1 Folgendes Ergebnis dazu ist selbstverständlich (vgl. vierte Beispielrechnung oben): → → Satz 41. Jeder Ausdruck der Vektorrechnung in den Vektorvariablen (oder Konstanten) − x 1 , ..., − xn n → lässt sich schreiben als Linearkombination αk − x k , mit irgendwelchen Skalaren αk , 1 ≤ k ≤ n. Hinweis: k=1 → → Ähnlich wie bei Zahlen schreiben wir lieber − a 1 , ..., − a n für Vektoren, welche im Zusammenhang konstant gehalten werden. Definition 31. Ein Unterraum eines Vektorraums V über K ist eine Teilmenge U ⊂ V, derart dass − → 0 ∈ U, − → → → → x,− y ∈ U =⇒ − x +− y ∈U − → → x ∈ U, λ ∈ K =⇒ λ− x ∈U 1. GRUNDBEGRIFFE DER LINEAREN ALGEBRA UND WICHTIGE RESULTATE DAZU 119 − → Erläuterung: Ein Unterraum U von V ist also eine Teilmenge, die wenigstens 0 enthält und abgeschlossen ist unter den linearen Operationen von V, mit den von V ’geerbten’ linearen Operationen selbst wieder − → ein Vektorraum ist. Der kleinste Unterraum ist offenbar { 0 }, der größte V selbst, ferner erhält man folgende Unterräume: → → Satz 42. Seien − a 1 , ..., − a n ∈ V, V Vektorraum über K, dann ist / n 0 − − − → → → Spann a 1 , ..., a n := αk a k αk ∈ K, 1 ≤ k ≤ n k=1 → → → → ein Unterraum von V. Er heißt der von − a 1 , ..., − a n erzeugte Unterraum. Entsprechend heißt − a 1 , ..., − an ein Erzeugendensystem für diesen Unterraum. Man kann sogar den von der leeren Menge von Vektoren − → − → erzeugten Nullraum { 0 } noch hinzunehmen - die leere Summe hat Wert 0 . Wenn V selbst ein endliches Erzeugendensystem hat, dann erhält man auf diese Weise alle Unterräume von V. Begründung: Man achte nur darauf, dass eine Summe von zwei Linearkombinationen der Vektoren → − → a n wieder eine solche ist und auch die Multiplikation einer Linearkombination mit einem Skalar a 1 , ..., − − → λ wieder eine solche ist. Ferner ergibt Setzen aller Koeffizienten zu Null den Nullvektor, also 0 ∈ U. Dass man so alle Unterräume bekommt bei endlich erzeugtem V, folgt aus dem Basisergänzungssatz (s.u.). Beispiele für Unterräume: Alle Unterräume des R3 − → 1.) Nulldimensionale: Nur { 0 } → − − → 2.) Eindimensionale: Alle Ursprungsgeraden Spann − a ,→ a = 0 − → → − → → 3.) Zweidimensionale: Alle Ursprungsebenen Spann − a, b , − a , b linear unabhängig 4.) Dreidimensionale: Nur R3 . Frage: Wann ist eine Darstellung durch Linearkombination eindeutig, so dass man also aus n k=1 n − → αk − ak = βk→ a k schließen kann, dass für alle k (1 ≤ k ≤ n) gilt: αk = β k ? k=1 Das ist ein wichtiger Vorgang, den man ’Koeffizientenvergleich’ nennt. Wann also darf man Koeffizientenvergleich machen? → → Definition 32. Die Vektoren − a 1 , ..., − a n heißen linear unabhängig, wenn eine der folgenden (gleichwertigen!) Eigenschaften erfüllt ist: (i) (ii) n k=1 n → λk − ak = → λk − ak = k=1 (iii) − → 0 =⇒ für alle i, 1 ≤ i ≤ n, gilt: λi = 0 n k=1 − → ai = → µk − a k =⇒ für alle i, 1 ≤ i ≤ n, gilt: λi = µi → λk − a k für alle i und alle λk , k < i. 1≤k<i → → Eine allgemeine Beobachtung zum anschaulichen Verständnis: Dass ein System von Vektoren − a 1 , ..., − an − → − → linear unabhängig ist, bedeutet geometrisch: a 1 ist nicht der Nullvektor, und a 2 ist nicht parallel zu − → − → − → − → → a 1 , und a 3 ist nicht wird, und − a 4 ist nicht in − parallel zur Ebene, welche von a 1 , a 2 aufgespannt → − → − → − → − → − → Spann a 1 , a 2 , a 3 , also nicht parallel zum Unterraum welcher von a 1 , a 2 , a 3 aufgespannt wird, usw. Konkretes Beispiel zum anschaulichen Verständnis und zum Verständnis der Versionen (i) − (iii) des Begriffs der linearen Unabhängigkeit: Von den folgenden Vektoren in der Ebene sind je zwei linear 120 6. LINEARE ALGEBRA unabhängig, aber das System aller drei Vektoren ist linear abhängig: 2 1.8 1.6 1.4 b a 1.2 1 0.8 c 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 3 Lineare Unabhängigkeit eines Systems von zwei Vektoren bedeutet nämlich: Keiner ist Vielfaches des anderen. Also im Beispiel: − − → → − → − − → a ,→ c , b,→ c sind alle linear unabhängig, a, b , − − → → → aber das System − a, b,− c ist linear abhängig. Denn wir haben : Die Systeme − → c = → 1→ 3− 1 3 2 1 3 =− − a + b =− + , das bedeutet lineare Abhängigkeit gemäß (iii) . 1 2 2 4 4 4 4 → −1 − 3− → → a + b + (−1) − c = 0, das bedeutet lineare Abhängigkeit gemäß (i) , 4 4 → − → −1 − 3− −1 → → → → a + b + (−1) − c = 0− a + 0 b + 0− c (und 0 = ), lineare Abhängigkeit gemäß (ii) . 4 4 4 Nach dem nächsten Satz können wir das praktischste Verfahren angeben, um die lineare Unabhängigkeit oder Abhängigkeit eines Systems von Vektoren im Rn oder Cn festzustellen - mit dem letzten Satz dieses Abschnittes ist es allerdings völlig allgemein für jeden Vektorraum anzuwenden. → → → Lemma 2 (Hauptlemma). Ersetzt man im System − a 1 , ..., − a n einen der Vektoren, sagen wir − a i, n → → durch − ai + αk − a k , so ändert sich nichts an der Eigenschaft der linearen Abhängigkeit oder Unk=i abhängigkeit, auch nichts am erzeugten Unterraum. Diese Aussage hat zwei sehr wichtige direkte Anwendungen: 1. GRUNDBEGRIFFE DER LINEAREN ALGEBRA UND WICHTIGE RESULTATE DAZU Praktisches Verfahren zur Feststellung linearer Unabhängigkeit / Abhängigkeit: Man schreibt die Vektoren als Spalten einer Matrix auf. Man erzeugt Nullen, von einer Spalte zur nächsten mindestens eine weitere Null, indem man → → → → eine Spalte − x ersetzt durch λ · − x + µ− s , mit einer anderen Spalte − s und λ = 0. Entsteht dabei keine Null-Spalte, war das System der Spaltenvektoren linear unabhängig. Entsteht eine Null-Spalte, so war es linear abhängig. Beispiel: 1 3 2 1 4 4 1 4 0 2 2 2 4 2 2 4 6 2 → → −1 1 −1 −1 0 2 0 0 0 I II III II ′ = II + I III ′ = III + 2 · I III ′ − II ′ 1 3 2 also sind die Vektoren 2 , 2 , 2 linear unabhängig. −1 1 2 121 , Die zweite Anwendung folgt nach der Definition des Begriffs der Basis. Wir kommen zu einer wichtigen Definition: Definition 33. Ein linear unabhängiges Erzeugendensystem für V heißt eine Basis für V. 1 0 0 − → → e 2, − e 3 = 0 , 1 , 0 bildet eine Basis für R3 . Denn Beispiel: Das System → e 1, − 0 0 1 offenbar sind diese Vektoren linear unabhängig (man wende obenstehendes Verfahren an - es ist nichts zu tun!), außerdem hat man x → → → y = x− e 1 + y− e 2 + z− e 3. z → → Also handelt es sich um eine Basis des R3 . Allgemeiner bildet e = − e 1 , ...,− e n eine Basis des Rn . Dabei → ist − e k der Spaltenvektor der Längen, dessen Eintrag an der k. Stelle Eins ist, sonst lauter Nullen. 1 1 Weiteres Beispiel: Das System , bildet ebenfalls eine Basis des R2 . Denn die Vektoren 1 −1 sind linear unabhängig, außerdem hat man 1 1 x 1 1 1 1 = x + + y − y 1 −1 1 −1 2 2 1 1 1 1 1 1 = x+ y + x− y . 1 −1 2 2 2 2 Also bilden sie auch ein Erzeugendensystem für den R2 . (Später werden wir sehen, warum die lineare Unabhängigkeit bereits genügt hätte.) Man merke also: Es gibt in einem Vektorraum eine unübersehbare Fülle von Basen, nicht etwa ’die’ Basis. Kommt hinzu: Man hat oft eine für die verfolgten Zwecke günstige auszuwählen. Dazu später mehr. Es gibt auch Vektorräume mit unendlichen Basen, ’unendlichdimensionale’ Vektorräume genannt. Dazu gehören vor allem die wichtigen Funktionenräume. Wir wollen hier wenigstens den harmlosesten darunter betrachten, den Raum aller Polynome mit reellen Koeffizienten. Dafür gibt es keine endliche Basis, wohl aber folgende unendliche: 1, x, x2 , ..., xn , ... Was heißt es, dass diese Polynome alle linear unabhängig sind? Einfach dies: Keines der gesamten Folge ist Linearkombination der vorigen. (Unser Wissen über das Wachstum von Polynomen erlaubt ohne weiteres diesen Schluss: xn+1 ist nicht darstellbar n αk xk , weil xn+1 schneller wächst mit x → ∞.) Was bedeutet es, dass die genannte unendliche Folge als k=0 von Polynomen ein Erzeugendensystem für den Raum aller Polynome bildet? Einfach dies: Jedes Polynom ist eine endliche Linearkombination von Polynomen aus dieser Folge. Das ist nun ohne weiteres einsichtig, 122 6. LINEARE ALGEBRA da nach Definition jedes Polynom endlichen Grad n hat und daher Linearkombination der 1, ..., xn ist, also von endlich vielen Polynomen unserer Folge. Das meint man, wenn man von einer unendlichen Basis eines Vektorraums spricht, sogar noch im Falle, dass man nicht einmal mehr eine abzählbar unendliche Basis hat. Satz 43. Jedes Erzeugendensystem von V ist entweder selbst bereits eine Basis, also linear unabhängig, oder es kann zu einem linear unabhängigen Erzeugendensystem, also einer Basis für V, ’ausgedünnt’ werden durch Fortlassen von gewissen Vektoren. (Uns genügt der Fall eines endlich erzeugten V.) Es folgt die angekündigte zweite Anwendung des Hauptlemmas, die praktische Umsetzung dieses Satzes: Praktisches Verfahren zum Ausdünnen eines Erzeugendensystems zu einer Basis: − → − → 1.) Man schreibt die Vektoren b 1 , ..., b r ∈ K n als Spalten einer Matrix 2.) Man wendet oben angewandtes Verfahren zur Erzeugung von Nullen an. − → − → 3.) Die verbliebenen Vektoren bilden eine Basis für Spann b 1 , ..., b r Hinweis: Die Sache klappt auch, wenn die Vektoren nicht aus K n sind, dann arbeitet man ebenso mit ihren Koordinatendarstellungen (s.u.) und geht anschließend wieder zu den Vektoren selbst über. Gerade kamen wir ’von oben’ und schmolzen ein Erzeugendensystem zu einer Basis zusammen. Nun gehen wir in umgekehrter Richtung und ergänzen ein beliebiges linear unabhängiges System in V zu einer Basis von V. Satz 44 (Basisergänzungssatz). Jedes linear unabhängige System von Vektoren aus V kann zu einer Basis von V ergänzt werden, und zwar durch Hinzunahme von Vektoren aus irgendeinem beliebig vorgegebenen Erzeugendensystem für V. 2 1 Praktisches Beispiel: Wir ergänzen das System 2 , 1 zu einer Basis des R3 . Wir wissen, 1 1 → dass wir als dritten Vektor einen der Einheitsvektoren nehmen können. Versuchen wir es also mit − e1 = 1 0 . Wir wenden das obenstehende Verfahren zur Feststellung der linearen Unabhängigkeit an und 0 finden: Das System 1 2 1 b = 2 , 1 , 0 1 1 0 ist linear unabhängig. (Man rechnet das sofort nach, indem man den zweiten Vektor durch II −I ersetzt.) → → Nun ist Folgendes interessant: Nach unserem bisherigen Wissen müssten wir Hinzufügen von − e 2, − e3 probieren und lineare Abhängigkeit feststellen, um zu wissen, dass das System b bereits eine Basis bildet. → → → Aber der folgende Satz macht eine solche Rechnung überflüssig: Da der R3 mit − e 1, − e 2, − e 3 bereits eine bekannte Basis der Länge 3 hat, muss b bereits eine Basis sein - jeder weitere Vektor wäre linear abhängig von den dreien, also bilden sie auch ein Erzeugendensystem. Satz 45. Jede Basis für V hat die gleiche Länge, und diese heißt Dimension von V (’über K’ fügt man hinzu, wenn nicht ohne weiteres klar ist, als Vektorraum über welchem Körper K der Raum V aufzufassen ist.) Länge Null ist dabei eingeschlossen, d.h. eine Basis ist leer, und es wird der Nullraum erzeugt. 1. GRUNDBEGRIFFE DER LINEAREN ALGEBRA UND WICHTIGE RESULTATE DAZU 123 → → Satz 46 (Basen als Koordinatensysteme). Jede Basis a = − a 1 , ..., − a n eines Vektorraums V über K definiert einen Vektorraumisomorphismus (·)a : V − → x = n k=1 → → αk − ak Kn α1 . → → → − xa = αk − e k = ... k=1 αn n Vektorraumisomorphismus Die Abbildung bijektiv und erhält die Vektorraumstruktur, ist also → − a →heißt: →a ist− → → → linear, d.h. − x +→ y =− xa +− y a und λ− x = λ→ x a für alle λ ∈ K, − x,− y ∈ V. Wir bezeichnen: − → → x a heißt Koordinatendarstellung von − x bezüglich der Basis a. Die Abbildung heißt entsprechend Koordinatendarstellungsabbildung. Die Umkehrabbildung ist die Lin α1 n → earkombinationsabbildung La , mit La ... = αk − a k . Sie ordnet einem Koordinatenvektor die k=1 αn entsprechende Linearkombination in V zu. Mit ihrer Hilfe können wir jederzeit von einer Koordinatendarstellung zum Vektor selbst wieder übergehen. Wir haben sogleich eine wichtige Folgerung 5. Jeder n− dimensionale Vektorraum V über K ist isomorph zu K n . (Denn die im Satz formulierte Abbildung ergibt einen Isomorphismus nach Wahl einer Basis für V .) Hinweis: Die Abbildungen (·)a , La sind grundlegend für das Verständnis des gesamten Themas: Koordinatentransformation, Matrix einer linearen Abbildung bezüglich gegebener Basen, Transformation dieser Matrix bei Basiswechsel. Wir bringen nun drei Beispiele zum Verständnis. Zuvor heben wir eine wichtige allgemeine Beobachtung hervor, die man sich günstig merkt: → → a − → Beobachtung: Stets gilt für a = − a 1 , ..., − an : − ak =→ e k. → → Beispiel 1: V = Rn , Basis: a = e = − e 1 , ..., − en → → Dann ist − x e =− x , also (·)e und ebenso Le die Identität auf Rn . x1 n .. − Denn . = xk → ek xn k=1 Kommentar: In Beispiel 1 ist offenbar alles besonders einfach, insbesondere braucht man darin nicht zwischen Vektoren und ihren Koordinatendarstellungen zu unterscheiden. Warum macht man es sich nicht immer so einfach? Erster Grund: Man hat es mit Vektorräumen zu tun, die nicht Rn sind, aber über eine Abbildung (·)a kann man dann doch wieder mit Rn arbeiten. Dazu folgendes 124 6. LINEARE ALGEBRA Beispiel 2: (V ist kein Rn ) V = Menge aller Polynome mit reellen Koeffizienten vom Grad ≤ 4, Basis: a = 1, x, x2 , x3 , x4 α0 4 →a . → Dann ist für − y = αk xk ∈ V : − y = .. k=0 α4 Also kann man ein Polynom durch seine Koeffizientenfolge codieren, und das nutzt man in Computerprogrammen (z.B. Matlab) weidlich aus. a Beispiele für das Funktionieren der Koordinatendarstellungsabbildung (·) : 1 2 2 0 a a 2 3 4 2 + 3x3 − x4 = 0 , L 3 = 1 + 2x + 3x + 4x + 5x . 4 3 5 −1 Es gibt aber auch noch wichtige Gründe dafür, selbst bei Vorliegen von V = Rn nicht die Basis e zu verwenden, eine andere: Man will etwa eine Ellipse beschreiben, die Halbachsenrich sondern 1 −1 tungen , mit Halbachsenlängen a, b hat. Dann wählt man zweckmäßig die Basis c = 1 1 √ √ 2 2 1 −1 , und bekommt folgende Parametrisierung der Ellipsenbahn: 1 1 2 2 √ √ 2 2 a cos (t) 1 −1 − → c x (t) = L = a cos (t) + b sin (t) , b sin (t) 1 1 2 2 ferner bekommt man in den Koordinaten zu Basis c folgende einfache vertraute Gleichungsdarstellung der Ellipsenpunkte: x − → ist Punkt auf der beschriebenen Ellipsenbahn genau dann, wenn x = y 2 2 y& x & x & − → xc = die Gleichung + = 1 erfüllt. y& a b Wir führen für die Beispiel das Funktionieren von (·)c und Lc aus wie in den vorangegangenen Beispielen: Beispiel 3: V = R2 √ √ 2 2 1 −1 Basis: c = , 1 1 2 2 √ √ 2 2 y →c x x & 2 x+ √ → 2 Dann ist für − x = ∈ R2 : − x = = ∗ √ , y y& 2 2 − x+ y 2 2 √ √ 2 2 √ √ &− y& 2 2 x & 1 −1 √2 x c √2 L =x & + y& = y& 1 1 2 2 2 2 x &+ y& 2 2 Zu ∗ ): Zunächst ist Lc klar, aber (·)c ist die Umkehrabbildung davon. Das brauchen wir nicht ’zu Fuß’ auszurechnen, sondern wir sehen, dass Lc (als Abbildung R2 → R2 geometrisch aufgefasst) die Drehung 2. LINEARE ABBILDUNGEN 125 c um den Ursprung mit π/2 entgegen dem Uhrzeigersinn ist, also ist (·) die Drehung um den Ursprung mit demselben Winkel im Uhrzeigersinn. Wir kennen ja bereits die Drehmatrizen. 2. Lineare Abbildungen Vorbemerkung: Die linearen Abbildungen gehören unmittelbar zu den Vektorräumen, es sind solche Abbildungen zwischen Vektorräumen, welche die Vektorraumstruktur erhalten. Solche Abbildungen sind einerseits als solche interessant - man beschreibt damit Drehungen usw., ferner liefern sie das Verständnis der linearen Gleichungssysteme, welche in einer Fülle von Zusammenhängen auftreten. Andererseits sind die linearen Abbildungen, die man sehr gut beherrscht, zentrale Hilfsmittel beim Studium nichtlinearer Abbildungen - wir werden ihnen in der mehrdimensionalen Analysis vielfach begegnen, auch in der Theorie der linearen Differentialgleichungen (gewöhnlich wie partiell) spielen sie eine große Rolle. Grundbegriffe: Begriff der linearen Abbildung V → W (V, W Vektorräume über K) Kern und Bild einer linearen Abbildung Sätze: Kriterien für Injektivität, Surjektivität, Bijektivität linearer Abbildungen Dimensionssatz für Dimension von Kern, Bild, Urbildraum Rechentechniken: Lineares Rechnen, Berechnung des Bildes einer linearen Abbildung und des Ranges einer linearen Abbildung (letztere ist nur die Anwendung der Technik des Ausdünnens von Erzeugendensystemen zu Basen) Berechnung des Kerns eines linearen Abbildung (erste Version, später kommt eine praktischere, die Berechnung von Kern und Bild zusammenfasst) − → Es seien V, W Vektorräume über K. Eine Abbildung f : V → W heißt linear, wenn − → → − − → → − → → → → (i) f − x +→ y = f − x + f − y für alle − x,− y ∈ V und − → − − → − → → − → (ii) f λx = λ f x für alle x ∈ V, λ ∈ K. Beispiele für lineare Abbildungen: 1) Sei m ∈ R, dann ist fm : R → R, fm (x) = mx, eine lineare Abbildung, und jede lineare Abbildung R → R hat diese Gestalt. Achtung: Man nennt auch zuweilen Funktionen g (x) = mx + b linear, aber mit b = 0 sind sie nicht lineare Abbildungen im Sinne der linearen Algebra, genauer nennt man sie affin. Denn wir haben g (0) = b = 0. 2) Die Drehung um den Ursprung im R2 entgegen dem Uhrzeigersinn mit Winkel α ist eine lineare Abbildung, da offenbar Drehung und Streckung mit λ vertauschen und ein Dreieck mit Kantenvektoren − → → − → − → a , b,− a + b starr als ganze Figur gedreht wird, so dass die Drehung auch mit der Vektoraddition − → vertauscht. Dagegen ist eine Drehung um einen Punkt P, 9xP = 0 , mit einem Winkel α, der kein Vielfaches von 2π ist, offenbar nicht linear, weil diese Drehung den Ursprung nicht in sich überführt. Allerdings ist eine solche Drehung affin. Denn bezeichnen wirsie mit D Drehung um den und die entsprechende → → → Ursprung mit D0 , so haben wir D− x = 9xP + D0 − x − 9xP = 9xP − D0 9xP + D0 − x , mit der linearen Abbildung D0 . Analoge weitere Beispiele sind Drehungen um eine Koordinatenachse im R3 oder auch die Spiegelung an einer Koordinatenebene. (Spiegelungen an anderen Ebenen sind wiederum affin.) 3) Die Projektion im R3 auf die xy− Ebene parallel zur z− Achse ist linear, die Projektion auf eine Ebene parallel zur xy− Ebene, welche den Usprung nicht erhält, ist wiederum eine affine Abbildung. 126 6. LINEARE ALGEBRA 4) In der Elektrotechnik betrachtet man lineare Vierpole, die mit Schaltungen von Widerständen aus einer Eingabespannung U2 und einem Eingabestrom I2 eine Ausgangsspannung U1 und einen Aus− → gangsstrom I1 in linearer Weise machen, so dass die Abbildung f (U2 , I2 ) = (U1 , I1 ) eine lineare Abbil2 2 dung R → R ist. Ein konkretes Beispiel dazu: Wir betrachten folgenden Vierpol (die vier Pole sieht man durch kleine Kringel verdeutlicht) - nach dem Bild würde man eher dazu neigen, das Paar (U1 , I1 ) als Eingabe und das andere als Ausgabe zu betrachten, aber wir werden sehen, dass man mit linearer Algebra ganz leicht von der einen zur anderen Version wechseln kann (Stichwort: ’Inverse Matrix’) und dass die Beziehungen indessen für die angegebene Richtung einfacher wird, weshalb man sie eben auch in der Elektrotechnik bevorzugt. I I2 1 o o R U1 o U 2 o (Man beachte die vorgegebenen Zählrichtungen.) Die Kirchhoffgleichungen hierzu liefern sofort: (I1 − I2 ) R = U1 = U2 , also können U1, I1 wie folgt durch U2 , I2 ausgedrückt werden: U1 I1 = U2 1 = U2 + I2 R Man beachte: Diese Gleichungen sind linear, U1 , I1 sind durch lineare Funktionen im engeren Sinne (also ohne additive Konstante, nicht affin) ausgedrückt. Diese Rechnung werden wir sogleich implementieren als ’Matrix mal Vektor’, was wir schon einmal in diesem Beispiel vorführen: 1 0 − → U1 U2 U2 1 = = f . I1 I2 I2 1 R 1 0 Man sieht: Die Matrix 1 besteht einfach aus den abzulesenden Koeffizienten des linearen Gle1 R ichungssystems mit seinen zwei Zeilen und zwei Spalten. Entsprechend handelt es sich um eine Matrix U2 mit zwei Zeilen und zwei Spalten ((2 × 2) − Matrix) ; sie wird mit dem Vektor derart multiI2 pliziert, dass dieser Vektor quer auf die beiden Zeilen der Matrix gelegt wird, aufeinanderliegende Zahlen multipliziert werden und in einer Zeile addiert. So ergibt das für die erste Zeile: 1 · U2 + 0 · I2 = U1 , das 1 ist die erste Komponente des Resultats (links). Für die zweite Zeile ergibt das: · U2 + 1 · I2 , was nach R der Kirchhoffgleichung I1 ergibt. Es ist also die Operation ’Matrix mal Vektor’ gerade so gestaltet, dass die eine Seite eines ordentlich geschriebenen linearen Gleichungssystems herauskommt. Wir werden diese Operation später viel allgemeiner besprechen und systematisch mit linearen Abbildungen koppeln. Wir 2. LINEARE ABBILDUNGEN 127 − → wollen in diesem Beispiel noch einmal konkret verifizieren, dass die eingeführte Abbildung f wirklich linear ist: U2 + U3 − → U2 U3 1 f + = I2 I3 (U2 + U3 ) + I2 + I3 R U2 U3 = 1 + 1 U2 + I2 R U3 + I3 R − → U2 − → U3 + f , = f I2 I3 λU2 U2 − → − → U2 U2 1 1 f λ = =λ =λf . I2 I2 λU2 + λI2 U2 + I2 R R Rechentechnik: Lineares Rechnen − → − → → − → → − → → − → → → → Mit linearem f hat man: f α− x + β− y − γ− z =αf − x +β f − y −γ f − z , − → − − → allgemeiner folgt sofort die Berechnung eines beliebigen Bildvektors f → x , wenn f : V → W linear ist und n → − → → → → f auf einer Basis a = − a 1 , ..., − a n bekannt ist, nämlich mit eindeutiger Darstellung − x = αk − ak : k=1 n n − − → − → − − → → α → α f − f → x = f a = a . k k k k k=1 k=1 − → − → − − → − → − → → − → f 0 = f 0 · 0 = 0 · f 0 = 0 (der Nullvektor wird stets auf den Nullvektor abgebildet) Anwendungsbeispiele für das ’lineare Hochziehen’ ausgehend von den Bildern der Basisvektoren einer gegebenen Basis: − → 1) Sei f die Drehung im R2 um den Ursprung mit Winkel α entgegen dem Uhrzeigersinn. Dann haben wir für die kartesischen Einheitsvektoren: − → − − → − cos (α) − sin (α) → → f e1 = , f e2 = , also sin (α) cos (α) − → − − → − − → x − → − cos (α) − sin (α) − → → → → +y f = f xe1+ye2 =xf e1 +y f e2 =x sin (α) cos (α) y x cos (α) − y sin (α) = . x sin (α) + y cos (α) Die Fortsetzung läuft also über die Linearkombinationen automatisch, und diesen Automatismus werden wir im nächsten Abschnitt allgemein durch die Operation ’Matrix mal Vektor’ realisieren. 2) Wir wenden denselben Mechanismus noch einmal an auf den Fall des linearen Vierpols (Beispiel U2 4 des letzten Beispielblocks) und finden damit die zugehörige Matrix noch einmal: Eingabe = I2 1 1 1 U2 0 1 liefert Ausgabe U1 = 1 und I1 = , also den Vektor . Eingabe = liefert 0 I2 1 R R 0 Ausgabe U1 = 0 und I1 = 1, also den Vektor . Lineares Fortsetzen ergibt nunmehr: 1 − → U2 − → 1 − → 0 1 0 U2 f = U2 f + I2 f = U2 + I = . 2 1 1 I2 0 1 1 R R U2 + I2 U1 . In der Elektrotechnik nutzt man das gern Das ist genau die oben angegebene Berechnung von I1 für kompliziertere lineare Schaltungen aus, indem man die Kirchhoffgleichungen nicht für den allgemeinen 128 6. LINEARE ALGEBRA 1 0 und . Man kann erken0 1 nen, wenn man stattdessen umgekehrt (U2 , I2 ) durch (U1 , I1 ) ausdrückt, dass die Koeffizienten häßliche Vorzeichen bekommen, weshalb man die angegebene Richtung als Grundlage bevorzugt. Aber es ist mit linearer Algebra noch viel größere Vereinfachung möglich, wie wir mit konkreten Beispielen auch für Vierpole zeigen werden und in der Elektrotechnik gern benutzt wird, Stichwort: Matrizenoperationen, insbesondere Produkte von Matrizen. Fazit: Die linearen Abbildungen sind im Eindimensionalen etwas sehr Triviales, im Mehrdimensionalen aber bieten sie schon recht Reichhaltiges, Anwendbares. Daher ist es günstig, eine Reihe völlig allgemeingültiger Resultate über lineare Abbildungen zu haben. Wie wir sehen werden, ist die Struktur linearer Abbildungen (jedenfalls im Endlichdimensionalen) noch recht einfach zu handhaben. Wir kommen nunmehr zu den wesentlichen Aussagen über lineare Abbildungen. Dazu ein paar Definitionen und Notationen: Fall aufstellt, sondern nur die wesentlich einfacheren für die Fälle − → Definition 34. Es sei f : V → W eine lineare Abbildung des Vektorraums V in den Vektorraum W. Dann ist definiert: − 1 − → → → − →2 → Kern f := − x ∈V f − x = 0 . → → x 0 +Kern Für − x 0 ∈ V bezeichnen wir mit − − − → → → f folgende Menge (Kern f mit − x 0 parallelverschoben): − → → → − → → x 0 + Kern f := − x0 +− u − u ∈V . Ferner wie bei Abbildungen sonst auch: Speziell ist also Kern 1 − − →−1 − → → → − →2 → f { b } := − x ∈ V f − x = b . − − 1− 2 → − → − → → → − → f = f −1 { 0 } . Ebenso Bild f := f − x → x ∈V . Beispiel 1 − → f : R2 → R2 sei eine Drehung um den Ursprung, dann hat man offenbar: − − − − → → → → → − → →−1 − − → → Bild f = R2 , Kern f = { 0 }. Ferner für alle b ∈ R2 : f {b} = − a + Kern f = {− a }, − → − − → → mit der eindeutigen Lösung von f a = b . Beispiel 2 − → − → x x f : R2 → R2 sei gegeben durch f = (senkrechte Projektion auf die x− Achse), dann y 0 − → − → → − → Bild f = Spann − e 1 = λ→ e 1 λ ∈ R , Kern f = Spann − e 2 . Ferner − − − →−1 → x x x x → f = y ∈ R = + y e y ∈ R = + Kern f . 2 0 y 0 0 Später folgen Techniken, Bild und Kern ökonomisch auszurechnen in allen Fällen, hier genügte die direkte Beobachtung. Man beachte, dass die Beispiele bereits sämtliche in den folgenden beiden Sätzen allgemein ausgesprochenen Verhältnisse illustrieren. 2. LINEARE ABBILDUNGEN gilt: 129 − → Satz 47. Es sei f : V → W eine lineare Abbildung des Vektorraums V in den Vektorraum W. Dann − → f ist ein Unterraum von W − → (ii) Kern f ist ein Unterraum von V. − − → → − → = { 0 }. (iii) f ist injektiv ⇐⇒ Kern f − → − → − → → (iv) Wenn b ∈ W und − x 0 ∈ f −1 { b } , dann − − →−1 − → → → f {b} = − x 0 + Kern f . (i) Bild Zum konkreteren Verständnis des Satzes: (i) und (ii) besagen zunächst, dass Kern und Bild einer linearen Abbildung zwischen Vektorräumen nicht irgenwelche ’wirren’ Mengen sind, sondern Unterräume, die sich, wie wir wissen, darstellen lassen als Mengen aller Linearkombinationen von einigen Basisvektoren. Es können im Extremfall auch die trivialen Unterräume (Nullräume) sein, mit leerer Basis. Wir werden später sehen, dass die Lösungsmenge eines linearen homogenen Gleichungssystems stets der Kern einer linearen Abbildung ist. Somit haben wir dann stets entweder die einzige Lösung ’Nullvektor’ oder aber r . → → die allgemeine Lösung (oder parametrisierte Lösungsmenge) in der Form − x (α , ..., α ) = λ − a mit 1 r j j j=1 → − → einer Basis − a1 , ..., a r des Kerns. (Vgl. auch den nächsten Satz dazu (Nummer (v)), der die Dimensionen − − → → von V, Kern f und Bild f miteinander verbindet.) − → → → a n von V gilt: Satz 48. Für jede lineare Abbildung f : V → W und jede Basis − a 1 , ..., − (i) (ii) (iii) (iv) Bild − → f − → f surjektiv − → f injektiv − → f bijektiv = ⇐⇒ ⇐⇒ ⇐⇒ − → → − → → Spann f − a 1 , ... f − an . − → − − → → f → a 1 , ... f − a n bildet ein Erzeugendensystem für W − → − − → → f → a 1 , ... f − a n linear unabhängig − − → − → → f → a 1 , ... f − a n bildet eine Basis für W. Ferner gilt folgende Dimensionsformel (auch: ’Dimensionssatz’): (v) − − → → dim Kern f + dim Bild f = dim (V ) . − → 9 Man nennt dim Bild f auch den Rang von f. Aus (iv) ergibt sich die Folgerung 6. Es gibt einen Isomorphismus zwischen Vektorräumen V und W (über demselben Körper) genau dann, wenn dim (V ) = dim (W ) . 130 6. LINEARE ALGEBRA − → Berechnung des Bildes einer linearen Abbildung f : Rn → Rm − → − → − − → sowie des Ranges von f , gegeben f → e j = bj , 1 ≤ j ≤ n. − − → → Schreibe die b j als Spalten einer Matrix - deren Spalten bilden ein Erzeugendensystem für Bild f → 1.) − → e(n) − Diese Matrix heißt im nächsten Abschnitt Me(m) f , Matrix von f bezüglich der kanon. Basen) Erzeuge Nullen mit elementaren Spaltenumformungen 2.) (wie beim Gewinnen einer Basis aus einem Erzeugendensystem − → 3.) Resultat: Die verbliebenen Vektoren, welche verschieden von Null sind, bilden eine Basis für Bild f − → 3 Beispiel: : R3 → f R sei linear, und 1 1 0 −2 1 −1 − → − → − → 0 2 1 2 , f 0 = 4 . f = , f = 0 −3 0 −2 1 0 1 −2 −1 2 4 , 1.) Matrix 2 1 −3 −2 1 −2 −1 1 0 0 1 0 0 2 4 → 2 6 6 → 2 6 0 2.) 2 1 −3 −2 1 −1 1 −1 0 −1 1 0 − → − → 3.) Es bildet 2 , 6 eine Basis für Bild f , und der Rang von f ist 2, 1 −1 die Dimension des Kerns ist also nach Dimensionssatz 1. (Davon kennen wir allerdings noch nicht den Kern als Menge.) Rechentechnik: Abschließend wollen wir uns noch eine anschauliche Vorstellung von einer linearen Abbildung machen. Das geht nicht ganz so einfach wegen der hohen Dimensionen (wir könnten allenfalls von einer linearen Abbildung R2 → R1 noch einen Graphen zeichnen.) Aber zunächst einmal können wir immerhin lineare Abbildungen R2 → R2 so veranschaulichen, dass wir typische einfache Teilmengen des Urbildbereiches auswählen und die zugehörigen Bilder anschauen. Wir machen das so, dass wir die Abbildung auch für einzelne Punkte verfolgen können: 2. LINEARE ABBILDUNGEN 131 x 2x + 3y = , y −x + y blau: Urbildpunkte, rot: Bildpunkte - zeilenweise wird aufeinander abgebildet. − → Hier ist die lineare Abbildung f 1 0.8 0.6 0.4 0.2 0 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 3 2 1 0 -1 -2 -4 -2 0 2 4 6 8 Wir zeigen auch noch, wie Kreise von derselben Abbildung abgebildet werden: Dieselbe Abbildung macht aus Kreisen Ellipsen: 2 1 0 -1 -2 -2 0 2 2 1 0 -1 -2 -8 -6 -4 -2 0 2 4 6 8 Wir halten insbesondere fest: Gerade Linien, ebenso auch höherdimensionale geradlinig begrenzte Gebiete, werden durch eine lineare Abbildung stets auf ebensolche abgebildet. Vorher stellten wir ja schon allgemein rein algebraisch fest, dass Unterräume wie Geraden, Ebenen usw. auf solche abgebildet werden. (Das gilt auch für affine Unterräume.) Allerdings können Dimensionen verlorengehen, wenn der Kern nicht trivial ist. Aus einer Ebene kann dann eine Gerade werden oder auch nur ein Punkt. Der gerade gewonnenen Anschauung stellen wir noch eine nützliche abstrakte Vorstellung von einer linearen Abbildung an die Seite, welche nur darauf Bezug nimmt, wie die Basisvektoren abgebildet werden: − → → → → → f : V → W linear. Sei − a 1 , ..., − a n eine Basis für V, die so gewählt sein soll, dass − a 1 , ..., − a r (eventuell leer 132 6. LINEARE ALGEBRA − → → − → → f ist. Dann ergibt die Einschränkung von f auf Spann − a r+1 , ..., − an − → (im äußersten Falle r = n wäre das nur der Nullraum) einen Vektorraumisomorsphismus auf Bild f , diesen Unterraum von W. Das ergibt folgendes schematische Bild: mit r = 0) eine Basis von Kern a1 f 0 V ar ar+1 b1 f Bild (f ) W bn-r an 3. Matrixdarstellung einer linearen Abbildung Grundlegend ist der Satz über eindeutige Fortsetzung einer linearen Abbildung von den Bildern einer Basis. Nunmehr arbeiten wir statt mit den Linearkombinationen von Basisvektoren (im Definitionsbereich einerseits, im Wertebereich andererseits) mit den Koordinatendarstellungen dieser Vektoren bezüglich der ausgewählten Basen, und so können wir jeder linearen Abbildung V → W zwischen endlichdimensionalen Vektorräumen eindeutig eine Matrix zuordnen. In der folgenden Definitionen und anschließendem Satz wird das einmal für den konkreten Fall V = Rn , W = Rm mit den kanonischen Basen der Einheitsvektoren und dann für den allgemeinen Fall realisiert. Definition 35. Eine (reelle) (m × n) − Matrix ist eine Doppelfolge (aij )1≤i≤m,1≤j≤n von reellen Zahlen. Die Menge aller dieser Matrizen nennt man Rm×n . Eine solche Matrix schreibt man konkret als rechteckiges Zahlenschema so (alle m · n Komponenten sind sorgfältig zu trennen!): a11 a12 · · · a1n a21 a22 · · · a2n A = (aij )ij = .. .. . . .. . . . . . am1 am2 ··· amn Matrizen bezeichnet man kurz mit großen lateinischen Buchstaben. m ist die Zeilenzahl, n die Spaltenzahl bei den Bezeichnungen ’(m × n) − Matrix’ und ’Rm×n ’,und es ist stets aij der Eintrag in der i. Zeile und j. Spalte. Definition 36 (die Operation ’Matrix mal Vektor’). Wir definieren für eine (m × n) − Matrix → A = (aij )ij und einen Spaltenvektor − x = (xj )j mit n Komponenten: m n n − → (aij )1≤i≤m,1≤j≤n (xj )1≤j≤n := ei aij xj = aij xj , ausführlicher: i=1 a11 a21 .. . a12 a22 .. . ··· ··· .. . a1n a2n .. . am1 am2 ··· amn j=1 j=1 x1 .. . xn : 1≤i≤m . n a x j=1 1j j n . a2j xj = j=1 .. n . . amj xj j=1 . 3. MATRIXDARSTELLUNG EINER LINEAREN ABBILDUNG 133 → Zum Verständnis der Operation: Sie ist nur dann definiert, wenn die Komponentenzahl von − x gleich der Spaltenzahl von A ist. Sie wird anschaulich so ausgeführt: Die i. Komponente des Resultatvektors → entsteht, indem man den Vektor − x auf die i. Zeile der Matrix klappt, die aufeinanderliegenden Zahlen multipliziert und diese Produkte dann addiert. Eine sehr wichtige kleine Beobachtung: Wendet man eine Matrix A auf den j. Einheitsvektor an, so kommt die j. Spalte von A heraus. Beispiele: 1 −1 2 1 · 2 + (−1) (−3) 5 = = 2 3 −3 2 · 2 + 3 · (−3) −5 2 1 2 −3 −3 = 2 − 6 − 12 = −16 4 0 1 −1 2 −1 1 = (der zweite Spaltenvektor der Matrix!) 2 3 1 3 0 Wir haben den grundlegenden Satz 49 (die linearen Matrixabbildungen). Jede Matrix A ∈ Rm×n definiert folgende lineare Abbildung (ebenfalls mit A bezeichnet): A : Rn → Rm 9x → A9x − → (über die Operation ’Matrix mal Vektor’). Jede lineare Abbildung f : Rn → Rm lässt sich in dieser Weise als Matrixabbildung schreiben. (Das Ganze gilt auch völlig allgemein für jeden beliebigen Körper K statt R.) Eine Warnung: Man versuche nicht, eine nichtlineare Abbildung mit einer Matrix darzustellen - das kann nicht gelingen. Anwendungsbeispiele: − → − → − n m 1) Aufstellen der Matrix bei bekannten f → e j , j= 1, ..., n : für f : R → R 1 3 2 − → − → → − → → − → → 2 , f − 1 −3 , dann stellt f : R3 → R3 , f − e1 = e2 = , f − e3 = −1 1 2 1 3 2 − → → → A = 2 1 −3 die zugehörige Matrix dar, so dass stets A− x = f − x . −1 1 2 1 6 − → Also f 1 = 0 . (Die doppelte Klammer: Eine für den Vektor, dann die ’von’-Klammer, 1 2 1 − → das schreiben wir dann nicht mehr so penibel, sondern einfacher f 1 usw.) 1 2) Ablesen der zugehörigen Matrix bei koordinatenmäßig gegebener linearer Abbildungsvorschrift: x − → − → 2x − 3y + z 3 2 Sei f : R → R gegeben durch f y = , dann ist −5x + 2y z − → → 2 −3 1 → A= die zugehörige Matrix, so dass stets f − x = A− x. −5 2 0 134 6. LINEARE ALGEBRA Im Folgenden werden wir die gerade ausgeführte Bildung ’Matrix A ∈ Rm×n zu gegebenem linearem − → f : Rm → Rn ’ genauer als Spezialfall von ’Matrix einer linearen Abbildung bezüglich einer Basis je für den Ausgangsraum und den Zielraum’ verstehen und die Sache wesentlich verallgemeinern. Es wird dabei das Naheliegende herauskommen: Wir haben so weit nicht zwischen Vektoren und Koordinaten− → darstellungen unterschieden für das Aufstellen der Matrix zu f : Rn → Rm , also haben wir die Matrix speziell für die kanonischen Basen e(n) (n-dimensionale Einheitsvektoren) und e(m) gebildet, bei denen Vektor und Koordinatendarstellung zusammenfallen. Konsequent nennen wir die nach dem oben befol− → − → (n) gten Muster aufgestellten Matrizen: A = Mee(m) f - Matrix für f bezüglich der kanonischen Basen für Ausgangsraum Rn und Zielraum Rm . Für das Folgende erinnern wir an die Koordinatendarstellungsaba bildungen (·) und die Linearkombinationsabbilungen La . − → (n) (n) → → die Basis der Definition 37. Sei f : Rn → Rm eine lineare Abbildung. Sei e(n) = − e 1 , ...− en (m) (m) → → Einheitsvektoren für Rn , e(m) = − e 1 , ..., − em die Basis der Einheitsvektoren für Rm (die oberen − → Indizes geben die Zahl der Komponenten an, bei e ist die j. Komponente 1, alle anderen sind Null j alle Vektoren sind Spaltenvektoren). Dann definieren wir (n) Mee(m) − → f : = (aij )1≤i≤m,1≤j≤n ∈ Rm×n , mit den Zahlen aij , so dass m − → − (n) (m) − → f → ej = e i aij . i=1 − → − → (n) Die Matrix Mee(m) f heißt ’Matrix von f bezüglich der Basen e(n) für Rn und e(m) für Rm ’ oder kurz ’bezüglich der kanonischen Basen’. → − → → Nunder allgemeine Fall: Sei f : V → W eine lineare Abbildung, a = − a 1 , ...− a n eine Basis für V und − → − → b = b 1 , ..., b m eine Basis für W. Dann ist Mba − → f : = (aij )1≤i≤m,1≤j≤n ∈ Rm×n , mit den Zahlen aij , so dass m − → − − → f → aj = b i aij i=1 − → definitionsgemäß die Matrix von f bezüglich der Basen a (für V ) und b (für W ). Zum Verständnis der Definitionen: 3. MATRIXDARSTELLUNG EINER LINEAREN ABBILDUNG 135 − → − → Rezept zur Bildung von Mba f , bei f : V → W linear: − → − → → → Bekannt: Basen a = − a 1 , ..., − a n für V, b = b 1 , ..., b m für W, − → → ferner f − a j für j = 1, ..., n. − → → b Dann bilde für alle j = 1, ..., n die Spaltenvektoren f − aj ∈ Rm . − → Das sind die Spalten der gesuchten Matrix Mba f , also − − b → → b → − → − Mba f = f → a1 , ..., f − am . Beispiel: − → V = W = R3 , f sei die Spiegelung an der Ebene 0, x+ y + z = 1 −1 −1 − → → → → a 1 = 1 ,− a=b= → a 1 , ..., − a n sei folgende Basis: − a 2 = 1 , − a 3 = −1 . 1 0 2 − − − → − − → − − → − → → → − → → → ∗ Dann berechnen wirf a 1 = − a 1 , f a 2 = a a 3 = a 3 , rein ). 2, f geometrisch −1 0 0 − → → a − → → a − → → a 0 , f − 1 0 Also f − a1 = a1 = , f − a1 = . Daher 0 0 1 −1 0 0 − → Maa f = 0 1 0 . 0 0 1 → Erläuterung zu ∗ ) : Die Spiegelung kehrt den Vektor − a 1 um, der senkrecht auf der Spiegelungsebene − → − → steht. Die Vektoren a 2 , a 3 bleiben dagegen fest erhalten, weil sie parallel zur Spiegelungsebene liegen. Man beachte: Durch die Wahl eines zur geometrischen Situation passenden Koordinatensystems gelang es, die Matrixdarstellung extrem einfach zu gestalten. Aber dennoch möchte man gern zum Rechnen oder für ein die Spiegelung implementierendes Computerprogramm die Matrix zur kanonischen Basis wissen (die dagegen scheußlich ist und nicht so direkt zu bekommen). Das wird uns später mit den Koordinatentransformationsmatrizen und der Transformationsformel leicht gelingen. (Für das gegebene Beispiel wird das noch verbessert, wenn wir zusätzlich die Basisvektoren auf Länge 1 normieren.) Ferner illustriert das Beispiel bereits, dass man im (wichtigsten!) Fall V = W naheliegend a = b wählt. Warnung: Es ist darauf zu achten, dass die Koordinatendarstellungen der Bilder der Basisvektoren in die Spalten der darstellenden Matrix gehören, nicht etwa die Bilder der Basisvektoren. Letzteres gäbe zwar mit W = Rm auch eine aber eine völlig falsche und unbrauchbare. →Matrix, a − Für die Matrizen Mb f haben wir genau folgende Aussage, die besagt, dass sie auf der Koordi− → natenseite eine genaue Parallele zur linearen Abbildung f darstellen: − → − → (n) Satz 50. 1) Die Matrix Mee(m) f für f : Rn → Rm bewirkt Folgendes: Multipliziert man sie mit − → → → x ∈ Rm heraus, es gilt also: einem Vektor − x ∈ Rn , so kommt f − (n) − → − − → → → Mee(m) f x= f − x . − → − → 2) Die Matrix Mba f für f : V → W hat folgende Wirkung: Wendet man sie auf die Koordinaten→ darstellung bezüglich a eines Vektors − x ∈ V an, so kommt die Koordinatendarstellung bezüglich b des − → − → Vektors f x heraus. Also →a − → →b Mba − x = f − x − → Zum Verständnis der einfachen Aussage 1): Sie besagt auch, dass man jede lineare Abbildung f : − → → − → (n) → Rn → Rm durch eine Matrix realisieren kann, so dass stets f − x = A− x gilt. Mit A = Mee(m) f haben wir diese Matrix (eindeutig) gefunden. Das liegt daran, dass für Vektoren aus Rn oder Rm Vektor 136 6. LINEARE ALGEBRA und Koordinatendarstellung bezüglich der kanonischen Basis dasselbe sind. Komplizierter liegt die Sache bei anderen Basen oder auch Basen allgemeiner Vektorräume: Dann muss zwischen einem Vektor und seiner Koordinatendarstellung unterschieden werden. Genau dies behandelt der zweite Teil. Die Aussage des Satzes lässt sich zu folgendem Bild eines ’kommutativen Diagramms’ vervollständigen, das uns vor allem bei Koordinatentransformationen nützlich sein wird - die Bezeichnungen sind wie zuvor, a eine Basis für V, b eine Basis für W : − → f V −→ W (·)a ↓ ↓ (·)b n m R −→ − R → Mba f − → Dass dies ein kommutatives Diagramm ist, bedeutet: Spaziert man von V mit f und dann nach Rm mit − → (·)b , so kommt dasselbe heraus, als spazierte man von V mit (·)a nach Rn und anschließend mit Mba f − → nach Rm . Oder auch: Spaziert man von V mit (·)a nach Rn , dann mit Mba f nach Rm , schließlich mit Lb − − → → nach W, so kommt dasselbe heraus wie bei Anwendung von f allein. In diesem Sinne realisiert Mba f − → die Abbildung f auf der Koordinatenseite. Man beachte: Die senkrechten Pfeile stellen umkehrbare Abbildungen dar (Koordinatendarstellungsabbildungen und umgekehrt Linearkombinationsabbildungen), die horizontalen Pfeile müssen keineswegs umkehrbar sein. Bemerkung: Im Falle V = W vereinfacht sich das Bild. Dann wählt man selbstverständlich nur eine Basis, also a = b (es wäre auch möglich, für Eingabe und Ausgabe verschiedene Koordinatensysteme zu wählen, aber das erweist sich in keiner Lage als nützlich). Sehr wohl nützlich und wichtig ist es, von einem Koordinatensystem zu einem anderen zu wechseln und dabei namentlich Matrizendarstellungen insbesondere für lineare Abbildungen V → V wesentlich zu vereinfachen (Stichworte: Koordinatensysteme passend zur Geometrie, Diagonalisieren von Matrizen). Dabei möchte man von einer Matrixdarstellung zur anderen übergehen und fragt, wie sich die Matrix dabei transformieren muss. Im nächsten Abschnitt werden wir die wichtigen Matrizenverknüpfungen besprechen und interessante Anwendungen davon, dann folgt die Behandlung des Koordinatentransformationsproblems (für Vektoren und auch für Matrizen). 4. Verknüpfungen von linearen Abbildungen und Matrizen − → → − → → − → Hat man lineare Abbildungen f , − g : V → W, so sind f + − g und λ f wiederum lineare Abbildungen − → − → V → W. Denn für alle x , y ∈ V und alle Zahlen λ gilt: − → − − → − → → − − → → − → → − → → − → → → f +→ g − x +− y = f − x +→ y +− g → x +− y = f − x + f − y +→ g − x +→ g − y − → → − − → → − = f +→ g − x + f +− g → y , − − → → → → − − → → − − → → → → − → → f +→ g λ− x = f λ− x +→ g λ− x =λf − x + λ− g − x =λ f − x +→ g − x . − → Ferner ist die Abbildung, die jeden Vektor auf 0 abbildet, unter den linearen Abbildungen V → W. Man prüft (langweilig) nach, dass damit alle Vektorraumaxiome erfüllt sind. Damit haben wir folgenden Satz 51. Die linearen Abbildungen V → W bilden einen Vektorraum, genannt Hom (V, W ) , mit den üblichen Definitionen der Summe von Abbildungen und der Multiplikation einer Abbildung mit einer Zahl. Die Menge Rm×n aller (m × n) − Matrizen bildet mit den komponentenweisen Operationen Addition und Multiplikation mit einer Zahl ebenfalls einen Vektorraum, und es gilt für Basen a von V und b für W der Zusammenhang: − − → → → → Mba f + − g = Mba f + Mba − g , − → − → Mba λ f = λMba f . 4. VERKNÜPFUNGEN VON LINEAREN ABBILDUNGEN UND MATRIZEN 137 − − → → Die Abbildung f −→Mba f stellt also einen Vektorraumisomorphismus dar. Bemerkung zum Zusatz über die Matrizen: Offensichtlich stellt die Matrixsumme die entsprechende a b Summenabbildung Rn → Rm dar, und die Koordinatendarstellungs-Abbildungen (·) und (·) sind linear. Also stellt die Summe der Matrizen die Summenabbildung V → W dar, Entsprechendes gilt für die Multiplikation einer linearen Abbildung mit einer Zahl. Es gibt jedoch noch eine weitere und interessantere Verknüpfung von linearen Abbildungen und Matrizen, die Verkettung, zunächst beobachten wir: − → − → → → Satz 52. Wenn f : V → W linear ist und − g : W → U linear, so ist − g ◦ f : V → U linear. − − − → − − − → − → → − → → − → → − → → − → → → → → Denn − g ◦ f x +− y =− g f − x +→ y =→ g f − x + f − y =→ g f − x +→ g f − y . − → − → → → → − → Analog sieht man, dass − g ◦ f λ− x =λ − g ◦ f x . − → → Wir stellen uns das Problem, wie man aus Matrizen für lineare Abbildungen f , − g die Matrix zu − → − → g ◦ f gewinnt. Die Antwort gibt der Satz nach folgender Definition: Definition 38. Sei A = (aij )ij eine (m × n) − Matrix und B = (bki )ki eine (r × m) − Matrix, dann ist definiert: (bki )ik (aij )ij = (ckj )kj , mit ckj = bki aij . i Plastisch gesagt: Die Matrix BA entsteht so: j. Spalte von BA = Anwendung von B auf die j. Spalte von A. Man beachte: BA ist nur definiert, wenn Zeilenzahl von A gleich Spaltenzahl von B. Beispiele: 1 2 −5 4 1 −1 2 −3 1.) 3 4 = −11 10 −1 . −2 1 2 5 6 −17 16 −3 Man sehe noch einmal nach: Die erste Spalte des Resultats ist 1 2 3 4 −1 , usw. −2 5 6 1 2 −1 2 −3 −10 −12 3 4 2.) = −2 1 2 11 12 5 6 0 1 0 0 1 0 = , aber 0 0 1 0 0 0 0 0 0 1 0 0 3.) = , dies zeigt bereits: 1 0 0 0 0 1 Das Produkt der (n × n) − Matrizen ist nicht kommutativ, für alle n > 1. − → Satz 53. Sei a eine Basis für V, b eine Basis für W und c eine Basis für U. Seien f : V → W → linear und − g : W → U linear. Dann gilt → a − − → → → g ◦ f = Mcb − g Mb f , Mca − zur Hintereinanderschaltung gehört also das Matrizenprodukt. Insbesondere haben wir für lineare Abbil− → → dungen f : Rn → Rm und − g : Rm → Rr , welche direkt (also bezüglich der kanonischen Basen) durch → − → − → → → → → Matrizen gegeben sind, d.h. f → x = A− x für alle − x ∈ Rn und − g − y = B− y für alle − y ∈ Rm : − → → − → → g f − x = BA− x. 138 6. LINEARE ALGEBRA Wir werden das Matrizenprodukt auch im nächsten Abschnitt und weiterhin kräftig benutzen, doch zunächst sei eine elektrotechnische Anwendung angeführt: Wir betrachten dazu den Vierpol I U1 1 R I2 3 U R R 1 2 2 (Man beachte die vorgegebenen Zählrichtungen.) und fassen ihn als Verkettung von drei besonders einfachen Vierpolen auf: Der erste hat nur R2 (oben und unten über R2 verbunden), der zweite nur R3 (nur oben Eingang und Ausgang über R3 verbunden), der letzte nur R1 (analog zum ersten). Das ergibt drei sehr einfach zu bestimmende Kettenmatrizen (von denen zusätzlich erste und dritte völlig analog gebaut sind), und die wesentlich kompliziertere Kettenmatrix der obenstehenden Schaltung erhält man einfach als Matrizenprodukt: 1 1 R1 0 1 1 R3 0 1 1 1 R2 R2 + R3 R2 = R1 + R2 + R3 1 R1 R2 0 R3 R1 + R3 . R1 Das kann man nun analog für noch viel längere Schaltungen fortsetzen. Eine letzte Verknüpfung fehlt noch: Inversenbildung für umkehrbare lineare Abbildungen und umkehrbare − − → →−1 Matrizen. Selbstverständlich entspricht der linearen Abbildung f −1 wieder Maa f bei umkehrbar− → er linearer Abbildung f : V → V und Auszeichnung einer Basis a für V. (In diesem Falle wird man nur eine Basis für Input sowie Output verwenden.) Wir werden noch Ausführliches zur Berechnung inverser Matrizen sagen, aber an dieser Stelle erst einmal eine einfache Beobachtung zur Inversion von (2 × 2) − Matrizen anführen: a b Satz 54. Die inverse Matrix zu existiert genau dann, wenn ad − bc = 0, und man hat c d dann: −1 1 a b d −b = . c d −c a ad − bc a b Bemerkung: Die Zahl ad − bc ist die Determinante der Matrix . c d Beweis: Man rechne einfach aus: 1 d −b a b 1 0 = . a c d 0 1 ad − bc −c 4. VERKNÜPFUNGEN VON LINEAREN ABBILDUNGEN UND MATRIZEN Beispiel: Wir invertieren damit die oben gefundene Kettenmatrix: −1 R2 + R3 R1 + R3 R3 R R1 2 R1 + R2 + R3 R1 + R3 = R1 + R2 + R3 − R1 R2 R1 R1 R2 −R3 R2 + R3 R2 139 . Man beachte: Der Wert der Determinante ist hier 1, so dass man einfach nur die Diagonalelemente vertauschen und die anderen beiden mit negativem Vorzeichen versehen muss. − → → − → → Wenn f , − g bijektive lineare Abbildungen V → V sind, so ist es auch − g ◦ f . Oder auch für Matrizen: −1 Sind A, B invertierbar, dann auch BA. Wie kann man aus A−1 , B −1 die Inverse (BA) ausrechnen? − → → → Denkt man daran, dass − g ◦ f rückgängig gemacht wird, indem man zuerst − g rückgängig macht, dann −1 − − → − → → − → → −1 − −1 f , also bildet: g ◦ f = f ◦ g , so ist auch folgende Formel der Matrizenrechnung klar: (BA)−1 = A−1 B −1 . Satz 55. Die invertierbaren (n × n) − Matrizen bilden mit der Multiplikation eine Gruppe. Neutrales Element darin ist die Einheitsmatrix. Diese Gruppe ist in allen Fällen n > 1 nicht kommutativ. Eine letzte nützliche Verknüpfung fehlt noch: Definition 39. Die Transponierte AT zur Matrix A = (aij )ij ist definiert durch: AT := (aji )ij . Man erhält sie daher, indem man die Zeilen von A als Spalten von AT schreibt. Beispiel: T T 1 4 1 1 2 3 2 = 1 2 3 , = 2 5 . 4 5 6 3 6 3 → − → → T− a und einem Spaltenvektor Beispielsweise ist also das Matrizenprodukt a b mit einem Spaltenvektor − − → − → − → b dasselbe wie das Skalarprodukt a · b . Man hat: Bemerkung 1. (AB)T = (BA)T , (A + B)T = AT + B T , (λA)T = λAT . Zu beachten ist das Umdrehen beim Produkt der Matrizen. 4.1. Zusammenstellung der wichtigsten Formeln für die Matrixoperationen (Matrixkalkül). (i) Für die Addition von (m × n) − Matrizen und die Multiplikation dieser Matrizen mit Zahlen hat man genau die Vektorraumaxiome erfüllt : (A + B) + C = A + (B + C) − → 0 + A = A ( (n × n) − Nullmatrix) − → −A + A = 0 A+B = B+A λ (µA) = λ (µA) (λ + µ) A = λA + µA λ (A + B) = λA + λB 1·A = A (ii) Für die Multiplikation und Inversenbildung bei invertierbaren (n × n) − Matrizen hat man die Gruppenaxiome erfüllt (einer nicht kommutativen Gruppe, Kommutativität liegt nur im Falle n = 1 vor.) 140 6. LINEARE ALGEBRA (AB) C EA −1 A A −1 (BA) = = = = A (BC) A ( (n × n) − Einheitsmatrix) E A−1 B −1 Bemerkungen: die vierte Gleichung folgt aus den ersten drei Gruppenaxiomen. Die ersten beiden Gleichungen gelten allgemeiner, sofern nur A(BC) und (AB) C gebildet werden können. Dasselbe gilt für die zweite Gleichung. (iii) Für die Multiplikation von (n × n) − Matrizen in Verbindung mit der Addition hat man die Axiome eines Rings mit 1-Element erfüllt, zum Vorigen kommt hinzu : A (B + C) = AB + AC (Distributivgesetz). Bemerkung: Diese Formel gilt allgemeiner, wenn nur B, C dieselbe Dimensionierung haben und AB bildbar ist (damit auch automatisch AC und A (B + C)). Ferner hat man noch für die Transposition: Für alle (m × n) − Matrizen A, B T (A + B) (λA)T (AB)T Für invertierbare (n × n) − Matrizen A, B −1 T A Alle diese Formeln sind völlig elementar nachzuweisen. : = AT + B T = λAT = B T AT : −1 = AT 4.2. Typische nützliche einfache Anwendungen des Matrixkalküls. 1.) Man löst eine Gle− → − → → → ichung A− x = b im Falle einer invertierbaren Matrix A einfach durch − x =A−1 b , indem man von links − → → → → → A−1 anmultipliziert. Denn A−1 A− x = A1 A − x = E− x =− x , und rechts steht dann A−1 b . 2.) Man löst eine Matrixgleichung AX = B (A, B vorgegeben und X gesucht) mit invertierbarer Matrix A durch linkes Anmultiplizieren von A−1 mit X = A−1 B, analog löst man XA = B durch rechtes Anmultiplizieren von A−1 zu X = BA−1 . 3.) Eine Gleichung wie A = T −1 BT mit invertierbarer Matrix T löst man ohne weiteres nach B auf, indem man links T und rechts T −1 anmultipliziert, zu B = T AT −1 . Matrizen A und B, welche auf diese Weise zusammenhängen, nennt man ähnlich. So entstehen die verschiedenen Matrixdarstellungen einer linearen Abbildung V → V auseinander. Dabei ändern sich zwar die Matrizen stark, aber wesentliche Eigenschaften bleiben erhalten, wie wir noch sehen werden (Rang, Determinante z.B.). 5. Transformation von Matrizen (Basiswechsel) − → Wir haben zu jeder linearen Abbildung f : V → W und Basen a für V, b für W eindeutig die − → Matrixdarstellung Mba f . Dabei ergeben sich für verschiedene Basen völlig verschiedene Matrizen. Nun möchte man gern die Basen so wählen, dass die zugehörige Matrixdarstellung besonders einfache Form annimmt. Der wichtigste Fall ist V = W und a = b. Dabei möchte man also die Basis a so wählen, dass − → Maa f möglichst einfach wird. Zweifellos sind unter den quadratischen Matrizen die Diagonalmatrizen am einfachsten: Bei ihnen übersieht man Rang, Bild und Kern auf einen Blick, und die Anwendung der linearen Abbildung besteht einfach in Streckungen der Basisvektoren. Wir werden sehen, dass es unter gewissen Bedingungen, doch nicht immer, möglich ist, zu einer Diagonalisierung zu gelangen. Das werden wir illustrieren, nachdem wir die Grundlagen für einen Basiswechsel bereitgestellt haben. 5.1. Basiswechel in einem Vektorraum: Transformation der Koordinatendarstellungen. → → Wir stellen uns folgendes Problem: Gegeben ein Vektorraum V mit einer Basis a = − a 1 , ..., − a n und einer − → − → → weiteren Basis b = b 1 , ..., b n . Wie kann man die Koordinatendarstellungen von Vektoren − x ∈ V in die Koordinatendarstellungen bezüglich b umrechnen? Um die Dinge ein wenig plastischer zu gestalten, 5. TRANSFORMATION VON MATRIZEN (BASISWECHSEL) 141 denken wir an a als ’alte Basis’ und b als ’neue Basis’. Grundlage ist folgende (eindeutige!) Darstellung der neuen Basisvektoren als Linearkombinationen der alten Basisvektoren: n − → − → (∗) b j = a i β ij . i=1 Wir behaupten nun: Satz 56. Die durch (∗) gegebene Matrix β ij ij ist die Transformationsmatrix, welche die neuen Kon . − → → ordinatendarstellungen (bzgl. b) in die alten (bzgl. a) überführt, d.h. für alle Vektoren − x = λj b j = j=1 n . i=! → µi − a i aus V gilt: µi = oder in Matrixschreibweise mit Tab = β ij ij : n β ij λj . j=1 λ1 Tab ... = λn µ1 .. . µn Bemerkung zur Schreibweise: Tab bezeichnet die Matrix, welche die Koordinatendarstellungen bzgl. b in −1 die bzgl. a überführt. Tab ist bijektiv (invertierbar), und man hat Tab = Tba , wobei Tba die alten Koordinatendarstellungen bezüglich a in die neuen bzgl. b überführt. → → → Begründung: Sei id : V → V die identische Abbildung, also id − x =− x für alle − x ∈ V. Dann b −1 b b −1 n n ist (man denke daran, dass L dasselbe ist wie (·) ) L ◦ id ◦ La : R → R linear (als Hintereb inanderschaltung linearer Abbildungen), wir nennen T die Matrix, welche diese Abbildung (bezüglich a → → der kanonischen Basis e = − e 1 , ..., − e n des Rn darstellt. Es genügt also, einzusehen, dass gemäß der Definition (∗) der Matrix β ij ij die Spalten von β ij ij Koordinatendarstellungen der neuen Basisvek− → → e j , und die toren in der alten Basis sind. Denn die Koordinatendarstellung von b j bezüglich b ist − − → j. Spalte von β ij ij ist genau die Koordinatendarstellung von b j bezüglich der alten Basis a. Damit transformiert diese Matrix automatisch auch alle anderen Koordinatendarstellungen richtig, weil sie auf den Einheitsvektoren die korrekten Resultate liefert. Folglich ist Tab = β ij ij . Dass Tab invertierbar ist, sieht man sofort an der Umkehrbarkeit der Abbildungen L−1 woraus die Umkehrbarkeit von b , id, La , −1 Tab = L−1 ◦ id ◦ L direkt folgt. Selbstverständlich bewirkt die Inverse Tab genau die Koordinatena b transformation in der umgekehrten Richtung und ist daher gleich Tba , in konsequenter Notation. 5.2. Transformation von darstellenden Matrizen bei Basiswechseln. Wir kommen zur Anwendung der Koordinatentransformationsmatrizen und untersuchen, wie man aus einer Matrixdarstellung für eine lineare Abbildung bezüglich eines Basenpaars die Matrixdarstellung bezüglich neuer Basen errechnen kann. − → Satz 57. Seien a, & a Basen für V und b, &b Basen für W, f eine lineare Abbildung V → W. Dann gilt: − − → → M&b&a f = T&bb Mba f Ta&a . → Speziell hat man für − g :V →V: → → &a M&a&a − g = T&aa Maa − g Ta , Schreibt man dabei kurz T für Ta&a , so lautet die letzte Formel: → → M &a − g = T −1 M a − g T. & a a (Allerdings sei zum eigenen Gebrauch die ausführlichere Schreibweise empfohlen.) 142 6. LINEARE ALGEBRA − → f macht definitionsgemäß aus der Koordinatendarstellung eines Vektors − → → − → x ∈ V bzgl. & a die Koordinatendarstellung von f − x ∈ W bzgl. &b. Die Hintereinanderschaltung (das Produkt - man denke immer daran: Was am weitesten rechts steht, kommt zuerst, dann nach links so fort) → b a − T&b Mb f Ta&a tut eben dies, nur auf dem Umweg: Zuerst wird die eingegebene Koordinatendarstellung → → von − x bzgl. & a in die Koordinatendarstellung von − x bzgl. a umgewandelt (mittels Ta&a ), dann daraus mit → − → − → a − Mb f die Koordinatendarstellung von f x bzgl. b produziert, dann diese mittels T&bb zur Koordi− → → natendarstellung von f − x bzgl. &b umgewandelt. Die zweite Aussage spezialisiert dies nur zu V = W und a = b, & a = &b. Beweis: Die Matrix M&b&a 6. Anwendungen des Rechnens mit Matrizen Grundbegriffe: Elementarmatrizen Zeilenrang und Spaltenrang einer Matrix Resultate: Zeilen- und Spaltenumformungen über Anmultiplizieren von Elementarmatrizen Zeilenrang gleich Spaltenrang Rechentechnik: Berechnung inverser Matrizen Simultane Berechnung von Kern und Bild einer linearen Abbildung 6.1. Zeilen- und Spaltenumformungen als Multiplikation mit Elementarmatrizen. Wir erinnern an die elementaren Zeilen- und Spaltenoperationen: Eine Zeile wird mit α = 0 multipliziert und eine andere mit β multipliziert und zur ersten hinzuaddiert - analog für die Spalten. Nach dem Hauptlemma ändert sich dabei nicht der erzeugte Unterraum. Insbesondere bleiben lineare Abhängigkeit / Unabhängigkeit des jeweiligen Systems erhalten. Wir haben die Spaltenoperationen zur Gewinnung einer Basis für das Bild einer Matrixabbildung benutzt, die Zeilenoperationen zum Lösen eines linearen Gleichungssystems. Zu den genannten Operationen kommt das zuweilen benötigte Vertauschen von Zeilen / Spalten. Das Ganze können wir mittels der Matrizenmultiplikation mit Gewinn neu deuten und darstellen als Multiplikation der vorliegenden Matrix mit einer sogenannten Elementarmatrix. Wir werden das dann anwenden, um einige wichtige Grundtatsachen einzusehen, z.B. dass der Zeilenrang einer Matrix gleich dem Spaltenrang (bisher Rang gleich Dimension des Bildes genannt) ist. Dazu kommt eine nützliche Darstellung der Matrixinversion sowie eine praktische simultane Bestimmung von Bild und Kern einer beliebigen linearen Abbildung. Wir erklären an einem konkreten Beispiel, was die Elementarmatrizen sind und wie sie funktionieren: 6. ANWENDUNGEN DES RECHNENS MIT MATRIZEN 143 Beispiele für Elementarmatrizen und ihre Funktionsweise: 1.) Vertauschen von Spalten / Zeilen durch Anmultiplizieren einer Elementarmatrix 0 0 1 a1 b1 c1 c1 b1 a1 0 1 0 = (Effekt: Vertauschen der Spalten I und III) a2 b2 c2 c2 b2 a2 1 0 0 0 0 1 a1 a2 a3 c1 c2 c3 0 1 0 b2 b2 b3 = b2 b2 b3 (Effekt: Vertauschen der Zeilen I und III) 1 0 0 c1 c2 c3 a1 a2 a3 2.) Lineares Kombinieren von Spalten / Zeilen 1 0 β a1 b1 c1 a1 b1 a1 β + c1 α 0 1 0 = (III ′ = αIII + βI, für Spalten) a2 b2 c2 a2 b2 a2 β + c2 α 0 0 α 1 0 0 a1 a2 a3 a1 a2 a3 0 1 0 b2 b2 b3 = (III ′ = αIII + βI, für Zeilen) b2 b2 b3 β 0 α c1 c2 c3 a1 β + c1 α a2 β + c2 α a3 β + c3 α Wir sehen also, wie wir die gewünschten Zeilenoperationen und Spaltenoperationen durch Anmultiplizieren sehr einfacher Matrizen (daher ’Elementarmatrizen’ genannt) ausführen können. Wir wollen nunmehr diese Elementarmatrizen allgemein definieren: Definition 40 (Elementarmatrizen). Folgende Matrizen Bij , Cα,β,i,j , Dα,β,i,j ∈ Rn×n heißen Elementarmatrizen: Bij entsteht aus der Einheitsmatrix E durch Vertauschen der Spalten i, j. Cα,β,i,j entsteht aus der Einheitmatrix E, indem man die i. Spalte mit α = 0 multipliziert und das β − F ache der j. Spalte hinzuaddiert. Oder : In der i. Spalte wird die Eins durch α ersetzt und die Null in der j. Zeile durch β ersetzt. T (die Transponierte von Cα,β,i,j ). Dα,β,i,j := Cα,β,i,j (n) (n) Diese Konstruktion ist offenbar für alle n möglich. Bei Bedarf schreiben wir ausführlicher Bij , Cα,β,i,j . Bemerkung 2. Man kann - für die Theorie ist das einfacher - darauf verzichten, bei der linearen Kombination von Spalten / Zeilen die zu verändernde Spalte / Zeile mit einem Faktor α = 0 zu multi′ plizieren. Das führt dazu, dass man lediglich die Matrizen Cβ,i,j := C1,β,i,j benötigt und damit noch hat: D1,β,i,j = C1,β,j,i . Wir fassen nun alles Wissenswerte über die Elementarmatrix in einem Satz zusammen: Satz 58. Die Elementarmatrizen haben folgende Eigenschaften: 1.) Alle sind invertierbar, und zwar gilt : −1 = Bij , Bij −1 = C1/α,−β/α,i,j . (Beachte : α = 0.) Cα,β,i,j − e k für k = i, j → − → − → e i für k = j 2.) ABij e k = , − → e für k = i j d.h. die Spalten i,j werden durch rechtes Anmultiplizieren von Bij vertauscht. − → e k für k = i → 3.) ACα,β,i,j − ek = , → → α− e + β− e für k = i i j d.h. durch rechtes Anmultiplizieren von Cα,β,i,j wird in A zur i. Spalte mal α das β − F ache der j. Spalte addiert und als neue i. Spalte geschrieben. 4.) Das Entsprechende gilt für die Zeilen bei linkem Anmultiplizieren von Bij T bzw. Cα,β,i,j . 144 6. LINEARE ALGEBRA (n) (m) Man beachte genauer: Wenn A ∈ Rm×n , dann kann man nur Bij rechts und Bij links anmultiplizieren. Entsprechendes gilt für die Matrizen Cα,β,i,j und ihre Transponierten. Zur Begründung dieses Satzes verweisen wir für die Punkte 2,3,4 nur auf die Beispiele oben, die den Mechanismus klar machen sollten. Begründung zu Punkt 1: Diese kann man anschaulich so geben: Vertauscht man zwei mal die Spalten i, j, so hat man den ursprünglichen Zustand −1 wiederhergestellt, also Bij = Bij . Ferner ist die Umkehroperation von: Spalte i mit α multiplizieren und das β − F ache der Spalte j dazu addieren: Das β − F ache der Spalte j subtrahieren und dann durch α dividieren. Das bedeutet aber dasselbe wie: Zuerst die Spalte i durch α teilen und dann das β/α − F ache −1 der j. Spalte davon subtrahieren. Also Cα,β,i,j = C1/α,−β/α,i,j . Wir werden nun drei Resultate darstellen, welche man mit sukzessivem Anmultiplizieren von Elementarmatrizen erzielen kann. Hier ist das erste: 6.2. Blockmatrizen, Zeilen- und Spaltenrang. Satz 59. Jede Matrix M kann durch Zeilen- und Spaltenoperationen zu einer Blockmatrix wie folgt umgeformt werden: PMQ = Er 0 0 0 . Dabei ist Er die Einheitsmatrix der Dimension r, außerhalb stehen Nullen, die auch fehlen können. P und Q sind Produkte von Elementarmatrizen. Folgerung: Zeilenrang (d.h. die Dimension des Spanns der Zeilenvektoren) und Spaltenrang (d.h. die Dimension des Spanns der Spaltenvektoren) von M sind gleich. Zum Beweis der Folgerung: Es ändert sich nach dem zuvor Gesagten durch Anmultiplizieren von P und Q weder der Zeilenrang, noch der Spaltenrang von M . Aber P MQ hat Zeilenrang = Spaltenrang = r. 6. ANWENDUNGEN DES RECHNENS MIT MATRIZEN 145 Illustration des Satzes an einem ausgearbeiteten Beispiel: 0 1 −1 3 2 1 . 1.) Wir formen M um mit dem Blockmatrizenziel: M = −1 1 1 1 1 −1 Zunächst führen wir diejeweils angegebenen Spalten undZeilenumformungen durch: 0 1 −1 3 1 0 −1 3 1 0 0 0 −1 1 2 1 2 1 3 −2 → 1 −1 → 1 −1 1 1 1 −1 1 1 1 −1 1 1 2 −4 II I III IV III + I IV− 3 ∗ I I II III IV 1 0 0 0 1 0 0 0 1 −1 1 −1 0 0 0 0 → → 1 1 5 −6 1 1 5 0 III + 3 ∗ II IV− 2 ∗II IV + (6/5) ∗ III 1 0 0 0 1 0 0 0 →∗ 0 −1 0 0 II − I → 0 −1 0 0 0 1 5 0 III − I 0 0 5 0 III + II (Bei ∗ ) hätten wir auch mit reinen Spaltenumformungen vollenden können.) 2.) Wir zugehörigen Matrizen bestimmen die P, Q: 0 1 0 0 1 0 1 0 1 0 0 −3 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 · Q= 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 8 0 1 3 1 0 0 0 5 1 0 0 0 1 0 0 0 0 1 0 0 9 0 1 3 0 0 1 0 −2 1 0 1 − 6 · 5 = . 0 0 1 0 0 0 1 0 0 0 1 5 6 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 5 1 0 0 0 1 0 0 1 0 0 1 0 0 1 0 0 P = 0 1 0 0 1 0 −1 1 0 = −1 1 0 . 0 1 1 −1 0 1 0 0 1 −2 1 1 Beachte: Bei P muss man die Matrizen in umgekehrter Reihenfolge schreiben! Tatsächlich kommt heraus: 8 0 1 3 5 1 0 0 0 1 −1 3 1 0 1 − 9 −1 1 0 −1 1 2 1 PMQ = 5 −2 1 1 1 1 1 −1 6 0 0 1 5 1 0 0 0 1 0 0 0 = 0 −1 0 0 . 0 0 5 0 Wir erläutern noch etwas, wie die Matrizen P, Q gewonnen wurden: Zu Q : Jede Spaltenumformung entspricht rechtem Anmultiplizieren einer Elementarmatrix, wir schreiben also in derselben Reihenfolge der Umformungen einfach die bekannten zugehörigen Elementarmatrizen als Produkt. (Was weiter links steht, wird früher angewandt.) Zu P : Jede Zeilenumformung entspricht linkem Anmultiplizieren der jeweils zugehörigen Elementarmatrix, also müssen diese Matrizen nach der Reihenfolge der Umformungen von rechts nach links als Produkt geschrieben werden, weil die weiter rechts stehende Operation früher kommt. 146 6. LINEARE ALGEBRA Wir haben mit dem Beispiel auch illustriert, dass die Elementarmatrizen im engeren Sinne genügen, also mit α = 1 und Entfallen der D... . 6.3. Invertieren von Matrizen. Sei A eine (notwendig quadratische) Matrix, A invertierbar. Dann kann A allein mit Zeilenumformungen zu E, der Einheitsmatrix, umgeformt werden. Damit P A = E. Rechtes Anmultiplizieren von A−1 ergibt P = A−1 . Aber P = P E. Das heißt: Man gewinnt P = A−1 , indem man ausgehend von E dieselben Zeilenoperationen vornimmt, mit denen man A zur Einheitsmatrix umformt. Wir stellen das als Schema dar: −−−−−−−−−−−−−−−−→ A|E Zeilenumformungen E|P, dann P = A−1 . Beispiel: 1 2 −3 1 0 0 1 2 −3 1 0 0 2 1 2 0 1 0 → 0 −3 8 −2 1 0 II − 2I −1 3 1 0 0 1 0 5 −2 1 0 1 III + I 1 0 0 1 2 −3 −2 1 0 → 0 −3 8 1 7 5 3 0 0 1 (3III + 5II) − 34 34 34 34 15 9 21 1 − 34 34 34 I + 3III (dann) 1 2 0 1 56 1 40 4 1 → 0 1 0 − −2 + − 1− 3 34 3 34 17 − 3 (II − 8III) (zuerst) 0 0 1 5 3 7 − 34 34 34 5 11 7 − 34 34 34 1 2 0 2 1 4 I − 2II , → 0 1 0 17 17 17 0 0 1 7 5 3 − 34 34 34 5 11 7 − 34 −1 34 34 1 2 −3 2 1 4 . 2 1 2 also = 17 17 17 −1 3 1 5 3 7 − 34 34 34 Bemerkung und Warnung: Wir haben die Matrixinversion mit Zeilenumformungen durchgeführt - es ginge ebenso gut mit reinen Spaltenumformungen. Allerdings überlegt man leicht, dass gemischte Zeilen- und Spaltenumformungen nicht zum Ziel führen. 6.4. Simultane Bestimmung von Kern und Bild durch Spaltenumformungen. Bringt man eine Matrix A ∈ Rm×n durch Spaltenumformungen auf untere Dreiecksgestalt B, also bij = 0 für i < j, so hat man stets im Einzelschritt A von rechts mit einer Elementarmatrix multipliziert, insgesamt also − → gebildet: B = AT, mit einer Matrix T ∈ Rn×n . Wir bezeichnen mit b j den j. Spaltenvektor von B, also − − → − → → − → B = b 1 , ..., b n . Sei r ≤ n der kleinste Index, so dass b k = 0 für k > r. Dann hat man sofort → Kern (B) = Spann (− e k k>r ), also − → Kern (A) = Spann ( t k ), k>r 6. ANWENDUNGEN DES RECHNENS MIT MATRIZEN 147 − − → → − → t 1 , ..., t n . Mehr noch: Die Vektoren t k , r < k ≤ n, bilden eine Basis für − − → → die leere Folge, also Kern (A) = { 0 } ⊂ Rn . Ebenso Kern (A) . Genau im Falle r = n ist t k k>r − → − → einfach ist eine Basis für Bild (A) zu ermitteln: Die Vektoren b 1 , ..., b r bilden eine solche. Genau um − → Falle r = 0 ist diese Folge leer, und Bild (A) = { 0 } ⊂ Rm . Wir formulieren den damit bewiesenen Sachverhalt in einem Satz, der zugleich ein Verfahren angibt: also B = AT mit T = Satz 60. − − → → B , B = b 1 , ..., b n in unterer Dreiecksgestalt, dann T− − → → mit T = t 1 , ..., t n und − → − → r : = kleinste Zahl, so dass b k = 0 für r < k ≤ n: − → Bild (A) = Spann bk 1≤k≤r − → Kern (A) = Spann tk A Spaltenumf ormungen AT → E ET = r<k≤n (Mit der ersten Zeile ist gemeint, dass E unter A geschrieben wird, und dass beide Matrizen denselben Spaltenumformungen unterworfen werden, die man strategisch ausführt, um B etwa auf untere Dreiecksgestalt zu bringen.) Illustration 1 2 1 1 0 0 0 3 −2 3 1 2 3 0 0 1 0 0 1 0 0 1 2 1 → 1 −3 0 1 0 0 0 0 Resultate: 1 3 −2 1 an einem Beispiel: Aα = 2 3 1 α . 1 2 3 3 1 1 0 0 0 1 0 0 0 2 −3 5 α − 2 2 −3 α 0 0 3 1 −1 5 2 1 −1 10 8 − α ∗ → → 0 1 −3 2 −1 1 −3 −9 3 − 3α 0 0 0 1 0 0 1 5 α−2 0 0 1 0 0 3 0 0 0 1 0 0 0 1 0 0 0 3 0 0 0 −3 0 0 −1 10 0 B = 2 102 − 39α T 0 −60 + 15α 1 −24 + 3α 0 30 102 − 39α −60 + 15α Kern (Aα ) = Spann −24 + 3α , 30 1 0 0 Bild (Aα ) = Spann 2 , −3 , 0 1 −1 1 ∗ Kommentar: Mit dem Schritt → ist bereits eine Basis für das Bild bekannt (die ersten drei Spalten der oberen Matrix bilden eine solche); denn die beiden letzten Spalten sind offenbar linear abhängig. Natürlich gilt damit Bild (A) = R3 , und man kann einfacher die kanonische Basis der Einheitsvektoren 148 6. LINEARE ALGEBRA angeben. Aber für den Kern braucht man noch den letzten Schritt. Der wurde so ausgeführt: 10 mal 4. Spalte minus 8 − α mal die 3. Spalte, um die letzte Null zu schaffen und damit die erforderliche untere Dreiecksgestalt. Diese Spaltenumformung musste noch mit der unteren Matrix ausgeführt werden, um T zu erhalten. Rechnung und Resultat sind gültig unabhängig vom Wert des äußeren Parameters α. Das ist natürlich nicht immer so und sogar untypisch. Typischeres 1 Aβ = −2 2 Beispiel (mit Fallunterscheidung für den Parameter): 2 3 − → 1 −1 hat Kern (Aβ ) = { 0 } und folglich Bild (Aβ ) = R3 genau für β = 5, 3 β −1 1 2 Kern (A5 ) = Spann −1 und Bild (A5 ) = Spann −2 , 1 also für β = 5. 1 2 3 Das sollte man mit dem Verfahren noch einmal nachrechnen. 7. RÄUME MIT SKALARPRODUKT UND ISOMETRIEN 149 7. Räume mit Skalarprodukt und Isometrien Grundbegriffe: Skalarprodukt / Hermitesche Form - dadurch definierte Norm reziproke Basis zu einer gegebenen Orthogonalbasen Isometrien und orthogonale / unitäre Matrizen Resultate: Algebraische Eigenschaften der Standard-Skalarprodukte auf den Rn Algebraische Eigenschaften der Standard-Hermiteschen Formen auf den Cn Existenz von reziproken Basen Existenz von Orthonormalbasen Linearität von Isometrien Inverse gleich Transponierte für reelle orthogonale Matrizen Inverse gleich Transponiert-Konjugierte für komplexe unitäre Matrizen Rechentechnik: Orthonormalisierung einer beliebigen Basis Vereinfachte Gewinnung der Koordinatendarstellung eines Vektors bzgl. einer Orthogonalbasis oder Orthonormalbasis Einfache Berechnung inverser Matrix zu einer orthogonalen Matrix 7.1. Vektorräume mit Skalarprodukt (Euklidische Räme) und unitäre Räume, Orthonormalbasen. 1.) Wir betrachten zumeist speziell den Rn mit dem Standardskalarprodukt − − → → λ e µ e λµ. = i i i i i i i i i Wir erinnern daran, dass dies eine symmetrische Bilinearform ist. Folgende weitere Bildungen sind jedoch von großer Bedeutung: 'b 2.) Das Skalarprodukt f, g := a f (x) g (x) dx auf dem Raum der reellwertigen stetigen Funktionen auf [a, b]. Dies ist ebenfalls eine symmetrische Bilinearform. Das liegt an der Linearität des Integrals und dem Kommutativgesetz (fg = gf), die positive Definitheit begründet man leicht so: Wenn f in einem Punkt x0 ∈ [a, b] einen Wert = 0 besitzt, so ist in einer kleinen Umgebung von x0 der Wert von f 2 'b mindestens so groß wie eine Zahl ε ≥ 0, folglich ist a f 2 (x) dx > 0. 3.) Für die Vektorräume Cn hat man anstelle der symmetrischen Bilinearformen die sogenannten Hermiteschen Formen, Standardbildung ist (zi , ci ∈ C): − − → → z e c e zc. := i i i i i i i i i → → → → Damit hat man ebenfalls Bilinearität, allerdings wird − z ·− c =− c ·− z , diese Art von .Symmetrie . ersetzt − → − → die normale. Wesentlich ist: Man hat wieder positive Definitheit; denn z · z = zi zi = |zi |2 ist i√ i → − → → → → stets reell und größer als Null, sobald − z = 0 . Damit ist auch wieder durch − z := − z ·− z eine Norm definiert. √→ → a 2 eine Norm, welche dieselben wesentlichen Bemerkung 3. Jedes Skalarprodukt definiert mit − a := − Eigenschaften wie der uns bekannte Betrag des Rn besitzt. (Entsprechend ist in einem Raum − von Vektoren − → → mit Skalarprodukt stets sinnvoll von a als Länge von a zu reden.) Wir haben folgende grundlegenden Definitionen: → → Definition 41. Eine Orthonormalbasis − a 1 , ..., − a n eines Raumes mit Skalarprodukt ist eine solche 1 für i = j → → Basis, für deren Vektoren gilt: − ai ·− a j = δ ij = . Diese Vektoren haben also alle Länge 0 für i = j 1 und stehen paarweise senkrecht aufeinander. Eine Orthogonalbasis ist eine solche, bei welcher die Basisvektoren paarweise senkrecht aufeinander stehen. (Es fehlt also die Normierung.) 150 6. LINEARE ALGEBRA Wir stellen eine kleine Beobachtung an: Bemerkung 4. Ein System von Vektoren, welche alle nicht Null sind und paarweise senkrecht aufeinander stehen, ist stets linear unabhängig. . − − → → → Begründung: Mit λi → a i = 0 hat man nach skalarem Anmultiplizieren von − a i0 : λi0 − a 2i0 = 0, i also λi0 = 0. Somit für alle i : λi = 0. Man hat stets die Möglichkeit, ein linear unabhängiges System, insbesondere auch eine jede Basis, wie folgt zu orthonormalisieren: → → Satz 61. Seien − a 1 , ..., − a k linear unabhängige Vektoren in V, V Vektorraum mit Skalarprodukt. Dann → − → − → → gibt es stets Vektoren b 1 , ..., b k , welche ein Orthonormalsystem bilden und für die gilt: Spann − a 1 , ..., − ai = − → − → Spann b 1 , ..., b i für alle 1 ≤ i ≤ k. Insbesondere gibt es stets Orthonormalbasen. Folgende rekursive − → Definition gibt ein Verfahren (Gram-Schmidt-Orthonormalisierungsverfahren) zur Gewinnung der b j , 1 ≤ j ≤ k an: − → 3 → b1 : = − a 1, − → 3 i − → − → − → a i+1 · b j 3 3 → b j , für 1 ≤ i < k. b i+1 : = − a i+1 − 2 − → 3 j=1 bj − → 3 Schließlich normiert man noch - die Vektoren b i sind niemals Null: − → 3 − → bi b i := , 1 ≤ i ≤ k. − → 3 b i Hinweis: Es ist rechentechnisch wesentlich günstiger, die Normierung wie angegeben erst zum Schluss → anzubringen, weil es auch bei einfachen Koordinaten der − a i sonst unangenehme Wurzelausdrücke in den Vektoren bei der Durchführung des Induktionsschrittes gibt. Beim angegebenen Verfahren erscheinen solche erst am Schluss, wo man nichts mehr zu rechnen hat. Noch eine praktische Bemerkung: Auch die − → 3 Vektoren b i können unerwünschte Faktoren enthalten. Diese kann man ohne weiteres weglassen! Folgende Bilder zeigen die anschauliche Idee der Konstruktion: a 2 ~ b a3 ~ b3 2 a 1 ~ b1 ~ b2 7. RÄUME MIT SKALARPRODUKT UND ISOMETRIEN Beispiel zur Orthonormalisierung: 1 1 1 − −1 1 −1 → → → a 2, − a3 = a 1, − 1 , 1 , 2 . 1 2 1 1 −1 − → 3 b1 = 1 , 1 1 1 1 −1 · 1 1 1 1 1 1 1 1 −1 1 −1 7 − → 2 1 3 1 3 b2 = 1 − 1 = 1 − 4 1 = 4 1 , 4 2 1 2 5 1 1 7 − → 3 wir lassen den störenden Faktor 14 weg und arbeiten mit 1 weiter für b 2 . 5 1 1 1 1 −1 −1 −1 7 2 1 2 1 1 1 1 −1 − → 1 1 1 5 3 −1 − 7 b3 = 2 − 1 1 4 # 76 5 1 1 1 1 −5 1 −1 1 1 5 −1 7 3 = 2 − 4 1 − 76 1 = 19 14 . Resultat nach Normierung: 1 5 −6 1 1 1 −5 √ √ − 1 −1 → − → − → 19 266 7 3 b 1, b 2, b 3 = 2 1 , 38 1 , 266 14 1 5 −6 151 152 6. LINEARE ALGEBRA Praktische / Orthonormalbasen: − Anwendung von Orthogonalbasen → → → → a 1 , ..., − a n sei Orthogonalbasis, d.h. Basis mit: − ai·− a j = 0 für alle i = j. n → → Gesucht: Die Koeffizienten λi für − x = λi − a i .Man hat einfach: i=1 − → → x ·− ai λi = − 2 . → i a− → → Wenn a 1 , ..., − a n sogar Orthonormalbasis ist, so gilt einfacher: → → λi = − x ·− a i. 1 1 1 −7 Beispiel: 1 = α −1 + β 3 + γ 1 , dann 1 4 1 2 1 1 1 1 1 · −1 = , α= 6 3 1 2 1 1 1 5 1 · 3 = , β= 11 11 1 1 1 −7 1 1 1 · 1 =− γ= 66 33 1 4 Besonders wichtig wird dies Verfahren bei der Bestimmung von Fourierkoeffizienten (dazu mehr in Mathematik B). Zunächst stellen wir fest, dass sich Matrizen, deren Spalten bzw. Zeilen eine Orthogonalbasis oder gar Orthonormalbasis bilden, auf besonders einfache Weise verhalten. 7.2. Isometrien, orthogonale und unitäre Abbildungen bzw. Matrizen. Wie immer fragen wir nach den strukturgerechten Abbildungen, welche also die Struktur des Vektorraums mit Skalarprodukt bzw. Hermitescher Form respektieren. Definition 42. Eine Isometrie (oder auch orthogonale Abbildung / im komplexen Fall: unitäre Abbildung) eines Vektorraumes mit Skalarprodukt (bzw. mit Hermitescher Form) auf einen anderen eben− → solchen ist eine bijektive Abbildung f , welche das Skalarprodukt erhält, also folgende Bedingung für alle − → − → x , y erfüllt: − − → − → → − → f → x f − y =→ x− y. − → Bemerkung: Es folgt, dass f bijektive lineare Abbildung ist, also ein Vektorraumisomorphismus. Wie sehen die Matrizen von Isometrien zwischen Vektorräumen über R aus? Dazu setzen wir natürlich Orthonormalbasen voraus, so dass die Koordinatendarstellungsabbildungen (·)a Isometrien des Raums auf den entsprechenden Rn werden. Eine Orthonormalbasis wird durch eine Isometrie auf eine Orthonormalbasis des Zielraums abgebildet. Also bilden auch die Spalten einer darstellenden Matrix eine Orthonormalbasis des Rn . Eine solche Matrix heißt orthogonal. Wir haben dazu folgendes Resultat, mit dem die Inversion solcher Matrizen besonders einfach wird: Satz 62. Ist A eine orthogonale Matrix, d.h. die Spaltenvektoren von A bilden eine Orthonormalbasis des Rn , dann gilt A−1 = AT . Die Inverse ist also einfach die Transponierte. Zum Beweis schauen wir die Inversenbildung bei Matrizen etwas näher an: → → Definition 43 (und Satz). Zu jeder Basis − a 1 , ..., − a n des Rn hat man eindeutig die reziproke − → → → Basis → a ∗ , ..., − a ∗ , für die gilt − a∗ ·− a = δ für alle i, j. 1 n i j ij 8. DETERMINANTEN 153 → Begründung für den Rn : Schreiben wir die Vektoren − a i als Spaltenvektoren einer Matrix A, so haben −1 wir die Inverse Matrix A , weil A eine Bijektion des Rn auf sich darstellt (bezüglich der kanonischen − → Basis). Also mit A−1 A = E = (δ ij )ij (Einheitsmatrix): i. Zeilenvektor von A−1 sei b i . Dann hat man − → − → − →T − → a j = δ ij , also bilden die b Ti die reziproke Basis. Setze also − a ∗i := b Ti . Hat man umgekehrt eine bi → reziproke Basis, so bilden deren Vektoren als Zeilen geschrieben die Matrix A−1 , und diese ist eindeutig bestimmt. Nunmehr folgt der vorige Satz aus folgender Beobachtung: Bemerkung 5. Eine Orthonormalbasis ist zu sich selbst reziprok. Das folgt sofort aus der Definition von ’Orthonormalbasis’. Somit braucht man die Spalten einer orthogonalen Matrix nur als Zeilen zu schreiben, um die Inverse zu erhalten. Bemerkung: Für den komplexen Fall erhält man analog für unitäre Matrizen A ∈ Cn×n : A−1 = T → → → → A , weil für die reziproke Basis − a ∗1 , ..., − a ∗n zu − a 1 , ..., − a n bezüglich des Skalarproduktes in Cn gilt: − → a ∗1 .. − → − → . a 1 , ..., a n = − → a ∗1 − → a ∗1 .. − → − → . a 1 , ..., a n = (δ ij )ij = (δ ij )ij = E. − → a ∗1 (Die Matrizen sind durch ihre Zeilen- bzw. Spaltenvektoren angegeben. Der Querstrich über den Vektoren bedeutet Konjugation aller Einträge.) Beispiel für den reellen Fall (Inverse einer orthogonalen Matrix ist die Transponierte): −1 1 √ 1 √ 1 √ 1 √ 1 √ 1 √ 6 6 6 6 3 2 6 6 6 3 3 2 1 √ √ √ √ √ √ 1 1 1 1 1 6 3 3 − 3 3 − 2 = 3 3 3 3 2 6 1 √ √ √ √ 1 1 1 2 − 2 0 6 − 3 0 2 2 3 3 T 1 √ 1 √ 1 √ 6 6 6 6 6 3 1 √ 1 √ 1 √ = 3 3 − 3 3 3 3 1 √ 1 √ 2 − 2 0 2 2 Beispiel für den komplexen Fall (Inverse einer unitären Matrix ist die Transponiert-Konjugierte): √ √ −1 √ √ 1 1 + √3j −1 +√ 2j 1 1 − j √3 1 − j √2 √ =√ −1 − j 2 1 + j 3 7 1 + 2j 1 − 3j 7 8. Determinanten Vorbemerkung: Alle folgenden Ausführungen über Determinanten gelten für beliebige Zahlkörper K anstelle von R, lediglich zur konkreteren Formulierung und insbesondere konkreterer geometrischer Deutung denken wir an R zuerst. Abgesehen davon handelt es sich um den wichtigsten Spezialfall. Die konkrete geometrische Deutung der Determinante ist für das Grundverständnis auch der algebraischen Eigenschaften der Determinante sehr wichtig, aber es sei darauf hingewiesen, dass der Anwendungsbereich viel weiter gesteckt ist, vgl. den nächsten Abschnitt über Eigenwerte. 154 6. LINEARE ALGEBRA Grundbegriffe: Permutationen, Transpositionen und Vorzeichen einer Permutation Determinante als n − fache alternierende Multilinearform, Versionen: n det : Rn×n → R, det : (Rn ) → R Determinante als n− dimensionales Spatvolumen mit Orientierungsvorzeichen − → Determinante von f (beliebiger linearer Abbildung V → V ) − → als Volumenverhältnis (mit Orientierung) des f − Bildspats zum Ausgangsspat einer beliebigen Basis (Basisunabhängigkeit der Determinante!) Resultate: Algebraische Charakterisierung der Determinante und Leibnizformel det (A) = det AT det (A) = 0 ⇐⇒ A regulär (d.h. A invertierbar) 1 Multiplikationsformel det (AB) = det (A) det (B) , also auch det A−1 = det(A) für invertierbare A Basisunabhängigkeit der Determinante Entwicklungssatz Cramersche Regel Rechentechnik: Multilinear alternierendes Rechnen Praktische Berechnung auch allgemeinerer Determinanten (mit äußeren Parametern), insbesondere durch Zeilen- oder Spaltenumformungen, Entwicklung, theoret. Überlegung 8.1. Zum geometrischen Verständnis des Spatvolumens mit Orientierungsvorzeichen. 1.) In der Ebene sieht das so aus: 1 0.9 0.8 0.7 0.6 a 0.5 0.4 0.3 0.2 b 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 − → → Der von − a , b aufgespannte zweidimensionale Spat ist einfach das von den beiden Vektoren aufgespannte Parallelogramm. Das zweidimensionale Volumen davon ist der Flächeninhalt. Das Orientierungvorzeichen − → → − → → ist positiv genau dann, wenn − a, b wie e 1, − e 2 orientiert Beispiel sind sie das nicht, sind. Imgezeichneten − → a b a b − → die Determinante der Matrix mit a = ,b = sollte daher im Beispielfalle mit c d c d 8. DETERMINANTEN 155 elementarer Vektorrechnung so auszurechnen sein: a b 0 c × d = . 0 0 0 ad − bc − → a b → → → Also det = ad − bc. Man beachte: − a , b sind orientiert wie − e 1, − e 2 genau dann, wenn das c d → gerade berechnete Vektorprodukt in Richtung von − e zeigt. Im gezeichneten Beispiel resultiert 3 det Klar bekommen wir ebenso det 1 5 7 10 1 2 0 1 5 7 10 1 2 0 =− 7 . 20 = 7 . 20 Der Flächeninhalt ist derselbe, das Orientierungsvorzeichen aber umgekehrt. Wir beobachten noch, dass Null genau dann herauskommt, wenn die Vektoren linear abhängig sind, das Parallelogramm also ausgeartet ist. 2.) Im dreidimensionalen Raum ist ein (dreidimensionaler) Spat so etwas wie ein schiefer Quader. Das dreidimensionale Volumen ist das, wofür wir im Alltag das Wort ’Volumen’ reservieren. (Nunmehr ist das nur noch der Spezialfall n = 3 für das allgemeine n− dimansionale Volumen.) Das Orientierungsvorzeichen − → → → → → → e 2, − e 3 , sonst ist es ist positiv, wenn die drei erzeigenden Vektoren − a , b,− c orientiert sind wie − e 1, − negativ. Null resultiert wiederum genau dann, wenn der Spat ausgeartet ist, was genau im Falle der linearen Abhängigkeit des Systems der Fall ist. Das Ganze sieht so aus: 1.5 a 1 b 0.5 c 0 -0.5 0 0.5 1 1.5 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 Im gezeichneten Beispiel ist die Orientierung positiv, der rechten Hand entsprechend. Wir wissen bereits, − → → → dass das Spatprodukt − a(b ×− c ) das Gewünschte leistet. Auch hier können wir die Sache wieder in Matrixform bringen und das Spatprodukt als Determinante einer (3 × 3) − Matrix auffassen. Dazu schreiben wir die Vektoren als Zeilenvektoren folgender Matrix und sehen uns die Berechnung des Spatproduktes 156 6. LINEARE ALGEBRA erneut an: a1 det b1 c1 a1 b1 c1 a3 b3 = a2 · b2 × c2 c3 a3 b3 c3 = a1 (b2 c3 − b3 c2 ) + a2 (−(b1 c3 − b3 c1 )) + a3 (b1 c2 − b2 c1 ) b2 b3 b1 b3 b1 b2 = a1 det − a2 det + a3 det . c2 c3 c1 c3 c1 c2 a2 b2 c2 Das führt auf die Art, die Determinante einer (3 × 3) − Matrix zu berechnen, welche wir später (auch analog im allgemeinen (n × n) −Fall ’Entwicklung nach der ersten Zeile’ nennen werden. Wie bereits im zweidimensionalen Fall erkennt man auch hier, dass die analoge Bildung mit der Matrix, in welcher die drei Vektoren als Spalten statt Zeilen geschrieben wird, genau dasselbe Resultat liefert: a1 det a2 a3 b1 b2 b3 c1 b2 c2 a2 c2 a2 b2 c2 = a1 det − b1 + c1 det b3 c3 a3 c3 a3 b3 c3 = a1 (b2 c3 − b3 c2 ) − b1 (a2 c3 − a3 c2 ) + c1 (a2 b3 − a3 b2 ) = a1 (b2 c3 − b3 c2 ) + a2 (b3 c1 − b1 c3 ) + a3 (b1 c2 − b2 c1 ) b1 c1 a1 = a2 b2 × c2 . a3 b3 c3 In beiden Berechnungen der Determinanten von (3 × 3) − Matrizen haben wir rekursiv auf Determinanten von (2 × 2) − Matrizen zurückgeführt. Analog kann man auch die Determinantenberechnung von (2 × 2) − Matrizen auf Determinanten von (1 × 1) − Matrizen zurückführen. Sinngemäß (Volumen im eindimensionalen Fall ist Länge, dazu Orientierungsvorzeichen) hat man det (a) = a, und damit gilt: det a b c d = a det (d) − b det (c) = ad − bc. Das ganze Schema lässt sich zu einer rekursiven Definition der Determinanten beliebig großer quadratischer Matrizen verallgemeinern (vgl. Entwicklungssatz unten), aber wir wollen systematisch mit dem Begriff des orientierten n− dimensionalen Spatvolumens arbeiten. 8.2. Die Determinante quadratischer Matrizen und ihre algebraischen sowie geometrischen Eigenschaften. Wir wollen eine Abbildung folgender Art haben (für jeden Zahlkörper K und für jede Zahl n ∈ N): detn : (K n )n → → K − , (Determinante als Funktion von n Vektoren aus K n ) , − → → a 1 , ..., − a n → det − a 1 , ..., → an auch aufzufassen als : detn : K n×n K − → → → A = a 1 , ..., − a n → det (A) (Determinante als Funktion quadratischer Matrizen) welche im Blick auf die gesuchten geometrischen Eigenschaften (wenn man an K = R denkt) folgende Bedingungen erfüllen soll, die man zusammenfasst → mit: det soll n− fache alternierende Multilinearform der → → e n = 1. Den Index n lassen wir ab jetzt fort. Wir definieren Spaltenvektoren − a j sein mit detn − e 1 , ..., − nunmehr, was dies im Einzelnen heißt: 8. DETERMINANTEN 157 Definition 44. Eine Abbildung det: (K n )n → K heißt normierte alternierende Multilinearform, wenn sie folgende Bedingungen erfüllt: (i) det ist n − f ach linear, d.h. linear in jedem Eingabeschlitz, also − → − → → → det(..., − a + b , ...) = det(..., − a , ...) + det(..., b , ...) und − → → → → det(..., λ− a , ...) = λ det(..., − a , ...) für alle − a , b , λ. → → (ii) det ist alternierend, d.h. det(..., − a ,...− a , ...) = 0. − → − → (iii) det e 1 , ... e n = 1. (Normierung für den Einheitswürfel) (Ohne die Eigenschaft (iii) ist das eine alternierende Multilinearform.) Erläuterung zur Formulierung: Bemerkung zur Formulierung der ersten Eigenschaft (i): die bezeichneten Vektoren stecken stets im selben Eingabeschlitz, und die Pünktchen bedeuten stets denselben Satz von Vektoren in allen anderen Eingabeschlitzen. Wir erinnern daran, dass genau in diesem Sinne das Skalarprodukt und das Vektorprodukt bilinear sind, also zweifach linear. Ebenso bedeutet die Formulierung der Eigenschaft (ii), dass in zwei Eingabeschlitzen derselbe Vektor steckt, die anderen Schlitze beliebig belegt sind. Dass diese Eigenschaft ’alternierend’ heißt, wird klar mit der zweiten der folgenden Folgerungen - dass diese so einfach gezogen werden können, zeigt gerade die Nützlichkeit der obenstehenden algebraisch-abstrakten Definition von det. Geometrischer zu fordern, → Sinn der Formulierung: Die angegebenen Eigenschaften→sind alle → → wenn det − a 1 , ..., − a n für Rn die Bedeutung haben soll: Spatvolumen des von − a 1 , ..., − a n aufgespan→ → nten Spats mit Orientierungsvorzeichen. Denn − e 1 , ...− e n sollte ein Rechtssystem definieren und den → → Einheitswürfel aufspannen, also (iii) . Ferner sollte (ii) gelten, weil mit Wiederholung (..., − a ,...− a , ...) ein entarteter Spat aufgespannt wird, der n− dimensionales Volumen Null bekommen sollte. Schließlich die beiden zu (i) gehörenden Eigenschaften (Linearität in jedem Eingabeschlitz): Für den Faktor ist das sofort klar: Streckt man eine Kante eines Spats mit |λ| , so multipliziert sich das (n− dimensionale) Volumen mit |λ| . Multipliziert man einen der aufspannenden Vektoren mit einer negativen Zahl, so tritt zusätzlich → Orientierungsumkehr ein. Für die Addition (erster Teil) sieht man die Sache so: Wenn − a (oder einer der nicht aufgeführten Vektoren in den anderen Schlitzen) der Nullvektor ist, so ist die Gleichung klar, da − → → dann det(..., − a , ...) = 0 sein sollte (Entartung). Wenn das nicht der Fall ist, so kann man vom Vektor b − → jede Vektor-Komponente abziehen, die nicht parallel zu a ist, ohne das n− dimensionale Volumen zu ändern (Scherung, siehe weiter unten: Cavalieri-Prinzip). Dann aber ist die Aussage klar, es werden einfach zwei Spate aneinandergesetzt, deren Volumina sich addieren (oder das eine ist bei anderer Richtung − → → der − a − Komponente von b abzuziehen). Wir ziehen nunmehr einige Folgerungen aus der abstrakten Formulierung, die sowohl für die Deutung der Eigenschaft als auch für das praktische Rechnen sowie Anwendungen der Determinante wichtig sind. Anschließend beweisen wir die beiden Hauptresultate: Mit der angegebenen Definition ist det bereits eindeutig bestimmt, und es existiert auch eine solche Abbildung, die Leibnizformel gibt für diese Abbildung die korrekte Berechnung an. 8.2.1. Folgerungen aus den algebraischen Eigenschaften allein. Wir benötigen folgende einfachen Aussagen über Permutationen - Erinnerung: Eine Permutation der Menge {1, ..., n} ist eine Bijektion dieser Menge auf sich. Einzelne Permutationen schreibt man gern σ, τ usw. Die Menge dieser Permutationen heißt Sn und bildet die sogenannte symmetrische Gruppe (mit der Verkettung als Multiplikation). Eine Transposition ist eine Permutation der folgenden Art: Seien i = j aus {1, ..., n}. Dann definiert man k für k = i, j j für k = i τ i,j (k) := i für k = j Es werden also i und j vertauscht, sonst werden alle Zahlen auf sich selbst abgebildet. Eine solche Permutation heißt Transposition. Dazu hat man nun folgendes Lemma 3. Jede Permutation lässt sich als Produkt von Transpositionen schreiben, und dabei ist eindeutig bestimmt, ob es eine gerade oder aber eine ungerade Anzahl von Transpositionen ist. Daher ist 158 6. LINEARE ALGEBRA die Definition korrekt: sign (σ) := 1, wenn σ Produkt einer geraden Anzahl von Transpositionen ist −1 sonst. Da die Inverse von τ ij ebenfalls τ ij ist und daher die Inverse von τ i1 j1 ◦...◦τ ir jr lautet: τ ir jr ◦...◦τ i1 j1 , da ferner id das Produkt von Null Transpositionen ist, hat man: Folgerung 7. sign (σ) = sign (−σ) , sign (id) = 1. Nunmehr kommen wir zu den wichtigen Folgerungen aus den Eigenschaften (i) und (ii) von alternierenden Multilinearformen. Folgerung 8. − → − → − → → → (i) det(..., − a , ..., b , ...) = det(..., − a + λ b , ..., b , ...) − → − → → → (ii) det(..., − a , ..., b , ...) = − det(..., b ,..., − a ...) − → → − → ′ (ii ) det a σ(1) , ..., aσ(n) = sign (σ) det a 1 , ..., − an → → → → (iii) det(− a 1 , ..., − a n ) = 0 ⇐⇒ − a 1 , ..., − a n linear abhängig. Bemerkungen zum Verständnis: (i) ist das wichtige Cavalieri-Prinzip der Scherung. (ii) bedeutet die Umkehr des Vorzeichens (also der Orientierung) bei Vertauschung zweier der Eingabevektoren. (iii) gibt uns eine neue Charakterisierung der linearen Unabhängigkeit von n Vektoren im K n , die geometrisch verständlich ist (’Spat nicht entartet’.) Beweis: (i): Wir haben unter Ausnutzung von (i) und (ii) der Definition: − → − → − → − → − → → → det(..., − a + λ b , ..., b , ...) = det(..., − a , ..., b , ...) + det(..., λ b , ..., b , ...) − → − → − → → = det(..., − a , ..., b , ...) + λ det(..., b , ..., b , ...) − → → = det(..., − a , ..., b , ...). Zu (ii): − → − → → → det(..., − a , ..., b , ...) + det(..., b , ..., − a , ...) − → − − → − → − → → → = det(..., a , ..., b + a , ...) + det(..., b , ..., − a + b , ...) Folg. (i) = (i) Def. − → − → → → det(..., − a + b , ..., − a + b , ...) = (ii) Def. 0 Aus (ii) folgt mit dem Lemma oben sofort (ii′ ) . Zu (iii): Steht in einem der Eingabeschlitze, sagen wir ohne Beschränkung der Allgemeinheit im ersten, eine Linearkombination der Vektoren in den anderen Schlitzen, so haben wir: n n − → − → − → − → → det λ a , a , ..., a = λ det − a ,→ a , ..., − a = 0. k k 2 n k=2 k k 2 n k=2 8.2.2. Eindeutige Existenz von det und Leibniz-Berechnungsformel. Wir kommen nunmehr zu den angekündigten Hauptresultaten: Satz 63. det ist mit den Eigenschaften (i) − (iii) (’normierte alternierende n− fache Multilinearform’) eindeutig bestimmt. − → − → → → Beweis: Sei − a 1 , ..., − a n eine beliebige Basis von K n , und seien b 1 , ..., b n beliebige Vektoren aus K n . − → − → → Dann können die b 1 , ..., b n ∈ K n eindeutig durch Linearkombinationen der − a j ausgedrückt werden, also: − − → b = λ → a . i ij j j 8. DETERMINANTEN 159 Damit gilt − → − → − → − → det b 1 , ..., b n = det λ1j a j , ..., λnj a j j j = Def. (ii) und Folgerung − → − → = (∗) det b 1 , ..., b n sign (σ) n i=1 σ∈Sn (ii′ ) σ∈Sn = Def. (i) i1 ,...,in → → λi1 ,1 · ... · λin ,n det − a i1 , ..., − a in → → sign (σ) λ1,σ(1) · ... · λn,σ(n) det − a 1 , ..., − a n . Also → → λi,σ(i) det − a 1 , ..., − a n . Diese Formel nennen wir die Hauptformel des multilinear alternierenden Rechnens. (Die allgemeinere Formel (∗) wird beim Beweis der Multiplikationsformel noch einmal wichtig.) Wir erläutern ein wenig die Hauptschritte: Der erste beruft sich auf die n− fache Linearität, also in jedem Eingabeschlitz. Wir erinnern uns, dass dies bedeutet: Distributiv rechnen, d.h. ’Jeder mit Jedem’. Genau das und das Herausziehen der Faktoren geschah mit dem Gleichheitszeichen mit Zusatz ’Def. (i)’. − → − → ′ für den Fall i Aber mit Folgerung (ii ) oben können wir det a , ..., a i1 in k = im für k = m schreiben − → − → als ± det a 1 , ..., a n , mit positivem Vorzeichen genau dann, wenn die Anzahl benötigten Ver→ der − tauschungen gerade ist. Ferner liefert Eigenschaft (ii) aus der Definition det − a i1 , ..., → a in = 0, falls − → − → (i1 , ..., in ) keine Permutation von (1, ..., n) ist. Damit haben wir eindeutige Berechnung von det b 1 , ..., b n , → → auf den Wert von det − a 1 , ..., − a n für eine beliebige Basis zurückgeführt mittels der eindeutigen Zahlen → → λij . Das Ganze können wir speziell auf den Fall − ai = − e i anwenden und erhalten gemäß Normierun− → − → seigenschaft (iii) den Wert 1 für det a 1 , ..., a n und damit die Leibnizformel: Folgerung 9 (Leibnizformel). Es gilt für die eindeutige Abbildung det, welche die Eigenschaften (i) , (ii) , (iii) erfüllt: n det (aij )ij = sign (σ) ai,σ(i) . i=1 σ∈Sn Daraus folgt unter Verwendung von sign (σ) = sign σ −1 sofort: Folgerung 10. det (A) = det AT Also: Transposition einer Matrix ändert nicht den Wert der Determinante. Denn det (aij )ij = = sign (σ) τ ∈Sn ai,σ(i) = i=1 σ∈Sn n sign (τ ) n σ∈Sn aτ (j),j j=1 n sign σ −1 aσ−1 (j),j j=1 = det (aij )Tij . Wir haben dabei noch verwandt, dass man, wenn man mit σ alle Permutationen durchläuft, dies auch mit σ−1 tut. Im systematischen Aufbau der Sache hat man nunmehr noch zu beweisen, dass die mit der Leibnizformel definierte Determinante tatsächlich auch eine alternierende Multilinearform mit der Normierung ist. Den Beweis dieser Tatsache lassen wir hier weg, formulieren nur noch einmal ausdrücklich: Satz 64. Die Abbildung n sign (σ) ai,σ(i) det (aij )ij = σ∈Sn i=1 ist eine alternierende Multilinearform mit det (E) = 1, erfüllt also die verlangten Eigenschaften (i) bis (iii) . 160 6. LINEARE ALGEBRA 8.2.3. Der Multiplikationssatz und Folgerungen für die allgemeinere Deutung der Determinante. Das ist die wichtigste Formel für die Determinante: Satz 65 (Multiplikationssatz). Es gilt für A, B ∈ K n×n stets det(BA) = det (B) det (A) . Beweis: Die Aussage steckt fast unmittelbar in der Hauptformel (∗) des multilinear alternierenden Rechnens: n − → − → → → det b 1 , ..., b n = sign (σ) λi,σ(i) det − a 1 , ..., − an σ∈Sn − → bi i=1 → → a 1 , ..., − a n , für = det (λij )ij det − → = λij − a j , 1 ≤ i ≤ n. j − − → → − → → Dann haben wir mit A = (aij )ij und b i := B − e i (= i. Spalte von B, also B = b 1 , ..., b n ): → → → → det (BA) = det BA− e 1 , ..., BA− e n = det B ai,1 − e i , ..., B ai,n − ei = det i T → ai,1 B − e i , ..., i i i → ai,n B − e i , also unmittelbar mit (∗) : − − → → det b 1 , ..., b n = det (A) det (B) . det (BA) = det A (Im letzten Schritt war det B T = det (A) zu benutzen.) Aus dem Multiplikationssatz ergibt sich sofort die Folgerung 11. det A−1 = 1 für invertierbare Matrizen A. det (A) Beweis: A−1 existiere, dann det A−1 det (A) = det (E) = 1, dividiere durch det (A) . Weiter folgt aus dem Multiplikationssatz sofort: Folgerung 12. Ähnliche Matrizen haben dieselbe Determinante, d.h. det T −1 AT = det (A) , für − → alle (invertierbaren!) Transformationsmatrizen T. Das bedeutet aber: Wenn f : V → V eine lineare − → − → Abbildung ist und Maa f sowie Mbb f Matrizendarstellungen davon bezüglich zweier verschiedener − → Basen a und b, so gilt wegen der Ähnlichkeit der Matrizen (Transformationsformel!): det Maa f = − → det Mbb f . Daher ist folgende Definition korrekt, eben wegen dieser Basisunabhängigkeit der Determinante: − → Definition 45. Die Determinante einer beliebigen linearen Abbildung f : V → V (V wie immer hier endlichdimensional) ist definiert als − − → → det f := det Maa f für irgendeine Basis a von V. Wir sind nunmehr in der Lage, die komplette geometrische Deutung der Determinante zu geben: − − → → Satz 66. Sei f : V → V linear. Dann bedeutet der Betrag von det f das Volumenverhältnis: Vol− → → − →→ → → umen des Spates, der von f − a 1 ), ... f (− a n aufgespannt wird, geteilt durch Volumen des von − a 1 , ..., − an − → → → aufgespannten Spates, für jede beliebige Basis − a 1 , ..., − a n . Das Vorzeichen von det f ist positiv, wenn − → − → f die Orientierung (jeder) Basis erhält, negativ, wenn f die Orientierung (jeder) Basis umdreht, und − → − → natürlich det f = 0 genau dann, wenn f nicht bijektiv ist. 8. DETERMINANTEN 161 Beweis: Wir setzen V = K n voraus. (Über eine geeignete Koordinatenabbildung ist V mit K n identifizierbar, und die geometrische Bedeutung des orientierten Spatvolumes wird auch darüber übertragen.) Nun sei eine beliebige Basis für K n gegeben: → → a= − a , ..., − a . 1 n Weiter sei für alle 1 ≤ j ≤ n: n − − → − → − → f → aj = a k λkj , also (λkj )kj = Maa f .. k=1 Nun haben wir mit dem Argument, das wir auch beim Multiplikationssatz verwandten: − → → → − → → → det f − a 1 , ..., f − an = det (λkj )kj det − a 1 , ...− an − → → → = det f det − a 1 , ...− an . → → Mit det − a 1 , ...− a n = 0 also: − → → − → → − det f − a 1 , ..., f − an → − = det f . → − → det a 1 , ... a n − → Der Streckungsfaktor für einen nicht ausgearteten Spat bei Anwendung von f ist also für alle Spate derselbe! 8.3. Entwicklungssatz für die Determinante quadratischer Matrizen. Vorbemerkung: Anwendung des Entwicklungssatzes zur praktischen Berechnung von Determinanten ist erst nützlich, wenn man zusätzlich mittels des Cavalieriprinzips recht viele Nullen in der Zeile oder Spalte geschaffen hat, nach der man entwickelt. Wir formulieren den Satz hier ohne Beweis, beschränken uns auf die Erläuterung seiner Anwendung: Folgerung 13 (allgemeiner Entwicklungssatz). Man kann jede Determinante nach jeder Zeile oder auch Spalte entwickeln, es gilt also für A = (aij )1≤i≤n+1,1≤j≤n+1 stets, wenn wir mit Aij die Matrix bezeichnen, welche aus A durch Streichen der i. Zeile und j. Spalte entsteht: n det (A) = (−1)i+j aij det (Aij ) (Entwicklung nach der i. Zeile), und j=1 det (A) = n (−1)i+j aij det (Aij ) (Entwicklung nach der j. Spalte). i=1 Man beachte, dass im zweiten Fall über i summiert wird, im ersten über j. Das Vorzeichenschema der Vorfaktoren (−1)i+j denke man sich wie folgt schachbrettartig: + − + ··· − + − ··· + − + ··· . .. .. .. . . . . . . 8.4. Zur praktischen Berechnung von Determinanten. Rekursive Definition oder Leibnizformel empfehlen sich nicht, die unsägliche ’Sarrusformel’ für (3 × 3) schon gar nicht. Sie ergeben allzu viele Terme, jedenfalls für n ≥ 3. Stattdessen kann man am besten das Cavalieriprinzip anwenden und zusätzlich Zeilen (Spalten) mit geeigneten Faktoren = 0 multiplizieren - dann muss man jedoch die Kehrwerte dieser Faktoren vor die Determinante der neuen Matrix schreiben, um den Wert der ursprünglichen Determinante nicht zu ändern. Auf diese Weise betreibt man Zeilen- oder Spaltenumformungen wie gewohnt, um Nullen zu schaffen und möglichst eine obere Dreiecksgestalt zu erzielen. Noch einmal die grundlegende Formel dafür (die aufgezählten Vektoren können die Spaltenvektoren oder auch die Zeilenvektoren der Matrix sein): − → 1 − → → → → det ...− a , ..., b , ... = det ...− a , ..., β b + λ− a , ... für β = 0. β 162 6. LINEARE ALGEBRA Anwendungsbeispiel: (Anmerkung αzk + βzm bedeutet: Zeile k wird ersetzt durch α· Zeile k plus β· Zeile m) 1 −2 1 1 1 −2 1 1 2 1 3 3 5 1 1 = det 0 z2 − 2z1 det 3 1 1 1 0 7 −2 −2 z3 − 3z1 −2 2 −1 1 0 −2 1 3 z4 + 2z1 1 1 1 −2 0 1 1 5 Zwei Spaltenvertauschungen, = det 0 −2 −2 7 Wert bleibt gleich 1 3 −2 0 1 1 1 −2 0 1 1 5 = det 0 0 0 17 z3 + 2z2 0 0 2 −7 z4 − z2 1 1 1 −2 0 1 1 5 Eine Zeilenvertauschung, = − det 0 0 2 −7 Wert kehrt sich um 0 0 0 17 = −34 In diesem Beispiel wurde die Kompensation für Faktoren, welche an der zu verändernden (!) Zeile angebracht werden, nicht benötigt. Dagegen wird man gesehen haben, dass die Vertauschungen von Spalten und einmal Zeilen sehr praktisch waren. Zur Verwendung der allgemeineren Zeilenumformungen folgendes Beispiel: Anwendungsbeispiel: 2 4 5 2 4 5 1 1 det 3 −3 −2 = · det 0 −18 −19 2z2 − 3z1 2 2 −5 7 3 0 34 31 2z3 + 5z1 1 = 4 · 2 (−18 · 31 + 34 · 19) = 44 Hier wurde nicht zu Ende bis zur Dreiecksgestalt umgeformt, sondern nach Schaffen der beiden Nullen nach der ersten Spalte entwickelt. Man sah: durch die Zeilenumformungen wird der Wert der 1 1 Determinante jeweils mit 2 multipliziert, dafür · vorgesetzt, um das Resultat nicht zu ändern. 2 2 Zuweilen ist auch folgendes Resultat praktisch (’Blockmatrizen’): In der Bezeichnung bedeuten A und C quadratische Matrizen (nicht notwendig gleicher Dimension), C und die Nullmatrix passend, so dass insgesamt eine quadratische Matrix entsteht: A B det = det (A) det (C) . 0 C Anwendungsbeispiel: 1 2 5 7 −3 4 8 9 1 2 −2 3 det = det det = −110. 0 0 −2 3 −3 4 1 4 0 0 1 4 Es sei noch bemerkt, dass man zuweilen eine Determinante einer Matrix mit äußerem Parameter günstig als Polynom in diesem Parameter auffasst (das gilt gemäß Leibnizformel). Anschließend kann 8. DETERMINANTEN 163 man überlegen, welchen Grad und welche Nullstellen das Polynom hat und zuweilen die Determinante selbst daraus direkt erschließen. Ein Beispiel dazu: 1 a 1 det a 1 1 b b b ist sicher ein Polynom ersten Grades in b mit einziger Nullstelle b = 0, ein Polynom zweiten Grades in 2 a, mit einziger Nullstelle a = 1. Daher muss b (a − 1) mit einem Faktor herauskommen, der nur ±1 sein kann, weil nach Leibnizformel das Glied a2 b keinen weiteren Faktor mehr hat. Da die Permutation (2, 1, 3) das Vorzeichen −1 hat, ist der Faktor −1. Der Wert der Determinante ist also −b (a − 1)2 . 8.5. Cramersche Regel. Es ist mittels der Determinante möglich, eine explizite Formel für die − → → → Lösung − x eines linearen Gleichungssystems A− x = b mit invertierbarer Matrix A anzugeben, das ist der Inhalt der folgenden Cramerschen Regel: − → → → Satz 67. Sei A invertierbar, − x die eindeutige Lösung von A− x = b . Dann ist mit den Matrizen Bi , − → bei denen die Spalten dieselben wie bei A sind, nur die i. Spalte durch den Vektor b ersetzt: → → xi = − x− ei = det (Bi ) . det (A) . − . − → Beweis: Wir haben b = xi → a i , nun sei 1 ≤ i0 ≤ n. Dann det (Bi0 ) = xi det (Ci ) , wobei i=1 i=1 − → Ci aus A dadurch entsteht, dass die i0 . Spalte durch a i ersetzt wird. Somit sind alle Summanden Null bis auf den zum Index i0 (Auftreten zweier gleicher Spalten). Aber xi0 det (Ci0 ) = xi0 det (A) . Daher det (Bi0 ) = xi0 det (A) . Allerdings stellt diese Formel kein gutes Rezept für das praktische Lösen linearer Gleichungssysteme dar, weil zumal im Falle höherer Dimensionen die Determinantenberechnungen viel Mühe machen. Für (2 × 2) − Systeme mit komplizierten, z.B. komplexen, Koeffizienten ist die Sache dagegen sehr praktisch, auch für den Fall, dass man etwa nur einen Koeffizienten haben möchte. Anwendungsbeispiel zur Cramerschen Regel: 2−j z1 1 = hat die Lösung: j z j 2 1 2−j det j j j − 2j + j 2 1+j (1 + j) (2 + 4j) 1 3 = z1 = = = =− + j j − 1 − (2 − j) (1 − j) 2 − 4j 20 10 10 1+j 2−j det 1 − j j 1+j 1 det 1−j j j−1−1+j 1−j (1 − j) (1 + 2j) 3 1 = z2 = = = = + j. −2 + 4j 1 − 2j 5 5 5 1+j 2−j det 1−j j 1+j 1−j 164 6. LINEARE ALGEBRA 9. Eigenwerte und Eigenvektoren; Diagonalisierung Grundbegriffe: Diagonalmatrix, Diagonalisierbarkeit einer Matrix aus Rn×n über R / über C, auch einer Matrix aus Cn×n (über C, versteht sich) − → Eigenwerte und zugehörige Eigenvektoren einer linearen Abbildung f : V → V, − → − → Eigenraum zum Eigenwert λ von f : Eλ f − → − → − (λ) = det f − λid einer linearen Abbildung f : V → V charakteristisches Polynom p→ f algebraische und geometrische Vielfachheit der Eigenwerte Grundresultate: Diagonalisierbarkeit ist gleichwertig zur Existenz einer Basis von Eigenvektoren. − → − → Die Eigenwerte von f sind die Nullstellen des charakteristischen Polynoms von f . Eigenvektoren zu verschiedenen Eigenwerten sind stets linear unabhängig. Diagonalisierbarkeit von A ∈ Rn×n über R bedeutet: Alle Eigenwerte sind reell, und die algebraische Vielfachheit jedes Eigenwertes ist gleich seiner geometrischen Vielfachheit. Diagonalisierbarkeit von A ∈ Rn×n über C bedeutet: Algebraische und geometrische Vielfachheit stimmen überein für alle Eigenwerte. (Das ist nicht immer der Fall!) Rechentechnik (keine ist neu, es sind nur die bekannten als anzuwendende zu identifizieren - vgl. die Aussagen mit dem Vorsatz ’d.h.’: Bestimmung der Eigenwerte (so weit praktisch leicht machbar) einer Matrix A ∈ Rn×n − → bzw. einer linearen Abbildung f : V → V , (d.h. Berechnung einer Determinante und Berechnung der Nullstellen eines Polynoms in einfachen Fällen) − → Bestimmung von Basen für die Eigenräume Eλ f , (d.h. Lösen eines linearen Gleichungssystems) Entscheidung auf Diagonalisierbarkeit von A ∈ Rn×n und im positiven Falle: Berechnung von Diagonalmatrix D und Transformationsmatrix T, so dass D = T −1 AT (d.h. Anwenden der Transformationsformel für lineare Abbildungen) Eine besonders einfache lineare Abbildung ist etwa − → f : Rn → Rn 1 0 0 − → → → x → A− x = 0 −2 0 − x. 0 0 3 1 0 0 0 −1 0 . Das Lösen von linearen Die Matrix A ist sofort invertierbar, die Inverse ist natürlich 2 1 0 0 3 − → → → → → Gleichungssystemen A− x = b und Weiteres wären ebenfalls besonders einfach. Die Vektoren − e 1, − e 2, − e3 − → − → − → − → − → − → werden lediglich auf Vielfache abgebildet: A e 1 = 1· e 1 , A e 2 = −2 e 2 , A e 3 = 3 e 3 . Damit sind 1, −2, 3 → Eigenwerte von A und die − e Eigenvektoren zu diesen Eigenwerten. So einfach geht es nicht immer, aber i in wichtigen Fällen kann man eine Basis von Eigenvektoren finden, so dass die Matrix der linearen Abbildung wenigstens bezüglich dieser Basis die einfache Diagonalgestalt erhält. In einigen praktisch besonders wichtigen Fällen hat man sogar eine Orthonormalbasis von Eigenvektoren. Wir definieren systematisch: 9. EIGENWERTE UND EIGENVEKTOREN; DIAGONALISIERUNG 165 Definition 46. A = (aij )ij heißt Diagonalmatrix, wenn aij = 0 für i = j. Wir bezeichnen mit Diag (λ1 , ..., λn ) die Diagonalmatrix mit λi als Eintrag aii , 1 ≤ i ≤ n. − → Definition 47. Sei f : V → V linear, V Vektorraum über dem Körper K. Dann heißt λ ∈ K ein − → − → → − → → → → Eigenwert von f , wenn es einen Vektor − x ∈ V \ { 0 } gibt mit f − x = λ− x . Jeder solche Vektor − x − → heißt dann Eigenvektor zum Eigenwert λ von f . Hinweis: Der Nullvektor wird auf sich selbst abgebildet, er wäre ’Eigenvektor’ zu jedem Eigenwert, − → − → da λ 0 = 0 . Das bringt nichts, und darum wird der Nullvektor völlig aus der Betrachtung ausgeschlossen, wenn es um die Existenz von Eigenwerten geht. Wir haben folgende − → Bemerkung 6. Ist λ ein Eigenwert von f , so bildet − 1 2 − → → → → → x ∈V f − x = λ− x Eλ f := − − → einen Unterraum von V, den sogenannten Eigenraum zum Eigenwert λ von f , den man auch mit − → − → − → Eλ f bezeichnet. Dieser Raum hat mindestens Dimension 1, da er einen Vektor = 0 enthält. f hat − → Eigenwert Null genau dann, wenn der Kern von f nichttrivial ist, und dann ist der Kern der Eigenraum zum Eigenwert Null. − → → − → → − → → − → → Die Begründung ist sehr einfach: Mit f − x = λ− x und f − y = λ− y hat man f − x +→ y = → − → − → → − → λ − x +→ y und f α− x = λ α− x . (Oder auch: Der Eigenraum Eλ f ist der Kern der linearen − → Abbildung f − λid, und wir wissen, dass der Kern ein Unterraum des Urbildraums ist.) Weiter bedeutet − → − − → − → → → f → x = 0− x mit − x = 0 , dass der Kern von f nichttrivial ist. − → Definition 48 (und Bemerkung). Eine lineare Abbildung f : V → V heißt diagonalisierbar, wenn − → − → − → a → a − es eine Basis a gibt, so dass Ma f eine Diagonalmatrix ist. Dann gilt mit Ma f e j = λj e j , dass − → a eine Basis von Eigenvektoren ist. Umgekehrt: Wenn es eine Basis a von Eigenvektoren von f gibt, so − → ist f diagonalisierbar. − − → → Satz 68. Jeder Eigenwert von f ist Nullstelle von det f − λid . Dies Polynom heißt charakter− → istisches Polynom von f . Konkret für Matrixabbildungen A : Rn → Rn oder auch Cn → Cn ist also p (λ) = det (A − λE) mit der Einheitsmatrix E das charakteristische Polynom. Es hat höchstens n Nullstellen, wenn n die Dimension von V ist. → − − → → − → → → − → → → Beweis: f − x = λ− x bedeutet f − x − λid − x = 0 , aber − x = 0 wird für einen Eigenvektor − → verlangt, so dass ein solcher also im Kern von f − λid liegt, der daher nichttrivial ist für einen Eigenwert − − → → λ. Anders gesagt: die Determinante der Abbildung f − λid ist Null. Da det f − λid = det (A − λE) − → für jede f darstellende Matrix A und da det (A − λE) ein Polynom in λ vom Grade n = dim (V ) ist, hat man höchstens n Nullstellen. Es kann weniger Nullstellen geben, etwa darum, weil sie nicht im Körper liegen (so bei R), aber es können auch Eigenwerte als mehrfache Nullstellen auftreten. So etwas kann Diagonalisierbarkeit verhindern. Wir erinnern an den Fundamentalsatz der Algebra: Jedes Polynom mit komplexen Koeffizienten zerfällt über C in Linearfaktoren. Es fehlen in C also keine Nullstellen! Man beachte stets: Wenn die Rede ist von einer Matrix mit komplexen Einträgen oder von einem Polynom mit komplexen Koeffizienten, so ist damit auch der Spezialfall erlaubt, dass alle diese Zahlen reell sind; denn R ist eine Teilmenge von C. − → Wir erinnern für das Folgende daran: det (A) oder det f sind auch definiert für A ∈ Cn×n bzw. − → f : V → V linear (genauer: C− linear), V endlichdimensionaler Vektorraum über dem Körper C, und zwar etwa durch die Leibnizformel. Dabei bleiben alle algebraischen Eigenschaften bestehen, es ist an → → deren Begründung kein Wort zu ändern. Insbesondere sind Vektoren − a 1 , ..., − a n ∈ Cn genau dann linear − → − → unabhängig, wenn det a 1 , ..., a n = 0. Wir wollen nunmehr die wesentlichen Verhältnisse allgemein feststellen: 166 6. LINEARE ALGEBRA Satz 69. Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. Eine lineare Abbildung bildet ihre Eigenräume in sich selbst ab. Folgerung: Die geometrische Vielfachheit eines Eigenwertes, d.h. die Dimension des zugehörigen Eigenraums, kann höchstens so groß sein wie die algebraische Vielfachheit des Eigenwertes (wie vielfache Nullstelle des charakteristischen Polynoms er ist). Satz 70. Eine reelle (n × n) − Matrix ist genau dann über R diagonalisierbar, wenn alle ihre Eigenwerte reell sind und die algebraische Vielfachheit eines jeden Eigenwertes ebenso groß ist wie seine geometrische Vielfachheit (d.h. die Dimension des zugehörigen Eigenraums genau die algebraische Vielfachheit ist). Eine komplexe (n × n) − Matrix ist genau dann über C diagonalisierbar, wenn die algebraische Vielfachheit eines jeden Eigenwertes gleich seiner geometrischen Vielfachheit ist. Entsprechendes gilt allgemeiner für lineare Abbildungen endlichdimensionaler Vektorräume über R bzw. C in sich. Der Beweis des letzteren Satzes ist sehr einfach: Wenn die geometrische Vielfachheit jedes Eigenwertes gleich seiner algebraischen Vielfachheit ist, dann bildet man eine Basis von Eigenvektoren für den Gesamtraum, indem man Basen der Eigenräume vereinigt. Das gilt mit der linearen Unabhängigkeit der Eigenvektoren zu verschiedenen Eigenwerten und damit, dass die Summe der Dimensionen der Eigenräume gleich der Dimension des Gesamtraums ist. Daraus ergibt sich folgende allgemeine Strategie: Praktisches Vorgehen bei der Untersuchung auf Diagonalisierbarkeit von A ∈ Rn××n und konkreter Diagonalisierung: 1. Schritt: Man stellt das charakteristische Polynom auf und berechnet dessen Nullstellen. Sollten komplexe Nullstellen dieses Polynoms bei reeller Matrix auftreten, so ist die Matrix jedenfalls nicht über R diagonalisierbar, sie kann es dann noch über C sein. − → → 2. Schritt: Man löst das homogene lineare Gleichungssystem (A − λE) − x = 0 für alle Eigenwerte λ von A (die nach dem 1. Schritt bekannt sind, samt deren algebraischen Vielfachheiten). Ordentliche Berechnung der Lösungsmenge in parametrisierter Form erlaubt müheloses Ablesen einer Basis jeweils für jeden Eigenraum. Wir wissen bereits, dass die Dimension jedes Eigenraums wenigstens 1 ist, weil det (A − λE) = 0. 3. Schritt: Man fügt die Basen der Eigenräume zu einer Folge (nach dem Satz zuvor) linear unabhängiger Vektoren zusammen. Wenn diese Folge Länge n hat, so ist A diagonalisierbar über C. Wenn alle Eigenwerte reell sind, dann ist A über R diagonalisierbar. 4. Schritt: Aus den Eigenwerten und den Basen der Eigenräume bildet man sofort im diagonalisierbaren Fall D und T, so dass D = T −1 AT. Dabei ist T = Tea , mit der zuvor gewonnenen Basis a von Eigenvektoren. Wichtige Bemerkung zur Praktikabilität des ersten Schrittes: Nullstellen von Polynomen bekommt man ab Grad 3 nicht so einfach, ab Grad 5 nur numerisch. Aber man achte darauf, wenn sich wesentliche Vereinfachung durch gegebene Faktorisierung des charakteristischen Polynoms ergibt. 9. EIGENWERTE UND EIGENVEKTOREN; DIAGONALISIERUNG 167 Anwendungsbeispiele zur Strategie: 1 2 1. Beispiel: A = −1 1 1−λ 2 1. Schritt: pA (λ) = det = (1 − λ)2 + 2, −1 √1 − λ Eigenwerte sind also λ1,2 = 1 ± 2j, also ist A nicht über R, wohl aber mittels des vorletzten Satzes über C diagonalisierbar. 2. Schritt: Berechnung der Eigenräume: x − → Die Vektoren x = ∈ Eλi (A) sind die Lösungen des linearen Gleichungssystems ∗ ) y (1 − λi ) y x = y (1 − λi ), das sind die Vektoren , y ∈ C. Daher haben wir: y √ √ − 2jy 2jy √ (A) = E1+j √2 (A) = y ∈ C und E y ∈ C 1−j 2 y y √ √ − 2j 2j ist Basis für E1+j √2 (A) , ist Basis für E1−j √2 (A) . 1 1 √ √ 2j − 2j , 3. Schritt: Wir fügen zu einer Basis von Eigenvektoren zusammen: a = 1 1 √ √ 2j − 2j a , also 4. Schritt: Damit haben wir: T = Te = 1 1 √ √ √ √ −1 √ 1 + 2j 0√ 1 2 − 2j 2j − 2j 2j D= = . −1 1 1 1 1 1 0 1 − 2j Zu ∗ ) : Das Gleichungssystem lautet zunächst vollständig: x + 2y −x + y = λi x = λi y. Ordentlicher als lineares Gleichungssystem geschrieben: (1 − λi ) x + 2y −x + (1 − λi ) y = 0 = 0. Aber wir wissen bereits: Da λi Eigenwert ist, hat dies homogene Gleichungssystem einen Lösungsraum mindestens von Dimension 1. Also müssen die Gleichungen linear abhängig sein, und wir können uns auf die bequemere von beiden beschränken. Außerdem benötigen wir vor allem eine Basis für den Eigenraum, von der wir im Beispiel sofort wissen, dass sie nur je aus einem Vektor bestehen kann. Wir bringen nunmehr zwei weitere Beispiele, die mit dem ersten zusammen alle wesentlichen Phänomene zeigen: 168 6. LINEARE ALGEBRA 1 −2 , −1 1 √ pB (λ) = λ2 − 2λ − 1, also hat B zwei verschiedene reelle Eigenwerte, λ1,2 = 1 ± 2. Es folgt sofort die Diagonalisierbarkeit über R. Gleichungen für die Eigenvektoren: −x + λi y = y, also hat man die Basen 1 1 1√ 1√ für E1+√2 (B) und für E1−√2 (B) , daher − 2 2 2 2 −1 √ 1 1 1 1 1+ 2 1 −2 0√ √ √ √ √ 1 1 1 1 = . −1 1 0 1− 2 − 2 2 − 2 2 2 2 2 2 Man beachte: Die Eigenräume stehen nicht senkrecht aufeinander, was sie auch nur bei symmetrischen Matrizen können - dann aber auch stets tun, vgl. den übernächsten Abschnitt über die Diagonalisierbarkeit symmetrischer Matrizen. 2. Beispiel: B = Das nächste Beispiel zeigt, wie es geschehen kann, das eine Matrix nicht diagonalisierbar ist, weder über R noch über C. 1 1 3. Beispiel: C = , 0 1 2 pC (λ) = (1 − λ) , einziger Eigenwert in λ = 1. Der zugehörige Eigenraum ist die Lösungsmenge von x + y = x, 1 also ist Basis für E1 (C) . D.h. die algebraische Vielfachheit 0 des Eigenwertes ist 2, die geometrische nur 1. Folglich ist die Matrix C weder über R, noch über C diagonalisierbar. Abschließend behandeln wir noch ein paar (3 × 3) − Erstes Beispiel: 3 0 A = −5 4 5 0 Beispiele. 0 0 . 1 Man hat hier direkt das charakteristische Polynom: p (λ) = (3 − λ) (4 − λ) (1 − λ) . Das ist schon faktorisiert (man sollte nicht etwa ausmultiplizieren, wir wollen doch gerade nur die Nullstellen wissen (!)), wir sehen also die drei verschiedenen reellen Eigenwerte sofort: 3, 4 und 1. Daraus folgt sofort, dass es eine Basis von Eigenvektoren gibt, weil kein Eigenwert als mehrfache Nullstelle auftritt. Mit Eigenvektoren − → → → → → → a 1 zu 3, − a 2 zu 4, − a 3 zu 1 hat die Matrix bezüglich der Basis a = − a 1, − a 2, − a 3 also die Diagonalgestalt 3 0 0 (Tea )−1 ATea = 0 4 0 . 0 0 1 Man braucht nicht zu rechnen, um zu sehen, dass − → → e 2 Basis für E4 (A) und − e 3 Basis für E1 (A) ist. 2 Ferner rechne man aus zur Übung, dass 10 eine Basis für E3 (A) bildet. Daher können wir angeben: 5 2 0 0 Tea = 10 1 0 . 5 0 1 10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 169 Zweites Beispiel: 3 0 0 B = −5 4 0 . 5 0 4 Wie im vorigen Beispiel sieht man die Eigenwerte, wieder sind sie alle reell, aber es sind nur zwei, 3 und 4, letzterer kommt als doppelte Nullstelle. Entscheidend für die Frage der Diagonalisierbarkeit (ob über R oder C - wenn die Matrix B nicht über R diagonalisierbar ist, so ist sie es auch nicht über C) ist hier: Ist der Eigenraum E4 (B) zweidimensional oder nicht? Wir rechnen ihn aus: x → → → B− x = 4− x ergibt im Einzelnen mit − x = y : z 3x = 4x, also x = 0, −5x + 4y = 4y, also y frei wählbar, ebenso z frei wählbar. Beachten Sie: Die dritte Gleichung braucht man nicht mehr zu betrachten, sie folgt (das System in homogen!) aus den ersten beiden, die beide nichttrivial und unabhängig sind. Das Resultat: E4 (B) wird parametrisiert mit : 0 0 − → u (y, z) = y 1 + z 0 , y, z ∈ R. 0 1 − → − → → − Wir lesen also die Basis e 1 , e 2 für E4 (B) ab. Zur Übung kann man noch ausrechnen, dass a = 1 5 eine Basis für E3 (B) bildet. (Ihr Rechenergebnis für eine Basis von E3 (B) muss ein Vielfaches −5 → − → dieses Vektors sein.) Also ist B diagonalisierbar, und wie üblich lesen wir bezüglich der Basis − e 1, → e 2, − a die Matrix D = Diag (4, 4, 3) ab. Drittes Beispiel: 4 0 0 C = −5 3 0 . 5 0 4 Das sieht sehr ähnlich aus wie B, es wurden nur die ersten beiden Diagonaleinträge vertauscht. Aber Vorsicht: Wir rechnen wieder E4 (C) aus und erhalten die Bedingungen −5x + 3y 5x + 4z = 4y, = 4z, also x = 0 und y = 0, z frei wählbar. Man beachte: Die erste aufzustellende Gleichung ergibt hier 4x = 4x, sie entfällt hier also als trivial. → Daher bildet − e 3 eine Basis für E4 (C) , und die Matrix C ist nicht diagonalisierbar. Eine praktische Warnung: Wenn Sie nicht im Überblick ganz sicher sind, so schreiben Sie die zu behandelnden homogenen Gleichungssysteme ordentlich hin und lösen sie schematisch mit Gaußverfahren. Das sollten Sie insbesondere für die gegebenen Beispiele einmal tun, wenn Sie die oben angeführten Bemerkungen zur schnellen Behandlung nicht ganz genau auf Anhieb verstanden haben. In rechnerisch komplizierteren Beispielen wird das vielfach erforderlich sein. 10. Symmetrische Bilinearformen, deren Diagonalisierbarkeit, Klassifikation von Quadriken 10.1. Symmetrische Bilinearformen, quadratische Formen und deren Matrixdarstellungen. Wir verfolgen das Thema der Diagonalisierbarkeit speziell weiter mit der Betrachtung symmetrischer reeller Matrizen. Dazu benötigen wir einige auch sonst nützliche allgemeine Grundbegriffeund Resul → → tate über symmetrische Bilinearformen (Skalarprodukte sind spezielle Fälle davon, hier darf B − x,− x =0 − → → → → bei − x = 0 und auch B − x,− x < 0 durchaus vorkommen). 170 6. LINEARE ALGEBRA Vorbemerkung: Man achte darauf, dass im Zusammenhang dieses Abschnittes mit B stets eine symmetrische Bilinearform und nicht eine Matrix bezeichnet wird. Allerdings werden wir den Bilinearformen auch wieder Matrizen zuordnen und diese analog zum Fall der linearen Abbildungen bezeichnen mit M a (B) (a für die gewählte Basis wie zuvor). B ist also ein geometrisches Objekt, B wirkt auf ein Paar von Vektoren (nicht: Koordinatendarstellungen) und liefert dann eine reelle Zahl. Grundbegriffe: Symmetrische Bilinearform B : V × V → R, V Vektorraum über R, Matrixdarstellung mit symmetrischer Matrix M a (B) von B bezüglich einer Basis a von V, → − →a T a →a so dass B − x,→ y = − x M (B) − y , zugehörige quadratische Form qB : V → R mit Matrixdarstellung M a (B) , → → − →a T a →a x := B − x,→ x = − x so dass qB − M (B) − x , → → → → x +− a T− Quadriken: Lösungsmengen von Gleichungen qB − x = c, c ∈ R und − a ∈ V fest. Signatur einer symmetrischen Matrix bzw. einer Bilinearform und Definitheit Grundresultate: Transformationsformel: Sind a, b Basen für V, so gilt: T M b (B) = (Tba ) M a (B) Tba . Diagonalisierbarkeit aller symmetrischen Matrizen aus Rn×n über R durch orthogonale Transformation (’Hauptachsentransformation’) Grundformen der Quadrikengleichungen und Zurückführung der allgemeinen Gleichung auf die Grundform durch Hauptachsentransformation und Verschiebung Satz von Sylvester und Klassifikation von symmetrischen Bilinearformen Jacobi-Kriterium für positive (negative) Definitheit bzw. Indefinitheit Wir beginnen mit einem einfachen Beispiel, das zeigt, wie eine symmetrische Bilinearform aussehen kann und die Matrixdarstellung bezüglich einer Basis funktioniert - und zwar zunächst bei V = Rn mit der kanonischen Basis: 1 2 0 Beispiel: A = 2 3 0 ist eine symmetrische Matrix, d.h. AT = A. 0 0 4 → − → → → → B − x,→ y:= − xT A− y ,− x ,− y auf V = R3 . ∈ R, definiert eine symmetrische Bilinearfom 1 2 1 2 0 2 Z.B. B 1 , 1 = 1 1 2 2 3 0 1 = 3. 2 −1 0 0 4 −1 x1 y1 Allgemein B x2 , y2 = x1 y1 + 2x1 y2 + 2x2 y1 + 3x2 y2 + 4x3 y3 x3 y3 − → → → Diezugehörige quadratische ist Form: q x := − x T A− x , also B x1 qB x2 = x21 + 4x1 x2 + 3x22 + 4x23 . (Direkt an der Matrix abzulesen!) x3 → → Wegen − x =− x e mit der kanonischen Basis e heißt A auch M e (B) und M e (qB ) , denn es gilt: − − T →e → − T →e → − → B x , y = → x e A− y , qB − x = → x e A− x . Allgemein ist → → M e (B) = B − e i, − e j i,j . Damit gelten automatisch die vorigen Formeln. 10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 171 Nunmehr stellen wir an einem Beispiel die Verbindung zwischen Bilinearform und Matrix bezüglich einer beliebigen Basis her und geben ein Anwendungsbeispiel der Transformationsformel: Beispiel für die Matrixdarstellung einer symmetrischen Bilinearform bezüglich beliebiger Basis: 1 √ 1 √ 2 2 − 2 2 0 3 1 √ , 1 √ , 0 , V = R , Basis b = 2 2 2 2 1 0 0 → − B − x,→ y sei definiert durch Vorgabe auf den Basispaarenvon b mit − − − → − → → → → → − → − − → − B b 1 , b 1 = −1, B b 2 , b 2 = 3, B b 3 , b 3 = 5, B b 1 , b 2 = 2, − − → − → → → − B b 1 , b 3 = B b 2 , b 3 = 0. −1 1 0 Dann ist M b (B) = M b (qB ) = 1 3 0 . Damit gilt 0 0 5 −1 1 0 → − →b T → → → 1 3 0 − y b , für alle − B − x,→ y = − x x,− y ∈ R3 . Z.B. 0 0 5 −1 1 0 1 √0 √0 √0 B 2 , 2 = qB 2 = 1 1 1 1 3 0 1 = 9, 0 0 5 1 1 1 1 b 1 √0 √0 − → − → − → da 2 = 1 , wegen 2 = 1 · b 1 + 1 · b 2 + 1 · b 3 . 1 1 1 Die Transformationsformel lautet M a (B) = (Tba )T M b (B) Tba , sie liefert im Beispiel speziell M e (B) = (Tbe )T M b (B) Tbe = 1 √ 2 2 1 √ − 2 2 0 T 1 √ 1 √ 2 0 2 2 2 −1 1 0 1 3 0 √ 1 √ − 1 2 2 0 0 0 5 2 2 0 1 0 0 −2 0 2 0 . Probieren wir das aus: Tatsächlich also M e (B) = −2 0 0 5 0 0 0 −2 0 √ √ √0 √ B 2 , 2 = 0 2 0 2 = 9, stimmt! 2 1 −2 0 0 5 1 1 1 1 √ 2 0 2 , 1 √ 2 0 2 0 1 Wir beschreiben nunmehr die Sache noch einmal ganz allgemein und geben eine ohne weiteres verständliche Begründung der Transformationsformel. Definition 49. Eine Matrix A = (aij )ij ∈ Rn×n heißt symmetrisch, wenn aij = aji für alle 1 ≤ i, j ≤ n gilt, d.h. wenn AT = A gilt. Dazu ist es jedoch günstig, ein wenig weiter auszuholen und nicht nur auf das Diagonalisierungsresultat für symmetrische Matrizen direkt zu steuern. Denn solche Matrizen definieren interessante Objekte, die auch sonst vorkommen und eigenständige Bedeutung und vielfältige praktische Anwendungen haben. Außerdem lässt sich auch das spezielle Resultat durchaus besser verstehen im allgemeineren Rahmen. Schließlich werden wir auch eine spezielle geometrische Anwendung kennenlernen, die Klassifikation von Quadriken. 172 6. LINEARE ALGEBRA Wir beginnen mit einer Beobachtung: Satz 71. Jede symmetrische Matrix A ∈ Rn×n definiert eine symmetrische Bilinearform auf Rn ×Rn , auf folgende Weise: n B: R × Rn → R − . → → → → x,− y → − x T A− y Dabei ist eine symmetrische → − Bilinearform definiert als bilineare Abbildung mit der zusätzlichen Eigen→ → schaft: B − x,− y =B − y ,→ x . Zum Verständnis wiederholen wir noch die Gültigkeit folgender Formeln: → − → B − x +→ y,− a → − → B − a ,→ x +− y → − B λ− x,→ y einmal die Eigenschaft der Bilinearität: Sie bedeutet für B → − → − = B − x,→ a +B − y,→ a , → − → − = B − a ,→ x +B − a ,→ y , → − → − = λB − x,→ y =B − x , λ→ y . Mit der Symmetrie würde es natürlich genügen, die Linearität nur in einem Eingabeschlitz zu verlangen. Das sind also gerade die vom reellen Skalarprodukt her bekannten Eigenschaften. Nur fehlt die Forderung − → → → → → → der positiven Definitheit. B − x,− x = 0 für − x = 0 und sogar B − x,− x < 0 sind durchaus erlaubt und → kommen auch wirklich vor, für irgendwelche Vektoren − x . Allerdings hat man stets − − → − → → → → → B − x, 0 = B − x,0 · 0 = 0 ·B − x , 0 = 0. Der Beweis − → → B → a ,− x +− y → − B − a , λ→ x → − B − x,→ y → − B − x,→ y der Aussage des Satzes ist einfach: → − →T − → − → − →T − → → → → x +→ y =− a A→ x +− a T A− x =B − a ,→ x +B − a ,→ y . = − aTA − x + A− y =− a A→ → − → → → → = − a T A λ− x =→ a T λA− x . Ferner zur Symmetrie: x = λ− a T A− → − → − T − → → − → − → T − = x A y , also, da B x , y eine Zahl ist und somit B − x,→ y = B − x,→ y : − T T → − → → → → → → → → x TT y T AT − x =B − y,− x . = B → x,− y = − x T A− y =− y T AT − = → → − − A=AT , x T T = x T Mit der Symmetrie folgt auch die Linearität im ersten Eingabeschlitz, so dass insgesamt auch die Bilinearität bewiesen ist. Umgekehrt kann man auch jede symmetrische Bilinearform auf Rn × Rn auf die angegebene Weise durch eine symmetrische Matrix A darstellen. Denn wie eine lineare Abbildung durch die Angabe der Bilder einer Basis eindeutig bestimmt wird, so auch eine bilineare Abbildung durch die Angabe der → − Bilder von allen Paaren von Basisvektoren. Definiere dann einfach A = (aij )ij mit aij := B − e i, → e j für alle i, j, bei Bilinearform. Tatsächlich hat man dann mit der Bilinearität von B für alle Vektoren .vorgegebener . → − → → → x = xi − e i und − y = yi − e i: i i y1 → − → − →T − B − x,→ y = xi yj B − e i, → ej = xi yj aij = (x1 , ..., xn ) A ... = − x A→ y. i,j i,j yn . Hier sieht man auch den allgemeinen Rechenausdruck einer Bilinearform in Koordinaten: xi yj aij . Bei i,j . . der vorausgesetzten Symmetrie der Matrix A ist das gleich (xi yj + yj xi ) aij + xi yi aii . Wir sagen i<j i − → e n darstellt: daher auch, weil A die Bilinearform B bezüglich der Basis e = → e 1 , ..., − M e (B) = A, d.h. A stellt B bezüglich der Basis e dar. → − Man erhält M e (B) also einfach dadurch, dass man als Eintrag aij setzt: B − e i, → e j . Ebenso für jede → → andere Basis a: M a (B) = B − a i, − a j ij . → − → → → Anwendung einer Bilinearform auf − x =− y ergibt eine Abbildung − x → B − x,→ x , die einen eigenen Namen hat: 10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 173 Definition 50. Eine quadratische Form auf Rn ist eine Abbildung qB : Rn − → x → R → , → → B − x,− x mit einer Bilinearform B. Also mit irgendwelchen Zahlen aij = aji : → → → → → → → qB − x = xi xj aij = − x T A− x , für − x = xi − e i und − y = yi − e i. i,j Die Matrix A stellt dann die Form qB i i → → bezüglich der Basis e = − e 1 , ...− e n dar. Bemerkung: Man kann B aus q zurückgewinnen, was nur darauf beruht, dass 1 + 1 = 2 = 0, was für alle Körper gilt, die nicht gerade aufbauend auf dem Körper {0, 1} mit 1 = 0 und 0 + 1 = 1 + 0 = 1 und 1 + 1 = 0, 1 · 0 = 0 · 1 = 0, 1 · 1 = 1 gebildet sind. Wir sagen auch: M e (qB ) = M e (B) = A = (aij )ij mit der symmetrischen Matrix A. Hier sehen wir, dass die Frage der Diagonalisierbarkeit von A (und diese ist positiv zu beantworten!) auch für symmetrische Bilinearformen und quadratische Formen interessant ist. Denn sie bringt durch Koordinatentransformation alle gemischten Terme xi yj aij bzw. xi xj . mit i = j zum Verschwinden! Es . bleibt also nur noch xi yi aii für die symmetrische Bilinearfom und x2i aii für die quadratische Form übrig. i i 10.2. Koordinatentransformation bei Bilinearformen. Die entscheidende Einsicht rührt nunmehr daraus, die Koordinatentransformation einer Bilinearform bzw. quadratischen Form zu betrachten und mit der Koordinatentransformation einer linearen Abbildung - eine symmetrische Matrix stellt auch eine solche dar! - zu vergleichen. Dazu haben wir den Satz 72. Für eine symmetrische Bilinearform B und entsprechend für die zugehörige quadratische Form gilt folgende Transformationsregel: T M b (B) = Tab M a (B) Tab . Bemerkung 1: Die Formel gilt auch für beliebige (unsymmetrische) Bilinearformen, der Beweis wird auch dies zeigen. Die Formel gilt für jede Transformationsmatrix Tab , also auch für nichtorthogonale (und dann ist die Transponierte nicht die Inverse (!)). Bemerkung 2: Das Transformationsgesetz ist völlig anders als bei linearen Abbildungen, aber wenn T eine orthogonale Matrix ist, dann stimmen beide Gesetze ein: Diagonalisieren der Matrix A = M a (B) als Matrix einer linearen Abbildung ist dann dasselbe wie Diagonalisieren der Matrix Matrix einer symmetrischen Bilinearform. Beweis: Sei Tba wie immer die Matrix, welche eine Koordinatendarstellung eines Vektors bezüglich a → → in die bezüglich b umwandelt. Sei nun A = M a (B) . Dann hat man nach Definition mit Vektoren − x,− y: − T → − → − → − → a a B x, y = x A y . Nun ist aber − → → y a = Tab − y b . Also auch T →b T − T b T − → xa = Tab − x = → xb Ta . Damit − − − b T → − → → − → → → a T a b T B x, y = x Ay = x Ta ATab − y b . Das Transformationsgesetz ist völlig anders als bei linearen Abbildungen. Das liegt daran, dass eben zwei Eingabe- Koordinatenvektoren zu transformieren sind und im ersten Schlitz bei der Matrixform eben ein transponierter Koordinatenvektor, der wie gesehen mit der transponierten Transformationsmatrix umzuwandeln ist. Nehmen wir aber nunmehr an, dass Tba eine orthogonale Matrix ist: Dann ist die Inverse die Transponierte, also stimmen in diesem Falle beide Transformationsgesetze überein! Wenn es gelingt, eine symmetrische Matrix zu diagonalisieren mit einer orthogonalen Transformationsmatrix, dann hat man auch die zugehörige Bilinearform und quadratische Form diagonalisiert. Dies Resultat wollen wir nunmehr aufstellen. 174 6. LINEARE ALGEBRA 10.3. Diagonalisierbarkeit reeller symmetrischer Matrizen über R. Satz 73. Eine reelle symmetrische Matrix A ∈ Rn×n hat nur reelle Eigenwerte, und es gibt eine Orthonormalbasis von Eigenvektoren, so dass mit der Matrix S, welche diese als Spaltenvektoren hat, Folgendes gilt: D = S −1 AS = S T AS ist Diagonalmatrix. Dabei ist D = Diag (λ1 , ..., λn ) , wobei alle λi Eigenwerte von A sind, aber auch Wiederholungen vorkommen, gemäß den algebraischen Vielfachheiten. Einen Beweis finden Sie im anderen Skriptum. Hier geht es darum, auf die Anwendbarkeit des Satzes hinzuweisen: Nicht nur kann man die durch symmetrisches A dargestellte lineare Abbildung diagonalisieren, sondern auch die durch A dargestellte symmetrische Bilinearform und quadratische Form diagonalisieren, also in den Koordinaten der neuen Orthonormalbasis so darstellen: n → − B − x,→ x = dk x &2k , mit D = diag (d1 , ..., dn ) und − → x = k=1 n k=1 − → xb − → − → − → x &k b k , b = ( b 1 , ..., b n ) die erwähnte Orthonormalbasis, also x &1 n − = ... = x &k → e k. k=1 x &n Die gemischten Terme sind in dieser Darstellung verschwunden. Damit kann man die geometrische Gestalt von Quadriken erkennnen, man kann auch einen Trägheitstensor allein mit den Hauptträgheitsmomenten darstellen, eine Gesamtheit von n korrelierenden normalverteilten Zufallsvariablen entkorrelieren, usw. Grundsätzlich sollte einleuchten: Man benötigt nur n Zahlen (einer Diagonalmatrix) statt n (n + 1) Zahlen (einer beliebigen symmetrischen Matrix), und das ist ein großer Vorteil. Die Anwendung auf Quadriken und Definitheit von symmetrischen Matrizen fassen wir nunmehr konkreter ins Auge. 10.4. Quadriken und deren Klassifikation mittels Hauptachsentransformation. Wir stellen das wesentliche Verfahren dar, eine Quadrik geometrisch zu erkennen und auch ihre Lage im Raum zu beschreiben. Es beruht vor allem auf der Diagonalisierbarkeit von symmetrischen Matrizen durch orthogonale Transformation. Dabei wird der Verschiebungsterm noch zurückgestellt. Umgang mit Quadriken (volles − Programm): → Gegeben ist eine Gleichung q x = c mit quadratischer Form q, und zwar konkret durch → − → q − x =→ x T A− x , A symmetrisch in R3×3 Erster Schritt: Man berechnet die Eigenwerte und Basen für die Eigenräume von A. Zweiter Schritt: Für mehrdimensionale Eigenräume zu Eigenwerten bestimmt man Orthonormalbasen (Orthonormalisierungsverfahren), für eindimensionale normiert man die Basisvektoren. Dritter Schritt: Man bestimmt D und die Transformationsmatrix S (deren Spalten gebildet werden von der zuvor gefundenen Orthonormalbasis von Eigenvektoren, gemäß der Reihenfolge der Eigenwerte in der Diagonalmatrix D. Vierter Schritt: Man bestimmt gemäß D und der Zahl c den Grundtyp der Quadrik (vgl. den nächsten Abschnitt für eine Liste), und man findet über das von der Orthonormalbasis gebildete Hauptachsensystem die Lage der Quadrik im Raum. Bemerkung: Will man nur auf den Typ der Quadrik hinaus, ihre Gestalt, dann genügt es natürlich, die Eigenwerte zu kennen und die Zahl c zu berücksichtigen. Konkrete Anwendungsbeispiele für dies Schema folgen. Zunächst formulieren wir ausdrücklich die grundlegenden Begriffe und Resultate: 10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 175 Definition 51. Eine Quadrik ist die Lösungsmenge einer Gleichung → − − → q − x +→ x T b = c, − → mit einer Konstanten c, einem festen Vektor b ∈ Rn und einer quadratischen Form q auf Rn . Ausführlicher mit der Darstellung von q über eine symmetrische Matrix A ∈ Rn×n lautet die Gleichung: − → → − → → x T A− x + bT− x = c. − → → Wir stellen die Behandlung des Terms b T − x noch zurück und betrachten also nur Gleichungen − → → x T A− x = c. Eine solche Gleichung in Normalform zu bringen und damit die definierte Quadrik zu klassifizieren, bedeutet gerade, die Matrix A zu diagonalisieren. Das kann nach dem vorigen Satz geschehen: → → x = c (A symmetrisch) kann in die Form gebracht werden: Satz 74. Jede Quadrikengleichung − x T A− T− T → S → x D ST − x = c. Dabei ist S eine orthogonale Matrix, und S = Teb , entsprechend S T = Teb mit einer Orthogonalbasis b. Diese Transformation heißt Hauptachsentransformation. Beweis: Nach dem vorigen Abschnitt hat man mit einer orthogonalen Matrix S, also S −1 = S T : D = S T AS, also A = SDS T . Damit gilt: → T− T → − → → → x T A− x =− x T SDS T − x= S → x D ST − x . Bemerkung: Zu beachten ist, dass es hier darum geht, die Gleichung in den neuen Koordinaten wesentlich → → einfacher zu formulieren, also − x T A− x in den neuen Koordinaten einfacher darzustellen. Daher S = Tbe mit der neuen Orthonormalbasis b, und daher muss man gewöhnlich S als (Tbe )−1 bestimmen, was jedoch einfach durch Transponieren geschieht. Zur Anwendung: b sei eine Orthonormalbasis, mit der A diagonalisiert wird. Eine solche findet man wie oben beschrieben: Eigenwerte von A, dann Orthonormalbasen für die Eigenräume, dann Zusammenfügen dieser Basen zu einer Orthonormalbasis des Gesamtraums. Nunmehr ist S T die Matrix Tbe . Sie macht aus den alten Koordinaten bezüglich der kanonischen Basis der Einheitsvektoren die neuen Koordinaten bezüglich b. b stellt ein ’Hauptachsensystem’ dar. In diesen neuen Koordinaten lautet nunmehr → → die Gleichung − x T A− x = c: T − → − → 3 x D3 x = c, → → 3 mit − x = S− x . Somit lautet die Gleichung für die Quadrik in den neuen Koordinaten: di x &2i = c, mit D = Diag (d1 , ..., dn ) . i Es sind also die gemischten Terme verschwunden. Der Vorteil: Es ist nunmehr recht leicht, zu erkennen, um welchen der Grundtypen von Quadriken es sich handelt, da die geometrische Deutung dieselbe bleibt, gleichgültig, welches Orthonormalsystem man wählt. Dabei zeigt sich, dass der Typ einer Quadrik wesentlich davon bestimmt wird, wie viele Eigenwerte Null, wie viele positiv und wie viele negativ sind. T − → − → Allerdings spielt auch die Konstante c in der Gleichung 3 x D3 x = c eine Rolle, die aber einfach einzuse- 2 hen ist. Beispielsweise hat die Gleichung x2 +y +z 2= 1 eine Kugeloberfläche als Lösungsmenge, dagegen 0 die Gleichung x2 + y 2 + z 2 = 0 nur den Punkt 0 als einzige Lösung, die Gleichung x2 + y2 + z 2 = −1 0 dagegen leere Lösungsmenge. 176 6. LINEARE ALGEBRA 1. Anwendungsbeispiel: x Quadrik: q = x2 − xy + y 2 = 1 y 1 Zugehörige Matrix: A = M e (q) = 1 2 (direkt ablesen, bei den Einträgen abseits der 1 1 2 Hauptdiagonalen die Hälfte des jeweiligen Koeffizienten, in der Hauptdiag. der Koeffizient 3 1 1 Erster Schritt: Die Eigenwerte sind , . Man findet Basis für E3/2 (A) , 1 2 2 −1 Basis für E1/2 (A) . 1 √ √ 1 −1 1 1 Zweiter Schritt: a = 2 2 ,2 2 ist zugehörige Orthonormalbasis von Eigenvektoren. 1 3 1 √ 1 −1 0 1 2 Dritter Schritt: D = . ,S=2 2 1 1 0 12 x Vierter Schritt: Mit der a− Koordinaten lautet die Gleichung: q = 32 x &2 + 12 y&2 = 1, y a x & x x x mit = = S −1 = ST . Es handelt sich also um eine Ellipse (die Kurve) y& y y y √ 1 1 mit Mittelpunkt im Ursprung und Halbachsenlänge 2/3 in Richtung von 2 2 , 1 √ √ −1 Halbachsenlänge 2 in Richtung von 12 2 . Damit kann man die Quadrik zeichnen: 1 1 y 0.5 -1 -0.5 0 -0.5 -1 0.5x 1 10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 177 2. Anwendungsbeispiel: q x y = x2 + xy − y 2 = 1, Matrix also M e (q) = 1 1 2 . 1 2 −1 √ √ 1 1 1.),2.) Eigenwerte 5, − 5, zugehörige Orthonormalbasis a: 2 2 1 1 √ 1 √1 , , √ √ 5−2 − 5−2 10 − 4 5 10 + 4 5 1 1 1 √ √ √ 0 2 5 10 − 4 5 10 , S = √ √+ 4 5 3.) D = , 1 √ − 5−2 5−2 0 − 5 √ √ 2 10 − 4 5 10 + 4 5 4.) Die Quadrik ist eine Hyperbel (Kurve), die Gleichung im neuen System alautet 1√ 2 1√ 2 1 √ 5& x − 5& y = 1, die Achse der Hyperbel liegt in Richtung des Vektors , − 5−2 2 2 4 2 die Asymptoten sind im neuen System y& = ± x &2 − √ , haben also rechten Winkel zueinander. 5 Damit sieht die Quadrik folgendermaßen aus - das Kreuz der neuen Achsen (Hauptachsen!) ist mit eingezeichnet: 4 y 2 -4 -2 0 2 x 4 -2 -4 Bemerkung: Man kann sie auch so erhalten, dass man sie im neuen System zeichnet, das man gerade so anordnet √ wie das gewöhnliche kartesische System, und dann mit dem Winkel arctan 5 − 2 entgegen dem Uhrzeigersinn dreht, also mit der Matrix S −1 = S T . 178 6. LINEARE ALGEBRA 3. Anwendungsbeispiel (verkürzte Form): 1 x 2 2 2 e q y = x + y − z + 2xy − xz = 1, also A = M (q) = z 1 − 1 2 0 . 1 1 1 − 0 −1 2 1.) Eigenwerte sind mit dem Computer numerisch schnell gefunden: λ1 ≈ −1.15, λ2 ≈ 0.11, λ3 ≈ 2.04. 4.) Damit lautet die Gleichung in den neuen Koordinaten λ1 x &2 + λ2 y&2 − λ3 z&2 = 1, entsprechend a ist D = diag (λ1 , λ2 , λ3 ) die Diagonalmatrix M (q) mit zugehöriger Orthonormalbasis a. Es handelt sich also (vgl. die Grundquadriken im nächsten Abschnitt) um ein einschaliges Hyperboloid mit elliptischem Querschnitt, genauer um dessen Oberfläche. Es sei noch erwähnt, dass man die Eigenwerte exakt berechnen kann, dass aber die zugehörigen Formelausdrücke fürchterlich aussehen. Dagegen ist es nützlich, mit dem Computer auch zugehörige Eigenvektoren zu berechnen und sich damit die Lage im Raum vorstellen zu können: Der Eigenvektor, 0.282 301 7 in dessen Richtung die Achse des Hyperboloids liegt, ist hier etwa −0.131 392 63 , dazu braucht 0.950 285 08 man in SW P nur die Matrix mit mindestens einer Dezimalzahl zu schreiben und im Menu ’matrices’ auf ’eigenvectors’ zu drücken. Die Achse ist also nur leicht gegen die z− Achse geneigt. 10.5. Die wichtigsten Quadriken im R3 und ihre Standardgleichungen. Man beachte, dass in allen Fällen die grobe qualitative Gestalt nur von der Signatur und dem Feldwert auf der rechten Seite bestimmt wird. Außerdem mache man sich klar, dass eine andere Verteilung der Eigenwerte auf die Achsen nur einen Achsenaustausch bedeutet und dass die nachfolgend beschriebenen Gebilde einerseits in der Achsenrichtung (hier wurde die z− Achse jeweils dafür genommen) gestreckt oder gestaucht erscheinen sowie elliptische Querschnitte ausbilden können, wenn man andere Faktoren anbringt, welche die Signaturen nicht ändern (also Faktoren > 0 jeweils bei x2 , y2 , z 2 , z). Ferner ist daran zu denken, dass in allen Fällen die Flächen beschrieben werden durch die Gleichung, nicht etwa Körper. Erster Fall: Kein Eigenwert ist Null. Die interessanten Beispiele sind: Der (beidseitig unbeschränkte) Doppelkegel x2 + y2 - z2 = 0 (Signatur (2,1,0)) 2 1.5 1 0.5 z 0 -0.5 -1 -1.5 -2 1.5 1 2 1.5 0.5 1 0 0.5 -0.5 0 -0.5 -1 -1.5 -1 -1.5 10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 179 Ellipsoid ax2 + by2 + cz2 = 1, a,b,c>0 (Signatur (3,0,0)) z 0.5 2.5 0 2 1.5 1 -0.5 0.5 0 -0.5 0.5 y -1 -1.5 0 x -2 -0.5 -2.5 Im gezeichneten Beispiel sollte man speziell erkennen: a = 1, b = 19 , c = 4. Man beachte: Die Halbachsenlängen eines Ellipsoids erkennt man besser in der folgenden Form der Gleichung: x 2 α + 2 2 y x + = 1, β γ dann sind sie einfach (der Reihe nach für die Achsen): α, β, γ. Andererseits hat man mit einer Diagonalmatrix, welche die quadratische Form darstellt, unmittelbar die Gleichung in der Form ax2 +by2 +cz 2 = 1 oder allgemeiner ax2 + by2 + cz 2 = d, d > 0. Dabei sind a, b, c gerade die Diagonalelemente. Dann produziert man leicht die Halbachsenform. Die Zahl d bewirkt offenbar ein √ Schrumpfen oder Strecken des Ellipsoids. Multiplikation von d mit 2 bewirkt z.B. eine Streckung mit 2 (in allen Richtungen). Einschaliges Hyperboloid x2 + y2 - z2 = 1 (Signatur (2,1,0)) 6 4 2 z 0 -2 -4 -6 6 4 6 2 4 0 2 0 -2 -2 -4 -4 -6 -6 180 6. LINEARE ALGEBRA Zweischaliges Hyperboloid x2 + y2 - z2 = - 1 (Signatur (2,1,0)) 3 2 1 z 0 -1 -2 -3 3 2 3 1 2 0 1 0 -1 -1 -2 -2 -3 -3 10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 181 Zweiter Fall: Zwei Eigenwerte sind verschieden von Null, einer ist Null: Zylinder x2 + y2 = 1 Signatur (2,0,1) 1 0.8 0.6 0.4 z 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 1 0.5 0 -0.5 -1 -1 -0.8 -0.6 -0.4 -0.2 0.2 0 0.6 0.4 0.8 1 Allgemeiner ergibt sich mit Vorfaktoren ax2 +by 2 = 1 mit a, b > 0 ein elliptischer Zylinder. Dagegen mit der Signatur (1,1,1) ein hyperbolischer Zylinder: Hyperbolischer Zylinder x2 - y2 = 1 Signatur (1,1,1) 1 0.5 z 0 -0.5 -1 3 4 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 -4 182 6. LINEARE ALGEBRA → → Die weiteren interessanten Beispiele erhält man nur über den Zusatzterm − a T− x: Paraboloid x2 + y2 - z = 0 (Signatur (2,0,1)) 9 8 7 6 z 5 4 3 2 1 0 2 2 0 0 -2 -2 Allgemeiner ergibt sich ein elliptisches Paraboloid mit Vorfaktoren a, b > 0 und der Gleichung ax2 + by 2 − z = 0. Andere Feldwerte als Null führen offenbar zu keiner wesenlichen Veränderung, sondern nur zu einer Verschiebung längs der z− Achse. Hier folgt noch das Gegenstück, das von der Signatur (1, −1, 1) produziert wird mit linearem Zusatzterm, das hyperbolische Paraboloid: Hyperbolisches Paraboloid x2 - y2 - z = 0 (Signatur (1,1,1)) 10 8 6 4 z 2 0 -2 -4 -6 -8 -10 4 3 4 2 3 1 y 2 0 1 -1 0 -1 -2 -2 -3 -4 x -3 -4 − → Erklärung: Setzt man y = 0, so erhält man eine Parabel (- Kurve) mit Minimum in 0 . Setzt man x = 0, − → so ergibt sich eine Parabel mit Maximum in 0 . In diesem Punkt liegt also ein Sattel der Fläche vor. → → 10.6. Die allgemeine Quadrikengleichung. Wir wollen betrachten, was der Zusatzterm − a T− x in der allgemeinen Quadrikengleichung → → → → x +− a T− x =c (∗) − x T A− → bewirken kann. A ist dabei wie zuvor eine reelle symmetrische (n × n) − Matrix, und − a ist ein fester − → − → − → − → Vektor aus Rn , a T x also dasselbe wie das Skalarprodukt a · x . c ist eine feste Zahl. Zunächst stellen wir uns die Frage, wie die Gleichung (∗) nach Hauptachsentransformation aussieht. 10. SYMMETRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 183 Wir haben mit einer orthogonalen Transformationsmatrix S nach dem Resultat über symmetrische reelle Matrizen: D = S T AS, D Diagonalmatrix. Damit gilt → → 3 A = SDS T , also mit − x := S T − x: T T− T T − − − → → − → → → → − → T − T T− x A x = x SDS x = S x D S → x =3 x D3 x. → → Nunmehr drücken wir auch − a T− x im neuen System aus. S T ist eine orthogonale Matrix, also haben wir: → T − →T − → → → → a T− x =− a ·− x = ST − a · S → x = ST − a x &. Somit lautet die Gleichung (∗) in den neuen Koordinaten: T →T − → → 3 (∗∗) − x D3 x + ST − & = c. a x →T Es ist also nur noch einzusehen, was der Zusatzterm S T − a x & bei schon diagonalisiertem rein quadratisT − → − → 3 3 chem Term x D x mit diagonaler Matrix D bewirken kann. Es handelt sich um zwei Effekte: T − → − → x D3 x nicht vorkommt, so 1.) Wenn ein Eigenwert Null bei D auftritt, also eine Komponente x &i in 3 T− T → → kann sie durch S a x & in die Gleichung hineinkommen, wenn eben die i. Komponente von S T − a nicht Null ist. Das haben wir etwa beim Übergang von der Zylindergleichung zur Gleichung eines Paraboloids gesehen. T − → − → − → x vorkommen, also nicht zu einem Eigenwert Null 2.) Für die Komponenten von 3 x , welche in 3 x D3 →T von D gehören, ergibt sich eine Verschiebung bzw. auch Streckung durch den Zusatzterm S T − a x &, wenn → die i. Komponente von S T − a nicht Null ist. Rechnerisch sieht man das so ein, dass man eine quadratische Ergänzung für den Term in x &i vornimmt. Wir zeigen das an einem einfachen Beispiel: (Wir denken uns die Transformation zu (∗∗) bereits ausgeführt, schreiben aber bequemer x, y statt x &, y&. Die Gleichung laute dann x x2 + 2y2 + 2 −1 = 1, gleichwertig y x2 + 2y2 + 2x − y 2 1 (x + 1)2 + 2 y − 4 = 1, quadratisches Ergänzen ergibt = 17 . 8 Damit sehen wir: Es handelt sich um eine Ellipse, deren Mittelpunkt vom Ursprung weg verschoben ist. Außerdem sind die Halbachsen nicht mehr dieselben wie bei x2 + 2y2 = 1, sondern sie sind gestreckt. Bringen wir die Gleichung noch auf endgültige Normalform, an der man alle Eigenschaften gut ablesen kann, so kommt über 2 8 16 1 (x + 1)2 + y− = 1 heraus: 17 17 4 2 2 y − 14 x+1 + 1√ = 1. 17/8 4 17 −1 Nunmehr ist abzulesen: Die Ellipse hat ihren Mittelpunkt in 9xM = 1 und x− Halbachsenlänge 4 √ √ 17 1 1 = 34 und y− Halbachsenlänge 17. Zuvor hatte man mit der Gleichung x2 + 2y 2 = 1 8 4 4 1 1√ Halbachsenlängen 1 und = 2. 2 2 184 6. LINEARE ALGEBRA 11. Der Satz von Sylvester Wir haben gesehen, dass der Typ einer Quadrik wesentlich bestimmt wird von der Anzahl der positiven und der negativen Eigenwerte sowie der Vielfachheit des Eigenwertes Null der definierenden Matrix. Die Zusammenfassung dieser Information nennt man Signatur: → − → Definition 52. Sei A eine reelle symmetrische Matrix und q − x =→ x T A− x die zugehörige quadratische Form. Dann versteht man unter der Signatur von A bzw. q das Tripel (p, r, s) , wobei p die Anzahl der echt positiven Eigenwerte von A (> 0), r die Anzahl der echt negativen Eigenwerte von A (< 0) und s die Vielfachheit des Eigenwertes Null ist. Zum Verständnis: Die Signatur kann man nach Diagonalisierung (die nach unserem Hauptresultat stets möglich ist) ohne weiteres ablesen: p ist dann die Anzahl der Einträge auf der Hauptdiagonalen der Diagonalmatix, welche > 0 sind, usw. Satz 75 (von Sylvester). Sei A ∈ Rn×n eine reelle symmetrische Matrix. Sei Q ∈ Rn×n eine invertierbare Matrix. Dann haben A und QT AQ dieselbe Signatur. Zum Verständnis: Man beachte, dass hier nicht vorausgesetzt wird, dass Q eine orthogonale Matrix ist! Es könnte sich also bei den Spaltenvektoren von Q um ein beliebiges schwiefwinkliges System handeln. Dieser Satz begründet die Möglichkeit, den Typ einer Quadrik auch bereits über eine nichtorthogonale Transformation zu bestimmen. 12. Positiv / negativ definite und indefinite symmetrische Matrizen Es ist insbesondere bei den symmetrischen Hessematrizen, welche in die Näherung 2. oder höherer Ordnung von Skalarfeldern eingehen (vgl. Mathematik B) recht wichtig, folgende Eigenschaften symmetrischer Metrizen zu betrachten: → Definition 53. Eine reelle symmetrische Matrix A bzw. die zugehörige quadratische Form q − x = → → → → → − → x T A− x bzw. auch die zugehörige symmetrische Bilinearform B − x,− y =− x T A− y heißt − → → → → positiv definit, wenn für alle − x = 0 gilt: − x T A− x > 0, − → − → − → → T − negativ definit, wenn für alle x = 0 gilt: x A x < 0. Beispiele: → → 1.) Das Standardskalarprodukt hat . die symmetrische Matrix E (Einheitsmatrix), und − x T E− x = → − → − → − → T− 2 x x = x · x , das ist in Koordinaten xi und größer als Null, wenn wenigstens eine der Zahlen xi i ungleich Null ist. Das war gerade dieEigenschaft des Standardskalarproduktes, positiv definit zu sein. 1 0 → → 2.) Die Matrix A = ist weder positiv, noch negativ definit, weil − e T1 A− e 1 = 1 und 0 −1 − → → T − e 2 A e 2 = −1. Solche nennt manauch ’indefinit’. 1 0 → → 3.) Die Matrix A = ist ebenfalls weder positiv, noch negativ definit, weil − e T1 A− e1 = 1 0 0 − → − → und e T A e = 0. 2 2 An den Beispielen bemerken wir, dass es bei Diagonalmatrizen sehr einfach ist, die Eigenschaft positiver / negativer Definitheit abzulesen: Eine Diagonalmatrix ist offenbar genau dann positiv definit [bzw. negativ definit], wenn sämtliche Einträge auf der Diagonalen größer sind als Null [bzw. kleiner als Null]. Setzen wir unser Hauptresultat der Diagonalisierbarkeit symmetrischer reeller Matrizen ein, so erhalten wir mit dieser einfachen Beobachtung folgenden Satz 76. Eine reelle symmetrische Matrix A (bzw. die zugehörige quadratische Form und Bilinearform) ist genau dann positiv definit [negativ definit], wenn alle Eigenwerte von A größer als Null [kleiner als Null] sind. Beweis: Wir haben mit einer orthogonalen Transformationsmatrix S: D = S T AS, mit einer Diagonalmatrix D, und dabei sind die Diagonaleinträge von D genau die Eigenwerte von A. Aber eine Diagonalmatrix ist offenbar (s.o.) genau dann positiv definit [negativ definit], wenn alle Diagonaleinträge größer sind als Null [kleiner als Null]. 12. POSITIV / NEGATIV DEFINITE UND INDEFINITE SYMMETRISCHE MATRIZEN 185 Tatsächlich kann man über die positive Definitheit einer symmetrischen Matrix auch entscheiden, ohne Eigenwerte berechnen zu müssen, mit folgendem Jacobischem Kriterium: Satz 77 (Jacobi-Kriterium für positive Definitheit reeller symmetrischer Matrizen). Es sei A ∈ Rn×n symmetrisch, und es seien die Matrizen Ak für 1 ≤ k ≤ n die jeweiligen quadratischen Untermatrizen aus Rk×k , welche aus A durch Streichen der letzten n − k Zeilen und Spalten entstehen, also Ak := (aij )1≤i,j≤k mit A = (aij )1≤i,j≤n . Dann gilt: A ist positiv definit ⇐⇒ ∀1 ≤ k ≤ n : det (Ak ) > 0. Bemerkung: Natürlich bekommt man die negative Definitheit einer symmetrischen reellen Matrix B heraus über die (gleichwertige!) positive Definitheit von −B. Beispiel zur Anwendung: Für 1 2 −1 4 A= 2 6 −1 4 24 haben wir der Reihe nach: det (A1 ) = det ((1)) = 1 > 0, 1 2 det (A2 ) = det = 4 > 0, 2 6 1 2 −1 4 det (A3 ) = det (A) = det 2 6 −1 4 24 1 0 0 = det 2 2 6 = 46 − 36 = 10, −1 6 23 also ist A positiv definit, und oben steht die gesamte benötigte Rechnung, leicht von Hand zu machen. Man beachte, wie mühsam die Berechnung der Eigenwerte hier gewesen wäre. Das charakteristische Polynom ist χ (λ) = λ3 −31λ2 +153λ−10, und die Eigenwerte sind näherungsweise - ein Compteralgebraprogramm liefert auch das bequem: 6. 624 677 8 × 10−2 , 6. 071 477 24. 862 276 tatsächlich alle > 0. Entsprechend ist −A eine negativ definite Matrix.