Mathematik A für Elektrotechnik/Informationstechnologie T. von der Twer Inhaltsverzeichnis Kapitel 1. Mengen, Zahlenmengen, Abbildungen, Logik, Rechnen 1. Ein wenig Logik 2. Die natürlichen Zahlen, vollständige Induktion bzw. Rekursion 3. Elementare Grundkenntnisse zum Rechnen 1 7 12 13 Kapitel 2. Elementare Vektorrechnung und analytische Geometrie 1. Affiner Raum und Vektorraum 2. Längen und Winkel: Euklidischer Raum 3. Vektorprodukt und Spatprodukt 17 17 29 33 Kapitel 3. Komplexe Zahlen 1. Motivierungen 2. Konstruktion des Körpers (C, +, ·, 0, 1) 3. Beispiele zum kartesischen Rechnen mit komplexen Zahlen 4. Polarkoordinatendarstellung komplexer Zahlen 39 39 39 42 44 Kapitel 4. Reelle Funktionen 1. Besondere Eigenschaften reeller Funktionen 2. Die Grundfunktionen 3. Zusammensetzung von Funktionen 4. Grenzwert bei Funktionen und Stetigkeit 5. Ableitung reeller Funktionen (eindimensionaler Fall) 6. Grundlegende Resultate im Zusammenhang mit Ableitungen 7. Das eindimensionale Integral 47 48 50 54 60 67 74 80 Kapitel 5. Lineare Algebra 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 103 Die Struktur endlichdimensionaler Vektorräume Lineare Abbildungen Matrixdarstellung einer linearen Abbildung Verknüpfungen von linearen Abbildungen und Matrizen Transformation von Matrizen (Basiswechsel) Anwendungen des Rechnens mit Matrizen Räume mit Skalarprodukt und Isometrien Determinanten Eigenwerte und Eigenvektoren; Diagonalisierung Symmetrische Bilinearformen, deren Diagonalisierbarkeit, Klassifikation von Quadriken Der Satz von Sylvester iii 103 107 112 115 119 121 124 128 139 143 154 KAPITEL 1 Mengen, Zahlenmengen, Abbildungen, Logik, Rechnen Von welchen Gegenständen, ’Dingen’, ’Objekten’handelt die Mathematik? Wir wollen diese Frage nicht zu tief angehen, sondern praktisch danach fragen, welche mathematischen Objekte man kennen sollte, um Mathematik in√einer Ingenieurwissenschaft anwenden zu können. Da sind einmal die Zahlen wie 1, 2, aber auch −2, 13 , 2, e, π, schließlich j (die komplexe Zahl mit der Eigenschaft j 2 = 1. Wichtig ist es nun, die Zahlen nicht nur einzeln zu haben, sondern in ihren jeweiligen Gesamtheiten zu sehen. Dann sind wir bei den Zahlenmengen. Sie bilden nur Beispiele für Mengen, man braucht weitere, etwa Mengen von Punkten in einem geometrischen Raum, Mengen von Funktionen. Wir werden sogleich sehen, dass Mengen wie die der reellen Zahlen nicht interessant sind als Mengen, sondern erst mit ihren Operationen (Verknüpfungen) wie +, ·. So etwas nennt man eine Struktur. Mathematik handelt also wesentlich von Strukturen. Das reicht noch nicht, sondern man braucht noch Abbildungen zwischen Strukturen. Im folgenden Abschnitt werden alle grundlegenden Objekte eingeführt, mittels deren man alles Weitere beliebig Komplizierte zusammensetzen kann. Zugehörige Grundbegriffe und Bezeichnungen müssen sorgfältig gelernt werden; denn deren Verfügbarkeit entscheidet darüber, ob man einen Text (nicht nur in mathematischen Werken, sondern auch natur- und ingenieurwissenschaftlichen) versteht oder eigenständig Probleme zu lösen vermag. 0.1. Mengen, Teilmengen und Mengenoperationen. Wir benötigen folgendes Wissen über Mengen: Zunächst das elementare Verständnis, dass eine Menge beliebige wohlunterschiedene Objekte als Elemente umfasst und dass für eine Menge A stets eindeutig feststeht, ob ein beliebiges Objekt x zu A gehört oder nicht, Element von A ist oder nicht. Symbolisch: x ∈ A für: x ist Element von A x ∈ / A für: x ist nicht Element von A. Man hat folgende beiden wichtigen Arten, eine Menge festzulegen: {x1 , ..., xn } ist die Menge, deren Elemente genau die Objekte x1 , ..., xn sind. { x ∈ A| x hat die Eigenschaft E} ist die Menge aller Objekte aus der Menge A, welche die Eigenschaft E haben. Auch in der Version, dass keine ’Grundmenge’ A vorgegeben ist. Beispiele: 1 ∈ {1, 2, 3} , 4 ∈ / {1, 2, 3} , 2 ∈ { x| x ist ganze Zahl und x ist durch 4 teilbar} . Insbesondere hat man die leere Menge ∅ := {} , welche gar kein Element enthält. Für zwei Mengen A, B definiert man die Teilmengenbeziehung so: A ⊂ B (lies: ’A ist Teilmenge von B’) : ⇐⇒ für alle x gilt: (wenn x ∈ A, dann x ∈ B) . Dabei haben wir ein wenig mathematische Notation benutzt: Das Zeichen ⇐⇒ zwischen zwei Aussagen bedeutet, dass diese Aussagen gleichwertig sind, also aus der einen immer auf die jeweils andere geschlossen werden kann. Der Doppelpunkt bedeutet, dass diese Gleichwertigkeit definitorisch festgelegt wird (die Teilmengenbeziehung, symbolisch ⊂, wird oben erst definiert). Zwei Mengen sind nach Definition genau dann gleich, wenn sie dieselben Elemente haben, das heißt A = B : ⇐⇒ (A ⊂ B und B ⊂ A) . Beispiele: {2} = Menge aller geraden Primzahlen. Die leere Menge ist Teilmenge von jeder Menge. In der Menge der reellen Zahlen interessieren vielfach Teilmengen gewisser Form, die man Intervalle nennt: Für reelle Zahlen a ≤ b definiert man: [a, b] := { x ∈ R| a ≤ x ≤ b} (’abgeschlossenes Intervall’) und 1 2 1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN (a, b) := { x ∈ R| a < x < b} (’offenes Intervall’). Es sollte nun klar sein, wie [a, b) und (a, b] zu verstehen sind. Man hat folgende wichtigen Operationen, die aus Mengen neue Mengen machen - die Doppelpunkte bei den Gleichheitszeichen bedeuten definitorische Gleichheit: A∩B A∪B A\B A×B : : : : An : Mengenoperationen = { x| x ∈ A und x ∈ B} (Durchschnitt, A geschnitten mit B) = { x| x ∈ A oder x ∈ B} (Vereinigung, A vereinigt mit B) = { x| x ∈ A und x ∈ / B} (Mengendifferenz, A minus B) = { (x, y)| x ∈ A und y ∈ B} (kartesisches Produkt, A Kreuz B), dabei bezeichnet (x, y) das geordnete Paar der Objekte x, y. = { (x1 , ..., xn )| für alle i mit 1 ≤ i ≤ n gilt xi ∈ A} (mehrfaches kartesisches Produkt der Menge A mit sich selbst, die Elemente sind die Folgen der Länge n (n eine natürliche Zahl, im interessanten Fall größer als 1) von Objekten aus A. 0.2. Die wichtigen Zahlenmengen, und der Körperbegriff. N : = {1, 2, 3, ...} Menge der natürlichen Zahlen N0 : = {0, 1, 2, 3, ...} Z : = {..., −3, −2, −1, 0, 1, 2, 3, ...} Menge der ganzen Zahlen m Q : = m, n ∈ Z, n = 0 Menge der rationalen Zahlen n R : = Menge aller reellen Zahlen C : = { a + jb| a, b ∈ R} (Menge aller komplexen Zahlen) Dabei wurden alle außer R wenigstens einigermaßen definiert, hier wurde nur das Symbol erklärt. Grundlegendes zu N folgt im Abschnitt 3 dieses Kapitels, Genaueres zu C in Kapitel 4. Tatsächlich ist es sehr schwierig, die Menge der reellen Zahlen zu definieren. Was man als Anwender wissen darüber wissen sollte, wird hier kurz zusammengestellt: √ Zunächst einmal stellt man fest, dass Q ’Löcher’ hat, z.B. ist 2 ein Punkt des Zahlenkontinuums, der Zahlengeraden, aber keine rationale Zahl. R hat nun gerade den Sinn, die rationalen Zahlen zur vollständigen Zahlengerade zu erweitern, dass es überhaupt keine Löcher mehr gibt. Insgesamt hat man Folgendes: 1.) Man kann mit +, ·, 0, 1 rechnen wie in Q, man sagt, (R, +, ·, 0, 1, <) bildet einen angeordneten Körper, und das bedeutet im Einzelnen: a) Es gelten folgende Axiome (Grundforderungen) für die Addition, mit denen (R, +, 0) eine abelsche Gruppe wird (d.h. kommutative Gruppe), und zwar allgemein für alle Zahlen x, y, z ∈ R: (x + y) + z 0+x −x + x x+y = = = = x + (y + z) (Assoziativgesetz) x (neutrales Element) 0 (inverses Element − x für jedes x) y + x (Kommutativgesetz) b) Es gelten ferner folgende Axiome für die Multiplikation, mit denen (R \ {0}, ·, 1) ebenfalls eine kommutative Gruppe wird (man beachte: Damit ist bereits ausgesprochen, dass 0 = 1 sein muss, weil 1 ∈ R \ {0}), allerdings ist die Multiplikation auch mit der Zahl Null ausführbar, d.h. für alle Zahlen 1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN 3 x, y, z ∈ R gilt: x (yz) 1·x x−1 x xy = = = = (xy) z x 1 für x = 0 yx Hinweis: Für x−1 schreibt man bei den Zahlen im allgemeinen x1 (x nicht Null!). c) Ferner gilt folgendes wichtige Distributivgesetz, dass Addition und Multiplikation verbindet: x (y + z) = xy + xz. d) Die Ordnungsbeziehung hat folgende axiomatischen Eigenschaften: nicht x < wenn x < x > Mit P : P +P ⊂ Wichtige Folgerungen sind: x y und y < z, so x < z (Transitivität) 0 oder x = 0 oder x < 0 (genau einer der Fälle tritt ein) = { x ∈ R| x > 0} (Menge der positiven Zahlen) gilt: P und P · P ⊂ P (d.h.: x, y ∈ P , dann xy ∈ P , analog für · ). Wenn x < y, so x + c < y + c, für alle x, y, c. Wenn x < y und c > 0, so xc < yc. Die Beziehung ≤ (kleiner oder gleich) wird so definiert: x ≤ y : ⇐⇒ x < 0 oder x = y. Sie hat analoge Eigenschaften, natürlich stets x ≤ x im Unterschied zu <. e) Nun die Vollständigkeitseigenschaft der reellen Zahlen (alles Vorige gilt auch für (Q, +, ·, 0, 1)!), zusammen mit der archimedischen Eigenschaft: Eine Menge A ⊂ R heißt nach oben beschränkt, wenn es eine Zahl M ∈ R gibt, so dass x ≤ M für alle x ∈ A. Vollständigkeitseigenschaft: Jede nach oben beschränkte nicht leere Menge A ⊂ R hat eine kleinste obere Schranke α ∈ R, so dass x ≤ α für alle x ∈ A, aber für alle β < α gibt es noch mindestens eine Zahl x ∈ A, so dass x > β. Die archimedische Eigenschaft lautet: Zu jeder reellen Zahl x gibt es eine natürliche Zahl n > x. Wichtige Folgerungen: Eine nichtleere nach unten beschränkte Menge reeller Zahlen hat stets eine größte untere Schranke. Zu jeder reellen Zahl x > 0 gibt es eine natürliche Zahl n mit n1 < x. Zum Verhältnis der rellen zu den rationalen Zahlen hat man: Zwischen zwei verschiedenen reellen Zahlen gibt es stets eine rationale, und vor allem: Jede reelle Zahl kann mit einem beliebig kleinen Fehler durch eine rationale Zahl angenähert werden. 0.3. Terme (Rechenausdrücke) für reelle Zahlen, und Gleichungen. Mit den Operationen +, ·, .. und Konstanten wie 0, 1, e, π sowie Variablen x, y, x1 ,... bildet man beliebig zusammengesetzte Rechenausdrücke oder Terme. Dabei hat man auf notwendige Klammern und Klammerersparnisregeln zu achten. Beispiel: (x + e) (1 + y) 1+x y+z . Es kommt noch mehr hinzu, wenn man Potenzen bildet und Funktionssymbole benutzt, Beispiel: sin (1 + xn ) . (Zu den Funktionen vgl. den nächsten Abschnitt.) Was tut man mit solchen Rechenausdrücken, und welche Rolle spielen die Buchstaben dabei? 1.) Man setzt in einen Rechenausdruck für die Buchstaben, die keine Konstanten (Eigennamen wie e, π) sind, Zahlen ein und wertet den Rechenausdruck aus. (Dies ist geläufig, aber es wäre ganz falsch, die Mathematik für Anwender darin erschöpft zu sehen - das ist vielmehr noch fast gar nichts!) 2.) Man formt gemäß den oben formulierten Gesetzen und weiteren Folgerungen daraus Rechenausdrücke gleichwertig um, so dass man Zwecke günstigere Form erhält. eine für die 2angestrebten praktischen x−1 2 Beispielsweise f (x) = 2 − 13 x + 4 + 15 x = − 15 x − 2. Oder x(1+x) = − x1 + 1+x . Oder x2 − 3x + 1 = 2 x − 32 − 54 . 3.) Man hat eine allgemeingültige Gleichung t2 (x, y, ...) = t2 (x, y, ...) zwischen zwei Termen t1 und t2 und setzt für die freien Variablen x, y, ... beliebige Rechenausdrücke ein, um eine neue allgemeingültige Gleichung zu erhalten. Beispiel: in x (y + z) = xy + yz setzt man für x ein: x + y, für y: x, für z: y und erhält: (x + y) (x + y) = (x + y) x + (x + y) y. Gleichwertiges Umformen mit Kommutativgesetz 4 1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN 2 und Distributivgesetz sowie Anwendung des Assoziativgesetzes führt dann zu (x + y) = x2 + 2xy + y 2 . (Genaueres zum Einsetzen im Abschnitt ’Ein wenig Logik’.) hat (nicht allgemeingültig!) wie etwa x2 + x − 1 = 0, Solution is: √ eine √ 4.) Man Bestimmungsgleichung 1 1 1 1 x = − 2 + 2 5 , x = − 2 − 2 5 und löst diese Gleichung unter Verwendung gleichwertiger Umformungen oder auch einer fertigen Formel. Man sucht hier eine einfache Beschreibung der Erfüllungsmenge dieser Gleichung, wobei man den Zahlenbereich festlegen muss, in dem man Lösungen sucht. Im Beispiel etwa: 1 1√ 1 1√ x ∈ R| x2 + x − 1 = 0 = − − 5, − + 5 . 2 2 2 2 √ 2 Natürlich sagt man lieber: Die einzigen reellen Lösungen von x + x − 1 = 0 sind x1,2 = − 12 ± 12 5. 5.) Bestimmungsgleichung mit äußeren Parametern: x2 +px+q = 0 ist die Normalform der quadratischen Gleichung. Darin ist die Variable x Unbestimmte, die Variablen p, q dagegen spielen eine ganz andere Rolle, sie sind äußere Parameter, d.h. man stellt sich vor, ihre Werte seien in beliebiger Weise ’von außen’ fixiert. Die angestrebte Lösung gibt eine Lö p 2 2 − q, was im Falle p2 − q > 0 sungsformel für beliebige Werte von p, q. Man hat x1,2 = − p2 ± 2 2 zwei verschiedene reelle Lösungen der Gleichung ergibt, im Falle p2 − q = 0 nur die einzige reelle Lö 2 sung x = − p2 , im verbleibenden Fall p2 − q < 0 überhaupt keine reelle Lösung. Daran sollte man sich gewöhnen: Lösen eines Problems mit äußeren Parametern bedeutet: Beim Rechnen werden die äußeren Parameter einfach wie Konstanten der Art e, π ’durchgezogen’, aber bei gewissen Rechenoperationen stößt man gewöhnlich auf Fallunterscheidungen. Der zweckmäßige Umgang mit Rechenausdrücken fordert stets das Wahrnehmen des ’Typs’ eines vorliegenden Rechenausdrucks. Parallel zu den Rechenausdrücken typisiert man die Gleichungen. Liegt ein einfacher Typ vor, so kann man an dazu bekannte Verfahren anknüpfen. Liegt ein schwieriger Typ vor, so wird man nicht naiv einfache Lösungen eines Problems erwarten. Folgende grobe Einteilung sollte man kennen: Typen von Rechenausdrücken für reelle Zahlen Lineare Ausdrücke in x sind ax + b (man unterscheidet noch ’linear im engeren Sinne’, dann muss b Null sein, und ’affin’ mit beliebiger Konstanten b Lineare Ausdrücke in x1 , ..., xn sind a1 x1 + ... + an xn + b (wieder mit der feineren Unterscheidung) Ein Polynom in x ist ein Ausdruck a0 + a1 x + ... + an xn . p (x) Ein gebrochen rationaler Ausdruck in x ist , mit Polynomen p, q (q nicht die Konstante 0) q (x) Algebraische Ausdrücke sind solche, bei denen auch zusätzlich gebrochene Exponenten auftreten. Transzendente Ausdrücke sind solche, bei denen transzendente Funktionen wie sin, ln auftreten. Man sollte wissen: Nur lineare Gleichungen und lineare Gleichungssysteme sowie quadratische Gleichungen kann man einfach lösen. Hinzu kommt das Lösen von einfachsten Gleichungen unter Benutzung von Umkehrfunktionen, vgl. dazu den nächsten Abschnitt. Die Methoden für kompliziertere Gleichungen sind völlig anderer Art - fast immer sucht man dann mit den Mitteln der Analysis Näherungslösungen. Übrigens gibt es lediglich für Polynomgleichungen bis zum 4. Grad noch Lösungsformeln, darüber hinaus kann man beweisen, dass es solche Formeln gar nicht geben kann! Später erst werden wir in der Lage sein, so etwas wie sin(x) mit einem Rechenausdruck zu erfassen, der eine Verallgemeinerung eines Polynoms darstellt. Zum Grundwissen gehört ferner, dass man ein Polynom wie 2− x2 + 1 x3 − x + 1 in die geordnete Standardform schnell überführen kann. (’Ordnen nach Potenzen von x’, Zusammenfassen der Koeffizienten (Vorfaktoren für die Potenzen) im Kopf!). Im Beispiel lautet die Endform: 1 + x − x2 − x5 . Man sollte stets solche Endformen als Gestalten im Kopf haben und bei einem vorliegenden Ausdruck wahrnehmen, dass man eine solche Endform erreichen kann. Eine Bemerkung zu Rechenausdrücken und Gleichungen: Man achte stets darauf, ob man einen Rechenausdruck bearbeitet oder eine Gleichung. Rechenausdrücke formt man um, Gleichungen 2x auch, aber aus 2x 3 kann man nicht gleichwertig 2x machen, wohl aber aus der Gleichung 3 = 3 die gleichwertige Gleichung 2x = 9. Gleichwertigkeit von Termen t1 , t2 bedeutet die Allgemeingültigkeit der 1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN 5 Gleichung t1 = t2 . Gleichwertigkeit von zwei Gleichungen t1 = t2 , u1 = u2 bedeutet dagegen, dass folgende Aussage allgemeingültig ist: t1 = t2 ⇐⇒ u1 = u2 . Der Doppelpfeil bedeutet ’genau dann, wenn’, also ’wenn..., dann...’ in beiden Richtungen. Vorsicht: Oft wird von Anfängern aus x2 = y 2 gefolgert: x = y. Das ist falsch, wenn die Zahlen nicht als positive vorauszusetzen sind. Man hat nur: x = y =⇒ x2 = y 2 , nicht die umgekehrte Richtung. Sondern: x2 = y 2 ⇐⇒ x = y oder x = −y. Niemals schreibe man =⇒ , ⇐⇒ zwischen Rechenausdrücke - sie gehören nur zwischen Aussagen, um eine neue Aussage zu formen. Man geht ’schrittweise’ vor. Das sollte aber nicht dazu führen, dass man etwa in einem Rechenausdruck nur einen Teilausdruck gleichwertig ersetzen will und eine falsche Gleichung schreibt, die ’den Rest vergisst’. Wenn nötig, führe man eine Nebenrechnung auf. Eine Bemerkung zur Verallgemeinerung des Begriffs ’Rechenausdruck’ auf beliebige Strukturen: Die Teilmengen einer Grundmenge G bilden mit den Verknüpfungen ∪, ∩ ebenfalls eine Struktur, und man bildet Terme wie A ∩ (B ∪ C) usw., genau wie bei den Zahlen, nur stehen die Buchstaben für Mengen, und an die Stelle der Zahlenoperationen wie +, · treten die Mengenoperationen ∪, ∩. Später werden wir Vektorräume haben und bilden Terme von Vektoren. 0.4. Abbildungen und Funktionen. Man ordnet Zahlen andere Zahlen eindeutig zu, etwa jeder reellen Zahl ihr Quadrat. Das ist wieder eine reelle Zahl. Das Ganze fasst man symbolisch so zusammen: f: R → R x → x2 Die erste Zeile liest man: ’f geht von R nach R’, das meint: Jeder reellen Zahl x ∈ R wird durch f eine reelle Zahl (eindeutig!) zugeordnet. Die zweite Zeile (sie die Zuordnungsvorschrift) liest man: ’Der Zahl x wird ihr Quadrat x2 zugeordnet’, und dies Resultat nennt man auch f(x), was man liest: ’f von x’. Das ist eine ’von’-Klammer, die man stets laut so lesen sollte. Verwechslung mit einer Multiplikation ist fatal und unterläuft Anfängern häufig. Manchmal ist es selbstverständlich, dass man von reellen Zahlen redet, dann formuliert man gern kürzer ’die Funktion f(x) = x2 ’ oder noch kürzer ’die Funktion x2 ’. Man denke aber stets an die eindeutige Zuordnung x → x2 . Bei Funktionen wird in starkem Maße wieder die Grundtechnik des Einsetzens wichtig: Im Beispiel f (x) = x2 (die Gleichung ist definitorisch allgemeingültig für den jeweiligen Zusammenhang, gilt also für alle x) hat man etwa f (x + y) = (x + y)2 (um das Eingesetzte muss man Klammern setzen!). ’f von ...’ zu bilden, bedeutet, in den Rechenausdruck für f einzusetzen, nicht etwa mit ihm zu multiplizieren! Hinweis zu einer etwas altväterlichen, aber immer noch nützlichen Sprechweise: Bei einer Funktion f(x) nennt man gern x die unabhängige Variable und f(x) die abhängige. Den Zuordnungsbegriff formuliert man nun ganz allgemein so: Seien A und B Mengen, und a → f (a) gebe eine eindeutige Vorschrift, nach der jedem Element a ∈ A genau ein Element f(a) ∈ B zugeordnet wird, dann ist f eine Abblidung von A nach B. Symbolisch: f: A → B . a → f(a) Das lohnt sich in dieser Allgemeinheit, z.B. Ist + : R2 → R eine Abbildung, die jedem Paar (x, y) von reellen Zahlen eindeutig die Summe x + y zuordnet. Ebenso ist ∩ eine Abbildung, die jedem Paar von Teilmengen einer vorgegebenen Grundmenge wieder eine solche Teilmenge zuordnet. Eine Spiegelung an einer Ebene im dreidimensionalen Raum ordnet jedem Punkt des Raumes seinen Spiegelungspunkt (bezüglich der vorgegebenen Ebene) zu. Oder: Sie schalten Widerstände der Werte R1 , ..., Rn zusammen und ordnen jeder Folge (R1 , ..., Rn ) positiver Zahlen den Gesamtwiderstand der Schaltung zu, der sich eindeutig aus den vorgegebenen Widerständen errechnet. Zur vollständigen Angabe einer Abbildung gehören drei Dinge: Definitionsbereich (im Schema: A), Wertebereich (oder Zielmenge) (im Schema: B) und Zuordnungsvorschrift. Oftmals ergeben verschiedene Vorschriften dieselben Resultate. Wenn das der Fall ist, so handelt es sich um ein und dieselbe Abbildung. Beispiel: sin(x) oder cos (x − π/2) . Wenn es bei A, B um Mengen von Zahlen oder endlichen Zahlenfolgen handelt, sagt man gern ’Funktion’ statt ’Abbildung’, ansonsten sind die Begriffe gleich. Es gibt ein paar stets interessierende Eigenschaften bei Abbildungen, die wir nunmehr definieren: Eine Abbildung f : A → B heißt injektiv (genau) dann, wenn für alle a1 , a2 ∈ A gilt: f (a1 ) = f (a2 ) =⇒ a1 = a2 . (Man verwechsle das nicht mit der Eindeutigkeit, die man definitorisch für jede 6 1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN Abbildung verlangt, die sieht formal so aus: Für alle a1 , a2 ∈ A gilt: a1 = a2 =⇒ f(a1 ) = f (a2 ) . Man beachte stets, dass man =⇒ nicht ohne weiteres herumdrehen darf. Zum Beispiel gilt für die oben erwähnte Quadratfunktion f : R → R, f(x) = x2 die letztere Eigenschaft, aber sie ist nicht injektiv, da etwa f (2) = f(−2) = 4. Eine Abbildung f : A → B heißt surjektiv (genau) dann, wenn für alle b ∈ B mindestens ein a ∈ A gibt, so dass f (a) = b ist. Zum Beispiel ist f : R → R, f(x) = x2 auch nicht surjektiv, weil etwa b = −2 niemals als Quadrat einer reellen Zahl herauskommt. Eine Abbildung f : A → B heißt bijektiv (genau) dann, wenn f injektiv und surjektiv ist. Zum Beispiel ist die Funktion f : R → R, f(x) = x3 bijektiv. Man versteht diese Eigenschaften leichter in dieser Form: Injektivität einer Funktion f : A → B bedeutet, dass eine Gleichung f (a) = b für jedes b ∈ B höchstens eine Lösung a hat. Surjektivität: Die Gleichung hat für jedes b ∈ B mindestens eine Lösung, Bijektivität: ’genau eine Lösung’. Wenn eine Abbildung f : A → B bijektiv ist - und nur dann, existiert eindeutig die zugehörige Umkehrfunktion f −1 (man denke nicht an f1 , das ist eine Gefahr bei dieser Notation), die man dann völlig allgemein so defnieren kann: f −1 : B → A, b → das eindeutig bestimmte a ∈ A, so dass f (a) = b. Beispiele: f : R≥0 → R≥0 (Menge der reellen Zahlen ≥ 0 jeweils), f (x) = x2 ist bijektiv (das macht man oft so, dass man Definitionsbereich und Wertebereich geeignet einschränkt, eine bijektive Abbildung zu √ erhalten). Die Umkehrfunktion ist die Wurzelfunktion f −1 : R≥0 → R≥0 , f −1 (x) = x. Ebenso: sin : [− π2 , π2 ] → [−1, 1] x → sin (x) ist bijektiv, die Umkehrfunktion heißt arcsin (Arkussinus). Man merke sich: Ist f : A → B umkehrbar, so hat man f −1 f (a) = a und f f −1 (b) = b für alle a ∈ A, b ∈ B. Es sei f : A → B. Dann bildet man für C ⊂ A und D ⊂ B: f f (C) : = { f (a)| a ∈ C} , speziell Bild (f ) := f (A) , ferner −1 (D) : = { a ∈ A| f(a) ∈ D} . Man nennt f(C) auch ’Bild von C’ und f −1 (D) ’Urbild von D’. Speziell heißt f (A) das Bild der Abbildung f und wird gern bezeichnet mit Bild (f ). Der Wertebereich B ist im allgemeinen größer als Bild(f ) . Beide Mengen fallen genau dann zusammen, wenn f surjektiv ist. Achtung: für die Bildung f −1 (D) muss nicht etwa die Umkehrfunktion von f existieren! Beispiel: Für tan: R → R (nicht umkehrbar!) hat man tan−1 ({0}) = { kπ| k ∈ Z} . Umkehrfunktionen anzuwenden bedeutet ein wichtiges Mittel zum Auflösen von häufig auftretenden Gleichungen, etwa löst man die Gleichung 3ex−2 = 5 durch Anwenden der Logarithmusfunktion auf beiden Seiten, das ergibt ln (3) + x − 2 = ln (5) , also eindeutig x = 2+ln(5) ln(3) . Man beachte jedoch, dass z.B. 1 die Gleichung sin (x) = 2 nicht eindeutig zu lösen ist. Anwendung der Umkehrfunktion arcsin ergibt nur die Lösung im Bereich [− π2 , π2 ], das ist π/6. Symmetrisch zu π/2 liegt eine zweite Lösung der Gleichung, also π/2 + (π/2 − π/6) = 56 π. Alle weiteren Lösungen der Gleichung erhält man durch Addieren von kπ mit ganzen Zahlen k. Scharen von Funktionen: Oft hat man im Rechenausdruck für eine Funktion noch einen äußeren Parameter, etwa f(t) = sin (ωt) . t ist die unabhängige Variable, ω äußerer Parameter. Dann kann man an eine bestimmte Funktion denken, mit irgendwie fixiertem Wert ω > 0. (Damit wird dann wieder wie mit einer Konstanten gerechnet, s.o.) Man kann aber auch daran denken, dass man alle Funktionen fω (t) = sin (ωt) als Schar von Funktionen auf einmal anschaut, für alle Zahlen ω > 0. Man wird dann etwa zur Veranschaulichung die Graphen einiger Exemplare aufzeichnen und an die Kurven den zugehörigen Wert von ω schreiben. 0.5. Endliche und unendliche Folgen. Eine endliche Folge von Objekten a1 , ..., an ∈ A notiert man (a1 , ..., an ) oder auch (ai )1≤i≤n . Genau lässt sie sich verstehen als Abbildung f : {1, ..., n} → A, mit f (i) = ai für 1 ≤ i ≤ n. Es kommt also auf die Reihenfolge an, und die Schreibweise (a1 , ..., an ) gibt einfach die Bildfolge zu (1, ..., n) . Insbesondere werden für uns die endlichen Folgen reeller Zahlen wichtig, das sind Koordinatendarstellungen von Vektoren. Vektoren spielen in Physik und speziell in der Elektrizitätslehre eine tragende Rolle. 1. EIN W ENIG LOGIK 7 Für die Analysis (Lehre von den reellen Funktionen) und bereits für das Verständnis der rellen Zahlen selbst benötigt man unendliche Folgen reeller Zahlen. Man schreibt sie: (an )n∈N oder auch kürzer (an )n . (Es könnte auch N0 heißen.) Ausgeschrieben also a1 , a2 , ... und so immer fort. Dabei ist an ∈ R für alle n ∈ N. Wichtig zu verstehen ist: an ist nur das n− te Folgenglied, also eine Zahl. Aber (an )n ist die gesamte Folge. Wie schon die endlichen Folgen können wir auch die unendlichen wieder als Abbildungen verstehen: Es liegt einfach eine Abbildung f : N → R vor, mit f(n) = an für alle natürlichen Zahlen. Wir wollen einen Grund dafür angeben, warum Folgen wichtig sind: Wie bereits erwähnt, kann man viele reelle Zahlen wie e nur durch einen Bruch oder eine endliche Dezimalzahl nähern. Das möchte man aber mit beliebiger Genauigkeit tun. Die Lösung des Problems: Man gibt eine unendliche Folge von Zahlen an, welche die gewünschte Zahl so gut nähern, wie man möchte. Folge sollte die’schwierige’ Die angegebene 1 1 1 reelle Zahl dann als Grenzwert haben. Beispiel: die Folge 1 + 11 + 1·2 + 1·2·3 + ... + 1·2·...·n hat e als n Grenzwert. Aussagen über die verbleibenden Fehler stellt die Mathematik dann bereit. Später werden auch Folgen von Funktionen wichtig. also (fn )n , wobei fn jeweils eine Funktion ist. Der praktische Sinn erklärt sich wie bei den Zahlenfolgen: Es soll der Funktionswert einer schwierigen Funktion f an beliebiger Stelle für x als Grenzwert einer Zahlenfolge angegeben werden. Beispiel: ex x allgemein x x x x als Grenzwert von 1 + x + 1·2 + ... + 1·2·...·n n . Hier wäre f(x) = ex , fn (x) = 1 + x + 1·2 + ... + 1·2·...·n . 0.6. Ein Überblick über die benötigten mathematischen Objekte. Man braucht sich nicht vor einem unübersehbaren Zoo mathematischer Objekte zu fürchten: Aus den bereits angeführten kann man alles Weitere machen. Wenn es sehr kompliziert wird, dan liegt vielleicht eine Abbildung vor, deren Definitionsbereich und Wertebereich beide Funktionenmengen sind. Das nennt man dann auch einen Operator, und ein solcher ist Ihnen bereits aus der Schule bekannt: die Ableitung - sie macht aus einer Funktion eine neue Funktion. Ähnlich das bestimmte Integral: Es macht aus einer Funktion eine Zahl. Vielmehr sollte man darauf achten, dass man versteht, welche naturwissenschaftlichen Gegenstände mit welchen mathematischen so gut beschrieben werden können, dass man sie geradezu identifiziert: Etwa elektrostatische Felder und Abbildungen, welche jedem Raumpunkt einen Vektor zuordnen (den Feldvektor an dieser Stelle). Man nennt sie Vektorfelder. (Ein Vektorfeld auf einer Ebene sieht also ähnlich wie eine Wiese aus, nur hat man sich die Grashalme völlig gerade vorzustellen.) 1. Ein wenig Logik In der Mathematik geht man nicht nur mit Rechenausdrücken um, sondern vor allem auch mit Gleichungen und allgemeiner mit Aussagen. Grundsätzlich ist es wichtig, den Unterschied zwischen der bloßen Benennung eines Objekts und der Behauptung einer Aussage zu beachten. Auch eine Aussage hat man oft als ein Objekt zu betrachten, das man erst einmal fixiert, um dann etwa zu untersuchen, ob diese Aussage wahr ist oder ob sie auch anderen Aussagen folgt. Wie bildet man mathematische Aussagen? Welche Typen sind besonders wichtig, und welche logischen Regeln gibt es dafür? Elementare Aussagen sehen so aus: 2 ≥ 3, sin π2 = 1, 6Z ⊂ 3Z. Von diesen Aussagen sind die beiden letzten offenbar wahr, die erste ist falsch. Nun bildet man aus elementaren Aussagen zusammengesetzte, das geschieht einmal mit Partikeln wie ’und’, ’oder’, ’nicht’, ’wenn...,so,...’, zum anderen mit den Quantifikatoren ’für alle...’, ’es gibt...’. 1.1. Minimale Logik und zugehörige Notation. Unter einer Aussageform versteht man etwas wie eine Aussage, das aber zusätzlich freie Variablen enthalten kann. Beispiel: 2 < 3 ist eine Aussage, aber x < 3 eine Aussageform. Erstere ist im Beispiel wahr, letztere wird erst wahr oder falsch, wenn man für x eine konkrete Zahl einsetzt (genauer: einen Namen für eine konkrete Zahl). Wozu Aussageformen? Man möchte etwa eine Allaussage oder Existenzaussage machen - dann braucht man einen Aussagekern, der eine Aussageform ist, z.B.: ∃x ∈ R : x < 3 ist offenbar richtige Existenzaussage. 8 1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN Aussagen und Aussageformen verbindet man mit einigen logischen Verknüpfungen zu neuen, dabei sollte man diese kennen: A ∧ B (lies : A und B) ist genau dann wahr, wenn A und B beide wahr sind. A ∨ B (lies : A oder B) ist genau dann wahr, wenn mindestens eine der beiden Aussagen wahr ist. A ⇒ B (lies : wenn A, so B) ist genau dann wahr, wenn A falsch ist oder B wahr. A ⇐⇒ B (lies : A genau dann, wenn B) ist genau dann wahr, wenn A,B beide wahr oder beide falsch sind. ∀xA (x) (lies : für alle x gilt A (x) ) ist genau dann wahr, wenn für jedes Element c der Grundmenge, von der jeweils die Rede ist, gilt, dass A (c) ∃xA (x) (lies : es gibt ein x, so dass gilt : A (x) ) ist genau dann wahr, wenn es mindestens ein Element der Grundmenge (von der die Rede ist) gibt, so dass A (c) wahr ist. : Hinweis Sehr gern benutzt man ∀x ∈ R : A (x) oder ∃x ∈ R : A (x) usw. Wir werden oft ’und’, ’oder’ sagen und keine Kürzel dafür verwenden. Ebenso ’nicht A’ statt so etwas wie ⇁ A. Aber Pfeil und Doppelpfeil sind recht nützlich und führen vilefach zu größerer Übersichtlichkeit. Folgende logischen Äquivalenzen und Schlussweisen sollte man kennen: 1.) Anwendung eines Allsatzes auf spezielle Beispiele: ∀xA (x) A (x/t) (Aussageform A (x) , für x ein Term t eingesetzt) 2.) Modus-ponens-Regel: A A =⇒ B B (aus A und A =⇒ B schließe B) Folgende logischen Äquivalenzen sind immer wieder nützlich: (A =⇒ B) nicht (A ∧ B) nicht (A ∨ B) nicht ∀xA (x) nicht ∃xA (x) ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ (nicht B =⇒ nicht A) (nicht A ∨ nicht B) (nicht A ∧ nicht B) ∃x (nicht A (x)) ∀x (nicht A (x)) Bei einer solchen logischen Äquivalenz kann man von der linken Seite auf die rechte schließen und umgekehrt. 1.2. Eine etwas weiter ausgearbeitete Logik∗ . 1.2.1. Aussagenlogische Verknüpfungen und zugehörige Regeln. Wir setzen voraus, dass A, B, C, ... stets Aussagen sind, jede eindeutig wahr oder eindeutig falsch. Wir ordnen den Aussagen A, B, ... Wahrheitswerte zu, w(A) = 1, wenn A wahr ist, sonst w(A) = 0. Hier sind die wichtigen aussagenlogischen Verknüpfungen und die Fortsetzung der Wahrheitswertefunktion w auf die zusammengesetzten Aussagen: A∧B A∨B ⇁ A (gelesen : A und B), w(A ∧ B) := w(A)w(B) (gelesen : A und B), w(A ∨ B) := min(1, w(A) + w(B)) = 1 − (1 − w (A)) (1 − w (B)) (gelesen : nicht A), w( ⇁ A) := 1 − w (A) A ⇒ B (gelesen : wenn A, so B), w(A ⇒ B) := 1 − w(A)(1 − w(B)) A ⇐⇒ B (gelesen : A genau dann, wenn B), w(A ⇐⇒ B) := w(A)w(B) + (1 − w(A)) (1 − w (B)) Es ist vor allem wichtig, diese Zusammensetzungen intuitiv richtig zu verstehen und zu nutzen: Anfänger sollten sich vor allem klar machen, dass A ⇒ B inhaltlich bedeutet: A falsch oder B wahr, oder auch: 1. EIN W ENIG LOGIK 9 Es kann nicht sein, dass A wahr und B falsch ist. Eine zusammengesetzte Aussage kann ihrer Form nach allgemeingültig sein. Das bedeutet: Ihr Wahrheitswert ist immer 1, gleichgültig, welche Wahrheitswerte die darin mit Buchstaben bezeichneten Aussagen haben. Ferner gibt es nützliche Äquivalenzen, die man so formuliert: ’Die Aussage A ⇐⇒ B ist allgemeingültig’. Hier ist eine kleine Liste der wichtigsten Fälle - man verabredet, dass ⇁ stärker bindet als alle anderen aussagenlogischen Verknüpfungen, dass ferner ∧, ∨ stärker binden als ⇒, ⇐⇒: Folgende Aussagen sind für alle Aussagen A, B, C allgemeingültig: ⇁⇁ A ⇐⇒ A ⇁ (A ∧ B) ⇐⇒ ⇁ A ⇁ B ⇁ (A ∨ B) ⇐⇒ ⇁ A∧ ⇁ B (A ⇒ B) ⇐⇒ ⇁ A ∨ B (A ⇒ B) ⇐⇒ ⇁ (A∧ ⇁ B) (A ⇒ B) ⇐⇒ (⇁ B ⇒⇁ A) (A ∧ B ⇒ C) ⇐⇒ (A ⇒ (B ⇒ C)) Diese Äquivalenzen kann man alle direkt mit den angegebenen Regeln für die Funktion w überprüfen, Im Beispiel der vorletzten Äquivalenz: w (⇁ B ⇒⇁ A) = = = = 1 − w (⇁ B) (1 − w (⇁ A)) 1 − (1 − w (B)) (1 − (1 − w (A))) 1 − w (A) (1 − w (B)) w (A ⇒ B) Da die Aussagen A ⇒ B und ⇁ B ⇒⇁ A somit stets dieselben Wahrheitswerte haben, hat die Aussage (A ⇒ B) ⇐⇒ ⇁ A ∨ B stets den Wahrheitswert 1, ist mithin allgemeingültig. Eine günstige Sprechweise ist es, A ⇒ B so auszudrücken: ’A ist hinreichend für B’, oder auch: ’B ist notwendig für A’. Beispiel: Ist eine Funktion f an der Stelle x0 differenzierbar, so ist sie dort auch stetig. Oder: Differenzierbarkeit von f in x0 ist hinreichend für Stetigkeit von f in x0 .Oder: Stetigkeit in x0 ist notwendig für Differenzierbarkeit in x0 . Aber man weiß, dass Stetigkeit in x0 nicht hinreichend für Differenzierbarkeit in x0 ist, bzw. Differenzierbarkeit nicht notwendig für Stetigkeit. Die angegebenen Äquivalenzen kann man natürlich als Regeln lesen: Aus der einen Seite folgt die andere, und umgekehrt. Es gibt aber noch eine aussagenlogische Regel von überragender Bedeutung: Modus-ponens-Regel : Aus A ⇒ B und A folgt B. Das kann man auch so ausdrücken: Die Aussage ((A ⇒ B) ∧ A ⇒ B) ist allgemeingültig. Diese Regel wendet man fortlaufend an, wenn man eine längere logische Schlusskette produziert, etwa überlegt: Die Funktion f(x) = x3 ist überall differenzierbar. Da die Ableitung außer bei x0 = 0 überall > 0 ist, ist die Funktion streng monoton steigend. Außerdem ist f überall stetig, da differenzierbar. Aber eine stetige Funktion nimmt auf einem Intervall [a, b] mit zwei Werten c, d auch jeden Wert dazwischen an. Es folgt: 3 Betrachtet man f auf das Intervall [a, b] eingeschränkt, a < b, so ist a3 der kleinste 3 3 Wert, b der größte, und f(x) durchläuft mit x ∈ (a, b) jeden Wert dazwischen. Jeder Wert aus a , b wird genau einmal angenommen. Man beachte, dass hier eine Vielzahl von Anwendungen der Modus-ponens-Regel vorliegt: f ist überall differenzierbar und: Wenn f überall differenzierbar ist, so ist f überall stetig. Also ist f überall stetig. Dann geht es weiter: Aus der Stetigkeit folgt wieder Neues, das gilt also wiederum für unsere konkrete Funktion f. Ferner sind die benutzten Sätze der Art: ’Für alle Funktionen f gilt:...’, und wir haben für f unsere konkrete Funktion f (x) = x3 eingesetzt. Diesen logischen Vorgang erklären wir genauer im nächsten Abschnitt. Eine allgemeine Bemerkung zur Aussagenlogik: Aussagenlogik ist völlig primitiv in dem Sinne, dass man mit der angegebenen Funktion w den Wahrheitswert einer beliebigen Zusammensatzungen aus den Wahrheitswerten der Bestandteile schematisch ausrechnen kann. Insbesondere kann man mit einem Computerprogramm die Allgemeingültigkeit in endlich vielen Schritten prüfen. Das wird ganz anders, wenn Variablen für Objekte von Strukturen und Zeichen für Beziehungen und Funktionen auftreten 10 1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN sowie die Quantifikatoren ’für alle...’, ’es gibt...’. Wir werden im nächsten Abschnitt sehen, dass dann Kreativität gefragt ist. Man kann sogar mathematisch beweisen, dass es kein Computerprogramm geben kann, das allgemein die auftretenden Grundaufgaben zu lösen vermag. 1.2.2. Der Umgang mit Variablen und Quantifikatoren. Die wichtigste Form mathematischer Aussagen ist die der Allaussagen: ’Für alle ... gilt:...’. Die einfachsten Beispiele dafür sind allgemeingültige Rechenformeln, etwa: Für alle x, y, z Für alle Mengen A, B gilt: ∈ R gilt: x (y + z) = xy + xz, A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) . Dabei lässt man fast stets den Vorpann ’für alle ...’ weg und schreibt bequem nur die Gleichung, mit den Buchstaben als freien Variablen, mit dem Verständnis: Wenn man für die Buchstaben irgendwelche Objekte aus dem betreffenden Bereich einsetzt, so entsteht eine gültige Formel. Diese Formel ist im allgemeinen wieder von allgemeiner Art, dass man wieder für Buchstaben beliebige Objekte einsetzen kann. Beim Einsetzen hat man folgende Grundregeln zu beachten: Grundregeln für das Einsetzen : Für dieselbe freie Variable muss überall dasselbe Objekt eingesetzt werden. Für verschiedene freie Variablen darf dasselbe Objekt eingesetzt werden. Wird für eine freie Variable ein zusammengesetztes Objekt eingesetzt, ein Rechenausdruck, so muss dieser eingeklammert werden (was manchmal nach Überlegung entfallen kann). Beispiel: Eine korrekte Einsetzung in x (y + z) = xy + xz ist: (a + b) ((a + b) + a) = (a + b) (a + b) + (a + b) a. Man kann also folgern: (a + b) (2a + b) = (a + b)2 + (a + b) a. Was wurde wofür eingesetzt, wo wurden Klammern gesetzt, welche von den regulär gesetzten Klammern können entfallen? Im Zusammenhang mit den Allaussagen hat man die folgende wichtigste logische Quantifikatorenregel: Aus ∀xα (x) folgt stets α (x/t) . Dabei steht ∀xα (x) abkürzend für ’für alle x gilt: α (x)’, und α (x/t) bedeutet die Formel α mit der Einsetzung des Rechenausdrucks (Terms) t für die freie Variable x. Dabei darf α sogar beliebig kompliziert mit aussagenlogischen Verknüpfungen und weiteren Quantifikatoren sein. Ein ganz anderer Typ von Gleichungen sind Bestimmungsgleichungen, etwa x2 +x−1 = 0 oder y = x2 . Sie sind offenbar nicht allgemeingültig, vielmehr sind die Variablen darin Unbestimmte (Unbekannte), und man die Lösungsmenge der Gleichung, im ersten Fall ist das ’auszurechnen’, es kommt die √ √ sucht 1 1 1 1 Menge − − 5, − + 5 heraus, im zweiten Fall ist die Lösungsmenge die Menge der Zahlenpaare 2 2 2 2 (x, y) ∈ R2 y = x2 . Diese kann man nicht einfacher ausdrücken, wohl aber feststellen, dass es sich um den Graphen einer differenzierbaren Funktion handelt, auch um die Bahn einer differenzierbaren Kurve, usw. Wir verbinden Modus-ponens-Regel und Einsetzungsregel zum wichtigsten logischen Instrument: Aus ∀x (α (x) =⇒ β (x)) und α (x/t) folgt β (x/t) . Vorn steht der wichtigste Typ von Allaussagen überhaupt, neben den oben erwähnten allgemeingültigen Formeln. Damit haben wir genau das, was man bei jeglicher Anwendung der allgemeinen mathematischen Resultate benötigt. Aber woher kommen die Allaussagen, deren Gültigkeit man voraussetzen kann? Einmal kommen sie von den Grundaxiomen der Mathematik, z.B. von denen der Strukturen (N, +, ∗), (R, +, ∗) usw. Die meisten sind jedoch zu beweisende Sätze, wobei die Grundtechnik eines solchen Beweises folgende ist: Man möchte (∀a ∈ A) (α (a)) beweisen. Dazu setzt man a als beliebiges Element von A voraus (’Sei a ∈ A beliebig ...’). Dann beweist man α(a). Da über a nichts weiter als a ∈ A vorausgesetzt war, hat man die Aussage (∀a ∈ A) (α (a)) bewiesen. Es gibt aber noch zwei weitere grundlegende Typen von mathematischen Aussagen: Existenzaussagen: Es gibt x aus der Menge A, so dass α(x). Kurz: (∃x ∈ A) α (x) . Das bedeutet: Man kann ein Objekt a ∈ A angeben, so dass α (a) eine gültige Aussage ist. Zum Beispiel ist 6 durch 1. EIN W ENIG LOGIK 11 3 teilbar, weil ∃n ∈ Z (3n = 6) eine gültige Aussage ist, mit der Einsetzung von 2 für n in 3n = 6. Achtung - es ist eine weit verbreitete Unsitte, Existenzquantoren ebenso wegzulassen wie Allquantoren, und die Folgen sind verheerend! Man beachte ferner: ’es gibt ein’ bedeutet mathematisch stets: ’es gibt mindestens ein’, keine Eindeutigkeit, zum Beispiel kann man bei der wahren Aussage ∃n ∈ Z (n > 5) in ’n > 5’ einsetzen: n = 6, aber auch n = 1000. Beides liefert die Gültigkeit der Existenzaussage, gemäß der folgenden allgemeinen Einsetzungsregel für Existenzaussagen: α (x/t) =⇒ ∃xα (x) . Ein zweiter Aspekt von Existenzaussagen: Wie nutzt man für weitere Folgerungen eine bereits bewiesene oder vorauszusetzende Existenzaussage (∃x ∈ A)α (x)? Dazu formuliert man einfach: ’Sei a ∈ A derart, dass α (a) gilt’. Auf diese Weise hat man den Existenzquantor beseitigt und eine günstige Form für die weitere Arbeit. Allerdings darf man ohne weitere Begründung nichts sonst als nur eben α(a) für das Objekt a verlangen. Ein Beispiel: Von einer stetigen Funktion f auf einem Intervall [a, b] mit f (a) = f (b) = 0, die nicht konstant auf [a, b] ist, weiß man, dass f in (a, b) ein Extremum hat, das sogar global für [a, b] ein solches ist. Also hat man (∃x ∈ (a, b)) (∀y ∈ [a, b]) f (y) ≤ f (x). Man sagt: ’Sei ξ ein solches, also (∀y ∈ [a, b]) f(y) ≤ f (ξ)’. Ist f zusätzlich auf (a, b) differenzierbar, so ist f ′ (ξ) = 0. Somit folgt aus der Existenzaussage (∃x ∈ (a, b)) (∀y ∈ [a, b]) f (y) ≤ f(x) die Existenzaussage (∃x ∈ (a, b))f ′ (x) = 0. Zur Verneinung von Allaussagen und Existenzaussagen hat man folgende logisch allgemeingültigen Äquivalenzen: ⇁ ∀xα (x) ⇐⇒ ∃x ⇁ α (x) ⇁ ∃xα (x) ⇐⇒ ∀x ⇁ α (x) Aussagen vom Typ ’für alle x gibt es y, so dass α (x, y)’: Diese Aussagen sind schon recht kompliziert, aber für die Mathematik elementar notwendig. Etwa ’Es gibt keine größte reelle Zahl’ bedeutet: Zu jeder reellen Zahl x gibt es eine reelle Zahl y, so dass y > x. Kurz: (∀x ∈ R)(∃y ∈ R)(y > x). Man argumentiert, um die Gültigkeit einer solchen Aussage zu zeigen, so: Sei x0 eine beliebige reelle Zahl. (Auf diese Weise ist der Allquantor beseitigt - wir betrachten x0 als Konstante, als Eigennamen einer reellen Zahl!) Dann ist x0 + 1 > x0 . Dies folgern wir aus der Grundregel: Wenn a > b, so a + c > b + c mit der Einsetzung 1 für a, 0 für b, x0 für c. Mit x0 + 1 > x0 ergibt die Einsetzungsregel für Existenzaussagen: (∃y ∈ R)y > x0 . Da dies für jedes konkrete x0 ∈ R gilt, haben wir (∀x ∈ R)(∃y ∈ R)(y > x). Dies war ein besonders einfaches Beispiel einer Aussage der angesprochenen Form, das aber genau die typischen logischen Schritte zeigt, eine solche Aussage zu bestätigen. Wir wollen wenigstens noch zwei substantielle Beispiele aufführen, um die überragende Bedeutung dieser Form zu zeigen: Erstes Beispiel: Begriff der Stetigkeit einer Funktion f an der Stelle x0 . Nach Definition ist f in x0 genau dann stetig, wenn (∀ε > 0) (∃δ > 0) (∀x ∈ R) (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) . Man beobachtet: Mit dem zweiten Allquantor ist die Aussage sogar noch komplizierter, aber der Kern der Sache liegt bei ε und δ. Wir wollen zeigen, dass f (x) = x2 stetig ist in x0 = 1. Wir setzen eine beliebig kleine Zahl ε > 0 voraus. Zu finden ist eine Zahl δ > 0, so dass aus |x − 1| < δ folgt: x2 − 12 < ε, für 2 |x2 −1| −1 alle Zahlen x. Wir haben xx−1 = x + 1. Also |x−1| = |x + 1| . Setzen wir δ = min(1, 2ε ), so haben wir für alle Zahlen x: 2 x − 12 ≤ |x + 1| |x − 1| < 2δ ≤ ε , wenn |x − 1| < δ. 2 Beachten Sie, dass die logische Struktur genau die des simpleren Beispiels ist, die Idee also, δ mit der gewünschten Eigenschaft als Ausdruck in ε anzugeben. Gerade hier, im ’Finden eines δ mit den verlangten Eigenschaften passend zu ε’, liegt die oben erwähnte benötigte Kreativität. Diese Aufgabe kann im Einzelfall beliebig schwierig sein und kann im allgemeinen nicht von einem Computer gelöst werden, man braucht intuitives ’Sehen’, Strategie, Wahrnehmung und Erfahrung, Flexibilität. Seien Sie darum nicht enttäuscht, wenn Sie am Anfang nur mit großer Anstrengung eine kleine Sache dieser Art hinbekommen! → Zweites Beispiel: ’Jeder Vektor − x ∈ V (V Vektorraum über R) kann als Linearkombination − → − → der Vektoren a 1 , ..., a n dargestellt werden’. Dies sie der linearen →ist eine Standardaussage, wie in n → → Algebra typisch auftritt. Ausgeschrieben lautet sie: ∀− x ∈ V (∃(λ1 , ..., λn ) ∈ Rn ) − x = k=1 λk − a k. Abschließend bemerken wir noch, dass auch Aussagen vom Typ ’Es gibt ..., so dass für alle ...’ bedeutsam sind. Einmal kommen Sie als Verneinungen der Aussagen ’Für alle ... gibt es ..., so dass ...’ vor. Aber sie haben auch ihre eigene Bedeutung darin, dass ein Objekt sich zu allen anderen in gewisser Weise verhält. Die Form ’∃∀’ ist zum Beispiel bei Begriffen wie gleichmäßiger Stetigkeit wichtig, und solche 12 1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN Begriffe bereiten Anfängern immer wieder typische Schwierigkeit - nur deswegen, weil die eigentlich völlig einsichtige logische Struktur nicht gesehen wird. Darum hier ein einfaches Beispiel zum Vergleich zwischen ’∃∀’ und ’∀∃’: (∀x ∈ R) (∃y ∈ R) x + y = 0 ist ein wahrer Satz (wähle y = −x, diese Einsetzung liefert das für die Existenz (hier einzige) passende Beispiel). Aber (∃y ∈ R) (∀x ∈ R) x + y = 0 ist offenbar ein falscher Satz. Dagegen ist (∃y ∈ R) (∀x ∈ R) x + y = x wahr, nämlich mit der Einsetzung 0 für y in (∀x ∈ R) x + y = x. Man beachte, dass aus ∃y∀xα (x, y) stets folgt ∀x∃yα (x, y) , aber nicht umgekehrt. 2. Die natürlichen Zahlen, vollständige Induktion bzw. Rekursion Die natürlichen Zahlen bilden eine Grundstruktur, welche die Mutter aller Kombinatorik ist und daher auch für Anwender von eigenem Interesse ist, die eher an die reellen Zahlen denken. Die fundamentale Eigenschaft der natürlichen Zahlen: Man fängt mit 1 an (wahlweise mit 0) und erzeugt alle weiteren natürlichen Zahlen durch Nachfolgerbildung. Dabei verlangt man, dass die Nachfolgerabbildung injektiv ist. 1 ist die erste in der Ordnung, selber kein Nachfolger. Daraus folgt ein wichtiges Prinzip für Definitionen von Funktionen f : N → B und für Beweise von Aussagen der Form ∀ (n ∈ N) A (n) . Wir formulieren das in zwei Sätzen, die unmittelbar aus folgendem Grundaxiom für die Struktur der natürlichen Zahlen folgen: Jede nichtleere Menge natürlicher Zahlen hat ein kleinstes Element. S 1. Prinzip der Definition durch Rekursion (Induktion): Das Schema f(1) = a, f(n + 1) = α(n, f (n)) definiert mit einem beliebigen Rechenausdruck α eindeutig eine Funktion f : N → B, wobei B eine Menge sein muss, die a und alle weiteren Werte α (n, f(n)) enthält. S 2. Prinzip des Beweises mit vollständiger Induktion: Aus den Aussagen A (1) (’Induktionsanfang’) und ∀ (n ∈ N) (A(n) =⇒ A (n + 1)) (’Induktionsschluss von n auf n + 1’) folgt die Aussage ∀ (n ∈ N) A (n) . Beispiel: f(1) = 1, f (n + 1) = f (n) + n + 1 definiert eindeutig eine Funktion N → N. Der Rechenausdruck α ist hier: f(n) + n + 1. Man kann nun mit Induktion beweisen: ∀ (n ∈ N) f (n) = n(n+1) . 2 n(n+1) 1·2 Hier ist die Aussage A(n) : f (n) = . A (1) besagt: f (1) = 2 . Das stimmt. Damit ist der 2 Induktionsanfang gemacht. Nun der Induktionsschluss: Die Aussage A(n) =⇒ A (n + 1) ist allgemein für n ∈ N zu beweisen. Sie lautet: Wenn f (n) = n(n+1) , dann f (n + 1) = (n+1)(n+2) . Aber 2 2 n(n+1) nach rekursiver Definition ist f (n + 1) = f (n) + n + 1. Wenn nun f (n) = , so haben wir 2 n n(n+1) (n+1)(n+2) f (n + 1) = + n + 1 = (n + 1) 2 + 1 = . Man beachte: Wir mussten nur A (n + 1) 2 2 beweisen unter der Voraussetzung, dass A (n) bereits gültig ist. Das ist viel weniger, als etwa A (n + 1) allgemein zu beweisen! Aber das Prinzip besagt, dass dies zusammen mit dem Induktionsanfang bereits ausreicht, ∀ (n ∈ N) A (n) zu beweisen. Es sei betont: A(n) =⇒ A (n + 1) kann auch dann allgemeingültig sein, wenn tatsächlich A (n) für alle n falsch ist, nehmen Sie für A (n) etwa die Aussage: ’Alle natürlichen Zahlen sind gerade und ungerade’. Wenn n gerade und ungerade ist, dann ist es auch n + 1. Diese ’wenn..., dann...’-Aussage ist allgemeingültig. Bemerkung zur Begründung aus dem Prinzip vom kleinsten Element: Wenn A (n) für mindestens eine natürliche Zahl falsch wäre, so wäre die Menge der Zahlen m, für die A (m) falsch ist, nicht leer, hätte also ein kleinstes Element m0 . Nun kann wegen der Gültigkeit von A (1) die Zahl m0 nur größer als 1 sein. Aber dann gilt A (m0 − 1) . Mit dem Induktionsschluss müsste aber dann auch A (m0 ) richtig sein, wir haben also einen Widerspruch. (Ähnlich kann man das Prinzip der Definition durch Rekursion begründen.) Bemerkung zu einer Verallgemeinerung der Prinzipien: Wie oben formuliert, greift man für n + 1 nur auf den unmittelbaren Vorgänger n zurück. Aber die Prinzipien bleiben gültig, wenn man sogar den Rückgriff auf alle Vorgänger erlaubt. Dazu zwei Beispiele: Mit f(0) = 1, f(1) = 1, f(n + 2) = f(n + 1) + f (n) wird korrekt eine Funktion f : N0 → N definiert. Die rekursive Definition greift hier auf zwei Vorgänger zurück. Folgendes Beispiel macht Gebrauch von beliebigen Vorgängern: Man möchte induktiv beweisen, dass jede natürliche Zahl eindeutig in Primfaktoren zerlegt werden kann und argumentiert für den Induktionsschluss so: Sei n > 2 eine natürlich Zahl. Dann ist n entweder selbst Primzahl (und die Behauptung stimmt also), oder aber es gibt Zahlen r, s ∈ N, r, s ≥ 2, mit der Eigenschaft rs = n. Für r, s existiert aber bereits (gemäß verallgemeinerter Induktionsvoraussetzung!) je eine Primfaktorzerlegung. Die braucht man nur zusammenzufügen und erhält eine solche für n. Es wird also auf die Behauptung für beliebig weit zurückliegende Vorgänger r, s zurückgegriffen. 3. ELEM ENTARE GRUNDKENNTNISSE ZUM RECHNEN 13 3. Elementare Grundkenntnisse zum Rechnen Hier werden einige wichtige aus der Schule bekannte Dinge noch einmal bewusster gemacht und einige Ergänzungen angebracht. 3.1. Anwendungen des Distributivgesetzes. Ein dringender Rat: Ausdrücke wie (x + 1) (x + 2) sollte man nicht ’automatisch’ ausmultiplizieren, wo das keinen Nutzen bringt, sondern Schaden. Bei f(x) = (x+1)(x+2) sieht man sofort die Nullstellen, nach Ausmultiplizieren nicht mehr. Bei g(x) = x2 +1 x+3 sieht man sofort die Pole, mehr noch: Man kann schnell in die für das Integrieren z.B. nützli(x+1)(x+2) 2 1 che Form x+1 − x+2 überführen (Partialbruchzerlegung), entscheidend ist dabei gerade, dass der Nenner faktorisiert ist. Weiter: Niemand hat ein Problem damit, die Gleichung 2x − 3 = 4 + 5x zu lösen. Das ist eine lineare Gleichung mit einer Unbekannten. Stichwort: Zusammenfassen der x− Glieder, der konstanten Glieder, Trennen, fertig. Also 3x = −7, x = − 73 . Was man sich dabei gewöhnlich nicht klar macht: Nach Subtraktion von 2x erhält man rechts u.a. 5x − 2x, und Anwendung des Distributivgesetzes gerade in der anderen Richtung - Ausklammern, nicht Ausmultiplizieren - ergibt die gewünschte Zusammenfassung zu 3x. Das rächt sich bitter: Viele Anfänger geraten in größte Schwierigkeiten, wenn eine Gleichung (in x) zu lösen ist wie (2a + 3) x + 4 = (a − 1) x + 2 (ähnlich, wenn die Vorfaktoren komplexe Zahlen sind oder gar Ausdrücke mit großem Summenzeichen.) Zunächst wird die Struktur ’lineare Gleichung mit einer Unbestimmten’ nicht gesehen. Dann wird nicht erkannt, dass genau die Anwendung des Distributivgesetzes wie im ersten Beispiel zur Lösung führt, also: ((2a + 3) − (a − 1)) x = −2, besser im Kopf direkt −2 . Nun droht wieder die die Differenz im Faktor vor x ausführen, Resultat: (a + 4) x = −2. Also x = a+4 Gefahr, dass die benötigte Fallunterscheidung unterbleibt. Das Resultat lautet: 1. Fall: a = −4. Dann ist −2 die eindeutige Lösung der Gleichung x = a+4 . 2. Fall: a = −4. Dann bedeutet (a + 4) x = −2 einfach 0x = −2. Die Gleichung hat also keine Lösung x für a = −4. 3.2. Bruchrechnung. Wie man Brüche kürzt, erweitert, addiert, multipliziert, dividiert, sollte bekannt sein. Es sollte auch kein Zweifel darüber sein, dass bei einem Bruch der Zähler Null sein darf, der Nenner aber nicht, weil ab die eindeutige Lösung von xa = b (Unbestimmte: x) sein soll, und die existiert eindeutig nur im Falle a = 0. Auf Korrektheit und Geschicklichkeit in der Anwendung kommt es an. Etwa: Kaum jemand versagt darin, 12 + 13 auszurechnen. Aber wie steht es mit dem direkten Übersehen von ab 1 1 1 = a + b? a + b So etwas sollte auch dann noch gehen, wenn a, b wiederum kompliziertere Ausdrücke sind. (Im Beispiel sollte man nicht die Summe im Nenner bilden und dann den Kehrwert, sondern mit ab erweitern). 1+ √ 1 x+1 Noch ein Beispiel: Wie kann man die Nullstellen sehen von 1 − √x+1 ? Hier ist vorauszusehen, dass die Form ’ein doppelbruchfreier Bruch’ erreicht werden kann und hilft: √ 1 1 + √x+1 x− x+1 1− √ = . x+1 x+1 √ Übersehen Sie das schnell? Also weiter mit Bruchrechnung: Eine Nullstelle x muss erfüllen: x− x + 1 = 0, √ aber x+1 = 0. Es bleibt die Gleichung x = x + 1. Steht die Unbestimmte unter einem Funktionszeichen (hier Wurzel), so versucht man es stets mit Anwendung der Umkehrfunktion, was natürlich nur in einfa√ chen Fällen gelingt. Hier: x2 = x+1, also x = 12 ± 12 5. Nun würden viele Anfänger hereinfallen und diese beiden Nullstellen angeben. Aber die quadratische Gleichung ist nicht gleichwertig zur ursprünglichen, sondern nur eine Folgerung davon. Eine Lösung der ursprünglichen√Gleichung muss also unter den beiden Lösungen der quadratischen Gleichung sein. Ferner folgt aus x = x + 1, dass x√> 0. Tatsächlich ist die √ Bedingung x = x + 1 gleichwertig zu x2 = x+ 1 und x > 0. Also ist x0 = 12 + 12 5 die einzige Nullstelle. 3.3. Potenzrechnung. Bei √ Potenzen denke man nicht nur an natürliche Exponenten wie a5 , son4 3/4 dern auch an gebrochene: a = a3 (nur für a ≥ 0 definiert), an die negativen: a−x = a1x , später auch daran, dass die Exponenten beliebige reelle Zahlen sein dürfen. Grundlegende allgemeingültige Formeln, 14 1. M ENGEN, ZAHLENM ENGEN, ABBILDUNGEN, LOGIK, RECHNEN die man kennen sollte - a > 0 ist vorauszusetzen: a0 ax ay (ax )y = 1 = ax+y = axy √ √ 3 √ √ 4 Es folgt zum Beispiel: ab = a b für a, b ≥ 0. Auch a6 a3 = a3 . Oder a8 a4 = a3 . Es sollte bewusst √ √ √ sein, dass (a + b)n nicht etwa an + bn ist, a + b nicht etwa a + b. 3.4. Das große Summenzeichen und Ähnliches. Wenn man eine Summe hat wie a1 + a2 + ... + a1000 , so benötigt man wohlwollende Ergänzung des Lesers bei den Pünktchen, außerdem ist die Schreibweise nicht sehr praktisch. Drastischer wird das noch etwa bei (a11 + a12 + ... + a1n ) + ...(am1 + am2 + ... + amn ). Summen beliebig festzulegender Längen oder gar unendlicher haben wir sehr oft zu bilden. Daher definieren wir nach dem Prinzip der Rekursion: 0 ak := 0, k=1 n+1 n ak := k=1 ak + an+1 . k=1 Man denke aber stets auch noch anschaulich mit den Pünktchen: n k=1 ak = a1 + ... + an (für n ≥ 1). Diese Bildung führt man auch mit anderen Verknüpfungszeichen analog aus, etwa Oder für Mengen: n n k=1 k=1 ak = a1 · ... · an für n ≥ 1. An = A1 ∩ ... ∩ An für n ≥ 1. Wir haben ein paar für das Weitere sehr nützliche Rechengesetze für das große Summenzeichen, die einfach aus den Rechengesetzen für die Addition sowie dem Distributivgesetz folgen - die Klammern in der dritten Zeile könnten fehlen, sie sollen nur das genaue Lesen unterstützen: n c = nc k=1 n ak + k=1 n bk k=1 n cak n = (ak + bk ) k=1 n = c k=1 ak k=1 m n m m n n ai bj = ai bj = bj ai i=1 j=1 m n i=1 ai bj i=1 j=1 Beispiele: = j=1 j=1 i=1 ai bj 1≤i≤m, 1≤j≤n n n+1 n n n n n (ak+1 − ak ) = ak − ak = an+1 − a1 , (ak + bk )2 = a2k + b2k + 2 ak bk . (Zuk=1 k=2 k=1 k=1 k=1 k=1 k=1 nächst die binomische Formel auf (ak + bk )2 im Innern der Summe anwenden, dann auseinanderziehen.) n 3.5. Die Binomialkoeffizienten. Wenn man (x + y) für n ∈ N ausmultipliziert, so erhält man nach Distributivgesetz ’jeder mit jedem’ lauter Glieder xk yn−k , 0 ≤ k ≤ n. Zu diesen Gliedern gehört ein Vorfaktor (’Koeffizient’), und dann wird alles addiert. Nun tritt xk y n−k genau so oft auf, wie man aus den n Faktoren x + y das Glied x k mal, y entsprechend n − k mal auswählen kann. Diese Anzahl kann man wie folgt ausrechnen: Wir benötigen eine kleine Vorbereitung: Wie viele Möglichkeiten gibt es, k Objekte anzuordnen? Nennen wir diese Anzahl g(k) Für k = 0 ist das ein wenig merkwürdig, aber man kann sagen: Da ist nichts anzuordnen, und es gibt genau eine Möglichkeit, nichts zu tun. Also g (0) = 1. Für k = 1 ist klar: 3. ELEM ENTARE GRUNDKENNTNISSE ZUM RECHNEN 15 g(1) = 1. Weiter g(2) = 2. Aber wie geht es weiter? Abzählen hilft nicht bei großem k.Aber wir erhalten folgende Rekursionsformel: g(k+1) = (k + 1) g (k) . Begründung: Aus den k+1 Objekten wählen wir eines aus, bestimmen für dies den Ordnungsplatz. Das kann man auf k + 1 Weisen tun. Der Rest kann auf g (k) Weisen angeordnet werden. Also multiplizieren sich diese Anzahlen zu g(k + 1), was die Rekursionsformel ergibt. Nach dem Prinzip der Definition durch Rekursion ist mit g (0) = 1, g (k + 1) = (k + 1) g (k) eine k eindeutige Funktion bestimmt, und man sieht sofort, dass g (k) = m für k ≥ 1. Man schreibt nun k! m=1 (lies: ’k Fakultät’) für g(k) und hat: S 3. Die Anzahl der Anordnungen einer Menge von k Elementen (k ∈ N0 ) ist k!, wobei 0! = 1, (k + 1)! = (k + 1) k!. k! ist auch die Anzahl der Bijektionen einer Menge von k Elementen auf sich selbst. S 4. Sei f(n,k) für 0 ≤ k ≤ n die Anzahl der Möglichkeiten, k Elemente aus einer Menge mit n Elementen auszuwählen. Dann gilt: n n! . f(n, k) = := k! (n − k)! k (Man liest das Symbol nk : ’n über k’.) Folgerung: (x + y)n = n n k n−k x y k k=0 Die Formel ist schnell begründet: Für k = 0 stimmt sie offenbar: Kein Element auszuwählen, dafür hat man offenbar genau eine Möglichkeit. Wählt man k Elemente aus, k > 0, entsprechend n ≥ k > 0, so hat man n Möglichkeiten für die erste Auswahl des ersten Elementes, für die nächste n − 1, usw. k−1 Das macht (n − m) Möglichkeiten, da die Anzahlen für die Einzelschritte zu multiplizieren sind. m=0 Diese Zahl muss man durch k! teilen, da sie die Anzahl der Möglichkeiten ist, k Elemente in einer ganz k−1 (n−m) bestimmten Reihenfolge auszuwählen. Nun erweitert man den Bruch n! k!(n−k)! . Alternativ könnte man auch die Rekursionsformel n+1 n n = + , 1≤k≤n k k−1 k m=0 k! mit (n − k)! und erhält beweisen durch direktes Ausrechnen (Bruchrechnung!), und zeigen, dass die Funktion f (n, k) diese Rekursionsformel erfüllt. (Die Randfälle f (n, 0) = 1 und f (n, n) = 1 sind ohnehin klar.) Die Binomialkoeffizienten bilden bekanntlich das Pascalsche Dreieck. KAPITEL 2 Elementare Vektorrechnung und analytische Geometrie Zur naturwissenschaftlichen Motivierung für Vektoren: Eine Geschwindigkeit ist bei näherem Hinsehen nicht einfach eine Zahl ≥ 0 (’so viel Meter pro Sekunde’), sondern es gehört eine Richtung im Raum dazu - selbst im eindimensionalen Raum, durch ein Vorzeichen ausgedrückt. Will man eine Richtung im Raum (wir nehmen den dreidimensionalen Anschauungsraum) und eine Länge in einem mathematischen Objekt beschreiben, so tut man das zweckmäßig auf zwei Weisen: Einmal mit einem geometrischen Pfeil, dessen Richtung die gewünschte angibt und dessen Länge der verlangte Betrag ist. Zweitens beschreibt man einen solchen Pfeil mit seiner Koordinatendarstellung bezüglich eines geeigneten dreidimensionalen Koordinatensystems (das sollte drei unabhängige Achsen haben). Warum braucht man beide Beschreibungen? Mit den Pfeilen kann man Zusammenhänge geometrisch sehen und konstruieren, mit der Koordinatendarstellungen Komplizierteres ausrechnen, notfalls auf einem Computer. Bekanntlich kann man durch Addieren aus Kraftvektoren die resultierende Kraft durch einen einzigen Vektor darstellen. Da sieht man bereits, dass eine Mengen von Vektoren zusammen mit einer Addition eine wichtige Struktur darstellt. Nicht nur Geschwindigkeiten, Beschleunigungen und Drehmomente, auch elektrische und magnetische Feldstärke (je an einem Ort) werden mit Vektoren beschrieben. Auch hier spielt das Summieren eine tragende Rolle, beispielsweise erhält man das elektrische Feld, das von einer Punktladung erzeugt wird, einfach durch ’Überlagern’, d.h. Summieren der Feldvektoren. So kann man also aus einfachen, recht bekannten Feldern sehr komplizierte erzeugen und mathematisch problemlos beschreiben. Dazu kommt der Abbildungsbegriff: Ein elektrostatisches Feld ist ein Vektorfeld, d.h. eine Abbildung, die jedem Raumpunkt genau einen Vektor zuordnet, den Feldvektor an diesem Punkt. Bei einem zeitlich veränderlichen ’Wechselfeld’ kommt noch als weitere unabhängige Variable die Zeit hinzu, das ergibt einfach wieder ein Vektorfeld, nur haben die Eingabevektoren eine Dimension mehr. Eine weitere Motivierung ganz anderer Art kommt hinzu: Naturwissenschaftliche Gegenstände haben vielfach eine geometrische Beschreibungskomponente: Man hat etwa eine elektrische Ladungsverteilung auf einem dreidimensionalen Metallkörper, der eine ganz bestimmte Form besitzt. Dann ist die rechnerisch-geometrische Beschreibung des Körpers grundlegend für alle naturwissenschaftlichen Berechnungen. Das bedeutet: Analytische Geometrie ist ein Grundnahrungsmittel für Naturwissenschaften, nicht etwas für mathematische Spezialisten. Man muss Kurven, Flächen und geometrische Körper im Raum rechnerisch beschreiben, um etwa Gesamtladungen aus Ladungsdichten oder Spannungen aus elektrischen Feldern auszurechnen. Ähnliches gilt natürlich auch für die Energie, die man benötigt, einen starren Körper gewisser Gestalt und Massenverteilung auf eine gewisse Kreiselgeschwindigkeit um eine Achse zu bringen. 1. Affiner Raum und Vektorraum 1.1. Punkte im Anschauungsraum, Ortsvektoren und Koordinatensysteme. Vorbemerkung: Wir denken an die Dimension 3, können aber selbstverständlich jederzeit auf nur zwei Dimensionen spezialisieren, auf der anderen Seite zeigt sich, dass sämtliche Begriffsbildungen dieses Abschnitts für beliebige (endliche) Dimensionen taugen. Dimension 3 hat nur eben für das Unterbringen naturwissenschaftlicher Sachverhalte besondere Bedeutung, und es ist wichtig, die Anschauung in drei Dimensionen zu schulen. (Diese Anschauung kann man dann mit großem Gewinn auf höhere Dimensionen einfach übertragen.) Die Menge aller Punkte des dreidimensionalen Anschauungsraums bezeichnen wir mit E 3 , die Elemente mit Großbuchstaben P, Q, P1 usw. Wir legen einen beliebigen Punkt O ∈ E 3 fest und stellen → bezogen auf O jeden Punkt P durch einen Vektorpfeil dar, der von O nach P geht. Das ist − xO P , der 17 18 2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE → Ortsvektor von P bezüglich O. Die Menge V3O ist die Menge aller Ortsvektoren bezüglich O. − xO O speziell ist der ’Nullvektor’ (ein zum Punkt degenerierter Pfeil). Wir haben damit eine Bijektion E 3 → V3O . → P → − xO P Wir können die Punkte des E 3 und damit auch die Ortsvektoren zahlenmäßig erfassen, indem wir ein Koordinatensystem L wählen, das seinen Ursprung in O hat und drei unabhängige Achsen (genannt x, y, z−Achse), mit angegebenen Einheiten und Orientierungen ’positiv-negativ’, die nicht in einer Ebene liegen. Wir identifizieren die Achsen jeweils mit der reellen Zahlengeraden. Man erhält zum Punkt P → (gleichwertig: zum Ortsvektor − xO P ) wie folgt eindeutig ein Zahlentripel und umgekehrt zu jedem Zahlentripel eindeutig einen Punkt bzw. Ortsvektor: P wird parallel zur z− Achse auf die xy− Ebene projiziert, dann der Projektionspunkt auf parallel zur x− Achse auf die y− Achse und parallel zur y− Achse auf die x− Achse. Die abgelesenen Zahlen sind die y− Koordinate yPL und x− Koordinate xL P . Analog erhält man etwa nach Projektion von P auf die xz− Ebene parallel zur y− Achse und anschließender Projektion auf die z− Achse parallel zur y− Achse die z− Koordinate zPL . Folgendes Bild zeigt ein Koordinatensystem als Dreibein, einen Punkt und diese Projektionsvorgänge. z xP P xP zP y x yP Damit haben wir Bijektionen E3 3 → R xL P → P → yPL =: − xL P (lies: ’Koordinatendarstellung von P bezüglich K’) L zP → → und entsprechend V3O → R3 , − x P → − xL P . (Ortsvektoren bekommen also dieselben Koordinatendarstellungen wie die zugehörigen Punkte.) Kartesische Systeme: Wir haben nicht vorausgesetzt, dass die Achsen senkrecht aufeinander stehen, auch nicht gleiche Länge der Einheiten auf den Achsen. Ist beides der Fall, so heißt das System K kartesisch. Beim Umgang mit Längen, Winkeln, Skalar- und Vektorprodukt brauchen wir solche, vorher aber noch nicht. Bei dreidimensionalen Koordinatensystemen wählt man die Achsen für ein kartesisches System zusätzlich so, dass sie ein Rechtssystem bilden, d.h. wie Daumen, Zeigefinger und Mittelfinger der rechten Hand angeordnet sind. Erst bei Skalarprodukt und Vektorprodukt benötigt man zur praktischen Erfüllung der sich stellenden Aufgaben kartesische Systeme; für die im Folgenden besprochenen linearen Operationen allein können die Systeme beliebig sein. Den Nutzen der Ortsvektoren sehen wir im Abschnitt 1.4. 1.2. Affiner Raum und freie Vektoren, Vektorraumbegriff. Im vorigen Abschnitt haben wir naiv dem Anschauungsraum bereits eine Euklidische Struktur (mit Längen- und Winkelbegriff) unterstellt, aber die gehört hier eigentlich noch gar nicht her, sondern nur die des affinen Raums. Wir setzen 1. AFFINER RAUM UND VEKTORRAUM 19 nur voraus, dass E 3 ein affiner Raum ist. Das bedeutet: Hat man zwei Punkte P, Q, so kann die Strecke von P nach Q (dargestellt durch einen Pfeil von P nach Q) von jedem anderen Punkt R aus in eindeutiger Weise abgetragen werden. Das heißt: Der Pfeil von P nach Q kann eindeutig parallel verschoben werden, so dass er in R beginnt und entsprechend einem eindeutig bestimmten Punkt S endet. Im Falle P = Q ist der Pfeil wieder degeneriert. Zweitens verlangen wir: Jeder Pfeil zwischen zwei Punkten kann eindeutig gestreckt werden mit beliebiger Zahl α ∈ R, so dass seine Länge sich mit |α| multipliziert und im Falle α < 0 seine Pfeilrichtung zusätzlich umgedreht wird. Multiplikation mit α = 1 ändert nichts am Pfeil. Dabei soll die erwähnte Parallelverschiebung mit der Streckung vertauschbar sein. Man beachte: Dies bedeutet einen Längenvergleich nur in einer Raumrichtung jeweils - Strecken verschiedener Raumrichtungen können nicht miteinander verglichen werden. Außerdem hat man nur den Winkelbegriff: ’parallel - nicht parallel’, mehr nicht. Schließlich bilden wir eine Summe von Pfeilen: Der Pfeil von P nach Q plus der Pfeil von Q nach R ist der Pfeil von P nach R, für alle Punkte P, Q, R ∈ E 3 . Auch für die Summe fordern wir die Vertauschbarkeit mit der Parallelverschiebung. Schließlich verlangen wir die Vertauschbarkeit der Summenbildung (konkreter Pfeile) mit allen Streckungen sowie: Strecken mit β, dann mit α ergibt Strecken mit αβ, und Strecken mit α + β ergibt dasselbe wie Addition der Pfeile, die durch Strecken mit α bzw. β entstehen. Damit können wir aufsetzen: −−→ → Ein freier Vektor − x = P Q ist die Menge (Klasse) aller Pfeile, die durch Parallelverschiebung des Pfeils von P nach Q entstehen. Dieser Pfeil selbst ist ein Repräsentant dieser Klasse. Mit V3 bezeichnen wir die Menge aller freien Vektoren. Zunächst haben wir folgende Koordinatendarstellungsabbildung für → die freien Vektoren: Es sei wieder ein Koordinatensystem L gegeben. Dann ist − x L die Koordinatendar− → stellung des Repräsentanten von x , der Ortsvektor ist, also in O beginnt. Wir haben also eine Bijektion V3 → R3 . Nun zu den wichtigen Rechenoperationen in V3 : − −→ → → → Die Summe zweier freier Vektoren − x ,− y erhält man so: Man wählt Repräsentanten, so dass − x = PQ − − → − → → → → und − y = QR, dann definiert man − x +− y := P R. Es kommt also die Klasse der Pfeile heraus, die durch Parallelverschieben des Pfeils von P nach R entstehen. Folgendes Bild zeigt die geometrische Vektoraddition. Es zeigt auch, dass bei ’Hintereinandersetzen’ und ’Parallelogrammergänzung’ dasselbe herauskommt - es sollte klar sein, dass die Bilder stets nur Repräsentanten der freien Vektoren zeigen. b a a+b b a −− → → Die Multiplikation eines freien Vektors − x = P Q mit einer Zahl α ∈ R erklärt man entsprechend: → α− x := die Klasse der Pfeile, die durch Parallelverschiebung aus einem mit α gestreckten Repräsentanten hervorgehen. Bemerkung: Dass diese Operationen eindeutige Resultate liefern, unabhängig von der Repräsentantenwahl jeweils, folgt aus den oben verlangten Vertauschbarkeiten mit der Parallelverschie−− → − → bung.) Der Vektor P P heißt Nullvektor und wird mit 0 bezeichnet. Folgendes Bild zeigt anschaulich die 20 2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE geometrische Streckung eines Pfeils mit einem Skalar: a (-1)a 2a Diese beiden Operationen: Addition von Vektoren und Multiplikation eines Vektors mit einer reellen Zahl (einem Skalar) heißen die linearen Operationen. − → Damit wird V3 zu einem Vektorraum über dem Körper R, das heißt: V3 , +, ·, 0 hat die in folgender Definition festgelegten Eigenschaften: − → D 1. Es sei (K, +, ·, 0, 1) ein Körper. Eine Menge V mit 0 ∈ V sei gegeben mit einer inneren Verknüpfung + : V × V → V und einer äußeren Verknüpfung · : K × V → V. heißt Vektorraum → → → über dem Körper (K, +, ·, 0, 1) , wenn folgendes Axiomensystem erfüllt ist: Für alle − x,− y,− z ∈ V und alle Zahlen α, β ∈ K gilt: → − − → x + − y +→ z − → − 0 +→ x − → − → −x + x − → → x +− y − → (αβ) x → (α + β) − x − → − → α x + y = = = = = = = − → → → x +− y +− z − → x − → 0 − → → y +− x − → α βx → → α− x + β− x − → − → αx +αy → → 1·− x = − x Bemerkung: Wie üblich haben wir Multiplikationszeichen sowohl bei ’Zahl mal Vektor’ als auch ’Zahl mal Zahl’ fortgelassen außer beim letzten Axiom. Ferner beachte man, dass ’+’ in α+β die Addition → → → der Zahlen im Körper meint, dagegen ’+’ in − x +− y die Addition der Vektoren in V . Ebenso ist bei α− x − → die Multiplikation des Skalars (der Zahl) α mit dem Vektor x gemeint, aber bei αβ die Multiplikation der Zahlen α, β im Körper. Eigentlich hätte man das wie +V , +K und ·V , ·K zur Unterscheidung schreiben müssen, aber das wäre sehr unübersichtlich. Außerdem ist die Nichtunterscheidung in der Bezeichnung gerechtfertigt duch folgende Tatsache, die sich aus den Axiomen ergibt: Man rechnet mit Ausdrücken der Vektorrechnung (Zahlterme und Vektorterme mit den linearen Operationen) wie mit Zahlen, nur kann man nicht etwa durch Vektoren teilen. − → Es ist zu beobachten, dass V, +, 0 mit den ersten vier Axiomen gerade eine abelsche Gruppe wird. Sehr wichtig sind die beiden Distributivgesetze (vorletztes und drittletztes Axiom). 1. AFFINER RAUM UND VEKTORRAUM 21 Zur Begründung der Gültigkeit der Axiome für V3 wollen nur zwei Bilder zeigen, welche das Assozia− → − → − → − → − → → 5 5 5 tivgesetz a + b + c = ( a + b)+ c und das Distributivgesetz λ a + b = λ− a + λ5b veranschaulichen: a b b+c a+b c (a+b)+c = a+(b+c) λb λa λ (a+b) b a a+b Bei einem Vektorraum trifft man stets folgende Definiton und kann die anschließenden Folgerungen ziehen: → → → → D 2 (Differenz von Vektoren). − x −− y := − x + −− y Anschaulich hat man: a-b b a 22 2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE − → → − → → Man verifiziere im Bild: b + − a − b =− a , und merke sich die Anordnung. → → F 1. Für alle Vektoren − x ,− y ∈ V und alle Zahlen α ∈ K gilt: − → − → 0x = 0 → → → → (−α)− x = − α− x , insbesondere − − x = (−1) − x − → − → − → − → α x − y = αx −αy. → − → − → − → → → → → Begründungen liefert man leicht: 0 = 0 + 0 , also 0− x = (0 + 0) − x = 0− x + 0− x , Addition von − 0− x − → − → − → − → liefert nun mit Assoziativgesetz und Inversengesetz 0 = 0 x . Zur zweiten Gleichung: (−α) x + α x = − − → → → → (−α + α) − x = 0− x = 0 . Addition von − α x auf beiden Seiten führt Es − − − − zur gewünschten − Gleichung. → − → → → − → → − → → − → − → folgt dann die dritte über α x − y = α x + − y = α x + α − y = α x + −α y = α x − α y . Mit den Rechengesetzen sollte klar sein, dass man jeden Ausdruck der Vektorrechnung (ausschließlich → → mit den linearen Operationen gebildet) in den Vektor-Buchstaben − a 1 , ...− a n in folgende Endform bringen n − → − → − → kann: λk a k . das nennt man eine Linearkombination der a 1 , ... a n . Vertiefendes zur Vektorraumk=1 struktur folgt im Kapitel 4 über lineare Algebra. 1.3. Die Vektorräume V3O und R3 , Vektorrechnung in Koordinatenform. In offensichtlicher Weise liefert V3O ebenfalls einen Vektorraum: Um zwei Ortsvektoren zu addieren und einen solchen herauszubekommen, addiert man die zugehörigen freien Vektoren, von denen die gegebenen Ortsvektoren − → → x P,− x Q Repräsentanten sind, von der Summe dieser freien Vektoren wählt man den Repräsentanten, der → → → von O startet. Das ist − xP +− x Q . Analog kann man α− x P bilden, indem man einfach nur den konkreten Ortsvektor streckt. Dann sind die Axiome ebenfalls erfüllt. Anwendung: Die komplexen Zahlen bilden insbesondere einen Vektorraum über R, den man gerade als V2O veranschaulicht. Ferner bildet die Menge der Zahlentripel R3 einen Vektorraum über R mit folgenden linearen Operationen: a x a+x b + y : = b + y , c z c+z a αa α b : = αb . c αc Es werden die Operationen also ’komponentenweise’ gebildet. Die Verifikation der Axiome ist sehr einfach und folgt direkt aus den Rechengesetzen im Körper (daher kann man die Konstruktion für beliebige Körper ausführen.) Wir geben ein Beispiel dafür, wie man in solchen Fällen mit den Definitionen der Operationen und den Rechengesetzen in R schließt: a x a+x α(a + x) α b + y = α b + y = α(b + y) Def. + Def. · c z c+z α(c + z) αa + αx αa αx αb + αy = αb + αy = Distributivgesetz in R Def. + αc + αz αc αz a x = α b + α y Def. · c z Nun haben wir in 1.1 den Ortsvektoren Koordinatendarstellungen zugeordnet, in 1.2 auch den freien Vektoren. In V3 haben wir die linearen Operationen, auch im R3 . Man möchte etwa Kräfte addieren, → → dargestellt durch freie geometrische Vektoren. Man bildet also − x +− y geometrisch als resultierende Kraft → → (’Kräfteparallelogramm’ !). Aber genau dies Resultat (genauer: die Koordinatendarstellung von − x +− y in − → → L − L L, möchte man auch ausrechnen, gegeben x , y . Dafür benötigt man den entscheidenden Sachverhalt: − L − → → → x +− y =→ x L +− y L . Ebenso für die Multiplikation mit Skalaren. Es soll also das geometrische Rechnen 1. AFFINER RAUM UND VEKTORRAUM 23 mit Vektoren dem Rechnen mit den Koordinatendarstellungen genau entsprechen. Glücklicherweise ist das so, wie wir festhalten im S 5. Die linearen Operationen sind mit den Koordinatendarstellungen vertauschbar, für jedes Koordinatensystem L gilt: − L → → → → x +− y = − xL +− y L (links: + in V3 , rechts: + in R3 ) − L →L α→ x = α − x (links: Zahl mal geom. Vektor, rechts: Zahl mal Zahlentripel) → → x →− x L ist damit ein Vektorraumisomorphismus, da sie eine Bijektion ist, Die Abbildung V3 → R3 , − → → welche mit den linearen Operationen vertauscht. Analog ist auch V3O → R3 , − x P →− xL P ein Vektorraumisomorphismus. Zum Verständnis schaue man folgende zweidimensionalen Bilder an: 1 0.9 y 0.8 0.7 0.6 x 0.5 0.4 x+y 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.4 0.5 0.6 0.7 0.8 0.9 1 1 0.9 0.8 λx 0.7 0.6 0.5 x 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 1 → → Man kann im ersten Bild ablesen, dass die x− Koordinate von − x plus die x− Koordinate von − y die von − → − → → x + y ergibt, ebenso für die y− Koordinaten. Im zweiten Bild sieht man: Die x− Koordinate von λ− x − → ist λ mal die x− Koordinate von x , ebenso für die y− Koordinaten (Strahlensatz!). 1.4. Beschreibung geometrischer Gebilde mit Parameterdarstellungen, in geometrischer Form und in Koordinatenform. Zunächst ein wichtiger Grundgedanke: Ein geometrisches Gebilde (eine Gerade, eine Kreisfläche, ein Würfel als Körper usw.) ist aufzufassen als Menge von Punkten, also Teilmenge von E 3 . Gleichwertig als Menge der zugehörigen Ortsvektoren, also Teilmenge von V3O . Wieder gleichwertig über ein Koordinatensystem L als Menge von Zahlentripeln, Teilmenge von R3 . Dies 24 2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE Zusammenspiel entfaltet seine volle Nützlichkeit erst zusammen mit den Vektorraumoperationen, die man mit allen beteiligten Objekten ausführt. Wir wollen mit einem einfachen Beispiel beginnen: Die Menge x x ∈ R beschreibt eine Parabel. x2 Die Menge 2 x ∈ R beschreibt die zum Scheitel verschobene Parabel. 3 2 Um die Parallelverschiebung aller Punkte auszuführen, brauchte man nur den Vektor zu ad3 dieren, hier mit Zahlentripeln ausgeführt, geometrisch: mit Ortsvektoren (Parallelogrammergänzung für die Summenbildung). Dass man aber die Parallelverschiebung mittels der Addition eines festen Vektors bekommt, sieht man besser geometrisch mit den Pfeilen ein. Dazu noch eine Erleichterung: Summenbildung mit Parallelogrammergänzung ist schwerfälliger als Summenbildung mit Hintereinanderschaltung von Pfeilen. Daher legen wir fest: Ortsvektor plus freier Vektor ergibt einen Ortsvektor. Dazu nehmen wir uns die Freiheit, die Differenz zweier Ortsvektoren als freien (Richtungs-)Vektor aufzufassen. Auf diese Weise gelingt es mühelos, die Gerade g im Raum zu beschreiben, welche P enthält und deren Richtung − → → mit dem freien Vektor − a = 0 beschrieben ist: 1.4.1. Parameterdarstellung einer Geraden. Man betrachte das Bild: x+2 x2 + 3 xP+(-1)a P a xP xP+a O xP+2a g Damit sieht man leicht ein: → → → g = R ∈ E 3 ∃λ ∈ R : − xR = − x P + λ− a . Diese mühsame Darstellung verwendet man nicht, sondern schreibt praktischer eine Abbildung hin (nur die definierende Gleichung, Definitionsbereich ist R, und Wertebereich ist VO3 , die Menge aller Ortsvektoren zum Ursprung O im dreidimensionalen Anschauungsraum: − → → → x P + λ− a , λ ∈ R. x g (λ) = − → Also: Jeder reellen Zahl λ (freier Parameter) wird der Ortsvektor − x (λ) eindeutig zugeordnet, und die Pfeilspitzen dieser Ortsvektoren durchlaufen die gesamte Gerade g. Die beschriebene Punktmenge (als → Menge von Ortsvektoren) ist Bild − xg . → → → Will man die Gerade durch P und Q beschreiben, so wählt man einfach − a =− xQ −− x P . So weit die − → − → − → geometrische Form, mit geometrischen Vektoren x g (λ) , x P , a . Für eine Koordinatenform ersetzt man sie einfach durch die zugehörigen Koordinatendarstellungen bezüglich eines Systems L. 1. AFFINER RAUM UND VEKTORRAUM 25 1 → 2 + Beispiel: So kann man dann etwa ausrechnen, an welcher Stelle die Gerade − xL g (λ) = 3 2 λ −2 , λ ∈ R, die xy− Ebene schneidet. Das geschieht im Punkt, an dem die z− Koordinate −2 4 → −1 . 3 − 2λ = 0 wird, also für λ = 32 . Somit ist der Schnittpunkt in Koordinatendarstellung: − xL S = 0 4 Wir werden der allgemeinen Gepflogenheit folgen und einfacher sagen: ’der Punkt −1 ’ usw., nach0 dem wir ein für allemal klargestellt haben, dass selbstverständlich das Zahlentripel nur eine Koordinatendarstellung eines Punktes bezüglich eines speziellen Koordinatensystems sein kann. Wir werden noch sehen, dass es sehr nützlich ist, rechnerische Objekte wie Zahlentripel (als Lösungen von Gleichungssystemen etwa) stets auch geometrisch als Punkte aufzufassen. − → − → → 1.4.2. Parameterdarstellung einer Ebene. Sind P ∈ E 3 ein beliebiger Punkt und − a , b = 0 (freie) − → → Vektoren, so dass für keine Zahl λ gilt: − a = λ b , so wird die Ebene E durch den Punkt P mit Richtungs− → − → − → − → vektoren a , b (d.h. a , b liegen beide parallel zu E) beschrieben durch − → → → − → x E (λ, µ) = − x P + λ− a + µ b , λ, µ ∈ R (geometrische Form). → Durchläuft man alle Zahlenpaare λ, µ, so durchlaufen die Pfeilspitzen von − x (λ, µ) alle Punkte der E Ebene E. So weit die geometrische Form, die man mit folgendem Bild einsieht: E b P a xP xP+2a+b O Für die rechnerische Koordinatenform braucht man nur die geometrischen Vektoren durch ihre Koordinatendarstellung bezüglich eines Systems L zu eretzen: − → − → → → x L (λ, µ) = − x L + λ− a L + µ b L , λ, µ ∈ R (Koordinatenform). E P Hier entsteht mit Durchlausfen aller Parameterwerte λ, µ eine Menge von Zahlentripeln. 1.4.3. Beschreibung endlicher Gebilde durch Einschränkung der Parameterbereiche. Will man etwa − → → nur das Parallelogramm mit Eckpunkt P und (freien) Kantenvektoren − a , b beschreiben, als Menge der Ortsvektoren aller Punkte auf der Parallelogrammfläche, so bildet man einfach: − → − → → → x (λ, µ) = − x P + λ− a + µ b , 0 ≤ λ, µ ≤ 1. → → → → Analog für die Strecke von P nach Q: − x (λ) = − xP + λ − xQ −− x P , 0 ≤ λ ≤ 1. Oder für die Kurve, λ → a ≤ λ ≤ b welche den Graphen von f (x) = x2 im Bereich x ∈ [a, b] bildet: − x (λ) = 2 λ 26 2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE 1.4.4. Parameterdarstellung eines Kreises oder einer Ellipse. Wir wollen zunächst den Einheitskreis (gemeint ist genauer die Randkurve!) mit Radius r = 1 und Mittelpunkt im Koordinatenursprung bezüglich eines kartesischen Systemes (hier brauchen wir das!) beschreiben: jeder Ortsvektor eines Kreispunktes hat dann Länge 1 (wir benötigen den Euklidischen Raum, mit Winkeln und Längenvergleich in allen Richtungen, vgl. den nächsten Abschnitt)., und er wird umkehrbar eindeutig durch einen Winkel t beschrieben, 0 ≤ t < 2π, im Bogenmaß, zum Vollwinkel gehört 2π, das entspricht also 360 Grad. Das Bogenmaß wird verwandt, weil das Rechnen damit praktischer ist(!). Nun macht man sich mit den elementaren Dafinitionen am rechtwinkligen Dreieck (Sinus = Länge Gegenkathete : Länge Ankathete usw.) sowie den Vorzeichen fürsin, cos klar: Zum Punkt auf dem Einheitskreis mit dem Winkel t gehört die cos (t) Koordinatendarstellung . Folgendes Bild zeigt die Verhältnisse am Einheitskreis um (0, 0): sin (t) tan(x) 1 x sin(x) cos(x) Dabei ist x die Länge des Kreisbogens, d.h. der Winkel im Bogenmaß. Genauer bekommt man auch negative Werte für x, indem man den Kreis im Uhrzeigersinn durchläuft. (tan wurde zur zusätzlichen Information mit eingezeichnet.) Das liefert folgende (bijektive) Parametrisierung: − → x (t) = cos (t) sin (t) , 0 ≤ t < 2π. (Ohne die Einschränkung des Parameterbereiches würde man den Einheitskreis immer wieder durchlaufen.) Daraus bekommt man mit der die folgende Parametrisierung des Kreises Vektorrechnung mühelos a a cos (t) − → mit Radius r > 0 und Mittelpunkt : y (t) = +r , 0 ≤ t < 2π. b b sin (t) Wie steht es mit der Parametrisierung eines Kreises im dreidimensionalen Raum? Ganz einfach: Man − → → nimmt zwei beliebige Vektoren − a , b ∈ V3 , die senkrecht aufeinander stehen und Länge 1 haben, dazu den − → → → → → Ortsvektor − x M des gewünschten Mittelpunktes M, und bildet − u (t) = − x M + r cos (t) − a + r sin (t) b , − → → → → 0 ≤ t < 2π. Oder für die gesamte Kreisfläche dieses Kreises: − v (t, s) = − x M + s cos (t) − a + s sin (t) b , 0 ≤ t < 2π, 0 ≤ s ≤ r. Bei Koordinatenform erscheinen fann natürlich Zahlentripel. Für Ellipsen benötigt man lediglich noch einen Faktor für die Streckung (Stauchung) in der einen a cos (t) − → Richtung und einen zweiten für die andere. Speziell hat man x (t) = , 0 ≤ t < 2π, für b sin (t) die Ellipse im E 2 mit Mittelpunkt im Ursprung und Halbachsenlängen a > 0 in x− Richtung, b > 0 in − → → y− Richtung. Entsprechend bringt man diese Faktoren an − a , b in der allgemeineren Form an, um diese Vektoren auf gewünschte Länge zu bringen. 1. AFFINER RAUM UND VEKTORRAUM 27 1.5. Beschreibung durch Parameterdarstellung versus Beschreibung durch Gleichung oder Gleichungssystem - einfache Schlüsse aus ihrer Gestalt. Beginnen wir mit dem Beispiel des Einheiskreises mit Mittelpunkt im Ursprung: Bekannter als eine Parameterdarstellung wie oben dürfte die Gleichungsdarstellung sein: x2 +y 2 = (vgl. wieder den nächsten Abschnitt über Euklidische Räu 1, womit x me) einfach gesagt wird: Ein Vektor , der diese Gleichung löst, hat Länge 1. (Das setzt allerdings ein y kartesisches System voraus.) Wir beschreiben den Kreis (wieder. die Randkurve) aller Punk alsdie Menge x te aus E 2 , welche den Abstand 1 vom Ursprung haben, also als die Menge ∈ R2 x2 + y 2 = 1 . y (Wieder identifizieren wir die Punkte mit den Zahlenpaaren.) Auch die oben angegebene Parameterdar cos (t) stellung liefert genau diese Menge, in der Form 0 ≤ t < 2π . Wir können sagen, dass eine sin (t) Parameterdarstellung die jeweilige geometrische Menge in ausgerechneter Form angibt. Zugleich liefert sie ein Verfahren, das nur Punkte der Figur liefert, so viele, wie man will. Also braucht man Parameterdarstellungen zweckmäßig, um eine geometrische Menge auf den Computerbildschrim zu bekommen. Später werden wir sehen, dass ’Integrieren über eine Kurve / Fläche’ sehr wichtige naturwissenschaftliche Vorgänge sind. Dafür benötigt man unbedingt Parameterdarstellungen für die betreffenden Kurven oder Flächen, Gleichungsdarstellung reicht nicht. Andererseits kommen wir auch nicht ohne die Gleichungsdarstellung aus. Einmal kann die naheliegende einfachste Beschreibung einer geometrischen Menge erst einmal zu einer Gleichungsdarstellung führen. Zweitens gibt es aber auch Aufgaben, welche mit einer Gleichungsdarstellung viel leichter auszuführen sind als mit Parameterdarstellung. Betrachten wir dazu folgendes Beispiel: Welche Punkte auf dem Einheitskreis liegen auch auf der Geraden y = −2x + 3? Für diese Schnittaufgabe bildet man mit den Gleichungsdarstellungen für Kreis und gerade einfach das Gleichungssystem x2 + y 2 y = 1 = −2x + 1, Einsetzen von −2x + 1 für y in die erste Zeile ergibt x2 + (1 − 2x)2 = 1, diese quadratische Gleichung in Normalform gebracht: 5x2 − 4x = 0, mit Lösungen x1 = 0, x2 = 45 . Einsetzen in die zweite Gleichung 8 3 liefert die zugehörigen y− Werte: y1 = 1, y2 = − 5 + 1 = − 5 . Also haben wir die beiden Schnittpunkte 0 4 und 15 . Das war schon nicht ganz leicht, weil es sich um ein nichtlineares Gleichungs1 −3 system handelt - solche machen im allgemeinen Fall beliebig viel Schwierigkeiten. Wir wollen aber noch sehen, dass Verwenden von Parameterdarstellungen im selben Beispiel zu Schlimmerem führt: durchaus λ → Mit Verwenden der naheliegenden Parameterdarstellung − x (λ) = , λ ∈ R, hätte man −2λ + 1 gleichzusetzen: cos (t) = λ sin (t) = −2λ + 1 Das ist erst einmal ein schwierigeres System als das vorige. Natürlich schafft man das noch, indem man sin (t) = ± 1 − cos2 (t) nutzt und damit ± 1 − λ2 = −2λ + 1 erhält. Das ergibt die gleichwertige (wegen ±) Folgerung 1 − λ2 = (−2λ + 1)2 , mit den Lösungen λ1 = 0, λ2 = 45 . Nun ist man immer noch → nicht fertig: Es müssen diese Werte noch in − x (λ) für λ eingesetzt werden, erst dann erhält man die oben angegebenen Schnittpunkte. Zum Vergleich arbeiten wir noch mit der Parameterdarstellung der Geraden und der Gleichungsdarstellung für den Kreis: Für den Schnitt hätten wir x = λ, y = −2λ + 1 in die 2 Gleichung des Kreises einzusetzen, mit dem Resultat λ2 + (1 − 2λ) = 1, was auf dieselben Werte für λ wie vorhin führt, nur viel bequemer. Allerdings haben wir auch in diesem Falle noch die Parameterwerte → in − x (λ) einzusetzen. Dies Beispiel sollte geklärt haben, dass man beiderlei Darstellungsformen braucht und wie man mit ihnen umgeht. Wir kommen zur Frage, welche Information über ein geometrisches Gebilde aus seiner Beschreibung in Gleichungsform oder Parameterform leicht zu gewinnen ist. Solche Informationen sollte man sich niemals entgehen lassen und sie stets ausdrücklich festhalten. 28 2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE Man möchte stets wissen, welche Dimension eine Punktmenge hat, Dimension Null haben insbesondere alle endlichen Punktmengen. Dimension 1 haben die Kurvenbahnen, Dimension 2 die Flächen, Dimension 3 die Körper (im geometrischen Sinne des Wortes). Allgemeine Punktmengen in höherdimensionalen Räumen haben auch mehr als drei Dimensionen. Ferner möchte man wissen, ob ein Gebilde ’gerade’ ist oder ’krumm’. Erstere nennt man auch lineare Gebilde. Schließlich möchte man etwas über Beschränktheit oder Unbeschränktheit im Raume wissen. Besonders die ersten beiden Fragen kann man im Normalfall ganz leicht bei bloßer Inspektion einer Parameterdarstellung oder Gleichungsdarstellung beantworten, wir stellen die Information in folgender Tabelle zusammen. Unter dem Grundraum verstehen wir dabei die Punktmenge, aus der durch Gleichungen (welche Beziehungen zwischen den koordinaten herstellen) oder durch das Bild einer Parameterdarstellung eine Teilmenge ausgesondert wird. Ferner verstehen wir unter denKomponentenfunktionen einer Parameterdarstellung in Koordinatenform, also f1 (α, β, ...) .. → etwa − x (α, β, ..) = mit beliebiger Raumdimension n die Funktionen f1 , ..., fn . Diese . fn (α, β, ...) werden als Funktionen mit den Parametern als unabhängigen Veränderlichen betrachtet. Gleichung(ssystem) Parameterdarstellung Dimension des Grundraums minus Anzahl Anzahl der freien Parameter der unabhängigen Gleichungen ’Linearität’ nur lineare Gleichungen nur lineare Komponentenfunktionen fi ’Nichtlinearität’ mindestens eine nichtlineare Gleichung mindestens eine der Funktionen fi nichtlinear Dimension Dabei muss man ein wenig vorsichtig sein: Unter ’Anzahl der Gleichungen’ hat man beim Gleichungssystem zu verstehen: Kleinste wählbare Zahl von Gleichungen, unter ’Anzahl der freien Parameter’ bei Parameterdarstellung: Kleinste wählbare Zahl von Parametern. Weiter beziehen sich ’Linearität / Nichtlinearität’ bei den Gebilden nur auf kontinuierliche Gebilde einer Dimension ≥ 1. Allerdings bleibt es sinnvoll und wichtig, bei nichtlinearen Gleichungssystemen oder Komponentenfunktionen diese Eigenschaft auch dann zu beachten, wenn etwa ein Schnittbildungsproblem vorliegt, das entsprechend rechnerisch schwierig wird, aber zugleich nur eine endliche Menge von Punkten herauskommt wie oben. Beispiele zur Anwendung: 1. Beispiel: Im Kreisbeipiel hat man eine Gleichung bei Dimension 2 des Grundraums, es resultiert Dimension 1, eine Kurvenbahn kommt heraus. Bei der Parameterdarstellung sieht man einen freien Parameter , also eine Kurvenbahn. Die Gleichung x2 +y2 = 1 ist nichtlinear, also erwarten wir eine gekrümmte Kurvenbahn. Ebenso sind die Komponentenfunktionen der Parameterdarstellung (sin (t) , cos (t)) nichtlinear, mit demselben Resultat. 2α − 3β → 2. Beispiel: Betrachten wir folgende Parameterdarstellung: − x (α, β) = 1 + 3α − β , α, β ∈ R. −1 + 2β Ein lineares zweidimensionales Gebilde ergibt sich, also eine nicht gekrümmte Fläche, in diesem Falle dank fehlender Parametereinschränkung eine ganze Ebene. Wir werden im nächsten Abschnitt in der Lage sein, daraus bequem eine Gleichungsdarstellung zu machen und diese Darstellung unmittelbar geometrisch zu deuten. Aber wir können schon jetzt verstehen, dass bei Grundmenge R3 eine Gleichungsbedingung wie 2x − 3y + z = 1 eine Ebene darstellt. Zunächst: Die Gleichung ist linear, und die Dimension der Erfüllungsmenge ist 2 = 3 − 1. Dass tatsächlich eine Ebene herauskommt, können wir durch Ausrechnen der Lösungsmenge einsehen: Gibt man x, y frei vor, so bekommt man die Bedingung z = 1 − 2x + 3y. Die Lösungsmenge ist daher x x, y ∈ R . y 1 − 2x + 3y Diese Menge bekommt man gerade als Bild der folgenden Parametrisierungsabbildung: x − → , x, y ∈ R. y y (x, y) = 1 − 2x + 3y 2. LÄNGEN UND W INKEL: EUKLIDISCHER RAUM 29 (Normalerweise würde man griechische Kleinbuchstaben für die freien Parameter vorziehen, das kann und sollte man in solchen Fällen nachträglich noch ändern.) Damit sehen wir unmittelbar ein, dass es sich um eine Ebene handelt, wir stellen noch die Endform mit Aufpunktvektor und Richtungsvektoren her, durch ’Auseinanderziehen’ im Sinne der Addition und Zahlmultiplikation von Zahlentripeln: 0 1 0 − → y (λ, µ) = 0 + λ 0 + µ 1 , λ, µ ∈ R. 1 −2 3 3. Beispiel: Im Grundraum R3 liefert die Gleichung x2 + y 2 = 1 nicht etwa eine Kreislinie, sondern den Mantel des Zylinders, der die z− Achse als Zylinderachse hat und beidseitig unbegrenzt ist; denn über die z− Komponente gibt es keine Bedingung, sie ist frei wählbar. Gemäß Dimensionsregel haben wir Dimension 2 und erwarten eine gekrümmte Fläche. Eine Parametrisierung desselben Zylinders ist einfach: cos (t) − → x (t, z) = sin (t) , 0 ≤ t < 2π, z ∈ R. z Auch daran sähe man: Dimension 2 mit zwei freien Parametern, Krümmung mit den beiden nichtlinearen Komponentenfunktionen. 4. Beispiel: Hat man 4 unabhängige lineare Gleichungen (dazu später mehr im Kapitel ’Lineare Algebra’) mit 6 Unbestimmten, so wird die Lösungsmenge (wenn sie nicht leer ist) zu deuten sein als vierdimensionaler affiner Teilraum des R6 . Eine Parameterdarstellung der Lösungsmenge bekommt man in Verallgemeinerung der Parameterdarstellung von Ebenen im R3 so: Aufpunktvektor plus erster freier Parameter mal erster Richtungsvektor plus ... vierter freier Parameter mal vierter Richtungsvektor. Zur Frage der Beschränktheit / Unbeschränktheit beschriebener geometrischer Gebilde: Bei Parameterdarstellungen sieht man zuweilen recht leicht Beschränktheit insgesamt oder in gewissen Richtungen anhand einschänkender Bedingungen bei den zulässigen Parameterwerten, also am Definitionsbereich der Parametrisierungsabbildung. Allerdings ist das auch nicht ganz zuverlässig, sondern t → man braucht genauere Inspektion. Etwa bei − x (t) = , 0 < t < 1, hat man keine Beschränkt1/t heit der Kurvenbahn. Auch bei Gleichungsdarstellung benötigt man nähere Untersuchung der Frage: x2 + y2 + z 2 = 1 in der Grundmenge R3 stellt die Oberfläche der Einheitskugel dar. Weil Quadrate positiv sind, darf keine der Komponenten einen Betrag über 1 haben, also ist das Gebilde beschränkt. Dagegen hätte man bei x2 + y2 = z 2 beliebig groß wählbare Werte von x, z. Es handelt sich um den unbegrenzten Doppelkegel, dessen Achse die z− Achse ist und dessen Querschnitte parallel zur xy− Ebene Kreise sind, mit Öffnungswinkel 90 Grad. 2. Längen und Winkel: Euklidischer Raum Wie bereits erwähnt, können wir mit den linearen (Vektorraum-) Operationen nichts über Längen − → − → → → → → und Winkel sagen außer: α− a ist bei − a = 0 gerade |α| mal so lang wie − a , und − a ist parallel zu b genau − → − → → → dann, wenn λ− a = b oder µ b = − a für eine wählbare Zahl λ oder µ. Dagegen sind die Längen zweier nicht paralleler Vektoren nicht vergleichbar, und es sind keine Winkel außer Null Grad oder 180 Grad ausdrückbar. Wir benötigen das Skalarprodukt, um weiter zu kommen. Zuvor machen wir folgende Generalvoraussetzung beim Rechnen mit Skalarprodukt und Vektorprodukt in Koordinaten: Sämtliche Koordinatensysteme sind als kartesisch vorausgesetzt. 2.1. Betrag (Länge) von Vektoren. Das ist ein Produkt von Vektoren, bei dem eine Zahl (ein Sklar) herauskommt (daher der Name). Wir zeigen, wie man im kartesischen System ist darauf kommt: x x die Länge eines Vektors aus V3 mit Koodinatendarstellung y offenbar: y = x2 + y 2 + z 2 . z z Zunächst weiß man mit Pythagoras Entsprechendes über V2 , aber eine zweite Anwendung des Pythagoras liefert die angegebene Formel - man betrachte das rechtwinklige Dreieck mit dem gegebenen Vektor als Hypotenuse, dessen senkrechte Projektion aus die xy− Ebene als eine und das Lot vom Endpunkt auf die xy− Ebene als zweite Kathete. Es kommt heraus. Länge des Vektors quadriert = (x2 + y 2 ) + z 2 . Noch allgemeiner definieren wir folgende Betragsfunktion auf beliebigem Rn : 30 2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE D 3. || : Rn → R≥0 " x1 # n .. → # $ x2k . k=1 xn → heißt Betragsfunktion. Für geometrische Vektoren − x ∈ Vn wählt man entsprechend als Betrag den Betrag seiner Koordinatendarstellung in einem kartesischen System. Speziell für R1 kommt offenbar der bekannte Betrag von reellen Zahlen heraus. → Bemerkung zur Bezeichnung: Bei Vektoren findet man häufig auch die Bezeichnung − x , mit zwei Strichen also. Das wollen wir für Normen bei Matrizen oder Funktionen reservieren, weil die Unterscheidung zwischen Zahlen und Vektoren klar sein sollte, auch in der Buchstabenbezeichnung bereits. Der Betrag hat folgende wesentlichen algebraischen Eigenschaften - überall da, wo sie erfüllt sind, spricht man von einer Norm oder einem Betrag in einem Vektorraum: D 4. Sei V ein Vektorraum über R. Eine Abbildung || : V → R≥0 heißt Betragsfunktion oder Norm, wenn folgende Aussagen allgemein gelten: − − → → → x = 0 ⇐⇒ − x = 0 − → α→ x = |α| − x − → → − → − → x + y ≤ x + − y. V (mit seinen linearen Operationen) zusammen mit dieser Norm heißt dann normierter Vektorraum. → Man beachte: − x ≥ 0 steckt bereits im angegebenen Wertebereich. Die Ungleichung heißt Dreiecks- ungleichung und ist sehr wichtig. Anschaulich besagt sie im Falle von V3 : Geht man über zwei Kanten eines Dreiecks, so ist der Weg mindestens so lang wie der Weg über die dritte Kante. S 6. Der oben definierte Betrag für Rn erfüllt die Normaxiome. Zum Beweis der ersten Aussage braucht man nur zu wissen, dass eine Summe von Quadraten (und damit deren Wurzel) genau > 0 wird, mindestens eine der Zahlen ungleich Null ist. Ferner dann wenn 2 hat man (αxk ) = α2 x2k = α2 x2k = |α| x2k , was die zweite Aussage zeigt. An der dritten würde man scheitern, sie so ’einfach nachzurechnen’. Wir werden sie aus der Schwarzschen Ungleichung bekommen (im Abschnitt 2.4). − → − → → 2.2. Skalarprodukt. Man hat in einem beliebigen Dreieck mit Kantenvektoren x,− y = 0 - mit → → → → → → W inkel − x,− y bezeichnen wir den von − x und − y eingeschlossenen Winkel: W inkel − x,− y = π/2 ⇐⇒ − 2 2 − → − → − → 2 → x + y = x − y , also liegt ein rechter Winkel genau dann vor, wenn gilt: n k=1 Nun hat man n k=1 x2k + n yk2 = k=1 (xk − yk )2 = k=1 n x2k + k=1 Also liegt ein rechter Winkel genau dann vor, wenn n n (xk − yk )2 . n k=1 yk2 + 2 n xk yk . k=1 xk yk = 0. k=1 → → Mehr noch: Diese Zahl ist > 0 genau dann, wenn der Winkel zwischen − x,− y spitz ist und < 0 genau dann, wenn er stumpf ist. Wir werden im nächsten Unterabschnitt sehen, dass man damit sogar alle Winkel genau quantifizieren kann: Wenn man sie durch das Produkt der Beträge teilt, kommt der Cosinus des Winkels heraus. Zunächst haben wir damit folgende Definition motiviert: 2. LÄNGEN UND W INKEL: EUKLIDISCHER RAUM 31 D 5. Das Standard-Skalarprodukt auf dem Rn ist definiert durch Rn× Rn → R y1 x1 n .. .. xk yk . . , . → k=1 xn yn · : Dass es sich um ein Skalarprodukt handelt, bedeutet die Erfüllung der in der folgenden Definition festgelegten Eigenschaften: D 6. Eine Abbildung · : V × V → R heißt Skalarprodukt auf dem Vektorraum V über R, → → → wenn folgende Eigenschaften gelten, allgemein für − x,− y,− z ∈ V und λ ∈ R : 1. Die Abbildung ist bilinear, d.h. → → − − → → → → → → → → → → → x +− y − z = − x− z +− y− z , ebenso − x − y +→ z = − x− y +− x− z, − → − → − → − → − → − → − → − → λ x y = λ x y , ebenso x λ y = λ x y 2. Die Abbildung − → → → → x− y = − y− x 3. Die Abbildung − → → x ·− x = 0 ⇐⇒ ist symmetrisch, d.h. ist positiv definit, d.h. − → − → x = 0 → Bemerkung zum Begriff der Bilinearität: Halten wir − z fest und betrachten die Abbildung V → − − − → − → − → → − → → → → → → V mit x → x z . Sie ist linear, d.h. vertauscht mit den linearen Operationen: x + y z =− x− z +− y− z. − − − → → → − → Das ist genau die erste Gleichung in der ersten Zeile. Und λ x z = λ x z , die erste Gleichung in der zweiten Zeile. Analog halten wir die erste unabhängige Variable der Abbildung · (des Skalarproduktes) fest und fordern die Linearität der so entstehenden Abbildung V → V. Das sind die beiden anderen Gleichungen. Bilinearität bedeutet also: Linearität in beiden Eingabeschlitzen. Man beachte, dass sich das für die Summe gerade als Distributivgesetz liest, für die Multiplikation mit Skalaren als Vertauschung der Faktoren. Die Symmetrie (2. Eigenschaft) macht das zweite Paar bei der Bilinearität überflüssig, aber es ging auch darum, den Begriff der Bilinearität für sich allein zu definieren, für weitere Zwecke, also etwa das Vektorprodukt. S 7. Das definierte Standard-Skalarprodukt auf dem Rn erfüllt die Eigenschaften, die nach Definition von einem Skalarprodukt verlangt werden. Der Beweis ist sehr einfach nach dem Muster zu führen, das wir oben erwähnten bei dem Beispiel der Verifikation eines Distributivgesetzes für die linearen Operationen auf dem Rn . Er verlangt keine Idee. Die letzte Eigenschaft ergibt sich unmittelbar aus der entsprechenden Betragseigenschaft, man sieht: 2 − → → → x ·− x = − x . Eine positive und eine warnende Bemerkung zum Rechnen mit dem Skalarprodukt: Das Distributivgesetz und die Verschiebbarkeit der Zahlfaktoren garantieren weitgehend eine günstige Regel der Art: Rechnen wie mit reellen Zahlen, nur Vektoren und Zahlen ordentlich unterscheiden, weiterhin nie durch Vektoren teilen. →− → − →− Aber das ist nicht die ganze Wahrheit: Man hat kein ’Assoziativgesetz’ der Form − x→ y − z =→ x − y→ z . Diese Formel ist völlig falsch! Sie stimmt nur in seltenen Ausnahmefällen. Man beachte: Das wäre auch gar kein Assoziativgesetz, weil man je ein Skalarprodukt hat und einmal die lineare Operation Zahl malVektor! →Dass man die gegeneinander austauschen könnte, wird man wohl → → → → → nicht erwarten. Man beachte: − x− y − z ist ein Vektor parallel zu 5z, dagegen − x − y− z ein Vektor par→ allel zu − x . Fazit: Man muss sehr sorgfältig Klammern um Skalarprodukte setzen. Dabei benutzt man →− 2 → → → → → durchaus − x 2 := − y 2 . Außerdem kürze man niemals durch x ·− x , aber − x→ y ist etwas Anderes als − x 2− Vektoren, was sich aus dem Verbot ergibt, durch einen Vektor zu teilen. Aber die Gefahr besteht, dass das (korrekte!) Kürzen durch Beträge = 0 (das sind Zahlen > 0!) verwechselt wird mit dem völlig unsinnigen Kürzen durch Vektoren. Manchmal wird angeführt, das habe im konkreten Fall doch zu einem korrekten Ergebnis geführt. Diese Argumentation ist falsch und sehr gefährlich: Einmal ist eine logisch falsche Argumentation für ein korrektes Resultat (sogar für ein logisch gültiges) stets möglich - das wusste man bereits im Mittelalter! Zum Anderen - und das eben ist das Schlimme, kann man mit einer logisch falschen Argumentation buchstäblich jeden Satz beweisen, er sei noch so falsch. Aus diesem Grunde ist 32 2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE eine logisch falsche Argumentation gar nichts wert. Wenn sie eine oder mehrere gute Ideen enthält, so rettet man die nur durch Vermeiden der logischen Fehler. − → → Ein Beispiel zum korrekten Kürzen durch Beträge: Für − x = 0 hat man: →− − − → − → → − − − → − → → − → − → → x y x y x y x y x y − → − → − → − → x = x = . x = − x = → − → 2 2 2 − 2 x → → → − − x x x x → −→ −→ Schauen Sie sorgfältig nach, dass tatsächlich nur durch eine Zahl gekürzt wird. Aber der Ausdruck x y − x → − x2 kann überhaupt nicht vereinfacht werden! (Mit dem erwähnten Fehler würde man etwa denken, das → → → → Resultat sei einfach − y , aber dort steht ein Vektor parallel zu − x , und − x,− y müssen keineswegs parallel − → − → − → sein. Man prüfe nach, dass im Falle y = x tatsächlich korrekt y herauskommt.) Eine wichtige physikalische Anwendung des Skalarproduktes: Arbeit ist Kraft mal Weg. Aber genauer im Raum: Die Kraft wird durch einen Kraftvektor K erfasst, der Weg ebenfalls durch einen Vektor s, und die Arbeit berechnet sich nicht etwa als Produkt der Beträge, sondern als Skalarprodukt K · s. Das ist also: Kraft in Richtung des Weges genommen. Das hängt zusammen mit der im nächsten Abschnitt zu besprechenden senkrechten Projektion. Später kommt natürlich die weitere Komplikation hinzu, dass Kraft und Ort zeitabhängig sind, ein krummliniger Weg zurückgelegt wird. Dann hat man über K (t) s′ (t) dt zu integrieren. → 2.3. Senkrechte Projektion und Winkel. Die senkrechte Projektion eines Vektors − y auf einen − → − → Vektor x = 0 hat viele wichtige Anwendungen, die Quantifikation der Winkel ist nur eine davon. Eine häufige Anwendung in der Physik: Eine Kraft ist in eine vorgegebene Richtung und eine dazu senkrechte zu zerlegen. → → → → → → Wir wollen einen beliebigen Vektor − y so zerlegen: − y = α− x +− u , so dass − u senkecht auf − x steht. Wir − → werden sehen, dass dies Problem eindeutig lösbar ist. Der Vektor α x heißt dann die senkrechte Projek→ → → → tion von − y auf − x . Die Vektorkomponente parallel zu − x bei dieser Zerlegung haben wir zweckmäßig α− x − → genannt. Interessierende Unbekannte ist nur α, dann auch die Vektor-Unbekannte u . Skalares Anmultipli→ → → → → → → → → → → → zieren von − x an die Vektor-Gleichung − y = α− x +− u führt sofort zu − x− y = α− x− x +− x− u = α− x− x . Denn − → − → x u = 0 mit der gestellten Orthogonalitätsbedingung. Also können wir nach α auflösen und erhalten − → → − → → x− y x− y α= − = 2 . Damit haben wir insgesamt: → → x2 − x − → → → S 8. Die senkrechte Projektion von − y auf einen Vektor − x = 0 ist der Vektor − → → x− y− → − x. → x 2 Daraus resultiert die Zerlegung − → → x− y− → − → − → y = − x + u, → x 2 → −→ − y − → → → → → x. − u steht senkrecht auf − x (was man durch Bilden des Skalarproduktes mit dem Lotvektor − u =− y − x→ − | x |2 sofort sieht). Als weitere Anwendung der senkrechten Projektion hat man die Quantifizierung der Winkel: − → → → S 9. Der Cosinus des Winkels zwischen zwei Vektoren − x,− y = 0 (beide nicht Null) lautet: − → → → − x− y − . cos ϕ − x,→ y = − → x → y → → → → → → Insbesondere − x− y = 0 für senkrecht aufeinander stehende Vektoren − x ,− y (kurz − x ⊥− y ). (Zur Notation: − − → − → → − → → → Den Winkel zwischen x und y nennen wir ϕ x , y , der Cosinuswert davon ist also cos ϕ − x,− y .) Zur Begründung kann man einmal den Winkel als spitz voraussetzen und dann rechnen gemäß Cosinus-Definition im rechtwinkligen Dreieck (Länge der Ankathete zu Länge der Gegenkathete): → → − y − → −x→ − x 2 → − → − x− y |x| → − → = − → . cos ϕ x , y = − → → y x − y 3. VEKTORPRODUKT UND SPATPRODUKT 33 (Zur Vereinfachung des Zählers haben wir die Beispielrechnung im vorigen Abschnitt benutzt.) Da der − − → → → → Winkel als spitz vorausgesetztwurde, ist x y = − x− y , also die Formel für den Fall gezeigt. Für stumpfe − → − → − → → → → Winkel sieht man dann: cos ϕ x , y = − cos ϕ − x ,− y , und zwischen −− x und − y ist spitz, der Winkel − → − → − → − → − → − − x y xy → → − = − − − . Insgesamt: cos ϕ − also mit dem bereits Bewiesenen: cos ϕ −→ x ,− y = − x , y = → → → → xy −xy − → → →− x− y − . − cos ϕ −− x ,→ y = − → x → y Schließlich kannten wir für rechte Winkel das Resultat schon vorher: Dann ist das Skalarprodukt Null. → − → − → → Bemerkung: Der ’Cosinussatz’ besagt einfach: − x− y = cos ϕ − x ,→ y − x → y . Er ergibt sich sofort. → → cos ϕ − Wenn man nun bereits als Wissen voraussetzt, dass x ,− y ≤ 1, so erhält man sofort die Schwarz− − − → − → → → sche Ungleichung, die besagt: x y ≤ x y . Das wollen wir aber nicht tun und stattdessen diese Ungleichung im Geiste der Vektorrechnung beweisen sowie die Dreiecksungleichung für Beträge daraus ableiten. Das praktische Arbeiten erfordert noch die Winkelbestimmung selbst: Mit Umkehrfunktion arccos der − − − x→ y| |→ → − → können wir aus dem Cosinuswert den Winkel ermitteln, bilden also arccos → für ϕ x , y , den − y| |−x ||→ → → Winkel zwischen − x und − y. → → 2.4. Schwarzsche Ungleichung und Dreiecksungleichung. Seien − x ,− y beliebige Vektoren aus − → → → → → → → Rn , aber − x = 0 . Wir zerlegen den Vektor − y so: − y = α− x +− u , wobei α− x die senkrechte Projektion von − → → → → → → y auf − x sei, daher − u ⊥− x , d.h. − u− x = 0. Wir berechnen →2 →2 2 − 2 → → → → → → → → = − x 2 α− x +− u =− x 2 α2 − x + 2α− x− u +− u 2 = α2 − x +→ x 2− u 2 . Andererseits − 2 2 2 2 → → → → → → → = − x α− x +− u = α− x 2 = α2 − x− y x2 . →− → − →− 2 → → → → Weil − x 2− u 2 ≥ 0, folgt − x→ y ≤ − x 2− y 2 und mit Wurzelziehen: − x→ y ≤ − x → y . Genau im Falle →− → − − → − → → → → → u = 0 , gleichwertig: − x nicht parallel zu − y , haben wir sogar − x 2− u 2 > 0, d.h. − x→ y < − x → y . Wenn − → − → x = 0 , so gilt die Ungleichung mit dem Gleichheitszeichen offenbar auch. Damit haben wir folgenden Satz begründet: →− → − S 10 (Schwarzsche Ungleichung). Für beliebige Vektoren gilt − x→ y ≤ − x → y , und Gleichheit besteht genau im Falle der Parallelität der Vektoren (wobei wir den Nullvektor parallel zu jedem nennen). → − 2 → − → − Wir folgern die Dreiecksungleichung − x +→ y ≤ − x + → y . Sie ist gleichwertig zu − x +→ y ≤ − 2 2 2 → → → → → → → → → → → → → → − x + − y . Dies wiederum zu − x +− y ≤− x 2 +− y2 +2 x − y . Aber − x +− y =− x 2 +− y 2 +2− x− y, − → − → − → − → und nach der Schwarzschen Ungleichung ist 2 x y ≤2 x y . →− 2 → → Der Term − x 2− y2 − − x→ y hat eine einfache geometrische Bedeutung: Er stellt den quadrierten − → − → Flächeninhalt des von x , y aufgespannten Parallelogramms dar. Das kann man durch Anwenden der senkrechten Projektion leicht ausrechnen. 3. Vektorprodukt und Spatprodukt In den vorigen Abschnitten wurde zwar der Fall R3 bzw. V3 aus Gründen der Anschaulichkeit bevorzugt, aber sämtliche der dort behandelten Elemente funktionieren allgemein für Rn . In diesem Abschnitt ist das anders: Es handelt sich um Konstruktionen, die ausschließlich in drei Dimensionen möglich sind. Das Vektorprodukt hat mehrere unmittelbare physikalische Anwendungen, und wegen seiner Beziehung zur Elektrizitätslehre ist es auch besonders wichtig für Elektrotechniker. Es kommt in den Maxwellschen Gleichungen vor (in der Form des Differentialoperators rot (’Rotation’, vgl. Mathematik B) und in → einfacher Form bei der Beschreibung der Lorentzkraft, welche auf eine sich mit Geschwindigkeitsvektor − v bewegende Ladung q von einem Magnetfeld mit magnetischem Feldvektor B̃ ausgeübt wird. Diese Kraft → ist q − v × B̃, das Vektorprodukt der beiden Vektoren. Wir geben nunmehr eine geometrische und anschließend eine algebraische Charakterisierung des Vektorproduktes, schließlich die Formel, mittels deren man es in (kartesischen!) Koordinaten ausrechnen kann. 34 2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE − → → D 7 (Geometrische Definition des Vektorprodukts). Es seien − a , b Vektoren im V3 . Dann − → → ist − a × b der Vektor, der eindeutig bestimmt ist durch: − → − → − →→ − →− → − → → → → a × b steht senkrecht auf − a und auf b (also (− a × b )− a = (− a × b ) b = 0. → − → → − → (ii) − a × b = Flächeninhalt des von − a , b aufgespannten Parallelogramms. − → → − → → (iii) − a, b,− a × b bilden in dieser Reihenfolge ein Rechtssystem, − → → wenn − a , b linear unabhängig sind. (i) Folgendes Bild veranschaulicht diese Eigenschaften: a× ×b |a× ×b|=|a||b|sin(α) b α a − → → − → → Man beachte: − a, b,− a × b sind orientiert wie Daumen, Zeigefinger und Mittelfinger der rechten Hand, − → − → → → oder: schraubt man eine Rechtsschraube von − a nach b , so bohrt sie sich in Richtung − a × b . Sehr − → − → → wichtig ist das folgende Cavalieri-Prinzip der Scherung: man den Vektor b durch b + λ− a, Ersetzt − − → → − → − → − → so resultiert dasselbe Vektorprodukt, also a × b + λ a = a × b . Folgendes Bild illustriert diesen Sachverhalt: H=|b|sin(α) S 11 (Algebraische Charakterisierung des Vektorprodukts). Das Vektorprodukt besitzt als Abbildung × : V3 × V3 → V3 − → − → − → − → a, b → a × b die folgenden algebraischen Eigenschaften, und es ist durch diese Eigenschaften wiederum eindeutig be→ stimmt - die Vektoren − e i , 1 ≤ i ≤ 3 sollen ein kartesisches System bilden, also alle Länge 1 haben und 3. VEKTORPRODUKT UND SPATPRODUKT 35 paarweise senkrecht aufeinander stehen und eine Rechtsschraube in ihrer angegebenen Reihenfolge bilden): − → → − → → − − → → − − → → → → → → (i) − a × b +− c = − a × b +− a ×→ c , ebenso − a + b ×− c =→ a ×− c + b ×− c − → − → − → → − → − → → → a × λb = λ(− a × b ), ebenso λ− a × b =λ − a ×b . − → − → → − → (ii) a × b = −( b × − a) − → − → − → − → → → → → → (iii) e 1 × e 2 = e 3, e 2 × − e3 =− e 1, − e3×− e1 =− e2 Diese Eigenschaften bedeuten im Einzelnen: (i) : Bilinearität (vgl. Skalarprodukt, auch das ist bilinear), d.h. Linearität in beiden Eingabeschlitzen. Tatächlich würde man hier wegen (ii) die Forderungen nach ’ebenso’ nicht brauchen. (ii) Antisymmetrie, (iii) Normierung: Mit (iii) und der Antisymmetrie weiß man, was bei Eingabe von Basisvektoren herauskommt, die ein kartesisches Rechtssystem ergeben. Man → kann auch an R3 statt V3 denken und die Einheitvektoren − e i im R3 (i. Komponente 1, alle anderen Komponenten Null). Wir wollen kurz einsehen, wie die in diesem Satz formulierten Eigenschaften (i) − (iii) aus den geometrischen Eigenschaften der Definition folgen: → − → → → − (ii) und (iii) sind unmittelbar klar: Nach geometrischer Definition gilt − a × b = b ×− a , und das − → − − → → ist wegen der Eigenschaften des Betrags wiederum gleich − b × → a . Ferner stehen die Vektoren − a×b − → → − → − → → − → → − →→ − → → → und b × − a senkrecht auf − a , b . Damit b , − a, b ×− a ein Rechtssystem bildet ebenso wie − a , b ,− a × b, − → − → − → → → → muss also − a × b = −( b × − a ) gelten - bei linearer Abhängigkeit von − a , b kommt auf beiden Seiten von (ii) der Nullvektor heraus, also stimmt (ii) dann auch. (iii) folgt sofort aus der geometrischen Definition. Ebenso einfach ist der zweite Teil von (i), der vom Anbringen eines Zahlfaktors handelt: Wenn − → → λ > 0, so vervielfacht sich der Flächeninhalt des von − a , b aufgespannten Parallelogramms mit λ, wenn − → → man zu − a , λ b übergeht, weiter sind die Parallelogramme parallel. Außerdem ändert sich nichts an der − → − → → → Orientierung, also muss nach geometrischer Definition − a ×λb = λ − a × b gelten. Für λ < 0 kommt eine Orientierungsumkehr hinzu, also dasselbe Resultat. Bei λ = 0 kommt klar auf beiden Seiten der Nullvektor heraus. − → → → Wir kommen zum ersten Teil von (i) , welcher ein wenig schwerer einzusehen ist: − a × b +− c = − → − − → − → → − → − → a × b + a × c . Mittels der senkrechten Prokektion zerlegen wir b und c je in einen Vektor senkrecht − → − → − → → → → → → → → → → zu − a und einen Vektor parallel zu − a : b = λ− a+b , b · − a = 0, − c = µ− a +− c ,− c ·− a = 0. Dann 1 haben wir 1 1 1 − → → − → − → → → → a × b +− c = − a × (λ + µ) − a + b1 +− c1 − → → → = − a × b1 +− c 1 (nach dem Cavalieri-Prinzip der Scherung!) − → → → → = − a×b1 +− a ×− c 1 (geometrisch einzusehen!) − → − → − → − → = a × b + a × c (wieder mit Scherung) Nunmehr ist es ganz einfach, aus den algebraischen Eigenschaften der Vektorproduktes die folgende Berechnungsformel in kartesischen Koordinaten herzuleiten: S 12 (Berechnungsformel für das Vektorprodukt in Koordinaten). Es gilt x1 y1 x2 y3 − x3 y2 x2 × y2 = − (x1 y3 − x3 y1 ) . x3 y3 x1 y2 − x2 y1 Merkregel zur Anwendung: Um die i. Komponente des Vektorproduktes auszurechnen, streiche die i. Zeile links und berechne vom verbleibenden (2 × 2) − Zahlenschema (bzw. von dieser (2 × 2) − Matrix) die Determinante als Produkt der Hauptdiagonalen (von links oben nach rechts unten) minus Produkt der Nebendiagonalen. Aber: Füge für die zweite Komponente ein negatives Vorzeichen an. Hinweis: Man kontolliere stets, ob der ausgerechnete Vektor Skalarprodukt Null mit beiden Eingabevektoren ergibt. Das ist sehr schnell und sicher. 36 2. ELEM ENTARE VEKTORRECHNUNG UND ANALYTISCHE GEOMETRIE Beweis: Mit den Eigenschaften des vorigen Satzes haben wir: − → → → → → x1 → e 1 + x2 − e 2 + x3 − e 3 × y1 − e 1 + y2 − e 2 + y3 − e3 → → → → e 2 + x1 y3 − e3 = x1 y2 − e1×− e1×− − → → − → − → +x2 y1 e 2 × e 1 + x2 y3 e 2 × − e3 → → → → e3×− e3×− +x3 y1 − e 1 + x3 y2 − e2 − → → → (x1 y2 − x2 y1 ) e 3 + (− (x1 y3 − x3 y1 )) − e 2 + (x2 y3 − x3 y2 ) − e 1. Für das erste Gleichheitszeichen: Nutze das Distributivgesetz, das Vorziehen von Zahlfaktoren und die − → − → → − → → → → e i = 0 , die sofort aus − a × b = −b × − a folgt. Für das zweite Gleichheitszeichen: Tatsache − ei ×− → → → → → → Nutze (iii) und die sich daraus mit (ii) ergebenden Tatsachen: − e2×− e 1 = −− e 3, − e1 ×− e 3 = −− e 2, − → − → − → e 3 × e 2 = − e 1. Rechenbeispiel: 2 1 1 −3 × 2 = 10 . 4 −3 7 Man rechnet für die erste Komponente: (−3) (−3) − 4 · 2 = 1, für die zweite: 2 (−3) − 4 · 1 = −10, nun negatives Vorzeichen anbringen: Resultat 10. Dritte Komponente: 2 · 2 − (−3) · 1 = 7. Kontrolle: 2 1 1 1 −3 · 10 = 0, 2 · 10 = 0. 4 7 −3 7 Abschließend noch ein Beispiel für das abstrakte Rechnen mit Vektorprodukten gemäß den algebraischen Eigenschaften: − → → − → − → − → → − → → → → 3− a − b × −2− a + 5 b = 15− a ×b −2b ×− a = 17− a × b. 3.1. Das Spatprodukt. Aus dem Skalarprodukt und dem Vektorprodukt kann man (nur für V3 bzw. R3 (!)) folgendes Spatprodukt machen: D 8. Das Spatprodukt ist die Abbildung [] : R3 × R3 × R3 − → − → → a , b ,− c → − R → − − →→ . − → → → → a b × c = [− a , b ,− c] − → → → S 13. Das Spatprodukt hat folgende geometrische Deutung: − a b ×− c ist das Volumen des Spa− →− − → → tes (Schiefquaders), der von den Vektoren a , b , c aufgespannt wird, versehen mit einem Vorzeichen − →→ → für die Orientierung des Systems − a , b ,− c . (Bei Rechtssystemen kommt eine positive Zahl heraus, bei − →→ → Linkssystemen eine negative, bei linear abhängigen Vektoren − a , b ,− c (d.h. wenn einer sich als Linear- kombination der beiden anderen darstellen lässt, so dass der Spat degeneriert) kommt Null heraus. − → → Wir wollen das kurz einsehen: betrachten wir das von b und − c aufgespannte Parallelogramm als → ’Grundfläche’, dann ist die ’Höhe’ des Spats darzustellen durch die senkrechte Projektion von − a auf − → − → b × c , also gemäß ’Volumen gleich Grundflächeninhalt mal Höhenlänge’: − − − → − − → − → → → → − − − a b × c a b × c − → − → → → → − → − → → − V = b ×− c· b ×→ c = b ×− c· b ×→ c = − a b ×→ c . 2 2 → − − → − → b ×→ c b ×− c − →→ − → → → → Ferner ist − a, b ,− c genau dann ein Rechtssystem, wenn der Winkel zwischen − a und b × − c spitz ist, d.h. − → − − → → a b × c > 0. Wir kommen zu den algebraischen Eigenschaften des Spatprodukts (ähnlicher Vorgang wie beim Vektorprodukt!): 3. VEKTORPRODUKT UND SPATPRODUKT 37 S 14. Das Spatprodukt hat folgende algebraischen Eigenschaften: (i) Es ist dreifach (in allen drei Eingabeschlitzen) linear. (ii) Das Vorzeichen kehrt sich um, wenn man zwei der drei Vektoren vertauscht. → → → e2×− (iii) − e1 − e3 = 1 →− − →− → Bemerkung: (ii) kann man in Verbindung mit − (i) auch so ausdrücken: Sind zwei der drei Vektoren a , b , c → → → gleich, so wird das Spatprodukt − a b ×− c Null. Durch diese algebraischen Eigenschaften ist das Spatprodukt wiederum eindeutig bestimmt. Bemerkung: Die Definition des Spatproduktes war beschränkt auf den Fall der Dimension 3, aber die algebraischen Eigenschaften dieses Satzes lassen sich sofort auf n Vektoren im Rn bzw. die (n × n) − Matrix ihrer Komponenten verallgemeinern. Das ergibt dann die Determinante der Matrix, die wiederum die analoge geometrische Deutung besitzt: n− dimensionales Spatvolumen mit Orientierungsvorzeichen. Analog zum Vektorprodukt ergibt sich daraus bereits eindeutig, wie man eine Determinante berechnen muss! Wir verzichten auf eine Begründung des letzten Satzes, die aus der Berechnungsvorschrift in jedem Stück simpel nachzurechnen wäre. Stattdessen möchten wir darauf aufmerksam machen welche elementaren Rechnungen koordinatenfrei auszuführen sind mit großer Leichtigkeit. Dafür ein Beispiel: − → − → → → → → → (2− a + 3 b − 4− c ) −2− a + 3 b × 4− a + 2− c − − − → → − → → → → → → = 2 · 3 · 2− a b ×− c + 3 (−2) 2 b − a ×→ c + (−4) 3 · 4− c b ×− a − → → → = 72− a b ×− c Was man zu tun hat: Nur distributiv rechnen ’jeder mit jedem’, jeden Term mit Vektorwiederholung fortlassen, Faktoren vorziehen, am Ende benutzen, dass − → → − → − → → − − → → → a b ×− c = − c − a ×b = b − c ×→ a − − → → − → → → → → = −b − a ×→ c = −− c b ×− a = −− a − c × 5b . (Die zyklischen Permutationen ändern das Vorzeichen nicht, weil sie aus zwei Austauschschritten bestehen, die ’antizyklischen’ ändern das Vorzeichen.) KAPITEL 3 Komplexe Zahlen Bisher haben wir Zahlkörper gesehen wie Q, R, auf der anderen Seite Vektorräume über R wie insbesondere R2 , R3 . In Vektorräumen konnte man rechnen wie in Körpern, nur eben nie durch Vektoren dividieren - Skalarprodukt und Veltorprodukt eignen sich in keiner Weise für eine Division, da die Ab− → − → − → → → → → bildungen − a −→ − a · b sowie − a −→ − a × b auch im Falle b = 0 nicht umkehrbar sind. Aber es gibt auf R2 (das ist eine große Ausnahme!) eine Körperstruktur (natürlich muss dabei eine Multiplikation im Spiel sein, die nichts mit dem Skalarprodukt zu tun hat), die sehr wichtig ist und in natürlicher Weise die Körperstruktur von R erweitert. Sie war ursprünglich stark innermathematisch motiviert, soch es zeigte sich schnell eine überragende Bedeutung für naturwissenschaftliche Anwendungen, vor allem in Physik und Elektrotechnik. 1. Motivierungen √ Man verwendet die Lösungsformel für quadratische Gleichungen und bekommt bei Bildung von a, a < 0, keine Lösung in R. Denn Quadrate in R sind stets ≥ 0. So führte man ’imaginäre’ Zahlen ein, ’bloß gedachte’, deren Existenz längere Zeit ein wenig unheimlich war, bemerkte, dass man mit einer einzigen Zahl j auskam, welche die Eigenschaft haben sollte: j 2 = −1. (In Mathematik und Physik ist die Bezeichnung ’i’, in der Elektrotechnik ’j’, weil√ man Ströme mit i, I bezeichnet.) Nun überlegt man für √ alle reellen Zahlen a > 0: −a = (−1) a = aj. Mit j kann man also aus allen negativen Zahlen eine √ 2 Wurzel ziehen, genau genommen stets zwei, weil auch ( a (−j)) = −a. Weitere Untersuchung zeigte dann, dass alles Gewünschte mit j im Verein mit den reellen Zahlen funktionierte und dass man die mulmige Frage nach der Existenz mit Gaußscher Konstruktion ohne weiteres klären konnte. (Vgl. den nächsten Abschnitt.) Elektrotechnische Motivation: Man stößt darauf, dass ein Wechselstrom durch einen Betrag und einen Phasenwinkel zu beschreiben ist, und gerade dafür sind komplexe Zahlen geeignet. Außerdem stellt sich die Frage, wie man das überaus praktische Ohmsche Gesetz (Spannungsabfall gleich Widerstand mal Stromstärke) retten kann bei Wechselströmen. Mit reeller Rechnung gelingt dies nicht, weil die Ableitung einer Sinus- oder Cosinusfunktion auf eine Phasenverschiebung hinausläuft. Aber die komplexe Exponentialfunktion erreicht das Ziel, allerdings hat man komplexe Werte für induktive und kapazitive 1 Widerstände zu setzen, jωL für den Widerstand einer Spule und jωC für den eines Kondensators (ω ist dabei die Kreisfrequenz). 2. Konstruktion des Körpers (C, +, ·, 0, 1) Man möchte nicht einfach nur die neue Zahl j haben, sondern eine Erweiterung von R, die wieder einen Körper bildet, in der also die Körperaxiome gelten. Man visiert nun den Bereich aller Zahlen x + jy mit x, y ∈ R an. Diese Zahlen muss der neue Körper jedenfalls enthalten, damit in ihm unbeschränkt Addition und Multiplikation ausführbar sind. Da die Rechengesetze von (R, +, ·, 0, 1) weiterhin gelten sollen und j 2 = −1, sind bereits folgende Regeln für Addition und Multiplikation erzwungen: (a + jb) + (c + jd) = a + c + j (b + d) (a + jb) (c + jd) = ac − bd + j (ad + bc) . Addition und Multiplikation führen offenbar aus unserem Minimalbereich der Zahlen x + jy nicht hinaus. Aber es ist zunächst nicht klar, ob auch die Kehrwerte der Zahlen = 0 darin aufzufinden sind. Es zeigt sich jedoch, dass dies der Fall ist. Dazu nehmen wir zunächst an, zu a + jb = 0, d.h. a = 0 oder b = 0, 39 40 3. KOM PLEXE ZAHLEN a, b ∈ R, hätten wir einen Kehrwert, und schauen nach, wie er dann in der Form x + jy aussehen müsste: 1 1 −b a − jb 1 − jb = = 2 = 2 +j 2 . a + jb (a + jb) (a − jb) a + b2 a + b2 a + b2 1 −b 1 Nun drehen wir den Spieß um und erklären die Zahl a2 +b 2 + j a2 +b2 als a+jb , zeigen mit derselben Rech1 nung andersherum, dass tatsächlich damit a+jb (a + jb) = 1 = 1 + j0 gilt. Das war der kritische Punkt. (Hinweis zur Rechnung: Man sollte den ersten Schritt stets überspringen und wissen, dass das Betragsquadrat von a+jb (als Vektor aus R2 aufgefasst) herauskommt.) Alle anderen Körper-Rechengesetze sind nur auf langweilige Art nachzuprüfen, ohne jede Schwierigkeit. Wir fassen das Ganze zu einer Definition und einem Satz zusammen: D 9. Die Struktur (C, +, ·, 0, 1) ist folgendermaßen definiert: C 0 1 (a + jb) + (c + jd) (a + jb) (c + jd) : : : : : = { x + jy| x, y ∈ R} = 0 + j0 = 1 + j0 = a + c + j (b + d) = (ac − bd) + j (bc + ad) . S 15. (C, +, ·, 0, 1) bildet einen Körper, erfüllt also alle Körperaxiome. Bemerkung: Man kann den Körper (C, +, ·, 0, 1) nicht wie R anordnen, so dass zusätzlich die Ordnungsaxiome gelten, die eine Harmonie zwischen Ordnung und +, · darstellen. Das ergibt sich daraus, dass in einem angeordneten Körper die Zahl 1 positiv sein muss, die Zahl −1 negativ, aber auch jede Quadratzahl positiv oder Null sein muss. Aber in C sind sowohl 1 als auch −1 Quadratzahlen. Daher kann der Körper C nicht zu einem angeordneten Körper gemacht werden. Das ist so weit ein rundes Resultat. Aber es ist wichtig, die komplexen Zahlen auch anschaulich zu a begreifen. Dazu identifizieren wir die Zahl z = a + jb mit dem Zahlenpaar ∈ R2 und verstehen b dies Zahlenpaar wiederum als kartesisches Koordinatenpaar eines Ortsvektors (’Zeigers’). Insbesondere übernehmen wir den Betrag vom R2 mit |a + jb| := a2 + b2 . Die kartesischen Koordinaten a, b von z = a + jb heißen: Re (a + jb) : = a (’Realteil von z = a + jb’, Im (a + jb) : = b (’Imaginärteil von z = a + jb’) - Achtung: b, nicht etwa jb (!) Da sich bei der Addition von komplexen Zahlen einfach die Realteile und die Imaginärteile addieren, haben wir die anschauliche Deutung der Addition: Die Addition der komplexen Zahlen ist die Vektoraddition von Ortsvektoren. Wir heben die bereits oben in der Inversenbildung wichtig gewordene Bildung a + jb → a − jb hervor mit folgender Definition und anschließendem Satz: D 10 (komplexe Konjugation). Folgende Abbildung heißt komplexe Konjugation: : C → C . a + jb → a − jb Anschaulich ist das die Spiegelung an der reellen Achse. S 16. Die Konjugation ist ein Körperautomorphismus von C, der R festlässt, d.h. ein Körperisomorphismus von C auf sich selbst, so dass also z1 + z2 = z1 + z 2 und z1 · z2 = z1 · z 2 und z = z für z ∈ R. Das prüft man sofort durch Rechnung nach. Außerdem merke man sich: zz = |z|2 . 2. KONSTRUKTION DES KÖRPERS (C, +, ·, 0, 1) 41 Folgendes Bild zeigt, was man von komplexen Zahlen in kartesischen Koordinaten verstehen sollte: Im z=a+jb=cos(x)+jsin(x) cos(x) Einheitskreis sin(x) j x 1 Re Konjugierte a-jb von z Die Zahl 1 ist einfach der Zeiger mit Winkel α = 0 und Betrag 1, also der Einheitsvektor in Richtung der reellen Achse, die Zahl j der Zeiger mit Winkel π2 und Betrag 1, also der Einheitsvektor in Richtung der imaginären Achse. Wie wir sahen, kann man in C zu jeder negativen reellen Zahl zwei Quadratwurzeln bestimmen. Offene Frage ist zunächst, ob man auch aus komplexen Zahlen in C wieder Quadratwurzeln findet. Man rechnet mit etwas Mühe nach, dass dies möglich ist. Noch viel allgemeiner ist die Frage, ob jedes Polynom n p (x) = ck xk mit ck ∈ C vom Grad n ≥ 1 wenigstens eine Nullstelle hat. Dazu hat man folgendes k=0 Resultat, dessen Beweis bei weitem die uns zuhandenen Möglichkeiten übersteigt, das mit seinen günstigen Konsequenzen aber zu wissen nützlich ist: S 17 (’Fundamentalsatz der Algebra’). Der Körper (C, +, ·, 0, 1) ist algebraisch abgeschlossen, n das heißt jedes Polynom p (x) = ck xk mit ck ∈ C vom Grad n ≥ 1 hat wenigstens eine Nullstelle. k=0 Gleichwertig: Jedes solche Polynom ist in lineare Polynome (’Linearfaktoren’) zerlegbar. Oder auch: Jedes Polynom mit komplexen Koeffizienten vom Grade n ≥ 1 hat genau n Nullstellen (wobei einige als mehrfache auftreten können). n F 2. Jedes Polynom p (x) = ak xk mit ak ∈ R vom Grade n ≥ 1 (mit reellen Koeffizik=0 enten also) zerfällt in ein Produkt von Polynomen mit reellen Koeffizienten, die alle Linearfaktoren sind oder quadratische Polynome ohne reelle Nullstellen. Wir beweisen die Folgerung aus dem Satz über folgenden Hilfssatz: n L 1. Wenn p (x) = ak xk mit ak ∈ R eine Nullstelle z = a + jb ∈ C besitzt, so ist auch z = k=0 a − jb eine Nullstelle von p. Oder: Die Nullstellen von p treten stets paarweise konjugiert auf. Beweis: p (z) = n k=0 ak z k = n ak z k = k=0 n k=0 ak z k = n k=0 ak z k = n ak z k = p (z) = 0 = 0. Dabei k=0 nutzen wir nur die zuvor festgestellte Eigenschaft der Konjugation als Körperautomorphismus von C, der R festlässt. Mit dem Hilfssatz ist die Folgerung klar aus dem Fundamentalsatz der Algebra: Nach dem Fundan mentalsatz der Algebra zerfällt p (x) = ak xk mit ak ∈ R in einen Zahlfaktor und Faktoren der Form k=0 x − z, z Nullstelle von p. Wenn z ∈ R, so ist das ein reeller Linearfaktor. Wenn z ∈ C \ R, sagen wir z = a + jb, b = 0, so hat man mit dem Hilfssatz eine zweite Nullstelle z, also die Faktoren (x − z) (x − z) = x2 − (z + z) x + zz = x2 − 2a + a2 + b2 . 42 3. KOM PLEXE ZAHLEN Das ergibt einen der versprochenen quadratischen Faktoren mit reellen Koeffizienten. 3. Beispiele zum kartesischen Rechnen mit komplexen Zahlen 1.) Einfaches Ausrechnen von Termen: 2 − 3j = 4 + 5j 2 − 3j = 4 + 5j 2 − 3j 4 + 5j = (2 − 3j) (4 − 5j) −7 − 22j = . 41 41 2 − 3j −7 + 22j 2 + 3j = = 4 − 5j 41 4 + 5j √ |2 − 3j| 13 =√ . |4 + 5j| 41 2.) Lösen einfacher Gleichungen: 2+3zj 4−z = 1 + j, Solution is: z = ⇐⇒ ⇐⇒ ⇐⇒ 18 17 − 4 17 j 2 + 3zj = 1+j 4−z 2 + 3zj = (1 + j) (4 − z) z (3j + 1 + j) = 2 + 4j 2 + 4j (2 + 4j) (1 − 4j) 18 4 z= = = − j. 1 + 4j 17 17 17 3.) Quadratwurzeln einer komplexen Zahl a + jb : ⇐⇒ ⇐⇒ mit ε = (x + jy)2 = a + jb (gesucht : x, y) x2 + y2 = a2 + b2 ∧ x2 − y 2 = a ∧ 2xy = b % % 1 1 2 1 1 2 2 x=± a+ a +b ∧y =ε − a+ a + b2 , 2 2 2 2 ± für b ≥ 0 und ε = ∓ für b < 0. Beispiel: Die beiden Quadratwurzeln aus 1 + j sind: % % 1 1√ 1 1√ + 2+j − + 2, 2 2 2 2 % % 1 1√ 1 1√ − + 2−j − + 2. 2 2 2 2 Die beiden Quadratwurzeln aus 1 − j sind: % % 1 1√ 1 1√ + 2−j − + 2, 2 2 2 2 % % 1 1√ 1 1√ − + 2+j − + 2. 2 2 2 2 3. BEISPIELE ZUM KARTESISCHEN RECHNEN M IT KOMPLEXEN ZAHLEN 43 A 1 3.) Wir lösen eine quadratische Gleichung in C: z 2 + (1 + j) z − 3 + j z1,2 z1 z2 = 0, Lösungsformel ergibt: 1+j 1 ± = − (1 + j)2 + 12 − 4j 2 2 1 + j 1 12 − 2j = − ± 2 2 % % 1+j 1 1√ 1√ = − ± 6+ 148 − j −6 + 148 , 2 2 2 2 % % 1 1 1√ 1 1 1√ = − + 6+ 148 + j − − −6 + 148 , 2 2 2 2 2 2 % % 1 1 1√ 1 1 1√ = − − 6+ 148 + j − + −6 + 148 . 2 2 2 2 2 2 4.) Wir lösen ein lineares Gleichungssystem in komplexen Koeffizienten. Dazu nehmen wir die Maschengleichungen zu folgendem Wechselstromnetz:Dabei laufen die Maschenströme I1 , I2 für beide Maschen im je angezeigten Drehsinn. U ist eine Wechselspannung, R ein Ohmscher Widerstand, L eine Spule mit Induktivität L, C ein Kondensator mit Kapazität C. Mit den komplexen Widerständen jωL für die 1 Spule und jωC für den Kondensator lauten die Maschengleichungen: 1 R+ I1 + RI2 = U jωC RI1 + (R + jωL)I2 = 0. Multiplikation der ersten Zeile mit jωC ergibt folgendes System: (1 + jωRC) I1 + jωRCI2 RI1 + (R + jωL)I2 = jωCU = 0. Dies ist ein lineares Gleichungssystem, nur in komplexen Koeffizienten. I1 , I2 sind die Unbestimmten, alle weiteren Buchstaben stellen äußere Parameter dar. 1. Zeile mal R minus 2. Zeile mal jωRC + 1 ergibt dann: jωR2 C − (R + jωL) (1 + jωRC) I2 = jωRCU, also −ωL + jR ω 2 CL − 1 jωCRU I2 = = ωCRU Rω2 CL − R − jωL (Rω 2 CL − R)2 + ω 2 L2 Man beachte den viel sparenden Schritt, alle reellen Faktoren und U (hier ωCRU ) hinauszusetzen und das schwerfällige reelle Quadrat im Nenner nicht etwa auszumultiplizieren. Nunmehr kann man leicht 44 3. KOM PLEXE ZAHLEN mittels der zweiten Zeile I1 ausrechnen: (R + jωL) −ωL + jR ω 2 CL − 1 (R + jωL)I2 I1 = − = −ωCU 2 R (Rω 2 CL − R) + ω 2 L2 −ω3 RL2 C + j R2 ω 2 CL − 1 − ω2 L2 = −ωCU 2 (Rω2 CL − R) + ω 2 L2 ω3 RL2 C + j ω2 L2 − R2 ω 2 CL − 1 = ωCU 2 (Rω2 CL − R) + ω 2 L2 In komplizierteren Fällen als diesem ist manchmal eine weitere Elimination anstelle des Einsetzens zum Berechnen der zweiten Unbestimmten günstiger. 4. Polarkoordinatendarstellung komplexer Zahlen Wir konnten in kartesischen Koordinaten zwar ein Produkt von Zahlen ausrechnen, auch einen Quotienten, aber eine anschauliche Deutung dieser Operationen fehlte. Sie gelingt dagegen leicht mit Polarkoordinaten. Andererseits werden wir auf die so überaus für die Elektrotechnik praktische Kombination von cos, sin in der komplexen Exponentialfunktion geführt. D 11 (Polarkoordinatendarstellung komplexer Zahlen). Eine komplexe Zahl z lässt sich eindeutig beschreiben durch ihre Polarkoordinaten r arg (z) : : Schreibweise : Also definieren wir Man merke sich : : = |z| und = der Winkel α ∈ [0, 2π), so dass z = r cos (α) + jr sin (α) z = r (cos (α) + j sin (α)) = rejα . ejα := cos (α) + j sin (α) . ejα ist die Zahl auf dem Einheitskreis mit dem Winkel α. S 18. Es gilt ejα ejβ = ej(α+β) . Also hat man jα jβ rejα re se = rsej(α+β) und jβ = se Beweis: eja ejβ für Multiplikation und Division komplexer Zahlen: r j(α−β) (s = 0) e s = (cos (α) + j sin (α)) (cos (β) + j sin (β)) = cos (α) cos (β) − sin (α) sin (β) + j (sin (α) cos (β) + cos (α) sin (β)) = cos (α + β) + j sin (α + β) (Additionstheoreme für cos, sin (!) = ej(α+β) . Die zweite Aussage versteht sich sofort daraus, die dritte folgt so: sejβ rs ej(α−β) = rejα . Also r j(α−β) . - Eine Begründung der Additionstheoreme werden wir noch über Drehmatrizen geben. se Bemerkung: In Mathematik B werden wir genauer sehen, dass rejα sejβ = f (a + jb) = ea+jb = ea (cos (b) + j sin (b)) tatsächlich die Fortsetzung der Exponentialfunktion ins Komplexe darstellt. Wir halten aber schon einmal fest, dass wir mit ejz ganz ’normales’ Rechnen mit Exponenten betreiben können. Mit anderen Worten: Wir haben das lästige Rechnen mit cos, sin im Rechnen mit der komplexen Exponentialfunktion aufgehen lassen. Die kurze und sehr einfache Formel ej(α+β) = ejα ejβ umfasst beide Additionstheoreme! S 19 (Potenzieren und Wurzelziehen mit Polarkoordinaten). Wir haben für n ∈ N0 : jα n = rn ejnα , re Alle n − ten Wurzeln von z = rejα sind : √ α+2kπ n rej n , k = 0, ..., n − 1. (r ≥ 0 ist vorausgesetzt!) Jede komplexe Zahl z = 0 hat also genau n verschiedene Wurzeln, und diese gehen durch fortgesetzte Drehung um den Winkel 2π/n auseinander hervor. 4. POLARKOORDINATENDARSTELLUNG KOMPLEXER ZAHLEN 45 erste Aussage folgt sofort aus dem vorigen Satz über die Multiplikation. Die zweite: √ Beweis: Die n j α+2kπ n n re = rej(α+2kπ) = rejα . (Addition eines Winkels 2kπ mit ganzer Zahl k bedeutet Drehen mit einem Vielfachen des Vollwinkels, es resultiert also dieselbe Zahl.) Andererseits sind die Wurzeln √ α+2kπ n rej n für verschiedene Werte k1 , k2 ∈ {0, ...n − 1} auch wirklich verschieden, da der Betrag ihres Winkelunterschiedes gerade 2|k1n−k2 | π < 2π ist. Zur Umwandlung von kartesischen in Polarkoordinaten und umgekehrt hat man folgende Formeln: Eindeutige Umwandlung von z = a + jb = 0 in z = rejα : r = a2 + b2 a>0 arctan ab , wenn π + arctan ab , wenn a < 0 α = π , wenn a = 0 und b > 0 2π − 2 , wenn a = 0 und b < 0 Alternative Berechnung des Winkels : arccos √ a , wenn b ≥ 0 a2 +b2 α = − arccos √ 2a 2 , wenn b ≤ 0 a +b Bemerkung: Für a = b = 0, also z = 0, hat man keine eindeutige Winkelbestimmung. Die Umwandlung in der anderen Richtung ist einfacher: z = rejα , dann z = r cos (α) + jr sin (α) . Hier ist eine Tabelle der Sinus- und Cosinuswerte besonders einfacher Winkel, so dass man die kartesischen Koordinaten zu komplexen Zahlen mit diesen Winkeln exakt ausrechnen kann: Winkel α sin (α) cos (α) 1 2 π 6 1 2 √ π 4 √ 1 2 √2 1 2 2 3 π 1 2 3 √ 3 1 2 √ √ √ Beispiele: 2e−7jπ/4 = 2ejπ/4 = 2 +j 2, 3e−2jπ/3 = − 32 − 32 j 3. (Für die anderen Quadranten muss man lediglich noch auf die Vorzeichen von sin, cos achten. Zur Veranschaulichung von Polarkoordinaten betrachte man noch einmal dies Bild: z=re jx Quadratwurzel von z x z=re -jx √ √ Dabei ist x im gezeichneten Beispiel 3π 2, also ist 4 2e3jπ/8 eine der beiden Quadratwurzeln von 4 , r = √ 3jπ/4 . Man beachte, dass die Konjugierte von rejα einfach re−jα ist. Folgendes Bild zeigt alle z = 2e fünften Wurzeln einer komplexen Zahl: 46 3. KOM PLEXE ZAHLEN z Rot: Alle 5. Wurzeln von z KAPITEL 4 Reelle Funktionen Wir verstehen unter diesem Titel Funktionen D → R, mit einer Teilmenge D ⊂ R. D kann alle reellen Zahlen umfassen, aber auch endlich oder unendlich viele reelle Zahlen auslassen. Oft ist D ein Intervall. Es geht beim Thema dieser Funktionen um folgende Gesichtspunkte: - Funktionen beschreiben unmittelbar naturwissenschaftliche Vorgänge, etwa s(t) = 12 gt2 den beim freien Fall ohne Luftreibung und mit konstanter Beschleunigung g zurückgelegten Weg, oder U (t) = A sin (ωt + ϕ) einen zeitlichen Spannungsverlauf (wieder ist t die unabhängige Variable, A, ω, ϕ sind äußere Parameter). - Funktionen haben Rechenausdrücke und Graphen, deren Zusammenspiel viel zum Verständnis beiträgt, Rechnen und Anschauen. - Es gibt für die naturwissenschaftliche Beschreibung außerordentlich bedeutsame Funktionen wie Sinusfunktion und Exponentialfunktion und damit verwandte, die man als Grundbausteine verwendet, um kompliziertere zusammenzubauen, wie man sie braucht. Der Zusammenbau geschieht mit arithmetischen Operationen (Addition, Multiplikation usw) sowie Hintereinanderschaltung. Die Eigenschaften der Grundbausteine wirken sich auf die Zusammensetzungen aus; daher sollte man sowohl die Eigenschaften der Grundfunktionen gut kennen als auch die Übertragung von Eigenschaften durch das Zusammensetzen. - Nicht nur die algebraischen Eigenschaften der Struktur der rellen Zahlen mit +, · spielt eine Rolle, sondern auch die topologische Struktur, also ’Nachbarschaft’, ’Grenzwert’: Man kann komplizierte reelle Zahlen nur näherungsweise darstellen, erst recht die Werte komplizierter Funktionen. Methoden der Näherung spielen daher eine überragende Bedeutung, und sie müssen ausgebaut werden. Das reicht vom Grenzwertbegriff bei Folgen, Reihen, Funktionen bis zu Näherungen beliebiger Ordnung (und Qualität) für Funktionswerte. Insbesondere ist der Zusammenhang zwischen Ableitungen und Näherungen zu sehen. - Das Ableiten und elementare Integrieren müssen als Grundtechniken gut beherrscht werden, aber auch im Blick auf die vielfältigen Anwendungen verstanden. - Es werden zwei kleine Ausblicke ins Mehrdimensionale getan, an den für die anderen Fächer besonders dringlichen Stellen: Kurven und Skalarfelder sind besonders wichtige beschreibende Funktionentypen. Kurven: Zum Beispiel ordnet man bei einer Bewegung im dreidimensionalen Raum einem Zeitpunkt t den Ort eines Teilchens zur Zeit t zu, t → x (t) , in Koordinaten ist das eine Abbildung R → R3 oder etwa [t1 , t2 ] → R3 . Die Ableitung ergibt hier die vektorielle Geschwindigkeit, die zweite Ableitung die vektorielle Beschleunigung. Beides ist einfach herzustellen. Skalarfelder: Man ordnet etwa jedem Raumpunkt die dort herrschende Temperatur zu, dann hat man in Koordinaten eine Abbildung D → R mit D ⊂ R3 . Ein fundamentaler Begriff ist der des Gradienten bei einem Skalarfeld - das ist aber nun gerade die Ableitung. Man wird bei dieser ersten Einführung bemerken, wie wichtig der eindimensionale Fall als Grundbaustein ist. Wir beginnen mit den Grundfunktionen und ein paar nützlichen Hinweisen darauf, was man aus den Eigenschaften der Bausteine von Funktionen über die Eigenschaften der Zusammensetzungen schließen kann. Auch werden die Eigenschaften definiert, nach denen es gewöhnlich zu fragen lohnt. Dann folgt die vertiefte Behandlung über den Grenzwertbegriff, die Ableitung und das Integral. Das Integral selbst wird nicht in Breite und Tiefe behandelt - eine gründlichere Besprechung folgt in Mathematik B. Vorbemerkung: Bei der Vorstellung der Grundfunktionen werden wir manchmal so etwas sagen wie: ’f (x) geht gegen b für x gegen a’ (symbolisch: limx→a f (x) = b) oder auch ’Stetigkeit’, ’Ableitung’ 47 48 4. REELLE FUNKTIONEN erwähnen. Diese Dinge werden im nächsten Abschnitt (’Grenzwerte bei Funktionen, Stetigkeit’) genau besprochen. Zunächst stellen wir einige besondere Eigenschaften reeller Funktionen vor, für die man sich allgemein interessiert. 1. Besondere Eigenschaften reeller Funktionen Eine erste Abteilung von Begriffen erfasst die Standard-Symmetrien: D 12 (Symmetrien). Eine Funktion f : D → R mit Definitionsbeich D symmetrisch um 0 heißt gerade, wenn ∀x ∈ D (f(x) = f (−x)) . f heißt ungerade, wenn ∀x ∈ D (f(x) = −f (−x)) . f heißt periodisch mit Periodendauer T > 0, wenn ∀x ∈ R (f (x + T ) = f (x)) Beispiele: cos ist gerade, sin ungerade, f (x) = x2 ist gerade, f (x) = x3 ist ungerade (Definitionsbereich R in allen Fällen). f ist offenbar genau dann gerade, wenn der Graph achsensymmetrisch zur y− Achse liegt. f ist ungerade genau dann, wenn der Graph punktsymmetrisch zum Ursprung liegt. Auch Periodizität bedeutet eine Symmetrie des Graphen: Bei Parallelverschiebung mit dem Vektor (T, 0) wird der Graph in sich überführt. Die nächste Abteilung erfasst lokale und globale Extrema sowie Monotonien. D 13 (Extrema). Sei f : D → R, und D enthalte ein offenes Intervall Uε (x0 ) = { x ∈ R| |x − x0 | < ε} . f hat ein lokales Maximum in x0 f hat ein strenges lokales Maximum in x0 : : ⇐⇒ Es gibt δ > 0 : ∀x ∈ Uδ (x0 ) (f (x) ≤ f (x0 )) ⇐⇒ Es gibt δ > 0 : ∀x ∈ Uδ (x0 ) (x = x0 =⇒ f (x) < f (x0 )) Analog bildet man die Begriffe ’ (strenges) lokales Minimum’, nur sind die Ungleichheitszeichen umzudrehen. Wenn x0 am Rande von D liegt und D kein offenes Intervall um x0 enthält, aber ein Intervall, das x0 als Randpunkt hat, so spricht man entsprechend von einseitigen Extrema oder Randextrema. Wichtig sind Zusätze wie ’lokal’-’global’. Wir definieren (ohne jede Anforderung an D): f f : D → R hat ein globales Maximum in x0 : ⇐⇒ ∀x ∈ D (f (x) ≤ f (x0 )) . : D → R hat ein strenges globales Maximum in x0 : ⇐⇒ ∀x ∈ D (x = x0 =⇒ f (x) < f (x0 )) Mit ’Extremum’ meint man: ’Maximum oder Minimum’ (mit entprechenden Zusätzen). Wenn (wie zumeist) D mit jedem Punkt x0 eine Umgebung von x0 enthält, so ist ein globales Maximum stets auch ein lokales. Aber eine Funktion wie x + sin (2x) hat unendlich viele lokale Maxima und Minima, doch kein globales Maximum oder Minimum. Eine Bemerkung zum Begriff ’lokal’: Das bedeutet stets - nicht nur in diesem Beispiel, dass irgend etwas nur bezüglich einer beliebig klein zu wählenden Umgebung verlangt wird. Wir werden sehen, dass manche Begriffe wie ’Stetigkeit’, Differenzierbarkeit’ lokalen Charakter haben, auch ohne dass das Wort ’lokal’ erwähnt wird. Eng mit dem Begriff des lokalen Extremums hängt der eines Wendepunktes zusammen: f hat in x0 genau dann einen Wendepunkt, wenn die Ableitung von f in x0 ein strenges Extremum hat. Wir illustrieren die Begriffe mit ein paar Bildern: Periodizität, zugleich einige Extrema, die lokale und keine globalen sind, sowie einige globale Extrema (Rechenausdruck sin (4x) + sin (8x)): 1.5 1 0.5 -2 -1 0 -0.5 -1 -1.5 1x 2 1. BESONDERE EIGENSCHAFTEN REELLER FUNKTIONEN 49 Lokale Extrema (nicht global), zugleich Punktsymmetrie um den Ursprung - Rechenausdruck x3 − x: 6 4 2 -2 0 -1 1x 2 -2 -4 -6 Globale Randextrema (Funktion auf den gezeigten Definitionsbereich eingeschränkt): 20 15 10 5 -2 -1 0 1x 2 D 14 (Monotonien). Eine Funktion f f : D → R heißt monoton steigend, wenn ∀x1 x2 ∈ D (x1 ≤ x2 =⇒ f (x1 ) ≤ f (x2 )) . : D → R heißt streng monoton steigend, wenn ∀x1 x2 ∈ D (x1 < x2 =⇒ f (x1 ) < f (x2 )) . Entsprechend ist mit ’<’ der Begriff ’streng monoton fallend’ zu bilden. f heißt monoton, wenn f monoton steigend oder monoton fallend ist. Wenn eine Funktion nicht auf ihrem ganzen Definitionsbereich D monoton steigend ist, aber auf A ⊂ D, so sagt man gern: ’f ist auf A monoton steigend’, usw. (Bemerkung zur Bezeichnung: Manchmal finden Sie ’nicht fallend’ für ’monoton steigend’ (im nicht strengen Sinne) und entsprechend ’nicht steigend’ für ’monoton fallend’.) Beispiele: f (x) = x3 ist streng monoton steigend auf ganz R, f(x) = x2 ist streng monoton steigend auf D = R≥0 . f (x) = sin (1/x) ist auf keinem Intervall (0, a], a > 0, monoton (also weder monoton fallend noch monoton steigend). Die Funktion ’Gaußklammer’ g(x) = [x] := größte ganze Zahl ≤ x ist monoton steigend, aber nicht streng monoton steigend. Der Graph ergibt eine Treppe. Offenbar sind streng monotone Funktionen stets injektiv. Eine dritte Gruppe von Begriffen erfasst asymptotisches Verhalten einer Funktion. D 15. Wir setzen voraus, dass f für alle x > M definiert ist, mit einer festen Zahl M. Eine Gerade g (x) = mx + b heißt dann Asymptote für den Graphen von f, wenn limx→∞ (f(x) − g(x)) = 0. Analog bildet man das für x → −∞ unter der Voraussetzung, dass f für alle x < U definiert ist, mit einer festen Zahl U. Eine Gerade x = a (parallel zur y− Achse) heißt Asymptote des Graphen von f, wenn f (x) in einer einseitigen oder zweiseitigen Umgebung von a definiert ist und gilt: limx→a f (x) = ∞ (oder −∞), bzw. dasselbe für limx→a− f (x) (linksseitiger Limes) oder limx→a+ (rechtsseitig). Eine Asymptote x = a heißt auch Pol, man sagt dann, f habe in a einen Pol. Beispiele: f(x) = 1 − 2−x hat die Aymptote y = 1. g (x) = x1 hat die Asymptoten y = 0 und 2 −2 7 x = 0 (einen Pol an der Stelle x0 = 0). h(x) = xx+3 = x − 3 + x+3 hat die Asymptote y = x − 3 (für 50 4. REELLE FUNKTIONEN x → ±∞) und außerdem die Asymptote x = −3 (Pol in x0 = −3). ln (2x + 1) hat einen Pol in x0 = − 12 (einseitig), aber keine Asymptote für x → ∞. Aber der Graph von ln (2x + 1) nähert sich mit x → ∞ dem einfacheren Graphen von ln(2) + ln (x) . Es lohnt sich, auch Kurven untereinander zu vergleichen, nicht nur Kurven mit Geraden. 1 x3 −3 1 2 1 2 11 Illustration: f(x) = 10 x+2 = 10 x − 5 x + 5 − 10x+20 , hier ist rot der Funktionsgraph gezeichnet 1 2 1 2 und schwarz der Graph von 10 x − 5 x + 5 , dem sich der Graph von f für große |x| asymptotisch nähert. √ 3 2 Bei x = −2 hat f einen Pol. Bei x0 = − 12 14 + 2 33 − √ − 1 ≈ −3. 15 liegt das einzige lokale √ 3 14+2 33 Extremum vor, ein Minimum (eine Polynomgleichung 3. Grades ist dafür zu lösen, das geht gerade noch exakt, aber mühsam.) Im Bereich x > −2 steigt f streng monoton, im Bereich (−∞, x0 ] fällt f streng monoton, im Bereich [x0 , −2) steigt f monoton. 10 8 6 4 2 -10 -8 -6 -4 -2 0 -2 2 4 x 6 8 10 -4 -6 -8 -10 2. Die Grundfunktionen Folgende Funktionen bilden einen nützlichen Vorrat von ’Grundfunktionen’: Funktion Potenzfunktionen Exponentialfunktion Logarithmusfunktion Sinusfunktion Cosinusfunktion Arcustangens Rechenausdruck f (x) = xa exp(x) = ex ln(x) = exp−1 (x) sin (x) cos (x) arctan (x) x ≥ 0, fester Exponent a > 0 natürliche Basis e natürliche Basis e, x > 0 (Umkehrfunktion von tan = sin cos ) Man könnte diese Liste verkleinern, aber das ist nicht nützlich, insbesondere im Blick auf das Differenzieren und Integrieren. Es kann manchmal auch erforderlich sein, den Grundfunktionenvorrat zu erweitern, durch Funktionen, die durch Integrale oder als Lösungen von Differentialgleichungen definiert sind. Methodisch geht man jedoch stets so vor, dass man aus einem passenden Bereich von Grundfunktionen alles weiter Benötigte zusammensetzt. Für sehr viele Zwecke reicht die obenstehende Liste schon aus. Man wird bemerken, dass für die letzten drei Funktionen nur Namen angegeben sind und kein zur Berechnung der Werte geeigneter Rechenausdruck. Das liegt daran, dass die einfachsten Ausdrücke für diese Funktionen bereits Potenzreihen sind (Mathematik B). Übrigens gilt dasselbe auch für die genaue rechnerische Darstellung von ex und sogar für xa (wenn a ∈ / N), aber immerhin verweisen diese Ausdrück auf mögliche Näherungen der Werte. Im Augenblick geht es nur darum, die wichtigen elementaren Eigenschaften der oben erwähnten Grundfunktionen zu erfassen. Die Ableitungs- und Integrationseigenschaften folgen erst in den Abschnitten über Ableitung und Integration.) 2.1. Die Potenzfunktionen. Die Potenzfunktionen (a > 0 fest) fa : R≥0 x → R≥0 → xa sind streng monoton steigend, umkehrbar mit Umkehrfunktionen fa−1 = f1/a , und sie wachsen mit x → ∞ nach ∞. Für a > 1 wird die Steigung immer größer, für a < 1 immer kleiner. Die Graphen haben folgende 2. DIE GRUNDFUNKTIONEN 51 Gestalt: 4 x3 y 3.5 x2 3 2.5 x(1/2) 2 1.5 x(1/3) 1 0.5 x 0 0 0.5 1 1.5 2 2.5 3 3.5 4 Die Steigung geht nach Null für x → 0, wenn a > 1, nach ∞ für x → 0, wenn a < 1. 2.2. Die Exponential- und Logarithmusfunktion zur natürlichen Basis. Die Funktion exp : R → R>0 x → ex ist die Exponentialfunktion zur ’natürlichen’ Basis e. Das ist eine transzendente Zahl, nahe bei 2.71. Sie macht die Exponentialfunktion in dem Sinne besonders einfach, dass genau mit dieser Zahl gilt: exp′ = exp . So ist die Funktion also gleich ihrer Ableitung. Mit x → ∞ gehen die Werte sehr schnell nach Unendlich (schneller als jedes Polynom, wie wir sehen werden). Mit x → −∞ gehen die Werte folglich sehr schnell nach Null. Das ergibt sich aus e−x = e1x . Die Funktion ist streng monoton steigend, und ihre Umkehrfunktion ist ln: R>0 → R, die natürliche Logarithmusfunktion. Die Graphen sehen so aus: 5 ex 4 3 2x log2(x) 2 1 ln(x) 0 -1 -2 -3 -4 -5 -5 0 5 Zuweilen benötigt man andere Basen aus einem Anwendungszusammenhang heraus: expa (x) := ax (a > 0, a = 1 fest) definiert allgemein die Exponentialfunktion zur Basis a. Aber man kann dann bei Bedarf 52 4. REELLE FUNKTIONEN umschreiben auf die natürliche Basis: ax = ex ln(a) . Ebenso für Logarithmusfunktionen loga := exp−1 a , dafür kann man schreiben: loga (x) = ln(x) . ln(a) Eine Gleichung ax = b mit a > 0, b > 0 und Unbestimmter x kann man durch Anwenden von ln auf beiden Seiten leicht lösen: x ln (a) = ln (b) .In folgender Tabelle sind die wichtigen Rechenregeln für exp, ln zusammengefasst, die einfach auch dem Rechnen mit Potenzen fußen - man beachte, dass die nebeneinanderstehenden Formeln jeweils auseinander folgen mit der Umkehrfunktionseigenschaft: Für exp e0 = 1 ex+y = ex ey (ex )y = exy ax = ex ln(a) (a > 0) für ln ln (1) = 0 ln (ab) = ln (a) + ln (b) (a, b > 0) ln (ax ) = x ln (a) (a > 0) loga (x) = ln(x) ln(a) (a > 0, x > 0) Zum Beispiel in der zweiten Zeile: Setzt man ex = a, ey = b, so hat man ab = ex ey = ex+y mit der linken Formel, also mit ln(ab) = ln (ex+y ) = x + y = ln (a) + ln (b) die Formel auf der rechten Seite. Die Bedeutung der Exponentialfunktion für naturwissenschaftliche Beschreibungen liegt darin: Hat man eine zeitabhängige und nach der Zeit differenzierbare Größe q(t), die sich so verhält, dass ihr Wert sich in einem Zeitintervall der Breite d > 0 stets mit demselben Faktor a > 0, a = 1, multipliziert, t−t0 so gilt: q(t) = q0 a d , wobei q0 = q (t0 ) ist. Einen solchen Vorgang nennt man eponentielles Wachsen (a > 1) bzw. Fallen. Das tritt etwa als Amplitudenfaktor bei einer einfachen gedämpften Schwingung auf. Eine andere Version lautet: Die momentane Steigung einer Größe ist proportional zum momentanen Wert der Größe - dann wird die Größe als Funktion von der Zeit durch eine Exponentialfunktion beschrieben. Auch Logarithmusfunktionen treten häufig in der unmittelbaren Beschreibung von Sachverhalten auf, etwa bei der Messung von Informationsmengen oder Entropien. 2.3. Trigonometrische Funktionen. Wir kennen die anschauliche Deutung von sin, cos im Einheitskreis bereits aus der Polardarstellung komplexer Zahlen, ebenso die trigonometrischen Funktionen tan, arctan . Hier werden daher nur kurz noch einmal die Graphen von sin,cos sowie ihren Umkehrfunktionen gezeigt und eine Tabelle nützlicher Formeln angefügt: Sinus- und Cosinusfunktion (rot : sin, blau : cos ) 1 -6 -4 -2 0 -1 2 x 4 6 2. DIE GRUNDFUNKTIONEN Arcussinus mit Sinus 53 ' π π ( im Bereich − , 2 2 1.5 arcsin 1 sin 0.5 0 -0.5 -1 -1.5 -1.5 -1 -0.5 0 0.5 1 1.5 Arcuscosinus mit Cosinus (im Bereich [−0, π]) 3 arccos 2.5 2 1.5 1 0.5 cos 0 -0.5 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 54 4. REELLE FUNKTIONEN Arcustangens und Tangens π π im Bereich − , 2 2 10 tan 8 6 4 2 arctan 0 -2 -4 -6 -8 -10 -10 -5 0 5 10 Bemerkungen zu den Bildern: In allen Fällen von Umkehrfunktionen wurde die Gerade y = x mit eingezeichnet , um zu zeigen, dass der Graph der Umkehrfunktion von f jeweils durch Spiegelung an dieser Geraden aus dem Graphen von f entsteht. Außerdem wurde in allen Bildern dafür gesorgt, dass lineare Skalentransformation unterblieb, so dass man mit bloßem Auge die richtigen Steigungen sieht, auch wenn das nicht optimal für die Ansicht der Graphen selbst ist. Man merke sich: sin und tan haben bei x = 0 Steigung 1. tan sieht bei x = 0 also ganz anders aus als g(x) = x3 . Hier eine Tabelle mit nützlichen Formeln zu den trigonometrischen Funktionen: sin2 (x) + cos2 (x) sin (x + 2π) cos (x + 2π) sin (x + π/2) cos (x − π/2) tan (x + π) cos (x ± y) sin (x ± y) tan (x + y) sin (x) sin (y) cos (x) cos (y) sin (x) cos (y) = 1 (Pythagorasbeziehung) = sin (x) (Periodizität von sin, Periodendauer 2π) = cos (x) (Periodizität) = cos (x) (Verschiebung) = sin (x) (Verschiebung) = tan (x) (Periodizität von tan, Periodendauer π) = cos (x) cos (y) ∓ sin (x) sin (y) (Additionstheorem) = sin (x) cos (y) ± cos (x) sin (y) (Additionstheorem) tan(x)+tan(y) = (Additionstheorem) 1−tan(x) tan(y) 1 = 2 (cos (x − y) − cos (x + y)) Sonderfall: sin2 (x) = 12 (1 − cos (2x)) = 12 (cos (x − y) + cos (x + y)) Sonderfall: cos2 (x) = 12 (1 + cos (2x)) 1 = Sonderfall: sin (x) cos (x) = 12 sin (2x) 2 (sin (x − y) + sin (x + y)) 3. Zusammensetzung von Funktionen Mit Funktionen f, g bildet man αf (α ∈ R), f +g, f ·g, fg und g◦f. Wir wiederholen: f, g : D → R, dann f + g : D → R, mit (f + g) (x) := f (x) + g (x) . Analog für die andern arithmetischen Verknüpfungen, nur muss man bei fg als maximal möglichen Definitionsbereich wählen: D { x ∈ D| g (x) = 0} . Eine besonders wichtige Rolle spielt die Hintereinanderschaltung, und sie macht in jeder Hinsicht etwas größere Schwierigkeiten. Man merke sich: (g ◦ f ) (x) := g (f (x)) , und der maximal mögliche Definitionsbereich bei f : Df → R, g : Dg → R für g ◦ f lautet: { x ∈ Df | f (x) ∈ Dg )} . Achtung: Es ist ein wenig misslich, dass bei g ◦ f zuerst f, dann g angewandt wird, entgegen der Gewohnheit, von links nach rechts zu lesen. Das liegt an der rechts gestellten ’von’-Klammer. Klarer wird das in der Bezeichnung mit Argument: g (f (x)) : Zuerst ist f (x) zu bilden, auf diese Zahl dann g anzuwenden. 3. ZUSAM MENSETZUNG VON FUNKTIONEN 55 Wir wollen uns einen kleinen Überblick darüber verschaffen, welche Funktionenmengen man mit den angesprochenen Verknüpfungen aus welchen Grundfunktionen bilden kann, und noch einmal gewisse Mengen von Funktionen herausstellen. 3.1. Konstante Funktionen, lineare Funktionen. Sie sind die einfachsten überhaupt, konstante haben die Gestalt f(x) = c für alle x. Ihre Graphen sind einfach Geraden parallel zur x− Achse. Was man in diesem Bereich ’lineare Funktionen’ nennt, sind eigentlich affine, da eine additive Konstante zugelassen ist. Sie haben die Gestalt f(x) = mx + b, und ihre Graphen sind Geraden, die allerdings niemals parallel zur y− Achse liegen. Man sollte sich allerdings für diese Funktionen die folgende Form merken (’Punkt-Richtungs-Form’): f (x) = f(x0 ) + α (x − x0 ) , auch gern geschrieben: f (x0 + ∆x) = f (x0 ) + α∆x, wenn man an kleine |∆x| denkt, gern steht auch h für ∆x. Letztere Form ist die der Näherung erster Ordnung für eine nichtlineare Funktion g, dann ist f (x0 ) = g(x0 ) und α = g ′ (x0 ) . Man fasst dabei x0 als fest auf und betrachtet den Ausdruck g (x0 ) + α∆x als Funktion von ∆x. konstante Funktionen f(x) = c affin lineare Funktionen f(x) = a0 + a1 x Wir stellen fest: Genau alle linearen Funktionen gewinnt man mit den Verknüpfungen αf, f + g aus den Funktionen h0 (x) = 1 und h1 (x) = x allein. 3.2. Polynomfunktionen (auch: ganzrationale Funktionen). Es sind die Funktionen der Gen ak xk . Ist an = 0, heißt f Polynom vom Grad n. Die Vorfaktoren ak heißen Koeffizienten. stalt f (x) = k=0 Offenbar bilden die konstanten und linearen Funktionen die Spezialfälle n = 0, 1. Zum Rechnen mit Polynomen: Addition bedeutet Addition der Koeffizienten, Multiplikation mit α ∈ R, dass alle Koeffizienten mit α multipliziert werden. Multiplikation zweier Polynome: m r=0 Hier stellt die Summe m ar xr n s=0 bs xs = n+m m ar bk−r xk . k=0 r=0 ar bk−r einen allgemeinen Rechenausdruck für den Koeffizienten ck des Produk- r=0 tes dar. (Diese Figur nennt man ’Faltung’, und Sie werden ihr noch öfter begegnen.) Ferner ist grundlegend: S 20 (Divisionsalgorithmus). Für alle Polynome p (x) und q (x) , q (x) nicht konstant Null, gibt es ein Polynom s (x) sowie ein Polynom r (x) mit Grad (r) < Grad (q) , so dass p (x) = s (x) q (x) + r (x) , also auch p (x) r (x) = s (x) + . q (x) q (x) Das nennt man auch Division mit Rest, r (x) ist dabei der verbleibende Rest. Illustration an einem einfachen und einem etwas größeren Beispiel: x − (x − 1) _______ 1 : (x − 1) = 1, Rest 1 56 Also r(x) = 1, und 4. REELLE FUNKTIONEN x x−1 =1+ 1 x−1 , oder x = 1 · (x − 1) + 1 (x3 − 2x2 + 4) − x3 − x _________ 2 − : 2 x − 1 = x − 2, Rest x + 2. −2x + x + 4 −2x2 + 2 _____________ x+2 2 3 2 +4 3 2 Also x −2x = x−2+ x2+x 2 −1 , oder x −2x +4 = (x − 2) x − 1 +x+2. Hier r (x) = x+2, s (x) = x−2. x2 −1 Mittels der Polynomdivision macht man sich folgende Eigenschaften ohne weiteres klar: Polynom vom Grade n p (x) = n k=0 ak xk , an = 0 1. p hat höchstens n Nullstellen. Ist p (a) = 0, so gilt p (x) = q(x) (x − a) , (x − a) teilt also p (x) . 2. Der führende Term an xn bestimmt das Verhalten für x → ±∞. Mit n ≥ 1 stets limx→±∞ f(x) ∈ {−∞, ∞} Man beachte, dass aus der Eigenschaft 2 unmittelbar die lineare Unabhängigkeit der Funktionen hn (x) = xn (n ∈ N0 ) . Wären sie linear abhängig, so ließe sich ein Polynom von einem Grade n > 0 durch eine Linearkombination von Polynomen kleineren Grades darstellen - das ergibt aber ein Polynom kleineren Grades. Die Differenz beider Polynome hätte also führenden Term an xn , n > 0. Das kann nach 2. nicht die Nullfunktion sein. Wir sehen also, dass der Vektorraum der Polynome unendlichdimensional ist - aus den Funktionen hn (x) = xn (n ∈ N0 ) erzeugt man allein mit den Verknüpfungen αf, f + g die Klasse der Polynome. Dass aber der führende Term eines Polynoms p (x) für große |x| über den Rest dominiert, kann man nach Polynomdivision des führenden Terms durch die Summe der niederen Terme sehen: Es kommt ein Polynom vom Grad ≥ 1 plus ein Term,dergegen Null geht. Ebenso sieht man Eigenschaft 1 über Polynomdivision: Es gibt mit Divisionsalgorithmus für p(x) mit p (a) = 0 Polynome q, r, so dass p (x) = q (x − a) + r (x), mit Grad (r) < Grad (x − a) = 1, also ist r eine Konstante. Mit p (a) = 0 folgt nach Einsetzen: r = 0. Bemerkungen zum graphischen Verhalten von Polynomen: Der Graph einer Polynomfunktion ist völlig glatt, er kann endlich viele Maxima und Minima (mit zugehörigen Buckeln) entwickeln, auch Sättel, und für große |x| gehen die Werte ins unendliche. Man kann durch n + 1 Punkte (xi , yi ) mit xi = xj für i = j in eindeutiger Weise ein Polynom vom Grade n legen. Aber interessanter für die Praxis ist oft das Anpassen eines Polynoms relativ kleinen Grades als Modell an eine Messreihe, die außerdem noch etwa Zufallsfluktuationen enthält. 3.3. Gebrochen rationale Funktionen. Erlaubt man zusätzlich Division von Funktionen, so bekommt man die Klasse der gebrochen rationalen Funktionen. Die Rechenausdrücke können immer in die Endform p(x) q(x) mit Polynomen p, q gebracht werden (q nicht die Konstante Null) . Die Nullstellen sind diejenigen des Zählers, bei denen der Nenner nicht Null wird. Interessant sind die Nullstellen des Nenners. Zunächst ist der Ausdruck p(x) q(x) für q (x) = 0 nicht definiert. Aber es ist genauer zu beschreiben, was an einer solchen Stelle auftreten kann. Zunächst definieren wir: D 16. Eine Funktion f hat einen Pol an der Stelle a, wenn f (x) gegen ±∞ geht, wenn man sich mit x der Stelle a von rechts oder von links nähert. Bei beidseitigen Polen können die Vorzeichen auf beiden Seiten gleich sein oder verschieden (betrachte um x = 0 und x1 um x = 0). Bei einem Pol nähert sich der Funktionsgraph asymptotisch einer Geraden parallel zur y− Achse, zumindest auf einer Seite dieser Geraden. 1 x2 3. ZUSAM MENSETZUNG VON FUNKTIONEN 57 f (x) = p(x) k ≥ 1 sei die Ordnung dieser Nullstelle von q (p, q sind Polynome) q(x) , q (a) = 0 1. Fall: p (a) = 0 Dann hat f an der Stelle a einen Pol. 2. Fall: p (a) = 0, Nullstelle von p der Ordnung m ≥ 1, dann treten folgende drei Fälle auf: 1. Unterfall: k > m Dann hat f an der Stelle a einen Pol. 2. Unterfall: k = m Dann existiert limx→a f (x) ∈ R{0}, damit kann f in a stetig ergänzt werden. 3. Unterfall: k < m Dann existiert limx→a f (x) = 0, und f kann damit stetig in a ergänzt werden. Ferner ist das Verhalten für |x| → ∞ interessant und leicht beschrieben: Polynomdivision zeigt, dass für Zählergrad > N ennergrad der Zähler dominiert und f (x) gegen ±∞ geht für x → ±∞ (mit allen denkbaren Vorzeichenverteilungen!). Sie zeigt auch, dass für Zählergrad = N ennergrad eine Konstante = 0 herauskommt als Asymptote für x ± ∞. Im Falle Zählergrad < N ennergrad hat man die Konstante mit Wert 0 als Asymptote für x ± ∞. Es ist daher vernünftig, bei gebrochen rationalen Funktionen stets eine Darstellung p(x) q(x) mit teilerfremden Polynomen zu wählen, so dass Zähler und Nenner keine gemeinsamen Nullstellen mehr haben (sonst ist zu kürzen). Dann gilt einfach: An den Nullstellen des Nenners liegen Pole vor, die Funktion ist dort nicht definiert. Insgesamt: Die vertikalen und horizontalen bzw. schrägen Asymptoten sind gegenüber den Polynomen die möglichen neuen Phänomene; die Graphen zerfallen beim Auftreten von Polen in mehrere völlig glatte Äste.Gebrochen rationale Funktionen Erlaubt man zusätzlich Division von Funktionen, so bekommt man die Klasse der gebrochen rationalen Funktionen. Die Rechenausdrücke können immer in die Endform p(x) q(x) mit Polynomen p, q gebracht werden (q nicht die Konstante Null) . Die Nullstellen sind diejenigen des Zählers, bei denen der Nenner nicht Null wird. Interessant sind die Nullstellen des Nenners. Zunächst ist der Ausdruck p(x) q(x) für q (x) = 0 nicht definiert. Aber es ist genauer zu beschreiben, was an einer solchen Stelle auftreten kann. Zunächst definieren wir: D 17. Eine Funktion f hat einen Pol an der Stelle a, wenn f (x) gegen ±∞ geht, wenn man sich mit x der Stelle a von rechts oder von links nähert. Bei beidseitigen Polen können die Vorzeichen auf beiden Seiten gleich sein oder verschieden (betrachte um x = 0 und x1 um x = 0). Bei einem Pol nähert sich der Funktionsgraph asymptotisch einer Geraden parallel zur y− Achse, zumindest auf einer Seite dieser Geraden. 1 x2 f (x) = p(x) k ≥ 1 sei die Ordnung dieser Nullstelle von q (p, q sind Polynome) q(x) , q (a) = 0 1. Fall: p (a) = 0 Dann hat f an der Stelle a einen Pol. 2. Fall: p (a) = 0, Nullstelle von p der Ordnung m ≥ 1, dann treten folgende drei Fälle auf: 1. Unterfall: k > m Dann hat f an der Stelle a einen Pol. 2. Unterfall: k = m Dann existiert limx→a f (x) ∈ R{0}, damit kann f in a stetig ergänzt werden. 3. Unterfall: k < m Dann existiert limx→a f (x) = 0, und f kann damit stetig in a ergänzt werden. Ferner ist das Verhalten für |x| → ∞ interessant und leicht beschrieben: Polynomdivision zeigt, dass für Zählergrad > N ennergrad der Zähler dominiert und f (x) gegen ±∞ geht für x → ±∞ (mit allen denkbaren Vorzeichenverteilungen!). Sie zeigt auch, dass für Zählergrad = N ennergrad eine Konstante = 0 herauskommt als Asymptote für x ± ∞. Im Falle Zählergrad < N ennergrad hat man die Konstante mit Wert 0 als Asymptote für x ± ∞. Es ist daher vernünftig, bei gebrochen rationalen Funktionen stets eine Darstellung p(x) q(x) mit teilerfremden Polynomen zu wählen, so dass Zähler und Nenner keine gemeinsamen Nullstellen mehr haben (sonst ist zu kürzen). Dann gilt einfach: Die Nullstellen sind genau die des Zählers, und genau an den Nullstellen des Nenners liegen Pole vor, die Funktion ist genau an diesen Stellen nicht definiert. Insgesamt: Die vertikalen und horizontalen bzw. schrägen Asymptoten sind gegenüber den Polynomen die möglichen neuen Phänomene; die Graphen zerfallen beim Auftreten von Polen in mehrere völlig glatte Äste. Wir ergänzen einen besonders einfachen Fall der Partialbruchzerlegung, in welchem diese sehr nützliche Zerlegung ganz schnell ausgeführt werden kann: 58 4. REELLE FUNKTIONEN S 21 (Partialbruchzerlegung im einfachsten Fall). Seien p, q Polynome mit Grad (p) < Grad (q) , Grad (q) > 1, und q (x) zerfalle in lauter verschiedene Linearfaktoren der Form (x − αi ) , also q (x) = n (x − αi ) , αi = αj für i = j, 1 ≤ i, j ≤ n > 1. Dann gilt: i=1 p (x) q (x) = Ai = n i=1 Ai , mit (x − αi ) p (αi ) n j=i, 1≤j≤n (Man beachte, dass Ai Konstanten sind.) Praktischer Zusatz: Allgemeiner hat man auch mit q (x) = (αi − αj ) n i=1 p (x) q (x) = Ai = n i=1 . (β i x − αi ) , β i = 0 für alle i, die Zerlegung Ai , mit (β i x − αi ) p (αi /β i ) n j=i, 1≤j≤n (αi /β i − αj ) Die Formel für die Konstanten findet man leicht so: Multiplikation der ersten Gleichung mit x − αi ergibt n p (x) Aj (x − αi ) = A + . i n (x − αj ) j = i (x − αj ) j=i, 1≤j≤n Einsetzen von x = αi führt sofort zur angegebenen Formel. Bemerkung: Man achte auf die Bedingung Zählergrad < Nennergrad. Ist das nicht der Fall, so bekommt man eine praktische Summenzerlegung nach Polynomdivision. Zu dem Term in (∗) ist dann lediglich ein Polynom zu addieren. x2 −1 1 8 5 Beispiele: (2x−1)(x+3)(x+4) = − 21(2x−1) − 7(x+3) + 3(x+4) . Hier (zu den Linearfaktoren der Reihe 1 2 2 ( 2 ) −1 (−3) −1 (−4)2 −1 1 nach): A1 = 1 +3 1 +4 = − 21 , A2 = (2·(−3)−1)(−3+4) = − 87 , A3 = (2·(−4)−1)(−4+3) = 53 . ( 2 )( 2 ) x4 −1 80 255 2 (x+3)(x+4) = x − 7x + 37 + x+3 − x+4 erhält man so: Zunächst führt man Polynomdivision durch: 4 −445 − 175x x − 1 : x2 + 7x + 12 = x2 − 7x + 37 + . (x + 3) (x + 4) Dann mit dem verbleibenden Bruch −445−175x (x+3)(x+4) wie im ersten Beispiel: 80 255 −445 − 175x = − , (x + 3) (x + 4) x+3 x+4 wobei man rechnet: A1 = −445−175·(−3) (−3+4) = 80, A2 = −445−175(−4) (−4+3) = −255. 3.4. Lineare Transformationen von Funktionen. Viele praktisch auftretende Funktionen haben Rechenausdrücke wie g(x) = α + βf (γx + δ) , mit Konstanten α, β, γ, δ, entstehen also aus f durch Vorund Nachschalten einer linearen Funktion (im Sinne von affin). Dabei ist f oft eine bereits bekannte Funktion wie sin oder exp . Es ist recht praktisch, zu wissen, welche geometrischen Operationen man mit dem Graphen von f ausführen muss, um den Graphen von g zu bekommen. Der Reihe nach: Man verschiebt den Graphen von f um δ nach links, staucht den Graphen längs der x− Achse mit α (oder streckt mit 1/α), streckt ihn anschließend längs der y− Achse mit β und verschiebt ihn um α nach oben. Man beachte die Reihenfolge - jede Operation ist jeweils auf das vorige Zwischenergebnis anzuwenden. ’Strecken’ längs einer Achse mit einem negativen Faktor bedeutet dabei stets: Strecken mit dem Betrag des 3. ZUSAM MENSETZUNG VON FUNKTIONEN 59 Faktors und Spiegeln an der jeweils anderen Achse. Verschieben ’nach rechts’ mit −3 bedeutet Verschieben nach links um 3, usw. Beispiel: 4 sin (3t + π/4) (wir deuten die unabhängige Variable t als Zeit) ergibt eine nur leicht modifizierte Sinusschwingung. Die Amplitude ist 4, der Mittelwert ist Null wie bei Sinus, der Faktor 3 bei x bedeutet Stauchung längs der t− Achse mit 3, es läuft also alles drei mal so schnell ab - richtig: 3 3 ist die Kreisfrequenz, d.h. die Periodendauer ist 2π der 3 , die Frequenz also ν = 2π . π/4 schließlich ist √ Nullphasenwinkel, d.h. die y− Achse schneidet durch den Graphen im Aufsteigen beim y− Wert 2 + 2 2. So kann man das ganz schnell zeichnen: 4 2 -3 -2 -1 0 1 t 2 3 -2 -4 Die Maxima liegen an den Stellen u (k) = (π/2 − π/4 + 2kπ) /3 = π/12 + 2kπ/3, k ∈ Z. Dazu setzt man 3t + π/4 = π/2 + 2kπ und löst nach t auf. Durchführung der erwähnten Operationen mit den Maxima von sin führt sofort auf dasselbe Ergebnis, schon aufgelöst nach t: Verschieben der Zahl π/2 + 2kπ auf der Zahlengeraden nach links um π/4, dann Stauchen mit 3. Also gerade (π/2 − π/4 + 2kπ) /3. Beispiel: at/d , mit d > 0, a > 0 , a = 1, läuft mit anderer Geschwindigkeit als at , und zwar so, dass Vervielfachung der Werte mit a im Zeitintervall der Breite d auftritt, also langsamer mit d > 1, schneller mit d < 1. Ebenso erklärt sich mit den erwähnten linearen Transformationen der Ausdruck a(t−t0 )/d : Zusätzlich ist um t0 nach rechts verschoben worden. (Verschiebung des Graphen nach (!) Streckung mit d.) 3.5. Übertragung von Eigenschaften von Funktionen auf ihre Verknüpfungen. Multiplikation einer Funktion mit einer Konstanten: Diese wurde bereits im letzten Abschnitt besprochen. Addition von Funktionen: Sind f, g beide positiv, so ist es die Summe. Sind f, g monoton steigend, so ist es die Summe (ebenso für ’fallend’). Eine Summe gerader (ungerader) Funktionen ist wieder gerade (ungerade). Multiplikation von Funktionen: Sind f, g positiv, so ist es fg. (Analog weitere Vorzeichenregeln.) Sind f, g monoton steigend und positiv, so ist f g monoton steigend. Verkettung von Funktionen: Ist f periodisch, so ist es auch g ◦ f. Ist f gerade, so ist es auch g ◦ f. Sind f, g beide ungerade, so ist g ◦ f gerade. Sind f, g beide monoton steigend oder beide monoton fallend, so ist g ◦ f monoton steigend. Ist eine der beiden Funktionen f, g monoton steigend, die andere monoton fallend, so ist g ◦ f monoton fallend. Solche Zusammenhänge sollte man nutzen. Auswendiglernen solcher kleinen Beobachtungen wird nicht funktionieren, besser ist es, sich jeweils die Frage nach der Erschließbarkeit einer solchen Eigenschaft für eine Zusammensetzung zu stellen und diese Frage selbständig zu beantworten - durch logisches Überlegen. Eine solche Überlegung wollen wir an zwei Beipielen demonstrieren - analog zeigt man alle genannten Aussagen: ’Wenn f monoton steigend ist und g monoton fallend, dann ist g ◦ f monoton fallend’. Sei x ≤ y. Dann mit der ersten Voraussetzung f (x) ≤ f (y) , also mit der zweiten g (f (x)) ≥ g (f (y)) . Somit: x ≤ y =⇒ g ◦ f (x) ≥ g ◦ f (y) . Oder: ’Wenn f gerade ist, so ist es auch g ◦ f - völlig unabhängig von den Eigenschaften von g’. Dazu hat man: f (x) = f (−x) , also g (f (x)) = g (f (−x)) . Damit ist g ◦ f gerade. Umkehrfunktion: Ist f streng monoton steigend, so ist es auch die Umkehrfunktion. Dasselbe gilt für ’fallend’. 60 4. REELLE FUNKTIONEN 4. Grenzwert bei Funktionen und Stetigkeit 4.1. Der Begriffsapparat. Einerseits sind die hier vorzustellenden Eigenschaften von eigenständiger großer Bedeutung, andererseits werden sie auch bei der Behandlung der Ableitung wieder wichtig. Man fragt immer wieder: Wenn x gegen a geht - wohin geht dann f (x)? Das ist die Frage nach einem Grenzwert bei einer Funktion. Von einer ’ordentlichen’ Funktion stellt man sich vor, dass dann f (x) eben gegen f (a) geht - das ist eine Weise, die Stetigkeit von f in a auszugrücken. Eine andere Version der Stetigkeit, die noch etwas zu präzisieren sein wird: Bei kleinem Unterschied zwischen x und a sollte auch der Unterschied zwischen f (x) und f (a) klein bleiben. Das formulieren nunmehr genau. Zunächst brauchen wir eine kleine Vorbereitung zum Begriff ’Unendlich’. Wir sagen, dass x1 nach Null geht, wenn x nach ∞ geht, oder dass x2 nach ∞ geht für x nach ∞. Das benutzen wir gerade so, wie wenn wir sagen: x2 geht nach 4, wenn x nach 2 geht. Wie ist genauer mit −∞, ∞ umzugehen? D 18 (Einführung der Objekte −∞, ∞). Wir fügen der Menge der rellen Zahlen zwei neue Objekte hinzu, −∞ und ∞. Beide sind verschieden, beide sind keine Elemente von R. Wir erweitern die Anordnung von R zu einer Anordnung von R ∪ {−∞, ∞} durch die Vorschrift: −∞ < a < ∞ für alle a ∈ R. Vorsicht: Es sind keinerlei arithmetische Operationen mit −∞, ∞ definiert! Manchmal findet man Aussagen wie ∞ + b = ∞, wenn b ∈ R. Dies ist aber nur eine Abkürzung für folgende genaue Aussage: Wenn limx→a f (x) = ∞ und limx→a g(x) = b, dann limx→a (f (x) + g(x)) = ∞. Bildet man dagegen ’∞· 0’ und übersetzt in diesem Sinne diesen Term, so findet man, dass keine Aussage der Form ’∞·0 = b’ richtig ist! Es ist daher von solcher Notation überhaupt abzuraten. Wohl aber ist es sinnvoll und wichtig, den Begriff der ’Umgebung’ sowohl für reelle Zahlen als auch für −∞, ∞ zu bilden: D 19 (Begriff der Umgebung). Eine Umgebung einer Zahl a ∈ R ist eine Zahlenmenge, welche ein offenes Intervall um a enthält, also eine Zahlenmenge, welche Uε (a) := { x ∈ R| |x − a| < ε} enthält für ein ε > 0. Eine Umgebung von ∞ ist eine Zahlenmenge, welche eine Menge der Form { x ∈ R| x > M } enthält für eine reelle Zahl M. Eine Umgebung von −∞ ist eine Zahlenmenge, welche eine Menge der Form { x ∈ R| x < m} enthält für eine reelle Zahl m. Beipiele: x ∈ R| x < −1010 ist eine Umgebung von −∞. { x ∈ R| − 0.1 < x < 0.1} = U0.1 (0) ist eine Umgebung von 0, und U0.01 ist eine kleinere Umgebung von 0. Wichtige Bemerkung: Wenn man von beliebig kleinen Umgebungen spricht, so kann man sich auf solche offenen Intervalle beschränken. Denn zu jeder Umgebung gibt es eine kleinere, welche diese spezielle Form hat. Damit werden Umgebungen sehr handlich. D 20 (Grenzwert bei Funktionen). Seien a, b ∈ R ∪ {−∞, ∞}. Sei f (x) für alle x in einer Umgebung von a definiert, außer etwa in a selbst. Dann definieren wir: lim f (x) = b : ⇐⇒ x→a Für jede beliebig kleine Umgebung V von b gibt es eine Umgebung Das bedeutet handlich für a, b ∈ R: lim f (x) = b : ⇐⇒ x→a U von a, so dass ∀x ∈ U {a} : f (x) ∈ V ∀ε > 0∃δ > 0∀x = a : (|x − a| < δ =⇒ |f (x) − b| < ε) . Für a, b = ∞ bedeutet die Definition: lim f (x) = ∞ : ⇐⇒ x→∞ ∀M ∃N∀x > N : f (x) > M. Bemerkung: Mit Hilfe der Definition des Begriffs ’Umgebung’ kann man zwingend erschließen, wie die konkretisierte Fassung für die verbleibenden Fälle aussieht, z.B. für a ∈ R, b = −∞. Eine völlig präzise verbale Formulierung zum Verständnis: Die Definition für die Beziehung limx→a f (x) = b besagt gerade: Die Bilder liegen in einer beliebig klein gewählten Umgebung von b, wenn nur die Urbilder = a in einer hinreichend kleinen Umgebung von a liegen. Konkrete Beispiele zum Verständnis, mit Strategien, limx→a f (x) = b oder die Verneinung davon zu zeigen: 4. GRENZW ERT BEI FUNKTIONEN UND STETIGKEIT 61 1.) f(x) = x2 , a = 2, b = 4. Wir behaupten limx→2 x2 = 4. Zum Beweis geben wir beliebiges ε > 0 vor. Dazu müssen wir eine passende Zahl δ aufweisen (wir werden gewöhnlich versuchen, eine solche als Rechenausdruck in ε auszudrücken, aber wir werden manchmal auch bequem noch ’verschenken’ können, d.h. δ unnötig klein wählen). Wir wollen im Beispiel haben: x2 − 4 < ε. Also insbesondere x2 − 4 < ε, d.h. x2 < 4 + ε. Denken wir an x = 2 + η, η > 0. Dann haben wir die Bedingung x2 = η2 + 4η + 4 <√4 + ε. Das bedeutet η 2 + 4η − ε < 0. Lösen wir die Gleichung η 2 + 4η − ε = 0, dann erhalten wir √ η = −2+ 4 + ε (nur die positive Lösung ist brauchbar!). Damit wissen wir: Wenn δ = δ (ε) = −2 + 4+ ε (das ist der besagte Ausdruck in ε hier!), so wissen wir jetzt: Wenn x > 2, |x − 2| < δ, dann x2 − 4 < ε. Probieren wir aus, ob das auch für x < 2, |x − 2| < δ gilt: Wir haben dann mit einem η > 0 : x = 2− η > 2−δ. Aber √ √ 2 2 (2 − δ) = 4 − 4δ + δ 2 , mit δ = −2 + 4 + ε also: (2 − δ) − 4 = 16 −8 4 + ε + ε und damit für δ < 2 √ (was etwa mit ε < 1 automatisch der Fall ist): x2 − 4 < (2 − δ)2 − 4 = −8 4 + ε + 16 + ε < ε. Denn √ −8 4 + ε + 16 < 0. Wir haben im Beispiel sogar δ (ε) optimal ausgerechnet. So etwas macht typisch 2 ein wenig Aufwand. 2 Im Beispiel wäre folgender Weg vielε einfacher: x − 4 = (x − 2) (x + 2) . Mitε ε < 1 hat 2 man dann x − 4 ≤ |x − 2| · 5, also reicht δ (ε) = 5 . Dann wird nämlich mit |x − 2| < δ = 5 auch x − 4 ≤ ε · 5. Die Voraussetzung ε < 1 ist harmlos. Für ε > 1 wähle einfach δ (ε1 ) mit einem ε1 < 1. 5 (Unten wird man sehen, dass wir damit die Stetigkeit der Quadratfunktion an der Stelle x0 = 2 gezeigt haben. Analog kann man einsehen, dass stets limx→x0 x2 = x20 gilt. 2.) limx→0 x12 = ∞. Dafür haben wir zu zeigen: Wählt man |x| klein genug, so ist x12 > M für vorgegebene Zahl M. Wieder dürfen wir M beliebig groß voraussetzen, wir verlangen M > 0. Dazu lösen 1 wir einfach die Ungleichung nach |x| auf: x12 > M ⇐⇒ |x|2 < M ⇐⇒ |x| < √1M . In diesem Falle war sogar das optimale δ (M ) leicht auszurechnen. 3.) limx→0 x1 existiert nicht, schon gar nicht als Zahl, aber auch nicht in der Form ±∞. Wir zeigen das ausführlich, den Umgang mit der Verneinung der Bedingung zu üben. Um zu zeigen, dass der Grenzwert hier keine reelle Zahl sein kann, haben wir Folgendes zu tun: Für eine beliebige Zahl b ∈ R ist eine Umgebung Uε (b) anzugeben, so dass mit |x| < δ, δ > 0, niemals garantiert ist, dass x1 − a < ε, so klein 1 man auch δ wählt. Wir wählen mit x = 0, ε = 1. Wir lösen x − b 1> 1 - nur eine Lösung ist verlangt 1 1 |x| < δ! Die Bedingung x − b > 1 ist sicher erfüllt mit x > |b| + 1, also x > 0 und x < |b|+1 . Aber die 1 zweite Bedingung verlangt |x| < δ. Beides ist erfüllt mit x = min δ/2, |b|+2 . Aber der Limes kann auch nicht ∞ sein; denn dann müsste x1 > M > 0 gelten für |x| < δ, mit passendem δ. Aber mit x = −δ/2 ist 1 x < 0 < M. Ebenso kann auch −∞ nicht Grenzwert sein, wozu man N < 0 wählt und x = δ/2. 4.) Ist limx→a f (x) = b und limx→a g (x) = c, so gilt limx→a (f (x) + g (x)) = b + c. Denn seien zu beliebiger Zahl ε > 0 nach Voraussetzung existierende Zahlen δ 1 , δ 2 > 0 derart gegeben, dass |f (x) − b| < ε/2 für |x − a| < δ 1 und |g (x) − c| < ε/2 für |x − a| < δ 2 . Dann wählen wir δ = min (δ 1 , δ 2 ) und haben: |f (x) + g (x) − (b + c)| = |f (x) − b + g (x) − c| ≤ |f (x) − b| + |g (x) − c| < ε/2 + ε/2 = ε. Damit haben wir einen der praktischen typischen Grenzwertsätze, die wir noch ein wenig ausbauen wollen. Zunächst haben wir die grundlegende Tatsache: S 22 (Eindeutigkeit des Grenzwerts). Wenn limx→a f (x) existiert, so ist dieser eindeutig bestimmt. Begründung: Wenn b1 = b2 , so gibt es Umgebungen V1 von b1 und V2 von b2 mit V1 ∩ V2 = ∅. Also kann eine Umgebung von a ihre f− Bilder nicht in V1 und V2 zugleich haben. Zu Ungleichungen bei Grenzwerten hat man folgende Grundtatsache: S 23 (Monotonie des Grenzwertes). Wenn f (x) ≤ g (x) für alle x = a (in einer beliebig kleinen Umgebung von a) und limx→a f (x) , limx→a g (x) beide existieren, so ist limx→a f (x) ≤ limx→a g (x) . (Analog für ≥ .) Insbesondere folgt aus α ≤ f (x) ≤ β für alle x in einer beliebig kleinen Umgebung von a, dass α ≤ limx→a f (x) ≤ β, wenn dieser Grenzwert existiert. Vorsicht: Die entsprechend Aussage gilt nicht mit <, > . Beispiel: x1 > 0 für x > 0, aber limx→∞ x1 = 0, nicht mehr > 0. Begründung: Wäre b = limx→a f (x) > limx→a g (x) = c, so gäbe es eine Umgebung U von b und eine Umgebung V von c, so dass alle Elemente von U größer als elle Elemente von V wären. Wegen der Limesbeziehungen gäbe es jedoch eine Umgebung W von a, so dass für alle x ∈ W \ {a}: f (x) ∈ U und g (x) ∈ V. Für jedes solche x ∈ W \ {a} wäre f (x) > g(x) entgegen der Voraussetzung, dass f(x) ≤ g(x) 62 4. REELLE FUNKTIONEN zumindest in einer kleinen Umgebung von a. Für die zweite Aussage braucht man nur g(x) = β (konstant) zu setzen bzw. g(x) = α und die erste darauf anzuwenden. Man kann die Monotonie des Grenzwertes zuweilen ausnutzen, um einen neuen Grenzwert zu bestimmen, wenn es gelingt, die Werte geeignet einzuschließen: S 24 (Einschließungsprinzip). Wenn limx→a f (x) = limx→a h (x) = c ∈ R und f (x) ≤ g (x) ≤ h (x) für alle x (wieder genügt es, dies für alle x in einer beliebig kleinen Umgebung von a zu fordern), dann gilt limx→a g (x) = c. Beweis: Nach Voraussetzung haben wir zu vorgelegtem ε > 0 stets δ > 0, so dass |f(x) − c| < ε/2 und |h (x) − c| < ε/2 für alle x mit |x − a| < δ, x = a. Mit der Ungleichung f(x) ≤ g (x) ≤ h (x) gilt dann |g(x) − c| ≤ |f (x) − c| + |g (x) − c| < ε. Anwendungsbeispiel: Sei 0 < x < π/2. Wir betrachten das Dreieck mit den Eckpunkten (0, 0), (0, cos (x)) , (cos (x) , sin (x)) . Sein Flächeninhalt ist 12 sin (x) cos (x) . Der Kreisbogen des Einheitskreises zwischen den letzten beiden Eckpunkten schließt mit dem Ursprung einen Kreissektor ein mit Flächenx inhalt 2π · π = x2 . Also 12 sin (x) cos (x) ≤ x2 . Der Kreissektor ist aber dem Dreieck mit den Eckpunkten sin(x) (0, 0) , (1, 0) , (1, tan (x)) einbeschrieben. Also x2 ≤ 12 tan (x) = 12 cos(x) . Das liefert die Ungleichung sin (x) sin (x) cos (x) ≤ x ≤ , 0 < x < π/2. Folglich cos (x) x 1 ≤ cos (x) ≤ für 0 < |x| < π/2. Daher (Ungleichung für die Kehrwerte!) sin (x) cos (x) sin (x) 1 ≥ cos (x) für 0 < |x| < π/2. ≥ cos (x) x 1 = 1. (Dafür benutzen wir allerdings die Stetigkeit von cos sowie Aber limx→0 cos (x) = limx→0 cos(x) an der Stelle x0 = 0, s.u.) Mit dem Einschließungsprinzip haben wir: lim x→0 1 cos sin (x) = 1. x Wie wir später sehen werden, ist dies genau die Aussage: sin′ (0) = 1 = cos (0) . Also: sin ist an der Stelle 0 differenzierbar, und die Ableitung hat dort den Wert 1. Damit werden wir ganz leicht allgemein sin′ = cos beweisen können. Zuweilen sind wie im Beispiel 4.) oben Überlegungen nützlich, sich an eine Stelle a einmal von rechts und einmal von links zu nähern. Das wollen wir systematisieren: D 21 (einseitige Grenzwerte). Sei a ∈ R. Dann definiert man lim f (x) = b : ⇐⇒ Für jede beliebig kleine Umgebung V von b gibt es eine Umgebung U von a, so dass ∀x ∈ U{a} : x > a =⇒ f (x) ∈ V x→a+ Entsprechend definiert man limx→a− f (x) = b mit der eingefügten Bedingung x < a. (Einziger Unterschied zur Definition des gewöhnlichen ’beidseitigen’ Grenzwertes: Es werden nur jeweils die x > a bzw. die x < a betrachtet, die Forderung auf diese eingeschränkt.) Beispiel: Man hat limx→0+ x1 = ∞, aber limx→0− Grenzwerte mit dem beidseitigen: 1 x = −∞. Folgender Satz verbindet die einseitigen S 25. limx→a f(x) = b ⇐⇒ limx→a− f (x) = b und limx→a+ f (x) = b. Begründung: ’ =⇒ ’ ist unmittelbar klar (beide Bedingungen auf der rechten Seite verlangen weniger.) Zu ’ ⇐= ’: Auch das ist reine Logik: Nach beliebiger Wahl einer Umgebung V von b gibt es Umgebungen U1 , U2 von a jeweils zur Erfüllung der beiden einseitigen Grenzwertforderungen. Damit kann man aber ein ∈ ∈ heitlich U = U1 ∩U2 wählen. Somit für alle x ∈ U : x > a =⇒ f (x) V und x < a =⇒ f (x) V . Daher für alle x ∈ U x < a oder x > a =⇒ f (x) ∈ V , also x = a =⇒ f (x) ∈ V für alle x ∈ U. Genau das verlangt die Definion von limx→a f(x) = b. Wir kommen zum Begriff der Stetigkeit: 4. GRENZW ERT BEI FUNKTIONEN UND STETIGKEIT 63 D 22. Es sei f eine Funktion, deren Definitionsbereich eine Umgebung von x0 ∈ R umfasst. f heißt stetig an der Stelle x0 genau dann, wenn limx→x0 f (x) = f (x0 ) . (Entsprechend formuliert man ’halbstetig von oben / unten’ mit den entsprechenden einseitigen Grenzwerten). Bemerkung zum konkreteren Verständnis: Die Definition besagt, dass man f mit dem Grenzprozess vertauschen kann. Wir haben hier den Begriff der Konvergenz von Zahlenfolgen nicht eingeführt (Mathematik B), aber immerhin können wir intuitiv verstehen: ’Wenn eine Folge von Zahlen gegen x0 konvergiert, so konvergiert die Folge der f − Bilder gegen f (x0 )’. Genau dies fordert die Definition für beliebige Zahlenfolgen. Handlich benutzbar wird die Stetigkeitsdefinition durch folgendes Einsetzen der Definition des Grenzwertes bei Funktionen (mit der Erleichterung, dass sowohl x0 als auch f (x0 ) Zahlen sind und nicht ±∞): S 26. Mit den Voraussetzungen der vorigen Definition gilt: f stetig in x0 ⇐⇒ ∀ε > 0∃δ > 0∀x (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) . Das ist eine unmittelbare Umformulierung von limx→x0 f (x) = f (x0 ) . Lediglich die Einschränkung auf x = x0 fehlt - diese war wesentlich bei der allgemeinen Grenzwertdefinition, da f (a) nicht definiert zu sein brauchte - und bei a ∈ {−∞, ∞} auch nicht sein konnte. Hier ist die Kernaussage für x = x0 banal richtig. 4.2. Praktische Ermittlung von Grenzwerten und Entscheidung von Stetigkeit. Meist wird man nicht unmittelbar die zuvor gegebenen Definitionen anwenden, sondern so arbeiten: Man kennt schon gewisse Grenzwerte oder sieht sie sofort, dann schließt man auf Grenzwerte zusammengesetzter Ausdrücke (sowohl für die Frage der Existenz als auch für die Frage des Wertes). Ebenso beim Umgang mit dem Stetigkeitsbegriff: Man weiß schon von vielen Funktionen globale Stetigkeit und schließt auf die Stetigkeit zusammengesetzter Funktionen. Daher stellen wir in den folgenden beiden Sätzen die nützlichen Grundresultate zusammen, darunter auch ein solche, die erst später begründet werden kann, da sie die Ableitung benutzen. 4.2.1. Grenzwertsätze. S 27 (über Grenzwerte bei Funktionen). Es sei a ∈ R ∪ {−∞, ∞}. Es seien limx→a f (x) = b ∈ R und limx→a g (x) = c ∈ R. Dann gilt: 1. Abteilung: Arithmetisches Rechnen mit endlichen Grenzwerten Es seien limx→a f (x) = b ∈ R und limx→a g (x) = c ∈ R. Dann gilt: lim αf (x) = α lim f (x) x→a x→a lim (f (x) ± g (x)) = b ± c x→a lim (f (x) · g (x)) = b · c x→a lim x→a f (x) g (x) = b , wenn c = 0 c 2. Abteilung: Arithmetisches Verhalten von Grenzwerten einschließlich ∞ Wenn lim f(x) = ∞ und lim g(x) = c ∈ R, dann lim (f (x) + g(x)) = ∞ x→a x→a x→a Wenn lim f(x) = ∞ und ∀x(0 < m < g (x)), dann lim (f (x) g (x)) = ∞ x→a x→a f (x) =0 g(x) f (x) Wenn lim f(x) = ∞ und ∀x(0 < g (x) ≤ M ), M ∈ R, dann lim = ∞. x→a x→a g(x) Wenn ∀x |f (x)| ≤ c ∈ R und lim g (x) ∈ {−∞, ∞}, dann lim x→a x→a Bemerkung: die Aussagen ∀x... in den Voraussetzungen der letzten drei Aussagen werden jeweils nur für x ∈ U \ {a} für eine Umgebung U von a benötigt. 3. Wenn f stetig ist in a ∈ R, so ist limx→a f (x) = f(a). 64 4. REELLE FUNKTIONEN 4 . Abteilung : Regel von de L’Hospital zum arithmetischen Verhalten von Grenzwerten von Brüchen in den problematischen Fällen (Zähler und Nenner beide gegen Null oder beide gegen ∞) Sei a ∈ R ∪ {−∞, ∞}. Es sei lim f (x) = lim g (x) = 0 oder lim f (x) = lim g (x) = ∞. x→a x→a x→a x→a f ′ (x) f (x) f (x) f ′ (x) = limx→a ′ existiert, dann existiert limx→a , und limx→a . Wenn limx→a ′ g (x) g (x) g (x) g (x) Begründungen: Die Aussagen der 4. Abteilung werden wir erst mittels der Ableitung und theoretischer Resultate über sie beweisen können (Stichwort Mittelwertsatz). Von den Aussagen der ersten beiden Abteilungen beweisen wir nur einige Beispiele - das Andere geht analog mit denselben Mitteln: Zu limx→a f (x) = b und limx→a g(x) = c =⇒ limx→a (f(x)g(x)) = bc. (Die Aussage über die Summe wurde schon in den Beispielen oben bewiesen.) Wir zeigen hier die grundlegende Strategie: Wir rollen die Sache vom Ziel her auf, und das ist die Aussage |f (x)g(x) − bc| < ε für beliebig klein vorgewähltes ε > 0. Gesucht ist eine Umgebung V von a, so dass diese Ungleichung für alle x ∈ V \{a} gilt. Wir wissen, dass wir |f (x) − b| und |g (x) − c| beliebig klein machen können für x = a aus einer Umgebung V von a. (Zunächst getrennt, dann bilden wir den Durchschnitt der Umgebungen und haben V , so dass beide Beträge klein sind.) Der Ausdruck |f (x)g(x) − bc| muss nun mit einem sehr typischen Mittel, der Dreiecksungleichung auf die Ausdrücke |f (x) − b| , |g (x) − c| zurückgeführt werden. Dazu haben wir: |f (x)g(x) − bc| = |f (x)g (x) − bg(x) + bg(x) − bc| ≤ |f (x)g(x) − bg(x)| + |bg(x) − bc| = |g(x)| |f (x) − b| + |b| |g (x) − c| . Es leuchtet bereits ein, dass dies so klein wird, wie wir wollen, wenn wir |f (x) − b| , |g (x) − c| hinreichend klein gemacht haben. Das wird deutlich, wenn wir |g(x)| < |c| + 1 setzen, was nach Voraussetzung limx→a g(x) = c sicherlich für x = a in einer Umgebung W von a gilt. Wir haben also |f (x)g(x) − bc| < (|c| + 1) |f (x) − b| + |b| |g (x) − c| . Wir wollen den Ausdruck auf der rechten Seite ≤ ε mit beliebig vorgelegtem ε > 0 bekommen. Setzen wir ε ε1 := min 1, , 2 max(|c| + 1, |b|) so folgt aus |f (x) − b| < ε1 , |g (x) − c| < ε1 das Gewünschte: (|c| + 1) |f (x) − b| + |b| |g (x) − d| < ε. Nach den Voraussetzungen limx→a f(x) = b, limx→a g(x) = c haben wir aber eine Umgebung V von a, so dass für alle x = a aus V gilt: |f (x) − b| < ε1 , |g (x) − c| < ε1 . Somit gilt |f (x)g(x) − bc| < ε für alle x = a aus W ∩ V, und W ∩ V ist wieder eine Umgebung von a. (x) Zu limx→a fg(x) = bc , wenn c = 0 und limx→a f (x) = b, limx→a g (x) = c: Man sieht schnelle, dass 1 1 limx→a g(x) = c ; denn 1 1 1 g(x) − c = cg (x) |c − g (x)| , für g (x) = 0. Man hat für x = a in einer Umgebung W von a: g (x) = 0, und |g (x)| > |c| − α > 0, also: 1 1 1 − g(x) c < (|c| − α) |c| |c − g (x)| . Nach Voraussetzung limx→a g (x) = c hat man eine Umgebung V von a, so dass für alle x ∈ V \ {a}: |c − g (x)| < ε1 , für beliebiges ε1 > 0. Wir setzen zu beliebig vorgelegtem ε > 0: ε1 := ε ((|c| − α) |c|) und haben damit für x ∈ W ∩ V \ {a}: 1 1 − g(x) c < ε. 4. GRENZW ERT BEI FUNKTIONEN UND STETIGKEIT 65 1 Das Resultat für die Quotienten folgt nunmehr aus dem für die Produkte durch Anwenden auf f (x) g(x) . Ein Beispiel zur 2. Abteilung - es sei bemerkt, dass diese Aussagen allesamt ziemlich banal sind und eigentlich stets intuitiv richtig gesehen werden: Wenn limx→a f (x) = ∞ und ∀x ∈ U \{a}(0 < g (x) ≤ M ), (x) M ∈ R, dann limx→a fg(x) = ∞. Nach der Voraussetzung limx→a f (x) = ∞ hat man zu jeder beliebig großen Zahl A ∈ R eine Umgebung V von a, so dass |f (x)| > A für alle x ∈ V \ {a}. Mit U aus der Voraussetzung bilden wir W := U ∩ V und haben für alle x ∈ W \ {a}: f (x) ≥ 1 |f (x)| ≥ A . (∗) g (x) M M wir eine beliebig große Zahl B ∈ R voraus, so wählen wir dazu A > MB und haben mit (∗): Setzen f (x) g(x) > B. Zur Nummer 3. bemerken wir, dass die Aussage direkt die Definition der Stetigkeit darstellt. Aber die Aussage ist recht nützlich. Wenn man z.B. weiß, dass limx→∞ arctan (x) = π/2, so weiß man sofort: limx→∞ ln (arctan (x)) = ln (π/2) . Vgl. auch das zweite Anwendungsbeipiel zur 4. Abteilung. Zur 4. Abteilung zwei Anwendungsbeispiele: Erstes Beispiel: x 1 lim = lim x = 0. x→∞ ex x→∞ e Also dominiert exp über x1 . Das geht aber für jede Potenz von x. Sei a > 0. Dann gibt es eine natürliche Zahl n, so dass a < n. Wir zeigen durch Induktion, dass für alle n ∈ N0 gilt: xn = 0. x→∞ ex lim 0 Induktionsanfang: limx→∞ xex = 0 ist eine banale richtige Aussage aus der 2. Abteilung. n Induktionsschluss: Sei n eine beliebige Zahl aus N0 , so dass limx→∞ xex = 0. Wir haben zu zeigen, dass die Aussage dann auch für n + 1 gilt. Aber xn+1 x→∞ ex lim de (n + 1) xn xn = (n + 1) lim x→∞ ex L’Hospital x→∞ ex = lim = Ind.-Vor. und Konstantenregel (n + 1) · 0 = 0. Genauer lautet das Argument: Da der Grenzwert auf der rechten Seite des ersten Gleichheitszeichens mit n+1 Wert Null existiert, existiert auch limx→∞ x ex und hat den Wert Null. Zweites Beispiel: Was ist lim xx ? x→0+ x x ln(x) Wir schreiben für x > 0: x = e . Wir haben ln (y) lim (x ln (x)) = lim y→∞ x→0+ y = lim de L’Hospital y→∞ 1/y = 0. 1 Also mit den Stetigkeitsargument Nummer 3.: lim xx = lim ex ln(x) = e0 = 1. x→0+ x→0+ 4.2.2. Stetigkeitssätze (Übertragung der Stetigkeit von Bestandteilen einer Funktion auf ihre Zusammensetzungen). Aus den erwähnten Grenzwertsätzen der ersten und dritten Abteilung folgt über den Begriff der Stetigkeit direkt folgender S 28. Seien f, g stetig in x0 . Dann sind auch f + g, f − g, fg in x0 stetig. Wenn außerdem g (x0 ) = 0, so ist auch fg in x0 stetig. Sei f stetig in x0 , g stetig in f (x0 ) . Dann ist auch g ◦ f stetig in x0 . Zum Beweis zeigen wir die erste Aussage für den Fall f + g (die anderen gehen völlig analog, es ist nur das Verknüpfungszeichen auszuwechseln). Zu zeigen ist: limx→x0 (f (x) + g (x)) = (f + g) (x0 ) = f (x0 ) + g (x0 ) . Aber mit der Vertauschung von lim mit + haben wir nach Grenzwertsatz: lim (f (x) + g (x)) x→x0 = lim (f (x)) + lim (g (x)) Grenzwertsatz x→x0 x→x0 = Vorauss. der Stetigkeit von f,g f (x0 ) + g (x0 ) . 66 4. REELLE FUNKTIONEN Zur zweiten Aussage: Zu zeigen ist: limx→x0 g (f (x)) = g (f (x0 )) . Wir haben: lim g (f (x)) = g lim f(x) = x→x0 Stetigkeit von g in f (x0 ) x→x0 Stetigkeit von f in x0 und Grenzwertsatz g (f (x0 )) . Dass man in vielen Fällen mit dem Begriff der Stetigkeit erst gar nicht operieren muss, garantiert folgender S 29. Wenn f differenzierbar in x0 ist, so ist f in x0 stetig. Diesen Satz werden wir bei der folgenden Behandlung der Ableitung einsehen. 4.3. Einige wichtige theoretische Sätze über Stetigkeit. D 23. Eine Funktion f heißt auf [a, b] (global) stetig, wenn für alle x0 ∈ (a, b) gilt: f ist in x0 stetig und ferner für die Ränder gilt: limx→a+ f (x) = f (a) und limx→b− f (x) = b. Eine Funktion heißt auf (a, b) stetig, wenn f in allen x0 ∈ (a, b) stetig ist. Analog definiert man globale Stetigkeit für halboffene Intervalle, indem man jeweils für den Rand die Bedingung wie oben hinzufügt. D 24 (gleichmäßige Stetigkeit). Eine Funktion f heißt auf einem Intervall I gleichmäßig stetig, wenn Folgendes gilt: ∀ε > 0∃δ > 0∀x, x0 ∈ I (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) . Bemerkung: Das bedeutet mehr als nur die globale Stetigkeit in allen x0 ∈ I. Letztere verlangt nur, dass man in Abhängigkeit von x0 zu jedem ε > 0 ein δ > 0 hat mit ∀x ∈ I (|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε) . Gleichmäßige Stetigkeit heißt dagegen, dass man die Strategie, mit der man zu ε ein solches δ angeben kann, unabhängig von x0 formulieren kann. Folgenden Satz geben wir ohne Beweis an: S 30. Eine auf einem abgeschlossenen Intervall global stetige Funktion ist dort gleichmäßig stetig. Bemerkung: Dies gilt nicht für offene oder halboffene Intervalle, z.B. ist f (x) = x1 auf (0, 1] global stetig, aber nicht gleichmäßig stetig. Denn man kann zu x0 ∈ (0, 1] sagen: Zu ε > 0 wähle δ = min(εx0 · x0 /2, x0 /2). Dann gilt für x mit |x − x0 | < δ (also x > x0 /2 (!)): 1 1 − 1 = 1 |x0 − x| < |x − x0 | < ε. x x0 xx0 x0 · x0 /2 Damit ist f global stetig auf (0, 1]. Aber das zu ε angegebene δ hängt wesentlich von x0 ab. Tatsächlich ist es unmöglich, ein passendes δ zu ε > 0 uniform für alle x0 aus (0, 1] anzugeben. Wählen wir z.B. ε = 12 , und nehmen wir an, δ > 0 wäre eine Zahl, so dass 1 − 1 <ε x x0 für alle x0 ∈ (0, 1] und alle x mit |x − x0 | < δ. Dann hätte man mit x0 = |x − x0 | < δ, aber 1 − 1 = 1 − 1 = 1 > 1 = ε. x x0 2δ 4δ 2δ 2 δ 2 und x = δ 4 natürlich S 31 (Zwischenwertsatz). Eine auf einem Intervall I global stetige Funktion nimmt dort mit zwei Werten a = f (x1 ) und b = f (x2 ) > a, x1 , x2 ∈ I, auch jeden Zwischenwert c mit a < c < b an. Es gibt also zu jeder solchen Zahl c eine Zahl x0 ∈ I mit f (x0 ) = c. Beweisidee: Nehmen wir an, es sei x1 < x2 mit f(x1 ) = a, f (x2 ) = b. Dann hat die Menge { x ∈ [x1 , x2 ]| f (x) ≤ c} die obere Schranke x2 , also eine kleinste obere Schranke in R (axiomatische Grundeigenschaft von R (!)). Nennen wir diese x0 . Damit gibt es eine Folge (an )n von Zahlen aus [x1 , x2 ], so dass limn→∞ (f (an )) = c. Nun hat die Folge (an )n eine konvergente Teilfolge (ank )k , deren Grenzwert x0 in [x1 , x2 ] liegen muss. Damit gilt auch limk→∞ f (ank ) = c. Aber wegen der Stetigkeit von f gilt limk→∞ f (ank ) = f (x0 ) . Somit f (x0 ) = c. (Im Falle x1 > x2 kann man völlig analog mit einer größten unteren Schranke argumentieren.) 5. ABLEITUNG REELLER FUNKTIONEN (EINDIM ENSIONALER FALL) 67 S 32. Eine auf [a, b] stetige Funktion f nimmt auf diesem Intervall ein absolutes Maximum und ein absolutes Minimum an. Das heißt: Es gibt x1 ∈ [a, b], so dass für alle x ∈ [a, b] : f (x) ≤ f (x1 ). Und es gibt x2 ∈ [a, b], so dass für alle x ∈ [a, b] : f(x) ≥ f(x1 ). Es folgt insbesondere, dass die Menge der Werte von f auf [a, b] (nach oben und nach unten) beschränkt ist. Bemerkung: Dieser Satz bildet den Ausgangspunkt des überaus wichtigen Mittelwertsatzes der Differentialrechnung, den wir im nächsten Abschnitt kennenlernen werden. Beweisidee (für das Maximum, für das Minimum kann man zu −f übergehen und die Existenz eines absoluten Maximums benutzen): Die Menge der Werte { f (x)| x ∈ [a, b]} ist nach oben beschränkt. Sonst gäbe es eine Folge von Zahlen (an )n , an ∈ [a, b] für alle n, so dass limn→∞ f (an ) = ∞. Aber diese Folge hat auf dem abgeschlossenen Intervall eine konvergente Teilfolge (ank )k . Somit limk→∞ ank = x0 ∈ [a, b], mit der Stetigkeit von f also limk→∞ f (ank ) = f (x0 ) , im Widerspruch zu limn→∞ (f (an )n ) = ∞, woraus auch limk→∞ f (ank ) = ∞ folgen würde. Als nach oben beschränkte Menge hat nun { f (x)| x ∈ [a, b]} eine kleinste obere Schranke, nennen wir sie M. Damit gibt es wieder mit ähnlichem Argument eine konvergente Folge (bn )n von Zahlen aus [a, b], so dass limn→∞ f (bn ) = M, aber limn→∞ bn = x1 ∈ [a, b], und nach Stetigkeit hat man f (x1 ) = M. Somit wird in x1 das absolute Maximum angenommen. 5. Ableitung reeller Funktionen (eindimensionaler Fall) 5.1. Erste Motivierung: Lokale Steigung einer Funktion. Eine Durchschnittsgeschwindigkeit bei einer eindimensionalen Bewegung während der Zeitspanne von t0 bis t1 > t0 rechnet man so aus s (t) ist der Ort zur Zeit t (auf der Zahlengeraden): v [t0 ,t1 ] = s (t1 ) − s (t0 ) . t1 − t0 Wir rechnen mit einer sich ständig ändernden Geschwindigkeit. Dann fragt sich: Was ist unter der Momentangeschwindigkeit v (t0 ) zum genauen Zeitpunkt t0 zu verstehen? Für eine praktische Messung werden wir einfach nur das Intervall [t0 , t1 ] sehr klein wählen, also t1 = t0 + ∆t, mit sehr kleiner Zahl ∆t und sagen: v (t0 ) ≈ v[t0 ,t0 +∆t] . Ungefähr, nicht exakt, und wir werden mit kleineren Daher die mathematische Idee zu folgender exakten Definition der Momentangeschwindigkeit: v (t0 ) = lim∆t→0 s(t+∆t)−s(t) . ∆t Gemeint ist der beidseitige Limes, also ist das Vorzeichen von ∆t beliebig. Wir gehen zum Allgemeinen über. Es sei f eine Funktion, welche in einem offenen Intervall um x0 definiert ist. Dann ist f (x0 + ∆x) − f (x0 ) die mittlere Steigung von f auf dem Intervall [x0 , x0 + ∆x] bzw. ∆x bei negativem ∆x auf dem Intervall [x0 + ∆x, x0 ], anschaulich die Steigung der Sekante des Graphen von f durch die Punkte (x0 , f (x0 )) und (x0 + ∆x, f (x0 + ∆x)) , und f (x0 + ∆x) − f (x0 ) lim (wenn dieser Grenzwert existiert) ist die Steigung der Tangente ∆x→0 ∆x an den Graphen von f im Punkt (x0 , f (x0 )) , vgl. folgende Abbildung : 68 4. REELLE FUNKTIONEN Schwarze Kurve: Graph von f Rot: Tangente, schwarz: Sekante Steigung: Ableitung von f in x0 Steigung (f(x0+∆x)-f(x0))/∆x x0 x0+∆ x Man beachte: es handelt sich genau um den im vorigen Abschnitt eingeführten Grenzwertbegriff bei Funktionen, nur lautet die unabhängige Variable ∆x oder bei unabhängiger Variablen t der Funktion f dann ∆t usw., weil man an beliebig kleine Beträge denkt - es wird der Grenzwert für ∆x → 0 gebildet. Wir fassen die Haultsache in folgender Definition zusammen: D 25. Sei f in einer (beidseitigen!) Umgebung von x0 definiert. Dann ist f ′ (x0 ) := lim ∆x→0 f (x0 + ∆x) − f (x0 ) , falls dieser Grenzwert in R existiert. ∆x f ′ (x0 ) heißt Ableitung von f an der Stelle x0 . Wenn der genannte Grenzwert nicht existiert oder ±∞ ist, so heißt f an der Stelle x0 nicht ableitbar oder nicht differenzierbar. (x0 ) Bemerkung: f ′ (x0 ) existiert also genau dann, wenn die Funktion g (∆x) = f(x0 +∆x)−f im Punkt ∆x ∆x = 0 stetig ergänzbar ist. Klar muss dafür auch der Zähler mit ∆x → 0 gegen Null gehen, und zwar nicht langsamer als der Nenner ∆x. Einige Beispiele für Existenz und Nichtexistenz von Ableitungen, unter direkter Anwendung der Definition: 1.) f (x) = sin (x) , x0 ∈ R. Wir behaupten: sin′ (x0 ) = cos (x0 ) . Dazu bilden wir sin (x0 + ∆x) − sin (x0 ) ∆x sin (x0 ) cos (∆x) + cos (x0 ) sin (∆x) − sin (x0 ) ∆x (cos (∆x) − 1) sin (∆x) = sin (x0 ) + cos (x0 ) ∆x ∆x −2 sin2 (∆x/2) sin (∆x) = sin (x0 ) + cos (x0 ) . 2∆x/2 ∆x = Also sin (x0 + ∆x) − sin (x0 ) ∆x→0 ∆x lim −2 sin2 (∆x/2) sin (∆x) + cos (x0 ) lim ∆x→0 ∆x→0 2∆x/2 ∆x = sin (x0 ) · 0 + cos (x0 ) · 1 = cos (x0 ) . = sin (x0 ) lim 5. ABLEITUNG REELLER FUNKTIONEN (EINDIM ENSIONALER FALL) 69 Dabei haben wir die zuvor bewiesenen arithmetischen Eigenschaften des Grenzwerts benutzt sowie das bereits hergeleitete Resultat lim∆x→0 sin(∆x) = 1. Aus diesem folgt auch sofort: ∆x −2 sin2 (∆x/2) − sin2 (∆x/2) sin (∆x/2) = lim = lim − sin (∆x/2) = 0 · 1 = 0. lim ∆x→0 2∆x/2 ∆x/2→0 ∆x/2 ∆x/2→0 ∆x/2 2.) Wir behaupten, dass die Funktion f (x) = |x| in x0 = 0 nicht differenzierbar ist. (Anschaulich ist das auch klar, weil der Graph in x0 = 0 eine Ecke hat, also keine Tangente an den Graphen in diesem Punkt existieren kann.) Dazu bilden wir |0 + ∆x| − |0| ∆x→0+ ∆x |0 + ∆x| − |0| lim ∆x→0− ∆x lim ∆x = 1, ∆x→0+ ∆x −∆x = = −1. ∆x = lim Da beide einseitigen Grenzwerte verschieden sind, kann der beidseitige lim∆x→0 |0+∆x|−|0| nicht existieren. ∆x f ′ (0) existiert also nicht. Man beachte aber, dass f in x0 stetig ist. Wir werden im nächsten Unterabschnitt sehen, dass umgekehrt Differenzierbarkeit in x0 Stetigkeit in x0 erzwingt. Damit haben wir natürlich, dass eine Funktion insbesondere an Unstetigkeitsstellen nicht differenzierbar sein kann. 3.) Wir setzen voraus, dass exp(x) = ex in x0 = 0 differenzierbar ist mit exp′ (0) = 1.Wir wollen zeigen, dass dann für alle x0 ∈ R folgt: exp′ (x0 ) = exp (x0 ) . Wir haben 0+∆x ex0 +∆x − ex0 − e0 e0+∆x − e0 x0 e lim = lim e = ex0 lim = ex0 exp′ (0) = ex0 . ∆x→0 ∆x→0 ∆x→0 ∆x ∆x ∆x Mehr können wir erst in Mathematik B mit den Potenzreihen ausrichten. Wir haben damit den ersten Teil des angegebenen Programms begonnen, die Ableitungen der Grundfunktionen bereitzustellen. Daher geben wir nunmehr eine vollständige Liste der Ableitungen unserer grundlegenden Funktionen (fehlende Begründungen liefern wir nach, sobald wir die Ableitungsregeln zur d (Rechenausdruck(x))’, die Verfügung haben). In dieser Liste verwenden wir die praktische Notation ’ dx es erspart, immer zuerst einen Namen für die Funktion einzuführen. Beispielsweise heißt die erste Zeile: Für f (x) = xa gilt f ′ (x) = axa−1 . - In anderen Fällen liegt ein Name der Funktion bereits vor, so d ln (x) = x1 ’. Übrigens hat diese Notation auch gerade in dass ’ln′ (x) = x1 ’ eben praktischer ist als ’ dx naturwissenschaftlich-technischer Anwendung großen Nutzen, sie bei Anwesenheit von äußeren Paramed tern sofort klarstellt, nach welcher unabhängigen Variablen abgeleitet wird, etwa dt (αet ) = αet .) Grundableitungen : d a x = axa−1 dx d x e = ex dx 1 ln′ (x) = x sin′ (x) = cos (x) cos′ (x) = − sin (x) 1 arctan′ (x) = 1 + x2 Glücklicherweise braucht man nun nicht für jede Funktion eine solche Prozedur wie oben erneut durchzuführen, den Limes eines Differenzenquotienten zu bestimmen. Stattdessen verfährt man viel praktischer so: Aus unseren wenigen Grundfunktionen werden alle weiter wichtigen aufgebaut durch die arithmetischen Operationen sowie die Verkettung (Hintereinanderschaltung). Man kennt die Ableitungen der Grundfunktionen und baut aus diesen nach den sogenannten Ableitungsregeln die Ableitung beliebiger damit aufgebauter Funktionen zusammen. Das Ganze ist dann der sogenannte Ableitungskalkül, der im dritten Unterabschnitt folgen wird. Zuvor aber werden wir eine zweite wichtige Motivierung bringen, die anschließend auch weiter tragfähig sein wird als die erstere, die zudem die in naturwissenschaftlichtechnischer Hinsicht wichtigere ist. Außerdem hat sie den Vorteil, dass sie mit ihrer neuen Version der Ableitung die Ableitungsregeln für Zusammensetzungen von Funktionen leichter herzuleiten gestattet. 70 4. REELLE FUNKTIONEN 5.2. Zweite Motivierung: Lineare Näherung einer Funktion in einer kleinen Umgebung von x0 . Wir stellen uns vor, dass wir die Werte einer schwierige Funktion f , denken wir etwa an sin, näherungsweise in einer kleinen Umgebung von x0 ausrechnen wollen, bei bekanntem Wert f (x0 ) an der Stelle x0 . Im Beispiel sin wählen wir x0 = 0 und kennen sin (0) = 0. Wie ist also sin (∆x) für kleine |∆x| vernünftig zu nähern? Die Idee ist es, f (x0 + ∆x) als Funktion von ∆x durch eine besonders einfache Funktion anzunähern, deren Werte man problemlos ausrechnen kann. Nun sind die einfachsten Funktionen die Polynome, welche dies Merkmal haben. Unter ihnen sind die allereinfachsten die Konstanten (des Grades 0) und die Polynome 1. Grades. Diese werden wir hier verwenden. Später werden die Polynome höheren Grades herangezogen werden und zur Potenzreihendarstellung führen. Hier geht es um die Näherung ersten Grades, oder auch erster Ordnung, die technisch-wissenschaftlich sehr wichtig ist. Gerade sie ist mit der Ableitung verbunden. Zum besseren Verständnis beginnen wir aber mit der Näherung 0. Ordnung, durch eine Konstante. Es ist klar, dass man grob sagen wird: f (x0 + ∆x) ≈ f (x0 ) . Die sich anbietende Konstante ist also allein f (x0 ) . Aber damit das vernünftig ist, muss gelten: Wenn ∆x einen hinreichend kleinen Betrag hat, so wird auch der Unterschied zwischen f (x0 + ∆x) und f (x0 ) klein. Verschärft man Letzteres zu: ’so klein, wie man möchte’, dann hat man genau die Bedingung der Stetigkeit von f an der Stelle x0 . Bei jeder Art von Näherung wird man systematisch nach dem Fehler fragen, und so führen wir nun ein Fehlerglied ein, indem wir aus der ’Ungefähr’-Gleichung eine Gleichung machen. Wir setzen: f (x0 + ∆x) = f (x0 ) + R (∆x) . R (∆x) ist also definiert durch f (x0 + ∆x) − f (x0 ) , es ist das Restglied oder Fehlerglied. Nun definieren wir: D 26 (und Satz: Näherung 0. Ordnung). Sei f in x0 stetig. Dann existiert die Näherung 0. Ordnung von f um x0 , definiert durch f (x0 + ∆x) = f (x0 ) + R (∆x) und die Restgliedbedingung 0. Ordnung: lim R (∆x) = 0. ∆x→0 Die Näherung 0. Ordnung von f um x0 lautet f (x0 + ∆x) ≈ 0. O rdnung f (x0 ) . Die Konstante ist durch die Restgliedbedingung eindeutig als f (x0 ) bestimmt. Für das Behauptete ist wenig zu beweisen: R (∆x)∆x→0 = 0 ist eine unmittelbare Umformulierung der Stetigkeit von f in x0 , und bei Näherung durch eine Konstante c = x0 hätte man: Rc (∆x) = f (x0 + ∆x) − c, also lim Rc (∆x) = lim f (x0 + ∆x) − c = f (x0 ) − c = 0. ∆x→0 ∆x→0 Wir gehen nunmehr über zur Näherung 1. Ordnung, also durch eine lineare Funktion, ein Polynom 1. Grades. Setzen wir ein solches allgemein an und schreiben die Gleichung mit Restglied: f (x0 + ∆x) = a + b∆x + Rc,d (∆x) . Nun soll diese Näherung sicher nicht schlechter werden als die Näherung 0. Ordnung. Insbesondere sollte also lim∆x→0 Rc,d (∆x) = 0 sein. Das erzwingt aber: c = f (x0 ) , da das Glied b∆x gegen Null geht für ∆x → 0. Somit schreiben wir: f (x0 + ∆x) = f (x0 ) + b∆x + Rb (∆x) . Nun stellen wir fest, dass wir nicht weiterkommen, wenn wir bei der Restgliedbedingung 0. Ordnung bleiben: Sie wäre für Rb mit jeder Zahl b erfüllt. Natürlich soll die Näherung 1. Ordnung besser werden als die Näherung 0. Ordnung. Wir werden nunmehr in der folgenden Definition die entsprechend verschärfte Resttermbedingung 1. Ordnung formulieren und ein Eindeutigkeitsresultat für b erhalten: 5. ABLEITUNG REELLER FUNKTIONEN (EINDIM ENSIONALER FALL) 71 D 27 (Tangentenzerlegung und Näherung 1. Ordnung). Sei f in einer Umgebung von x0 definiert. Dann heißt eine Zerlegung f (x0 + ∆x) = f (x0 ) + b∆x + Rb (∆x) mit b ∈ R genau dann Tangentenzerlegung für f um die Stelle x0 , wenn der Restterm Rb die folgende Resttermbedingung 1. Ordnung erfüllt: Rb (∆x) = 0. ∆x Eine solche Zerlegung existiert genau dann, wenn f ′ (x0 ) existiert, und b ist dann eindeutig bestimmt durch b = f ′ (x0 ) . Wenn die Tangentenzerlegung von f um x0 existiert, so hat man folgende Näherung 1. Ordnung: lim ∆x→0 f (x0 + ∆x) ≈ 1. O rdnung f (x0 ) + f ′ (x0 ) ∆x. Die optimale Steigung für die Wahl einer f um x0 approximierenden linearen Funktion ist also die Tangentensteigung, die Ableitung. Existiert diese nicht, so hat man keine sinnvolle Näherung 1. Ordnung. Zur Begründung haben wir nur die Existenz einer Tangentenzerlegung vorauszusetzen und dann umzuschreiben zu f (x0 + ∆x) − f (x0 ) Rb (∆x) =b+ . ∆x ∆x Nun lassen wir ∆x gegen Null gehen, die rechte Seite geht nach Voraussatzung gegen b, die linke hat also auch einen Grenzwert, und der ist b. Somit hat man nach Definition der Ableitung als Grenzwert von Differenzenquotienten: f ′ (x0 ) existiert und ist gleich b. Setzen wir umgekehrt die Existenz von f ′ (x0 ) voraus (x0 ) = f ′ (x0 ) auch, dass der Restterm Rf ′ (x0 ) (∆x) die und setzen b = 0, so folgt aus lim∆x→0 f (x0 +∆x)−f ∆x Resttermbedingung 1. Ordnung erfüllt, weil Rf ′ (x0 ) (∆x) f (x0 + ∆x) − f (x0 ) − f ′ (x0 ) ∆x f (x0 + ∆x) − f (x0 ) = = − f ′ (x0 ) , ∆x ∆x ∆x also Rf ′ (x0 ) (∆x) f (x0 + ∆x) − f (x0 ) lim = lim − f ′ (x0 ) = 0. ∆x→0 ∆x→0 ∆x ∆x Also existiert dann die Tangentenzerlegung und lautet f (x0 + ∆x) = f (x0 ) + f ′ (x0 ) ∆x + Rf ′ (x0 ) (∆x) . Hier ist zur Veranschaulichung ein Bild von der Sache (im Beispiel hat R (∆x) einen negativen Wert): Schwarze Kurve: Graph von f Rote Gerade: Näherung 1. Ordnung um x0 R(∆ x) x0 x0+∆ x 72 4. REELLE FUNKTIONEN Beispiele für Tangentenzerlegungen und Näherung 1. Ordnung 1.) Näherung 1. Ordnung von sin (∆x) (für kleine |∆x|): sin (∆x) = sin (0 + ∆x) ≈ sin (0) + sin′ (0) ∆x = ∆x. 1 Dies können wir natürlich dann auch so formulieren, dass sin (x) ≈ x für kleine |x| . Daher ist sin 100 1 1 1 etwa 100 , tatsächlich ist (Computernäherung) sin 100 − 100 etwa −1.67 · 10−7 . Man beachte: Es ist nicht der Sinn des Restterms, ihn auszurechnen, sondern ihn nach oben abzuschätzen, was wir später mittels Integralrechnung tun werden. Die volle Tangentenzerlegung ist dann sin (∆x) = ∆x + R (∆x) , mit lim∆x→0 R(∆x) ∆x = 0. 2.) Näherung 1. Ordnung für ex für kleine |x| ist 1 + x; denn: e∆x = e0+∆x ≈ e0 + exp′ (0) ∆x = 1 + ∆x. Wir leiten nunmehr die wichtigen Ableitungsregeln (in Beispielen) her und sehen dabei, dass die Version der Tangentenzerlegung dafür sehr nützlich ist. 5.3. Ableitungsregeln für Verknüpfungen von Funktionen. Wir stellen diese Ableitungsregeln zunächst vor und leiten die schwierigeren anschließend her. (f + g)′ = f ′ + g′ Linearität der Ableitung : (αf)′ = αf ′ (fg)′ = f ′ g + g ′ f ′ f f ′g − g′f = g g2 Produktregel : Quotientenregel : Kettenregel : Umkehrfunktionsregel : (g ◦ f)′ = f ′ (g′ ◦ f ). −1 ′ 1 f (f (x0 )) = ′ (wenn f ′ (x0 ) = 0). f (x0 ) Die Gleichungen sind genau so zu lesen: Wenn die auf der rechten Seite vorkommenden Ableitungen existieren, so existiert die Ableitung auf der linken Seite, und beide sind gleich. Ferner stehen hier abstrakt Funktionengleichungen, die eben die Gleichung allgemein für einzusetzende unabhängige Variable x0 bedeuten. So bedeutet die Kettenregel konkreter gefasst: Wenn f ′ (x0 ) und g′ (f (x0 )) existieren, so existiert (g ◦ f )′ (x0 ) , und es gilt: (g ◦ f )′ (x0 ) = f ′ (x0 ) g′ (f (x0 )) . Beispiele zur Anwendung der Regeln: ′ tan = sin cos ′ = cos2 + sin2 1 = = 1 + tan2 . cos2 cos2 Konkreter mit ’von’-Klammern geschrieben: tan′ (x) = d sin (x) cos (x) · cos (x) − sin (x) (− sin (x)) 1 = = = 1 + tan2 (x) . dx cos (x) cos2 (x) cos2 (x) d sin5 (x) = cos (x) · 5 sin4 (x) , Erläuterung: Wir haben hier dx sin5 (x) = g (f (x)) mit f (x) = sin (x) und g (x) = x5 . Also f ′ (x) = cos (x) und g′ (x) = 5x4 , daher g′ (f (x)) = 5 sin4 (x) . d 2 x x +1= √ dx x2 + 1 5. ABLEITUNG REELLER FUNKTIONEN (EINDIM ENSIONALER FALL) 73 Abschließend noch zwei typische Anwendungen der Umkehrregel, welche zwei zu merkende Grundableitungen ergeben: 1 1 ln′ (ex ) = für alle x ∈ R, also ln′ (x) = für alle x > 0. ex x π π 1 1 arctan′ (tan (x)) = = , für alle x ∈ − , , also tan′ (x) 2 2 1 + tan2 (x) 1 arctan′ (x) = für alle x ∈ R. 1 + x2 Zu den Begründungen der Ableitungsregeln: Wir nehmen uns lediglich ein paar der interessanteren Beispiele vor, als ein einfacheres die Produktregel und als schwierigeres die Kettenregel. Die Technik besteht einfach darin, die vorauszusetzenden Tangentenzerlegungen (aufgrund der Ableitbarkeitsvoraussetzungen) einzusetzen. Zur Produktregel: Seien f und g in x0 differenzierbar. Dann behaupten wir, dass auch fg an dieser ′ Stelle differenzierbar ist und dass gilt: (f g) (x0 ) = f ′ (x0 ) g (x0 ) + g′ (x0 ) f (x0 ) . Nach Voraussetzung haben wir mit Resttermen R, S, welche die Resttermbedingung 1. Ordnung erfüllen: (f g) (x0 + ∆x) = f (x0 + ∆x) g (x0 + ∆x) = (f (x0 ) + f ′ (x0 ) ∆x + R (∆x)) (g (x0 ) + g ′ (x0 ) ∆x + S (∆x)) = f (x0 ) g (x0 ) + (f (x0 ) g ′ (x0 ) + f ′ (x0 ) g(x0 ))∆x + f (x0 ) S (∆x) + g (x0 ) R (∆x) +f ′ (x0 ) ∆xS (∆x) + g ′ (x0 ) ∆xR (∆x) + R (∆x) S (∆x) = (f g) (x0 ) + (f (x0 ) g′ (x0 ) + f ′ (x0 ) g(x0 ))∆x + T (∆x) , wobei der Term T (∆x) offenbar die Resttermbedingung 1. Ordnung erfüllt. (Man wende nur auf jeden Summanden von T (∆x) /∆x die Grenzwertsätze zum arithmetischen Verhalten von Grenzwerten an.) Daher schließen wir, dass der Faktor bei ∆x die Ableitung ergibt. Das ist genau die angegebene Produktregel. Zur Kettenregel: Sei f in x0 differenzierbar, g in f (x0 ) differenzierbar. Nunmehr schreiben wir in den demnach existierenden Tangentenzerlegungen: ) (∆x) , f (x0 + ∆x) = f (x0 ) + f ′ (x0 ) ∆x + ∆xR ) (∆x) = 0. mit lim R ∆x→0 Dabei haben wir lediglich für den ursprünglichen Restterm R (∆x) mit der Eigenschaft lim∆x→0 R (∆x) /∆x = ) (∆x) := R (∆x) /∆x. Damit haben wir R (∆x) = ∆xR ) (∆x) und lim∆x→0 R ) (∆x) = 0. Das0 gesetzt: R selbe tun wir für die zweite vorauszusetzende Tangentenzerlegung: g (f (x0 ) + ∆y) = g (f (x0 )) + g′ f (x0 ) + ∆y S) (∆y) , mit lim S) (∆y) = 0. ∆y→0 Nunmehr haben wir ) (∆x) (g ◦ f) (x0 + ∆x) = g (f (x0 + ∆x)) = g f (x0 ) + f ′ (x0 ) ∆x + ∆xR ) (∆x) ) = g(f (x0 )) + g′ (f (x0 )) ∆y + ∆y S) (∆y) (mit ∆y := f ′ (x0 ) ∆x + ∆xR ) (∆x) + f ′ (x0 ) ∆x + ∆xR ) (∆x) S) (∆y) = g (f (x0 )) + g ′ (f (x0 )) f ′ (x0 ) ∆x + g ′ (f (x0 )) ∆xR Das hat die gewünschte Form der Tangentenzerlegung, nachzuprüfen ist nur, ob der Restterm ) (∆x) + f ′ (x0 ) ∆x + ∆xR ) (∆x) S) (∆y) T (∆x) := g ′ (f (x0 )) ∆xR die Resttermbedingung 1. Ordnung erfüllt. Dafür genügt es nach Grenzwertsatz, dass beide Summanden von T (∆x) es tun. Zum ersten: ) (∆x) g ′ (f (x0 )) ∆xR ) (∆x) = g ′ (f (x0 )) lim R ) (∆x) = 0, = lim g ′ (f (x0 )) R ∆x→0 ∆x→0 ∆x→0 ∆x ) (∆x) = 0. da lim R lim ∆x→0 74 4. REELLE FUNKTIONEN ) (∆x) und somit Zum zweiten: Beachten wir, dass ∆y = f ′ (x0 ) ∆x + ∆xR lim ∆y = 0, ∆x→0 so haben wir: lim = lim ) (∆x) S) (∆y) f ′ (x0 ) + R ∆x→0 ∆x ) ) ) lim f (x0 ) S (∆y) + lim R (∆x) S (∆y) = 0 + 0 = 0. ∆x→0 = ) (∆x) S) (∆y) f ′ (x0 ) ∆x + ∆xR ∆x→0 ′ ∆x→0 Zur Quotientenregel sieht man mit der Kettenregel und der Grundableitung d a dx x = axa−1 ein: −g ′ (x) d 1 d = (g (x))−1 = −g ′ (x) (g (x))−2 = 2 , dx g (x) dx g (x) anschließend bekommt man mit der Produktregel die volle Quotientenregel: d f (x) 1 d 1 f ′ (x) f (x) g′ (x) f ′ (x) g (x) − g ′ (x) f (x) = f ′ (x) + f (x) = − = . dx g (x) g (x) dx g (x) g (x) g 2 (x) g2 (x) d a Zur Grundableitung dx x = axa−1 verwenden wir die Ableitung von exp und wiederum die Kettenregel - setze x > 0 voraus, so dass ln (x) gebildet werden kann: d a d a ln(x) a a x = e = ea ln(x) = xa = axa−1 . dx dx x x Zur Umkehrfunktionsregel wollen wir nur darauf hinweisen, dass bei Existenz einer Tangente an den Graphen von f im Punkt (x0 , f (x0 )) sicherlich auch der Graph der Umkehrfunktion (der durch Spiegelung an y = x hervorgeht!) an dem Spiegelungspunkt (f (x0 ) , x0 ) eine Tangente besitzt und dass natürlich die ′ 1 (Bedingung Steigung der letzteren der Kehrwert der Steigung der ersteren ist. Also f −1 (f (x0 )) = f ′ (x 0) ′ natürlich: f (x0 ) = 0. Oder (wiederum nach Existenzvoraussetzung) mit der Kettenregel: Wir haben mit der Funktion id (x) = x: ′ ′ ′ 1 . 1 = id′ (x0 ) = f −1 ◦ f (x0 ) = f ′ (x0 ) f −1 (f (x0 )) , also f −1 (f(x0 )) = ′ f (x0 ) 6. Grundlegende Resultate im Zusammenhang mit Ableitungen Das erste der folgenden Resultate ist das wohlbekannte über lokale Extrema. Aber die nachfolgenden sind von noch allgemeinerer fundamentaler Bedeutung und sehr oft mit großem Gewinn anzuwenden. S 33 (notwendige Bedingung für lokale Extrema). Es sei f in einer (beidseitigen!) Umgebung von x0 definiert und es existiere f ′ (x0 ) . Dann gilt: f hat in x0 ein lokales Extremum =⇒ f ′ (x0 ) = 0. Bemerkungen zur Anwendung des Satzes: 1.) Der Satz sagt überhaupt nichts aus über Stellen, an denen eine Funktion nicht differenzierbar ist. Zum Beispiel hat f (x) = |x| in x0 = 0 ein absolutes strenges Minimum, aber das bekommt man nicht mit der Ableitung zu sehen, weil diese in x0 = 0 gar nicht existiert. Allenfalls könnte man zur differenzierbaren Funktion f 2 (x) = x2 übergehen. 2.) Der Satz sagt nichts aus über Extrema am Rande eines Definitionsintervalls (Randextrema). Zum Beispiel hat f : [1, 3] → R, f (x) = x2 , ein absolutes Minimum bei x0 = 1 und ein absolutes Maximum bei x1 = 3, aber die (einseitig gebildeten) Ableitungen sind eben nicht Null. 3.) Man denke daran, dass die Nullstellen der Ableitung einer differenzierbaren Funktion nur erst Kandidaten für Extremstellen ergeben und dass diese Kandidaten weiter zu prüfen sind - der Satz besagt eben nicht, dass eine Nullstelle der Ableitung eine Extremstelle ergibt. Einfachstes Gegenbeispiel: f (x) = x3 hat in x0 = 0 kein lokales Extremum, aber f ′ (x0 ) = 0. Der praktische Nutzen des Satzes ist dennoch immens: Es bleiben im Allgemeinen nur wenige Kandidaten übrig, die zu prüfen sind. Wie ist diese Prüfung vorzunehmen? Es gibt mehrere Wege. In den meisten Fällen ist es am besten, den Graphen der Funktion qualitativ herauszubekommen und daher einen Überblick darüber zu haben, wie viele Extremstellen (und von welcher Art) es minimal geben muss. Liefert die Ableitung dann nicht mehr Kandidaten, so ist man fertig. Eine zweite gute Möglichkeit, wenn (wie fast immer) die Funktion in einer 6. GRUNDLEGENDE RESULTATE IM ZUSAM M ENHANG MIT ABLEITUNGEN 75 ganzen Umgebung von x0 differenzierbar ist: Wenn die Ableitung an der Stelle x0 einen Vorzeichenwechsel macht, so liegt ein Extremum vor (von plus nach minus: Maximum, sonst Minimum). Wechselt die Ableitung indessen nicht ihr Vorzeichen, so liegt ein Wendepunkt mit horizontaler Tangente vor. Es sei bemerkt, dass der Weg über die zweite Ableitung fast stets viel schlechter ist - das liegt vor allem daran, dass die zweite Ableitung normalerweise viel komplizierter ist als die erste, hier täuscht das Verhalten der Polynome stark. Es kommt hinzu, dass auch die zweite Ableitung keine Entscheidung bringen muss und dass sie auch noch stetig in einer Umgebung existieren muss. Schließlich benötigt man stärkere Voraussetzungen, dass nämlich die zweite Ableitung existiert und zudem noch stetig in einer Umgebung von x0 ist. Beweis des Satzes: f habe in x0 ein lokales Maximum (für Minima kann man völlig analog argumentieren). Wir haben für ein δ > 0: ∀x (|x − x0 | < δ =⇒ f (x) ≤ f (x0 )) . Dann gilt für alle Differenzenquotienten mit |∆x| < δ: f (x0 + ∆x) − f (x0 ) ∆x f (x0 + ∆x) − f (x0 ) ∆x Es folgt mit der Monotonie des Grenzwertes: f (x0 + ∆x) − f (x0 ) ≤ 0, ∆x Nun existiert aber f ′ (x0 ) , also lim ∆x→0+ ≥ 0 für ∆x < 0, ≤ 0 für ∆x > 0. lim ∆x→0− f (x0 + ∆x) − f (x0 ) ≥ 0. ∆x f (x0 + ∆x) − f (x0 ) f (x0 + ∆x) − f (x0 ) f (x0 + ∆x) − f (x0 ) = lim = lim . ∆x→0+ ∆x→0− ∆x ∆x ∆x Es folgt: f ′ (x0 ) ≤ 0 und f ′ (x0 ) ≥ 0. Somit f ′ (x0 ) = 0. f ′ (x0 ) = lim ∆x→0 S 34 (Mittelwertsatz). Wenn a < b und f auf [a, b] stetig ist und auf (a, b) differenzierbar, dann existiert eine Zahl ξ ∈ (a, b) mit f (b) − f (a) = f ′ (ξ) . b−a Der Satz besagt also, dass die mittlere Steigung von f auf [a, b] auch an mindestens einer Stelle im Innern des Intervalls lokal realisiert ist. Beweis: 1. Schritt: Beweis des Satzes unter der Zusatzvoraussetzung f (a) = f(b). In diesem Fall ist die mittlere Steigung auf [a, b] Null. Also wird eine Zahl ξ ∈ (a, b) gesucht, für die f ′ (ξ) = 0 wird. Mit dem Satz über die Existenz von absoluten Maxima und absoluten Minima einer stetigen Funktion auf [a, b] haben wir aber ein absolutes Maximum oder Minimum von f auf [a, b] an einer Stelle ξ ∈ (a, b). Denn wegen f (a) = f (b) ist entweder f konstant auf [a, b]; dann können wir jede Zahl ξ ∈ (a, b) wählen. Oder aber es gibt ein x ∈ (a, b) mit f (x) < f (a) oder f (x) > f (a) . Im ersten Fall gibt es ein absolutes Minimum im Innern, im zweiten ein absolutes Maximum im Innern. Es folgt, dass f ein lokales Extremum in (a, b) besitzt, sagen wir an einer Stelle ξ ∈ (a, b), und nach dem vorigen Satz gilt dann f ′ (ξ) = 0. 2. Schritt: Verallgemeinerung auf beliebige Werte von f an den Rändern: Wir definieren eine neue Funktion g durch f (b) − f (a) g (x) := f (x) − f (a) − (x − a) b−a (von f wird die Sekante durch (a, f (a)) und (b, f (b)) abgezogen!) und stellen fest: g (a) = g (b) = 0. Ferner ist g wiederum stetig auf [a, b] (da mit +, · aus auf [a, b] stetigen Funktionen aufgebaut) und differenzierbar auf (a, b) (nach den Ableitungsregeln). Somit kann das Resultat vom ersten Schritt auf g angewandt werden und liefert eine Zahl ξ ∈ (a, b), so dass g ′ (ξ) = 0, aber f (b) − f (a) , also b−a f (b) − f (a) . b−a g ′ (ξ) = f ′ (ξ) − f ′ (ξ) = 76 4. REELLE FUNKTIONEN Wir besprechen nunmehr einige sehr wichtige Folgerungen aus dem Mittelwertsatz. Zuerst kommt ein weiteres allgemeines Resultat heraus, das eine gute Methode ergibt, Abschätzungen herzuleiten. S 35 (Satz vom beschränkten Zuwachs). Sei a < b, und seien f, g stetig auf [a, b] und differenzierbar auf (a, b) . Sei weiter f ′ (x) ≤ g ′ (x) für alle x ∈ (a, b). Dann folgt: f (x) − f (a) ≤ g (x) − g (a) . Bemerkung: Der Satz drückt die intuitiv gut einsichtige Tatsache aus, dass bei einem Start zweier Funktionen f, g mit demselben Wert in a (also f (a) = g (a) , in der zweiten Zeile steht dann gleichwertig f (x) ≤ g (x)) die Werte von f immer unter denen von g bleiben, solange die lokalen Steigungen von f unter denen von g bleiben. Beweis: Wir definieren h(x) = f(x) − g(x) − (f (a) − g (a)) . Dann erfüllt h die Voraussetzungen des Mittelwertsatzes - h ist stetig auf [a, b] und differenzierbar auf (a, b). Nehmen wir an, wir hätten eine Zahl x0 ∈ [a, b], so dass die Aussage der Folgerung des zu beweisenden Satzes verletzt wäre, also f (x0 ) − f (a) > g (x0 ) − g (a) , d.h. h (x0 ) > 0. Dann klar x0 > a,da h (a) = 0. Also hätten wir nach Mittelwertsatz (angewandt auf das Intervall [a, x0 ] eine Zahl ξ ∈ (a, x0 ) ⊂ (a, b), so dass 0< Aber h (x0 ) − h (a) h (x0 ) = = h′ (ξ) . x0 − a x0 − a h′ (ξ) = f ′ (ξ) − g′ (ξ) , also f ′ (ξ) > g ′ (ξ) . und nach der Voraussetzung des Satzes müsste f ′ (ξ) ≤ g′ (ξ) sein. das ist ein Widerspruch. Als Anwendungbeispiel zeigen wir: (1) sin (x) ≤ x − x3 x5 + für alle x ≥ 0. 3! 5! Für die Funktionen auf beiden Seiten gelten die Voraussetzungen des Satzes vom beschränkten Zuwachs (für jedes Intervall [0, b], b > 0. Der Satz liefert also, da beide Funktionen den Wert Null bei x = 0 haben: Für die Gültigkeit von (1) genügt es, wenn gilt: (2) cos (x) ≤ 1 − x2 x4 + für alle x ≥ 0. 2 4! Zur Gewinnung dieser Ungleichung ist erneute Anwendung des Satzes geeignet, für (2) genügt demnach: (3) − sin (x) ≤ −x + x3 für x ≥ 0. 3! (4) − cos (x) ≤ −1 + x2 für x ≥ 0, 2 Mit demselben Argument genügt dafür wieder (5) sin (x) ≤ x für x ≥ 0, dafür wieder (6) cos (x) ≤ 1 für x ≥ 0. Nun gilt (6) offenbar, und man schließt über (5) , (4) ... auf (1) . Man kann das induktiv verallgemeinern zu folgenden Aussagen: Für alle natürlichen Zahlen N ≥ 1 gilt (x ≥ 0 wie zuvor) : 2N−1 k=0 2N (−1)k (−1)k 2k+1 x ≤ sin (x) ≤ x2k+1 . (2k + 1)! (2k + 1)! k=0 6. GRUNDLEGENDE RESULTATE IM ZUSAM M ENHANG MIT ABLEITUNGEN 77 Da nun die Summenglieder abwechselnd positives und negatives Vorzeichen haben und ihre Beträge nach Null gehen, folgt daraus: sin (x) = lim N→∞ 2N−1 k=0 2N k k (−1) (−1) x2k+1 = x2k+1 , also (2k + 1)! (2k + 1)! k=0 ∞ (−1)k 2k+1 sin (x) = , für alle x ∈ R (da beide Seiten ungerade Funktionen darstellen). x (2k + 1)! k=0 Das ist die Reihendarstellung für sin . (Zu solchen Reihen mehr in Mathematik B.) S 36 (Ableitung und Monotonie). Sei a < b und f auf (a, b) differenzierbar und auf [a, b] stetig. Dann gilt: (i) (ii) (iii) (iv) f ′ (x) f ′ (x) f ′ (x) f ′ (x) ≥ ≤ > < 0 0 0 0 für für für für alle alle alle alle x ∈ (a, b) x ∈ (a, b) x ∈ (a, b) x ∈ (a, b) ⇐⇒ ⇐⇒ =⇒ =⇒ f ist auf [a, b] monoton steigend. f ist auf [a, b] monoton fallend. f ist auf [a, b] streng monoton steigend. f ist auf [a, b] streng monoton fallend. Beweis: Zu (i) , Richtung ’ =⇒ ’: Wäre f auf [a, b] nicht monoton steigend, so hätte man Zahlen x1 ∈ [a, b] und x2 ∈ (a, b], so dass x1 < x2 und f (x1 ) > f (x2 ). Also wäre auf [x1 , x2 ] die mittlere Steigung von f negativ. Da für das Intervall [x1 , x2 ] die Voraussetzungen des Mittelwertsatzes erfüllt sind, hätte man eine Zahl ξ ∈ (x1 , x2 ) ⊂ (a, b) mit f ′ (ξ) < 0. Das wirderspricht der Voraussetzung f ′ (x) ≥ 0 für alle x ∈ (a, b). Richtung ’ =⇒ ’: Wenn f ′ (ξ) = α < 0 für eine Zahl ξ ∈ (a, b), so gilt für hinreichend kleine ∆x > 0 : f (ξ + ∆x) − f (ξ) α ≤ < 0, also ∆x 2 f (ξ + ∆x) − f (ξ) < 0, so dass f nicht monoton steigend auf [a, b] ist. Zu (ii) braucht man nur zu −f überzugehen und (i) anzuwenden. Zu (iii) , (iv) kann man völlig analog argumentieren, man beachte aber, dass nur eine Pfeilrichtung gilt: Es kann durchaus vereinzelt ein Ableitungswert Null vorkommen bei streng monoton steigenden Funktionen. Ein Beispiel bildet f (x) = x3 . Sie ist streng monoton steigend auf R, aber f ′ (0) = 0. d e−2x ex ex Beispiel: dx ex +e−x = 2 (1+e−2x )2 > 0 für alle x ∈ R, also ist die Funktion f (x) = ex +e−x auf ganz R streng monoton steigend. F 3. Sei a < b. Wenn f und g stetig sind auf [a, b] und differenzierbar auf (a, b) mit f ′ (x) = g ′ (x) für alle x ∈ [a, b], dann gilt: f − g ist eine konstante Funktion auf [a, b]. Zwei Stammfunktionen einer Funktion h auf einem Intervall (deren Ableitungen also h ergeben) unterscheiden sich daher nur um eine Konstante. Beweis: Man wende (i) , (ii) des vorigen Satzes auf f −g an. Damit ist f −g sowohl monoton steigend als auch fallend auf [a, b], somit eine Konstante auf [a, b]. Beispiel: F (x) = 12 e2x ist eine Stammfunktion von f (x) = e2x , also gilt für jede andere Stammfunktion F) von f (d.h. F)′ (x) = f (x)): F) (x) = F (x) + c = e2x + c mit einer Konstanten c. Umgekehrt ist klar, dass man durch Addition einer Konstanten zu einer Stammfunktion von f wieder eine solche erhält. F 4 (hinreichende Bedingung für Extrema). Es sei f in einer Umgebung von x0 definiert und f ′ existiere ebenfalls in einer Umgebung U von x0 . Ferner sei f ′ (x0 ) = 0. Wenn f ′ (x) > 0 für x < x0 , x ∈ U, und f ′ (x) < 0 für x > x0 , x ∈ U, dann hat f in x0 ein strenges lokales Maximum. (Entsprechend ist auf ein strenges lokales Minimum in x0 zu schließen, wenn der Vorzeichenwechsel der Ableitung in umgekehrter Richtung verläuft.) 78 4. REELLE FUNKTIONEN Beweis: Nach dem vorigen Satz ist f auf einem Intervall [x0 − δ, x0 ] mit einem δ > 0 streng monoton steigend und auf [x0 , x0 + δ] streng monoton fallend. Also liegt in x0 ein strenges Maximum. Wir benötigen die folgende Verallgemeinerung des Mittelwertsatzes, um ökonomisch die Regeln von de L’Hospital beweisen zu können: S 37 (verallgemeinerter Mittelwertsatz von Cauchy). Seien f, g wie in den Voraussetzungen des Mittelwertsatzes, also mit a < b auf (a, b) differenzierbar und auf [a, b] stetig. Ferner sei g ′ (x) = 0 für alle x ∈ (a, b). Dann existiert eine Zahl ξ ∈ (a, b), so dass f (b) − f (a) f ′ (ξ) = ′ . g (b) − g (a) g (ξ) Beweis: Zunächst ist mit g ′ (x) = 0 für alle x ∈ (a, b) klar, dass g(a) = g (b) , so dass der Ausdruck auf der linken Seite jedenfalls sinnvoll ist. Denn mit g (a) = g (b) gäbe es nach dem einfachen Mittelwertsatz eine Zahl ξ ∈ (a, b), so dass g ′ (ξ) = 0. Nun geht der Beweis gerade so wie beim ersten Mittelwertsatz: Man bildet f (b) − f (a) h (x) = f (x) − f (a) − (g (x) − g (a)) , g (b) − g (a) so dass also h (a) = h (b) = 0 und h wiederum die Voraussetzungen des Mittelwertsatzes erfüllt. Daher h′ (ξ) = 0 für ein ξ ∈ (a, b), und das bedeutet klar die Gleichung des Satzes mit ξ. Daraus kann man die Regeln von de L’Hospital folgern: ′ (x) (i) Es sei a ∈ R, limx→a+ f (x) = limx→a+ g (x) = 0 und limx→a+ fg′ (x) = b ∈ R ∪ {−∞, ∞} ′ (insbesondere g (x) = 0 für x > a, a − x < δ 0 , mit einer Zahl δ 0 > 0). Wir behaupten: Dann existiert (x) auch limx→a+ fg(x) und hat den Wert b. Beweis: Zunächst können wir f und g bis zum Wert a (einseitig von rechts) stetig fortsetzen mit f (a) = g (a) = 0. Sei x > a − δ 0 . Dann hat man (∗) f (x) f (x) − f (a) f ′ (ξ) = = ′ mit einem ξ ∈ (a, x), g (x) g (x) − g (a) g (ξ) da f, g die Voraussetzungen des verallgemeinerten Mittelwertsatzes auf (a, x) und [a, x] erfüllen. Wir nennen eine solche Zahl ξ zu x deutlicher ξ (x) , denken uns zu jeder Zahl x > a − ε eine solche Zahl ξ (x) (x) ausgewählt. Mit der Voraussetzung limx→a+ fg(x) wissen wir, dass es zu jeder beliebig kleinen Umgebung U von b eine Zahl δ > 0 gibt mit der Eigenschaft |a − ξ| < δ =⇒ f ′ (ξ) ∈ U, für alle ξ. g′ (ξ) Wir lassen δ stets ≤ δ 0 sein. Mit (∗) folgt sofort für alle x (man beachte, dass mit |a − x| < δ auch |ξ (x) − a| < δ gilt): f (x) f ′ (ξ(x)) |a − x| < δ =⇒ = ′ ∈ U. g (x) g (ξ(x)) Damit ist die Aussage bewiesen. ′ (x) = b, dann gilt (ii) Wir können mit (i) zeigen: Wenn limx→∞ f (x) = limx→∞ g (x) = 0, limx→∞ fg′ (x) auch limx→∞ f (x) g(x) = b. Dazu sehen wir nur ein: f ′ u1 f ′ (x) = lim ′ 1 = b = lim ′ x→∞ g (x) u→0+ g u − u12 f ′ u1 lim u→0+ − 12 g ′ 1 u u f u1 = lim (i) u→∞ g 1 u = = d f u1 lim du u→0+ d g 1 du u lim x→∞ f (x) . g (x) Bemerkung: Es ist klar, dass auf demselben Wege wie (i) , (ii) die entsprechenden Aussagen für x → a− und x → −∞ zu bekommen sind, ebenso wie die über beidseitige Grenzwerte für x → a. ′ (x) (x) (iii) Beh.: Wenn limx→a− f (x) = limx→a− g (x) = ∞, limx→a fg′ (x) = b ∈ R ∪ {∞}, dann limx→a fg(x) = (x)−f (α) (x) b. Hier ist es ein wenig unbequemer, vom Ausdruck fg(x)−g(α) für α < x < a auf den Ausdruck fg(x) zu kommen, um dann wieder den verallgemeinerten Mittelwertsatz anwenden zu können. Aber so gelingt es: 6. GRUNDLEGENDE RESULTATE IM ZUSAM M ENHANG MIT ABLEITUNGEN 79 Sei β < b, beliebig nahe an b (im Falle b = ∞ also eine beliebig große reelle Zahl). Nach Voraussetzung haben wir dann eine Zahl α < a, so dass f ′ (x) > β. g ′ (x) (1) für alle x ∈ (α, a) : Wegen Wenn limx→a− f (x) = limx→a− g (x) = ∞ können wir α zugleich so groß wählen, dass stets f (x) , g (x) = 0 für x ∈ (α, a) . Nun haben wir nach dem erweiterten Mittelwertsatz: (2) Für alle x ∈ (α, a) existiert ein ξ ∈ (α, x) , so dass f (x) − f (α) f ′ (ξ) = > β (Ungleichung wegen (1) ). g (x) − g (α) g′ (ξ) Wir formen dies etwas um (dafür wollten wir f (x) , g (x) = 0) zu: f (α) f (x) 1 − f (x) f (x) − f (α) , also mit (2) = g(α) g (x) − g (α) g (x) 1 − g(x) f (x) g (x) = f ′ (ξ) 1 − · g ′ (ξ) 1 − g(α) g(x) f (α) f (x) . Wir haben mit limx→a− f (x) = limx→a− g (x) = ∞ auch lim x→a− 1− 1− g(α) g(x) f (α) f (x) = 1, also gibt es für alle ε1 > 0 eine Zahl α1 > α, α1 < a, so dass ∀x ∈ (α1 , a) 1− 1− g(α) g(x) f (α) f (x) > 1 − ε1 . Das ergibt zusammen mit (2) und der Umformung: g(α) f (x) f ′ (ξ) 1 − g(x) (3) ∀ε1 > 0∃α1 < a∀x ∈ (α1 , a) ∃ξ ∈ (α, a) = ′ · > β (1 − ε1 ) . g (x) g (ξ) 1 − f (α) f (x) Wählen wir zu beliebig vorgegebener Zahl ε > 0 nunmehr ε1 < (4) ∀β < b∀ε > 0∃α1 < a∀x ∈ (α1 , a) |β| ε , so haben wir: f (x) > β − ε. g (x) Für den Fall b = ∞ folgt mit (4) sofort die gewünschte Aussage. Für b ∈ R folgt sie mit (4) zusammen mit folgender Aussage: f (x) (5) ∀ε > 0∃α1 < a∀x ∈ (α1 , a) < b + ε. g (x) Diese gewinnen wir völlig analog zu (4) , indem wir aus der Bedingung lim x→a− 1− 1− g(α) g(x) f(α) f (x) =1 herausziehen, dass ∀ε1 > 0∃α1 < a∀x ∈ (α1 , α) Weiter können wir mit limx→a− f ′ (x) g′ (x) 1− 1− g(α) g(x) f (α) f (x) < 1 + ε1 . = b auch α1 dabei so wählen, dass ∀x ∈ (α1 , a) f ′ (x) < b + ε1 . g ′ (x) 80 4. REELLE FUNKTIONEN Das ergibt f (x) f ′ (ξ) 1 − = ′ ∀ε1 > 0∃α1 < a∀x ∈ (α1 , a) ∃ξ ∈ (α, a) g (x) g (ξ) 1 − g(α) g(x) f (α) f(x) < (b + ε1 ) (1 + ε1 ) . Nun ist (b + ε1 ) (1 + ε1 ) = b + (b + 1) ε1 +ε21 , und zubeliebigem ε > 0 finden wir sicher ε1 > 0, so dass ε (b + 1) ε1 + ε21 < ε. Wähle etwa ε1 < min 2|b+1| , ε2 , 1 . Somit haben wir (5) durch Anwendung von (6) auf ε1 wie gerade zu ε bestimmt. 7. Das eindimensionale Integral 7.1. Einstieg: Das Problem des Mittelwertes einer Funktion. Es sei eine stetige Funktion f auf dem Intervall [a, b] gegeben, a < b. Was sollte man unter dem Mittelwert von f auf [a, b] verstehen, und wozu wäre ein solcher Mittelwert gut? Bezeichnung: f [a,b] := Mittelwert von f auf [a, b] Dazu drei Beispiele: 1.) Ein Schwingungsvorgang ist beschrieben mit f(t) = 2 + sin (t) . Was ist der Mittelwert von f auf [0, 2π]? Betrachten wir das graphisch: 3 2.8 2.6 F1 2.4 2.2 2 1.8 F 1.6 2 1.4 1.2 1 0 π/2 π 3π/2 2π Offenbar schwingt die Funktion um den Mittelwert f [0,2π] = 2, dessen Höhe rot markiert ist. Diese Höhe ist daran zu erkennen, dass die Fläche F1 oberhalb des Mittelwertes, welche vom Graphen von f und dem Graphen der konstanten Funktion (rot) eingeschlossen wird, gleich der Fläche F2 unterhalb Mittelwertes ist. Unmittelbar stellt sich die Frage nach einem solchen Mittelwert, wenn man die mittlere Leistung eines Wechselstroms wissen möchte. 2.) Ein Teilchen bewege sich auf der x− Achse. Es sei für jeden Zeitpunkt t die Geschwindigkeit v (t) bekannt, für t ∈ [0, 2], und zwar sei v (t) = 1 − t2 . Der Ort zur Zeit t = 0 sei x (0) = 0. Positive Geschwindigkeit bedeutet Bewegung nach rechts auf der x− Achse, negative Geschwindigkeit Bewegung nach links. Was man wissen möchte, ist natürlich der Ort x (t) zur Zeit t für alle t ∈ [0, 2]. Betrachten wir den Spezialfall t = 2. Dann ist klar: x (2) = x (0) + v [0,2] · 2. Allgemein für t ∈ [0, 2]: x (t) = x (0) + v[0,t] · t. Also: Ort zur Zeit t minus Ort zur Zeit 0 gleich mittlere Geschwindigkeit im Zeitintervall [0, t] mal t (Zeitdifferenz!). Wir betrachten auch hier graphisch die Geschwindigkeitsfunktion v (t) und 7. DAS EINDIM ENSIONALE INTEGRAL 81 ihren Mittelwert v[0,t] speziell im Intervall [0, 2]: v(t) 1 0.5 Graph von v F1 0 -0.5 -1 Mittelwert von v auf [0,2] F 2 -1.5 -2 -2.5 -3 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 t Wieder sind die Flächen F1 und F2 gleich, und genau daran ist der Mittelwert zu erkennen. Dieser negative Mittelwert führt dazu, dass x (2) < 0. Wir zeigen im nächsten Bild die Funktion x (t) , 0 ≤ t ≤ 2. x(t) 0.8 0.6 0.4 Graph der Ortsfunktion x(t) 0.2 0 -0.2 -0.4 -0.6 -0.8 Ortsfunktion bei konstant eingehaltener mittlerer Geschwindigkeit 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 t Die blaue Kurve zeigt den Verlauf der Ortsfunktion x (t) , die rote Gerade ist der Graph von y (t) = x (0)+v[0,2] t , wobei im Bild vm für steht. Sie zeigt die Ortsfunktion, welche man bei konstant eingehaltener mittlerer Geschwindigkeit v[0,2] bekäme. Man erkennt, dass x (t) ab t = 1 fällt: Bis t = 1 ist v (t) positiv, ab t = 1 negativ. Aus dem Zusammenhang x′ (t) = v (t) können wir Folgendes entnehmen: x (2) − x (0) 2−0 = mittlere Geschwindigkeit von v auf [0, 2] = v[0,2] . Also: (1) = 1 (V (2) − V (0)), mit einer Funktion V, so dass V ′ = v. 2−0 v[0,2] Solch eine Funktion V heißt Stammfunktion von v. Ferner hat sicher v (t)−v (v kurz für v[0,2] ) Mittelwert Null, das heißt: der Flächeninhalt, den der Graph dieser Funktion mit der x− Achse oberhalb der Achse 82 4. REELLE FUNKTIONEN einschließt, ist gleich dem eingeschlossenen Flächeninhalt, der unterhalb der Achse liegt. Die Differenz dieser Flächeninhalte ist aber gerade der Wert des bestimmten Integrals über diese Funktion, also: * * 2 * 2 * 2 (v (t) − v)dt = v (t) dt − vdt = v (t) dt − 2v. Daher 0 0 0 0 * 1 2 v (t) dt. Zusammen mit (1) : 2 0 0 = v (2) (3) * 0 = 2 2 v (t) dt = (V (2) − V (0)) . Damit ist im Beispiel die Verbindung zwischen Stammfunktion V von v und bestimmtem Integral über v hergestellt, wie sie im ’Hauptsatz der Differential- und Integralrechnung’ allgemein ausgesprochen und bewiesen wird. Aber ein inhaltliches Verständnis dieser äußerlich überraschenden Tatsache haben wir damit schon jetzt. 3.) Wir führen ein typisches Generalbeispiel für die Anwendung von Mittelwert und Integral von Funktionen aus: Eine Größe besitze auf einem Intervall [a, b] eine ’Dichte’, zum Beispiel: Elektrische Ladung, dann spricht man von ’Ladungsdichte’, oder Massendichte, d.h. Masse pro Längeneinheit, oder ’Wahrscheinlichkeitsdichte’, d.h. Wahrscheinlichkeit pro Längeneinheit. Man denke auch an Bevölkerungsdichte (Anzahl der Individuen pro Längeneinheit). Das letzte Beispiel zeigt bereits deutlich, dass man den Begriff der Dichte nicht nur auf eindimensionalen Punktmengen hat, sondern häufiger nich auf mehrdimensionalen Punktmengen. Dies wird eine wichtige Motivation für mehrdimensionale oder Mehrfachintegrale bilden. Wichtig ist, dass eine solche Dichte sich kontinuierlich ändern kann. Schreiben wir also ρ (x) allgemein für ’Dichte an der Stelle x ∈ [a, b]’, später dann auch ρ (x) für ’Dichte am Ort x’, der durch einen Ortsvektor x beschrieben ist. Dann hat man folgende allgemeine Beziehung: * b ρ (x) dx = Gesamtmasse auf [a, b], a im Falle der Ladungsdichte ist das die Ladung, im Falle der Massendichte die Masse, im Falle der Wahrscheinlichkeitsdichte die Wahrscheinlichkeit, welche auf das Intervall [a, b] entfällt. Wir beobachten in diesem Zusammenhang erneut die Beziehung zwischen Integral und Mittelwert: Sicher ist auch ρ[a,b] · (b − a) = Gesamtmasse auf [a, b]. Also wiederum * b ρ (x) dx = ρ[a,b] · (b − a) . a Allgemeiner tritt an die Stelle der Länge b − a des Intervalls [a, b] das (zur jeweiligen Raumdimension gehörige) n− dimensionale Volumen eines n− dimensionalen Bereichs, zugleich wird aus dem Intergal ein Volumenintegral über diesen Bereich. Wir halten noch einmal die anschauliche Deutung des bestimmten Integrals fest (zur Existenzfrage s.u.): Das bestimmte Integral * a b f (x) dx gibt für a < b den Flächeninhalt zwischen x − Achse und dem Graphen von f mit Orientierungsvorzeichen, also werden Flächen oberhalb der x − Achse dabei positiv gezählt, Flächen unterhalb der x − Achse negativ. * b * a Für a > b definiert man dementsprechend : f (x) dx := − f (x) dx. a b Aus dieser anschaulichen Deutung ergeben sich sofort folgende Rechenregeln, die man auch mittels der nachfolgenden Limites von Riemann-Summen bekommt. 7.2. Grundlegende Rechenregeln für das bestimmte Integral. 7. DAS EINDIM ENSIONALE INTEGRAL 83 S 38. Das Integral ist linear, d.h. * (i) * b (f (x) + g (x)) dx = a * (ii) b f (x) dx + a b cf (x) dx = c a * b * b g (x) dx a f (x) dx. a Das Integral ist additiv bezüglich der Grenzen: * (iii) b f (x) dx + a * c f (x) dx = b * c f (x) dx. a Das Integral ist monoton: (iv) Wenn f (x) ≤ g (x) auf [a, b], a < b, so * a b f (x) dx ≤ * b g (x) dx. a Aus der Monotonieeigenschaft gewinnt man noch eine praktische Abschätzung: Wenn f auf [a, b] ein absolutes Minimum fmin und ein absolutes Maximum fmax hat (bei stetigem f ist das z.B. der Fall), dann * b fmin · (b − a) ≤ f (x) dx ≤ fmax · (b − a) , wenn a < b. a (Die Vorzeichen kehren sich um, wenn a > b.) 7.3. Näherung von bestimmtem Integral und Mittelwert. Man hat folgende naheliegende +b Näherung für a f(x)dx. Wir setzen dabei f als stetig voraus, so dass die Existenz des Intergals und des Mittelwertes gewährleistet ist (vgl. den nächsten Abschnitt). Das Intervall [a, b] wird in Teilintervalle zerlegt durch Zwischenpunkte a0 = a, a0 < a1 < ...an = b. Aus jedem der n Teilintervalle [ai , ai+1 ] wählt man eine beliebige Zahl xi aus. Dann hat man für genügend kleine Abstände ∆xi := ai − ai−1 , 1 ≤ i ≤ n, sicher eine gute Näherung: * b f (x) dx ≈ a n f (xi ) ∆xi (’Riemannsche Summe’) i=1 Diese ’Riemannschen Summen’ erklären auch, wie Leibniz auf seine heute noch übliche Integralnotation kam: Das Integralzeichen ist ein stilisiertes Summenzeichen, und ’dx’ steht dafür, dass man die maximale Intervallbreite gegen Null gehen lässt. Analog bekommt man eine naheliegende Näherung des Mittelwertes von f auf [a, b]: n f [a,b] ≈ 1 f (xi ) . n i=1 Diese liegt für sich genommen nahe: Man bildet xi auf der x− Achse, deren Abstände klein sind , x1 nahe bei a und xn nahe bei b, und bildet das arithmetische Mittel von deren Funktionswerten. Diese Näherung des Mittelwertes ergibt sich auch sofort aus der vorigen Näherung des Integrals, indem man ∆xi = b−a n setzt, also in gleich breite Streifen unterteilt. Denn damit hat man f [a,b] = 1 b−a * a n b f (x) dx ≈ n 1 b−a 1 f (xi ) = f (xi ) . b − a i=1 n n i=1 84 4. REELLE FUNKTIONEN Wir schauen die Näherung des Integrals durch eine Riemannsumme in zwei graphischen Beispielen an, mit einer gröberen und einer feineren Zerlegung: 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 0 1 2 3 4 5 6 0 1 2 3 4 5 6 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 Man bemerkt sofort, dass die zweite Näherung des Integrals durch die (mit richtigem Vorzeichen versehenen) Rechteckflächen bereits sehr genau ist. In beiden Fällen wurde xi = 12 (ai−1 + ai ) gewählt. Aber bei der feinen Einteilung kommt es darauf schon kaum mehr an. Der Fehler bei der Integralberechnung liegt im Beispiel unter 2 · 10−16 (!) 7.4. Genauer Begriff des Riemannschen Integrals und Existenzfrage. Dieser Begriff ist +b recht kompliziert, aber naheliegend. Sagen wir es anschaulich: Das Integral a f (x) dx existiert genau n dann, wenn die Riemannsummen f (xi ) ∆xi eindeutig gegen einen endlichen Grenzwert konvergieren, i=1 so dass diese als Näherungen einen Sinn machen. Die Komplikation besteht darin, dass es sich nicht einfach um Folgenglieder an handelt, die nur von n abhängen. Das macht die Komplikation, die genaue Definition kann man so geben: 7. DAS EINDIM ENSIONALE INTEGRAL 85 D 28. Unter einer Zerlegung (für das Intervall [a, b] mit a < b versteht man eine Folge Z xi = (a0 , ..., an ; x1 , ..., xn ) mit a = a0 < a1 < ... < an = b, ∈ [ai−1 , ai ] für 1 ≤ i ≤ n (’Zwischenpunkte’). Die maximale Streifenbreite von Z ist max (ai+1 − ai ) . 1≤i≤n Die Riemannsumme der Funktion f auf [a, b] zu Z lautet R (Z, f) := n i=1 f (xi ) (ai+1 − ai ) . +b Das Integral a f (x) dx existiert im Riemannschen Sinne genau dann, wenn es für alle ε > 0 eine maximale Streifenbreite ∆ (ε) gibt, so dass für alle Zerlegungen Z1 , Z2 mit maximaler Streifenbreite ≤ ∆ (ε) gilt: |R (Z1 , f) − R (Z2 , f )| < ε. Dann ist der Wert des Integrals so definiert: Sei (Zn )n eine beliebige Folge von Zerlegungen, deren maximale Streifenbreiten ∆n eine Nullfolge bilden. Dann ist * a b f (x) dx := lim R (Zn , f) . n→∞ Zum Verständnis: Der Wert der Riemannsummen darf also bei Riemann-Integrierbarkeit von f nicht wesentlich von der Art der Zerlegung abhängen (ob gleichbreite Intervalle oder nicht, Auswahl der xi ), sondern nur von der maximalen Streifenbreite. Ist diese ≤ ∆ (ε) , so unterscheiden sich alle Riemannsummen nur um weniger als ε. Auf diese Weise kann man eine Folge von Zerlegungen (Zn )n angeben, die immer feiner wird, so dass die Zahlenfolge R (Zn , f) eine Cauchyfolge ist. Deren Grenzwert ist dann das +b Integral a f (x) dx. Die Bedingung besagt gerade, dass der Grenzwert nicht von der Art der Zerlegungsfolge abhängt, also immer dasselbe Resultat liefert. Man hat folgenden Satz: S 39. Wenn f stetig ist auf [a, b], so existiert das Riemann-Integral +b a f (x) dx. Beweis: Wir wissen (vgl. Mathematik A), dass stetiges f auf [a, b] sogar gleichmäßig stetig ist, d.h. |f (x) − f (y)| < ε, wenn |x − y| < δ (ε) , für x, y ∈ [a, b]. Wenn nun Z1 , Z2 Zerlegungen sind mit maximaler Streifenbreite ∆ = δ (ε) , dann gilt: m n |R (Z1 , f) − R (Z2 , f)| = f (xi ) (ai+1 − ai ) − f (yj ) (bj+1 − bj ) i=1 j=1 86 4. REELLE FUNKTIONEN Wir wählen eine gemeinsame Verfeinerung Z von Z1 , Z2 , also Z = (c0 , ...c/r , u1 , ...ur ), r ≥ m, n, so dass ai = cki für ein ki und ebenso bj = clj für ein i gilt, für alle i, 0 ≤ i ≤ r. Dann gilt: |R (Z, f ) − R (Z2 , f )| = = ≤ = < r n f (uk ) (ck+1 − ck ) − f (xi ) (ai+1 − ai ) i=1 k=1 n n f (u ) (c − c ) − f (x ) (a − a ) k k+1 k i i+1 i i=1 ki ≤k<ki+1 i=1 n (f (u ) (c − c ) − f (x ) (c − c )) k k+1 k i k+1 k i=1 ki ≤k<ki+1 n (c − c ) (f (u ) − f (x )) k+1 k k i i=1 ki ≤k<ki+1 n i=1 (ai+1 − ai ) ε = (b − a) ε. Für das letzte Ungleichheitszeichen wurde |f (uk ) − f (xi )| < ε benutzt. Das gilt, weil |uk − xi | < δ (ε) . Dieselbe Abschätzung gilt auch für |R (Z, f ) − R (Z2 , f )| . Also |R (Z1 , f ) − R (Z2 , f )| = |R (Z1 , f ) − R (Z, f ) + R (Z, f ) − R (Z2 , f )| ≤ |R (Z1 , f ) − R (Z, f )| + |R (Z, f) − R (Z2 , f)| < 2 (b − a) ε. Wir sind fertig mit dem üblichen Argument, dass man nicht ’< ε’ zeigen muss, sondern ’< cε’ mit einer Konstanten c genügt. Nun ist Stetigkeit zwar hinreichend. aber keineswegs notwendig für Riemann-Intergierbarkeit auf einem Intervall. Wir wollen und merken, dass ohne weiteres stückweise Stetigkeit (also mit endlichen Sprüngen an den Grenzen von endlich vielen Teilintervallen) ohne Weiteres genügt. Es gilt sogar folgender bemerkenswerte Satz: Wenn f auf [a, b] beschränkt ist und die Menge ihrer Unstetigkeitspunkte vom Maße Null ist (d.h. diese Menge enthält kein Intervall - insbesondere ist eine endliche oder auch abzählbar unendliche Menge vom Maße Null), dann ist f Riemann-integrierbar. Z.B. hat die Funktion f (x) = sin x1 für x > 0, f (x) = 0 für x = 0 nur einen Unstetigkeitspunkt, und die Werte liegen zwischen −1 und +1 1. Also existiert nach diesem Satz 0 sin x1 dx. Dagegen ist die Funktion f (x) = 1 für rationale x, f (x) = 0 für irrationale x, nicht Riemann-integrierbar. (Sie ist offenbar zwar beschränkt, aber überall unstetig. Die Menge ihrer Unstetigkeitsstellen ist demnach [0, 1] und vom Maße 1.) Denn man hat klar beliebig feine Zerlegungen, die auf [0, 1] zu Riemannsummen mit Wert 1 führen, und auch solche, die zu Riemannsummen mit Wert Null führen, je nach dem, ob man alle Zwischenpunkte rational oder irrational wählt. 7.5. Hauptsatz (Integral und Stammfunktion), Mittelwertsätze. Der folgende Satz stellt den bereits oben beispielhaft genannten Zusammenhang her und bildet die Grundlage des exakten Ausrechnens (so weit möglich) von Integralen. D 29. F heißt Stammfunktion von f auf [a, b], wenn F ′ (x) = f (x) auf [a, b] (an den Rändern als einseitige Ableitungen). Aus Mathematik A wissen wir, dass mit F (x) auch F (x) + c (c Konstante) eine Stammfunktion von f ist, und dass sich zwei Stammfunktionen von f nur um eine Konstante unterscheiden, dass also mit F (x) + c die Schar aller Stammfunktionen von f gegeben ist. 7. DAS EINDIM ENSIONALE INTEGRAL 87 S 40 (Hauptsatz der Differential- und Integralrechnung). Es sei f auf [a, b] stetig. Dann gilt für alle x ∈ [a, b]: * x f (t) dt ist eine Stammfunktion von f auf [a, b]. (i) F (x) : = a * x (ii) f (t) dt = F1 (x) − F1 (a) für jede Stammfunktion F1 von f. a +x Beweis: Zu (i) rechnen wir die Ableitung der Funktion F (x) := a f (t) dt nach. Zunächst ist die Funktion F (als Funktion der oberen Intergationsgrenze!) eindeutig definiert, da nach dem Satz über die Riemann-Integrierbarkeit der stetigen Funktionen das Integral für alle diese oberen Grenzen eindeutig existiert. Zu zeigen ist: lim ∆x→0 F (x0 + ∆x) − F (x0 ) = f (x0 ) für x0 ∈ [a, b]. ∆x Für x0 = a ist der Limes nur für ∆x > 0 zu bilden, analog für x0 = b nur für ∆x < 0. Wir haben * x0 +∆x F (x0 + ∆x) − F (x0 ) = f (t) dt. x0 Sei nun fmin (∆x) das Minimum von f auf [x0 , x0 + ∆x] bzw. [x0 + ∆x, x0 ] bei ∆x < 0. Ebenso fmax (∆x) das Maximum. (Diese existieren wegen der Stetigkeit von f .) Dann * x0 +∆x fmin (∆x) · ∆x ≤ f (t) dt ≤ fmax (∆x) · ∆x, (∆x > 0) , x0 für ∆x < 0 drehen sich die Vorzeichen um, also in beiden Fällen : * x0 +∆x 1 fmin (∆x) ≤ f (t) dt ≤ fmax (∆x) . ∆x x0 Wir haben fmin (∆x) → f (x0 ) , fmin (∆x) → f (x0 ) für ∆x → 0. Also geht auch gemäß Einschließungs+ x0 +∆x 1 f (t) dt gegen f (x0 ) . Anschaulich ist das auch klar, indem wir diesen Term wie oben prinzip ∆x x0 als Mittelwert der Funktion f auf [x0 , x0 + ∆x] bzw. [x0 + ∆x, x0 ] deuten. +x Zu (ii) Mit (i): f (t) dt = F (x) − F (a) , da nach Definition F (a) = 0. Mit F1 (x) = F (x) + c also a +x a f (t) dt = (F (x) + c) − (F (a) + c) = F1 (x) − F1 (a) . Vorbemerkung zur Anwendung beim Ausrechnen eines bestimmten Integrals mittels einer Stammfunktion: Man wird stets zwei Schritte benötigen. Zuerst bestimmt man den Rechenausdruck irgendeiner Stammfunktion F (das muss nicht die in (i) definierte sein, sondern wird eine wie F1 in (ii) sein) zu f, dann hat man die Grenzen einzusetzen und die Differenz zu bilden. Daher schreibt man gern mit einem Zwischenschritt: * b f (x) dx = [F (x)]ba := F (b) − F (a) . a Diese Bezeichnung mit der eckigen Klammer sollte man sich merken und auch selber nutzen. Anwendungen: 1.) Sobald man durch Umkehrung der Ableitungsregeln eine Stammfunktion gefunden hat, kann man bestimmte Integrale ausrechnen, Beispiele: √ +2√ , -2 d a xa+1 xdx = 23 x3/2 0 = 23 · 8. dx x = a+1 , wenn a = −1. Also 0 +2 1 d 1 dx x = ln |x| , also 1 x dx = ln (2) . Wir kommen im nächsten Abschnitt systematisch zum Integralkalkül. 2.) Eine wichtige praktische Anwendung des Hauptsatzes ist folgende: Wenn von einer Funktion f (t) die Ableitung f ′ (t) überall im Bereich von t0 bis t1 bekannt ist und ferner f (t0 ) gegeben ist, dann kann man f (t) für diesen Bereich so ausrechnen: * t f (t) = f (t0 ) + f ′ (s) ds, t ∈ [t0 , t1 ] (bzw. [t1 , t0 ] bei t1 < t0 ). t0 88 4. REELLE FUNKTIONEN Begründung: Das Integral ist nach Hauptsatz f (t)−f (t0 ) . So integriert man beispielsweise die Geschwindigkeitsfunktion über die Zeit, um die Ortsfunktion herauszubekommen, und addiert den Anfangsort dazu. Es ist übrigens günstig, hier mit bestimmten Integralen zu arbeiten. S 41 (Mittelwertsätze der Integralrechnung). (i) Wenn f stetig ist, so für ein ξ ∈ [a, b] * b a f (x) dx = f (ξ) · (b − a) (ii) Wenn f, g stetig und g ≥ 0 auf [a, b], dann für ein ξ ∈ [a, b] : * b * b f (x) g (x) dx = f (ξ) g (x) dx. a a Beweis: (i) Seien fmin , fmax minimaler und maximaler Funktionswert von f auf [a, b]. Dann fmin (b − a) ≤ f (x) dx ≤ fmax (b − a) , also folgt das Resultat mit dem Zwischenwertsatz über stetige Funktionen (vgl. a Mathematik A). Zu (ii): Mit der Monotonieeigenschaft des Integrals folgt aus fmin g (x) ≤ f (x) g (x) ≤ fmax g (x) für alle x ∈ [a, b], dass * b * b * b * b * b fmin g (x) dx = fmin g (x) dx ≤ f (x) g (x) dx ≤ fmax g (x) dx = fmax g (x) dx. +b a a a Anwendung des Zwischenwertsatzes auf die Funktion f (x) +b a a a g (x) dx liefert das Resultat. 7.6. Integralkalkül: Berechnung von Stammfunktionen. + D 30. Das unbestimmte Integral f (x) dx ist die Schar aller Stammfunktionen von f. Wenn es eine Stammfunktion F von f gibt, d.h. F ′ = f, dann also * f (x) dx = F (x) + c. Grundsätzliche Vorbemerkungen: Man kann sich komplizierteste Stammfunktionen, die in den elementaren Funktionen ausdrückbar sind, bequem mit einem Computeralgebraprogramm beschaffen. Aber es ist unerlässlich, Einiges selber von Hand zu können, um gewissen immer wieder angestellten theoretischen Rechnungen folgen zu können und um Einfaches direkt zu beschaffen. Weiter sollte man vorab wissen: Es gibt gar nicht einmal komplizierte Funktionen, deren Stammfunktionen zwar beweisbar existieren (z.B. weil die Originalfunktion stetig ist), die aber prinzipiell nicht in elementaren Funktionen ausdrückbar sind. Auch das kann feststellen, indem man den + man2 mittels Computeralgebraprogramms √ Auswertungsbefehl etwa gibt für e−x dx und erhält: 12 π erf (x) (’error function’, das ist nach Definition +x 2 erf (x) = √2π 0 e−t dt). Auftreten eines solchen Eigennamens zeigt an, dass es sich um keine elementar + berechenbare Stammfunktion handelt. Weiteres Beispiel: sin(x) x dx = Si (x) (sogenannte ’Integralsinus’). Wir verabreden, dass im Folgenden stets F eine Stammfunktion zu f ist, G zu g usw. Also F ′ = f, G′ = g. Wo das angezeigt ist, weisen wir gesondert darauf hin, wie man eine Stammfunktionsregel nutzt, um ein bestimmtes Integral auszurechnen. 7.6.1. Stammfunktionen der Grundfunktionen. Die folgende Liste kann man mit Tafel oder Computeralgebraprogramm erweitern. + f (x) f (x) dx xa+1 a x (a = −1) a+1 + c 1 ln |x| + c x 1 arctan (x) + c 1+x2 x x e e +c ln (x) x ln (x) − x + c sin (x) − cos (x) + c cos (x) sin (x) √ 1 arcsin (x) 1−x2 tan (x) − ln |cos (x)| 7. DAS EINDIM ENSIONALE INTEGRAL 89 Diese Regeln bestätige man durch Ableiten. Wir werden die weniger offensichtlichen Beispiele wie f (x) = ln (x) usw. als Beispiele für die Anwendung der Zusammensetzungsregeln behandeln. Auch die folgenden Regeln ergeben sich unmittelbar duch Ableiten, als Umkehrung entsprechender Ableitungsregeln: 7.6.2. Summen- und Konstantenregel. * (f (x) + g (x)) dx = F (x) + G (x) + c, mit F ′ = f, G′ = g. * αf (x) dx = αF (x) + c, mit F ′ = f. 7.6.3. Partielle Integration (Umkehrung der Produktregel des Differenzierens. * * f (x) G (x) dx = F (x) G (x) − F (x) g (x) dx + c, also * b * b b f (x) G (x) dx = [F (x) G (x)]a − F (x) g (x) dx a + d dx a Begründung: (F (x) G (x)) = f+ (x) G (x)+F (x) g (x) , also (f (x) = F (x) G (x)+ + G (x)+F (x) g (x))dx + d1 , dazu mit der Summenregel: (f (x) G (x) + F (x) g (x))dx = f (x) G (x) dx + F (x) g (x) dx + d2 , also die Behauptung. Bemerkung: Es bleibt ein Integral übrig, und man hofft, dass dies einfacher wird als das ursprüngliche. Manchmal muss man die Regel zweifach anwenden. Warnung: Die Regel taugt nur für spezielle Produkte, keineswegs denke man: ’Da ist ein Produkt zu integrieren, also wende ich diese Produktregel des Integrierens an.’ Typische günstige Ausdrücke: 1·f (x) , wobei f eine Umkehrfunktion wie ln oder arctan ist, Polynom mal transzendente Standardfunktion wie ln, exp, sin, ex sin (x) usw. Allerdings ist die Regel, wie wir noch sehen werden, unglaublich effizient zur Herstellung wichtigster theoretischer Zusammenhänge. 7.6.4. 1/α− Regel. * 1 f (αx + β) dx = F (αx + β) + c (α = 0) α Bemerkung: Diese Regel sollte man sich merken und in entsprechenden Fällen anwenden, was viel bequemer als die folgende allgemeine Substitutionsregel ist. 7.6.5. Substitutionsregel (Umkehrung der Kettenregel des Differenzierens). * * dxf ′ (x) g (f (x)) = dug (u) = G (u) + c = G (f (x)) + c. d Begründung: dx (G (f (x)) + c) = f ′ (x) g (f (x)) nach Kettenregel. Die Zwischenschritte weisen auf die praktische Anwendung: Man macht die Substitution u = f (x) du = f ′ (x) dx + und ersetzt im Integral dxf ′ (x) g (f (x)): dxf ′ (x) durch du, g (f (x)) durch g (u) , erhält G (u) + c als unbestimmtes Integral, ersetzt dann wieder zurück u durch f (x) . Bemerkung: Hier und auch in vielen weiteren Fällen, insbesondere bei Mehrfachintegralen, ist es sehr nützlich, das ’dx’ usw. voranzustellen. Allerdings verlangt mein Computeralgebraprogramm diesen Ausdruck als Abschluss des Integrals. Warnung: Man schreibe niemals Integrale, in welchen alte Integrationsvariable (hier x) und neue (hier u) gemischt vorkommen, und man denke immer daran, dass dx auch in du umgerechnet werden muss. Für bestimmte Integrale lautet die Regel: * b * f (b) f (b) dxf ′ (x) g (f (x)) = g (u) du = [G (u)]f (a) = G (f (b)) − G (f (a)) . a f (a) +b + f (b) Hier ist das Substitutionsschema zu ergänzen mit der Grenzentransformation a ... → f (a) .... Man beachte, dass diese Grenzentransformation das Rückeinsetzen aus dem vorigen Schema erspart und auch 90 4. REELLE FUNKTIONEN + f (b) ersetzen muss: f (a) g (u) du ist ein bestimmtes Integral, nur heißt die Integrationsvariable u. Unbestimmte Integrale werden wegen der damit verbundenen Unklarheiten durchaus von einigen ernstzunehmenden Menschen rundweg abgelehnt. Aber das Schema ist doch so praktisch, dass man nicht ganz darauf verzichten mag. Es ist nur Vorsicht geboten. 7.6.6. Die eigentliche Substitution (nicht nur: Umkehrung der Kettenregel). Betrachtet man die Substitutionsregel, die oben formuliert wurde, so wird man enttäuscht sein, weil man sie nur auf Integrale anwenden kann, in welchen der Faktor f ′ (x) auftritt neben der Schachtelung g (f (x)) . In diesen Fällen kann man auch sofort sagen, es sei nur +die Stammfunktion von und auf f (x) anzuwenden, + G zu bilden und man ist mit G (f (x)) fertig. Z.B. x2 sin x3 dx = 13 3x2 sin x3 dx = 13 − cos x3 + c. Das Beispiel zeigt auch, wie man typisch einen fehlenden konstanten Faktor zur Ableitung f ′ (x) ergänzen und kompensieren kann. Mit etwas Routine macht man das so schneller als mit dem Substitutionsschema. Viel interessanter sind die Fälle, bei denen ein solcher Ableitungsfaktor fehlt. Wie kann man dann trotzdem die Substitutionsregel anwenden? Dazu gibt es zwei Möglichkeiten, die man auch beide praktisch verwendet: Erstes Schema der eigentlichen Substitution: Mit umkehrbarer Funktion f und Umkehrfunktion f −1 kann man die Substitutionsgleichung u = f (x) nach x auflösen und bekommt: x = f −1 (u) , damit wird dx in du umgerechnet: ′ dx = f −1 (u) du, womit aus der Substitutionsregel wird: * * ′ dxg (f (x)) = du f −1 (u) g (u) = H (u) = H (f (x)) (wieder mit Rückeinsetzen). ′ Dabei ist H (u) eine Stammfunktion zu f −1 (u) g (u) . Für bestimmte Integrale lautet die Regel: * b * f (b) ′ f (b) dxg (f (x)) = du f −1 (u) g (u) = [H (u)]f (a) = H (f (b)) − H (f (a)) . a f (a) Beispiel zur Anwendung: * 1 1 dx, Substitution : u = ex , x = ln (u) , dx = du, also : 1 + ex u * * * 1 1 1 −1 1 = = dx du + du = − ln |1 + u| + ln |u| 1 + ex 1+uu 1+u u = − ln (1 + ex ) + x Dabei kamen typische weiter benötigte Schritte nach der Substitution vor. Diese führte auf eine gebrochen rationale Funktion (mit typischer Partialbruchzerlegung, vgl. den nächsten Abschnitt), anschließend wurde noch die α1 − Regel verwandt. Die Sache hat also mit der Umkehrbarkeit von exp zu ln geklappt, dass der Ableitungsfaktor dagestanden hätte, der wäre hier ex gewesen. (Man vergleiche noch einmal +ohne ex 1 x x 1+ex dx = ln (1 + e ) , was man direkt sagen kann, indem man identifiziert: f (x) = 1 + e , g (x) = x , x also G (f (x)) = ln (1 + e ) . Das wäre also mit bloßer Umkehrung der Kettenregel zu machen.) Zweites Schema zur eigentlichen Substitution: Man substituiert sofort x = h (u) und damit dx = h′ (u) du. Dann hat man: * * dx g (f (x)) = du h′ (u) g (f (h (u))) . Für bestimmte Integrale lautet die Regel dann: * a b dx g (f (x)) = * h−1 (b) du h′ (u) g (f (h (u))) . h−1 (a) Das ist nicht so unsinnig, wie es aussieht, eben dann, wenn g (f (h (u))) im Ergebnis viel einfacher wird als g (f (x)) . 7. DAS EINDIM ENSIONALE INTEGRAL 91 +√ Beispiel: 1 − x2 dx. Man wird die (tendenziell immer äußerst ungünstige) Wurzel los mit x = sin (u) , also dx = cos (u) du, und erhält: * * * * 1 1 − x2 dx = cos2 (u) cos (u) du = cos2 (u) du = (cos (2u) + 1) du 2 1 1 1 1 = sin (2u) + u = sin (u) cos (u) + u 4 2 2 2 1 1 = x 1 − x2 + arcsin (x) (Rückeinsetzen) 2 2 Es sei bemerkt, dass man cos2 (u) auch mit partieller Integration bewältigen kann, aber die hier angesprochene Anwendung der Additionstheoreme ist bedeutend günstiger. Vielfach hat man beim Rückeinsetzen auch die Gleichung x = h (u) nach u aufzulösen, im Beispiel x = arcsin (u) . 7.6.7. Standardsubstitutionen für gewisse Funktionstypen. Mit ’Standard’ ist hier eher etwas ursprünglich recht Raffiniertes gemeint - und nun ist es bekannt. Das gilt besonders für Nummer 2. Wir erlauben uns in komplizierteren Beispielen, die ewige Konstante ’+c’ wegzulassen. √ 1.a) Für den Standard-Wurzelausdruck 1 − ax2 mit a > 0 hilft (2. Schema der eigentlichen Substitution): x = dx = 1 √ sin (t) a 1 √ cos (t) dt. a z.B. * * 1 1 1 1 √ cos2 (t) dt = √ 1 − ax2 dx = cos t sin t + t a a 2 2 √ 1 1 = x 1 − ax2 + √ arcsin ax . 2 2 a + √ 1 1 Analog erhält man so: √1−ax2 dx = √a arcsin ( ax) . Es ist ein wenig zu empfehlen, in solchen Fällen zunächst durch eine lineare Substitution den Parameter zu beseitigen: Mit x = √1a u, dx = √1a du hat √ + +√ +√ +√ 1 − ax2 dx = √1a 1 − u2 du = √1a 1 − u2 du, so dass man sich auf 1 − u2 du beschränken man kann. In 1.b) werden wir so vorgehen. √ 1.b) Für den Standard-Wurzelausdruck 1 + x2 , a > 0, hilft (wieder 2. Schema): x = sinh (t) dx = cosh (t) dt. Dann hat man z.B. * * 1 + x2 dx = cosh2 (t) dt. Das kann man nun weiter verarbeiten mit den hyperbolischen Formeln (ganz analog zu den trigonometrischen, nur mit charakteristischen Vorzeichunterschieden). Also etwa mit 1 (1 + cosh (2t)) : * *2 1 1 1 cosh2 (t) dt = (1 + cosh (2t)) dt = t + sinh (2t) 2 2 4 1 1 = t + sinh (t) cosh (t) . Also 2 2 * 1 1 2 1 + x dx = arcsinh(x) + x 1 + x2 . 2 2 cosh2 (t) = Man hat dabei: arcsinh(x) = ln x + 1 + x2 . 92 Die Berechnung von 4. REELLE FUNKTIONEN + cosh2 (t) dt gelingt auch mit partieller Integration: * * cosh2 (t) dt = sinh (t) cosh (t) − sinh2 (t) dt * = sinh (t) cosh (t) − cosh2 (t) − 1 dt, also * 1 1 cosh2 (t) dt = sinh (t) cosh (t) + t. 2 2 (Typischer Vorgang, dass der zu integrierende Ausdruck rechts wieder auftaucht, man bringt ihn dann auf die andere Seite.) Hier sind einige praktische Formeln, die wir benutzten, für die hyperbolischen Funktionen: cosh2 (x) − sinh2 (x) = 1 cosh′ (x) = sinh (x) , sinh′ (x) = cosh (x) , cosh (x + y) = cosh2 (x) + sinh2 (y) , sinh (x + y) = sinh (x) cosh (y) + sinh (y) cosh (x) Völlig analog erhält man auch 1.c) Für x ≥ 1: * 1 1 x2 − 1dx = x x2 − 1 − ln x + x2 − 1 + c. 2 2 √ √ +√ 1 Für x ≤ −1 hat man entsprechend: x2 − 1dx = 2 x x2 − 1 + 12 ln −x + x2 − 1 + c (über die ungerade Fortsetzung). 2.) Gebrochen rationale Funktionen in sin (x) , cos (x) , tan (x): Für eine gebrochen rationale Funktion 1 ,...,xn ) in x1 , ...xn , also p(x q(x1 ,...xn ) , setzt man solche trigonometrischen Funktionen überall für xi ein. Dann hilft folgende schlaue Substitution, nach dem 2. Schema der eigentlichen Substitution x = 2 arctan (t) , 2 dx = 1 + t2 Aus den beteiligten trigonometrischen Funktionen wird dann sin (x) = 1 − t2 2t 2t , cos (x) = , tan (x) = , 2 2 1+t 1+t 1 − t2 2t(1−t2 ) auch weiter mit Additionstheoremen sin (2x) = 2 sin (x) cos (x) = (1+t2 )2 usw. Es entsteht nach dieser Substitution eine gewöhnliche gebrochen rationale Funktion (zu deren Integration im Allgemeinen vgl. den nächsten Abschnitt). + 1 + + 1 2 2 Beispiel: sin(x) dx = 1+t 2t 1+t2 dt = t dt = ln |t| = ln |tan (x/2)| . Man beobachte aber einfachere + 1 + cos(x) Fälle wie 1+sin2 x dx = 1+u2 du = arctan (u) = arctan (sin (x)) . Hier genügt die Umkehrung der Kettenregel! 3.) Gebrochen rationale Funktionen in sinh (x) , cosh (x) , tanh (x) könnte man analog behandeln, indem man die analogen hyperbolisch-geometrischen Beziehungen ausnutzt, aber es geht auch einfacher: Man fasst eine solche Funktion als gebrochen rationale Funktion in ek1 x , ..., ekr x auf, ki ganze Zahlen. Dann genügt folgende Substitution (wieder nach 2. Schema): x = ln (t) 1 dx = dt. t Es entsteht eine gebrochen rationale Funktion in t. Ein Beispiel wurde oben bereits gegeben. 7. DAS EINDIM ENSIONALE INTEGRAL 93 7.6.8. Integration gebrochen rationaler Funktionen: Partialbruchzerlegung. Vorbemerkung: Es geht hier nur um das Verständnis und praktische Handrechnung in einfachen Einzelfällen, wie sie häufig vorkommen. Langwierige Rechnungen sind gerade hier mit einem Computeralgebraprogramm zu vermeiden. Oftmals wird man darauf geführt, dass noch eine gebrochen rationale Funktion der Gestalt f (x) = p (x) mit Polynomen p, q q (x) zu integrieren ist. Das ist dann so zu machen (so weit möglich): Erster Schritt: Wenn Grad (p) ≥ Grad (q) , so führe man Polynomdivision durch. Der Polynom1 (x) summand ist simpel zu integrieren, es verbleibt eine gebrochen rationale Funktion pq(x) mit Grad (p1 ) < Grad (q) . (Im Folgenden heißt p1 einfach wieder p, wir setzen Grad (p) < Grad (q) voraus.) Zweiter Schritt: Man führt folgende Partialbruchzerlegung durch (es sei denn, man ist bereits bei einem der möglichen Endprodukte jeder solchen Zerlegung angelangt, dann hat man mit Standardfunktionen zu tun, deren Stammfunktionen man wissen oder nachschlagen kann). Wenn der Nenner q mindestens zwei Faktoren (x − a) , (x − b) mit a = b hat oder mindestens einen Faktor (x − a) und einen quadratischen ohne reelle Nullstelle oder aber mindestens zwei quadratische Faktoren ohne gemeinsame komplexe Nullstelle, dann ist die folgende Partialbruchzerlegung auszuführen: 1.) Man zerlegt den Nenner in lauter Linearfaktoren und qudratische Faktoren ohne reelle Nullstelle. (Dies ist nur in einfachen Fällen möglich, auch für ein Computeralgebraprogramm!) 2.) Man schreibt folgenden Ansatz hin. Es ist dabei k ≥ 1 und l ≥ 1 vorauszusetzen. Ferner soll x2 + αx + β ein Polynom ohne reelle Nullstelle sein. A1 , ..., Ak , B1 , ..., Bl , C1 , ..., Cl stehen für gesuchte unbekannte reelle Zahlen. p (x) k l (x − a) (x2 + αx + β) · ... = A1 B1 + C1 x Ak Bl + Cl x + 2 + ... + ... + + ... + 2 k x−a x + αx + β (x + αx + β)l (x − a) Dabei stehen die Pünktchen im Nenner links für weitere Linearfaktoren und weitere quadratische Faktol ren ohne reelle Nullstelle, welche keine gemeinsamen Teiler mit (x − a)k x2 + αx + β haben. Auf der rechten Seite stehen die Pünktchen dafür, dass man für jeden weiteren Faktor im Nenner den nämlichen Ansatz wie für die beispielhaft genannten beiden noch anzufügen hat. Man beachte: Wenn k = 1, so Ak A1 A1 steht auf der rechten Seite nur x−a statt x−a + ... + (x−a) k . Wenn l = 1, so steht für den zweiten Block 1 +C1 x . Summanden der Form, wie sie auf der rechten Seite stehen, sind gerade die erwähnten nur xB2 +αx+β Endprodukte der Partialbruchzerlegung. Es ist ein mathematischer Satz, dass es die gesuchten Zahlen eindeutig gibt. Bemerkung: Es darf durchaus γx − a mit γ = 0 statt x − a stehen und δx2 + αx + β mit δ = 0 statt 2 x + αx + β. Am Ansatz ändert das nichts. Auch die Weiterverarbeitung ist nicht wesentlich schwieriger. 3.) Die unbekannten Zahlen können auf jeden Fall ausgerechnet werden. Dabei geht man zweckmäßig so vor: Man rechnet direkt aus: Ak = p (a) , wobei q1 (a) der Nenner q ohne den Faktor (x − a)k ist. q1 (a) Für die verbleibenden Unbestimmten bildet man einfache (lineare!) Gleichungen, so viele wie man noch Unbestimmte hat, indem man auf beiden Seiten des Ansatzes für x möglichst einfache (ganze) reelle Zahlen einsetzt. Dann löst man das lineare Gleichungssystem. Dritter Schritt: Man rechnet Stammfunktionen zu den Endprodukten aus bzw. schlägt solche nach, und bildet die Summe dieser Stammfunktionen. Ein paar einfache Beispiele: 1. Beispiel: x A B C = + + . (x − 1) (x − 2) (2x + 3) x − 1 x − 2 2x + 3 Das ist der Ansatz, rechts stehen bequemer A, B, C statt A1 , A2 , A3 . Die drei Nennerfaktoren haben verschiedene Nullstellen. Dies ist der einfachste Fall überhaupt. Gemäß 3.) vom zweiten Schritt berechnet 94 4. REELLE FUNKTIONEN man sofort: A = Also B = C = 1 1 =− , (1 − 2) (2 · 1 + 3) 5 2 2 = , (2 − 1) (4 + 3) 7 −3/2 6 3 =− . 35 − 2 − 1 − 32 − 2 x 1 2 6 =− + − . (x − 1) (x − 2) (2x + 3) 5 (x − 1) 7 (x − 2) 35 (2x + 3) Nun reicht die Linearität des Integrals und die α1 − Regel, das Integral auszurechnen: * x 1 2 3 dx = − ln |x − 1| + ln |x − 2| − ln |2x + 3| + c. (x − 1) (x − 2) (2x + 3) 5 7 35 Damit sollte klar sein, wie man alle Fälle behandeln kann, bei denen im Nenner ein Produkt aus lauter Linearfaktoren ohne gemeinsame Nullstelle auftritt. 2. Beispiel: 1 A B C + = + . x x − 1 (x − 1)2 x (x − 1)2 Gemäß 3. vom zweiten Schritt berechnet man direkt: 1 A = = 1, (0 − 1)2 C = 1. Zur Bestimmung von B setzt man x = −1 in die Gleichung ein (0 und 1 sind verboten) und erhält diese lineare Gleichung für B, wobei man die bekannten Zahlenwerte für A, C bereits einsetzt: B 1 1 2 = −1 − 2 + 4 . Das ergibt B = −1. − (−1 − 1) Also Grundregeln und 1 1 α− x (x − 1) 2 = 1 1 1 . − + x x − 1 (x − 1)2 Regel ermöglichen die Integralberechnung: * 1 1 +c dx = ln |x| − ln |x − 1| − x−1 x (x − 1)2 3. Beispiel: Man stellt fest, dass 2x2 + x + 1 keine reelle Nullstelle hat, Ansatz daher im folgenden Fall: x A B + Cx = + 2 . 2 (x − 1) (2x + x + 1) x − 1 2x + x + 1 Man rechnet direkt aus: 1 A= . 4 Für B und C setzt man x = 0 und x = −1 (am einfachsten) in die Gleichung ein und bekommt Damit 1 1 0 = − + B, also B = , 4 4 −1 1 1/4 − C 1 = − + , also C = − . −2 · 2 8 2 2 x 1/4 1/4 − x/2 = + 2 . 2 (x − 1) (2x + x + 1) x − 1 2x + x + 1 7. DAS EINDIM ENSIONALE INTEGRAL 95 Für das Integrieren des zweiten Summanden: 2x2 * 2x2 1 +x+1 = 1/4 dx = +x+1 * −x/2 − 1/8 dx = 2x2 + x + 1 * −x/2 dx = 2x2 + x + 1 = 8/7 8/7 = , damit 2 1 2 x+ 4 +1 √4 x + √1 + 1 7 7 √ √ √ 7 7 7 2 4 1 · arctan √ x + √ arctan (4x + 1) + c. +c= 7 4 14 7 7 7 * * 1 4x + 1 1 du 1 1 − dx = − = − ln (u) = − ln 2x2 + x + 1 , also 8 2x2 + x + 1 8 u 8 8 * 1 1/8 − ln 2x2 + x + 1 + dx 8 2x2 + x + 1 √ √ 1 2 7 7 − ln 2x + x + 1 + arctan (4x + 1) + c 8 28 7 1 2 2 x + 14 + 7 8 = 16 7 Wir halten fest: Bei der Integration gebrochen rationaler Funktionen können Summanden folgender Art auftreten: Polynome, gebrochen rationale Funktionen, ln − Glieder und arctan − Glieder. 7.7. Beispiele zur Anwendung des Integralkalküls. Zur partiellen Integration: Umkehrfunktionen kann man zweckmäßig damit behandeln: * * ln (x) dx = arcsin (x) dx = = * = arctan (x) dx = * * 1 x dx = ln (x) − x x * * x dx 1 · arcsin (x) dx = x arcsin (x) − √ 1 − x2 * 1 −2x √ x arcsin (x) − dx 2 1 − x2 x arcsin (x) + 1 − x2 . Analog 1 x arctan (x) − ln 1 + x2 . 2 1 · ln (x) dx = x ln (x) − Produkte der Form ex sin (x) usw. sind weitere wichtige Beispiele (die Formel noch einmal: + F G − F g in Kurzform.): Zunächst mit f (x) = ex , G (x) = sin (x) : * * ex sin (x) dx = ex sin (x) − ex cos (x) dx, nun G (x) = cos (x) : * x x = e sin (x) − e cos (x) − ex cos (x) dx, also * 1 x ex sin (x) dx = e (sin (x) − cos (x)) 2 + fG = 96 4. REELLE FUNKTIONEN + Nun möchte man etwa auch haben: eαt sin (ωt + ϕ) dt, mit α, ω = 0. Dann wird die partielle Integration etwas mühsam. Mit der komplexen Darstellung der Sinusfunktion als Kombination von Exponentialausdrücken geht so etwas eleganter: sin (t) = * eαt sin (ωt + ϕ) dt = = = = = ejt − e−jt , also 2j * ej(ωt+ϕ) − e−j(ωt+ϕ) eαt dt 2j * 1 et(α+jω)+jϕ − et(α−jω)−jϕ dt 2j t(α+jω)+jϕ 1 1 1 e − et(α−jω)−jϕ 2j α + jω α − jω αt+j(ωt+ϕ) 1 1 1 e eαt−j(ωt+ϕ) − 2j α + jω α − jω eαt (α sin (ωt + ϕ) − ω cos (ωt + ϕ)) α2 + ω 2 Man kommt also mit der α1 − Regel aus. Es wäre nicht einmal nötig, den Ausdruck der drittletzten Zeile noch zu verändern, weil er perfekt funktioniert und das rein reell auszudrückende Endresultat ergibt die letzte Umformung belassen wir als Übung im Rechnen mit komplexen Zahlen. Zur Umkehrung der Kettenregel bzw. Substitution: Zunächst ein paar Beispiele für die einfache Umkehrung der Kettenregel (d.h. die Ableitung der inneren Funktion steht als Faktor da, jedenfalls bis auf einen konstanten Faktor): * * 1 1 sin (x) cos (x) dx = udu = u2 = sin2 (x) (mit u = sin x)). 2 2 * * * sin (x) 1 tan (x) dx = dx = − du = − ln |cos (x)| (mit u = cos (x) ). cos (x) u * * * x ln 1 + x2 2x ln 1 + x2 1 1 dx = = udu 1 + x2 2 1 + x2 2 1 2 = u (mit u = ln(1 + x2 )) 4 1 = ln 1 + x2 . 4* * * 1 1 √ 1 2 x 1 + x2 dx = 2x 1 + x2 dx = udu = · u3/2 2 2 2 3 1 3/2 = 1 + x2 (mit u = 1 + x2 ). 3 Es folgen ein paar Beispiele mit eigentlicher Substitution: * √ * x−1 √ dx = 2 u2 − 1du (mit x = u2 ) x = u u2 − 1 − ln u + u2 − 1 √ √ √ √ = x x − 1 − ln x + x − 1 . +√ Die Substitution führte also auf das bereits bekannte Integral u2 − 1du. * * x2 1 √ dt (mit x = 3 sin (t)) dx = 6 3 1−x 1 1 = t = arcsin x3 . 3 3 7. DAS EINDIM ENSIONALE INTEGRAL 97 7.8. Uneigentliche Integrale als+Grenzwerte. Zuweilen ist es + ∞erforderlich, über einen unend∞ lichen Bereich zu integrieren, also etwa 0 f (x) dx oder auch sogar −∞ f (x) zu bilden. Ein analoges Problem tritt auf, wenn man eine Funktion f mit einem Pol in a oder b (oder beiden) im Intervall [a, b] zu integrieren. Der Sinn eines solchen Integrals ist der, dass es als Grenzwert gewöhnlicher Riemann-Integrale existiert, also z.B. * ∞ * x e−t dt = lim e−t dt = lim 1 − e−t = 1. x→∞ 0 0 Aber * x→∞ * 1 1 1 dx = lim dx = lim (− ln (x)) = ∞. x→0 x x x→0 0 x Dies Integral divergiert also nach ∞. Man definiert also 1 D 31 (uneigentliche Integrale). Wenn f in a rechtsseitig einen Pol hat und auf (a, b] stetig +b +b ist, so existiert a f (t) dt, falls limx→a+ x f (t) dt in R existiert. Dann ist der Wert des Integrals: * b * b f (t) dt := lim f (t) dt. a x→a+ x Analog für einen Pol linksseitig in b und f stetig auf [a, b): * x * b f (t) dt := lim f (t) dt, falls dieser Grenzwert in R existiert. a x→b− a Für einen Pol in c ∈ (a, b) bei stetigem f auf [a, c) und auf (c, b] im Innern des Integrationsintervalls +b +c +b verlangt man für die Existenz des Integrals a f (t) dt, dass sowohl a f (t) dt als auch c f (t) dt als endliche Grenzwerte existieren. +x +∞ Wenn f auf [a, ∞) stetig ist, so existiert a f (t) dt, falls limx→∞ a f (t) dt in R existiert und hat dann +b +b diesen Wert. Analog ist für f stetig auf (−∞, b] definiert: −∞ f (t) dt := limx→−∞ x f (t) dt, falls dieser +0 Grenzwert in R existiert. Wiederum wird für f stetig auf R sowohl die Existenz von −∞ f (t) dt als auch +∞ +∞ die Existenz von 0 f (t) dt verlangt dafür, dass −∞ f (t) dt existiere. Analog für einen Pol rechtsseitig +∞ +b +∞ in a und a f (t) dt, f stetig auf (a, ∞): Sowohl a f (t) dt als auch b f (t) dt müssen existieren für ein b mit a < b < ∞. +∞ +1 Zum Verständnis: 1 x12 dx = 1, das existiert. Aber 0 x12 dx = ∞. Das divergiert. Daher existiert +∞ 1 +∞ 1 +0 +∞ 1 1 π auch nicht 0 x2 dx. −∞ 1+x2 dx = 2 0 1+x2 dx = π existiert, da −∞ 1+x 2 dx ebenfalls den Wert 2 hat. Ebenso wie bei Reihen hat man: +β S 42. Wenn ein uneigentliches Integral α |f (t)| dt existiert (das Integral also absolut konvergent +β ist), dann existiert auch α f (t) dt. Für die absolute Konvergenz nimmt man gern wiederum konvergierende Majoranten, für absolute Divergenz divergierende Minoranten, insbesondere die folgenden: * ∞ 1 dx konvergiert für α > 1, divergiert für α ≤ 1. α x 1 +∞ Also folgt aus f+ stetig auf [1, ∞), |f (x)| ≤ xKα , x ∈ [1, ∞), mit α > 1, dass 1 + |f (x)| dx existiert ∞ ∞ und damit auch 1 f (x) dx. Ebenso divergiert für stetiges f auf [1, ∞) das Integral 1 |f (x)| dx, wenn |f (x)| ≥ xKα mit K > 0 und α ≤ 1. Analog für Pole, dafür hat man als Vergleiche: * 1 1 dx konvergiert für α < 1, divergiert für α ≥ 1. α 0 x +1 Wenn daher für stetiges f auf (0, 1] gilt: |f (x)| ≤ xKα , x ∈ (0, 1], mit α < 1, dann existiert 0 |f (x)| dx. +1 (Analog hat man wieder Divergenz von 0 |f (x)| dx bei Minorante xKα mit α ≥ 1. 98 4. REELLE FUNKTIONEN Beispiele: * * 1 1 1 √ dx = 2, dx = ∞, x x * 0∞ *0 ∞ 1 1 √ dx = ∞, dx = 10. 1.1 x x 1 1 * 1 * ∞ 1 ln (x) dx = −1, dx = ∞ ln (x) 0 2 1 Für die letzten beiden: Am Pol wächst |ln (x)| langsamer nach ∞ als jede Potenz x−α mit 0 < α < 1. +2 1 1 Dagegen geht ln(x) für x → ∞ langsamer nach Null als jede Potenz, z.B. x1 . Auch 1 ln(x) dx = ∞, weil 1 1 ln(x) für x → 1+ etwa so schnell nach ∞ geht wie x für x → 0 + . +∞ Hier ist noch ein Beispiel für ein uneigentliches Integral, das konvergiert, aber nicht absolut: 0 sin(x) x dx. + t sin(x) Man beachte: Der Integrand ist in 0 stetig, es geht nur um limt→∞ 0 x dx. Wir argumentieren so: Sei ∞ an das Integral von der n. Nullstelle bis zur n + 1. Nullstelle, für n ≥ 1. Dann ist an eine alternien=1 rende Reihe, deren Glieder monoton gegen Null fallen. Also ist die Reihe konvergent und somit auch das Integral von der ersten Nullstelle an, daher auch von 0 an. Andererseits besteht im Bereich [kπ, (k + 1) π] 1 die Ungleichung sin(x) x ≥ (k+1)π |sin (x)| , so dass * (k+1)π kπ * π sin (x) 2 1 dx ≥ sin (x) dx = . x (k + 1) π 0 (k + 1) π ∞ 2 Aber die Reihe kπ divergiert (im Wesentlichen ist das die harmonische). Somit divergiert auch das k=2 + ∞ Integral 0 sin(x) x dx. 7.9. Integrale über Kurven (vektorwertige Funktionen einer unabhängigen Variablen). + b→ → Was sollte man unter a − x (t) dt verstehen? Denken wir an das Beispiel von Geschwindigkeitsvektor − v (t) − → − → zur Zeit t. Bei Ort x (t0 ) zur Zeit t0 sollte dann gelten für den Ort x (t) zur Zeit t ≥ t0 : → → − → → v [t0 ,t] (− v [t0 ,t] ist die mittlere (vektorielle) Geschwindigkeit in [t0 , t]) x (t) = − x (t0 ) + (t − t0 ) − * t → − → = − x (t0 ) + v (t) dt. t0 Mit Orts- und Geschwindigkeitsvektoren wird komponentenweise gerechnet, ebenso werden Mittelwerte und Intergale von Vektoren komponentenweise ausgerechnet. Das entspricht ganz dem, dass Ableitungen von Vektoren komponentenweise zu nehmen sind. Also: x1 (t) .. → D 32. Für − x (t) = wird allgemein definiert: . xn (t) +b x (t) x1 (t) dt 1 * b * b a . . − → .. .. x (t) dt = dt := a a +b xn (t) a xn (t) dt . 7.10. Einige Anwendungen eindimensionaler Integrale. Hier sollen nur einige Beispiele gegeben werden. Es sei jedoch darauf hingewiesen, dass man beim Lösen von exakt lösbaren Differentialgleichungen wieder auf eine Fülle von Anwendungen trifft und dass man die Integration im Mehrdimensionalen wesentlich auf die eindimensionale Integration rechnerisch zurückführt. 7. DAS EINDIM ENSIONALE INTEGRAL 99 − → 7.10.1. Ort, Geschwindigkeit und Beschleunigung. Gegeben seien der Beschleunigungsvektor b (t) → → für alle Zeiten t und der Ortsvektor − x (t0 ) sowie der Geschwindigleitsvektor − v (t0 ) zur Zeit t0 . Es gelten − → − → − → − → − → ′ ′ ′′ die Beziehungen x (t) = v (t) und b (t) = v (t) = x (t) . Dann rechnet man aus: → → (i) − v (t) = − v (t0 ) + → → (ii) − x (t) = − x (t0 ) + * t t0 t * t0 − → b (t) dt − → v (t) dt. Bemerkung: Manchmal finden Sie a (t) fürdei Beschleunigung (’acceleration’). − → sin (t) 1 1 − → − → Beispiel: (Ebene Bewegung) b (t) = für alle t, x (0) = , v (0) = . Dann cos (2t) 1 0 hat man: − → v (t) = (i) = = − → x (t) = (ii) = = sin (t) + dt cos (2t) 0 . /t − cos (t) 1 + 1 0 2 sin (2t) 0 2 − cos (t) . 1 2 sin (2t) * t 1 2 − cos (t) + dt 1 1 0 2 sin (2t) . /t 1 2t − sin (t) + 1 − 14 cos (2t) 0 1 + 2t − sin (t) 5 1 4 − 4 cos (2t) 1 0 * t 1.5 1.4 1.3 1.2 1.1 1 0 10 20 30 40 50 60 Hinweis: Solche Dinge sollte man mit bestimmten Integralen rechnen, das ist vielfach günstiger als die − → → Version, bei der man zuerst eine beliebige Stammfunktion von b (t) ausrechnet und dann mittels − v (t0 ) die (vektorielle) Integrationskonstante bestimmt, usw. Das bestimmte Integral erspart das Lösen der dabei auftretenden Gleichungen. → 7.10.2. Länge einer Kurvenbahn. Es sei − x (t) , t0 ≤ t ≤ t1 , eine (differenzierbare) Parametrisierung einer Kurvenbahn, derart, dass keine Verbindung zweier Punkte auf der Bahn doppelt durchlaufen wird. Dann ist * t1 t0 ′ − x (t) dt → 100 4. REELLE FUNKTIONEN → die Länge dieser Bahn. Beispiel: Länge einer Ellipse, − x (t) = −a sin (t) − → : x ′ (t) = b cos (t) Länge der Ellipse = * 2π 0 a cos (t) b sin (t) , 0 ≤ t ≤ 2π. Dann ist mit a2 sin2 (t) + b2 cos2 (t)dt. Für a = b, beide nicht Null, ist dies Integral nicht elementar berechenbar, das berühmte ’elliptische + 2π Integral’. Für r = a = b kommt heraus: 0 rdt = 2πr, der bekannte Kreisumfang. −t e cos (t) → Für die sogenannte logarithmische Spirale − x (t) = , 0 ≤ t < ∞, bekommt man zur e−t sin (t) Länge ein konvergentes uneigentliches Integral: * ∞ e−t dt = 1. 0 → 7.10.3. Sektorenformel für Flächeninhalte. Ein Ortsvektor − x (t), t0 ≤ t ≤ t1 , überstreiche eine gewisse Fläche, ohne ein Stück davon mehrfach zu überstreichen. Dann ist der Inhalt diese Fläche: F = * 0 → Beispiel: − x (t) = 1 2 1 1 − ′ → x (t) × − x (t) dt. → 2 sin (2t) sin (t) , 0 ≤ t ≤ 2π, die Bahn sieht so aus: 0 1 0.8 0.6 0.4 0.2 -0.4-0.20 -0.2 0.2 0.4 -0.4 -0.6 -0.8 -1 Wir haben cos (2t) ′ ′ − → − → − → x (t) = cos (t) , x (t) × x (t)) = 0 0 , 0 1 sin (2t) cos (t) − sin (t) cos (2t) 2 Der Inhalt der in der Acht eingeschlossenen Fläche ist daher: F = * 0 2π 1 sin (2t) cos (t) − sin (t) cos (2t) dt. 2 7. DAS EINDIM ENSIONALE INTEGRAL 101 Das ist ein wenig unbequem, weil 12 sin (2t) cos (t)− sin (t) cos (2t) das Vorzeichen wechselt. Aber mit [0, π] erfasst man die obere Hälfte der Fläche, dort ist diese Funktion positiv, und man hat: * π 1 sin (2t) cos (t) − sin (t) cos (2t) dt F = 2 2 *0 π * π = 2 sin (t) cos2 (t) − 2 sin (t) cos2 (t) − sin2 (t) *0 π * π 0 3 = 2 sin (t) dt = 2 sin (t) (1 − cos2 (t))dt 0 * 0 −1 = −2 (1 − u2 )du (mit u = cos (t) ) 1 * 1 8 = 4 (1 − u2 )du = . 3 0 7.10.4. Oberflächeninhalt und Volumen eines Rotationskörpers. Lässt man den Graphen einer Funktion f (x) (stückweise stetig) im Intervall [a, b] um die x− Achse rotieren, so hat der eingeschlossene Köper das Volumen * b V = πf 2 (x) dx. a Idee: Man zerlegt in kleine Zylinderscheibchen quer zur x− Achse, und die Zylinder haben Volumina πf 2 (x) ∆x. Das ergibt Riemannsummen, welche zum obenstehenden Integral führen. Auch der Oberflächeninhalt der Mantelfläche des Körpers lässt sich mit ähnlicher Idee berechnen: * b O= 2π |f (x)| 1 + f ′2 (x)dx. a Dabei setzen wir noch die Ableitung von f als stetig voraus. Eine genauere Begründung dieser Formel geben wir im Rahmen der mehrdimensionalen Integration. Zu beachten ist der Faktor 1 + f ′2 (x), der an die Bogenlänge erinnert. Man erhält natürlich den gesamten Oberflächeninhalt, indem man noch die Inhalte der begrenzenden Kreisscheiben hinzufügt. KAPITEL 5 Lineare Algebra Lineare Algebra ist das Gebiet der Mathematik, das von Vektorräumen und linearen Abbildungen (den Vektorraumhomomorphismen) handelt. Matrizen gehören dazu als lineare Abbildungen bzw. Koordinatendarstellungen linearer Abbildungen. In diesem Rahmen sind lineare Gleichungssysteme umfassend und systematisch zu behandeln. Schließlich umfasst das Gebiet auch mehrfach lineare Abbildungen (seien es Skalarprodukte oder Determinanten). Wir haben einige dieser Dinge bereits im zweiten Kapitel unter dem Titel ’Vektorrechnung’ im konkreten Fall R2 , R3 gesehen. Nunmehr geht es um den Ausbau der abstrakteren Strukturen und um die Betonung beliebiger Dimensionen, allerdings mit zwei Einschränkungen: Wir behandeln nur endlichdimensionale Vektorräume, und nur über den Körpern R, C mit starker Betonung auf ersterem - er soll es immer sein, wenn nicht ausdrücklich etwas anderes gesagt wird. Wir beginnen mit ’Vektorraum, lineare Unabhängigkeit, Basis, Dimension’. Wir verweisen auf die bereits zuvor gegebene Definition des Begriffs ’Vektorraum über einem Körper K’, allerdings behandeln wir nur die besonders wichtigen Fälle K = R oder K = C. Beispiele für Vektorräume: 1) Rn ist Vektorraum über R. Cn ist Vektorraum über C (beide mit den komponentenweisen Operationen). Wir werden sehen, dass diese Dimension n haben. Weiter noch ist Cn ein 2n− dimensionaler Vektorraum über R (da C bereits ein zweidimensionaler Raum über R ist). 2) Die Polynome mit reellen Koeffizienten bilden einen Vektorraum über R, allerdings mit abzählbar unendlicher Dimension. (Die linearen Operationen sind dabei die übliche Addition von Polynomen und Multiplikation eines Polynoms mit einer reellen Zahl.) 3) Für ein Intervall I ⊂ R sei C (I) := { f : I → R| f stetig} . Dann bildet C (I) mit der üblichen Addition der Funktionen und Multiplikation einer Funktion mit einer Zahl einen Vektorraum über R; denn mit f, g sind auch f +g sowie cf (c ∈ R) stetig. Allerdings hat C (I) sogar überabzählbar unendliche Dimension. 4) Die Menge der reellen Lösungen der Schwingungsgleichung x′′ (t) + 2ρx′ (t) + ω20 x (t) = 0 bildet einen Vektorraum der Dimension 2, welcher Unterraum des Vektorraums aller auf R differenzierbaren Funktionen ist. Wir werden uns auf die Behandlung endlichdimensionaler Vektorräume beschränken. 1. Die Struktur endlichdimensionaler Vektorräume Zur Vektorraumstruktur gehören nur die linearen Operationen. Diese führen bei näherer Betrachtung n → → → zu folgendem Grundbegriff: Eine Linearkombination von Vektoren − a , ..., − a ist ein Ausdruck λ − a . 1 n k k k=1 → → Das ist die Endform, in die jeder Ausdruck in − a 1 , ..., − a n zu bringen ist. Dabei stellen sich folgende Fragen: n → → 1.) Ist eine solche Linearkombination eindeutig bestimmt, das heißt: Kann jeder Vektor − x = λ − a k k=1 k → nur auf eine Weise so dargestellt werden, sind also die Koeffizienten λk durch − x eindeutig bestimmt? 2.) Kann jeder Vektor des Raums so dargestellt werden? Wir legen diese Fragen in folgenden Rahmen: D 33 (Lineare Unabhängigkeit, Erzeugendensystem, Basis, Spann, Unterraum). Seien − → → a 1 , ..., − an ∈V 103 104 5. LINEARE ALGEBRA beliebige Vektoren des Vektorraums V über R. Dann hat man stets folgende Linearkombinationsabbildung: n − − L→ a 1 ,...,→ an : R → λ1 .. . → λn V n k=1 → λk − ak → → Die Vektoren − a 1 , ..., − a n bilden definitionsgemäß genau dann ein Erzeugendensystem für V, wenn diese → → Abbildung surjektiv ist. Das System der Vektoren − a 1 , ..., − a n heißt linear unabhängig genau dann, wenn − → − → diese Abbildung injektiv ist. Die Vektoren a 1 , ..., a n bilden eine Basis für V genau dann, wenn diese Abbildung bijektiv ist. Ein Vektorraum V heißt endlichdimensional genau dann, wenn es ein endliches Erzeugendensystem für ihn gibt. − → − → − → − → − − Das Bild von L→ a 1 ,...,→ a n heißt Spann a 1 , ..., a n , der von den Vektoren a 1 , ..., a n aufgespannte Unterraum. Ein Unterraum von V ist definitionsgemäß eine Teilmenge von V, welche den Nullvektor von V → → → → enthält und aus der die linearen Operationen nicht hinausführen, also − x ,− y ∈ U =⇒ − x +− y ∈ U, und − → − → α ∈ R, x ∈ U =⇒ α x ∈ U. Wir treffen die Generalvoraussetzung: Alle betrachteten Vektorräume sind endlichdimensional. (Das bedeutet nach Definition zuerst einmal, dass es ein endliches Erzeugendensystem gibt, gleichwertig aber, wie gleich einzusehen sein wird, dass es eine endliche Basis gibt.) Eine Erläuterung zum Begriff der Basis: Eine Basis ist nichts anderes als ein Koordinatensystem: n → → → Wenn jeder Vektor − x ∈ V eine eindeutige Darstellung − x = λ − a besitzt, so sind die Zahlen λ die k k=1 k k λ1 .. − → − → − → Koordinaten von x bezüglich der Basis a 1 , ..., a n , und der Vektor . ∈ Rn ist die Koordinatenλn → darstellung von − x bezüglich dieser Basis. − → Zunächst zum Begriff des Unterraums: { 0 } ist der stets vorhandene sogenannte triviale Unterraum. Ebenso ist V Unterraum von sich selbst. Eine Gerade y = mx + b ist genau dann ein Unterraum von 1 R2 , wenn sie durch den Ursprung geht, also b = 0. Sie ist der Spann von . Alle eindimensionalen m → → − → − Unterräume von V (beliebig) erhält man als Spann − a mit einem Vektor . Die Vereinigung a = 0 W der 1 1 1 2 + = ∈ / W. beiden Geraden y = x und y = −x ist kein Unterraum des R . Denn 1 −1 0 Wir halten noch als Satz fest: → → → → S 43. V sei endlichdimensionaler Vektorraum, − a , ..., − a ∈ V. Dann ist Spann − a , ..., − a 1 n 1 n ein Unterraum von V. Jeder beliebige Unterraum von V lässt sich als Spann einer endlichen Folge von Vektoren ausdrücken. n n n n − → → → → → → → Die erste Aussage ist klar: 0 = 0− a 1 +...0− a n. λk − a k+ µk − ak = (λk + µk ) − a k. α λk − ak = n k=1 k=1 k=1 k=1 k=1 → (αλk ) − a k . Also führen die linearen Operationen nicht aus dem Spann hinaus. Die zweite Aussage ist eine Folgerung aus dem Basisergänzungssatz weiter unten. Zur Illustration der Begriffe einige Beispiele: V = R3 , darin betrachten wir das System der Vektoren − → → e 1, − e 2 , also 1 0 0 , 1 . 0 0 Das ist linear unabhängig. Wenn nämlich 1 0 1 0 λ1 0 + λ2 1 = µ1 0 + µ2 1 , 0 0 0 0 1. DIE STRUKTUR ENDLICHDIMENSIONALER VEKTORRÄUME 105 − − dann λ1 = µ1 und λ2 = µ2 . Also ist L→ e 1 ,→ e 2 injektiv. Aber die Abbildung ist nicht surjektiv: Der Vek→ → → tor − e 3 ist nicht als Linearkombination der − e 1, − e 2 darstellbar. Die beiden Vektoren bilden daher kein 3 Erzeugendensystem für R . Der Spann dieser beiden Vektoren ist offenbar die xy− Ebene. Sie bildet − → − → − → − − − einen Unterraum des R3 . Aber die Abbildung L→ e 1 ,→ e 2 ,→ e 3 ist offenbar bijektiv. Das System e 1 , e 2 , e 3 3 3 bildet eine Basis für R . Diese drei Vektoren bilden insbesondere eine Erzeugendensystem für R . Daher ist R3 jedenfalls endlichdimensional. Wir werden sogleich beweisen, dass in einem Raum, der eine Basis der Länge n besitzt, die Länge einer jeden Basis wieder dieselbe ist. Das werden wir Dimension von V nennen. Mit diesem Resultat ist dann klar, dass R3 mit der eingeführten Struktur dreidimensional ist. → → → → → Betrachten wir noch das System folgender vier Vektoren im R3 : − e 1, − e 2, − e 3, − e1 +− e 2 . Das ist wieder ein Erzeugendensystem (setze λ4 = 0 und verwende die eindeutige Linearkombinationsdarstellung mit − → → → e 1, − e 2, − e 3 ). Aber es ist nicht mehr linear unabhängig. Das können wir sofort daran sehen: Der Vektor − → − → − → − → e 1 + e 2 lässt sich einmal darstellen als 1 · e 1 + 1 · e 2 , also λ1 = λ2 = 1, λ3 = λ4 = 0, andererseits − → − → als 1 · e 1 + e 2 , d.h. mit µ1 = µ2 = µ3 = 0 und µ4 = 1. Somit ist die zugehörige Linearkombinationsabbildung nicht injektiv. Wir bemerken noch, dass kein linear unabhängiges System von Vektoren den Nullvektor enthalten kann, da in einer Linearkombination eines solchen Systems der Koeffizient vor einem Nullvektor beliebig wählbar wäre, ohne den Wert der Linearkombination zu verändern. Zunächst entfalten wir den Begriff der linearen Unabhängigkeit in drei Versionen, von denen jede eine eigene Nützlichkeit besitzt: → → a n ist genau dann S 44 (Charakterisierungen der linearen Unabhängigkeit). Ein System − a 1 , ..., − linear unabhängig, wenn eine der folgenden gleichwertigen Bedingungen erfüllt ist: (i) (ii) n k=1 n → λk − ak = → λk − ak = k=1 (iii) − → 0 =⇒ für alle i, 1 ≤ i ≤ n, gilt: λi = 0 n k=1 − → ai = → µk − a k =⇒ für alle i, 1 ≤ i ≤ n, gilt: λi = µi → λk − a k für alle i und alle λk , k < i. 1≤k<i Beweis: (ii) ist die Wiederholung der oben gegebenen Definition. (i) folgt aus (ii) als Spezialfall → → µ1 = ... = µn = 0. Dass (iii) aus (i) folgt, sieht man so: Wenn nicht (iii) , also − ai = λk − a k mit 1≤k<i − → → → irgendwelchen Zahlen λk , 1 ≤ k < i, dann − a i+ −λk − a k = 0 , also haben wir eine Linearkombination 1≤k<i der Vektoren, bei der nicht alle Koeffizienten Null sind, die aber den Nullvektor ergibt, was (i) widerspricht. Aber nicht (iii) =⇒ nicht (i) ist gleichwertig zu (i) =⇒ (iii) . (Man beachte, dass für i = 1 − → → die Summe λk − a k leer ist, nach Definition hat sie dann den Wert 0 .) Fehlt noch (iii) =⇒ (ii): 1≤k<i Auch hier zeigen wir stattdessen: Wenn nicht (iii) , dann nicht (ii). Wenn n k=1 → λk − ak = n k=1 → µk − a k , für ein k: λk = µk , dann gibt es einen größten Index mit dieser Eigenschaft, nennen wir ihn k0 . Dann hat man: k0 k0 k 0 −1 → → → → λk − µk − (µk − λk ) − a k und mit λk0 − µk0 = 0: ak = a k , also λk0 − µk0 − a k0 = k=1 k=1 k=1 k 0 −1 µk − λk − − → → a k0 = a k , Widerspruch zu (iii) . λk0 − µk0 k=1 − → (Die Summe ist wieder leer mit Wert 0 im Falle k0 = 1.) Wir kommen nun zur eindeutigen Definition der Dimension über den Basisergänzungssatz. Dazu beweisen wir zunächst den folgenden Hilfssatz, der sehr wichtig ist und eigenständige Bedeutung hat ihn werden wir ebenso wie den Basisergänzungssatz auch später noch oft anwenden. 106 5. LINEARE ALGEBRA → → S 45 (Hilfssatz zum Austausch von Erzeugenden). Es seien − a 1 , ..., − a n ∈ V beliebige Vektoren, n ≥ 2. Dann gilt mit beliebigen Zahlen λ = 0 und µ: → → − → → → → (i) Spann λ− a 1 + µ− a 1, → a 2, − a 2 , ...− a n = Spann − a 2 , ..., − an . → → → → → → → (ii) λ− a + µ− a ,− a , ...− a linear unabhängig ⇐⇒ − a ,− a , ..., − a linear unabhängig. 1 2 2 n 1 2 n Beweis: Zu (i): n n → → → → → → α λ− a 1 + µ− a2 + λk − a k = αλ− a 1 + (αµ + λ2 ) − a2 + λk − a k. k=2 k=3 → → → a 2 , ..., − a n . Also Das ist eine Linearkombination der − a 1, − − → − → − → − → → → Spann λ a 1 + µ a 2 , a 2 , ...− a 1, → a n ⊂ Spann − a 2 , ..., − an . Weiter hat man n k=1 Daher n λ1 − µλ1 − → → → → λk − ak = λ→ a 1 + µ− a 2 + λ2 − a2 + λk − a k. λ λ k=3 → − → → → → → Spann − a 1, → a 2 , ..., − a n ⊂ Spann λ− a 1 + µ− a 2, − a 2 , ...− an . → → → → → → a 2, − a 2 , ...− a n ein linear unabhängiges System. Dann ist insbesondere − a 2 , ...− an Zu (ii): Es sei λ− a 1 +µ− n − − → − → − → − → → linear unabhängig. Wäre a 1 , a 2 , ... a n linear abhängig, so müsste daher a 1 = λk a k gelten, mit k=2 geeigneten Koeffizienten. Aber dann: n n → → → → → → λ− a 1 + µ− a2 =λ λk − a k + µ− a 2 = (λλ2 + µ) − a2+ λλk − a k. k=2 k=3 → → → → Also wäre das System λ− a 1 + µ− a 2, − a 2 , ...− a n linear abhängig. Damit ist die Richtung ’ =⇒ ’ bewiesen. − → − → − → → → Umgekehrt: Sei a 1 , a 2 , ..., a n linear unabhängig. Dann ist es wieder insbesondere − a 2 , ..., − a n . Lineare n − → − → − → − → − → − → − → Abhängigkeit von λ a 1 + µ a 2 , a 2 , ... a n würde also bedeuten: λ a 1 + µ a 2 = λk a k mit geeigneten k=2 λk . Aber dann n − λk − µ − − → → a1 = a2+ λk → a k, λ k=3 → → → was der linearen Unabhängigkeit von − a 1, − a 2 , ..., − a n widerspricht. → → Bemerkung: Selbstverständlich geht das Ganze ebenso durch mit λ− a k0 + µ− a k1 für andere Paare k0 , k1 . (k0 , k1 statt 1, 2 oben.) Es sollte nur die Notation von den Doppelindizes entlastet werden. Wir kommen zur Existenz von Basen, zur Basisergänzung und zur Eindeutigkeit der Länge einer jeden Basis von V. → → S 46 (Basisergänzungssatz, und Existenz von Basen). Es mögen − a 1 , ...− a n ein beliebiges Erzeu− → − → gendensystem für V bilden. Jedes linear unabhängige System b 1 , ... b r von Vektoren aus V kann dann zu einer Basis für V ergänzt werden durch eventuelle Hinzunahme von Vektoren ausschließlich aus dem → → vorgegebenen Erzeugendensystem − a 1 , ...− a n . Insbesondere besitzt jeder endlichdimensionale Vektorraum eine Basis. − → − → → → Beweis: Wir bilden das System b , ... b , − a , ...− a . Es ist wieder einErzeugendensystem für V. 1 r 1 n Aus dieser Reihe streichen wir jeden Vektor, der von den Vorgängern erzeugt wird. (Insbesondere wird jeder Nullvektor gestrichen, da er von der leeren Menge bereits erzeugt wird.) Es entsteht eine Reihe von Vektoren, in der keiner von den Vorgängern erzeugt wird. Eventuell ist diese Reihe leer - das ist − → → aber nur dann der Fall, wenn alle Vektoren − a i = 0 waren. Dann ist der Raum der Nullraum, eine Basis leer, sie hat Länge Null. Oder aber es bleibt eine nichtleere Folge von Vektoren, die nach Version (iii) linear unabhängig ist. Außerdem bildet sie nach wie vor ein Erzeugendensystem, weil nur Vektoren herausgestrichen wurden, die bereits als Linearkombination der vorigen, also verbliebenen, darstellbar waren. Somit ist sie eine Basis. Wir hätten auch mit leerer linear unabhängiger Folge beginnen können, → → dann entsteht eine Basis durch Auswahl aus den Vektoren − a 1 , ...− a n allein. 2. LINEARE ABBILDUNGEN 107 − → − → → → → S 47. Wenn − a 1, − a 2 , ..., − a m und b 1 , ..., b n Basen für V sind, so gilt m = n. Diese eindeutig bestimmte Länge einer jeden Basis für V heißt Dimension von V. → → Beweis: Wir können n ≥ m ≥ 1 voraussetzen. Wir betrachten das (eventuell leere) System − a 2 , ..., − a m. − → − → − → Es ist linear unabhängig und wegen der linearen Unabhängigkeit der a 1 , a 2 , ..., a m noch keine Basis. − → − → Andererseits ist b 1 , ..., b n ein Erzeugendensystem für V. Also können wir nach dem Basisergänzungssatz − → − → → → → → mit einem b i0 eine neue Basis b i0 , − a 2 , ..., − a m bilden. Wenn m = 1, sind wir fertig, die Reihe − a 2 , ..., − am war dann leer, alle Vektoren der ersten Basis sind durch solche der zweiten ersetzt. Wenn m > 1, setzen wir − → → → a 3 , ..., − a m . Das kann mit demselben das Verfahren fort und bilden das linear unabhängige System b i0 , − − → Argument durch ein b i1 , i1 = i0 , zu einer Basis ergänzt werden. Dies setzen wir so lange fort, bis die − → − → → → Vektoren − a 1 , ..., − a m durch Vektoren b i0 , ..., b im sämtlich ersetzt sind. Da diese Vektoren eine Basis − → − → bilden, kann nicht n > m gelten, da sonst b 1 , ..., b n linear abhängig wäre. Somit n = m. 2. Lineare Abbildungen − → D 34. Es seien V, W Vektorräume über K. Eine Abbildung f : V → W heißt linear, wenn − → − − → → − → → → → → f → x +− y = f − x + f − y für alle − x,− y ∈ V und − → − − → − → → − → (ii) f λx = λ f x für alle x ∈ V, λ ∈ K. (i) − → − → − − → − → − → → Bemerkung: Eine lineare Abbildung f hat stets die Eigenschaft f 0 = 0 . Denn f 0 = − → − − → − → → − → f 0· 0 = 0 f 0 =0. Beispiele: 1) Sei m ∈ R, dann ist fm : R → R, fm (x) = mx, eine lineare Abbildung, und jede lineare Abbildung R → R hat diese Gestalt. Achtung: Man nennt auch zuweilen Funktionen g (x) = mx + b linear, aber mit b = 0 sind sie nicht lineare Abbildungen im Sinne der linearen Algebra, genauer nennt man sie affin. Denn wir haben g (0) = b = 0. 2) Die Drehung um den Ursprung im R2 entgegen dem Uhrzeigersinn mit Winkel α ist eine lineare Abbildung, da offenbar Drehung und Streckung mit λ vertauschen und ein Dreieck mit Kantenvektoren − → → − → − → a , b,− a + b starr als ganze Figur gedreht wird, so dass die Drehung auch mit der Vektoraddition − → vertauscht. Dagegen ist eine Drehung um einen Punkt P, 5xP = 0 , mit einem Winkel α, der kein Vielfaches von 2π ist, offenbar nicht linear, weil diese Drehung den Ursprung nicht in sich überführt. Allerdings ist eine solche Drehung affin. Denn bezeichnen wirsie mit D Drehung um den und die entsprechende → → → Ursprung mit D0 , so haben wir D− x = 5xP + D0 − x − 5xP = 5xP − D0 5xP + D0 − x , mit der linearen Abbildung D0 . Analoge weitere Beispiele sind Drehungen um eine Koordinatenachse im R3 oder auch die Spiegelung an einer Koordinatenebene. (Spiegelungen an anderen Ebenen sind wiederum affin.) 3) Die Projektion im R3 auf die xy− Ebene parallel zur z− Achse ist linear, die Projektion auf eine Ebene parallel zur xy− Ebene, welche den Usprung nicht erhält, ist wiederum eine affine Abbildung. 4) In der Elektrotechnik betrachtet man lineare Vierpole, die mit Schaltungen von Widerständen aus einer Eingabespannung U2 und einem Eingabestrom I2 eine Ausgangsspannung U1 und einen Ausgangs− → strom I1 in linearer Weise machen, so dass die Abbildung f (U2 , I2 ) = (U1 , I1 ) eine lineare Abbildung R2 → R2 ist. Ein konkretes Beispiel dazu: Wir betrachten folgenden Vierpol (die vier Pole sieht man durch kleine Kringel verdeutlicht) - nach dem Bild würde man eher dazu neigen, das Paar (U1 , I1 ) als Eingabe und das andere als Ausgabe zu betrachten, aber wir werden sehen, dass man mit linearer Algebra ganz leicht von der einen zur anderen Version wechseln kann (Stichwort: ’Inverse Matrix’) und dass die Beziehungen indessen für die angegebene Richtung einfacher wird, weshalb man sie eben auch in der 108 5. LINEARE ALGEBRA Elektrotechnik bevorzugt. I I2 1 o o R U1 o U 2 o (Man beachte die vorgegebenen Zählrichtungen.) Die Kirchhoffgleichungen hierzu liefern sofort: (I1 − I2 ) R = U1 = U2 , also können U1, I1 wie folgt durch U2 , I2 ausgedrückt werden: U1 = U2 1 I1 = U2 + I2 R Man beachte: Diese Gleichungen sind linear, U1 , I1 sind durch lineare Funktionen im engeren Sinne (also ohne additive Konstante, nicht affin) ausgedrückt. Diese Rechnung werden wir sogleich implementieren als ’Matrix mal Vektor’, was wir schon einmal in diesem Beispiel vorführen: − → U1 1 0 U2 U2 = = f . 1 I1 I2 I2 1 R 1 0 Man sieht: Die Matrix besteht einfach aus den abzulesenden Koeffizienten des linearen Glei1 1 R chungssystems mit seinen zwei Zeilen und zwei Spalten. Entsprechend handeltes sich um eine Matrix U2 mit zwei Zeilen und zwei Spalten ((2 × 2) − Matrix) ; sie wird mit dem Vektor derart multipliI2 ziert, dass dieser Vektor quer auf die beiden Zeilen der Matrix gelegt wird, aufeinanderliegende Zahlen multipliziert werden und in einer Zeile addiert. So ergibt das für die erste Zeile: 1 · U2 + 0 · I2 = U1 , das ist die erste Komponente des Resultats (links). Für die zweite Zeile ergibt das: R1 · U2 + 1 · I2 , was nach der Kirchhoffgleichung I1 ergibt. Es ist also die Operation ’Matrix mal Vektor’ gerade so gestaltet, dass die eine Seite eines ordentlich geschriebenen linearen Gleichungssystems herauskommt. Wir werden diese Operation später viel allgemeiner besprechen und systematisch mit linearen Abbildungen koppeln. Wir − → wollen in diesem Beispiel noch einmal konkret verifizieren, dass die eingeführte Abbildung f wirklich linear ist: − → U2 U2 + U3 U f + 3 = 1 I2 I3 (U2 + U3 ) + I2 + I3 R U2 U3 = + 1 1 U3 + I3 R U2 + I2 R − → U2 − → U3 = f + f , I2 I3 − → − → U2 λU2 U2 U f λ 2 = = λ = λ f . 1 1 I2 I2 R λU2 + λI2 R U2 + I2 2. LINEARE ABBILDUNGEN 109 Man kann erkennen, wenn man stattdessen umgekehrt (U2 , I2 ) durch (U1 , I1 ) ausdrückt, dass die Koeffizienten häßliche Vorzeichen bekommen, weshalb man die angegebene Richtung als Grundlage bevorzugt. Fazit: Die linearen Abbildungen sind im Eindimensionalen etwas sehr Triviales, im Mehrdimensionalen aber bieten sie schon recht Reichhaltiges, Anwendbares. Daher ist es günstig, eine Reihe völlig allgemeingültiger Resultate über lineare Abbildungen zu haben. Wie wir sehen werden, ist die Struktur linearer Abbildungen (jedenfalls im Endlichdimensionalen) noch recht einfach zu handhaben. Wir kommen nunmehr zu den wesentlichen Aussagen über lineare Abbildungen. Dazu ein paar Definitionen und Notationen: − → D 35. Es sei f : V → W eine lineare Abbildung des Vektorraums V in den Vektorraum W. Dann ist definiert: − − → → → − → → Kern f := − x ∈V f − x = 0 . − − → → → → → Für − x 0 ∈ V bezeichnen wir mit − x 0 +Kern f folgende Menge (Kern f mit − x 0 parallelverschoben): − → → → − → → x 0 + Kern f := − x0 +− u− u ∈V . Ferner wie bei Abbildungen sonst auch: − − →−1 − → → → − → → { b } := − x ∈ V f − x = b . f − − − → → → − → − → − → x → x ∈V . Speziell ist also Kern f = f −1 { 0 } . Ebenso Bild f := f − gilt: − → S 48. Es sei f : V → W eine lineare Abbildung des Vektorraums V in den Vektorraum W. Dann − → f ist ein Unterraum von W − → (ii) Kern f ist ein Unterraum von V. − − → → − → = { 0 }. (iii) f ist injektiv ⇐⇒ Kern f − → − → − → → (iv) Wenn b ∈ W und − x 0 ∈ f −1 { b } , dann − → − →−1 − → → f {b} = − x 0 + Kern f . (i) Bild Beweis: − − − → − → − → → − → → − → → → (i) : 0 ∈ Bild f , da f 0 = 0 . Also ist Bild f nicht leer. Ferner mit − y 1, − y 2 ∈ Bild f , − → → − − → → − → → x ∈ V, so dass f − x =→ x =→ also existierenden − x ,− y , f − y : 1 2 1 1 2 2 − − → − → → − → → − → → f → x1 +− x2 = f − y 2, x1 + f − x2 = → y1 +− − − − → → → − → → → → → → daher − y 1 +− y 2 ∈ Bild f . Ferner mit einer Zahl λ : f λ− x1 = λ f − x 1 = λ− y 1 ∈ Bild f . Somit − − → → − → ist Bild f unter den linearen Operationen abgeschlossen und mit 0 ∈ Bild f daher ein Unterraum von W. − − → → − → → → (ii) 0 ∈ Kern f , ferner mit − x 1, − x 2 ∈ Kern f : − − → − − → → − → → − → → − → − → → → → f → x1 +− x2 = f − x1 + f − x 2 = 0 + 0 = 0 , somit − x1 +− x 2 ∈ Kern f . − − → − − → → → − → − → → f λ→ x1 = λ f − x 1 = λ 0 = 0 , also λ− x 1 ∈ Kern f für jede Zahl λ. − → − → → − → → (iii) ’ =⇒ ’: Wenn Kern f noch mindestens ein Element − x = 0 enthält, so hat man f − x = − → − − → − → → − → → → f 0 = 0 , und f ist nicht injektiv. ’ ⇐= ’: Wenn f nicht injektiv ist, so gibt es ∈ V mit − x 1 = − x2 − → − − → − − → − − → − − → − − → → → → − → → → − → − → und f x 1 = f x 2 . Also f x 1 − x 2 = f x 1 − f x 2 = 0 , es wäre also x 1 − x 2 ein Element des Kerns, das nicht Null ist. 110 5. LINEARE ALGEBRA − − − → → − → → − → → − → → − → → u ∈ Kern f , also f − u =0: (iv) Sei b ∈ Bild f , f − x 0 = b . Dann hat man mit − − − → − → − → − → − → − → − → − → → − → → → → f → x0 +− u = b + 0 = b . Somit auch − x 0 +− u ∈ f −1 { b } . Das zeigt: − x 0 +Kern f ⊂ f −1 { b } . − → − → → Sei umgekehrt − x 1 ∈ f −1 { b } . Dann − − → − → → − → → − → − → − → → f → x1 −− x1 − f − x0 = b − b = 0. x0 = f − − → − → − → → → → → → → → → Also mit − u = − x1 − − x0 + x0 : − u ∈ Kern f , und − x1 = − x0 + − u . Das zeigt f −1 { b } ⊂ − − → Kern f . Zum konkreteren Verständnis des Satzes: (i) und (ii) besagen zunächst, dass Kern und Bild einer linearen Abbildung zwischen Vektorräumen nicht irgenwelche ’wirren’ Mengen sind, sondern Unterräume, die sich, wie wir wissen, darstellen lassen als Mengen aller Linearkombinationen von einigen Basisvektoren. Es können im Extremfall auch die trivialen Unterräume (Nullräume) sein, mit leerer Basis. Wir werden später sehen, dass die Lösungsmenge eines linearen homogenen Gleichungssystems stets der Kern einer linearen Abbildung ist. Somit haben wir dann stets entweder die einzige Lösung ’Nullvektor’ oder aber die r → → allgemeine Lösung (oder parametrisierte Lösungsmenge) in der Form − x (α , ..., α ) = λ − a mit einer 1 r j j j=1 − → → → Basis − a 1 , ..., − a r des Kerns. (Vgl. auch den nächsten Satz dazu, der die Dimensionen von V, Kern f − → und Bild f miteinander verbindet.) − → − → → S 49. Eine lineare Abbildung f : V → W ist bereits durch die Bilder f − a j einer Basis − → a n von V eindeutig bestimmt. a= → a 1 , ..., − n → → Denn sei − x = λj − a j ein beliebiger Vektor aus V. Dann gilt j=1 n n − → − − → − → → → f → x = f λj − λj f − aj . a j = j=1 j=1 − → − → Es genügt also die Kenntnis der f − Bilder einer Basis von V , um f zu kennen. Anwendungsbeispiele: − → 1) Sei f die Drehung im R2 um den Ursprung mit Winkel α entgegen dem Uhrzeigersinn. Dann haben wir für die kartesischen Einheitsvektoren: − → → − → − cos (α) − sin (α) , f − e2 = , also f → e1 = sin (α) cos (α) − → x − → → − → → − → → cos (α) − sin (α) → f = f x− e 1 + y− e2 =xf − e1 +y f − e2 =x +y y sin (α) cos (α) x cos (α) − y sin (α) = . x sin (α) + y cos (α) Die Fortsetzung läuft also über die Linearkombinationen automatisch, und diesen Automatismus werden wir im nächsten Abschnitt allgemein durch die Operation ’Matrix mal Vektor’ realisieren. 2) Wir wenden denselben Mechanismus noch einmal an auf den Fall des linearen Vierpols (Beispiel U2 4 des letzten Beispielblocks) und finden damit die zugehörige Matrix noch einmal: Eingabe = I 2 1 1 U2 0 liefert Ausgabe U1 = 1 und I1 = R1 , also den Vektor . Eingabe = liefert 1 0 I 1 2 R 0 Ausgabe U1 = 0 und I1 = 1, also den Vektor . Lineares Fortsetzen ergibt nunmehr: 1 − → U2 − → 1 − → 0 1 U2 0 f = U2 f + I2 f = U2 + I = . 2 1 1 I2 0 1 1 R R U2 + I2 2. LINEARE ABBILDUNGEN 111 U1 . In der Elektrotechnik nutzt man das gern I1 für kompliziertere lineare Schaltungen aus, indem man die Kirchhoffgleichungen nichtfür den allgemeinen 1 0 Fall aufstellt, sondern nur die wesentlich einfacheren für die Fälle und . 0 1 Aber es ist mit linearer Algebra noch viel größere Vereinfachung möglich, wie wir mit konkreten Beispielen auch für Vierpole zeigen werden und in der Elektrotechnik gern benutzt wird, Stichwort: Matrizenoperationen, insbesondere Produkte von Matrizen. − → → → S 50. Für jede lineare Abbildung f : V → W und jede Basis − a 1 , ..., − a n von V gilt: − → − → − − → → (i) Bild f = Spann f → a 1 , ... f − an . − → − → − − → → (ii) f surjektiv ⇐⇒ f → a 1 , ... f − a n bildet ein Erzeugendensystem für W − − → − → − → − → → (iii) f injektiv ⇐⇒ f a 1 , ... f a n linear unabhängig − − → − → − → → (iv) f bijektiv ⇐⇒ f → a , ... f − a bildet eine Basis für W. Das ist genau die oben angegebene Berechnung von 1 n Ferner gilt folgende Dimensionsformel (auch: ’Dimensionssatz’): − − → → (v) dim Kern f + dim Bild f = dim (V ) . − → 5 Man nennt dim Bild f auch den Rang von f. Beweis: → − → → → → → → (i) und (ii) Mit − x ∈ V hat und einer Basis − a 1 , ..., − a n von V hat man − x = λj − a j , also f − x = j − →→ − → a j ), also bilden die Bilder der Basisvektoren ein Erzeugendensystem für Bild f . Surjektivität λj f (− j − → bedeutet Bild f = W, also folgt (ii) . − − − → − → − →− − → − − → → → → → (iii) Wenn f a 1 , ... f a n linear abhängig sind, so haben wir λj f ( a j ) = f λj a j = 0 , j j → → − → − → → − − → → a j = 0 im Kern, also f nicht injektiv. Wenn dagegen f − nicht alle λj = 0. Somit wäre λj − a 1 ,... ,f − an j − − → → − → → linear unabhängig sind, so folgt für beliebigen Vektor − x = λj → a j aus V : Wenn f − x = 0 , dann j − → − →→ − → → f λj − a j = λj f (− a j ) = 0 , also mit der vorausgesetzten linearen Unabhängigkeit: Alle λj Null, j j − − → − → → somit − x = λj → a j = 0 . D.h. der Kern von f besteht nur aus dem Nullvektor. j (iv) folgt sofort aus (ii) und (iii) . − → → → (v) Der Kern von f hat als Unterraum von V eine Basis, sagen wir − a 1 , ..., − a r . (Wenn der Kern − → nur { 0 } ist, so ist diese Folge leer, r = 0.) Nach Basisergänzungssatz können wir diese Basis mittels − → − → − → − → Vektoren b 1 , ..., b s zu einer Basis von V ergänzen. Also r + s = dim (V ) . Die Folge b 1 , ... b s könnte − → im Extremfall, d.h. Kern f = V , auch leer sein, dann ist s = 0.Wenn s = 0, so r = dim (V ) , also gilt − → − → die Aussage (v) für diesen Fall. Wenn s > 0, so behaupten wir: Der Unterraum Spann b 1 , ..., b s wird − → injektiv durch f in W abgebildet. Denn wenn s s − → − → − → − → → − → → f λj b j = 0 , so ist λj b j ∈ Kern f = Spann − a 1 , ..., − a r , also j=1 j=1 = 0 für alle j, − → → weil sonst einer der Vektoren b j linear abhängig von den übrigen zusammen mit den Vektoren − a i wäre, − → − → − → − → was der Voraussetzung widerspricht, dass a 1 , ..., a r , b 1 , ... b s linear unabhängiges System ist. Also folgt λj 112 5. LINEARE ALGEBRA − − → − → − → − → → mit (ii) , dass f b 1 , ..., f b s linear unabhängig ist. Mit (i) folgt, dass Bild f aufgespannt wird − → → − → − → − → − → − → von den Vektoren f − a 1 , ..., f (ar ) , f b 1 , ..., f b s . Aber die ersten r davon spannen nur den − → Nullraum auf, somit haben wir dim Bild f = s. Mit r + s = dim (V ) also die Aussage des Satzes. Aus (iv) ergibt sich die F 5. Es gibt einen Isomorphismus zwischen Vektorräumen V und W (über demselben Körper) genau dann, wenn dim (V ) = dim (W ) . Denn nach (iv) vom vorigen Satz muss bei einer bijektiven linearen Abbildung von V nach W eine Basis von V in eine Basis von W überführt werden, so dass die Dimensionen gleich sind. Umgekehrt kann man bei gleicher Dimension Basen auswählen für V und W, die dann gleiche Länge haben, eine Basis von V auf eine von W schicken und dann linear fortsetzen zu einem Isomorphismus. 3. Matrixdarstellung einer linearen Abbildung Grundlegend ist der Satz über eindeutige Fortsetzung einer linearen Abbildung von den Bildern einer Basis. Nunmehr arbeiten wir statt mit den Linearkombinationen von Basisvektoren (im Definitionsbereich einerseite, im Wertebereich andererseits) mit den Koordinatendarstellungen dieser Vektoren bezüglich der ausgewählten Basen, und so können wir jeder linearen Abbildung V → W zwischen endlichdimensionalen Vektorräumen eindeutig eine Matrix zuordnen. Im folgenden Definitionen und Satz wird das einmal für den konkreten Fall V = Rn , W = Rm mit den kanonischen Basen der Einheitsvektoren und dann für den allgemeinen Fall realisiert. D 36. Eine (reelle) (m × n) − Matrix ist eine Doppelfolge (aij )1≤i≤m,1≤j≤n von reellen Zahlen. Die Menge aller dieser Matrizen nennt man Rm×n . Eine solche Matrix schreibt man konkret als rechteckiges Zahlenschema so (alle m · n Komponenten sind sorgfältig zu trennen!): a11 a12 · · · a1n a21 a22 · · · a2n A = (aij )ij = .. .. . . .. . . . . . am1 am2 ··· amn Matrizen bezeichnet man kurz mit großen lateinischen Buchstaben. m ist die Zeilenzahl, n die Spaltenzahl bei den Bezeichnungen ’(m × n) − Matrix’ und ’Rm×n ’,und es ist stets aij der Eintrag in der i. Zeile und j. Spalte. D 37 (die Operation ’Matrix mal Vektor’). Wir definieren für eine (m × n) − Matrix → A = (aij )ij und einen Spaltenvektor − x = (xj )j mit n Komponenten: m n n − → (aij )1≤i≤m,1≤j≤n (xj )1≤j≤n := ei aij xj = aij xj , ausführlicher: i=1 a11 a21 .. . a12 a22 .. . ··· ··· .. . a1n a2n .. . am1 am2 ··· amn j=1 j=1 x1 .. . xn : 1≤i≤m n a x j=1 1j j n a2j xj = j=1 .. n . amj xj j=1 . → Zum Verständnis der Operation: Sie ist nur dann definiert, wenn die Komponentenzahl von − x gleich der Spaltenzahl von A ist. Sie wird anschaulich so ausgeführt: Die i. Komponente des Resultatvektors → entsteht, indem man den Vektor − x auf die i. Zeile der Matrix klappt, die aufeinanderliegenden Zahlen multipliziert und diese Produkte dann addiert. Eine sehr wichtige kleine Beobachtung: Wendet man eine Matrix A auf den j. Einheitsvektor an, so kommt die j. Spalte von A heraus. 3. M ATRIXDARSTELLUNG EINER LINEAREN ABBILDUNG 113 Für das Folgende benötigen wir den Begriff ’Koordinatendarstellung eines Vektors aus V bezüglich → → der Basis a = − a 1 , ...− a n von V ’ - wir setzen n ≥ 1 voraus: → → D 38. Sei V ein Vektorraum und a = − a n , n ≥ 1, eine Basis für V. Dann ist die a 1 , ...− n → → Koordiatendarstellung von − x = a bezüglich der Basis a einfach der Spaltenvektor der Koeffizienλ − j j j=1 ten λj , 1 ≤ j ≤ n. Das ist also dasselbe wie − → → L−1 x =: Koordinatendarstellung von − x bezüglich a, a mit der Inversen der im Falle einer Basis a bijektiven Linearkombinationsabbildung. λ1 n → → → λj − a j , und a = − a 1 , ...− a n ist eine Erinnerung: La wurde oben eingeführt durch La ... := j=1 λn Basis für V definitionsgemäß genau dann, wenn diese Abbildung umkehrbar ist. Bemerkung: La ist im Falle einer Basis a ein Isomorphismus von Rn auf V. Umgekehrt ist dann −1 La ein Isomorphismus von V auf Rn . Diese Abbildungen ermöglichen daher ein problemloses Wechseln zwischen den Vektoren (sie seien geometrische Pfeile oder auch Funktionen eines Funktionenraums) und Zahlentupeln, Koordinatendarstellungen. Was wir jetzt in Angriff nehmen, ist so etwas wie eine Koordinatendarstellung einer linearen Abbildung durch eine Matrix. → → → Wichtige kleine Beobachtung: Die Koordinatendarstellung von − a j bezüglich der Basis − a 1 , ...− an → → → → ist einfach − e j , der j. Einheitsvektor der kanonischen Basis des Rn . Denn − aj = 1·− aj + 0− a k , und k=j diese Darstellung ist wegen der Basiseigenschaft eindeutig. − → (n) (n) → → D 39. Sei f : Rn → Rm eine lineare Abbildung. Sei e(n) = − e 1 , ...− en die Basis der (m) (m) → → Einheitsvektoren für Rn , e(m) = − e , ..., − e die Basis der Einheitsvektoren für Rm (die oberen 1 m → Indizes geben die Zahl der Komponenten an, bei − e j ist die j. Komponente 1, alle anderen sind Null alle Vektoren sind Spaltenvektoren). Dann definieren wir − (n) → Mee(m) f : = (aij )1≤i≤m,1≤j≤n ∈ Rm×n , mit den Zahlen aij , so dass m − → − (n) (m) − → e i aij . f → ej = i=1 − → − → Die Matrix Mee(m) f heißt ’Matrix von f bezüglich der Basen e(n) für Rn und e(m) für Rm ’ oder kurz ’bezüglich der kanonischen Basen’. → − → → Nunder allgemeine Fall: Sei f : V → W eine lineare Abbildung, a = − a 1 , ...− a n eine Basis für V und − → − → b = b 1 , ..., b m eine Basis für W. Dann ist − → Mba f : = (aij )1≤i≤m,1≤j≤n ∈ Rm×n , mit den Zahlen aij , so dass (n) m − → − − → f → aj b i aij = i=1 − → definitionsgemäß die Matrix von f bezüglich der Basen a (für V ) und b (für W ). Zum Verständnis der Definitionen: − → − → − → (n) 1) Die Matrix Mee(m) f für f : Rn → Rm erhält man, indem man die f − Bilder der Einheits− → →(n) vektoren des Rn - das sind die (Spalten-) Vektoren f − ej des Rm - der Reihe nach als Spalten der Matrix schreibt. − → − → 2) Die Matrix Mba f für f : V → W erhält man, indem man die Koordinatendarstellungen − → → bezüglich der Basis b der f − Bilder der Basisvektoren − a als Spalten der Matrix schreibt. Also: Man j 114 5. LINEARE ALGEBRA m − − → → → bildet im Einzelnen f − aj = b i aij . Die Koordinatendarstellung dieses Vektors bezüglich der Basis i=1 a1j − → .. b lautet . . Dies wird die j. Spalte von Mba f . amj Für diese Matrizen haben wir genau folgende Aussage, die besagt, dass sie auf der Koordinatenseite − → eine genaue Parallele zur linearen Abbildung f darstellen: − → − → (n) S 51. 1) Die Matrix Mee(m) f für f : Rn → Rm bewirkt Folgendes: Multipliziert man sie mit − → → → x ∈ Rm heraus, es gilt also: einem Vektor − x ∈ Rn , so kommt f − (n) − → − − → → → Mee(m) f x= f − x . − → − → f für f : V → W hat folgende Wirkung: Wendet man sie auf die Koordinaten→ darstellung bezüglich a eines Vektors − x ∈ V an, so kommt die Koordinatendarstellung bezüglich b des − → − Vektors f → x heraus. 2) Die Matrix Mba − → Zum Verständnis der einfachen Aussage 1): Sie besagt auch, dass man jede lineare Abbildung f : − → − → (n) → → x = A− x gilt. Mit A = Mee(m) f Rn → Rm durch eine Matrix realisieren kann, so dass stets f − haben wir diese Matrix (eindeutig) gefunden. Das liegt daran, dass für Vektoren aus Rn oder Rm Vektor und Koordinatendarstellung bezüglich der kanonischen Basis dasselbe sind. Komplizierter liegt die Sache bei anderen Basen oder auch Basen allgemeiner Vektorräume: Dann muss zwischen einem Vektor und seiner Koordinatendarstellung unterschieden werden. Genau dies behandelt der zweite Teil. → Wir begründen 2) ausführlich: Ein Vektor − x ∈ V hat eine eindeutige Koordinatendarstellung bezüglich a, mit n → − → → a j ist die Koordinatendarstellung von − λj − x bezüglich a: x = j=1 λ1 − .. mit der Inversen L−1 → a der oben eingeführten L−1 x = . , Linearkombinationsabbildung. a λn − → → Das f − Bild von − x ist n n m m n − → − − → − − → − → → → f x = λj f a j = λj b i aij = bi aij λj . j=1 j=1 Also ist n a λ j=1 1j j − → − .. = L−1 f → x b n . amj λj j=1 i=1 − → = Mba f i=1 j=1 λ1 .. . λn − → → die Koordinatendarstellung von f − x bezüglich b. Die Aussage des Satzes lässt sich zu folgendem Bild eines ’kommutativen Diagramms’ vervollständigen, das uns vor allem bei Koordinatentransformationen nützlich sein wird - die Bezeichnungen sind wie 4. VERKNÜPFUNGEN VON LINEAREN ABBILDUNGEN UND M ATRIZEN 115 zuvor, a eine Basis für V, b eine Basis für W : L−1 a V ↓ Rn − → f → W ↓ m → R → a − Mb f L−1 b − → Dass dies ein kommutatives Diagramm ist, bedeutet: Spaziert man von V mit f und dann nach Rm mit → −1 n a − L−1 f b , so kommt dasselbe heraus, als spazierte man von V mit La nach R und anschließend mit Mb → m −1 n a − m nach R . Oder auch: Spaziert man von V mit La nach R , dann mit Mb f nach R , schließlich mit Lb − − → → nach W, so kommt dasselbe heraus wie bei Anwendung von f allein. In diesem Sinne realisiert Mba f − → die Abbildung f auf der Koordinatenseite. Man beachte: Die senkrechten Pfeile stellen umkehrbare Abbildungen dar (Koordinatendarstellungsabbildungen und umgekehrt Linearkombinationsabbildungen), die horizontalen Pfeile müssen keineswegs umkehrbar sein. Bemerkung: Im Falle V = W vereinfacht sich das Bild. Dann wählt man selbstverständlich nur eine Basis, also a = b (es wäre auch möglich, für Eingabe und Ausgabe verschiedene Koordinatensysteme zu wählen, aber das erweist sich in keiner Lage als nützlich). Sehr wohl nützlich und wichtig ist es, von einem Koordinatensystem zu einem anderen zu wechseln und dabei namentlich Matrizendarstellungen insbesondere für lineare Abbildungen V → V wesentlich zu vereinfachen (Stichworte: Koordinatensysteme passend zur Geometrie, Diagonalisieren von Matrizen). Dabei möchte man von einer Matrixdarstellung zur anderen übergehen und fragt, wie sich die Matrix dabei transformieren muss. Im nächsten Abschnitt werden wir die wichtigen Matrizenverknüpfungen besprechen und interessante Anwendungen davon, dann folgt die Behandlung des Koordinatentransformationsproblems (für Vektoren und auch für Matrizen). 4. Verknüpfungen von linearen Abbildungen und Matrizen − → → − → → − → Hat man lineare Abbildungen f , − g : V → W, so sind f + − g und λ f wiederum lineare Abbildungen → → V → W. Denn für alle − x,− y ∈ V und alle Zahlen λ gilt: − → − − → − → → − − → → − → → − → → − → − → − → → f + g x+y = f − x +→ y +− g → x +− y = f − x + f − y +→ g − x +→ g − y − → → − − → → − = f +→ g − x + f +− g → y , − − → → → → → − → − − → → − − → → → → x +→ g − x . f +→ g λ− x = f λ− x +→ g λ− x =λf − x + λ− g − x =λ f − − → Ferner ist die Abbildung, die jeden Vektor auf 0 abbildet, unter den linearen Abbildungen V → W. Man prüft (langweilig) nach, dass damit alle Vektorraumaxiome erfüllt sind. Damit haben wir folgenden S 52. Die linearen Abbildungen V → W bilden einen Vektorraum, genannt Hom (V, W ) , mit den üblichen Definitionen der Summe von Abbildungen und der Multiplikation einer Abbildung mit einer Zahl. Die Menge Rm×n aller (m × n) − Matrizen bildet mit den komponentenweisen Operationen Addition und Multiplikation mit einer Zahl ebenfalls einen Vektorraum, und es gilt für Basen a von V und b für W der Zusammenhang: − − → → → → Ma f + − g , g = Ma f + Ma − b b − − → → Mba λ f = λMba f . b − − → → Die Abbildung f −→Mba f stellt also einen Vektorraumisomorphismus dar. Bemerkung zum Zusatz über die Matrizen: Offensichtlich stellt die Matrixsumme die entspre−1 chende Summenabbildung Rn → Rm dar, und die Abbildungen L−1 a und Lb sind linear. Also stellt die Summe der Matrizen die Summenabbildung V → W dar, Entsprechendes gilt für die Multiplikation einer linearen Abbildung mit einer Zahl. 116 5. LINEARE ALGEBRA Es gibt jedoch noch eine weitere und interessantere Verknüpfung von linearen Abbildungen und Matrizen, die Verkettung, zunächst beobachten wir: − → − → → → S 53. Wenn f : V → W linear ist und − g : W → U linear, so ist − g ◦ f : V → U linear. − − − → − − − → − → → − → → − → → − → → − → → → → → Denn − g ◦ f x +− y =− g f − x +→ y =→ g f − x + f − y =→ g f − x +→ g f − y . − → − → → → → − → Analog sieht man, dass − g ◦ f λ− x =λ − g ◦ f x . − → → Wir stellen uns das Problem, wie man aus Matrizen für lineare Abbildungen f , − g die Matrix zu − → − → g ◦ f gewinnt. Die Antwort gibt der Satz nach folgender Definition: D 40. Sei A = (aij )ij eine (m × n) − Matrix und B = (bki )ki eine (r × m) − Matrix, dann ist definiert: (bki )ik (aij )ij = (ckj )kj , mit ckj = bki aij . i Plastisch gesagt: Die Matrix BA entsteht so: j. Spalte von BA = Anwendung von B auf die j. Spalte von A. Man beachte: BA ist nur definiert, wenn Zeilenzahl von A gleich Spaltenzahl von B. Beispiel: 1 2 −5 4 1 3 4 −1 2 −3 = −11 10 −1 . −2 1 2 5 6 −17 16 −3 1 2 −1 , usw. Man sehe noch einmal nach: Die erste Spalte des Resultats ist 3 4 −2 5 6 − → S 54. Sei a eine Basis für V, b eine Basis für W und c eine Basis für U. Seien f : V → W → linear und − g : W → U linear. Dann gilt → a − − → → → Mca − g ◦ f = Mcb − g Mb f , zur Hintereinanderschaltung gehört also das Matrizenprodukt. Insbesondere haben wir für lineare Abbil− → → dungen f : Rn → Rm und − g : Rm → Rr , welche direkt (also bezüglich der kanonischen Basen) durch → − → − → → → → → g − y = B− y für alle − y ∈ Rm : Matrizen gegeben sind, d.h. f → x = A− x für alle − x ∈ Rn und − − → → − → → g f − x = BA− x. − → → → → Beweis: Zunächst sehen wir die zweite Aussage ein: − g f − e j = B A− e j = Anwendung von B auf die j. Spalte von A. Aber das istnach Definition gerade die j. Spalte der Matrix C = BA. Somit − → − − → − → → − → → gilt für alle Basisvektoren e j ,dass g f e j = (BA) e j , daraus folgt aber, dass dies für alle − x − → aus Rn gilt, mit linearer Fortsetzung. Die erste Aussage folgt nunmehr sofort: Mba f macht aus der − → → → Koordinatendarstellung von − x aus V bezüglich a die Koordinatendarstellung von f − x ∈ W bzgl. → − → − − → → b − b, Mc g macht aus dieser die Koordinatendarstellung von g f x ∈ U bezüglich c. Die Matrix − → → Mb − g M a f besorgt diese zwei Schritte in einem nach der eben angestellten Beobachtung. c b 4. VERKNÜPFUNGEN VON LINEAREN ABBILDUNGEN UND M ATRIZEN 117 Wir werden das Matrizenprodukt auch im nächsten Abschnitt und weiterhin kräftig benutzen, doch zunächst sei eine elektrotechnische Anwendung angeführt: Wir betrachten dazu den Vierpol I U1 1 R I2 3 U R R 1 2 2 (Man beachte die vorgegebenen Zählrichtungen.) und fassen ihn als Verkettung von drei besonders einfachen Vierpolen auf: Der erste hat nur R2 (oben und unten über R2 verbunden), der zweite nur R3 (nur oben Eingang und Ausgang über R3 verbunden), der letzte nur R1 (analog zum ersten). Das ergibt drei sehr einfach zu bestimmende Kettenmatrizen (von denen zusätzlich erste und dritte völlig analog gebaut sind), und die wesentlich kompliziertere Kettenmatrix der obenstehenden Schaltung erhält man einfach als Matrizenprodukt: R2 +R3 R3 1 0 1 0 1 R3 R 2 = . 1 1 R1 +R2 +R3 R1 +R3 1 1 0 1 R1 R2 R R R 1 2 1 Das kann man nun analog für noch viel längere Schaltungen fortsetzen. Eine letzte Verknüpfung fehlt noch: Inversenbildung für umkehrbare lineare Abbildungen und um − − → →−1 kehrbare Matrizen. Selbstverständlich entspricht der linearen Abbildung f −1 wieder Maa f bei − → umkehrbarer linearer Abbildung f : V → V und Auszeichnung einer Basis a für V. (In diesem Falle wird man nur eine Basis für Input sowie Output verwenden.) Wir werden noch Ausführliches zur Berechnung inverser Matrizen sagen, aber an dieser Stelle erst einmal eine einfache Beobachtung zur Inversion von (2 × 2) − Matrizen anführen: a b S 55. Die inverse Matrix zu existiert genau dann, wenn ad − bc = 0, und man hat c d dann: −1 1 a b d −b = . c d −c a ad − bc a b Bemerkung: Die Zahl ad − bc ist die Determinante der Matrix . c d Beweis: Man rechne einfach aus: 1 d −b a b 1 0 = . a c d 0 1 ad − bc −c Beispiel: Wir invertieren damit die oben gefundene Kettenmatrix: −1 R2 +R3 R1 +R3 R −R 3 3 R2 R1 = . R1 +R2 +R3 R1 +R3 R2 +R3 2 +R3 − R1 +R R1 R2 R1 R1 R2 R2 118 5. LINEARE ALGEBRA Man beachte: Der Wert der Determinante ist hier 1, so dass man einfach nur die Diagonalelemente vertauschen und die anderen beiden mit negativem Vorzeichen versehen muss. − → → − → → Wenn f , − g bijektive lineare Abbildungen V → V sind, so ist es auch − g ◦ f . Oder auch für Matrizen: Sind A, B invertierbar, dann auch BA. Wie kann man aus A−1 , B −1 die Inverse (BA)−1 ausrechnen? − → → → Denkt man daran, dass − g ◦ f rückgängig gemacht wird, indem man zuerst − g rückgängig macht, dann −1 − → − → − → − → → −1 − −1 f , also bildet: g ◦ f = f ◦ g , so ist auch folgende Formel der Matrizenrechnung klar: −1 (BA) = A−1 B −1 . S 56. Die invertierbaren (n × n) − Matrizen bilden mit der Multiplikation eine Gruppe. Neutrales Element darin ist die Einheitsmatrix. Diese Gruppe ist in allen Fällen n > 1 nicht kommutativ. Eine letzte nützliche Verknüpfung fehlt noch: D 41. Die Transponierte AT zur Matrix A = (aij )ij ist definiert durch: AT := (aji )ij . Man erhält sie daher, indem man die Zeilen von A als Spalten von AT schreibt. Beispiel: T T 1 1 4 1 2 3 2 = 1 2 3 , = 2 5 . 4 5 6 3 3 6 → − → → T− Beispielsweise ist also das Matrizenprodukt a b mit einem Spaltenvektor − a und einem Spaltenvektor − → − → − → b dasselbe wie das Skalarprodukt a · b . Man hat: B 1. (AB)T = (BA)T , (A + B)T = AT + B T , (λA)T = λAT . Zu beachten ist das Umdrehen beim Produkt der Matrizen. 4.1. Zusammenstellung der wichtigsten Formeln für die Matrixoperationen (Matrixkalkül). (i) Für die Addition von (m × n) − Matrizen und die Multiplikation dieser Matrizen mit Zahlen hat man genau die Vektorraumaxiome erfüllt : (A + B) + C = A + (B + C) − → 0 + A = A ( (n × n) − Nullmatrix) − → −A + A = 0 A+B = B+A λ (µA) = λ (µA) (λ + µ) A = λA + µA λ (A + B) = λA + λB 1·A = A (ii) Für die Multiplikation und Inversenbildung bei invertierbaren (n × n) − Matrizen hat man die Gruppenaxiome erfüllt (einer nicht kommutativen Gruppe, Kommutativität liegt nur im Falle n = 1 vor.) (AB) C = A (BC) EA = A ( (n × n) − Einheitsmatrix) A−1 A = E (BA)−1 = A−1 B −1 5. TRANSFORM ATION VON M ATRIZEN (BASISWECHSEL) 119 Bemerkungen: die vierte Gleichung folgt aus den ersten drei Gruppenaxiomen. Die ersten beiden Gleichungen gelten allgemeiner, sofern nur A(BC) und (AB) C gebildet werden können. Dasselbe gilt für die zweite Gleichung. (iii) Für die Multiplikation von (n × n) − Matrizen in Verbindung mit der Addition hat man die Axiome eines Rings mit 1-Element erfüllt, zum Vorigen kommt hinzu : A (B + C) = AB + AC (Distributivgesetz). Bemerkung: Diese Formel gilt allgemeiner, wenn nur B, C dieselbe Dimensionierung haben und AB bildbar ist (damit auch automatisch AC und A (B + C)). Ferner hat man noch für die Transposition: Für alle (m × n) − Matrizen A, B T (A + B) (λA)T (AB)T Für invertierbare (n × n) − Matrizen A, B −1 T A Alle diese Formeln sind völlig elementar nachzuweisen. : = AT + B T = λAT = B T AT : −1 = AT 4.2. Typische nützliche einfache Anwendungen des Matrixkalküls. 1.) Man löst eine Glei− → − → → → chung A− x = b im Falle einer invertierbaren Matrix A einfach durch − x =A−1 b , indem man von links − → → → → → A−1 anmultipliziert. Denn A−1 A− x = A1 A − x = E− x =− x , und rechts steht dann A−1 b . 2.) Man löst eine Matrixgleichung AX = B (A, B vorgegeben und X gesucht)mit invertierbarer Matrix A durch linkes Anmultiplizieren von A−1 mit X = A−1 B, analog löst man XA = B durch rechtes Anmultiplizieren von A−1 zu X = BA−1 . 3.) Eine Gleichung wie A = T −1 BT mit invertierbarer Matrix T löst man ohne weiteres nach B auf, indem man links T und rechts T −1 anmultipliziert, zu B = T AT −1 . Matrizen A und B, welche auf diese Weise zusammenhängen, nennt man ähnlich. So entstehen die verschiedenen Matrixdarstellungen einer linearen Abbildung V → V auseinander. Dabei ändern sich zwar die Matrizen stark, aber wesentliche Eigenschaften bleiben erhalten, wie wir noch sehen werden (Rang, Determinante z.B.). 5. Transformation von Matrizen (Basiswechsel) − → Wir haben zu jeder linearen Abbildung f : V → W und Basen a für V, b für W eindeutig die − → Matrixdarstellung Mba f . Dabei ergeben sich für verschiedene Basen völlig verschiedene Matrizen. Nun möchte man gern die Basen so wählen, dass die zugehörige Matrixdarstellung besonders einfache Form annimmt. Der wichtigste Fall ist V = W und a = b. Dabei möchte man also die Basis a so wählen, dass − → Maa f möglichst einfach wird. Zweifellos sind unter den quadratischen Matrizen die Diagonalmatrizen am einfachsten: Bei ihnen übersieht man Rang, Bild und Kern auf einen Blick, und die Anwendung der linearen Abbildung besteht einfach in Streckungen der Basisvektoren. Wir werden sehen, dass es unter gewissen Bedingungen, doch nicht immer, möglich ist, zu einer Diagonalisierung zu gelangen. Das werden wir illustrieren, nachdem wir die Grundlagen für einen Basiswechsel bereitgestellt haben. 5.1. Basiswechel in einem Vektorraum: Transformation der Koordinatendarstellungen. − → − → Wir stellen uns folgendes Problem: Gegeben ein Vektorraum V mit einer Basis a = a , ..., a und einer 1 n − → − → − → weiteren Basis b = b 1 , ..., b n . Wie kann man die Koordinatendarstellungen von Vektoren x ∈ V in die Koordinatendarstellungen bezüglich b umrechnen? Um die Dinge ein wenig plastischer zu gestalten, denken wir an a als ’alte Basis’ und b als ’neue Basis’. Grundlage ist folgende (eindeutige!) Darstellung der neuen Basisvektoren als Linearkombinationen der alten Basisvektoren: n − → − → (∗) b j = a i β ij . i=1 Wir behaupten nun: 120 5. LINEARE ALGEBRA S 57. Die durch (∗) gegebene Matrix β ij ij ist die Transformationsmatrix, welche die neuen Kon − → → ordinatendarstellungen (bzgl. b) in die alten (bzgl. a) überführt, d.h. für alle Vektoren − x = λj b j = j=1 n i=! → µi − a i aus V gilt: µi = oder in Matrixschreibweise mit Tab = β ij ij : n β ij λj . j=1 λ1 Tab ... = λn µ1 .. . µn Bemerkung zur Schreibweise: Tab bezeichnet die Matrix, welche die Koordinatendarstellungen bzgl. b in −1 die bzgl. a überführt. Tab ist bijektiv (invertierbar), und man hat Tab = Tba , wobei Tba die alten Koordinatendarstellungen bezüglich a in die neuen bzgl. b überführt. → → → Begründung: Sei id : V → V die identische Abbildung, also id − x =− x für alle − x ∈ V. Dann n n b ist L−1 b ◦ id ◦ La : R → R linear (als Hintereinanderschaltung linearer Abbildungen), wir nnennen Ta − → − → die Matrix, welche diese Abbildung (bezüglich der kanonischen Basis e = e1 , ..., e n des R darstellt. Es genügt also, einzusehen, dass gemäß der Definition (∗) der Matrix β ij ij die Spalten von β ij ij Koordinatendarstellungen der neuen Basisvektoren in der alten Basis sind. Denn die Koordinatendar − → → e j , und die j. Spalte von β ij ij ist genau die Koordinatendarstellung stellung von b j bezüglich b ist − − → von b j bezüglich der alten Basis a. Damit transformiert diese Matrix automatisch auch alle anderen Koordinatendarstellungen richtig, weil sie auf den Einheitsvektoren die korrekten Resultate liefert. Folg lich ist Tab = β ij ij . Dass Tab invertierbar ist, sieht man sofort an der Umkehrbarkeit der Abbildungen −1 b L−1 b , id,La ,woraus die Umkehrbarkeit von Ta = Lb ◦ id ◦ La direkt folgt. Selbstverständlich bewirkt die −1 Inverse Tab genau die Koordinatentransformation in der umgekehrten Richtung und ist daher gleich Tba , in konsequenter Notation. 5.2. Transformation von darstellenden Matrizen bei Basiswechseln. Wir kommen zur Anwendung der Koordinatentransformationsmatrizen und untersuchen, wie man aus einer Matrixdarstellung für eine lineare Abbildung bezüglich einem Basenpaar die Matrixdarstellung bezüglich neuer Basen errechnen kann. − → S 58. Seien a, ) a Basen für V und b, )b Basen für W, f eine lineare Abbildung V → W. Dann gilt: − − → → M)b)a f = T)bb Mba f Ta)a . → Speziell hat man für − g :V →V: → → )a M)a)a − g = T)aa Maa − g Ta , Schreibt man dabei kurz T für Ta)a , so lautet die letzte Formel: → → M )a − g = T −1 M a − g T. ) a a (Allerdings sei zum eigenen Gebrauch die ausführlichere Schreibweise empfohlen.) − → Beweis: Die Matrix M)b)a f macht definitionsgemäß aus der Koordinatendarstellung eines Vektors − → → − → x ∈ V bzgl. ) a die Koordinatendarstellung von f − x ∈ W bzgl. )b. Die Hintereinanderschaltung (das Produkt - man denke immer daran: Was am weistesten rechts steht, kommt zuerst, dann nach links so − → fort) T)bb Mba f Ta)a tut eben dies, nur auf dem Umweg: Zuerst wird die eingegebene Koordinatendar→ → stellung von − x bzgl. a in die Koordinatendarstellung von − x bzgl. a umgewandelt (mittels Ta)a ), dann ) − → − → → daraus mit M a f die Koordinatendarstellung von f − x bzgl. b produziert, dann diese mittels T b b )b 6. ANWENDUNGEN DES RECHNENS M IT M ATRIZEN zur Koordinatendarstellung von zu V = W und a = b, ) a = )b. 121 − → − f → x bzgl. )b umgewandelt. Die zweite Aussage spezialisiert dies nur 6. Anwendungen des Rechnens mit Matrizen 6.1. Zeilen- und Spaltenumformungen als Multiplikation mit Elementarmatrizen. Matrizen folgender Art heißen Elementarmatrizen und besorgen das Vertauschen von Zeilen (Spalten), das Addieren eines Vielfachen einer anderen Zeile zu einer Zeile (entsprechendes für die Spalten): D 42 (Elementarmatrizen). Folgende Matrizen Bij , Cα,β,i,j ∈ Rn×n heißen Elementarmatrizen: → → → → → → Bij − e i , Bij − e k für k = i, j. e j := − e i := − e j , Bij − e k := − D.h. Bij entsteht aus der (n × n) − Einheitsmatrix, indem die Spalten i, j vertauscht werden. Seien α = 0, β ∈ R, 1 ≤ i, j ≤ n, i = j. Dann definieren wir: → → − → e i + β− e j, Cα,β,i,j e i : = α− − → − → Cα,β,i,j e k : = e k für k = i. D.h. Cα,β,i,j entsteht aus der Einheitsmatrix, indem die Spalte i mit α = 0 multipliziert wird und das β− Fache der Spalte j hinzuaddiert. Alle anderen Spaltenvektoren bleiben unverändert. (n) Genauer notieren wir bei Bedarf Cα,β,i,j , Bij , um zu bezeichnen, dass es sich um die entsprechende (n × n) − Matrix handelt. Wir beobachten sofort: B 2. Die Elementarmatrizen stellen bijektive lineare Abbildungen Rn → Rn dar, sind also umkehrbar. Zur Übung fomuliere man einfach verbal die Umkehroperationen. Man stelle auch fest, dass die Inversen wieder Elementarmatrizen sind. Mittels der Elementarmatrizen können die elementaren Zeilen- und Spaltenumformungen auf einfache Weise als Multiplikationen mit Elementarmatrizen realisiert werden. Das wird in folgendem Satz genau formuliert: S 59. Die Vertauschung der Spalten i,j in A ∈ Rm×n geschieht durch rechtes Anmultiplizieren (n) (m) von Bij ∈ Rn×n . Die Vertauschung der Zeilen i,j geschieht durch linkes Anmultiplizieren von Bij ∈ Rm×m . Ersetzung der Spalte i durch α · Spalte i plus β· Spalte j geschieht durch rechtes Anmultiplizieren von (n) Cα,β,i,j . Ersetzung der Zeile i durch α · Zeile i plus β· Zeile j geschieht durch linkes Anmultiplizieren (m) von Cα,β,i,j . Wir beweisen den Satz für die Spaltenumformungen. (Für die Zeilen ist alles völlig analog, bzw. → → → → → man argumentiert über die Transposition.) Wir haben mit A− ek = − a k : ABij − e i = A− ej = − a j , analog − → − → − → − → − → ABij e j = a ij und ABij e k = A e = a für k = i, j. Also ist AB die versprochene Matrix. k ij →k → → → → Weiter gilt ACα,β,i,j − e i = A α− e i + β− e j = α− a i +β − a j , d.h. Spalte i wird wie angekündigt ersetzt. → → → e k = A− Die anderen bleiben unverändert: ACα,β,i,j − ek =− a k für k = i. Nach dem Hilfssatz über lineare Unabhängigkeit und Spann ändern die Zeilenoperationen nicht den Zeilenrang, die Spaltenoperationen nicht den Spaltenrang. Es gehe nun die Matrix N aus der Matrix M durch fortgesetzte Zeilenoperationen hervor. Dann ist P M = N, mit einer Matrix P, welche Produkt von Elementarmatrizen ist. Weil P bijektiv ist, haben wir dim (Bild (P M )) = dim (Bild (M )) , also bleibt durch die Zeilenoperationen auch der Spaltenrang unverändert. Nach dem Dimensionssatz ändern daher beiderlei Operationen auch nicht die Dimension des Kerns. Aber mit Zeilen- und Spaltenoperationen zusammen können wir jede Matrix M auf Diagonalgestalt bringen, so dass in der Diagonalen zuerst ein (eventuell leerer) Block von Einsen, dann ein (eventuell leerer) Block von Nullen kommt. Wir zeigen das mit Induktion über das Maximum s von Zeilen- und Spaltenzahl: Für s = 1 ist nichts zu zeigen, da die Matrix bereits die gewünschte Form hat. Sei also s > 1. Wir können annehmen, dass die Matrix nicht aus lauter Nullen besteht (dann wären wir schon fertig). Wir bringen durch Zeilen- und Spaltenvertauschungen ein Element = 0 in die Position ganz links oben. Anschließend schaffen wir durch Zeilenoperationen lauter 122 5. LINEARE ALGEBRA Nullen in die erste Spalte (ab der 2. Zeile, falls vorhanden), dann durch Spaltenoperationen lauter Nullen in die erste Zeile (ab der 2. Spalte, falls vorhanden). Nennen wir die resultierende Matrix M ′ . Sollte M ′ nur eine Zeile oder nur eine Spalte haben, sind wir fertig. Sonst verbleibt nach Streichen der ersten Zeile und Spalte eine kleinere Matrix M1 , die nach Induktionsvoraussetzung durch Anmultiplizieren von Elementarmatrizen wie gewünscht umgeformt werden kann. Insgesamt P1 M1 Q1 = D1 , D1 in verlangter Form. P1 und Q1 bezeichnen die entsprechenden Produkte von Elementarmatrizen. Aber wir brauchen die beteiligten Elementarmatrizen in P1 , Q1 nur zu vergrößern, indem wir eine erste Zeile und Spalte zufügen, so dass nur eine Eins links oben und sonst lauter Nullen in der ersten Zeile und Spalte stehen, dann werden daraus Elementarmatrizen, welche entsprechend auf M ′ angewandt genau dieselben Veränderungen in N als Untermatrix von M ′ bewirken. Nennen wir die so aus P1 bzw. Q1 entstehenden Matrizen R, S. Also haben wir insgesamt P M Q = M ′ und RM ′ S = D, wobei D die Diagonalmatrix der gwünschten Form ist mit D1 als Untermatrix ab der 2. Zeile und 2. Spalte. Daher RP M SQ = D, mit T = RP und U = SQ also T M U = D wie verlangt, und T, U sind dabei Produkte von Elementarmatrizen. Das Resultat fassen wir noch einmal in einem Satz zusammen: S 60. Jede Matrix M kann durch Zeilen- und Spaltenoperationen zu einer Blockmatrix wie folgt umgeformt werden: Er 0 PMQ = . 0 0 Dabei ist Er die Einheitsmatrix der Dimension r, außerhalb stehen Nullen, die auch fehlen können. P und Q sind Produkte von Elementarmatrizen. Folgerung: Zeilenrang und Spaltenrang von M sind gleich. Zum Beweis der Folgerung: Es ändert sich nach dem zuvor Gesagten durch Anmultiplizieren von P und Q weder der Zeilenrang, noch der Spaltenrang von M . Aber P MQ hat Zeilenrang = Spaltenrang = r. In den nächsten beiden Abschnitten folgen praktische Anwendungen dieser Technik des Anmultiplizierens von Matrizen, die Produkte von Elementarmatrizen sind. 6.2. Invertieren von Matrizen. Sei A eine (notwendig quadratische) Matrix, A invertierbar. Dann kann A allein mit Zeilenumformungen zu E, der Einheitsmatrix, umgeformt werden. Damit P A = E. Rechtes Anmultiplizieren von A−1 ergibt P = A−1 . Aber P = P E. Das heißt: Man gewinnt P = A−1 , indem man ausgehend von E dieselben Zeilenoperationen vornimmt, mit denen man A zur Einheitsmatrix umformt. Wir stellen das als Schema dar: A|E Beispiel: 1 2 2 1 −1 3 1 → 0 0 1 → 0 0 1 → 0 0 Das heißt also Zeilenumformungen → E|P, dann P = A−1 . −3 1 0 0 1 2 −3 1 0 0 2 0 1 0 → 0 −3 8 −2 1 0 II − 2I 1 0 0 1 0 5 −2 1 0 1 III + I 2 −3 1 0 0 1 0 −3 8 −2 5 3 7 1 0 1 − 34 34 34 34 (3III + 5II) 15 9 2 0 1 − 21 34 34 34 I + 3III (dann) 4 1 0 − 13 −2 + 56 − 13 (1 − 40 , 1 34 34 ) 17 − (II − 8III) (zuerst) 7 5 3 3 0 1 − 34 34 34 5 11 7 − 0 0 34 34 34 2 1 4 I − 2II 1 0 17 17 17 7 5 3 0 1 − 34 34 34 −1 5 1 2 −3 34 2 2 1 2 = 17 7 −1 3 1 − 34 11 34 1 17 5 34 7 − 34 4 17 3 34 . 6. ANWENDUNGEN DES RECHNENS M IT M ATRIZEN 123 6.3. Simultane Bestimmung von Kern und Bild durch Spaltenumformungen. Bringt man eine Matrix A ∈ Rm×n durch Spaltenumformungen auf untere Dreiecksgestalt B, also bij = 0 für i < j, so hat man stets im Einzelschritt A von rechts mit einer Elementarmatrix multipliziert, insgesamt also − → gebildet: B = AT, mit einer Matrix T ∈ Rn×n . Wir bezeichnen mit b j den j. Spaltenvektor von B, also − → − → − → − → B = b 1 , ..., b n . Sei r ≤ n der kleinste Index, so dass b k = 0 für k > r. Dann hat man sofort → Kern (B) = Spann (− e k k>r ), also − → Kern (A) = Spann ( t k ), k>r − → − → − → also B = AT mit T = t 1 , ..., t n . Mehr noch: Die Vektoren t k , r < k ≤ n, bilden eine Basis für − − → → Kern (A) . Genau im Falle r = n ist t k die leere Folge, also Kern (A) = { 0 } ⊂ Rn . Ebenso k>r − → − → einfach ist eine Basis für Bild (A) zu ermitteln: Die Vektoren b 1 , ..., b r bilden eine solche. Genau um − → Falle r = 0 ist diese Folge leer, und Bild (A) = { 0 } ⊂ Rm . Wir formulieren den damit bewiesenen Sachverhalt in einem Satz, der zugleich ein Verfahren angibt: S 61. A Spaltenumf ormungen AT → E ET − − → → B , B = b 1 , ..., b n in unterer Dreiecksgestalt, dann T− → − → mit T = t 1 , ..., t n und − → − → r : = kleinste Zahl, so dass b k = 0 für r < k ≤ n: − → Bild (A) = Spann bk 1≤k≤r − → Kern (A) = Spann tk = r<k≤n (Mit der ersten Zeile ist gemeint, dass E unter A geschrieben wird, und dass beide Matrizen denselben Spaltenumformungen unterworfen werden, die man strategisch ausführt, um B auf untere Dreiecksgestalt zu bringen.) Illustration 1 2 1 1 0 0 0 an einem Beispiel: 3 −2 1 1 0 0 2 −3 5 3 1 α 2 3 3 1 −1 5 → 0 0 0 1 −3 2 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 2 −3 1 −1 → 1 −3 2 0 1 0 0 0 1 0 0 0 ∗ 1 0 0 0 0 2 −3 0 0 α−2 1 −1 10 8 − α 2 ∗ → −1 1 −3 −9 3 − 3α 0 0 1 5 α−2 0 0 0 3 0 1 0 0 0 3 0 0 0 0 10 0 B = T 102 − 39α −60 + 15α −24 + 3α 30 Mit dem Schritt → ist bereits eine Basis für das Bild bekannt (die ersten drei Spalten der oberen Matrix bilden eine solche); denn die beiden letzten Spalten sind offenbar linear abhängig. Natürlich gilt damit Bild (A) = R3 , und man kann einfacher die kanonische Basis der Einheitsvektoren angeben. Aber für den Kern braucht man noch den letzten Schritt. Der wurde so ausgeführt: 10 mal 4. Spalte minus 8 − α mal die 3. Spalte, um die letzte Null zu schaffen und damit die erforderliche untere Dreiecksgestalt. 124 5. LINEARE ALGEBRA Diese Spaltenumformung musste noch mit der unteren Matrix ausgeführt werden, um T zu erhalten. Das Resultat für den Kern lautet somit: 102 − 39α −60 + 15α Kern (A) = Spann −24 + 3α . 30 Rechnung und Resultat sind gültig unabhängig vom Wert des äußeren Parameters α. Das ist natürlich nicht immer so. Ein Beispiel: 1 2 3 − → Aβ = −2 1 −1 hat Kern (Aβ ) = { 0 } genau für β = 5, 2 3 β −1 Kern (A5 ) = Spann −1 , also für β = 5. 1 Das sollte man mit dem Verfahren noch einmal nachrechnen. 7. Räume mit Skalarprodukt und Isometrien 1.) Wir betrachten zumeist speziell den Rn mit dem Standardskalarprodukt − → − → λi e i µi e i = λi µi . i i i Wir erinnern daran, dass dies eine symmetrische Bilinearform ist. Folgende weitere Bildungen sind jedoch von großer Bedeutung: +b 2.) Das Skalarprodukt f, g := a f (x) g (x) dx auf dem Raum der reellwertigen stetigen Funktionen auf [a, b]. Dies ist ebenfalls eine symmetrische Bilinearform. Das liegt an der Linearität des Integrals und dem Kommutativgesetz (fg = gf ), die positive Definitheit begründet man leicht so: Wenn f in einem Punkt x0 ∈ [a, b] einen Wert = 0 besitzt, so ist in einer kleinen Umgebung von x0 der Wert von f 2 +b mindestens so groß wie eine Zahl ε ≥ 0, folglich ist a f 2 (x) dx > 0. 3.) Für die Vektorräume Cn hat man anstelle der symmetrischen Bilinearformen die sogenannten Hermiteschen Formen, Standardbildung ist (zi , ci ∈ C): − − → → z e c e zc. := i i i i i i i i i → → → → Damit hat man ebenfalls Bilinearität, allerdings wird − z ·− c =− c ·− z , diese Art von Symmetrie ersetzt → → die normale. Wesentlich ist: Man hat wieder positive Definitheit; denn − z ·− z = zi zi = |zi |2 ist i√ i → − → → → → stets reell und größer als Null, sobald − z = 0 . Damit ist auch wieder durch − z := − z ·− z eine Norm definiert. √→ → B 3. Jedes Skalarprodukt definiert mit − a := − a 2 eine Norm, welche dieselben wesentlichen Eigenschaften wie der uns bekannte Betrag des Rn besitzt. (Entsprechend ist in einem → von Vektoren − Raum mit Skalarprodukt stets sinnvoll von − a als Länge von → a zu reden.) Wir haben folgende grundlegenden Definitionen: D 43. Eine Isometrie (oder auch orthogonale Abbildung) eines Vektorraumes mit Skalar− → produkt auf einen anderen ebensolchen ist eine bijektive Abbildung f , welche das Skalarprodukt erhält, → → also folgende Bedingung für alle − x,− y erfüllt: − − → − → → − → f → x f − y =→ x− y. − → Bemerkung: Es folgt, dass f lineare Abbildung ist, also ein Vektorraumisomorphismus. Bemerkung: Orthogonale Abbildungen nennt man gern auch ’unitär’, wenn von Vektorräumen über C die Rede ist. 7. RÄUM E MIT SKALARPRODUKT UND ISOM ETRIEN 125 Eine Begründung der Bemerkung folgt später nach der Einführung von Orthonormalbasen und der Begründung ihrer Existenz. → → a D 44. Eine Orthonormalbasis − a 1 , ..., − n eines Raumes mit Skalarprodukt ist eine sol1 für i = j → → che Basis, für deren Vektoren gilt: − ai · − a j = δ ij = . Diese Vektoren haben also alle 0 für i = j Länge 1 und stehen paarweise senkrecht aufeinander. Eine Orthogonalbasis ist eine solche, bei welcher die Basisvektoren paarweise senkrecht aufeinander stehen. (Es fehlt also die Normierung.) Wir stellen eine kleine Beobachtung an: B 4. Ein System von Vektoren, welche alle nicht Null sind und paarweise senkrecht aufeinander stehen, ist stets linear unabhängig. − − → → → Begründung: Mit λi → a i0 : λi0 − a i = 0 hat man nach skalarem Anmultiplizieren von − a 2i0 = 0, i also λi0 = 0. Somit für alle i : λi = 0. Man hat stets die Möglichkeit, ein linear unabhängiges System, insbesondere auch eine jede Basis, wie folgt zu orthonormalisieren: → → S 62. Seien − a 1 , ..., − a k linear unabhängige Vektoren in V, V Vektorraum mit Skalarprodukt. Dann − − → − → → − → , ..., b , welche ein Orthonormalsystem bilden und für die gilt: Spann a , ..., a = gibt es stets Vektoren b 1 k 1 i − → − → Spann b 1 , ..., b i für alle 1 ≤ i ≤ k. Insbesondere gibt es stets Orthonormalbasen. Folgende rekursive − → Definition gibt ein Verfahren (Gram-Schmidt-Orthonormalisierungsverfahren) zur Gewinnung der b j , 1 ≤ j ≤ k an: − → 0 → b1 : = − a 1, − → 0 i − → − → − → a i+1 · b j 0 0 − → b i+1 : = a i+1 − b j , für 1 ≤ i < k. 2 − → 0 j=1 bj − → 0 Schließlich normiert man noch - die Vektoren b i sind niemals Null: − → 0 − → bi b i := , 1 ≤ i ≤ k. − → 0 b i Hinweis: Es ist rechentechnisch wesentlich günstiger, die Normierung wie angegeben erst zum Schluss → anzubringen, weil es auch bei einfachen Koordinaten der − a i sonst unangenehme Wurzelausdrücke in den Vektoren bei der Durchführung des Induktionsschrittes gibt. Beim angegebenen Verfahren erscheinen solche erst am Schluss, wo man nichts mehr zu rechnen hat. Noch eine praktische Bemerkung: Auch die − → 0 Vektoren b i können unerwünschte Faktoren enthalten. Diese kann man ohne weiteres weglassen! − → − → 0 0 Beweis: Wir zeigen zunächst, dass b i+1 stets senkrecht auf allen b j ist, für 1 ≤ j < i + 1. Sei 1 ≤ j0 < i + 1. Man hat − → − → 0 0 i − → − → − → − → − → − → 0 − → − → − →2 a i+1 · b j0 0 a i+1 · b j 0 0 0 0 0 → − → a i+1 · b j0 − · b = a · b − b i+1 · b j0 = − b b j0 = 0. j j i+1 j 0 0 − →2 − →2 0 0 j=1 bj b j0 − − → 0 → Mit Induktion stehen damit alle Vektoren b paarweise senkracht aufeinander. Weiter ist Spann a = i 1 − → 0 Spann b 1 nach Definition und mit der Induktionsvoraussetzung → − → − → 0 0 → a i = Spann b 1 , ..., b i Spann − a 1 , ..., − folgt auch → − → − → 0 0 → Spann − a 1 , ..., − a i+1 = Spann b 1 , ..., b i+1 . 126 5. LINEARE ALGEBRA − → − → − → → 0 0 0 Denn einerseits ist b i+1 eine Linearkombination der Vektoren b 1 , ..., b i , − a i+1 , somit der Vektoren − → − → 0 0 − → − → − → a 1 , ..., a i+1 . Andererseits ist a i+1 eine Linearkombination der Vektoren b 1 , ..., b i+1 . Daraus folgt − → − → 0 0 weiter, dass die Vektoren b 1 , ..., b k linear unabhängig sind, also auf Länge 1 anschließend gebracht 1 werden können mit den Faktoren → . − ) b i Hier ist ein Beispiel zur Orthonormalisierung: Seien 1 1 − −1 → → → 1 a 1, − a 2, − a3 = 1 , 1 1 2 1 −1 , 2 . 1 Wir berechnen: − → 0 b1 − → 0 b2 − → 0 b3 1 −1 = 1 , 1 1 1 1 −1 1 · 1 1 1 −1 1 2 1 = 1 − 1 = 4 2 1 1 1 1 −1 1 7 3 1 = , − 1 4 1 4 1 2 1 5 1 7 − → 1 0 wir lassen den störenden Faktor weg und arbeiten mit 1 weiter für b 2 . 4 5 1 1 1 1 −1 −1 −1 7 2 1 1 2 1 1 1 −1 −1 7 1 1 1 5 − = 2 − 1 1 4 76 1 1 5 1 1 1 −5 −1 5 −1 1 1 7 3 = 2 − 4 1 − 76 1 = 19 14 1 1 5 −6 − → 0 Man prüfe nach, dass die Vektoren b i paarweise senkrecht aufeinander stehen. Das Resultat mit der √ √ 1 19 √ 1 266 √ Normierung lautet also ( 76 = 38 , 266 = 266 ) 1 √ − 1 −1 → − → − → 19 b 1, b 2, b 3 = 2 1 , 38 1 1 −5 √ 7 , 266 3 . 1 14 266 5 −6 7. RÄUM E MIT SKALARPRODUKT UND ISOM ETRIEN 127 → → Wir begründen nunmehr die Linearität der Isometrien: Sei − a 1 , ..., − a n eine Orthonormalbasis des Raums. Dann haben wir − → − − → − → → − → f → ai · f − x +→ y = − ai· − x +→ y − → → − → → − → → − → → → → → → = − ai·− x +− ai·− y=f − ai · f − x + f − ai · f − y − − − → − → − → − → → → = f a i · f x + f y . Also für alle i : − − − → − → − → → − → → → = 0. f → x +− y − f − x + f − y f → ai − → → − → → Nun ist aber f − a 1 , ..., f − a n wieder ein linear unabhängiges System, also eine Basis. Denn mit − → − − → → − → → − → → → → f → x f − y =− x− y sind die Vektoren f − a 1 , ..., f − a n alle von der Länge 1 und paarweise senkrecht aufeinander. Daraus folgt ihre lineare Unabhängigkeit nach der oben begründeten Bemerkung. Also − − − → − → − → − → − → → → sind die Vektoren f x + y − f x + f y senkrecht auf allen Vektoren einer Basis und damit − → → → auf allen Vektoren überhaupt. Daher müssen sie alle Null sein. Analog folgt nun f λ− x = λ− x über − → − − → − → → → → x = − a i · λ− x= λ − ai·→ x f → a i · f λ− − → → − → → = λ f − ai · f − x − → → − → → = f − ai ·λf − x , also − − → − → − → → → f λ− x −λf − x = 0. f → ai Wie sehen die Matrizen von Isometrien aus? Dazu setzen wir natürlich Orthonormalbasen voraus, n so dass die Koordinatendarstellungsabbildungen L−1 a Isometrien des Raums auf den entsprechenden R werden. Eine Orthonormalbasis wird durch eine Isometrie auf eine Orthonormalbasis des Zielraums abgebildet. Also bilden auch die Spalten einer darstellenden Matrix eine Orthonormalbasis des Rn . Eine solche Matrix heißt orthogonal. Wir haben dazu folgendes Resultat, mit dem die Inversion solcher Matrizen besonders einfach wird: S 63. Ist A eine orthogonale Matrix, d.h. die Spaltenvektoren von A bilden eine Orthonormalbasis des Rn , dann gilt A−1 = AT . Die Inverse ist also einfach die Transponierte. Zum Beweis schauen wir die Inversenbildung bei Matrizen etwas näher an: → → D 45 (und Satz). Zu jeder Basis − a 1 , ..., − a n des Rn hat man eindeutig die reziproke − → → → Basis → a ∗1 , ..., − a ∗n , für die gilt − a ∗i · − a j = δ ij für alle i, j. → Begründung für den Rn : Schreiben wir die Vektoren − a i als Spaltenvektoren einer Matrix A, so haben −1 wir die Inverse Matrix A , weil A eine Bijektion des Rn auf sich darstellt (bezüglich der kanonischen − → Basis). Also mit A−1 A = E = (δ ij )ij (Einheitsmatrix): i. Zeilenvektor von A−1 sei b i . Dann hat man − →T − − → − → → b → a = δ , also bilden die b T die reziproke Basis. Setze also − a ∗ := b T . Hat man umgekehrt eine i j ij i i i reziproke Basis, so bilden deren Vektoren als Zeilen geschrieben die Matrix A−1 , und diese ist eindeutig bestimmt. Nunmehr folgt der vorige Satz aus folgender Beobachtung: B 5. Eine Orthonormalbasis ist zu sich selbst reziprok. Das folgt sofort aus der Definition von ’Orthonormalbasis’. Somit braucht man die Spalten einer orthogonalen Matrix nur als Zeilen zu schreiben, um die Inverse zu erhalten. Bemerkung: Für den komplexen Fall erhält man analog für orthogonale Matrizen A ∈ Cn×n : T → → → → A−1 = A , weil für die reziproke Basis − a ∗1 , ..., − a ∗n zu − a 1 , ..., − a n bezüglich des Skalarproduktes in Cn 128 5. LINEARE ALGEBRA gilt: − − → → a ∗1 a ∗1 .. − . − → − → → − → . a 1 , ..., a n = .. a 1 , ..., a n = (δ ij )ij = (δ ij )ij = E. − → − → a ∗1 a ∗1 (Die Matrizen sind durch ihre Zeilen- bzw. Spaltenvektoren angegeben. Der Querstrich über den Vektoren bedeutet Konjugation aller Einträge.) Beispiel für den reellen Fall: √ √ −1 1 √ √ √ 1√ 1 1 1 1 6 2 6 √6 6 √6 3 √ 6 √6 3 √3 2 √ 1 3 1 3 −1 3 = 1 6 1 3 −1 2 3√ 3 √ 3 6√ 3 √ 2 1 1 1 1 0 0 2 2 −2 2 3 6 −3 3 8. Determinanten Vorbemerkung: Alle folgenden Ausführungen über Determinanten gelten für beliebige Zahlkörper K anstelle von R, lediglich zur konkreteren Formulierung und insbesondere konkreterer geometrischer Deutung denken wir an R zuerst. Abgesehen davon handelt es sich um den wichtigsten Anwendungsfall. Mit den Mittel der elementaren sieht man Folgendes: Vektorrechnung a b 1.) Zu zwei Vektoren , ∈ R2 stellt die Zahl ad − bc das zweidimensionale Volumen (also c d den Flächeninhalt) dar des von beiden Vektoren aufgespannten Parallelogramms, jedoch mit zusätzlichem Orientierungsvorzeichen: Die Zahl ad−bc ist genau dann positiv, wenn die Vektoren in dieser Reihenfolge → → ein zweidimensionales Rechtssystem bilden, also ebenso orientiert sind wie − e 1, − e 2 . (Drehen entgegen dem Uhrzeigersinn.) Sämtliche angegebene Deutungen setzen ein kartesisches Koordinatensystem voraus. Wir sehen das leicht ein, wenn wir den R2 als xy− Ebene des R3 auffassen und bilden: a b 0 c × d = . 0 0 0 ad − bc Der Flächeninhalt des von beiden Vektoren aufgespannten Parallelogramms ist demnach |ad − bc| , insbesondere haben wir ad − bc = 0 genau dann, wenn die beiden Vektoren linear abhängig sind. Außerdem − → → − → − → → → wissen wir, dass − a, b,− a × b bei linear unabhängigen − a , b ein (dreidimensionales) Rechtssystem bilden. Daraus ergibt sich die Aussage über das Vorzeichen: ad− bc >0 genau dann, wenn das obenstehende a b − → Vektorprodukt in Richtung e 3 zeigt, also die Vektoren , ein Rechtssystem im R2 bilden c d → → e 2 . Wir schreiben die Sache noch einmal anders, indem wir die beiden Vektoren als Zeilen oder wie − e 1, − Spalten einer (2 × 2) − Matrix auffassen: a c a b oder , b d c d und stellen fest, dass die Zahl ad − bc in beiden Fällen herauskommt, wenn man das Produkt der Zahlen in der Hauptdiagonalen nimmt (von links oben nach rechts unten) und das Produkt über die Zahlen der Nebendiagonalen davon abzieht. Wir definieren: a c := ad − bc det b d a c und nennen diese Zahl Determinante der Matrix . Diese Zahl hat also die oben aufgeführten b d geometrischen Bedeutungen, sie liefert das zweidimensionale Volumen des von den Zeilenvektoren (oder von den Spaltenvektoren) aufgespannten linearen Gebildes (hier Parallelogramms) mit Orientierungsvorzeichen. Dazu gehört auch der Grenzfall: Die Matrix ist genau dann invertierbar, wenn die Determinante nicht Null ist. (Wir wissen bereits, dass eine jede quadratische Matrix genau dann invertierbar ist, wenn das System ihrer Zeilenvektoren oder das System ihrer Spaltenvektoren linear unabhängig ist.) 8. DETERMINANTEN 129 − → → → 2.) Wir betrachten den dreidimensionalen Fall: Drei Vektoren − a , b,− c ∈ R3 spannen einen Spat − → → → auf (so etwas wie einen schiefen Quader). Wir wissen bereits, dass das Spatprodukt − a(b × − c ) Folgendes leistet: Es stellt das dreidimensionale Volumen des von den Vektoren aufgespannten Spates mit Orientierungsvorzeichen dar. Insbesondere wird es Null genau im Falle der linearen Abhängigkeit des − → → → Systems − a , b,− c . Auch hier können wir die Sache wieder in Matrixform bringen und das Spatprodukt als Determinante einer (3 × 3) − Matrix auffassen. Dazu schreiben wir die Vektoren als Zeilenvektoren folgender Matrix und sehen uns die Berechnung des Spatproduktes erneut an: a1 a2 a3 b2 b3 b1 b3 b1 b2 b1 b2 b3 det := a1 det − a2 det + a3 det . c2 c3 c1 c3 c1 c2 c1 c2 c3 Man rechnet sofort nach, dass dies genau denselben Wert ergibt wie das Spatprodukt, also gilt: a1 a2 a3 a1 b1 c1 det b1 b2 b3 = a2 b2 × c2 . c1 c2 c3 a3 b3 c3 Wie bereits im zweidimensionalen Fall erkennt man auch hier, dass die analoge Bildung mit der Matrix, in welcher die drei Vektoren als Spalten statt Zeilen geschrieben wird, genau dasselbe Resultat liefert: a1 b1 c1 b2 c2 a2 c2 a2 b2 a2 b2 c2 det = a1 det − b1 + c1 det b3 c3 a3 c3 a3 b3 a3 b3 c3 = a1 (b2 c3 − b3 c2 ) − b1 (a2 c3 − a3 c2 ) + c1 (a2 b3 − a3 b2 ) = a1 (b2 c3 − b3 c2 ) + a2 (b3 c1 − b1 c3 ) + a3 (b1 c2 − b2 c1 ) a1 b1 c1 = a2 b2 × c2 . a3 b3 c3 In beiden Berechnungen der Determinanten von (3 × 3) − Matrizen haben wir rekursiv auf Determinanten von (2 × 2) − Matrizen zurückgeführt. Analog kann man auch die Determinantenberechnung von (2 × 2) − Matrizen auf Determinanten von (1 × 1) − Matrizen zurückführen. Sinngemäß (Volumen im eindimensionalen Fall ist Länge, dazu Orientierungsvorzeichen) hat man det (a) = a, und damit gilt: a b det = a det (d) − b det (c) = ad − bc. c d Das ganze Schema lässt sich zu einer rekursiven Definition der Determinanten beliebig großer quadratischer Matrizen verallgemeinern (vgl. Entwicklungssatz unten), aber wir wollen systematisch mit dem Begriff des orientierten n− dimensionalen Spatvolumens arbeiten.Die Determinante quadratischer Matrizen und ihre algebraischen sowie geometrischen Eigenschaften Wir wollen eine Abbildung folgender Art haben (für jeden Zahlkörper K und für jede Zahl n ∈ N): detn : (K n )n → → K − , (Determinante als Funktion von n Vektoren aus K n ) , − → → a 1 , ..., − a n → det − a 1 , ..., → an auch aufzufassen als : detn : K n×n K − → → → A = a 1 , ..., − a n → det (A) (Determinante als Funktion quadratischer Matrizen) welche im Blick auf die gesuchten geometrischen Eigenschaften (wenn man an K = R denkt) folgende Bedingungen erfüllen soll, die man zusammenfasst → mit: det soll n− fache alternierende Multilinearform der → → e n = 1. Den Index n lassen wir ab jetzt fort. Wir definieren Spaltenvektoren − a j sein mit detn − e 1 , ..., − nunmehr, was dies im Einzelnen heißt: 130 5. LINEARE ALGEBRA Eine Abbildung det: (K n )n → K heißt normierte alternierende Linearform, wenn sie folgende Bedingungen erfüllt: (i) det ist n − f ach linear, d.h. linear in jedem Eingabeschlitz, also − → − → → → det(..., − a + b , ...) = det(..., − a , ...) + det(..., b , ...) und − → → → → det(..., λ− a , ...) = λ det(..., − a , ...) für alle − a , b , λ. → → (ii) det ist alternierend, d.h. det(..., − a ,...− a , ...) = 0. − − → → (iii) det e 1 , ... e n = 1. (Normierung für den Einheitswürfel) Erläuterung zur Formulierung: Bemerkung zur Formulierung der ersten Eigenschaft (i): die bezeichneten Vektoren stecken stets im selben Eingabeschlitz, und die Pünktchen bedeuten stets denselben Satz von Vektoren in allen anderen Eingabeschlitzen. Wir erinnern daran, dass genau in diesem Sinne das Skalarprodukt und das Vektorprodukt bilinear sind, also zweifach linear. Ebenso bedeutet die Formulierung der Eigenschaft (ii), dass in zwei Eingabeschlitzen derselbe Vektor steckt, die anderen Schlitze beliebig belegt sind. Dass diese Eigenschaft ’alternierend’ heißt, wird klar mit der zweiten der folgenden Folgerungen - dass diese so einfach gezogen werden können, zeigt gerade die Nützlichkeit der obenstehenden algebraisch-abstrakten Definition von det. Geometrischer sind alle zu fordern, → Sinn der Formulierung: Die angegebenen Eigenschaften → → → wenn det − a 1 , ..., − a n für Rn die Bedeutung haben soll: Spatvolumen des von − a 1 , ..., − a n aufgespannten − → − → Spats mit Orientierungsvorzeichen. Denn e 1 , ... e n sollte ein Rechtssystem definieren und den Einheits→ → würfel aufspannen, also (iii) . Ferner sollte (ii) gelten, weil mit Wiederholung (..., − a ,...− a , ...) ein entarteter Spat aufgespannt wird, der n− dimensionales Volumen Null bekommen sollte. Schließlich die beiden zu (i) gehörenden Eigenschaften (Linearität in jedem Eingabeschlitz): Für den Faktor ist das sofort klar: Streckt man eine Kante eines Spats mit |λ| , so multipliziert sich das (n− dimensionale) Volumen mit |λ| . Multipliziert man einen der aufspannenden Vektoren mit einer negativen Zahl, so tritt zusätzlich Orien→ tierungsumkehr ein. Für die Addition (erster Teil) sieht man die Sache so: Wenn − a (oder einer der nicht aufgeführten Vektoren in den anderen Schlitzen) der Nullvektor ist, so ist die Gleichung klar, da dann − → → det(..., − a , ...) = 0 sein sollte (Entartung). Wenn das nicht der Fall ist, so kann man vom Vektor b jede → Vektor-Komponente abziehen, die nicht parallel zu − a ist, ohne das n− dimensionale Volumen zu ändern (Scherung, siehe weiter unten: Cavalieri-Prinzip). Dann aber ist die Aussage klar, es werden einfach zwei → Spate aneinandergesetzt, deren Volumina sich addieren (oder das eine ist bei anderer Richtung der − a− − → Komponente von b abzuziehen). Wir ziehen nunmehr einige Folgerungen aus der abstrakten Formulierung, die sowohl für die Deutung der Eigenschaft als auch für das praktische Rechnen sowie Anwendungen der Determinante wichtig sind. Anschließend beweisen wir die beiden Hauptresultate: Mit der angegebenen Definition ist det bereits eindeutig bestimmt, und es existiert auch eine solche Abbildung, die Leibnizformel gibt für diese Abbildung die korrekte Berechnung an. 8.0.1. Folgerungen aus den algebraischen Eigenschaften allein. F 6. − → − → − → → → (i) det(..., − a , ..., b , ...) = det(..., − a + λ b , ..., b , ...) − → − → → → (ii) det(..., − a , ..., b , ...) = − det(..., b ,..., − a ...) − → − → − → → (iii) det( a 1 , ..., a n ) = 0 ⇐⇒ a 1 , ..., − a n linear abhängig. Bemerkungen zum Verständnis: (i) ist das wichtige Cavalieri-Prinzip der Scherung. (ii) bedeutet die Umkehr des Vorzeichens (also der Orientierung) bei Vertauschung zweier der Eingabevektoren. (iii) gibt uns eine neue Charakterisierung der linearen Unabhängigkeit von n Vektoren im K n , die geometrisch verständlich ist (’Spat nicht entartet’.) Beweis: (i): Wir haben unter Ausnutzung von (i) und (ii) der Definition: − → − → − → − → − → → → det(..., − a + λ b , ..., b , ...) = det(..., − a , ..., b , ...) + det(..., λ b , ..., b , ...) − → − → − → → = det(..., − a , ..., b , ...) + λ det(..., b , ..., b , ...) − → → = det(..., − a , ..., b , ...). 8. DETERMINANTEN 131 Zu (ii): − → − → → → det(..., − a , ..., b , ...) + det(..., b , ..., − a , ...) − → − → − → − → − → → = det(..., a , ..., b + a , ...) + det(..., b , ..., − a + b , ...) Folg. (i) = (i) Def. − → − → → → det(..., − a + b , ..., − a + b , ...) = (ii) Def. 0 Zu (iii): Steht in einem der Eingabeschlitze, sagen wir ohne Beschränkung der Allgemeinheit im ersten, eine Linearkombination der Vektoren in den anderen Schlitzen, so haben wir: n n − → − → − → − → → det λ a , a , ..., a = λ det − a ,→ a , ..., − a = 0. k k 2 n k=2 k k 2 n k=2 8.0.2. Eindeutige Existenz von det und Leibniz-Berechnungsformel. Wir kommen nunmehr zu den angekündigten Hauptresultaten: S 64. det ist mit den Eigenschaften (i) − (iii) (’normierte alternierende n− fache Multilinearform’) eindeutig bestimmt. → → a n ∈ K n kann eindeutig durch Linearkombinationen der Beweis: Jeder Satz von Vektoren − a 1 , ..., − − → e i ausgedrückt werden, also: − − → → a = e λ . j i ij i → Damit hat die Matrix Λ = (λij )ij jeweils − a j als j. Spaltenvektor. → − − → − → − → → → e i λi1 , ..., e i λin λi1 ,1 · ... · λin ,n det − e i1 , ..., − e in det a 1 , ..., a n = det = i i Def. (i) i1 ,...,in Wir erläutern ein wenig die Hauptschritte: Der erste beruft sich auf die n− fache Linearität, also in jedem Eingabeschlitz. Wir erinnern uns, dass dies bedeutet: Distributiv rechnen, d.h. ’Jeder mit Jedem’. Genau das und das Herausziehen der Faktoren geschah mit dem Gleichheitszeichen mit Zusatz ’Def. (i)’. − → − → Aber mit Folgerung (ii) oben können wir det e , ..., e für den Fall i i i k = im für k = m schreiben 1 n → → als ± det − e 1 , ..., − e n , mit positivem Vorzeichen genau dann, wenn die Anzahl der benötigten Vertau→ − → schungen gerade ist. Ferner wissen wir bereits, dass det − e i1 , ..., e = = 0, falls i in k m für ein Paar − i− (k, m) → − → → − → mit k = m. Damit haben wir eindeutige Berechnung von det a 1 , ..., a n , auf det e 1 , ..., e n = 1 mittels der eindeutigen Zahlen λij zurückgeführt. Es ist nun zu beachten: Wir haben damit nur gezeigt, dass es nicht möglich ist, zwei verschiedene Abbildungen det zu haben, welche die gestellten algebraischen Forderungen erfüllen. Es könnten immer noch diese Forderungen widersprüchlich sein. Das Problem der Existenz lösen wir nun durch die Leibnizsche rechnerische Definition der Determinante und die Verifikation der verlangten Eigenschaften. Dazu müssen wir ein wenig ausholen. Wir erinnern daran, dass man eine Bijektion der Menge {1, 2, ..., n} oder allgemeiner einer Menge {a1 , .., an } mit ai = aj für i = j auf sich selbst eine Permutation nennt. Die Menge aller Permutationen von {1, ..., n} nennen wir Sn . Spezielle einfache Permutationen sind für n > 1 diejenigen, welche nur zwei Elemente i = j miteinander vertauschen, also Permutationen τ mit τ (i) = j, τ (j) = i, und alle übrigen festlassen, also τ (k) = k für alle k ∈ / {i, j}. Diese nennt man Transpositionen, wir schreiben τ i,j für die eben beschriebene Transposition, welche nur die Elemente i, j vertauscht. Dazu haben wir folgendes Resultat: L 2. Jede Permutation ist eine Hintereinanderschaltung von Transpositionen, und jede Permutation lässt sich stets nur entweder mit einer geraden oder einer ungeraden Anzahl von Transpositionen darstellen. Also ist eindeutig definiert: sign (σ) := 1, wenn σ Produkt einer geraden Zahl von Transpositionen ist −1, wenn σ Produkt einer ungeraden Zahl von Transpositionen ist. Beweis durch Induktion über n: Für n = 1 ist die Identität die einzige Permutation, sie ist leeres Produkt von Transpositionen, lässt sich also nur durch Null Transpositionen darstellen. (Wem das nicht so lieb ist, der fange mit n = 2 an.) Die Aussage gelte für n. Wir wollen folgern, dass sie dann auch für 132 5. LINEARE ALGEBRA n+1 gilt. Sei also σ eine Permutation der Menge {1, ..., n+1}. Erster Fall: σ(1) = 1. Dann gilt die Aussage nach Induktionsvoraussetzung für die Einschränkung σ ) von σ auf {2, ..., n+1}. Also ist σ ) als Produkt von Transpositionen zu schreiben, wobei auch eindeutig ist, ob das mit einer geraden oder ungeraden Anzahl von Transpositionen geht. Damit gilt dasselbe für σ - es ist nur noch σ (1) = 1 hinzuzufügen. Zweiter Fall: σ(1) = i > 1. Wir bilden nunmehr die Transposition τ 1,i . Dann ist α := τ 1,i ◦ σ eine Permutation von {1, ..., n + 1}, welche 1 festlässt, also α (1) = 1. Für α gilt nach dem ersten Fall wieder die Aussage des −1 Satzes. Nun haben wir aber σ = τ −1 1,i ◦ α = τ 1,i ◦ α. Denn τ 1,i = τ 1,i . Also ist mit α auch σ als Produkt von Transpositionen darstellbar. Weiter geht das nur entweder mit einer geraden oder einer ungeraden Zahl von Transpositionen. Denn wäre beides möglich, so hätte man mit α = τ 1,i ◦σ denselben Sachverhalt auch für α, was nach dem erledigten ersten Fall ausgeschlossen ist. Wir benötigen noch eine einfache F 7. sign (σ) = sign σ −1 für alle Permutationen σ. Beweis: Mit σ = τ n ◦ ... ◦ τ 1 , τ k Transposition für 1 ≤ k ≤ n, hat man −1 σ−1 = τ −1 1 ◦ ... ◦ τ n = τ 1 ◦ ... ◦ τ n . Also ist σ−1 durch dieselben Anzahlen von Transpositionen darstellbar wie σ. Nunmehr können wir eine geschlossene Formel für die Determinante angeben - und diese ’fällt nicht vom Himmel’, sondern ergibt sich zwangsläufig aus obenstehender Begründung der Eindeutigkeit von det . Wir brauchen nur mit dem Wissen über die Permutationen zu ergänzen: → → det − a 1 , ..., − an = = i1 ,...,in σ∈Sn = → → λi1 ,1 · ... · λin ,n det − e i1 , ..., − e in → → λσ(1),1 · ... · λσ(n),n sign (σ) det − e 1 , ..., − en sign (σ) n aσ(j),j . j=1 σ∈Sn Wir definieren nunmehr det durch diese Leibnizformel und zeigen dann, dass diese Abbildung eine alternierende Multilinearform ist mit der Normierungseigenschaft: D 46. Es sei definiert: det : Dann haben wir den (K n )n → − → − → a 1 , ..., a n → K sign (σ) σ∈Sn n 1 j=1 aσ(j),j . S 65. det ist normierte alternierende Linearform, erfüllt also die Eigenschaften (i) bis (iii). − → → → → Beweis: Zu (i): Es seien Spaltenvektoren − a j = (a1,j , ..., an,j )T gegeben. Ferner sei − a j0 = b j0 + − c j0 , − → alle anderen Schlitze stets mit a j besetzt für j = j0 . − → → det (A) = det ..., b j0 + − c j0 , ... = sign (σ) aσ(1),1 · ... · aσ(n),n = sign (σ) bσ(j0 ),j0 + cσ(j0 ),j0 aσ(j),j σ = σ sign (σ) bσ(j0 ),j0 j=j0 σ aσ(j),j + σ − → → = det ..., b i0 , ... + det ..., − c i0 , ... sign (σ) cσ(j0 ),j0 j=j0 j=j0 aσ(j),j 8. DETERMINANTEN 133 Noch einfacher sieht man: → det ..., λ− a j0 , ... = sign (σ) λaσ(j0 ),j0 aσ(j),j σ = λ j=j0 sign (σ) aσ(j0 ),j0 σ aσ(j),j j=j0 → = λ det ..., − a j0 , ... . → → a j1 gleich. Dann haben wir: Zu (ii): Seien die Spaltenvektoren − a j0 und − → → det − a 1 , ..., − an = sign (σ) aσ(j0 ),j0 aσ(j1 ),j1 aσ(j),j σ = j=j0 ,j1 sign (σ) aσ(j1 ),j0 aσ(j0 ),j1 σ aσ(j),j . j=j0 ,j1 Nunmehr betrachten wir zu jeder Permutation σ die Permutation σ ) := σ ◦ τ j0 ,j1 , mit der Transposition ) durch alle τ j0 ,j1 , welche j0 und j1 vertauscht und alle andern Elemente festlässt. Mit σ läuft auch σ Permutationen, ferner gilt sign () σ) = −sign (σ) . Schließlich hat man σ ) (j0 ) = σ (j1 ) und σ ) (j1 ) = σ (j0 ) , aber σ ) (j) = σ (j) für alle j = j0 , j1 . Somit → → det − a 1 , ..., − an = sign () σ) aσ) (j0 ),j0 aσ) (j1 ),j1 aj,)σ(j) σ = j=j0 ,j1 sign () σ) aσ(j1 ),j0 aσ(j0 ),j1 σ = − aj,σ(j) j=j0 ,j1 sign (σ) aσ(j1 ),j1 aσ(j0 ),j0 σ aj,σ(j) j=j0 ,j1 → → = − det − a 1 , ..., − a n = 0. → → → → Also det − a 1 , ..., − a n = 0, wenn für zwei Spaltenvektoren − a j0 = − a j1 mit j0 = j1 . Schließlich ist die Normierungseigenschaft (iii) sofort klar: n → → det − e 1 , ..., − en = sign (σ) δ σ(j),j = 1. σ∈Sn Denn für alle σ = id verschwindet das Produkt n 1 j=1 j=1 δ σ(j),j . 8.0.3. Weitere zentrale Eigenschaften der Determinante als Funktion von quadratischen Matrizen. Wir haben zunächst die einfache Beobachtung: S 66. det (A) = det AT . Beweis: Mit sign (σ) = sign σ−1 haben wir sofort: det (A) = σ sign (σ) n j=1 aσ(j),j = σ n n sign σ−1 aj,σ−1 (j) = sign (τ ) ai,τ (i) . = det AT . j=1 τ i=1 Dies bedeutet, dass es gleichgültig ist, ob wir die Determinante als Funktion der Spaltenvektoren oder der Zeilenvektoren ansehen. Die beiden Spate, welche von den Zeilenvektoren bzw. den Spaltenvektoren aufgespannt werden, haben also dasselbe orientierte Volumen. Es folgt auch, dass es gleichgültig ist, ob man n die definierende Leibnizformel so schreibt wie oben geschehen oder so: det (A) := sign (τ ) ai,τ (i) . τ ∈Sn i=1 Es kommt eine überaus bedeutsame Eigenschaft hinzu, die wir sehr leicht mit den abstrakten algebraischen Eigenschaften zeigen können, die uns aber im nächsten Abschnitt für das tiefere Verständnis der Determinante sehr nützlich wird: S 67 (Multiplikationssatz). Es gilt für A, B ∈ K n×n stets det(BA) = det (B) det (A) . 134 5. LINEARE ALGEBRA → Beweis: Es seien wie immer − e j , 1 ≤ j ≤ n, die Einheitsvektoren in K n . Ferner seien: − → aj − → bs : = : = n k=1 n s=1 Dann haben wir: − → bs = n j=1 − → a j µjs = n n j=1 k=1 − → e k λkj − → e k λkj , 1 ≤ j ≤ n, − → a j µjs , 1 ≤ s ≤ n. µjs = n k=1 n n − → − → λkj µjs = ek e k cks . j=1 k=1 Man beachte dabei, dass gemäß der Definition des Matrizenproduktes gilt: (cks )ks = (λkj )kj · µjs js . Nun wissen wir mit dem für die Eindeutigkeit von det verwandten Argument und der Leibnizformel: − → → − → → det b 1 , ..., b n = det ((cks )ks ) det − e 1 , ..., − e n = det ((cks )ks ) , und ebenso: − → → → − → → → = det µjs js det − a 1 , ..., − e 1 , ..., − det b 1 , ..., b n a n = det µjs js det (λkj )kj det − en = det µjs js det (λkj )kj . Insgesamt: det ((cks )ks ) = det µjs js det (λkj )kj . Nun waren aber (λkj )kj und µjs js beliebige (n × n) − Matrizen aus K n×n . Aus dem Multiplikationssatz ergibt sich sofort die 1 F 8. det A−1 = für invertierbare Matrizen A. det (A) Beweis: A−1 existiere, dann det A−1 det (A) = det (E) = 1, dividiere durch det (A) . 8.1. Die koordinatenfreie Bedeutung der Determinante, Determinante einer linearen Abbildung V → V . Wir sind nunmehr in der Lage, die komplette Deutung der Determinante zu geben: − → S 68. Wenn f : V → V lineare Abbildung ist (V wie immer endlichdimensional, Dimension sei − − → → , n), dann kann man korrekt unabhängig von jeder Basiswahl (!) definieren: det f := det Maa f − → mit irgendeiner Basis a von V. Ferner bedeutet der Betrag von det f das Volumenverhältnis: Volumen − → → − →→ → → des Spates, der von f − a 1 ), ... f (− a n aufgespannt wird, geteilt durch Volumen des von − a 1 , ..., − an − → → → aufgespannten Spates, für jede beliebige Basis − a 1 , ..., − a n . Das Vorzeichen von det f ist positiv, wenn − → − → f die Orientierung jeder Basis erhält, negativ, wenn f die Orientierung jeder Basis umdreht, und − → − → natürlich det f = 0 genau dann, wenn f nicht bijektiv ist. − → Beweis: Die Unabhängigkeit von det Maa f von der Basis a ergibt sich durch − − −1 a − → → → Mbb f = Tba Maa f Tab = Tab Ma f Tab , also − − − → → → 1 det Mbb f = det Maa f det Tab = det Maa f . b det (Ta ) − → Zur Deutung der Determinante det f als Verhältnis zwischen orientiertem Spatvolumen des Bildspates einer beliebigen Basis und orientiertem Spatvolumen des Basisspats: Wir setzen V = K n voraus. (Über 8. DETERMINANTEN 135 eine geeignete Koordinatenabbildung ist V mit K n identifizierbar, und die geometrische Bedeutung des orientierten Spatvolumes wird auch darüber übertragen.) Nun sei eine beliebige Basis für K n gegeben: → → a= − a , ..., − a . 1 n Weiter sei für alle 1 ≤ j ≤ n: n − − → − → − → f → aj = a k λkj , also (λkj )kj = Maa f .. k=1 Nun haben wir mit dem Argument, das wir auch beim Multiplikationssatz verwandten: − → → → − → → → det f − a 1 , ..., f − an = det (λkj )kj det − a 1 , ...− an − → → → = det f det − a 1 , ...− an . → → Mit det − a 1 , ...− a n = 0 also: − → → − → → − det f − a 1 , ..., f − an → − = det f . → det → a 1 , ...− an − → Der Streckungsfaktor für einen nicht ausgearteten Spat bei Anwendung von f ist also für alle Spate derselbe! 8.2. Entwicklungssatz für die Determinante quadratischer Matrizen. S 69 (von der Entwickelbarkeit a11 a12 a21 a22 det .. .. . . an+1,1 an+1,2 der Determinante nach der ersten Zeile). ··· a1,n+1 n ··· a2,n+1 (−1)1+j a1j det (A1j ) , = .. .. . . j=1 ··· an+1,n+1 wobei für 1 ≤ j ≤ n + 1 die (n × n) − Matrix A1j durch Streichen der 1. Zeile und der j. Spalte der Matrix A = (aij )1≤i≤n+1,1≤j≤n+1 entsteht. Bemerkung: Das Rechenschema dieser Definition heißt naheliegend: ’Entwicklung der Determinante nach der ersten Zeile’. Es ist im allgemeinen nicht praktisch, außer wenn man viele Nullen in der Matrix hat. Erst wenn wir die abstrakten algebraisch-geometrischen Eigenschaften besser kennenglernt haben, können wir recht praktisch Determinanten ausrechnen. Mit dem Induktionsanfang det (a) = a für die Determinante einer (1 × 1) − Matrix ergäbe das auch eine induktive Definition für det. Wir haben aber det durch die Leibnizformel definiert und ihre algebraischen Eigenschaften (Bedingungen (i) − (iii) für ’normierte alternierende Multilinearform’) eindeutig charakterisiert. Das setzt uns in die Lage, den Entwicklungssatz zu beweisen. Beweis des Satzes: Wenn die gesamte erste Zeile der Nullvektor ist, dann haben wir nichts zu zeigen, die Formel ist dann offenbar richtig. Wir dürfen weiter annehmen, dass a11 = 0 ist, weil wir sonst durch Spaltenvertauschung diese Eigenschaft erreichen, die wir anschließend wieder rückgängig machen können. Das Cavalieri-Prinzip (Folgerung aus (i) − (iii)) ergibt dann mit A = (aij )1≤i,j≤n+1 : a11 a12 ··· a1,n+1 a21 a22 ··· a2,n+1 det (A) = det .. .. .. .. . . . . = det an+1,1 a11 a21 .. . an+1,1 an+1,2 ··· an+1,n+1 0 a22 − an+1,2 − a12 a11 a21 .. . a12 a11 an+1,1 ··· ··· .. . ··· 0 a2,n+1 − a1,n+1 a11 a21 .. . an+1,n+1 − a1,n+1 a11 an+1,1 , 136 5. LINEARE ALGEBRA a12 wobei von der zweiten Spalte abgezogen wird: · erste Spalte, usw., schließlich von a11 a1,n+1 · erste Spalte. Aus der Leibnizformel ergibt sich nun unmittelbar a11 a11 0 ··· 0 a1,n+1 a12 a21 a − a · · · a − 22 21 2,n+1 a11 a11 a21 det .. .. . . .. .. . . a a12 an+1,1 an+1,2 − a11 an+1,1 · · · an+1,n+1 − 1,n+1 a11 an+1,1 a1,n+1 a12 a22 − a11 a21 ··· a2,n+1 − a11 a21 .. .. .. = a11 det , . . . a1,n+1 a12 an+1,2 − a11 an+1,1 · · · an+1,n+1 − a11 an+1,1 weil für alle Permutationen σ mit σ (1) = 1 der Ausdruck sign (σ) n+1 der n + 1. Spalte aσ(j),j = 0 wird. Wir bezeichnen j=1 − → − → ak die n Spalten der letzten Matrix mit b 2 , ..., b n+1 , die Faktoren für k = 2, ..., n + 1 mit λ, den ersten a11 − → Spaltenvektor der ursprünglichen Matrix ohne seine erste Komponente mit b 1 . Dann lässt sich die letzte Determinante so ausdrücken: − − → − → − → − → − → → det b 2 − λ2 b 1 , b 3 − λ3 b 1 , ..., b n+1 − λn+1 b 1 . Multilinear alternierendes Rechnen ergibt dann sofort: − → − → → − → − − → − → det b 2 − λ2 b 1 , b 3 − λ3 b 1 , ..., b n+1 − λn+1 b 1 − − n+1 → − → − → →(k) − →(k) − →(k) λk det b 2 , b 3 , ..., b n+1 , = det b 2 , b 3 , ..., b n+1 + k=2 wobei für 2 ≤ k, s ≤ n + 1 : − → b s für s = k . − → a 1 für s = k Aber damit haben wir, weil a11 · λk = a1k für k = 2, ..., n + 1 : − − → − − → − → → → − → a11 det b 2 − λ2 b 1 , b 3 − λ3 b 1 , ..., b n+1 − λn+1 b 1 − →(k) b s := − n+1 − → − → − → →(k) − →(k) − →(k) = a11 det b 2 , b 3 , ..., b n+1 + a1k det b 2 , b 3 , ..., b n+1 . k=2 Weiter gilt für alle k ≥ 2 : − − →(k) − →(k) − →(k) → − → − → det b 2 , b 3 , ..., b n+1 = (−1)k−1 det b 2 , b 3 , ..., b n+1 , − →(k) − →(k) − →(k) → weil man genau k − 1 Spaltenvertauschungen benötigt, um die Spalte − a 1 in b 2 , b 3 , ..., b n+1 nach vorn ’durchzuschieben’. Mit a11 = (−1)2 a11 und (−1)k−1 = (−1)k+1 sowie der Bezeichnung − − → − →(1) − →(1) − →(1) → − → b 2 , b 3 , ..., b n+1 := b 2 , b 3 , ..., b n+1 gewinnt man − n+1 − → − → − → →(k) − →(k) − →(k) a11 det b 2 , b 3 , ..., b n+1 + a1k det b 2 , b 3 , ..., b n+1 k=2 = n+1 k=1 Aber − →(k) − →(k) − →(k) (−1)k+1 a1k det b 2 , b 3 , ..., b n+1 . − →(k) − →(k) − →(k) b 2 , b 3 , ..., b n+1 = A1,k für k = 1, ..., n + 1, 8. DETERMINANTEN 137 wobei wie im Satz formuliert A1,k aus A entsteht durch Streichen der ersten Zeile und der k. Spalte. Den allgemeinen Entwicklungssatz können wir nun ohne Mühe folgern: F 9 (allgemeiner Entwicklungssatz). Man kann jede Determinante nach jeder Zeile oder auch Spalte entwickeln, es gilt also für A = (aij )1≤i≤n+1,1≤j≤n+1 stets, wenn wir mit Aij die Matrix bezeichnen, welche aus A durch Streichen der i. Zeile und j. Spalte entsteht: det (A) = det (A) = n j=1 n i+j aij det (Aij ) (Entwicklung nach der i. Zeile), und i+j aij det (Aij ) (Entwicklung nach der j. Spalte). (−1) (−1) i=1 Man beachte, dass im zweiten Fall über i summiert wird. Das Vorzeichenschema der Vorfaktoren (−1)i+j denke man sich wie folgt schachbrettartig: + − + − + − + − + .. .. .. . . . ··· ··· ··· .. . . Beweis der Folgerung: Es ist nur die Entwickelbarkeit nach allen Zeilen zu zeigen, für die Spalten folgt alles dann mit der bereits bewiesenen Formel det (A) = det AT . Es sei B = (bij )ij die Matrix, welche aus A durch Vertauschen der i0 . Zeile (i0 > 1) mit der 1. Zeile entsteht. Also b1j = ai0 j , bi0 j = a1j , für i = i0 , 1 ist bij = aij . Dann haben wir det (A) = − det (B) =∗ − = − n n (−1)1+j b1j det (B1j ) j=1 (−1)1+j ai0 j det (B1j ) . j=1 Nun entsteht Ai0 j aus B1j , indem man die i0 − 1. Zeile von B1j ganz nach oben durchschiebt, wofür man i0 − 1 Zeilenvertauschungen benötigt, also (−1)i0 −1 det (Ai0 j ) = det (B1j ) − n j=1 (−1)1+j ai0 j det (B1j ) = n (−1)i0 +j ai0 j det (Ai0 j ) . j=1 8.3. Zur praktischen Berechnung von Determinanten. Rekursive Definition oder Leibnizformel empfehlen sich nicht, die unsägliche ’Sarrusformel’ für (3 × 3) schon gar nicht. Sie ergeben allzu viele Terme, jedenfalls für n ≥ 3. Stattdessen kann man am besten das Cavalieriprinzip anwenden und zusätzlich Zeilen (Spalten) mit geeigneten Faktoren = 0 multiplizieren - dann muss man jedoch die Kehrwerte dieser Faktoren vor die Determinante der neuen Matrix schreiben, um den Wert der ursprünglichen Determinante nicht zu ändern. Auf diese Weise betreibt man Zeilen- oder Spaltenumformungen wie gewohnt, um Nullen zu schaffen und möglichst eine obere Dreiecksgestalt zu erzielen. Noch einmal die grundlegende Formel dafür (die aufgezählten Vektoren können die Spaltenvektoren oder auch die Zeilenvektoren der Matrix sein): − → 1 − → → → → det ...− a , ..., b , ... = det ...− a , ..., β b + λ− a , ... für β = 0. β Dazu ein Beispiel mit Beschreibung der Schritte (αzi + βzj bedeutet: Zeile zi wird durch die bezeichnete ersetzt): 138 5. LINEARE ALGEBRA 1 −2 1 2 1 3 det 3 1 1 −2 2 −1 1 1 0 3 = det 0 1 1 0 1 0 = det 0 0 1 0 = det 0 0 −2 1 1 5 1 1 z2 − 2z1 7 −2 −2 z3 − 3z1 −2 1 3 z4 + 2z1 1 1 −2 1 1 5 Zwei Spaltenvertauschungen, −2 −2 7 Wert bleibt gleich 1 3 −2 1 1 −2 1 1 5 0 0 17 z3 + 2z2 0 2 −7 z4 − z2 1 1 1 −2 0 1 1 5 = − det 0 0 2 −7 Eine Zeilenvertauschung, Wert kehrt sich um 0 0 0 17 = −34. In diesem Beispiel wurde die Kompensation für Faktoren, welche an der zu verändernden (!) Zeile angebracht werden, nicht benötigt. Dagegen wird man gesehen haben, dass die Vertauschungen von Spalten und einmal Zeilen sehr praktisch waren. Zur Verwendung der allgemeineren Zeilenumformungen folgendes Beispiel: 2 4 5 2 4 5 1 1 det 3 −3 −2 = · det 0 −18 −19 2z2 − 3z1 2 2 −5 7 3 0 34 31 2z + 5z 3 = 1 1 · 2 (−18 · 31 + 34 · 19) = 44 4 Hier wurde nicht zu Ende bis zur Dreiecksgestalt umgeformt, sondern nach Schaffen der beiden Nullen nach der ersten Spalte entwickelt. Man sah: durch die Zeilenumformungen wird der Wert der Determinante jeweils mit 2 multipliziert, dafür 12 · 12 vorgesetzt, um das Resultat nicht zu ändern. Zuweilen ist auch folgendes Resultat praktisch (’Blockmatrizen’): In der Bezeichnung bedeuten A und C quadratische Matrizen (nicht notwendig gleicher Dimension), C und die Nullmatrix passend, so dass insgesamt eine quadratische Matrix entsteht: A B = det (A) det (C) . det 0 C Beispiel: 1 −3 det 0 0 2 5 7 4 8 9 1 2 −2 3 = det det = −110. 0 −2 3 −3 4 1 4 0 1 4 8.4. Cramersche Regel. Es ist mittels der Determinante möglich, eine explizite Formel für die − → → → Lösung − x eines linearen Gleichungssystems A− x = b mit invertierbarer Matrix A anzugeben, das ist der Inhalt der folgenden Cramerschen Regel: − → → → S 70. Sei A invertierbar, − x die eindeutige Lösung von A− x = b . Dann ist mit den Matrizen Bi , − → bei denen die Spalten dieselben wie bei A sind, nur die i. Spalte durch den Vektor b ersetzt: → → xi = − x− ei = det (Bi ) . det (A) 9. EIGENW ERTE UND EIGENVEKTOREN; DIAGONALISIERUNG 139 − → − Beweis: Wir haben b = xi → xi det (Ci ) , wobei Ci a i , nun sei 1 ≤ i0 ≤ n. Dann det (Bi0 ) = i=1 i=1 → aus A dadurch entsteht, dass die i0 . Spalte durch − a i ersetzt wird. Somit sind alle Summanden Null bis auf den zum Index i0 (Auftreten zweier gleicher Spalten). Aber xi0 det (Ci0 ) = xi0 det (A) . Daher det (Bi0 ) = xi0 det (A) . Allerdings stellt diese Formel kein gutes Rezept für das praktische Lösen linearer Gleichungssysteme dar, weil zumal im Falle höherer Dimensionen die Determinantenberechnungen viel Mühe machen. 9. Eigenwerte und Eigenvektoren; Diagonalisierung Eine besonders einfache lineare Abbildung ist etwa − → f : Rn → Rn 1 0 0 − → → → x → A− x = 0 −2 0 − x. 0 0 3 1 0 0 Die Matrix A ist sofort invertierbar, die Inverse ist natürlich 0 − 12 0 . Das Lösen von Gleichungs1 0 0 3 → → → systemen und Weiteres wären ebenfalls besonders einfach. Die Vektoren − e 1, − e 2, − e 3 werden einfach auf − → − → − → − → − → − → Vielfache abgebildet: A e 1 = 1 · e 1 , A e 2 = −2 e 2 , A e 3 = 3 e 3 . Damit sind 1, −2, 3 Eigenwerte von A → und die − e i Eigenvektoren zu diesen Eigenwerten. So einfach geht es nicht immer, aber in wichtigen Fällen kann man eine Basis von Eigenvektoren finden, so dass die Matrix der linearen Abbildung wenigstens bezüglich dieser Basis die einfache Diagonalgestalt erhält. In einigen praktisch besonders wichtigen Fällen hat man sogar eine Orthonormalbasis von Eigenvektoren. Wir definieren systematisch: D 47. A = (aij )ij heißt Diagonalmatrix, wenn aij = 0 für i = j. Wir bezeichnen mit Diag (λ1 , ..., λn ) die Diagonalmatrix mit λi als Eintrag aii , 1 ≤ i ≤ n. − → D 48. Sei f : V → V linear, V Vektorraum über dem Körper K. Dann heißt λ ∈ K ein − → − → → − → → → → Eigenwert von f , wenn es einen Vektor − x ∈ V \ { 0 } gibt mit f − x = λ− x . Jeder solche Vektor − x − → heißt dann Eigenvektor zum Eigenwert λ von f . Hinweis: Der Nullvektor wird auf sich selbst abgebildet, er wäre ’Eigenvektor’ zu jedem Eigenwert, − → − → da λ 0 = 0 . Das bringt nichts, und darum wird der Nullvektor völlig aus der Betrachtung ausgeschlossen, wenn es um die Existenz von Eigenwerten geht. Wir haben folgende − − → → → → → B 6. Ist λ ein Eigenwert von f , so bildet − x ∈V f − x = λ− x einen Unterraum von − − → → V, den sogenannten Eigenraum zum Eigenwert λ von f , den man auch mit Eλ f bezeichnet. Dieser − → − → Raum hat mindestens Dimension 1, da er einen Vektor = 0 enthält. f hat Eigenwert Null genau dann, − → wenn der Kern von f nichttrivial ist, und dann ist der Kern der Eigenraum zum Eigenwert Null. − → → − → → − → → − → → Die Begründung ist sehr einfach: Mit f − x = λ− x und f − y = λ− y hat man f − x +→ y = → − → − → → − → → − → − → → → λ − x +→ y und f α− x = λ α− x . Weiter bedeutet f − x = 0− x mit − x = 0 , dass der Kern von f nichttrivial ist. D 49 (und Bemerkung). Eine lineare Abbildung heißt diagonalisierbar, wenn es eine Basis − − → → → → a gibt, so dass Maa f eine Diagonalmatrix ist. Dann gilt mit Maa f − e j = λj − e j , dass a eine − → − → Basis von Eigenvektoren ist. Umgekehrt: Wenn es eine Basis a von Eigenvektoren von f gibt, so ist f diagonalisierbar. − − → → S 71. Jeder Eigenwert von f ist Nullstelle von det f − λid . Dies Polynom heißt charakte− → ristisches Polynom von f . Konkret für Matrixabbildungen A : Rn → Rn oder auch Cn → Cn ist also p (λ) = det (A − λE) mit der Einheitsmatrix E das charakteristische Polynom. Es hat höchstens n Nullstellen, wenn n die Dimension von V ist. 140 5. LINEARE ALGEBRA → − − → → − → → → − → → → Beweis: f − x = λ− x bedeutet f − x − λid − x = 0 , aber − x = 0 wird für einen Eigenvektor − → verlangt, so dass ein solcher also im Kern von f − λid liegt, der daher nichttrivial ist für einen Eigenwert − − → → λ. Anders gesagt: die Determinante der Abbildung f − λid ist Null. Da det f − λid = det (A − λE) − → für jede f darstellende Matrix A und da det (A − λE) ein Polynom in λ vom Grade n = dim (V ) ist, hat man höchstens n Nullstellen. Es kann weniger Nullstellen geben, etwa darum, weil sie nicht im Körper liegen (so bei R), aber es können auch Eigenwerte als mehrfache Nullstellen auftreten. So etwas kann Diagonalisierbarkeit verhindern. Wir erinnern an den Fundamentalsatz der Algebra: Jedes Polynom mit komplexen Koeffizienten zerfällt über C in Linearfaktoren. Es fehlen in C also keine Nullstellen! Man beachte stets: Wenn die Rede ist von einer Matrix mit komplexen Einträgen oder von einem Polynom mit komplexen Koeffizienten, so ist damit auch der Spezialfall erlaubt, dass alle diese Zahlen reell sind; denn R ist eine Teilmenge von C. Wir benötigen für das Folgende die − → − → Beobachtung: det (A) oder det f sind auch definiert für A ∈ Cn×n bzw. f : V → V linear (genauer: C− linear), V endlichdimensionaler Vektorraum über dem Körper C, und zwar etwa durch die Leibnizformel. Dabei bleiben alle algebraischen Eigenschaften bestehen, es ist an deren Begründung → → a n ∈ Cn genau dann linear unabhängig, wenn kein Wort zu ändern. Insbesondere sind Vektoren − a 1 , ..., − − → − → det a 1 , ..., a n = 0. Beispiele: √ 1 2 1.) A = hat nur die komplexen Eigenwerte 1 ± j 2. Denn das charakteristische Polynom −1 1 ist 1−λ 2 p (λ) = det = (1 − λ)2 + 2 = λ2 − 2λ + 3, Nullstellen −1 1 − λ √ λ1,2 = −1 ± j 2. Daher kann diese Matrix über R nicht diagonalisierbar sein. Sie ist es aber über C. 1 −2 2.) B = hat das charakteristische Polynom λ2 − 2λ − 1, wie man nachrechne, damit −1 1 √ → → die Eigenwerte λ1,2 = 1 ± 2. Wir rechnen wiefolgtEigenvektoren dazu aus: Für A− x = λ− x ergibt sich x − → das Gleichungssystem, mit Ansetzen von x = : y x − 2y −x + y = λx = λy. Nun erinnern wir uns, dass mit einem bereits festgestellten Eigenwert sofort klar ist, dass dies Gleichungssystem eine Gerade als Lösungsmenge hat, so dass man nur eine Gleichung zu betrachten braucht. Ferner kann man für eine spezielle Lösung einfach x = 1 ansetzen. Das ergibt mit der ersten Gleichung: √ 1−λ y = , also für λ1 = 1 + 2 : 2 √ 1√ y = − 2, für λ2 = 1 − 2 : 2 1√ y = 2. 2 Damit haben wir speziell die Eigenvektoren √ 1√ zum Eigenwert 1 + 2, 1 − 2 2 √ 1 √ zum Eigenwert 1 − 2. 1 2 2 Die zugehörigen Eigenräume sind also die von diesen erzeugten eindimensionalen Unterräume (Ursprungsgeraden). Wir haben damit eine (nicht orthogonale !) Basis von Eigenvektoren, bezüglich der die Matrix 9. EIGENW ERTE UND EIGENVEKTOREN; DIAGONALISIERUNG 141 √ −1 1√ 1 1√ 1 1 −2 1+ 2 0√ √ √ die Diagonalgestalt = an−1 1 − 12 2 12 2 − 12 2 12 2 0 1− 2 nimmt. Die Matrix B ist also über R diagonalisierbar. (Für symmetrische Matrizen stellen wir später fest, dass es eine orthogonale Transformation zur Diagonalgestalt gibt. Das geht aber nur bei symmetrischen Matrizen.) 1 1 2 3.) C = hat charakteristisches Polynom (1 − λ) , also nur den einzigen Eigenwert 1. Aber 0 1 → nur die Vielfachen von − e 1 bilden E1 (C) . Also gibt es keine Basis von Eigenvektoren. Die algebraische Vielfachheit des Eigenwertes ist 2, aber die geometrische Vielfachheit (= Dimension des Eigenraums ist nur 1. So etwas bildet ein wesentliches Hindernis für Diagonalisierung, auch über C ist diese Matrix nicht diagonalisierbar. Wir wollen nunmehr die wesentlichen Verhältnisse allgemein feststellen: B 7. Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. Eine lineare Abbildung bildet ihre Eigenräume in sich selbst ab. Folgerung: Die geometrische Vielfachheit eines Eigenwertes, d.h. die Dimension des zugehörigen Eigenraums, kann höchstens so groß sein wie die algebraische Vielfachheit des Eigenwertes (wie vielfache Nullstelle des charakteristischen Polynoms er ist). − → → Beweis: Seien λ1 , ..., λr paarweise verschiedene Eigenwerte von f , − a i Eigenvektor zu λi , 1 ≤ i ≤ r. Induktion über r: Für r = 1 stimmt die Aussage. Induktionsvoraussetzung: Die Aussage gelte für r. Seien → nunmehr − a i Eigenvektoren zu λi , 1 ≤ i ≤ r + 1. Wären die Eigenvektoren linear abhängig, so hätte man r r − → → → → a r+1 = µi − µi λr+1 − a i , also λr+1 − a r+1 = a i , andererseits i=1 → λr+1 − a r+1 i=1 r r − − → − → − → → → = f a r+1 = f µi a i = µi λi − a i . Damit i=1 r i=1 → µi λr+1 − ai = r i=1 → µi λi − a i. i=1 → → a r laut Induktionsvoraussetzung) Koeffizientenvergleich (mit der linearen Unabhängigkeit von − a 1 , ..., − − → − → ergibt µi λi = µi λr+1 für alle 1 ≤ i ≤ r. Mit a r+1 = 0 muss wenigstens ein µi0 ungleich Null sein. Also λi0 = λr+1 . Das widerspricht aber der Voraussetzung, dass die Eigenwerte paarweise verschieden − → → seien. Zur zweiten Aussage: Jeder Eigenraum wird durch f in sich selbst abgebildet. Sei dann − g die − → − → Einschränkung von f auf diesen Eigenraum. Das charakteristische Polynom von g hat dann diesen Eigenwert als einzige Nullstelle, deren algebraische Vielfachheit die Dimension dieses Eigenraums ist. Der Eigenraum kann also keine höhere Dimension als diese Vielfachheit besitzen. S 72. Eine reelle (n × n) − Matrix ist genau dann über R diagonalisierbar, wenn alle ihre Eigenwerte reell sind und die algebraische Vielfachheit eines jeden Eigenwertes ebenso groß ist wie seine geometrische Vielfachheit (d.h. die Dimension des zugehörigen Eigenraums genau die algebraische Vielfachheit ist). Eine komplexe (n × n) − Matrix ist genau dann über C diagonalisierbar, wenn die algebraische Vielfachheit eines jeden Eigenwertes gleich seiner geometrischen Vielfachheit ist. Entsprechendes gilt allgemeiner für lineare Abbildungen endlichdimensionaler Vektorräume über R bzw. C in sich. Der Beweis ist einfach: Wenn die geometrische Vielfachheit jedes Eigenwertes gleich seiner algebraischen Vielfachheit ist, dann bildet man eine Basis von Eigenvektoren für den Gesamtraum, indem man Basen der Eigenräume vereinigt. Das gilt mit der linearen Unabhängigkeit der Eigenvektoren zu verschiedenen Eigenwerten und damit, dass die Summe der Dimensionen der Eigenräume gleich der Dimension des Gesamtraums ist. Praktisches Vorgehen bei der Untersuchung auf Diagonalisierbarkeit: 1. Schritt: Man stellt das charakteristische Polynom auf und berechnet dessen Nullstellen. Sollten komplexe Nullstellen dieses Polynoms bei reeller Matrix auftreten, so ist die Matrix jedenfalls nicht über R diagonalisierbar, sie kann es dann noch über C sein. 142 5. LINEARE ALGEBRA − → → 2. Schritt: Man löst das homogene lineare Gleichungssystem (A − λE) − x = 0 . für alle Eigenwerte λ von A (die nach dem 1. Schritt bekannt sind, samt deren algebraischen Vielfachheiten). Ordentliche Berechnung der Lösungsmenge in parametrisierter Form erlaubt müheloses Ablesen einer Basis jeweils für jeden Eigenraum. Nunmehr erkennt man mittels des vorigen Satzes, ob A diagonalisierbar ist (ob über R oder C). Im positiven Falle ist man im Besitz einer Basis a von Eigenvektoren, so dass T −1 AT = D eine Diagonalmatrix ist, wobei T = Tea . Wichtige Bemerkung zur Praktikabilität des ersten Schrittes: Wir wissen, dass es ohnehin nur für Polynomgrad bis 4 Formeln (mit vielen Wurzeln für n = 3, 4) zur Bestimmung der Nullstellen gibt - und nur geben kann. Dabei sind die Fälle n = 3, 4 auch bereits im allgemeinen Fall äußerst mühevoll. Also wird man für komplizierte Fälle numerische Arbeit mit dem Computer machen. Hier zwei einfache Beispiele, wie man sie noch gut von Hand rechnen kann, dies Vorgehen zu illustrieren: Erstes Beispiel: 3 0 0 A = −5 4 0 . 5 0 1 Man hat hier sofort das charakteristische Polynom: p (λ) = (3 − λ) (4 − λ) (1 − λ) . Das ist sofort faktorisiert (man sollte nicht etwa ausmultiplizieren, wir wollen doch gerade nur die Nullstellen wissen (!)), wir sehen also die drei verschiedenen reellen Eigenwerte sofort: 3, 4 und 1. Daraus folgt sofort, dass es eine Basis von Eigenvektoren gibt, weil kein Eigenwert als mehrfache Nullstelle auftritt. Mit Eigenvektoren − → → → → → → a 1 zu 3, − a 2 zu 4, − a 3 zu 1 hat die Matrix bezüglich der Basis a = − a 1, − a 2, − a 3 also die Diagonalgestalt 3 0 0 −1 (Tea ) ATea = 0 4 0 . 0 0 1 Wir verzichten hier auf die Berechnun solcher Eigenvektoren (Übung für die Leser). Zweites Beispiel: 3 0 0 B = −5 4 0 . 5 0 4 Wie im vorigen Beispiel sieht man die Eigenwerte, wieder sind sie alle reell, aber es sind nur zwei, 3 und 4, letzterer kommt als doppelte Nullstelle. Entscheidend für die Frage der Diagonalisierbarkeit (ob über R oder C - wenn die Matrix B nicht über R diagonalisierbar ist, so ist sie es auch nicht über C) ist hier: Ist der Eigenraum E4 (B) zweidimensional oder nicht? Wir rechnen ihn aus: x − → − → − → B x = 4 x ergibt im Einzelnen mit x = y : z 3x = 4x, also x = 0, −5x + 4y = 4y, also y frei wählbar, ebenso z frei wählbar. Beachten Sie: Die dritte Gleichung braucht man nicht mehr zu betrachten, sie folgt (das System in homogen!) aus den ersten beiden, die beide nichttrivial und unabhängig sind. Das Resultat: E4 (B) wird parametrisiert mit : 0 0 − → u (y, z) = y 1 + z 0 , y, z ∈ R. 0 1 − → − → − → Wir lesen also die Basis e 1 , e 2 für E4 (B) ab. Zur Übung kann man noch ausrechnen, dass a = 1 5 ein Eigenvektor zum Eigenwert 3 ist. (Ihr Rechenergebnis für eine Basis von E3 (B) muss ein −5 dieses Vektors sein.) Also ist B diagonalisierbar, und wie üblich lesen wir bezüglich der Basis Vielfaches − → → → e 1, − e 2, − a die Matrix D = Diag (4, 4, 3) ab. 10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 143 Drittes Beispiel: 4 0 0 C = −5 3 0 . 5 0 4 Das sieht sehr ähnlich aus wie B, es wurden nur die ersten beiden Diagonaleinträge vertauscht. Aber Vorsicht: Wir rechnen wieder E4 (C) aus und erhalten die Bedingungen −5x + 3y 5x + 4z = 4y, = 4z, also x = 0 und y = 0, z frei wählbar. Man beachte: Die erste aufzustellende Gleichung ergibt hier 4x = 4x, sie entfällt hier also als trivial. → Daher bildet − e 3 eine Basis für E4 (C) , und die Matrix C ist nicht diagonalisierbar. Eine praktische Warnung: Wenn Sie nicht im Überblick ganz sicher sind, so schreiben Sie die zu behandelnden homogenen Gleichungssysteme ordentlich hin und lösen sie schematisch mit Gaußverfahren. Das sollten Sie insbesondere für die gegebenen Beispiele einmal tun, wenn Sie die oben angeführten Bemerkungen zur schnellen Behandlung nicht ganz genau auf Anhieb verstanden haben. In rechnerisch komplizierteren Beispielen wird das vielfach erforderlich sein. 10. Symmetrische Bilinearformen, deren Diagonalisierbarkeit, Klassifikation von Quadriken 10.1. Symmetrische Bilinearformen, quadratische Formen und deren Matrixdarstellungen. Wir verfolgen das Thema der Diagonalisierbarkeit speziell weiter mit der Betrachtung symmetrischer reeller Matrizen. Vorbemerkung: Man achte darauf, dass im Zusammenhang dieses Abschnittes mit B stets eine symmetrische Bilinearform und nicht eine Matrix bezeichnet wird. Allerdings werden wir den Bilinearformen auch wieder Matrizen zuordnen und diese analog zum Fall der linearen Abbildungen bezeichnen mit M a (B) (a für die gewählte Basis wie zuvor). B ist also ein geometrisches Objekt, B wirkt auf ein Paar von Vektoren (nicht: Koordinatendarstellungen) und liefert dann eine reelle Zahl. D 50. Eine Matrix A = (aij )ij ∈ Rn×n heißt symmetrisch, wenn aij = aji für alle 1 ≤ i, j ≤ n gilt, d.h. wenn AT = A gilt. Dazu ist es jedoch günstig, ein wenig weiter auszuholen und nicht nur auf das positive Diagonalisierungsresultat direkt zu steuern. Denn solche Matrizen definieren interessante Objekte, die auch sonst vorkommen und eigenständige Bedeutung und vielfältige praktische Anwendungen haben. Außerdem lässt sich auch das spezielle Resultat durchaus besser verstehen im allgemeineren Rahmen. Schließlich werden wir auch eine spezielle geometrische Anwendung kennenlernen, die Klassifikation von Quadriken. Wir beginnen mit einer Beobachtung: S 73. Jede symmetrische Matrix A ∈ Rn×n definiert eine symmetrische Bilinearform auf Rn ×Rn , auf folgende Weise: n × Rn → R B: R − . → → → → x,− y → − x T A− y Dabei ist eine symmetrische → − Bilinearform definiert als bilineare Abbildung mit der zusätzlichen Eigen→ → schaft: B − x,− y =B − y ,→ x . Zum Verständnis wiederholen wir noch die Gültigkeit folgender Formeln: → − → B − x +→ y,− a → − → B − a ,→ x +− y → − B λ− x,→ y einmal die Eigenschaft der Bilinearität: Sie bedeutet für B → − → − = B − x,→ a +B − y,→ a , → − → − = B − a ,→ x +B − a ,→ y , → − → − = λB − x,→ y =B − x , λ→ y . Mit der Symmetrie würde es natürlich genügen, die Linearität nur in einem Eingabeschlitz zu verlangen. Das sind also gerade die vom reellen Skalarprodukt her bekannten Eigenschaften. Nur fehlt die Forderung 144 5. LINEARE ALGEBRA → − → − − → → der positiven Definitheit. B − x,→ x = 0 für − x = 0 und sogar B − x,→ x < 0 sind durchaus erlaubt und → kommen auch wirklich vor, für irgendwelche Vektoren − x . Allerdings hat man stets − − → − → → → → → B − x, 0 = B − x,0 · 0 = 0 ·B − x , 0 = 0. Der Beweis − → → B → a ,− x +− y → − B − a , λ→ x → − B − x,→ y → − B − x,→ y der Aussage des Satzes ist einfach: →T − → − →T − → − → − → → → → x + A− y =− a A→ = − aTA − x +→ y =− a A→ x +− a T A− x =B − a ,→ x +B − a ,→ y . → → − → → → x = λ− a T A− x =→ a T λA− x . Ferner zur Symmetrie: = − a T A λ− → − → − T − → → − → − → T − = x A y , also, da B x , y eine Zahl ist und somit B − x,→ y = B − x,→ y : − T − T − − → → → → − → → − → → → − → T − T T− TT T T− = x Ay = y A x = → = B x, y y A x = B y, x . → − − A=AT , x T T = x T Mit der Symmetrie folgt auch die Linearität im ersten Eingabeschlitz, so dass insgesamt auch die Bilinearität bewiesen ist. Umgekehrt kann man auch jede symmetrische Bilinearform auf Rn × Rn auf die angegebene Weise durch eine symmetrische Matrix A darstellen. Denn wie eine lineare Abbildung durch die Angabe der Bilder einer Basis eindeutig bestimmt wird, so auch eine bilineare Abbildung durch die Angabe der → − Bilder e i, → e j für alle von allen Paaren von Basisvektoren. Definiere dann einfach A = (aij )ij mit aij := B − i, j, bei Bilinearform. Tatsächlich hat man dann mit der Bilinearität von B für alle Vektoren → vorgegebener → − → → x = xi − y = yi − e i und − e i: i i y1 → − → − →T − B − x,→ y = x A→ xi yj B − e i, → ej = xi yj aij = (x1 , ..., xn ) A ... = − y. i,j i,j yn xi yj aij . Bei Hier sieht man auch den allgemeinen Rechenausdruck einer Bilinearform in Koordinaten: i,j der vorausgesetzten Symmetrie der Matrix A ist das gleich (xi yj + yj xi ) aij + xi yi aii . Wir sagen i<j i − → daher auch, weil A die Bilinearform B bezüglich der Basis e = → e 1 , ..., − e n darstellt: M e (B) = A, d.h. A stellt B bezüglich der Basis e dar. → − Man erhält M e (B) also einfach dadurch, dass man als Eintrag aij setzt: B − e i, → e j . Ebenso für jede → → andere Basis a: M a (B) = B − a i, − a j ij . → − → → → Anwendung einer Bilinearform auf − x =− y ergibt eine Abbildung − x → B − x,→ x , die einen eigenen Namen hat: D 51. Eine quadratische Form auf Rn ist eine Abbildung q: Rn − → x → R → , → → B − x,− x mit einer Bilinearform B. Also mit irgendwelchen Zahlen aij = aji : → → → → → → → q − x = xi xj aij = − x T A− x , für − x = xi − e i und − y = yi − e i. i,j i → → Die Matrix A stellt dann die Form q bezüglich der Basis e = − e 1 , ...− e n dar. i Bemerkung: Man kann B aus q zurückgewinnen, was nur darauf beruht, dass 1 + 1 = 2 = 0, was für alle Körper gilt, die nicht gerade aufbauend auf dem Körper {0, 1} mit 1 = 0 und 0 + 1 = 1 + 0 = 1 und 1 + 1 = 0, 1 · 0 = 0 · 1 = 0, 1 · 1 = 1 gebildet sind. Wir sagen auch: M e (q) = M e (B) = A = (aij )ij mit der symmetrischen Matrix A. Hier sehen wir, dass die Frage der Diagonalisierbarkeit von A (und diese ist positiv zu beantworten!) auch für symmetrische Bilinearformen und quadratische Formen interessant ist. Denn sie bringt durch Koordinatentransformation alle gemischten Terme xi yj aij bzw. xi xj mit i = j zum Verschwinden! Es bleibt also nur noch xi yi aii für die symmetrische Bilinearfom und x2i aii für die quadratische Form übrig. i i 10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 145 10.2. Koordinatentransformation bei Bilinearformen. Die entscheidende Einsicht rührt nunmehr daraus, die Koordinatentransformation einer Bilinearform bzw. quadratischen Form zu betrachten und mit der Koordinatentransformation einer linearen Abbildung - eine symmetrische Matrix stellt auch eine solche dar! - zu vergleichen. Dazu haben wir den S 74. Für eine symmetrische Bilinearform B und entsprechend für die zugehörige quadratische Form gilt folgende Transformationsregel: T M b (B) = Tab M a (B) Tab . Bemerkung 1: Die Formel gilt auch für beliebige (unsymmetrische) Bilinearformen, der Beweis wird auch dies zeigen. Die Formel gilt für jede Transformationsmatrix Tab , also auch für nichtorthogonale (und dann ist die Transponierte nicht die Inverse (!)). Bemerkung 2: Das Transformationsgesetz ist völlig anders als bei linearen Abbildungen, aber wenn T eine orthogonale Matrix ist, dann stimmen beide Gesetze ein: Diagonalisieren der Matrix A = M a (B) als Matrix einer linearen Abbildung ist dann dasselbe wie Diagonalisieren der Matrix Matrix einer symmetrischen Bilinearform. Beweis: Sei Tba wie immer die Matrix, welche eine Koordinatendarstellung eines Vektors bezüglich − − → → a in die bezüglich b umwandelt. Wir wissen, dass mit b j = a i λij gilt: Tba = (λij )ij . Sei M a (B) = i − T → B → a i, − a j ij = (aij )ij . Wir bezeichnen mit λTij die Zahl λji , so dass λTij genau die Zahl in Tab in − → − → : der i. Zeile und j. Spalte ist. Dann haben wir mit M b (B) = B b r , b s rs − → − → − → B b r, b s = λir λjs B − a i, → aj = λTri aij λjs . i,j i,j b Links steht der Eintrag in Zeile r und Spalte s von M (B) , rechts der Eintrag Zeile r und Spalte s T von Tab M a (B) Tab . Damit ist die behauptete Gleichung mit Indexkalkül nachgerechnet. Wir →können → → → die Sache aber auch so verstehen: Sei A = M a (B) . Dann hat man mit Vektoren − x,− y: B − x,− y = −1 − T −1 − → − →a T − → → → → A L A → ya . L x y , also mit übersichtlicherer Notation − x a für L−1 − x :B → x,− y = − x a Nun ist aber a a − − → →b − → → b− y a = L−1 y = Tab L−1 a b y = Ta y . Also auch − →b T − T T b T → xa = Tab − x = → xb Ta . Damit − − T b T T → − → → → − → − → B x, y = xa A ya = xb y b . Ta ATab − Das Transformationsgesetz ist völlig anders als bei linearen Abbildungen. Das liegt daran, dass eben zwei Eingabe- Koordinatenvektoren zu transformieren sind und im ersten Schlitz bei der Matrixform eben ein transponierter Koordinatenvektor, der wie gesehen mit der transponierten Transformationsmatrix umzuwandeln ist. Nehmen wir aber nunmehr an, dass Tba eine orthogonale Matrix ist: Dann ist die Inverse die Transponierte, also stimmen in diesem Falle beide Transformationsgesetze überein! Wenn es gelingt, eine symmetrische Matrix zu diagonalisieren mit einer orthogonalen Transformationsmatrix, dann hat man auch die zugehörige Bilinearform und quadratische Form diagonalisiert. Dies Resultat wollen wir nunmehr aufstellen. 10.3. Diagonalisierbarkeit reeller symmetrischer Matrizen über R. S 75. Eine reelle symmetrische Matrix A ∈ Rn×n hat nur reelle Eigenwerte, und es gibt eine Orthonormalbasis von Eigenvektoren, so dass mit der Matrix S, welche diese als Spaltenvektoren hat, Folgendes gilt: D = S −1 AS = S T AS ist Diagonalmatrix. Dabei ist D = Diag (λ1 , ..., λn ) , wobei alle λi Eigenwerte von A sind, aber auch Wiederholungen vorkommen, gemäß den algebraischen Vielfachheiten. → − → → → → Beweis: Da A symmetrisch ist, hat man − x · A− y = A− x ·→ y für alle − x,− y ∈ Rn . Aber wir wollen − → − → noch etwas mehr: Für Vektoren x , y ∈ Cn gilt sogar: 2− 3 2 → − 3 2→ − 3 → → x , A− y = A− x,→ y , mit dem Standard-Skalarprodukt − x,→ y auf Cn . 146 5. LINEARE ALGEBRA Denn 2− 3 → → x , A− y = xi yj aij = xi yj aij i,j i,j i,j i,j 2 − 3 → A→ x,− y = aij xj yi = aji xj yi (letztere Gleichung mit aij = aji . Die Summen sind gleich, nur die Indexbezeichnungen sind ausgetauscht. Sei nun λ ein Eigenwert von A, − → → x ein Eigenvektor dazu, λ und − x könnten komplex sein (!). Dann hat man: 2− 3 2→ − 3 2→ − 3 → → x , A− x = − x , λ→ x =λ − x,→ x , 2 − 3 2 → − 3 2→ − 3 → A→ x,− x = λ− x,→ x =λ − x,→ x . 2→ − 3 2 → − 3 2→ − 3 Nach dem Vorigen gilt − x , A→ x = A− x,→ x , also ist mit − x,→ x > 0 notwendig λ = λ. Somit ist jeder Eigenwert reell. Nunmehr zeigen wir, dass Eigenvektoren für verschiedene Eigenwerte von A senkrecht aufeinander → stehen. Seien also λ = µ zwei verschiedene (notwendig reelle) Eigenwerte von A und − x Eigenvektor zu − → λ, y Eigenvektor zu µ. Man hat: 2→ − 3 2→ − 3 2→ − 3 2 → − 3 2 → − 3 2→ − 3 2→ − 3 x,→ y =µ − x,→ y . λ − x,→ y = λ− x,→ y = A− x,→ y = − x , A→ y = − x , µ→ y =µ − 2→ − 3 → → Mit λ = µ ist das nur möglich, wenn − x,→ y = 0. Bemerkung: Da − x,− y ohnehin in Rn sind, kann man dasselbe2 auch einfacher 3 2→ mit 3dem reellen Skalarprodukt machen. Es ging darum, die ’Hinüberwälzeigen→ → → schaft’ A− x,− y = − x , A− y als die allein entscheidende hervorzuheben. Wir kommen zum letzten Punkt, dass auch keine algebraische Vielfachheit eines Eigenvektors größer als die geometrische (die Dimension des zugehörigen Eigenraums) sein kann: Sei λ ein Eigenwert von A, − → − → mit algebraischer Vielfachheit k. Wir wählen eine Orthonormalbasis b 1 , ..., b r für Eλ (A) und ergänzen − → − → diese mit c 1 , ..., c s zu einer Orthonormalbasis von Rn (’orthonormal’ auf das reelle Standardskalarproa e a T dukt bezogen). Nennen wir diese ganze Basis a. Dann − ist S = Te orthogonal, somit Ta = (Te ) . Daraus → − → − → − → folgt für die Darstellung von f x = A x : Maa f = S T AS. Man rechnet sofort nach, dass mit A T auch diese Matrix wieder symmetrisch ist: S T AS = S T AT S T T = S T AS. Nun beginnt die Matrix − → − → − → T r×r S AS links oben mit einer Diagonalmatrix Diag (λ, ...λ) ∈ R . Denn f b j = λ b j , 1 ≤ j ≤ r. Damit sind aber auch alle Einträge in den ersten r Spalten von S T AS Null, außer λ in der Diagonalen. Aus der Symmetrie von S T AS folgt damit, dass auch die Einträge in den ersten r Zeilen außerhalb der Hauptdiagonalen Null sind. Daher ist S T AS und somit S T AS − µE eine Blockmatrix: λ−µ 0 0 . 0 0 .. 0 S T AS − µE = , 0 0 λ−µ 0 B und man hat det (A − µE) = det S T AS − µE = (λ − µ)r · det (B) . det (B) ist ein Polynom in µ vom Grade n − r, und λ ist keine Nullstelle davon. Daraus folgt: r ist auch die algebraische Vielfachheit der Nullstelle λ von det (A − µE) . 10.4. Quadriken und deren Klassifikation mittels Hauptachsentransformation. D 52. Eine Quadrik ist die Lösungsmenge einer Gleichung → − − → q − x +→ x T b = c, − → mit einer Konstanten c, einem festen Vektor b ∈ Rn und einer quadratischen Form q auf Rn . Ausführlicher mit der Darstellung von q über eine symmetrische Matrix A ∈ Rn×n lautet die Gleichung: − → → − → → x T A− x + bT− x = c. 10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 147 − → → Wir stellen die Behandlung des Terms b T − x noch zurück und betrachten also nur Gleichungen → − → x = c. Eine solche Gleichung in Normalform zu bringen und damit die definierte Quadrik zu klasx T A− sifizieren, bedeutet gerade, die Matrix A zu diagonalisieren. Das kann nach dem vorigen Satz geschehen: → → S 76. Jede Quadrikengleichung − x T A− x = c (A symmetrisch) kann in die Form gebracht werden: T− T → S → x D ST − x = c. Dabei ist S eine orthogonale Matrix, und S = Teb , entsprechend S T = Teb mit einer Orthogonalbasis b. Diese Transformation heißt Hauptachsentransformation. Beweis: Nach dem vorigen Abschnitt hat man mit einer orthogonalen Matrix S, also S −1 = S T : D = S T AS, also A = SDS T . Damit gilt: → T− T → → → − → x= S → x =− x T SDS T − x D ST − x . x T A− Bemerkung: Zu beachten ist, dass es hier darum geht, die Gleichung in den neuen Koordinaten wesentlich → → einfacher zu formulieren, also − x T A− x in den neuen Koordinaten einfacher darzustellen. Daher S = Tbe mit der neuen Orthonormalbasis b, und daher muss man gewöhnlich S als (Tbe )−1 bestimmen, was jedoch einfach durch Transponieren geschieht. Zur Anwendung: b sei eine Orthonormalbasis, mit der A diagonalisiert wird. Eine solche findet man wie oben beschrieben: Eigenwerte von A, dann Orthonormalbasen für die Eigenräume, dann Zusammenfügen dieser Basen zu einer Orthonormalbasis des Gesamtraums. Nunmehr ist S T die Matrix Tbe . Sie macht aus den alten Koordinaten bezüglich der kanonischen Basis der Einheitsvektoren die neuen Koordinaten bezüglich b. b stellt ein ’Hauptachsensystem’ dar. In diesen neuen Koordinaten lautet nunmehr → → die Gleichung − x T A− x = c: T − → − → 0 x D0 x = c, → → 0 mit − x = S− x . Somit lautet die Gleichung für die Quadrik in den neuen Koordinaten: di x )2i = c, mit D = Diag (d1 , ..., dn ) . i Es sind also die gemischten Terme verschwunden. Der Vorteil: Es ist nunmehr recht leicht, zu erkennen, um welchen der Grundtypen von Quadriken es sich handelt, da die geometrische Deutung dieselbe bleibt, gleichgültig, welches Orthonormalsystem man wählt. Dabei zeigt sich, dass der Typ einer Quadrik wesentlich davon bestimmt wird, wie viele Eigenwerte Null, wie viele positiv und wie viele negativ sind. T − → − → Allerdings spielt auch die Konstante c in der Gleichung 0 x D0 x = c eine Rolle, die aber einfach einzuse- 2 hen ist. Beispielsweise hat die Gleichung x2 +y +z 2= 1 eine Kugeloberfläche als Lösungsmenge, dagegen 0 die Gleichung x2 + y 2 + z 2 = 0 nur den Punkt 0 als einzige Lösung, die Gleichung x2 + y2 + z 2 = −1 0 dagegen leere Lösungsmenge. Beispiel: Wir betrachten die Gleichung x2 − xy + y 2 = 1. Also q(x, y) = x2 + xy + y 2 . Dann liest man ab: 1 12 x q (x, y) = x y . 1 y 1 2 1 12 Wir bestimmen von der darstellenden symmetrischen reellen Matrix A = die Eigenwerte: 1 2 1 √ √ 1 12 1 −1 3 1 1 1 , das sind 2 und 2 , zugehörige Orthonormalbasis von Eigenvektoren ist 2 2 ,2 2 . 1 1 1 1 2 Aber um die geometrische Gestalt der Quadrik zu erkennen, benötigen wir nur die Eigenwerte: Jedenfalls 3 0 2 stellt die Matrix der quadratischen Form bezüglich eines neuen Orthonormalsystems dar. Also 0 12 lautet in den neuen Koordinaten die Gleichung für die Quadrik: 3 2 1 2 x ) + y) = 1, 2 2 148 5. LINEARE ALGEBRA √ und wir sehen, dass es sich um eine Ellipse handelt. Die Halbachsenlängen lauten: 2/3 und 2. Wenn wir nunmehr die geometrische Punktmenge haben wollen, welche durch die alte Gleichung beschrieben wird, so haben wir (Achtung!) die Matrix 1√ 1 −1 2 1 1 2 auf die achsenparallele Ellipse mit Mittelpunkt im Ursprung, x− Halbachsenlänge 2/3 und y− Halb√ achsenlänge 2 anzuwenden. Denn das neue Koordinatensystem ist das alte um π/4 entgegen dem Uhrzeigersinn gedreht. 2. Beispiel: 2 2 Aus √der Gleichung eine Glei√ 2 x + xy − y = 1 wird mit geeigneter Koordinatentransformation √ √ 1 1 1 1 2 chung 5) x − 5) y = 1, wie man allein an den Eigenwerten 5, − 5 der darstellenden Matrix 2 2 2 2 1 1 2 abliest. Daraus erkennt man, dass es sich um eine Hyperbel (mit zwei Ästen) handelt. Im 1 −1 2 neuen Koordinatensystem sieht sie so aus: 4 y 2 -4 0 -2 2 x 4 -2 -4 Im alten System ist sie wiederum gedreht: 4 y 2 -4 -2 0 2 x 4 -2 -4 3. Beispiel: Die Gleichung x2 + y 2 − z 2 + 2xy − xz = 1 hat für die quadratische Form q (x, y, z) = x2 + y 2 − z 2 + 2xy − xz die Matrixdarstellung 1 1 − 12 0 . A= 1 1 − 12 0 −1 Noch einmal zum direkten Ablesen: Die Koeffizienten bei x2 , y 2 , z 2 bilden die Einträge in der Hauptdiagonalen, die Hälfte (!) des Koeffizienten bei xy den Eintrag a12 = a21 , schließlich die Hälfte des Koeffizienten bei xz die Einträge a13 = a31 , ebenso für yz und den Eintrag a23 = a23 (im Beispiel ist das Null). Wir bestimmen die Eigenwerte: Numerisch finden wir mit dem Computer sofort zwei positive und einen negativen Eigenwert, was auf eine Grundgleichung in neuen Koordinaten der Form ax2 + by 2 − cz 2 = 1 mit positiven a, b, c führt. Das ist ein einschaliges Hyperboloid. 10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 149 10.5. Die wichtigsten Quadriken im R3 und ihre Standardgleichungen. Man beachte, dass in allen Fällen die grobe qualitative Gestalt nur von der Signatur und dem Feldwert auf der rechten Seite bestimmt wird. Außerdem mache man sich klar, dass eine andere Verteilung der Eigenwerte auf die Achsen nur einen Achsenaustausch bedeutet und dass die nachfolgend beschriebenen Gebilde einerseits in der Achsenrichtung (hier wurde die z− Achse jeweils dafür genommen) gestreckt oder gestaucht erscheinen sowie elliptische Querschnitte ausbilden können, wenn man andere Faktoren anbringt, welche die Signaturen nicht ändern (also Faktoren > 0 jeweils bei x2 , y2 , z 2 , z). Ferner ist daran zu denken, dass in allen Fällen die Flächen beschrieben werden durch die Gleichung, nicht etwa Körper. Erster Fall: Kein Eigenwert ist Null. Die interessanten Beispiele sind: Der (beidseitig unbeschränkte) Doppelkegel x2 + y2 - z2 = 0 (Signatur (2,1,0)) 2 1.5 1 0.5 z 0 -0.5 -1 -1.5 -2 1.5 1 2 1.5 0.5 1 0 0.5 -0.5 0 -0.5 -1 -1 -1.5 -1.5 Ellipsoid ax2 + by2 + cz2 = 1, a,b,c>0 (Signatur (3,0,0)) z 0.5 2.5 0 2 1.5 1 -0.5 0.5 0 -0.5 0.5 -1 x y -1.5 0 -2 -0.5 -2.5 Im gezeichneten Beispiel sollte man speziell erkennen: a = 1, b = 19 , c = 4. Man beachte: Die Halbachsenlängen eines Ellipsoids erkennt man besser in der folgenden Form der Gleichung: x 2 α + 2 2 y x + = 1, β γ 150 5. LINEARE ALGEBRA dann sind sie einfach (der Reihe nach für die Achsen): α, β, γ. Andererseits hat man mit einer Diagonalmatrix, welche die quadratische Form darstellt, unmittelbar die Gleichung in der Form ax2 +by 2 +cz 2 = 1 oder allgemeiner ax2 + by2 + cz 2 = d, d > 0. Dabei sind a, b, c gerade die Diagonalelemente. Dann produziert man leicht die Halbachsenform. Die Zahl d bewirkt offenbar ein √ Schrumpfen oder Strecken des Ellipsoids. Multiplikation von d mit 2 bewirkt z.B. eine Streckung mit 2 (in allen Richtungen). Einschaliges Hyperboloid x2 + y2 - z2 = 1 (Signatur (2,1,0)) 6 4 2 z 0 -2 -4 -6 6 4 6 2 4 0 2 0 -2 -2 -4 -4 -6 -6 Zweischaliges Hyperboloid x2 + y2 - z2 = - 1 (Signatur (2,1,0)) 3 2 1 z 0 -1 -2 -3 3 2 3 1 2 0 1 0 -1 -1 -2 -2 -3 -3 Zweiter Fall: Zwei Eigenwerte sind verschieden von Null, einer ist Null: 10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 151 Zylinder x2 + y2 = 1 Signatur (2,0,1) 1 0.8 0.6 0.4 z 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 1 0.5 0 -0.5 -1 -1 -0.8 -0.6 -0.4 -0.2 0.2 0 0.6 0.4 0.8 1 Allgemeiner ergibt sich mit Vorfaktoren ax2 +by 2 = 1 mit a, b > 0 ein elliptischer Zylinder. Dagegen mit der Signatur (1,1,1) ein hyperbolischer Zylinder: Hyperbolischer Zylinder x2 - y2 = 1 Signatur (1,1,1) 1 0.5 z 0 -0.5 -1 3 4 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 -4 152 5. LINEARE ALGEBRA → → Die weiteren interessanten Beispiele erhält man nur über den Zusatzterm − a T− x: Paraboloid x2 + y2 - z = 0 (Signatur (2,0,1)) 9 8 7 6 z 5 4 3 2 1 0 2 2 0 0 -2 -2 Allgemeiner ergibt sich ein elliptisches Paraboloid mit Vorfaktoren a, b > 0 und der Gleichung ax2 + by 2 − z = 0. Andere Feldwerte als Null führen offenbar zu keiner wesenlichen Veränderung, sondern nur zu einer Verschiebung längs der z− Achse. Hier folgt noch das Gegenstück, das von der Signatur (1, −1, 1) produziert wird mit linearem Zusatzterm, das hyperbolische Paraboloid: Hyperbolisches Paraboloid x2 - y2 - z = 0 (Signatur (1,1,1)) 10 8 6 4 z 2 0 -2 -4 -6 -8 -10 4 3 4 2 3 1 y 2 0 1 -1 0 -1 -2 -2 -3 -4 x -3 -4 − → Erklärung: Setzt man y = 0, so erhält man eine Parabel (- Kurve) mit Minimum in 0 . Setzt man x = 0, − → so ergibt sich eine Parabel mit Maximum in 0 . In diesem Punkt liegt also ein Sattel der Fläche vor. → → 10.6. Die allgemeine Quadrikengleichung. Wir wollen betrachten, was der Zusatzterm − a T− x in der allgemeinen Quadrikengleichung → → → → x +− a T− x =c (∗) − x T A− → bewirken kann. A ist dabei wie zuvor eine reelle symmetrische (n × n) − Matrix, und − a ist ein fester − → − → − → − → Vektor aus Rn , a T x also dasselbe wie das Skalarprodukt a · x . c ist eine feste Zahl. Zunächst stellen wir uns die Frage, wie die Gleichung (∗) nach Hauptachsentransformation aussieht. 10. SYM METRISCHE BILINEARFORMEN, DEREN DIAGONALISIERBARKEIT, KLASSIFIKATION VON QUADRIKEN 153 Wir haben mit einer orthogonalen Transformationsmatrix S nach dem Resultat über symmetrische reelle Matrizen: D = S T AS, D Diagonalmatrix. Damit gilt − → → A = SDS T , also mit 0 x := S T − x: T → 0 T − → → → − → → → → x T A− x = − x T SDS T − x. x = ST − x D ST − x =− x D0 → → Nunmehr drücken wir auch − a T− x im neuen System aus. S T ist eine orthogonale Matrix, also haben wir: → T − →T − → → → → a T− ). x =− a ·− x = ST − a · S → x = ST − a x Somit lautet die Gleichung (∗) in den neuen Koordinaten: T →T → → 0 0 (∗∗) − x D− x + ST − ) = c. a x →T ) bei schon diagonalisiertem rein quadraEs ist also nur noch einzusehen, was der Zusatzterm S T − a x T − → − → 0 0 tischem Term x D x mit diagonaler Matrix D bewirken kann. Es handelt sich um zwei Effekte: T − → − → 1.) Wenn ein Eigenwert Null bei D auftritt, also eine Komponente x )i in 0 x D0 x nicht vorkommt, so T− T → → kann sie durch S a x ) in die Gleichung hineinkommen, wenn eben die i. Komponente von S T − a nicht Null ist. Das haben wir etwa beim Übergang von der Zylindergleichung zur Gleichung eines Paraboloids gesehen. T − → − → → 0 2.) Für die Komponenten von 0 x , welche in 0 x D− x vorkommen, also nicht zu einem Eigenwert Null →T von D gehören, ergibt sich eine Verschiebung bzw. auch Streckung durch den Zusatzterm S T − a x ), wenn → die i. Komponente von S T − a nicht Null ist. Rechnerisch sieht man das so ein, dass man eine quadratische Ergänzung für den Term in x )i vornimmt. Wir zeigen das an einem einfachen Beispiel: (Wir denken uns die Transformation zu (∗∗) bereits ausgeführt, schreiben aber bequemer x, y statt x ), y). Die Gleichung laute dann x 2 2 x + 2y + 2 −1 = 1, gleichwertig y x2 + 2y 2 + 2x − y 2 1 2 (x + 1) + 2 y − 4 = 1, quadratisches Ergänzen ergibt = 17 . 8 Damit sehen wir: Es handelt sich um eine Ellipse, deren Mittelpunkt vom Ursprung weg verschoben ist. Außerdem sind die Halbachsen nicht mehr dieselben wie bei x2 + 2y 2 = 1, sondern sie sind gestreckt. Bringen wir die Gleichung noch auf endgültige Normalform, an der man alle Eigenschaften gut ablesen kann, so kommt über 2 8 16 1 2 (x + 1) + y− = 1 heraus: 17 17 4 2 2 y − 14 x+1 + 1√ = 1. 17/8 4 17 −1 Nunmehr ist abzulesen: Die Ellipse hat ihren Mittelpunkt in 5xM = und x− Halbachsenlän1 4 √ √ 17 1 1 2 2 ge 8 = 4 34 und y− Halbachsenlänge 4 17. Zuvor hatte man mit der Gleichung x + 2y = 1 √ Halbachsenlängen 1 und 12 = 12 2. 154 5. LINEARE ALGEBRA 11. Der Satz von Sylvester Wir haben gesehen, dass der Typ einer Quadrik wesentlich bestimmt wird von der Anzahl der positiven und der negativen Eigenwerte sowie der Vielfachheit des Eigenwertes Null der definierenden Matrix. Die Zusammenfassung dieser Information nennt man Signatur: → − → D 53. Sei A eine reelle symmetrische Matrix und q − x =→ x T A− x die zugehörige quadratische Form. Dann versteht man unter der Signatur von A bzw. q das Tripel (p, r, s) , wobei p die Anzahl der echt positiven Eigenwerte von A (> 0), r die Anzahl der echt negativen Eigenwerte von A (< 0) und s die Vielfachheit des Eigenwertes Null ist. Zum Verständnis: Die Signatur kann man nach Diagonalisierung (die nach unserem Hauptresultat stets möglich ist) ohne weiteres ablesen: p ist dann die Anzahl der Einträge auf der Hauptdiagonalen der Diagonalmatix, welche > 0 sind, usw. S 77 (von Sylvester). Sei A ∈ Rn×n eine reelle symmetrische Matrix. Sei Q ∈ Rn×n eine invertierbare Matrix. Dann haben A und QT AQ dieselbe Signatur. Zum Verständnis: Man beachte, dass hier nicht vorausgesetzt wird, dass Q eine orthogonale Matrix ist! Es könnte sich also bei den Spaltenvektoren von Q um ein beliebiges schwiefwinkliges System handeln. Beweis: Wir wissen bereits, dass mit A auch QT AQ eine symmetrische Matrix ist. Ferner hat der Kern in beiden Fällen gleiche Dimension, weil Q invertierbar ist. Schließlich wissen wir auch nach dem Satz über das Transformationsverhalten von symmetrischen Bilinearformen, dass wir eine Bilinearform B auf Rn ×Rn haben, von welcher A und QT AQ nur zwei verschiedene Matrizendarstellungen sind, bezüglich zweier verschiedener Basen. Ferner können wir durch abermalige (nunmehr orthogonale!) Transformationen beide Matrizen (A und QT AQ) diagonalisieren. Also haben wir zwei Orthonormalbasen von Rn : − → − → → − → → → a 1 , ..., − a p , b 1 , ..., b r , − c 1 , ..., − c s, − → − → − → − → → → ′ ′ ′ ′ − ′ a 1 , ..., a p′ , b 1 , ..., b r′ , c 1 , ..., − c ′s , wobei sie erste zur Diagonalisierung von A gehöre, die zweite zur Diagonalisierung von QT AQ. Und zwar − → − → → → sollen die − a 1 , ..., − a p zu positiven Eigenwerten gehören, die b 1 , ..., b r zu negativen Eigenwerten und die − → − → c 1 , ..., c s zum Eigenwert Null. Analog für die zweite Basis und die Eigenwerte von QT AQ. Daher: (p, r, s) = ′ ′ (p , r , s) = Signatur von A, Signatur von QT AQ. Wir wissen bereits, dass die Blöcke zum Eigenwert Null gleich lang sein müssen. Was wir für den Satz zu zeigen haben, ist: p = p′ und damit auch q= q ′ . Für die erwähnte Bilinearform B gilt nunmehr: − → − − → − → → B → a i, − a i = αi > 0 für 1 ≤ i ≤ p, B b j , b j = β j < 0 für 1 ≤ j ≤ r, B − c k, → c k = 0 für alle − → − → − → 1 ≤ k ≤ s. Ferner B − a i, → a j = 0 für i = j, B b i , b j = 0 für i = j. Völlig entsprechend für die − →′ − → − → zweite Orthonormalbasis: B − a i, → a ′i = α′i > 0 für 1 ≤ i ≤ p′ , B b ′j , b ′j = β ′j < 0 für 1 ≤ j ≤ r′ , − →′ − →′ − → − → B − c k, → c ′k = 0 für alle 1 ≤ k ≤ s. Ferner B − a i, → a ′j = 0 für i = j, B b ′i , b ′j = 0 für i = j. Wir zeigen nun: − → − → − → → a 1 , ..., − a p , b ′1 , ..., b ′r′ ist ein linear unabhängiges System. 11. DER SATZ VON SYLVESTER 155 Setzen wir nämlich an: p → λi − ai+ i=1 B p B i=1 − → µj b ′j = − → 0 , so ist i=1 p → λi − ai i=1 → λi − a i, i=1 p ′ r p → λi − ai → λi − ai i=1 → λi − a i, p i=1 p ′ = − r i=1 = B − = p i=1 ′ λ2i αi i=1 − → µj b ′j , also = r ′ r i=1 − → µj b ′j , − λ2i αi , B − ′ r i=1 ′ r i=1 − → µj b ′j . Aber − → µj b ′j , − ′ r i=1 r′ − → µj b ′j = µ2j β ′j , also j=1 µ2j β ′j . Da nun alle αi > 0 und alle β j < 0, ist notwendig: j=1 λi = 0 für alle i, und µj = 0 für alle j. Dies zeigt die behauptete lineare Unabhängigkeit. Daraus folgt aber: p + r′ ≤ n − s, und somit p + r′ ≤ p′ + r′ = n − s. Also p ≤ p′ . Andererseits hätten wir ebenso gut die Rollen beider Basen vertauschen und zeigen können: p′ ≤ p. Damit haben wir insgesamt p = p′ und wegen p + r + s = n = p′ + r′ + s auch r = r′ . Daher sind die Signaturen von A und QT AQ gleich. Dieser Satz begründet die Möglichkeit, den Typ einer Quadrik auch bereits über eine nichtorthogonale Transformation zu bestimmen. 11.1. Positiv definite und negativ definite symmetrische Matrizen. Es ist insbesondere bei den symmetrischen Hessematrizen, welche in die Näherung 2. oder höherer Ordnung von Skalarfeldern eingehen (vgl. Mathematik B) recht wichtig, folgende Eigenschaften symmetrischer Metrizen zu betrachten: → D 54. Eine reelle symmetrische Matrix A bzw. die zugehörige quadratische Form q − x = − → → → → → → x T A− x bzw. auch die zugehörige symmetrische Bilinearform B − x,− y =− x T A− y heißt − → → → → x > 0, positiv definit, wenn für alle − x = 0 gilt: − x T A− − → − → − → → T − negativ definit, wenn für alle x = 0 gilt: x A x < 0. Beispiele: → → 1.) Das Standardskalarprodukt hat die symmetrische Matrix E (Einheitsmatrix), und − x T E− x = − → → − → − → T− 2 x x = x · x , das ist in Koordinaten xi und größer als Null, wenn wenigstens eine der Zahlen xi i ungleich Null ist. Das war gerade dieEigenschaft des Standardskalarproduktes, positiv definit zu sein. 1 0 → → 2.) Die Matrix A = ist weder positiv, noch negativ definit, weil − e T1 A− e 1 = 1 und 0 −1 − → → T − e 2 A e 2 = −1. Solche nennt manauch ’indefinit’. 1 0 → → 3.) Die Matrix A = ist ebenfalls weder positiv, noch negativ definit, weil − e T1 A− e1 = 1 0 0 − → − → und e T A e = 0. 2 2 An den Beispielen bemerken wir, dass es bei Diagonalmatrizen sehr einfach ist, die Eigenschaft positiver / negativer Definitheit abzulesen: Eine Diagonalmatrix ist offenbar genau dann positiv definit [bzw. negativ definit], wenn sämtliche Einträge auf der Diagonalen größer sind als Null [bzw. kleiner als Null]. Setzen wir unser Hauptresultat der Diagonalisierbarkeit symmetrischer reeller Matrizen ein, so erhalten wir mit dieser einfachen Beobachtung folgenden 156 5. LINEARE ALGEBRA S 78. Eine reelle symmetrische Matrix A (bzw. die zugehörige quadratische Form und Bilinearform) ist genau dann positiv definit [negativ definit], wenn alle Eigenwerte von A größer als Null [kleiner als Null] sind. Beweis: Wir haben mit einer orthogonalen Transformationsmatrix S: D = S T AS, mit einer Diagonalmatrix D, und dabei sind die Diagonaleinträge von D genau die Eigenwerte von A. Aber eine Diagonalmatrix ist offenbar (s.o.) genau dann positiv definit [negativ definit], wenn alle Diagonaleinträge größer sind als Null [kleiner als Null]. Tatsächlich kann man über die positive Definitheit einer symmetrischen Matrix auch entscheiden, ohne Eigenwerte berechnen zu müssen, mit folgendem Jacobischem Kriterium: S 79 (Jacobi-Kriterium für positive Definitheit reeller symmetrischer Matrizen). Es sei A ∈ Rn×n symmetrisch, und es seien die Matrizen Ak für 1 ≤ k ≤ n die jeweiligen quadratischen Untermatrizen aus Rk×k , welche aus A durch Streichen der letzten n − k Zeilen und Spalten entstehen, also Ak := (aij )1≤i,j≤k mit A = (aij )1≤i,j≤n . Dann gilt: A ist positiv definit ⇐⇒ ∀1 ≤ k ≤ n : det (Ak ) > 0. Bemerkung: Natürlich bekommt man die negative Definitheit einer symmetrischen reellen Matrix B heraus über die (gleichwertige!) positive Definitheit von −B. Beispiel zur Anwendung: Für 1 2 −1 A= 2 6 4 −1 4 24 haben wir der Reihe nach: det (A1 ) = det ((1)) = 1 > 0, 1 2 det (A2 ) = det = 4 > 0, 2 6 1 2 −1 4 det (A3 ) = det (A) = det 2 6 −1 4 24 1 0 0 = det 2 2 6 = 46 − 36 = 10, −1 6 23 also ist A positiv definit, und oben steht die gesamte benötigte Rechnung, leicht von Hand zu machen. Man beachte, wie mühsam die Berechnung der Eigenwerte hier gewesen wäre. Das charakteristische Polynom ist χ (λ) = λ3 −31λ2 +153λ−10, und die Eigenwerte sind näherungsweise - ein Compteralgebraprogramm liefert auch das bequem: 6. 624 677 8 × 10−2 , 6. 071 477 24. 862 276 tatsächlich alle > 0. Entsprechend ist −A eine negativ definite Matrix.