Mathematik für Studierende der Physik oder der Ingenieurwissenschaften Skriptum für eine zweisemestrige Vorlesung Version 2.2, 12.09.2014 Universität Würzburg Institut für Mathematik Richard Greiner Vorwort In dieser zweisemestrigen Vorlesung sollen möglichst zügig die wichtigsten mathematischen Grundlagen für ein erfolgreiches Studium in Physik oder einem ingenieurwissenschaftlichen Studiengang gelegt werden. Aus zwei Gründen meine ich, dass es keinen Sinn ergibt, dies durch die Vermittlung reines Methodenwissens zu bewerkstelligen. Einerseits halte ich das reine Vermitteln von Rechenrezepten eines Universitätsstudiums unwürdig, andererseits ist es letztlich uneffektiv. Genau so wie die Naturwissenschaften dadurch mächtig werden, dass sie die verschiedenen Phänomene der Natur durch wenige grundlegende Gesetze zu beschreiben vermögen (man denke z.B. an die Newtonschen Gesetze auf denen die Klassische Mechanik fußt), wird die Mathematik mächtig und universell nutzbar, wenn man ihre Grundlagen kennt und sich nutzbar zu machen vermag. Um diese beiden Ziele zu verwirklichen, ist ein Spagat notwendig, bei dem ich manchmal dem effektiven und letztlich insgesamt zeitsparenden Aufbau der Grundlagen den Vorzug gebe (beispielsweise werden die komplexen Zahlen recht bald eingeführt). Meistens aber sollen die notwendigen mathematischen Methoden rechtzeitig zur Verfügung stehen. Ich hoffe, dass dies weitgehend gelingt, und fordere Sie auf, das notwendige Arbeitstempo mitzumachen. Von den vielen guten Büchern zur Mathematik in Natur- oder Ingenieurwissenschaften halte ich für den Einstieg von Fischer und Kaul in ihre „Mathematik für Physiker“ [FiKau, Band 1] für den zuvor genannten Zweck am geeignetsten und orientiere mich weitgehend daran. Ein eigenes Vorlesungsskript soll trotzdem angeboten werden, damit Sie eine optimale Arbeitsgrundlage haben und weil auch insgesamt ein anderer Stoffumfang zu bereitzustellen ist. Wie sie das Skript nutzen, bleibt letztlich Ihnen selbst überlassen. Wann immer es sich anbietet werde ich in der Vorlesung vorführen, wie Sie durch Computeralgebra- oder Numerik-Programme Unterstützung beim Arbeiten bekommen können. Hierbei ist die Beschränkung R letztlich willkürlich, entspricht aber den Gegebenheiten vor Ort. Verlassen Sie sich auf Mathematica nicht gedankenlos auf derartige Hilfsmittel, sonst sind Sie verlassen. Wenn Sie aber wissen, was sie wollen, d.h. wenn Sie die Hintergründe verstanden haben, so werden Sie bei der Verwirklichung Ihres Ziels mit derartiger Software eine kräftige Hilfe bekommen. Auch wenn Mathematikerinnen und Mathematiker oft für abgehoben gehalten werden, so ist nach meiner Überzeugung alles, was sie machen, darin verwurzelt zu verstehen, was hinter ganz konkreten Begebenheiten unsers Lebens, unserer Umwelt steckt. In diesem Sinne ist Mathematik — wie Hans-Otto Peitgen sagt — „die Antwort des Menschen auf die Komplexität der Welt“. Und nun: viel Freude an der Mathematik! Würzburg, den 12.09.2014 Richard Greiner Zum Gebrauch Das Skript ist gegliedert nach Kapiteln, Paragraphen, Abschnitten und Nummern. Innerhalb eines Kapitels wird mit §x.y.z auf Paragraph x, Abschnitt y, Unterabschnitt z verwiesen. Bei Verweisen innerhalb eines Paragraphen genügt ein Verweis der Form y.z. Sätze und wichtige Begriffe sind kursiv gedruckt. Für ein vorläufiges Verständnis nicht so wichtige Teile sind mit ∗ gekennzeichnet. Sie können beim ersten Lesen übergangen werden. Ist ein ganzer Abschnitt mit ∗ gekennzeichnet (dies sind in Kapitel 4 §§6.4∗ ) und in Kapitel 5 §§7. 4∗ ) so ist dieser als reine Ergänzung gedacht. Danksagung Mein herzlicher Dank geht an alle Vorlesungsteilnehmerinnen und -teilnehmer der Mathematik für Studierende der Physik im Studienjahr 2007/2008, die mich auf Fehler oder Unklarheiten im Vorgängerskript hingewiesen oder Verbesserungsvorschläge gemacht haben und mit denen ich ein tolles Vorlesungsjahr ii INHALTSVERZEICHNIS verbringen durfte. Ebenso danke ich den Vorlesungsteilnehmerinnen und -teilnehmern der Mathematik für Studierende der Ingenieurwissenschaften in den Studienjahren 2010/2011 und 2011/2012 bzw. der Mathematik für Studierende der Physik oder Informatik im Studienjahren 2012/2013 und 2013/2014 sowie Anja Schlömerkemper für ihre Hinweise und Verbesserungsvorschläge. iii Inhaltsverzeichnis 1 Grundlagen §1 §2 §3 §4 1 Natürliche, ganze, rationale und reelle Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 Aussagen und Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 Was sind Zahlen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 Addition und Multiplikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 Natürliche Zahlen und vollständige Induktion . . . . . . . . . . . . . . . . . . . . . 6 6 Rationale Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 7 Intervalle, beschränkte Mengen, Maximum und Minimum . . . . . . . . . . . . . . 12 8 Beweistechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Vollständigkeit der reellen Zahlen, Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1 Supremum und Infimum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2 Folgerungen aus dem Supremumsaxiom . . . . . . . . . . . . . . . . . . . . . . . . 15 3 Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4 Nullfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 5 Sätze über Nullfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 6 Konvergente Folgen, Grenzwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 7 Intervallschachtelung und Dezimalbruchentwicklung . . . . . . . . . . . . . . . . . 24 8 Konvergenznachweis ohne Kenntnis des Grenzwerts . . . . . . . . . . . . . . . . . . 26 9 Uneigentliche Grenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Komplexe Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 1 Rechnen mit komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2 Gaußsche Zahlenebene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3 Folgen komplexer Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Unendliche Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1 Partialsummen, Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2 Konvergenzkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3 Umordnung von Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 iv INHALTSVERZEICHNIS 2 Elementare Funktionen §1 §2 §3 §4 46 Grundlegendes über Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 1 Zum Funktionsbegriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2 Wichtige Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3 Funktionen im Reellen oder Komplexen . . . . . . . . . . . . . . . . . . . . . . . . 49 Exponentialfunktion und Verwandte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 1 Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2 Exponentialfunktion im Reellen und natürlicher Logarithmus . . . . . . . . . . . . 52 3 Allgemeine Potenzen und Logarithmen . . . . . . . . . . . . . . . . . . . . . . . . . 54 4 Hyperbelfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5 Exponentialfunktion im Komplexen und trigonometrische Funktionen . . . . . . . 58 Algebraische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 1 Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2 Rationale Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3 Weitere algebraische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 1 Grundlegendes über Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2 Zusammensetzen von Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3 Vektorrechnung §1 §2 §3 §4 79 Grundlegendes zur Vektorrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 1 Skalare und vektorielle Größen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 2 Geometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Vektorrechnung im R 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 1 Die Ebene als Vektorraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2 Geraden und Strecken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 3 Matrizenkalkül für (2 × 2)-Matrizen, Gruppen . . . . . . . . . . . . . . . . . . . . . 85 4 Abstand, Länge, Winkel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5 Orthogonalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 6 Längen- und winkelerhaltende Abbildungen . . . . . . . . . . . . . . . . . . . . . . 89 Vektorrechnung im R n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 1 Vektorräume und euklidische Vektorräume . . . . . . . . . . . . . . . . . . . . . . 91 2 Euklidische Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3 Orthonormalsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Spezialitäten der Vektorrechnung im R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 1 Vektorprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 2 Spatprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3 Drehungen im Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 INHALTSVERZEICHNIS 4 Analysis, vornehmlich in einer Variablen §1 §2 §3 §4 §5 §6 v 111 Grundlegendes über Raum, Zeit und Funktionen . . . . . . . . . . . . . . . . . . . . . . . 111 1 Folgen von Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 2 Kurven, Skalar- und Vektorfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 3 Topologisches Vokabular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Grenzwerte bei Funktionen und Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 1 Grenzwerte bei Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 2 Spezielle Grenzwerte bei Funktionen, Landau-Symbole . . . . . . . . . . . . . . . . 121 3 Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4 Abbildungsverhalten stetiger Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 129 Differentialrechnung in einer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 1 Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 2 Umgang mit differenzierbaren Funktionen . . . . . . . . . . . . . . . . . . . . . . . 134 3 Abbildungsverhalten differenzierbarer Funktionen . . . . . . . . . . . . . . . . . . . 139 4 Höhere Ableitungen und Taylor-Entwicklung . . . . . . . . . . . . . . . . . . . . . 140 5 Bestimmung von Extremwerten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 6 Weitere Anwendungen der Differentialrechnung . . . . . . . . . . . . . . . . . . . . 148 7 Partielle Ableitungen bei Funktionen mehrerer Variablen . . . . . . . . . . . . . . 152 Integralrechnung in einer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 1 Integration von Treppenfunktionen und integrierbare Funktionen . . . . . . . . . . 156 2 Hauptsatz der Differential- und Integralrechnung . . . . . . . . . . . . . . . . . . . 165 3 Integrationstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 4 Geometrie von Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 5 Skalare und vektorielle Kurvenintegrale . . . . . . . . . . . . . . . . . . . . . . . . 180 6 Gradientenfelder, Rotation und Divergenz . . . . . . . . . . . . . . . . . . . . . . . 183 Elementar lösbare gewöhnliche Differentialgleichungen . . . . . . . . . . . . . . . . . . . . 191 1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 2 Differentialgleichungen mit getrennten Variablen . . . . . . . . . . . . . . . . . . . 193 3 Lineare Differentialgleichungen erster Ordnung . . . . . . . . . . . . . . . . . . . . 197 4 Einfache Substitutionstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Vertauschung von Grenzübergängen, uneigentliche Integrale . . . . . . . . . . . . . . . . . 200 1 Punktweise und gleichmäßige Konvergenz . . . . . . . . . . . . . . . . . . . . . . . 200 2 Vertauschungssätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 3 Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 4∗ Laplace-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 vi INHALTSVERZEICHNIS 5 Lineare Algebra §1 §2 §3 §4 §5 §6 §7 218 Lineare Abbildungen, Vektorräume, Dimension . . . . . . . . . . . . . . . . . . . . . . . . 218 1 Wovon handelt die lineare Algebra? . . . . . . . . . . . . . . . . . . . . . . . . . . 218 2 Basis und Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 Lineare Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 1 Umgang mit linearen Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 2 Darstellung linearer Abbildungen durch Matrizen . . . . . . . . . . . . . . . . . . . 226 3 Grundlegender Matrizenkalkül . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 4 Basiswechsel, Koordinatentransformation und Darstellungsmatrizen . . . . . . . . 236 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 1 Lösbarkeit, Struktur des Lösungsraums . . . . . . . . . . . . . . . . . . . . . . . . 238 2 Gauß-Elimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 1 Beispiele und Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 2 Eigenschaften der Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 Eigenwerttheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 1 Das Eigenwertproblem bei Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . 255 2 Eigenwerttheorie bei linearen Operatoren . . . . . . . . . . . . . . . . . . . . . . . 260 Vektorräume mit Skalarprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 1 Bilinear- und Sesquilinearformen, quadratische Formen . . . . . . . . . . . . . . . . 263 2 Skalarprodukte, euklidische und unitäre Vektorräume . . . . . . . . . . . . . . . . 266 3 Orthogonale und unitäre Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . 269 4 Symmetrische und hermitesche Abbildungen, Hauptachsentransformation . . . . . 272 5 Matrizenexponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 Fourier-Analysis und Hilbert-Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 1 Fourier-Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 2 Hilbert-Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 3 Kontinuierliche Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . . . 299 4∗ Wavelet-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 INHALTSVERZEICHNIS 6 Analysis in mehreren Variablen §1 §2 §3 vii 313 Differentialrechnung in mehreren Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . 313 1 Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 2 Umgang mit differenzierbaren Funktionen . . . . . . . . . . . . . . . . . . . . . . . 319 3 Reellwertige Funktionen: Gradient und Richtungsableitungen . . . . . . . . . . . . 322 4 Taylor-Entwicklung und lokale Extrema . . . . . . . . . . . . . . . . . . . . . . . . 325 5 Lokale Umkehrbarkeit und Koordinatentransformationen . . . . . . . . . . . . . . 331 6 Implizite Funktionen und Lösungsmannigfaltigkeiten . . . . . . . . . . . . . . . . . 336 7 Lokale Extrema mit Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . 342 Integralrechnung in mehreren Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 1 Das Lebesgue-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 2 Berechnung von Integralen durch sukzessive Integration . . . . . . . . . . . . . . . 352 3 Transformationsformel für Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . 355 Integralsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 1 Oberflächenintegrale und Integration auf Hyperflächen . . . . . . . . . . . . . . . . 360 2 Der Satz von Gauß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368 3 Der Satz von Stokes im Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 Literaturverzeichnis 373 Index 375 1 Kapitel 1 Grundlagen §1 Natürliche, ganze, rationale und reelle Zahlen Es wirkt vielleicht seltsam, dass wir unsere Beschäftigung mit der Mathematik nicht gleich mit etwas Neuem und „Nützlichem“ beginnen, sondern mit den altbekannten Zahlen. Da Sie aber nicht nur einfach Rechenrezepte kennenlernen sollen (deren richtige Anwendung im High-Tech-Bereich ohne weiteres Zutun mehr Glück als Methode darstellt) sondern auch immer wissen müssen, wann welches Rezept eingesetzt werden kann und — falls es mehrere zur Wahl gibt — welches schneller zum Ziel führt, ist es doch recht nützlich, erst einmal kurz und knapp die grundlegenden Informationen über Zahlen zusammenzustellen. So erhalten Sie hoffentlich eine solide Ausgangsbasis, auf die Sie sich bei Unsicherheiten ggf. berufen können. 1 Aussagen und Mengen Wir geben keine Einführung in Aussagenlogik und Mengenlehre. Mathematische Schlussweisen werden wir zunächst an Beispielen kennenlernen und die wichtigsten von ihnen in Abschnitt 7 zusammenstellen. 1.1 Aussagen. Eine mathematische Aussage bezieht sich immer auf einen bestimmten Gegenstandsbereich der Mathematik und ist immer entweder wahr oder falsch: „tertium non datur “. So ist die Aussage „die Gleichung x + 2 = 1 ist lösbar“ wahr in der Theorie der ganzen Zahlen, aber falsch in der Theorie der natürlichen Zahlen. Sind A und B zwei Aussagen, so bilden wir die Aussagen ¬A (nicht A, Verneinung), A ∧ B (logisches und ), A ∨ B (logisches oder ), A ⇒ B (Implikation, aus A folgt B), A ⇔ B (Äquivalenz , A ist äquivalent zu B) gemäß der folgenden Wahrheitstafeln. A w f ¬A f w A B w w w f f w f f A∧B w f f f A B w w w f f w f f A∨B w w w f A B w w w f f w f f A⇒B w f w w A B w w w f f w f f A⇔B w f f w In der Alltagssprache wird das Wort „oder“ anders als im mathematischen Sprachgebrauch manchmal auch in der Bedeutung „entweder oder“ benutzt. Zur Implikation ist anzumerken, dass aus etwas Falschem alles gefolgert werden kann („ex falso quodlibet“). Die Aussage „Wenn ich mit Lichtgeschwindigkeit fliege, werde ich grün.“ ist wahr, da die Voraussetzung „ich fliege mit Lichtgeschwindigkeit“ immer falsch ist. 1.2 Mengen. Der Begriff „Menge“ hat Mathematiker lange beschäftigt. Georg Cantor verstand „unter einer Menge M jede Zusammenfassung von bestimmten wohlunterschiedenen Objekten m unserer Anschauung oder unseres Denkens (welche Elemente von M genannt werden) zu einem Ganzen“. Dass solch 2 §1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN ein Definitionsversuch problematisch ist zeigt die Russellsche Antinomie. In einer populären Form ist sie die Geschichte eines Barbiers in einem Ort, der von sich selbst behauptet, er rasiere alle Männer in dem Ort, nur nicht die, die sich selbst rasieren. Rasiert sich dieser Barbier nun selbst oder nicht? 1.3 Darstellung von Mengen. Wir bezeichnen Mengen gewöhnlich mit Großbuchstaben. Wichtige Mengen sind R, die Menge der reellen Zahlen, Q, die Menge der rationalen Zahlen, Z, die Menge der ganzen Zahlen, N, die Menge der natürlichen Zahlen 1, 2, 3, . . ., N0 , die Menge der Zahlen 0, 1, 2, 3, . . .. Wir werden diese Mengen in den folgenden Abschnitten genauer kennenlernen. Wenn m zur Menge M gehört, so schreiben wir m ∈ M , andernfalls m ∈ / M . Die wichtigsten Darstellungsarten von Mengen sind • das Auflisten der Elemente in einer Mengenklammer {. . .}, • die Beschreibung durch eine Aussageform: ist E(x) eine Aussageform, so bezeichnet {x ∈ M | E(x)} die Menge aller x ∈ M , für die E(x) wahr ist, • die Darstellung durch einen Funktionsausdruck: {f (x) | x ∈ M } ist die Menge aller Zahlen der Form f (x) mit x ∈ M . Überlegen Sie sich, welche Darstellungsformen in den folgenden Beispielen jeweils verwendet werden. {n ∈ N | n ist eine einstellige ungerade Zahl} = {1, 3, 5, 7, 9} {x ∈ R | x2 = 1} = {−1, 1} {x ∈ N | x2 = 1} = {1} {2k + 1 | k ∈ N0 } = {1, 3, 5, . . .} Bei der Auflistung der Elemente einer Menge kommt es nicht auf die Reihenfolge und auch nicht auf Wiederholungen an. Daher gilt {1, 3, 1, 2} = {1, 2, 3}. 1.4 Umgang mit Mengen. Sind M und N zwei Mengen, mit x ∈ M für jedes x ∈ N , so nennen wir N eine Teilmenge von M und schreiben N ⊂ M . Der Fall N = M ist dabei mit eingeschlossen. Manchmal schreibt man auch N ⊆ M , um zu betonen, dass bei einer Inklusion Gleichheit zugelassen ist, andernfalls N ( M . Beispielsweise gilt N ⊂ N0 ⊂ Z ⊂ Q ⊂ R und wir werden einsehen, dass alle diese Inklusionen echt sind. Wir nennen M ∩ N := {x | x ∈ M ∧ x ∈ N } den Durchschnitt von M und N , M ∪ N := {x | x ∈ M ∨ x ∈ N } die Vereinigung von M und N , M r N := {x | x ∈ M ∧ x ∈ / N } das Komplement von N bezüglich M . Ist die Aussage E(x) für kein x ∈ M wahr, so heißt die Menge {x ∈ M | E(x)} leer und wird mit ∅ bezeichnet. Beispielsweise gilt {x ∈ R | x2 = −1} = ∅. Wir vereinbaren, dass die leere Menge Teilmenge einer jeden Menge ist und bezeichnen sie immer mit ∅. Um Probleme wie die Russellsche Antinomie zu vermeiden, werden wir nur mit Mengen umgehen, die als Teilmengen einer festen Grundmenge aufgefasst werden können. Dabei muss immer klar sein, welcher Natur die Elemente sind und wann zwei Elemente gleich sind. Beispielsweise hat M := { 11 , 12 , . . . , 19 , 21 , 22 , . . . , 29 , . . . , 91 , 92 , . . . , 99 , } 81 verschiedene Elemente, wenn wir selbige als Schreibfiguren auffassen. Fassen wir gilt 11 = 22 = 33 = . . ., 12 = 24 = . . ., usw. und nm o N := ∈ Q | m, n ∈ {1, 2, . . . , 9} n ist eine ganz andere Menge als M . Wieviele Elemente hat N ? m n als Bruch auf, so KAPITEL 1. GRUNDLAGEN 2 3 Was sind Zahlen? Richard Dedekind sagt: „Die Zahlen sind freie Schöpfung des menschlichen Geistes, sie dienen als ein Mittel, um die Verschiedenheit der Dinge leichter und schärfer aufzufassen. Durch den rein logischen Aufbau der Zahlen-Wissenschaft und durch das in ihr gewonnene stetige Zahlen-Reich sind wir erst in den Stand gesetzt, unsere Vorstellung von Raum und Zeit genau zu untersuchen, indem wir dieselben auf dieses in unserem Geiste geschaffene Zahlen-Reich beziehen.“ Diese Sichtweise markiert einen Endpunkt in der Jahrtausende alten Entwicklung des Zahlbegriffs und führt ihn auf Prinzipien der Mengenlehre und Logik zurück. Ohne uns über die Details auszulassen können wir also akzeptieren, dass es die reellen Zahlen gibt. Sie werden vollständig beschrieben durch einen Satz von grundlegenden Regeln (Axiomen), die sich in drei Gruppen gliedern. • Die Körperaxiome legen die Rechenregeln für Addition „+“ und Multiplikation „·“ fest. • Die Ordnungsaxiome regeln die Verwendung von „<“ und erlauben uns, die reellen Zahlen als Punkte auf der Zahlengeraden vorzustellen. • Das Supremumsaxiom stellt sicher, dass es genügend viele (und gleichzeitig nicht zu viele) reelle Zahlen gibt. Für Messungen, Größenangaben in Biologie, Chemie, Informatik und Physik oder für Rechnungen im Alltag genügen eigentlich die rationalen Zahlen, welche genau so wie die reellen Zahlen die Körperaxiome und die Ordnungsaxiome erfüllen. Es stellt sich aber heraus, dass sie schon zur Beschreibung einfacher geometrischer Sachverhalte nicht ausreichen. Erst ihre Ergänzung zu den reellen Zahlen durch Hinzunahme des Supremumsaxioms ermöglicht die Differential- und Integralrechnung, die (in Verbindung mit der Geometrie) maßgeblich dafür verantwortlich ist, dass Mathematik zur Sprache für alle Natur- und Ingenieurwissenschaften und darüber hinaus geworden ist, oder umgekehrt, dass das Nachdenken der Menschheit über verschiedene Phänomene der Natur auf einheitliche Wurzeln führt: Mathematik ist die Antwort des Menschen auf die Komplexität der Welt. Wir werden uns in den restlichen Abschnitten dieses Paragraphen zunächst nur mit den Körper- und den Ordnungsaxiomen beschäftigen. Dabei wiederholen wir knapp den aus der Schule bekannten Umgang mit Gleichungen und Ungleichungen, indem wir die grundlegenden Rechenregeln (eben die Körperund Ordnungsaxiome) angeben und weitere aus ihnen ableiten. Mit dem Supremumsaxiom und seinen Konsequenzen beschäftigen wir uns dann in §2. 3 Addition und Multiplikation 3.1 Körperaxiome. Für das Addieren und das Multiplizieren reeller Zahlen gelten die folgenden grundlegenden Gesetze. Sie werden Körperaxiome genannt. (A1) Kommutativgesetze: a + b = b + a und a · b = b · a. (A2) Assoziativgesetze: (a + b) + c = a + (b + c) und (a · b) · c = a · (b · c). (A3) Distributivgesetz : (a + b) · c = (a · c) + (b · c). (A4) Neutrale Elemente: a + 0 = a und a · 1 = a wobei 0 6= 1. (A5) Inverse Elemente: Zu jedem a existiert genau eine Zahl, bezeichnet mit −a, mit a + (−a) = 0. Zu jedem a 6= 0 existiert genau eine Zahl, bezeichnet mit a−1 , mit a · a−1 = 1. Wie üblich vereinbaren wir, dass Punktrechnung vor Strichrechnung geht und dass der Malpunkt unterdrückt werden kann. Statt (a · c) + (b · c) können wir also ac + bc schreiben. Für a + (−b) schreiben wir a − b, für ab−1 auch a/b oder ab . Die Rechenoperationen Subtraktion und Division lassen sich also auf die Addition und die Multiplikation zurückführen. 4 §1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN 3.2 Rechenregeln. Alle weiteren Rechenregeln können aus den Körperaxiomen (A1)–(A5) abgeleitet werden. Wir illustrieren dies an drei Beispielen. (a) Die Gleichung a + x = b hat die eindeutige Lösung x = b − a. Die Gleichung ax = b hat für a 6= 0 die eindeutige Lösung x = b/a. Es gilt nämlich (A1) (A2) (A5) (A4) a+x = b ⇔ (a+x)−a = b−a ⇔ (x+a)−a = b−a ⇔ x+(a−a) = b−a ⇔ x+0 = b−a ⇔ x = b−a. Dies zeigt nicht nur die Existenz einer Lösung von a + x = b (Schlussrichtung „⇐“), sondern auch deren Eindeutigkeit (Schlussrichtung „⇒“). Für die Gleichung ax = b argumentiere man analog und überlege sich, an welcher Stelle die Bedingung a 6= 0 benötigt wird. (b) 0 · a = 0. Denn aus (A4) folgt 0 = 0 + 0 und damit (A4) (A4) (A3) 0 · a + 0 = 0 · a = (0 + 0) · a = 0 · a + 0 · a. Wie in (a) gezeigt, hat aber die Gleichung 0 · a + x = 0 · a genau eine Lösung. Also muss 0 · a = 0 gelten. (c) Aus ab = 0 folgt a = 0 oder b = 0. Gilt nämlich ab = 0 und ist a 6= 0, so folgt mit (a) sofort b = 0. Ähnlich kann man weitere Rechenregeln wie −(−a) = a, (−a) + (−b) = −(a + b), (a−1 )−1 = a für a 6= 0, a−1 b−1 = (ab)−1 für a, b 6= 0 oder a(−b) = −ab herleiten. 3.3 Körper. Sind a = m n und b = p q mit m, n, p, q ∈ Z und n, q 6= 0 rationale Zahlen, so auch a+b= mq + np nq und ab = mp . nq Man sagt: Q ist abgeschlossen bezüglich Addition und Multiplikation. Außerdem gelten für rationale Zahlen die Axiome (A1)–(A5). Allgemein nennt man eine Menge K einen Körper , wenn auf K zwei Operationen „+“ und „·“ (d.h. zwei Vorschriften, die je zwei Elementen a, b ∈ K eindeutig bestimmte Elemente a + b ∈ K und a · b ∈ K zuordnen) erklärt sind, welche die Körperaxiome (A1)–(A5) erfüllen. Neben R und Q gibt es noch weitere Körper, z.B. den Minikörper {0, 1} aus zwei Elementen, in dem Addition und Multiplikation durch folgende Tafeln erklärt sind. + 0 1 · 0 1 0 0 1 0 0 0 1 1 0 1 0 1 In §3 werden wir die komplexen Zahlen kennenlernen und einsehen, dass auch sie einen Körper bilden. 3.4 Teilbarkeit in Z. Die ganzen Zahlen bilden keinen Körper. Sie erfüllen zwar (A1)–(A4) und (A5) für die Addition, aber nicht (A5) für die Multiplikation. Man kann das auch so formulieren, dass die Gleichung ax = b in Z nicht immer lösbar ist. Sind a und b ganze Zahlen, so sagen wir „a teilt b“ (in Zeichen a|b), wenn a 6= 0 und die Gleichung ax = b eine Lösung x ∈ Z besitzt, d.h. wenn ab ∈ Z. Eine ganze Zahl b heißt gerade, wenn 2|b. Gerade Zahlen lassen sich in der Form 2k mit k ∈ Z schreiben. Mit Hilfe von (A1)–(A3) erkennt man, dass Summen und Produkte gerader Zahlen wieder gerade Zahlen sind. Eine ganze Zahl heißt ungerade, wenn sie nicht gerade ist. Offenbar ist jede Zahl der Form 2k + 1 mit k ∈ Z ungerade, da (2k + 1)/2 = k + 21 ∈ / Z. In 5.6 zeigen wir, dass jede ungerade Zahl so dargestellt werden kann. Kam Ihnen der Minikörper aus 3.3 seltsam vor, insbesondere das „1 + 1 = 0“? Nun, ersetzen Sie in den Tafeln für Addition und Multiplikation 0 durch „gerade“ und 1 durch „ungerade“. Die Tafeln liefern Ihnen dann gerade die bekannten Regeln für das Addieren und Multiplizieren von gerade und ungeraden Zahlen. Also ist der Minikörper auch nützlich. Überlegen Sie sich, welche Teile der Axiome (A1)–(A5) für die natürlichen Zahlen bzw. N0 erfüllt sind. 5 KAPITEL 1. GRUNDLAGEN 4 Ungleichungen 4.1 Ordnungsaxiome. Der Umgang mit Ungleichungen für reelle Zahlen wird durch die folgenden grundlegenden Gesetze beschreiben. (A6) Trichotomiegesetz : Es gilt immer genau eine der Beziehungen a < b, a = b, b < a. (A7) Transitivitätsgesetz : Aus a < b und b < c folgt a < c. (A8) Monotoniegesetze: Aus a < b folgt a + c < b + c für jedes c. Aus a < b und c > 0 folgt ac < bc. Für b < a schreiben wir auch a > b. Gilt a < b (a > b) oder a = b, so schreiben wir a ≤ b (a ≥ b). Ist a > 0 (a < 0), so nennen wir a positiv (negativ ). 4.2 Geordnete Körper. Auch die Axiome (A6)–(A8) sind keine exklusive Spezialität von R, sie gelten auch in Q. Wir nennen einen Körper K geordnet, wenn auf ihm eine Relation „<“ (d.h. eine Regel, die für beliebige a, b ∈ K angibt, ob die Aussage a < b wahr oder falsch ist) erklärt ist, welche die Axiome (A6)–(A8) erfüllt. Während R und Q geordnete Körper sind, kann der zweielementige Minikörper aus 3.3 nicht geordnet werden. Würde nämlich eine Anordnung existieren, so wäre wegen 0 6= 1 (gemäß (A4)) nach dem Trichotomiegesetz entweder 0 < 1 oder 1 < 0. Im Fall 0 < 1 folgt aus dem Monotoniegesetz 1 = 0+1 < 1+1 = 0, im Fall 1 < 0 folgt analog 0 < 1. Wir erhalten also in jedem Fall einen Widerspruch zum Trichotomiegesetz, der Minikörper kann nicht angeordnet werden. 4.3 Rechenregeln. Wie schon bei den Körperaxiomen erhalten wir aus den Ordnungsaxiome eine Fülle von abgeleiteten Rechenregeln. Wir geben die wichtigsten an, beweisen aber nicht alle. Versuchen Sie ggf. selbst eine Herleitung. (a) Genau dann gilt a < b wenn −b < −a. Insbesondere ist a genau dann positiv (negativ), wenn −a negativ (positiv) ist. Eine zweimalige Anwendung von (A8) liefert nämlich a < b ⇔ 0 = a − a < b − a ⇔ −b = 0 − b < b − a − b = −a. (b) Genau dann gilt ab > 0, wenn a, b > 0 oder a, b < 0. Insbesondere ist a2 > 0 für a 6= 0 und 1 > 0. Für die Schlussrichtung „⇒“ unterscheiden wir mehrere Fälle. Wäre a = 0 oder b = 0, so folgt ab = 0 im Widerspruch zu (A6). Wäre a > 0 und b < 0, so folgt −b > 0 wegen (a). Mit (A8) folgt −ab = a(−b) > 0 und mit (a) dann ab < 0 im Widerspruch zu (A6). Ebenso schließt man a < 0 und b > 0 aus. Nach (A6) gilt also a, b > 0 oder a, b < 0. Die Schlussrichtung „⇐“ folgt aus (A8) und (−a)(−b) = ab. (c) Ist a < b und c < 0, so gilt ac > bc. Eine Ungleichung bleibt gemäß der Monotoniegesetze erhalten, wenn man auf beiden Seiten dieselbe Zahl addiert oder mit derselben positiven Zahl multipliziert. Will man aber mit einer negativen Zahl multiplizieren, so muss man das Ungleichheitszeichen umdrehen. (d) Aus a > 0 folgt 1 a > 0, aus a < 0 folgt 1 a < 0. (e) Aus a ≤ b und b ≤ a folgt a = b. (f) Aus a ≤ b und b ≤ c folgt a ≤ c. (g) Aus a ≤ b und c ≥ 0 folgt ac ≤ bc. (h) Aus a ≤ b und c ≤ d folgt a + c ≤ b + d. 4.4 Ungleichungsketten. Die Schreibweise a < b < c wird gerne verwendet und ist eine Abkürzung für a < b und b < c. In diesem Sinn gelten die folgenden Ungleichungsketten. (i) Aus 0 < a < b folgt 0 < 1/b < 1/a. Nach (A7) gilt nämlich b > 0. Hieraus folgt mit (d) einerseits 1/b > 0, wegen a > 0 andererseits auch ab > 0 · b = 0. Nochmal mit (d) folgt 1/(ab) > 0 und mit (A8) dann 1/b = a · 1/(ab) < b · 1/(ab) = 1/a. 6 §1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN (j) Aus 0 ≤ a < b folgt a2 < b2 . Gilt umgekehrt a2 < b2 und b > 0, so folgt a < b. Gilt a2 ≤ b2 und b ≥ 0, so folgt a ≤ b. Aus a2 ≤ b2 allein folgt aber nicht a ≤ b, wie das Gegenbeipiel a = −1, b = −2 zeigt. 4.5 Betrag und Vorzeichen. Wir setzen ( |a| := a für a ≥ 0 −a für a < 0 bzw. für a > 0 1 sgn(a) := 0 für a = 0 −1 für a < 0 und nennen |a| den Betrag bzw. sgn(a) das Vorzeichen (Signum) von a. Beispielsweise gilt |2| = 2, | − 2| = 2, |0| = 0, | − 21 | = 12 , sgn(−3) = −1, sgn( 32 ) = 1. Allgemein erhalten wir |a| ≥ 0, | − a| = |a|, |a|2 = a2 und −|a| ≤ a ≤ |a|. Der Betrag |a| gibt an, wie weit a auf der Zahlengeraden vom Ursprung entfernt ist. Für zwei reelle Zahlen a und b gibt |a − b| an, wie weit a von b entfernt ist. So etwas werden wir später bei komplexen Zahlen und bei Vektoren auch benötigen. 4.6 Rechenregeln für den Betrag. Von den folgenden fünf Rechenregeln für den Betrag beweisen wir nur die letzten zwei. Die ersten drei folgen sofort mit einfachen Fallunterscheidungen aus der Definition. (k) Genau dann gilt |a| ≤ b, wenn ±a ≤ b (d.h. a ≤ b und −a ≤ b). Diese Regel besagt, dass man Ungleichungen mit einem Betrag durch eine Fallunterscheidung beweisen kann. (l) Immer gilt |a| ≥ 0. Dagegen gilt |a| > 0 nur für a 6= 0 und |a| = 0 nur für a = 0. (m) Es gilt |ab| = |a||b|. 4.7 Dreiecksungleichung. (n) Dreiecksungleichung: |a + b| ≤ |a| + |b| Nach (k) gilt nämlich ±a ≤ |a| und ±b ≤ |b|. Mit (h) folgt zunächst ±(a + b) ≤ |a| + |b|, mit (k) dann |a + b| ≤ |a| + |b|. (o) Umgekehrte Dreiecksungleichung: ||a| − |b|| ≤ |a − b| Aus |a| = |a − b + b| ≤ |a − b| + |b| und |b| = |b − a + a| ≤ |a − b| + |a| folgt nämlich ±(|a| − |b|) ≤ |a − b|, nach (k) also ||a| − |b|| ≤ |a − b|. 4.8 Weitere wichtige Ungleichungen. (p) |ab| ≤ 12 (a2 + b2 ) (q) (a + b)2 = |a + b|2 ≤ 2(a2 + b2 ) (r) Arithmetisches Mittel : für a < b gilt a < 12 (a + b) < b (s) Für a, b > 0 gilt ab ≤ 41 (a + b)2 . Gleichheit tritt hierbei nur für a = b ein. Achtung. Absolute Sicherheit im Umgang mit Ungleichungen und Beträgen ist lebenswichtig für das weitere Verständnis! 5 Natürliche Zahlen und vollständige Induktion Wenn wir annehmen, dass die reellen Zahlen durch die Axiome (A1)–(A8) und das noch ausstehende Supremumsaxiom definiert sind, so erscheint es leicht, die natürlichen Zahlen als die Menge bestehend aus den Zahlen 1 (vgl. (A4)), 2 := 1+1, 3 := 2+1, usw. einzuführen. Das Problem liegt in der Präzisierung von „usw.“. Wir müssen uns damit näher beschäftigen, weil wir dabei das wichtige Beweisverfahren der vollständigen Induktion kennenlernen werden. 5.1 Induktive Mengen und natürliche Zahlen. Eine Teilmenge N der reellen Zahlen (oder allgemeiner eines geordneten Körpers) heißt induktiv , wenn sie folgende Eigenschaften hat. 7 KAPITEL 1. GRUNDLAGEN (N1) Es gilt 1 ∈ N . (N2) Aus n ∈ N folgt n + 1 ∈ N . Offensichtlich gibt es induktive Mengen, beispielsweise R selbst oder auch {x ∈ R | x ≥ 1}. Die natürlichen Zahlen werden nun erklärt als der Durchschnitt aller induktiver Teilmengen von R. Damit ist N sozusagen die „kleinste“ Menge mit den Eigenschaften (N1) und (N2). 5.2 Ganze Zahlen. Aus den natürlichen Zahlen erhalten wir mittels Z := {n | n ∈ N ∨ n = 0 ∨ −n ∈ N} die ganzen Zahlen. 5.3 Induktionsprinzip. Ist M eine Teilmenge von N mit 1 ∈ M und folgt aus k ∈ M immer auch k + 1 ∈ M , so gilt schon M = N. Nach Voraussetzung gilt nämlich einerseits M ⊂ N, andererseits ist M induktiv und damit an der Durchschnittsbildung für N beteiligt, d.h. N ⊂ M . Zusammen folgt wie behauptet M = N. 5.4 Beweisverfahren der vollständigen Induktion. Für jede natürliche Zahl n sei eine Aussage A(n) gegeben, und es sei folgendes erfüllt. (IV) Induktionsverankerung: Die Aussage A(1) sei wahr. (IS) Induktionsschritt: Für jedes n ∈ N ist die Implikation A(n) ⇒ A(n + 1) wahr. Dann ist die Aussage A(n) für alle n ∈ N wahr (Induktionsschluss). Die Gültigkeit des Beweisverfahrens der vollständigen Induktion folgt unmittelbar aus dem Induktionsprinzip, denn die Menge M := {n ∈ N | A(n) ist wahr} erweist sich dank (IV) und (IS) als induktive Teilmenge von N. Wenn wir beispielsweise die Aussage A(n) „die Summe der ersten n natürlichen Zahlen ist n(n + 1)/2“, d.h. n(n + 1) ı „1 + 2 + · · · + n = 2 für alle n ∈ N beweisen wollen, so geschieht dies durch vollständige Induktion folgendermaßen. Induktionsverankerung: Wegen 1 = 1(1 + 1)/2 ist A(1) wahr. für ein n ∈ N, so folgt 1 + 2 + · · · + n + (n + 1) = Induktionsschritt: Gilt 1 + 2 + · · · + n = n(n+1) 2 n(n+1) (n+1)(n+2) + (n + 1) = , d.h. ist A(n) wahr, so auch A(n + 1). 2 2 Induktionsverankerung und Induktionsschritt zusammen erlauben uns dank des Induktionsprinzips den Induktionsschluss: A(n) ist für alle n ∈ N wahr. Für jede natürliche Zahl n gilt also 1+2+· · ·+n = n(n+1) 2 und wir haben diese unendlich vielen Aussagen nicht alle einzeln beweisen müssen (was wir auch nicht ansatzweise vor unserem Tod geschafft hätten). Versuchen Sie in ähnlicher Manier den Nachweis von 12 + 22 + · · · + n2 = n(n + 1)(2n + 1) 6 für alle n ∈ N. 5.5 Varianten der vollständigen Induktion. Natürlich kann eine vollständige Induktion auch bei einer anderen natürlichen Zahl N anstelle der 1 gestartet werden. Eine Aussage A(n) ist für alle natürlichen Zahlen n ≥ n0 richtig, falls gilt (IV’) Die Aussage A(n0 ) ist wahr. (IS’) Für jedes n ≥ n0 folgt aus der Richtigkeit von A(n) die von A(n + 1). 8 §1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN Manchmal ist auch die folgende Variante nützlich. Eine Aussage A(n) ist für alle natürlichen Zahlen n ∈ N richtig, falls gilt (IV’) Die Aussage A(1) ist wahr. (IS’) Für jedes n ∈ N folgt aus der Richtigkeit von A(1), A(2),. . . , A(n) die von A(n + 1). 5.6 Wohlordung der natürlichen Zahlen. Jede nichtleere Menge natürlicher Zahlen hat ein kleinstes Element, d.h. ist M ⊂ N mit M 6= ∅, so existiert ein m ∈ M mit k ≥ m für alle k ∈ M . Man kann zeigen (vgl. [FiKau, Band 1, §1.6.1]), dass das Induktionsprinzip 5.3 äquivalent zum Wohlordnungsprinzip ist. Das wollen wir hier nicht tun. Dafür leiten wir aus ihm ab, dass jede ungerade natürliche Zahl b die Form b = 2k − 1 mit einem k ∈ N besitzt. Hierzu betrachten wir die Menge M := {n ∈ N | 2n > b}. Selbige ist wegen 2b ∈ M nicht leer, hat also nach dem Wohlordnungsprinzip ein kleinstes Element k. Wegen der Minimalität von k gilt 2(k − 1) ≤ b < 2k. Da b eine natürliche Zahl ist, muss b = 2k − 2 oder b = 2k − 1 gelten. Da b ungerade ist, bleibt nur die Möglichkeit b = 2k − 1. 5.7 Summen- und Produktzeichen. Wir verwenden die Abkürzungen n X n Y ak := a1 + a2 + · · · + an , k=1 ak := a1 · a2 · · · an k=1 P1 Q1 für n ∈ N. Insbesondere gilt k=1 ak = a1 und k=1 ak = a1 . Die Formeln aus Abschnitt 5.4 erhalten dann die Form n n X X n(n + 1)(2n + 1) n(n + 1) k2 = , . k= 2 6 k=1 k=1 Der Name des Index k ist unerheblich, wir hätten auch schreiben können. Pn j=1 aj statt Pn k=1 ak oder Qn l=1 al statt Qn k=1 ak Manchmal läuft der Index nicht ab 1 sondern ab 0 oder einer anderen ganzen Zahl. Ist I allgemein eine endliche Teilmenge von Z, etwas I = {n1 , . . . , nm }, so setzen wir X ak := an1 + · · · + anm , k∈I Y ak := an1 · · · anm . k∈I P Q Im Fall I = ∅ werden sich die Vereinbarungen k∈I ak := 0 und k∈I ak := 1 als günstig erweisen. Insbesondere gilt a + a + · · · + a für m > l, l l+1 m m m al · al+1 · · · am für m > l, X Y ak = al ak = al für m = l, für m = l, k=l k=l 0 für m < l, 1 für m < l. Indexersetzungen der Form n−1 X k=0 ak+1 = n X ak k=1 werden Indexverschiebung genannt. Im Bereich Pm der Physik ist die Einsteinsche Summenkonvention gebräuchlich, bei der eine Summe der Form k=l ak bk knapp als ak bk geschrieben wird: Sobald ein Index doppelt vorkommt, ist automatisch über ihn zu summieren. Auf Laufbereich des Index muss hierbei aus den Rahmenbedingungen geschlossen werden. 9 KAPITEL 1. GRUNDLAGEN 5.8 Potenzen, Fakultäten und Binomialkoeffizienten. Für eine beliebige Zahl c setzen wir n c := n Y n ∈ N0 , c, k=1 n! n Y := n · (n − 1) · · · 2 · 1 = n ∈ N0 , k, k=1 c := k k−1 1 Y c(c − 1) · · · (c − k + 1) = (c − l), k(k − 1) · · · 1 k! k ∈ N0 . l=0 Man nennt cn die n-te Potenz von c, n! die Fakultät von n bzw. kc den Binomialkoeffizient c über k (oder k aus c). In cn heißt c die Basis und n der Exponent. Für c 6= 0 erweitert man diese Definition −n durch cn := 1/c auf Exponenten n ∈ Z mit n < 0. Nach unserer Konvention gilt insbesondere 00 = 1, c 0! = 1 und 0 = 1 für beliebige c. Die Binomialkoeffizienten nk werden meistens für n, k ∈ N0 mit 0 ≤ k ≤ n verwendet. Dann gilt n n n! = . = k!(n − k)! n−k k n n = = 1, 0 n Für 0 ≤ k < n gilt ferner das Additionstheorem für Binomialkoeffizienten n n n+1 + = , k k+1 k+1 welches direkt nachgerechnet werden kann. n n + k k+1 k−1 k Y 1 1 Y (n − l) + (n − l) k! (k + 1)! = l=0 k+1 (k + 1)! = n+1 (k + 1)! = 1 (k + 1)! = l=0 k−1 Y (n − l) + l=0 k−1 n−k Y (n − l) (k + 1)! l=0 k−1 Y k (n − l) = l=0 n+1 Y (n − (l − 1)) (k + 1)! l=1 (k+1)−1 Y (n + 1 − l) = l=0 n+1 . k+1 In der drittletzten Umformung haben wir eine Indexverschiebung vorgenommen. Mit dem Additionstheorem für Binomialkoeffizienten erhält man das Pascalsche Dreieck , in dem die Summe einer jeden Zahl gleich der Summe der beiden schräg darüber stehenden Zahlen ist. n 0 1 1 1 2 1 3 1 4 1 5 6 1 1 2 3 4 5 6 1 3 6 10 15 1 1 4 10 20 1 5 15 1 6 1 10 §1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN 5.9 Binomische Formel. Für beliebige a, b gilt n (a + b) = n X n k=0 k ak bn−k für n ∈ N0 . Beweis durch vollständige Induktion. 0 Induktionsverankerung: Für n = 0 lautet die linke Seite der Formel (a + b) = 1, die rechte Seite P0 0 k 0−k 0 0 0 = 0 a b = 1. Also stimmt die Formel für n = 0. k=0 k a b Induktionsschritt: Gilt die binomische Formel für ein n ≥ 0, so folgt mit einer Indexverschiebung (a + b)n+1 = (a + b)(a + b)n = (a + b) n X n k=0 n X k ak bn−k n X n+1 n X n k+1 n−k n k n+1−k X n n k n+1−k a b + a b = ak bn−k+1 + a b k k k−1 k k=0 k=0 k=1 k=0 n n+1 X X n + 1 n n n+1 k n+1−k n+1 = a + +b = + a b ak bn+1−k . k−1 k k = k=1 k=0 Dies ist die behauptete Formel für n + 1 anstelle von n. Der Fall n = 2 in der binomischen Formel ist aus der Schule bekannt: (a + b)2 = a2 + 2ab + b2 („erste binomische Formel“) bzw. mit b durch −b ersetzt (a − b)2 = a2 − 2ab + b2 („zweite binomische Formel“). 5.10 Geometrische Summenformel. n−1 X an − bn = (a − b) an−1 + an−2 b + · · · + abn−2 + bn−1 = (a − b) ak bn−1−k = (a − b) k=0 X ak bl . k+l=n−1 Auch diese Formel beweisen wir mit einer Indexverschiebung. (a − b) n−1 X ak bn−1−k n−1 X = k=0 ak+1 bn−1−k − k=0 n−1 X = n−1 X ak bn−k = k=0 − k=1 ak bn−k − k=1 ! ak bn−k + an n X bn + n−1 X n−1 X ak bn−k k=0 ! ak bn−k = an − bn . k=1 Für n = 2 erhalten wir die aus der Schule bekannte „dritte binomische Formel“ a2 − b2 = (a − b)(a + b). Für a = q und b = 1 folgt nach Ersetzen von n durch n + 1 n X k=0 qk = 1 − q n+1 1−q für q 6= 1. 5.11 Bernoullische Ungleichung. Für n ∈ N und x ≥ −1 gilt (1 + x)n ≥ 1 + nx. Beweis durch vollständige Induktion. Induktionsverankerung: Für n = 1 besteht sogar Gleichheit: (1 + x)1 = 1 + 1 · x. Induktionsschritt: Gilt (1 + x)n ≥ 1 + nx, so folgt mit 4.3 (g) wegen 1 + x ≥ 0 auch (1 + x)n+1 = (1 + x)n (1 + x) ≥ (1 + nx)(1 + x) = 1 + (n + 1)x + nx2 ≥ 1 + (n + 1)x. 11 KAPITEL 1. GRUNDLAGEN 6 Rationale Zahlen 6.1 Rationale Zahlen. Die rationalen Zahlen werden definiert durch Q := { m n | m, n ∈ Z, n 6= 0}. Wir haben uns schon in 3.3 und 4.2 überlegt, dass Q ein geordneter Körper ist. Jetzt wollen wir ihn genauer betrachten. 6.2 Archimedische Anordnung von Q. Zu jeder noch so großen positiven rationalen Zahl r gibt es eine natürliche Zahl N mit N > r. Wir zeigen allgemeiner: Sind p, q ∈ Q positiv, so existiert ein N ∈ N mit N p > q. r Sind nämlich p = m n und q = s mit m, n, r, s ∈ N vorgegeben, so setzen wir N := nr + 1. Dann gilt (nr+1)m mnr > n = mr ≥ r ≥ rs = q. Np = n Geometrisch interpretiert besagt die zweite Aussage, dass jede noch so kurze Strecke (der Länge p) eine vorgegebene Strecke (der Länge q) übertrifft, wenn man sie nur oft genug (N -mal) aneinandersetzt. 6.3 Dichtheit von Q. Zwischen je zwei rationalen Zahlen liegen unendlich viele weitere rationale Zahlen. Tatsächlich, für p, q ∈ Q mit p < q ist r1 := 12 (p + q) wieder eine rationale Zahl und nach 4.8 (r) gilt p < r1 < q. Analog gibt es zu r1 und q ein r2 ∈ Q mit r1 < r2 < q. Per Induktion können wir unendlich viele rationale Zahlen r1 , r2 , . . . konstruieren mit p < r1 < r2 < . . . < q. Die rationalen Zahlen liegen also unendlich fein gepackt auf der Zahlengeraden. Trotzdem gibt es nur „wenige“ rationale Zahlen, wie wir gleich sehen werden. 6.4 Abzählbarkeit von Q. Die rationalen Zahlen lassen sich abzählen. Das soll heißen, dass wir die rationalen Zahlen mit Hilfe der natürlichen Zahlen durchnummerieren können. In diesem Sinn hat Q nicht mehr Elemente als N. Die Nummerierung erfolgt mit dem Cantorschen Diagonalverfahren. In der nebenstehend skizzierten Weise verwenden wir die ungeraden Zahlen außer 1 zur Nummerierung der positiven rationalen Zahlen. Eingeklammerte Zahlen brauchen wir nicht mehr zu nummerieren, da sie schon zuvor nummeriert wurden. Die negativen rationalen Zahlen werden analog mit Hilfe der gerade Zahlen nummeriert, die 0 erhält die Nummer 1. 1 1 ↓ 2 1 % 1 2 ( 22 ) . 1 3 ↓ 1 4 .. . → . 3 1 % 3 2 % 2 3 % ( 33 ) .. . 5 1 ··· 5 2 ··· 5 3 ··· 5 4 ··· .. . % 4 3 % 3 4 → . ( 24 ) . . ( 42 ) .. . 4 1 . ( 44 ) .. . .. . 6.5 Unvollständigkeit von Q. Es gibt keine rationale Zahl r mit r2 = 2. Der Beweis hierfür ist schon seit der Antike bekannt: Gäbe es ein r ∈ Q mit r2 = 2, so könnten wir r = m n mit teilerfremden Zahlen m, n ∈ N schreiben. Insbesondere ist dann mindestens eine der beiden Zahlen m und n ungerade. Wegen m2 = 2n2 ist m2 und damit auch m gerade, hat also die Form m = 2k mit k ∈ N. Dann folgt aber (2k)2 = 2n2 , d.h. n2 = 2k 2 und n muss — im Widerspruch zur Annahme — auch gerade sein. Da Q ein geordneter Körper ist, können wir uns die rationalen Zahlen auf einer Zahlengeraden vorstellen. Gemäß 6.3 liegen die rationalen Zahlen dicht auf dieser Geraden. Trotzdem muss es „Löcher“ geben: Wir errichten über dieser Zahlengeraden ein Einheitsquadrat mit einer Ecke im Nullpunkt, schlagen um den Nullpunkt einen Kreis mit der Diagonalenlänge d als Radius. Nach dem Satz des Pythagoras gilt d2 = 12 + 12 = 2. Unsere vorherige Überlegung zeigt, dass dieser Kreis unsere „rationale Zahlengerade“ nicht trifft. Die rationalen Zahlen genügen uns also nicht. 12 7 §1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN Intervalle, beschränkte Mengen, Maximum und Minimum 7.1 Intervalle. Für reelle Zahlen c und d mit c < d setzen wir [c, d] ]c, d[ [c, d[ ]c, d] [c, +∞[ ]c, +∞[ ] − ∞, d] ] − ∞, d[ ] − ∞, +∞[ := := := := := := := := := {x ∈ R : {x ∈ R : {x ∈ R : {x ∈ R : {x ∈ R : {x ∈ R : {x ∈ R : {x ∈ R : R. c ≤ x ≤ d}, c < x < d}, c ≤ x < d}, c < x ≤ d}, c≤x }, c<x }, x ≤ d}, x < d}, und nennen derartige Mengen Intervalle. Die Zahlen c und d heißen untere bzw. obere Intervallgrenze. Achtung. Das Symbol ∞ wird in der Analysis häufig benutzt, aber immer in einem genau präzisierten Sinn. So ist ]c, +∞[ lediglich eine Kurzbezeichnung für die Menge {x ∈ R : x > c}. Insbesondere bezeichnen „−∞“ und „+∞“ keine reelle Zahl. Die neun zuvor angegebenen Intervallarten werden in folgende Typen unterteilt. Typ offen halboffen abgeschlossen kompakt beschränkt unbeschränkt Intervalle dieses Typs ]c, d[, ]c, +∞[, ] − ∞, d[, ] − ∞, +∞[ ]c, d], [c, d[ [c, d], [c, +∞[, ] − ∞, d] [c, d] [c, d], ]c, d], [c, d[, ]c, d[ ] − ∞, d[, ] − ∞, d], ] − ∞, +∞[, [c, +∞[, ]c, +∞[ Insbesondere nennt man R+ := ]0, +∞[ R+ 0 − R := := [0, +∞[ die nichtnegativen reellen Zahlen oder die abgeschlossene rechte Halbgerade, ] − ∞, 0[ die negativen reellen Zahlen oder die offene linke Halbgerade, R− 0 := ] − ∞, 0] die nichtpositiven reellen Zahlen oder die abgeschlossene linke Halbgerade. die positiven reellen Zahlen oder die offene rechte Halbgerade, Für offene Intervalle ]c, d[ findet man in der Literatur oft auch die Bezeichnung (c, d). 7.2 Obere und untere Schranken. Eine Teilmenge M ⊂ R, M 6= ∅ heißt nach oben (unten) beschränkt, wenn es eine Zahl m gibt, mit x ≤ m (x ≥ m) für alle x ∈ M . Jede solche Zahl m heißt eine obere (untere) Schranke. Ist m eine obere (untere) Schranke von M und ist m0 eine reelle Zahl mit m0 ≥ m (m0 ≤ m), so ist auch m0 eine obere (untere) Schranke von M . Wenn eine Menge nach oben beschränkt ist, so besitzt sie „viele“ obere Schranken. Aus formalen Gründen ist die leere Menge ∅ sowohl nach oben als auch nach unten beschränkt. Beispielsweise ist N nach unten beschränkt, 1 ist eine untere Schranke aber auch jede negative reelle Zahl ist eine. Dagegen ist N nach oben unbeschränkt, das folgt aus der Archimedischen Eigenschaft 6.2. Die Menge M := {x ∈ R | x2 < 2} ist nach oben durch 2 beschränkt, denn für jedes x ∈ M gilt x2 < 2 < 22 , d.h. x < 2 nach 4.4 (j). Ähnlich sieht man ein, dass M auch durch 42 nach oben oder durch −2 nach unten beschränkt ist. 13 KAPITEL 1. GRUNDLAGEN 7.3 Beschränkte Mengen. Eine Teilmenge M ⊂ R heißt beschränkt, wenn sie nach oben und nach unten beschränkt ist. In diesem Fall existieren Schranken mo , mu ∈ R mit mu ≤ x ≤ mo für alle x ∈ M . Wählen wir für m die größere der beiden Zahlen |mu | und |mo |, so gilt |x| ≤ m für alle x ∈ M . Existiert umgekehrt ein m ∈ R mit |x| ≤ m für alle x ∈ M , so ist m eine obere und −m eine untere Schranke für M . Eine Teilmenge M ⊂ R ist also genau dann beschränkt, wenn es eine Schranke m ∈ R gibt mit |x| ≤ m für alle x ∈ M . 7.4 Maximum und Minimum. Für zwei reelle Zahlen a und b setzen wir ( ( a falls a ≥ b, a falls a ≤ b, max{a, b} := min{a, b} := b falls b > a, b falls b < a, Durch Induktion nach der Anzahl der Elemente finden wir für je endlich viele reelle Zahlen a1 , . . . , an eine größte und eine kleinste und bezeichnen diese mit max{a1 , . . . , an }, min{a1 , . . . , an }. Für Mengen von unendlich vielen reellen Zahlen ist es aber nicht a priori klar, ob ein größtes oder ein kleinstes Element existiert. Beispielsweise hat R+ =]0, +∞[ kein kleinstes Element. Für jedes x ∈ R+ ist nämlich auch x2 ∈ R+ und es gilt x2 < x. Zu jedem Element in R+ gibt es also ein noch kleineres, das auch in R+ liegt. Die Zahl 0 dagegen können wir nicht als kleinstes Element wählen, es gilt ja 0 ∈ / R+ . Um im Allgemeinen zu klären, ob eine Menge reeller Zahlen ein Maximum bzw. ein Minimum besitzt, müssen wir also vorsichtig vorgehen. Definition. Eine nichtleere Teilmenge M ⊂ R hat ein Maximum (Minimum) m =: max M (m =: min M ) falls m eine obere (untere) Schranke von M ist und falls m ∈ M . Achtung. Nicht jede nichtleere nach oben (unten) beschränkte Teilmenge von R besitzt ein Maximum (Minimum). Welche der in 7.1 angegebenen Intervalle haben ein Maximum, welche ein Minimum? Das Wohlordnungsprinzip 5.6 besagt, dass jede nichtleere Teilmenge von N ein Minimum besitzt. 8 Beweistechniken In den vorangegangenen Abschnitten haben wir diverse Aussagen formuliert und bewiesen. Jetzt wollen wir die dabei verwendeten Techniken beleuchten. 8.1 Implikationen. Die meisten mathematischen Sätze haben die folgende Bauart: Innerhalb eines bestimmten Gegenstandsbereichs der Mathematik folgt unter der Voraussetzung A die Behauptung B. Hierfür schreiben wir A⇒B („aus A folgt B“, „wenn A, dann B“, „A impliziert B“). Durchforsten Sie die vorangegangenen Abschnitte nach Beispielen. Wir geben drei davon an. (a) Abschnitt 4.8 (r): für reelle Zahlen a und b A: a < b B: a < 1 (a + b) < b. 2 (b) Abschnitt 6.2: für rationale Zahlen r A: r > 0 B : es gibt ein N ∈ N mit N > r. 14 §2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN (c) Abschnitt 6.5: für reelle Zahlen A: r ∈ Q B : r2 6= 2. Der Beweis einer Aussage des Typs A ⇒ B kann auf drei Arten geführt werden. Dabei sollten wir uns an die Wahrheitstafel der Implikation erinnern. A B w w w f f w f f A⇒B w f w w 8.2 Direkter Beweis. Mit Hilfe der Grundannahmen im jeweiligen Gegenstandsbereich, den schon bewiesenen Sätzen und der Voraussetzung A schließen wir mit Hilfe der Logik auf die Richtigkeit von B. Beispiel. Der Beweis von 4.4 (i). 8.3 Indirekter Beweis. Wir zeigen auf direktem Wege: ist B falsch, so ist auch A falsch. Wenn dann A richtig ist, so muss auch B richtig sein, sonst hätten wir einen Widerspruch: A müsste gleichzeitig richtig und falsch sein. Kurz gesagt: statt A ⇒ B beweisen wir ¬B ⇒ ¬A. Beispiel. Der Beweis in 4.2, dass der Minikörper {0, 1} nicht angeordnet werden kann. 8.4 Widerspruchsbeweis. Wir nehmen an, dass A richtig und dass B falsch ist und leiten daraus einen Widerspruch ab, d.h. wir zeigen, dass dann eine bestimmte Aussage gleichzeitig mit ihrem Gegenteil wahr sein müsste. Beispiel. Der Beweis von „es gibt keine rationale Zahl r mit r2 = 2“ in 6.5. 8.5 Notwendige und hinreichende Bedingungen. Gilt A ⇒ B, so sagen wir: A ist eine hinreichende Bedingung für B, und B ist eine notwendige Bedingung für A. 8.6 Äquivalente Bedingungen. Sind zwei Ausagen A und B entweder beide gleichzeitig richtig oder beide gleichzeitig falsch, so schreiben wir gemäß der Wahrheitstafeln in 1.1 A⇔B („genau dann A, wenn B“, „A ist äquivalent zu B“) und sagen, dass A eine notwendige und hinreichende Bedingung für B ist. Beispiel. Abschnitt 4.6 (k): für a, b ∈ R A : |a| ≤ b B : (a ≤ b) ∧ (−a ≤ b). Eine Äquivalenzaussage A ⇔ B wird gerne durch den Nachweis der beiden Implikationen A ⇒ B und B ⇒ A bewiesen. §2 Vollständigkeit der reellen Zahlen, Folgen In diesem Abschnitt kommen wir zu dem noch ausstehenden ominösen Supremumsaxiom, welches die reellen Zahlen erst auszeichnet. Wir formuliern dieses Axiom zunächst, ziehen anschließend diverse Folgerungen über reelle Zahlen und erhalten insbesondere die gesamte Konvergenztheorie für Folgen. Das ist die Stelle, an der die Unendlichkeit der reellen Zahlen die Analysis zum Leben erweckt. KAPITEL 1. GRUNDLAGEN 1 15 Supremum und Infimum 1.1 Das Supremumsaxiom. (A9) Jede nach oben beschränkte und nichtleere Teilmenge M von R besitzt eine kleinste obere Schranke. Diese wird das Supremum von M genannt und mit sup M bezeichnet. Im Detail: ξ = sup M bedeutet • die Zahl ξ ist obere Schranke von M , d.h. es gilt x ≤ ξ für jedes x ∈ M , • keine Zahl ζ < ξ ist obere Schranke von M : zu jedem ζ < ξ existiert mindestens ein x ∈ M mit ζ < x. Spiegeln wir M an der Zahlengeraden, d.h. ersetzen wir die Elemente x ∈ M durch −x, so erhalten wir analog: Jede nach unten beschränkte und nichtleere Teilmenge M von R besitzt eine größte untere Schranke. Diese wird das Infimum von M genannt und mit inf M bezeichnet. 1.2 Anmerkungen zum Supremumsaxiom. Für M =]0, 1[ gilt sup M = 1. Offensichtlich ist 1 eine obere Schranke von M , und für jedes ζ < 1 existiert ein x ∈ M mit x > ζ, nämlich beispielsweise x = (1 + ζ)/2 für ζ > −1 und x = 1/2 für ζ ≤ −1. Für ein beliebiges offenes beschränktes Intervall ]a, b[ zeigt man analog sup]a, b[= b und inf]a, b[= a. Besitzt eine nichtleere Teilmenge M reeller Zahlen ein Maximum (Minimum) m = max M (m = min M ), so ist m auch das Supremum (Infimum) von M . Achtung. Beachten Sie den Unterschied zwischen Maximum und Supremum. Wie in §1.7.4 gezeigt, muss eine nichtleere und nach oben beschränkte Teilmenge von R kein Maximum besitzen. Nach dem Supremumsaxiom (A9) hat sie aber ein Supremum. Das Supremum einer Menge M muss nicht notwendigerweise zu M gehören. Dass das Supremumsaxiom eine Besonderheit von R ist, illustrieren wir am folgenden Beispiel: Die Menge M = {x ∈ Q | x2 < 2} ist eine nichtleere Teilmenge von Q (z.B. gilt 1 ∈ M ) und (wie in §1.7.2 gezeigt) nach oben beschränkt. In 2.4 werden wir sehen, dass jeder Kandidat für ξ = sup M die Bedingung ξ 2 = 2 erfüllen muss. Es gibt aber keine rationale Zahl ξ mit ξ 2 = 2. Also gilt in Q kein Supremumsaxiom. 1.3 Anmerkung zur Existenz und Eindeutigkeit der reellen Zahlen. Die Menge R der reellen Zahlen sind durch die Axiome (A1)–(A9) vollständig beschrieben. Alle ihre Eigenschaften (und damit die gesamte Analysis) können aus diesen neun Axiomen abgeleitet werden. Dennoch erscheint es zunächst weder sicher, dass es die reellen Zahlen überhaupt gibt, noch dass es nicht mehrere „verschiedene“ Mengen gibt, die diese neun Axiome erfüllen. Wir werden aber in 7.3 sehen, dass aus den Axiomen (A1)–(A9) sowohl Existenz als auch Eindeutigkeit der reellen Zahlen abgeleitet werden können. Dort wird sich nämlich R als „die“ Menge aller Dezimalbrüche erweisen. 1.4 Notation für unbeschränkte Mengen. Ist M eine nach oben unbeschränkte Teilmenge von R, so schreibt man dafür gerne sup M = +∞. Achtung. Das bedeutet nicht, dass +∞ das Supremum von M ist — +∞ ist keine reelle Zahl. Analog verhält es sich mit der Notation inf M = −∞, die nicht mehr und nicht weniger bedeutet, als dass M nach unten unbeschränkt ist. 2 Folgerungen aus dem Supremumsaxiom 2.1 Archimedisches Prinzip. Ähnlich wie in §1.6.2 gilt: (a) Zu jeder noch so großen positiven reellen Zahl r gibt es eine natürliche Zahl N mit N > r. (b) Sind a, b ∈ R positiv, so existiert ein N ∈ N mit N a > b. (c) Zu jedem ε > 0 gibt es ein N ∈ N mit 1/N < ε. 16 §2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN In (a) wird ausgesagt, dass N in R nach oben unbeschränkt ist. Dies zeigen wir mit einem Widerspruchsbeweis: Wäre N in R nach oben beschränkt, so existiert ξ := sup N ∈ R nach dem Supremumsaxiom (A9). Nach der Definition des Supremums ist ξ − 1 keine obere Schranke von N, es gibt also ein n ∈ N mit n > ξ − 1. Für die natürliche Zahl n + 1 gilt also ξ < n + 1 im Widerspruch zur ξ = sup N. Nun folgt (b) mit r = b/a und (c) mit r = 1/ε. 2.2 Satz des Eudoxos. Ist x ≥ 0 reell und gilt x < 1/n für alle n ∈ N, so folgt x = 0. Dieser Satz wird uns an mehreren Stellen nützlich sein, er folgt sofort durch Negation von 2.1 (c). 2.3 Gauß-Klammer. Für jede reelle Zahl x existiert genau eine ganze Zahl n mit n ≤ x < n + 1. Diese Zahl wird mit bxc bezeichnet und Gauß-Klammer von x genannt. Offensichtlich ist bxc die größte ganze Zahl kleiner oder gleich x. Beweis∗ . Wir betrachten die Menge M := {m ∈ Z | x < m + 1}. Diese Menge ist nicht leer: für x ≤ 0 gilt 0 ∈ M , für x > 0 liefert das Archimedische Prinzip 2.1 (a) ein Element in M . Ferner ist M konstruktionsgemäß nach unten beschränkt (durch x). Nach dem Supremumsaxiom (genauer gesagt der in 1.1 angegebenen Folgerung) existiert m := inf M . Nach 2.1 (a) gibt es ein N ∈ N mit N > |m|. Die um N verschobene Menge {m + N ∈ Z | m ∈ M } ist dann eine Teilmenge von N und besitzt nach dem Wohlordnungsprinzip §1.5.6 ein Minimum. Also hat M selbst ebenfalls ein Minimum n, d.h. es gilt x < n + 1 aber x ≥ (n + 1) − 1 = n. Damit hat n die gewünschte Eigenschaft n ≤ x < n + 1. Beispielsweise gilt b1.3c = 1, b−2.7c = −3, b−6c = −6. 2.4 Existenz von Wurzeln. Zu jeder reellen Zahl a ≥ 0 und jeder natürlichen√ Zahl n gibt es genau eine Zahl x ≥ 0 mit √ xn = a. Diese Zahl wird n-te Wurzel von a genannt und mit n a bezeichnet. Im Fall √ 2 n = 2 schreiben wir a statt a und nennen diese Zahl Wurzel oder Quadratwurzel von a. Die Existenz von Wurzeln ist eine der spannenden Folgerungen aus dem Supremumsaxiom (A9). Wir führen den Beweis nicht um seiner selbst willen, sondern weil er eine gute Fingerübung im Umgang mit Ungleichungen ist. Für das grundlegende Verständis ist aber wichtiger, dass Sie wissen, was eine n-te Wurzel ist. n Beweis. Die Fälle n = 1 oder a = 0 sind klar. Sei n ≥ 2 und a > 0. Die Menge M := {x ∈ R+ 0 : x ≤ a} ist wegen 0 ∈ M nichtleer und nach oben beschränkt. Nach dem Supremumsaxiom (A9) existiert daher ξ := sup M . Durch einen indirekten Beweis zeigen wir nun, dass ξ eine Lösung von xn = a ist. Angenommen, es gilt ξ n < a. Für zunächst beliebiges m ∈ N folgt aus der binomischen Formel §1.5.9 ξ+ 1 m n = ξn + n X n 1 n−k b ξ ≤ ξn + k k m m k=1 mit b := n X n k=1 k ξ n−k > 0. Nach dem Archimedischen Prinzip 2.1 (c) gibt es wegen (a − ξ n )/b > 0 ein m ∈ N mit (a − ξ n )/b > 1/m, d.h. ξ n + b/m < a. Es folgt (ξ + 1/m)n < a und damit ξ + 1/m ∈ M . Also kann ξ nicht das Supremum von M sein. Angenommen, es gilt ξ n > a. Für wieder zunächst beliebiges m ∈ N liefert die Bernoullische Ungleichung §1.5.11 n n 1 1 n c n n ξ− =ξ 1− ≥ξ 1− = ξn − mit c := nξ n−1 > 0. m ξm ξm m Nach dem Archimedischen Prinzip 2.1 (c) gibt es wegen (ξ n − a)/c > 0 ein m ∈ N mit (ξ n − a)/c > 1/m, d.h. ξ n − c/m > a. Es folgt (ξ − 1/m)n > a. Damit ist ξ − 1/m eine kleinere obere Schranke für M als ξ. Also kann ξ nicht das Supremum von M sein. Mit (A6) folgt ξ n = a. Also besitzt xn = a eine nichtnegative Lösung. Wäre ζ ≥ 0 eine weitere Lösung mit ζ 6= x, so können wir (ggf. nach Umbenennen) ζ < x annehmen. Aus (A8) folgt a = ζ n < xn = a und wir haben einen Widerspruch. Also hat xn = a genau eine nichtnegative Lösung. 17 KAPITEL 1. GRUNDLAGEN 3 Folgen 3.1 Was ist eine Folge? Wird durch irgendeine Vorschrift jeder natürlichen Zahl n eine reelle Zahl an zugeordnet, so nennen wir dies eine Folge reeller Zahlen oder eine Zahlenfolge und schreiben dafür (a1 , a2 , a3 , . . .), (an )n∈N , (an )n≥1 oder kurz (an )n . Für die Folgenglieder an und den Index n kann man auch eine andere Bezeichnung wählen, z.B. (ak )k oder (fl )l . Manchmal beginnt die Zählung nicht bei 1 sondern bei 0 oder einer anderen ganzen Zahl, z.B. (xk )k≥0 . Überlegen Sie sich für jedes der folgenden Beispiele, ob es besser ist, das Bildungsgesetz anzugeben, oder einfach die ersten Folgenglieder aufzuzählen. 1 1 1 1 = 1, , , , . . . , n n 2 3 4 (q n )n≥0 = 1, q, q 2 , q 3 , . . . , n 1 9 64 625 = ,... , 1+ 2, , , n 4 27 256 n (1, 0, 1, 0, 0, 1, 0, 0, 0, 1, . . .). 3.2 Rekursiv definierte Folgen. Aus dem Induktionsprinzip §1.5.3 kann das Rekursionsprinzip abgeleitet werden. Es besagt, dass eine Folge (an )n≥0 eindeutig festgelegt ist, wenn ihr Anfangsglied a0 = c gegeben ist und wenn für jedes n ≥ 1 eine Vorschrift gegeben ist, wie das n-te Glied an aus den vorangehenden Gliedern a0 , . . . , an−1 zu bilden ist. Wir verzichten auf den (kunstvollen) Beweis, geben aber Beispiele an. (a) Durch a1 := 2, an+1 := 1 2 2 an + an für n ≥ 1, wird eine Folge (an )n definiert. Wir berechnen einige Folgeglieder n 1 2 3 4 665857 = 1, 414 213 562 374 . . . 470832 √ und haben den Eindruck, dass sie schnell konvergente Approximationen an 2 liefert. In 8.5 werden wir zeigen, dass unsere Vermutung zutrifft. an 3 = 1, 5 2 2 17 = 1, 416 . . . 12 5 577 = 1, 414 25 . . . 408 (b) Die Folge der Fibonacci-Zahlen (fn )n≥0 wird rekursiv definiert durch f0 := 1, f1 := 1, fn := fn−1 + fn−2 für n ≥ 2. Man sagt, dass die Fibonacci-Zahlen einer Rekursion zweiter Ordnung genügen, da zur Berechnung der n-ten Fibonacci-Zahl fn die beiden vorherigen Fibonacci-Zahlen fn−1 und fn−2 notwendig sind. Daher muss man auch zwei Startwerte f0 und f1 vorgeben. Wir können fn als die Anzahl der Kaninchenpaare im Monat n interpretieren, wenn ein Kaninchenpaar in jedem Monat ein neues Paar in die Welt setzt, welches sich im übernächsten Monat in gleicher Weise vermehrt. Wir erhalten n fn 0 1 1 1 2 1+1=2 3 2+1=3 4 3+2=5 5 5+3=8 6 8 + 5 = 13 7 . 13 + 8 = 21 18 §2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN (c) Unsere Definition von Summen- und Produkten in §1.5.7 ist streng genommen eine rekursive: In einem Körper ist zunächst nur die Summe und das Produkt zweier Zahlen erklärt, rekursiv kann sie auf Summen bzw. Produkte von drei, vier und allgemein endlich vielen Zahlen erweitert werden. Durch Induktion zeigt man, dass die Rechenregeln (A1)–(A3) (Kommutativ-, Assoziativ- und Distributivgesetze) weiterhin gelten. Summen und Produkte von unendlich vielen Zahlen werden wir in §4 kennenlernen und feststellen, dass mit ihnen vorsichtig umgegangen werden muss. Insbesondere übertragen sich die grundlegenden Rechenregeln (A1)–(A3) nicht automatisch. (d)∗ Bevölkerungswachstum bei beschränktem Lebensraum wird durch die Verhulst-Gleichung cn+1 = γcn (1 − cn ) modelliert. Hierbei gibt cn den Anteil an der Maximalbevölkerung in der n-ten Generation an, die Maximalbevölkerung ist hierbei zu 1 (d.h. 100%) normiert. Ohne Lebensraumbeschränkung wächst eine Population von der n-ten zur (n + 1)-ten Generation um den Wachstumsfaktor γ, d.h. es gilt cn+1 = γcn . Der zusätzliche Faktor 1 − cn in unserem Modell dämpft dieses Wachstum um so mehr, je stärker sich die Population in der n-ten Generation der Maximalbevölkerung 1 angenähert hat. Wählen wir als Wachsumskoeffizient γ = 3, 987 und als Startpopulation c0 = 0, 89, so erhalten wir 0 1 2 3 4 5 6 7 8 n cn ≈ 0, 890 0, 390 0, 949 0, 194 0, 623 0, 937 0, 236 0, 720 0, 805 9 10 11 12 13 14 15 16 17 n cn ≈ 0, 627 0, 933 0, 251 0, 749 0, 749 0, 749 0, 749 0, 749 0, 750 Eine graphische Darstellung der Bevölkerungsentwicklung über 200 Generationen vermittelt allerdings ein durchaus chaotisches Bild. 1 0.8 0.6 0.4 0.2 50 100 150 200 Abbildung 1.1: Beispiel für Bevölkerungswachstum nach Verhulst über 200 Generationen. 3.3 Teilfolgen. Durch Weglassen von Folgegliedern aus einer Folge (an )n entsteht eine Teilfolge. Sie hat die Gestalt (ank )k = (an1 , an2 , an3 , . . .) mit natürlichen Zahlen n1 < n2 < n3 < . . .. Der Fall nk = k ist dabei zugelassen (und entspricht der gesamten Folge), i.A. gilt nk ≥ k. Für (1/n)n lautet die Teilfolge (ak2 )k der Folgenglieder mit Quadratzahlen als Indizes (1, 1/4, 1/9, . . .) = (1/k 2 )k , d.h. nk = k 2 . Die Teilfolge der Folgenglieder mit geraden Indizes der „Vorzeichenwechselfolge“ ((−1)n )n≥0 = (1, −1, 1, −1, . . .) ist (1, 1, 1, . . .) (also nk = 2k). Oftmals benennt man den Index der Teilfolge genauso wie den der ursprünglichen. 19 KAPITEL 1. GRUNDLAGEN 4 Nullfolgen 4.1 Einleitung. Wir wollen mathematisch streng fassen, was „die Folge (an )n hat den Grenzwert a“ (an → a für n → ∞) bedeuten soll. Hierzu erklären wir zunächst, wass „an → 0 für n → ∞“ bedeutet und führen dann „an → a für n → ∞“ auf „an − a → 0 für n → ∞“ zurück. Die gesamte Analysis baut auf den Konvergenzbegriff auf. Alle Konvergenzbetrachtungen werden letzlich auf reelle Nullfolgen zurückgeführt. Darum wollen wir diesen Begriff genau erklären. Hierbei kommt es zu einem weiteren Kontakt mit dem Unendlichen. 4.2 Wozu eine saubere Definition? Wahrscheinlich zweifelt niemand daran, dass 1/n → 0 für n → ∞ oder dass (1/2)n → 0 für n → ∞. Aber wie steht es mit (n/2n )n ? Zwar gilt 1/2n → 0 für n → ∞, aber n wächst über alle Grenzen. Und wie steht es mit der Folge (n!/100n )n ? Wir haben n 1 2 3 4 5 6 n! 100n 1 100 1 5.000 3 500.000 3 12.500.000 3 250.000.000 9 12.500.000.000 7 ≈ 5, 04 · 10−11 100 . ≈ 9, 33 · 10−43 Da liegt die Vermutung n!/100n → 0 für n → ∞ nahe. Aber: a1000 ≈ 4, 02 · 10567 . 4.3 Definition: Nullfolge. Eine Folge (an )n heißt eine Nullfolge, in Zeichen lim an = 0 n→∞ oder an → 0 für n → ∞, wenn es zu jeder (noch so kleinen) Zahl ε > 0 eine Zahl nε ∈ N gibt mit |an | < ε für alle n ≥ nε . In Quantorenschreibweise lautet diese Definition (∀ε > 0)(∃nε ∈ N)(∀n ∈ N)(n ≥ nε ⇒ |an | < ε). In Worten: „Für jeden noch so kleinen Fehler ε > 0 unterscheiden sich mit vielleicht endlich vielen Ausnahmen alle Folgenglieder um weniger als ε von Null.“ 4.4 Einfache Nullfolgen. (a) Die Folge (1/n)n ist eine Nullfolge. Zu gegebenem ε > 0 setzen wir nε := b1/ε + 1c. Für n ≥ nε erhalten wir mit der Definition der GaußKlammer dann n > (1/ε + 1) − 1 = 1/ε, also |1/n| = 1/n < ε. Ähnlich sieht man ein: (b) Für jedes c ∈ R ist (c/n)n eine Nullfolge. √ (c) Für jedes m ≥ 2 ist (1/ m n)n eine Nullfolge. Sei ε > 0 gegeben. In den Übungen haben√wir für a, b ∈ R+ 0 und m ∈ N bewiesen, dass a < b genau m dann, wenn am < bm . Die Ungleichung 1/ n < ε ist also gleichwertig mit 1/n < εm . Wir setzen also √ m m nε := b1/ε c + 1 und erhalten |1/ n| < ε für n ≥ nε . 4.5 Anmerkung. Um nachzuweisen, dass (an )n eine Nullfolge ist, muss man zu jedem ε > 0 eine natürliche Zahl nε finden mit |an | < ε für alle Indizes n ≥ nε . Die Bezeichung nε soll andeuten, dass der „Grenzindex“ nε , ab dem die Ungleichung |an | < ε gilt, vom vorgegebenen Fehler ε abhängt. Hierbei muss man i.A. nε um so größer wählen, je kleiner ε ist. Dabei wird nicht verlangt, den optimalen Grenzindex zu finden. 4.6 Vergleichskriterium für Nullfolgen. Gilt von einem bestimmten Index ab eine Abschätzung |an | ≤ bn , wobei (bn )n eine bekannte Nullfolge ist, so ist auch (an )n eine Nullfolge. Ändert man insbesondere endlich viele Folgenglieder in einer Nullfolge ab, so entsteht wieder eine Nullfolge. 20 §2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN Beweis. Sei |an | ≤ bn für alle n ≥ N . Insbesondere ist dann bn ≥ 0 für n ≥ N . Nach Voraussetzung existiert zu jedem ε > 0 ein nε mit |bn | < ε für n ≥ nε . Setzen wir Nε := max{N, nε }, so gilt für n ≥ Nε einerseits n ≥ N und damit |an | ≤ bn , andererseits n ≥ nε und damit |bn | ≤ ε. Es folgt |an | ≤ bn = |bn | < ε für n ≥ Nε . 4.7 Beispiel zum Vergleichskriterium für Nullfolgen. Die Folge (n/(n2 + 1))n ist eine Nullfolge, denn es gilt n n 1 n n2 + 1 = n2 + 1 < n2 = n und (1/n)n ist eine Nullfolge. 4.8 Weitere Nullfolgen. (d) Für beliebige q ∈] − 1, 1[ und m ∈ N0 ist (nm q n )n eine Nullfolge. Beweis. Der Fall q = 0 ist trivial, sei also 0 < |q| < 1. Dann gilt |q| = 1/(1 + h) mit einer reellen Zahl h > 0. Für n ≥ m + 1 liefert die binomische Formel §1.5.9 n X n k n n(n − 1) · · · (n − m) m+1 n (1 + h) = h > h hm+1 = k (m + 1)! m+1 k=0 1 m m+1 nm+1 ·1· 1− ··· 1 − h = (m + 1)! n n 1 m 1 1− ··· 1 − hm+1 nm+1 , ≥ (m + 1)! m+1 m+1 | {z } =:A wobei A eine positive Konstante ist. Für diese n folgt |nm q n | = nm 1 nm ≤ = . n m+1 (1 + h) An An Nach dem Vergleichskriterium 4.6 und (b) ist (nm q n )n damit eine Nullfolge. (e) Für beliebige x ∈ R ist (xn /n!)n eine Nullfolge. Beweis. Wählen wir eine natürliche Zahl N ≥ 2|x|, so gilt n N n−N n x x |x| |x| xN 1 2N |x|N 1 = = n! N ! N + 1 · · · n ≤ N ! 2 N! 2 für alle n ≥ N und die Behauptung folgt mit (d) für q = 1/2 und m = 0 wieder aus dem Vergleichskriterium 4.6. 5 Sätze über Nullfolgen 5.1 Eigenschaften von Nullfolgen. (a) Jede Nullfolge ist beschränkt. Ist (an )n eine Nullfolge, so gibt es zu jedem ε > 0 ein nε mit |an | < ε für n ≥ nε . Insbesondere gilt dies für ε = 1. Also existiert ein n1 ∈ N mit |an | ≤ 1 für n ≥ n1 . Setzen wir M := max{|a1 |, |a2 |, . . . , |an1 −1 |, 1}, so ist |an | ≤ M für alle n ≥ 1. (b) Jede Teilfolge einer Nullfolge ist eine Nullfolge. Ist (ank )k Teilfolge von (an )n , so ist nk ≥ k für k ∈ N (vgl. 3.3). Gilt daher |ak | ≤ ε für alle k ≥ nε , so erst recht |ank | < ε. 21 KAPITEL 1. GRUNDLAGEN 5.2 Rechenregeln für Nullfolgen. (c) Ist (an )n eine Nullfolge, so auch (can )n für jedes c ∈ R. Für c = 0 haben wir nichts zu tun. Sei also c 6= 0 und sei ε > 0 gegeben. Ist (an )n eine Nullfolge, so geben wir als Fehler ε/|c| vor und wissen, dass ein nε ∈ N existiert mit |an | < ε/|c| für alle n ≥ nε . Für diese n gilt dann |can | < ε. Also ist auch (can )n eine Nullfolge. (d) Sind (an )n und (bn )n Nullfolgen, so auch (an + bn )n . Sei ε > 0 gegeben. Da (an )n eine Nullfolge ist, können wir ε/2 als Fehler vorgeben und finden ein nε,a ∈ N mit |an | < ε/2 für n ≥ nε,a . Analog finden wir ein nε,b ∈ N mit |bn | < ε/2 für n ≥ nε,b . Nun setzen wir nε := max{nε,a , nε,b } und erhalten mit der Dreiecksungleichung |an + bn | ≤ |an | + |bn | < ε/2 + ε/2 = ε für n ≥ nε , da dann sowohl n ≥ nε,a als auch n ≥ nε,b gilt. (e) Ist (an )n eine Nullfolge, so auch (|an |)n . Das folgt unmittelbar aus der Definition. (f) Ist (an )n eine Nullfolge und ist (bn )n beschränkt, so ist (an bn )n eine Nullfolge. Ist die Folge (bn )n beschränkt, so existiert eine Schranke M ≥ 0 mit |bn | ≤ M für alle n ∈ N. Dann gilt auch |an bn | ≤ M |an | für alle n ∈ N. Gemäß (c) und (e) ist mit (an )n auch (M |an |)n eine Nullfolge. Mit dem Vergleichskriterium 4.6 entpuppt sich auch (an bn )n als Nullfolge. p (g) Ist (an )n eine Nullfolge, so auch m |an | für jedes m ∈ N. n m Sei ε > 0 gegeben. Ist (an )n eine Nullfolge, so können p wir als Fehler ε vorgeben und finden ein nε mit m m |an | < ε für alle n ≥ nε . Für diese n folgt dann |an | < ε. 5.3 Beispiel. Wir betrachten die Folge (an )n mit an := n2 − 1 n2 + 3 1 2 +√ n2 n 2 . 2 Wir wissen, dass (1/n)n eine Nullfolge ist. Nach (b) √ ist (1/n )n als Teilfolge mit den Quadratzahlen eine Nullfolge. √ Ferner ist nach (g) und (c) auch (2/ n)n eine Nullfolge. Nun erweist sich nach (d) auch (1/n2 + 2/ n)n als Nullfolge. Wegen |(n2 − 1)/(n2 + 3)| ≤ n2 /n2 = 1 ist ((n2 − 1)/(n2 + 3))n eine beschränkte Folge. Somit ist 2 n −1 1 2 √ + n2 + 3 n2 n n nach (f) auch Nullfolge. Da nach (a) Nullfolgen beschränkt sind, können wir (f) nochmal anwenden, und erhalten, dass (an )n eine Nullfolge ist. 6 Konvergente Folgen, Grenzwert 6.1 Definition: Grenzwert. Eine Folge (an )n konvergiert gegen eine Zahl a oder hat den Grenzwert, in Zeichen lim an = a oder an → a für n → ∞, n→∞ wenn (an − a)n eine Nullfolge ist, d.h. wenn zu jedem ε > 0 ein nε ∈ N existiert mit |an − a| < ε für alle n ≥ nε . In Quantorenschreibweise lautet diese Definition (∃a ∈ R)(∀ε > 0)(∃nε ∈ N)(∀n ∈ N)(n ≥ nε ⇒ |an − a| < ε). 22 §2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN In Worten: „Für jeden noch so kleinen Fehler ε > 0 unterscheiden sich mit vielleicht endlich vielen Ausnahmen alle Folgenglieder um weniger als ε vom Grenzwert a.“ Eine konvergente Folge hat nur einen Grenzwert. Wären nämlich a und ã zwei Grenzwerte, so sind (an − a)n und (an − ã)n Nullfolgen und damit auch ((an − a) − (an − ã))n = (a − ã)n . Das ist dann aber eine konstante Nullfolge. Also gilt a = ã. Nicht jede Folge konvergiert, wie das Beispiel ((−1)n )n zeigt. 6.2 Beispiele. ((2n + 1)/n)n hat den Grenzwert 2. Es gilt nämlich (2n + 1)/n − 2 = 1/n und (1/n)n ist eine Nullfolge. ((1 − 1/n2 )n )n konvergiert gegen 1. Nach der Bernoullischen Ungleichung §1.5.11 gilt nämlich n 1 1 1 ≤1− 1−n 2 = 0<1− 1− 2 n n n und (1 − (1 − 1/n2 ))n ist damit nach dem Vergleichskriterium 4.6 eine Nullfolge. 6.3 Sandwichprinzip. Aus limn→∞ an = b = limn→∞ cn und an ≤ bn ≤ cn für alle n ∈ N folgt limn→∞ bn = b. Das Sandwichprinzip ist für Folgen ähnlich grundlegend wie das Vergleichskriterium 4.6 für Nullfolgen. Beweis. Sei ε > 0 vorgegeben. Da (an )n und (cn )n gegen b konvergieren, existieren Zahlen nε,a , nε,c ∈ N mit |an − b| < ε für alle n ≥ nε,a bzw. |cn − b| < ε für alle n ≥ nε,c . Setzen wir nε := max{nε,a , nε,c }, so gilt für jedes n ≥ nε entweder bn ≥ b und damit 0 ≤ bn − b ≤ cn − b = |cn − b| < ε oder bn < b und damit 0 < b − bn ≤ b − an = |an − b| < ε. Auf jeden Fall gilt also |bn − b| < ε. Daher konvergiert (bn )n gegen b. 6.4 Monotonie des Grenzwerts. Konvergiert (an )n gegen a und existiert eine Schranke m ∈ R sowie ein Index N mit an ≥ m (an ≤ m) für alle n ≥ N , so gilt a ≥ m (a ≤ m). Konvergiert (an )n gegen ein a > 0, so existiert ein Index N ∈ N mit an > a/2 für alle n ≥ N . Diese beiden Sätze geben an, wie sich Konvergenz mit der Anordnung von R verträgt. Ihr Beweis verläuft ähnlich wie der des Sandwichprinzips 6.3. Achtung. Aus an > m und limn→∞ an = a folgt nicht a > m, wie das Gegenbeispiel an = 1/n und m = 0 zeigt. 6.5 Supremum und Infimum als Grenzwert. Sei M ⊂ R nichtleer und nach oben (unten) beschränkt. Nach dem Supremumsaxiom (A9) existiert dann ξ := sup M (ξ := inf M ). Definitionsgemäß existiert zu jedem n ∈ N ein an ∈ M mit ξ − 1/n < an ≤ ξ (ξ ≤ an < ξ + 1/n). Also konvergiert (an )n gegen ξ. Daher gilt: Existiert ξ = sup M (ξ = inf M ) für M ⊂ R, so gibt es eine Folge in M , die gegen ξ konvergiert. 6.6 Eigenschaften konvergenter Folgen. (a) Jede konvergente Folge ist beschränkt. Konvergiert (an )n gegen a, so ist (an − a)n als Nullfolge nach 5.1 (a) beschränkt durch ein M ≥ 0. Mit der Dreiecksungleichung folgt |an | = |a + an − a| ≤ |a| + |an − a| ≤ |a| + M für alle n ∈ N. Damit ist (an )n durch |a| + M beschränkt. (b) Jede Teilfolge einer konvergenten Folge konvergiert und hat denselben Grenzwert wie die Folge selbst. Das folgt sofort aus 5.1 (b). 6.7 Rechenregeln für konvergente Folgen. 23 KAPITEL 1. GRUNDLAGEN Ist a := limn→∞ an und b := limn→∞ bn , so gilt: (c) limn→∞ (αan + βbn ) = αa + βb für beliebige α, β ∈ R. (d) limn→∞ |an | = |a|. (e) limn→∞ an bn = ab. (f) limn→∞ bn /an = b/a falls a 6= 0. Dabei kann an höchstens endlich oft Null sein, die entsprechenden Glieder müssen dann natürlich in der Folge (bn /an )n weggelassen werden. (g) limn→∞ an m = am für jedes m ∈ N. √ √ (h) limn→∞ an = a falls an ≥ 0 für alle n ∈ N. Beweis. Wir machen jeweils durch geschicktes Abschätzen das Vergleichskriterium 4.6 anwendbar. Zu (c): Wir zeigen, dass ((αan + βbn ) − (αa + βb))n eine Nullfolge ist. Tatsächlich gilt |(αan + βbn ) − (αa + βb)| = |α(an − a) + β(bn − b)| ≤ |α||an − a| + |β||bn − b| und die rechte Seite strebt nach den Rechenregeln für Nullfolgen 5.2 gegen Null. Zu (d): Die umgekehrte Dreicksungleichung (siehe §1.4.7) liefert ||an | − |a|| ≤ |an − a| und die rechte Seite konvergiert gegen Null. Also ist (|an | − |a|)n eine Nullfolge. Zu (e): Nach 6.6 (a) ist (bn )n beschränkt, d.h. es gibt ein M ≥ 0 mit |bn | ≤ M für alle n ∈ N. Damit gilt |an bn − ab| = |an bn − abn + abn − ab| = |(an − a)bn + a(bn − b)| ≤ M |an − a| + |a||bn − b|. Die rechte Seite konvergiert nach den Rechenregeln für Nullfolgen 5.2 gegen Null, also auch (an bn − ab)n . Zu (f): Wir zeigen limn→∞ 1/an = 1/a. Die Behauptung folgt dann aus (e). Sei zunächst a > 0. Nach 6.4 existiert ein N ∈ N mit an ≥ a/2 > 0 für alle n ≥ N . Für diese n folgt 1 2 1 a − an |an − a| an − a = an a = an a ≤ a2 |an − a| und entlarvt (1/an − 1/a)n als Nullfolge. Für a < 0 schließe man analog. Zu (g): Dies folgt aus (e) durch Induktion nach m. Zu (h): Aus an ≥ 0 folgt a ≥ 0 dank der Monotonie des Grenzwerts 6.4. Damit erhalten wir √ | an − √ an − a |a − a| 1 √ = √ n √ ≤ √ |an − a|. a| = √ an + a an + a a √ √ Die rechte Seite ist eine Nullfolge und damit auch ( an − a)n . 6.8 Weitere konvergente Folgen. p (i) limn→∞ n |a| = 1 für jedes a 6= 0. p Beweis. Sei zunächst |a| ≥ 1. Dann ist bn := n |a| − 1 ≥ 0, und wir müssen limn→∞ bn = 0 zeigen. Aus der Bernoullischen Ungleichung folgt |a| = (1 + bn )n ≥ 1 + nbn und weiter 0 ≤ bn ≤ (|a| p − 1)/n für n ∈ N. Nun liefert das Sandwichprinzip 6.3 die Behauptung. Für 0 < |a| < 1 betrachte man n 1/|a| und schließe analog. √ (j) limn→∞ n nm = 1 für jedes m ∈ N. 24 §2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN √ Beweis. Wir zeigen, dass an := n nm −1 eine Nullfolge ist. Für alle n ∈ N gilt an ≥ 0. Für alle n ≥ m+1 erhalten wir mit der binomischen Formel 5.9 n √ n X n n n n m k m = (1 + an ) = n an ≥ n = an m+1 k m+1 k=0 nm+1 1 m n(n − 1) · · · (n − m) m+1 an = ·1· 1− ··· 1 − an m+1 = (m + 1)! (m + 1)! n n 1 m 1 1− ··· 1 − an m+1 nm+1 ≥ (m + 1)! m+1 m+1 | {z } =:B mit einer Zahl B > 0. Für alle n ≥ m + 1 gilt daher 0 ≤ an m+1 ≤ 1/(Bn) und damit auch |an | ≤ 1 √ m+1 B 1 √ . n m+1 Nun zeigt das Vergleichskriterium 4.6 zusammen mit 4.4 (c), dass (an )n eine Nullfolge ist. 7 Intervallschachtelung und Dezimalbruchentwicklung 7.1 Definition: Intervallschachtelung. Eine Folge von Intervallen [cn , dn ] bildet eine Intervallschachtelung, wenn [cn+1 , dn+1 ] ⊂ [cn , dn ] für alle n ∈ N und dn − cn → 0 für n → ∞. 7.2 Satz über die Intervallschachtelung. Eine Intervallschachtelung erfasst genau eine reelle Zahl. D.h. es existiert eine und nur eine Zahl x ∈ R, die zu allen Intervallen gehört. Für diese Zahl gilt limn→∞ cn = x = limn→∞ dn . Beweis. Definitionsgemäß gilt c1 ≤ c2 ≤ . . . ≤ cn ≤ cn+1 ≤ dn+1 ≤ dn ≤ . . . ≤ d2 ≤ d1 . Insbesondere ist cn ≤ d1 für alle n ∈ N. Damit ist M := {cn | n ∈ N} nichtleer und nach oben beschränkt. Also existiert x := sup M . Offensichtlich gilt x ≥ cn für alle n ∈ N. Nun ist auch jedes dn obere Schranke für M . Und da x die kleinste obere Schranke von M ist, folgt x ≤ dn für alle n ∈ N. Wir haben also cn ≤ x ≤ dn für alle n ∈ N und damit 0 ≤ x − cn ≤ dn − cn . Wegen limn→∞ (dn − cn ) = 0 gilt limn→∞ cn = x nach dem Vergleichskriterium. Analog folgt limn→∞ dn = x. 7.3 Dezimalbruchentwicklung. Für eine vorgegebene reelle Zahl x ≥ 0 setzen wir x0 := bxc k := max k ∈ {0, 1, 2, . . . , 9} x0 + ≤x , 10 k x1 := max k ∈ {0, 1, 2, . . . , 9} x0 + + ≤x , 10 102 x1 x2 usw. d.h. sind die Ziffern x0 , x1 , . . . , xn schon gefunden, so setzen wir x2 xn k x1 xn+1 := max k ∈ {0, 1, 2, . . . , 9} x0 + + + · · · + n + n+1 ≤ x , 10 102 10 10 So ordnen wir jeder reellen Zahl x ≥ 0 eine ganze Zahl x0 ≥ 0 und eine Folge (xn )n von Ziffern zu, die Dezimalbruchentwicklung von x, und schreiben x = x0 , x1 x2 x3 . . . (im angelsächsischen wird das Dezimalkomma durch einen Dezimalpunkt ersetzt). Gibt es ein N ∈ N mit xn = 0 für alle n > N , so schreiben wir einfach x = x0 , x1 x2 x3 . . . xN 25 KAPITEL 1. GRUNDLAGEN und nennen x einen endlichen Dezimalbruch. Durch cn := x0 + x1 xn + ··· + n, 10 10 dn := cn + 1 10n erhalten wir offensichtlich eine Intervallschachtelung [cn , dn ]. Konstruktionsgemäß gilt dann cn ≤ x < dn für n ∈ N. √ Beispiel. x = 5. Wegen 22 < 5 < 32 ist x0 = 2. Durch Probieren erhalten wir x1 = 2, da 2 2 2 3 2+ = 4, 84 < 5 < 5, 29 = 2 + , 10 10 und weiter x2 = 3, da Damit gilt 2, 23 < √ 2 3 2+ + 10 102 2 2 2 4 = 4, 9729 < 5 < 5, 0176 = 2 + . + 10 102 5 < 2, 24. 7.4 Eigenschaften der Dezimalbruchentwicklung. (a) In der Dezimalbruchentwicklung kann es nicht vorkommen, das ab einer bestimmten Stelle alle Ziffern gleich 9 sind. (b) Ist x0 ≥ 0 eine ganze Zahl und ist (xn )n eine Folge von Ziffern, die nicht von einer bestimmten Stelle ab alle gleich 9 sind, so gibt es genau eine reelle Zahl x, die diese Dezimalbruchentwicklung hat. (c) Genau dann sind x und y verschieden, wenn sich die Dezimalbruchentwicklungen von x und y an mindestens einer Stelle unterscheiden. Beweis∗ . Zu (a): Wäre xn = 9 für alle n > N und xN < 9, so zeigt eine kurze Rechnung cn = cN + 9 10N +1 + ··· + 9 , 10n d n = cn + 1 1 = cN + N . n 10 10 Wegen dn → x hätten wir x = cN + 1/10N im Widerspruch zur Definition von cN . Zu (b): Die zu x0 und den Ziffern x1 , . . . , xn wie zuvor gebildeten Zahlen cn := x0 + x1 xn + ··· + n, 10 10 dn := cn + 1 10n ergeben eine Intervallschachtelung, welche genau eine Zahl x erfaßt. Wir müssen nur noch begründen, dass x die vorgegebene Dezimalbruchentwicklung hat. Hierzu genügt der Nachweis von cn ≤ x < dn für alle n ∈ N. Wäre x = dN für ein N , so auch x = dn für alle n ≥ N , da dn ≤ dN . Es folgt cn+1 − cn = (dN − 1/10n+1 ) − (dN − 1/10n ) = 9/10n+1 , d.h. xn = 9 für alle n > N , was nicht sein darf. Zu (c): Unterscheiden sich die Dezimalbruchentwicklungen von x und y erstmals an der N -ten Stelle, so können wir xN < yN annehmen (ansonsten vertausche man die Rollen von x und y). Dann gilt xN 1 yN − xN − 1 yN ≥ 0. y − x > y0 + · · · + N − x0 + · · · + N + N = 10 10 10 10N Also sind x und y verschieden. 7.5 Gültige Stellen beim Runden von Dezimalbrüchen. Schreiben wir x = 5, 23, so bedeutet das 2 x = 5 + 10 + 1032 . Dagegen soll x ≈ 5, 23 besagen, dass die letzte angegebene Stelle aus der Dezimalbruchentwicklung von x durch Runden entstanden ist. In unserem Fall gilt 5, 225 ≤ x < 5, 235 und wir sagen, dass „x auf drei Stellen genau“ angegeben ist. In diesem Zusammenhang wird die Potenzschreibweise verwendet. Will man beispielsweise 42010 auf drei gültige Stellen angeben, so schreibt man 4, 20 · 104 , analog wird 0, 00587 durch 5, 9 · 10−3 auf zwei gültige Stellen angegeben. 26 §2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN Messwerte werden immer mit sovielen Stellen angegeben, wie es der Messgenauigkeit entspricht. Werden Messergebnisse in Berechnungen verwendet, so hat der Messfehler Auswirkungen auf die Genauigkeit des Ergebnisses. Wie sich der Messfehler fortpflanzt, können wir später mit Mitteln der Analysis untersuchen. Haben wir beispielsweise x ≈ 0, 010, d.h. 0, 0095 ≤ x < 0, 0105, so gilt 95 < 1/x < 106. 7.6 Überabzählbarkeit von R. Schon die Menge [0, 1[ und damit erst recht R lässt sich nicht abzählen. Wäre nämlich [0, 1[= {zn | n ∈ N} abzählbar, so könnten wir aus den einzelnen Dezimaldarstellungen z1 = 0, x11 x12 x13 . . . , z2 = 0, x21 x22 x23 . . . , z3 = .. . 0, x31 x32 x33 . . . , eine Zahl y = 0, y1 y2 , y3 . . . mittels yn := 9 − xnn konstruieren. Dann wäre y ∈ [0, 1[ und keine der Zahlen obiger Aufzählung, da sich y von zn an der n-ten Nachkommastelle unterscheidet — ein Widerspruch. 7.7∗ Bemerkung zur Existenz und Eindeutigkeit von R. Wer sich für einen deduktiven Aufbau der Analysis interessiert: Wir haben postuliert, dass die reellen Zahlen die Axiome (A1)–(A9) erfüllen — ohne zunächst zu wissen, ob es überhaupt eine oder vielleicht sogar viele derartige Mengen gibt. Jetzt haben wir aus diesem Postulat abgeleitet, dass sich jede dieser Mengen als die Menge aller Dezimalbrüche darstellen lässt. In diesem Sinn gibt es eine und auch nur eine Menge reeller Zahlen — nämlich die Menge aller Dezimalbrüche. 8 Konvergenznachweis ohne Kenntnis des Grenzwerts 8.1 Problemstellung. Die uns bisher bekannten Techniken zur Konvergenzuntersuchung haben einen entscheidenden Nachteil: man muss einen Kandidaten für den Grenzwert haben, um mit dem Konvergenznachweis beginnen zu können. Betrachten Sie das folgende Beispiel. Haben Sie eine Vermutung über den Grenzwert? 1 n (1 − 1 n n) 0 2 3 4 0, 25 ≈ 0, 296 5 ≈ 0, 316 ≈ 0, 328 10 15 ≈ 0, 349 ≈ 0, 355 20 30 50 ≈ 0, 358 ≈ 0, 362 ≈ 0, 364 0.4 0.3 0.2 0.1 20 40 60 80 100 Abbildung 1.2: Die ersten 100 Glieder von ((1 − 1/n)n )n . Wir werden nun Kriterien bereitstellen, mit denen die Konvergenz einer Folge nachgewiesen werden kann, ohne den Grenzwert zu kennen. Wozu das alles? Nun, wir können solche Folgen dazu verwenden, „neue“ 27 KAPITEL 1. GRUNDLAGEN Zahlen (wie die Eulersche Zahl e) und Funktionen (wie die Exponentialfunktion und die trigonometrischen Funktionen) zu definieren. 8.2 Monotone Folgen. Eine Folge (an )n heißt monoton wachsend (monoton fallend ), wenn an ≤ an+1 (an ≥ an+1 ) für alle n ∈ N. Gilt sogar an < an+1 (an > an+1 ), so heißt (an )n streng monoton wachsend (streng monoton fallend ). Da das Konvergenzverhalten einer Folge nicht von den ersten Gliedern abhängt, ist es i.A. nur wichtig zu wissen, ob eine Folge von einer bestimmten Stelle an monoton ist. 8.3 Monotoniekriterium für Folgen. Jede monoton wachsende (fallende) und nach oben (unten) beschränkte Folge konvergiert. Beweis. Sei (an )n eine beschränkte und monoton wachsende Folge. Die Menge {an ∈ R | n ∈ N} ist damit nach oben beschränkt. Also besitzt sie ein Supremum a ∈ R und es gilt an ≤ a für alle n ∈ N. Sei nun ε > 0 vorgegeben. Nach Definition des Supremums existiert ein nε ∈ N mit anε ≥ a − ε, andernfalls wäre a − ε eine kleinere obere Schranke als a. Da (an )n monoton wächst, folgt 0 ≤ a − an ≤ a − anε < ε für n ≥ nε . Damit konvergiert (an )n gegen a. Für eine monoton fallende Folge argumentiere man analog. 8.4 Anwendungsbeispiel: radioaktiver Zerfall. Die Anzahl ∆N der innerhalb einer Zeitspanne ∆T zerfallenden Atome einer radioaktiven Substanz ist näherungsweise proportional zur Anzahl N der vorhandenen Atome. Es gilt also ∆N = β∆T N und nach ∆T sind noch N − ∆N = N (1 − β∆T ) Atome vorhanden. Der Proportionalitätsfaktor β wird Zerfallskonstante genannt. Gibt es zur Zeit t = 0 gerade N0 Atome, so erhält man die Anzahl N (t) von Atomen nach einer längeren Zeit t näherungsweise, indem man den Zeitraum in n gleichgroße Teilintervalle ∆T = t/n aufteilt. Nach ∆T sind dann N0 (1 − βt/n), nach 2∆T noch N0 (1 − βt/n)2 und zur Zeit t schließlich N0 (1 − βt/n)n Atome vorhanden. Im Grenzfall haben wir also zur Zeit t noch N (t) = N0 limn→∞ (1 − βt/n)n Atome. Wie verhält sich nun die Folge an = (1 − x/n)n für ein x > 0? Wegen an < 1n = 1 ist (an )n nach oben beschränkt. Mit der Bernoullischen Ungleichung §1.5.11 erhalten wir für n > x n+1 n+1 n+1 ( n+1−x n−x n+1−x n n−x x an+1 n+1 ) = = 1+ = n an n n+1 n−x n (n + 1)(n − x) ( n−x n ) n−x (n + 1)x n−x x ≥ 1+ = 1+ = 1, n (n + 1)(n − x) n n−x d.h. an+1 ≥ an . Also ist (an )n ab einem Index monoton wachsend. Damit konvergiert ((1 − x/n)n )n . In 2.§2 werden wir den Grenzwert als die Zahl e−x entlarven, d.h. N (t) = N0 e−βt . Aus der obigen Schranke für (an )n erhalten wir mit der Monotonie des Grenzwerts 6.4 momentan lediglich limn→∞ (1 − x/n)n ≤ 1. 8.5 Anwendungsbeispiel: Babylonisches Wurzelziehen. Für jede Zahl a > 1 konvergiert die durch a 1 an + für n ≥ 1 a1 := a, an+1 := 2 an √ rekursiv definierte Folge (an )n monoton fallend gegen a. Hierbei besteht die Fehlerabschätzung 0 < an+1 − √ √ 1 a < √ (an − a)2 . a Den Nachweis der Monotonie und Beschränktheit von (an )n sowie √ der Fehlerabschätzung lassen wir als Übungsaufgabe. Die Existenz des Grenzwerts limn→∞ an =: c ≥ a folgt dann aus dem Monotoniekriterium 6.4. Nun zeigen wir, wie wir hier aus dem bloßen Wissen um die Existenz des Grenzwerts c auch seinen Wert erhalten. Nach 6.7 gilt mit an → c auch (an + a/an )/2 → (c + a/c)/2 für n → ∞. Wir können also in der Rekursion an+1 = (an + a/an )/2 auf beiden Seiten zum und erhalten die √ Grenzwert übergehen √ Bedingungsgleichung c = (c + a/c)/2, d.h. c2 = a. Wegen c ≥ a muss dann c = a gelten. 28 §2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN √ Die Fehlerabschätzung ist√beachtenswert: Hat man im n-ten Schritt √ a durch an mit einem Fehler ε approximiert (d.h. √ gilt |a√n − a| = ε), so folgt für den Fehler |an+1 − a| im nächsten Approximationsschritt 0 < an+1 − a < ε2 / a < ε2 . Die Anzahl der gültigen Ziffern verdoppelt sich also jeweils. 8.6∗ Satz von Bolzano-Weierstraß. Jede beschränkte Folge besitzt mindestens eine konvergente Teilfolge. Dieser Satz ist meist die letzte Rettung, wenn man das Monotoniekriterium 6.4 nicht anwenden kann. Vermutet man bei einer beschränkten Folge Konvergenz und liegt keine Monotonie vor, so kann man mit diesem Satz wenigstens eine konvergente Teilfolge aussondern und sich von dieser aus weiterhangeln. Beweis. Wir konstruieren eine Intervallschachtelung. Ist (an )n durch M beschränkt, so setzen wir ( [−M, 0] falls an ≤ 0 für unendlich viele Indizes n, I1 = [c1 , d1 ] := [0, M ] sonst. Den kleinsten Index der Folgenglieder an ∈ I1 bezeichnen wir mit n1 , d.h. n1 := min{n ≥ 1 | an ∈ I1 }. Dann gilt an1 ∈ I1 und in I1 liegen unendlich viele Folgenglieder. Nun setzen wir c1 + d1 c1 + d1 falls an ≤ für unendlich viele Indizes n, c , 1 2 2 I2 = [c2 , d2 ] := c1 + d1 , d1 sonst. 2 Nun bezeichnen wir den kleinsten Index der an ∈ I2 , n ≥ n1 , mit n2 , d.h. n2 := min{n ≥ n1 | an ∈ I2 }. Dann gilt an2 ∈ I2 und in I2 liegen unendlich viele Folgenglieder. So fahren wir fort und erhalten nach k Schritten ein Intervall Ik = [ck , ck ] mit Ik ⊂ Ik−1 , dk − ck = M/2k , einen Index nk mit ank ∈ Ik und Ik enthält unendlich viele Folgenglieder. Die so definierte Intervallschachtelung erfasst genau eine Zahl a = limk→∞ ck = limn→∞ dk . Wegen ck ≤ ank ≤ dk gilt aber auch limk→∞ ank = a und wir haben eine konvergente Teilfolge gefunden. 8.7∗ Cauchy-Folgen. Eine Folge (an )n heißt Cauchy-Folge, wenn es zu jedem ε > 0 ein nε ∈ N gibt mit |an − am | < ε für alle n, m ∈ N mit n, m ≥ nε . Cauchy-Folgen können zur Konvergenzdiskussion ohne Kenntnis des Grenzwerts verwendet werden. Die Ungleichung |an − am | = |(an − a) + (a − am )| ≤ |an − a| + |am − a| impliziert nämlich: jede konvergente Folge ist eine Cauchy-Folge. Umgekehrt gilt in R: jede Cauchy-Folge besitzt einen Grenzwert, man sagt: R ist vollständig. Der Beweis wird mit Hilfe des Satzes von Bolzano-Weierstraß geführt. Tatsächlich kann man zeigen, dass die Vollständigkeit von R äquivalent zum Supremumsaxiom (A9) ist (vgl. [Kön, Band 1, 5.6]). 9 Uneigentliche Grenzwerte 9.1 Definition: uneigentlicher Grenzwert. (divergiert bestimmt gegen +∞) in Zeichen lim an = +∞ n→∞ oder Eine Folge (an )n konvergiert uneigentlich gegen +∞ an → +∞ für n → ∞, wenn zu jedem M ∈ R ein nM ∈ N existiert mit an > M für alle n ≥ nM . In Quantorenschreibweise lautet diese Definition (∀M ∈ R)(∃nM ∈ N)(∀n ∈ N)(n ≥ nM ⇒ an > M ). 29 KAPITEL 1. GRUNDLAGEN In Worten: „Für jede noch so große Schranke M sind mit vielleicht endlich vielen Ausnahmen alle Folgenglieder größer als M .“ Analog erklären wir, was uneigentliche Konvergenz bzw. bestimmte Divergenz gegen −∞ bedeutet. 9.2 Eigentliche und uneigentliche Konvergenz. Die zuvor in den Abschnitten 4–7 diskutierte Konvergenz einer Folge gegen eine reelle Zahl nennt man auch eigentliche Konvergenz , um selbige von der uneigentlichen abzusetzen. Eine Folge, die nicht eigentlich konvergiert, heißt divergent. Uneigentliche Konvergenz ist also eigentlich schon Divergenz. Beispiel. Die Folge (n2 )n ist uneigentlich konvergent gegen +∞. Dagegen konvergiert ((−n)n+1 )n = (12 , −23 , 34 , −45 , . . .) weder eigentlich noch uneigentlich. Die Teilfolge ((−2k)2k+1 )k = (−(2k)2k+1 )k = (−23 , −45 , . . .) der Folgenglieder mit geradem Index divergiert bestimmt gegen −∞, während die Teilfolge ((−(2k−1))2k )k = ((2k + 1)2k )k = (12 , 34 , . . .) der Folgenglieder mit ungeradem Index bestimmt gegen +∞ divergiert. 9.3 Umgang mit uneigentlichen Grenzwerten. Leider lassen sich nicht alle der in Abschnitt 6 für eigentlich konvergente Folgen genannten Eigenschaften auf uneigentlich konvergente Folgen übertragen. Aus limn→∞ an = +∞ und limn→∞ bn = −∞ kann beispielsweise überhaupt nichts über das Konvergenzverhalten von (an + bn )n geschlossen werden. Man mache sich das an Beispielen klar. Achtung. Wir haben keine Rechenregeln für uneigentlich konvergenten Folgen. (Ein Grund mehr, sie bestimmt divergent zu nennen.) Normalerweise hilft der folgende Satz weiter, der uneigentliche Konvergenz auf eigentliche zurückspielt. Genau dann ist (an )n uneigentlich konvergent gegen +∞ (−∞), wenn ab einem Index N alle Folgenglieder positiv (negativ) sind, d.h. an > 0 (an < 0) für alle n ≥ N und wenn (1/an )n≥N eine Nullfolge ist. Beispiel. 2n /(2n − 5) → +∞, da (2n − 5)/2n > 0 für n ≥ 3 und (2n − 5)/2n = 2n(1/2)n − 5(1/2)n → 0 nach 4.8 und 5.2 (d). 9.4∗ Häufungspunkte. Eine reelle Zahl a heißt (eigentlicher) Häufungspunkt einer Folge (an )n , wenn es eine Teilfolge gibt, die gegen a konvergiert. Hat (an )n eine Teilfolge, die uneigentlich gegen +∞ (−∞) konvergiert, so heißt +∞ (−∞) uneigentlicher Häufungspunkt von (an )n . Nach dem Satz von Bolzano-Weierstraß 8.6 hat jede beschränkte Folge mindestens einen eigentlichen Häufungspunkt. Jede Folge hat somit mindestens einen (eigentlichen oder uneigentlichen) Häufungspunkt. Und eine konvergente Folge hat nach 6.6 (b) genau einen Häufungspunkt. Man kann zeigen, dass die Folge (cn )n in 3.2 (d) beschränkt ist mit 0 ≤ cn ≤ 1 und dass jede Zahl c ∈ [0, 1] ein Häufungspunkt von (cn )n ist. 9.5 Landau-Notation für Folgen. Um das Konvergenz- oder Wachstumsverhalten einer Folge (an )n genauer zu beschreiben möchte man manchmal nicht nur den Grenzwert angeben, sondern auch ausdrücken „wie schnell“ sie eigentlich oder uneigentlich konvergiert. Hierzu wählt man eine Vergleichsfolge (bn )n und schreibt an an = O(bn ) für n → ∞ falls eine Konstante M > 0 existiert mit ≤ M für alle n ∈ N. bn In Worten: „an ist ein Groß-O von bn für n → ∞“. Das Landau-O drückt aus, dass (an )n mindestens so schnell wie (bn )n konvergiert, bzw. höchstens so schnell wie (bn )n wächst Will man mitteilen, dass (an )n schneller als (bn )n konvergiert bzw. langsamer als (bn )n wächst, so verwendet man das Landau-O, an = O(bn ) für n → ∞ falls an → 0 für n → ∞. bn 30 §3. KOMPLEXE ZAHLEN In Worten: „an ist ein Klein-O von bn für n → ∞“. Für die bn muss dabei natürlich bn 6= 0 gelten. Die Landau-Notation ist in z.B. in der Informatik beliebt, wenn es darum geht, die Komplexität von Algorithmen abzuschätzen. Dann gibt an meistens die Anzahl der Grundoperationen im n-ten Schritt des Algorithmus an oder die Anzahl der Grundoperationen in Abhängigkeit von der Anzahl n der Eingabedaten und kann mit Hilfe der Landau-Notation griffig angeben, wie der Rechenaufwand wächst. Für die Vergleichsfolge (bn )n wählt man typischerweise • (nm )n , m ∈ N, polynomiales Wachstum, • (M n )n , M > 1, exponentielles Wachstum, • (n−m )n , m ∈ N, polynomialer Abfall , • (q n )n , 0 < q < 1, exponentieller Abfall . Beispiel. Die Folge ((n + 1)2 (2x)n )n wächst exponentiell für |x| > 1/2, polynomial für |x| = 1/2 und fällt exponentiell für |x| < 1/2. Die Grenzwertaussage limn→∞ nm q n = 0 für m ∈ N0 und |q| < 1 aus 4.8 besagt q n = O(n−m ) sowie nm = O(M n ), M := 1/|q|, für n → ∞. Man sagt: „exponentieller Abfall schlägt polynomialen“, bzw. „exponentielles Wachstum schlägt polynomiales“. 9.6 Asymptotische Gleichheit. Zwei Folgen (an )n und (bn )n heißen asymptotisch gleich, in Zeichen an ' bn wenn limn→∞ an /bn = 1. Hierbei muss natürlich bn 6= 0 gelten. Beispiel. Es gilt (n + 1)2 ' n2 , obwohl limn→∞ (an − bn ) = +∞. §3 Komplexe Zahlen Wir führen die komplexen Zahlen frühzeitig ein, weil sich Vieles dann einheitlich und leicht darstellen lässt. Dies trifft beispielsweise für den Umgang mit Polynomen und rationalen Funktionen zu, aber auch für trigonometrische Funktionen. Ebenso lassen sich die verschiedenen Schwingungsdifferentialgleichungen mit einem einheitlichen Ansatz lösen. 1 Rechnen mit komplexen Zahlen 1.1 Was sind komplexe Zahlen? Im 16. Jahrhundert begann man die komplexen Zahlen zum Lösen von quadratischen und kubischen Gleichungen zu verwenden. So rechnete 1545 Geronimo Cardano „unter Überwindung geistiger Qualen“ mit Quadratwurzeln aus negativen Zahlen. Leonhard Euler (1707–1783), dem auch die erstmalige Verwendung des Symbols i als Lösung der Gleichung z 2 = −11 zugeschrieben wird, setzte komplexe√Zahlen Gewinn, aber auch unbedenklich ein. So tritt bei ihm beispiels√ √ mit großem weise die Rechnung −1 · −4 = 4 = 2 auf. Nach den Regeln der Algebra müsste aber i · 2i = −2 sein. Wir werden uns zunächst darum kümmern, das Rechnen mit den komplexen Zahlen abzusichern. Anschließend wenden wir uns ihrer geometrischen Interpretation zu. 1.2 Komplexe Zahlen, Addition und Multiplikation. geordneten Paare reeller Zahlen erklären wir durch 1 Für Auf der Menge {(a, b) | a, b ∈ R} der (a, b) + (c, d) := (a + c, b + d), (a, b) · (c, d) := (ac − bd, ad + bc) reelle Variable wird gerne das Symbol x verwendet, für komplexe z. 31 KAPITEL 1. GRUNDLAGEN eine Addition und eine Multiplikation. Diese Menge nennen wir die komplexen Zahlen und bezeichnen sie mit C. 1.3 Körpereigenschaft von C. Durch Nachrechnen verifiziert man, dass die Körperaxiome (A1)–(A5) erfüllt sind. Beispielsweise ist (0, 0) das neutrale Element der Addition, (1, 0) das neutrale Element der Multiplikation, additiv Inverses zu (a, b) ist (−a, −b), multiplikativ Inverses zu (a, b) 6= (0, 0) (d.h. a 6= 0 oder b 6= 0) ist (a/(a2 + b2 ), −b/(a2 + b2 )). 1.4 Einbettung der reellen Zahlen in C. Mit Paaren der Form (x, 0) wird in C genauso gerechnet wie mit den Zahlen x ∈ R. Es gilt dann nämlich (x, 0) + (y, 0) := (x + y, 0), (x, 0) · (y, 0) := (xy, 0). Wir unterscheiden daher ab sofort nicht mehr zwischen der komplexen Zahl (x, 0) und der reellen Zahl x, sondern wir fassen x = (x, 0) als Element von C auf. Damit ist R ein Teilkörper von C. 1.5 Imaginäre Einheit. Setzen wir i := (0, 1), 2 so folgt i = (−1, 0) = −1. Die Zahl i heißt imaginäre Einheit. Damit hat die Gleichung z 2 + 1 = 0 in C eine Lösung: i2 + 1 = 0. Selbstverständlich gilt auch (−i)2 + 1 = 0. Eine beliebige Zahl (a, b) ∈ C kann nun in der Form (a, b) = (a, 0) + (0, b) = (a, 0) + (0, 1) · (b, 0) = a + ib geschrieben werden. Für eine komplexe Zahl schreiben wir darum ab sofort statt (a, b) einfach a + ib. 1.6 Real- und Imaginärteil. In der Darstellung z = a+ib einer komplexen Zahl z mit reellen Zahlen a und b heißt a =: Re(z) der Realteil und b =: Im(z) der Imaginärteil von z. 1.7 Addition und Multiplikation komplexer Zahlen. Insbesondere erhalten wir für z, w ∈ C mit z = a + ib und w = c + id die Beziehungen z+w = (a + ib) + (c + id) = (a + c) + i(b + d), z−w = (a + ib) − (c + id) = (a − c) + i(b − d), zw z w = (a + ib)(c + id) = (ac − bd) + i(ad + bc), a + ib (a + ib)(c − id)) ac + bd −ad + bc = = 2 +i 2 c + id (c + id)(c − id) c + d2 c + d2 = falls w 6= 0. Komplexe Zahlen werden also addiert, indem man jeweils ihre Real- und Imaginärteile addiert: Re(z + w) = Re(z) + Re(w), Im(z + w) = Im(z) + Im(w). Die Multiplikation ist etwas komplizierter, Real- bzw. Imaginärteil des Produkts berechnen sich gemäß Re(zw) = Re(z) Re(w) − Im(z) Im(w), Im(zw) = Re(z) Im(w) + Im(z) Re(w). 1.8 Was bleibt erhalten? Die komplexen Zahlen bilden ebenso wie die reellen einen Körper. Darum bleiben alle Formeln, die wir nur aus den Körpereigenschaften abgeleitet haben, erhalten. Insbesondere sind dies die Rechenregeln §1.3.2, unsere Definition für Potenzen (cn für c ∈ C und n ∈ N0 bzw. c ∈ Cr{0} und −n ∈ N) und Binomialkoeffizienten §1.5.8 ( kc für c ∈ C und k ∈ N0 ), die binomische Formel §1.5.9 ((a + b)n für a, b ∈ C und n ∈ N0 ) und die geometrische Summenformel §1.5.10 (an − bn für a, b ∈ C und n ∈ N0 ). Im Gegensatz zu R kann C nicht geordnet werden. In einem geordneten Körper haben wir nämlich a2 > 0 für alle a 6= 0 nach §1.4.3 (b), in C gilt aber i2 = −1. 32 2 §3. KOMPLEXE ZAHLEN Gaußsche Zahlenebene 2.1 Komplexe Zahlen als Punkte in der Ebene. Wir haben die komplexen Zahlen als Paare reeller Zahlen (a, b) eingeführt. Für das Rechnen ist die Darstellung a + ib vorteilhafter. Die Paardarstellung (a, b) hat aber auch ihren Nutzen: wir können die komplexen Zahlen als Punkte in der Zahlenebene wiederfinden. Zu Ehren von Carl Friedrich Gauß wird sie auch Gaußsche Zahlenebene genannt. Die reellen Zahlen (a, 0) bilden die reelle Achse, die rein imaginären Zahlen (0, b) bilden die imaginäre Achse. Real- und Imaginärteil einer komplexen Zahl sind dann gerade die Koordinaten bezüglich dieser beiden Achsen. Man nennt sie auch kartesische Koordinaten. b = Im(z) i |z| = 0 z = a + ib √ a2 + b2 1 a = Re(z) Abbildung 1.3: Zahlenebene. 2.2 Betrag einer komplexen Zahl. Für z = a + ib ∈ C, a, b ∈ R, nennen wir |z| := p a2 + b2 = p (Re z)2 + (Im z)2 . den Betrag von z. Nach dem Satz des Pythagoras ist |z| gerade der Abstand von z zum Ursprung der Zahlenebene. √ Für reelle Zahlen stimmt diese neue Betragsdefinition wegen a2 = |a| für a ∈ R mit der alten aus §1.4.5 überein. Durch |z − a| wird der Abstand zweier komplexer Zahlen z und a angegeben. Darum ist Kr (a) := {z ∈ C | |z − a| < r} für r > 0 gerade das Innere des Kreises mit Mittelpunkt a und Radius r. Wie beschreibt man eine Kreisscheibe, bzw. eine Kreislinie? 2.3 Beschränkte Mengen. Eine Teilmenge M ⊂ C heißt beschränkt, wenn es eine Schranke m ≥ 0 gibt mit −z = −a + ib |z| ≤ m für alle z ∈ M . z = a + ib Ist M sogar eine Teilmenge von R so stimmt diese Definition mit der alten §1.7.3 überein. Geometrisch gesehen bedeutet Beschränktheit von M , dass die Menge M ganz in der Kreisscheibe mit Radius m um −z = −a − ib den Ursprung enthalten ist. z = a − ib 2.4 Konjugieren. Für z = a + ib mit a, b ∈ R heißt z := a − ib die zu z konjugierte Zahl. Insbesondere gilt i = −i. Geometrisch gedeutet ist das Konjugieren gerade das Spiegeln an der reellen Achse. Abbildung 1.4: Konjugieren. 2.5 Rechenregeln für Konjugieren und Betrag. Für komplexe Zahlen z und w gilt (a) z + w = z + w, zw = z · w, z = z; (b) Re(z) = z+z 2 , (c) |z|2 = z · z; Im(z) = z−z 2i ; 33 KAPITEL 1. GRUNDLAGEN (d) 1 z = z |z|2 falls z 6= 0; (e) | Re z|, | Im z| ≤ |z| ≤ | Re z| + | Im z|; (f) |z| ≥ 0 und genau dann ist |z| = 0, wenn z = 0; (g) |zw| = |z||w|; (h) |z + w| ≤ |z| + |w| (Dreiecksungleichung); (i) ||z| − |w|| ≤ |z − w| (umgekehrte Dreiecksungleichung). Beweis. Die Regeln (a), (b) und (f) sind unmittelbar einsichtig. Setzen wir a = Re(z) und b = Im(z) so erhalten wir (c) aus z · z = (a + ib)(a − ib) = a2 − (ib)2 = a2 + b2 = |z|2 . Hieraus folgt sofort (d) sowie |zw|2 = |z|2 |w|2 . Wurzelziehen liefert dank (f) nun (g). Ebenso erhalten wir (e) aus | Re z|2 ≤ (Re z)2 + (Im z)2 ≤ | Re z|2 + 2| Re z|| Im z| + | Im z|2 = (| Re z| + | Im z|)2 , | {z } | Im z|2 =|z|2 sowie (h) aus |z + w|2 = (e) ≤ (z + w)(z + w) = zz + zw + zw + ww = |z|2 + 2 Re(zw) + |w|2 |z|2 + 2|zw| + |w|2 (a),(g) = |z|2 + 2|z||w| + |w|2 = (|z| + |w|)2 . Nun folgt (i) genau so wie im reellen Fall. 2.6 Beispiele zu Konjugieren und Betrag. Man sieht, dass Konjugieren oft nützlicher als sofortiges Bilden von Real- und Imaginärteil ist. Beispielsweise berechnen wir Real- und Imaginärteil von 1/(1 + i) bequem mit Hilfe von (d) zu 1−i 1−i 1−i 1 1 1 = = = = −i , 1+i (1 + i)(1 − i) 1 − i2 2 2 2 d.h. Re 1 1 = , 1+i 2 Im 1 1 =− . 1+i 2 z+1 Ähnlich leicht können wir die Punkte z ∈ C mit | z−1 | = 1 bestimmen. Für diese Punkte gilt nämlich 0 = |z + 1|2 − |z − 1|2 = (z + 1)(z + 1) − (z − 1)(z − 1) = 2z + 2z = 4 Re(z), d.h. z ist rein imaginär. Zu derselben Einsicht kommen wir auch durch geometrische Interpretation der Bedingung |z + 1| = |z − 1|. Der Punkt z muss von den Punkten −1 und 1 gleich weit entfernt sein, d.h. er liegt auf der imaginären Achse. 2.7 Geometrische Deutung der Addition. Die komponentenweise Addition komplexer Zahlen bedeutet geometrisch die Addition von Vektoren. Man erhält z + w, indem man die Punkte 0, z und w zu einem Parallelogramm ergänzt. Die Dreiecksungleichung 2.5 (h) besagt daher: „in einem Dreieck ist eine Seite nie länger als die Summe der beiden anderen Seitenlängen“. Fixieren wir in unserer geometrischen Vorstellung der Addition z + w die Zahl w, so bewirkt z 7→ z + w eine Verschiebung von z um w. Beispielsweise geht das Kreisinnere Kr (0) durch Verschiebung um w in das Kreisinnere Kr (w) über. 2.8 Geometrische Deutung der Multiplikation. Die Multiplikation z 7→ rz mit einer positiven Zahl r, bewirkt wegen r(a + ib) = ra + irb eine Streckung um den Faktor r (für r > 1 ist das eine echte Streckung, für 0 < r < 1 ist eine Stauchung). Analog bewirkt die Multiplikation z 7→ iz mit i wegen i(a + ib) = −b + ia eine Vierteldrehung gegen den Urzeigersinn. Daher bewirkt z 7→ −z = i(iz) eine halbe Drehung und z 7→ −iz = i(i(iz)) eine Dreivierteldrehung gegen den Uhrzeigersinn. 34 §3. KOMPLEXE ZAHLEN Allgemein kann eine Multiplikation z 7→ zw mit einer komplexen Zahl w 6= 0 als eine Drehstreckung gedeutet werden. Wir werden das in 2.§2.5.16 mit Hilfe der Polarkoordinatendarstellung z = reiϕ einsehen, welche z durch den Betrag r = |z| und das Argument ϕ, d.h. den orientierten Winkel zwischen z und der positiven reellen Achse darstellt. Stellen wir auch w = ρeiψ in Polarkoordinaten dar und verwenden wir im Vorgriff die Funktionalgleichung ex+y = ex ey der Expontentialfunktion aus 2.§2.1.2, so gilt nämlich zw = reiϕ ρeiψ = rρei(ϕ+ψ) , d.h. der Betrag von z hat sich nach Multiplikation mit w um den Faktor ρ vergrößert und das Argument um ψ erhöht. Also ist zw gegenüber z um den Faktor ρ gestreckt und um den Winkel ψ gedreht. z+w w z z z+w 0 z 7→ z + w Abbildung 1.5: Addition komplexer Zahlen mit der Parallelogrammregel, Addition als Verschiebung. rz z z iz z 7→ rz z 7→ iz Abbildung 1.6: Steckung bzw. Vierteldrehung in der Zahlenebene. zw = rρei(ϕ+ψ) rρ ρ w = ρeiψ zw ψ r ϕ+ψ z z = reiϕ ϕ z 7→ zw Abbildung 1.7: Multiplikation komplexer Zahlen in Polarkoordinaten, Multiplikation als Drehstreckung. 35 KAPITEL 1. GRUNDLAGEN 2.9 Geometrische Deutung des Kehrwertbildens. Die Inversion z 7→ 1/z wird wegen 1/z = z/|z|2 als Spiegelung am Einheitskreis {z ∈ C | |z| = 1} und anschließender Spiegelung an der reellen Achse gedeutet. Allgemein sagt man, dass zwei Punkte z und z 0 durch Spiegelung am Kreis mit Radius r um den Ursprung auseinander hervorgehen, wenn • z und z 0 auf der selben Halbgeraden durch 0 liegen und z0 z • das Produkt ihrer Längen r2 ist. Diese Beobachtung ist in der Optik nützlich. 2.10 Fazit. Addition und Multiplikation komplexer Zahlen können geometrisch gedeutet werden. Für die Addition ist die Darstellung in kartesischen Koordinaten, für die Multiplikation die in Polarkoordinaten vorteilhaft. Wir werden das in 2.§2.5.16 vertiefen. 3 1/z = z 0 Abbildung 1.8: Inversion am Einheitskreis. Folgen komplexer Zahlen 3.1 Konvergenz für Folgen komplexer Zahlen. Wir erinnern uns an die Einführung des Konvergenzbegriffs für reelle Zahlenfolgen §2.6.1: „Für jeden noch so kleinen Fehler ε > 0 unterscheiden sich mit vielleicht endlich vielen Ausnahmen alle Folgenglieder um weniger als ε vom Grenzwert a.“ Nun können wir auch in C den Abstand von z und a messen — nämlich durch den Betrag |z − a|. Damit lässt sich die Grenzwertdefinition auf komplexe Zahlenfolgen erweitern. Definition. Eine Folge (an )n komplexer Zahlen konvergiert gegen eine komplexe Zahl a, in Zeichen limn→∞ an = a oder an → a für n → ∞, wenn zu jedem ε > 0 ein nε ∈ N existiert mit |an − a| < ε für alle n ≥ nε . 3.2 Konvergenznachweis. Eine komplexe Zahlenfolge (an )n konvergiert genau dann gegen eine komplexe Zahl a, wenn (|an − a|)n eine Nullfolge ist. Dies folgt sofort aus der Definition 3.1. Mit dem Vergleichskriterium §2.4.6 und 2.5 (e) erhalten wir nun: Eine komplexe Zahlenfolge (an )n konvergiert genau dann, wenn die beiden reellen Zahlenfolgen (Re an )n der Realteile und (Im an )n der Imaginärteile konvergieren. Gilt Re an → α und Im an → β für n → ∞, so folgt an → α + iβ für n → ∞. Achtung. Da C nicht geordnet ist, haben wir keinen direkten Ersatz für das Sandwichprinzip §2.6.3. 3.3 Was bleibt erhalten? Die Eigenschaften konvergenter Folgen §2.6.6 (a)–(b) sowie die Rechenregeln §2.6.7 (c)–(g) bleiben erhalten, der Beweis überträgt sich wörtlich. Sind also (zn )n und (wn )n komplexe Zahlenfolgen mit limn→∞ zn = z und limn→∞ wn = w, so folgt (a) (zn )n ist beschränkt, (b) jede Teilfolge von (zn )n konvergiert gegen z, (c) limn→∞ (αzn + βwn ) = αz + βw für beliebige α, β ∈ C, (d) limn→∞ |zn | = |z|, (e) limn→∞ zn wn = zw, 36 §4. UNENDLICHE REIHEN (f) limn→∞ zn /wn = z/w falls w 6= 0, (g) limn→∞ zn m = z m für jedes m ∈ N. 3.4 Beispiele. √ (g) Für an := (1 + i)−n gilt |an | = 1/|1 + i|n = (1/ 2)n → 0 für n → ∞. Also konvergiert (an )n gegen 0. Können Sie sich die Folgenglieder an als Punkte in der Gaußschen Zahlenebene vorstellen? (h) Für eine beliebige komplexe Zahl q mit |q| < 1 gilt q n → 0 für n → ∞. Mit der geometrischen Summenformel §1.5.10 folgt lim n→∞ n X 1 − q n+1 1 = n→∞ 1−q 1−q q k = lim k=0 für |q| < 1. 3.5∗ Satz von Bolzano-Weierstraß in C. Da wir in C keine Anordnung haben, erhalten wir auch keinen Ersatz für das Monotoniekriterium für reelle Zahlenfolgen §2.8.3. Dafür lässt sich der Satz von Bolzano-Weierstraß §2.8.6 übertragen. Jede beschränkte Folge komplexer Zahlen enthält eine konvergente Teilfolge. Ist (zn )n beschränkt, so auch (Re zn )n und es existiert eine konvergente Teilfolge (Re znk )k . Auch (Im zn )n ist beschränkt und damit (Im znk )k , so dass eine konvergente Teilteilfolge (Im znkl )l existiert. Mit (Re znk )k ist auch (Re znkl )l konvergent. Dank 3.2 konvergiert dann (znkl )l . 3.6∗ Cauchy-Folgen in C. Wie in §2.8.7 erklären wir: eine Folge (an )n komplexer Zahlen heißt CauchyFolge, wenn es zu jedem ε > 0 ein nε ∈ N gibt mit |an − am | < ε für alle n, m ∈ N mit n, m ≥ nε . Mit der Dreiecksungleichung sieht man ein, dass eine komplexe Zahlenfolge genau dann eine Cauchy-Folge ist, wenn dies für die Folgen der Real- und der Imaginärteile zutrifft. Da eine reelle Zahlenfolge gemäß §2.8.7 genau dann konvergiert, wenn sie eine Cauchy-Folge ist, gilt dies dank 3.2 dann auch in C. Eine komplexe Zahlenfolge ist genau dann eine Cauchy-Folge, wenn sie konvergiert. §4 Unendliche Reihen Unendliche Reihen gehören neben den Integralen zu den wichtigsten konstruktiven Hilfsmitteln der Analysis. Wir werden viele wichtige Funktionen, beispielsweise die Exponentialfunktion und die trigonometrischen Funktionen durch Reihen darstellen. Viele Differentialgleichungen lassen sich durch Reihenansätze lösen. Und: sobald wir eine Reihendarstellung haben, können wir approximieren, d.h. in beliebiger Genauigkeit nähern. 1 Partialsummen, Konvergenz 1.1 Was ist eine unendliche Reihe? Wir können bisher nur Summen und Produkte endlich vieler Zahlen bilden. In §3.3.4 haben wir erstmalig unendlich viele Zahlen addiert: 1 + q + q 2 + · · · = 1/(1 − q) für |q| < 1. Dabei haben wir die „unendliche“ Summe über den Grenzwert limn→∞ (1 + q + q 2 + · · · + q n ) definiert. A priori ist nicht klar, ob wir dabei die Grundrechenregeln (A1)–(A3) für die Addition weiter verwenden können. 1.2 Definition: unendliche Reihe, unendliches Produkt. Pn Sei (ak )k≥0 eine Folge reeller oder komplexer Zahlen. Für n ∈ N0 wird sn := a0 + a1 + · · · + an = k=0 ak gesetzt. Die Folge (sn )n≥0 heißt dann eine unendliche Reihe und wird bezeichnet mit dem Symbol ∞ X ak . k=0 Die Zahl sn nennt man die n-te Partialsumme der Reihe, die Zahlen ak Glieder der Reihe. 37 KAPITEL 1. GRUNDLAGEN Unendliche Reihen der Gestalt eingeführt. P∞ k=r ak mit r ∈ Z und unendliche Produkte Q∞ k=r ak werden analog 1.3 Konvergenz und Divergenz unendlicher Reihen bzw. unendlicher Produkte. FallsP die Fol∞ ge (sn )n der Partialsummen gegen eine Zahl s konvergiert, so nennt man die unendliche Reihe k=0 ak konvergent und s den Grenzwert der Reihe. Im Konvergenzfall bezeichnet man den Grenzwert mit demselben Symbol wie die Reihe selbst, man schreibt also s= ∞ X ak . k=0 Falls die Folge (sn )n nicht (eigentlich) konvergiert, so nennt man die unendliche Reihe P∞ k=0 ak divergent. Für unendliche Produkte werden die entsprechenden Begriffe analog eingeführt. P∞ Achtung. Das Symbol k=0 ak hat zwei Bedeutungen: zum einen bezeichnet es (unabhängig von Konvergenz) die Folge der Partialsummen, zum anderen (und nur im Konvergenzfall) den Grenzwert. P∞ 1.4 Geometrische Reihe. Für q ∈ C heißt k=0 q k eine geometrische Reihe. Es gilt ∞ X qk = k=0 1 1−q für |q| < 1. Für |q| ≥ 1 ist die geometrische Reihe divergent. 1.5 Harmonische Reihe. Die harmonische Reihe ∞ X 1 k k=1 divergiert. Die Folge der Partialsummen ist nämlich wegen m s2m = 2 X 1 1 1 1 1 1 1 1 1 1 + · · · + + + ··· + =1+ + + + + + k 2 3 4 5 6 7 8 2m−1 + 1 2m k=1 ≥ 1+ 1 m 1 1 + 2 · + · · · + 2m−1 m = 1 + 2 4 2 2 nach oben unbeschränkt. 1.6 Teleskopreihen. Wegen n X k=1 n X 1 = k(k + 1) k=1 1 1 − k k+1 konvergiert die Reihe = n n+1 X 1 1 X1 − =1− →1 k k n+1 k=1 ∞ X k=1 Ähnlich kann man die Konvergenz von Teleskopreihen genannt. P∞ für n → ∞ k=2 1 =1 k(k + 1) 1 k=1 k(k+m) für m ∈ N nachweisen. Derartige Reihen werden 1.7 Eigenschaften konvergenter Reihen. (a) Die Glieder einer konvergenten Reihe bilden eine Nullfolge. (Notwendiges Konvergenzkriterium) (b) Eine konvergente (divergente) Reihe bleibt konvergent (divergent), wenn man endlich viele Glieder verändert. Der Grenzwert kann sich allerdings ändern. 38 §4. UNENDLICHE REIHEN P∞ Zu (a): Sei ε > 0 vorgegeben. Konvergiert k=0 ak gegen s, so existiert ein nε ∈ N mit |sn − s| < ε/2 für alle n ≥ nε . Insbesondere folgt mit der Dreiecksungleichung für zwei aufeinander folgende Partialsummen ε ε |an | = |sn − sn−1 | = |(sn − s) + (s − sn−1 )| ≤ |sn − s| + |sn−1 − s| < + = ε 2 2 sobald n ≥ nε + 1. Daher ist (ak )k eine Nullfolge. P∞ P∞ Zu (b): Unterscheiden sich k=0 ak und k=0 bk in nur endlich vielen Gliedern, so existiert ein Index N ∈ N mit ak = bk für k ≥ N . Für die Partialsummen sn bzw. tn folgt sn − (a0 + a1 + · · · + aN ) = tn − (b0 + b1 + · · · + bN ) für n ≥ N. P∞ P∞ Daher konvergiert k=0 ak genau dann, wenn auch k=0 bk konvergiert. Im Konvergenzfall gilt für die Grenzwerte ∞ ∞ X X ak − (a0 + a1 + · · · + aN ) = bk − (b0 + b1 + · · · + bN ). k=0 k=0 Achtung. Das notwendige Konvergenzkriterium ist nicht hinreichend. Das zeigt die harmonische Reihe P∞ k=1 1/k. Ihre Glieder bilden eine Nullfolge obwohl die Reihe divergiert. 1.8 Rechenregeln für konvergente Reihen. (c) Aus ∞ X ak = s und ∞ X bk = t folgt ak = s folgt (ak + bk ) = s + t. cak = cs für jede reelle oder komplexe Zahl c. k=0 k=0 (e) Konvergiert ∞ X ∞ X k=0 k=0 k=0 (d) Aus ∞ X ∞ X ak , so bilden die Reihenreste k=0 (f) Mit ∞ X ∞ X ! ak k=n+1 |ak | konvergiert auch k=0 ∞ X k=0 eine Nullfolge. n ∞ ∞ X X ak und es gilt ak ≤ |ak |. k=0 k=0 ∗ Beweis . Die Regeln P (c) und (d) folgen sofortPaus der entsprechenden Rechenregel §2.6.7 (c) für konP∞ Pn ∞ ∞ vergente Folgen. Gilt k=0 ak = s, so folgt k=n+1 ak = k=0 ak − k=0 ak = s − sn → 0. Das zeigt (e). Der Beweis zu (f) ist überraschend kompliziert, man muss entweder den Satz von Bolzano-Weierstraß P∞ §2.8.6 oder das Cauchy-Kriterium 3.6 verwenden. Das liegt daran, dass wir den Grenzwert von k=0 ak nicht kennen. P∞ Pn Wir bezeichnen den Pn Grenzwert von k=0 |ak | mit t und die Partialsummen mit tn := k=0 |ak |. Weiter setzen wir sn := k=0 ak . Wenn (tn )n konvergiert, so ist diese Folge auch beschränkt. Wegen n n X X |sn | = ak ≤ |ak | = tn k=0 k=0 ist damit auch (sn )n beschränkt und besitzt nach dem Satz von Bolzano-Weierstraß eine konvergente Teilfolge (snk )k , deren Grenzwert wir s nennen. Wir wollen zeigen, dass (sn )n selbst gegen s konvergiert. Sei ε > 0 vorgegeben. Es existiert ein kε ∈ N mit |snk − s| < ε/3 für alle k ≥ kε . Ferner gibt es ein nε ∈ N mit |t − tn | < ε/3 für alle n ≥ nε . Nun betrachten wir ein beliebiges n ≥ max{nkε + 1, nε }. Dann existiert ein k ≥ kε mit nk ≥ n und es gilt n n X X |sn − s| = snk + ak − s ≤ |snk − s| + |ak | = |snk − s| + (tn − tnk ) k=nk +1 k=nk +1 ε ε ε = |snk − s| + |(tn − t) − (tnk − t)| ≤ |snk − s| + |tn − t| + |tnk − t| < + + = ε. 3 3 3 P∞ Also ist die Folge der Partialsummen sn von k=0 ak konvergent. 39 KAPITEL 1. GRUNDLAGEN 2 Konvergenzkriterien 2.1 Bemerkung. Mit dem notwendigen Konvergenzkriterium 1.7 (a) haben wir einen einfachen Divergenztest für Reihen: Bilden die Reihenglieder keine Nullfolge, so divergiert die Reihe. Wir geben nun drei weitere wichtige Konvergenzkriterien an. Zu beachten ist, dass wir zwei von ihnen nur für Reihen mit reellen Gliedern verwenden können. P∞ 2.2 Monotoniekriterium. Sind ≥ 0 ab einem P∞ die Glieder ak einer Reihe k=0 ak alle reell und gilt akP n Index N ∈ N, so konvergiert k=0 ak genau dann, wenn die Folge der Partialsummen k=0 ak nach oben beschränkt ist. Beweis. Gilt ak ≥ 0 für k ≥ N , so ist sn+1 = sn + an+1 ≥ sn für n ≥ N . Also ist die Folge der Partialsummen sn ab dem Index N monoton wachsend. Nach dem Monotoniekriterium §2.8.3 konvergiert die Folge der Partialsummen, wenn sie nach oben beschränkt ist. Da jede konvergente Folge beschränkt ist, folgt auch die Umkehrung. 2.3 Beispiel zum Monotoniekriterium. Die Reihe ∞ X 1 k2 k=1 konvergiert, denn die Partialsummen sind monoton wachsend und wegen sn = n n X X 1 2 1 ≤ = 2 1 − ≤2 k2 k(k + 1) n+1 k=1 k=1 (vgl. 1.6) nach oben beschränkt. In 5.§7.1.7 werden wir mit Hilfe der Fourier-Analysis als Grenzwert π 2 /6 erhalten. P∞ 2.4 Majorantenkriterium. Ist k=0 aP und gilt |ak | ≤ bk k eine Reihe reeller oder komplexer Zahlen P ∞ ∞ ab einem Index N ∈ N, wobei die Reihe b konvergiert, so konvergiert sowohl k k=0 k=0 ak als auch P∞ k=0 |ak |. P∞ P∞ Die Reihe k=0 bk wird dann konvergente Majorante für k=0 ak genannt. Die am häufigsten verwendeten Majoranten sind ∞ X M qk mit M > 0 und q ∈]0, 1[ k=0 sowie ∞ X c k2 mit c > 0. k=1 Beweis. Indem wir ggf.P die ersten N Glieder abändern, können wir für den Konvergenznachweis PnN = 0 ∞ annehmen. Konvergiert k=0 bk und gilt |ak |P≤ bk für k ∈ N0 , so bilden die Partialsummen k=0 |ak | ∞ eine monoton Folge, welche durch k=0P bk beschränkt ist. Nach dem Monotoniekriterium 2.2 Pwachsende ∞ ∞ konvergiert k=0 |ak | und dann nach 1.7 (g) auch k=0 ak . 2.5 Beispiele zum Majorantenkriterium. (a) Die Exponentialreihe exp(z) := ∞ X zk k=0 k! =1+z+ z2 z3 + + ··· 2! 3! konvergiert für jedes z ∈ C. Zu gegebenem z ∈ C wählen wir ein N ∈ N mit N > 2|z|. In §2.4.8 (e) P∞haben wir für k > 2|z| die Abschätzung |z k /k!| ≤ M (1/2)k mit M := |2z|N /N ! bewiesen und damit k=0 M (1/2)k als konvergente Majorante gefunden. 40 §4. UNENDLICHE REIHEN Wir werden durch diese Reihe in 2.§21.1 die Exponentialfunktion definieren. (b) Die verallgemeinerte harmonische Reihe ∞ X 1 1 1 = 1 + s + s + ··· s k 2 3 konvergiert für alle s ∈ N mit s ≥ 2 und divergiert für s = 1. k=1 Die Fälle s = 1 und s = 2 haben wir schon in 1.5 und 2.3 behandelt. Wegen 1/ns ≤ 1/n2 für s ≥ 2 ist P ∞ 2 k=1 1/k konvergente Majorante für die verbleibenden Fälle. (c) Die verallgemeinerte geometrische Reihe ∞ X k m z k = z + 2m z 2 + 3m z 3 + · · · konvergiert für alle m ∈ N und jedes z ∈ C mit |z| < 1. k=0 Setzen wir r := p |z| und ak := k m z k , so gilt r < 1 und |ak | = k m rk · rk . Die Folge (k m rk )k ist alsPNullfolge (vgl. §2.4.8 (d)) beschränkt durch ein M > 0. Es folgt |ak | ≤ M rk ∞ und wegen 0 ≤ r < 1 ist k=0 M rk konvergente Majorante. Für |z| ≥ 1 divergiert die verallgemeinerte geometrische Reihe, da dann die Reihenglieder keine Nullfolge mehr bilden und das notwendige Konvergenzkriterium 1.7 (a) verletzt ist. (d) Die Binomialreihe ∞ X c k c(c − 1) 2 z + ··· z = 1 + cz + Bc (z) := 2! k konvergiert für c ∈ C und jedes z ∈ C mit |z| < 1. k=0 Wegen c k+1 k+1 z c k z k = |c − k| |z| → |z| k+1 gibt es für |z| < 1 nämlich einen Index k0 ∈ N0 , so dass c k+1 k+1z 1 + |z| =: q < 1 ≤ c k 2 z k Durch Induktion folgt dann | als konvergente Majorante. c k z k | ≤ M q k mit M := | c k0 für k → ∞ für k ≥ k0 . | für k ≥ k0 und wir haben wieder P∞ k=0 M qk Ist c eine natürliche Zahl oder Null, so verschwinden inP der Binomialreihe alle Glieder mit Index k > c. c Mit der binomischen Formel erhalten wir dann Bc (z) = k=0 kc z k = (1 + z)c und die Reihe konvergiert trivialerweise für alle z ∈ C. In 2.§2.3 definieren wir Potenzen mit beliebigen Exponenten. In 4.§3.4.16 zeigen wir, dass diese Formel auch für c ∈ C r N0 gilt, dann aber nur für |z| < 1, da ansonsten die Reihenglieder keine Nullfolge mehr bilden und das notwendige Konvergenzkriterium 1.7 (a) verletzt ist. 2.6 Leibniz-Kriterium. Ist (ak )k eine monoton P fallende Nullfolge reeller Zahlen, so konvergiert die P∞ P∞ n Reihe k=0 (−1)k ak . Für die Partialsummen sn = k=0 (−1)k ak und den Grenzwert s = k=0 (−1)k ak gelten die Abschätzungen s2m+1 ≤ s ≤ s2m |s − sn | ≤ an für m, n ∈ N0 . Reihen des oben genannten Typs werden alternierend oder Leibniz-Reihen genannt. 41 KAPITEL 1. GRUNDLAGEN Beweis. Die aus den Partialsummen sn gebildeten Intervalle [s2m+1 , s2m ] bilden eine Intervallschachtelung. Wegen a2m−1 ≥ a2m ≥ a2m+1 gilt nämlich s2m+1 = s2m−1 + a2m − a2m+1 ≥ s2m−1 = s2(m−1)+1 , s2m = s2m−2 − a2m−1 + a2m ≤ s2m−2 = s2(m−1) , s2m − s2m+1 = −(−1)2m+1 a2m+1 = a2m+1 → 0 für m → ∞. Gemäß §2.7.2 existiert limm→∞ s2m = s = limm→∞ s2m+1 . Ist n gerade, so gilt sn+1 ≤ s ≤ sn , d.h. |s − sn | = sn − s ≤ sn − sn+1 = an+1 ≥ an . Ist dagegen n ungerade, so gilt sn ≤ s ≤ sn−1 , d.h. |s − sn | = s − sn ≤ sn−1 − sn = an . Achtung. Im Leibniz-Kriterium kann weder auf die Monotonie noch auf die Nullfolgeneigenschaft verzichtet werden. Das mache man sich an Beispielen klar. 2.7 Beispiele zum Leibniz-Kriterium. (e) Die alternierende harmonische Reihe ∞ X (−1)k+1 k=1 k =1− 1 1 1 + − ± ··· 2 3 4 konvergiert nach dem Leibniz-Kriterium, da (1/k)k eine monoton fallende Nullfolge ist. Den Grenzwert ln(2) werden wir erst in 4.§3.4.16 mit Hilfe der Differentialrechnung bestimmen können. Gleiches gilt für die Reihe ∞ X (−1)k 1 1 1 = 1 − + − ± ··· 2k + 1 3 5 7 k=0 Pn welche gegen π/4 konvergiert. Zur Approximation von π durch die Partialsumme 4 k=0 (−1)k /(2k + 1) Pn erhalten wir die Fehlerabschätzung |π − 4 k=0 (−1)k /(2k + 1)| ≤ 4/(2n + 1). D.h. wir müssen 4.000 Glieder aufsummieren, um π auf drei Nachkommastellen zu erhalten. (f) Die Reihe ∞ X (−1)k k=0 (2k)! x2k = 1 − x2 x4 x6 + − ± ··· 2! 4! 6! √ √ ist für −2 3 ≤ x ≤ 2 3 ab dem Glied mit Index k = 1 alternierend. √ Setzen wir nämlich ak := x2k /(2k)!, so gilt ak+1 /ak = x2 /[(2k + 2)(2k + 1)] ≤ x2 /12 ≤ 1 für |x| ≤ 2 3 und k ≥ 1 sowie ak → 0 für k → ∞ nach §2.4.8 (d). Also ist (ak )k≥1 eine monoton fallende Nullfolge und es gilt ∞ X √ √ x2 (−1)k 2k x2 x4 1− ≤ x ≤1− + für − 2 3 ≤ x ≤ 2 3. 2 (2k)! 2 24 k=0 In 2.§2.5 werden wir sehen, dass die obige Reihe cos(x) darstellt. Wir haben also einfache Abschätzungen für cos(x) für x in der Nähe von 0 gefunden. 3 Umordnung von Reihen P∞ 3.1 Umordnung von Reihen. Ist k=0 ak eine Reihe und ist (ϕ(k))k eine Umordnung der Indizes, d.h. Zahl k ∈ N0 genau einmal vorkommt, so heißt die unendliche Reihe P∞ eine Indexfolge, in der jede P ∞ a eine Umordnung von k=0 ϕ(k) k=0 ak . Beispielsweise ist 1+ 1 1 1 1 1 − + + − ± ··· 3 2 5 7 4 42 §4. UNENDLICHE REIHEN eine Umordnung der alternierenden harmonischen Reihe 1 − 1/2 + 1/3 − 1/4 ± · · · , in der immer auf zwei Glieder mit positivem Vorzeichen eines mit negativem folgt. 3.2 Vertauschen der Glieder einer Reihe kann P∞furchtbare Folgen haben. Wir haben in 2.7 gesehen, dass die alternierende harmonische Reihe k=1 (−1)k+1 /k konvergiert. Jetzt zeigen wir, dass man durch Umordnung der Glieder das Konvergenzverhalten beliebig verändern kann. Hierzu nutzen wir aus, dass die beiden Teilreihen der Glieder mit ungeradem bzw. geradem Index streng monoton wachsend gegen +∞ bzw. streng monoton fallend gegen −∞ konvergieren. Dies erkennt man durch Vergleich mit der harmonischen Reihe, es gilt nämlich 1 1 1 1 1 1 1 > 1 + + + ··· + → +∞ für m → ∞, 1 + + + ··· + 3 5 2m − 1 2 2 3 m 1 1 1 1 1 1 1 1 − − − − ··· − = − 1 + + + ··· + → −∞ für m → ∞. 2 4 6 2m 2 2 3 m Geben wir nun eine beliebige reelle Zahl x vor und summieren wir abwechselnd soviele ungerade bzw. gerade Glieder auf, dass wir jeweils eine Partialsumme sn erhalten, die gerade über bzw. unter x liegt, so ist |sP n − x| kleiner als der Betrag des zuletzt aufsummierten Gliedes. Wir erhalten somit eine Umordung ∞ von k=1 (−1)k /k, die gegen x konvergiert. Analog kann man Umordnungen angeben, die uneigentlich gegen +∞ bzw. gegen −∞ konvergieren. Das Konvergenzverhalten einer Reihe kann sich ändern, wenn man die Reihenfolge der Glieder verändert. 3.3 Absolute und bedingte Konvergenz. Den gerade an der alternierenden harmonischen Reihe illustrierten Effekt kann man mit jeder unendlichen Reihe erzielen, für welche die Teilreihen aus positiven P∞ und negativen Gliedern jeweils divergieren. Solche Reihen erkennt man daran, dass a konvergiert, k k=0 P∞ während k=0 |ak | divergiert, und nennt sie bedingt konvergent. P∞ P∞ Konvergiert dagegen k=0 |ak | und dann nach 1.8 (f) auch k=0 ak selbst, so heißt die Reihe absolut konvergent. Monotonie- und Majorantenkriterium können nur zum absoluter Konvergenz verwendet werden, PNachweis ∞ da sie letztlich nur eine Konvergenzsaussage über |a | machen. Das Leibniz-Kriterium dagegen k=0 k P∞ kann zum Konvergenznachweis über k=0 ak selbst verwendet werden — allerdings nur für alternierende Reihen. Damit kann es neben einem direkten Konvergenznachweis als einziges Kriterium auch für bedingt konvergente Reihe eingesetzt werden. P∞ 3.4 Beispiele für absolut konvergente Reihen. Die Exponentialreihe k=0 z k /k! aus 2.5 (a) konP∞ k vergiert für jedes z P ∈ C absolut, da auch sind die verallgemeinerte k=0 |z| /k! konvergiert. P∞ Ebenso ∞ m k geometrische Reihe k=0 k z aus 2.5 (c) und die Binomialreihe k=0 kc z k für jedes z ∈ C mit |z| < 1 absolut konvergent. 3.5 Umordnungssatz. Bei einer absolut konvergenten Reihe konvergiert die Reihe selbst und jede ihrer Umordnungen gegen denselben Grenzwert. Für den Beweis sei z.B. auf [Kön, Band 1, 6.3] oder [HeuA, Band 1, IV.32] verwiesen. Wir unterscheiden also drei Typen von Reihen: P∞ P∞ • absolut konvergente Reihen ( k=0 ak und k=0 |ak | konvergieren), P∞ P∞ • bedingt konvergente Reihen ( k=0 ak konvergiert, aber k=0 |ak | divergiert), P∞ • divergente Reihen ( k=0 ak divergiert). Absolut konvergente Reihen erweisen sich dank dem Umordnungssatz als robust und angenehm handhabbar. Bei bedingt konvergenten Reihen dagegen sind Vorsicht und Fingerspitzengefühl angebracht, insbesondere gilt kein Kommutativgesetz für die Reihenglieder. 43 KAPITEL 1. GRUNDLAGEN 3.6 P Doppelreihen. Gegeben seien reelle oder komplexe Zahlen ak,l mit Indizes k, l ∈ N0 . Dann nennen ∞ wir k,l=0 ak,l eine Doppelreihe. Wenn wir erklären wollen, was Konvergenz für eine Doppelreihe bedeuten soll, können wir nicht wie bei Reihen auf die Folge der Partialsummen zurückgreifen. Wie sollen die Partialsummen denn gebildet werden? Um so etwas zu erklären, müssen wir die Indexpaare (k, l) auf irgend eine Weise durchnummerieren, d.h. wir setzen (k, l) = ϕ(n), so dassPzu jedem Indexpaar (k, l), k, l ∈ N0 , genau eine Zahl n ∈ N0 gehört. ∞ Anschließend können wir die Reihe n=0 aϕ(n) auf Konvergenz untersuchen. Beliebte Anordnungen sind P∞ • zeilenweise, d.h. wir bilden zuerst die Reihen l=0 ak,l und — falls alle diese Reihen konvergieren — anschließend ! ∞ ∞ X X ak,l , k=0 a0,0 → a0,1 → a0,2 → . . . a1,0 → a1,1 → a1,2 → . . . l=0 P∞ • spaltenweise, d.h. wir bilden zuerst die Reihen k=0 ak,l und — falls alle diese Reihen konvergieren — anschließend ! ∞ ∞ X X ak,l , l=0 k=0 • diagonal, d.h. wir bilden erstP die Summen a0,0 , a1,0 + a0,1 , a2,0 + a1,1 + a0,2 , . . . , d.h. k+l=n ak,l für n ∈ N0 , und anschließend ! ! ∞ ∞ n X X X X ak,l = ak,n−k . n=0 n=0 k+l=n .. . .. . .. . a0,0 ↓ a1,0 ↓ .. . a0,1 ↓ a1,1 ↓ .. . a0,2 ↓ a1,2 ↓ .. . a0,0 a0,1 % a1,0 a1,1 ... % a1,2 % a2,0 a2,1 a2,2 .. .. . . % . % .. k=0 ... a0,2 % % ... ... % ... Nach unseren Erkenntnissen in 3.2 liegt die Befürchtung nahe, dass wir ohne weitere Informationen über die Zahlen ak,l bei verschiedenen Summierungsverfahren zu verschiedenen Ergebnissen kommen können. Zum Glück gibt es für Doppelreihen ein Analogon zum Umordungssatz 3.5. 3.7 Großer Umordnungssatz. Für jede Doppelfolge (ak,l )k,l≥0 reeller oder komplexer Zahlen sind die folgenden Aussagen äquivalent. P∞ (a) Die Doppelreihe n=0 |aϕ(n) | konvergiert für eine Anordnung ϕ. P∞ P∞ (b) Die Reihe P∞ k=0 ( l=0 |ak,l |) über die Zeilensummen konvergiert, dies schließt die Konvergenz aller Reihen l=0 |ak,l |, k ∈ N0 , mit ein. P∞ P∞ (c) Die Reihe P∞ l=0 ( k=0 |ak,l |) über die Spaltensummen konvergiert, dies schließt die Konvergenz aller Reihen k=0 |ak,l |, l ∈ N0 , mit ein. P∞ P (d) Die Reihe n=0 k+l=n |ak,l | über die Diagonalsummen konvergiert. P∞ (e) Die Doppelreihe n=0 aϕ(n) konvergiert für jede Anordnung ϕ. Ist eine dieser fünf Aussagen erfüllt, so gilt ∞ X n=0 aϕ(n) = ∞ ∞ X X l=0 k=0 ! ak,l = ∞ ∞ X X k=0 l=0 ! ak,l = ∞ X X n=0 k+l=n ! ak,l . 44 §4. UNENDLICHE REIHEN In diesem Fall bezeichnen wir den gemeinsamen Grenzwert mit demselben Symbol ∞ X ak,l k,l=0 wie die Reihe selbst und sagen, dass die Doppelreihe konvergiert. Achtung. Für Doppelreihen haben wir nur ein Analogon zur absoluten Konvergenz. Auch hier verweisen wir für den Beweis auf [Kön, Band 1, 6.3]. Als unmittelbare Folgerung erhalten wir den folgenden Satz über das Produkt zweier Reihen. P∞ P∞ 3.8 Cauchy-Produkt von Reihen. Sind k=0 ak und k=0 bk zwei absolut konvergente Reihen reeller oder komplexer Zahlen, so gilt ! ! ! ∞ ∞ ∞ n X X X X ak · bk = ak bn−k . k=0 Die unendliche Reihe n=0 k=0 k=0 P∞ Pn P∞ P∞ n=0 ( k=0 ak bn−k ) heißt Cauchy-Produkt von k=0 ak und k=0 bk . 3.9 Cauchy-Produkt für die Exponentialfunktion. Seien z, w ∈ C. Da die aus 2.5 (a) bekannte Exponentialreihe absolut konvergiert, folgt mit der binomischen Formel ! ! ∞ ∞ ∞ n ∞ n X X X X z k wn−k 1 X n k n−k z k X wk = = z w exp(z) exp(w) = k! k! k! (n − k)! n! k n=0 n=0 = k=0 k=0 ∞ X k=0 k=0 n (z + w) = exp(z + w). n! n=0 3.10 Cauchy-Produkt bei Binomialreihen. Für c, d ∈ C und z ∈ C mit |z| < 1 gilt dank der absoluten Konvergenz der Bionomialreihe ! ∞ ∞ ∞ n X c kX d k X X c d k n−k Bc (z)Bd (z) = z z = z z k k k n−k n=0 k=0 k=0 k=0 ! ∞ n ∞ X X X c d c+d n n = z = z = Bc+d (z), k n−k n n=0 n=0 k=0 Pn c d wobei man die Identität k=0 k n−k = c+d durch Induktion aus dem Additionstheorem für Binomin alkoeffizienten folgern kann (wir werden dies später in 2.§3 1.13 auf andere Weise beweisen). Wir wollen zwei Spezialfälle dieser Identität näher betrachten. m+1 (f) Aus Bm+1 (z)B−m−1 (z) = B0 (z) für 1 und und km ∈ N0 erhalten wir mit Bm+1 (z) = (1 + z) P∞|z| <−m−1 m+1 B0 (z) = 1 die Beziehung (1 + z) z = 1. Hieraus folgt nach Ersetzung von z durch −z k=0 k m+k k m+k und mit −m−1 = (−m − 1)(−m − 2) · · · (−m − k)/k! = (−1) = (−1) die Formel k k m 1 (1 − z)m+1 = ∞ X m+k k=0 = m zk 1 + (m + 1)z + (m + 2)(m + 1) 2 z + ··· 2! für m ∈ N0 und z ∈ C mit |z| < 1. Insbesondere gilt für m = 0, 1, 2 damit ∞ X 1 = zk , 1−z k=0 ∞ X 1 = (k + 1)z k , (1 − z)2 k=0 ∞ X (k + 2)(k + 1) 1 = zk . (1 − z)3 2 k=0 45 KAPITEL 1. GRUNDLAGEN − 3(k + 1) + 1 erhalten wir für die ersten zwei Aus den Zerlegungen k = (k + 1) − 1 bzw. k 2 = 2 (k+2)(k+1) 2 verallgemeinerten geometrischen Reihen dann die Summenformeln ∞ X kz k k=0 ∞ X k2 z k = = k=0 ∞ X k (k + 1)z − k=0 ∞ X 2 k=0 = ∞ X k=0 zk = 1 z 1 − = (1 − z)2 1−z (1 − z)2 ∞ ∞ k=0 k=0 für |z| < 1, X X (k + 2)(k + 1) k z −3 (k + 1)z k + zk 2 1 1 z(1 + z) 1 −3 + = 2 (1 − z)3 (1 − z)2 1−z (1 − z)3 für |z| < 1. Analog findet man Summenformeln für die anderen verallgemeinerten geometrischen Reihen. (g) Aus B1/n (x) Wurzelziehen √ n n 1+x = = B1 (x) für reelle x ∈] − 1, 1[ und n ∈ N ergibt sich mit B1 (x) = (1 + x) nach ∞ 1 X n k=0 = 1+ k xk 1 n − 1 2 (2n − 1)(n − 1) 3 x− x + x ∓ ··· n 2!n2 3!n3 für n ∈ N und x ∈] − 1, 1[. 46 Kapitel 2 Elementare Funktionen Der Funktionsbegriff ist eines der wichtigsten und universellsten Mittel in der Mathematik. Er wird in vielseitiger Weise zur mathematischen Beschreibung von Wirklichkeit eingesetzt, nämlich immer dann, wenn Kausalität herrscht, wenn wir den Zustand eines Systems durch Wirkung der Systemparameter beschreiben. Wir stellen in §1 zuerst knapp die wichtigsten Begriffe zusammen und beschäftigen uns dann in §2–§4 ausführlich mit den wichtigsten elementaren Funktionen. §1 1 Grundlegendes über Funktionen Zum Funktionsbegriff 1.1 Was ist eine Funktion? Gegeben seien zwei nichtleere Mengen D und W . Unter einer Funktion (oder einer Abbildung) f verstehen wir eine Zuordnungsvorschrift, welche jedem Element aus x ∈ D ein wohlbestimmtes Element aus y ∈ W zuordnet. Dieses Element y bezeichnen wir mit f (x), schreiben y = f (x) und nennen y den Wert der Funktion f an der Stelle x (oder das Bild von x unter der Abbildung f ). Diesen Sachverhalt drücken wir aus durch die Schreibweise f : D → W, f : x 7→ f (x). 1.2 Definitionsbereich und Wertevorrat. Die Menge D nennen wir den Definitionsbereich von f , die Menge W den Wertevorrat oder Zielbereich von f . Eine Funktion ist also festgelegt durch • die Angabe des Definitionsbereichs D, • die Angabe der Abbildungsvorschrift x 7→ f (x) und • die Angabe, welcher Art die Bilder f (x) sein sollen, d.h. in welcher Menge W sie liegen sollen. Die letzte Angabe ist i.A. nicht wesentlich, man gibt sich gerne mit irgend einem einfach anzugebenden Wertevorrat zufrieden, ohne den die genaue Wertemenge von f , d.h. die Teilmenge f (D) := {f (x) ∈ W : x ∈ D} = {y ∈ W : es gibt ein x ∈ D mit y = f (x)} des Wertevorrats W anzugeben. Achtung. Man kann sich viel Kummer sparen, wenn man bei einer Funktion nicht nur an die Zuordnungsvorschrift denkt (was man gerne tut), sondern auch immer nach dem Definitionsbereich fragt. KAPITEL 2. ELEMENTARE FUNKTIONEN 47 1.3 Natürlicher Definitionsbereich. Wenn wir bei einer konkreten Funktion nichts über den Definitionsbereich sagen, so nehmen wir stillschweigend den natürlichen Definitionsbereich, d.h. maximal möglichen an. Das sind all die Zahlen, für welche die Abbildungsvorschrift ausgeführt werden kann. Wird z.B. f durch die Abbildungsvorschrift f (x) := x2 /(x − 2) definiert und nichts über den Definitionsbereich gesagt, so ist D = R r {2} zu setzen (bzw. D = C r {2}, falls das für die Diskussion der Funktion nützlicher ist oder vom Zusammenhang gefordert wird). 1.4 Anmerkung zu Bezeichnungen. Die Begriffe „Funktion“ und „Abbildung“ werden synonym verwendet. Im ersten Fall stellt man sich Definitionsbereich und Wertevorrat allerdings gerne als Zahlenmengen vor, im zweiten Fall steht eine geometrische Vorstellung im Vordergrund. Es sind weitere Bezeichnungen üblich. Eine Zahlenfolge, d.h. eine Folge reeller bzw. komplexer Zahlen, ist nichts anderes als eine Funktion mit Definitionsbereich N und Wertevorrat R bzw. C. Später (z.B. in Kapitel 5) werden wir Operatoren und Funktionale kennenlernen. Das sind Funktionen, die Funktionen auf Funktionen bzw. Zahlen abbilden. Der Differentialoperator f 7→ f 0 ordnet beispielsweise einer differenzierbaren Funktion f ihre Ableitung f 0 zu. Das Integral einer Funktion f über das Intervall [c, d] ist ein Rd Operator, der einer auf [c, d] integrierbaren Funktion eine Zahl (eben ihr Integral c f (x) dx) zuordnet. 1.5 Explizite Zuordnungsvorschrift. Im Kapitel 1 haben wir schon viele Funktionen kennengelernt. Bei den meisten konnten wir die Zuordungsvorschrift explizit angeben. (a) Die Signum-Funktion sgn : R → R aus 1.§1.4.5 ordnet jeder reellen Zahl ihr Vorzeichen zu. Die Zuordnungsvorschrift x 7→ sgn(x) := 1 für x > 0, x 7→ sgn(0) := 0 und x 7→ sgn(x) := −1 für x < 0 ist abschnittsweise erklärt. Die Wertemenge ist die dreielementige Menge {−1, 0, 1}. (b) Der Betrag einer C → R+ 0 mit der Zuordnungsvorpkomplexen Zahl (vgl. 1.§3.2.2) ist eine Funktion √ schrift z 7→ |z| := (Re z)2 + (Im z)2 . Wir hätten auch z 7→ zz als Zuordnungsvorschrift und R als Zielbereich wählen können. (c) Für irgend eine nichtleere Menge D nennen wir idD : D → D, idD (x) := x, die Identität oder identische Abbildung. Wir schreiben einfach id statt idD , wenn aus dem Zusammenhang klar ist, welche Definitionsmenge gerade gemeint ist. (d) Eine Funktion, die nur einen Wert annimmt, heißt konstant. Sie wird wie ihr einziger Wert bezeichnet. 1.6 Implizite Zuordnungsvorschrift. Wird in der Zuordnungsvorschrift einer Funktion f der Funktionswert f (x) an der Stelle x nicht explizit in Abhängigkeit von x angegeben, so liegt eine implizite Zuordnungsvorschrift vor. (e) Durch die Rekursion a1 := 1, an+1 = 1 + an /2 wird eine Folge (an )n implizit definiert. Das Rekursionprinzip aus 1.§2.3.2 stellt sicher, dass die Folge (an )n hierdurch eindeutig festgelegt ist. Durch einen Induktionsbeweis kann man zeigen, dass die Folge explizit durch an = 2 − 21−n angegeben werden kann. √ + n (f) Für n ∈ N ist die in 1.§2.2.4 eingeführte n-te Wurzel eine Funktion R+ a bezeichnete 0 → R0 . Der mit n Funktionswert an der Stelle a ist die Lösung der Gleichung x = a. Hierzu musste (mit viel Mühe) sichergestellt werden, dass diese Gleichung eine eindeutige Lösung besitzt. (g) In 4.§3.6.6 werden wir sehen, dass durch die Differentialgleichung f 0 = f und die Anfangsbedingung f (0) = 1 eine Funktion f : R → R eindeutig festgelegt ist (nämlich die Exponentialfunktion). (h) Man kann zeigen, dass es genau eine stetige Funktion R → R mit f (0) = 1 gibt, welche die Funktionalgleichung f (x + y) = f (x)f (y) erfüllt (nämliche ebenfalls die Exponentialfunktion). Bei implizit definierten Funktionen sind Existenz und Definitionsbereich meist schwierig zu klären. 1.7 Gleichheit von Funktionen, Fortsetzung und Einschränkung. Wir nennen zwei Funktionen f und g gleich, wenn sie denselben Definitionsbereich und dieselbe Zuordnungsvorschrift haben. Wir schreiben dann f = g oder f (x) ≡ g(x). 48 §1. GRUNDLEGENDES ÜBER FUNKTIONEN Sind f und F zwei Funktionen mit Definitionsbereichen D bzw. D̃ und gilt D ( D̃ sowie f (x) = F (x) für alle x ∈ D, so nennen wir F eine Fortsetzung von f auf D̃ bzw. f die Einschränkung von F auf D und schreiben f = F |D . Beispiel. Aus f = 0 folgt f (x) = 0 für alle x ∈ D. Daher gilt zwar sgn(0) = 0 aber sgn 6= 0. Die Betragsfunktion auf C ist eine Fortsetzung der Betragsfunktion auf R. 2 Wichtige Begriffe 2.1 Injektivität. Eine Funktion f : D → W heißt injektiv , eineindeutig oder 1-1-Abbildung, wenn sie jeden Wert höchstens einmal annimmt, d.h. wenn für jedes y ∈ W die Gleichung f (x) = y höchstens eine Lösung x ∈ D besitzt. Injektivität bedeutet also, dass aus f (x1 ) = f (x2 ) stets x1 = x2 folgt — oder andersherum: x1 6= x2 impliziert stets f (x1 ) 6= f (x2 ). Beispiel. Die durch f (x) := x3 definierte Funktion f : R → R ist injektiv, weil aus 0 = f (x1 ) − f (x2 ) = x1 3 − x2 3 = (x1 − x2 )(x1 2 + x1 x2 + x2 2 ) = (x1 − x2 )(x1 2 + x2 2 + (x1 + x2 )2 )/2 in jedem Fall x1 = x2 folgt. Dagegen ist die durch g(x) := x2 definierte Funktion g : R → R nicht injektiv. Es gilt nämlich g(−1) = g(1). Die Einschränkung g|R+ von g auf R+ 0 dagegen erweist sich als eineindeutig. 0 2.2 Surjektivität. Eine Funktion f : D → W heißt surjektiv , wenn sie jeden Wert mindestens einmal annimmt, d.h. wenn die Gleichung f (x) = y für jedes y ∈ W mindestens eine Lösung x ∈ D besitzt. Achtung. Auch wenn die Angabe der Zielmenge i.A. für die Festlegung einer Funktion nicht wesentlich ist, bei der Surjektivität kommt es auf sie an. Surjektivität kann durch Verkleinern des Wertevorrats auf die Wertemenge erzwungen werden. Dazu muss allerdings die Wertemenge ermittelt werden. 2.3 Bijektivität. Eine Funktion heißt bijektiv , umkehrbar oder eine Bijektion, wenn sie injektiv und surjektiv ist. √ + Beispiel. Für jedes n ∈ N ist die n-te Wurzel x 7→ n x ist eine bijektive Abbildung R+ 0 → R0 . Wir + + n haben ja in 1.§2.2.4 gezeigt, dass die Gleichung x = a für jedes a ∈ R0 genau eine Lösung in R0 besitzt. 2.4 Umkehrfunktion. Ist f : D → W eine Bijektion und bezeichnen wir für y ∈ W die eindeutig bestimmte Lösung x ∈ D von f (x) = y mit g(y), so haben wir eine Funktion g : W → D definiert, für die f (g(y)) = y für alle y ∈ W sowie g(f (x)) = x für alle x ∈ D gilt. Als Abbbildung von W nach D ist g selbst eine Bijektion. Sie wird Umkehrabbildung von f genannt und mit f −1 bezeichnet. √ Beispiel. Die Umkehrfunktion zur n-ten Potenzabbildung x 7→ xn ist die n-te Wurzel y 7→ n y. Als gemeinsamer Definitions- und Wertebereich fungiert R+ 0. 2.5 Verkettung. Sind f : D → B und g : B → W zwei Funktionen, bei denen der Wertevorrat von f mit dem Definitionsbereich von g übereinstimmt, so können wir durch x 7→ g(f (x)) eine Abbildung D → W definieren. Wir nennen diese Funktion Verkettung, Hintereinanderausführung oder Komposition von f mit g und bezeichnen sie mit g ◦ f . Beispiel. Ist f : D → W bijektiv, so gilt f ◦ f −1 = idW und f −1 ◦ f = idD . Achtung. Bei der Verkettung g ◦ f von f mit g muss die Wertemenge von f im Definitionsbereich von g liegen. Es kommt also auf die Reihenfolge an. Beispiel. Durch f (x) := 2x + 1 und g(x) := x2 werden zwei Funktionen f, g : R → R definiert. Diese beiden Funktionen können in beliebiger Reihenfolge verkettet werden. Es gilt (g ◦ f )(x) = (2x + 1)2 = 4x2 + 4x + 1 und (f ◦ g)(x) = 2x2 + 1. Wegen (g ◦ f )(1) = 9 6= 3 = (f ◦ g)(1) gilt aber g ◦ f 6= g ◦ f . 2.6 Graph. Das Abbildungsverhalten einer Funktion f : D → W veranschaulichen wir gerne durch eine graphische Darstellung der Punktepaare (x, f (x)), x ∈ D. Wir nennen die Menge {(x, f (x)) | x ∈ D} den Graphen der Funktion f . 49 KAPITEL 2. ELEMENTARE FUNKTIONEN Sind D und W Teilmengen von R, so kann man den Graphen als Teil der Ebene gut zeichnen. In anderen Fällen wird die Darstellung schwierig oder ist nur im übertragenen Sinn zu verstehen. 1 1 sgn 1 ( n1 )n -1 |·| 1 -1 1 2 3 4 5 6 7 8 9 10 -1 1 Abbildung 2.1: Graphen der Folge (1/n)n , der Betragsfunktion | · | sowie der Signumfunktion sgn. Was hat der Graph von x 7→ 1/x für x > 0 mit dem von (1/n)n zu tun? Ist f eine Bijektion, so entsteht der Graph von f −1 durch Spiegeln an der Winkelhalbierenden (vgl. Abbildung 2.2). 3 Funktionen im Reellen oder Komplexen 3.1 Beschränktheit. Eine reell- oder komplexwertige Funktion f mit einer beliebigen Definitionsmenge D nennen wir beschränkt, wenn es eine Zahl M ≥ 0 gibt mit |f (x)| ≤ M für alle x ∈ D. Geometrisch interpretiert bedeutet dies, dass die Wertemenge f (D) in einem abgeschlossenen Intervall um 0, bzw. in einer Kreisscheibe um 0 enthalten ist. Beispiel. Die Abbildung x 7→ 1/x ist auf [1, +∞[ beschränkt, auf ]0, 1] dagegen nicht. 3.2 Monotonie. Eine Funktion f : D ⊂ R → R heißt monoton wachsend (monoton fallend ), wenn für x1 , x2 ∈ D aus x1 < x2 immer f (x1 ) ≤ f (x2 ) (f (x1 ) ≥ f (x2 )) folgt. Gilt sogar f (x1 ) < f (x2 ) (f (x1 ) > f (x2 )), so heißt f streng monoton wachsend (streng monoton fallend ). Eine streng monton wachsende (fallende) Funktion ist auf ihrer Wertemenge umkehrbar und die Umkehrabbildung ist wieder streng monoton wachsend (fallend). x4 x3 x2 √ y √ 3 y √ 4 y 1 1 1 1 Abbildung 2.2: Graphen dreier Potenzabbildungen x 7→ xn sowie deren Umkehrrabbildungen y 7→ √ n y. 50 §2. EXPONENTIALFUNKTION UND VERWANDTE 3.3 Zusammengesetzte Funktionen. Für Funktionen f, g : D → C (das schließt den Fall f, g : D → R mit ein) und eine reelle oder komplexe Zahl λ definieren wir (a) die Summe zweier Funktionen f + g : D → C durch die Abbildungsvorschrift x 7→ f (x) + g(x), (b) das Produkt zweier Funktionen f g : D → C durch die Abbildungsvorschrift x 7→ f (x)g(x), (c) das Vielfache einer Funktion λf : D → C durch die Abbildungsvorschrift x 7→ λf (x), (d) die reziproke Funktion 1 f : D r {x ∈ D | f (x) = 0} → C durch die Abbildungsvorschrift x 7→ 1 f (x) , (e) das Negative einer Funktion −f : D → C durch die Abbildungsvorschrift x 7→ −f (x). Für das Rechnen mit Funktionen gelten dieselben Rechengesetze wie in Z, d.h. (A1)–(A4) und (A5) für die Addition. Die Nullfunktion oder identisch verschwindende Funktion 0 : D → R, x 7→ 0, übernimmt dabei die Rolle des neutralen Elements der Addition, die Einsfunktion 1 : D → R, x 7→ 1, die des neutralen Elements der Multiplikation. Man mache sich an einem Beispiel klar, dass es zu vorgegebenen Funktionen f und h nicht immer eine Funktion g gibt mit f g = h. Achtung. Die reziproke Funktion hat nichts mit der Umkehrfunktion zu tun. 3.4 Achsen- und Punktsymmetrie. Ist f : D ⊂ R → R eine Funktion mit f (−x) = f (x) für alle x ∈ D, so nennen wir f achsensymmetrisch oder gerade. Gilt dagegen f (−x) = −f (x) für alle x ∈ D, so nennen wir f punktsymmetrisch oder ungerade. Genau so definieren wir dies für eine Funktion f : D ⊂ C → C. Der Graph einer geraden Funktion ist achsensymmetrisch, der einer ungeraden ist punktsymmetrisch zum Ursprung. Dabei muss natürlich auch der Definitionsbereich auf der Zahlengeraden (bzw. in der Zahlenebene) symmetrisch zum Ursprung 0 liegen, d.h. aus x ∈ D folgt immer −x ∈ D. Machen Sie sich klar, dass für das Produkt von geraden bzw. ungeraden Funktionen dieselben Rechenregeln wie die Summe im Minikörper mit zwei Elementen 1.§1.3.3 gelten, d.h. das Produkt zweier gerader bzw. zweier ungerader Funktionen ist gerade, das Produkt einer geraden und einer ungeraden Funktion ist ungerade. Beispiel. Die Potenzabbildung x 7→ xn ist achsensymmetrisch oder punktsymmetrisch, je nachdem ob n ∈ N gerade oder ungerade ist. Dagegen ist f (x) := x2 + x für x ∈ R weder achsen- noch punktsymmetrisch, da f (1) = 2 und f (−1) = 0. (−x) und fu (x) := Jede Funktion kann mittels f = fg + fu mit fg (x) := f (x)+f 2 Funktion fg und eine ungerade Funktion fu zerlegt werden. f (x)−f (−x) 2 in eine gerade 3.5 Periodische Funktionen. Eine Funktion f : R → W heißt periodisch, wenn es eine Zahl p 6= 0 gibt mit f (x + p) = f (x) für alle x ∈ R. Jede derartige Zahl wird eine Periode von f genannt. Durch Induktion folgt, dass mit p auch für jedes n ∈ Z r {0} die Zahl np eine Periode von f ist. Analog definiert man dies für eine Funktion f : D ⊂ C → W , falls D die Zahlenebene selbst oder ein Streifen in der Zahlenebene ist. Die Perioden dürfen dann komplexe Zahlen sein. Eine konstante Funktion auf R ist periodisch und jede Zahl p ∈ R r {0} ist eine Periode. §2 1 Exponentialfunktion und Verwandte Exponentialfunktion 1.1 Definition: Exponentialfunktion. Die Exponentialfunktion wird definiert durch exp : C → C, exp(z) := ∞ X zk k=0 Gemäß 1.§4.2.5 (a) konvergiert die Exponentialreihe P∞ k=0 k! . z k /k! auf ganz C. 51 KAPITEL 2. ELEMENTARE FUNKTIONEN 1.2 Funktionalgleichung. Die Exponentialfunktion erfüllt die Funktionalgleichung für beliebige z, w ∈ C. exp(z + w) = exp(z) exp(w) Dies haben wir in 1.§4 3.9 bewiesen. Für w = −z folgt insbesondere exp(z) exp(−z) = exp(0) = 1. Die Exponentialfunktion hat keine Nullstellen und es gilt exp(−z) = 1 exp(z) für z ∈ C. 1.3 Berechnung der Exponentialfunktion. Es besteht die Fehlerabschätzung n X 2|z|n+1 z k für z ∈ C und n ∈ N mit n ≥ 2|z|. exp(z) − ≤ k! (n + 1)! k=0 Da die Exponentialfunktion durch eine Reihe definiert ist, können wir ihre Werte i.A. nicht explizit berechnen. Obige Fehlerabschätzung erlaubt uns aber Pn an einer beliebigen Stelle z ∈ C die näherungsweise Berechnung von exp(z) durch die Partialsumme k=0 z k /k!. Wegen 2|z|n+1 /(n + 1)! → 0 für n → ∞ müssen wir für einen beliebig vorgegebenen Fehler ε > 0 nur n ≥ 2|z| groß genug wählen, um exp(z) mit dem Fehler ε zu approximieren. Beweis. Sei z ∈ C gegeben. Für n ∈ N mit n ≥ 2|z| gilt |z|/n ≤ 1/2 und mit 1.§4.1.8 (f) folgt ∞ ∞ n X X X z k |z|k |z|n+1 |z|2 |z| z k = + + ··· 1+ = ≤ exp(z) − k! k! k! (n + 1)! n + 2 (n + 2)(n + 3) k=n+1 k=n+1 k=0 |z|n+1 |z| |z|2 |z|n+1 1 1 2|z|n+1 ≤ 1+ + 2 + ··· ≤ 1 + + 2 + ··· = . (n + 1)! n n (n + 1)! 2 2 (n + 1)! 1.4 Grenzwertdarstellung. Für den Wert der Exponentialfunktion exp(z) an der Stelle z gilt z n für z ∈ C. exp(z) = lim 1 + n→∞ n Damit können wir insbesondere das Zerfallsgesetz aus 1.§2.8.4 in der Form N (t) = N0 exp(−βt) schreiben. Beweis∗ . Zunächst gilt für n, k ∈ N die Beziehung n 1 1 1 2 k−1 1 = 1 − 1 − · · · 1 − ≤ . k k n k! n n n k! n 1 1 Hieraus folgt außerdem limn→∞ k nk = k! , da in obiger Darstellung jeder der k − 1 Faktoren 1 − l = 1, 2, . . . , k − 1, gegen 1 konvergiert. l n, Da die Behauptung im Fall z = 0 offensichtlich wahr ist, können wir z 6= 0 annehmen. Zu gegebenem k P∞ ε ε > 0 wählen wir N ∈ N so groß, dass k=N +1 |z| k! < 3 . Dies ist möglich, da die Reihenreste dank der 1 für n → ∞ existiert für jedes Konvergenz der Exponentialreihe bilden. Wegen nk n1k → k! eine Nullfolge n 1 1 ε k ∈ N0 ein nk ∈ N mit | k! − k nk | < 3(N +1)|z|k für n ≥ nk . Setzen wir nun nε := max{N, n0 , . . . , nN } so erhalten wir aus unsren bisherigen Überlegungen für n ≥ nε die Abschätzung ∞ n k X z k X z n n z − exp(z) − 1 + = n k! k nk k=0 k=0 n N ∞ X X X 1 n |z|k |z|k − n 1 |z|k + + ≤ k! k k n k! k nk N +1 N +1 k=0 N ∞ ∞ N X X X X 1 |z|k |z|k ε ε ε − n 1 |z|k + ≤ + < + + = ε. k! k nk k! k! 3(N + 1) 3 3 k=0 Dies zeigt (1 + nz )n → exp(z) für n → ∞. N +1 N +1 k=0 52 §2. EXPONENTIALFUNKTION UND VERWANDTE 1.5 Eulersche Zahl. Den Wert ∞ X 1 e := exp(1) = k! k=0 der Exponentialfunktion an der Stelle 1 nennen wir Eulersche Zahl . Für z = 1 und n = 12 ist der Fehler in 1.3 kleiner als 4 · 10−10 und wir erhalten e ≈ 2, 718 281 828. Die Folgen ((1 + n1 )n )n bzw. ((1 + n1 )n+1 )n sind streng monoton wachsend bzw. fallend und es gilt n n+1 1 1 lim 1 + = e = lim 1 + . n→∞ n→∞ n n Die Grenzwertaussagen folgen aus 1.4, die Monotonieaussagen beweist man ähnlich wie in 1.§2.8.4. Die Eulersche Zahl e ist irrational. Wäre nämlich e = m/n rational mit m, n ∈ N, so ist sicher n ≥ 2 und e · n! ist dann eine ganze Zahl. Damit ist auch ! n X 1 c := n! e − k! k=0 eine ganze Zahl. Im Widerspruch hierzu folgt aus 1.3 aber 0 < c < n! · 2/(n + 1)! = 2/(n + 1) < 1. Man kann zeigen, dass e sogar eine transzendente Zahl ist, d.h. keine Nullstelle eines Polynoms mit ganzzahligen Koeffizienten. 2 Exponentialfunktion im Reellen und natürlicher Logarithmus 2.1 Schranken für die Exponentialfunktion im Reellen nahe bei Null. Für die Exponentialfunktion gilt 1 + x ≤ exp(x) ≤ 1 1−x 1 1−x exp(x) für reelles x < 1. Beweis. Die Abschätzung 1 + x ≤ exp(x) erhalten wir für x ≥ 0 aus exp(x) = 1 + x + x2 /2! + · · · ≥ 1 + x, für −1 < x < 0 aus der Tatsache, dass 1 + x + x2 /2 + · · · dann eine alternierende Reihe ist. Ersetzen wir nun x durch −x, so folgt 0 < 1 − x ≤ exp(−x) = 1/ exp(x), d.h. exp(x) ≤ 1/(1 − x) für x < 1. 1+x 1 Wie die Herleitung zeigt, gilt exp(x) ≥ 1 + x für alle x ∈ R. Die nebenstehende Skizze legt nahe, dass diese Abschätzungen nur für x nahe bei Null gut sind. -1 1 Abbildung 2.3: Exponentialfunktion im Reellen und Schranken im Intervall ] − ∞, 1[. 2.2 Abbildungsverhalten der Exponentialfunktion im Reellen. Die Exponentialfunktion bildet R bijektiv und streng monoton wachsend auf R+ ab. Beweis∗ . Wir beweisen zuerst die Monotonie. Für x, y ∈ R mit x < y folgt im Fall x > 0 zunächst xk < y k und mit der Monotonie des Grenzwerts dann 1 = exp(0) < exp(x) = ∞ X xk k=0 k! < ∞ X yk k=0 k! = exp(y). Gilt x ≤ 0 < y, so erhalten wir aus −x ≥ 0 und y > 0 zunächst exp(−x) ≥ 1 und exp(y) > 1, dann aber auch exp(x) = 1/ exp(−x) ≤ 1 < exp(y). Gilt schließlich y ≤ 0, so folgt −x > −y ≥ 0 und 53 KAPITEL 2. ELEMENTARE FUNKTIONEN exp(x) = 1/ exp(−x) < 1/ exp(−y) = exp(y). Auf jeden Fall folgt also aus x < y auch exp(x) < exp(y). Damit ist exp streng monoton wachsend und es gilt exp(R) ⊆ R+ . Wir müssen noch zeigen, dass die Gleichung exp(x) = y für jedes y ∈ R+ eine Lösung x ∈ R besitzt. Ferner genügt es, diesen Nachweis für y > 1 zu führen: für y = 1 können wir nämlich x = 0 wählen, für 0 < y < 1 folgt 1/y > 1 und wenn es ein x ∈ R gibt mit exp(x) = 1/y, so gilt exp(−x) = y. Um zu zeigen, dass exp(x) = y für ein gegebenes y > 1 eine reelle Lösung besitzt, gehen wir ähnlich wie im Nachweis der Existenz von Wurzeln in 1.§2.2.4 vor und verwenden dabei die Abschätzungen aus 2.1. Wir setzen M := {ζ ∈ R : exp(ζ) ≤ y}. Dann ist M wegen 0 ∈ M nichtleer. Aus exp(y) ≥ 1 + y und der schon bewiesenen Monotonie der Exponentialfunktion folgt, dass y eine obere Schranke für M ist. Nach dem Vollständigkeitsaxiom (A9) existiert dann die reelle Zahl x := sup M . Wir zeigen nun exp(x) = y, indem wir die zwei folgenden Fälle ausschließen. Fall 1, es gilt exp(x) < y. Dann gibt es ein h ∈]0, 1[ mit exp(x)/(1 − h) < y und wir erhalten mit 2.1 exp(x + h) = exp(x) exp(h) < exp(x) < y. 1−h Also ist x + h ∈ M und x kann nicht das Supremum von M sein. Damit tritt dieser Fall nicht ein. Fall 2, es gilt exp(x) > y. Dann gibt es ein h ∈]0, 1[ mit exp(x)(1 − h) > y und es folgt aus 2.1 exp(x − h) = exp(x) > exp(x)(1 − h) > y. exp(h) Also ist x − h eine kleinere obere Schranke für M als x. Somit kann auch dieser Fall nicht eintreten. 2.3 Definition: natürlicher Logarithmus. Die auf R+ existierende Umkehrfunktion der Exponentialfunktion heißt Logarithmusfunktion, Logarithmus oder natürlicher Logarithmus und wird mit ln bezeichnet: ln : R+ → R, ln(x) := exp−1 (x) für x ∈ R+ . Aus der Funktionalgleichung 1.2, den Schranken 2.1 und den Abbildungseigenschaften 2.2 der Exponentialfunktion im Reellen erhalten wir sofort entsprechende Eigenschaften des Logarithmus. 2.4 Funktionalgleichung des Logarithmus. Es gilt x−1 ln(xy) = ln(x) + ln(y) für x, y ∈ R+ . Insbesondere gilt ln(1) = 0 und ln(e) = 1 sowie ln( x1 ) = − ln(x) für x > 0. 2.5 Abbildungseigenschaften des Logarithmus. Die Logarithmusfunktion bildet R+ bijektiv und streng monoton wachsend auf R ab. Für alle x ∈ R gilt ln(exp(x)) = x, für alle y ∈ R+ gilt exp(ln(y)) = y. 2.6 Schranken für den Logarithmus nahe bei Eins. Für den Logarithmus gilt 1 1 − ≤ ln(x) ≤ x − 1 x ln(x) 1 1− 1 x 1 -1 Abbildung 2.4: Logarithmusfunktion im Reellen und Schranken im Intervall ]0, e[. für x > 0. 2.7 Anwendungsbeispiel. Die Halbwertszeit T einer radioaktiven Substanz ist diejenige Zeit, nach der die Hälfte der Substanz zerfallen ist. Es gilt also N0 /2 = N0 exp(−βT ), d.h. exp(−βT ) = 1/2. Durch Logarithmieren erhalten wir −βT = ln(exp(−βT )) = ln(1/2) = ln(1) − ln(2) = − ln(2), d.h. T = ln(2)/β. 54 3 §2. EXPONENTIALFUNKTION UND VERWANDTE Allgemeine Potenzen und Logarithmen 3.1 Vorbemerkung. Exponentialfunktion und Logarithmus zusammen machen das Rechnen mit Potenzen ungemein einfach. Wir verwenden sie, um endlich ganz allgemein Potenzen zu definieren. Hierzu dient die Beziehung xn = exp(n ln(x)) für x ∈ R+ und n ∈ Z, welche zunächst für n ∈ N0 durch einen Induktionsbeweis folgt und dann mit der Funktionalgleichung auf n ∈ Z übertragen wird. Die uns bekannten Potenzen mit ganzzahligem Exponenten lassen sich daher durch die Exponentialfunktion und den Logarithmus ausdrücken. Der Ausdruck exp(n ln(x)) ist aber nicht nur für n ∈ Z und x ∈ R+ , sondern für beliebige n ∈ C definiert. Darum können wir nun Potenzen mit beliebigen Exponenten definieren. Dafür muss die Basis jetzt aus R+ stammen. 3.2 Allgemeine Potenz. Für eine reelle Zahl a > 0 und eine reelle oder komplexe Zahl z heißt az := exp(z ln(a)) die z-te Potenz von a. Die Zahl a wird Basis, die Zahl z Exponent genannt. Gleichzeitig rechtfertigt dies die Schreibweise exp(z) = ez für z ∈ C. Die allgemeine Exponentialfunktion z 7→ az , z ∈ C, verhält sich im Reellen für a > 1 wie exp, für 0 < a < 1 wie 1/ exp. 8 exp ã ( 14 )x 1 6 ( 32 )x 3x ln 1 4 ã 2 -4 -2 2 4 Abbildung 2.5: Graphen von Exponentialfunktion und natürlichem Logarithmus, sowie von einigen allgemeinen Exponentialfunktionen x 7→ ax . Die Funktionalgleichungen für Exponentialfunktion und Logarithmus liefern uns sofort folgende Regeln. 3.3 Rechenregeln für Potenzen. Für beliebige a, b ∈ R+ gilt (a) az+w = az aw , (az )w = azw und (ab)z = az bz für alle z, w ∈ C. (b) Aus a < b folgt ax < bx falls x ∈ R+ und ax > bx falls x ∈ R− . 3.4 Potenzschreibweise für Wurzeln. Für a > 0 und n ∈ N setzen wir x = a1/n , d.h. x = eln(a)/n . Dann gilt x > 0 und mit den Rechenregeln 3.3 folgt xn = a. Nach 1.§2.2.4 hat diese Gleichung aber nur √ n eine nichtnegative Lösung — und die haben wir a genannt. Daher gilt √ n a = a1/n für a ∈ R+ und n ∈ N. 55 KAPITEL 2. ELEMENTARE FUNKTIONEN 3.5 Allgemeine Logarithmen. Die auf R+ existierende Umkehrfunktion der allgemeinen Exponentialfunktion x 7→ ax für ein a ∈ R+ r {1}, heißt Logarithmus zur Basis a und wird mit loga bezeichnet. Aus ax = exp(x ln(a)) für x ∈ R erhalten wir durch Anwenden der Umkehrfunktion x = loga (exp(x ln(a))) und durch Ersetzen von x durch ln(y)/ ln(a) dann loga (y) = ln(y) ln(a) für y ∈ R+ . Gebräuchliche Schreibweisen sind log10 = lg (dekadischer Logarithmus) und log2 = ld (Logarithmus dualis). Oftmals wird der natürliche Logarithmus ln auch mit log bezeichnet. 3.6 Anmerkung. Wenn man sich mit allgemeinen Potenzen und Logarithmen nicht sicher fühlt, so ersetze man az = exp(z ln(a)) bzw. loga (y) = ln(y)/ ln(a) und rechne anschließend mit den Funktionalgleichungen für exp und ln weiter. 3.7 Logarithmische graphische Darstellung. Zur graphischen Darstellung von schnell wachsenden oder fallenden Funktionen bzw. zur Darstellung großer Definitions- oder Zielbereiche verwendet man in der Physik gerne statt der linearen eine logarithmische Achseneinteilung, d.h. es werden nicht die Einheiten k ∈ Z, sondern 10k , k ∈ Z, äquidistant angetragen. Eine logarithmische Achseneinteilung kann dann nur zur Darstellung positiver Zahlen verwendet werden. −5 −4 −3 −2 −1 10−5 10−4 10−3 10−2 10−1 0 1 2 3 4 1 101 102 103 104 5 105 Abbildung 2.6: Lineare (oben) und logarithmische Achseneinteilung (unten). Je nachdem, ob man diese Achseneinteilung für die abhängige, für die unabhängige oder für beide Variablen wählt, spricht man von linear-logarithmischer , logarithmisch-linearer oder logarithmisch-logarithmischer Darstellung. 100 1 100 10 0.5 10 1 10 −x 0 -2 -1 0 1 2 linear-logarithmisch x2 1 0.1 -0.5 0.1 0.01 lg(x) -1 0.10.2 0.5 1 2 5 10 logarithmisch-linear 0.01 0.10.2 0.5 1 2 5 10 logarithmisch-logarithmisch Abbildung 2.7: Die drei verschiedenen logarithmischen graphischen Darstellungen. 4 Hyperbelfunktionen 4.1 Cosinus und Sinus Hyperbolicus. Die Zerlegung der Exponentialfunktion in einen geraden und einen ungeraden Anteil gemäß §1.3.4 nennen wir Cosinus Hyperbolicus bzw. Sinus Hyperbolicus cosh : C → C, cosh(z) := ez + e−z , 2 sinh : C → C, sinh(z) := ez − e−z . 2 56 §2. EXPONENTIALFUNKTION UND VERWANDTE cosh sinh 1 1 x 2e -1 1 − 12 e−x -1 1 −x 2e 1 1 x 2e -1 1 Abbildung 2.8: Graphen von Cosinus und Sinus Hyperbolicus im Reellen. In der Mechanik tritt der Cosinus Hyperbolicus bei der Beschreibung des Durchhangs von Ketten oder Seilen unter Einfluss der Schwerkraft auf. Sein Graph wird darum auch Kettenlinie oder Katenoide genannt. 4.2 Reihendarstellung. Aus der Reihendarstellung für die Exponentialfunktion erhalten wir sofort cosh(z) sinh(z) = = ∞ X z 2k 1 1 = 1 + z2 + z4 + · · · (2k)! 2 24 k=0 ∞ X k=0 für z ∈ C, z 2k+1 1 1 5 = z + z3 + z + ··· (2k + 1)! 6 120 für z ∈ C. 4.3 Additionstheorem. Die Funktionalgleichungen (auch Additionstheorem genannt) cosh(z + w) = cosh(z) cosh(w) + sinh(z) sinh(w) für z, w ∈ C, sinh(z + w) = sinh(z) cosh(w) + cosh(z) sinh(w) für z, w ∈ C für den Cosinus Hyperbolicus und den Sinus Hyperbolicus verifizieren wir sofort mit Hilfe der Funktionalgleichung für die Exponentialfunktion. Beispielsweise gilt cosh(z) cosh(w) + sinh(z) sinh(w) ez + e−z ew + e−w ez − e−z ew − e−w = + 2 2 2 2 ez+w + ez−w + e−z+w + e−z−w ez+w − ez−w − e−z+w + e−z−w = + 4 4 ez+w + e−(z+w) = = cosh(z + w). 2 4.4 Weitere Identitäten. Ebenso einfach können wir die beiden Identitäten cosh2 (z) − sinh2 (z) = 1, cosh(z) + sinh(z) = exp(z) für z ∈ C und die Verdoppelungsformeln cosh(2z) = 2 cosh2 (z) − 1, herleiten. sinh(2z) = 2 sinh(z) cosh(z) für z ∈ C 57 KAPITEL 2. ELEMENTARE FUNKTIONEN 4.5 Monotonieverhalten und Umkehrfunktionen im Reellen. Im Reellen ist x 7→ ex und damit auch x 7→ −e−x streng monoton steigend. Dies gilt dann auch für den sinh. Aus 0 ≤ x < y folgt x2k < y 2k für beliebige k ∈ N. Aus der Reihendarstellung 4.2 für cosh(x) lesen wir nun ab, dass cosh in R+ 0 streng monoton wächst. Als gerade Funktion muss cosh dann in R− streng monoton fallen. 0 Wir zeigen nun, dass die Gleichung sinh(x) = y für jedes y ∈ R eine Lösung besitzt (wegen der Monotonie muss selbige dann eindeutig bestimmt sein). Aus ⇔ ex − e−x = 2y ⇔ 0 = e2x − 2yex − 1 = (ex − y)2 − y 2 − 1 ⇔ (ex − y)2 = y 2 + 1 p p ⇔ ex = y + y 2 + 1 oder ex = y − y 2 + 1 p p p erhalten wir x = ln(y + y 2 + 1), der zweite Kandidat fällt wegen y − y 2 + 1 < y − y 2 < 0 < ex weg. Damit bildet der Sinus Hyperbolicus R streng monoton wachsend und bijektiv auf sich selbst ab. Die Umkehrfunktion p für y ∈ R, arsinh : R → R, arsinh(y) := ln y + y 2 + 1 sinh(x) = y wird mit Areasinus Hyperbolicus bezeichnet. Analog zeigt man, dass cosh die nichtnegativen reellen Zahlen streng monoton steigend und bijektiv auf [1, +∞[ abbildet. Als Umkehrfunktion erhält man den Areacosinus Hyperbolicus p arcosh : [1, +∞[→ R+ arcosh(y) := ln y + y 2 − 1 für y ∈ [1, +∞[. 0, 4.6∗ Tangens und Cotangens Hyperbolicus. Die Gruppe der Hyperbelfunktionen wird vervollständigt durch den Tangens Hyperbolicus und den Cotangens Hyperbolicus tanh : C r {z ∈ C | cosh(z) 6= 0} → C, coth : C r {z ∈ C | sinh(z) 6= 0} → C, sinh(z) , cosh(z) cosh(z) coth(z) := . sinh(z) tanh(z) := Wie die beiden Definitionsbereiche genau aussehen, wird sich in Abschnitt 5 klären. tanh coth 1 -1 1 1 -1 -1 1 -1 Abbildung 2.9: Graphen von Tangens und Cotangens Hyperbolicus im Reellen. Man zeige als Übung, dass tanh |R eine streng monoton wachsende Bijektion von R auf ]−1, 1[ ist, während coth |Rr{0} eine streng monoton fallende Bijektion von R− auf ]−∞, −1[ bzw. von R+ auf ]1, +∞[ ist. Die Umkehrfunktionen werden Areatangens Hyperbolicus (artanh) bzw. Areacotangens Hyperbolicus (arcoth) genannt. 58 5 §2. EXPONENTIALFUNKTION UND VERWANDTE Exponentialfunktion im Komplexen und trigonometrische Funktionen 5.1 Vorbemerkung. Um das Abbildungsverhalten der Exponentialfunktion im Komplexen zu verstehen, verwenden wir die Funktionalgleichung in der Form exp(x + iϕ) = ex eiϕ für x, ϕ ∈ R. Da wir das Abbildungsverhalten von x 7→ ex im Reellen schon kennen, müssen wir uns nur noch um ϕ 7→ eiϕ kümmern. Wegen exp(z) = ∞ X zk k=0 k! = ∞ X zk k=0 = exp(z) k! für z ∈ C gilt insbesondere eiϕ = e−iϕ , d.h. |eiϕ | = 1 für ϕ ∈ R. 5.2 Cosinus und Sinus. Cosinus und Sinus werden definiert durch cos : C → C, cos(z) := eiz + e−iz , 2 sin : C → C, sin(z) := eiz − e−iz . 2i Mit den bekannten Formeln für Real- und Imaginärteil gilt also cos ϕ = Re(eiϕ ), sin ϕ = Im(eiϕ ) für ϕ ∈ R und aus |eiϕ | = 1 folgt −1 ≤ cos ϕ, sin ϕ ≤ 1 für ϕ ∈ R. Wir schreiben hierbei cos ϕ statt cos(ϕ) etc., falls keine Missverständnisse zu befürchten sind. 5.3 Eulersche Formel und Kreisgleichung. Aus der Definition von Cosinus und Sinus erhalten wir unmittelbar die Eulersche Formel eiz = cos z + i sin z für z ∈ C sowie nach kurzer Rechnung die Kreisgleichung cos2 z + sin2 z = 1 für z ∈ C. 5.4 Zusammenhang mit den Hyperbelfunktionen. cos(z) = cosh(iz), sin(z) = −i sinh(iz) für z ∈ C. 5.5 Additionstheorem. Durch Umrechnung erhalten wir aus dem Additionstheoremen für cosh bzw. sinh die Analoga für Cosinus und Sinus zu cos(z + w) = cos(z) cos(w) − sin(z) sin(w) für z, w ∈ C, sin(z + w) = sin(z) cos(w) + cos(z) sin(w) für z, w ∈ C und ebenso diverse weitere Identitäten sowie Reihendarstellungen. 5.6 Winkelverdoppelungs- und Halbwinkelformel. cos(2z) = 2 cos2 (z) − 1, cos2 z 2 = 1 + cos(z) , 2 sin(2z) = 2 sin(z) cos(z) sin2 z 2 = 1 − cos(z) 2 für z ∈ C. für z ∈ C. 59 KAPITEL 2. ELEMENTARE FUNKTIONEN 5.7 Weitere Identitäten. cos z − cos w sin z − sin w z+w z−w = −2 sin sin 2 2 z+w z−w = 2 cos sin 2 2 für z, w ∈ C, für z, w ∈ C. 5.8 Reihendarstellung. cos z sin z ∞ X (−1)k = k=0 ∞ X = k=0 (2k)! 1 1 z 2k = 1 − z 2 + z 4 ∓ · · · 2 24 für z ∈ C, 1 1 5 (−1)k 2k+1 z = z − z3 + z ∓ ··· (2k + 1)! 6 120 für z ∈ C. 5.9 Schranken für Cosinus und Sinus im Reellen nahe bei Null. In 1.§4.2.7 haben wir aus dem Leibniz-Kriterium die Schranken 1− ϕ2 ϕ4 ϕ2 ≤ cos ϕ ≤ 1 − + 2 2 24 √ √ für − 2 3 < ϕ < 2 3 hergeleitet. Analog zeigt man ϕ− ϕ3 ≤ sin ϕ ≤ ϕ 6 für 0 ≤ ϕ < ϕ ≤ sin ϕ ≤ ϕ − ϕ3 6 für − √ √ 6, 6 < ϕ < 0. Die genaue Größe der Intervalle, in denen diese Abschätzungen gelten, ist eigenlich nicht so wichtig. In der Praxis verwendet man sie sowieso nur nahe bei Null. Dort sind sie gut, wie Abbildung 2.10 suggeriert. ϕ 1− cos ϕ 1 -2 -1 1 2 -1 ϕ2 2 + ϕ4 24 sin ϕ 1 -2 -1 1 -1 1− 2 ϕ− ϕ3 6 ϕ2 2 Abbildung 2.10: Schranken für Cosinus und Sinus im Reellen nahe bei Null. 5.10 Kreiszahl. Gemäß 5.9 gilt cos(0) = 1, cos(2) < 0 und der Sinus ist in [0, 2] positiv. Mit 5.7 erhalten wir dann cos ϕ − cos ψ < 0 für 0 ≤ ϕ < ψ ≤ 2. Also ist der Cosinus in [0, 2] streng monoton fallend und wechselt sein Vorzeichen. Aus dem Zwischenwertsatz 4.§2.4.2 (oder mit Hilfe des Vollständigkeitsaxioms (A9)) kann man hieraus die Existenz einer Nullstelle des Cosinus in ]0, 2[ folgern. Die Kreiszahl π ist das Doppelte der kleinsten positiven Nullstelle des Cosinus. 60 §2. EXPONENTIALFUNKTION UND VERWANDTE Aus der Kreisgleichung 5.3 erhalten wir sin2 (π/2) = 1 und mit sin ϕ > 0 für ϕ ∈]0, 2[ dann sin(π/2) = 1. Die Eulersche Formel 5.3 liefert uns nun eiπ/2 = i. Mit den Funktionalgleichungen 5.5 erhalten wir z π π 2 i −1 0 −1 1 0 0 exp(iz) 1 cos(z) 1 sin(z) 0 3π 2π 2 −i 1 0 1 −1 0 sowie die folgenden Verschiebungssätze. 5.11 Verschiebungssätze. exp(z + i π2 ) cos(z + π2 ) sin(z + π2 ) exp(z + iπ) = − exp(z), cos(z + π) = − cos(z), sin(z + π) = − sin(z), = i exp(z), = − sin(z), = cos(z), exp(z + 2iπ) = exp(z), cos(z + 2π) = cos(z), sin(z + 2π) = sin(z). Hieraus leiten sich die folgenden Aussagen über die Periodizität von Cosinus, Sinus und Exponentialfunktion sowie über das Monotonieverhalten von Cosinus und Sinus im Reellen her. 5.12 Perioden von Cosinus und Sinus. Cosinus und Sinus sind periodisch. Jede Periode ist ein ganzzahliges Vielfaches von 2π. cos(z + 2kπ) = cos(z), sin(z + 2kπ) = sin(z) für k ∈ Z. 5.13 Perioden der Exponentialfunktion. Die Exponentialfunktion ist periodisch. Jede Periode ist ein ganzzahliges Vielfaches von 2πi. e2kπi = 1 für k ∈ Z. 5.14 Monotonieverhalten von Cosinus und Sinus im Reellen. Der Cosinus bildet das Intervall [0, π] streng monoton fallend auf das Intervall [−1, 1] ab. Der Sinus bildet das Intervall [−π/2, π/2] streng monoton wachsend auf das Intervall [−1, 1] ab. 1 1 cos -3 Π -2 Π -Π Π sin 2Π 3Π -3 Π -2 Π -Π -1 Π 2Π 3Π -1 Abbildung 2.11: Cosinus und Sinus im Reellen. 5.15 Umkehrfunktionen von Cosinus und Sinus im Reellen. Die Umkehrfunktion des Cosinus im Reellen arccos : [−1, 1] → [0, π], arccos(y) := (cos |[0,π] )−1 (y) für y ∈ [−1, 1] heißt Arcuscosinus. Natürlich kann der Cosinus auch auf einem anderen Teilintervall I ⊂ R umgekehrt werden, auf dem er monoton ist, z.B. auf [π, 2π]. Um die dort definierte Umkehrfunktion (cos |[π,2π] )−1 von der eben definierten zu unterscheiden, nennt man obige auch den Hauptzweig des Arcuscosinus. 61 KAPITEL 2. ELEMENTARE FUNKTIONEN Die Umkehrfunktion des Sinus im Reellen arcsin(y) := (sin |[−π/2,π/2] )−1 (y) arcsin : [−1, 1] → [−π/2, π/2], für y ∈ [−1, 1] heißt Arcussinus oder Hauptzweig des Arcussinus. Für die Umkehrbarkeit auf anderen Teilintervallen als [−π/2, π/2] gilt das zuvor Gesagte. Π 2 arccos Π arcsin 1 sin Π - 2 1 -1 1 Π 2 -1 -1 1 Π Π - 2 cos -1 Abbildung 2.12: Hauptzweige des Arcuscosinus und des Arcussinus im Reellen. Auf R selbst oder anderen „großen“ Teilmengen von D ⊂ C kann man den Cosinus und den Sinus nicht umkehren — außer man ersetzt die Wertemenge cos(D) bzw. sin(D) durch eine größere, in der man die zunächst gleichen Werte an verschiedenen Stellen doch unterscheiden kann. Das zugehörige mathematische Konzept heißt „Riemannsche Fläche“. Im Fall der Exponentialfunktion (wo sich ein ähnliches Problem stellt) werden wir in 5.17 kurz darauf eingehen. 5.16 Polarkoordinaten. Zu jeder Zahl z ∈ C mit |z| = 1 gibt es genau ein ϕ ∈ [0, 2π[ mit eiϕ = z. Beweis. Für z = x+iy ∈ C mit kartesischen Koordinaten (x, y) folgt 1 = |z|2 = x2 +y 2 , d.h. insbesondere −1 ≤ x, y ≤ 1. Das Monotonieverhalten des Cosinus zeigt, dass die Gleichung cos ϕ = x in [0, π[ bzw. in [π, 2π[ jeweils genau eine Lösung besitzt. Aus der Kreisgleichung erhalten wir dann y 2 = 1 − x2 = 1 − cos2 ϕ = sin2 ϕ. Von den beiden obigen Lösungen erfüllt wegen der Monotonie des Sinus und wegen sin([0, π[= [0, 1] bzw. sin(]π, 2π[= [−1, 0[ genau eine y = sin ϕ, die andere dann y = − sin ϕ. Zu jeder komplexen Zahl z 6= 0 gibt es genau ein r > 0 und ein ϕ ∈ [0, 2π[ mit z = reiϕ . Die Darstellung heißt Polarkoordinatendarstellung von z. Wir nennen r = |z| und ϕ := arg(z) den Radius bzw. das Argument von z. Beweis. Für z 6= 0 gilt z = |z| · z/|z| und z/|z| hat den Betrag 1, d.h. nach dem vorher Gesagten eine eindeutige Darstellung der Form z/|z| = eiϕ mit ϕ ∈ [0, 2π[. Wir stellen uns arg(z) als den Winkel vor, den z mit der positiven reellen Achse einschließt. Wegen der Periodizität der Exponentialfunktion gilt dann auch z = reiϕ+2πik für beliebige k ∈ Z. 62 §2. EXPONENTIALFUNKTION UND VERWANDTE Man nennt daher auch ϕ = arg(z) den Hauptzweig des Arguments von z. Die Umrechnung von Polarkoordinaten reiϕ in kartesische Koordinaten (x, y) = x + iy erfolgt mittels x = Re(reiϕ ) = r cos ϕ, y = Im(reiϕ ) = r sin ϕ. Für die Umrechnung von kartesischen in Polarkoordinaten bildet man arccos √ 2x 2 p x +y 2 2 r = |x + iy| = x + y , ϕ = arg(x + iy) = 2π − arccos √ für y ≥ 0, x x2 +y 2 für y < 0, 5.17 Abbildungsverhalten der Exponentialfunktion im Komplexen. Für eine komplexe Zahl z = x + iy, x, y ∈ R, gilt exp(z) = ex eiy und x 7→ ex ist eine Bijektion von R auf ]0, +∞[. Damit bildet die Exponentialfunktion • jede Parallele {x + iy | x ∈ R} zur reellen Achse bijektiv auf eine Ursprungshalbgerade ab, die mit der positven reellen Achse den Winkel y einschließt, • jede zur imaginären Achse parallele Strecke {x + iy | y0 ≤ x < y0 + 2π} der Länge 2π bijektiv auf einen Kreis um den Ursprung mit Radius ex ab. Wir können uns dieses Abbildungsverhalten gut vorstellen, indem wir je ein Exemplar der Zahlenebene für den Definitions- und den Zielbereich nebeneinanderlegen und einzeichnen, wie ein achsenparalleles Gitter im Definitionsbereich in den Zielbereich abgebildet wird. Offensichtlich wird dabei das Gitter winkelerhaltend (man sagt konform) abgebildet. 2Π i 10i Π i -1 exp 1 -10 10 -Π i -2Π i -10i Abbildung 2.13: Abbildungsverhalten der Exponentialfunktion im Komplexen. Die Exponentialfunktion bildet den Parallelstreifen {x + iy ∈ C : x ∈ R, y ∈ [0, 2π[} und jeden anderen zur reellen Achse parallelen Parallelstreifen der Breite 2π bijektiv auf C r {0} ab. 5.18∗ Logarithmus im Komplexen. Auf ganz C gesehen ist also exp nicht bijektiv, sondern nimmt jeden Wert in C r {0} unendlich oft an. Aus diesem Grund waren wir in §2.2 bescheiden und haben den Logarithmus zunächst nur im Reellen eingeführt. Da die Exponentialfunktion den Parallelstreifen P0 := {x + iy ∈ C | 0 ≤ y < 2π} bijektiv auf C r {0} abbildet, können wir den Logarithmus nun in Komplexe fortsetzen durch ln : C r {0} → P0 ⊂ C, ln(z) := ln |z| + i arg(z), 63 KAPITEL 2. ELEMENTARE FUNKTIONEN hierbei ist ln |z| gerade der aus dem Reellen bekannte Logarithmus von |z| > 0 und arg(z) der Hauptzweig des Arguments von z. Wir nennen diese Funktion ln darum auch Hauptzweig des Logarithmus. √ Beispiel. Wir erhalten ln(1 + i) aus der Polarkoordinatendarstellung 1 + i = 2eiπ/4 zu ln(1 + i) = ln √ 2+i π ln 2 π = +i . 4 2 4 Als Ausblick wollen wir skizzieren, wie man sich den (nach dem zuvor Gesagten zunächst aussichtslosen) Wunsch erfüllen kann, die Exponentialfunktion auf ganz C umzukehren. Wir zerlegen hierzu den Definitionsbereich C der Exponentialfunktion gedanklich in Parallelstreifen Pk := {x + iy ∈ C | x ∈ R, y ∈ [2kπ, 2(k + 1)π[} und ordnen jedem solchen Parallelstreifen als Bild ein eigenes Exemplar von C r {0} zu. Wir erhalten eine Funktion Exp mit verändertem Wertebereich, die dafür bijektiv ist. Der Tatsache, dass die Parallelstreifen Pk aneinandergeheftet ganz C ergeben, tragen wir dadurch Rechnung, dass wir die jeweiligen Bildexemplare C r {0} in Form einer unendlichen Wendeltreppe aneinanderheften. Das ist — grob gesagt — ein Modell der zur Exponentialfunktion Exp : C → C gehörigen Riemannschen Fläche C. 2Πi Exp - -1 1 Ln -2Πi C C Abbildung 2.14: Riemannsche Fläche zu Exponentialfunktion und Logarithmus. Nun erhalten wir auch eine Umkehrabbildung Ln : C → C, Ln := Exp−1 der Exponentialfunktion im Komplexen, deren Zuordnungsvorschrift (z, k) 7→ Ln(z, k) = ln |z| + i arg z + 2πik, k ∈ Z, davon abhängt, auf welchem Blatt der Riemannschen Fläche C wir uns gerade befinden. Dies trägt formal der Tatsache Rechnung, dass Exp(Ln(z)) = eln |z|+i arg z+2πik = |z|ei arg z e2kπi = z für jedes k ∈ Z. 5.19 Bogenlänge von Kreisbögen, Bogenmaß. Unsere Definition von π in 5.10 als das Doppelte der kleinsten postiven Nullstelle des Cosinus wirkt unnatürlich. Sie war auf eine effektive Behandlung des umfangreichen Formelapparats für exp, cos und sin zugeschnitten. Dafür erhalten wir allerdings alle Formeln für Cosinus und Sinus in einfacher Weise. Nun wollen wir uns die geometrische Bedeutung von π kurz ansehen. Für gegebenes r > 0 und α > 0 ist die Länge des Kreisbogens {reiϕ | 0 ≤ ϕ ≤ α} gerade rα. Insbesondere hat die Kreislinie mit Radius r die Länge 2rπ. Für einen Beleg dieser Aussage müssen wir zunächst erklären, wie wir die Länge eines Kreisbogens γα := {reiϕ | 0 ≤ ϕ ≤ α} ⊂ C 64 §2. EXPONENTIALFUNKTION UND VERWANDTE messen wollen. Zunächst können wir nur die Länge einer Strecke problemlos messen. Hat selbige die Endpunkte z, w ∈ C, so erhalten wir als Länge |z − w|. Wir approximieren nun den Kreisbogen γα , indem wir auf ihm äquidistant n + 1 Teilpunkte reiαk/n , k = 0, 1, 2, . . . , n, einfügen und deren Längen addieren. Wir erhalten lα,n := n X |reiαk/n − reiα(k−1)/n | = k=1 = n X k=1 n X k=1 r |eiα(2k−1)/(2n) | |eiα/(2n) − e−iα/(2n) | {z } | =1 iα/(2n) α e − e−iα/(2n) = 2rn 2r sin . 2i 2n Gemäß der Abschätzungen 1 − ϕ2 /6 < | sinϕ ϕ | ≤ 1 in 5.9 für den Sinus nahe bei Null gilt α α ' 2rn lα,n = 2rn sin = rα für n → ∞. 2n 2n reiα2/n reiα reiα/n α Also sollten wir dem Kreisbogen γα die Länge rα zuordnen. r Wegen dieses Zusammenhangs zwischen Länge eines Bogens auf dem Einheitskreis und zugehörigen Winkel misst man Winkel auch im Bogenmaß (Radiant). Ein Vollwinkel misst dann 2π, ein rechter Winkel π/2. Die Umrechnung von Gradmaß (wo ein Vollwinkel 360◦ misst) in Bogenmaß erfolgt mittels αgrad = Abbildung 2.15: Approximation an einen Kreisbogen und Winkel im Bogenmaß. 360◦ αrad . 2π 5.20 Tangens und Cotangens. Tangens und Cotangens werden definiert durch sin(z) 2i = 2iz − i, cos(z) e +1 2i cos(z) = 2iz + i. cot(z) := sin(z) e −1 tan : {z ∈ C|z 6= kπ + π2 , k ∈ Z} → C, tan(z) := cot : {z ∈ C|z 6= kπ, k ∈ Z} → C, 5.21 Zusammenhang mit Hyperbelfunktionen. π ,k∈Z 2 für z ∈ C, z = 6 kπ, k ∈ Z tan(z) = −i tanh(iz), für z ∈ C, z 6= kπ + cot(z) = i coth(iz) 5.22 Additionstheorem. tan(z + w) = tan(z) + tan(w) , 1 − tan(z) tan(w) cot(z + w) = cot(z) cot(w) − 1 . cot(z) + cot(w) 5.23 Perioden von Tangens und Cotangens. Tangens und Cotangens sind periodisch. Jede Periode ist ein ganzzahliges Vielfaches von π. tan(z + kπ) = tan(z), cot(z + kπ) = cot(z) für k ∈ Z. 5.24 Monotonieverhalten von Tangens und Cotangens im Reellen. Der Tangens bildet das Intervall ] − π/2, π/2[ streng monoton wachsend auf R ab. Der Cotangens bildet das Intervall ]0, π[ streng monoton fallend auf R ab. 65 KAPITEL 2. ELEMENTARE FUNKTIONEN tan cot 1 -Π 1 Π -1 -Π Π -1 Abbildung 2.16: Tangens und Cotangens im Reellen. 5.25 Umkehrfunktionen von Tangens und Cotangens im Reellen. Die Umkehrfunktionen des Tangens bzw. des Cotangens im Reellen arctan : R →] − π/2, π/2[, arctan := (tan |]−π/2,π/2[ )−1 , arccot : R →]0, π[, arccot := (cot |]0,π[ )−1 heißen (Hauptzweige des) Arcustangens bzw. Arcuscotangens. tan Π 2 1 Π -1 - 2 -1 Π - 2 Π arctan cot arccot 1 1 Π 2 -Π -1 1 Π -1 -Π Abbildung 2.17: Hauptzweige des Arcustangens und des Arcuscotangens im Reellen. ϕ(6−ϕ2 ) 3(2−ϕ2 ) 5.26 Schranken für den Tangens im Reellen nahe bei Null. Aus den Schranken 5.9 für Cosinus und Sinus erhalten wir ϕ ≤ tan ϕ ≤ ϕ(6 − ϕ2 ) 3(2 − ϕ2 ) für 0 ≤ ϕ < √ 2. 5.27 Schlussbemerkung. Man sollte sich von der Fülle an Informationen in diesem Paragraphen eher faszinieren als einschüchtern lassen. Alles fließt im Wesentlichen aus der Exponentialreihe, der Funktionalgleichung der Exponentialfunktion und dem Umgang mit komplexen Zahlen und Reihen. 1 Π - 2 -1 ϕ tan Π 2 Abbildung 2.18: Schranken für den Tangens im Reellen nahe bei Null. 66 §3 §3. ALGEBRAISCHE FUNKTIONEN Algebraische Funktionen In diesem Paragraphen lernen wir die wichtigsten Techniken für den Umgang mit Polynomen und rationalen Funktionen kennen. Wir werden sie ausführlich behandeln, weil in der Operatortheorie z.B. für Differentialoperatoren vergleichbare Techniken angewendet werden. Wir werden sehen, dass das Rechnen mit diesen Funktionen stark an das Rechnen mit ganzen Zahlen bzw. rationalen Zahlen erinnert. 1 Polynome 1.1 Reelle und komplexe Polynome. Gegeben seien n + 1 Zahlen a0 , a1 , . . . , an ∈ C. Dann heißt p(x) := an xn + · · · + a1 x + a0 p : C → C, ein (komplexes) Polynom mit Koeffizienten a0 , a1 , . . . , an . Sind alle Koeffizienten reelle Zahlen, so nennt man p ein reelles Polynom. Gerade bei reellen Polynomen wählt man zunächst instinktiv R als Definitionsbereich. Wir werden aber sehen, dass auch für reelle Polynome oftmals der „Weg ins Komplexe“ — d.h. die Wahl von C als Definitionsbereich — vieles einfacher macht. Einfache Polynome sind die konstanten Funktionen und die identische Abbildung. 1.2 Grad eines Polynoms. Ist p(x) = an xn + · · · + a1 x + a0 ein Polynom mit an 6= 0, so nennen wir Grad(p) := n den Grad von p und an den Leitkoeffizient. Das Nullpolynom hat keinen Grad, konstante Polynome haben den Grad 0 und es gilt Grad(id) = 1. 1.3 Zusammensetzen von Polynomen. Alle Polynome entstehen durch Addition und Multiplikation von Funktionen aus der identischen Abbildung und den konstanten Funktionen. Mit p und q sind also auch p + q und pq Polynome. Für p, q, p + q 6= 0 gilt Grad(p + q) ≤ max{Grad(p), Grad(q)}, Grad(pq) = Grad(p) + Grad(q). Für die Summe mache man sich an einem Beispiel klar, dass p + q u.U. tatsächlich kleineren Grad als p und q haben kann. Für das Produkt von p(x) = an xn + · · · + a1 x + a0 und q(x) = bm xm + · · · + b1 x + b0 erhält man den Grad aus p(x) · q(x) = an bm xn+m + (an bm−1 + an−1 bm )xn+m−1 + · · · + (a1 b0 + a0 b1 )x + a0 b0 n+m X X = aµ bν xk . k=0 µ+ν=k 1.4∗ Horner-Schema. Will man ein Polynom p(x) = an xn + · · · + a1 x + a0 vom Grad n ∈ N an einer Stelle x auswerten, so können die zunächst n + (n − 1) + · · · + 1 = n(n + 1)/2 anfallenden Multiplikationen durch das Horner-Schema p(x) = (· · · ((an x + an−1 )x + an−2 )x + · · · )x + a0 auf n Multiplikationen reduziert werden. 1.5 Polynomdivision mit Rest. Sind p1 und p2 zwei Polynome mit Grad(p2 ) ≥ 1, so existieren eindeutig bestimmte Polynome q und r mit p1 = q · p2 + r und Grad(r) < Grad(p2 ) oder r = 0. 67 KAPITEL 2. ELEMENTARE FUNKTIONEN Die Bestimmung von q und r erfolgt analog zur schriftlichen Division. Statt eines allgemeinen Beweises erläutern wir den zugehörigen Algorithmus an einem Beispiel. p1 (x) := x6 + 4x5 − 3x4 − 14x3 + x2 + 1, (x6 + 4x5 − 3x4 − 14x3 + x2 x6 − 3x4 4x5 4x5 + 1) : (x2 − 3) = x4 + 4x3 − 2x + 1 ↑ − 14x3 + x2 − 12x3 − − 3 2x + x 2x3 p2 (x) := x2 − 3. + 1 ↑ 2 + 1 ↑ + 6x x2 − 6x + 1 x2 − 3 ↑ Rest: − 6x + 4 Damit gilt p1 (x) = (x4 + 4x3 − 2x + 1)p2 (x) − 6x + 4. Dieser Divisionsalgorithmus führt nach maximal Grad(p1 ) + 1 Schritten immer zum Ziel. Hätte man zwei verschiedene Ergebnisse p2 q1 + r1 = p1 = p2 q2 + r2 , so wäre p2 (q1 − q2 ) = r2 − r1 mit q1 6= q2 und die linke Seite hätte mindestens den Grad von p2 , während die rechte einen kleineren Grad als p2 haben müsste. Also muss q1 = q2 und r1 = r2 gelten. 1.6 Teilbarkeit von Polynomen. Geht die Polynomdivision von p1 durch p2 auf, d.h. bleibt als Rest das Nullpolynom, so sagen wir, dass p2 ein Teiler von p1 ist und schreiben p2 | p1 . Wegen x2 − 4 = (x − 2)(x + 2) gilt beispielsweise x − 2 | x2 − 4. Man verifiziere selbst, das wir Regeln für Teiler erhalten, wie wir sie von den ganzen Zahlen kennen. (a) Aus p3 | p2 und p2 | p1 folgt p3 | p1 . (b) Aus p | p1 und p | p2 folgt p | q1 p1 + q2 p2 für beliebige Polynome q1 und q2 . (c) Aus p2 | p1 und p1 6= 0 folgt Grad(p2 ) ≤ Grad(p1 ). (d) Gilt p2 | p1 und p1 | p2 , so folgt p1 = cp2 mit einer Zahl c 6= 0. Wir nennen zwei Polynome p1 , p2 6= 0 teilerfremd , wenn aus p | p1 und p | p2 folgt, dass p konstant ist. 1.7 Nullstellen von Polynomen. Eine (reelle oder komplexe) Zahl λ heißt Nullstelle eines Polynoms p, falls p(λ) = 0. Genau dann ist λ eine Nullstelle von p, wenn (x − λ) | p. Beweis. Aus (x−λ) | p folgt nämlich p(x) = (x−λ)q(x) mit einem Polynom q und dann p(λ) = 0·q(λ) = 0. Gilt umgekehrt p(λ) = 0, so liefert der Divisionsalgorithmus eine Darstellung p(x) = (x − λ)q(x) + r(x) wobei r entweder ein Polynom vom Grad 0 oder das Nullpolynom ist, d.h. eine Konstante. Wegen 0 = p(λ) = 0 · q(λ) + r(λ) muss r tatsächlich das Nullpolynom sein. Es gilt also p = (x − λ)q. Die Polynomdivision von p durch x − λ nennen wir Abspalten einer Nullstelle 1.8 Vielfachheit von Nullstellen. Eine Nullstelle λ eines Polynoms p hat die Vielfachheit k ∈ N, wenn es ein Polynom q gibt mit p(x) = (x − λ)k q(x) und q(λ) 6= 0. Ein Polynom vom Grad n ≥ 1 besitzt mit Vielfachheiten gezählt höchstens n Nullstellen. Beim Abspalten einer Nullstelle erniedrigt sich nämlich der Grad des Polynoms um 1. Also können wir höchstens n-mal eine Nullstelle abspalten bevor wir bei einem Polynom ohne Nullstelle, d.h. einem konstanten Polynom, enden. 68 §3. ALGEBRAISCHE FUNKTIONEN 1.9 Identitätssatz für Polynome. Stimmen zwei Polynome vom Grad höchstens n an n + 1 verschiedenen Stellen überein, so sind sie identisch. Die Differenz zweier solcher Polynome hat dann nämlich höchstens den Grad n aber mindestens n + 1 Nullstellen, muss also das Nullpolynom sein. 1.10 Koeffizientenvergleich. Sind zwei Polynome p(x) = an xn + · · · + a1 x + a0 q(x) = bm xm + · · · + b1 x + b0 und mit an , bm 6= 0 als Funktionen gleich, d.h. gilt p(x) = q(x) für alle x (oder gilt dies sogar nur an max{n + 1, m + 1} verschiedenen Stellen), so folgt n = m und ak = bk für k = 0, 1, . . . , n. Dies folgt, ebenso wie die nächste Aussage, sofort aus dem Identitätssatz für Polynome. 1.11 Entwickeln eines Polynoms. Zu einem beliebig vorgegebenen Punkt a kann ein Polynom p(x) = an xn + · · · + a1 x + a0 in der Form p(x) = bn (x − a)n + · · · + b1 (x − a) + b0 . geschrieben werden. Diese Darstellung nennen wir Entwicklung von p um den Punkt a. Beispiel. Die Entwicklung von p(x) = x3 + 6x2 + 10x + 4 um den Punkt −2 erhalten wir, indem wir p(x − 2) = (x − 2)3 + 6(x − 2)2 + 10(x − 2) + 4 = x3 − 2x berechnen und anschließend x durch x + 2 ersetzen: p(x) = (x + 2)3 − 2(x + 2). 1.12 Polynominterpolation nach Lagrange. Wir haben einen (n + 1)-punktigen Datensatz (etwa Meßdaten) (x0 , y0 ), . . . (xn , yn ) vorliegen. Sind x0 , x1 , . . . , xn paarweise verschieden sind, so existiert genau ein Polynom p mit p(xk ) = yk für k = 0, 1, . . . , n und Grad(p) ≤ n oder p = 0. Dieses Polynom erhalten wir durch p(x) = n X yk Lk (x) k=0 mit Lk (x) := n Y l=0,l6=k (x − x0 ) · · · (x − xk−1 )(x − xk+1 ) · · · (x − xn ) x − xl . = xk − xl (xk − x0 ) · · · (xk − xk−1 )(xk − xk+1 ) · · · (xk − xn ) Die Polynome L0 , L1 , . . . , Ln heißen Lagrange-Polynome zu den Stützstellen x0 , x1 , . . . , xn . Normalerweise berechnet man p durch Lösen eines linearen Gleichungssystems für die Koeffizienten schneller als durch obige Darstellung. Beweis. Offensichtlich sind die Lk , k ∈ {0, 1, . . . ,P n}, Polynome vom Grad n mit Lk (xk ) = 1 und n Lk (xl ) = 0 für l ∈ {0, 1, . . . , n}, l 6= k. Damit ist p = k=0 yk Lk ein Polynom vom Grad höchstens n mit p(xk ) = yk für k ∈ {0, 1, . . . , n}. Die Eindeutigkeit von p folgt aus aus dem Identitätssatz. 1.13∗ Anwendung zum Koeffizientenvergleich. Wir beweisen das Additionstheorem für Binomialkoeffizienten n X c d c+d = für c, d ∈ C und n ∈ N0 . k n−k n k=0 c+d zunächst für c, d ∈ N0 mit der binomischen Formel auf zwei Arten dar: c+d X c+d n c+d (1 + x) = x , n n=0 ! d ! c+d n ! c X X d X X c c d (1 + x)c (1 + x)d = xk xl = xn . k k n n − k n=0 Wir stellen (1 + x) k=0 l=0 k=0 69 KAPITEL 2. ELEMENTARE FUNKTIONEN Durch Koeffizientenvergleich erhalten wir das Additionstheorem für c, d ∈ N0 . Jetzt wählen wir d ∈ N0 fest. Dann sind beide Seiten im Additionstheorem Polynome in der Variablen c. Gerade haben wir gezeigt, dass sie für alle c ∈ N0 übereinstimmen. Nach dem Identitätssatz sind diese beiden Polynome dann gleich, also gilt das Additionstheorem für d ∈ N0 und c ∈ C. Durch Wiederholung dieses Arguments für festes c ∈ C erhalten wir das Additionstheorem für beliebige c, d ∈ C. 1.14 Fundamentalsatz der Algebra. Jedes nicht-konstante reelle oder komplexe Polynom hat eine komplexe Nullstelle. Reelle Polynome können durchaus nur komplexe Nullstellen haben. So hat x2 + 1 die Nullstellen ±i da x2 + 1 = (x − i)(x + i). 1.15 Historische Anmerkung. Für den Fundamentalsatz der Algebra gibt es viele Beweise, die ersten vollständigen gehen auf Laplace (1795) und Gauß (1799) zurück. Von Argand (1814) stammt ein einfacher Beweis, der mit den Mittel aus 4.§2.4 auskommt (siehe z.B. [Kön, Band 1, 7.6]). Neben der aus der Schule bekannten Formel zur Bestimmung der Nullstellen von Polynomen zweiten Grades gibt es Formeln für Polynome vom Grad drei und vier. Abel (1802–1829) hat gezeigt, dass für Polynome vom Grad n ≥ 5 keine allgemein gültige „Lösungsformel“ existiert, d.h. keine Formel, mit deren Hilfe man die Nullstellen durch eine endliche Anzahl von Additionen, Subtraktionen, Multiplikationen, Divisionen und Wurzelziehen aus den Koeffizienten erhält. Auf Galois (1811–1832) geht eine Theorie zurück, die es erlaubt, für ein vorgegebenes Polynom zu entscheiden, ob und wieviele Nullstellen elementar bestimmt werden können. Im Allgemeinen müssen wir also zur Nullstellenbestimmung bei Polynomen numerische Methoden verwenden (siehe 4.§2.7.1 Intervallhalbierung und 4.§3.6.1 Newton-Verfahren). 1.16 Faktorisieren eines Polynoms. Durch sukzessives Anwenden des Fundamentalsatzes können wir von einem Polynom p(x) = an xn + · · · + a1 x + a0 vom Grad n ≥ 1 genau n Nullstellen abspalten. Eine Nullstelle der Vielfachheit k wird dabei natürlich genau k-mal abgespaltet. Sind λ1 , . . . , λm ∈ C die verschiedenen Nullstellen von p mit Vielfachheiten k1 , . . . , km ∈ N, so erhalten wir die Darstellung p(x) = an m Y (x − λµ )kµ = an (x − λ1 )k1 · · · (x − λm )km mit k1 + · · · + km = n, µ=0 welche wir Faktorisierung des Polynoms p nennen. 1.17 Komplexe Nullstellen reeller Polynome. Echt komplexe Nullstellen treten bei reellen Polynomen immer paarweise konjugiert auf. Hat p nämlich nur reelle Koeffizienten, so ist wegen p(z) = an z n + · · · + a1 z + a0 = an z n + · · · + a1 z + a0 = p(z) für an , . . . , a1 , a0 ∈ R mit λ auch λ eine Nullstelle. 1.18 Quadratische Ergänzung. Für ein Polynom vom Grad zwei heißt die Darstellung b p(x) = ax + bx + c = a x + 2a 2 2 +c− b2 4a quadratische Ergänzung. Aus ihr erhalten wir auch für komplexe Koeffizienten leicht die Nullstellen von p ohne uns um Wurzeln aus komplexen Zahlen kümmern zu müssen. Beispiel. p(x) = x2 + 2ix − i = (x + i)2 − i − i2 = (x + i)2 − (−1 +√i). Für die Nullstellen gilt also nach Darstellung von −1 + i in Polarkoordinaten (x + i)2 = −1 + i = 2e3πi/4 . Also hat p die Nullstellen √ 4 3πi/8 −i ± 2e . 70 §3. ALGEBRAISCHE FUNKTIONEN 1.19∗ Formeln von Vieta. Für die Nullstellen λ1 , . . . , λn von p(x) = xn + · · · + a1 x + a0 gilt an−1 = − n X λk , a0 = (−1)n k=1 n Y λk . k=1 Für ein Polynom mit Leitkoeffizient 1 und ganzzahligen Koeffizienten können wir daher ganzzahlige Nullstellen „erraten“, indem wir die Faktoren von a0 ansehen. Die Normierung an = 1 ist für die Nullstellenbestimmung unwesentlich und kann durch Division durch den Leitkoeffizienten erzwungen werden. Beispiel. In p(x) = x3 − x2 − x − 15 probieren wir ±1, ±3, ±5, ±15 und erhalten 3 als Nullstelle. Abspalten liefert p(x) = (x − 3)(x2 + 2x + 5). Durch quadratische Ergänzung x2 + 2x + 5 = (x + 1)2 + 4 erhalten wir die verbleibenden zwei Nullstellen −1 ± 2i als komplex konjugiertes Pärchen. e2πi/n 2π n 1 1.20 Einheitswurzeln. Für n ∈ N gilt zn = 1 ⇔ z = e2πik/n , k = 0, 1, . . . , n − 1. Die n Zahlen e2πik/n heißen n-te Einheitswurzeln. Sie liegen in der Zahlenebene auf der Einheitskreislinie |z| = 1 und bilden die Ecken eines regelmäßigen n-Ecks. Abbildung 2.19: Verteilung der Einheitswurzeln in der Zahleneben. 1.21 Wachstum von Polynomen, Lokalisation von Nullstellen. Ist p(z) = z n + · · · + a1 z + a0 ein Polynom vom Grad n mit Leitkoeffizient 1, so gilt 1 n 3 |z| ≤ |p(z)| ≤ |z|n 2 2 für z ∈ C mit |z| ≥ ρ := max{1, 2|a0 | + · · · + 2|an−1 |}. Für |z| ≥ ρ gilt 1 ≤ |z|k ≤ |z|n−1 für k = 0, 1, . . . , n − 1 und mit der Dreiecksungleichung folgt n n−1 |p(z)| ≤ |z| + |an−1 ||z| n + · · · + |a0 | ≤ |z| + (|an−1 | + · · · + |a0 |) |z| | {z } n−1 ≤ ρ 1+ 2|z| |z|n ≤ 3 n |z| . 2 ≤ρ/2 Die untere Schranke erhalten wir analog mittels der unteren Dreiecksungleichung. Ist p(z) = an z n + · · · + a1 z + a0 ein beliebiges Polynom vom Grad n (d.h. für den Leitkoeffizienten gilt nur an 6= 0 und nicht notwendiger Weise an = 1 wie zuvor), so kann man obige Überlegung auf p(z)/an anwenden und erhält anschließend die Abschätzungen |an | n 3|an | n |z| ≤ |p(z)| ≤ |z| 2 2 |a0 | |an−1 | für z ∈ C mit |z| ≥ ρ := max 1, 2 + ··· + 2 . |an | |an | Die obigen Abschätzungen besagen, dass sich ein Polynom „weit draußen“ (was das genau heißt, hängt von ρ, d.h. von den Koeffizienten des Polynoms ab) ungefähr so wie sein Leitterm verhält. Aus der unteren Abschätzung erhalten wir eine grobe Lokalisationsaussage über die Nullstellen eines Polynoms vom Grad n: Aus p(z) = 0 folgt |z| < max{1, 2|a0 /an | + · · · + 2|an−1 /an |}. 71 KAPITEL 2. ELEMENTARE FUNKTIONEN 2 Rationale Funktionen 2.1 Rationale Funktionen. Sind p1 und p2 6= 0 zwei Polynome, so heißt R := p1 /p2 eine rationale Funktion. Wir nennen p1 das Zähler- und p2 das Nennerpolynom von R. Als natürlichen Definitionsbereich für R wählen wir {x ∈ R | p2 (x) 6= 0} oder {z ∈ C | p2 (z) 6= 0}. Gilt Grad(p1 ) < Grad(p2 ) oder p1 = 0, so nennen wir R echt rational . 2.2 Kürzen. Haben p1 und p2 einen gemeinsamen Teiler q, d.h. gilt p1 = qq1 und p2 = qq2 , so folgt R(x) = p1 (x)/p2 (x) = q1 (x)/q2 (x) für alle Punkte x im natürlichen Definitionsbereich von R aber q1 /q2 kann einen größeren natürlichen Definitionsbereich haben. Beispiel. R(x) = (x4 − 2x3 + 4x − 8)/(x3 − 4x2 + 5x − 2). Wegen x4 − 2x3 + 4x − 8 = (x − 2)(x3 + 4) und x3 − 4x2 + 5x − 2 = (x − 1)2 (x − 2) können wir x − 2 kürzen und erhalten R(x) = (x3 + 4)/(x − 1)2 . In der ursprünglichen Form mussten wir für R die Zahlen 1, 2 aus dem Definitionsbereich ausschließen. Nach Kürzen nur noch 1. Da x3 + 4 an der Stelle 1 nicht verschwindet, können wir nicht weiter kürzen. Haben in der Darstellung R = q1 /q2 die Polynome q1 und q2 keinen gemeinsamen Teiler mehr, so nennen wir die Darstellung gekürzt. Dies tritt genau dann ein, wenn Zähler- und Nennerpolynom keine gemeinsame Nullstelle besitzen. Achtung. Bei rationalen Funktionen teste man immer zuerst, ob Zähler- oder Nennerpolynom gekürzt werden können. 2.3 Haupt- und Nebenteil. Ist R = p1 /p2 keine echt rationale Funktion, so können wir nach einer Polynomdivision p1 = qp2 + r in der Form R= r p1 =q+ p2 p2 schreiben mit Grad(r) < Grad(p2 ) oder r = 0. Wir nennen q den Nebenteil und die echt rationale Funktion r/p2 den Hauptteil . Bei einem Polynom verschwindet der Hauptteil, bei einer echt rationalen Funktion der Nebenteil. Beispiel. In R(x) = (2x5 + 12x3 + 2)/(x4 + x2 ) können wir nach einer Polynomdivision 2x5 + 12x3 + 2 = 2x(x4 + x2 ) + (10x3 + 2) den Nebenteil abspalten. Wir erhalten R(x) = 10x3 + 2 2x5 + 12x3 + 2 = 2x + 4 . 4 2 x +x x + x2 2.4 Partialbruchzerlegung. Jede rationale Funktion R kann in der Form R(x) = q(x) + c1,1 cm,1 c1,k1 cm,km + ··· + + ··· + + ··· + x − λ1 (x − λ1 )k1 x − λm (x − λm )km dargestellt werden. Hierbei ist q ein Polynom. Die Zahlen λ1 , . . . , λm ∈ C und k1 , . . . , km ∈ N sind die verschiedenen Nullstellen des Nennerpolynoms von R in gekürzter Form. Die Zahlen cl,j sind eindeutig bestimmt und es gilt c1,k1 , . . . , cm,km 6= 0. Die Existenz und Eindeutigkeit folgen aus dem Identitätssatz für Polynome. Statt eines Beweises führen wir das Rezept zur Partialbruchzerlegung vor. Schritt 1 Faktorisiere das Nennerpolynom. Schritt 2 Kürze Zähler- und Nennerpolynom und erhalte eine gekürzte Darstellung R = p1 /p2 mit faktorisiertem Nennerpolynom p2 (x) = (x − λ1 )k1 · · · (x − λm )km . Die λk sind reell oder komplex und paarweise verschieden. 72 §3. ALGEBRAISCHE FUNKTIONEN Schritt 3 Spalte den Nebenteil q durch Polynomdivision ab und erhalte das Zählerpolynom r des Hauptteils. c c c c 1,k1 m,km 1,1 m,1 + · · · + (x−λ + · · · + (x−λ mit noch Schritt 4 Setze den Hauptteil in der Form x−λ k k + · · · + x−λ 1 m m) m 1) 1 zu bestimmenden Zahlen cl,j an. Schritt 5 Multipliziere den Ansatz aus und erhalte eine echt rationale Funktion mit Nennerpolynom p2 und einem Zählerpolynom, dessen Koeffizienten aus den cl,j gebildet werden. Schritt 6 Mache einen Koeffizientenvergleich von r mit diesem Zählerpolynom, um die cl,j zu bestimmen. In 4.§2.3.18 werden wir sehen, wie wir uns die Schritte 5 und 6 sparen und statt dessen die cl,j einzeln berechnen können. Beispiel. Wir bilden die Partialbruchzerlegung für R aus dem Beispiel in 2.3. Die Schritte 1–3 sind schon erledigt, das Nennerpolynom x4 + x2 hat eine doppelte Nullstelle bei 0 und zwei einfache Nullstellen bei ±i. Wir erhalten als Ansatz R(x) = = 10x3 + 2 c2,1 c1,1 c1,2 c3,1 2x5 + 12x3 + 2 = 2x + = 2x + + 2 + + 4 2 2 x +x x (x + i)(x − i) x x x−i x+i (c1,1 + c2,1 + c3,1 )x3 + (c1,2 + ic2,1 − ic3,1 )x2 + c1,1 x + c1,2 2x + x2 (x + i)(x − i) und bestimmen die cl,j aus dem Gleichungssystem c1,1 + c2,1 + c3,1 = 10, c1,2 + ic2,1 − ic3,1 = 0, c1,1 = 0, c1,2 = 2 zu c1,1 = 0, c1,2 = 2, c2,1 = 5 + i, c3,1 = 5 − i. Daher lautet die Partialbruchzerlegung R(x) = 2x + 5−i 2 5+i + . + 2 x x−i x+i 2.5 Reelle Partialbruchzerlegung. Ist R eine rationale Funktion mit reellen Zähler- und Nennerpolynomen, so fasst man in der Partialbruchzerlegung gerne zueinander konjugierte Summanden zusammen und erhält die sogenannte reelle Partialbruchzerlegung von R. Beispiel. R(x) = 2x + 3 2 5+i 5−i 2 10x − 2 + + = 2x + 2 + 2 . x2 x−i x+i x x +1 Weitere algebraische Funktionen 3.1∗ Algebraische Funktionen. Eine Funktion f : D ⊂ C → C (das schließt den Fall R mit ein) heißt algebraisch, wenn es Polynome p0 , . . . , pn gibt mit n X pk (x)f (x)k = 0 für x ∈ D. k=0 Für n = 1 erhält √ man die einfachsten algebraischen Funktionen: Polynome und rationale Funktionen. Auch f (x) := 1 + x ist ein Beispiel für eine algebraische Funktion, es gilt f (x)2 − (x + 1) = 0. 3.2∗ Transzendente Funktionen. Ist eine Funktion nicht algebraisch, so heißt sie transzendent. Man kann zeigen, dass die Exponentialfunktion, der Logarithmus und die aus ihnen abgeleiteten trigonometrischen und Hyperbelfunktionen transzendent sind. 73 KAPITEL 2. ELEMENTARE FUNKTIONEN §4 1 Potenzreihen Grundlegendes über Potenzreihen 1.1 Definition: Potenzreihe. Für eine Zahl z0 ∈ C und eine Folge (ak )k reeller oder komplexer Zahlen nennen wir ∞ X ak (z − z0 )k k=0 eine Potenzreihe mit Koeffizienten ak und Entwicklungspunkt z0 . 1.2 Beispiele. In den vorangegangenen P Abschnitten haben wir schon diverse Potenzreihen kennenge∞ lernt. Die Exponentialfunktion exp(z) = k=0 z k /k! für z ∈ C wurde in §2.1.1 durch eine Potenzreihe definiert. Hieraus haben wir in §2.4.2 Potenzreihendarstellungen für den CosinusPund Sinus Hyperbolicus ∞ k bzw. in §2.5.8 für den Cosinus und abgeleitet. Die geometrische Reihe k=0 z = 1/(1 − z) für P∞Sinus c k |z| < 1 und die Binomialreihen k=0 k z für |z| < 1 falls c ∈ C r N0 bzw. für z ∈ C für c ∈ N0 in 1.§4.2.5 waren weitere Beispiele. Alle diese Potenzreihen hatten z0 = 0 als Entwicklungspunkt. Potenzreihen dienen dazu, neue Funktionen zu definieren oder alternative Darstellungen für schon bekannte Funktionen zu erhalten. Wir beschäftigen uns P∞nun mit dem Konvergenzverhalten von Potenzreihen, untersuchen also, für welche z ∈ C durch z 7→ k=0 ak (z − z0 )k für eine vorgegebene Koeffizientenfolge (ak )k und einen Entwicklungspunkt z0 eine Funktion erklärt wird. P∞ k 1.3 Konvergenzverhalten von Potenzreihen. Konvergiert die Potenzreihe k=0 ak (z − z0 ) an einer Stelle z1 6= z0 , so konvergiert sie für alle z ∈ C mit |z − z0 | < |z1 − z0 | und die Konvergenz ist absolut. Divergiert die Potenzreihe dagegen in einer Stelle z2 6= z0 , so divergiert sie auch für alle z ∈ C mit |z − z0 | > |z2 − z0 |. P∞ k k Beweis. Konvergiert k=0 ak (z1 − z0 ) , so bilden die Reihenglieder ak (z1 − z0 ) eine Nullfolge. Da k konvergente Folgen beschränkt sind, existiert ein M ≥ 0 mit |ak (z1 − z0 ) | ≤ M für alle k ∈ N0 . Ist nun ein z ∈ C mit |z − z0 | < |z1 − z0 | gegeben, so setzen wir q := |z − z0 |/|z1 − z0 |. Dann P∞ gilt 0 ≤ q < 1 und |ak (z − z0 )k | =P|ak (z1 − z0 )k | · |(z − z0 )/(z1 − z0 )|k P ≤ M q k für k ∈ N0 . Also ist k=0 M q k konvergente ∞ ∞ Majorante für k=0 ak (z −z0 )k . Divergiert dagegen k=0 ak (z2 −z0 )k , so kann nach dem eben Gezeigten P ∞ k k=0 ak (z − z0 ) für kein z ∈ C mit |z − z0 | > |z2 − z0 | konvergieren. Konvergiert eine Potenzreihe also an einer Stelle z1 , so auch im gesamten Kreisinneren K|z1 −z0 | (z0 ) = {z ∈ C | |z − z0 | < |z1 − z0 |}, divergiert sie an einer Stelle z2 , so auch im gesamten Kreisäußeren Konvergenzkreis Konvergenzradius Entwicklungspunkt B B B ? BBN z0| {z R ∆|z2 −z0 | (z0 ) := {z ∈ C | |z − z0 | > |z2 − z0 |}. SiehtP man also von den beiden degenerierten Fällen ab, ∞ dass k=0 ak (z − z0 )k nur in z = z0 oder für alle z ∈ C konvergiert, so muss es einen Radius R > 0 geben, so dass die Potenzreihe im Kreisinneren KR (z0 ) konvergiert und im Kreisäußeren ∆R (z0 ) divergiert. } 6 6 6 Äußeres: Divergenz Rand: ? Inneres: Konvergenz Abbildung 2.20: Zum Konvergenzverhalten einer Potenzreihe. P∞ 1.4 Konvergenzradius. Konvergiert eine Potenzreihe k=0 ak (z − z0 )k nicht für alle z ∈ C, so nennen wir die Zahl ∞ ) ( X R := sup r ∈ R+ ak (z − z0 )k konvergiert für ein z ∈ C mit |z − z0 | = r 0 k=0 74 §4. POTENZREIHEN den Konvergenzradius dieser Potenzreihe. Konvergiert die Potenzreihe für alle z ∈ C, so setzen wir R := +∞. P∞ Hat eine Potenzreihe k=0 ak (z − z0 )k den Konvergenzradius R = 0, so konvergiert sie nur im Entwicklungspunkt z0 , gilt R = +∞, so konvergiert sie für alle z ∈ C, gilt dagegen R ∈ R+ , so konvergiert sie absolut für alle z ∈ C mit |z − z0 | < R und divergiert für alle z ∈ C mit |z − z0 | > R. Wegen der absoluten Konvergenz hängt der Konvergenzradius R eigentlich nicht von der Koeffzientenfolgen (ak )k selbst, sondern vielmehr nur von (|ak |)k ab. Für R 6= +∞ erhalten wir ∞ ( ) X + k R = sup r ∈ R0 |ak |r konvergiert . k=0 P∞ Über das Konvergenzverhalten von k=0 ak (z − z0 )k für ein z ∈ C mit |z − z0 | = R haben wir dabei bisher noch keine Aussage gewonnen. Dies ist im Allgemeinen auch nicht möglich. P∞ k 1.5 Anmerkung zum Entwicklungspunkt. Ist f (z) = k=0 ak (z − z0 ) eine Potenzreihe mit Entwicklungspunkt P∞ z0 , so können wir durch die Substitution w = z − z0 immer auf die Potenzreihe f (w + z0 ) = k=0 ak wk mit Entwicklungspunkt 0 übergehen. Darum formuliert man aus Bequemlichkeit Ergebnisse für Potenzreihen gerne mit Entwicklungspunkt 0. 1.6 Konvergenzverhalten auf dem Rand des Konvergenzkreises. Wir betrachten die Reihen ∞ X 1 k z , k2 k=1 ∞ X 1 k z , k ∞ X k=1 zk . k=1 P∞ Für |z| < 1 ist die geometrische Reihe k=1 |z|k für alle drei Reihen konvergente Majorante, für |z| > 1 bilden die Reihenglieder in keinem Fall eine Nullfolge. Also haben alle drei Potenzreihen den Konvergenzradius 1, d.h. den Einheitskreis als Konvergenzkreis. P∞ P∞ Die erste Potenzreihe k=1 z k /k 2 konvergiert in allen Randpunkten des Konvergenzkreises, da k=1 1/k 2 konvergente Majorante für alle z ∈ C mit |z| ≤ 1 ist. P∞ Die zweite Potenzreihe k=1 z k /k hat auf dem Rand ihres Konvergenzkreises sowohl Punkte, in denen sie divergiert (z.B. z = 1, dann liegt die harmonische Reihe vor), als auch Punkte, in denen sie konvergiert (z.B. z = −1, dann haben wir eine alternierende harmonische Reihe, und man kann zeigen, dass sie für alle z 6= 1 mit |z| = 1 konvergiert). P∞ Die dritte Potenzreihe k=1 z k konvergiert als geometrische Reihe nirgendwo auf dem Rand ihres Konvergenzkreises. ∞ X 1 k z k2 k=1 ∞ X 1 k z k k=1 ∞ X zk k=1 Abbildung 2.21: Zum Konvergenzverhalten von Potenzreihen auf dem Rand ihres Konvergenzkreises. Für eine Potenzreihe ist auf dem Rand ihres Konvergenzkreises keine allgemeine Aussage möglich. Es sind immer Individualbetrachtungen notwendig. 75 KAPITEL 2. ELEMENTARE FUNKTIONEN P∞ 1.7 Fehlerabschätzung. Hat die Potenzreihe f (z) = k=0 ak z k den Konvergenzradius R > 0, so gibt es zu jedem positiven r < R eine Konstante Mr ≥ 0 mit n X k für |z| ≤ r. ak z ≤ Mr |z|n+1 f (z) − k=0 Beweis. Für |z| ≤ r gilt ∞ ∞ ∞ n X X X X k k |ak ||z|k ≤ |z|n+1 |ak |rk−n−1 . ak z ≤ ak z = f (z) − k=n+1 k=n+1 k=n+1 k=0 | {z } =:Mr Achtung. Die scheinbar umständliche Formulierung „so gibt es zu jedem r < R eine Konstante Mr ≥ 0“ ist unumgänglich. Dies erkennt man am Beispiel der geometrischen Reihe. Wegen ∞ n z n+1 1 X X Gleichheit für z = r 1 1 k k = z = − |z|n+1 ≤ |z|n+1 z = 1 − z 1−z |1 − z| 1 − |z| k=0 k=n+1 muss mindestens Mr = 1/(1 − r) gesetzt werden und es gibt keine Konstante M ≥ 0, die eine obere Schranke der Form M |z|n+1 für alle z mit |z| < 1 liefert. P∞ 1.8∗ Identitätssatz für Potenzreihen. Ist f (z) = k=0 ak z k eine Potenzreihe mit positivem Konvergenzradius und gibt es eine Folge mit zk → 0, zk 6= 0 und f (zk ) = 0 für alle k, so gilt ak = 0 für alle k ∈ N0 , d.h. f = 0. Beweis∗ . Ist n der erste Index mit an 6= 0, so wählen wir irgend einen Radius r > 0 kleiner als den Konvergenzradius. Mit 1.7 erhalten wir |f (z) − an z n | ≤ M |z|n+1 für |z| ≤ r. Insbesondere folgt für die zk dann |an zk n | = |f (zk ) − an zk n | ≤ M |zk |n+1 , d.h. |an | ≤ M |zk | → 0 für k → ∞, da zk → für k → ∞. Also gilt an = 0 und wir haben einen Widerspruch. 1.9∗ Koeffizientenvergleich. Sind zwei Potenzreihen f (z) = ∞ X ak z k und k=0 g(z) = ∞ X bk z k k=0 mit positivem Konvergenzradien als Funktionen gleich, d.h. gilt f (z) = g(z) für alle z ∈ C wo beide Reihen konvergieren (oder gilt dies sogar nur für eine Nullfolge mit unendlich vielen verschiedenen Folgengliedern), so haben beide Reihen denselben Konvergenzradius und es gilt ak = bk für k ∈ N0 . Man lasse sich den Vergleich mit dem Analogon für Polynome §3.1.10 auf der Zunge zergehen: Ein Polynom vom Grad n ist dadurch eindeutig festgelegt, dass man seine Werte an n + 1 verschiedenen Stellen kennt, eine durch eine Potenzreihe definierte Funktion dadurch, dass man ihre Werte auf einer Nullfolge mit unendlich vielen verschiedenen Gliedern kennt. P∞ 1.10 Symmetrie. Durch Koeffizientenvergleich erhalten wir: Ist f (z) = k=0 ak z k eine Potenzreihe mit positivem Konvergenzradius und gerade (ungerade) so gilt ak = 0 für alle ungeraden (geraden) Indizes k. 2 Zusammensetzen von Potenzreihen 2.1 Worum geht es? Wir können gemäß §1.3.3 Funktionen durch Addieren, Multiplizieren, Kehrwertbilden und ähnliche Operationen zusammensetzen. Also sollten wir auch für eine Funktion, die sich aus Potenzreihen zusammensetzt, eine Potenzreihendarstellung erhalten. Im Alltag ist oft nur wichtig, die ersten Koeffizienten in der Potenzreihendarstellung der zusammengesetzten Funktion zu kennen. Wir geben zunächst drei Beispiele an, in denen wir jeweils eine geschickte 76 §4. POTENZREIHEN Darstellung der Funktion benutzen, um bekannte Entwicklungen einzusetzen. Anschließend stellen wir allgemeine Techniken vor. Im Rahmen der Differentialrechnung werden wir in 4.§3 Reihenentwicklungen durch Bilden höherer Ableitungen bekommen. Dieses Verfahren (genannt Taylor-Entwicklung) ist zwar schön rezepthaft, aber oftmals deutlich rechenaufwendiger als die hier vorgestellten Methoden. 2.2 Beispiele. (a) Entwicklung von f (x) = xe−x bei x = 1. Wir stellen f in der Form i 1h (x − 1)e−(x−1) + e−(x−1) f (x) = [(x − 1) + 1]e−(x−1)−1 = e dar und erhalten aus der Potenzreihe für die Exponentialfunktion und mit den Rechenregeln für konvergente Reihen ! ∞ ∞ X 1 X (−1)k 1 1 1 (−1)k k+1 k f (x) = (x−1) + (x−1) = − (x−1)2 + (x−1)3 + · · · für x ∈ C. e k! k! e 2e 3e k=0 k=0 (b) Entwicklung von g(ϕ) := sinϕnϕ , n ∈ N, bei ϕ = 0. Zunächst ist g im Punkt ϕ = 0 gar nicht definiert. Aus der Reihenentwicklung des Sinus bei 0 erhalten wir trotzdem ∞ sin nϕ X (−1)k n n3 2 = (nϕ)2k = n − ϕ + ··· ϕ (2k + 1)! 6 für ϕ ∈ C, ϕ 6= 0. k=0 Die Potenzreihe rechts konvergiert auch für ϕ = 0 und hat dort den Wert n. Wir sollten also g durch g(0) := n in den Punkt ϕ = 0 fortsetzen. (c) Entwicklung von h(z) = 1 z−a ∞ −1 1 1 = z−a a 1− Ähnlich geht man mit mit a 6= 0 bei z = 0. Mit der geometrischen Reihe gilt z a 1 (z−a)m 1 −1 X z k 1 1 = − − 2 z − 3 z2 − · · · = a a a a a für |z| < |a|. k=0 für m ≥ 1 mit Hilfe der Bionomialreihe B−m (z) vor (vgl. 1.§4.3.10): ∞ X (−1)m 1 (−1)m (−1)m m + k − 1 k 1 z = = B−m ( a ) = z (z − a)m am (1 − az )m am am+k m−1 k=0 Damit kann man eine beliebige rationale Funktion nach einer Partialbruchzerlegung um einen vorgegebenen Punkt entwickeln. P∞ P∞ 2.3 Summen von Potenzreihen. Sind λ, µ Zahlen und sind f (z) = k=0 ak z k und g(z) = k=0 bk z k zwei Potenzreihen, die beide für |z| < r konvergieren, so gilt (λf + µg)(z) = ∞ X (λak + µbk )z k k=0 = (λa0 + µb0 ) + (λa1 + µb1 )z + (λa2 + µb2 )z 2 + · · · für |z| < r. Das folgt sofort aus den Rechenregeln 1.§4.1.8 für konvergente Reihen. Der Konvergenzradius von λf +µg ist mindestens so groß wie der kleinere der Konvergenzradien von f und g. P∞ P∞ 2.4 Produkte von Potenzreihen. Sind f (z) = k=0 ak z k und g(z) = k=0 bk z k zwei Potenzreihen, die beide für |z| < r konvergieren, so gilt ! ∞ n X X (f g)(z) = ak bn−k z n n=0 = k=0 a0 b0 + (a1 b0 + a0 b1 )z + (a2 b0 + a1 b1 + a0 b2 )z 2 + · · · für |z| < r. 77 KAPITEL 2. ELEMENTARE FUNKTIONEN Das folgt dank der absoluten Konvergenz von Potenzreihen durch Bilden des Cauchy-Produkts 1.§4.3.8. Der Konvergenzradius von f g ist mindestens so groß wie der kleinere der Konvergenzradien von f und g. P∞ 2.5 Reziprokes einer Potenzreihe. Ist f (z) = k=0 ak z k eine Potenzreihe mit positivem Konvergenzradius und gilt f (0) = a0 6= 0, so gibt es einen Radius ρ > 0 mit 1 (z) f = ∞ X bk z k k=0 = −a1 a1 2 − a0 a2 2 1 + 2z+ z + ··· a0 a0 a0 3 für |z| < ρ und die Koeffizienten b0 , b1 , . . . berechnen sich rekursiv durch b0 := 1 , a0 bn := − n 1 X ak bn−k a0 für n ≥ 1. k=1 P∞ Beweis∗ . Ist ρ > 0 kleiner als der Konvergenzradius, so konvergiert k=0 |ak |ρk = |a0 | + |a1 |ρ + · · · . P∞ k Durch Verkleinern von ρ können wir k |ρ < |aP 0 | erreichen. Dann gilt dank der umgekehrten P∞ k=1 |a ∞ k Dreiecksungleichung |f (z)| = |a0 + k=1 ak z | ≥ |a0 | − k=1 |ak |ρk > 0, d.h. f (z) 6= 0 für |z| ≤ ρ. Mit der geometrischen Reihe folgt !n ∞ ∞ 1 1 X X −ak k 1 1 1 P∞ P = · z = −ak k = f (z) a0 1 − ∞ a0 n=0 a0 a0 + k=1 ak z k k=1 a0 z k=1 und wir können dank absoluter Konvergenz mit dem großen Umordnungssatz 1.§4.3.7 nach Potenzen von z ordnen. Also gilt ∞ X 1 bk z k für |z| < ρ (z) = f k=0 mit gewissen Koeffizienten bk . Wenn wir jetzt für diese Reihe das Cauchy-Produkt mit f (z) bilden, so erhalten wir für |z| < ρ die Identität ! ∞ n ∞ ∞ X X X X 1 k k ak bn−k z n . 1 = f (z) · = ak z bk z = f (z) n=0 k=0 k=0 k=0 Pn Mit einem Koeffizientenvergleich gemäß 1.9 erhalten wir dann 1P= b0 a0 und 0 = k=0 ak bn−k für n ≥ 1. n Das liefert wie behauptet die Rekursion b0 = 1/a0 und bn = − k=1 ak bn−k für n ≥ 1. 2.6 Andere Zusammensetzungen von Potenzreihen. Quotienten f /g von Potenzreihen bilden wir dank f /g = f · 1/g aus Produkten und Reziproken, Potenzen f n durch iterierte Produkte. P∞ 2.7 Entwickeln von Potenzreihen. Ist f (z) = k=0 ak z k eine Potenzreihe mit positivem Konvergenradius R, so kann f in jedem Punkt z0 ∈ C mit |z0 | =: r < R in eine Potenzreihe entwickelt werden mit ! ∞ ∞ X X k k−n f (z) = ak z0 (z − z0 )n n n=0 k=n = (a0 + a1 z0 + a2 z0 2 + · · · ) +(a1 + 2a2 z0 + 3a3 z0 2 + · · · )(z − z0 ) +(a2 + 3a3 z0 + 6a4 z0 2 + · · · )(z − z0 )2 + · · · für |z| < R − r. Das folgt mit einem Koeffizientenvergleich 1.9 aus dem großen Umordnungsatz 1.§4.3.7. Der Konvergenzradius der um z0 entwickelten Reihe kann auch größer als R − r sein. 78 §4. POTENZREIHEN 2.8∗ Bernoulli-Zahlen. Wir betrachten als Anwendungsbeispiel die durch ( z für z 6= 0 f (z) := ez − 1 1 für z = 0 auf C r {±2πi, ±4πi, . . .} definierte Funktion f . Nach 2.5 hat f in einer genügend kleinen Kreisscheibe um 0 eine Reihenentwicklung der Form f (z) = (1 + z + z2 2! z = 3 + z3! + · · · ) − 1 1+ ∞ z 2! X Bk 1 =: zk . 2 k! + z3! + · · · k=0 Die hierbei auftretenden Zahlen Bk (der Normierungsfaktor 1/k! hat Tradition) heißen Bernoulli-Zahlen. Gemäß 2.5 erfüllen sie die Rekursion B0 = 1, B1 B2 Bn−1 B0 + + + ··· + =0 n! 1!(n − 1)! 2!(n − 2)! (n − 1)!1! für n ≥ 2. Damit sind alle Bk rational. Insbesondere berechnen sich die ersten Bk nacheinander zu 1 B1 = − , 2 B2 = 1 , 6 B4 = − 1 , 30 B6 = 1 , 42 B8 = − 1 . 30 Da z z ez + 1 z z − B z = = coth 1 ez − 1 2 ez − 1 2 2 eine gerade Funktion ist, gilt Bk = 0 für alle ungeraden k > 1. Außerdem erhalten wir durch Ersetzen von z durch 2iz eine Potenzreihendarstellung für den Cotangens, sowie mit der Identität tan z = cot z − 2 cot 2z auch eine für den Tangens. 2.9 Reihendarstellungen für Tangens und Cotangens. Es gilt ∞ cot(z) = 4k 1 z z3 2z 5 1 X + (−1)k B2k z 2k−1 = − − − + ··· , z (2k)! z 3 45 945 k=1 tan(z) = ∞ X (−1)k−1 k=1 4k (4k − 1) z3 2z 5 B2k z 2k−1 = z + + + ··· (2k)! 3 15 für alle hinreichend kleinen z ∈ C. Für Interessierte: Man zeichne einige der ersten Partialsummen dieser Entwicklungen, stelle eine Vermutung auf, wo sie gegen den Tangens bzw. den Cotangens konvergieren und vergleiche mit den Definitionslücken dieser beiden Funktionen. 79 Kapitel 3 Vektorrechnung §1 1 Grundlegendes zur Vektorrechnung Skalare und vektorielle Größen 1.1 Skalare Größen. In den Naturwissenschaften werden Größen wie Zeit, Masse, Temperatur oder Widerstand durch eine Maßzahl und eine physikalische Einheit angegeben: 3.0s, 0.42kg, −38◦ C, 180 Ω. Solche Größen heißen skalar , die Einheiten lässt man in der mathematischen Beschreibung gerne weg. 1.2 Vektorielle Größen. Andere Größen in den Naturwissenschaften wie Kraft, Geschwindigkeit, Drehimpuls, elektrische Feldstärke sind durch eine Richtung und einen Betrag gegeben. Solche Größen nennen wir vektoriell oder gerichtet und stellen sie durch einen Pfeil dar, der durch seine Richtung und durch seine Länge Richtung und Betrag der betreffenden Größe angibt. Für vektorielle Größen sind zwei Operationen von grundlegender Bedeutung: das Vervielfachen und Addieren. Wir illustrieren dies am Beispiel der Kraft. Verdoppeln wir die Kraft F~ , so behält der Kraftpfeil seine Richtung, verdoppelt aber seine Länge. Wir schreiben dafür 2F~ . Greifen zwei Kräfte F~1 und F~2 in einem Punkt P an, so bewirken sie dasselbe wie eine einzige in P angreifende Gesamtkraft, welche wir mit F~1 + F~2 bezeichnen und durch die skizzierte Parallelogrammkonstruktion erhalten. Umgekehrt ist es oftmals nützlich, eine in einem Punkt angreifende Kraft in zwei oder mehrere Teilkräfte zu zerlegen. F~ 2F~ F~1 + F~2 F~1 F~2 Abbildung 3.1: Vervielfachen einer Kraft und Kräfteaddition nach der Parallelogrammregel. 2 Geometrie 2.1 Historische Entwicklung. Die Geometrie ist eine der ältesten Teildisziplinen der Mathematik. Schon Euklid von Alexandria gab ihr um 300 v. Chr. in seinen Elementen einen systematischen Aufbau. 80 §1. GRUNDLEGENDES ZUR VEKTORRECHNUNG Er erklärt zunächst „ein Punkt ist, was keine Teile hat, eine Linie ist breitenlose Länge“ und versucht anschließend aus fünf Grundpostulaten (Axiomen) über diese grundlegenden Objekte alle Lehrsätze der Geometrie abzuleiten. Eines dieser fünf Postulate ist das sogenannte Parallelenaxiom. Es verlangt, dass es zu einer Geraden g und einem Punkt P ∈ / g genau eine Parallele h zu g gibt, die durch P geht. Hieraus folgt der Satz über Wechselwinkel bei einer Doppelkreuzung mit parallelen Geraden und dann auch der Satz über die Winkelsumme im Dreieck. g h α β γ Q P α β Abbildung 3.2: Parallelenaxiom und Doppelkreuzung mit parallelen Geraden. Die Frage, ob das Parellelenaxiom nicht schon in den ersten vier enthalten ist, hat Mathematiker lange beschäftigt. Im 19. Jahrhundert gaben Gauß, Bolyai und Lobatschewski Beispiele für nichteuklidische Geometrien an, in denen die ersten vier Axiome gelten, das Parallelenaxiom aber verletzt ist. Derartige Geometrien sind durchaus von Nutzen, sie beschreiben die Verhältnisse auf der Erdkugel oder werden in der Relativitätstheorie eingesetzt. Euklids Elemente können als der erste gereifte Versuch eines deduktiven, axiomatischen Aufbaus einer Wissenschaft gelten. 1899 fand diese Grundlegung in Hilberts axiomatischer Begründung der Geometrie einen Abschluss. Er führte die Widerspruchsfreiheit des Axiomensystems der Geometrie auf die des Systems der reellen Zahlen, d.h. auf (A1)–(A9), zurück. 2.2 Vektorrechnung. Wir werden Geometrie hier nicht um ihrer selbst willen betreiben, sondern durch Einführung eines kartesischen Koordinatensystems geometrische Fragestellungen auf algebraische, d.h. auf das Rechnen mit Zahlen, zurückführen. Das leistet die Vektorrechung. Selbige erweist sich als ein nützlicher Kalkül für Anwendungen in Natur- und Ingenieurwissenschaften und wird durch das Wechselspiel von geometrischer Anschauung und effektiver Rechnung lebendig. Dass auch die Fragestellungen der Geometrie selbst z.B. in der Physik nützlich sind, zeigen die Entwicklungen in der allgemeinen Relativitätstheorie und der Stringtheorie in denen um ein tieferes Verständnis des „Raumes“ an sich gerungen wird. 2.3 Vorgehen in diesem Kapitel. In §2 werden wir das Wechselspiel zwischen Geometrie und Vektorrechung am Beispiel der ebenen Geometrie kennenlernen. Außerdem kommt es zu einem ersten Kontakt mit dem Matrizenkalkül. Ausgehend vom Beispiel in der Ebene entwicklen wir die zentralen Begriffe „Vektorraum“ und „euklidischer Vektorraum“ in §3. Dort stellen wir auch die grundlegenden Techniken der Vektorrechnung in allgemein nützlicher Form zusammen. Eine Ergänzung mit Spezialitäten im dreidimensionalen Raum in §4 rundet unseren Einstieg in die Vektorrechnung zunächst ab, eine ausführliche Vertiefung, insbesondere der Matrizenrechnung, erfolgt im Rahmen der linearen Algebra in Kapitel 5. 81 KAPITEL 3. VEKTORRECHNUNG §2 1 Vektorrechnung im R2 Die Ebene als Vektorraum 1.1 Kartesische Koordinatensysteme. Wir zeichnen in der Ebene einen Punkt O als Ursprung oder Nullpunkt aus, legen durch ihn zwei Koordinatenachsen und markieren auf selbigen Einheitspunkte E1 und E2 . Anschließend können wir jeden Punkt P der Ebene durch ein Zahlenpaar (x1 , x2 ) charakterisieren und müssen für den rechnerischen Gebrauch nicht mehr zwischen dem Punkt und seinem Koordinatenpaar unterscheiden: P = (x1 , x2 ). x2 P E2 0 E1 x1 Abbildung 3.3: Kartesische Koordinaten in der Ebene. Wir nennen (x1 , x2 ) die kartesischen Koordinaten von P und schreiben selbige wenn möglich in der Form x1 x2 . Diese Darstellung ist für eine konsequente Anwendung des Matrizenkalküls geeigneter. Da die erste Darstellung platzsparender ist, werden wir sie meistens im Fließtext verwenden. 1.2 Koordinatenvektoren. Wir wählen ein Koordinatensystem in der Ebene und halten es für die weiteren Betrachtungen fest. Ist ~x ein Vektor, so können wir selbigen im Ursprung O angreifen lassen und ~ . Wir können also ~x nach Wahl eines Koordinatensystems erhalten einen Punkt P = (x1 , x2 ) mit ~x = OP durch xx12 beschreiben und nennen xx12 darum Koordinatenvektor oder Ortsvektor . Die Zahlen x1 und x2 heißen Komponenten des Koordinatenvektors xx12 . Da wir das Koordinatensystem fest gewählt haben, können wir den Vektor ~x mit seinem Koordinatenvektor gleichsetzen: x1 ~ ~x = OP = . x2 Es sind auch Bezeichnungen der Art x oder x üblich. Später — wenn wir genug Routine haben und keine Angst für eine Verwechslung von Vektoren und anderen Größen besteht — werden wir einfach x schreiben. 1.3 Gleichheit von Vektoren. Zwei Vektoren xx12 und yy12 heißen gleich und wir schreiben x1 x2 = y1 , y2 wenn x1 = y1 und x2 = y2 , d.h. wenn die beiden Ortsvektoren denselben Punkt bezeichnen. 1.4 Nullvektor, Einheitsvektoren. Der Ursprung hat als Koordinatenvektor den Nullvektor ~ = 0 . ~0 := OO 0 Die beiden zu den Einheitspunkten gehörigen Vektoren 1 0 ~ ~ ~e1 := OE 1 = , ~e2 := OE 2 = 0 1 nennen wir ersten bzw. zweiten Standardeinheitsvektor oder Einheitsvektoren. 1.5 Rechnen mit Vektoren. Sind zwei Koordinatenvektoren x1 y1 ~x = und ~y = x2 y2 §2. VEKTORRECHNUNG IM R2 82 gegeben, so erhalten wir mit dem Strahlensatz den um den Faktor λ ∈ R gestreckten Vektor zu λx1 λ~x = λx2 und mit der Parallelogrammkonstruktion den Summenvektor zu x1 + y1 ~x + ~y = . x2 + y2 x2 + y2 λx2 y2 λ~x ~x + ~y ~x x2 x2 ~x ~y x1 λx1 x1 y1 x1 + y1 Abbildung 3.4: Vervielfachen eines Vektors, Addieren zweier Vektoren. Damit haben wir für Koordinatenvektoren zwei Rechenoperationen eingeführt. x1 • Die Skalarmultiplikation oder Multiplikation von Skalaren mit Vektoren λ · x2 x1 y1 x1 + y1 • die Vektoraddition oder Addition von Vektoren + := . x2 y2 x2 + y2 λx1 := und λx2 Üblicherweise unterdrückt man bei der Skalarmultiplikation den Malpunkt. Achtung. Auch wenn wir (aus Tradition) für die Vektoraddition und die Skalarmultiplikation dieselben Symbole wie für die Addition und Multiplikation im Körper R (bzw. C) verwenden, so sind diese Operationen doch anderer Natur. Dies erkennt man schon daran, für welche Objekte sie definiert sind (nämlich für zwei Koordinatenvektoren bzw. für eine reelle Zahl und einen Koordinatenvektor und nicht für zwei reelle oder komplexe Zahlen) und welche Objekte dabei entstehen (nämlich jeweils ein Koordinatenvektor und nicht eine reelle oder komplexe Zahl). 1.6 Der R2 als Vektorraum. Die Menge R2 := x1 | x1 , x2 ∈ R x2 der zweikomponentigen Koordinatenvektoren zusammen mit der Vektoraddition und der Skalarmultiplikation nennen wir den Vektorraum R2 . 1.7 Standardbasis. Die beiden Einheitsvektoren ~e1 und ~e2 bilden die Standardbasis (~e1 , e~2 ) des R2 , da jeder Vektor im R2 mittels x1 1 0 = x1 + x2 , d.h. ~x = x1~e1 + x2~e2 , x2 0 1 in eindeutiger Form dargestellt werden kann. 83 KAPITEL 3. VEKTORRECHNUNG 1.8 Rechengesetze. Im Vektorraum R2 gelten die folgenden Rechengesetze, die man leicht selbst verifiziert. x1 y1 y1 x1 (a) + = + , d.h. ~x + ~y = ~y + ~x, x2 y2 y2 x2 x1 y1 z1 x1 y1 z1 (b) + + = + + , d.h. (~x + ~y ) + ~z = ~x + (~y + ~z), x2 y2 z2 x2 y2 z2 x1 0 x1 (c) + = , d.h. ~x + ~0 = ~x, x2 0 x2 x1 −x1 0 1 (d) + = , d.h. ~x − ~x = ~0, wobei wir mit −~x den Vektor −x bezeichnen und statt −x 2 x2 −x2 0 ~x + (−~x) einfach ~x − ~x schreiben, x1 y1 x1 y1 (e) λ + =λ +λ , d.h. λ(~x + ~y ) = λ~x + λ~y , x2 y2 x2 y2 x1 x1 (f) λ µ = (λµ) , d.h. λ(µ~x) = (λµ)~x, x2 x2 x1 x1 (g) 1 · = , d.h. 1 · ~x = ~x. x2 x2 Z 1.9 Ortsvektoren, Vektoraddition und AnY tragen von Vektoren. Wenn wir die zu zwei ~ = ~x Punkten X und Y gehörigen Ortsvektoren OX ~ = ~y addieren, so stellen wir uns den Ortsund OY ~y vektor ~x + ~y als Punkt Z in der Ebene vor, den ~x + ~y X wir durch Antragen des Vektors ~y an den Punkt X ~ erhalten. Dabei haben wir den Ortsvektor ~y = OY ~x ~ identifiziert. Diesen Umstand mit dem Vektor XZ O nehmen wir momentan kommentarlos hin, werden Abbildung 3.5: Antragen von Vektoren. das Thema aber in §3 wieder aufgreifen. 2 Geraden und Strecken 2.1 Parametrisierung einer Geraden. Sind A und B zwei verschiedene Punkte mit Ortsvektoren ~a und ~b, so sind die Punkte der Geraden g = AB durch A und B durch die Ortsvektoren ~a + λ(~b − ~a) mit λ ∈ R gegeben. Wir nennen ~v := ~b − ~a Richtungsvektor und die Darstellung g = AB = {~a + λ(~b − ~a) | λ ∈ R} eine Parameterdarstellung oder Parametrisierung der Geraden g durch die Punkte A und B. −1 A 0 ~a ~v 1 B 2 ~b O g Abbildung 3.6: Parametrisierung einer Geraden. Offensichtlich besitzt eine Gerade mehrere Parameterdarstellungen — wir hätten ja auf g auch ein anderes Punktepaar wählen und obiges Vorgehen wiederholen können. Man überlege sich selbst, dass verschiedene Parametrisierungen einer Geraden auf die folgende Weise identifiziert werden können. 2.2 Verschiedene Parametrisierungen derselben Geraden. Zwei Parametrisierungen λ 7→ ~a + λ~v und µ 7→ ~b + µw ~ mit Richtungsvektoren ~v , w ~ 6= ~0 beschreiben genau dann ein und dieselbe Gerade, wenn ~ es Zahlen α, β ∈ R, β 6= 0, gibt mit b = ~a + α~v und w ~ = β~v . §2. VEKTORRECHNUNG IM R2 84 2.3 Verbindungsstrecke zweier Punkte. Wenn wir zu der in 2.1 genannten Parametrisierung der Geraden durch A und B den Parameter λ nur in [0, 1] laufen lassen, so erhalten wir die Verbindungsstrecke von A und B. Bezeichnen wir selbige mit [AB] so gilt [AB] = {~a + λ(~b − ~a) | λ ∈ [0, 1]} = {λ~a + (1 − λ)~b | λ ∈ [0, 1]} = {λ~a + µ~b | λ, µ ∈ R+ 0 , λ + µ = 1}. 2.4 Mittelpunkt. Den Mittelpunkt der Strecke [AB] erhalten wir zu 1 (~a + ~b). 2 Sind allgemein n Punkte A1 , . . . , An mit Ortsvektoren ~a1 , . . . , ~an gegeben, so nennen wir 1 (~a1 + · · · + ~an ) n ihren Mittelpunkt. 2.5 Schnitt zweier Geraden. Von unserer geometrischen Anschauung her ist klar, dass zwei Geraden g = {~a + λ~v | λ ∈ R} h = {~b + µw ~ | µ ∈ R} und dann und nur dann genau einen gemeinsamen Punkt besitzen, wenn der Richtungsvektor ~v von g kein Vielfaches des Richtungsvektors w ~ von h ist. Ist dagegen ~v ein Vielfaches von w, ~ so nennen wir g und h parallel und haben zwei Fälle zu unterscheiden, je nachdem ob g und h identisch sind (dann haben sie alle ihre Punkte gemeinsam) oder nicht (dann haben sie keinen Punkt gemeinsam). Rechnerisch läuft das auf die Betrachtung des Lösungsverhaltens von ~a + λ~v = ~b + µw ~ in Abhängigkeit von den Parametern λ und µ d.h. auf das Lösungsverhalten des linearen Gleichungssystems v1 λ − w1 µ = b1 − a1 v2 λ − w2 µ = b2 − a2 hinaus. Dabei sind die Zahlen a1 , a2 , b1 , b2 , v1 , v2 , w1 , w2 gegeben und die Variablen λ und µ werden gesucht. Solche Gleichungssysteme wollen wir jetzt kurz diskutieren. 2.6 Lineare (2 × 2)-Gleichungssysteme. Für gegebene reelle Zahlen a11 , a12 , a21 , a22 , b1 , b2 hat das lineare Gleichunggssystem a11 x1 + a12 x2 = b1 a21 x1 + a22 x2 = b2 genau dann eine eindeutig bestimmte Lösung (x1 , x2 ), wenn D := a11 a22 − a12 a21 6= 0 in diesem Fall gilt für die Lösung a22 b1 − a12 b2 , D Für D = 0 besitzt das Gleichungssystem x1 = x2 = a11 b2 − a21 b1 . D • alle (x1 , x2 ) ∈ R2 als Lösung, falls a11 = a12 = a21 = a22 = b1 = b2 = 0, 12 1 • alle Lösungen auf der Geraden {(− aa11 x2 + ab11 , x2 ) | x2 ∈ R}, falls a11 6= 0 und a21 b1 = a11 b2 , bzw. analoges Lösungsverhalten in den drei Fällen, die man durch Vertauschen der Gleichungen bzw. der Variablen erhält, • andernfalls keine Lösung. Den recht undramatischen Beweis führt man durch ordentliches Nachrechnen. Die Aussage bleibt übrigens erhalten, wenn man überall R durch C ersetzt. 85 KAPITEL 3. VEKTORRECHNUNG 3 Matrizenkalkül für (2 × 2)-Matrizen, Gruppen 3.1 Matrizen, Produkt von Matrix und Vektor. Effizient können wir das Lösungsverhalten von a12 linearen (2 × 2)-Gleichungssystemen formulieren, wenn wir die beiden Vektoren aa11 und zu einem a22 21 (2 × 2)-Schema a11 a12 A := , a21 a22 genannt Matrix (genauer (2 × 2)-Matrix), zusammenfassen und das Produkt einer Matrix mit einem Vektor einer Matrix A mit einem Vektor ~x erklären als x1 a11 x1 + a12 x2 a11 a12 A~x = := . a21 a22 x2 a21 x1 + a22 x2 Dann können wir das Gleichungssystem knapp in der Form A~x = ~b schreiben. 3.2 Determinante, inverse Matrix. Nennen wir a11 a12 := a11 a22 − a12 a21 det(A) = |A| = a21 a22 die Determinante, so können wir die im Fall det(A) 6= 0 eindeutig bestimmte Lösung von A~x = ~b in der Form 1 a22 −a12 −1~ −1 , d.h. mit A := ~x = A b, det(A) −a21 a11 x1 b1 1 a22 −a12 = , a11 a22 − a12 a21 −a21 a11 x2 b2 schreiben, wobei die soeben für det(A) 6= 0 definierte Matrix A−1 die zu A inverse Matrix genannt wird. 3.3 Produkt von Matrizen. Erweitern wir unsere Definition des Produkts einer Matrix mit einem Vektor auf das Produkt zweier Matrizen A und B a11 a12 b11 b12 A · B = AB = a21 a22 b21 b22 b11 b12 a11 b11 + a12 b21 a11 b12 + a12 b22 =: A ,A = , a21 b11 + a22 b21 a21 b12 + a22 b22 b21 b22 indem wir selbiges dadurch definieren, dass wir die beiden Spaltenvektoren bb11 und bb21 der zweiten 21 22 Matrix an die erste Matrix multiplizieren, um die beiden Spalten b11 a11 b11 + a12 b21 b12 a11 b12 + a12 b22 A = und A = b21 a21 b11 + a22 b21 b22 a21 b12 + a22 b22 der Produktmatrix AB zu erhalten. Durch Nachrechnen verifiziert man insbesondere 1 0 −1 −1 AA = A A = =: E. 0 1 Wir nennen E die Einheitsmatrix (genauer (2 × 2)-Einheitsmatrix). Achtung. Die Formeln zum Multiplizieren einer Matrix mit einem Vektor und zum Multiplizieren muss man auswendig lernen, insbesondere den Satz „Die Spalten der Produktmatrix AB erhält man, indem man die Spalten von B an die Matrix A multipliziert.“ §2. VEKTORRECHNUNG IM R2 86 Das Beispiel A= 1 2 0 , 3 B= 1 1 1 , 1 1 AB = 5 1 , 5 3 BA = 3 3 3 zeigt, dass es beim Matrizenprodukt auf die Reihenfolge ankommt. Übrigens gilt det(B) = 0, d.h. B ist nicht invertierbar. Wie steht es mit A, AB und BA? Wie lautet gegebenenfalls die inverse Matrix? 3.4∗ Definition: Gruppe. Für die Menge R2×2 der invertierbaren (2 × 2)-Matrizen mit reellen Komponenten zusammen mit der Matrizenmultiplikation „·“ als Operation gilt (G1) Assoziativgesetz : für alle A, B, C gilt (A · B) · C = A · (B · C), (G2) neutrales Element: es gibt ein E mit A · E = E · A = A für alle A, (G3) inverse Elemente: zu jedem A gibt es ein A−1 mit A · A−1 = A−1 · A = E. Allgemein nennen wir eine Menge M zusammen mit einer Operation „·“, welche zwei Elementen A, B ∈ M ein wohlbestimmtes Element A · B ∈ M zuordnet, eine Gruppe, wenn (G1)–(G3) erfüllt sind. Gilt zusätzlich (G4) Kommutativgesetz : für alle A, B gilt A · B = B · A, so heißt die Gruppe M abelsch oder kommutativ . Ist eine nichtleere Teilmenge N ⊆ M nennen wir Untergruppe von M , wenn N mit der von M geerbten Operation „·“ selbst eine Gruppe ist. Dies kann man dadurch nachweisen, dass man E ∈ N nachweist und zeigt, dass aus A, B ∈ N auch A · B −1 ∈ N folgt. 3.5∗ Beispiele für Gruppen. (a) Die invertierbaren (2 × 2)-Matrizen bilden bezüglich der Matrizenmultiplikation eine Gruppe. Diese Gruppe ist nicht abelsch. Sie wird mit GL(2) bezeichnet. Manchmal unterscheidet man auch, ob die Matrizen reelle oder komplexe Einträge besitzen dürfen und schreibt dann GL(2, R) bzw. GL(2, C). (b) Die ganzen Zahlen bilden zusammen mit der Addition „+“ eine abelsche Gruppe, ebenso Q, R und C. Damit sind Z ⊂ Q ⊂ R Untergruppen der additiven Gruppe C. (c) Die positiven rationalen Zahlen bilden zusammen mit der Multiplikation „·“ eine abelsche Gruppe, ebenso R+ , R r {0} und C r {0}. Daher sind Q+ ⊂ R+ ⊂ R r {0} Untergruppen der multiplikativen Gruppe C r {0}. (d) Die Vektoren im R2 bilden zusammen mit der Vektoraddition eine abelsche Gruppe. 4 Abstand, Länge, Winkel 4.1 Vorbemerkung. Wir haben schon eine ganze Menge Nutzbringendes über Vektorrechung im R2 gelernt. Einen ganz wichtigen Aspekt haben wir dabei aber noch gar nicht berührt: Die Messung von Längen und Winkeln. 4.2 Norm und Länge. Für einen Vektor ~x im R2 nennen wir p k~xk := x1 2 + x2 2 die Norm oder Länge von ~x. Ein Vektor ~x mit k~xk = 1 heißt normiert. Wenn wir daran denken, dass wir den R2 schon als Gaußsche Zahlenebene kennen, ist das nichts anderes als ein neuer Name für den Betrag einer komplexen Zahl mit Realteil x1 und Imaginärteil x2 . Die Norm eines Vektors gibt also dessen Abstand vom Ursprung an. 87 KAPITEL 3. VEKTORRECHNUNG 4.3 Abstand und Dreiecksungleichung. Für zwei Vektoren ~x und ~y im R2 heißt p k~x − ~y k = (x1 − y1 )2 + (x2 − y2 )2 C ~x der Abstand von ~x und ~y . ~y Wie in der Gaußschen Zahlenebene erhalten wir die Dreiecksungleichung ~x + ~y A k~x + ~y k ≤ k~xk + k~y k B und haben als geometrische Interpretation: der Weg von A nach B wird nicht kürzer, wenn man über C geht. Abbildung 3.7: Dreiecksungleichung im R2 . 4.4 Orientierter Winkel. Für zwei Vektoren ~x 6= ~0 und ~y 6= ~0 im R2 bilden wir die zugehörigen komplexen Zahlen z = x1 + ix2 und w = y1 + iy2 . Dann gilt in Polarkoordinaten z = reiϕ , w = ρeiψ mit Radien r, ρ > 0 und Argumenten ϕ, ψ ∈ [0, 2π[. Wir nennen ~y ](~x, ~y ) := ψ − ϕ ψ ψ−ϕ den (orientierten) Winkel zwischen ~x und ~y . Er ist eindeutig bis auf ein ganzzahliges Vielfaches von 2π. Eine kurze Rechnung unter Verwendung der Polarkoordinatendarstellungen (x1 , x2 ) = (r cos ϕ, r sin ϕ) und (y1 , y2 ) = (ρ cos ψ, ρ sin ψ) zeigt ~x ϕ 0 Abbildung 3.8: Orientierter Winkel zwischen zwei Vektoren im R2 . x1 y1 + x2 y2 = rρ(cos ϕ cos ψ + sin ϕ sin ψ) = k~xkk~y k cos(ψ − ϕ). Wir erhalten also den Cosinus des Winkels ](~x, ~y ) = ψ − ϕ zwischen ~x und ~y in der Form x1 y1 + x2 y2 cos(](~x, ~y )) = . k~xk · k~y k 4.5 Skalarprodukt. Für zwei Vektoren ~x und ~y im R2 heißt die reelle Zahl h~x|~y i := x1 y1 + x2 y2 das Skalarprodukt von ~x und ~y . Manchmal wird dies auch Innenprodukt genannt. Man mache sich klar, welche Unterschiede zwischen der Skalarmultiplikation und dem Skalarprodukt bestehen! Die ersten drei der folgenden Rechenregeln für das Skalarprodukt sind unmittelbar einsichtig. (a) Linearität: h~x + ~y |~zi = h~x|~zi + h~y |~zi, (b) Symmetrie: h~x|~y i = h~y |~xi, (c) positive Definitheit: h~x|~xi = k~xk2 ≥ 0 mit Gleichheit genau dann, wenn ~x = ~0, (d) Cauchy-Schwarzsche Ungleichung: |h~x|~y i| ≤ k~xkk~y k. 4.6 Cosinussatz. Zum Beweis der Regel (d) bemerken wir, dass für ~x, ~y 6= ~0 gemäß 4.4 gerade cos ](~x, ~y ) = h~x|~y i k~xkk~y k der Cosinus des Winkels zwischen ~x und ~y ist, d.h. eine Zahl im Intervall [−1, 1]. Ist ~x oder ~y der Nullvektor, so gilt die Cauchy-Schwarzsche Ungleichung trivialerweise, da beide Seiten verschwinden. §2. VEKTORRECHNUNG IM R2 88 Mit obiger Darstellung des Winkels zwischen ~x und ~y haben wir auch den Cosinussatz im allgemeinen Dreieck k~x − ~y k2 = k~xk2 + k~y k2 − 2k~xkk~y k cos ](~x, ~y ) ~y ~x − ~y bewiesen. Es gilt nämlich k~x − ~y k2 (c) = (a) = (b),(c) = ](~x, ~y ) h~x − ~y |~x − ~y i h~x|~xi − h~x|~y i − h~y |~xi + h~y |~y i ~x k~xk2 − 2h~x|~y i + k~y k2 Abbildung 3.9: Cosinussatz. und wir können 2h~x|~y i wie zuvor diskutiert durch 2k~xkk~y k cos ](~x, ~y ) ersetzen. 4.7 Der R2 als euklidischer Vektorraum. Der Vektorraum R2 zusammen mit dem Skalarprodukt wird euklidischer Vektorraum R2 genannt. Erst das Zusammenspiel von Vektoraddition, Skalarmultiplikation und Skalarprodukt (welches, wie wir gesehen haben, sowohl Längen- als auch Winkelmessung erlaubt) stellt sicher, dass wir uns im R2 in der gewohnten Weise geometrisch betätigen können. 5 Orthogonalität 5.1 Orthogonalität. Zwei Vektoren ~x und ~y im R2 mit h~x|~y i = 0 heißen orthogonal oder senkrecht. Wir schreiben dann ~x ⊥ ~y . Sind zwei Vektoren orthogonal, so ist entweder einer der beiden Vektoren der Nullvektor oder sie schließen einen Winkel ±π/2 miteinander ein. Die Tatsache, dass der Nullvektor orthogonal zu jedem Vektor ist, sollte einfach als nützliche Vereinbarung gesehen werden. 5.2 Normalenvektor. Zu einem Vektor ~x = xx12 6= ~0 nennen wir 1 −x2 −x2 1 ~n := =√ 2 k~xk x1 x1 + x2 2 x1 den Normalenvektor zu ~x. Es gilt k~nk = 1 und h~x|~ni = 0, d.h. der Normalenvektor zu ~x ist normiert und steht senkrecht auf ~x. Mit ~n steht auch jeder Vektor λ~n, λ ∈ R auf ~x senkrecht, insbesondere auch −~n. 5.3 Normalenform einer Geraden. Für einen Vektor ~n 6= ~0 und eine Zahl c ∈ R heißt die Darstellung g = = {~x ∈ R2 | h~x|~ni = c} x1 2 ∈ R | n1 x1 + n2 x2 = c x2 ~n ~a g eine Normalendarstellung der Geraden g. Als Beweis dafür, dass so eine Gerade dargestellt werden kann, geben wir die Umrechnungen von Normalenform in Parameterdarstellung und umgekehrt an. ~v Abbildung 3.10: Normalenform und Parameterdarstellung einer Geraden. Zur Umrechnung von einer Parameterdarstellung λ 7→ ~a + λ~v von g in eine Normalenform bilden wir den Normalenvektor ~n zum Richtungsvektor ~v und erhalten wegen h~v |~ni = 0 dann h~a + λ~v |~ni = h~a|~ni + λh~v |~ni = h~a|~ni =: c unabhängig von λ. Dies liefert uns die Normalenform h~x|~ni = c. 89 KAPITEL 3. VEKTORRECHNUNG Liegt umgekehrt für g eine Normalendarstellung h~x|~ni = c vor, so bilden wir den Normalenvektor zu ~n um einen Richtungsvektor ~v für eine Parameterdarstellung von g zu erhalten und finden einen Punkt ~a auf g, indem wir beispielsweise (a1 , a2 ) = (c/n1 , 0) für n1 6= 0 bzw. (a1 , a2 ) = (0, c/n2 ) für n2 6= 0 setzen. 5.4 Orthogonale Projektion. Zu einer Ursprungsgeraden g mit Parametrisierung λ 7→ λ~v mit k~v k = 1 und einem Punkt ~a ∈ / g ist der Punkt ~u ∈ g mit kleinstem Abstand zu ~a gegeben durch λ = h~a|~v i, d.h. g ~a ~u ~u = h~a|~v i~v , und ~u − ~a ist orthogonal zu ~v . Wir nennen ~u den Lotfußpunkt oder die orthogonale Projektion von ~a auf g. 0 ~v Abbildung 3.11: Lotfußpunkt (orthogonale Projektion). Beweis. Um den Abstand k~a − λ~v k von Punkten λ~v ∈ g zu ~a zu minimieren, betrachten wir (unter Verwendung der Rechenregeln für das Skalarprodukt und mit einer quadratischen Ergänzung) k~a − λ~v k2 = h~a − λ~v |~a − λ~v i = h~a|~ai − λh~v |~ai − λh~a|~v i + λ2 h~v |~v i = k~ak2 − 2λh~a|~v i + λ2 = k~ak2 − h~a|~v i2 + (h~a|~v i − λ)2 . Da k~v k2 − h~a|~v i2 von λ unabhängig ist, wird k~a − λ~v k2 und damit k~a − λ~v k nach obiger Darstellung genau für h~a|~v i − λ = 0 minimal. Für ~u := h~a|~v i~v folgt mit h~v |~v i = 1 dann h~u − ~a|~v i = hh~a|~v i~v − ~a|~v i = h~a|~v ih~v |~v i − h~a|~v i = 0. 6 Längen- und winkelerhaltende Abbildungen 6.1 Ebene Drehmatrizen. Für ϕ ∈ R nennen wir cos ϕ − sin ϕ Uϕ := sin ϕ cos ϕ eine (ebene) Drehmatrix . Man verifiziere die folgenden Formeln durch Nachrechnen der Matrizenprodukte. (a) U0 = E, (b) Uϕ Uψ = Uϕ+ψ = Uψ Uϕ , d.h. insbesondere Uϕ U−ϕ = E = U−ϕ Uϕ und damit Uϕ −1 = U−ϕ . Die ebenen Drehmatrizen bilden bezüglich der Matrizenmultiplikation eine abelsche Gruppe. Diese Gruppe nennen wir spezielle orthogonale Gruppe der Ordnung 2 und bezeichnen sie mit SO(2). Die SO(2) ist eine abelsche Untergruppe der nichtabelschen Gruppe GL(2). 6.2 Drehung. Für ϕ ∈ R nennen wir die Abbildung x1 x1 cos ϕ − sin ϕ x1 cos ϕ − x2 sin ϕ 2 2 Dϕ : R → R , Dϕ (x1 , x2 ) := Uϕ = = , sin ϕ cos ϕ x1 sin ϕ + x2 cos ϕ x2 x2 eine (orientierte) Drehung um den Winkel ϕ. Schreiben wir ~x = xx12 als komplexe Zahl z = x1 + ix2 , so entpuppen sich die eben angegebenen Koordinaten von Dϕ (x1 , x2 ) als Real- bzw. Imaginärteil von eiϕ z. Die Abbildung Dϕ bewirkt also tatsächlich eine Drehung mit dem Ursprung als Drehzentrum um den Winkel ϕ im mathematisch positiven Sinn. Man verifziere die folgende Aussage selbständig: Die Drehungen in der Ebene bilden bezüglich der Hintereinanderausführung von Abbildungen eine abelsche Gruppe. 90 §2. VEKTORRECHNUNG IM R2 6.3 Verschiebung. Für ~a ∈ R2 nennen wir die Abbildung x1 a1 x1 + a 1 T~a : R2 → R2 , T~a (x1 , x2 ) = + = , x2 a2 x2 + a2 eine Translation oder Verschiebung um den Vektor ~a. Die folgenden Aussagen über Translationen sind offensichtlich. (c) Die Translation um den Nullvektor bewegt nichts, wirkt also wie die identische Abbildung: T~0 = idR2 . (d) Die Hintereinanderausführung zweier Translationen um ~a und ~b wirkt wie eine um ~a +~b: T~b ◦T~a = T~a+~b , insbesondere wird eine Translation um ~a durch eine um −~a aufgehoben T~a ◦ T−~a = T~a−~a = idR2 und damit T~a−1 = T−~a . Die Translationen bilden bezüglich der Hintereinanderausführung von Abbildungen eine abelsche Gruppe. 6.4 Längen- und winkelerhaltende Abbildungen. Eine Abbildung f : R2 → R2 erhält genau dann Längen und Winkel, wenn h~x|~y i = hf (~x)|f (~y )i für alle ~x, ~y ∈ R2 . Für die Wahl ~x = ~y folgt dann nämlich k~xk2 = h~x|~xi = hf (~x)|f (~x)i = kf (~x)k2 und f ist längenerhaltend. Ähnlich zeigt man cos ](~x, ~y ) = cos ](f (~x), f (~y )) mit 4.6, d.h. Winkel bleiben auch erhalten. Insbesondere sind Drehungen in der Ebene längen-, abstands- und winkelerhaltend. Verschiebungen in der Ebene erhalten Abstände und Winkel, i.A. nicht aber Längen. Abstands- und winkelerhaltende Abbildungen werden auch euklidische Bewegungen oder Kongruenzabbildungen genannt. In der Mechanik beschreiben sie beispielsweise die Bewegung eines starren Körpers. Man kann zeigen, das jede Kongruenzabbildung der Ebene als Hintereinderausführung von endlich vielen Drehungen, Verschiebungen und Spiegelungen geschrieben werden kann. Spiegelungen wollen wir hier nicht behandeln, da sie im Gegensatz zu Verschiebungen und Drehungen die Orientierung von Winkeln verändern. Die euklidischen Bewegungen in der Ebene bilden bezüglich der Hintereinanderausführung eine Gruppe (man überlege sich selbst, warum). Die Drehungen und Translationen sind Untergruppen dieser Gruppe. 6.5 Koordinatenwechsel. Bisher haben wir bei unseren Betrachtungen ein kartesisches Koordinatensystem in der Ebene fest fixiert. Diese Festlegung hatte uns die Identifizierung von Punkten in der Ebene mit Koordinatenvektoren erlaubt. Nun wollen wir ein zweites Koordinatensystem hinzunehmen und untersuchen, wie sich die Koordinatendarstellung eines Punktes beim Übergang vom ursprünglichen zum neuen Koordinatensystem verändert. Um in neuen und alten Koordinaten dieselbe Längen- und Winkelmessung zu haben, benutzen wir eine euklidische Bewegung, um die Koordinatensysteme ineinander überzuführen. Dabei müssen wir die bisher gemachte Identifizierung von Punkten und Koordinatenvektoren aufheben und jeweils angeben, bezüglich welches Koordinatensystems wir die Koordinaten eines Punktes angeben. Wird das Koordinatensystem um ~a verschoben bzw. um ϕ um den Ursprung gedreht, so wirkt sich das für die Koordinaten eines Punktes P wie eine Verschiebung um −~a bzw. eine Drehung um den Ursprung um −ϕ aus. Ist nämlich f eine euklidische Bewegung (z.B. eine Translation oder eine Drehung), die das alte Koordinatensystem in das neue überführt, so können wir zunächst diese Bewegung als eine Bewegung der kompletten Ebene auffassen, müssen aber anschließend die Punkte wieder mit der zu f inversen Bewegung zurückbewegen, da wir nur das Koordinatensystem, nicht aber die Punkte geändert haben. Die erste Operation ändert zwar die Vektoren, aber nicht ihre Koordinaten. Die zweite dagegen ändert die Koordinaten, bewegt die Vektoren aber wieder in ihren ursprünglichen Zustand zurück, so dass sich letztlich nichts ändert. 91 KAPITEL 3. VEKTORRECHNUNG x02 = x2 − a2 x2 x2 x01 = cos(ϕ)x1 + sin(ϕ)x2 x01 = x1 − a1 ~a x02 = − sin(ϕ)x1 + cos(ϕ)x2 ϕ x1 x1 x1 0 x2 0 = x1 − a1 x2 − a2 = x1 x2 P P − a1 a2 x1 0 x2 0 = cos(ϕ)x1 + sin(ϕ)x2 − sin(ϕ)x1 + cos(ϕ)x2 = D−ϕ x1 x2 Abbildung 3.12: Koordinatenumrechung bei einer Verschiebung des Koordinatensystems um ~a bzw. bei einer Drehung um ϕ um den Ursprung. §3 1 Vektorrechnung im Rn Vektorräume und euklidische Vektorräume 1.1 Vorbemerkung. Im vorangegangenen Paragraphen haben wir in der Ebene ein Koordinatensystem fixiert und anschließend mit Hilfe von Koordinatenvektoren geometrische Probleme behandelt. Bei vielen Fragestellungen in den Anwendungen möchte man aber das Koordinatensystem wechseln und dem Problem anpassen. Man denke an Schwerpunktkoordinaten in der Mechanik oder Hauptträgheitsachsen beim Kreisel. Dann wird aber die Frage nach dem Transformationsverhalten beim Wechsel des Koordinatensystems interessant. Diese Problematik haben wir schon in §2.6.5 kennengelernt. Wir müssen also unterscheiden zwischen den geometrischen und physikalischen Objekten einerseits und deren verschiedenen Koordinatendarstellungen andererseits. Dies erfordert eine koordinatenfreie Darstellung der Theorie, welche wir jetzt zur Verfügung stellen. Wir nehmen die grundlegenden Rechenregeln §2.1.8 für Koordinatenvektoren im R2 , um allgemein zu erklären was ein Vektorraum ist. Auch wenn die Begriffsbildung zunächst recht abstrakt erscheint, sie hat dennoch die geschilderten konkreten Wurzeln. Ihren Nutzen werden wir sofort einsehen, da sich viele schon bekannte Strukturen als Vektorräume entpuppen, nicht nur solche, die wir aus der Geometrie kennen. 1.2 Definition: Vektorraum. Eine nichtleere Menge V heißt Vektorraum über R (über C) oder RVektorraum (C-Vektorraum), wenn auf V eine Vektoraddition „+“ und eine Skalarmultiplikation „·“ erklärt sind, so dass folgende Regeln gelten: (VR1) Abgeschlossenheit: Für ~v , w ~ ∈ V und λ ∈ R (λ ∈ C) gilt ~v + w ~ ∈ V und λ · ~v ∈ V . (VR2) V bildet bezüglich der Vektoraddition „+“ eine abelsche Gruppe, d.h. • • • • Assoziativität: (~u + ~v ) + w ~ = ~u + (~v + w), ~ Kommutativität: ~v + w ~ =w ~ + ~v , neutrales Element: es gibt einen Vektor ~0 mit ~v + ~0 = ~v für alle ~v ∈ V , inverse Elemente: zu jedem ~v ∈ V existiert genau ein Vektor, genannt −~v , mit ~v + (−~v ) = ~0. (VR3) Für λ, µ ∈ R (λ, µ ∈ C) und ~v , w ~ ∈ V gilt • • • • 1. Distributivgesetz : (λ + µ) · ~v = λ · ~v + µ · ~v . 2. Distributivgesetz : λ · (~v + w) ~ = λ · ~v + λ · w. ~ Assoziativgesetz : λ · (µ · ~v ) = (λµ) · ~v . Normierung: 1 · ~v = ~v . §3. VEKTORRECHNUNG IM RN 92 Die Elemente von V heißen Vektoren, die von R (von C) Skalare. Man nennt R (C) auch den Grundkörper des Vektorraums. Das neutrale Element der Vektoraddition ~0 nennen wir Nullvektor . Wie üblich schreiben wir ~v − w ~ für ~v + (−w), ~ unterdrücken den Malpunkt bei der Skalarmultiplikation λ~v und vereinbaren, dass Punktrechung vor Stichrechnung geht. Achtung. Die Skalarmultiplikation erfüllt andere Rechenregeln als die Multiplikation in einem Körper und ist auch von anderer Natur (vgl. §2.1.8). 1.3 Anmerkung zu den Vektorraumaxiomen. Keines dieser Axiome ist überflüssig. Die Normierung beispielsweise stellt sicher, dass die Vektoraddition mit der Addition im Zahlenraum übereinstimmt: ~v + ~v = 1~v + 1~v = (1 + 1)~v = 2~v und analog für n Summanden ~v + · · · + ~v = n~v . Ähnlich wie aus den Körperaxiomen (A1)–(A5) kann man aus den Vektorraumaxiomen weitere Rechenregeln ableiten, z.B. 0~v = ~0. Wir haben eben K-Vektorräume nicht nur für den Grundkörper K = R sondern auch für K = C definiert. Das stellt jetzt keinen zusätzlichen Aufwand dar, wird sich aber bald als praktisch erweisen. Wir hätten als Grundkörper K sogar einen beliebigen Körper zulassen können. Wenn wir im Folgenden von einem „K-Vektorraum“ sprechen, so steht K immer für R oder C (und wollen uns nur Schreibarbeit sparen). 1.4 Unterraum. Eine nichtleere Teilmenge U eines K-Vektorraums V nennen wir Unterraum, Teilraum oder Untervektorraum, wenn U mit der Vektoraddition und der Skalarmultiplikation aus V selbst ein K-Vektorraum ist. Einen Unterraum entlarvt man nicht durch stumpfsinniges Nachprüfen aller drei Vektorraumaxiome (VR1)–(VR3). Man mache sich selbst klar, dass lediglich (VR1) nachgeprüft werden muss, während (VR2) und (VR3) sich dann automatisch vom Raum auf den Unterraum übertragen. 1.5 Nachweis von Unterräumen. Eine nichtleere Teilmenge U eines K-Vektorraums V ist genau dann ein Unterraum, wenn mit ~v , w ~ ∈ U und λ ∈ K auch ~v + w ~ ∈ U und λ~v ∈ U gilt. Für einen Unterraum U müssen wir also folgende drei Dinge nachweisen: • U 6= ∅ • ~v , w ~ ∈ U ⇒ ~v + w ~ ∈U • ~v ∈ U, λ ∈ K ⇒ λ~v ∈ U Den ersten Punkt erledigt man gerne durch den Nachweis von ~0 ∈ U , die beiden anderen kann man in der Form ~v , w ~ ∈ U, λ, µ ∈ K ⇒ λ~v + µw ~ ∈ U auf einmal erledigen. Man sagt dann, dass U bezüglich der Vektorraddition und der Skalarmultiplikation abgeschlossen ist. Für jeden Vektorraum V sind {~0} und V selbst Unterräume von V . Der Nullvektor ist in jedem Unterraum enthalten. Die einelementige Menge {~0} nennen wir auch Nullraum. 1.6 Der Rn als Vektorraum. Die Menge x1 Rn := ... x1 , . . . , xn ∈ R xn der geordneten n-Tupel reeller Zahlen (auch Spaltenvektoren genannt) zusammen mit der durch x1 y1 x1 + y1 x1 λx1 .. .. .. λ ... := ... . + . := , . xn yn xn + yn xn λxn definierten Vektoraddition bzw. Skalarmultiplikation über dem Grundkörper R nennen wir den Vektorraum Rn . 93 KAPITEL 3. VEKTORRECHNUNG Man verifiziere selbst, dass die Vektorraumaxiome (VR1)–(VR3) erfüllt sind. Um Platz zu sparen, werden wir im Fließtext die Spaltenvektoren auch in der Form (x1 , . . . , xn ) als Zeilenvektoren schreiben. Für den Matrizenkalkül ist aber die Spaltenschreibweise die richtige. Die reellen Zahlen können wir als 1-Tupel auffassen. Die Skalarmultiplikation ist dann (ausnahmsweise) gerade die gewöhnliche Multiplikation reeller Zahlen und die Vektorraumaxiome sind in den Körperaxiomen für R enthalten. Wir fassen also R als Spezialfall des Rn für n = 1 auf. 1.7 Wozu ist der Rn nutze? Dass wir neben dem R2 als Modell der Ebene den R3 als Modell des dreidimensionalen Anschauungsraums benötigen, liegt auf der Hand. Wozu ist aber der Rn notwendig? Nun, beispielsweise, um den Zustand eines Systems von k Massenpunkten (z.B. Satelliten) zu beschreiben. Ist nämlich der Zustand eines frei beweglichen Massenpunktes durch die drei Ortskoordinaten und drei Geschwindigkeitskoordinaten beschrieben, so benötigen wir den R6k als Konfigurationsraum, um das gesamte System zu beschreiben. In der speziellen Relativitätstheorie wird sich der R4 als vierdimensionale Raum-Zeit nützlich erweisen. 1.8 Der Cn als Vektorraum. Die Menge z1 .. n C := . z1 , . . . , zn ∈ C zn der geordneten n-Tupel komplexer Zahlen zusammen mit der durch z1 w1 z1 + w1 z1 λz1 .. .. .. λ ... := ... . + . := , . zn wn zn + wn zn λzn definierten Vektoraddition bzw. Skalarmultiplikation über dem Grundkörper C nennen wir den Vektorraum Cn . Für den Cn gilt das zuvor über den Rn Gesagte analog. Die Menge C der komplexen Zahlen können wir einerseits als Vektorraum C1 auffassen, andererseits als den R2 . Der Unterschied liegt im jeweils verwendeten Grundkörper: bei C1 ist es C, beim R2 ist es R. 1.9 Folgenräume. Die Menge aller reellen Zahlenfolgen (an )n wird zusammen mit den Operationen (an )n + (bn )n := (an + bn )n , λ(an )n := (λan )n ein R-Vektorraum, den wir mit RN bezeichnen. Analog macht man die komplexen Zahlenfolgen zu einem C-Vektorraum CN . Wir nennen diese beiden Vektorräume Folgenräume über R bzw. über C. Beispiel. Für eine Zahl λ und zwei konvergente Zahlenfolgen (an )n und (bn )n konvergieren auch (λan )n und (an + bn )n . Also ist die Teilmenge der konvergenten Zahlenfolgen ein Teilraum des Folgenraums. 1.10 Funktionenräume. Ist D eine nichtleere Menge, so wird die Menge F(D, K) := {f | f : D → K} aller Funktionen mit Definitionsbereich D und Werten in K zusammen mit der Addition von Funktionen und der Multiplikation mit Konstanten f + g : D → K, x 7→ f (x) + g(x), zu einem K-Vektorraum, dem Funktionenraum über K. λf : D → K, x 7→ λf (x), §3. VEKTORRECHNUNG IM RN 94 Beispiele. Da Summen und Vielfache von Polynomen wieder Polynome sind, bilden die Polynome einen Unterraum des Funktionenraums (wobei wir als Definitionsbereich R oder C wählen können). Die Polynome vom Grad höchstens n (zusammen mit dem Nullpolynom) bilden für ein vorgegebenes n ∈ N0 ihrerseits einen Teilraum des Polynomraums. Später werden wir einsehen, dass die stetigen, die differenzierbaren bzw. die integrierbaren Funktionen f : D → K (für jeweils einen fest vorgegebenen Definitionsbereich D) ebenfalls Unterräume von F(D, K) sind. Alle bisher vorgestellten Beispiele für Vektorräume sind Spezialfälle dieses Vektorraumes: ein n-Tupel ist eine Funktion mit Definitionsbereich {1, 2, . . . , n}, d.h. Rn = F({1, . . . , n}, R), Cn = F({1, . . . , n}, C), und eine Zahlenfolge eine Funktion mit Definitionsbereich N, d.h. RN = F(N, R), CN = F(N, C). 1.11 Wozu abstrakte Vektorräume? Die letzten Beispiele zeigen, wie sehr es um uns herum von Vektorräumen „wimmelt“. Tatsächlich werden z.B. in der Quantenmechanik oder beim Lösen von Differentialgleichungen diverse Funktionenräume benutzt. Auch wenn in diesem Kapitel die konkreten Anwendungen in der Geometrie im Vordergrund stehen, wollen wir schon jetzt anfangen, uns an sie zu gewöhnen. Das gilt insbesondere für die nachfolgenden Begriffe. 1.12 Linearkombination. Sind ~v1 , . . . , ~vn Vektoren aus einem K-Vektorraum V und sind λ1 . . . , λn Skalare aus dem Grundkörper K, so nennen wir λ1~v1 + · · · + λn~vn = n X λk~vk k=1 eine Linearkombination der Vektoren ~v1 , . . . , ~vn . Linearkombinationen sind uns in §2 schon mehrfach begegnet: x1~e1 + x2~e2 , ~a + λ(~b − ~a). 1.13 Superpositionsprinzip. Wir sagen, dass eine Teilmenge U eines Vektorraums V einem Superpositionsprinzip gehorcht, wenn jede Linearkombination von Vektoren aus U schon in U enthalten ist. Offensichtlicher erfüllen Unterräume das Superpositionsprinzip. Gleich werden wir sehen, dass dies sogar charakteristisch für Unterräume ist, d.h. dass als einzige Teilmengen von V die Unterräume dem Superpositionsprinzip genügen. 1.14 Erzeugnis. Ist V ein K-Vektorraum so nennen wir für eine nichtleere Teilmenge U ⊂ V die Menge Span(U ) := {λ1~v1 + · · · + λn~vn | λ1 , . . . , λn ∈ K, ~v1 , . . . , ~vn ∈ U } das Erzeugnis, den Spann oder die lineare Hülle von U . Man schreibt hierfür auch L(U ) oder hU i. Das Erzeugnis Span(U ) von U ist ein Unterraum von V und zwar der kleinste, der U enthält. Ist U also kein Unterraum, so gilt U ( Span(U ) und U erfüllt nicht das Superpositionsprinzip. 1.15 Lineare Unabhängigkeit. Vektoren ~v1 , . . . , ~vn eines K-Vektorraums V nennen wir linear unabhängig, wenn λ1~v1 + · · · + λn~vn = ~0 ⇒ λ1 = . . . = λn = 0. Eine nichtleere Teilmenge U ⊂ V nennen wir linear unabhängig, wenn beliebige ~v1 , . . . , ~vn ∈ U linear unabhängig sind, d.h. wenn alle endlichen Teilmengen von U linear unabhängig sind. Enthält U dagegen Vektoren, die nicht linear unabhängig sind, so nennen wir U linear abhängig. Achtung. Wegen 0~v1 +· · ·+0~vn = ~0 lässt sich der Nullvektor immer als Linearkombination von ~v1 , . . . , ~vn darstellen. Das nennt man die triviale Linearkombination für den Nullvektor. Lineare Unabhängigkeit bedeutet, dass es außer der trivalen keine weitere Linearkombination für den Nullvektor gibt. Dagegen bedeutet lineare Abhängigkeit, dass der Nullvektor nicht nur auf die triviale Art als Linearkombination dargestellt werden kann. Wegen 1 · ~0 = ~0 ist der Nullvektor (aufgefasst als einelementige Menge) linear abhängig und damit auch jede Menge, die den Nullvektor enthält. Das klingt vielleicht seltsam, sollte aber als nützliche Vereinbarung hingenommen werden. 95 KAPITEL 3. VEKTORRECHNUNG 1.16 Beispiele für lineare Unabhängigkeit bzw. lineare Abhängigkeit. (a) Die Vektoren 12 , 21 ∈ R2 sind linear unabhängig. Aus λ 12 + µ 21 = 00 folgt nämlich λ + 2µ = 0 und 2λ + µ = 0 und hieraus 0 = 2(λ + 2µ) − (2λ + µ) = 3µ bzw. 0 = (λ + 2µ) − 2(2λ + µ) = −3λ, d.h. λ = µ = 0. (b) Allgemein sind zwei Vektoren ac , db ∈ R2 genau dann linear unabhängig, wenn det ac db 6= 0. Genau dann hat nämlich das lineare Gleichungssystem ax + by = 0, cx + dy = 0 als einzige Lösung (x, y) = (0, 0). Das heißt aber nicht mehr und nicht weniger, als dass x ac + y db = 00 nur für x = y = 0 lösbar ist. (c) Zwei Vektoren ~v , w ~ eines Vektorraums V sind genau dann linear unabhängig, wenn keiner ein Vielfaches des anderen ist (insbesondere ist dann keiner der Nullvektor). Gilt nämlich w ~ = λ~v , so ist 1~v − λw ~ = ~0 eine nichttriviale Linearkombination und ~v , w ~ sind linear abhängig. Sind umgekehrt ~v , w ~ linear abhängig, v so gibt es eine Linearkombination λ~v + µw ~ = ~0, bei der λ 6= 0 oder µ 6= 0. Gilt µ 6= 0, so folgt w ~ = −λ µ ~ ~ und w ~ ist ein Vielfaches von ~v . Gilt λ 6= 0 so schließe man analog. 1.17 Geraden und Ebenen durch den Ursprung. Ist V ein beliebiger K-Vektorraum, so nennen wir für ~v ∈ V mit ~v 6= ~0 Span(~v ) = {λ~v | λ ∈ K} eine Ursprungsgerade. Sind ~v , w ~ ∈ V linear unabhängige Vektoren, d.h. ist keiner ein Vielfaches des anderen (und damit auch keiner der Nullvektor), so nennen wir Span(~v , w) ~ = {λ~v + µw ~ | λ, µ ∈ K} eine Ursprungsebene, die von ~v und w ~ aufgespannt wird. 1.18 Affine Teilräume, Geraden und Ebenen. Allgemein nennen wir für einen Vektor ~a und einen Vektor ~v 6= ~0 g := {~a + λ~v | λ ∈ K} die Gerade durch ~a mit Richtungsvektor ~v , parametrisiert durch λ 7→ ~a + λ~v und für zwei linear unabhängige Vektoren ~v , w ~ E := {~a + λ~v + µw ~ | λ, µ ∈ K} die Ebene durch ~a, aufgespannt von ~v , w ~ und parametrisiert durch (λ, µ) 7→ ~a + λ~v + µw. ~ Um Geraden und Ebenen bequem darstellen zu können, führen wir für ~a ∈ V und U ⊂ V die Notation ~a + U := {~a + ~u | ~u ∈ U } ein und nennen für einen Unterraum U diese Menge einen affinen Teilraum zu U durch ~a. Dann gilt g = ~a + Span(~v ), E = ~a + Span(~v , w). ~ Achtung. Das gerade definierte „+“ zwischen einem Vektor und einer Menge wollen wir lediglich als nützliche Bezeichnung auffassen und nicht versuchen, damit zu rechnen. Genau dann ist g = ~a + Span(~v ) eine Ursprungsgerade und damit ein Unterraum von V , wenn ~a ∈ Span(~v ). Genau dann ist E = ~a + Span(~v , w) ~ eine Ursprungsebene und damit ein Unterraum von V , wenn ~a ∈ Span(~v , w). ~ 1.19 Standardbasis im Rn bzw. Cn . Die n Vektoren 1 0 0 1 ~e1 := . , ~e2 := . , .. .. 0 0 im Rn (im Cn ) bilden die Standardbasis des Rn (des Cn ). ..., 0 0 ~en := . .. 1 §3. VEKTORRECHNUNG IM RN 96 Jeder Vektor im Rn (im Cn ) lässt sich in eindeutiger Weise mittels 0 0 1 x1 0 1 0 x2 ~x = . = x1 . + x2 . + · · · + xn . = x1~e1 + x2~e2 + · · · + xn~en .. .. .. .. 1 0 0 xn als reelle (komplexe) Linearkombination dieser Vektoren darstellen. Vornehm ausgedrückt: Die Standardbasisvektoren sind linear unabhängig und erzeugen den Rn (bzw. Cn ). 1.20 Basis. Ist V ein Vektorraum, so nennen wir eine linear unabhängige Teilmenge U ⊂ V mit Span(U ) = V eine Basis von V . Basissein bedeutet also: • Jeder Vektor aus V kann durch eine Linearkombination von Vektoren aus U erzeugt werden. • Die Vektoren aus U sind linear unabhängig. Diese beiden Forderungen stellen einerseits sicher, dass U nicht zu klein ist, andererseits erzwingen sie zugleich, dass U nicht zu groß ist. Es gilt nämlich der folgende Satz. Ist U eine Basis von V , so lässt sich jeder Vektor in eindeutiger Form als Linearkombination von endlich vielen Basisvektoren darstellen. Beweis. Ist ~v ∈ V ein Vektor mit zwei Darstellungen als Linearkombination, so können wir durch Hinzunahme von Nullskalaren für beide Linearkombinationen dieselben Vektoren aus U annehmen, d.h. ~v = λ1~v1 + · · · + λn~vn = µ1~v1 + · · · + µn~vn . Durch Subtraktion folgt ~0 = (λ1 − µ1 )~v1 + · · · + (λn − µn )~vn . Mit U sind auch die ~v1 , . . . , ~vn linear unabhängig, d.h. λ1 − µ1 = λn − µn = 0. 1.21 Koordinaten. Ist V ein K-Vektorraum mit einer n-elementigen Basis ~v1 , . . . , ~vn (die Reihenfolge der Vektoren in dieser Aufzählung sei dabei fest gewählt), so nennen wir für einen Vektor ~v ∈ V die eindeutig bestimmten Skalare x1 , . . . , xn ∈ K in der Linearkombination ~v = x1~v1 + · · · + xn~vn die Koordinaten von ~v und das aus diesen Skalaren gebildete n-Tupel x1 .. . xn den Koordinatenvektor von ~v bezüglich der Basis ~v1 , . . . , ~vn . 1.22 Vektoren und Koordinatenvektoren. Jetzt schließt sich der Kreis: Nach Wahl einer n-elementigen Basis können wir einen R-Vektorraum also mit dem Rn , einen C-Vektorraum mit dem Cn identifizieren. Das haben wir in §2 gleich zu Beginn gemacht. Von dieser Festlegung wollten wir uns in diesem Paragraphen befreien. Das haben wir auch, indem wir in einem allgemeinen Vektorraum weder auf Koordinaten festgelegt sind, noch auf die Standardbasis. Wir können aber jederzeit eine Basis wählen und dann zu Koordinatenvektoren übergehen. Das illustrieren wir jetzt an einem Anwendungsbeispiel bei linearen Differentialgleichungen. 1.23 Anwendungsbeispiel: lineare Differentialgleichungen zweiter Ordnung. Wir nehmen etwas Differentialrechnung voraus. Gegeben seien zwei reelle (oder komplexe) Zahlen a, b. Man sagt, dass eine Funktion y : R → C (das schließt den Fall y : R → R mit ein) eine lineare homogene Differentialgleichung zweiter Ordnung mit konstanten Koffizenten a, b erfüllt, wenn y 00 + ay 0 + by = 0, d.h. y 00 (x) + ay 0 (x) + by(x) = 0 für alle x ∈ R. 97 KAPITEL 3. VEKTORRECHNUNG Für eine Pendel- oder Molekülschwingung mit Reibung (Dämpfung) gilt beispielsweise bei kleinen Auslenkungen mẍ + bẋ + kx = 0, für einen Schwingkreis LI¨ + RI˙ + C1 I = 0. (Ableitungen nach der Zeit werden gerne mit einem Punkt statt einem Strich bezeichnet.) Offensichtlich ist die identisch verschwindende Funktion 0 eine Lösung der Differentialgleichung (kurz DGL). Sind y1 und y2 zwei Lösungen, d.h. gilt y100 + ay10 + by1 = 0 = y200 + ay20 + by2 so folgt aus den Rechenregeln für Ableitungen für beliebige Zahlen λ, µ (λy1 + µy2 )00 + a(λy1 + µy2 )0 + b(λy1 + µy2 ) = λ(y100 + ay10 + by1 ) + µ(y200 + ay20 + by2 ) = 0, d.h. die Menge der Lösungsfunktionen ist nichtleer und erfüllt das Superpositionsprinzip. Daher bildet sie einen Unterraum des Funktionenraums F(R, C). Wir machen uns nun daran, eine Basis zu bestimmen. Wir nennen p(x) := x2 + ax + b das charakteristische Polynom. Ist λ eine (reelle oder komplexe Nullstelle) von p, so gilt für die durch y(x) := eλx definierte Funktion y 00 (x) + ay 0 (x) + by(x) = λ2 eλx + aλeλx + beλx = (λ2 + aλ + b)y(x) = 0 für x ∈ R. (Wer Skrupel bekommt, wenn λ = ρ + iω komplex ist, der ersetze eλx durch Re(eλx ) = eρx cos(ωx) und Im(eλx ) = eρx sin(ωx), verifiziere analog zu oben, dass diese beiden Funktionen die DGL erfüllen und sieht anschließend ein, dass es dann auch y tut, wenn man nur die Ableitung einer komplexwertigen Funktion dadurch bildet, dass man Realteil und Imaginärteil differenziert.) Wir definieren zwei Funktionen y1 , y2 : R → C (genannt Basislösungen oder Fundamentallösungen) durch (1) y1 (x) := eλ1 x , y2 (x) := eλ2 x , falls p zwei verschiedene Nullstellen λ1 , λ2 hat, (2) y1 (x) := eλx , y2 (x) := xeλx , falls p eine doppelte Nullstelle λ hat (dann gilt p(x) = (x − λ)2 , d.h. a = −2λ und b = λ2 ). In beiden Fällen sind y1 und y2 Lösungen der DGL. Zeigen müssen wir das nur noch im Fall (2) für y2 . Dann gilt tatsächlich y200 (x) + ay20 (x) + by2 (x) = λ(λx + 2)eλx + a(λx + 1)eλx + bxeλx = [x(λ2 + aλ + b) + (2λ + a)]eλx = 0. Für x ∈ R berechnen wir nun die Determinante der Wronski-Matrix von y1 und y2 y1 (x) y2 (x) W (x) := . y10 (x) y20 (x) Wir erhalten det(W (x)) = −(λ1 − λ2 )e(λ1 +λ2 )x in Fall (1) bzw. det(W (x)) = e2λx in Fall (2), d.h. immer W (x) 6= 0. Geben wir also ein beliebiges x0 ∈ R und Anfangswerte y(x0 ) = A, y 0 (x0 ) = B vor, so existiert nach dem Lösungssatz 2.6 für lineare (2 × 2)-Gleichungsysteme genau eine Linearkombination y = c1 y1 + c2 y2 , d.h. y(x) = c1 y1 (x) + c2 y2 (x) für alle x ∈ R, welche die Anfangswerte y(x0 ) = A und y 0 (x0 ) = B erfüllt. Die Koeffizienten c1 und c2 erhalten wir nämlich als die dann eindeutig bestimmte Lösung des linearen Gleichungssystems c1 c1 y1 (x0 ) + c2 y2 (x0 ) A c1 −1 A W (x0 ) = = , d.h. = W (x ) . 0 c2 c1 y10 (x0 ) + c2 y20 (x0 ) B c2 B Fazit. Für gegebene reelle oder komplexe Konstanten a, b erfüllen die Lösungen der linearen homogenen Differentialgleichung 2. Ordnung y 00 + ay 0 + by = 0 das Superpositionsprinzip. Zu vorgegebenen Anfangswerten y(x0 ) = A, y 0 (x0 ) = B existiert immer eine eindeutig bestimmte Lösung, welche man als Linearkombination der Basislösungen in (1) bzw. (2) erhält. §3. VEKTORRECHNUNG IM RN 98 Dieser Lösungssatz funktioniert einheitlich, egal ob die Koeffizienten a, b, die Nullstellen des charakteristischen Polynoms p(x) = x2 + ax + b oder die Anfangswerte A, B reell oder komplex sind. Den reellen Fall a, b, A, B ∈ R wollen wir uns abschließend genauer ansehen. Dann ersetzt man im Fall echt komplexer Nullstellen in p die oben angegebenen Basislösungen y1 und y2 gewöhnlich durch 1 1 2 (y1 + y2 ) = Re(y1 ) = Re(y2 ) und 2i (y1 − y2 ) = Im y1 = − Im y2 . Es ist klar, dass man zwischen beiden Basislösungspaaren hin- und herrechnen kann. Man erhält dann folgende Typen von Basislösungen. (Typ 1) überkritische Dämpfung (a2 > 4b), zwei verschiedene reelle Nullstellen λ1 6= λ2 für p: y1 (x) = eλ1 x , y2 (x) = eλ2 x , (Typ 2) kritische Dämpfung, aperiodischer Grenzfall (a2 = 4b), eine doppelte reelle Nullstelle λ für p: y1 (x) = eλx , y2 (x) = xeλx , (Typ 3) unterkrit. Dämpfung, Schwingfall (a2 < 4b), zwei konjugiert komplexe Nullstellen ρ ± iω für p: y1 (x) = eρx cos(ωx), y2 (x) = eρx sin(ωx) (bzw. komplex y1 = e(ρ+iω)x , y1 = e(ρ−iω)x ) 0.8 2.5 y1 2 0.6 0.4 1.5 y2 0.5 -0.5 Typ 1 0.5 1 -1 1.5 0.2 y2 0.5 2 (λ1 = 1/2, λ2 = −1) 1 -0.5 -0.2 1 -1 2 y1 1 1.5 2 -1 -0.5 y2 0.5 -1 1 1.5 2 y1 -0.4 Typ 2 (ρ = −1, ω = 6) Typ 3 (λ = −3/2) Abbildung 3.13: Graphen der Basislösungen von y 00 + ay + by = 0 für a, b ∈ R. Ist zusätzlich zu den Konstanten a, b eine Funktion f gegeben, so heißt y 00 + ay 0 + by = f, d.h. y 00 (x) + ay 0 (x) + by(x) = f (x) für alle x ∈ R. eine lineare inhomogene Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten. Hat man eine Lösung y0 dieser inhomogenen DGL gefunden, d.h. gilt y000 + ay00 + by0 = f , so ist für jede Lösung y der homogenen DGL wegen (y + y0 )00 + a(y + y0 )0 + b(y + y0 ) = (y 00 + ay 0 + by) + (y000 + ay00 + by0 ) = 0 + f = f auch y + y0 eine Lösung. Hat man umgekehrt zwei Lösungen der inhomogenen DGL gefunden, so zeigt man analog, dass deren Differenz die homogene DGL löst. Daher bilden die Lösungen der inhomogenen DGL einen affinen Teilraum durch y0 der zum Lösungsraum der homogenen DGL gehört. Fazit. Kennt man eine Lösung y0 der linearen inhomogenen Differentialgleichung 2. Ordnung y 00 + ay 0 + by = f , so erhält man die Gesamtheit ihrer Lösungen, indem man zu y0 die Lösungen der zugehörigen homogenen Differentialgleichung y 00 + ay 0 + b = 0 addiert. Wie man eine solche spezielle Lösung y0 findet, verrät unsere Methode nicht. Gewöhnlich macht man für y0 einen Ansatz in der Funktionenklasse zu der die Inhomogenität f gehört. Ist f beispielsweise ein Polynom, so setzt man y0 als ein Polynom an und versucht Grad und Koeffizienten so zu wählen, dass man eine Lösung erhält. In 4.§3 und 4.§5 werden wir uns mit solchen Differentialgleichungen ausführlicher beschäftigen. Hier stand die algebraische Struktur der Lösungsgesamtheit im Vordergrund, nicht die analytischen Eigenschaften einzelner Lösungen. 99 KAPITEL 3. VEKTORRECHNUNG 2 Euklidische Vektorräume 2.1 Programm. Wir verwenden die grundlegenden Regeln für das Skalarprodukt und die Norm im R2 , um in einem beliebigen R-Vektorraum zu erklären, was ein Skalarprodukt und die zugehörige Norm ist. Dann haben wir eine Längen- und Winkelmessung zur Verfügung. 2.2 Definition: Skalarprodukt. Für einen R-Vektorraum V nennen wir eine Abbildung, die jedem Paar von Vektoren ~v , w ~ ∈ V einen Skalar h~v |wi ~ ∈ R zuordnet ein Skalarprodukt, wenn Folgendes gilt: (SP1) Linearität: h~u|λ~v + µwi ~ = λh~u|~v i + µh~u|wi. ~ (SP2) Symmetrie: h~v |wi ~ = hw|~ ~ v i. (SP3) Positive Definitheit: h~v |~v i ≥ 0 und h~v |~v i = 0 genau dann, wenn ~v = ~0. Achtung. Wir betrachten hier nur Vektorräume über R. An ein Skalarprodukt für einen C-Vektorraum werden etwas andere Anforderungen gestellt (vgl. 5.§6.1). 2.3 Definition: Norm. Zu einem Skalarprodukt auf einem R-Vektorraum erklären wir die zugehörige Norm durch p für ~v ∈ V. k~v k := h~v |~v i 2.4 Definition: euklidischer Vektorraum. Ein R-Vektorraum zusammen mit einem Skalarprodukt heißt euklidischer Vektorraum. 2.5 Der Rn als euklidischer Vektorraum. Auf dem Rn erklären wir das (Standard-)Skalarprodukt durch y1 x1 n x2 y2 X xk yk = x1 y1 + x2 y2 + · · · + xn yn , h . | . i := .. .. k=1 xn yn Man verifiziert leicht, dass (SP1)–(SP3) erfüllt sind. Die zugehörige Norm (auch Standardnorm genannt) lautet dann √ k~xk = x1 2 + x2 2 + x3 2 x1 x1 !1/2 n x2 x2 X p 2 k . k = . = xk = x1 2 + x2 2 + · · · + xn 2 . X . . . . k=1 xn xn ? x3 x2 √ x1 2 + x2 2 2.6 Geometrische Deutung der Norm im Rn . Die geome2 trische Deutung der Norm k~xk im R als Abstand des Punktes X x1 O ~ = ~x überträgt sich in den R3 wie nebenstemit Ortsvektor OX Abbildung 3.14: Norm als hend skizziert. Wir sollten darum keine Skrupel haben, und k~xk Länge im R3 . allgemein als Länge des Vektors ~x deuten. 2.7 Eigenschaften des Skalarprodukts. Für jedes Skalarprodukt (nicht nur für das eben erklärte im Rn ) gelten folgende Regeln. (a) hλ~u + µ~v |wi ~ = λh~u|wi ~ + µh~v |wi. ~ (b) h~v |~0i = 0 = h~0|~v i. (c) h~v + w|~ ~ v + wi ~ = h~v |~v i + 2h~v |wi ~ + hw| ~ wi. ~ §3. VEKTORRECHNUNG IM RN 100 Die erste Regel folgt aus (SP1) und (SP2), die zweite mit 0 = h~v |0~v i = h~v |~0i aus (SP1), die dritte aus h~v + w|~ ~ v + wi ~ (SP1) (SP2) h~v + w|~ ~ v i + h~v + w| ~ wi ~ = h~v |~v + wi ~ + hw|~ ~ v + wi ~ = (SP1) (SP2) h~v |~v i + h~v |wi ~ + hw|~ ~ v i + hw| ~ wi ~ = h~v |~v i + 2h~v |wi ~ + hw| ~ wi. ~ = Wir haben noch eine vierte Rechenregel für allgemeine Skalarprodukte, die wir gesondert betrachten. 2.8 Cauchy-Schwarzsche Ungleichung. Für ein Skalarprodukt in einem R-Vektorraum V gilt |h~v |wi| ~ ≤ k~v k · kwk ~ für alle ~v , w ~ ∈ V. Beweis. Für w ~ = ~0 verschwinden beide Seiten der Ungleichung wegen h~v |wi ~ = 0 und kwk ~ 2 = hw| ~ wi ~ = 0. ~ Für w ~ 6= 0 folgt zunächst kwk ~ > 0 und mit quadratischen Ergänzung für zunächst beliebiges λ ∈ R dann (SP3) 0 ≤ = (c), (SP1) h~v + λw|~ ~ v + λwi ~ = k~v k2 + 2λh~v |wi ~ + λ2 kwk ~ 2 2 2 2 h~v |wi ~ h~v |wi ~ k~v k2 kwk ~ 2 − h~v |wi ~ 2 h~v |wi ~ . + k~v k2 − = λkwk ~ + + λkwk ~ + 2 kwk ~ kwk ~ kwk ~ kwk ~ Für λ = −h~v |wi/k ~ wk ~ 2 verschwindet die Klammer und wir erhalten die gewünschte Ungleichung. Beispiel. Das Standardskalarprodukt im Rn liefert uns die Ungleichung !1/2 n !1/2 n n X X X 2 2 xk yk ≤ xk yk . k=1 k=1 k=1 2.9 Eigenschaften der Norm. Für eine zu einem Skalarprodukt gehörige Norm gelten folgende Rechenregeln. (d) Positive Definitheit: k~v k ≥ 0 und k~v k = 0 genau für ~v = ~0. (e) Homogenität: kλ~v k = |λ|k~v k. (f) Dreiecksungleichung: k~v + wk ~ ≤ k~v k + kwk. ~ Die beiden ersten Regeln folgen schnell aus (SP3) bzw. (SP1). Die Dreiecksungleichung erhalten wir mit der Cauchy-Schwarzschen Ungleichung durch Wurzelziehen aus k~v + wk ~ 2 = h~v + w|~ ~ v + wi ~ = h~v |~v i + 2h~v |wi ~ + hw| ~ wi ~ ≤ k~v k2 + 2k~v kkwk ~ + kwk ~ 2 = (k~v k + kwk) ~ 2. Beispiel. Für die zum Standardskalarprodukt im Rn gehörige Norm folgt !1/2 !1/2 !1/2 n n n X X X (xk + yk )2 ≤ xk 2 + yk 2 . k=1 k=1 k=1 2.10 Längen- und Winkelmessung. Ist V ein euklidischer Vektorraum, so messen wir die Länge eines Vektors ~v ∈ V mit der Norm k~v k und den Abstand zweier Vektoren ~v , w ~ ∈ V mittels k~v − wk. ~ Die Regeln (d)–(f) erfüllen uns dabei unsere grundlegenden Wünsche für solch eine Längenmessung. Für ~v , w ~ 6= ~0 können wir dank der Cauchy-Schwarzschen Ungleichung 2.8 den Winkel ](~v , w) ~ genauso wie in §2.4.4 erklären, nämlich durch cos ](~v , w) ~ := h~v |wi ~ . k~v kkwk ~ Wegen h~v |wi ~ = hw|~ ~ v i und cos(ϕ) = cos(−ϕ) ist unser so eingeführter Winkel ](~v , w) ~ jedoch nichtorientiert, d.h. ](~v , w) ~ = ](w, ~ ~v ). Für Winkel im R2 hatten wir in §2.4.4 eine Orientierung eingeführt (im R3 vgl. §4.1.4). KAPITEL 3. VEKTORRECHNUNG 101 2.11 Kugeln in euklidischen Vektorräumen. Wir sollten es eher als nützlich, denn als seltsam auffassen, dass wir die aus der Ebene wohlbekannten Begriffe wie Koordinaten, Länge, Abstand, Winkel auf abstrakte Vektorräume übertragen haben. In diesem Sinne ist nichts Magisches daran, wenn wir beispielsweise den durch p x1 2 2 2 S1 := ∈ R | x1 + x2 = 1 x2 beschriebenen Einheitskreis und die durch x1 p S2 := x2 ∈ R3 | x1 2 + x2 2 + x3 2 = 1 x3 beschriebene Einheitssphäre zur Einheitssphäre im Rn x1 x 2 p n 2 2 2 Sn−1 := . ∈ R | x1 + x2 + · · · + xn = 1 .. xn verallgemeinern. Darum nennen wir allgemein für einen euklidischen Vektorraum V zu gegebenen r > 0 und ~a ∈ V • Kr (~a) := {~v ∈ V | k~v − ~ak < r} die Kugel (die offene Kugel oder das Kugelinnere), • ∂Kr (~a) := {~v ∈ V | k~v − ~ak = r} die Sphäre (die Kugeloberfläche oder den Kugelrand ), • Kr (~a) := {~v ∈ V | k~v − ~ak ≤ r} die abgeschlossene Kugel mit Mittelpunkt ~a und Radius r. Kugeln im R2 nennen wir auch Kreise, Kugeln im R1 sind Intervalle. 3 Orthonormalsysteme 3.1 Worum geht es? Rechtwinkligkeit — Orthogonalität — ist eine wichtige Eigenschaft für die Achsen eines Koordinatensystems, d.h. die Basisvektoren. Wir erklären nun allgemein, wie wir solche Basen erhalten und Koordinaten von Vektoren bezüglich einer solchen Basis ausrechnen können. 3.2 Orthogonalität. Zwei Vektoren ~v , w ~ eines euklidischen Vektorraums V heißen orthogonal oder senkrecht, wenn h~v |wi ~ = 0. Wir schreiben dafür auch ~v ⊥ w. ~ Ein Vektor ~v ∈ V steht orthogonal oder senkrecht auf einer Teilmenge U ⊂ V , wenn ~v ⊥ w ~ für alle w ~ ∈ U. Wir schreiben dann ~v ⊥ U . Die Menge U ⊥ := {w ~ ∈ V | hw|~ ~ ui = 0, für alle ~u ∈ U } aller zu U senkrechter Vektoren nennen wir das orthogonale Komplement. Der Nullvektor ~0 steht auf jedem Vektor senkrecht — das ist wieder eine nützliche Vereinbarung. Beispiel. Im R3 steht der dritte Standardbasisvektor ~e3 senkrecht auf der von den ersten beiden Standardbasisvektoren ~e1 und ~e2 aufgespannten Ebene Span(~e1 , ~e2 ), das ist gerade die (x1 , x2 )-Ebene. 3.3 Kronecker-Symbol. Die Standardbasisvektoren ~e1 , . . . , ~en im Rn stehen paarweise aufeinander senkrecht und haben alle die Länge 1. Wir drücken dies effizient mit dem Kronecker-Symbol δk,l aus: ( 1 für k = l, h~ek |~el i = δk,l := 0 für k 6= l. §3. VEKTORRECHNUNG IM RN 102 3.4 Orthonormalsystem. Eine nichtleere Teilmenge U = {~vι |ι ∈ I} ⊂ V eines euklidischen Vektorraums V nennen wir ein Orthonormalsystem (kurz ONS ), wenn h~vk |~vl i = δk,l für beliebige k, l ∈ I. Dabei ist I eine beliebige Indexmenge (z.B. I = {1, 2, . . . , n} oder I = N). Ein Orthonormalsystem besteht also aus normierten Vektoren, die paarweise aufeinander senkrecht stehen. Es wird nicht verlangt, dass die Vektoren eine Basis von V bilden, d.h. V auch erzeugen. Dagegen gilt immer: Ein Orthonormalsystem ist linear unabhängig. Beweis. Sind ~v1 . . . , ~vn Vektoren eines Orthonormalsystems mit λ1~v1 + · · · + λn~vn = ~0, so erhalten wir nach Skalarproduktbildung mit ~vk für k = 1, . . . , n nacheinander 0 = h~vk |~0i = h~vk | n X λl~vl i = l=1 n X λl h~vk |~vl i = l=1 n X λl δk,l = λk . l=1 Beispiel. Die Standardbasisvektoren ~e1 , . . . , ~en im Rn bilden ein Orthonormalsystem. Gleiches gilt für jede nichtleere Teilmenge von ihnen. 3.5 Orthonormalbasis. Ist U ein Orthonormalsystem in einem euklidischen Vektorraum V und gilt Span(U ) = V , so nennen wir U eine Orthonormalbasis (kurz ONB ). 3.6 Entwickeln nach Orthonormalbasen. Ist ~v1 , . . . , ~vn eine Orthonormalbasis in einem euklidischen Vektorraum V , so besitzt jeder Vektor ~v ∈ V eine eindeutige Darstellung als Linearkombination ~v = n X h~vk |~v i~vk = h~v1 |~v i~v1 + · · · + h~vn |~v i~vn . k=1 Die Koordinaten eines Vektors bezüglich einer ONB sind mit Hilfe des Skalarprodukts leicht berechenbar. Beweis. Nach §2.1.20 besitzt jeder Vektor ~v ∈ V eine eindeutige Darstellung ~v = λ1~v1 + · · · + λn~vn . Durch Skalarproduktbildung erhalten wir für k = 1, . . . , n wie behauptet h~vk |~v i = h~vk | n X λl~vl i = n X l=1 l=1 λl h~vk |~vl i = n X λl δk,l = λk l=1 Beispiel. Durch Nachrechnen überzeugen wir uns davon, dass √ √ −1/ 2 1/ 2 √ √ , ~v2 := ~v1 := 1/ 2 1/ 2 eine Orthonormalbasis des R2 ist. Sie entsteht übrigens aus der Standardbasis ~e1 , ~e2 durch Drehen um π/4 (vgl. §2.6.2): ~v1 = Dπ/4 (~e1 ), ~v2 = Dπ/4 (~e2 ). Hat ~v bezüglich der Standardbasis die Koordinaten 34 , d.h. gilt ~v = 3~e1 + 4~e2 , so folgt aus 1 1 7 h~v1 |~v i = √ 3 + √ 4 = √ , 2 2 2 −1 1 1 h~v2 |~v i = √ 3 + √ 4 = √ , 2 2 2 √ 7/ 2 dass ~v bezüglich der neuen Basis die Koordinaten 1/√2 besitzt, d.h. ~v = gilt nämlich √ √ 3 7 1/ 2 1 −1/ 2 √ +√ √ =√ . 4 2 1/ 2 2 1/ 2 √7 ~ v 2 1 + √1 ~ v . 2 2 Tatsächlich, es 3.7 Orthogonale Projektion. Wir haben in einem euklidischen Vektorraum V einen Unterraum U sowie ein Orthonormalsystem ~v1 , . . . , ~vm mit U = Span(v~1 , . . . , ~vm ) (z.B. U = Span(~e1 , ~e2 ) im R3 ). Wie in §2.5.4 suchen wir zu einem gegebenen Vektor ~a ∈ V denjenigen Vektor ~u ∈ U mit kürzestem Abstand. 103 KAPITEL 3. VEKTORRECHNUNG Dieselbe Rechnung wie in §2.5.4 zeigt 2 m m m X X X 2 λk~vk = k~ak2 − h~vk |~ai2 + (λk − h~vk |~ai) . ~a − k=1 k=1 k=1 Dieser Ausdruck wird genau dann minimal, wenn wir λk = h~vk |~ai für k = 1, . . . , m wählen. Ist U = Span(~v1 , . . . , . . . vm ) ein von einem Orthonormalsystem ~v1 , . . . , . . . vm aufgespannter Unterrraum eines euklidischen Vektorraums, so ist der Punkt ~u ∈ U kürzesten Abstands zu ~a ∈ V gegeben durch ~u = P (~a) := m X h~vk |~aiv~k . k=1 Für den Abstand gilt dann ~a k~a − P (~a)k2 = k~ak2 − m X h~vk |~ai2 . U ~vn k=1 P (~a) Wir nennen P (~a) die orthogonale Projektion von ~a auf U . ~v1 Die orthogonale Projektion P (~a) ist charakterisiert durch P (~a) ∈ U und ~a − P (~a) ⊥ U. Beweis. Für einen beliebigen Vektor ~v = Pm k=1 Abbildung 3.15: Orthogonale Projektion. λk~vk ∈ U gilt einerseits m X h~v |~a − P (~a)i = h λk~vk | ~a − h~vl |~ai~vl i = λk h~vk |~ai − h~vl |~ai h~vk |~vl i = 0, | {z } k=1 l=1 k=1 l=1 =δk,l | {z } m X m X m X =h~ vk |~ ai d.h. ~a − P (~a) ⊥ U . Andererseits folgt aus ~u = Pm l=1 0 = h~vk |~a − ~ui = h~vk |~ai − λl~vl ∈ U und ~a − ~u ⊥ U n X l=1 d.h. ~u = Pn vk |~ai~vk k=1 h~ λl h~vk |~vl i = h~vk |~ai − λk , | {z } δk,l = P (~a). 3.8 Orthonormalisieren. Das Orthonormalisierungsverfahren nach Gram-Schmidt bildet zu einem vorgegebenen Satz von linear unabhängigen Vektoren ~v1 , . . . , ~vn in einem euklidischen Vektorraum V ein Orthonormalsystem ~u1 , . . . , ~un mit Span(~u1 , . . . , ~um ) = Span(~v1 , . . . , ~vm ) für m = 1, . . . , n. Insbesondere kann man mit diesem Verfahren aus einer beliebigen Basis von V eine Orthonormalbasis erhalten. Das Orthonormalisierungsverfahren für n Vektoren besteht aus einem Initialisierungschritt und n − 1 rekursiv abzuarbeitenden weiteren Schritten. • Initialisierung: Normiere ~v1 , um ~u1 zu erhalten: ~u1 := 1 v1 . k~ v1 k ~ • Rekursion: Sind orthonormale Vektoren ~u1 , . . . , ~um mit Um := Span(~u1 , . . . , ~um ) = Span(~v1 , . . . , ~vm ) für ein m < n gefunden, so erhalte ~um+1 mittels: Pm – Bilden der orthogonaler Projektion P (~vm+1 ) = k=1 h~uk |~vm+1 i~uk von ~vm+1 auf Um , – Senkrechtmachen ~u0m+1 := ~vm+1 − P (~vm+1 ), – Normieren ~um+1 = k~u0 1 k ~u0m+1 . m+1 Man verifiziere selbst, dass das Verfahren das Gewünschte leistet. §4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3 104 Beispiel. Wir orthonormalisieren 1 1 , 1 0 im R2 . Zunächst mache man sich klar, dass die beiden Vektoren linear unabhängig sind (sie bilden sogar eine Basis des R2 ). Das Orthonormalisierungsverfahren besteht hier aus den folgenden zwei Schritten: Schritt 1: Normieren des ersten Vektors: √ 1/ 2 1 1 √ . = ~u1 = √ 1/ 2 12 + 1 2 1 Schritt 2: Bilden der orthogonalen Projektion √ √ 1/ 2 1/ 2 1 1 1/2 √ √ P( )=h | i = , 0 0 1/2 1/ 2 1/ 2 Senkrechtmachen 1 1 1 1/2 1/2 − P( )= − = , 0 0 0 1/2 −1/2 Normieren ~u2 = p Das zu 1 1 , 1 0 1 (1/2)2 + (−1/2)2 √ 1/ 2 1/2 √ . = −1/2 −1/ 2 gehörige Orthonormalsystem lautet also √ √ 1/ 2 1/ 2 √ , √ 1/ 2 −1/ 2 und ist eine Orthonormalbasis des R2 . §4 1 Spezialitäten der Vektorrechnung im R3 Vektorprodukt 1.1 Zielsetzung. Zu zwei gegebenen linear unabhängigen Vektoren ~u, ~v ∈ R3 wollen wir einen dritten Vektor w ~ ∈ R3 mit folgenden drei Eigenschaften finden. w ~ ~ ~v w ~v (1) w ~ steht senkrecht auf ~u und ~v , d.h. w ~ ⊥ Span(~u, ~v ). (2) Die Länge von w ~ ist die Fläche des von ~u und ~v aufgespannten Parallelogramms, d.h. kwk ~ = k~ukk~v k sin ϕ mit ϕ = ](~u, ~v ) ∈]0, π[. (3) ~u, ~v , w ~ bilden ein „positiv orientiertes Dreibein“. ~u ~u Abbildung 3.16: Dreifingerregel und positiv orientiertes Dreibein im R3 . In der Physik finden sich derartige Aufgabenstellungen beim Drehimpuls, der Bewegung eines starren Körpers oder bei der Bewegung eines Elektrons im Magnetfeld. 1.2 Definition: Vektorprodukt. Das Vektorprodukt oder Kreuzprodukt zweier Vektoren u1 v1 ~u = u2 , ~v = v2 ∈ R3 u3 v3 105 KAPITEL 3. VEKTORRECHNUNG ist definiert durch u1 v1 u2 v3 − u3 v2 ~u × ~v = u2 × v2 := u3 v1 − u1 v3 . u3 v3 u1 v2 − u2 v1 Es wird manchmal auch mit [~u, ~v ], [~u~v ] oder ~u ∧ ~v bezeichnet. Mit dem Levi-Civita-Tensor für (k, l, m) = (1, 2, 3), (2, 3, 1), (3, 1, 2), 1 εklm := −1 für (k, l, m) = (1, 3, 2), (3, 2, 1), (2, 1, 3), 0 sonst, für k, l, m ∈ {1, 2, 3} erhält das Vektorprodukt die Darstellung ~u × ~v = 3 X εklm uk vl~em . k,l,m=1 1.3 Eigenschaften des Vektorprodukts. (a) ~u × ~v = ~0 genau dann, wenn ~u und ~v linear abhängig. (b) Span(~u × ~v ) = Span(~u, ~v )⊥ falls ~u und ~v linear unabhängig, d.h. die zu ~u und ~v senkrechten Vektoren sind dann gerade die Vielfachen von ~u × ~v . p (c) k~u × ~v k = k~uk · k~v k · sin ϕ = k~uk2 k~v k2 − h~u|~v i2 für ~u, ~v 6= ~0, wobei ϕ ∈ [0, π] der Winkel zwischen ~u und ~v ist. (d) Antisymmetrie: ~u × ~v = −~v × ~u. (e) Linearität: (λ~u + µ~v ) × w ~ = λ~u × w ~ + µ~v × w. ~ (f) Graßmannscher Entwicklungssatz : (~u × ~v ) × w ~ = h~u|wi~ ~ v − h~v |wi~ ~ u. (g) Jacobi-Identität: (~u × ~v ) × w ~ + (~v × w) ~ × ~u + (w ~ × ~u) × ~v = ~0. Beweis. Zu (a): Sind ~u und ~v linear abhängig, so ist nach §3.1.16 ~u ein Vielfaches von ~v oder umgekehrt. Im ersten Fall gilt ~u = λ~v , d.h. uk = λvk für k = 1, 2, 3 und damit ~u × ~v = ~0. Der zweite Fall erledigt sich analog. Gilt umgekehrt ~u × ~v = ~0, so sind ~u und ~v sicher linear abhängig, wenn ~u = ~0. Andernfalls ist etwa u1 6= 0 (die anderen beiden Möglichkeiten behandle man analog) und wegen u1 v2 = u2 v1 und u3 v1 = u1 v3 dann v1 = uv11 u1 , v2 = uv11 u2 , v3 = uv11 u3 , d.h. ~v = uv11 ~u. Zu (b): Wir berechnen h~u × ~v |~ui = u1 u2 v3 − u1 u3 v2 + u2 u3 v1 − u1 u2 v3 + u1 u3 v2 − u2 u3 v1 = 0 und analog h~u × ~v |~v i = 0. Dies zeigt ~u, ~v ⊥ ~u × ~v und dann auch Span(~u × ~v ) ⊆ Span(~u, ~v )⊥ . Sind ~u und ~v linear unabhängig, gilt auch die umgekehrte Inklusion: Dann ist ~u × ~v 6= ~0 gemäß (a), es gilt also etwa u1 v2 − u2 v1 6= 0 (die anderen beiden Möglichkeiten behandle man analog). Für einen Vektor ~x ∈ Span(~u, ~v )⊥ gilt dann h~u|~xi = 0 = h~v |~xi. Das lässt sich in als Gleichungssystem u1 x1 + u2 x2 = −u3 x3 und v1 x1 + v2 x2 = −v3 x3 schreiben und dieses Gleichungssystem hat die eindeutig bestimmte Lösung −u3 v2 u1 v2 −u2 v1 1 v3 3 x1 = uu12 vv23 −u x3 , x2 = uu31 vv12 −u x = u1 v2x−u ~u × ~v , d.h. −u2 v1 x3 . Zusammen mit x3 = u1 v2 −u2 v1 x3 folgt ~ 2 v1 2 v1 ~x ∈ Span(~u × ~v ). (c) erhält man durch Wurzelziehen aus k~uk2 · k~v k2 · sin2 ϕ = k~uk2 · k~v k2 · (1 − cos2 ϕ) = k~uk2 · k~v k2 − h~u|~v i2 = (u1 2 + u2 2 + u3 2 )(v1 2 + v2 2 + v3 2 ) − (u1 v1 + u2 v2 + u3 v3 )2 = (u2 v3 − u3 v2 )2 + (u3 v1 − u1 v3 )2 + (u1 v2 − u2 v1 )2 = k~u × ~v k2 . Die Regeln (d)–(g) beweist man ebenfalls durch fleißiges Rechnen. Dank (b) und (c) erfüllt unser Vektorprodukt die Forderungen (1) und (2). Aber wie steht es mit (3)? Nun, wir drehen formal den Spieß um und definieren „positiv orientiert“ mit Hilfe des Kreuzprodukts. §4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3 106 1.4 Orientierung von Orthonormalsystemen im R3 . Bilden drei Vektoren ~v1 , ~v2 , ~v3 ein Orthonormalsystem im R3 so gilt entweder ~v3 = ~v1 × ~v2 oder ~v3 = −~v1 × ~v2 . Im ersten Fall sprechen wir von einem positiv orientierten Orthonormalsystem oder Rechtssystem, im zweiten von einem negativ orientierten Orthonormalsystem oder Linkssystem. 1.5 Ebene und Normale. Ist E = Span(~v , w) ~ eine Ursprungsebene im R3 , welche von den beiden 3 Richtungsvektoren ~v , w ~ ∈ R aufgespannt wird, so bilden die zu E senkrechten Vektoren E ⊥ = {~a ∈ R3 | h~a|~ui = 0 für alle ~u ∈ E} die Normale von E. Nach 1.3 (b) gilt E ⊥ = Span(~n) mit ~n := 1 ~v × w. ~ k~v × wk ~ Wir nennen ~n den Einheitsnormalenvektor zu E. Die zu ~n senkrechten Vektoren sind gerade wieder die Vektoren in E, d.h. (E ⊥ )⊥ = E. Beweis. Die Inkusion E ⊆ (E ⊥ )⊥ folgt sofort aus der Definition des orthogonalen Komplements 3.2. Wir müssen also noch (E ⊥ )⊥ ⊆ E nachweisen. Sei ~v ∈ (E ⊥ )⊥ . Dann gilt ~v ⊥ ~n. Für die orthogonale Projektion P auf E gilt ~v − P (~v ) ⊥ E, also ~v − P (~v ) = λ~n mit einem λ ∈ R. Wegen k~v − P (~v )k2 = h~v −P (~v )|~v −P (~v )i = h~v −P (~v )|λ~ni = λh~v |~ni−λhP (~v )|~ni = 0 folgt ~v −P (~v ) = ~0 und damit ~v = P (~v ) ∈ E. Zur Übung leite man aus obigen Satz und seinem Beweis die folgende Aussage ab. Normale 1.6 Hessesche Normalform. Ist E = ~a +Span(~v , w) ~ eine Ebene im R3 durch ~a aufgespannt von ~v und w, ~ so gilt E = {~u ∈ R3 | h~n|~ui = h~n|~ai} mit ~n := 1 ~v × w. ~ k~v × wk ~ h~n|~ai~n Der Abstand eines Punktes ~x ∈ R3 von E ist gegeben durch |h~n|~x − ~ai|. ~n ~0 Die obige Darstellung von E nennen wir Hessesche Normalform von E. 2 ~a − ~u h~n|~ui = h~n|~ai h~n|~ui = h~n|~0i = 0 Abbildung 3.17: Parallele Ebenen und Normale. Spatprodukt 2.1 Definition: Spatprodukt. Für drei Vektoren ~u, ~v , w ~ ∈ R3 nennen wir det(~u, ~v , w) ~ := h~u × ~v |wi ~ das Spatprodukt oder die Determinante von ~u, ~v , w. ~ w ~ ~v ~u Abbildung 3.18: Zum Spatprodukt im R3 . 2.2 Eigenschaften. (a) Antisymmetrie: det(~u, ~v , w) ~ = −det(~v , ~u, w), ~ det(~u, ~v , w) ~ = −det(w, ~ ~v , ~u), det(~u, ~v , w) ~ = −det(~u, w, ~ ~v ), d.h. das Spatprodukt ändert sein Vorzeichen beim Vertauschen zweier Einträge. 107 KAPITEL 3. VEKTORRECHNUNG (b) Zyklische Symmetrie: det(~u, ~v , w) ~ = det(~v , w, ~ ~u) = det(w, ~ ~u, ~v ), d.h. das Spatprodukt bleibt gleich, wenn man die Einträge zyklisch verschiebt. (c) Linearität: det(λ1 ~u1 + λ2 ~u2 , ~v , w) ~ = λ1 det(~u1 , ~v , w) ~ + λ2 det(~u2 , ~v , w), ~ analog für die zweite oder die dritte Spalte. (d) Cramersche Regel : det(~u, ~v , w) ~ = u1 v2 w3 + v1 w2 u3 + w1 u2 v3 − w1 v2 u3 − v1 u2 w3 − u1 w2 v3 . (e) det(~u, ~v , w) ~ = 0 genau dann, wenn ~u, ~v , w ~ ∈ R3 linear abhängig sind. (f) | det(~u, ~v , w)| ~ ist das Volumen des von ~u, ~v , w ~ aufgespannten Spatkristalls. Die Cramersche Regel kann man sich symbolisch in der Form •◦◦ ◦•◦ ◦◦• ◦◦• ◦•◦ •◦◦ •◦ ◦◦• •◦◦ ◦•◦ •◦◦ ◦◦• det(~u, ~v , w) ~ = +◦ ◦ ◦ • + • ◦ ◦ + ◦ • ◦ − • ◦ ◦ − ◦ ◦ • − ◦ • ◦. merken. Unter Verwendung des Levi-Civita-Tensors gilt u1 v1 w1 3 X εklm uk vl wm . det(~u, ~v , w) ~ = u2 v2 w2 = u3 v3 w3 k,l,m=1 Beweis. (a) folgt sofort aus der Antisymmetrie des Kreuzprodukts und der Symmetrie des Skalarprodukts. Anschließend erhält man (b) durch zweimalige Anwendung von (a). Die Definitionen von Vektorund Skalarprodukt bzw. deren Linearität liefern (d) bzw. (c). Zu (e): Genau dann sind drei Vektoren im R3 linear abhängig, wenn einer von ihnen eine Linearkombination der beiden anderen ist. Wir nennen den einen ~u, die beiden anderen ~v und w. ~ Mit 1.5 und 1.3 (b) gilt dann ~u ∈ Span(~v , w) ~ ⇔ ~u ∈ Span(~v × w) ~ ⊥ ⇔ ~u ⊥ Span(~v × w) ~ ⇔ h~u|~v × wi ~ = 0. Zu (f): Die Grundfläche F des von ~u, ~v , w ~ aufgespannten Spatkristalls ist nach 1.3 (c) gegeben durch F = k~u ×~v k. Seine Höhe h erhalten wir, indem wir den Abstand von w ~ zu der von ~u und ~v aufgespannten 1 ~ u × ~ v und wir erhalten für das Volumen Grundfläche ermitteln. Dank 1.6 folgt h = |h~n|wi| ~ mit ~n = k~u×~ vk 1 ~ ~u × ~v | wi ~ = |h~u × ~v |wi|. V = F h = k~u × ~v k · h k~u × ~v k 3 Drehungen im Raum 3.1 Zylinderkoordinaten. Jeder Vektor ~x im R3 r Span(~e3 ) besitzt eine eindeutige Darstellung der Form x1 ρ cos ϕ x2 = ρ sin ϕ mit ρ > 0, ϕ ∈ [0, 2π[. x3 x3 Diese Darstellung nennen wir Zylinderkoordinaten von ~x bezüglich der x3 -Achse. x3 ~x ρ x2 ϕ ) x1 Abbildung 3.19: Zylinderkoordinaten. Existenz und Eindeutigkeit dieser Darstellung erhalten wir sofort aus den Polarkoordinaten in C bzw. R2 (vgl. 2.§2.5.16). Deswegen rechnet man auch mittels ( p arccos xρ1 für x2 ≥ 0, 2 2 ϕ := ρ := x1 + x2 , x1 2π − arccos ρ für x2 < 0, von kartesischen Koordinaten (x1 , x2 , x3 ) in Zylinderkoordinaten (ρ, ϕ, x3 ) um. §4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3 108 Analog führt man Zylinderkoordinaten bezüglich der x1 - oder x2 -Achse ein. Die Achse muss man jeweils ausnehmen, wenn man Eindeutigkeit von ρ und ϕ haben will. Für Punkte auf der Achse würde man ρ = 0 setzen und könnte dann ϕ beliebig wählen. Zylinderkoordinaten sind nützlich, wenn bezüglich der zugehörigen Achse Drehsymmetrie vorliegt, d.h. eine Konfiguration (z.B. ein Körper) nach Drehung um die Achse in sich selbst übergeht. 3.2 Drehung um eine Koordinatenachse. Eine Drehung D~e3 ,ϕ mit dem Ursprung als Drehpunkt um die x3 -Achse um den Winkel ϕ wirkt wie eine ebene Drehung um ϕ in der (x1 , x2 )-Ebene und lässt die x3 -Koordinate fest. x1 x1 cos ϕ − x2 sin ϕ x2 7→ x1 sin ϕ + x2 cos ϕ . D~e3 ,ϕ : R3 → R3 , x3 x3 ϕ Die Basisvektoren ~e1 , ~e2 , ~e3 des alten Koordinatensystems werden dabei in ~e1 0 = cos ϕ~e1 − sin ϕe~2 , ~e2 0 = sin ϕ~e1 + cos ϕe~2 , ~e3 0 = ~e3 Abbildung 3.20: Drehung um die x3 -Achse. übergeführt. Analog führen wir Drehungen D~e2 ,ϕ und D~e1 ,ϕ um die x2 - bzw. die x1 -Achse ein. Diese Drehungen wollen wir nun im Matrizenkalkül beschreiben. 3.3 (3 × 3)-Matrizen. Für (3 × 3)-Matrizen erklären wir analog zum (2 × 2)-Fall §2.3.1 das Produkt einer Matrix A mit einem Vektor ~x durch a11 a12 a13 x1 a11 x1 + a12 x2 + a13 x3 A~x = a21 a22 a23 x2 := a21 x1 + a22 x2 + a23 x3 , a31 a32 a33 x3 a31 x1 + a32 x2 + a33 x3 und das Produkt zweier (3 × 3)-Matrizen A, B durch a11 a12 a13 b11 b12 b13 AB = a21 a22 a23 b21 b22 b23 a31 a32 a33 b31 b32 b33 a11 b11 + a12 b21 + a13 b31 a11 b12 + a12 b22 + a13 b32 = a21 b11 + a22 b21 + a23 b31 a21 b12 + a22 b22 + a23 b32 a31 b11 + a32 b21 + a33 b31 a31 b12 + a32 b22 + a33 b32 a11 b13 + a12 b23 + a13 b33 a21 b13 + a22 b23 + a23 b33 . a31 b13 + a32 b23 + a33 b33 Das merkt man sich am besten wieder in der Form „die Spalten der Produktmatrix AB erhält man, indem man die Spaltenvektoren von B an A multipliziert“: AB = A(~b1 , ~b2 , ~b3 ) = (A~b1 , A~b2 , A~b3 ). Auch hier kommt es beim Bilden des Matrizenprodukts auf die Reihenfolge an. 3.4 Drehmatrizen im Raum. Nun können wir jede der drei Drehungen D~ek ,ϕ , k = 1, 2, 3, als ein Matrizen-Vektor-Produkt D~ek ,ϕ (~x) = Uk,ϕ ~x schreiben mit U1,ϕ 1 := 0 0 0 0 cos ϕ 0 − sin ϕ cos ϕ − sin ϕ 0 cos ϕ − sin ϕ , U2,ϕ := 0 1 0 , U3,ϕ := sin ϕ cos ϕ 0 . sin ϕ cos ϕ sin ϕ 0 cos ϕ 0 0 1 Die Spalten von Uk,ϕ enthalten dann gerade die Koordinaten der Bilder der Basisvektoren unter der Drehung D~ek ,ϕ . 109 KAPITEL 3. VEKTORRECHNUNG Durch Nachrechnen verifiziert man, dass die Spaltenvektoren aller drei Drehmatrizen Uk,ϕ normiert sind und jeweils paarweise aufeinander senkrecht stehen. Jede Drehung D~ek ,ϕ bildet also eine Orthonormalbasis des R3 auf eine Orthonormalbasis ab (vgl. 5.§6.3.8). 3.5 Polarkoordinaten im Raum und Kugelkoordinaten. Wir wollen einen Vektor ~x durch eine Drehung um die x3 -Achse und eine anschließende Drehung um die x2 -Achse in den ersten Standardbasisvektor ~e1 überführen. Hierzu muss ~x offensichtlich normiert sein. Wir gehen hierzu folgendermaßen vor. Schritt 1. Falls ~x auf der x3 -Achse liegt, d.h. falls x1 = x2 = 0, so setzen wir ϕ := 0. Andernfalls berechnen wir den √ Polarkoordinatenwinkel ϕ ∈ [0, 2π[ von (x1 , x2 ), d.h. x1 = ρ cos ϕ und x2 = ρ sin ϕ mit ρ = x1 2 + x2 2 > 0, drehen mit D~e3 ,−ϕ und erhalten x1 cos(−ϕ) − x2 sin(−ϕ) ρ ρ cos2 ϕ + ρ sin2 ϕ D~e3 ,−ϕ (~x) = x1 sin(−ϕ) + x2 cos(−ϕ) = −ρ cos ϕ sin ϕ + ρ sin ϕ cos ϕ = 0 . x3 x3 x3 In jedem Fall haben wir also ~x durch eine Drehung um −ϕ um die x3 -Achse in √ x1 2 + x2 2 ~y := D~e3 ,−ϕ (~x) = 0 x3 übergeführt. Schritt 2. Aus k~xk2 = x1 2 + x2 2 + x3 2 = 1 folgt k~y k = y1 2 + y3 2 = 1. Wegen y1 ≥ 0 hat (y1 , y3 ) eine Polarkoordinatendarstellung der Form y1 = cos θ, y3 = sin θ mit θ ∈ [−π/2, π/2]. Die Drehung D~e2 ,−θ führt ~y daher in ~e1 über, y1 cos(−θ) − y3 sin(−θ) cos2 θ + sin2 θ = = ~e1 . 0 D~e2 ,−θ (~y ) = 0 y1 sin(−θ) + y3 cos(−θ) − cos θ sin θ + sin θ cos θ ~y ~x ϕ ~y ~x Abbildung 3.21: Die zwei Teilschritte der Drehung von ~x in ~e1 . θ ~e1 §4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3 110 Umgekehrt wird r~e1 für r > 0 durch die Drehungen D~e2 ,θ und D~e3 ,ϕ in r~x übergeführt, cos ϕ − sin ϕ 0 cos θ 0 − sin θ r 1 0 0 D~e3 ,ϕ (D~e2 ,θ (r~e1 )) = U3,ϕ U2,θ ~e1 = sin ϕ cos ϕ 0 0 0 0 1 sin θ 0 cos θ 0 cos ϕ − sin ϕ 0 r cos θ r cos ϕ cos θ = sin ϕ cos ϕ 0 0 = r sin ϕ cos θ . 0 0 1 r sin θ r sin θ Auf diese Weise können wir jedem Punkt im R3 außer dem Ursprung drei Zahlen r > 0, θ ∈ [−π/2, π/2] und ϕ ∈ [0, 2π[ zuordnen. Eine genaue Inspektion unseres Vorgehens zeigt, dass diese Zuordnung eindeutig wird, wenn wir Punkte auf der x3 -Achse ausschließen. Dann gilt sogar θ ∈] − π/2, π/2[. Fazit. Jeder Vektor ~x im R3 r Span(~e3 ) besitzt eine eindeutige Darstellung der Form x1 r cos ϕ cos θ x2 = r sin ϕ cos θ mit r > 0, θ ∈] − π , π [, ϕ ∈ [0, 2π[. 2 2 x3 r sin θ Diese Darstellung nennen wir Polarkoordinaten im Raum von ~x. Der Winkel ϕ wird geographische Länge, der Winkel θ geographische Breite genannt. In der Physik ersetzt man θ gerne durch π 2 − θ. Dann gilt θ ∈]0, π[ und wir erhalten die Kugelkoordinaten. 3 Jeder Vektor ~x im R r Span(~e3 ) besitzt eine eindeutige Darstellung der Form x1 r cos ϕ sin θ x2 = r sin ϕ sin θ mit r > 0, θ ∈]0, π[, ϕ ∈ [0, 2π[. r cos θ x3 r θ ϕ r θ ϕ Abbildung 3.22: Polarkoordinaten im Raum und Kugelkoordinaten. Um Verwechslungen zu vermeiden, haben wir zuvor von „Polarkoordinaten im Raum“ gesprochen obwohl auch hierfür die Bezeichnung „Kugelkoordinaten“ üblich ist. 3.6 Allgemeine Drehungen. Eine Drehung um eine vorgegebene Achse ~v beschreibt man am besten dadurch, dass man ~v zu ~n normiert, diesen Vektor als Normalenvektor einer Ebene auffasst und selbige durch zwei orthonormierte Vektoren ~v und w ~ aufspannt. Dann bildet ~v , w, ~ ~n (ggf. nach Vertauschung von ~v und w) ~ eine positiv orientierte Orthonomalbasis, bezüglich der die Drehung wie in 3.2 beschrieben werden kann. 111 Kapitel 4 Analysis, vornehmlich in einer Variablen Wir entwickeln nun die Analysis, d.h. vor allem die Differential- und Integralrechnung in einer und mehreren Variablen. In diesem Kapitel liegt unser Hauptaugenmerk auf Funktionen einer (reellen) Variablen. Wo es problemlos möglich ist, behandeln wir zugleich komplex- oder vektorwertige Funktionen, manchmal auch Funktionen einer komplexer oder mehrerer reeller Variablen. Dies geschieht, um den Bedürfnissen der Physik nach „möglichst schnell möglichst viel“ Analysis gerecht zu werden. Wer sich dabei unsicher führt, der ziehe sich auf den reellen Fall zurück, den wir auch immer in den Vordergrund stellen werden. Diejenigen Teile der Analysis, in denen sich Funktionen mehrerer Variablen stark von denen einer Variablen unterscheiden, müssen wir auf Kapitel 6 zurückstellen — vor allem deswegen, weil wir dabei mehr Wissen aus der linearen Algebra (Kapitel 5) benötigen, als es die Vektorrechnung aus Kapitel 3 bereitstellt. Getreu unserem Motto „man spart sich Kummer mit Funktionen, wenn man nicht nur an die Abbildungsvorschrift, sondern immer auch an den Definitionsbereich denkt“ beginnen wir mit Grundbegriffen. §1 1 Grundlegendes über Raum, Zeit und Funktionen Folgen von Vektoren 1.1 Definition: Grenzwert. Eine Folge (~xk )k von Vektoren im Rn konvergiert gegen einen Vektor ~x ∈ Rn oder hat den Grenzvektor ~x, in Zeichen lim ~xk = ~x k→∞ oder ~xk → ~x für k → ∞, wenn zu jedem ε > 0 ein kε ∈ N existiert mit k~xk − ~xk < ε für alle k ≥ kε . Wir haben also die Definitionen 1.§2.6.1 und 1.§3.3.1 für reelle bzw. komplexe Zahlenfolgen wörtlich — bis auf die Ersetzung des Betrags durch die Norm — übertragen. 1.2 Konvergenz und komponentenweise Konvergenz. Eine Folge (~xk )k von Vektoren im Rn konvergiert genau dann, wenn alle n Komponentenfolgen (xk,l )k , l = 1, . . . , n konvergieren. Die Grenzwerte der Komponentenfolgen sind dann die Komponenten des Grenzvektors: xk,1 limk→∞ xk,1 .. lim ... = . . k→∞ xk,n limk→∞ xk,n 112 §1. GRUNDLEGENDES ÜBER RAUM, ZEIT UND FUNKTIONEN Beweis. Wir betrachten die Differenzvektoren ~xk − ~x und müssen zeigen, dass selbige genau dann gegen den Nullvektor konvergieren, wenn alle Komponentenfolgen Nullfolgen sind. Für die Norm eines Vektors ~v ∈ Rn gilt aber die Abschätzung |vl | ≤ k~v k = p v1 2 + · · · + vn 2 ≤ |v1 | + · · · + |vn | für l = 1, . . . , n, mit der wir vom Betrag einer Komponente auf die Norm und umgekehrt schließen können. (Die obere Schranke für k~v k bedeutet geometrisch, dass eine Kugel in einem achsenparallelen Würfel liegt.) 1.3 Was bleibt erhalten? Dank der Äquivalenz von Konvergenz und komponentenweiser Konvergenz erhalten wir aus den Rechenregeln für konvergente Zahlenfolgen Rechenregeln für konvergente Folgen von Vektoren. Sind (~xk )k und (~yk )k Folgen von Vektoren im Rn mit limk→∞ ~xk = ~x und limk→∞ ~yk = ~y , so gilt. (a) (~xk )k ist beschränkt (im Sinne der Norm), (b) jede Teilfolge von (~xk )k konvergiert gegen ~x, (c) limk→∞ (λ~xk + µ~yk ) = λ~x + µ~y für beliebige Skalare λ, µ ∈ R, (d) limk→∞ k~xk k = k~xk, (e) limk→∞ h~xk |~yk i = h~x|~y i, Wie in 1.§3.3.5 bzw. 1.§3.3.6 erhalten wir ferner: 1.4∗ Satz von Bolzano-Weierstraß im Rn . Jede (bezüglich der Norm) beschränkte Folge von Vektoren im Rn enthält eine konvergente Teilfolge. 1.5∗ Cauchy-Folgen im Rn . Eine Folge (~xk )k von Vektoren im Rn heißt Cauchy-Folge, wenn es zu jedem ε > 0 ein kε ∈ N gibt mit |ak − al | < ε für alle k, l ∈ N mit k, l ≥ kε . Eine Folge von Vektoren im Rn ist genau dann eine Cauchy-Folge, wenn sie konvergiert. 1.6 Zusammenfassung. Konvergenz von Folgen in R, C und Rn wird nach demselben Strickmuster behandelt. Leichte Unterschiede bestehen nur bei den für die Folgeglieder zur Verfügung stehenden Rechenoperationen: Addition, Subtraktion, Multiplikation und Division in R und C, Vektoraddition, Skalarmultiplikation und Skalarprodukt im Rn . Der Betrag in R und C bzw. die Norm im Rn stellen jeweils eine Abstandsmessung zur Verfügung und erlauben damit die Einführung des Grenzwertbegriffs. 2 Kurven, Skalar- und Vektorfelder 2.1 Reell- komplex- oder vektorwertige Funktionen einer oder mehrerer Variablen. Je nachdem, ob der Wertevorrat einer Funktion in R, C oder Rm liegt, nennen wir die Funktion reell-, komplexoder vektorwertig. Ist sie auf einer Teilmenge von R, C bzw. Rn definiert, so sprechen wir von einer Funktion einer reellen oder einer komplexen Variablen bzw. mehrerer Variablen. Eine vektorwertige Funktion bezeichnen wir mit f~ statt f . Den Funktionswert an der Stelle x schreiben wir dann als Koordinatenvektor f~(x) = (f1 (x), . . . , fm (x)) und nennen die so definierten Funktionen fl : D → R, l = 1, . . . , m, die Komponentenfunktionen von f~. (Ist f~ dabei eine Funktion mehrerer Variablen, so kennzeichnen wir auch die Variable ~x mit einem Vektorpfeil.) 113 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 2.2 Beispiele für Kurven. Wenn ϕ in f~(ϕ) := (r cos ϕ, r sin ϕ) (im Komplexen ist das reiϕ ) von 0 nach 2π läuft, so bewegt sich f~(ϕ) in der Ebene von (r, 0) beginnend einmal im Gegenuhrzeigersinn auf der Einheitskreislinie vom Radius r um den Ursprung. Für F~ (ϕ) := (r cos ϕ, r sin ϕ, cϕ) passiert in der (x1 , x2 )-Ebene dasselbe, während sich die x3 -Koordinate um 2πc erhöht. Wir erhalten eine Schraubenlinie um die x3 -Achse mit Radius r und Ganghöhe 2πc. Abbildung 4.1: Schraubenlinie im Raum. 2.3 Parameterdarstellungen und Spur einer Kurve. Eine vektorwertige Funktion f auf einem Intervall I ⊂ R mit Werten im Rm nennen wir Parametrisierung einer Kurve γ oder Weg im Rm . Die Wertemenge f (I) ⊂ Rm heißt Spur der Kurve γ. Für m = 2 ist der komplexwertige Fall eingeschlossen. Wir interpretieren die Variable am besten als Zeit, den Funktionswert als Ort und bezeichnen sie mit t und ~x(t). Für I = [t0 , t1 ] nennen wir ~x(t0 ) Anfangspunkt und ~x(t1 ) Endpunkt von γ. Die Parametrisierung ~x gibt den Zeitplan an, gemäß dem wir uns auf der Kurve γ vom Anfangs- zum Endpunkt bewegen. Beispiel. ~x(t) := (cos t, sin t) (im Komplexen x(t) := eit ). Für I = [0, 2π] oder I = [2π, 4π] wird die Einheitskreislinie einmal im Gegenuhrzeigersinn durchlaufen mit Anfangs- und Endpunkt (1, 0). Für I = [−π, π] ist (−1, 0) der Anfangs- und Endpunkt, für I = [0, 4π] beginnen und enden wir wieder in (1, 0), laufen aber zweimal im Gegenuhrzeigersinn. Ersetzen wir ~x(t) := (cos 2πt, sin 2πt), so genügt I = [0, 1], um einmal im Gegenuhrzeigersinn um den Kreis zu laufen, für ~x(t) := (− cos 2πt, sin 2πt), laufen wir im Uhrzeigersinn. Jedes Mal ist die Spur die Einheitskreislinie. Fazit. Wir müssen unterscheiden zwischen einer Kurve, ihrer Spur und ihren Parametrisierungen. 2.4 Orientierte Kurve, Parameterwechsel. Zwei Wege ~x : I = [t0 , t1 ] → Rm und ~y : J = [τ0 , τ1 ] → Rm heißen Parametrisierungen derselben Kurve γ im Rm , wenn es eine streng monoton wachsende surjektive Abbildung ϕ : I → J gibt mit ϕ(t0 ) = τ0 , ϕ(t1 ) = τ1 und ~x = ~y ◦ ϕ, d.h. ~x(t) = ~y (ϕ(t)) für alle t ∈ I. Wir nennen dann ϕ einen Parameterwechsel für γ. Einen Parameterwechsel stellen wir uns als Durchlaufen derselben Kurve mit anderem Zeitplan vor. Anfangs- und Endpunkt sowie Durchlaufungsrichtung werden beibehalten. Das wird durch die Bedingungen ϕ(t0 ) = τ0 und ϕ(t1 ) = τ1 sowie die Monotonie von ϕ sichergestellt. Alle Parametrisierungen einer Kurve γ haben denselben Anfangs- und Endpunkt sowie dieselbe Spur. Eine Kurve γ im Rm ist also „mehr“ als die Wertemenge f~(I) einer ihrer Parametrisierungen f~, aber „weniger“ als f~. Wir stellen sie uns als ihre Spur zusammen mit einer Vereinbarung über die Durchlaufungsrichtung vor und sprechen von einer (orientierten) Kurve. ~x(t) = ~y (τ ) Beispiele. Durch ~x(t) = (− cos t, sin t), t ∈ [0, π], wird ein Halbkreisbogen um (0, 0), durchlaufen von (−1, 0) nach (1, 0), parametrisiert. Der Parameterwechsel ϕ(t) := arccos(−t) von I = [0, π] auf J = [−1, 1] liefert nach √ kurzer Rechnung als neue Parametrisierung t ~y (τ ) = (τ, 1 − τ 2 ), τ ∈ [−1, 1]. Die erste Parametrisierung τ gehört zu einer gleichmäßigen Durchlaufung auf dem KreisAbbildung 4.2: Zwei Parametrisiebogen selbst (in Bogenlänge), die zweite zu einer gleichmärungen eines Halbkreisbogens. ßigen Durchlaufung von der x1 -Achse aus gesehen. Abstrakte Beispiele für Kurven und Wege sind der Konfigurationsraum eines k-Teilchen-Systems (d.h. die zu einem Vektor im R6k zusammengefassten Orts- und Impulsvektoren der einzelnen Teilchen) oder der Zustand eines thermodynamischen Systems in Abhängigkeit von der Zeit. 114 §1. GRUNDLEGENDES ÜBER RAUM, ZEIT UND FUNKTIONEN 2.5 Skalarfelder. Eine reellwertige Funktion f : D ⊂ Rn → R mehrerer Variablen nennen wir auch Skalarfeld . Ist f komplexwertig, so sprechen wir auch von einem komplexen Skalarfeld. Beispiel. Temperatur oder Druck in Abhängigkeit vom Ort. 2.6 Graphische Darstellung von Skalarfeldern. Für ein Skalarfeld zeichnen wir den Graphen Gf := {(~x, f (~x)) = (x1 , . . . , xn , f (x1 , . . . , xn )) ∈ Rn+1 | ~x ∈ D} oder genügend viele Niveaumengen Nf,c := {~x ∈ D | f (~x) = c} ⊂ Rn , c ∈ R. Für n > 2 entzieht sich der Graph, für n > 3 die Darstellung der Niveaumengen unserer Vorstellung. Alles Wesentliche kann man aber am Beispiel n = 2 studieren. Dann stellen wir uns den Graphen als eine „Berg- und Tallandschaft“ über dem Definitionsbereich D vor, Niveaumengen als „Höhenlinien“ in D. 2 0.2 -0.2 -2 -2 2 -1 0 1 2 2 1 1 0 0 2 1 -1 0 1 -2 2 0 -1 -1 2-2 -2 -1 -2 -2 -1 0 1 2 -2 Abbildung 4.3: Graph und Niveaumengen (pur/eingefärbt) des Skalarfelders f (x, y) = ye−x 2 −y 2 . 2.7 Vektorfelder. Eine vektorwertige Funktion mehrerer Variablen f~ : D ⊂ Rn → Rn nennen wir auch Vektorfeld . Definitionsbereich D und Wertevorrat liegen also im selben Raum. Beispiel. Gravitationskraft, elektrische oder magnetische Feldstärke in Abhängigkeit vom Ort. 2.8 Graphische Darstellung von Vektorfeldern. Wir haben schon einige Vektorfelder und vektorwertige Funktionen durch Zeichnen von Gittern im Definitionsraum und deren Bildgitter graphisch dargestellt: für Exponentialfunktion im Komplexen (Abbildung 2.13 in Kapitel 2) und für die Riemannsche Fläche zu Exponentialfunktion und Logarithmus (Abbildung 2.14 in Kapitel 2). Hierbei wurde C als der R2 interpretiert, d.h. exp als ein Vektorfeld R2 → R2 . Neben dieser Darstellung ist das Zeichnen eines Vektorfeldes (die Darstellung hat denselben Namen wie die Abbildung) üblich: wir heften den Bildvektor f~(~x) an die Stelle ~x im Definitionsbereich. Das geht gut für ebene Vektorfelder (n = 2) und zur Not auch im Raum (n = 3). ~x 7→ − k~x1k3 ~x 1 ~x 7→ − k~x+~ x + ~a) − ak3 (~ Abbildung 4.4: Zwei Vektorfelder im Raum. 1 x k~ x−~ ak3 (~ − ~a) 115 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 1 -1 1 1 -1 -1 1 -1 -1 (x, y) 7→ (x, y) (x, y) 7→ (x + y, x − y) 1 1 -1 -1 1 1 -1 -1 x (x, y) 7→ ( x2−y +y 2 , x2 +y 2 ) y x (x, y) 7→ ( x2 +y 2 , x2 +y 2 ) 1 -1 (x, y) 7→ (−y, x) 1 -1 1 1 -1 2 x+y 2x−y (x, y) 7→ ( 1+x 2 +x2 , 1+x2 +y 2 ) Abbildung 4.5: Einige Vektorfelder in der Ebene. 2.9 Vereinbarung. Sind wir in §2 primär an Funktionen einer reellen Variablen interessiert, bezeichnen wir die Variable mit t und stellen sie uns als Zeit vor. Geht es vor allem um Funktionen mehrerer Variablen, d.h. um Skalar- oder Vektorfelder oder allgemein um Funktionen D ⊂ Rn → Rm , so bezeichnen wir die Variable mit x oder ~x und interpretieren sie als Ort. 3 Topologisches Vokabular 3.1 Worum geht es? Was der Rand eines Kreises, einer Kugel oder eines Quaders ist, ist jedem klar. Was ist aber der Rand von {1, 12 , 13 , . . .}? 3.2 Innere Punkte, isolierte Punkte, Häufungspunkte. Für eine Teilmenge D des Rn unterscheiden wir drei Typen von Punkten: • Ein Punkt ~x ∈ D heißt innerer Punkt, wenn es eine Kugel um ~x mit positivem Radius gibt, die ganz in D liegt: Kr (~x) ⊂ D. • Ein Punkt ~x ∈ D heißt isolierter Punkt, wenn es eine Kugel um ~x mit positivem Radius gibt, so dass ~x der einzige Punkt aus D in dieser Kugel ist: Kr (~x) ∩ D = {~x}. • Ein Punkt ~x ∈ Rn heißt Häufungspunkt von D, wenn es eine Folge von Punkten ~xk ∈ D gibt, die gegen ~x konvergiert: limk→∞ ~xk = ~x. |{z} ∈D Achtung. Innere Punkte und isolierte Punkte von D gehören automatisch zu D, für Häufungspunkte muss dies nicht der Fall sein. Innere Punkte sind immer Häufungspunkte, isolierte Punkte nie. Folgende Veranschaulichung ist nützlich: Wir stellen uns die Punkte von D schwarz, die restlichen Punkte des Rn weiß eingefärbt vor. Nun fixieren wir einen Punkt ~x ∈ Rn und „zoomen“ uns mit einem Mikroskop in diesen Punkt hinein. Für das, was wir dabei beobachten können, gibt es vier Möglichkeiten: • Irgendwann wird alles schwarz: wir haben einen inneren Punkt von D fixiert. 116 §1. GRUNDLEGENDES ÜBER RAUM, ZEIT UND FUNKTIONEN • Irgendwann wird alles weiß: ~x hat nichts mit D zu tun. (Dafür haben wir keine Bezeichnung.) • Irgendwann ist nur noch der fixierte Punkt schwarz, alles andere weiß: ~x ist isolierter Punkt von D. • (Alles, was wir bisher noch nicht erfasst haben.) Egal, wie weit wir uns hineinzoomen, wir sehen außer eventuell ~x selbst immer noch andere schwarze Punkte: dann ist ~x ein Häufungspunkt von D. Im Fall n = 2, d.h. im R2 oder in C, hat unser Mikroskop ein kreisförmiges Gesichtsfeld (zweidimensionale Kugeln sind Kreise). Für n = 1 ist das Gesichtsfeld schlitzförmig (eindimensionale Kugeln sind Intervalle). Für n ≥ 3 appellieren wir an die räumliche Anschauung. innerer Punkt von D Häufungspunkt von D, in D Häufungspunkt von D, nicht in D Häufungspunkt von D, in D isolierter Punkt von D Häufungspunkt von D, nicht in D Abbildung 4.6: Innere Punkte, isolierte Punkte und Häufungspunkte einer Menge im D im R2 . Die folgenden Bezeichnungen sind nun einleuchtend. 3.3 Randpunkte einer Menge. Die isolierten Punkte und die Häufungspunkte einer Menge D ⊂ Rn , die keine inneren Punkte sind, heißen Randpunkte, ihre Gesamtheit bezeichnen wir mit ∂D. Beispiele. ∂[0, 1] = ∂]0, 1[= ∂]0, 1] = ∂[0, 1[= {0, 1}, ∂{1, 21 , 13 , . . .} = {0, 1, 12 , 13 , . . .}, der Rand der offenen und der abgeschlossenen Einheitskugel im Rn ist die Einheitssphäre, ∂∅ = ∂Rn = ∅. 3.4 Offene Mengen. Eine Teilmenge des Rn heißt offen, wenn alle ihre Punkte innere Punkte sind. Bei einer offenen Menge D ⊂ Rn gehört kein Randpunkt zu D: D ∩ ∂D = ∅. Beispiele. Offene Intervalle (beschränkt und unbeschränkt), offene Kugeln, ∅, Rn . 3.5 Abgeschlossene Mengen. Eine Teilmenge des Rn , die alle ihre Häufungspunkte enthält, heißt abgeschlossen. Eine abgeschlossene Menge D ⊂ Rn enthält ihren gesamten Rand: ∂D ⊂ D. Beispiele. Abgeschlossene Intervalle (beschränkt und unbeschränkt), abgeschlossene Kugeln, ∅, Rn . 3.6 Offenheit und Abgeschlossenheit. Formal gesehen, sind die leere Menge ∅ und der gesamte Rn zugleich offen und abgeschlossen. Keine andere Menge hat diese pathologische Eigenschaft. Es gibt aber Mengen, die weder offen noch abgeschlossen sind, z.B. halboffene Intervalle wie ]0, 1] und [0, 1[. Enthält D nur einen Teil des Randes ∂D (∅ 6= D ∩ ∂D ( ∂D), so ist D weder offen noch abgeschlossen. 3.7 Kompakte Mengen. Eine Menge D heißt kompakt, wenn jede Folge in D eine Teilfolge besitzt, die gegen einen Punkt aus D konvergiert. Wer diese Definition nicht mag (was man gut verstehen kann, obwohl sie sich gut verallgemeinern lässt), der nehme einfach die folgende Charakterisierung: Eine Teilmenge des Rn ist genau dann kompakt, wenn sie abgeschlossen und beschränkt ist. Beispiele. [0, 1] ist kompakt, [0, 1[ und [0, +∞[ sind es nicht. Beweis∗ . Ist D ⊂ Rn beschränkt, so hat jede Folge in D nach dem Satz von Bolzano-Weierstraß 1.4 eine konvergente Teilfolge. Deren Grenzwert ~x ist dann ein Häufungspunkt von D. Ist D auch abgeschlossen, so folgt ~x ∈ D. Ist umgekehrt D nicht beschränkt, so gibt es in D eine unbeschränkte Folge, die nach 1.3 (b) keine konvergente Teilfolge enthalten kann. Ist D nicht abgeschlossen, so gibt es einen Häufungspunkt ~x, der nicht in D liegt, und damit eine Folge in D, die gegen ~x konvergiert, also keinen Grenzwert in D hat. 117 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 3.8 Wozu kompakte Mengen? Kompakte Mengen erweisen sich als angenehm, weil sie ihren Rand enthalten und selbiger sich nicht ins Unendliche ersteckt, wo unklar wäre „was da noch zum Rand gehört“. 3.9 Umgebung. Ist ~x ein innerer Punkt einer Menge U ⊂ Rn , so heißt U Umgebung von ~x. Unter Umgebungen von ~x stelle man sich Kugeln um ~x und Obermengen davon vor. 3.10 Polygonzug. Eine Kurve, bestehend aus endlich vielen Strecken, die aneinandergehängt nacheinander durchlaufen werden, heißt Polygonzug. Formal kann man einen Polygonzug im Rm dadurch parametrisieren, dass man die N Eckpunkte ~x1 , . . . , ~xN angibt und die Parametrisierung stückweise durch f~(t) := (t − k)~xk + (k + 1 − t)~xk+1 für t ∈ [k, k + 1] und k = 1, . . . , N − 1 definiert. (Der Zeitparameter läuft dann von 0 bis N und im Zeitintervall [k, k + 1] läuft man gerade auf der k-ten Teilstrecke von ~xk nach ~xk+1 .) 3.11 Zusammenhängende Mengen. Eine nichtleere Teilmenge D des Rn heißt (wege-)zusammenhängend , wenn je zwei beliebige Punkte in D durch einen Polygonzug (oder allgemein durch eine stetige Kurve) verbunden werden können, der (bzw. die) ganz in D liegt. Anmerkung. Stetigkeit erklären wir in §2.3.2. Unmittelbar einleuchtend ist: die zusammenhängenden Teilmengen von R sind gerade die Intervalle. 3.12 Beispiele für zusammenhängende Mengen im Rn sind Kugeln, Quader I1 × · · · × In := {(x1 , . . . , xn ) ∈ Rn | xk ∈ Ik } mit Intervallen I1 , . . . , In oder Würfel I n := I ×· · ·×I. Ein Quader [c1 , d1 ]×[c2 , d2 ] im R2 ist ein Rechteck mit den vier Eckpunkten (ck , dl ), k, l = 1, 2. Ein Würfel [c, d]2 = [c, d] × [c, d] im R2 wird gern Quadrat genannt. §2 1 Grenzwerte bei Funktionen und Stetigkeit Grenzwerte bei Funktionen 1.1 Worum geht es? Durch die Einführung des Grenzwertbegriffs in 1.§2.6.1 für eine Zahlenfolge (an )n haben wir präzisiert, dass sich (an )n für n → ∞ „ordentlich“ verhält. Nun präzisisieren wir dies für Funktionen bei Annäherung an eine Stelle. Wir beginnen mit vier Beispielen. (a) Spaltfunktion der Frauenhoferschen Beugung. Durch f (x) := sin x x 1 wird für x ∈ R r {0} (sogar für x ∈ C r {0}) eine Funktion erklärt. Aus der auf Potenzreihe des Sinus erhalten wir die Darstellung f (x) = ∞ X (−1)k 2k x2 x =1− ± ··· (2k + 1)! 3! für x 6= 0. k=0 Die rechte Seite ist auch für x = 0 definiert, hat dort den Wert 1 und setzt somit f auf ganz R (bzw. C) fort. Auch wenn wir für f (0) im Prinzip irgend einen Wert hätten festlegen können, so erscheint dennoch f (0) := 1 als die „natürliche“ Wahl. -4 Π -2 Π 2Π 4Π Abbildung 4.7: Sinc-Funktion als Spaltfunktion der Frauenhoferschen Begung. 118 §2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT Die durch sin x ∞ X (−1)k 2k x = sinc(x) := x 1 (2k + 1)! k=0 sinc : C → C, für x 6= 0, für x = 0 definierte Sinc-Funktion ist nicht nur in der Optik sondern auch in der Datenübertragung wichtig. (b) Kollabierende Oszillation. Die durch g(t) := sin 1 t für t > 0 auf R+ definierte Funktion verhält sich bei Annäherung an 0 chaotisch: zu jeder Zahl c ∈ [−1, 1] gibt es eine Nullfolge (tn )n mit g(tn ) → c. Setzen wir nämlich tn = 1/(ϕ + 2πn) mit ϕ := arcsin c, so gilt sogar g(tn ) = c für n ∈ N. (c) Gedämpfte kollabierende Oszillation. Dagegen wird durch t sin 1 für t = 6 0, G(t) := t 0 für t = 0, eine Funktion auf R erklärt, die sich wegen |G(t)| ≤ |t| in t = 0 angenehm verhält. Die in 0 kollabierende Oszillation sin(1/t) wird durch die dort verschwindende Amplitude t unschädlich gemacht. 1 2 1 1 1 3Π 2Π 1 Π 1 - 2 1 - Π 1 Π 1 2 1 - 2 -1 Abbildung 4.8: Kollabierende und gedämpfte kollabierende Oszillation (d) Die Heaviside-Funktion H : R → R, 1 1 H(t) := 2 0 1 für t > 0, für t = 0, für t < 0, verhält sich bei links- bzw. rechtsseitiger Annäherung an t = 0 angenehm: sie ist dann jeweils konstant mit Wert 0 bzw. 1. Trotzdem erscheint die Festlegung H(0) = 1/2 nur als ein „gerechter Kompromiss für einen an sich unlösbaren Konflikt“. -1 1 Abbildung 4.9: Heaviside-Funktion. Wir wollen nun sauber definieren, was es heißen soll, dass eine Funktion sich in der Nähe eines Punktes (in den obigen vier Beispielen war es der Punkt 0) „anständig“ verhält. Unsere Vorstellung ist, dass sich die Ausgabe (der Funktionswert) nur wenig ändern soll, wenn man die Eingabe (die Variable) wenig ändert. KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 119 1.2 Definition: Grenzwert bei Funktionen (Folgenkriterium). Die Funktion f sei definiert in der Umgebung U eines Punktes a mit eventueller Ausnahme des Punktes a ∈ U selbst. Wir sagen, dass f an der Stelle a den Grenzwert b besitzt und schreiben lim f (x) = b, lim f (x) = b, x→a x∈U U 3x→a f (x) → b für x → a, x ∈ U oder einfach lim f (x) = b, x→a f (x) → b für x → a wenn für jede Folge (xn )n in U r {a} mit Grenzwert limn→∞ xn = a auch die Bildfolge (f (xn ))n konvergiert mit limn→∞ f (xn ) = b. Diese Definition kann für rell-, komplex- und vektorwertige Funktionen einer oder mehrerer Variablen verwendet werden. Man ergänze ggf. Vektorpfeile. Wenn klar ist, was gemeint ist, schreibt man auch ganz knapp und verwegen lim f = b. Achtung. Für die Existenz des Grenzwerts limU 3x→a f (x) ist der Funktionswert f (a) — sofern f an der Stelle a überhaupt erklärt ist — nicht relevant. 1.3 Grenzwert und komponentenweiser Grenzwert. Für eine vektorwertige Funktion existiert der Grenzwert genau dann, wenn alle Komponentengrenzwerte existieren: lim f1 f1 lim ... = ... . fm lim fm Achtung. Das ist eine gute Nachricht! Wir können eine Grenzwertbetrachtung immer auf eine komponentenweise reduzieren, uns dadurch oftmals Arbeit ersparen und die Dinge übersichtlicher machen. 1.4 Rechenregeln für Grenzwerte. Aus den Rechenregeln für Grenzwerte bei Folgen erhalten wir sofort Rechenregeln für Grenzwerte bei Funktionen einer oder mehrerer Variablen. Für reell- oder komplexwertige Funktionen f und g mit lim f = b und lim g = c gilt (a) lim(βf + γg) = βb + γc für beliebige Zahlen β, γ, (b) lim |f | = |b|, lim f = b, lim Re(f ) = Re(b), lim Im(f ) = Im(b), (c) lim f g = bc, (d) lim f b = falls c 6= 0, g c Für vektorwertige Funktionen f~ und ~g mit lim f~ = ~b und lim ~g = ~c gilt (e) lim(β f~ + γ~g ) = β~b + γ~c für beliebige Skalare β, γ, (f) lim kf~k = k~bk, (g) limhf~|~g i = h~b|~ci, Achtung. Alle Grenzwerte sind an derselben Stelle zu bilden. Man ergänze jeweils x → a oder ~x → ~a. 1.5 Grenzwert bei Funktionen (ε-δ-Kriterium). Genau dann hat f in a den Grenzwert b, wenn es zu jedem ε > 0 ein δ > 0 gibt mit |f (x) − b| < ε für alle x ∈ U r {a} mit |x − a| < δ. In Quantorenschreibweise: (∀ε > 0)(∃δ > 0)(∀x ∈ U r {a})(|x − a| < δ ⇒ |f (x) − b| < ε). Auch das gilt für reell-, komplex- und vektorwertige Funktionen einer oder mehrerer Variablen. Man ergänze (auch im nachfolgenden Beweis) ggf. Vektorpfeile und ersetze den Betrag durch die Norm. 120 §2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT Beweis∗ . Existiert limU 3x→a f (x) = b, so gibt es zu vorgegebenem ε > 0 zunächst ein δ > 0 mit |f (x) − a| < b für alle x ∈ U r{a} mit |x−a| < ε. Ist nun (xn )n eine Folge in U r{a} mit limn→∞ xn = a, so gibt es ein n0 ∈ N mit |xn − a| < δ für n ≥ n0 . Dann gilt aber |f (xn ) − b| < ε für n ≥ n0 , d.h. (f (xn ))n konvergiert gegen b. Gilt also das ε-δ-Kriterium so auch das Folgenkriterium. Ist dagegen das ε-δ-Kriterium verletzt, so gibt es ein ε > 0, so dass für jedes δ = 1/n > 0 ein xn ∈ U r{a} existiert mit |xn − a| < 1/n und |f (xn ) − b| ≥ ε. D.h. (xn )n konvergiert gegen a während (f (xn ))n sicher nicht gegen b konvergiert. Mit dem ε-δ-Kriterium ist also auch das Folgenkriterium verletzt. 1.6 Sandwichprinzip für Grenzwerte bei Funktionen. Sind f, g1 , g2 reellwertige Funktionen mit lim g1 (x) = b = U 3x→a lim g2 (x) g1 (x) ≤ f (x) ≤ g2 (x) und U 3x→a für alle x ∈ U r {a} so besitzt auch f an der Stelle a einen Grenzwert und es gilt limU 3x→a f (x) = b. Die folgende Variante des Sandwichprinzips kann für vektorwertige Funktionen verwendet werden (und damit auch für reell- oder komplexwertige). Ist f~ eine vektorwertige Funktion und ist g eine reellwertige Funktion mit lim g(x) = 0 kf~(x) − ~bk ≤ g(x) und U 3x→a für alle x ∈ U r {a} so besitzt f~ an der Stelle a einen Grenzwert und es gilt limU 3x→a f~(x) = ~b. Beide Varianten funktionieren im Fall einer oder mehrerer Variablen (dann ersetze man x → a durch ~x → ~a). Sie ergeben sich aus dem Folgenkriterium 1.2 und dem Sandwichprinzip für Zahlenfolgen 1.§2.6.3. 1.7 Beispiele. Grenzwerte weist man in der Praxis gerne mit dem ε-δ-Kriterium 1.5 nach und berechnet sie mit den Rechenregeln 1.4 und dem Sandwichprinzip 1.6. Das Folgenkriterium 1.2 wird meistens dazu benutzt zu zeigen, dass ein Grenzwert nicht existiert. (h) Für die gedämpfte kollabierende Oszillation gilt −t ≤ t sin(1/t) ≤ t für reelles t 6= 0 und damit t sin 1 →0 t für t → 0, t ∈ R r {0}. 2 (i) Aus den Abschätzungen für den Sinus im Reellen bei Null 2.§2.5.9 folgt 1 − t6 ≤ sint t ≤ 1 für genügend kleine t 6= 0 und mit dem Sandwichprinzip 1.6 dann limR3t→0 sint t = 1. Hierbei haben wir sin t t als Funktion einer reellen Variablen behandelt. Einfacher und sogar im Komplexen erhalten wir das P∞ (−1)k 2k 2 mit Potenzreihentechniken: wegen sinx x = k=0 (2k+1)! x = 1 − x3! ± · · · für beliebige x 6= 0 und der Abschätzung für Potenzreihen 2.§4.1.7 gilt | sinx x −1| ≤ M |x|2 für z.B. 0 < |x| ≤ 1 mit einer Konstanten M . Die Variante des Sandwichprinzips liefert dann sin x = 1. x→0 x Für eine beliebige Konstante k zeigt man analog lim sin kx = k. x→0 x lim (j) Aus 1−cos x x = x 2! − x3 4! ± · · · für x 6= 0 erhalten wir lim x→0 (k) Wegen ex −1 x =1+ x 2 1 − cos x = 0. x + · · · für x 6= 0 gilt ex − 1 = 1. x→0 x lim Gemäß unserer Beweisführung gelten die Grenzwerte in (i)–(k) auch im Komplexen. (l) lim (~a + λ~x) = ~a, λ→0 lim (~x − ~a) = ~0, ~ x→~ a lim k~x − ~ak = 0, ~ x→~ a lim k~xk = k~ak. ~ x→~ a 121 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 2 Spezielle Grenzwerte bei Funktionen, Landau-Symbole 2.1 Ein- und zweiseitige Grenzwerte. Hängt f in der Grenzwertdefinition 1.2 von einer reellen Variablen ab und ist U keine Umgebung, sondern ein Intervall der Form U = [a, a + r[ mit r > 0, so nennen wir b den rechtsseitigen Grenzwert von f an der Stelle a und schreiben f (t) → b für t → a + lim f (t) = b t→a+ oder kurz f (a+). Entsprechend erklären wir im Fall U =]a − r, a] den linksseitigen Grenzwert f (a−). Existieren die beiden einseitigen Grenzwerte limt→a+ f (t) und limt→a− f (t) und sind sie gleich, so bedeutet dies, dass der Grenzwert lim]a−r,a+r[3t→a f (t) selbst existiert. In diesem Zusammenhang sprechen wir von einem zweiseitigen Grenzwert. 2.2 Beispiele für einseitige Grenzwerte. Für die Heaviside-Funktion gilt limt→0+ H(t) = 1. Für jede Folge (tn )n mit tn > 0 und limn→∞ tn = 0 gilt nämlich H(tn ) = 1 und daher limn→0+ H(tn ) = 1. Analog folgt limt→0− H(t) = 0. Da die beiden einseitigen Grenzwerte nicht übereinstimmen, hat H in t = 0 keinen zweiseitigen Grenzwert: limt→0 H(t) existiert nicht. Für t > 0 gilt e1/t ≥ 1 + 1/t > 1/t und damit 0 < e−1/t < t. Das Sandwichprinzip impliziert nun lim e−1/t = 0. t→0+ Dagegen existiert limt→0− e−1/t nicht. Für tn = −1/n wird nämlich e−1/tn = en beliebig groß. Damit existiert limt→0 e−1/t weder als reeller noch als komplexer Grenzwert. 1 2 20 1 10 1 -1 0 -1 1 1 2 0 0 1 -1 Abbildung 4.10: t 7→ e−1/t im Reellen und x 7→ |e−1/x | im Komplexen bei Null. Für Funktionen einer komplexen oder mehrerer Variablen haben wir folgenden Ersatz: 2.3∗ Richtungsgrenzwerte. Für einen normierten Vektor ~v ∈ Rn und eine auf einer Umgebung U ⊂ Rn eines Punkte ~a mit eventueller Ausnahme des Punktes ~a ∈ U selbst definierten Funktion f heißt lim f (~a + r~v ) r→0+ im Falle der Existenz Richtungsgrenzwert von f in Richtung ~v . 2.4∗ Beispiel für Richtungsgrenzwerte. Die durch 2xy f (x, y) := 2 für (x, y) 6= (0, 0) x + y2 definierte Funktion f hat in Polarkoordinaten die Darstellung f (r cos ϕ, r sin ϕ) = 2r2 cos ϕ sin ϕ = sin 2ϕ. (r cos ϕ)2 + (r sin ϕ)2 Also ist f konstant, wenn man aus der Richtung ~v = (cos ϕ, sin ϕ) in den Ursprung läuft und der Richtunggrenzwert limr→0+ f (0 + r cos ϕ, 0 + r sin ϕ) = sin 2ϕ existiert. Da der Wert des Richtungsgrenzwerts aber von der Richtung abhängt, hat f im Ursprung keinen Grenzwert, d.h. lim(x,y)→(0,0) f (x, y) existiert nicht. 122 §2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT 1 1 1 0 -1 1 -1 -1 0 0 -1 1 -1 Abbildung 4.11: Graph und Niveaulinien von f (x, y) = 2xy x2 +y 2 . 2.5 Uneigentliche Grenzwerte erster Art. Die Funktion f einer reellen Variablen sei definiert auf einem Intervall ]c, +∞[. Wir sagen, dass f in +∞ den uneigentlichen Grenzwert erster Art b besitzt und schreiben lim f (t) = b oder f (t) → b für t → +∞, t→+∞ wenn der rechtsseitige Grenzwert limt→0+ f ( 1t ) = b existiert. Bei −∞ erklären wir das analog. Genau dann existiert limt→+∞ f (t) = b (limt→−∞ f (t) = b), wenn es zu jedem ε > 0 ein r > 0 gibt mit |f (t) − b| < ε für alle t > r (t < −r). Anschaulich bedeutet limt→+∞ f (t) = b, dass der Graph von f für große positive t eine waagrechte Asymptote mit der Gleichung y = b besitzt. 2.6 Beispiele für uneigentliche Grenzwerte erster Art. Aus 2.2 folgt sofort lim et = 0 = lim e−t . t→−∞ t→+∞ Wegen | cos t|, | sin t| ≤ 1 gilt dann auch lim t→+∞ e−t cos t e−t sin t = 0 . 0 Wie sieht die so parametrisierte Kurve aus? Anmerkung. Bei einer Funktion einer komplexen Variablen, definiert auf dem Äußeren |x| > r einer Kreisscheibe, fungiert lim|x|→∞ f (x) := limy→0 f (1/y) als Ersatz, bei einer Funktion von mehreren Variablen auf dem Äußeren k~xk > r einer Kugel limkxk→∞ f (~x) := lim~y→0 f ( k~y1k2 ~y ). 2.7 Rechenregeln für einseitige Grenzwerte, Richtungsgrenzwerte bzw. uneigentliche Grenzwerte erster Art gelten wie in 1.4 für gewöhnliche Grenzwerte angegeben. Man ergänze jeweils x → a±, r → 0+ (und als Argument ~a + r~v ) bzw. x → ±∞, |x| → ∞, k~xk → ∞ und überlege, warum die Regeln erhalten bleiben. 2.8 Uneigentliche Grenzwerte zweiter Art. Ist f in der Grenzwertdefinition 1.2 reellwertig mit 1 f (x) > 0 für x ∈ U r {a} und gilt limU 3x→a f (x) = 0, so sagen wir, dass f an der Stelle a den uneigentlichen Grenzwert zweiter Art +∞ besitzt und schreiben lim f (x) = +∞, x→a x∈U lim f (x) = +∞, U 3x→a oder f (x) → +∞ für x → a, x ∈ U. Für −∞ erklären wir das entsprechend. Genau dann existiert limU 3x→a f (x) = +∞ (limU 3x→a f (x) = −∞), wenn es zu jedem r > 0 ein δ > 0 gibt mit f (x) > r (f (x) < −r) für alle x ∈ U r {a} mit |x − a| < δ. Anschaulich bedeutet limx→a f (x) = +∞, dass der Graph von f bei x = a eine positive senkrechte Asymptote besitzt. 2.9 Rechenregeln für uneigentliche Grenzwerte zweiter Art gibt es nicht! Die Situation ist vergleichbar delikat wie bei uneigentlichen Grenzwerten von Folgen (siehe 1.§2.9). 123 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 2.10 Beispiel für uneigentliche Grenzwerte zweiter Art. Aus 2.2 erhalten wir die uneigentlichen Grenzwerte erster und zweiter Art lim et = +∞ = lim e−t . t→+∞ t→−∞ 2.11 Landau-Notation. In Analogie zur Landau-Notation für Folgen 1.§2.9.5 erklären wir für zwei auf U mit eventueller Ausnahme der Stelle a ∈ U definierte reell- oder komplexwertige Funktionen f und g f (x) = O(g(x)) für x → a falls eine Konstante M > 0 existiert f (x) ≤ M für x ∈ U r {a}, mit g(x) f (x) = O(g(x)) für x → a falls limU 3x→a f (x) = 0. g(x) Bei einer reellen Variablen sind diese Landau-Symbole auch für x → a± oder x → ±∞ erklärt, bei einer komplexen Variablen auch für |x| → ∞. Für vektorwertige Funktionen gehe man komponentenweise vor. Häufig benutze Vergleichsfunktionen für eine Variable sind • g(x) = xn , n ∈ N, für x → ±∞ (polynomiales Wachstum im Unendlichen), • g(x) = 1 xn , n ∈ N, für x → ±∞ (polynomiales Abfallen im Unendlichen), • g(x) = (x − a)n , n ∈ N, für x → a (polynomiales Abfallen bei x = a), • g(x) = 1 (x−a)n , n ∈ N, für x → a (polynomiales Wachstum bei x = a), γx • g(x) = e , γ > 0, für x → ±∞ (exponentielles Wachstum im Unendlichen), • g(x) = e−γx , γ > 0, für x → ±∞ (exponentielles Abfallen im Unendlichen), • g(x) = ln(γx), γ > 0, für x → +∞ (logarithmisches Wachstum im Unendlichen), γ • g(x) = ln |x−a| , γ > 0, für x → a (logarithmisches Wachstum bei x = a). 2.12 Beispiele zur Landau-Notation. (a) p(x) = O(xn ) für x → ±∞ bei einem Polynom p im Reellen und für |x| → ∞ im Komplexen: „ein Polynom p vom Grad höchstens n wächst höchstens wie xn .“ (b) p(x) = O(ex ) für x → +∞, d.h. limx→+∞ p(x)e−x = 0 für jedes Polynom p: „die Exponentialfunktion wächst im Reellen für x → +∞ schneller als jedes Polynom.“ P∞ k xn+1 nämlich das Sandwich Beweis. Für p(x) = an xn + · · · + a0 erhalten wir aus ex = k=0 xk! > (n+1)! |p(x)e−x | ≤ |an | (n+1)! + · · · + |a0 | (n+1)! x xn+1 → 0 für x → +∞. Die folgende Aussage zeigt man analog. (c) ex = O(x−α ) für x → −∞, d.h. limx→−∞ xα ex = 0 für alle α > 0: „die Exponentialfunktion fällt im Reellen für x → −∞ schneller als jede Potenzfunktion.“ (d) 2x2 +3 x2 −1 2 2 1 +3 1 2x +3 = O( x−1 ) für x → 1. Es gilt nämlich | 2x x2 −1 / x−1 | = | x+1 | ≤ 2·4+3 0+1 = 11 für x ∈]0, 2[. 2.13 Asymptotische Gleichheit. Zwei reell- oder komplexwertige Funktionen f und g heißen asym(x) ptotisch gleich für x → a, in Zeichen f (x) ' g(x) für x → a, falls limx→a fg(x) = 1. Für Funktionen einer reellen Variablen können wir asymptotische Gleichheit auch für x → a± bzw. x → ±∞ erklären, für eine komplexe Variable auch für |x| → ∞. Für vektorwertige Funktionen erklären wir das wieder komponentenweise. 124 §2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT 2.14∗ Asymptotik von Polynomen im Unendlichen. Für ein Polynom p(x) = an xn + · · · + a0 vom Grad n (d.h. an 6= 0) erhalten wir aus limx→∞ 1/x = 0 mit den Rechenregeln 1.4 n an xn + an−1 xn−1 + · · · + a0 an−1 1 p(x) a0 1 = =1+ →1 für x → ±∞ +··· + an xn a n xn an x an x | {z } | {z } →0 →0 die asymptotische Darstellung p(x) ' an xn für x → ±∞ im Reellen oder |x| → ∞ im Komplexen und sagen „ein Polynom verhält sich weit draußen wie sein Leitterm“ (vgl. 2.§4.1.21). 250 50 5000 100 20 2000 50 10 -1 -2 -1 1 1000 1 2 -10 -50 -10 -2 2 10 -1000 Abbildung 4.12: Asymptotik von Polynomen am Beispiel x6 + 8x4 − 25x2 + 12x + 22 ' x6 für x → ±∞. 2.15∗ Asymptotik rationaler Funktionen im Unendlichen. Wir zerlegen eine rationale Funktion R(x) = an xn + · · · + a1 x + a0 = q(x) + h(x) bm xm + · · · + b1 x + b0 mit an , bm 6= 0 gemäß 2.§4.2.3 in Hauptteil h und Nebenteil q. Der Hauptteil h besteht aus endlich c c vielen Summanden der Form (x−λ) k mit gewissen c, λ ∈ C und k ∈ N. Wegen limx→±∞ (x−λ)k = 0 gilt limx→±∞ h(x) = 0, d.h. R(x) ' q(x) für x → ±∞ im Reellen oder |x| → ∞ im Komplexen. Das asymptotische Verhalten einer rationalen Funktion im Unendlichen wird also vom Nebenteil regiert, d.h. von einem Polynom und damit von dessen Leitterm. 1 1 -10 10 -10 10 -1 (x−1)(x+2) (x−4)(x2 +4) -1 '0 für x → ±∞. 10 -10 10 -10 2 (x −1)(x+2) (x−2)(x2 +1) '1 für x → ±∞. (x2 −4)(x2 +8) (x−4)(x2 +1) für x → ±∞. Abbildung 4.13: Asymptotik von rationalen Funktionen im Unendlichen. Auf die Asymptotik in der Nähe einer Nennernullstelle gehen wir in 3.17 ein. 'x 125 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 3 Stetigkeit 3.1 Wozu Stetigkeit? Wir wollen eine grundlegende Eigenschaft vieler (nicht nur physikalischer) Systeme mathematisch beschreiben: der Systemzustand ändert sich nur wenig, wenn die Systemparameter geringfügig verändert werden. Dies gilt z.B. für die Anziehungskraft in Abhängigkeit von der Entfernung, für den Luftdruck in Abhängigkeit vom Ort, für die Temperatur in Abhängigkeit von der zugeführten Wärmeenergie oder für den Strom in einen Stromkreis in Abhängigkeit von der angelegten Spannung. Auf lange Sicht gesehen führt eine winzige Änderung des Anfangszustands aber manchmal sehr wohl zu gewaltigen Unterschieden. So ist beispielsweise eine langfristige Wettervorhersage unmöglich, weil wir das Wetter zu keinem Zeitpunkt exakt messen können. Phänomene dieser Art haben mit Stetigkeit nichts zu tun — Stetigkeit ist eine „lokale“ Eigenschaft. 3.2 Definition: Stetigkeit in einem Punkt (ε-δ-Kriterium). Eine Funktion f definiert in der Umgebung U einer Stelle a ∈ U heißt stetig in a, wenn es zu jedem ε > 0 ein δ > 0 gibt mit |f (x) − f (a)| < ε für alle x ∈ U mit |x − a| < δ. In Quantorenschreibweise: (∀ε > 0)(∃δ > 0)(∀x ∈ U )(|x − a| < δ ⇒ |f (x) − f (a)| < ε). In dieser Definition darf f eine reell-, komplex oder vektorwertige Funktion einer oder mehrerer Variablen sein. Man ergänze ggf. Vektorpfeile und ersetze den Betrag durch die Norm. Hängt f in obiger Definition von einer reellen Variablen ab und ist U keine Umgebung, sondern ein Intervall der Form U =]a − r, a] mit r > 0, so sprechen wir von linksseitiger , für U = [a, a + r[ von rechtsseitiger Stetigkeit in a. Achtung. Um f in a auf Stetigkeit zu untersuchen, muss f in a definiert sein. 3.3 Interpretation. Stetigkeit von f in a bedeutet in Worten, dass der Unterschied der Funktionswerte f (x) und f (a) beliebig klein wird, wenn man nur den Unterschied zwischen x und a genügend klein macht. Man kann einen beliebig kleinen „Fehler“ ε vorschreiben, und trotzdem weichen die Funktionswerte f (x) höchstens um den Fehler ε von f (a) ab, sobald x genügend nahe bei a liegt. z 2δ }| { f (a) 2ε a Abbildung 4.14: Zum ε-δ-Kriterium von Stetigkeit. 3.4 Grenzwertkriterium für Stetigkeit in einem Punkt. Genau dann ist f in a ∈ U stetig, wenn lim f (x) = b U 3x→a existiert mit b = f (a). Bei einer Funktion f einer reellen Variablen schreiben wir im Fall der links- bzw. rechtsseitigen Stetigkeit (d.h. U =]a − r, a] bzw. U = [a, a + r[) auch f (a−) := limx→a− f (x) bzw. f (a+) := limx→a+ f (x). Das Grenzwertkriterium folgt aus den ε-δ-Kriterien für den Grenzwert 1.5 und für Stetigkeit 3.2. Ebenso erhalten wir aus dem Folgenkriterium für den Grenzwert 1.2 ein Folgenkriterium für Stetigkeit: 126 §2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT 3.5 Folgenkriterium für Stetigkeit in einem Punkt. Genau dann ist f stetig in a ∈ U , wenn lim f (xn ) = f (a) n→∞ für jede Folge (xn )n in U mit lim xn = a. n→∞ 3.6 Stetigkeit. Eine Funktion heißt (punktweise) stetig, wenn sie in jedem Punkt ihres Definitionsbereichs stetig ist. 3.7 Rechenregeln für stetige Funktionen. Mit dem Grenzwertkriterium für Stetigkeit und den Rechenregeln für Grenzwerte 1.4 erhalten wir: Sind f und g reell- oder komplexwertige Funktionen und an der Stelle a stetig, so auch (a) αf + βg für beliebige Zahlen α, β, (b) f , |f |, Re f , Im f , (c) f g, (d) f /g falls g(a) 6= 0. Sind f~ und ~g vektorwertige Funktionen und an der Stelle a stetig, so auch (e) αf~ + β~g für beliebige Skalare α, β, (f) kf~k, (g) hf~|~g i. 3.8 Beispiele für stetige Funktionen. (h) Konstante Funktionen und die identische Abbildung x 7→ x sind stetig (wähle δ = 1 bzw. δ = ε in 3.2). (i) Polynome sind stetig ((h) und 3.7 (a), (c)). (j) Die Funktion x 7→ 1/x ist für x 6= 0 stetig ((h) und 3.7 (d)). (k) Rationale Funktionen sind auf ihrem natürlichen Definitionsbereich stetig ((i) und 3.7 (d)). 3.9 Die Funktionenklasse C 0 . Die Menge der stetigen reell-, komplex-, bzw. vektorwertigen Funktionen mit Definitionsbereich D bezeichnen wir mit C 0 (D, R), C 0 (D, C), bzw. C 0 (D, Rm ). Wenn aus dem Zusammenhang klar ist, was gemeint ist, so schreiben wir einfach C 0 (D) oder C 0 . Zusammen mit der punktweise erklärten Addition von Funktionen und Multiplikation von Funktionen mit Zahlen ist C 0 (D, G) ein Unterraum des Funktionenraums F(D, G) und damit ein Vektorraum. P∞ k 3.10 Stetigkeit von Potenzreihen. Wird f durch eine Potenzreihe f (x) = k=0 ak (x − x0 ) mit Konvergenzradius R > 0 dargestellt, so ist f im Inneren der Konvergenzkreisscheibe, d.h. für |x−x0 | < R, stetig. Insbesondere sind exp, cos, sin, cosh, sinh und sinc auf C, sowie cot, tan, coth und tanh auf ihrem jeweiligen maximalen Definitonsbereich stetig. Beweis. Für eine Potenzreihe gilt |f (x)−f (x0 )| = |f (x)−a0 | = O(|x−x0 |) → 0 für x → x0 dank 2.§4.1.7. Mit dem Sandwichprinzip 1.6 folgt limx→x0 f (x) = f (x0 ) und f ist nach dem Grenzwertkriterium 3.4 in x0 stetig. Nach 2.§4.2.7 kann eine Potenzreihe in jedem Punkt im Inneren ihres Konvergenzkreises entwickelt werden. Also überträgt sich die obige Aussage von x0 auf jeden Punkt x mit |x − x0 | < R. Achtung. Über Stetigkeit von Potenzreihen auf dem Rand des Konvergenzkreises wird hier nichts ausgesagt. Dort sind Individualbetrachtungen notwendig. KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 127 3.11 Stetigkeit der Umkehrfunktion. Sei I ⊂ R ein Intervall und f : I → R streng monoton steigend. Ist f in a ∈ I stetig, so ist die Umkehrfunktion f −1 in f (a) stetig. Insbesondere sind Wurzeln und Logarithmen auf R+ sowie die Hauptzweige der Area- bzw. Arcusfunktionen auf ihren jeweiligen Definitionsbereichen stetig. Der Beweis dieser Regel ist etwas trickreich. Wir verweisen z.B. auf [Kön, Band 1, 7.2, Regel III]. 3.12 Stetigkeit der Verkettung. Die Verkettung zweier stetiger Funktionen ist stetig sofern sie gebildet werden kann. Insbesondere sind alle allgemeinen Exponential- und Potenzfunktionen stetig. Beweis. Ist f : U → V in a ∈ U stetig und ist g auf V definiert und in f (a) stetig, so gilt für jede Folge (xn )n in U mit limn→∞ xn = a zunächst limn→∞ f (xn ) = f (a) dank der Stetigkeit von f , dann wegen der Stetigkeit von g in f (a) aber auch limn→∞ (g ◦ f )(xn ) = limn→∞ (g(f (xn )) = (g(f (a)) = (g ◦ f )(a). Nach dem Folgenkriterium ist g ◦ f in a stetig. 3.13 Weitere Grenzwerte bei Funktionen. Das Grenzwertkriterium 3.4 erlaubt die Berechnung weiterer Grenzwerte, bei denen stetige Funktionen im Spiel sind. 2 (l) lim e−t = 0, t→±∞ da −t2 → −∞ für t → ±∞ und da die Exponentialfunktion auf R stetig ist. (m) lim ln(t) = −∞ und lim ln(t) = +∞, t→+∞ t→0+ da et → 0 für t → −∞ und et → +∞ für t → +∞. (n) lim f (x) = lim f (x + a) und lim f (t) = lim f (at) falls f in a einen Grenzwert hat. x→a t→a x→0 t→1 Diese Regeln dienen zum „Umnormieren“ bei Grenzwertberechnungen. Sie folgen mit 3.8 (a) aus der Stetigkeit von x 7→ x + a und t 7→ at. (o) lim tan(t) = −∞ und t→−π/2+ lim tan(t) = +∞. t→π/2− sin(t) 1 = cos(π/2−t) Für 0 < t < π/2 gilt tan(π/2−t) sin(π/2−t) = cos(t) = tan(t). Da der Tangens in t = 0 stetig ist, folgt mit 1 1 Umnormieren limt→π/2− tan t = limt→0+ tan(π/2−t) = limt→0+ tan(t) = tan(0) = 0 und mit tan(t) > 0 für t ∈]0, π/2[ wie behauptet limt→π/2− tan(t) = +∞. Nun liefert tan(−t) = − tan(t) den ersten Grenzwert. (p) lim arctan t = − t→−∞ π π und lim arctan t = . t→+∞ 2 2 Dies folgt mit der Stetigkeit des Arcustangens aus (o). 3.14 Stetige Fortsetzung. Wir erinnern uns an 2.§1.1.7: Eine auf U definierte Funktion, die auf U r{a} mit einer dort definierten Funktion f übereinstimmt, wird Fortsetzung von f genannt und gerne (etwas schlampig) wieder mit f bezeichnet. Existiert nun limU 3x→a f (x) = b, so können wir f durch f (a) := b von U r {a} auf U fortsetzen und die Fortsetzung ist in a stetig. Diese Prozedur nennen wir stetige Fortsetzung. Beispiel. f (x) = (sin x)/x wird durch f (0) := 1 von Cr{0} auf C stetig fortgesetzt (Sinc-Funktion). Die Heaviside-Funktion und die kollabierende Oszillation t 7→ sin(1/t) können in t = 0 nicht stetig fortgesetzt werden. (Vgl. 1.1 und 1.7, dort finden sich auch weitere Beispiele.) 3.15 Unstetigkeit. Neben sehr vielen Beispielen für stetige Funktionen haben wir bisher nur zwei für unstetige Funktionen kennengelernt: die Heaviside-Funktion und die kollabierende Oszillation. Beide Funktionen sind lediglich in t = 0 unstetig. Bei der Heaviside-Funktion existieren die einseitigen Grenzwerte, stimmen aber nicht überein. Derartige Unstetigkeitsstellen nennen wir Sprungstellen. Unstetigkeitsstellen vom Typ der kollabierenden Oszillation heißen Oszillationsstellen. Dass es noch „schlimmere“ Arten von Unstetigkeit gibt, illustieren wir an zwei abschreckenden Beispielen. 128 §2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT (q) Die durch d(t) := 1 für t ∈ Q und d(t) := 0 für t ∈ RrQ definierte erste Dirichlet-Funktion ist in jedem Punkt ihres Definitionsbereichs R unstetig. (Man versuche selbst einen Beweis mit dem Folgenkriterium.) (r) Die durch D(t) := 1/q für t = p/q ∈]0, 1] ∩ Q gekürzt und D(t) := 0 für t ∈]0, 1] r Q definierte zweite Dirichlet-Funktion ist in jedem rationalen Punkt ihres Definitionsbereichs ]0, 1] stetig, in jedem irrationalen Punkt dagegen unstetig. 3.16 Stetigkeit und Konvergenzerhaltung. Schreiben wir das Folgenkriterium für Stetigkeit 3.5 in der Form lim f (xn ) = f ( lim xn ) falls f stetig, n→∞ n→∞ so erweisen sich die stetigen Funktionen gerade als die konvergenzerhaltenden Funktionen: Der Grenzwert der Bilder unter einer stetigen Funktion ist das Bild des Grenzwerts. Damit haben wir eine neue Technik zum Konvergenznachweis. q √ 4n−1 4 = 2 und der Stetigkeit der Wurzelfunktion. Beispiel. limn→∞ 4n−1 n+1 = 2 wegen limn→∞ n+1 = 4, 3.17∗ Asymptotik rationaler Funktionen in Polstellen. Ist R eine rationale Funktion und λ eine Nennernullstelle, die mit mindestens derselben Vielfachheit auch Nullstelle des Zählerpolynoms ist, so können wir λ kürzen und erhalten eine stetige Fortsetzung von R in den Punkt λ. Solch eine Nennernullstelle wird hebbarer Pol von R genannt. Andernfalls gehen wir von einer gekürzten Darstellung von R aus, in der λ die Vielfachheit k als Nennernullstelle besitzt, und keine Zählernullstelle mehr ist. Dann heißt λ ein Pol der Ordnung k von R. Für solch einen Pol hat die Partialbruchzerlegung 2.§4.2.4 die Form R(x) = q(x) + h(x) + c1 ck−1 ck + ··· + + , k−1 x−λ (x − λ) (x − λ)k wobei q den Nebenteil von R bezeichnet und h diejenigen Partialbrüche des Hauptteils zusammenfasst, die nicht zum Pol λ gehören. An der Stelle λ sind dann q und h stetig. Wir erhalten lim (x − λ)k R(x) = lim (x − λ)k (q(x) + h(x)) + c1 (x − λ)k−1 + · · · + ck−1 (x − λ) +ck = ck . x→λ x→λ | {z } | {z } | {z } | {z } →0 →q(λ)+h(λ) →0 →0 ck ck Also gilt R(x) ' (x−λ) k für x → λ und die Asymptotik von R in λ wird vom Leitterm (x−λ)k der zum Pol λ gehörigen Partialbrüche bestimmt. Das verhält sich ganz analog zur Asymptotik von R im Unendlichen 2.15, die vom Leitterm des Nebenteils regiert wird. (x−1)(x+6) (x−4)(x2 +4) für x → 4. ' −(x+5)(x−3)(x2 +4) (x+3)2 (x+12) 9 1 10 x−4 für x → −3. 4 -3 ' 52 1 3 (x+3)2 -2 x2 −3x−10 (x−4)(x+2)(x2 +1) hebbarer Pol bei x = −2. Abbildung 4.15: Asymptotik von rationalen Funktionen in Polstellen. 4 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 129 3.18∗ Separate Koeffizientenberechnung in der Partialbruchzerlegung. Wir verwenden die Bezeichnungen aus 3.17. Dort haben wir gezeigt, dass wir in der Partialbruchzerlegung von R den Zählerck koeffizienten ck des Leitterms (x−λ) k zum Pol λ der Ordnung k durch den Grenzwert lim (x − λ)k R(x) = ck x→λ ck berechnen können. Sobald ck bekannt ist, ersetzen wir R(x) durch R(x) − (x−λ) k , wiederholen das Verfahren für eine Polstelle der Ordnung k − 1, erhalten ck−1 und so fort. So bekommen wir jeden der Zählerkoeffizienten der Partialbrüche im Hauptteil von R separat. Beispiel. Wir berechnen die Partialbruchzerlegung von x22+1 . Die Faktorisierung x2 + 1 = (x − i)(x + i) a b 2 liefert den Ansatz x22+1 = x−i + x+i . Aus (x − i) x22+1 = x+i → 1i = −i für x → i erhalten wir a = −i. Da 2 x2 +1 eine rationale Funktion mit reellen Koeffizienten ist, muss für den zur konjugierten Nennernullstelle −i i + x+i . −i gehörigen Partialbruch b = a = i gelten. Dies ergibt die Partialbruchzerlegung x22+1 = x−i 4 Abbildungsverhalten stetiger Funktionen 4.1 Nullstellen stetiger Funktionen. Eine Funktion f sei auf U definiert und in a ∈ U stetig. Gilt dann f (a) 6= 0, so existiert ein δ > 0 mit |f (x)| ≥ 12 |f (a)| für alle x ∈ U mit |x − a| < δ, d.h. insbesondere f (x) 6= 0. Ist umgekehrt (xn )n eine Folge von Nullstellen in U mit limn→∞ xn = a, so ist auch a eine Nullstelle von f . Ist f also in a stetig und ist a keine Nullstelle, so hat f auch in einer (genügend kleinen) Umgebung von a keine Nullstellen. Das gilt — wie der Beweis zeigen wird — für reell-, komplex- oder vektorwertige Funktionen einer oder mehrerer Variablen (falls nötig, so ergänze man in Gedanken Vektorpfeile). Beweis. Die erste Behauptung ist die Negation der zweiten, die zweite folgt sofort aus dem Grenzwertkriterium für Stetigkeit 3.4: limn→∞ xn = a und f (xn ) = 0 impliziert f (a) = limn→∞ f (xn ) = 0. 4.2 Zwischenwertsatz. Ist f : [c, d] → R stetig, so nimmt f jeden Wert zwischen f (c) und f (d) an. Insbesondere hat f in ]c, d[ eine Nullstelle, falls f (c)f (d) < 0. Für den Beweis können wir f (c) < f (d) annehmen. Für f (c) = f (d) ist nämlich nichts weiter zu zeigen, für f (c) > f (d) können wir −f statt f betrachten. Wir führen den Beweis konstruktiv auf folgende Weise: 4.3 Lösen von Gleichungen durch Intervallhalbierung. Ist f : [c, d] → R stetig mit f (c) < f (d), so erhalten wir für b mit f (c) < b < f (d) eine Lösung von f (t) = b, indem wir ζ1 := c, ξ1 := d setzen und ζn , ξn rekursiv durch ζn−1 +ξn−1 n−1 ξ := ξ falls f < b, ζn := ζn−1 +ξ n n−1 2 2 n−1 n−1 ζn := ζn ξn := ζn−1 +ξ falls f ζn−1 +ξ > b. 2 2 n−1 erklären. Gilt irgendwann einmal f ζn−1 +ξ = b, so haben eine Lösung, andernfalls bilden die 2 [ζn , ξn ] ⊂ [c, d] offensichtlich eine Intervallschachtelung, die sich nach 1.§2.7.2 auf eine Zahl t ∈ [c, d] zusammenzieht: limn→∞ ζn = t = limn→∞ ξn . Aus f (ζn ) < b folgt f (t) ≤ b mit der Monontonie des Grenzwerts und der Stetigkeit von f . Aus f (ξn ) > b erhalten wir ebenso f (t) ≥ b. Daher gilt f (t) = b. 4.4 Anwendungsbeispiel: Wiensches Verschiebungsgesetz. Bei der Bestimmung des Emissionsmaximums eines strahlenden Körpers (Wiensches Verschiebungsgesetz) muss nach Einführung geeigneter Variablen die Gleichung (x − 5)ex + 5 = 0 für x > 0 gelöst werden. Die linke Seite f (x) := (x − 5)ex + 5 ist stetig mit f (4) = −e4 + 5 < 0 und f (5) = 5 > 0, hat also nach dem Zwischenwertsatz eine Lösung x ∈]4, 5[. Durch sechsfache Intervallhalbierung erhalten wir 4, 953125 < x < 4, 968750. Mit einem Monotonieargument kann man sich überlegen, dass die Lösung eindeutig bestimmt ist. Anmerkung. Intervallhalbierung ist ein schlechtes Verfahren zum näherungsweisen Lösen von f (t) = b. Für differenzierbare Funktionen funktioniert das Newton-Verfahren 6.1 normalerweise viel besser. 130 §2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT 4.5 Zwischenwertsatz für Skalarfelder. Sei f ein stetiges Skalarfeld mit zusammenhängendem und kompaktem Definitionsbereich U ⊂ Rn . Für beliebige ~c, d~ ∈ U nimmt dann f jeden Wert zwischen f (~c) ~ an. Insbesondere hat f in U eine Nullstelle, falls f (~c)f (d) ~ < 0. und f (d) Beweis. Da U zusammenhängend ist, existiert ein Polygonzug g : [0, 1] → U , der ~c mit d~ verbindet. Dann ~ Nun folgt die ist f ◦ g : [0, 1] → R stetig mit (f ◦ g)(0) = f (g(0)) = f (~c) und (f ◦ g)(1) = f (g(1)) = f (d). Behauptung aus dem Zwischenwertsatz 4.2 angewendet auf f ◦ g. 4.6 Anwendungsbeispiel. Auf der Erdoberfläche gibt es zwei Antipodenpunkte mit gleicher Temperatur. Beweis. Wir modellieren die Erdoberfläche durch die Einheitsphäre S2 ⊂ R3 (vgl. 3.§2.2.11). Dann ist die Temperatur T und damit auch f (~x) := T (~x) − T (−~x) ein stetiges Skalarfeld auf der kompakten und zusammenhängenden Menge S2 . Entweder ist der Nordpol ~y := (0, 0, 1) ein Antipodenpunkt, d.h. f (~y ) = 0 = f (−~y ) oder es gilt f (~y ) 6= 0 und damit f (~y )f (−~y ) = −f (~y )2 < 0. Dann liefert der Zwischenwertsatz aber einen anderen Punkt ~z ∈ S2 mit f (~z) = 0, der zusammen mit −~z ein Andipodenpaar liefert. 4.7 Satz vom Maximum (Satz von Weierstraß). Ist f : [c, d] → R stetig, so hat f ein Maximum und ein Minimum. Insbesondere ist f beschränkt. Die Funktion f kann durchaus unbeschränkt sein, falls wir [c, d] durch ein halboffenes, offenes oder unbeschränktes Intervall ersetzen oder keine Stetigkeit verlangen. Jedes Mal liefert die Funktion f (t) := 1/t für t 6= 0 und f (0) := 0 ein Gegenbeispiel. Als Intervalle nehme man ]0, 1], ]0, 1[, ]0, ∞[ bzw. [0, 1]. Wir beweisen gleich die allgemeine Variante: 4.8 Satz vom Maximum für Skalarfelder. Ein stetiges Skalarfeld auf einer kompakten Menge hat ein Maximum und ein Minimum, ist also insbesondere beschränkt. Beweis∗ . Für ein stetiges Skalarfeld f : K → R auf einer kompakten Menge K ⊂ Rn betrachten wir das Supremum M der Wertemenge f (K). Nach der Definition des Supremums gibt es eine Folge von Funktionswerten, die gegen M konvergiert, d.h. eine Folge (~xk )k in K mit limk→∞ f (~xk ) = M . Ist die Wertemenge beschränkt, so ist M eine reelle Zahl und es liegt eigentliche Konvergenz vor. Ist die Wertemenge unbeschränkt, so gilt M = +∞ und wir haben bestimmte Divergenz gegen +∞. Gemäß der Definition von Kompaktheit 3.7 besitzt (~xk )k eine konvergente Teilfolge (~xkl )l mit Grenzwert ~x in K. Da f stetig ist, konvergiert (f (~xkl ))l gegen f (~x). Als Teilfolge von (f (~xk ))k muss (f (~xkl ))l aber gegen M konvergieren. Also ist M eine reelle Zahl und es gilt M = f (~x). Damit hat f einen maximalen Funktionswert. Für das Minimum schließe man analog. 4.9 Anmerkung zum Satz vom Maximum. Dieser „typisch mathematisch“ und vollständig nutzlos anmutende Satz ist tatsächlich Grundlage jeglicher Optimierung! Er garantiert uns nämlich die Existenz eines Maximums bzw. Minimums. Ohne dieses Wissen brauchen wir uns gar nicht auf die Suche nach der Lösung eines Optimierungsproblems zu machen. Damit steht dieser Satz immer im Hintergrund, wenn wir entdecken, dass in der Natur ein Optimalitätsprinzip befolgt wird. Seine Notwendigkeit wird vom Perronschen Paradoxon pointiert: „n = 1 ist die größte natürliche Zahl, für jedes n > 1 ist nämlich n2 eine größere natürliche Zahl als n selbst“. Brauchbar in der Praxis wird der Satz vom Maximum natürlich erst zusammen mit Techniken zum Auffinden der Extremalsituation. Selbige werden wir in der Differentialrechnung zur Verfügung stellen. 4.10 Hauptsatz über stetige Funktionen Das Bild einer kompakten Menge unter einer stetigen Funktion ist kompakt. Der Hauptsatz beinhaltet beide Versionen 4.7 und 4.8 des Satzes von Maximum. Beweis∗ . Ist f~ : K → Rm stetig und K ⊂ Rn kompakt, so ist kf~k gemäß 3.7 (f) ein stetiges Skalarfeld auf K und nach 4.8 beschränkt. Also ist die Bildmenge f~(K) beschränkt. Ist ~y ∈ Rm ein Häufungspunkt, so gibt es eine Folge von Vektoren ~xk ∈ K mit limk→∞ f~(~xk ) = ~y . Da K kompakt ist, gibt es eine Teilfolge (~xkl )l , die gegen ein ~x ∈ K konvergiert. Mit der Stetigkeit von f~ folgt liml→∞ f~(xkl ) = f~(~x). Nun erhalten wir ~y = f (~x), da schon die gesamte Bildfolge (f~(~xk ))k gegen ~y konvergiert. Also liegt ~y in der Bildmenge und f~(K) ist nicht nur beschränkt, sondern auch abgeschlossen, also nach 3.7 kompakt. 131 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN §3 Differentialrechnung in einer Variablen Ab jetzt betrachten wir fast ausschließlich Funktionen einer reellen Variablen. Als Wertevorrat lassen wir weiterhin R, C oder den Rm zu — außer, wir sagen explizit etwas anderes. 1 Differenzierbarkeit 1.1 Zum Begriff der Geschwindigkeit. Wir betrachten einen Massenpunkt im Raum. Seinen Ort zum Zeitpunkt t können wir nach Einführung kartesischer Koordinaten durch den Koordinatenvektor x1 (t) ~x(t) = x2 (t) x3 (t) beschreiben. Wirkt auf den Massenpunkt keine Kraft, so behält er nach dem ersten Newtonschen Gesetz seinen Bewegungzustand bei, d.h. er verharrt in Ruhe oder bewegt sich mit konstanter Geschwindigkeit auf einer Geraden. Damit gilt ~x(t) = ~x(t0 ) + (t − t0 )~v , wobei ~x(t0 ) den Ort des Massenpunkts zum Zeitpunkt t = t0 bezeichnet und die Konstante ~v seine Geschwindigkeit (welche auch ~0 sein darf). Experimentell weist man das durch Messung von von ~x(t) für verschiedene Zeiten t und Berechnung des Proportionalitätsfaktors 1 (~x(t) − ~x(t0 )) t − t0 nach, was dann (im Rahmen der Meßgenauigkeit) eine Konstante — nämlich ~v — liefert. Die Geschwindigkeit ist eine vektorielle Größe und der Geschwindigkeitsvektor gibt Richtung und Betrag der Geschwindigkeit des Massenpunktes an. Bei einer ungleichförmigen Bewegung (unter Einfluss einer Zwangskraft) kann dieser Quotient, gebildet für einen Zeitpunkt t nahe bei t0 als Näherung für die Geschwindigkeit zum Zeitpunkt t0 benutzt werden. Das hängt dann aber von der Wahl von t ab und wird die momentane Geschwindigkeit um so besser beschreiben, je näher t bei t0 liegt. Daher liegt es nahe, die Momentangeschwindigkeit zum Zeitpunkt t0 durch den Grenzwert 1 (t0 ) lim x1 (t)−x t−t0 t→t 0 1 lim x2 (t)−x2 (t0 ) ~v (t0 ) := lim (~x(t) − ~x(t0 )) = t→t t−t0 t→t0 t − t0 0 x (t)−x (t ) 3 3 0 lim t−t0 t→t0 zu definieren — falls die drei Komponentengrenzwerte existieren. Damit haben wir uns ein meßtechnisches Problem eingehandelt. Wegen des unvermeidbaren Meßfehlers wird (xk (t) − xk (t0 ))/(t − t0 ) nicht ermittelt werden können, sobald xk (t) − xk (t0 ) bzw. t − t0 die Meßgenauigkeit unterschreitet. Dennoch ist der Geschwindigkeitsbegriff für die Mechanik von unbestreitbar fundamentaler Bedeutung und die so eingeführte Momentangeschwindigkeit ~v (t0 ) hat auch eine ganz reale Bedeutung: Sie gibt die Richtung derjenigen Geraden an, auf der sich der Massenpunkt weiterbewegt, wenn alle Zwangskräfte zur Zeit t0 plötzlich wegfallen. Bei einem an einer Schnur auf einer Kreisbahn um einen festen Punkt rotierenden Massenpunkt wäre das die Tangente an die Kreisbahn, auf der sich der Massenpunkt nach Durchschneiden der Schnur weiterbewegen würde. Abbildung 4.16: Bewegung eines Massenpunktes. 132 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN 1.2 Das Tangentenproblem. Eng verwandt mit dem Problem der Momentangeschwindigkeit ist das Tangentenproblem der Analysis: Zu einer auf einem Intervall I erklärten Funktion f gibt der Differenzenquotienten f (x) − f (a) m= x−a die Steigung der Sekanten durch die beiden Punkte (a, f (a)) und (x, f (x)) des Graphen von f an. Mit ∆y := f (x) − f (a) ∆x := x − a (Zuwachs des Funktionswerts) (Zuwachs des Arguments) gilt m= ∆y . ∆x Falls sich die Sekanten für x → a einer Grenzgeraden annähern, so nennen wir selbige Tangente an den Graphen im Punkt a und schreiben f (x) − f (a) df (a) = lim . x→a dx x−a f (x) f (a) | a f (x) − f (a) f (a) {z } x−a x a Abbildung 4.17: Tangente als Grenzlage von Sekanten. 1.3∗ Historische Anmerkung. Differential- und Integralrechnung als Kern der Analysis wurden in der zweiten Hälfte des 17. Jahrhunderts vor allem von Newton und Leibniz entwickelt. Während Newton von Fragestellung der Mechanik wie in 1.1 ausging, behandelte Leibniz das in 1.2 dargestellte Tangentenproblem. Auf Leibniz geht die für eine gute algorithmische Behandlung vortrefflich geeignete Notation für den Differential- und Integralkalkül zurück. Newtons Beitrag war noch in der Sprache der klassischen Geometrie gehalten, zeigte aber große Sensibilität für die Problematik von Grenzübergängen. 1.4 Definition: Differenzierbarkeit. Eine Funktion f definiert in einer Umgebung I ⊂ R einer Stelle a ∈ I (z.B. in einem Intervall I =]a − r, a + r[) heißt differenzierbar in a, wenn der Grenzwert des Differenzenquotienten f (x) − f (a) f 0 (a) := lim I3x→a x−a existiert. Wir nennen dann f 0 (a) die Ableitung von f an der Stelle a und bezeichnen sie auch mit df d d (a), f (a), f (x) , f˙(a). dx dx dx x=a Ist I keine Umgebung von a sondern ein Intervall der Form I =]a − r, a] mit r > 0, so sprechen wir von linksseitiger , für I = [a, a + r[ von rechtsseitiger Differenzierbarkeit und bezeichnen die linksseitige Ableitung mit f 0 (a−), die rechtsseitige mit f 0 (a+). 133 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 1.5 Differenzierbarkeit und Tangente. Ist f in a differenzierbar, so erhalten wir die Tangente an den Graphen im Punkt (a, f (a)) offensichtlich durch x 7→ f (a) + f 0 (a)(x − a) für x ∈ R parametrisiert. Die Ableitung gibt dann die Steigung der Tangenten an. Das kann man auch umkehren: 1.6 Differenzierbarkeit und lineare Approximierbarkeit. Genau dann ist f in a differenzierbar, wenn es eine Zahl m gibt mit f (x) = f (a) + m(x − a) + O(|x − a|) für x → a, x ∈ I. In diesem Fall gilt dann m = f 0 (a). In Worten bedeutet dies: „Genau dann ist f in a differenzierbar, wenn es eine lineare Funktion der Form x 7→ f (a) + m(x − a) gibt, die f bei a besser als linear approximiert. Die Steigung m der Tangente ist dann gerade die Ableitung von f in a.“ Beweis. Man lese die Definition des Laudau-Symbols O in §1.2.11 nach, um sich zu überzeugen, dass die obige Behauptung äquivalent zur Definition 1.4 ist. 1.7 Lokale Koordinaten. Die Parametrisierung x 7→ f (a) + m(x − a) der Tangenten ist an den gerade betrachteten Punkt a angepasst. Man sieht sofort, dass an der Stelle x = a der Wert f (a) angenommen wird. Man kann den Grenzwert der Ableitung, die Tangente und die obige O-Bedingung für Approximierbarkeit auch in lokalen Koordinaten angeben: f 0 (a) = lim h→0 a+h∈I 1 (f (a + h) − f (a)) h ⇔ f (a + h) = f (a) + f 0 (a)h +O(h) für h → 0, h + a ∈ I. {z } | Tangente, lin. Approx. an f in a 1.8 Differenzierbarkeit bei vektorwertigen Funktionen. Unsere Definition für Differenzierbarkeit 1.4 und die Charakterisierung durch lineare Approximierbarkeit 1.6 können wir auch für eine komplexoder vektorwertige Funktion einer reellen Variablen gebrauchen, da wir auch dann gemäß 1.2 den Grenz1 wert des Differenzenquotienten x−a (f~(x) − f~(a)) bilden können. Das kann dank 1.3 komponentenweise geschehen. Wir illustrieren dies in der auf Newton zurückgehenden Notation 1 (t0 ) lim x1 (t)−x t−t 0 I3t→t0 1 . ˙ . x ~(t0 ) := lim (~x(t) − ~x(t0 )) = . I3t→t0 t − t0 xm (t)−xm (t0 ) lim t−t0 für ~x : I → Rm , I3t→t0 wobei die unabhängige Variable als Zeit interpretiert und mit t bezeichnet wird, während wir uns die abhängige als Ort vorstellen und mit ~x(t) bezeichnen. In dieser Interpretation wird der Ableitungsstrich „ 0 “ gerne durch einen Punkt „˙“ ersetzt. Achtung. Auf Funktionen einer komplexen Variablen oder mehrerer reeller Variablen gehen wir hier nicht ein. (Im komplexen Fall kann man die Definition 1.4 übernehmen, da wir im Körper C dividieren und somit den Differenzenquotienten bilden können. In diesem Sinn differenzierbare Funktionen sind Gegenstand der Funktionentheorie. Differential- und Integralrechnung für Funktionen mehrerer reeller Variablen werden wir in Kapitel 6 behandeln. Hier erweist sich das Konzept der linearen Approximierbarkeit 1.6 als übertragbar, während der Differenzenquotient nicht gebildet werden kann.) 1.9 Differenzierbarkeit. Ist eine Funktion f in jedem Punkt ihres Definitionsbereichs D differenzierbar, so nennen wir sie differenzierbar . Die dann auf D definierte Funktion f 0 heißt Ableitung von f . 134 2 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN Umgang mit differenzierbaren Funktionen 2.1 Differenzierbarkeit und Stetigkeit. Ist eine Funktion an einer Stelle differenzierbar, so ist sie dort auch stetig. Beweis. Gilt f (x) = f (a) + f 0 (a)(x − a) + O(|x − a|) für x → a, so folgt wegen f 0 (a)(x − a) → 0 und O (|x − a|) → 0 für x → a auch f (x) → f (a) für x → a. Nach dem Grenzwertkriterium 3.4 ist f also in a stetig. 2.2 Rechenregeln für differenzierbare Funktionen. Sind f und g reell- oder komplexwertige Funktionen und an der Stelle a differenzierbar, so sind auch die folgenden Funktionen in a differenzierbar: (a) Linearität: αf + βg für beliebige Zahlen α, β mit (αf + βg)0 (a) = αf 0 (a) + βg 0 (a). 0 (b) f , Re f , Im f mit f (a) = f 0 (a), (Re f )0 (a) = Re(f 0 (a)), (Im f )0 (a) = Im(f 0 (a)). (c) Produktregel: f g mit (f g)0 (a) = f 0 (a)g(a) + f (a)g 0 (a). (d) Quotientenregel: f /g falls g(a) 6= 0 mit ( fg )0 (a) = g(a)f 0 (a)−f (a)g 0 (a) g(a)2 (Merkregel: (NAZ-ZAN)/N2 ) Sind f~ und ~g vektorwertige Funktionen und an der Stelle a differenzierbar, so sind auch die folgenden Funktionen in a differenzierbar: (e) Linearität: αf~ + β~g für beliebige Zahlen α, β mit (αf~ + β~g )0 (a) = αf~0 (a) + β~g 0 (a). (f) hf~|~g i mit hf~|~g i0 (a) = hf~|~g 0 i(a) + hf~0 |~g i(a). Beweis. (b) folgt sofort durch Anwendung der entsprechenden Rechenregel 1.4 (b) für Grenzwerte bei Funktionen. Die Regeln in (a), (c) und (d) erhalten wir aus den Zerlegungen (αf + βg)(x) − (αf + βg)(a) x−a (f g)(x) − (f g)(a) x−a f g (x) − fg (a) x−a = = = αf (x) + βg(x) − αf (a) − βg(a) f (x) − f (a) g(x) − g(a) =α +β , x−a x−a x−a f (x)g(x) − f (a)g(a) f (x) − f (a) g(x) − g(a) = g(a) + f (x) , x−a x−a x−a f (x)g(a)−f (a)g(x) g(x)g(a) (x − a) = (a) g(a) f (x)−f − f (a) g(x)−g(a) x−a x−a g(x)g(a) der Differenzenquotienten für αf + βg, f g bzw. f /g durch Grenzübergang x → a. Nun ergibt sich (e) Pm komponentenweise aus (a). Durch Anwendung von (a) und (c) auf hf~|~g i(x) = k=1 fk (x)gk (x) erhalten wir (f). 2.3 Wichtige Ableitungen. (g) Konstante Funktionen f (x) = c sind differenzierbar mit f 0 (x) = 0 für alle x ∈ R, d.h. f 0 = 0. (h) Die identische Abbildung id(x) = x ist differenzierbar mit id0 (x) = 1 für alle x ∈ R, d.h. id0 = 1. (i) Ein Polynom p(x) = an xn + . . . + a1 x + a0 ist differenzierbar mit p0 (x) = nan xn−1 + · · · + a1 für x ∈ R. (j) Die Funktion f (x) = 1/x ist für x 6= 0 differenzierbar mit f 0 (x) = −1/x2 . (k) Rationale Funktionen sind auf ihrem natürlichen Definitionsbereich in R differenzierbar. Die Ableitung erhält man mit der Quotientenregel (d) und (i) (l) Die Exponentialfunktion ist auf ganz R differenzierbar mit exp0 (x) = exp(x), d.h. exp0 = exp, und allgemein exp0 (αx) = α exp(αx) für x ∈ R und α ∈ C mit α 6= 0. Bereits in §2.1.7 (k) haben wir den Grenzwert limh→0 exp(h)−1 = 1 berechnet. Mit der Funktionalgleichung h der Exponentialfunktion folgt für α 6= 0 durch Umnormieren des Grenzwert (siehe §2.3.13 (n)) eα(x+h) − eαx eαh − 1 = αeαx lim = α exp(αx). h→0 h→0 h αh exp0 (αx) = lim KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 135 (m) Die Hyperbelfunktionen sind differenzierbar mit cosh0 (x) = sinh(x), sinh0 (x) = cosh(x), tanh0 (x) = 1/ cosh2 (x) für x ∈ R bzw. coth0 (x) = −1/ sinh2 (x) für x ∈ R, x 6= 0. Unter Verwendung von (l) und der Linearität der Ableitung (a) berechnen wir beispielsweise cosh0 (x) = d ex + e−x (a) 1 d x 1 d −x (l) 1 x 1 −x = e + e = e − e = sinh(x). dx 2 2 dx 2 dx 2 2 (n) Die trionometrischen Funktionen sind differenzierbar mit cos0 (x) = − sin(x), sin0 (x) = cos(x) für x ∈ R, tan0 (x) = 1/ cos2 (x) für x ∈ R, x 6= π2 + kπ, k ∈ Z, cot0 (x) = −1/ sin2 (x) für x ∈ R, x 6= kπ, k ∈ Z. Ähnlich wie in (m) erhalten wir z.B. 2ix 2i + 1) · 0 − 2i(2ie2ix + 0) d (d), (m) (e 0 −0 − i = tan (x) = dx e2ix + 1 (e2ix + 1)2 2 4e2ix 2 1 = = = . (e2ix + 1)2 eix + e−ix cos(x)2 Die Differenzierbarkeit und die Ableitungen von exp, cos, sin, cosh und sinh können wir mit 2.6 auch auf andere Weise erhalten. 2.4∗ Beispiel: Tangenten an Kurven. Die Tangente an die durch f~(t) := (r cos t, r sin t), t ∈ R, parametrisierte Kreislinie im Punkt f~(t0 ) erhalten wir durch r cos t0 −r sin t0 ˙ t 7→ f~(t0 ) + (t − t0 )f~(t0 ) = + (t − t0 ) . r sin t0 r cos t0 Für die durch ~g (t) := (r cos t, r sin t, ct) parametrisierte Schraubenlinie ist r cos t0 −r sin t0 t 7→ ~g (t0 ) + (t − t0 )~g˙ (t0 ) = r sin t0 + (t − t0 ) r cos t0 . ct0 c die Tangente im Kurvenpunkt ~g (t0 ). P∞ 2.5 Differentiation von Potenzreihen. Wird f durch eine Potenzreihe f (x) = k=0 ak (x − x0 )k mit Konvergenzradius R > 0 dargestellt, so ist f für x ∈]x0 − R, x0 + R[ differenzierbar mit f 0 (x) = ∞ X kak (x − x0 )k−1 für x ∈]x0 − R, x0 + R[. k=1 Insbesondere gilt für die Ableitung im Entwicklungspunkt f 0 (x0 ) = a1 . Beweis. Für eine Potenzreihe gilt |f (x) − a0 − a1 (x − x0 )| = O(|x − x0 |2 ) für x → x0 gemäß 2.§4.1.7, d.h. f (x) = a0 + a1 (x + x0 ) + O(|x − x0 |) für x → x0 , da O(|x − x0 |2 ) = O(|x − x0 |) für x → x0 . Nach 1.6 ist f im Entwicklungspunkt x0 differenzierbar mit f 0 (x0 ) = a1 . Durch Umentwickeln 2.§4.2.7 können wir diese Aussage vom Entwicklungspunkt x0 in einem beliebigen Punkt x ∈]x0 − R, x0 + R[ übertragen. Achtung. Über die Differenzierbarkeit einer Potenzreihe f in den beiden Randpunkten x = x0 ± R wird hier nichts ausgesagt. Selbst wenn f in einem der Randpunkte überhaupt definiert ist, so muss die Differenzierbarkeit dort individuell nachgeprüft werden. 2.6 Kettenregel. Ist f reellwertig, in a differenzierbar und ist g im Punkt f (a) differenzierbar, so ist auch die Verkettung g ◦ f in a differenzierbar und es gilt (g ◦ f )0 (a) = g 0 (f (a))f 0 (a). 136 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN Beweis∗ . Differenzierbarkeit an einer Stelle bedeutet, dass der Differenzenquotient dort einen Grenzwert besitzt, also stetig fortgesetzt werden kann. Sind also f in a und g in f (a) stetig, so existieren Funktionen r und s, die in a bzw. b := f (a) stetig sind mit g(y) − g(b) für y 6= b, f (x) − f (a) für x 6= a, y−b s(y) = r(x) = x−a 0 f 0 (a) für x = a, g (b) für y = b. Es folgt (g ◦ f )(x) − (g ◦ f )(a) = g(f (x)) − g(b) = (f (x) − b)s(f (x)) = (x − a)(s ◦ f )(x)r(x) für x 6= a. Da (s ◦ f ) · r in x = a stetig ist, folgt hieraus die Existenz von (g ◦ f )0 (a) = lim x→a (g ◦ f )(x) − (g ◦ f )(a) = lim (s ◦ f )(x)r(x) = (s ◦ f )(a)r(a) = g 0 (f (a))f 0 (a). x→a x−a 2.7 Ableitung der Umkehrfunktion. Sei g die Umkehrfunktion einer streng monotonen Funktion f : ]c, d[→ R. Ist f in einem Punkt a ∈]c, d[ differenzierbar mit f 0 (a) 6= 0, so ist g im Punkt b = f (a) differenzierbar mit 1 1 = 0 . g 0 (b) = 0 f (a) f (g(b)) Wenn wir schon wüssten, dass mit f auch die Umkehrfunktion differenzierbar ist, so können wir deren Ableitung im Punkt f (a) durch differenzieren der Identität g ◦ f = id erhalten: ⇒ x = g(f (x)) 1 = g 0 (f (x))f 0 (x) für x ∈]c, d[. Ausgewertet in x = a liefert das für f 0 (a) 6= 0 die obige Formel für g 0 (f (a)) = g 0 (b) und so merkt man sich diese Ableitungsregel auch am besten. Die eigentliche Arbeit liegt aber im Nachweis der Differenzierbarkeit von g im Punkt f (a). Beweis∗ . Ist f in a differenzierbar, so wird durch f (x) − f (a) r(x) := x−a f 0 (a) für x 6= a, für x = a, eine stetige Funktion r : ]c, d[→ R definiert. Da f streng monoton ist mit f 0 (a) 6= 0 gilt r(x) 6= 0 für x ∈]c, d[. Mit y = f (x) und b = f (a) folgt g(y) − g(b) = 1 (y − b). r(g(y)) Da f in a differenzierbar ist, ist f in a stetig. Damit ist g und dann auch 1/(r ◦ g) in b stetig. Aus obiger Formel folgt dann die Existenz von g 0 (b) = lim y→b g(y) − g(b) 1 1 1 1 = lim = = = 0 . y→b r(g(y)) y−b r(g(b)) r(a) f (a) 2.8 Leibniz-Kalkül. Die Kettenregel und die Ableitung der Umkehrfunktion lassen sich im LeibnizKalkül gut merken: df df dy dy 1 = , = dx . dx dy dx dx dy 2.9 Weitere wichtige Ableitungen. (o) Der Logarithmus ist differenzierbar mit ln0 (x) = 1/x für x > 0. Mit exp ist nämlich auch ln = exp−1 differenzierbar, aus t = ln(et ) folgt 1 = ln0 (et )et und mit x = et dann ln0 (x) = 1/x. (p) Ableitung von Potenzen. Es gilt d α d α ln x d 1 x = e = eα ln x (α ln x) = αxα = αxα−1 dx dx dx x sofern xα definiert ist. 137 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN (q) Die Areafunktionen sind differenzierbar mit 1 für arcosh0 (x) = √x12 −1 für x ∈]1, +∞[, arsinh0 (x) = √1+x 2 0 0 1 1 x ∈ R, artanh (x) = 1−x2 für x ∈]−1, 1[, arcoth (x) = 1−x2 für x ∈] − ∞, −1[∪]1, +∞[. (r) Die Hyperbelfunktionen sind differenzierbar mit −1 arccos0 (x) = − arcsin0 (x) = √1−x für x ∈] − 1, 1[, 2 1 0 0 arctan (x) = − arccot (x) = 1+x2 für x ∈ R. 1 2.10 Vier Beispiele zum Rechnen mit Ableitungen. (s) xx für x > 0. Mit der Kettenregel und der Produktregel erhalten wir d x x dx = = = d x ln x d e = ex ln x (x ln x) dx dx 1 x x 1 · ln x + x x x x (ln x + 1) für x > 0. Aus tet → 0 für t → −∞ folgt durch Substitution et = x zunächst x ln x → 0 für x → 0+, dann mit der Stetigkeit der Exponentialfunktion limx→0+ xx = e0 = 1 und d x limx→0+ dx x = −∞. Also lässt sich xx in x = 0 stetig fortsetzen, hat dort aber eine senkrechte rechtsseitige Halbtangente. 1 -1 Abbildung 4.18: Graph der Funktion x 7→ xx und ihrer Ableitung für x > 0. (t) x = yexy . Wir wollen diese Gleichung für vorgegebenes x ∈ R nach y auflösen. Versuche für eine explizite Angabe der Lösung werden scheitern. Man spricht in diesem Zusammenhang auch von einer impliziten Funktion. Für x = 0 muss y = 0 gelten. Für x > 0 bildet y 7→ yexy das Intervall [0, +∞[ streng monoton wachsend und bijektiv auf sich selbst ab und ist sonst negativ. Also hat x = yexy für jedes x > 0 genau eine Lösung. Mit (x, y) ist auch das Paar (−x, −y) eine Lösung und umgekehrt. Daher gibt es auch für jedes x < 0 genau eine Lösung. Wenn wir annehmen, dass die zu x ∈ R eindeutig bestimmte Lösung y = y(x) von x = yexy differenzierbar von x abhängt (was wir mit dem Satz über implizite Funktionen 6.§1.6.4 nachweisen können), so gilt x = y(x)exy(x) 1 für x ∈ R -1 und dann nach Differenzieren dieser Identität auch 1 = y 0 (x)exy(x) + y(x)exy(x) [1 · y(x) + xy 0 (x)] = -1 [y(x)2 + xy(x)y 0 (x) + y 0 (x)]exy(x) . Aus y(0) = 0 folgt nun 1 = y 0 (0). Wir haben die implizite Funktion y = y(x) zwar nicht bestimmen können, wissen aber, dass sie existiert, punktsymmetrisch ist und haben unter der Annahme ihrer Differenzierbarkeit mit x 7→ y(0)+ y 0 (0)(x − 0) = x eine lineare Approximation bei x = 0 erhalten. (u) sinc in x = 0. Aus der Potenzreihendarstellung sinc(x) = 1 Abbildung 4.19: Graph der durch x = y(x)exy(x) implizit definierten Funktion und ihrer linearen Appoximation x 7→ x in x = 0. P∞ k=0 (−1) k /(2k + 1)!x2k = 1 − x2 /3! ± · · · 138 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN erhalten wir sofort sinc0 (0) = 0 und allgemein sinc0 (x) = ∞ X k=1 x x3 (−1)k x2k−1 = − + ∓ ··· (2k + 1) · (2k − 1)! 3 · 1! 5 · 3! für x ∈ R. Die Ableitung im Ursprung hätten wir auch mühsamer aus der abschnittweisen Definition sinc(0) = 1 und sinc(x) = (sin x)/x für x 6= 0 durch Grenzübergang im Differenzenquotienten erhalten können: sinc(h) − sinc(0) = lim h→0 h→0 h sinc0 (0) = lim da sin h = h + O(h3 ) und damit sin h−h h2 sin h h −1 sin h − h = 0, = lim h→0 h h2 = O(h) für h → 0. Hätten wir neben der abschnittsweisen Definition nicht auch die Potenzreihendarstellung gehabt, so wäre nur dieser Weg übrig geblieben. (v) Sind ~x : I → Rm und ~y : J → Rm zwei Parametrisierungen einer Kurve, die durch einen differenzierbaren Parameterwechsel ϕ : I → J ineinander übergehen, d.h. ~x = ~y ◦ ϕ, so folgt mit der Kettenregel ~x˙ (t) = ~y˙ (ϕ(t))ϕ̇(t) für t ∈ I. Der Tangentenvektor im Kurvenpunkt ~x(t) = ~y (ϕ(t)) ändert also bei Umparametrisieren seine Länge um den Faktor ϕ̇(t), die Richtung bleibt erhalten. 2.11 Zur Stetigkeit der Ableitung. Die Ableitung einer differenzierbaren Funktion muss nicht stetig sein. Das zeigt die mit x2 gedämpfte kollabierende Ozillation ( x2 sin x1 für x 6= 0, f (x) = 0 für x = 0. In jedem Punkt x 6= 0 ist f differenzierbar und man erhält die Ableitung mit den Rechenregeln zu 1 1 − cos für x 6= 0. x x In x = 0 liefert uns die Betrachtung des Differenzenquotienten f 0 (x) = 2x sin 1 f (0 + h) − f (0) = h sin → 0 h h für h → 0. Also ist f in x = 0 differenzierbar mit f 0 (0) = 0. Dagegen hat f 0 (x) für x → 0 keinen Grenzwert. Für n ∈ N gilt nämlich f 0 (1/(nπ)) = (−1)n und die Folge dieser Funktionswerte hat für n → ∞ keinen Grenzwert, obwohl 1/(nπ) → 0. 4 0.5 -1 1 -1 1 -0.5 -4 Abbildung 4.20: Eine differenzierbare Funktion mit unstetiger Ableitung. Fazit. Selbst wenn limx→a f 0 (x) existiert, liefert der Grenzwert nur dann f 0 (a), wenn man schon weiß, dass die Ableitung in x = a existiert und stetig ist. Von Weierstraß gibt es ein Beispiel einer differenzierbaren Funktion, deren Ableitung nirgends stetig ist. 139 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 3 Abbildungsverhalten differenzierbarer Funktionen 3.1 Vorbemerkung. Die folgenden Sätze bilden die Grundlage für die vielfältigen Anwendungen der Differentialrechnung. Mit Ausnahme des letzten gelten sie nur für reellwertige Funktionen einer reellen Variablen. Anwendungen und Verallgemeinerungen stellen wir in den Abschnitten 5–7 vor, nachdem wir in 4 noch höhere Ableitungen eingeführt haben. 3.2 Lokale Maxima und Minima. Eine reellwertige Funktion f hat an einer Stelle a ihres Definitionsbereichs D ein lokales Maximum, wenn f in der Nähe von a keinen größeren Wert annnimmt. D.h. es gibt eine Umgebung U von a mit f (x) ≤ f (a) für alle x ∈ U ∩ D. Entsprechend erklären wir, was ein lokales Minimum ist. Tritt einer dieser beiden Fälle ein, so sprechen wir von einem lokalen Extremum. 3.3 Notwendige Bedingungen für lokale Extrema. Hat f an der Stelle a ein lokales Extremum und ist f dort differenzierbar, so gilt f 0 (a) = 0. Beweis. Liegt in a ein lokales Maximum vor, so gibt es ein δ > 0 mit f (x) ≤ f (a) für x ∈]a − δ, a + δ[. Es folgt ( f (x) − f (a) ≥ 0 für x ∈]a − δ, a[, x−a ≤ 0 für x ∈]a, a + δ[. Ist f in a differenzierbar, so existieren die beiden einseitigen Ableitungen und stimmen mit der Ableitung überein: f 0 (a−) = f 0 (a) = f 0 (a+). Aus den obigen Abschätzungen folgt aber f 0 (a−) = lim x→a− f (x) − f (a) ≥ 0, x−a f 0 (a+) = lim x→a+ f (x) − f (a) ≤ 0, x−a und zusammen dann f 0 (a) = 0. Für ein lokales Minimum argumentieren wir analog. 3.4 Satz von Rolle. Ist f : [c, d] → R stetig, auf ]c, d[ differenzierbar und gilt f (c) = f (d), so existiert ein Punkt a ∈]c, d[ mit f 0 (a) = 0. Beweis. Nach dem Satz vom Maximum §2.4.7 hat f in [c, d] ein Maximum und ein Minimum. Ist f konstant, so ist jeder Punkt aus [c, d] ein lokales Extremum, andernfalls ist mindestens eines der beiden Extrema ein innerer Punkt. Nach 3.3 verschwindet dort f 0 . 3.5 Mittelwertsatz der Differentialrechnung. Ist f : [c, d] → R stetig und auf ]c, d[ differenzierbar, so existiert ein Punkt a ∈]c, d[ mit f (d) − f (c) = f 0 (a). d−c Beweis. Man verwende den Satz von Rolle 3.4 für die Hilfsfunktion h(x) = f (x) − f (d)−f (c) (x d−c f (d) f (c) = f (d) f (c) c a d c a Abbildung 4.21: Satz von Rolle und Mittelwertsatz der Differentialrechnung. d − c). 140 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN 3.6 Verallgemeinerter Mittelwertsatz der Differentialrechnung. Sind f, g : [c, d] → R stetig, auf ]c, d[ differenzierbar und gilt g 0 (x) 6= 0 für alle x ∈]c, d[, so existiert ein Punkt a ∈]c, d[ mit f 0 (a) f (d) − f (c) = 0 . g(d) − g(c) g (a) Beweis. Man wende den Satz von Rolle 3.4 auf die Hilfsfunktion H(x) = f (x) − an und beachte, dass dieser Satz auch g(d) − g(c) 6= 0 impliziert. f (d)−f (c) g(d)−g(c) (g(x) − g(c)) 3.7 Monotoniekriterium für differenzierbare Funktionen. Eine differenzierbare Funktion f : ]c, d[→ R ist genau dann monoton wachsend, wenn f 0 (x) ≥ 0 für alle x ∈]c, d[. Gilt sogar f 0 (x) > 0 für alle x ∈]c, d[, so ist f streng monoton wachsend. Entsprechendes gilt für monoton fallende Funktionen Achtung. Das Gegenbeispiel f (x) = x3 zeigt, dass f streng monoton wachsen kann, ohne dass die Ableitung immer positiv ist. Beweis. Für x, y ∈]c, d[ mit x < y kann der Mittelwertsatz 3.5 auf f im Intervall [x, y] angewendet werden, d.h. f (y) − f (x) = (y − x)f 0 (a) für ein a ∈]x, y[. Für f 0 ≥ 0 folgt, dass f monton wächst, für (a) f 0 > 0 erhalten wir strenge Monotonie. Ist umgekehrt f monoton wachsend, so gilt f (x)−f ≥ 0 für alle x−a 0 x, a ∈]c, d[ mit x 6= a. Nach Grenzübergang x → a folgt im Falle der Differenzierbarkeit f (a) ≥ 0. 3.8 Identitätssatz für differenzierbare Funktionen. Hat eine Funktion auf einem Intervall überall die Ableitung Null, so ist sie dort konstant. Stimmen auf einem Intervall die Ableitungen zweier Funktionen überein, so unterscheiden sie sich nur um eine Konstante. Für vektorwertige Funktionen kann man das komponentenweise verwenden. Beweis. Die zweite Aussage folgt aus der ersten durch Betrachtung der Differenzfunktion. Gilt f 0 (x) = 0 für alle x in einem Intervall I, so muss f nach dem Monotoniekriterium auf I gleichzeitig monoton fallen und wachsen, also konstant sein. 4 Höhere Ableitungen und Taylor-Entwicklung 4.1 Definition: höhere Ableitungen. Ist f auf dem Intervall I differenzierbar und ist die somit auf I definierte Ableitung f 0 in einem Punkt a ∈ I differenzierbar, so nennen wir f in a zweimal differenzierbar und f 0 (x) − f 0 (a) f 00 (a) := (f 0 )0 (a) = lim I3x→a x−a die zweite Ableitung von f im Punkt a. Ist f in jedem Punkt des Definitionsbereichs zweimal differenzierbar, so nennen wir f zweimal differenzierbar. Die dann auf I definierte Funktion f 00 heißt zweite Ableitung von f . Bei vektorwertigen Funktionen werden die Ableitungen natürlich komponentenweise gebildet. Sukzessiv definieren wir die höheren Ableitungen f 000 := (f 00 )0 , f (4) := (f 000 )0 , f (5) := (f (4) )0 , ..., f (n+1) := (f (n) )0 , ..., falls die entsprechenden Differentiationen ausgeführt werden können. Höhere Ableitungen bezeichnet man auch in der Form n ... dn f dn d , f, f, f¨ := f 00 , f := f 000 , .... n n dx dx dx Aus formalen Gründen ist es nützlich, auch die nullte Ableitung f (0) := f einzuführen. 4.2 Leibniz-Regel. Sind f und g auf einem Intervall definiert, reell- oder komplexwertig und n-fach differenzierbar, so ist die Produktfunktion f g ebenfalls n-fach differenzierbar und es gilt n X n (k) (n−k) (n) (f g) = f g . k k=0 141 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN Das beweist man durch Induktion nach n. Für vektorwertige Funktionen erhält man als Analogon n X n ~(k) (n−k) hf~|~g i(n) = hf |~g i. k k=0 4.3 Beispiele für mehrfach differenzierbare Funktionen. (a) Die Exponentialfunktion ist auf ganz R beliebig oft differenzierbar mit dn x e = ex . dxn (b) Der Logarithmus ist auf R+ beliebig oft differenzierbar mit ln00 (x) = −1/x2 , ln000 (x) = 2/x3 und allgemein (−1)n−1 (n − 1)! dn ln x = für x > 0, n ∈ N. n dx xn (c) Die trigonometrischen Funktionen und die Hyperbelfunktionen sind auf ihrem natürlichen Definitionsbereich im Reellen beliebig oft differenzierbar. Es gilt cos00 = − cos, sin00 = − sin, cosh00 = cosh, sinh00 = sinh . (d) Ein Polynom p(x) = an xn + · · · + a1 x + a0 vom Grad n ist beliebig oft differenzierbar mit p0 (x) = nan xn−1 + · · · + 3a3 x2 + 2a2 x + a1 , p00 (x) = .. . n(n − 1)an xn−2 + · · · + 3 · 2a3 x + 2a2 , p(n) (x) = n!an , = 0 p (k) (x) für k > n. (e) Man kann zeigen, dass die durch ( 2 e−1/x für x 6= 0, f (x) := 0 für x = 0, 1 definierte Funktion f auf ganz R beliebig oft differenzierbar ist mit f (n) (0) = 0 für alle n ∈ N0 . (f) Die mit x2 gedämpfte kollabierende Oszillation aus 2.11 ist zwar auf ganz R differenzierbar. Da die Ableitung aber in x = 0 unstetig ist, ist f dort nur einmal differenzierbar. -1 1 2 Abbildung 4.22: Graph von e−1/x . P∞ 4.4 Höhere Ableitungen von Potenzreihen. Eine Potenzreihe f (x) = k=0 ak (x−x0 )k mit Konvergenzradius R > 0 ist für x ∈]x0 − R, x0 + R[ beliebig oft differenzierbar mit f (n) (x) = ∞ X k(k − 1) · · · (k − n + 1)ak (x − x0 )k−n k=n Insbesondere gilt für die Ableitungen im Entwicklungspunkt f (n) (x0 ) = n!an also f 0 (x0 ) = a1 , f 00 (x0 ) = 2a2 und f 000 (x0 ) = 6a3 , . . . . Das folgt durch wiederholte Anwendung von 2.5. für n ∈ N0 , für x ∈]x0 − R, x0 + R[. 142 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN Beispiel. Wegen sinc(x) = (−1)k 2k k=0 (2k+1)! x P∞ für x ∈ R ist die Sinc-Funktion auf ganz R beliebig oft differenzierbar. Für die n-te Ableitung im Ursprung gilt sinc(n) (0) = sinc(n) (0) = 0 falls n ungerade. (−1)k 2k+1 falls n = 2k gerade und 4.5 Stetige Differenzierbarkeit und die Funktionenklassen C n und C ∞ . Eine Funktion f heißt stetig differenzierbar auf einem Intervall I oder eine C 1 -Funktion, wenn f auf I differenzierbar und f 0 auf I stetig ist. Entsprechend heißt f n-fach stetig differenzierbar auf I oder C n -Funktion, wenn f dort n-fach differenzierbar und f (n) stetig ist. Ist f auf I beliebig oft differenzierbar, so nennen wir f eine C ∞ -Funktion. Die Menge der auf I n-fach stetig differenzierbaren reell-, komplex-, bzw. vekorwertigen Funktionen bezeichnen wir mit C n (I, R), C n (I, C), bzw. C n (I, Rm ). Das beinhaltet den Fall n = ∞. Wenn Definitionsbzw. Zielbereich aus dem Zusammenhang ersichtlich sind, schreiben wir auch C n (I) oder C n . 4.6 Taylor-Polynome. Für eine C n -Funktion f in einer Umgebung I eines Punktes a ∈ I nennen wir Tn (x) = Tn [f, a](x) := n X f (k) (a) k=0 k! (x − a)k f (a) + f 0 (a)(x − a) + = f 00 (a) f (n) (a) (x − a)2 + · · · + (x − a)n 2! n! das n-te Taylor-Polynom von f mit Entwicklungspunkt a. Die Bezeichnung Tn (x) ist bequem, Tn [f, a](x) ist nützlich, wenn der Entwicklungspunkt a und die betroffene Funktion f explizit angeben werden sollen. 4.7 Taylor-Reihe. Potenzreihe Ist f eine C ∞ -Funktion in einer Umgebung I eines Punkt a ∈ I, so heißt die T∞ (x) = T∞ [f, a](x) := ∞ X f (k) (a) k=0 = k! (x − a)k f (a) + f 0 (a)(x − a) + f 00 (a) (x − a)2 + · · · 2! die Taylor-Reihe von f im Entwicklungspunkt a. Achtung. Wir können für f in a nur dann eine Taylor-Reihe bilden, wenn f dort beliebig oft differenzierbar ist. Die bloße Existenz einer solchen Taylor-Reihe T∞ sagt noch nichts über ihre Konvergenz und was T∞ (x) mit f (x) zu tun hat. Mit dieser Frage werden wir uns jetzt beschäftigen. Für Potenzreihen erhalten wir sofort aus 4.4 eine positive Antwort, die wir mit dem Identitätssatz für Potenzreihen 2.§4.1.8 vom Reellen ins Komplexe übertragen können. P∞ 4.8 Von Potenzreihen zu Taylor-Reihen. Ist f (x) = k=0 ak (x − x0 )k eine Potenzreihe mit Konvergenzradius R > 0, so konvergiert die Taylor-Reihe, hat ebenfalls den Konvergenzradius R und stimmt mit der Potenzreihe überein, d.h. T∞ (x) = f (x) für |x − x0 | < R und ak = f (k) (x0 ) k! für k ∈ N0 . P∞ 1 1 Beispiel. Wegen k=0 xk = 1−x für |x − 1| < 1 hat f (x) = 1−x in x = 0 eine Taylor-Reihe. In der P∞ k Konvergenzkreisscheibe |x| < 1 stimmt f mit der Potenzreihe k=0 x überein und es gilt f (k) (0) = k! für k ∈ N0 . Dass f sogar für beliebige x 6= 1 definiert ist, stört nicht, zeigt aber, dass Potenzreihen Funktionen i.A. nur lokal beschreiben. KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 143 4.9 Von Taylor-Reihen zu Potenzreihen. Die Taylor-Reihe einer C ∞ -Funktion muss nichts mit f zu tun haben. 2 In 4.3 (e) haben wir gesehen, dass durch f (x) := e−1/x für x 6= 0 und f (0) := 0 eine C ∞ -Funktion definiert wird mit f (k) (0) = 0 für alle k ∈ N0 . Die Taylor-Reihe konvergiert prächtig: T∞ [f, 0](x) = 0 für alle x ∈ C, hat aber offensichtlich nichts mit f zu tun! Es gibt auch C ∞ -Funktionen, deren Taylor-Reihe nur im Entwicklungspunkt konvergiert. 4.10 Taylor-Entwicklung, analytische Funktionen. Wenn für eine C ∞ -Funktion f die Taylor-Reihe T∞ zum Entwicklungspunkt a einen positiven Konvergenzradius R besitzt und im Konvergenzkreis f darstellt, d.h. falls f (x) = T∞ (x) für |x−a| < R, so sagen wir, dass f in a eine Taylor-Entwicklung besitzt. Hat f in jedem Punkt ihres Definitionsbereichs eine Taylor-Entwicklung, so nennen wir f analytisch. Um zu entscheiden, ob f in a Taylor-entwickelbar ist, müssen wir untersuchen, wie sich f (x) − Tn (x) für n → ∞ in Abhängigkeit von x verhält. 4.11 Restglied. Ist f eine C n -Funktion in einer Umgebung I eines Punktes a ∈ I so nennen wir die auf I definierte Funktion Rn (x) := f (x) − Tn (x) das Restglied für das n-te Taylorpolynom Tn von f in a. Penibel geschrieben lautet das Restglied: Rn [f, a](x) := f (x) − Tn [f, a](x). 4.12 Darstellungen für das Restglied. Ist f eine reellwertige C n+1 -Funktion auf einem Intervall I ⊂ R, so hat das n-te Restglied die Gestalt Rn (x) = f (n+1) (θ) (x − a)n+1 (n + 1)! (Lagrange-Darstellung) oder f (n+1) (ξ) (x − ξ)n (x − a) (Cauchy-Darstellung) n! mit einem von x und a abhängigen θ bzw. ξ zwischen x und a. Rn (x) = Beweis∗ . Für eine C (n+1) -Funktion f auf I =]c, d[ und zwei Punkte a, x ∈ I bilden wir das n-te TaylorPolynom Tn von f in a und definieren die Zahl C durch f (x) − Tn (x) = C(x − a)n+1 . Wollen wir die Lagrange-Darstellung herleiten, so müssen wir zeigen, dass ein θ zwischen x und a existiert mit C = f (n+1) (θ)/(n + 1)!. Hierzu betrachten wir die Hilfsfunktion h(t) := n X f (k) (t) k=0 k! (x − t)k + C(x − t)n+1 . Dann ist h auf I differenzierbar mit h(a) = Tn (x) + C(x − a)n+1 = f (x) = h(x). Wir können also den Satz von Rolle 3.4 anwenden und erhalten ein θ zwischen x und a mit h0 (θ) = 0. Die Ableitung von h berechnen wir mit der Produktregel und einer Indexverschiebung zu n (k+1) X f (t) f (k) (t) 0 0 k k−1 h (t) = f (t) + (x − t) − k(x − t) − (n + 1)C(x − t)n k! k! k=1 = f (n+1) (t) (x − t)n − (n + 1)C(x − t)n . n! Aus f (n+1) (θ) (x − θ)n − (n + 1)C(x − θ)n . n! erhalten wir nun wie behauptet C = f (n+1) (θ)/(n + 1)!. Für die Cauchy-Darstellung kann man ähnlich argumentieren. 0 = h0 (θ) = 144 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN 4.13 Fehlerabschätzung für das Restglied. Ist f eine C n+1 -Funktion auf einem Intervall I und ist f (n+1) auf I beschränkt, d.h. |f (n+1) (x)| ≤ M für x ∈ I, so gilt für das Restglied die Fehlerabschätzung |Rn (x)| ≤ M |x − a|n+1 (n + 1)! für x ∈ I. Diese Fehlerabschätzung kann für reell- und komplexwertige Funktionen einer Variablen verwendet werden, bei vektorwertigen Funktionen gehe man komponentenweise vor. Beweis. Das folgt sofort aus der Lagrange-Darstellung 4.12 des Restglieds. 4.14 Qualitative Restgliedabschätzung. Ist f in einer Umgebung eines Punktes a eine C n -Funktion, so gilt für das n-te Taylor-Polynom Tn von f in a f (x) = Tn (x) + O(|x − a|n ) für x → a. Ist f sogar von der Klasse C n+1 , so gilt f (x) = Tn (x) + O(|x − a|n+1 ) für x → a. Beweis∗ . Ist f in einer Umgebung von a von der Klasse C n+1 , so ist f (n+1) insbesondere in einem kompakten Intervall I stetig, das a als inneren Punkt enthält. Nach dem Satz vom Maximum §2.4.7 ist f (n+1) auf I beschränkt und die O-Aussage folgt sofort aus 4.13. Ist f nur von der Klasse C n , so liefert die Lagrange-Darstellung 4.12 des Restglieds Rn−1 zunächst f (x) − Tn−1 (x) 1 Rn−1 (x) 1 1 f (x) − Tn (x) = − f (n) (a) = − f (n) (a) = (f (n) (θx ) − f (n) (a)) (x − a)n (x − a)n n! (x − a)n n! n! für x nahe bei a mit einem von x abhängigen θx zwischen x und a. Für x → a gilt auch θx → a und die Stetigkeit von f (n) in a impliziert dann f (x) − Tn (x) →0 (x − a)n für x → a. Das bedeutet aber gerade f (x) − Tn (x) = O(|x − a|n ) für x → a. 4.15 Schmiegparabeln. Wegen f (x) = Tn (x) + O(|x − a|n ) für x → a nennen wir den Graphen des nten Taylor-Polynoms Tn einer C n -Funktion im Entwicklungspunkt a auch Schmiegparabel n-ter Ordnung und sagen: „Eine C n -Funktion wird durch ihr n-tes Taylor-Polynom lokal mit einem Fehler approximiert, der schneller als von n-ter Ordnung gegen Null geht.“ Wir haben damit die Interpretation von (einmaliger) Differenzierbarkeit als lineare Approximierbarkeit in 1.6 auf höhere Ableitungen verallgemeinert. 4.16 Beispiele für Taylor-Entwicklungen. Die folgenden sechs Taylor-Entwicklungen erhalten wir aus bekannten Potenzreihen (vgl. 1.§4.1.4, 1.§4.2.5, 2.§2.5.8 und 2.§4.2.9). (g) geometrische Reihe (h) Exponentialreihe (i) Cosinusreihe (j) Sinusreihe 1 1−x = ex = cos x sin x = = (k) Tangensreihe tan x = (l) Cotangensreihe cot x = ∞ X k=0 ∞ X k=0 ∞ X k=0 ∞ X k=0 ∞ X xk für x ∈ C mit |x| < 1, 1 k x k! für beliebige x ∈ C, (−1)k 2k x (2k)! für beliebige x ∈ C, (−1)k 2k+1 x (2k + 1)! für beliebige x ∈ C, (−1)k−1 4k (4k − 1) B2k x2k−1 (2k)! k=1 ∞ 1 X (−1)k−1 4k + B2k x2k−1 x (2k)! k=1 für x ∈ C nahe bei 0, für x ∈ C r {0} nahe bei 0, 145 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN (m) Logarithmusreihe ln(1 + x) = ∞ X (−1)k−1 k=1 k xk für x ∈ C mit |x| < 1 oder x = 1. Zum Beweis von (m) wir zunächst, dass die PoPbeachten ∞ k−1 k tenzreihe f (x) := x /k mit der geometrik=1 (−1) schen Reihe als konvergenter Majorante für |x| < 1 konvergiert und gemäß ∈] − 1, 1[ differenzierbar P∞ 2.5 fürk−1x k−1 ist mit f 0 (x) = x = 1/(1 + x). Wegen k=1 (−1) ln0 (1 + x) = 1/(1 + x) für x ∈] − 1, 1[ unterscheiden sich f und x 7→ ln(1 + x) nach dem Identitätssatz für differenzierbare Funktionen 3.8 auf ] − 1, 1[ nur um eine Konstante, die dann wegen f (0) = 0 = ln(1) Null sein muss. Damit gilt f (x) = ln(1 + x) für x ∈] − 1, 1[ und wir können den bisher nur auf R+ definierten Logarithmus durch ln(1 + x) := ∞ X (−1)k−1 k=1 k xk 1 -1 1 -1 für |x| < 1 zumindest ein Stück weit ins Komplexe fortsetzen. Durch folgenden Trick erhalten wir diese Darstellung auch im Punkt x = 1 auf dem Rand des Konvergenzkreises (wo ja bei einer Potenzreihe a priori nicht klar ist, was passiert): Abbildung 4.23: Schmiegparabeln für x 7→ ln(1 + x) bei x = 0. Die Approximation gelingt nur für |x| < 1. Die obige Reihe ist für x ∈ [0, 1[ alternierend. Mit dem Leibniz-Kriterium 1.§4.2.6 folgt zunächst n X (−1)k−1 k 1 x ≤ für x ∈ [0, 1[ und n ∈ N ln(1 + x) − n k k=1 und mit der Stetigkeit des Logarithmus nach Grenzübergang x → 1− dann auch n X (−1)k−1 1 für n ∈ N. ln(2) − ≤ n k k=1 Also konvergiert die alternierende harmonische Reihe wie in 1.§4.2.7 versprochen mit ln(2) = ∞ X (−1)k−1 k=1 (n) Arcustangensreihe arctan x = ∞ X k=0 k =1− 1 1 1 + − ± ··· . 2 3 4 (−1)k 2k+1 x für x ∈ C mit |x| < 1 oder x = ±1. 2k + 1 Das beweist man analog zu (m). Wegen arctan(1) = π/4 erhalten wir insbesondere ∞ X (−1)k 4 4 4 π=4 = 4 − + − ± ··· . 2k + 1 3 5 7 k=0 Diese Reihendarstellung für π konvergiert allerdings recht langsam (vgl. 1.§4.2.7). ∞ X c k (o) Binomialreihe (1 + x)c = x für x ∈ C mit |x| < 1 und c ∈ C. k k=0 Dies hatten wir in 1.§4.3.10 für c ∈ Z und c = 1/n mit n ∈ N hergeleitet. Nun erhalten wir das für c ∈ C ähnlich wie in (m) und (n): Die Potenzreihe ist für |x| < 1 konvergent. Für x ∈] − 1, 1[ liefern die Produktregel und eine Indexverschiebung ∞ X d c k −c (1 + x) x = 0. k dx k=0 146 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN P∞ Also ist (1 + x)−c k=0 kc xk konstant. Durch Betrachtung von x = 0 erhält man als Konstante 1. Dies liefert die Formel zunächst für x ∈] − 1, 1[, mit dem Identitätssatz für Potenzreihen 2.§4.1.8 dann auch für |x| < 1 im Komplexen. 5 Bestimmung von Extremwerten 5.1 Kritische Punkte. Für lokale Extrema 3.3 einer differenzierbaren Funktion f kennen wir das notwendige Kriterium „hat f in x einen lokales Extremum, so gilt f 0 (x) = 0“. Solch einen Punkt nennen wir kritischen Punkt. 5.2 Hinreichende Bedingung für lokale Extrema. Ist f : ]c, d[→ R differenzierbar und ist a ∈]c, d[ ein kritischer Punkt, so hat f in a ein • Maximum, falls f 0 (x) ≥ 0 für alle x ∈]c, a[ und f 0 (x) ≤ 0 für alle x ∈]a, d[. • Minimum, falls f 0 (x) ≤ 0 für alle x ∈]c, a[ und f 0 (x) ≥ 0 für alle x ∈]a, d[. Ist f in a außerdem n-mal stetig differenzierbar für ein n ≥ 2 mit f 0 (a) = f 00 (a) = . . . = f (n−1) (a) = 0 und f (n) (a) 6= 0, so hat f in a • ein lokales Maximum, falls n gerade und f (n) (a) < 0, • ein lokales Minimum, falls n gerade und f (n) (a) > 0, • kein lokales Extremum, falls n ungerade. f 0 (x) ≥ 0 f 0 (x) ≤ 0 c f 0 (x) ≤ 0 f 0 (x) ≥ 0 a d c a d Abbildung 4.24: Hinreichende Bedingungen für lokale Extrema. Beweis. Gilt f 0 (x) ≥ 0 für x ∈]c, a[ und f 0 (x) ≤ 0 für x ∈]a, d[, so ist f nach dem Monotoniekriterium 3.7 auf ]c, a[ monoton wachsend und auf ]a, d[ monoton fallend. Also hat f auf [c, d] in a ein Maximum. Ist f in a außerdem n-mal stetig differenzierbar mit f 0 (a) = f 00 (a) = . . . = f (n−1) (a) = 0 und f (n) (a) 6= 0, so hat das n-te Taylor-Polynom von f in a die Form Tn (x) = f (a) + Restgliedabschätzung 4.14 liefert f (x) = f (a) + f (n) (a) n! (x f (n) (a) (x − a)n + O(|x − a|n ) n! − a)n und die qualitative für x → a. Daher gilt f (x) − f (a) f (n) (a) → (x − a)n n! für x → a und der obige Bruch muss nach 4.1 für alle x 6= a genügend nahe bei a dasselbe Vorzeichen wie f (n) (a) haben. Für gerades n und f (n) (a) < 0 bedeutet dies f (x) < f (a) für diese x, d.h. es liegt ein lokales Maximum vor. In den anderen beiden Fällen schließe man analog. 147 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN a a f (x) = f (a) + f 00 (a) 2! (x 3 a − a)2 +O(|x − a| ) für x → a f (x) = f (a) + f 000 (a) 3! (x 4 − a)3 f (x) = f (a) + +O(|x − a| ) für x → a f (4) (a) 4! (x 5 − a)4 +O(|x − a| ) für x → a Abbildung 4.25: Tangenten und Schmiegparabeln in kritischen Punkten. 5.3 Optimierungsprobleme. Viele Fragestellungen aus verschiedensten Bereichen der Physik lassen sich mathematisch in der Form eines Optimierungsproblems für eine reellwertige Funktion schreiben. Dabei unterscheidet man zwei Typen. • Wenn nicht klar ist, ob eine Extremalsituation existiert: • Wenn man weiß, dass eine Extremalsituation existiert: supx∈I f (x) bzw. inf x∈I f (x), maxx∈I f (x) bzw. minx∈I f (x). Ist I kompakt und f stetig, so garantiert uns der Satz vom Maximum 4.8 die Lösbarkeit des Maximierungsproblems, bietet aber keine Hilfestellung, die Punkte x ∈ I zu finden, an denen f (x) maximal wird. Mit der notwendigen Bedingung für lokale Extrema 3.3 kann der Kandidatenkreis aber eingeschränkt werden: Ist f in a ∈ I differenzierbar mit f 0 (a) 6= 0, so hat f in a nicht einmal ein lokales Extremum. (Dies geht zunächst nur für Funktionen einer Variablen, in 7.7 werden wir das verallgemeinern.) 5.4 Kandidaten für Extremalstellen, kritische Punkte. Ist f : I → R eine Funktion auf einem Intervall I, so kommen als Kandidaten für die Lösung eines Optimierungsproblems für f in Frage: • kritische Punkte, d.h. innere Punkte von I, in denen f differenzierbar ist mit f 0 (x) = 0, • Punkte aus I, in denen f nicht differenzierbar ist, • Randpunkte von I, bzw. das Randverhalten (bei Randpunkten, die nicht zu I gehören, bzw. bei unbeschränktem I). 5.5 Beispiele. (a) maxx∈[−1,1] x3 . Da f (x) = x3 auf R differenzierbar ist mit f 0 (x) = 3x2 müssen wir nur x = 0 und die beiden Randpunkte x = ±1 betrachten. Der kritische Punkt x liefert nicht einmal ein lokales Extremum. Das Maximum wird für x = 1 angenommen mit Wert f (1) = 1. (b) maxx∈[0,+∞[ xe−x . Wieder ist f (x) = xe−x differenzierbar mit f 0 (x) = (1 − x)e−x . Neben x = 1 mit f (1) = 1/e ist der Randpunkt x = 0 mit f (0) = 0 und das Grenzverhalten von f für x → +∞ zu betrachten. Wegen limx→+∞ xe−x = 0 liefert x = 1 das Maximum mit Wert f (1) = 1/e. (c) minx∈[1,+∞[ xe−x . Die obige Überlegung zeigt, dass dieses Minimierungsproblem nicht lösbar ist. Als Ersatz können wir inf x∈[1,+∞[ xe−x = 0 ansehen. 148 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN 1 1 1 ã maxx∈[0,+∞[ xe−x kritischer Punkt x = 1 liefert Maximum 1 -1 1 maxx∈[−1,1] x3 Randmaximum bei x = 1 1 minx∈[1,+∞[ xe−x keine Lösung 1 ã -1 Abbildung 4.26: Drei Optimierungsprobleme. (d) Minimiere den Abstand des Punktes ~a von der Ursprungsgeraden mit normiertem Richtungsvektor ~v (vgl. 3.§3.3.7): min k~a − λ~v k λ∈R Zunächst ist nicht klar, ob die zu minimierende Funktion λ 7→ k~a − λ~v k differenzierbar ist. Wenn wir stattdessen das Quadrat des zu minimierenden Abstands f (λ) := k~a − λ~v k2 = h~a − λ~v |~a − λ~v i = h~a|~ai − 2λh~a|~v i + λ2 h~v |~v i = k~ak2 − 2λh~a|~v i + λ2 betrachten, erhalten wir etwas Differenzierbares und das Ganze entpuppt sich als Suche nach dem Scheitel einer Parabel. Es gilt f 0 (λ) = 2λ − 2h~a|~v i, und λ = h~a|~v i ist kritischer Punkt mit f (λ) = k~ak2 − h~a|~v i2 . Wegen limλ→±∞ f (λ) = +∞ muss dort ein Minimum vorliegen, welches dann auch die Lösung des ursprünglichen p Minimierungsproblems liefert. Der Abstand wird also für den Geradenpunkt h~a|~v i~v minimal mit Wert k~ak2 − h~a|~v i2 . 6 Weitere Anwendungen der Differentialrechnung 6.1 Newton-Iteration. Eine Gleichung f (x) = b mit einer nichtlinearen Funktion f kann i.A. nicht exakt gelöst werden. Wir können uns auf den Fall b = 0 beschränken, d.h. Nullstellen von f bestimmen. Ist f differenzierbar und haben wir schon eine Näherung x0 für eine Nullstelle ξ von f gefunden, so können wir f durch die Tangente t(x) = f (x0 ) + f 0 (x0 )(x − x0 ) approximieren und die Nullstelle x1 von t als neue Näherung verwenden. Selbige berechnet sich aus 0 = t(x1 ) = f (x0 ) + f 0 (x0 )(x1 − x0 ) zu x1 = x0 − f (x0 )/f 0 (x0 ) falls f 0 (x0 ) 6= 0. Wir erhalten die sogenannte Newton-Iteration xk+1 = xk − f (xk ) f 0 (xk ) für k ∈ N0 . Man kann beweisen (siehe z.B. [Kön, Band 1, 14.4]), dass das Newton-Verfahren quadratisch konvergiert, wenn man den Startwert x0 genügend nahe an ξ wählt und wenn ξ eine einfache Nullstelle ist (d.h. f (ξ) = 0 aber f 0 (ξ) 6= 0). f (xk ) f (xk+1 ) f (xk+2 ) ξ xk+2 xk+1 xk Abbildung 4.27: Newton-Verfahren. 149 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN Auf Details gehen wir nicht ein, sondern illustrieren die Problematik an zwei Bildern. konvergente Newton-Iteration divergente Newton-Iteration x0 x0 x1 x3 x2 x1 Abbildung 4.28: Zur Konvergenzproblematik beim Newton-Verfahren. 6.2∗ Newton-Iteration im Komplexen. Das Newton-Verfahren ist auch im Komplexen (d.h. für „komplex differenzierbare“ Funktionen f : D ⊂ C → C und komplexe Startwerte) anwendbar. Für √ a — d.h. die Menge der Startwerte, f (z) = z 2 − a mit a ∈ R+ ist dann der „Einzugsbereich“ von √ für die das Verfahren gegen a konvergiert — nicht mehr die positive reelle Achse, sondern die rechte Halbebene. Ist f ein beliebiges Polynom vom Grad zwei, so fungiert die Mittelsenkrechte zwischen den beiden Nullstellen als Trennlinie deren Einzugsbereiche. Für Polynome f mit grad(f ) ≥ 3 wird die Bestimmung der Einzugsbereiche kompliziert. Abbildung 4.29 zeigt die Einzugsbereiche der drei Nullstellen √ von f (z) = z 3 − 1.√Der Einzugsbereich von 1 ist rot, der von e2πi/3 = 1/2 + i 3/2 ist grün und der von −e2πi/3 = 1/2 − i 3/2 ist blau gefärbt. Die Trennlinie zwischen den drei Einzugsbereichen hat fraktale Gestalt. Man kann zeigen, dass jeder Punkt auf dieser Trennlinie ein „Drei-Länder-Punkt“ ist, d.h. an einen roten, einen grünen und einen blauen Bereich angrenzt. Abbildung 4.29: Einzugsbereiche beim Newton-Verfahren für z 3 − 1 im Komplexen. 150 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN 6.3 Beispiele zur Newton-Iteration. (a) f (x) = x2 − a, a > 0 (numerische Berechnung von √ a). Das zugehörige Newton-Verfahren lautet xk − a 1 a = xk − = xk + 2xk 2 xk 2 xk+1 und entpuppt sich gerade als das aus 1.§2.8.5 bekannte Babylonische Wurzelziehen. (b) f (x) = (x − 5)ex + 5 (siehe Wiensches Verschiebungsgesetz 4.4). Wir wählen den Startwert x0 = 5 und erhalten die Rekursion xk+1 = xk − (xk − 5)exk + 5 (xk − 4)exk für k ≥ 0. Die ersten vier Rekursionsschritte liefern schon elf Nachkommastellen. k xk 0 5 1 4, 966310265004 2 4, 965115686301 3 4, 965114231746 4 4, 965114231744 Man vergleiche mit der Intervallhalbierung in 4.4. 6.4 Regeln von Bernoulli und de l’Hospital. Sind f und g in ]a, a + r], r > 0, differenzierbar mit g 0 (x) 6= 0 für x ∈]a, a + r[ und gilt lim f (x) = 0 = lim g(x) x→a+ x→a+ oder lim f (x) = +∞ = lim g(x) x→a+ x→a+ so folgt f (x) f 0 (x) = lim 0 , x→a+ g(x) x→a+ g (x) falls der zweite Grenzwert existiert. Entsprechend gilt das für links- oder zweiseitige Grenzwerte sowie für uneigentliche Grenzwerte erster Art. lim Beweis∗ . Im Fall limx→a+ f (x) = 0 = limx→a+ g(x) können wir f und g durch f (a) := 0, g(a) := 0 auf [a, a + r] stetig fortsetzen und den verallgemeinerten Mittelwertsatz 3.6 anwenden. Zu jedem x ∈]a, a + r[ gibt es daher ein ξ ∈]a, x[ mit f (x) f (x) − f (a) f 0 (ξ) = = 0 . g(x) g(x) − g(a) g (ξ) Existiert nun limx→a+ f 0 (x) g 0 (x) =: c, so folgt für x → a+ auch ξ → a+ und damit f (x) f 0 (ξ) = lim 0 = c. x→a+ g(x) ξ→a+ g (ξ) lim Die verbleibenden Fälle führt man durch die üblichen Substitutionen (d.h. f (x) 7→ 1/f (x) bzw. x 7→ 1/x) auf den eben behandelten zurück. Beispiele. f (x) = sin x, g(x) = x, a = 0: Wegen f 0 (x) g 0 (x) = cos x → 1 für x → 0 existiert limx→0 sin x x = 1. Dagegen kommt man bei der Diskussion von limx→0 x sin x1 mit der Wahl f (x) = sin x1 , g(x) = x1 , a = 0 zu keinem Ziel. Man sollte sich also nicht alleine auf die Regeln von Bernoulli und de l’Hospital verlassen. 6.5∗ Stirling-Formel. Für große n ∈ N kann man n! näherungsweise berechnen durch n n √ n! ' 2πn für n → ∞. e Hierbei gilt die Fehlerabschätzung 1< √ n! < e1/(12n−1)) 2πn(n/e)n für n ≥ 2. Der Beweis verwendet die Logarithmusreihe 4.16 (m) und das Leibniz-Kriterium 1.§4.2.6. Details siehe z.B. [FiKau, §10.1.5]. 151 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 6.6 Lineare Differentialgleichungen erster Ordnung mit konstanten Koeffzienten haben die Form ẋ = ax + b mit (reellen oder komplexen) Konstanten a und b. Im Fall b = 0 nennen wir sie homogen, ansonsten inhomogen. Geben wir zusätzlich noch eine Anfangsbedingung x(t0 ) = x0 vor, so sprechen wir von einem Anfangswertproblem. Wir haben den folgenden Lösungssatz. Die allgemeine Lösung im homogenen Fall ẋ = ax lautet x(t) = ceat mit einer freien Konstanten c. Jedes Anfangswertproblem ẋ = ax, x(t0 ) = x0 , hat genau eine auf ganz R definierte Lösung, nämlich x(t) = x0 ea(t−t0 ) . Die allgemeinen Lösung im inhomogenen Fall ẋ = ax+b ist x(t) = ceat −b/a falls a 6= 0 bzw. x(t) = bt+c falls a = 0 mit einer freien Konstanten c. Jedes Anfangswertproblem ẋ = ax + b, x(t0 ) = x0 ist auf R eindeutig lösbar mit x(t) = (x0 + b/a)ea(t−t0 ) − b/a für a 6= 0 bzw. x(t) = b(t − t0 ) + x0 für a = 0. Beweis. Dass die angegebenen Funktionen jeweils Lösungen sind, zeigt man durch Nachrechnen. Wir müssen also nur noch die Eindeutigkeitsaussagen beweisen. Ist x eine Lösung von ẋ = ax mit x(t0 ) = x0 , so folgt für h(t) := e−a(t−t0 ) x(t) durch Differenzieren ḣ(t) = (ẋ(t) − ax(t))e−a(t−t0 ) = 0 für t ∈ R. Nach dem Identitätssatz 3.8 ist h also konstant mit Wert h(t) = h(t0 ) = x(t0 ) = x0 . Dies zeigt x(t) = x0 ea(t−t0 ) und liefert die Eindeutigkeit der Lösung des Anfangswertproblems im homogenen Fall. Für die allgemeine Lösung gehe man analog vor. Die Aussagen im inhomogenen Fall spielen wir nun mit folgender Beobachtung auf die schon bewiesenen im homogenen Fall zurück: Ist x̃ Lösung von ẋ = ax + b, so löst x = x̃ + b/a für a 6= 0 bzw. x = x̃ − bt für a = 0 die zugehörige homogene DGL ẋ = ax. 6.7 Anwendungsbeispiel: Ein- und Ausschalten im RL-Kreis. Wir betrachten einen einfachen Stromkreis mit einer Spannungsquelle, einem Widerstand von R Ohm und einer Spule von L Henry — einen sogenannten RL-Kreis. Nach der Kirchhoffschen Regel gilt für den Strom I(t) und die Spannung U (t) zur Zeit t die Beziehung ˙ + RI(t) = U (t). LI(t) Wird zur Zeit t = 0 eine Spannung U0 angelegt, so gilt I(0) = 0 und U (t) = U0 für t ≥ 0. Die zugehörige Lösung der inhomogenen DGL I˙ = −(R/L)I + U0 /L zum Anfangswert I(0) = 0 lautet gemäß 6.6 dann I(t) = U0 1 − e−(R/L)t R für t ≥ 0. Wegen der Selbstinduktion stellt sich also nicht sofort nach dem Ohmschen Gesetz der Strom I = U0 /R ein, sondern erst asymptotisch. Fließt umgekehrt zur Zeit t = 0 ein Strom I(0) = I0 und wird der RL-Kreis kurzgeschlossen, d.h. gilt U (t) = 0 für t > 0, so lösen wir das Anfangswertproblem I˙ = −(R/L)I, I(0) = I0 , und erhalten mit 6.6 I(t) = I0 e−(R/L)t für t ≥ 0. Dank der Selbstinduktion verschwindet der Strom also nicht sofort, sondern er klingt exponentiell ab. L U I0 I I0 I(t) R U0 U0 U (t) I(t) ein 0 U (t) t aus 0 Abbildung 4.30: Ein- und Ausschaltvorgang im RL-Kreis: Strom- und Spannungsverlauf. t 152 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN 6.8 Potenzreihenansatz bei Differentialgleichungen. Lösungen von Differentialgleichungen wie P∞ in 6.6 fallen nicht vom Himmel. Oft kann man sie durch einer Potenzreihenansatz x(t) = k=0 ak (t−t0 )k erraten. Mit solch einem Ansatz geht beispielsweise das Anfangswertproblem ẋ = ax, x(t0 ) = x0 , nach gliedweisem Differenzieren 2.5 über in a1 + 2a2 (t − t0 ) + 3a3 (t − t0 )2 + · · · = a a0 + a1 (t − t0 ) + a2 (t − t0 )2 + · · · , a 0 = x0 . Ein Koeffizientenvergleich liefert a0 = x0 , a1 = aa0 , 2a2 = aa1 , 3a3 = aa2 , ..., und allgemein kak = aak−1 . Wir erhalten mit vollständiger Induktion ak = x(t) = 1 k k! a x0 für k ∈ N0 , d.h. ∞ ∞ X X 1 k 1 a x0 (t − t0 )k = x0 [a(t − t0 )]k = x0 ea(t−t0 ) . k! k! k=0 k=0 Achtung. Ein Potenzreihenansatz kann schief gehen (z.B. wenn man eine Potenzreihe mit Konvergenzradius R = 0 erhält). Er stellt auch nicht sicher, ob weitere Lösungen existieren. 6.9∗ Wegweiser Differentialgleichungen. Wir geben in diesem Skript keine geschlossene Einführung in die Theorie von Differentialgleichungen, sondern streuen die Behandlung spezieller Typen an passenden Stellen ein. Typ ẋ = ax + b ẍ + aẋ + bx = c x(r) + · · · + a1 ẋ + a0 x = 0 ẋ = c(t)g(x) ẋ = a(t)x + b(t) ~x˙ = A~x ¨ + K~x = 0 M ~x Bezeichnung lineare DGL 1. Ordnung mit konstanten Koeffizienten lineare DGL 2. Ordnung mit konstanten Koeffizienten lineare DGL r-ter Ordnung mit konstanten Koeffizienten DGL mit getrennten Variablen lineare DGL 1. Ordnung lineare Systeme 1. Ordnung mit konstanten Koeffizienten schwingende Systeme Referenz 4.§3.6.6 3.§3.1.23 5.§5.2.7 4.§5.2 4.§5.3 5.§6.5.1 5.§6.4.19 Auf die allgemeine Theorie gehen wir nur kurz in 4.§5.1 ein. Eine ausführliche Behandlung von (gewöhnlichen und partiellen) erfolgt im dritten Teil der Vorlesung. 7 Partielle Ableitungen bei Funktionen mehrerer Variablen 7.1 Worum geht es? Bisher haben wir in §3 nur Funktionen einer reellen Variablen betrachtet. Davon wollen wir jetzt abweichen. Die volle Diskussion des Ableitungsbegriffs für eine Funktion f mehrerer Variablen müssen wir auf Kapitel 6 verschieben. Aber wir können jetzt schon die vorhandenen Methoden auf die partiellen Funktionen anwenden, die aus f entstehen, wenn wir alle Variable bis auf eine festhalten. Das wird uns insbesondere ein notwendiges Kriterium für lokale Extrema liefern. 7.2 Definition: partielle Ableitungen. Ist die Funktion f in einer Umgebung U ⊂ Rn eines Punktes ~a = (a1 , . . . , an ) ∈ U definiert und ist die k-te partielle Funktion t 7→ f (a1 , . . . , ak−1 , ak + t, ak+1 , . . . , an ) = f (~a + t~ek ), k = 1, . . . , n, in x = ak differenzierbar, so heißt ihre Ableitung f (a1 , . . . , ak−1 , t, ak+1 , . . . , an ) − f (~a) 1 ∂ f (~a) = lim = lim (f (~a + h~ek ) − f (~a)) t→ak h→0 h ∂xk t − ak die partielle Ableitung nach der k-ten Variablen von f im Punkt ~a. Weitere übliche Bezeichnungen sind ∂f (~a), ∂xk f (~a) oder fxk (~a). ∂xk Bei vektorwertigen Funktionen werden partielle Ableitungen komponentenweise gebildet. Achtung. Bilden von ∂ ∂xk f bedeutet: „Halte in f alle Variablen bis auf xk fest und leite nach xk ab.“ 153 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN Anmerkung. Da U eine Umgebung von ~a ist, so finden wir eine offene Kugel und dann auch einen offenen Quader I1 × · · · × In ⊂ U , der ~a enthält. Die k-te partielle Funktion ist somit zumindest auf Ik definiert. Damit kennen wir diese Funktion auf einer Umgebung von ak und können beginnen, sie in ak auf Differenzierbarkeit zu untersuchen. 7.3 Höhere partielle Ableitungen. Ist f in einer Umgebung U ⊂ Rn eines Punktes ~a ∈ U definiert, überall dort nach der k-ten Variablen differenzierbar und existiert in ~a für ∂x∂ k f die partielle Ableitung nach der l-ten Variablen ∂2 ∂ ∂ f (~a) := f (~a), ∂xl ∂xk ∂xl ∂xk so nennen wir selbige die zweite partielle Ableitung nach der k-ten und l-ten Variablen von f im Punkt ~a. Man schreibt hierfür auch ∂2f (~a), ∂xl ∂xk ∂xl ,xk f (~a) oder fxl ,xk (~a). Partielle Ableitungen höherer Ordnung werden entsprechen sukzessive gebildet. Achtung. Bei höheren partiellen Ableitungen kommt es zunächst auf die Reihenfolge an, wir müssen also 2 2 zwischen ∂x∂l ∂xk f und ∂x∂k ∂xl f unterscheiden. Das erste bedeutet „leite zuerst nach der k-ten Variablen ab, dann nach der l-ten“, im zweiten Fall geht es gerade anders herum. Später wird sich zeigen, dass zwei gemischte partielle Ableitungen übereinstimmen, falls jeweils gleich oft nach jeder Variablen differenziert wird und beide in einer Umgebung von ~a stetig sind (siehe 6.§1.2.4). Beispiel. Für f (x) = x3 + xy 2 lauten die beiden ersten partiellen Ableitungen ∂ f (x, y) = 2xy, ∂y ∂ f (x, y) = 3x2 + y 2 , ∂x die vier zweiten partiellen Ableitungen sind ∂2 f (x, y) = 6x, ∂x2 ∂2 f (x, y) = 2y, ∂y∂x ∂2 f (x, y) = 2y, ∂x∂y ∂2 f (x, y) = 2x. ∂y 2 Wer will, kann die acht partiellen Ableitungen dritter Ordnung ausrechnen. 7.4 Die Funktionenklassen C r und C ∞ . Eine Funktion f mehrerer Variablen heißt von der Klasse C r , wenn für f auf dem gesamten Definitionsbereich alle partiellen Ableitungen bis zur r-ten Ordnung existieren und stetig sind. Können alle partiellen Ableitungen beliebiger Ordnung gebildet werden, so nennen wir f eine C ∞ -Funktion. Wenn nötig, so können bei dieser Bezeichnung auch Definitions- und Zielbereich angegeben werden, d.h. man schreibt C r (D, R) etc. 7.5 Gradient eines Skalarfeldes. Besitzt ein Skalarfeld f : D ⊂ Rn → R in einem Punkt ~a ∈ D alle partiellen Ableitungen erster Ordnung, so heißt ∂ a) ∂x1 f (~ .. grad f (~a) := . ∂ f (~ a ) ∂xn der Gradient von f an der Stelle ~a. Der Gradient wird auch mit ∇f (~a) ∂ bezeichnet, wobei ∇ := ( ∂x , . . . , ∂x∂n ) Nabla-Operator genannt wird. 1 Achtung. Den Gradienten kann man nur für ein Skalarfeld f bilden, grad f (~a) ist dann ein Spaltenvektor, der oft auch als Zeilenvektor geschrieben wird. Kann grad f (~a) an jeder Stelle im Definitionsbereich D ⊂ Rn von f gebildet werden, so ist grad f eine auf D definierte Funktion mit Zeilenvektoren der Länge n als Werten. 154 §3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN 7.6 Interpretation des Gradienten. Die Komponenten des Gradienten einer Funktion f geben die Steigungen der partiellen Funktionen an. Sie besagen also, wie sich f längs der Koordinatenachsen verhält. Abbildung 4.31 illustriert dies am Beispiel eines Skalarfeldes zweier Variablen: Die Graphen der beiden partiellen Funktionen x 7→ f (x, b) und y 7→ f (a, y) werden in die jeweiligen Schnittebenen y = b bzw. ∂f y = a gezeichnet. Ihre Steigungen in x = a bzw. y = b sind gerade die Komponenten ∂f ∂x (a, b) bzw. ∂y (a, b) des Gradienten von f an der Stelle (a, b). f (a, b) Schnitt parallel zur (x, z)-Ebene, Tangentensteigung in x-Richtung: ∂f (a, b). ∂x Schnitt parallel zur (y, z)-Ebene, Tangentensteigung in y-Richtung: ∂f (a, b). ∂y b (a, b) a Abbildung 4.31: Die Komponenten des Gradienten geben die Steigung längs der Koordinatenachsen an. In 6.§1.3.5 werden wir für C 1 -Skalarfelder im Rahmen der Differentialrechnung mehrerer Veränderlicher eine weitere Interpretation bekommen: dann zeigt der Gradient in die Richtung stärksten Anstiegs. 7.7 Notwendige Bedingung für lokale Extrema. Hat ein Skalarfeld f an der Stelle ~a ein lokales Extremum und ist f dort partiell nach allen Variablen differenzierbar, so gilt grad f (~a) = (0, . . . , 0). Ein Punkt ~a ∈ Rn mit grad f (~a) = (0, . . . , 0) heißt kritischer Punkt. Beweis. Würde eine Komponenten von grad f (~a) nicht verschwinden, so hätte die entsprechende partielle Funktion gemäß der entsprechenden notwendigen Bedingung für Funktionen einer Variablen 3.3 kein lokales Extremum und damit auch nicht f . 7.8 Beispiele. Wir betrachten die beiden durch f (x, y) := x3 − 3x − 4y 2 + 2, 2 2x y 2 g(x, y) := x + y 2 0 für (x, y) 6= (0, 0), für (x, y) = (0, 0), definierten Skalarfelder f, g : R2 → R. Wir berechnen grad f (x, y) = (3x2 − 3, −8y) für (x, y) ∈ R2 und erhalten grad f (x, y) = (0, 0) genau dann, wenn x2 − 1 = 0 und y = 0, d.h. (x, y) = (±1, 0). Damit hat f zwei kritische Punkte. Wegen f (1, h) = f (1 + h, 0) = −4h2 < 0 (h + 3)h2 > 0 für h 6= 0, für h > −3, h 6= 0 155 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN nimmt f in der Nähe von (1, 0) sowohl positive als auch negative Werte an, hat dort also kein lokales Extremum. In 6.§1.4.7 werden wir ein hinreichendes Kriterium für lokale Extrema kennenlernen, mit dem wir dies ebenfalls nachweisen können. Dann erkennen wir auch, dass in (−1, 0) ein lokales Maximum vorliegt. Bei g können wir den Gradienten an jeder Stelle (x, y) 6= (0, 0) mit den Rechenregeln ausrechnen. Im Ursprung geht dies wegen der abschnittsweisen Definition nicht. Wegen g(x, 0) = g(0, y) = 0 für x, y ∈ R sind aber beide partielle Funktionen im Ursprung konstant, d.h. die partiellen Ableitungen verschwinden. Wir erhalten 2x2 (x2 − y 2 ) 2xy 3 , für (x, y) 6= (0, 0), (x2 + y 2 )2 2(x2 + y 2 )2 grad g(x, y) = (0, 0) für (x, y) = (0, 0) und erkennen, dass der Ursprung der einzige kritische Punkt von g ist. Wegen g(r, r) = 2r > 0 und g(r, −r) = −2r < 0 für r > 0 liegt dort aber kein lokales Extremum vor. 1 -1 0 0 1 -1 0 1 -1 0 1 -1 10 10 0 0 -10 -10 2 1 1 -1 0 0 1 0 1 -1 -1 0 0 1 -1 -1 10 10 0 0 -10 -10 -2 -3 -2 -1 1 0 2 3 Abbildung 4.32: Graphen und Niveaulinien zu f (x, y) = x3 − 3x − 4y 2 + 2. -1 0 1 -1 0 1 -1 0 2 1 1 1 1 1 0 0 0 -1 -1 -1 -1 0 -1 1 0 0 -1 -1 1 Abbildung 4.33: Graphen und Niveaulinien zu g(x, y) = 0 1 2x2 y x2 +y 2 -2 -2 -1 0 1 für (x, y) 6= (0, 0), g(0, 0) = 0. 2 156 §4. INTEGRALRECHNUNG IN EINER VARIABLEN §4 1 Integralrechnung in einer Variablen Integration von Treppenfunktionen und integrierbare Funktionen 1.1 Zur Problematik der Flächenmessung. Die Integralrechnung hat ihre Wurzeln in der Bestimmung von Flächeninhalten. Das einzige Flächenstück, für welches man den Flächeninhalt einfach angeben kann, ist das Rechteck. Vielen Flächenstücken — wie Dreiecken oder andere Vielecken — kann man dann durch Zerlegen bzw. Ergänzen zu Rechtecken ebenfalls Flächeninhalte zuordnen, bei einem „krummlinig“ begrenzten Flächenstück — wie einem Kreis — ist hierbei ein Grenzübergang notwendig. Ansätze hierzu finden sich bei Archimedes oder Cavalieri. Diesen Weg gehen wir auch bei der Definition des Integrals. Wir erklären zunächst ein Integral für „einfache“ Funktionen (Treppenfunktionen) und erweitern diesen elementaren Integralbegriff durch einen Grenzübergang für eine genügend große Funktionenklasse (Regelfunktionen). 1.2 Treppenfunktionen. Eine Funktion ϕ einer reellen Variablen heißt Treppenfunktion, wenn es endlich viele Zahlen x0 < x1 < . . . < xn gibt, so dass ϕ im Inneren der Intervalle ]xk−1 , xk [ jeweils konstant ist und außerhalb von [x0 , xn ] verschwindet. Auf die Werte ϕ(x0 ), . . . , ϕ(xn ) kommt es nicht an. Gilt ϕ(x) = 0 für x ∈ / [c, d], so nennen wir ϕ Treppenfunktion auf [c, d] oder sagen „ϕ lebt auf [c, d]“. Beispiel. Ist I ⊂ R ein beschränktes Intervall, so ist die charakteristische Funktion ( 1 für x ∈ I, χI (x) := 0 für x ∈ R r I, eine Treppenfunktion auf I. Die charakteristischen Funktionen erweisen sich als die „Grundbausteine“ der Treppenfunktionen. 1.3 Darstellung von Treppenfunktionen. Ist ϕ eine Treppenfunktion auf [x0 , xn ] mit ( yk für x ∈ Ik =]xk−1 , xk [, k = 1, . . . , n, ϕ(x) = 0 für x ∈ R r [x0 , xn ], so gilt ϕ(x) = n X x0 yk χIk (x) für x ∈ R r {x0 , x1 , . . . , xn }. k=1 x1 xn Abbildung 4.34: Eine Treppenfunktion. Ob diese Darstellung auch für die Randpunkte der Teilintervalle Ik gilt, ist für die Integralrechnung unwichtig, da diese n + 1 Punkte zum Flächeninhalt keinen Beitrag liefern. Abgesehen davon kann also jede Treppenfunktion als Linearkombination von charakteristischen Funktionen dargestellt werden. Achtung. Tatsächlich sind sogar mehrere derartige Darstellungen möglich. Beispielsweise gilt χ[0,3] = χ]0,1[ + χ[1,3[ = 2χ[0,4] − χ[0,3] − 2χ]3,4] . Wir sollten es also beim Integrieren mit der Gleichheit zweier Funktionen „nicht zu genau“ nehmen. 1.4 Gleichheit fast überall. Zwei Funktionen f und g einer reellen Variablen heißen fast überall gleich, f (x) = g(x) fast überall, oder kurz f =g wenn f (x) 6= g(x) für höchstens abzählbar unendlich viele x ∈ R gilt. f.ü., 157 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN Dieser Gleichheitsbegriff ist für die Integralrechnung nützlich. Wir können jetzt beispielsweise sagen „eine Treppenfunktion ist fast überall als Linearkombination von charakteristischen Funktionen darstellbar ϕ= n X yk χIk f.ü., k=1 und brauchen uns nicht mehr um die Intervallrandpunkte xk kümmern. 1.5 Integration von Treppenfunktionen. Treppenfunktion auf [c, d] mit Darstellung ϕ= n X yk χIk Für eine f.ü. k=1 für Teilintervalle I1 =]x0 , x1 [, . . . , In =]xn−1 , xn [ von [c, d] erklären wir das Integral Z d ϕ(x) dx := c n X yk ∆xk , ∆xk := xk − xk−1 . k=1 x0 x1 xn Abbildung 4.35: Integral einer Treppenfunktion. Wir haben also einfach die Flächeninhalte der Rechtecke mit Grundlinien Ik = [xk−1 , xk ] und Höhen yk unter dem Graphen von ϕ addiert. Da eine Treppenfunktion auf mehrere Arten als Linearkombination von charakteristischen Funktionen Rd dargestellt werden kann, müssen Pnwir uns noch davon überzeugen, dass die Zahl c ϕ(x) dx nicht von der Wahl der Darstellung ϕ = k=1 yk χIk f.ü. abhängt. Das läuft aber letztlich darauf hinaus sich klar zu machen, dass sich der Flächeninhalt eines Rechtecks nicht ändert, wenn wir es in zwei Teilrechtecke zerlegen und deren Flächeninhalte addieren. 1.6 Programm. Momentan können wir über Treppenfunktionen integrieren, d.h. Flächenstücke, deren Rand sich aus endlich vielen Strecken zusammensetzt. Jetzt kommt der angekündigte Grenzübergang auf krummlinig berandete Flächenstücke. Mathematisch gesehen ist das ein spannender Moment und es gibt mehrere Möglichkeiten. Letztlich hängt es vom Arbeitsaufwand ab, den man an dieser Stelle betreibt, wie vielen „Flächenstücken“ man einen „Flächeninhalt“ zuordnen kann. Wir wählen einen Zugang über das Regel- oder Cauchy-Integral , welcher alles Wesentliche zeigt, ohne technisch zu aufwendig zu werden. Es stellt sich heraus, dass man nicht jeder Menge (in der Ebene oder allgemein im Rn ) einen Inhalt zuordnen kann. Diese Tatsache steckt beispielsweise hinter dem Banach-Hausdorff-Tarski-Paradoxon, welches besagt, dass man die Einheitskugel K1 (~0) im R3 in fünf Teile aufteilen kann, welche nach Verschieben und Drehen zusammengesetzt zwei Einheitskugeln ergeben. 1.7 Supremumsnorm. Ist die Funktion f auf einer Menge D definiert und beschränkt, so definieren wir die Supremumsnorm von f durch kf k∞ = kf k∞,D := sup |f (x)| = sup{|f (x)| | x ∈ D}. x∈D Ist f vektorwertig, so hat man dabei den Betrag |f (x)| durch die Norm kf (x)k zu ersetzen. Die Supremumsnorm von f ist also die kleinste obere Schranke für die Funktionswerte von f . Die Schreibweise kf k∞,D hebt heraus, auf welcher Menge das Supremum von f zu bilden ist. Meistens ist das aber aus dem Zusammenhang klar und man schreibt einfach kf k∞ . Achtung. √ Die Supremumsnorm kf k∞ ist für eine Funktion erklärt. Das ist etwas anderes als die Norm k~xk = x1 2 + · · · + xn 2 eines Vektors im Rn . Tatsächlich haben aber beide Normen dieselben grundlegenden Eigenschaften, die wir uns für eine Längen- und Abstandsmessung wünschen — das eine Mal für Vektoren (siehe 3.§3.2.9), jetzt für Funktionen. 158 §4. INTEGRALRECHNUNG IN EINER VARIABLEN 1.8 Eigenschaften der Supremumsnorm. Sind f und g auf D definiert und beschränkt, so gilt (a) (Positive Definitheit) kf k∞ ≥ 0 und kf k∞ = 0 genau für f = 0, (b) (Homogenität) kλf k∞ = |λ|kf k∞ für eine beliebige Zahl λ, (c) (Dreiecksungleichung) kf + gk∞ ≤ kf k∞ + kgk∞ . Beweis. Die Regeln (a) und (b) sind unmittelbar einsichtig. Für (c) benutzen wir die Dreiecksungleichung |f (x) + g(x)| ≤ |f (x)| + |g(x)| ≤ kf k∞ + kgk∞ und bilden anschließend das Supremum über alle x ∈ D. 1.9 Gleichmäßiger Abstand von Funktionen. Mit der Supremumsnorm können wir den gleichmäßigen Abstand zweier Funktionen durch kf − gk∞ messen. Es gilt kf − gk∞ < ε ⇔ |f (x) − g(x)| < ε für alle x ∈ D. Das kann man sich so vorstellen, dass der Graph von g ganz im ε-Schlauch um den Graphen von f verläuft. g f c d c d c d Abbildung 4.36: Gleichmäßiger Abstand von Funktionen und drei ε-Schläuche. 1.10 Abschätzung für Integrale von Treppenfunktionen. Für zwei Treppenfunktionen ϕ und ψ auf [c, d] gilt Z Z d d ϕ dx − ψ dx ≤ (d − c)kϕ − ψk∞ . c c Beweis. Durch Einfügen von genügend vielen Zwischenpunkten in [c, d] können wir erreichen, dass es Zahlen x0 , . . . , xn gibt mit c = x0 < x1 < . . . < xn = d, so dass ϕ und ψ auf Ik =]xk−1 , xk [ jeweils konstant sind mit Wert yk bzw. zk . Dann gilt Z Z d n n n n d X X X X ϕ dx − ψ dx = yk ∆xk − zk ∆xk = (yk − zk )∆xk ≤ |yk − zk |∆xk c c k=1 ≤ n X k=1 k=1 k=1 k=1 ∆xk max |yk − zk | = (d − c)kϕ − ψk∞ . k=1,...,n 1.11 Regelfunktionen. Eine beschränkte Funktion f heißt integrierbar oder Regelfunktion auf einem Intervall [c, d], wenn sie dort beliebig genau gleichmäßig durch Treppenfunktionen approximierbar ist. Das bedeutet: zu jedem ε > 0 gibt es eine Treppenfunktion ϕ auf [c, d] mit kf − ϕk∞ < ε, oder — was dasselbe ist — es gibt eine Folge von Treppenfunktionen ϕn auf [c, d] gibt mit kf − ϕn k∞ → 0 für n → ∞. 159 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN c d c d c d Abbildung 4.37: Eine Regelfunktion kann gleichmäßig durch Treppenfunktionen appoximiert werden. 1.12 Integration von Regelfunktionen. Ist f auf [c, d] integrierbar, also dort gleichmäßig durch eine Folge von Treppenfunktionen ϕn approximierbar, so existiert der Grenzwert Z d Z d ϕn (x) dx f (x) dx := lim n→∞ c c und ist unabhängig von der Wahl der approximierenden Folge (ϕn )n . Diesen Grenzwert nennen wir das Integral von f über [c, d]. c d c d c d Abbildung 4.38: Integral einer Regelfunktion als Grenzwert der Integrale über Treppenfunktionen. Beweis. Wir beweisen zuerst die Existenz des Grenzwerts. Zu ε > 0 wählen wir eine Zahl nε ∈ N mit kf − ϕn | < ε für n ≥ nε . Mit der Dreiecksungleichung 1.8 (c) folgt kϕn − ϕm k∞ = k(f − ϕm ) − (f − ϕn )k∞ ≤ kf − ϕm k∞ + kf − ϕn k∞ < 2ε und daher mit 1.10 auch Z Z d d ϕn (x) dx − ϕm (x) dx ≤ (d − c)kϕn − ϕm k∞ < 2(d − c)ε c c für n, m ≥ nε für n, m ≥ nε . Rd Also ist die Folge der Zahlen c ϕn (x) dx eine Cauchy-Folge und damit konvergent. Nun zeigen wir, dass der Grenzwert nicht von der Wahl der approximierenden Folge abhängt. Sind (ϕn )n und (ψn )n zwei Folgen von Treppenfunktionen, die f gleichmäßig auf [c, d] approximieren, so folgt ähnlich wie zuvor kϕn − ψn k∞ ≤ kf − ϕn k∞ + kf − ψn k∞ → 0 für n → ∞ und dann mit 1.10 auch Z Z d d ϕn (x) dx − ψn (x) dx ≤ (d − c)kϕn − ψn k∞ → 0 c c Also konvergieren die beiden Folgen ( Rd c für n → ∞. Rd ϕn (x) dx)n und ( c ψn (x) dx)n gegen dieselbe Zahl. 160 §4. INTEGRALRECHNUNG IN EINER VARIABLEN 1.13 Zur Notation. Übliche Bezeichnungen für das Integral von f über [c, d] sind Z d Z f (x) dx c Z f (y) dy, oder [c,d] d Z dtf (t) d f. oder knapp c c Welches Symbol die Integrationsvariable bezeichnet, ist also belanglos. Die ersten drei Varianten geben Rd Rd aber weniger Anlass zu Missverständnissen: c etx dx ist deutlicher als c etx . Die dritte Variante hat gegenüber den ersten zwei den Nachteil, dass unklar ist, über welche Funktion integriert wird. R Das Integralzeichen als ein stilisiertes Summen-„S“ wurde 1675 von Gottfried Wilhelm Leibniz eingeführt. Er stellte sich das Integral als Summe über alle Ordinatenlinien vor. Das entspricht unserer Rd Pn Approximation von c f (x) dx durch Summen der Form k=1 f (xk )∆xk . Dem ebenfalls von Leibniz eingeführten „Differential“ dx wollen wir vorerst keine eigenständige Bedeutung geben. 1.14 Integration von vektorwertigen Funktionen. Unser Integral kann für reell-, komplex- oder vektorwertige Regelfunktionen verwendet werden. Für eine komplexwertige Regelfunktion f können Realund Imaginärteil getrennt integriert werden Z d Z d Z d f (x) dx = Re(f (x)) dx + i Im(f (x)) dx. c c c Eine vektorwertige Regelfunktion f~ mit Werten im Rm wird komponentenweise integriert R d f (x) dx 1 Z d c . . .. f~(x) dx = c Rd f (x) dx c m 1.15 Wie geht es weiter? Unser Zugang zu integrierbaren Funktionen entsprach dem Wunsch, die Flächenmessung von Rechtecken sinnvoll durch einen Grenzprozess zu erweitern. Dieser Wunsch ist jetzt erfüllt, aber leider haben wir momentan weder eine genaue Vorstellung, welche Flächenstücke wir messen, d.h. welche Funktionen wir integrieren können, noch kennen wir die Rechenregeln. Rechenregeln werden wir leicht aus Eigenschaften des Integrals für Treppenfunktionen ableiten können. Die spannende Frage, welche Funktionen wir denn nun integrieren können, hat folgende überraschende Antwort. 1.16 Charakterisierung von Regelfunktionen. Genau dann ist f über [c, d] integrierbar, wenn f in jedem Punkt einseitige Grenzwerte besitzt. Insbesondere ist jede auf [c, d] stetige Funktion integrierbar. Beweis∗ . Sei zunächst f auf [c, d] integrierbar, d.h. beschränkt und gleichmäßiger Grenzwert von Treppenfunktionen. Wir zeigen zuerst: Zu jedem ε > 0 existiert ein δ > 0, so dass für alle x, x0 ∈ [c, a[ mit |x − a| < δ und |x0 − a| < δ gilt |f (x) − f (x0 )| < ε. Zu ε > 0 gibt es nämlich eine Treppenfunktion ϕ mit kf −ϕk∞ < ε, d.h. |f (x)−ϕ(x)| < ε/2 für alle x ∈ [c, d]. Für ein geeignetes δ > 0 ist ϕ auf ]a−δ, a[⊂ [c, d] konstant. Für alle x, x0 ∈]a − δ, a[ folgt dann ϕ(x) = ϕ(x0 ) und wie behauptet. |f (x) − f (x0 )| ≤ |f (x) − ϕ(x)| + |ϕ(x0 ) − f (x0 )| < 2 ε = ε. 2 Ist nun (xn )n eine Folge in [c, a[ mit limn→∞ xn = a, so gibt es ein nε ∈ N mit xn , xm ∈]a − δ, a[ für n, m ≥ nε und obige Abschätzung zeigt |f (xn ) − f (xm )| < ε. Also ist (f (xn )n ) eine Cauchy-Folge und damit konvergent gegen eine Zahl b. Der Grenzwert kann dabei nicht von der Folge (xn )n abhängen. Sind nämlich (xn )n und (x0n )n zwei Folgen mit den zuvor genannten Eigenschaften, so auch die „Mischfolge“ (x1 , x01 , x2 , x02 , . . .) und alle drei müssen konvergieren. Da die ersten beiden aber Teilfolgen der zweiten sind, haben alle drei denselben Grenzwert. Also hat f in x = a den linksseitigen Grenzwert b. Für die Existenz der rechtsseitigen Grenzwerte argumentiere man analog. Nun habe f in jedem Punkt von [c, d] einseitige Grenzwerte. Wir müssen zeigen, dass zu jedem ε > 0 eine Treppenfunktion ϕ existiert mit kf − ϕk∞ < ε. Wir nennen solch ein ϕ eine ε-Approximation und zeigen durch einen Widerspruchsbeweis, das ϕ existiert. Wenn solch eine ε-Approximation nicht KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 161 existiert, so zeigen wir durch Induktion zunächst folgende Aussage: Es gibt eine Folge von Intervallen [cn , dn ] ⊂ [c, d], n ∈ N0 , mit dn − cn = (d − c)/2n , so dass f auf [cn , dn ] keine ε-Approximation besitzt. Unsere Widerspruchsannahme liefert die Induktionsverankerung mit [c0 , d0 ] = [c, d]. Haben wir für ein n ∈ N0 ein Intervall [cn , dn ] ⊂ [c, d] mit dn − cn = (d − c)/2n gefunden, so dass f auf [cn , dn ] keine εApproximation besitzt, so setzen wir m := (cn +dn )/2 und betrachten die beiden Teilintervalle [cn , m] und [m, dn ]. Wenn f auf beiden Teilintervallen eine ε-Approximation besitzen würde, so könnte man aus ihnen eine ε-Approximation auf [cn , dn ] zusammensetzen. Also besitzt f auf einem dieser beiden Intervalle keine ε-Approximation. Bezeichnen wir selbiges mit [cn+1 , dn+1 ] so gilt dn+1 −cn+1 = (dn −cn )/2 = (d−c)/2n+1 . Damit ist der Induktionsschritt vollendet. Nach Konstruktion bilden die Intervalle [cn , dn ] eine Intervallschachtelung für eine Zahl a ∈ [c, d]. Wir betrachten zunächst den Fall a ∈]c, d[. Nach Annahme hat f in a einen linksseitigen Grenzwert b− und einen rechtsseitigen Grenzwert b+ . Daher existiert ein δ > 0 mit [a − δ, a + δ] ⊂ [c, d] und |f (x) − b− | < ε für x ∈]a − δ, a[ sowie |f (x) − b+ | < ε für x ∈]a, a + δ[. Wegen limn→∞ cn = a = limn→∞ dn gibt es ein n ∈ N mit [cn , dn ] ⊂]a − δ, a + δ[. Die durch für x ∈ [cn , a[, b− ϕ(x) := f (a) für x = a, b+ für x ∈]a, dn [ definierte Treppenfunktion ϕ ist dann — im Widerspruch zur zuvor bewiesenen Aussage — eine εApproximation auf [cn , dn ]. Für x = c bzw. x = d schließen wir analog und erhalten auf jeden Fall den gewünschten Widerspruch. 1.17 Eigenschaften von Regelfunktionen erhalten wir sofort aus der Charakterisierung 1.16 und den Rechenregeln für Grenzwerte §2.1.4. Sind f und g reell- oder komplexwertige Regelfunktionen, so auch (d) λf + µg für beliebige Zahlen λ, µ, (e) |f |, Re f , Im f , f , (f) f g. Sind f~ und ~g dagegen vektorwertige Regelfunktionen mit Werten im Rm , so auch (g) λf~ + µ~g für beliebige Skalare λ, µ, (h) hf~|~g i, kf~k. 1.18 Eigenschaften des Integrals. Sind f und g reell- oder komplexwertige Regelfunktionen, so gilt Z d Z d Z d (i) (Linearität) (λf + µg) dx = λ f dx + µ g dx für beliebige Zahlen λ, µ, c c c Z Z d d (j) (Beschränktheit) f dx ≤ |f | dx ≤ (d − c)kf (x)k∞ . c c Z d Z f dx ≤ (k) (Monotonie) c d g dx falls f und g reellwertig mit f ≤ g. c Sind f~ und ~g zwei vektorwertige Regelfunktionen mit Werten im Rm , so gilt Z d Z d Z d (l) (Linearität) (λf~ + µ~g ) dx = λ f~ dx + µ ~g dx für beliebige Skalare λ, µ, c c c Z Z d d (m) (Beschränktheit) f~ dx ≤ kf~k dx ≤ (d − c)kf~(x)k∞ . c c 162 §4. INTEGRALRECHNUNG IN EINER VARIABLEN Beweis. Wir machen uns zunächst klar, dass alle diese Regeln für Treppenfunktionen gelten. Mit den Rechenregeln für Grenzwerte und der Definition des Integrals für Regelfunktionen 1.12 übertragen sie sich dann auch auf integrierbare Funktionen. Anmerkung. Die Regeln (j) und (m) werden gerne zur Abschätzung von Integralen verwendet: „Länge des Integrationsintervalls mal Maximum des Betrags des Integranden liefert eine Schranke für das Integral.“ 1.19 Integration über Teilintervalle. Ist f auf [c, d] integrierbar, so können wir f über ein Teilintervall [a, b] ⊂ [c, d] integrieren, indem wir Z b Z d f dx := f χ[a,b] dx a c setzen. Insbesondere gilt dann Z a f dx = 0. a 1.20 Additivität des Integrals bezüglich der Integrationsgrenzen. Für ξ ∈ [c, d] gilt Z ξ Z d Z d f dx + f dx = f dx. c ξ c Mit der Vereinbarung Z c Z d f dx := − d f dx, c so gilt obige Regel sogar für beliebige Punkte ξ, c, d, wie man durch Fallunterscheidung nachrechnet. 1.21∗ Vollständigkeit der Klasse der Regelfunktionen. Man könnte auf die Idee kommen, den Schritt, mit dem wir das Integral von Treppenfunktionen durch einen Grenzübergang auf das Integral für Regelfunktionen erweitert haben, zu wiederholen, um eine noch größere Klasse von Funktionen integrieren zu können. Das geht leider nicht, wie der folgende Satz zeigt. Wird eine Funktion f auf [c, d] beliebig genau gleichmäßig durch Regelfunktionen approximiert, d.h. gibt es eine Folge von Regelfunktionen fn mit kf − fn k∞ → 0 für n → ∞, so ist f selbst eine Regelfunktion und es gilt Z d Z d f dx = lim fn dx c n→∞ c Beweis. Zu ε > 0 gibt es ein fn mit kf − fn k < ε/2. Da fn eine Regelfunktion ist, existiert eine Treppenfunktion ϕn mit kfn − ϕn k∞ < ε/2. Die Dreiecksungleichung liefert kf − ϕn k∞ < ε. Also kann f beliebig genau gleichmäßig durch Treppenfunktionen approximiert werden und ist daher eine Regelfunktion. Die Vertauschung von Grenzwertbildung und Integration erhalten wir nun aus Z Z Z d d d f dx − fn dx = (f − fn ) dx ≤ (d − c)kf − fn k∞ → 0 für n → ∞. c c c 1.22 Zur Stetigkeit von Regelfunktionen. Ist f auf [c, d] integrierbar, so ist f fast überall stetig, d.h. gibt es höchstens abzählbar unendlich viele Stellen in [c, d], in denen f unstetig ist. Beweis∗ . Da f eine Regelfunktion ist, gibt es eine Folge von Treppenfunktionen ϕn mit kf − ϕn k∞ → 0 für n → ∞. Jede Treppenfunktion ϕn ist auf [c, d] mit Ausnahme von endlich vielen Sprungstellen konstant. Die Menge A ⊂ [c, d] aller Sprungstellen aller Treppenfunktionen ist damit höchstens abzählbar unendlich. Für einen Punkt a ∈ [c, d] r A und ein ε > 0 gibt es ein n ∈ N mit kf − ϕn k∞ < ε, d.h. |f (x)−ϕn (x)| < ε/2 für alle x ∈ [c, d]. Da a keine Sprungstelle von ϕn ist, gibt es ein Intervall ]a−δ, a+δ[ mit δ > 0 um a, auf dem ϕn konstant ist. Für x ∈ [c, d] mit |x − a| < δ folgt ϕn (x) = ϕn (a) und daher |f (x) − f (a)| ≤ |f (x) − ϕn (x)| + |ϕn (a) − f (a)| < 2ε/2 = ε. Also ist f in a stetig und damit höchstens für Punkte aus A unstetig. 163 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 1.23 Wichtige Regelfunktionen. Jede stetige Funktion und jede reellwertige monotone Funktion auf [c, d] ist integrierbar. Zusammen mit 1.22 erhalten wir insbesondere, dass eine monotone Funktion f : [c, d] → R an höchstens abzählbar unendlich vielen Stellen unstetig sein kann. Beweis∗ . Die Integrierbarkeit von stetigen Funktionen haben wir schon in 1.16 bewiesen. Ist f : [c, d] → R monoton wachsend, so ist für a ∈]c, d] die Menge f ([c, a[) nichtleer und nach oben beschränkt, besitzt also ein Supremum y ∈ R. Ist (xn )n eine Folge in [c, a[ mit limn→∞ xn = a, so gilt f (xn ) ≤ f (a) für alle n. Zu ε > 0 gibt es nach der Definition des Supremums ein x ∈ [c, a[ mit f (x) > y − ε. Die Konvergenz von (xn )n liefert ein n0 ∈ N mit |xn − a| < a − x für n ≥ n0 . Für all diese n folgt x < xn < a, und die Monotonie von f liefert |f (xn ) − y| = y − f (xn ) < ε. Damit existiert limx→a− f (x). Analog zeigen wir die Existenz des rechtsseitigen Grenzwerts. Nach der Charakterisierung 1.16 ist f dann integrierbar. 1.24 Beispiel für eine nichtintegrierbare Funktion. Die Dirichletfunktion ( 1 für x ∈ [0, 1] ∩ Q, d(x) := 0 für x ∈ [0, 1] r Q ist nicht über [0, 1] integrierbar. In jedem nichtleeren Teilintervall ]c0 , d0 [ von [0, 1] liegen nämlich rationale und irrationale Zahlen, so dass sich d nicht beliebig genau gleichmäßig durch Treppenfunktionen approximieren lässt. Außerdem ist d auch in jedem Punkt unstetig (vgl. §2.3.15): Rd 1.25 Identitätssatz für integrierbare Funktionen. Ist f auf [c, d] stetig mit c |f | dx = 0, so folgt f = 0. Für vektorwertige Funktionen gilt das analog. Beweis. Wäre f (a) 6= 0 für ein a ∈ [c, d], so gibt es nach §2.4.1 ein Intervall [c0 , d0 ] ⊂ [c, d] mit a ∈ [c0 , d0 ] und d0 − c0 > 0, so dass |f (x)| ≥ |f (a)|/2 > 0 für x ∈ [c0 , d0 ]. Mit der Monotonie des Integrals folgt Rd R d0 |f (x)| dx ≥ c0 |f (a)|/2 dx = (d0 − c0 )|f (a)|/2 > 0. c 1.26 Mittelwertsatz der Integralrechnung. Ist f auf [c, d] stetig und reellwertig, so gibt es einen Punkt ξ ∈ [c, d] mit Z f (ζ) d f (x) dx = (d − c)f (ξ). c Achtung. Auf die Stetigkeit von f darf nicht verzichtet werden. Für die Heaviside-Funktion gilt beispielsweise R2 H(x) dx = 2 aber es gibt kein ξ mit H(ξ) = 2/3. −1 c d Abbildung 4.39: Zum Mittelwertsatz der Integralrechnung. Wir beweisen gleich eine allgemeinere Version, welche für den Fall p = 1 den obigen Satz enthält. 1.27 Verallgemeinerter Mittelwertsatz der Integralrechung. Ist f auf [c, d] stetig und reellwertig und ist p auf [c, d] integrierbar mit p ≥ 0, so gibt es ein ξ ∈ [c, d] mit Z d Z d f (x)p(x) dx = f (ξ) p(x) dx. c c Beweis. Nach dem Satz vom Maximum §2.4.7 hat f auf [c, d] ein Minimum m und ein Maximum M . Dann gilt mp(x) ≤ f (x)p(x) ≤ M p(x) für x ∈ [c, d]. Mit der Monotonie des Integrals 1.18 (h) folgt Z d Z d Z d m p(x) dx ≤ f (x)p(x) dx ≤ M p(x) dx. c c c Also existiert ein b ∈ [m, M ] mit Z d Z f (x)p(x) dx = b c d p(x) dx. c Da f stetig ist, garantiert der Zwischenwertsatz §2.4.2 die Existenz eines ξ ∈ [c, d] mit f (ξ) = b. 164 §4. INTEGRALRECHNUNG IN EINER VARIABLEN 1.28∗ Interpretation der Mittelwertsätze. Für n reelle Zahlen a1 , . . . , an bilden wir den Mittelwert n a1 + · · · + an 1X = ak . n n k=1 Das Integral Z d 1 f (x) dx d−c c können wir daher als eine Verallgemeinerung der Mittelwertbildung auf den „kontinuierlichen“ Fall ansehen. Bei einer stetigen Funktion f wird nach dem Mittelwertsatz der Integralrechnung 1.26 der Mittelwert als ein Funktionswert angenommen Z d 1 f (x) dx. f (ζ) = d−c c Führen wir im diskreten Fall bei der Mittelwertbildung „Gewichte“ m1 , . . . , mn ≥ 0 ein, die bewerten, wie stark jede an der Mittelwertbildung beteiligte Zahl eingehen soll, so berechnen wir das gewichtete Mittel gemäß n m1 a1 + · · · + mn an 1X = mk ak n n k=1 und erhalten im kontinuierlichen Fall als Analogon Z d 1 f (x)p(x) dx d−c c mit einer Gewichtsfunktion p, von der wir natürlicher Weise verlangen, dass sie nicht negativ ist. 1.29∗ Anmerkung zum Riemann- und zum Lebesgue-Integral. Wir haben in diesem Abschnitt das sogenannte Regel- oder Cauchy-Integral eingeführt. Oftmals wird die Integrationstheorie mit dem Riemann-Integral begonnen. Dabei wird das Integrationsintervall [c, d] in Teilintervalle mit Randpunkten c = x0 < x1 < . . . < xn = d zerlegt und es werden Riemannsche Unter- bzw. Obersummen n X k=1 inf xk−1 <x<xk f (x)∆xk bzw. n X k=1 sup f (x)∆xk xk−1 <x<xk definiert. Falls das Supremum über alle Untersummen mit dem Infimum über alle Obersummen übereinstimmt, so nennt man den gemeinsamen Wert das Riemann-Integral von f über [c, d]. Das stellt man sich als ein „Ausschöpfen“ der zu integrierenden Fläche von Innen und Außen durch Rechtecke vor. Wir dagegen haben eine etwas freiere Approximation durch Rechtecke zugelassen. Die Klasse der Riemann-integrierbaren Funktionen erweist sich zwar als etwas größer, der Beweisaufwand nimmt aber auch deutlich zu. Ausrechnen kann man ein Integral (egal ob Riemann- oder Regelintegral) ohnehin erst mit dem Hauptsatz, den wir im nächsten Abschnitt vorstellen werden. Neben dem Ausrechnen von Integralen erweist sich aber für die Anwendungen eine gute Verträglichkeit mit Grenzübergängen als unabdingbar. Hierbei ist das Regelintegral dem Riemann-Integral überlegen. Das zeigt sich schon in 1.21 Z d Z d lim fn dx = lim fn dx falls lim kf − fn k∞ = 0 n→∞ c c n→∞ n→∞ und wir werden dieses für die Anwendungen wichtige Thema in §5 vertiefen. Sowohl Riemann- als auch Regelintegral werden vom Lebesgue-Integral übertroffen, welches vom Flair sehr dem Regelintegral ähnelt. Es macht einerseits mehr Funktionen integrierbar und erlaubt gleichzeitig unbeschränkte Integrationsbereiche, andererseits liefert es gut handhabbare Vertauschungssätze. Darum wird das Lebesgue-Integral in vielen Bereichen der theoretischen Physik eingesetzt. Wir werden es im Rahmen der mehrdimensionalen Integrationstheorie in 6 kennenlernen. 165 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 2 Hauptsatz der Differential- und Integralrechnung 2.1 Worum geht es? Der Hauptsatz der Differential- und Integralrechnung liefert uns die Möglichkeit, Integrale auszurechnen, indem er Differentiation und Integration miteinander verbindet. 2.2 Integralfunktion. Ist f auf [c, d] integrierbar, so heißt für festes a ∈ [c, d] die durch Z x Fa (x) := f (t) dt, für x ∈ [c, d] a definierte Funktion Fa eine Integralfunktion von f . Beispiel. Eine Integralfunktion für die Heaviside-Funktion H (vgl. §2.1.1) berechnen wir zu ( Z x 0 für x < 0, H(t) dt = x für x ≥ 0. 0 f x a x a Fa a x a x a x a x a x a x Rx Abbildung 4.40: Die Integralfunktion F (x) = a f (t) dt gibt die Fläche unter dem Graphen von f in Abhängigkeit von der Basislinie mit den Endpunkten a und x an, für x < a wird die Fläche negativ gezählt, ebenso für Flächenteile unterhalb der x-Achse. 2.3 Hauptsatz der Differential- und Integralrechnung, Version Integralfunktion. Ist f auf [c, d] integrierbar, so ist jede Integralfunktion Fa auf [c, d] stetig, besitzt dort alle möglichen einseitigen Ableitungen und es gilt Fa0 (x−) = f (x−) für x ∈]c, d], Fa0 (x+) = f (x+) für x ∈ [c, d[. Insbesondere ist Fa an jeder Stelle x ∈]c, d[, an der f stetig ist, differenzierbar mit Fa0 (x) = f (x). Beweis. Wir führen den Beweis für die rechtsseitige Ableitung an einer Stelle R x x ∈ [c, d[. Als Regelfunktion hat f dort einen rechtsseitigen Grenzwert f (x+) = limt→x+ f (t). Wegen ξ dt = x − ξ gilt Fa (ξ) − Fa (x) − f (x+) = ξ−x = = ! Z ξ Z x Z ξ 1 1 f (t) dt − f (t) dt − f (x+) dt ξ − x ξ−x x a a Z 1 ξ 1 (f (t) − f (x+)) dt ≤ |ξ − x| max |f (t) − f (x+)| ξ − x x |ξ − x| t∈[x,ξ] max |f (t) − f (x+)| → 0 t∈[x,ξ] für ξ → x + . 166 §4. INTEGRALRECHNUNG IN EINER VARIABLEN Also existiert der rechtsseitige Grenzwert Fa0 (x+) = lim ξ→x+ Fa (ξ) − Fa (x) = f (x+). ξ−x Ebenso zeigt man das für den linksseitigen Grenzwert. An jeder Stetigkeitsstelle x ∈]c, d[ von f gilt daher f (x) = Fa0 (x−) = Fa0 (x+) = Fa0 (x). rechtsseitiger Grenzwert f (x+) = limξ→x+ f (ξ) f Fa rechtsseitige Steigung Fa0 (x+) x x f (x−) = limξ→x− f (ξ) linksseitiger Grenzwert Fa0 (x−) linksseitige Steigung Abbildung 4.41: Regelfunktion f und Integralfunktion Fa an einer Unstetigkeitsstelle von f . 2.4 Stammfunktion, Potential und unbestimmtes Integral. Sind f und F auf [c, d] definiert, so heißt F eine Stammfunktion oder ein Potential von f , falls F die folgenden beiden Eigenschaften hat: (SF1) F ist auf [c, d] stetig, (SF2) F ist für fast alle x ∈ [c, d] differenzierbar mit F 0 (x) = f (x). Die Gesamtheit aller Stammfunktionen zu f nennen wir das unbestimmte Integral und bezeichnen sie mit Z f (x) dx. Mit dem Identitätssatz für differenzierbare Funktionen §3.3.8 erhalten wir sofort: Wenn f eine Stammfunktion F besitzt, so sind sämtliche Stammfunktionen von der Form F + C mit einer Konstanten C. Beispiel. ln(x) ist eine Stammfunktion für x1 für jedes Intervall [c, d] ⊂ R+ . Gilt dagegen [c, d] ⊂ R− , so ist ln(−x) eine Stammfunktion für x1 . Das kann man folgendermaßen zusammenfassen: Die Stammfunktionen von x1 für x 6= 0 haben die Form ln |x| + C — oder kurz: Z 1 dx = ln |x| + C für x 6= 0. x 2.5 Hauptsatz der Differential- und Integralrechnung, Version Stammfunktion. Ist f auf [c, d] integrierbar, so besitzt f eine Stammfunktion. Für jede Stammfunktion F und beliebige a, b ∈ [c, d] gilt Z b f (t) dt = F (b) − F (a). a Das folgt mit der Definition der Stammfunktion sofort aus der ersten Version des Hauptsatzes 2.3. 167 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN Man schreibt auch F (b) − F (a) =: F (x)|ba , d.h. Z b a b f (t) dt = F (x) a und sagt „F in den Grenzen a und b“. 2.6 Wichtige Stammfunktionen. Mit dem Hauptsatz erhalten wir zu jeder uns bekannten Ableitungsfunktion ein unbestimmtes Integral. Hier folgen die wichtigsten. = xα+1 +C α+1 für x ∈ R, α ∈ C r {−1}, = ln |x + b| + C für x ∈ R r {−b}, b ∈ R, = für x ∈ R, für x ∈ R r {±1}, = arctan(x) + C 1 1 + x +C ln 2 1 − x √ ln x + x2 + 1 + C = √ lnx + x2 − 1 + C für x ∈] − ∞, −1[∪]1, +∞[, = arcsin(x) + C für x ∈] − 1, 1[, ex dx = ex + C für x ∈ R, ax dx = ax +C ln(a) für x ∈ R, a ∈ R+ , cos(x) dx = sin(x) + C für x ∈ R, sin(x) dx = − cos(x) + C für x ∈ R, tan(x) dx = − ln | cos(x)| + C für x ∈ R r cot(x) dx = ln | sin(x)| + C für x ∈ R r {kπ : k ∈ Z}, cosh(x) dx = sinh(x) + C für x ∈ R, sinh(x) dx = cosh(x) + C für x ∈ R, tanh(x) dx = ln(cosh(x)) + C für x ∈ R, coth(x) dx = ln | sinh(x)| + C für x ∈ R r {0}. Z xα dx Z 1 dx x+b Z 1 dx 1 + x2 Z 1 dx 1 − x2 Z 1 √ dx 1 + x2 Z 1 √ dx 2−1 x Z 1 √ dx 2 1− Z x Z = für x ∈ R, Z Z Z nπ 2 o + kπ : k ∈ Z , Z Z Z Z Z 2.7 Integral der Ableitung. Ist die Stammfunktion F im Hauptsatz 2.5 differenzierbar, so erhalten wir nach Ersetzen von f = F 0 und anschließender Umbenennung von F in f die folgende Aussage. Hat f auf einem Intervall I ⊂ R eine integrierbare Ableitung, so gilt Z x f (x) = f (a) + f 0 (t) dt für beliebige x, a ∈ I. a 168 §4. INTEGRALRECHNUNG IN EINER VARIABLEN 2.8 Anwendungsbeispiel aus der Mechanik. Wirkt eine von der Zeit t abhängige Kraft F~ (t) auf einen Körper der Masse m, so lautet das Newtonsche Kraftgesetz m~a(t) = F~ (t). ¨(t) lässt sich durch eine zweifache Integration die Bewegungsgleichung Aus der Beschleunigung ~a(t) = ~x des Körpers gewinnen. Befindet sich der Körper zur Zeit t0 am Ort ~x0 mit Startgeschwindigkeit ~v0 , so erhalten wir für die Geschwindigkeit ~v (t) = ~x˙ (t) zur Zeit t zunächst Z t 1 ~v (t) = ~v0 + ~a(τ ) dτ = ~v0 + m t0 Z t F~ (τ ) dτ, t0 und für den Ort ~x(t1 ) des Körpers zur Zeit t1 dann Z ~x(t1 ) t1 = ~x0 + Z t1 Z t ~v0 + ~a(τ ) dτ dt ~v (t) dt = ~x0 + t0 t0 1 = ~x0 + (t1 − t0 )~v0 + m Z t1 t0 t0 Z t F~ (τ ) dτ dt. t0 2.9 Integranden mit trigonometrischen Funktionen. Ist p ein Polynom in zwei Variablen, so kann ein Integral des Typs Z p(cos t, sin t) dt immer durch Zurückführen auf die Exponentialfunktion mit Integralen der Form ikt d ikd ikc Z d e = e − e für k 6= 0, ikt e dt = ik c ik c R d 1 dt = td = d − c für k = 0 c c gelöst werden. Beispiel. Z 3 (cos t + 3 cos t sin 2t) dt Z = = = = = = (eit + e−it ) 2 3 eit + e−it e2it − e−2it +3 2 2i ! dt Z 1 (1 − 6i)e3it + (3 − 6i)eit + (3 + 6i)e−it + (1 + 6i)e−3it dt 8 Z 1 (1 − 6i)e3it + (1 − 6i)e3it + (3 − 6i)eit + (3 − 6i)eit dt 8 Z 1 Re (1 − 6i)e3it + (3 − 6i)eit dt 4 1 1 − 6i 3it 3 − 6i it 1 1 3 3 Re e + e = Re − e3it − ie3it − eit − ieit 4 3i i 2 12 2 4 1 3 3 1 sin 3t − cos t + sin t. − cos 3t + 2 12 2 4 2.10 Orthogonalitätsrelationen. Als Spezialfall der gerade vorgeführten Technik erhalten wir die sogenannten Orthogonalitätsrelationen für die Exponentialfunktion ( Z 2π Z π 1 für k = 0, 1 1 ikt ikt e dt = e dt = δk,0 = 2π 0 2π −π 0 für k ∈ Z r {0}, 169 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN aus denen nach Real- und Imaginärteilbildung die stehen Z 2π 2 1 cos(mt) cos(nt) dt = 1 π 0 0 Z 2π 1 cos(mt) sin(nt) dt = 0, π 0 ( Z 1 1 2π sin(mt) sin(nt) dt = π 0 0 Orthogonalitätsrelationen für Cosinus und Sinus entfür m = n = 0, für m = n 6= 0 für m 6= n, m, n ∈ N0 , m ∈ N0 , n ∈ N, für m = n, für m = 6 n, m, n ∈ N. Ihre Bedeutung lernen wir bei der Betrachtung von Fourier-Reihen als Entwicklung bezüglich eines Orthogonalsystems in einem abstrakten Vektorraum in 5.§7.1 kennen. 3 Integrationstechniken 3.1 Vorbemerkung. Der Hauptsatz liefert uns zu jeder Differentiationsregel eine zugehörige Integrationsregel. Wir behandeln nacheinander die „Umkehrung“ der Produkt- und Kettenregel, sowie der gliedweisen Differentiation von Potenzreihen. Dazu gibt es jeweils Anwendungen und Beispiele, meist Klassen von Funktionen, die sich jeweils nach einem aus diesen Techniken abgeleiteten Verfahren integrieren lassen. 3.2 Partielle Integration. Sind f und g stetig differenzierbare Regelfunktionen auf ]c, d[, so gilt Z Z f (x)g 0 (x) dx = f (x)g(x) − f 0 (x)g(x) dx + C für x ∈]c, d[, und insbesondere Z b a b Z f (x)g 0 (x) dx = f (x)g(x) − b f 0 (x)g(x) dx für beliebige a, b ∈ [c, d]. a a Die geschickte Aufspaltung eines vorgegebenen Integranden in ein Produkt der Form f (x)g 0 (x) erfordert Erfahrung und Übung. Wir illustrieren das gleich an Beispielen. Manchmal hilft auch der Trick weiter, mittels mehrfacher partieller Integration eine Formel der Gestalt b Z b Z b f (x)g(x) dx = h(x) + A f (x)g(x) dx a a a mit einer Konstanten A 6= 1 zu produzieren. Dann erhält man b Z b 1 f (x)g(x) dx = h(x) . 1 − A a a 3.3 Beispiele zur partiellen Integration. Z (a) p(x)ex dx mit einem Polynom p. Derartige Integrale können mittels n-facher partieller Integration berechnet werden. Das Prinzip machen wir exemplarisch für ein unbestimmtes Integral deutlich. Z Z Z 2 x 2 x x 2 x x e dx = x e − 2x e dx = (x − 2x)e + 2ex dx = (x2 − 2x + 2)ex . |{z} |{z} |{z} |{z} ↓ ↑ ↓ ↑ 170 §4. INTEGRALRECHNUNG IN EINER VARIABLEN Z p(x) ln x dx mit einem Polynom p. (b) Hier führt eine einfache partielle Integration zum Erfolg wie das folgende Beispiel zeigt. e Z e 2 2 Z e Z e x x 1 e2 x (x + 1) |{z} ln x dx = + x ln x − +x dx = +e− + 1 dx 2 2 x 2 2 1 1 | {z } 1 1 ↑ ↓ = Z (c) e2 +e− 2 e e2 − 5 x2 + x = . 4 4 1 sin2 x dx. Eine partielle Integration liefert zusammen mit der Kreisidentität Z Z Z sin2 x dx = sin x sin x dx = sin x(− cos x) − cos x(− cos x) dx |{z} |{z} ↓ ↑ Z = − sin x cos x + (1 − sin2 x) dx = x − sin x cos x − Z sin2 x dx. R Wir erhalten also eine Gleichung für sin2 x dx, welche uns aufgelöst folgendes Ergebnis liefert Z 1 sin2 x dx = (x − sin x cos x) . 2 3.4 Substitutionsregel. Ist u : [c, d] → [γ, δ] eine C 1 -Funktion und f ∈ C 0 ([γ, δ]), so gilt d Z f (u(x))u0 (x) dx = c Z u(d) f (t) dt. u(c) Ist u sogar bijektiv, so gilt Z δ Z u−1 (δ) f (t) dt = f (u(x))u0 (x) dx u−1 (γ) γ Die Substitution t = u(x) lautet nach Differentiation imR Leibnizkalkül Merkregel für die Anwendung der Substitutionsregel auf f (t) dt. dt dx = u0 (x) und liefert folgende • Ersetze im Integranden t durch u(x), • ersetze „dt = u0 (x)dx“, • ersetze bei bestimmten Integralen die Integrationsgrenzen γ und δ durch u−1 (γ) und u−1 (δ), bzw. resubstituiere bei unbestimmten Integralen nach Bestimmung der Stammfunktion x durch u−1 (t). 3.5 Zur Anwendung der Substitutionsregel. Gewöhnlich werden die beiden folgenden zwei Varianten angewendet, die den beiden oben angegebenen Formen entsprechen. Entweder gelingt es, den Integranden für eine Anwendung der Substitutionsregel in die Gestalt f (u(x))u0 (x) = d F (u(x)) dx zu bringen (das erfordert wieder Geschick und Übung), dann berechnet man R u(d) Auswertung von u(c) f (t) dt. Rd c f (u(x))u0 (x) dx durch Oder man möchte die Integrationsvariable t durch t = u(x) ersetzen. Dann muss u eine bijektive C 1 Rδ R u−1 (δ) Funktion sein und man berechnet γ f (t) dt durch Auswerten von u−1 (γ) f (u(x))u0 (x) dx. 171 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 3.6 Beispiele zur Substitutionsregel. Z 2 (d) xe−x /2 dx. Mit der Substitution u(x) = x2 /2, d.h. Z d −x2 /2 xe Z Z d2 /2 2 2 = e−c /2 − e−d /2 . dt = −e 2 d2 /2 dx = e −t −t c2 /2 c (e) = u0 (x) = x bzw. „x dx = dt“ erhalten wir dt dx c /2 u0 (x) dx mit stetigem nichtverschwindendem u. u(x) Gilt u(x) 6= 0 für x ∈ [c, d], so hat u als stetige Funktion in [c, d] keinen Vorzeichenwechsel und es folgt d Z c u0 (x) u(d) dx = ln . u(x) u(c) Damit erhalten wir beispielsweise d Z Z d tan x dx = − c c cos d cos0 x dx = − ln , cos x cos c sofern des Intervall [c, d] keine Nullstelle des Kosinus enthält. Z Z (f) f (cos x) sin x dx, f (sin x) cos x dx. Auch diese Integrale der Form können mit der Substitutionsregel behandelt werden. Ist F Stammfunktion zu f , so gilt Z Z f (cos x) sin x dx = −F (cos x) + C, Z 1 dx mit a2 < b. x2 + 2ax + b (g) Eine quadratische Ergänzung und die Substitution y = Z 1 dx 2 x + 2ax + b Z = = Z (h) f (sin x) cos x dx = F (sin x) + C. √ √x+a b−a2 liefern mit 1 1 dx = 2 2 (x + a) + b − a b − a2 1 b − a2 Z Z dy dx = 1 1+ √x+a b−a2 √ 1 , b−a2 „dx = 1 1 1 x+a dy = √ arctan y = √ arctan √ . 2 2 2 1+y b−a b−a b − a2 Hier hat x2 + 2ax + b zwei reelle Nullstellen λ 6= µ und eine Partialbruchzerlegung ergibt 1 dx 2 x + 2ax + b Z 1 1 1 1 dx = − dx (x − λ)(x − µ) λ−µ x−λ x−µ 1 x−λ 1 (ln |x − λ| − ln |x − µ|) = ln . λ−µ λ−µ x−µ Z = = b − a2 dy“ 2 dx 1 dx mit a2 > b. x2 + 2ax + b Z √ 172 §4. INTEGRALRECHNUNG IN EINER VARIABLEN 3.7 Anwendungsbeispiel: Kreisfläche. Wir berechnen die Fläche Ar eines Kreises mit Radius r > 0, indem wir den Mittelpunkt in den Ursprung verlegen,√die obere Hälfte der Kreislinie durch die Funktion f (t) := r2 − t2 , t ∈ [−r, r], parametrisieren und zunächst die zugehörige Halbkreisfläche Z r p 1 Ar = r2 − t2 dt 2 −r berechnen. Die Substitution u(x) := r cos x wird eine bijektive Abbildung u : [0, π] → [−r, r] mit u(0) = r und u(π) = −r liefert mit 3.3 (c) für die Kreisfläche wie erwartet Z Ar = r p 2 r2 − t2 Z = 2r 2 Z 0 p r2 −r − 0 t r Abbildung 4.42: Berechnung der Halbkreisfläche. u(x)2 u0 (x) dx u−1 (−r) π r u−1 (r) dt = 2 −r f (t) = √ r 2 − t2 Z 0 r =2 p 1 − cos2 x(−r sin x) dx π π sin x dx = r (x − sin x cos x) = r2 π. 2 2 0 3.8 Integration rationaler Funktionen. Ist R eine rationale Funktion mit reellen Koeffizienten, so führen wir zunächst eine Partialbruchzerlegung c1,1 c1,k1 cm,km cm,1 R(x) = q(x) + + ··· + + ··· + + ··· + x − λ1 (x − λ1 )k1 x − λm (x − λm )km durch. Hierbei ist q der Nebenteil von R und die Zahlen λµ sind die nach Kürzen von R verbleibenden Polstellen mit Polordnungen kµ . Anschließend können die einzelnen Summanden nach folgenden Rezepten integriert werden. • Die Integration des Nebenteils q geht problemlos, da q ein Polynom ist. c • Die Integration von Partialbrüchen der Form (x−λ) k mit k ≥ 2 geschieht unabhängig davon, ob λ reell oder komplex ist, mittels Z c 1 c dx = . (x − λ)k 1 − k (x − λ)k−1 c Da R eine reelle rationale Funktion ist, tritt für eine echt komplexe Polstelle λ mit (x−λ) k auch der c konjugierte Partialbruch (x−λ)k auf. Beide liefern nach Zusammenfassen etwas Reelles c • Die Integration von Partialbrüchen der Form x−λ mit λ ∈ R erfolgt mittels Z c = c ln |x − λ|. x−λ c • Die Integration von Partialbrüchen der Form x−λ mit λ ∈ C r R geschieht folgendermaßen: Dann c tritt auch ein konjugierter Partialbruch x−λ auf. Beide können zusammen mittels 3.6 (e) und (h) integriert werden Z Z c 2(Re c)x − 2 Re(cλ) c + dx = dx x−λ x−λ x2 − 2(Re λ)x + |λ|2 Z 2x − 2 Re λ = Re c dx x2 − 2(Re λ)x + |λ|2 Z 1 +2[(Re c)(Re λ) − Re(cλ)] dx x2 − 2(Re λ)x + |λ|2 x − Re λ = Re c lnx2 − 2(Re λ)x + |λ|2 − 2 Im c arctan . Im λ 173 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN Fazit. Jede rationale Funktion mit reellen Koeffizienten besitzt auf ihrem natürlichen Definitionsbereich eine Stammfunktion, die eine Linearkombination aus einer rationalen Funktion sowie Logarithmen und Arcustangensfunktionen. Beispiel. Z 2x4 + x3 + 6x − 36 dx x(x2 + 4) ! 1+i 1−i 9 2 2 2x + 1 − + dx = + x x + 2i x − 2i 1 x = x2 + x − 9 ln |x| + lnx2 + 4 + arctan . 2 2 Z 3.9∗ Integration rationaler Funktionen in Cosinus und Sinus. Solche Integrale lassen sich mit der Substitution t = u(x) = 2 arctan x auf die Integration einer rationalen Funktion zurückführen. Es gilt nämlich dt 2 = u0 (x) = dx 1 + x2 und damit sin t = 2 sin 2t cos 2t 2 tan 2t = 1 + tan2 sin2 2t + cos2 2t = 2x , 1 + x2 cos t = cos2 2t − sin2 sin2 2t + cos2 = 1 − x2 . 1 + x2 t 2 t 2 = 1− 1+ t 2 tan2 2t tan2 2t Nach dieser Substitution erhalten wir also eine rationale Funktion als Integranden. Rd Beispiel. Um c sin1 t dt zu berechnen, können wir für 0 < c < d < π mit t = 2 arctan x substituieren und erhalten tan(d/2) Z d Z tan(d/2) Z tan(d/2) tan d2 1 1 2 1 = ln dt = dx = dx = ln x . 2x 2 tan 2c c sin t tan(c/2) 1+x2 1 + x tan(c/2) x tan(c/2) 3.10∗ Anmerkung über geschlossen integrierbare Funktionen. Die Integration rationaler Funktionen zeigt, dass die Stammfunktionen einer Klasse von Funktionen nicht unbedingt selbst wieder zu dieser Klasse gehören müssen. Der Logarithmus als Stammfunktion der rationalen Funktion x1 ist beispielsweise nicht rational. Die Bildung von Stammfunktionen ist also ein Prozess, der gelegentlich den Vorrat bereits bekannter Funktionen erweitert. Man kann zeigen, dass Stammfunktionen „elementarer“ Funktionen (das sind — grob gesprochen — Funktionen, die aus rationalen Funktionen und der Exponentialfunktion durch endlich viele algebraische Prozesse wie Addition, Multiplikation, Division, Verkettung, Umkehrbildung sowie wiederholte Anwendung derselben entstehen) selbst nicht elementar sein müssen. Untersuchungen dieser Art gehen auf Liouville (1809–1882) zurück. Beispielsweise sind die drei Funktionen Z x 2 1 e−t /2 dt Gaußsches Fehlerintegral , Φ(x) := √ 2π 0 Z x 1 Li(x) := dt Integrallogarithmus, ln(t) 0 Z x sin(t) Si(x) := dt Integralsinus t 0 nicht elementar. Richardson hat 1968 gezeigt, dass es keinen allgemeingültigen Algorithmus geben kann, mit dem für eine gegebene elementare Funktion entschieden werden kann, ob sie geschlossen integrierbar ist, d.h. eine elementare Stammfunktion besitzt. 174 §4. INTEGRALRECHNUNG IN EINER VARIABLEN 3.11 Wie findet man eine Stammfunktion? Wir haben in diesem Abschnitt für mehrere Klassen von Funktionen Integrationsverfahren angegeben. Nach eben zitierten Ergebnis von Richardson können wir aber aus prinzipiellen Gründen nicht alle Funktionen geschlossen integrieren, geschweige denn dazu ein „allglückseeligmachendes“ Verfahren verwenden. Softwarepakete wie Mathematica oder Maple verfügen allerdings über ausgeklügelte Algorithmen zur Beschaffung von Stammfunktionen — falls solche überhaupt existieren. Im Zweifelsfalle sollte man also immer auch auf diese Hilfe zurückgreifen. P∞ 3.12 Integration von Potenzreihen. Wird f durch eine Potenzreihe f (x) = k=0 ak (x − x0 )k mit Konvergenzradius R > 0 dargestellt, so besitzt f auf ]x0 − R, x0 + R[ eine Stammfunktion und es gilt Z ∞ X ak (x − x0 )k+1 + C für x ∈]x0 − R, x0 + R[, f (x) dx = k+1 k=0 und insbesondere Z x f (t) dt = x0 ∞ X ak (x − x0 )k+1 k+1 für x ∈]x0 − R, x0 + R[. k=0 Beispiel. Aus der Potenzreihendarstellung für die Sinc-Funktion erhalten wir für den Integralsinus Z xX ∞ ∞ X (−1)k (−1)k 2k t dt = x2k+1 für x ∈ R. Si(x) = (2k + 1)! (2k + 1) · (2k + 1)! 0 k=0 k=0 Wenn auch der Integralsinus nicht geschlossen integrierbar ist, so kennen wir nun dennoch eine Potenzreihendarstellung für die Stammfunktion. Die Situation ist also ähnlich wie bei der Exponentialfunktion, deren Werte wir auch nur näherungsweise (z.B. durch Auswerten von Partialsummen und Fehlerabschätzen) näherungsweise berechnen können. 3.13∗ Numerische Integration. Ein beliebtes Verfahren nur numerischen Integration ist die TrapezreRd gel . Um c f (x) dx näherungsweise zu berechnen, unterteilt man der Integrationsintervall [c, d] äquidistant in n Teilintervalle und addiert die Flächeninhalte der aus diesen Teilpunkten und den zugehörigen Funktionswerten gebildeten Trapeze zur Trapezsumme Th (f ) = h 1 1 f (c) + f (c + h) + · · · + f (d − h) + f (d) 2 2 mit der Schrittweite h := d−c . n Ist f eine C 2 -Funktion mit |f 00 (x)| ≤ M für x ∈ [c, d], so kann man die Fehlerabschätzung Z d d−c M h2 f (x) dx − Th (f ) ≤ c 12 c |{z} h d Abbildung 4.43: Trapezregel nur numerischen Integration. Rd herleiten (Details siehe [Kön, Band 1, 11.10]). Es gilt also c f (x) dx = Th (f ) + O(h2 ) für h → 0+ wenn man die Schrittweite h klein macht. Falls f eine C 3 -Funktion oder noch glatter ist, existieren Verfahren noch höherer Ordnung. 4 Geometrie von Kurven 4.1 Bogenlänge. Wir haben eine Kurve γ im R3 mit einer C 1 -Parametrisierung ~x : [ta , te ] → R3 und interpretieren selbige wieder als Bewegungsplan, mit dem sich ein Teilchen längs der Spur von γ bewegt. 175 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN Bei einer Bewegung mit konstanter Geschwindigkeit ~v = ~x˙ erhalten wir als zurückgelegte Strecke k~x(te ) − ~x(ta )k = k~v k(te − ta ). Ist die Bewegung nicht gleichförmig, so zerlegen wir das Zeitintervall [ta , te ] in Teilpunkte ta = t0 < t1 < . . . < tN −1 < tN = te und verwenden die Gesamtlänge Lt0 ,...,tN := N X k~x(tk ) − ~x(tk−1 )k ≈ k=1 N X k~x˙ (tk )k∆tk k=1 des Polygonzugs mit den Eckpunkten ~x(t0 ), . . . , ~x(tN ) als Approximation an die zu ermittelnde Gesamtlänge des Weges. Wenn das Supremum über die Gesamtlängen aller der Bahnkurve einbeschriebenen Polygonzüge existiert, so nennen wir es die Bogenlänge L(γ) von γ und die Kurve selbst rektifizierbar . ~x(tN ) ~x(tk ) | {z ~x(tk−1 ) } k~ x(tk )−~ x(tk−1 )k ~x(t0 ) ~x(t1 ) Abbildung 4.44: Gesamtlänge eines einbeschriebenen Polygonzugs als Approximation an die Bogenlänge. Da uns k~x˙ (t)k den Betrag der Geschwindigkeit zur Zeit t angibt, sollte dann Z te k~x˙ (t)k dt ta die insgesamt zurückgelegte Strecke sein. Diese Interpretation behalten wir auch für Kurven im Rm bei. 4.2 Berechnung der Bogenlänge. Ist ~x eine C 1 -Parametrisierung, so gilt mit dem Hauptsatz der Differential- und Integralrechnung 2.5 und der Standardabschätzung für Integrale 1.18 (j) Z te N Z tk N Z tk N X X X ˙ ˙ ~x(t) dt ≤ k~x(t)k dt = k~x˙ (t)k dt. Lt0 ,...,tN = k~x(tk ) − ~x(tk−1 )k = tk−1 tk−1 ta k=1 k=1 k=1 R te k~x˙ (t)k dt eine obere Schranke für die Gesamtlänge eines jeden der Kurve γ einbeschriebenen Rt Polygonzugs und γ ist damit rektifizierbar mit L(γ) ≤ e k~x˙ (t)k dt. Dass hierbei tatsächlich Gleichheit Also ist ta ta gilt, kann man mit etwas Beweisaufwand mathematisch sauber beweisen (siehe z.B. [Kön, Band 1, 12.2]), uns soll das bisher Gesagte als Begründung genügen. Fazit. Ist γ eine Kurve im Rm mit einer C 1 -Parametrisierung ~x : [c, d] → Rm , so ist γ rektifizierbar und wir erhalten die Bogenlänge durch Z d L(γ) = k~x˙ (t)k dt. c 4.3 Beispiel: Bogenlänge der Zykloide. Die Bewegung eines fixierten Punktes auf einer abrollenden Kreisscheibe mit Radius 1 (z.B. die Bahnkurve des Ventils an einem Fahrradreifen während der Fahrt) wird durch die Zykloide t − sin t ~x(t) := 1 − cos t 176 §4. INTEGRALRECHNUNG IN EINER VARIABLEN beschrieben. Der Betrag der Geschwindigkeit zur Zeit t ist damit s r 2 1 − cos t q t 1 − cos t t 2 2 ˙ = 2 sin . k~x(t)k = =2 sin = (1 − cos t) + sin t = 2 sin t 2 2 2 Für die vom Punkt bei einer Umdrehung der Kreisscheibe zurückgelegte Strecke L erhalten wir daher 2π Z 2π Z 2π t t ˙ 2 sin dt = −4 cos = 8. k~x(t)k dt = L= 2 2 0 0 0 2 1 Π 2Π Abbildung 4.45: Bogenlänge der Zykloide. 4.4 Invarianz der Bogenlänge unter Parametertransformationen. Die Bogenlänge hängt nicht von der Parametrisierung der Kurve γ ab. Das zeigt uns eine Anwendung der Substitutionsregel 3.4: Sind ~x : [c, d] → Rm und ~y : [C, D] → Rm zwei C 1 -Parametrisierungen von γ, die durch einen C 1 -Parameterwechsel ϕ : [c, d] → [C, D] auseinander hervorgehen, d.h. gilt ~x(t) = ~y (ϕ(t)) für t ∈ [c, d], ϕ(c) = C, ϕ(d) = D und ist ϕ streng monoton wachsend, also insbesondere ϕ̇ ≥ 0, so folgt wie behauptet Z d Z d Z d Z d Z D d ˙ ˙ ˙ k~y (ϕ(t))ϕ̇(t)k dt = k~x(t)k dt = k~y (ϕ(t))kϕ̇(t) dt = k~y˙ (τ )k dτ. dt ~y (ϕ(t)) dt = c c c c C ~y (d) δ 4.5 Aneinanderhängen von Kurven. Für zwei Kurven γ und δ im Rm für die der Endpunkt von γ mit dem Anfangspunkt von δ übereinstimmt, ist anschaulich klar, was die aneinandergehängte Kurve γ + δ sein soll. γ ~x(c0 ) = ~y (d0 ) ~x(c) Formal erklären wir γ + δ auf folgende Weise durch Angabe einer Parameterdarstellung: Ist ~x : [c, c0 ] → Rm eine Parametrisierung von γ und ~y : [d0 , d] → Rm eine von δ, so können wir durch eine Verschiebung als Parametertransforc c0 = d0 d mation c0 = d0 erreichen und γ +δ durch ~z : [c, d] → Rm mit 0 0 ~z(t) := ~x(t) für c ≤ t ≤ c und ~z(t) := ~y (t) für d < t ≤ d Abbildung 4.46: Aneinanderhängen parametrisieren. Nun ist auch klar, wie wir endlich viele von Kurven. Kurven aneinanderhängen. Entsteht δ aus γ durch Umkehrung der Orientierung, d.h. ist t 7→ ~x(d + c − t), t ∈ [c, d], eine Parametrisierung von δ, so schreiben wir δ = −γ. Bei der Kurve γ − γ (das ist natürlich γ + (−γ)) laufen wir also einmal vom Anfangspunkt von γ zum Endpunkt und wieder zurück. 4.6 Glatte und stückweise glatte Parametrisierungen. Eine Kurve γ heißt glatt, wenn sie eine C 1 -Parameterdarstellung ~x : I → Rm besitzt. Falls hierbei ein Randpunkt des Intervalls I zu I gehört, so bedeutet dies, dass dort die entsprechende einseitige Ableitung existiert. Wenn γ durch Aneinanderhängen von endlich vielen glatten Kurven entsteht, so heißt γ stückweise glatt. Bei glatten Kurven werden normalerweise nur Parameterwechsel der Klasse C 1 zugelassen. Mit einer Parametrisierung sind dann alle von der Klasse C 1 . KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 177 Beispiel. Bei einer glatten Kurve können wir die Bogenlänge mit der Formel aus 4.2 berechnen. Bei einer stückweise glatten Kurve müssen wir formal diese Formel auf die einzelnen glatten Teilkurven anwenden und anschließend die Längen der Teilkurven addieren. 4.7 Reguläre Parametrisierungen. Eine glatte Kurve heißt regulär , wenn sie eine C 1 -Parametrisierung ~x : I → Rm mit ~x˙ (t) 6= ~0 für alle t ∈ I besitzt. Für eine stückweise glatte Kurve erklären wir analog, was stückweise regulär bedeutet. Beispiel. Die Existenz einer regulären Parametrisierung bedeutet, dass in jedem Punkt der Kurve eine Tangente gebildet werden kann. Die Zykloide mit dem Parameterintervall [0, 4π] ist zwar glatt aber nicht regulär (was passiert nämlich bei t = 2π?), aber stückweise regulär. 4.8 Parametrisierung in Bogenlänge. Eine glatte Kurve γ der Länge L mit Parametrisierung ~σ : [0, L] → Rm heißt in Bogenlänge parametrisiert, wenn k~σ˙ (s)k = 1. Man bezeichnet dann die Variable üblicherweise mit s. Bei einer solchen Parametrisierung ~σ wird die Kurve mit einer Geschwindigkeit vom konstanten Betrag 1 durchlaufen. Für die im Zeitintervall [0, S] ⊂ [0, L] zurückgelegte Strecke LS gilt dann wie zu erwarten Z S Z S LS = k~σ˙ (s)k ds = 1 ds = S. 0 0 Jede stückweise reguläre Kurve kann in Bogenlänge parametrisiert werden. Ist nämlich ~x : [c, d] → Rm eine reguläre Parametrisierung, so mache man sich klar, dass durch Z t ϕ(t) := k~x˙ (τ )k dτ für t ∈ [c, d] c eine C 1 -Funktion ϕ : [c, d] → [0, L] definiert wird mit ϕ(c) = 0, ϕ(d) = L und ϕ̇ > 0. Damit ist ϕ ein Parameterwechsel. Für die Parametrisierung ~σ := ~x ◦ ϕ−1 gilt dann mit der Formel für die Ableitung der Umkehrfunktion §3.2.7 für t := ϕ−1 (s) d d 1 1 −1 = ~x˙ (ϕ−1 (s)) ϕ−1 (s) = ~x˙ (t) = ~x˙ (t) ~ x ◦ ϕ (s) k~σ˙ (s)k = = 1. ds ˙ ds ϕ̇(t) k~x(t)k Damit erweist sich ~σ als Bogenlängenparametrisierung. Bei einer stückweise glatten Funktion zerlege man das Parameterintervalle in endlich viele Teilintervalle, auf denen die Parametrisierung regulär ist und schließe analog. 4.9 Tangenteneinheits- und Hauptnormalenvektor, Krümmung. Ist ~x : I → Rm eine reguläre Parametrisierung einer Kurve, so gilt ~x˙ (t) 6= ~0 für alle t ∈ I. Der normierte Tangentenvektor T~ (t) := 1 ˙ ~x(t) ˙ k~x(t)k heißt Tangenteneinheitsvektor an der Parameterstelle t. Aus 1 = kT~ (t)k2 = hT~ (t)|T~ (t)i für alle t ∈ I ˙ ˙ folgt durch Differenzieren mit der Produktregel §3.2.2 (f) sofort hT~ (t)|T~ (t)i = 0. Also steht T~ (t) auf T~ (t) ˙ senkrecht. Gilt T~ (t) 6= ~0, so nennen wir ~ (t) := N 1 ~˙ T (t) ˙ ~ kT (t)k den Hauptnormalenvektor an der Stelle t und κ(t) := die Krümmung an der Parameterstelle t. ˙ kT~ (t)k k~x˙ (t)k 178 §4. INTEGRALRECHNUNG IN EINER VARIABLEN Ebenso wie die Bogenlänge sind diese drei Größen invariant gegenüber Parametertransformationen. In Bogenlängenparametrisierung ~σ lassen sie sich am bequemsten ausrechnen. Dann gilt T~ (s) = ~σ˙ (s), ~ (s) = N 1 ¨ ~σ (s), ¨ k~σ (s)k κ(s) = kσ̈(s)k. Das Reziproke 1/κ(σ) der Krümmung gibt den Radius des Krümmungskreises an. Das ist derjenige Kreis, der die Kurve an der Parameterstelle t von zweiter Ordnung approximiert. Beispiel. Wir illustrieren dies für die Schraubenlinie cos s 1 sin s ~σ (s) = √ 2 s √ √ um die x3 -Achse mit Radius 1/ 2 und Ganghöhe 2π. Eine kurze Rechnung zeigt k~σ˙ (s)k2 = T~ (s) ~ (s) N ~σ (s) 1 (− sin s)2 + (cos s)2 + 1 = 1, 2 es liegt also Bogenlängenparametrisierung vor. Damit gilt − sin s 1 T~ (s) = ~σ˙ (s) = √ cos s , 2 1 ~ (s) N = − cos s 1 ¨ ~σ (s) = − sin s . ¨ (s)k k~σ 0 Die Krümmung berechnen wir zu κ(s) ¨ (s)k = k~σ 1 p 1 = √ (− cos s)2 + (− sin s)2 + 0 = √ . 2 2 Abbildung 4.47: Tangenteneinheitsund Hauptnormalenvektor sowie Krümmungskreis an eine Schraubenlinie im Punkt ~σ (s). Damit hat√der Krümmungskreis an die Schraubenlinie zu jeder Parameterstelle s den konstanten Radius 1/κ(s) = 2. 4.10 Ebene Kurven: begleitendes Zweibein und Frenet-Formeln. Für eine Kurve in der Ebene mit einer C 2 -Parametrisierung ~x : I → R2 können wir in jeder regulären Parameterstelle t mit nichtverschwindender Krümmung das Paar ~ (t)) = (T~ (t), N 1 p ẋ1 (t)2 + ẋ2 (t)2 ! ẋ1 (t) 1 −ẋ2 (t) ,p ẋ2 (t) ẋ1 (t)2 + ẋ2 (t)2 ẋ1 (t) ~ (t) haben bestehend aus Tangenteneinheits- und Hauptnormalenvektor bilden. (Bei der Darstellung von N ~ ~ ~ wir hierbei kN (t)k = 1 und N (t) ⊥ T (t) verwendet.) Das liefert uns eine an die Kurve angepasste Orthonormalbasis des R2 mit Koordinatenursprung in ~x(t). Diese so der Kurve „mitgeführte“ ONB nennen wir begleitendes Zweibein. 179 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN In Bogenlängenparametrisierung ~σ hat das begleitende Zweibein die einfache Gestalt σ̇1 (s) −σ̇2 (s) ~ ~ T (s) = , N (s) = . σ̇2 (s) σ̇1 (s) Ähnlich wie in 4.9 erhalten wir aus hT~ (s)|T~ (s)i = 1 und ~ (s)|N ~ (s)i = 1 durch Differenzieren T~˙ (s) ⊥ T~ (s) und hN ˙~ ~ (s). Wegen N ~ (s) ⊥ T~ (s) muss damit T~˙ (s) ein N (s) ⊥ N ~ (s) und N ~˙ (s) ein Vielfaches von T~ (s) sein. Vielfaches von N Im ersten Fall ist dieses Vielfache definitionsgemäß gerade die Krümmung κ(s) Im zweiten erhält man aus den obigen Beziehungen als Vielfaches dann −κ(s). Zusammen ergibt dies die Frenet-Formeln ˙ ~ (s), T~ (s) = κ(s)N ~˙ (s) = −κ(s)T~ (s). N Abbildung 4.48: Begleitendes Zweibein zu einer C 2 -Kurve in der Ebene. Ist also die Krümmung κ vorgegeben, so kann man durch Lösen dieses Systems von Differentialgleichungen die zugehörige Kurve berechnen. Eine ebene C 2 -Kurve ist daher bis auf Anfangsdaten durch ihre Krümmung festgelegt. 4.11 Raumkurven: Binormale, begleitendes Dreibein. Analog können wir bei einer Kurve im Raum mit einer C 2 -Parametrisierung ~x : I → R3 an jeder Parameterstelle mit nichtverschwindender Krümmung Tangenteneinheits- und Hauptnormalenvektor durch den Binomalenvektor ~ ~ (t) B(t) := T~ (t) × N zu einem Rechtssystem ~ (t), B(t)) ~ (T~ (t), N ~ ergänzen. (Warum ist B(t) automatisch normiert?) Diese positiv orientierte ONB mit Ursprung im Kurvenpunkt ~x(t) heißt begleitendes Dreibein. Abbildung 4.49: Begleitendes Dreibein zu einer C 2 -Kurve im Raum. 4.12∗ Raumkurven: Torsion und Frenet-Formeln. Durch Differenzieren der Identität für die Bi~˙ ~ normale kann man einsehen, dass B(t) auf B(t) und T~ (t) senkrecht steht, also ein skalares Vielfaches von ~ (t) sein muss. N Im Fall der Bogenlängenparametrisierung ~σ nennen wir dieses durch ~˙ ~ (s) B(s) = −τ (s)N definierte skalare Vielfache τ (s) die Torsion der Kurve in ~σ (s). Die Torsion gibt an, wie stark sich die Kurve aus der durch die Tangente und die Hauptnormale aufgespannten Ebene „herauswindet“. Für eine reguläre C 3 -Bogenlängenparametrisierung gilt dann ¨ (s)k k~σ˙ (s) × ~σ κ(s) = , k~σ˙ (s)k3 ... ¨ (s), ~σ (s)) det(~σ˙ (s), ~σ τ (s) = . ¨ (s)k k~σ˙ (s) × ~σ 180 §4. INTEGRALRECHNUNG IN EINER VARIABLEN Das erhält man durch fleißiges Rechnen ebenso wie die Frenet-Formeln ˙ ~ (s), T~ (s) = κ(s)N ~˙ (s) = −κ(s)T~ (s) + τ (s)B(s), ~ N ~˙ ~ (s). B(s) = −τ (s)N Mit diesem System von Differentialgleichungen kann man für eine Kurve im Raum aus vorgegebener Krümmung und Torsion die Kurve selbst berechnen. 4.13 Ausblick. Wir haben in diesem Abschnitt die grundlegenden Begriffe der Differentialgeometrie für Kurven kennengelernt. Wer mehr wissen will, kann beispielsweise in [Kön, Band 1, 12], [FiKau, Band 3, §7] oder [DaCa] nachschlagen. 5 Skalare und vektorielle Kurvenintegrale 5.1 Skalares Kurvenintegral. Für eine glatte Kurve γ im Rn mit Parametrisierung ~x : [c, d] → Rn und ein Skalarfeld f , das mindestens auf der Spur von γ definiert und dort integrierbar ist, nennen wir Z Z d f (~x) ds := f (~x(t))k~x˙ (t)k dt γ c das skalare Kurvenintegral von f längs γ. Andere gebräuchliche Bezeichnungen sind Z Z Z f ds, f (~x) dx, f (~x) kd~xk. γ γ γ Ist γ stückweise glatt, d.h. ist ~x differenzierbar bis auf endlich viele Ausnahmepunkte t1 < . . . < tm ∈ [c, d], in denen aber die einseitigen Ableitungen existieren, so erklären wir das skalare Kurvenintegral von f längs γ durch Z Z t1 Z t2 Z d ˙ ˙ f (~x) ds := f (~x(t))k~x(t)k dt + f (~x(t))k~x(t)k dt + · · · + f (~x(t))k~x˙ (t)k dt. γ c t1 tm Beispiel. Das skalare Kurvenintegral über das konstante Skalarfeld f = 1 längs einer Kurve γ ist gerade das Integral für die Kurvenlänge von γ. 5.2 Invarianz unter Parametertransformationen. Ebenso wie für die Kurvenlänge beweist man: Das skalare Kurvenintegral von f längs γ ist unabhängig von der Wahl der Parametrisierung von γ. 5.3 Interpretation des skalaren Kurvenintegrals. Ist γ in Bogenlänge ~σ : [0, L] → Rn parametrisiert, so berechnet sich das skalare Kurvenintegral von f längs γ wegen kσ̇(s)k = 1 einfach zu Z Z f ds = γ L f (γ) f (~σ (s)) ds. 0 (Daher rührt auch die Bezeichnung R γ f~σ (s)) f ds.) Stellen wir uns also das Skalarfeld f als eine Berg- und Tallandschaft über dem Rn vor, und betrachten wir nur den über der Kurve γ liegenden Teil s 7→ f (~σ (s)) dieser Landschaft — sozusagen die in das „Gebirge“ gelifteteR Kurve), so gibt das skalare Kurvenintegral γ f ds die „Fläche“ zwischen der Kurve γ und ihrer Liftung f (γ) an. ~ σ(0) γ ~σ (s) ~ σ(L) Abbildung 4.50: Interpretation des skalaren Kurvenintegrals. 181 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 5.4 Anwendungsbeispiel aus der Physik. Ein Drahtstück im Raum wird durch ~x : [0, L] → R3 modelliert. Hierbei gibt ~x(s) den Punkt auf dem Drahtstück an, der vom Anfangspunkt ~x(0) um s Längeneinheiten entfernt ist. Der Draht ist also in Bogenlänge parametrisiert. Ist µ(~x) die Massendichte des Drahts (Masse pro Längeneinheit) an der Stelle ~x, so ist Z L Z M= µ ds = γ µ(~x(s)) ds 0 die Gesamtmasse des Drahts. Man schreibt für µ ds auch gerne dm. Durch s1 ~s := s2 s3 1 mit sk := M RL Z 0 xk dm = γ xk (s)µ(~x(s)) ds für k = 1, 2, 3 RL µ(~x(s)) ds 0 wird dann der Schwerpunkt des Drahts angegeben. Das könnte man auch kurz in der Form 1 M ~s = Z ~x dm = γ 1 M Z µ(~x(s))~x(s) ds γ schreiben. Das Trägheitsmoment des Drahts bezüglich einer durch g = {λ~v | λ ∈ R} parametrisierten Ursprungsgeraden errechnet sich mittels Z dist(~x, g)2 dm = L Z γ dist(~x(s), g)2 µ(~x(s)) ds, 0 wobei der Abstand dist(~x, g) des Punktes ~x zur Geraden g gemäß 3.§3.3.7 gegeben ist durch dist(~x, g) = k~x − h~x|~v i~v k = p k~xk2 − h~x|~v i2 . 5.5 Rechenregeln. Sind γ und δ zwei aneinanderhängbare Wege im Rn und sind f und g zwei auf der Spur von γ + δ integrierbare Skalarfelder, so gilt: Z Z Z (a) (Linearität bezüglich des Integranden) (λf + µg) ds = λ f ds + µ g ds für beliebige Zahlen λ, µ. γ γ Z Z f ds = (b) (Linearität bezüglich des Integrationswegs) γ+δ Z −γ Z f ds. δ f ds. γ Z f ds ≤ (d) (Monotonie) f ds + γ Z f ds = (c) (Invarianz bei Umorientierung) γ Z γ g ds, falls f ≤ g auf der Spur von γ. γ Z Z (e) (Beschränktheit) f ds ≤ |f | ds ≤ M L(γ), falls f durch M auf der Spur von γ beschränkt ist. γ γ Das folgt aus den Rechenregeln für Integrale 1.18 und der Definition 5.1 des skalaren Kurvenintegrals. 5.6 Motivation für das vektorielle Kurvenintegral. Auf einen Massenpunkt, der sich mit konstanter Geschwindigkeit ~v bewegt, wirke eine konstante Kraft F~ . In der Zeitspanne ∆t hat der Massenpunkt die Strecke ~x = ~v ∆t zurückgelegt und dabei die Arbeit hF~ |~xi = hF~ |~v i∆t verrichtet. 182 §4. INTEGRALRECHNUNG IN EINER VARIABLEN Ist nun die Kraft nicht konstant und die Bewegung nicht geradlinig, so können wir die Bahnkurve γ durch einen Polygonzug approximieren. Auf den Teilstrecken nehmen wir den Tangentenvektor an die Bahnkurve in einem geeigneten Zwischenpunkt als Approximation an die Geschwindigkeit sowie die dort wirkende Kraft als konstante Approximation für die auf dieser Teilstrecke wirkende Kraft. Die verrichtete Arbeit wird dann durch n X hF~ (~xk )|~vk i∆tk γ ~x˙ (t) F~ (~x(t)) k=1 approximiert. Nach einem Grenzübergang erhalten wir für die Arbeit das Integral Z Abbildung 4.51: Arbeit längs eines Weges. d hF~ (~x(t))|~x˙ (t)i dt. c 5.7 Vektorielles Kurvenintegral. Für eine glatte Kurve γ im Rn mit Parametrisierung ~x : [c, d] → Rn und ein Vektorfeld ~v , das mindestens auf der Spur von γ definiert und dort integrierbar ist, nennen wir Z Z ~v (~x) d~x := γ d h~v (~x(t))|~x˙ (t)i dt c das vektorielle Kurvenintegral von ~v längs γ. Andere gebräuchliche Bezeichnungen sind Z Z Z Z ~v (~x) • d~x, ~v • d~σ , h~v (~x)|d~xi, v1 dx1 + · · · + vn dxn . γ γ γ γ Falls γ nur stückweise glatt ist, erklären wir das vektorielle Kurvenintegral durch Aneinandersetzen für die glatten Teilkurven. Beispiel. Wir integrieren das Vektorfeld ~v (x, y) = (x2 , xy) längs der beiden skizzierten Kurven, die beide im Ursprung beginnen und im Punkt (1, 1) enden. Die erste parametrisieren wir durch ~x1 (t) := (t, t), t ∈ [0, 1], die zweite in zwei Teilstücken durch ~x21 (t) := (t, 0), t ∈ [0, 1], und ~x22 (t) := (1, t − 1), t ∈ [1, 2]. Dann gilt Z Z ~v (~x) d~x = x2 dx + xy dy γ1 (1, 1) 1 γ1 γ2 γ1 1 2 t 1 h | i dt t·t 1 0 1 Z 1 2 3 2 2 2t dt = t = , 3 3 0 0 Z = = Z = γ2 = Abbildung 4.52: Zwei vektorielle Kurvenintegrale. 2 Z 2 0 t 1 12 | i dt h | i dt + h t · 0 0 1 · (t − 1) 1 γ2 0 1 1 2 Z 1 Z 2 t3 t2 − 2t 5 t2 dt + (t − 1) dt = + = . 3 0 2 6 0 1 1 Z ~v (~x) d~x 1 x2 dx + xy dy = Z 1 5.8 Beispiele aus der Physik. Die folgende Tabelle gibt einige wichtige physikalische Größen an, die durch vektorielle Kurvenintegrale berechnet werden können. 183 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN Vektorfeld Kraftfeld Geschwindigkeitsfeld elektrische Feldstärke infinitesimale Wärmeänderung vektorielles Kurvenintegral Arbeit Zirkulation elektrische Spannung Wärmemenge 5.9 Invarianz unter Parametertransformationen. Das vektorielle Kurvenintegral von ~v längs γ ist unabhängig von der Wahl der Parametrisierung von γ. Physikalisch interpretiert bedeutet dies, dass es nicht auf die konkrete Durchlaufung der Kurve ankommt, sondern nur auf das Kraftfeld und die Kurve selbst. Beweis. Wir gehen wie beim Beweis für die Invarianz der Bogenlänge 4.4 vor und verwenden auch dieselben Bezeichnungen. Z d Z d d h~v (~x(t))|~x˙ (t)i dt = h~v (~y (ϕ(t)))| ~y (ϕ(t))i dt dt c c Z D Z d h~v (~y (τ ))|~y˙ (τ )i dτ. h~v (~y (ϕ(t)))|~y˙ (ϕ(t))iϕ̇(t) dt = = C c 5.10 Rechenregeln. Sind γ und δ zwei aneinanderhängbare Wege im Rn und sind ~v und w ~ zwei auf der Spur von γ + δ integrierbare Vektorfelder, so gilt: Z Z Z (f) (Linearität bezüglich des Integranden) (λ~v + µw) ~ d~x = λ ~v d~x + µ w ~ d~x für bel. Skalare λ, µ. γ γ Z Z ~v d~x = (g) (Linearität bezüglich des Integrationswegs) ~v d~x + γ+δ Z γ Z γ ~v d~x. δ Z ~v d~x = − (h) (Vorzeichenwechsel bei Umorientierung) −γ ~v d~x. γ Z Z k~v k ds ≤ M L(γ), falls ~v durch M auf der Spur von γ beschränkt ist. (i) (Beschränktheit) ~v d~x ≤ γ γ Das folgt aus den Rechenregeln für Integrale 1.18 und der Definition 5.7 des vektoriellen Kurvenintegrals. 6 Gradientenfelder, Rotation und Divergenz 6.1 Konservative Vektorfelder. Ein Vektorfeld ~v : D ⊂ Rn → Rn heißt auf D konservativ oder exakt, R wenn das Kurvenintegral γ ~v (~x) d~x über beliebige stückweise glatte Kurven γ in D nur vom Anfangsund Endpunkt von γ, nicht aber vom übrigen Verlauf abhängt: Z Z ~v (~x) d~x = ~v (~x) d~x, falls γ1 und γ2 gleichen Anfangs- und Endpunkt haben. γ1 γ2 Für ein konservatives Vektorfeld dürfen wir das Kurvenintegral für eine Kurve von ~x1 nach ~x2 ohne Angabe des Integrationswegs einfach mit Z ~x2 ~v (~x) d~x ~ x1 bezeichnen. Die folgende Aussage ist offensichtlich. Ein Vektorfeld ~v ist genau dann auf D konservativ, wenn das Kurvenintegral längs jeder geschlossenen stückweise glatten Kurve in D verschwindet. Ist γ eine geschlossene Kurve, so schreibt man hierfür gerne I ~v (~x) d~x = 0. γ 2 Beispiel. Das Vektorfeld ~v (x, y) = (x , xy) aus 5.7 ist nicht konservativ. 184 §4. INTEGRALRECHNUNG IN EINER VARIABLEN Die Wegunabhängigkeit des vektoriellen Kurvenintegrals bei konservativen Kraftfeldern hat vielfältige Anwendungen in der Physik (Wegunabhängigkeit der Arbeit bei einem konservativen Kraftfeld, . . . ). Beispiele für konservative Vektorfelder anzugeben fällt uns mit obiger Definition schwer. Wir müssten ja für jede geschlossene Kurve in D zeigen, dass das vektorielle Kurvenintegral verschwindet. Wir schaffen uns jetzt eine Abhilfe, um dieser umständliche Prozedur zu entgehen. 6.2 Potential. Sind u und ~v ein Skalar- und ein Vektorfeld mit demselben Definitionsbereich D ⊂ Rn , so heißt u ein Potential zu ~v , falls für alle ~x ∈ D. grad u(~x) = ~v (~x) Hat ~v ein Potential, so nennen wir ~v auch ein Gradienten- oder Potentialfeld . In der Physik verlangt man für ein Potential oft −∇u = ~v statt ∇u = ~v . 6.3 Charakterisierung von Gradientenfeldern. Für das Weitere ist der folgende Satz wichtig. Er kann als eine Verallgemeinerung des Hauptsatzes der Differential- und Integralrechnung 2.5 angesehen werden und liefert nicht nur eine nützliche Charakterisierung für konservative Vektorfelder, sondern gibt für diese Felder auch eine einfache Möglichkeit, vektorielle Kurvenintegrale zu berechnen. Ein stetiges Vektorfeld ~v auf einer offenen Menge D ⊂ Rn ist genau dann ein Gradientenfeld, wenn es konservativ ist. Ist u : D → R ein Potential zu ~v , so gilt Z ~v (~x) d~x = u(~x2 ) − u(~x1 ) γ für jede stückweise glatte Kurve γ in D, die von ~x1 nach ~x2 läuft. Beweis. Wir haben zwei Teilaufgaben zu bewältigen. Jedes stetige Gradientenfeld ist konservativ. Wir haben also ein C 1 -Potential u : D → R zu ~v und müssen zeigen, dass zu vorgegebenem Anfangs- bzw. Endpunkt ~x1 bzw. ~x2 das Kurvenintegral längs einer beliebigen Kurve in D, die von ~x1 nach ~x2 läuft, denselben Wert hat — nämlich u(~x2 ) − u(~x1 ). Ist γ eine glatte Kurve und ist ~x : [c, d] → D eine C 1 -Parametrisierung von γ, so liefert die Kettenregel (genauer gesagt ein Vorgriff auf 6.§1.3.2 (c)) d u(~x(t)) dt = = d ∂ ∂ d d u(x1 (t), . . . , xn (t)) = u(~x(t)) x1 (t) + · · · + u(~x(t)) xn (t) dt ∂x1 dt ∂xn dt n X ∂ u(~x(t))ẋk (t) = h∇u(~x(t))|~x˙ (t)i = h~v (~x(t))|~x˙ (t)i. ∂xk k=1 Mit dem Hauptsatz der Differential- und Integralrechnung 2.5 folgt nun Z Z d Z d d ~v (~x) d~x = h~v (~x(t))|~x˙ (t)i = u(~x(t)) dt = u(~x(d)) − u(~x(c)) = u(~x2 ) − u(~x1 ). γ c c dt Falls γ nur stückweise glatt ist, erhalten wir dies zunächst für die glatten Teilkurven und dann durch Aneinanderhängen für die Kurve selbst. Jedes konservative stetige Vektorfeld besitzt ein Potential. Wir wählen einen „Aufpunkt“ ~x0 ∈ D, definieren durch Z ~x u(~x) := ~v (~y ) d~y ~ x0 ein Skalarfeld u : D → R und behaupten, dass u ein Potential zu ~v ist. Dazu müssen wir für jeden Punkt ~x ∈ D zeigen, dass u partiell nach jeder der n Variablen differenzierbar ist mit der entsprechenden Komponente von ~v (~x) als Ableitung. Wir fixieren ~x und ein k ∈ {1, . . . , n}. Da D offen ist, kann um ~x eine Kugel und damit auch ein Würfel mit positivem Radius gelegt werden. Für alle h ∈ R genügend 185 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN nahe bei 0 liegt damit die Strecke zwischen ~x und ~x + h~ek in D. Mit der Konservativität von ~v , den Rechenregeln 5.10 und dem Mittelwertsatz der Integralrechnung 1.26 folgt Z ~x+h~ek Z ~x Z ~x+h~ek Z h u(~x + h~ek ) − u(~x) = ~v (~y ) d~y − ~v (~y ) d~y = ~v (~y ) d~y = h~v (~x + t~ek )|~ek i dt ~ x0 h ~ x0 ~ x 0 Z = vk (~x + t~ek ) dt = hvk (~x + θh~ek ) 0 für ein θh zwischen 0 und h. Mit h → 0 gilt auch θh → 0. Da mit ~v auch die k-te Komponentenfunktion vk in ~x stetig ist, liefert ein Grenzübergang nun die Existenz von 1 ∂ u(~x) = lim (u(~x + h~ek ) − u(~x)) = lim vk (~x + θh~ek ) = vk (~x). h→0 h h→0 ∂xk 6.4 Zur Eindeutigkeit von Potentialen, Gebiete. Ist f~ ein Gradientenfeld auf einem Gebiet D ⊂ Rn , so unterscheiden sich zwei Potentiale nur um eine Konstante. Unter einem Gebiet verstehen wir eine offene und wegezusammenhängende Menge D ⊂ Rn . Ist D ein Gebiet, so lassen sich je zwei beliebige Punkte in D durch eine Kurve verbinden, die D nicht verlässt. Beispielsweise ist ein Kreis oder ein Kreisring wegezusammenhängend, die Vereinigung zweier disjunkter Kreise dagegen nicht. Sie besteht aus zwei Zusammenhangskomponenten, nämlich den beiden Kreisen. Abbildung 4.53: Beispiele für Gebiete im R2 bzw. im R3 . Anmerkung. Das können wir als eine allgemeine Form der Eindeutigkeitssaussage im Hauptsatz der Differential- und Integralrechnung ansehen: Hat f auf [c, d] eine Stammfunktion, so ist selbige bis auf eine Konstante eindeutig bestimmt (vgl. 2.4). Das wird falsch, wenn wir [c, d] z.B. durch die Vereinigung von zwei disjunkten Intervallen ersetzen. Dort können wir zu einer Stammfunktion auf jedem der beiden Intervalle eine eigene Konstante addieren und erhalten wieder eine Stammfunktion. Ähnlich verhält es sich in mehreren Variablen, wenn der Definitionsbereich nicht mehr zusammenhängend ist. Beweis. Nach Differenzbildung genügt es zu zeigen, dass alle Potentiale zum Nullfeld auf einem Gebiet D konstant sind. Dazu wählen wir einen Punkt ~x0 ∈ D und erhalten mit 6.3 für alle ~x ∈ D und jedes R ~x Potential u des Nullfeldes u(~x) − u(~x0 ) = ~x0 ~0 d~y = 0, d.h. u(~x) = u(~x0 ). Also ist u konstant. 6.5 Wichtige Gradientenfelder. Ist k : ]0, +∞[→ R eine stetige Funktion, so besitzt das auf dem Rn r {~0} definierte Zentralfeld ~v (~x) = k(k~xk) ~x, k~xk ~x ∈ Rn r {~0}, ein Potential. (Die obige Darstellung ist so gewählt, dass k den Betrag von ~v (~x) angibt.) Rr Wählen wir für k auf ]0, +∞[ eine Stammfunktion K (beispielsweise K(r) := 1 k(ρ) dρ) und setzen wir u(~x) := K(k~xk) für ~x ∈ Rn , so folgt ∂ ∂ ∂ 1 2xk k(k~xk) u(~x) = K 0 (k~xk) k~xk = k(k~xk) (x1 2 + · · · + xn 2 )1/2 = k(k~xk) = xk , ∂xk ∂xk ∂xk 2 k~xk k~xk d.h. grad u(~x) = ~v (~x). 186 §4. INTEGRALRECHNUNG IN EINER VARIABLEN Damit sind insbesondere die für die Physik wichtigen Gravitationsfelder 1 ~x k~xkµ mit einem µ > 0 oder Linearkombinationen von Verschiebungen hiervon konservativ. 6.6 Wann hat ein Vektorfeld ein Potential? Diese Frage ist zunächst nicht leicht zu beantworten. Die Auffinden eines Potentials erfordert offensichtlich ähnliche Kreativität wie das Bestimmen einer Stammfunktion. Man kann jedoch einfacher zu einer Antwort gelangen. Dafür ist folgender Preis zu zahlen: (i) Wir müssen zwischen „hinreichend“ und „notwendig“ unterscheiden können. (ii) Wir dürfen bei einer Funktion nie den Definitionsbereich vergessen. Die Antwort hat dann die in den beiden folgenden Nummern vorgestellten zwei Teile. 6.7 Integrabilitätsbedingung für Gradientenfelder. Besitzt C 1 -Vektorfeld ~v ein Potential, so gilt ∂ ∂ vk = vl ∂xl ∂xk für k, l = 1, . . . , n. Bedingungen verletzt, so ist ~v Ist in irgend einem Punkt des Definitionsbereichs von ~v eine dieser n(n−1) 2 schon nicht konservativ. Vektorfelder, die die Integrabilitätsbedingung erfüllen, heißen rotationsfrei . Dies ist eine notwendige Bedingung für die Existenz eines Potentials. Beweis. Ist ~v ein C 1 -Gradientenfeld, so ist das Potential u von der Klasse C 2 und es gilt ∂ ∂ ∂u ∂2u vk = = ∂xl ∂xl ∂xk ∂xl ∂xk und ∂ ∂ ∂u ∂2u vl = = . ∂xk ∂xk ∂xl ∂xk ∂xl Wie schon in §3.7.3 angedeutet und dann in 6.§1.2.4 bewiesen, stimmen für eine C 2 -Funktion die gemischten partiellen Ableitungen zweiter Ordnung überein, sofern nach denselben Variablen differenziert wird. Hieraus folgt die Integrabilitätsbedingung. Beispiel. Das Feld ~v (x, y) = (x2 , xy) aus 5.7 ist nicht rotationsfrei: ∂x v2 (x, y) = y 6= ∂y v1 (x, y) = 0. 1 2 Dagegen erfüllt das Rotationsfeld w(x, ~ y) := x2 +y 2 (−y, x) auf dem R r {(0, 0)} die Integrabilitätsbe2 2 dingung: ∂x w2 (x, y) = yx2−x ~ auf der punktierten Ebene kein Potential +y 2 = ∂y w1 (x, y). Trotzdem kann w haben. Eine kurze Rechnung zeigt nämlich, dass das Kurvenintegral von w ~ längs der einmal durchlaufenen Einheitskreislinie nicht verschwindet. (Man rechne das selbst aus.) 6.8 Poincaré-Lemma (für Sterngebiete). Erfüllt ein C 1 -Vektorfeld die Integrabilitätsbedingung und ist es auf einem Sterngebiet definiert, so existiert ein Potential. Unter einem Sterngebiet wollen wir hierbei eine offene Teilmenge D ⊂ Rn verstehen, die einen „Sternpunkt“ ~a ∈ D besitzt, so dass für jedes ~x ∈ D die Verbindungsstrecke von ~x mit ~a ganz in D liegt. Sterngebiete keine Sterngebiete Abbildung 4.54: Beispiele für Sterngebiete im R2 bzw. im R3 . Die Antwort auf die Frage nach der Konservativität eines Vektorfeldes liegt also überraschender Weise im Definitionsbereich des Feldes verborgen! Die obige Antwort ist nicht die vollständige Wahrheit. Es gibt 187 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN eine noch größere Gebietsklasse (die sogenannten einfach zusammenhängenden Gebiete), für welche die Integrabilitätsbedingung nicht nur notwendig, sondern auch hinreichend für die Exsistenz eines Potentials ist. Auf Details wollen wir hier aber nicht eingehen und auch das Poincaré-Lemma nicht beweisen. (Bei Interesse lese man z.B. [FiKau, Band 1, §24.5] oder [Kön, Band 2, 5.4].) nicht einfach zusammenhängend einfach zusammenhängend Abbildung 4.55: Einfach und nicht einfach zusammenhängende Gebiete im R2 bzw. im R3 . Beispiel. Kugeln, Quader und Würfel sind Sterngebiete. Jeder Winkelraum in der Ebene und jeder Kegel im Raum (auch einer zu einem überstumpfen Winkel) ist ein Sterngebiet. Die punktierte Ebene R2 r {(0, 0)} dagegen ist keines. Darum ist das Poincaré-Lemma dort auch nicht auf das Rotationsfeld w ~ aus 6.7 anwendbar. Da aber die längs der negativen x-Achse geschlitzte Ebene R2 r {(x, 0) | x ≤ 0} ein Sterngebiet ist, hat w ~ dort ein Potential. Durch Nachrechnen verifiziere man das beispielsweise für u(x, y) = arcsin √ 2y 2 . x +y 2 5 0 2.5 -2 -5 0 -2.5 -2.5 0 2.5 5 Abbildung 4.56: Das Rotationsfeld w(x, ~ y) = 1 x2 +y 2 (−y, x) -5 und sein Potential u(x, y) = arcsin √ y x2 +y 2 auf der geschlitzten Ebene. 6.9 Praktische Bestimmung von Potentialen. Ist ~v (x, y) = (p(x, y), q(x, y)) ein ebenes Vektorfeld, definiert auf einem achsenparallelen Rechteck D (das kann der ganze R2 sein), und sind die Integrabilitätsbedingungen ∂y p = ∂x q dort erfüllt, so erhalten wir ein Potential u wie folgt: (i) Wir halten y fest und bestimmen eine Stammfunktion x 7→ P (x, y) für x 7→ p(x, y), d.h. wir finden ein P mit ∂x P (x, y) = p(x, y). Die allgemeine Lösung u von ∂x u(x, y) = p(x, y) enthält noch eine Integrationskonstante Q(y), ist also von der Form u(x, y) = P (x, y) + Q(y). (ii) Damit u auch die Gleichung ∂y u(x, y) = q(x, y) erfüllt, muss für Q gelten Q0 (y) = q(x, y)−∂y P (x, y). Die rechte Seite hängt hierbei wegen der Integrabilitätsbedingung nicht von x ab, es gilt nämlich ∂x (q − ∂y P ) = ∂x q − ∂x ∂y P = ∂x q − ∂y ∂x P = ∂x q − ∂y p = 0. Sobald wir also eine Stammfunktion Q für r(y) = q(x, y) − ∂y P (x, y) gefunden haben, so ist durch u(x, y) = P (x, y) + Q(y) ein Potential u gegeben. Für räumliche Vektorfelder kann man analog vorgehen. 188 §4. INTEGRALRECHNUNG IN EINER VARIABLEN Beispiel. Potential zu w(x, ~ y) = 1 x2 +y 2 (−y, x) p(x, y) = in der rechten Halbebene H = {(x, y) ∈ R2 | x > 0}, d.h. −y , x2 + y 2 q(x, y) = x x2 + y 2 (vgl. 6.7 und 6.8). Wie in 6.7 gezeigt ist w ~ rotationsfrei. Durch Integration erhalten wir zunächst Z Z y −y dx = arctan , P (x, y) = p(x, y) dx = x2 + y 2 x wobei arctan(y/x) auf H tatsächlich definiert ist, da dort x 6= 0 gilt. Dies liefert uns den Ansatz u(x, y) = P (x, y)+Q(y) mit einer noch zu bestimmenden Funktion Q(y), die q(x, y) = ∂y u(x, y) = ∂y P (x, y)+Q0 (y) erfüllen muss, d.h. Z Z Z x x − dy = 0 dy. Q(y) = (q(x, y) − ∂y P (x, y)) dy = x2 + y 2 x2 + y 2 Also ist Q(y) konstant und wir können z.B. Q(y) = 0 wählen. Damit ist u(x, y) = arctan(y/x) das (bis auf eine Konstante) eindeutig bestimmte Potential zu w ~ in der Halbebene H. Schreiben wir das mit Hilfe der Identität y y für (x, y) ∈ H arctan = arcsin p 2 x x + y2 um, so erhalten wir sogar ein Potential auf der geschlitzten Ebene R2 r {(x, 0) | x ≤ 0} (vgl. 6.8), da der Term rechts auch dort noch definiert und differenzierbar ist. Auf die punktierte Ebene R2 r {(0, 0)} können wir das nicht übertragen, da dann die Stetigkeit verloren geht. (Aus 6.7 wissen wir auch, dass wir dort kein Potential finden werden.) 6.10 Zusammenfassung. Wir fassen unsere bisherigen Beobachtungen für ein Vektorfeld ~v auf D ⊂ Rn zusammen: I Z Z Def. ~v (~x) d~x ⇐⇒ ~v (~x) d~x = 0 ~v (~x) d~x = ~v konservativ ⇐⇒ γ γ2 γ1 (Wegunabhängigkeit der Arbeit) (Energieerhaltung) m (Charakterisierung 6.7) ~v ist ein Gradientenfeld Def. ⇐⇒ Z ~ x ~v = grad u, u(~x) = ~v (~y ) d~y ~ x0 ⇓ immer ⇑ D Sterngebiet oder einfach zusammenhängend (Poincare-Lemma 6.8) Def. ⇐⇒ ~v erfüllt Integrabilitätsbedingungen ∂xk vl = ∂xl vk Achtung. Die Integrabilitätsbedingung ist i.A. nur notwendig und nicht hinreichend für die Existenz eines Potentials. Das wird gerne übersehen! 6.11 Rotation, Divergenz und Laplace-Operator. Für ein C 1 -Vektorfeld ~v : D ⊂ Rn → Rn erklären wir die Divergenz durch ∂v1 ∂vn div ~v := + ··· + . ∂x1 ∂xn Wir nennen dieses Skalarfeld die Quelldichte von ~v und schreiben hierfür auch ∇ • ~v . So kann man sich die Divergenz suggestiv als „Skalarprodukt“ des Nabla-Operators (∂x1 , . . . , ∂xn ) mit dem Vektorfeld ~v = (v1 , . . . , vn ) merken. Gilt div ~v = 0, so heißt ~v divergenzfrei . Für ein C 2 -Skalarfeld u : D ⊂ Rn → R nennen wir ∆u := ∂2u ∂2u + · · · + ∂x1 2 ∂xn 2 den Laplace-Operator von u. Manchmal wird ∇2 u geschrieben oder ∆ durch −∆ ersetzt. Ein Skalarfeld u, das die Potentialgleichung ∆u = 0 (d.h. ∆u(~x) = 0 für alle ~x ∈ D) erfüllt, heißt harmonisch. KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 189 Ist ~v : D ⊂ R3 → R3 ein C 1 -Vektorfeld im Raum, so wird die Rotation definiert durch ∂x2 v3 − ∂x3 v2 rot ~v := ∂x3 v1 − ∂x1 v3 . ∂x1 v2 − ∂x2 v1 Das Vektorfeld rot ~v heißt auch Wirbeldichte von ~v , im Angelsächsischen wird dafür curl ~v geschrieben. Im Nabla-Kalkül ist die Schreibweise ∇ × ~v gebräuchlich, die sich als „Kreuzprodukt“ des Nabla-Operators (∂x1 , ∂x2 , ∂x3 ) mit dem Vektorfeld ~v = (v1 , v2 , v3 ) in der Form ~e1 ~e2 ~e3 rot ~v = ∂x1 ∂x2 ∂x3 = (∂x2 v3 − ∂x3 v2 )~e1 + (∂x3 v1 − ∂x1 v3 )~e2 + (∂x1 v2 − ∂x2 v1 )~e3 v1 v2 v3 merken lässt. Ein Vektorfeld mit rot ~v = ~0 heißt wirbelfrei . Diese drei Differentialoperatoren spielen zusammen mit dem Gradienten eine fundamentale Rolle in der Mathematischen Physik, insbesondere in der Kontinuums- und Strömungsmechanik sowie der Elektodynamik. 6.12 Wichtige Beziehungen zwischen Gradient, Divergenz und Rotation im R3 . Die Integrabilitätsbedingung 6.7 für ein Vektorfeld ~v im Raum können wir jetzt knapp in der Form rot ~v = ~0 schreiben und erhalten für ein Gradientenfeld u die Beziehung rot grad u = ~0. Das bedeutet: ein Gradientenfeld ist wirbelfrei. Diese Formel hätte man natürlich auch durch Rechnen nachprüfen können, ebenso wie die Beziehung div rot ~v = 0, die besagt: ein Rotationsfeld ist divergenzfrei. 6.13 Zur Interpretation von Gradient, Divergenz und Rotation. Eine tragfähige Interpretation des Gradienten als Richtung des stärksten Anstiegs eines Skalarfeldes lernen wir 6.§1.3.5 kennen, sobald wir erklärt haben, was die Ableitung einer Funktion mehrerer Variablen ist. Divergenz und Rotation eines Vektorfeldes werden wir erst im Rahmen der Vektoranalysis 6.§3 vollständig verstehen. Vorerst glauben wir den folgenden Interpretationen. Stellen wir uns ein Vektorfeld ~v als eine Strömung vor, wobei ~v (~x) den Betrag und die Richtung der Strömungsgeschwindigkeit an der Stelle ~x angibt, so besagt Wirbelfreiheit, dass ein kleines (Untersee-)Boot sich nicht um seine Achse drehen wird, wenn es der Strömung folgt. Divergenzfreiheit besagt, dass ein kleiner Ölfleck vielleicht seine Form, aber nicht seine Größe (Fläche bei einem zweidimensionalen Fluss, Volumen bei einem dreidimensionalen) ändern wird, wenn er sich mit der Strömung bewegt. Im Allgemeinen gibt rot ~v (~x) Richtung und Winkelgeschwindigkeit der an der Stelle ~x auf das Boot wirkenden Drehbewegung an, div ~v (~x) die Größenänderung des Ölflecks. Beispiel. Für die beiden auf dem R3 bzw. dem R3 r Span(~e3 ) (dem R3 außer der z-Achse) definierten Vektorfelder y − x2 +y −y 2 1 x ~v (x, y, z) = x2 +y ~v (x, y, z) := x , w(x, ~ y, z) := 2 2 x + y2 0 0 berechnen wir 0 rot ~v (x, y, z) = 2~e3 = 0 , 2 0 rot w(x, ~ y, z) = ~0 = 0 . 0 Also ist w ~ rotationsfrei, während ~v an jedem Punkt eine Drehbewegung um die z-Achse bewirkt. 190 §4. INTEGRALRECHNUNG IN EINER VARIABLEN y x (− x2 +y 2 , x2 +y 2 , 0) (−y, x, 0) Abbildung 4.57: Ein Rotationsfeld und ein rotationsfreies Vektorfeld im R3 (Blick auf die (x, y)-Ebene). Achtung. Wie das Beispiel zeigt, kann der Begriff „rotationsfrei“ zu Verwirrung führen. Ein rotationsfreies Vektorfeld kann sehr wohl geschlossene Flusslinien haben. Beispiel. Wir berechnen für die beiden auf dem R2 definierten Vektorfelder −y x ~v (x, y) := , w(x, ~ y) := x x+y jeweils die Divergenz und erhalten div ~v (x, y) = 0, div w(x, ~ y) = 2. Also ist ~v divergenzfrei, w ~ dagegen nicht. ~v (x, y) := w(x, ~ y) := −y x x x+y Abbildung 4.58: Ein divergenzfreies Vektorfeld und ein Wirbelfeld im R2 . 6.14 Weitere Identitäten zwischen Gradient, Divergenz, Rotation und Laplace-Operator Durch fleißiges Nachrechnen verifiziert man die folgenden (unter geeigneten Differenzierbarkeitsvoraussetzungen gültigen) Beziehungen: (a) div(u~v ) = hgrad u|~v i + u div ~v , (b) rot rot ~v = grad div ~v − ∆~v , (c) div(~v × w) ~ = hrot ~v |wi ~ − h~v | rot wi, (d) rot(u~v ) = (grad u) × ~v + u rot ~v , (e) rot(~v × w) ~ = (div w)~ ~ v − (div ~v )w ~ + (w ~ • ∇)~v − (~v • ∇)w. ~ KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN §5 1 191 Elementar lösbare gewöhnliche Differentialgleichungen Einführung 1.1 Vorrede: statische und dynamische Systeme. In den vorangegangenen Kapiteln haben wir Methoden zum Lösen von Gleichungen kennengelernt. Einfache Gleichungen wie x2 + 5x − 2 = 0 lassen sich mit rein algebraischen Mitteln aus Kapitel 1 lösen. Im Allgemeinen muss man sich mit Existenz- und Eindeutigkeitsaussagen sowie Näherungsverfahren begnügen. Eine Monotonieüberlegung zeigt beispielsweise, dass die Gleichung xex = 1 genau eine reelle Lösung besitzt, selbige kann mit dem Newton-Verfahren §3.6.1 näherungsweise bestimmt werden. Gleichungen mit Parametern führen auf den Funktionsbegriff, die Abhängigkeit der Lösung vom Parameter auf Begriffe wie Stetigkeit und Differenzierbarkeit. Oft ist man nicht an einer vollständigen Beschreibung der Lösung interessiert — meist ist das zu aufwendig oder gar nicht möglich — sondern an ihren charakteristischen Eigenschaften (wie z.B. Existenz, Eindeutigkeit, Monotonie, Extremalstellen). So führt das Lösen der Gleichung x2 = t auf die Wurzelfunktion (vgl. 1.§2.2.4). Eine Differentialgleichung (abgekürzt DGL) ist nun — kurz gesagt — eine Gleichung zwischen einer gesuchten Funktion, einigen ihrer Ableitungen und ihrem Argument. Fazit. Eine durch eine Gleichung f (t, x) = 0 beschriebene Funktion x ist das mathematische Modell eines statischen Systems. Der Systemzustand x hängt nur von der Eingabe t ab. Eine durch eine Differentialgleichung f (t, x, ẋ, ẍ, . . . , x(r) ) = 0 beschriebene Funktion x ist das mathematische Modell eines dynamischen Systems. In einem dynamischen System beeinflussen sich die Eingabe t, der aktueller Systemzustand x, dessen Änderung ẋ und die höheren Ableitungen ẍ, . . . , x(r) von x gegenseitig. 1.2 Was ist eine DGL? Wir benutzen die Begriffe „Differentialgleichung“ und „dynamisches System“ synonym. Da die unabhängige Variable gerne als Zeit interpretiert wird, verwenden wir für sie das Symbol t und für die Ableitung nach dieser Variablen den Punkt „ ˙ “. Damit ist x(t) der Zustand des Systems zur Zeit t und ẋ(t) seine Änderung. Wir betrachten hier nur den Fall, dass x eine differenzierbare Funktion einer reellen Veränderlichen ist. (Wird komplexe Differenzierbarkeit zu Grunde gelegt, so muss man Methoden der Funktionentheorie verwenden, hängt x von mehreren reellen Veränderlichen ab, so benötigt man die Theorie partieller Differentialgleichungen.) Oftmals ist der Systemzustand nicht ein- sondern mehrdimensional, man denke an die Mechanik, wo ~x(t) den Ort eines Teilchens im R3 zur Zeit t angibt, oder sogar aus dem R6k stammt, um die Orts- und Impulskomponenten eines k-Teilchen-Systems zu beschreiben. Gehen in eine DGL Ableitungen bis einschließlich r-ter Ordnung ein, so sprechen wir, von einer DGL r-ter Ordnung. Ist der Systemzustand x nicht ein- sondern n-dimensional, so sprechen wir von einem DGL-System der Dimension n. 1.3 Explizite DGL erster Ordnung. Im einfachsten Fall hat ein dynamisches System die Form ẋ = F (t, x) bzw. ~x˙ = F~ (t, ~x), d.h. es geht nur die erste Ableitung ein und die Gleichung f (t, x, ẋ) = 0 kann nach ẋ aufgelöst werden. Wir sprechen dann von einem expliziten System erster Ordnung. Jede DGL lässt sich in ein explizites System erster Ordnung umschreiben. Wie das geht, macht das folgende Beispiel klar: In einer Schwingungsgleichung LI¨ + RI˙ + 1 I = U̇ (t) C für den Stromfluss I in einen RCL-Kreis mit angelegter Wechselspannung U ersetzen wir den von der physikalischen Beschreibung motivierten eindimensionalen Systemzustand I durch I(t) x1 (t) ~x(t) = := ˙ x2 (t) I(t) 192 §5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN und erhalten ~x˙ = I˙ = ˙ I¨ −R LI − I˙ 1 LC I + und damit als zugehöriges explizites System erster Ordnung ẋ1 x2 = R 1 − x − ẋ2 2 LC x1 + | {z } | L {z =~ x˙ ~ (t,~ =:F x) , 1 L U̇ (t) . 1 L U (t) } Im Allgemeinen führt man bei einer k-dimensionalen DGL r-ter Ordnung dann r Hilfsvariablen für den Zustand und seine Ableitungen bis zur (r − 1)-ten ein, löst nach der r-ten Ableitung auf und erhält ein kr-dimensionales explizites System erster Ordnung. Vom mathematischen Standpunkt aus genügt daher die Betrachtung solcher Systeme. Man spricht von der Universalität expliziter Systeme erster Ordnung. 1.4 Was ist eine Lösung einer DGL? Unter einer Lösung der DGL ẋ = F (t, x) verstehen wir eine auf einem Intervall I ⊂ R definierte differenzierbare Funktion x : I → R mit ẋ(t) = F (t, x(t)) für alle t ∈ I. Hierbei muss natürlich die rechte Seite F der Differentialgleichung einen Definitionsbereich besitzen, der (t, x(t)) für alle t ∈ I enthält, so dass der Einsetzungsprozess F (t, x(t)) Sinn ergibt. 1.5 Richtungsfeld einer DGL. Geometrisch interpretiert liefert die rechte Seite F (t, x(t)) die Steigung des Graphen der gesuchten Funktion x im Punkt (t, x(t)). Ist also die Lösungskurve im Punkt (t, x(t)) „angekommen“, so wird sie dort mit der Steigung F (t, x(t)) „weitergeschickt“. Die DGL „dirigiert“ sozusagen die Lösungskurve mittels ständiger „Richtungsanweisungen“. Wir können daher die DGL ẋ = F (t, x) „graphisch lösen“, indem wir das Richtungsfeld F zeichnen und die zugehörige Lösungskurve so einpassen, dass die Steigung der Tangente der Kurve in jedem Punkt mit der durch F vorgegebenen Steigung übereinstimmt. x x x0 t0 t t0 t x0 F (t, x) = t + x2 F (t, x) = x − t + 1 Abbildung 4.59: Zwei Beispiele für ein Richtungsfeld F : D ⊂ R2 → R und den Graph einer Lösung eines Anfangswertproblems ẋ = F (t, x), x(t0 ) = x0 . 1.6 Was ist ein Anfangswertproblem? Offensichtlich müssen wir bei dem eben geschilderten Vorgehen einen Startpunkt im Richtungsfeld auswählen. Ein dynamisches System besitzt also also in der Regel keine eindeutig bestimme Lösung, sondern eine Schar von Lösungen. Wir hoffen aber, dass wir durch Vorgabe einer „Anfangsbedingung“ eine Lösung auswählen können, d.h. dass das Anfangswertproblem (abgekürzt AWP) ẋ(t) = F (t, x), x(t0 ) = x0 , zu einer vorgegebenen Anfangsbedingung (t0 , x0 ) im Definitionsbereich von F eindeutig lösbar ist. 193 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 1.7 Anmerkung zu Lösungen. Sobald bei der Modellierung eines physikalischen oder technischen Problems eine DGL ins Spiel kommt, gehen wir im Alltag automatisch davon aus, dass die Lösung • existiert, • eindeutig bestimmt ist, • „lebt“ solange das System lebt. Letztlich unterstellen wir dabei, dass sich die Natur deterministisch verhält und glauben an die Ewigkeit. Tatsächlich verhält es sich anders herum: erst wenn wir Existenz und Eindeutigkeit der Lösung eines AWPs mathematisch sichergestellt haben, können wir der Natur (oder genauer: unserer Modellbildung) Determinismus unterstellen. Die Frage nach der „maximalen Lebensdauer“ einer Lösung sollte ebenfalls von der Theorie beantwortet werden. Hierzu stellt die Mathematik einige klassische Sätze bereit. Der Existenzsatz von Peano besagt, dass jedes AWP ẋ = F (t, x) mit einer stetigen rechten Seite F lösbar ist, der Existenz- und Eindeutigkeitssatz von Picard-Lindelöf liefert auch die Eindeutigkeit, sofern F bezüglich x (bei mehrdimensionalen Systemem bezüglich jeder Komponenten von ~x) stetig partiell differenzierbar ist. Die Frage nach der Lebensdauer einer Lösung ist kitzlig, der Satz von Picard-Lindelöf beispielsweise garantiert nur eine Mindestlebensdauer, die sich aus den Startwerten und der rechten Seite ablesen lässt. Auf Details der umfangreichen Theorie über Differentialgleichungen werden wir hier nicht eingehen. Für den Rest dieses Paragraphen interessiert uns die wichtigsten Typen explizit lösbarer Differentialgleichungen. Einer ist uns schon aus §3.6.6 bekannt: die lineare DGL erster Ordnung mit konstanten Koeffizienten. Diese hat im homogenen Fall die Form ẋ = ax, im inhomogenen ẋ = ax + b mit Koeffizienten a, b. In §3.6.6 haben wir die Lösungen explizit angegeben und gesehen, dass die auf ganz R „leben“. In den folgenden Abschnitten werden wir auch Fälle kennenlernen, in denen die Lösung eines AWPs nicht eindeutig bestimmt ist oder nur ein endliches Existenzintervall besitzt. 2 Differentialgleichungen mit getrennten Variablen 2.1 Idee der Trennung der Variablen. Eine DGL des Typs ẋ = c(t)g(x) mit stetigen Funktionen c und g heißt DGL mit getrennten Variablen. Eine solche DGL kann man folgendermaßen lösen: Ist x : I → R eine Lösung von ẋ = c(t)g(x) mit g(x(t)) 6= 0 für t ∈ I, so gilt c(τ ) = ẋ(τ ) g(x(τ )) für alle τ ∈ I. Nach Integration erhalten wir zur Anfangsbedingung x(t0 ) = x0 mit der Substitutionsregel für Integrale Z t Z t c(τ ) dτ = t0 t0 ẋ(τ ) dτ = g(x(τ )) Z x(t) x0 dζ . g(ζ) Sind C bzw. G Stammfunktionen von c bzw. von 1/g mit C(t0 ) = 0 = G(x0 ), so gilt C(t) = G(x(t)) Wegen G0 (x0 ) = 1/g(x0 ) 6= 0 ist G in einer Umgebung von x0 streng monoton. Dort können wir G invertieren und erhalten x(t) = G−1 (C(t)) für t in einem Intervall um t0 . Durch Einsetzen verifizieren wir, dass wir so wirklich eine Lösung gefunden haben. 194 §5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN 2.2 Worauf muss man aufpassen? Trennung der Verfahren funktioniert nur, wenn g(x0 ) 6= 0. Dann folgt nämlich für den oben gefundenen Lösungskandidaten wegen Stetigkeit auch g(x(t)) 6= 0 für alle Zeiten t, die genügend nahe bei der Startzeit t0 liegen und die obige Integration gelingt. Über das Existenzintervall der Lösung des AWP erfährt man erst etwas im Laufe der Rechnung. In der Praxis wendet man dieses Lösungsverfahren daher gerne formal an und macht anschließend eine Probe. Was im Fall g(x0 ) = 0 passieren kann, erfahren wir im Beispiel 2.6. Gelingt eine Trennung der Variablen, so hat man ein dynamisches System in ein statisches übergeführt, d.h. eine Gleichung für die Lösungsfunktion gefunden. Oftmals kann man diese Gleichung nicht explizit lösen, sondern muss Näherungstechniken zum Lösen nichtlinearer Gleichungen einsetzen (siehe Satz über implizite Funktionen 6.§1.6.4). 2.3 Anwendungsbeispiel: logistische DGL. Das Bevölkerungswachstum in einer beschränkten Umgebung wird durch die logistische DGL ẋ = cx(1 − x) mit einem Wachstumskoeffizienten c > 0 beschrieben (man vergleiche mit dem diskreten Fall in 1.§2.3.2). Hierbei gibt x den Anteil an der Maximalbevölkerung an und nimmt daher sinnvoller Weise Werte in [0, 1] an. Für x nahe bei 0 gilt ẋ ≈ cx und das Wachstum ist im Wesentlichen proportional zu x, für x nahe bei 1 gilt ẋ ≈ 0 und es tritt praktisch kein Wachstum ein. Dieses Modell wird nicht nur in der Biologie angewendet, es beschreibt auch die Verbreitung von Gerüchten oder autokatalytische chemische Reaktionen. Zur Lösung des Anfangswertproblems ẋ = cx(1 − x), x(0) = x0 , mit einem Startwert x0 ∈]0, 1[ machen wir für x ∈]0, 1[ eine Trennung der Variablen c= ẋ(t) x(t)(1 − x(t)) und erhalten nach Integration Z ct = t Z c dτ = 0 0 t ẋ(τ ) dτ = x(τ )(1 − x(τ )) Z x(t) x0 x(t) x0 1 dζ = ln − ln . ζ(1 − ζ) 1 − x(t) 1 − x0 Diese Gleichung für die Lösungsfunktion x(t) liefert nach kurzer Rechnung x(t) = 1 x0 1 . − 1 e−ct − 1 Offensichtlich ist x(t) für alle t ∈ R definiert und Lösung der Differentialgleichung. 1 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 c = 0.3 5 10 15 20 c = 0.6 5 10 15 Abbildung 4.60: Lösungen der logistischen Differentialgleichung ẋ = cx(1 − x). 20 195 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN Für die Startwerte x0 = 0, 1 können wir keine Trennung der Variablen machen (warum?). Dann gilt aber ẋ = 0 und wir erhalten die konstanten Lösungen x(t) = 0 bzw. x(t) = 1 für t ∈ R. Wegen limt→+∞ x(t) = 1 für x0 ∈]0, 1] nähert sich die Populationsdichte in diesem Modell asymptotisch dem Maximalwert an. Ihr charakteristischer S-förmiger Verlauf kann in der Natur häufig beobachtet werden, wenn eine Art einen neuen Lebensraum erobert. 2.4 Anwendungsbeispiel: chemische Reaktion zweier Stoffe. Sind x1 und x2 die Konzentrationen zweier Stoffe, die miteinander chemisch reagieren, wobei der zweite Stoff unter Anwesenheit des ersten zu selbigem umgewandelt wird, so gilt x1 + x2 = 1, ẋ1 = cx1 x2 , ẋ2 = −cx1 x2 , mit einer Konstanten c > 0. Denn die Wahrscheinlichkeit, dass ein Molekül des einen Stoffes auf ein Molekül des anderen trifft, ist proportional zu x1 x2 . Setzen wir ~x = (x1 , x2 ) und F (t, ~x) = (cx1 x2 , −cx1 x2 ), so haben wir das System in Form einer DGL ~x˙ = F (t, ~x) für eine vektorwertige Funktion ~x (mit einer von t unabhängigen) rechten Seite F vorliegen. Durch Auflösen der Erhaltungsbedingung x2 = 1 − x1 und Elimination von x2 aus ẋ1 = cx1 x2 bekommen wir für x1 eine logistische DGL ẋ1 = cx1 (1 − x1 ). Selbige können wir wie im vorangegangenen Beispiel 2.3 lösen und erhalten anschließend auch den Verlauf von x2 . 1 x1 0.8 0.6 0.4 c = 0.4, x0 = 0.2 0.2 x2 5 10 15 20 Abbildung 4.61: Konzentrationsverläufe bei der chemischen Reaktion. 2.5 Eine DGL, bei der die Lebensdauer einer Lösung vom Startwert abhängt. Das Richtungsfeld der DGL ẋ = ex sin(t) ist symmetrisch zur x-Achse und 2π-periodisch bezüglich t. Mit x sind daher auch t 7→ x(−t) und t 7→ x(t + 2kπ), k ∈ Z, Lösungen. Durch Trennung der Variablen erhalten wir −e−x = Z e−x dx = Z ẋ(τ ) dτ = ex(τ ) Z sin(t) dt = − cos(t) − C und somit x(t) = − ln(cos(t) + C) für t ∈ R mit C + cos(t) > 0. Die Lösung des Anfangswertproblems ẋ = ex sin(t), x(0) = − ln(a), a > 0, lautet x(t) = − ln(cos(t) + a − 1). Für a > 2 ist sie auf R definiert, für a ≤ 2 nur im Intervall ] − π, π[. Fazit. Der Definitionsbereich einer Lösung eines Anfangswertproblems kann vom Anfangswert abhängen und steht in keinem einfachen Zusammenhang zum Definitionsbereich der rechten Seite. 196 §5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN a=1 a=2 a=5 a = 10 Abbildung 4.62: Lösungen des Anfangswertproblems ẋ = ex sin(t), x(0) = − ln(a) für a = 1, 2, 5, 10. 2.6 Anwendungsbeispiel: auslaufender Behälter. Wir betrachten einen zylindrischen Becher mit Durchmesser 2R an dessen Boden sich ein kreisförmiges Ausflussrohr mit Durchmesser 2r befindet. Wir wollen den Flüssigkeitsstand h(t) zur Zeit t bestimmen, wenn der Flüssigkeitsstand h0 zum Zeitpunkt t0 = 0 bekannt ist. Ferner interessiert uns die Zeit T zu der der Behälter sich geleert hat. Beim Auslaufen des Volumens ∆V nimmt die potentielle Energie um g∆V h(t) ab, die kinetische Energie wächst um 21 v(t)2 ∆V , wobei v(t) die Ausflussgeschwindigkeit zur Zeit t ist. Ohne Berücksichtigung der p Zähigkeit liefert der Energieerhaltungssatz das Das Vorhandensein von p Torricelli-Gesetz v(t) = 2gh(t). √ Zähigkeit können wir in der Form v(t) = α gh(t) mit einer Konstanten α < 2 modellieren. Offenbar gilt −ḣ(t)/v(t) = r2 /R2 (Volumenänderung im Behälter ist ausfließendes Volumen). Damit haben wir das AWP √ r2 α g √ ḣ = − h, h(0) = h0 > 0 2 | R {z } =:2c vorliegen. Für die Lösung h gilt, solange sie positiv ist, ḣ(t) , −2c = p h(t) d.h. nach Integration Z −2ct = t Z t (−2c) dτ = 0 0 ḣ(τ ) p dτ = h(τ ) Z h(t) ζ −1/2 dζ = 2 p h(t) − p h0 . h0 Durch Lösen dieser Gleichung für h(t) erhalten wir h(t) = Die Auslaufzeit ist also T = √ p 2 h0 − ct √ für t < h0 . c h0 /c. Für t > T wird die physikalische Wirklichkeit durch ( √ 2 h0 − ct für 0 ≤ t < T h(t) = 0 für t ≥ T beschrieben. Das ist eine C 1 -Lösung unseres AWPs. Der Zustand zu irgendeinem Zeitpunkt t ≥ 0 ist eindeutig festgelegt. Bei leerem Becher, d.h. für Zeiten t ≥ T , lässt sich aber die Vergangenheit nicht mehr rekonstruieren. Das Anfangswertproblem √ h(t0 ) = 0 ḣ = −2c h, 197 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN √ F (t, h) = −2c h 2R ∆V h(t) h0 T 2r t0 Abbildung 4.63: Auslaufender Becher als ein Beispiel für ein nicht eindeutig lösbares Anfangswertproblem. ist also nicht eindeutig lösbar! Fazit. Ein Anfangswertproblem muss nicht eindeutig lösbar sein. 3 Lineare Differentialgleichungen erster Ordnung 3.1 Lineare DGL erster Ordnung. Eine DGL des Typs ẋ = a(t)x + b(t) mit stetigen reell- oder komplexwertigen Funktionen a, b auf einem offenen Intervall I ⊂ R heißt lineare DGL erster Ordnung. Wieder unterscheiden wir zwischen dem homogenen Fall mit b(t) = 0 für alle t ∈ I und dem inhomogenen Fall, in dem b nicht konstant verschwindet. Das verallgemeinert den Fall konstanter Koeffizienten aus §3.6.6. Gerade für Anwendungen in der Elektrotechnik stellt es sich als günstig heraus, sowohl für die Koeffizientenfunktionen a, b als auch für die Lösung komplexe Werte zuzulassen. Rechentechnisch macht das keine zusätzliche Arbeit. 3.2 Homogener Fall: Trennung der Variablen. Im homogenen Fall ẋ = a(t)x liegt eine DGL mit getrennten Variablen vor, die wir mit einer Trennung der Variablen 2.1 lösen können. Hierbei stellt sich heraus, dass die Lösung immer auf ganz I definiert ist. Die Lösungen der DGL ẋ = a(t)x mit einer auf einem Intervall I stetigen Funktion a sind auf ganz I definiert und haben die Form x(t) = ceA(t) mit c ∈ C und einer Stammfunktion A : I → C von a. Zu gegebenen t0 ∈ I und x0 ∈ C hat das Anfangswertproblem ẋ = a(t)x, x(t0 ) = x0 , genau eine Lösung. Selbige ist auf ganz I definiert und lautet Z t x(t) = x0 exp a(τ ) dτ . t0 3.3 Inhomogener Fall: Struktur der Lösungsmenge. Der schon aus 3.§3.1.23 und §3.6.6 bekannte Zusammenhang zwischen Lösungen einer inhomogenen linearen DGL und der zugehörigen homogenen bleibt auch für nicht-konstante Koeffizienten erhalten — wir können den Beweis wörtlich übertragen. 198 §5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN Wir erhalten die Lösungsgesamtheit der inhomogenen linearen DGL ẋ = a(t)x + b(t) indem wir zu einer speziellen Lösung dieser DGL die Gesamtheit der Lösungen der zugehörigen homogenen DGL ẋ = a(t)x addieren. Alles läuft also darauf hinaus, eine spezielle Lösung der inhomogenen DGL zu finden. Dies geschieht mit der folgenden auf Lagrange zurückgehenden Methode. 3.4 Finden einer speziellen Lösung: Variation der Konstanten. Wir gehen mit dem Ansatz Z t x(t) = c(t) exp a(τ ) dτ t0 in die DGL ẋ = a(t)x + b(t) ein, verwenden also die Lösungsfunktionen des homogenen Falls und ersetzen den Scharparameter c durch eine Funktion c(t). Für diese Funktion gilt Z t Z t a(τ ) dτ + b(t), a(τ ) dτ , a(t)x(t) + b(t) = c(t)a(t) exp ẋ(t) = [ċ(t) + c(t)a(t)] exp t0 t0 und wir erhalten durch Vergleich für c die DGL Z t ċ(t) = b(t) exp − a(τ ) dτ , t0 welche wir dank des Hauptsatzes der Differential- und Integralrechnung §4.2.5 immer durch eine Integration lösen können. Damit haben wir eine Lösung von ẋ = a(t)x + b(t) gefunden. Eine spezielle Lösung x̃ der DGL ẋ = a(t)x + b(t) mit auf einem Intervall R I stetigen Funktionen a, b t erhält man, indem man eine Stammfunktion C : I → C von t 7→ b(t) exp − t0 a(τ ) dτ bildet und Z t x̃(t) := C(t) exp a(τ ) dτ t0 setzt. Diese spezielle Lösung und damit alle Lösungen von ẋ = a(t)x + b(t) sind auf ganz I definiert. Beispiel. Lösungsgesamtheit von ẋ = x + t. Die zugehörige homogene DGL ẋ = x hat konstante Koeffizienten und LösungR x(t) = cet mit c ∈ C. Eine Variation der Konstanten R als allgemeine R liefert −t ċ(t) = t exp(− 1 dt) = te , d.h. c(t) = te−t dt = −(t+1)e−t . Damit ist x̃(t) = −(t+1)e−t exp( 1 dt) = −(t + 1) eine spezielle Lösung und x(t) = cet − (t + 1) die allgemeine. 3.5 Anwendungsbeispiel: RL-Kreis mit Fremderregung. Wir betrachten den RL-Kreis aus Beispiel §3.6.7. Diesmal legen wir für t ≥ 0 eine Wechselspannung U (t) = U0 sin(ωt) der Frequenz ω/(2π) an. Der Stromverlauf wird dann durch ˙ = − R I(t) + U0 sin(ωt), I(t) L L I(0) = 0, beschrieben. Die allgemeine Lösung der zugehörigen homogenen Gleichung lautet I(t) = be−(R/L)t , eine Variation der Konstanten liefert zunächst ḃ(t) = U0 sin(ωt)e(R/L)t L und nach Integration dann b(t) = U0 [R sin(ωt) − ωL cos(ωt)]e(R/L)t + C. R2 + ω 2 L2 Die Klammer können wir einfacher schreiben, indem wir zu dem bis auf ein ganzzahliges Vielfaches von 2π eindeutig bestimmten Phasenwinkel ϕ ∈ R mit cos(ϕ) = √ R2 R , + ω 2 L2 sin(ϕ) = √ R2 ωL , + ω 2 L2 199 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN übergehen und b in der Form b(t) = √ R2 U0 sin(ωt − ϕ)e(R/L)t + C + ω 2 L2 erhalten. Damit gehorcht der Stromverlauf in diesem RL-Kreis für t ≥ 0 der Gleichung I(t) = √ R2 U0 sin(ωt − ϕ) + Ce−(R/L)t . + ω 2 L2 Nach Bestimmung von C aus den Anfangswerten bekommen wir als Lösung I(t) = √ i h U0 sin(ωt − ϕ) + sin(ϕ)e−(R/L)t . R 2 + ω 2 L2 Die Stromstärke wird also asymptotisch eine reine Sinus-Schwingung, allerdingt mit einer Phasenverschiebung ϕ gegenüber dem Spannungsverlauf U (t). L U I R 0 t U (t) I(t) Abbildung 4.64: Ein RL-Kreis mit angelegter Wechselspannung. 4 Einfache Substitutionstechniken 4.1 Worum geht es? Wir haben einige Typen von explizit lösbaren DGL kennengelernt. Man hüte sich aber davor zu glauben, dass es für jede DGL eine Lösungsmethode gibt: explizit lösbare DGL sind die Ausnahme und die Hauptarbeit in der Theorie der Differentialgleichungen besteht darin, Methoden zur Verfügung zu stellen, etwas über die Lösung einer DGL aussagen zu können, ohne sie zu kennen. Um sich diese Arbeit zu ersparen, versucht man in den Anwendungen oft, bei der Modellierung Vereinfachungen zu machen, die zu einer explizit lösbaren DGL führen. Bisweilen kommt man durch eine geschickte Substitution zum selben Ergebnis. Wir führen einige Beispiele vor und verweisen auf die umfangreiche Literatur zu diesem Thema (z.B. [Ka]). 4.2 Bernoullische DGL. Diese DGL hat die Form ẋ = et xα − x mit α ∈ R. Man diskutiert i.A. nur positive Lösungen. Für α = 0, 1 liegt eine lineare DGL vor und wir können direkt die schon bekannten Methoden anwenden. Für α 6= 0, 1 benutzen wir die Substitution u(t) := x(t)1−α und erhalten für u die DGL u̇ = (1 − α)x−α ẋ = (1 − α)x−α (et xα − x) = (1 − α)(et − x1−α ) = (α − 1)u + (1 − α)et . Damit genügt u einer linearen inhomogenen DGL, die wir wieder explizit lösen können. Resubstituieren x(t) = u(t)1/(1−α) löst uns anschließend die ursprüngliche DGL. Achtung. Man achte bei dieser Substitution für eine Bernoullische DGL auf das Vorzeichen von x. 200 §6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE 4.3 Eulersche DGL. Diese DGL hat die Gestalt tẋ + cx + 1 + t2 = 0 und wird i.A. nur für t > 0 betrachtet. Zunächst ist man versucht, die Methode für eine lineare inhomogene DGL mit nichtkonstanten Koeffizienten anzuwenden. Durch die Substitution u(s) := x(es ) erhalten wir aber u̇ = ẋes = −cu − 1 − e2s und damit eine lineare DGL deren homogener Teil u̇ = −cu konstante Koeffizienten hat, also einfacher zu lösen ist. 4.4 DGL mit rationalem Richtungsfeld. Jede DGL des Typs ax + bt + c ẋ = F dx + et + f lässt sich durch eine Substitution auf eine DGL mit getrennten Variablen zurückführen. Wir illustrieren dies an zwei Spezialfällen. (a) Bei der DGL ẋ = F (ax + bt + c) mit a 6= 0 erfüllt für jede Lösung x die durch u(t) := ax(t) + bt + c definierte Funktion u die DGL u̇ = aẋ + b = aF (ax + bt + c) + b = aF (u) + b. Das ist aber eine DGL mit getrennten Variablen der Form u̇ = g(u). Löst umgekehrt eine Funktion u diese DGL, so erfüllt x(t) := a1 (u(t) − bt − c) die ursprüngliche DGL. (b) Für die DGL ẋ = F x t machen wir bei einer für t > 0 definierten Lösung x die Substitution u(t) := x(t) t und erhalten 1 (F (u) − u) , t also wieder eine DGL mit getrennten Variablen. Haben wir selbige gelöst, so liefert x(t) := tu(t) eine Lösung für die ursprüngliche DGL. Für t < 0 gehe man analog vor. u̇ = §6 1 Vertauschung von Grenzübergängen, uneigentliche Integrale Punktweise und gleichmäßige Konvergenz 1.1 Fragestellung. Gegeben ist eine Funktion f : [0, L] → R mit f (0) = f (L) = 0. Wir stellen uns f als die Gestalt einer an den Enden eingespannten Saite vor. Lässt sich f dann in eine Sinusreihe f (x) = ∞ X k=1 bk sin kπ x L entwickeln? Fourier (1768–1830) selbst war der Ansicht, dass dies für jede Funktion möglich sei. Das erweist sich aber mit einem Abzählargument als unmöglich: Ist über f nichts weiter vorausgesetzt, so ist f erst nach Angabe 201 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN der Funktionswerte f (x) an jeder der überabzählbar unendlich vielen Stellen x ∈ [0, L] festgelegt. Die Fourier-Reihe trägt aber in ihren Koeffizienten bk nur abzählbar unendlich viele Informationen. Dirichlet und Riemann vermuteten, dass solch eine Darstellung für jede stetige Funktion möglich sei, schließlich sind die an der Summenbildung beteiligten Funktionen alle stetig. Inzwischen ist bekannt, dass selbst nicht alle stetigen Funktionen in eine Fourier-Reihe entwickelt werden können, während es umgekehrt unstetige Funktionen gibt, die sich vollständig durch eine Fourier-Reihe darstellen lassen. Die Untersuchung dieser Fragestellung war im 19. Jahrhundert maßgeblich für die Entwicklung der Analysis verantwortlich. 1.2 Punktweise Konvergenz, Funktionenfolgen. Gegeben ist eine Folge von Funktionen fn mit gemeinsamen Definitionsbereich D, für die der Grenzwert für jedes x ∈ D f (x) := lim fn (x) n→∞ existiert und damit eine Grenzfunktion f auf D definiert. Wir sagen, die Funktionenfolge (fn )n konvergiert punktweise gegen f und schreiben fn → f punktweise auf D für n → ∞. 1.3 Präzisierung der Fragestellung. Wir behandeln im Zusammenhang mit unserer Fragestellung die folgenden drei Probleme. • Unter welchen Voraussetzungen folgt aus der Differenzierbarkeit der Funktionen fn die Differenzierbarkeit der Grenzfunktion f und f 0 (x) = limn→∞ fn0 (x)? Z Z • Wann impliziert die Integrierbarkeit der fn die von f mit f (x) dx = lim fn (x) dx? n→∞ D D • Wann überträgt sich die Stetigkeit der fn auf die von f ? Flapsig können wir diese drei Probleme in der Form d d ? lim fn = lim fn , n→∞ dx dx n→∞ Z Z ? lim fn dx = lim n→∞ n→∞ ? fn dx, lim lim fn (x) = lim lim fn (x) x→x0 n→∞ n→∞ x→x0 schreiben. Sätze, die uns Antwort auf die eben gestellten Fragen geben, nennen wir Vertauschungssätze. 1.4 Beispiele. 1 (a) Die Grenzfunktion einer Folge von C ∞ Funktionen muss nicht einmal stetig sein. Wir setzen fn (x) := xn für x ∈ [0, 1]. Dann sind die fn alle C ∞ -Funktionen auf [0, 1] und es gilt ( 0 für x ∈ [0, 1[ fn (x) → f (x) = für n → ∞. 1 für x = 1 Die Grenzfunktion f ist also in x = 1 unstetig. f1 f2 . . . 0 1 Abbildung 4.65: Die Grenzfunktion einer Folge von C ∞ -Funktionen muss nicht stetig sein. 202 §6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE (b) Integration und Grenzübergang sind im Allgemeinen nicht vertauschbar. Wir definieren stetige Funktionen fn : [0, 1] → R wie skizziert. Dann gilt limn→∞ fn (x) = 0 für alle x ∈ [0, 1]. Für x = 0 ist das offensichtlich, für x > 0 gilt fn (x) = 0 sobald x > 1/n, d.h. n > 1/x. Konstruktionsgemäß R1 gilt 0 fn (x) dx = 1, während die Grenzfunktion f identisch verschwindet. Somit haben wir Z 1 Z 1 fn (x) dx. lim fn (x) dx = 0 6= 1 = lim 0 n→∞ n→∞ 0 2n fn 0 1/n 1 Abbildung 4.66: Integration und Grenzübergang dürfen nicht immer vertauscht werden. Fazit. Eigenschaften einer punktweise konvergenten Funktionenfolge müssen sich nicht automatisch auf die Grenzfunktion übertragen. Wir brauchen also einen für unsere Zwecke geeigneten Konvergenzbegriff. 1.5 Gleichmäßige Konvergenz. Wir erinnern uns an die Supremumsnorm und den gleichmäßigen Abstand von Funktionen (siehe §4.1.7 und §4.1.9). Der folgende Konvergenzbegriff ist für das Weitere von grundlegender Bedeutung. Eine Folge von Funktionen fn mit gemeinsamen Definitionsbereich D nennen wir gleichmäßig konvergent gegen eine Funktion f auf D, falls kfn − f k∞,D → 0 für n → ∞. Hierbei ist kfn − f k∞,D = supx∈D |fn (x) − f (x)| der gleichmäßige Abstand von fn zu f . Wir schreiben dann fn → f gleichmäßig auf D für n → ∞. Der gleichmäßige Abstand von f und fn geht also gegen Null. Zu jedem ε > 0 existiert ein nε ∈ N mit |fn (x) − f (x)| < ε für alle n ≥ nε und alle x ∈ D. Bildlich gesprochen heißt dies, dass für jeden noch so kleinen Fehler ε > 0 die Graphen aller Funktionen fn im ε-Schlauch um den Graphen von f verlaufen, mit vielleicht endlich vielen Ausnahmen. 1.6 Zum Verhältnis von gleichmäßiger zu punktweiser Konvergenz. Aus der gleichmäßigen Konvergenz fn → f auf D folgt die punktweise. Das ergibt sich sofort aus |fn (x) − f (x)| ≤ kfn − f k∞,D für x ∈ D. Achtung. Die Umkehrung gilt i.A. nicht. Beispiel. Gemäß Beispiel 1.4 (a) gilt xn → 0 für jedes x ∈ [0, 1[. Für fn (x) := xn und f (x) := 0 haben wir also fn → f punktweise auf [0, 1[. Es gilt aber kfn − f k∞,[0,1[ = supx∈[0,1[ xn = 1. Also konvergieren die fn auf [0, 1[ nicht gleichmäßig gegen f . Dagegen ist die Konvergenz auf jedem Intervall [0, r] mit r < 1 gleichmäßig. Dann gilt nämlich kfn − f (x)k∞,[0,r] = supx∈[0,r] xn = rn → 0 für n → ∞. Anmerkung. Punktweise Konvergenz auf D bedeutet: Zu jedem x ∈ D gibt es zu vorgegebenem γ > 0 ein — i.A. von x abhängiges — nε = nε,x mit |fn (x) − f (x)| < ε für n ≥ nε,x . (In obigem Beispiel war ln ε n > ln x zu wählen.) Bei gleichmäßiger Konvergenz kann nε unabhängig von x gewählt werden. 1.7 Rechnen mit gleichmäßig konvergenten Funktionenfolgen. Sind (fn )n und (gn )n gleichmäßig konvergente Funktionenfolgen auf D, so gilt: (c) Die Funktionenfolge (fn )n ist auf D beschränkt. Es gibt also eine Schranke M > 0 mit kf k∞,D ≤ M für alle n ∈ N, d.h. |fn (x)| ≤ M für alle x ∈ D und n ∈ N. 203 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN (d) Aus fn → f und gn → g gleichmäßig auf D folgt λfn + µgn → λf + µg für beliebige Zahlen λ, µ, sowie für reell- oder komplexwertige Funktionen fn gn → f g und |fn | → f , für vektorwertige hf~n |~gn i → hf~|~g i und kf~n k → kf~k gleichmäßig auf D. P∞ 1.8 Funktionenreihen. Wie bei PnZahlenfolgen erklären wir eine Funktionenreihe k=0 fk als die Funktionenfolge der Partialsummen k=1 fk . Natürlich müssen die fk denselben Definitionsbereich haben. P∞ Beispiele. Eine Potenzreihe k=0 ak xk ist eine Funktionenreihe mit Vielfachen der Polynome xk als Glieder. Eine (reelle) Fourier-Reihe hat die Form a0 + ∞ X (ak cos kt + bk sin kt) k=1 mit Fourier-Koeffizienten ak , bk . Gilt bk = 0 für alle k ∈ N, so spricht man von einer Cosinus-Reihe, bei ak = 0 für alle k ∈ N0 von einer Sinus-Reihe. Für das Rechnen mit Fourierreihen ist die komplexe Form ∞ X ck eikt k=−∞ P∞ oft angenehmer. Dabei bedeutet k=−∞ = limn→∞ und in der komplexen Darstellung kann man via Pn k=−n . a0 = 2c0 , ak = ck + c−k , bk c0 = a0 2 ck = ak − ibk , 2 c−k Zwischen den Koeffizienten in der reellen = i(ck − c−k ), = für k ∈ N. ak + ibk , 2 umrechnen. Für die gleichmäßige Konvergenz einer Funktionenreihe wird gerne das folgende Kriterium verwendet. 1.9 Majorantenkriterium für gleichmäßige Konvergenz von Funktionenreihen. P∞ Ist (fk )k eine Funktionenfolge auf D mit |f (x)| ≤ b für x ∈ D und konvergiert die Zahlenreihe k k k=0 bk , so ist die P∞ Funktionenreihe k=0 fk auf D gleichmäßig konvergent. P∞ ∗ Beweis P∞ . Nach dem Majorantenkriterium 1.§4.2.4 konvergiert k=0 fk (x) für jedes xP∈∞D absolut. Damit ist k=0 fk auf D punktweise P∞ konvergent gegen eine Funktion f . Sei ε > 0. Da k=0 bk konvergiert, existiert ein nε ∈ N mit k=nε +1 bk < ε. Für alle x ∈ D und n ≥ nε folgt mit 1.§4.1.8 (f) ∞ n ∞ X X X f (x) ≤ |fk (x)| ≤ = f (x) − f (x) k k k=n+1 k=0 k=n+1 ∞ X P∞ fk auf D gleichmäßig konvergent. P∞ P∞ Anmerkung. Beliebte Majoranten sind k=0 q k mit q ∈ [0, 1[ und k=0 Also ist bk < ε. k=nε +1 k=0 ∞ X km qk mit q ∈ [0, 1[ und m ∈ N0 , k=0 Beispiel. P∞ Die Fourier-Reihe und k=1 k12 konvergiert. ∞ X 1 kα 1 k2 oder allgemeiner mit α > 1. k=0 P∞ 1 k=1 k2 sin kt konvergiert für alle t ∈ R. Es gilt nämlich | k12 sin kt| ≤ 1 k2 P∞ 1.10 Gleichmäßige Konvergenz von Potenzreihen. Eine Potenzreihe k=0 ak (x − x0 )k mit Konvergenzradius R > 0 ist für jedes r ∈ [0, R[ in der Kreisscheibe |x − x0 | ≤ r gleichmäßig konvergent. P∞ ∗ k Beweis P∞ . Die Reihek k=0 |ak |r konvergiert gemäß 2.§4.1.4 und ist dann eine gleichmäßige Majorante für k=0 ak (x − x0 ) für |x − x0 | ≤ r. 204 §6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE Achtung. Das kann man nicht einfacher formulieren! In der vollen Kreisscheibe |x − x0 | < R liegt i.A. keine gleichmäßige Konvergenz vor (vgl. hierfür und für den nachfolgenden Beweis auch 2.§4.1.7). Beispiel. Wir illustrieren das für die geometrische Reihe. Mit f (x) := ∞ X xk = k=0 1 , 1−x fn (x) := n X xk = k=0 1 − xn+1 1−x gilt für |x| < 1 n+1 n+1 x ≤ |x| |f (x) − fn (x)| = 1−x 1 − |x| mit Gleichheit für x ∈ [0, 1[. Für jedes feste r ∈ [0, 1[ haben wir damit kf − fn k∞,|x|≤r = sup |f (x) − fn (x)| = |x|≤r rn+1 . 1−r Also konvergieren die Partialsummen der geometrischen Reihe für |x| ≤ r gleichmäßig. Für r → 1− wird die Konvergenz aber immer schlechter. Auf der offenen Kreisscheibe |x| < 1 ist |f (x) − fn (x)| sogar unbeschränkt. 2 Vertauschungssätze 2.1 Fazit vorab. Kurz gesagt: gleichmäßige Konvergenz ist der Schlüssel zu den Antworten auf unsere Fragen in 1.3. Stetigkeit und Integrierbarkeit der Grenzfunktion f übertragen sich bei gleichmäßiger Konvergenz von (fn )n , Differenzierbarkeit bei gleichmäßiger Konvergenz von (fn0 )n . 2.2 Stetigkeit der Grenzfunktion. Eine gleichmäßig konvergente Folge oder Reihe stetiger Funktionen konvergiert gegen eine stetige Grenzfunktion. Beweis∗ . Ist (fn )n auf D gleichmäßig konvergent gegen f , so gibt es zu ε > 0 eine Zahl n ∈ N mit |fn (x) − f (x)| < ε/3 für alle x ∈ D. Ist fn im Punkt a ∈ D stetig, so gibt es zu ε/3 ein δ > 0 mit |fn (x) − fn (a)| < ε/3 für alle x ∈ D mit |x − a| < δ. Für diese x folgt mit der Dreiecksungleichung |f (x) − f (a)| ≤ |f (x) − fn (x)| + |fn (x) − fn (a)| + |fn (a) − f (a)| < ε ε ε + + = ε. 3 3 3 Damit ist f im Punkt a stetig. Bei einer Funktionenreihe schließe man analog mit den Partialsummen. P∞ Beispiel. Da die Fourier-Reihe k=1 k12 sin kt auf R gleichmäßig konvergiert, ist die Grenzfunktion auf R stetig. 2.3 Vertauschung von Integration und Grenzübergang. Ist (fn )n eine auf [c, d] gleichmäßig konvergenze Folge integrierbarer Funktionen, so ist auch die Grenzfunktion f integrierbar und es gilt Z d Z d f (x) dx = lim fn (x) dx. n→∞ c c P∞ Ist k=0 gk eine auf [c, d] P gleichmäßig konvergente Funktionenreihe und sind die gk integrierbar, so ist ∞ auch die die durch g(x) := k=0 gk (x) definierte Grenzfunktion integrierbar mit Z d g(x) dx = c ∞ Z X k=0 d gk (x) dx. c Für eine Funktionenfolge hatten wir das schon in §4.1.21 bewiesen. Für eine Funktionenreihe folgt das dann durch Betrachtung der Partialsummen. 205 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 2.4 Vertauschung von Differentiation und Grenzübergang. Ist (fn )n eine Folge von C 1 -Funktionen auf ]c, d[, konvergiert (fn (a))n für ein a ∈]c, d[ und konvergiert (fn0 )n gleichmäßig auf ]c, d[, so ist (fn )n selbst auch konvergent und die Grenzfunktion f ist auf ]c, d[ differenzierbar mit f 0 (x) = lim fn0 (x) für x ∈]c, d[. P∞ P∞ Ist k=0Pgk eine Reihe von C 1 -Funktionen aufP ]c, d[, konvergiert k=0 gk (a) für ein a ∈]c, d[ und kon∞ ∞ vergiert k=0 gk0 gleichmäßig auf ]c, d[, so ist k=0 gk selbst auch konvergent und die Grenzfunktion g ist auf ]c, d[ differenzierbar mit n→∞ g 0 (x) = ∞ X gk0 (x) für x ∈]c, d[. k=0 Beweis∗ . Wir setzen b := limn→∞ fn (a) und betrachten ein x ∈]c, d[. Konvergiert (fn0 )n auf ]c, d[ gleichmäßig gegen eine Funktion g, so ist die Konvergenz auch gleichmäßig auf dem Intervall mit Randpunkten a und x. Gliedweise Integration gemäß 2.5 und der Hauptsatz der Differential- und Integralrechnung §4.2.5 liefern daher Z x Z x g(t) dt = lim fn0 (t) dt = lim (fn (x) − fn (a)) = lim fn (x) − b. n→∞ a n→∞ a n→∞ Somit konvergiert (fn (x))n auf ]c, d[ punktweise gegen eine Funktion f und es gilt Z x f (x) := lim fn (x) = g(t) dt + b für x ∈]c, d[. n→∞ a Der Hauptsatz liefert nun die Differenzierbarkeit von f mit f 0 (x) = g(x) = limn→∞ fn0 (x) für x ∈]c, d[. Für eine Funktionenreihe schließe man analog. 2.5 P∞Gliedweise kIntegration und Differentiation von Potenzreihen. Eine Potenzreihe f (x) = k=0 ak (x − x0 ) mit Konvergenzradius R > 0 ist für x ∈]x0 − R, x0 + R[ beliebig oft gliedweise differenzierbar und integrierbar und es gilt f 0 (x) Z ∞ X = k=1 ∞ X x f (t) dt = x0 k=0 f 00 (x) = kak (x − x0 )k−1 , ∞ X k(k − 1)ak (x − x0 )k−2 , ..., k=2 1 ak (x − x0 )k+1 , k+1 .... Das folgt sofort aus 1.10 und 2.4 bzw. 2.5. Wir hatten das aber auch schon in §3.2.5 bzw. §4.3.12 bewiesen. P∞ 1 Beispiel. Die geometrische Reihe 1−x = k=0 xk ist auf ] − 1, 1[ gliedweise differenzierbar mit 1 (1 − x)2 1 (1 − x)3 ∞ ∞ = X d X d 1 = xk = kxk−1 , dx 1 − x dx = X d2 X d2 1 = xk = k(k − 1)xk−2 , 2 2 dx 1 − x dx k=1 ∞ k=1 ∞ k=2 k=2 .. . Durch Bilden geeigneter Linearkombinationen erhalten wir hieraus die Summenformeln für die verallgemeinerten geometrischen Reihen (vgl. 1.§4.3.8 (f)) ∞ X k=0 x kx = , (1 − x)2 k ∞ X k 2 xk = k=0 x(x + 1) , (1 − x)3 ... für |x| < 1. Gliedweises Integrieren der geometrischen Reihe liefert uns die Logarithmusreihe (vgl. §3.4.16 (m)) Z xX Z x ∞ ∞ Z x ∞ ∞ X X X 1 1 k 1 ln(1 − x) = dζ = ζ k dζ = ζ k dζ = xk+1 = x für x ∈] − 1, 1[. 1 − ζ k + 1 k 0 0 0 k=0 k=0 k=0 k=1 206 3 §6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE Uneigentliche Integrale 3.1 Worum geht es? Bisher können wir Funktionen nur über kompakte Intervalle [c, d] integrieren. Wir wollen dies nun auf halboffene Intervalle bzw. einseitig unbeschränkte Intervalle erweitern, anschließend auch auf offene und unbeschränkte. Insbesondere können wir dann geeignete Funktionen über die ganze reelle Achse integrieren. Es stellt sich heraus, dass die hierbei auftretenden Phänomene von ähnlicher Natur sind wie beim Übergang von endlichen Summen zu Reihen: wir müssen insbesondere zwischen bedingter und absoluter Konvergenz unterscheiden. 3.2 Erstes Beispiel. Für α 6= 1 und ξ > 0 gilt ξ Z ξ 1 1 1 1 1 1−α dx = → 1 − = x α α−1 x 1 − α α − 1 ξ α − 1 1 1 1 Z 1 1 1 1 1 1 dx = x1−α = 1 − α−1 → α 1−α 1−α ξ 1−α ξ x ξ für ξ → +∞ falls α > 1, für ξ → 0+ falls 0 < α < 1. Für α > 1 können wir also der Fläche unter dem Graphen von 1/xα für x ∈ [1, +∞[ die Maßzahl 1/(α−1) zuweisen, obwohl sich der Bereich ins Unendliche erstreckt. Gleiches gilt für 0 < α < 1 für die Fläche unter dem Graphen von 1/xα für x ∈]0, 1], der wir die Maßzahl 1/(1 − α) zuordnen können, obwohl sie sich längs der positiven y-Achse ins Unendliche erstreckt. Wir schreiben dann Z +∞ Z 1 1 1 1 1 dx = für α > 1, dx = für 0 < α < 1. α α x α − 1 x 1 − α 1 0 1 1 1 1 Abbildung 4.67: Zur Integration von 1/xα . 3.3 Zweites Beispiel. Für r > π gilt mit einer partiellen Integration Z r Z r sin x cos r cos x dx = −1 − − dx. x r x2 π π Rr Rr 1 x Wegen | cosr r | ≤ 1r → 0 und | 1 cos x2 dx| ≤ π x2 dx ≤ 1/π für r → +∞ existiert Z ∞ Z r sin x sin x dx := lim dx. r→+∞ x x π π Dagegen gilt Z r lim r→+∞ π sin x x dx = +∞. Schätzen wir nämlich wie in nachfolgender Abbildung skizziert das Integral über das Intervall [π, nπ] sin(k+ 12 )π 2 durch die Summe der Flächen von Dreiecken mit Grundlinienlänge π und Höhe | (k+ 1 )π | = (2k+1)π 2 durch Z nπ n X sin x 1 dx ≥ x 2k +1 π k=1 207 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 1 1 Z +∞ π Π Z sin x dx konvergiert x 2Π 3Π 4Π 5Π +∞ π 6Π Π Abbildung 4.68: Zur Integration von sin x x dx divergiert 2Π sin x x 3Π 4Π 5Π 6Π und | sinx x |. R +∞ ab, so folgt die Divergenz von π | sinx x | dx aus der Divergenz der harmonischen Reihe. R∞ R∞ Konvergenz von π sinx x dx und Divergenz von π | sinx x | dx stehen in vollständiger Analogie zur Konverk P∞ P∞ und Divergenz der harmonischen Reihe k=1 k1 . genz der alternierenden harmonischen Reihe k=1 (−1) k 3.4 Absolute und bedingte uneigentliche Integrierbarkeit. Ist I =]c, d[ mit −∞ ≤ c < d ≤ +∞ und ist f auf I definiert und über jedes kompakte Teilintervall von I im Sinne von §4.1.12 integrierbar, so nennen wir f auf I uneigentlich integrierbar , falls für ein ζ ∈ I die beiden Grenzwerte Z ζ Z ζ Z d Z δ f (x) dx := lim f (x) dx und f (x) dx := lim f (x) dx γ→c+ c γ δ→d− ζ ζ existieren. Wir setzen dann Z d Z f (x) dx := c ζ Z f (x) dx + c d f (x) dx. ζ Rd Existiert auch das uneigentliche Integral c |f (x)| dx, so heißt f auf I absolut uneigentlich integrierbar , andernfalls bedingt uneigentlich integrierbar . Wenn die beiden oben genannten Integrale für einen Teilpunkt ζ ∈ I konvergieren, so existieren sie beide für jeden Teilpunkt ζ ∈ I und ihre Summe ist jedesmal dieselbe. Man überlege selbst, warum das so ist. Anmerkung. Die obige Definition kann sowohl für halboffene oder offene wie auch für ein- oder zweiseitig unbeschränkte Integrationsintervalle verwendet werden. Grundlegend für uneigentliche Integrale ist aber die Integration über halboffene bzw. einseitig unbeschränkte Intervalle. Achtung. Bedingt uneigentlich integrierbare Funktionen muss man ähnlich vorsichtig behandeln wie bedingt konvergente Reihen. Beispiele. Die Funktion x 7→ 1/(1 + x2 ) ist über R absolut uneigentlich integrierbar mit Z +∞ 1 dx = π, 1 + x2 −∞ Rδ R0 da 0 1/(1+x2 ) dx = arctan δ → π/2 für δ → +∞ und γ 1/(1+x2 ) dx = − arctan γ → π/2 für γ → −∞. Dagegen ist x/(1 + x2 ) über R oder [1, +∞[ weder absolut noch bedingt uneigentlich integrierbar, da Z δ Z δ Z δ x x 1 1 dx ≥ dx = dx = ln δ → +∞ für δ → +∞. 2 2 + x2 1 + x x 2x 2 1 1 1 3.5 Integration über Singularitäten. Ist f auf [c, d] mit Ausnahme eines Punktes s ∈]c, d[ definiert Rs Rd und existieren die uneigentlichen Integrale c f (x) dx und s f (x) dx, so setzen wir Z d Z s−ε1 Z d Z d Z s f (x) dx := f (x) dx + f (x) dx = lim f (x) dx + lim f (x) dx c c s ε1 →0+ c ε2 →0+ s+ε2 208 §6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE R1 R1 R0 R1 Beispiel. −1 |x|−1/2 dx = 4, da 0 x−1/2 dx = 2 = −1 (−x)−1/2 dx nach 3.2. Dagegen existiert −1 1/x dx R1 nicht, da γ 1/x dx = − ln γ → +∞ für γ → 0+. Rc Achtung. Man hüte sich also davor, bei einer punktsymmetrischen Funktion f einfach −c f (x) dx = 0 zu folgern, wenn f nicht über ganz [−c, c] integrierbar ist oder wenn über R integriert wird. 3.6 Cauchy-Hauptwert. Manchmal kann es vorkommen, dass zwar nicht über eine Singularität s hinwegintegriert werden kann, dass aber der symmetrische Grenzwert ! Z s−ε Z d Z d f (x) dx + f (x) dx CH− f (x) dx := lim ε→0+ c c s+ε Rd existiert. Dann wird diese Zahl der Cauchy-Hauptwert des uneigentlichen Integrals c f (x) dx genannt. R1 R1 Beispiel. −1 1/x dx existiert nicht, wohl aber der Cauchy-Hauptwert CH− −1 1/x dx = 0, das folgt sofort aus der Punktsymmetrie des Integranden. 3.7 Majorantenkriterium für uneigentliche Integrierbarkeit. Genau dann ist f über I absolut uneigentlich integrierbar, wenn es eine über I integrierbare positive Funktion g gibt mit |f (x)| ≤ g(x) für alle x ∈ I. Dieses Kriterium ist ähnlich wichtig wie das Majorantenkriterium für absolut konvergente Reihen 1.§4.2.4. Den Beweis führe man selbst als Übung. 3.8 Wichtige Majoranten für die Praxis sind Z +∞ Z ∞ 1 −λa 1 1 e−λx dx = e für λ > 0, dx = für α > 1, α λ x α−1 a 1 Z +∞ Z 1 1 1 1 für 0 < α < 1. dx = π, dx = 2 α 1 + x x 1 − α −∞ 0 R +∞ 2 Beispiel. Das Integral −∞ e−x /2 dx konvergiert absolut. Eine Majorante wird abschnittsweise definiert durch g(x) := 1 für |x| ≤ 1 bzw. g(x) := e−|x|/2 für |x| > 1. Den Wert Z +∞ √ 2 e−x /2 dx = 2π −∞ können wir erst in 6.§2.3.5 durch einen Trick mit mehrdimensionaler Integration ausrechnen. 3.9 Grenzverhalten uneigentlich integrierbarer Funktionen. Ist f über [0, +∞[ uneigentlich integrierbar, so gilt Z +∞ lim f (x) dx = 0. c→+∞ c 0 1 Ist f eine C -Funktion und ist f ebenfalls über [0, +∞[ uneigentlich integrierbar, so gilt auch lim f (x) = 0. x→+∞ Analoge Aussagen gelten für die Integration über ] − ∞, 0]. R +∞ Rc Beweis. Aus 0 f (x) dx = limc→+∞ 0 f (x) dx folgt Z +∞ Z +∞ Z c f (x) dx = f (x) dx − f (x) dx → 0 c 0 für c → +∞. 0 Ist f eine C 1 -Funktion so folgt mit dem Hauptsatz die Existenz von Z x Z 0 lim f (x) = lim f (0) + f (t) dt = f (0) + x→+∞ x→+∞ 0 0 +∞ f 0 (t) dt. 209 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN Wäre dieser Grenzwert nicht 0, so würde R∞ f (x) dx nicht konvergieren. 0 Anmerkung. Um limx→+∞ f (x) = 0 zu erhalten genügt es nicht, dass f eine über [0, +∞[ uneigentlich integrierbare C 1 Funktion ist. Man betrachte dazu die skizzierte „Wolkenkratzerfunktion“, die wegen Z ∞ Z n+1 Z n 1 1 < f (x) dx = 2 2 k=1 k 0 k=1 k 2n 1 2n3 über [0, +∞[ integrierbar ist obwohl limx→+∞ f (x) nicht existiert. Durch Abrunden der Ecken lässt sich f in eine C 1 -Funktion mit demselben Grenzverhalten überführen. Abbildung 4.69: Eine uneigentlich über [0, +∞[ integrierbare Funktion, für die limx→+∞ f (x) nicht existiert. 3.10 Substitutionsregel für uneigentliche Integrale. Stellvertretend für die anderen Fälle führen wir die Substitionsregel mit dem Integrationsintervall [c, +∞[ vor. Ist f stetig, auf [γ, +∞[ absolut uneigentlich integrierbar und ist u eine C 1 -Funktion, die [c, +∞[ bijektiv und streng monoton steigend auf [γ, +∞[ abbildet (d.h. u(c) = γ, u0 > 0 und limx→+∞ u(x) = +∞), so gilt Z +∞ Z +∞ f (t) dt = f (u(x))u0 (x) dx. γ c Beweis. Die gewöhnliche Substitutionsregel §4.3.4 liefert für d > c zunächst Z u(d) d Z |f (u(x))|u0 (x) dx. |f (t)| dt = γ c Die R +∞linke Seite ist wegen der absoluten uneigentlichen Integrierbarkeit von f für beliebige d > c durch |f (t)| dt nach oben beschränkt. Dies ist dann auch eine Schranke für die rechte Seite. Damit ist γ (f ◦ u)u0 über [c, +∞[ absolut uneigentlich integrierbar. Mit limd→+∞ u(d) = +∞ folgt nun Z +∞ u(d) Z f (t) dt = lim γ Z f (t) dt = lim d→+∞ d→+∞ γ d f (u(x))u0 (x) dx = c Z +∞ f (u(x))u0 (x) dx. c 3.11 Partielle Integration bei uneigentlichen Integralen. Sind f und g zwei C 1 -Funktionen auf R und sind die drei Produktfunktionen f g, f g 0 und f 0 g über R uneigentlich integrierbar, so gilt +∞ Z 0 Z +∞ f (x)g (x) dx = − −∞ f 0 (x)g(x) dx. −∞ Für entsprechende Funktionen auf [0, +∞[ gilt analog +∞ Z f (x)g 0 (x) dx = −f (0)g(0) − 0 Z +∞ f 0 (x)g(x) dx. 0 Beweis. Gewöhnliche partielle Integration liefert zunächst Z d 0 Z f (x)g (x) dx = f (d)g(d) − f (c)g(c) − c d f 0 (x)g(x) dx. c Da (f g)0 = f g 0 + f 0 g über R integrierbar ist, impliziert 3.9 bei Integration über [0, +∞[ den Grenzwert limd→+∞ f (d)g(d) = 0, bei Integration über ] − ∞, +∞[ analog auch limc→−∞ f (c)g(c) = 0. 210 §6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE 3.12 Integralvergleichskriterium für Reihen. Ist f : [1, +∞[→ R nichtnegativ und monoton fallend, so existiert der Grenzwert ! Z n+1 n X lim f (k) − f (x) dx n→∞ 1 k=1 und ist eine Zahl im Intervall [0, f (1)]. Insbesondere ist die unendliche Reihe R +∞ konvergent, wenn das uneigentliche Integral 1 f (x) dx existiert. P∞ k=1 f (k) genau dann Beweis. Als monotone Funktion ist f integrierbar. Wegen f (k) ≥ f (x) ≥ f (k + 1) für x ∈ [k, k + 1] liefert die Monotonie des Integrals Z k+1 f (k) ≥ f (x) dx ≥ f (k + 1) für k ∈ N. k Daher ist die Folge der Zahlen an := n X Z n+1 f (k) − f (x) dx = 1 k=1 n X k=1 Z f (k) − ! k+1 f (x) dx k monoton wachsend, wegen 0 ≤ an ≤ f (1) − f (n + 1) ≤ f (1) beschränkt und damit nach dem Monotoniekriterium für Folgen 1.§2.8.3 konvergent. f (k) f (k + 1) 1 2 k k+1 Abbildung 4.70: Zum Beweis des Integralvergleichskriteriums. 3.13 Beispiele zum Integralvergleichskriterium. (a) Die verallgemeinerte harmonische Reihe ζ(s) := ∞ X 1 ks konvergiert für jedes s ∈]1, +∞[. k=1 R +∞ Das folgt aus dem Integralvergleichkriterium mit 1 x−s dx (für s ∈ N vgl. 1.§4.2.5 (b)). Die so definierte Funktion ζ : ]1, +∞[→ R wird Riemannsche Zeta-Funktion genannt. Aus der Euler-Produkt-Darstellung Y 1 für s > 1, ζ(s) = 1 − p−s p prim die man durch Ausmultiplizieren der Faktoren 1−p1 −s = 1 + p1s + p12s + · · · und Umordnung aus der Primfaktorzerlegung der natürlichen Zahlen erhält, kann man die Bedeutung der Zeta-Funktion für die Zahlentheorie erahnen. Dort wird die Zeta-Funktion zu einer Funktion ζ : C → C ∪ {∞} fortgesetzt. Die berühmte Riemannsche Vermutung besagt, dass alle „nichttrivialen“ Nullstellen der Zeta-Funktion Realteil 1/2 haben. Hieraus kann man Informationen über die Verteilung von Primzahlen ableiten. R∞ P∞ (b) Auch wenn weder die harmonische Reihe k=1 1/k noch das Integral 1 1/x dx konvergieren, so existiert nach dem Integralvergleichskriterium dennoch ! n X 1 lim − ln n =: γ. n→∞ k k=1 211 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 1/|ζ| im Komplexen 5 4 ζ im Reellen 10 8 6 4 2 0 3 2 1 -6 -5 -4 -3 -2 -1 1 2 3 4 5 400 300 200 0 6 1 -1 100 2 -2 3 4 0 Abbildung 4.71: Riemannsche Zeta-Funktion. Die so definierte Zahl γ = 0.577216 . . . wird Euler-Konstante genannt. Eine berühmte offene Vermutung besagt, dass γ keine rationale Zahl ist. Die Existenz des obigen Grenzwerts besagt also so langsam wie der Logarithmus. Pn 1 k=1 k ' ln(n) für n → ∞. Die harmonische Reihe divergiert 3.14 Die Gamma-Funktion wird definiert durch das uneigentliche Integral Z Γ(x) := ∞ tx−1 e−t dt für x > 0. 0 Die Konvergenz dieses beidseitig uneigentlichen Integrals muss natürlich nachgewiesen werden. Wir wählen zu x > 0 ein Intervall [c, d] mit x ∈]c, d[ und c > 0 und setzen ( tc−1 g(t) := d −t t e für t ∈]0, 1], für t ∈ [1, +∞[. R1 Nach 3.2 existiert 0 g(t) dt. Wegen tk = O(et ) für t → +∞ für jedes k > 0 gibt es ein C > 0 mit R +∞ |td e−t | = |t−2 td+2 e−t | ≤ C/t2 für t → +∞, was auch die Konvergenz von 1 g(t) dt liefert. Mit dem Majorantenkriterium 3.7 erhalten wir nun die Konvergenz des Integrals für die Gamma-Funktion. 3.15 Eigenschaften der Gamma-Funktion. (c) Γ(1) = 1, Γ(x + 1) = xΓ(x) für x > 0, insbesondere Γ(n + 1) = n! für n ∈ N. (d) Γ(1/2) = √ π. Beweis. Zu (c): Γ(1) = 1 ist klar. Für x > 0 erhalten wir durch partielle Integration gemäß 3.11 Z Γ(x + 1) = 0 +∞ +∞ tx |{z} e−t dt = tx e−t t=0 − |{z} ↓ ↑ Z +∞ xtx−1 (−e−t ) dt = x 0 Z +∞ tx−1 e−t dt = xΓ(x). 0 Durch Induktion nach n folgt nun Γ(n + 1) = n! für n ∈ N. Die Formel in (d) erhalten wir mit der Substitutionsregel 3.10 für t = x2 /2, Z Γ(1/2) = 0 ∞ t−1/2 e−t dt = √ Z 2 0 ∞ e−x 2 /2 1 dx = √ 2 Z dt dx +∞ −∞ e−x 2 /2 = x, gemäß 3.8 aus dx = √ π. 212 §6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE 8 Anmerkung. Für die Gamma-Funktion sind viele weitere Formeln bekannt. Ohne Beweis geben wir als Beispiel die Grenzwertdarstellung 7 6 5 n!nx n→∞ x(x + 1) · · · (x + n) Γ(x) = lim 4 3 an, welche die Gamma-Funktion nicht nur für x > 0 liefert, sondern auch auf x ∈ Rr{0, −1, −2, . . .} fortsetzt (vgl. [Kön, Band 1, 16]). Für x = 1/2 liefert dieser Grenzwert das Wallis-Produkt 2 √ 2n+1 n! n 2 π = Γ(1/2) = lim n→∞ 1 · 3 · · · (2n + 1) 2·24·4 2n · 2n = 2 lim ··· . n→∞ 1 · 3 3 · 5 (2n − 1) · (2n + 1) 2 1 -6 -5 -4 -3 -2 -1 1 2 3 4 5 -1 -2 -3 -4 -5 Abbildung 4.72: Graph der Gamma-Funktion. 4∗ Laplace-Transformation 4.1 Worum geht es? Die Laplace-Transformation erlaubt eine „Algebraisierung“ gewisser DGL: Aus einer DGL für die gesuchte Funktion wird eine Gleichung für deren Laplace-Transformierte. Wenn man die transformierte Gleichung lösen und die Lösung rücktransformieren kann, so erhält man eine Lösung der urspünglichen Gleichung. 4.2 Definition: Laplace-Transformierte. Ist f : [0, +∞[→ C integrierbar (das schließt wegen R ⊂ C natürlich auch Funktionen f : [0, +∞[→ R mit ein) und konvergiert für ein σ ∈ R das uneigentliche R +∞ RT Integral 0 f (t)e−σt dt absolut (d.h. existiert der Grenzwert limT →+∞ 0 |f (t)|e−σt dt), so zeigt das R +∞ Majorantenkriterium 3.7 die Konvergenz von 0 f (t)e−st dt für alle s > σ. Diese Vorüberlegung verwenden wir in der nun folgenden Definition. Eine Funktion f : [0, +∞[→ C heißt Laplace-transformierbar , wenn für ein s ∈ R das Laplace-Integral Z +∞ L[f ](s) := f (t)e−st dt 0 absolut konvergiert. In diesem Fall existiert eine kleinste Zahl σ ∈ R, so dass das Integral L[f ](s) für alle s ≥ σ absolut konvergiert. Die so definierte Funktion Z +∞ L[f ] : ]σ, +∞[→ C, L[f ](s) := f (t)e−st dt, 0 heißt Laplace-Transformierte von f , die Zahl σ wird Konvergenzabszisse von f genannt. Anmerkung. Um die Laplace-Transformierte zu definieren, muss man nicht unbedingt die absolute Konvergenz des Integrals L[f ](s) verlangen. Beweistechnisch wird aber vieles einfacher, und für die Praxis ist es meist nur wichtig, dass — und nicht wo — Konvergenz eintritt. 4.3 Zur Notation. Die Laplace-Transformation L ist ein Operator, d.h. eine Funktion, die Funktionen (eines bestimmten Typs — hier eben die Laplace-transformierbaren Funktionen) auf Funktionen abbildet. Ist f eine Laplace-transformierbare Funktion, so wird in unserer Notation deren Laplace-Transformierte mit L[f ] bezeichnet. Deren Funktionswert an der Stelle s ist dann L[f ](s). Sind keine Verwechslungen zu befürchten, so bezeichnet man die Laplace-Transformierte L[f ] von f auch gerne mit F und drückt die Korrespondenz zwischen beiden Funktionen durch eines der Symbole f (t) ◦ • F (s) bzw. F (s) • ◦ f (t) aus. Der gefüllte Kreis steht hierbei immer bei der Bildfunktion. 213 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 4.4 Einige einfache Laplace-Transformierte. (a) Die konstante Funktion f (t) = 1 für t ∈ R ist Laplace-transformierbar mit T Z +∞ Z T 1 e−sT 1 −e−st −st −st lim L[1](s) = e − = . dt = lim e dt = lim = T →+∞ T →+∞ T →+∞ s s s s 0 0 0 Die Laplace-Transformierte L[1](s) ist offensichtlich für s > 0 definiert. Also ist 0 die Konvergenzabszisse. (b) Für die Heaviside-Funktion ( 0 für t ∈] − ∞, 0[, H(t) := 1 für t ∈ [0, +∞[ aus §2.1.1 (d) und einen Parameter a ∈ R folgt im Fall a > 0 Z +∞ e−as L[H(t − a)](s) = e−st dt = s a Für a ≤ 0 erhalten wir L[H(t − a)](s) = L[1](s) = 1 s für s > 0. für s > 0. (c) Aus der Heaviside-Funktion kann man sich diverse Rechtecksfunktionen basteln. Für 0 ≤ a < b wird durch Wa,b (t) := H(t − a) − H(t − b) eine Funktion Wa,b : R → R mit ( 0 für t ∈] − ∞, a[∪[b, +∞[, Wa,b (t) = 1 für t ∈ [a, b[, definiert und wir erhalten L[Wa,b ](s) = L[H(t − a)](s) − L[H(t − b)](s) = 1 e−as − e−bs s für s > 0. 1 a b Abbildung 4.73: Graphen der Heaviside-Funktion H und einer Rechtecksfunktion Wa,b . 4.5 Verschiebung. Zu einer Funktion f : [0, +∞[ können wir die um a > 0 nach rechts verschobene Funktion ( f (t − a) für t ∈ [a, +∞[, fa : [0, +∞[→ R, fa (t) := 0 für t ∈ [0, a[, mit Hilfe der Heaviside-Funktion in der Form fa (t) = f (t − a)H(t − a) schreiben. Beispiel. Für f (t) = eat mit a ∈ C erhalten wir T Z +∞ 1 e(a−s)t at (a−s)t L[e ](s) = e dt = lim = T →+∞ a − s s−a 0 0 für s > Re(a), da das obige Integral wegen |e(a−s)t | = e(Re(a)−s)t für die angegebenen s konvergiert. 214 §6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE Für a ∈ R folgt wegen cosh(at) = (eat + e−at )/2 insbesondere 1 1 1 1 s L[cosh(at)] = L[eat ] + L[e−at ] = + = 2 2 2 s−a s+a s − a2 für s > max{a, −a} = |a|. Analog erhalten wir aus cos(at) = (eiat + e−iat )/2 dann 1 1 1 1 s L[eiat ] + L[e−iat ] = L[cos(at)] = + = 2 2 2 s − ia s + ia s + a2 für s > 0. 4.6 Rechenregeln. In den vorherigen Beispielen haben wir schon Rechenregeln für die Laplace-Transformation verwendet. Wir stellen die wichtigsten dieser Regeln, die wir sofort aus den Rechenregeln für Integrale §4.1.18 erhalten, zusammen. Sind f, g : [0, +∞[→ C Laplace-transformierbar, so gilt: (d) Linearitätssatz: Für beliebige λ, µ ∈ R gilt L[λf + µg] = λL[f ] + µL[g], d.h. λf (t) + µg(t) ◦ • λF (s) + µG(s). (e) Ähnlichkeitssatz: Für a > 0 gilt L[f (at)](s) = 1/aL[f (t)](s/a), d.h. f (at) ◦ • 1 s F ( ) für a > 0. a a (f) Dämpfungssatz: Für a ∈ R gilt L[eat f (t)](s) = L[f ](s − a). eat f (t) ◦ • F (s − a) für a ∈ R. (g) Verschiebungssatz: Für a > 0 gilt L[f (t − a)H(t − a)](s) = e−as L[f (t)](s). f (a − t)H(t − a) ◦ • e−as F (s). 4.7 Differentiationssatz für die Laplace-Transformation. Ist f : [0, +∞[→ C von der Klasse C k und zusammen mit allen Ableitungen f˙, f¨, . . . , f (k) Laplace-transformierbar, so gilt L[f˙](s) = sL[f ](s) − f (0), L[f¨](s) = s2 L[f ](s) − sf (0) − f˙(0), .. . L[f (k) ](s) = sk L[f ](s) − sk−1 f (0) − · · · − sf (k−2) (0) − f (k−1) (0). Beweis. Wir behandeln nur den Fall k = 1, an Rdem man alles Wesentliche erkennt. Ist f Laplace+∞ transformierbar, so impliziert die Konvergenz von 0 f (t)e−st dt insbesondere limT →+∞ f (t)e−st = 0 und wir erhalten mit einer partiellen Integration ! T Z T Z T f (t)e−st − L[f˙](s) = lim f˙(t) e−st dt = lim f (t)(−s)e−st dt T →+∞ T →+∞ |{z} |{z} 0 = ↑ ↓ Z +∞ 0 − f (0) + s 0 0 f (t)e−st dt = sL[f ](s) − f (0). 0 Anmerkung. Der Differentiationssatz bewirkt die eingangs geschilderte „Algebraisierung“. Bevor wir ihn zur Lösung von Anfangswertproblemen einsetzen, brauchen wir noch eine dritte Rechenregel und vorher eine neue Operation für Funktionen. 215 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 4.8 Faltung von Funktionen (Version für Laplace-Transformation). Existiert für zwei Funktionen f, g : [0, +∞[→ C das Integral Z t f (τ )g(t − τ ) dτ (f ∗ g)(t) := 0 für alle t ∈ [0, +∞[, so wird die hierdurch definierte Funktion f ∗ g : [0, +∞[→ C die Faltung von f und g genannt. 4.9 Faltungsatz für die Laplace-Transformation. Die Faltung verträgt sich mit der Laplace-Transformation ähnlich angenehm wie das Differenzieren. Sind f, g : [0, +∞[→ C Laplace-transformierbar, existiert die Faltung f ∗ g und ist selbige Laplace-transformierbar, so gilt L[f ∗ g](s) = L[f ](s)L[g](s). Der Faltungssatz lautet in prägnanter Form (f ∗ g)(t) ◦ • F (s)G(s). Beispiele. (h) Für f (t) = g(t) = 1 erhalten wir (f ∗ g)(t) = Rt 0 dτ = t und damit L[t](s) = L[1](s)2 = 1 s2 für s > 0. Durch eine Induktion folgt nun mit f (t) = tn und g(t) = 1 für n ∈ N0 in gleicher Fasson L[tn ](s) = n! sn+1 für s > 0. (i) Der Dämpfungssatz liefert für n ∈ N0 und a ∈ R dann sofort L[tn eat ](s) = n! (s − a)n+1 für s > a. 4.10 Die wichtigsten Laplace-Transformierten. Die bisherigen Beispiele illustrieren wie man durch Berechnung von einigen Laplace-Transformierten und Anwendung der Rechenregeln weitere erhält. Wir 216 §6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE fassen die gebräuchlichsten Laplace-Transformierten zusammen. f (t), t ∈ [0, +∞[ 1 tn , n ∈ N0 e−at , a∈R tn e−at , a ∈ R, n ∈ N0 cos(at), a∈R t cos(at), a∈R sin(at), a∈R t sin(at), a∈R e−at cos(bt), a, b ∈ R e−at sin(bt), a, b ∈ R F (s) = L[f ](s) 1 , s n! , sn+1 1 , s+a n! , (s + a)n+1 s , 2 s + a2 2 s − a2 , (s2 + a2 )2 a , s2 + a2 2as , (s2 + a2 )2 s+a , (s + a)2 + b2 b , (s + a)2 + b2 s>0 s>0 s > −a s > −a s>0 s>0 s>0 s>0 s > −a s > −a 4.11 Lösen von AWP durch Laplace-Transformation. Zur Lösung von Anfangswertproblemen des Typs x(n) = F (t, x, ẋ, . . . , x(n−1) ), x(0) = x0,1 , ẋ(0) = x0,2 , . . . , x(n−1) (0) = x0,n setzen wir die Laplace-Transformation nun wie folgt ein: Wir wenden auf beide Seiten der Differentialgleichung die Laplace-Transformation an und versuchen die Ableitungen mit Hilfe des Differentiationssatzes 4.7 zu ersetzen. Gelingt dies, so erhalten wir eine algebraische Gleichung für L[x]. Können wir diese Gleichung nach L[x] auflösen, so versuchen wir, die gefundene Darstellung ihrerseits als LaplaceTransformierte einer Funktion x̃ zu entlarven. Hierzu gehören Fingerspitzengefühl und gute Tabellen. Haben wir x̃ gefunden, so ist dies ein Kandidat für die Lösung unseres Anfangswertproblems. Da das geschilderte Verfahren viele Unwägbarkeiten hat, sollte man es rein formal (und damit unbelastet von Konvergenzfragen) einsetzen. Hat man einen Lösungskandidaten gefunden, so muss auf jeden Fall durch Einsetzen in die Differentialgleichung und Betrachten der Anfangswerte überprüft werden, ob wirklich eine Lösung gefunden wurde. Gegebenenfalls setze man zusätzlich den Existenz- und Eindeutigkeitssatz ein, um sicherzustellen, dass das Problem überhaupt eindeutig lösbar ist. Wir schließen dieses Abschnitt mit einigen Beispielen für dieses Vorgehen. 4.12 Beispiele. Das Anfangswertpoblem ẍ − 6ẋ + 9x = 0, x(0) = 1, ẋ(0) = 0, besitzt nach dem Existenz- und Eindeutigkeitssatz für DGL §5.1.7 eine eindeutige und auf ganz R definierte Lösung. Nach Laplace-Transformation mit x ◦ • X nimmt es die Form 0 = [s2 X(s) − sx(0) − ẋ(0)] − 6[sX(s) − x(0)] + 9X(s) = (s − 3)2 X(s) − s + 6 an, und wir erhalten für die Laplace-Transformierte nach Partialbruchzerlegung die Darstellung X(s) = s−6 −3 1 = + = −3L[te−3t ](s) + L[e−3t ](s) = L[(−3t + 1)e−3t ](s). (s − 3)2 (s − 3)2 s−3 KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN 217 Damit ist x(t) = (−3t+1)e−3t ein Lösungskandidat. Durch Einsetzen verifizieren wir, dass wir tatsächlich die Lösung gefunden haben. Auch das Anfangswertproblem ẍ + 4ẋ = cos(2t), x(0) = 0, ẋ(0) = 1, ist eindeutig (und auf ganz R) lösbar. Mit x ◦ • X erhalten wir 0 = [s2 X(s) − sx(0) − ẋ(0)] + 4[sX(s) − x(0)] − s s2 + s + 4 = s(s + 4)X(s) − , s2 + 4 s2 + 4 d.h. X(s) = = s2 + s + 4 1 1 4−s = − + 2 s(s + 4)(s + 4) 4s 5(s + 4) 20(s2 + 4) 1 1 1 L[1](s) − L[e−4t ](s) + L[2 sin(2t) − cos(2t)](s) 4 5 20 und haben als Lösungskandidaten x(t) = 1 1 1 1 −4t − e + sin(2t) − cos(2t) 4 5 10 20 gefunden. Die Funktion x entpuppt sich auch wirklich als Lösung. Fazit. Man beachte, dass die Laplace-Transformation angenehmerweise den üblichen Dreischritt beim Lösen inhomogener linearer Differentialgleichungen erspart (Bestimmung der allgemeinen Lösung der homogenen DGL, Variation der Konstanten zum Auffinden einer speziellen Lösung der inhomogenen DGL, Anpassen der Konstanten zur Befriedigung der Anfangsbedingungen). Lineare Differentialgleichungen mit konstanten Koeffizienten r-ter Ordnung können direkt gelöst werden (in den Beispielen war r = 2). 218 Kapitel 5 Lineare Algebra §1 1 Lineare Abbildungen, Vektorräume, Dimension Wovon handelt die lineare Algebra? 1.1 Lineare Gleichungen. Die lineare Algebra beschäftigt sich mit linearen Gleichungen L(v) = w verschiedenster Art. Bevor wir die Problemstellung allgemein formulieren, stellen wir einige Beispiele vor. (a) Lineare Gleichungssysteme, beispielsweise 4x1 + 2x2 − x3 = y1 , −x1 + x2 + 3x3 = y2 kurz L(~v ) = w ~ x1 mit ~v := x2 , x3 w ~ := y1 , y2 L(~v ) := 4x1 + 2x2 − x3 . −x1 + x2 + 3x3 Man bestimme für vorgegebene reelle (bzw. komplexe) Zahlen y1 , y2 alle reellen (bzw. komplexen) Lösungen x1 , x2 , x3 . (b) Schwingungsgleichung (vgl. 3.§3.1.23). Gesucht sind alle reellwertigen (bzw. komplexwertigen) C 2 Funktionen y mit y 00 + ay 0 + by = A cos(ωx). Auch diese Gleichung können wir mittels L(y) := y 00 + ay 0 + by und c(x) := A cos(ωx) in die Kurzform L(y) = c bringen. (c) Potentialgleichung. Für eine stetige Funktion f im Einheitskreis K1 = {(x, y) ∈ R2 | x2 + y 2 ≤ 1} bestimme man alle reellwertigen C 2 -Funktionen in zwei Variablen mit ∂2 ∂2 u(x, y) + 2 u(x, y) = f (x, y) für (x, y) ∈ K1 , 2 ∂x ∂y kurz ∆u = f. (d) Lineare Rekursionsgleichungen. Gesucht sind alle reellen Zahlenfolgen (an )n mit an+2 − an+1 − an = 0 für n ∈ N0 , kurz L((an )n ) = (0)n mit L((an )n ) := (an+2 − an+1 − an )n . (e) Gegeben ist eine Ursprungsebene E im R3 und ein Punkt ~y ∈ E. Für welche ~x ∈ R3 liefert die orthogonale Projektion PE (~x) von ~x auf E gerade ~y , d.h. wann gilt PE (~x) = ~y ? (f) Gegeben ist eine Zahl c ∈ R. Bestimme alle reellen Polynome vom Grad höchstens drei mit p(1) = c. Hier erklären wir L durch L(p) := a3 + a2 + a1 + a0 für p(x) = a3 x3 + a2 x2 + a1 x + a0 und suchen die Lösungen von L(p) = c. 219 KAPITEL 5. LINEARE ALGEBRA 1.2 Was haben diese Probleme gemeinsam? In allen Beispielen der Nummer 1.1 hatte die Abbildung L, ~v 7→ L(~v ), die Eigenschaft L(λ1~v1 + λ2~v2 ) = λ1 L(~v1 ) + λ2 L(~v2 ). Wenn wir das präzisieren wollen, so müssen wir uns an die Vektorraum-Definition, d.h. an die Begriffe „Vektor“, „Skalar“, „Addition von Vektoren“ und „Skalarmultiplikation“ aus 3.§3.1.2 erinnern. 1.3 Lineare Abbildung. Eine Abbildung L : V → W zwischen zwei Vektorräumen V und W über demselben Grundkörper K (für uns R oder C) heißt linear , falls L(λ1 v1 + λ2 v2 ) = λ1 L(v1 ) + λ2 L(v2 ) für alle v1 , v2 ∈ V und λ1 , λ2 ∈ K. Oft schreibt man bei linearen Abbildungen auch Lv statt L(v). Beispiele. Wir listen die Beispiele aus Nummer 1.1 auf. Man mache sich klar, welche Vektorräume als Definitions- bzw. Zielraum auftreten und was jeweils der gemeinsam Grundkörper ist. (a) lineare Abbildung 4x1 +2x2 −x3 L(x1 , x2 ) = −x 1 +x2 +3x3 (b) L(y) = y 00 + ay 0 + by (c) (d) (e) (f) L(u) = ∂x u + ∂y u L((an )n ) = (an+2 − an+1 − an )n L(~x) = PE (~x) (Projektion auf E) L(p) = p(1) Definitionsraum V → Zielraum W R3 →R2 C3 →C2 C 2 (R, R)→C 0 (R, R) (Funktionenräume) C 2 (R, C)→C 0 (R, C) (Funktionenräume) C 2 (K1 , R)→C 0 (K1 , R) (Funktionenräume) RN →RN (Folgenraum) R3 →R3 P3 (R)→R (reelle Polynome vom Grad ≤ 3) K R C R C R R R R Es empfielt sich, nochmal die Beispiele für Vektorräume aus 3.§3.1 nachzuschlagen — insbesondere für die Funktionen- und Folgenräume. 1.4 Vereinbarung. Wir lassen in diesem Kapitel bei Vektoren die Vektorpfeile weg, schreiben also v statt ~v . Für Vektoren verwenden wir meist lateinische Kleinbuchstaben wie u, v, w, für Skalare griechische Kleinbuchstaben wie λ, µ. Meist kann man leicht aus dem Zusammenhang erschließen, ob gerade ein Skalar oder ein Vektor gemeint ist. Man übe das zu Beginn, insbesondere bei der Null. (Ist es die Null im Grundkörper K = R oder K = C? Oder geht es um den Nullvektor? Wenn ja, in welchem Vektorraum?). Das Weglassen der Vektorpfeile spart Schreibarbeit und vermeidet gerade bei abstrakten Vektorräumen seltsam anmutende Darstellungen. Wer möchte eine Zahlenfolge mit (a~n )n statt (an )n bezeichnen, nur ~ weil man die Zahlenfolgen gerade als Folgenraum auffasst oder eine vektorwertige Funktion f~ mit f~, nur weil sie gerade als Vektor im Funktionenraum behandelt? 1.5 Einfache Eigenschaften linearer Abbildungen. Für jede lineare Abbildung L : V → W gilt: (g) L(0) = 0, (h) L(v1 + v2 ) = L(v1 ) + L(v2 ) für beliebige Vektoren v1 , v2 ∈ V , (i) L(λv) = λL(v) für beliebige Vektoren v ∈ V und Skalare λ ∈ K, Pn Pn (j) L( k=1 λk vk ) = k=1 λk L(vk ) für beliebige Vektoren v1 , . . . , vn ∈ V und Skalare λ1 , . . . , λn ∈ K. In (g) bezeichnet die erste Null den Nullvektor in V , die zweite den Nullvektor in W . Ausführlich geschrieben lautet die Gleichung also L(0V ) = 0W . Sie ergibt sich aus L(0V ) = L(0 · 0V ) = 0 · L(0V ) = 0W . Als Spezialfälle der Linearität von L erhält man (h) und (i), während (j) durch Induktion folgt. Die Gleichungen (h) und (i) besagen, dass sich eine lineare Abbildung mit der Vektoraddition und der Skalarmultiplikation in V und W verträgt: „Das Bild der Summe von Vektoren ist die Summe der Bildvektoren, das Bild des Vielfachen eines Vektors ist das entsprechende Vielfache des Bildvektors.“ 220 §1. LINEARE ABBILDUNGEN, VEKTORRÄUME, DIMENSION 1.6 Beispiele für lineare Abbildungen. Die einfachsten linearen Abbildungen sind der Nulloperator 0 : V → W , v 7→ 0, und die Identität id = idV : V → V , v 7→ v. Für D ⊂ R und V = C 1 (D), W = C 0 (D) ist der Ableitungsoperator d : f 7→ f 0 dx eine lineare Abbildung von V nach W . Der Differentialoperator der Schwingungsgleichung y 7→ L(y) = y 00 + ay 0 + by, C 2 (R) → C 0 (R) ist für vorgegebenen Konstanten a, b ebenfalls eine lineare Abbildung. Analog können weitere Differentialoperatoren gebildet werden. Für ein vorgegebenes Intervall I ist das Integral Z f 7→ f (x) dx, R(I) → R I eine lineare Abbildung vom Raum R(I) aller über I integrierbaren reellwertigen Funktionen in den Vektorraum R (aufgefasst als Vektorraum über sich selbst). 1.7 Lineare Operatoren und Funktionale sind Bezeichnungen für spezielle lineare Abbildungen. Von einem linearen Operator spricht man gerne, wenn bei einer linearen Abbildung Definitions- und Zielraum abstrakte Vektorräume wie beispielsweise die Funktionenräume C k sind. Ein lineare Funktional oder eine Linearform ist eine lineare Abbildung eines Vektorraums in seinen Grundkörper (aufgefasst als Vektorraum über sich selbst). Man vergleiche mit den Beispielen aus der vorangegangenen Nummer. 1.8 Problemstellungen. Für Probleme der Form L(v) = w mit einer linearen Abbildung L sind gemeinhin folgende Fragestellungen relevant: • Hat die Gleichung L(v) = w für vorgegebene rechte Seite w eine Lösung? • Wenn ja, ist diese eindeutig bestimmt? • Wenn nein, was lässt sich über die Lösungsgesamtheit aussagen? 1.9 Lineare Gleichungen: grundlegende Struktur der Lösungsmenge. Ist L : V → W eine lineare Abbildung zwischen zwei K-Vektorräumen V und W , so betrachten wir für vorgegebenes w ∈ W die • inhomogene Gleichung L(v) = w und die zugehörige • homogene Gleichung L(v) = 0. Ohne die Frage nach Lösbarkeit näher zu untersuchen, können wir über die Struktur des Lösungsraums {v ∈ V | L(v) = w} ganz allgemein folgendes aussagen: (k) Die homogene Gleichung L(v) = 0 besitzt immer die Lösung v = 0. Wir nennen sie die triviale Lösung. (l) Die Lösungen der homogenen Gleichung erfüllen das Superpositionsprinzip: sind v1 , v2 ∈ V Lösungen von L(v) = 0, so auch jede Linearkombination λ1 v1 + λ2 v2 . (m) Ist v0 eine spezielle Lösung der inhomogenen Gleichung L(v) = w, so erhalten wir sämtliche Lösungen in der Form v + v0 , wobei v die Lösungen der homogenen Gleichung durchläuft. KAPITEL 5. LINEARE ALGEBRA 221 1.10 Kern und Bild einer linearen Abbildung erklären wir durch Kern(L) Bild(L) := {v ∈ V | L(v) = 0}, := L(V ) = {w ∈ W | es gibt ein v ∈ V mit L(v) = w}. Dann gilt offensichtlich: (n) Kern(L) ist gerade die Lösungsmenge der homogenen Gleichung L(v) = 0. (o) Die inhomogene Gleichung L(v) = w ist genau dann lösbar, wenn w ∈ Bild(L). Mit Kern und Bild erhalten wir folgende grundlegende Aussagen über das Lösungsverhalten linearer Gleichungen. Man schlage zuvor ggf. die Begriffe „Unterraum“ und „Linearkombination“ in 3.§3.1 nach. 1.11 Eigenschaften von Kern und Bild. (p) Bild(L) ist ein Unterraum von W , während Kern(L) ein Unterraum von V ist. (q) Genau dann ist L injektiv, (d.h. L(v) = w hat immer höchstens eine Lösung), wenn Kern(L) = {0}. (r) Genau dann ist L surjektiv, (d.h. L(v) = w hat immer mindestens eine Lösung), wenn Bild(L) = W . Für den Beweis von (p) verwenden wir das Unterraumkriterium 3.§3.1.4 (eine Teilmenge eines Vektorraums ist ein Unterraum, wenn sie nichtleer ist und wenn sie mit zwei Vektoren auch jede Linearkombination enthält). Wegen L(0) = 0 sind weder Bild(L) noch Kern(L) leer. Gilt v1 , v2 ∈ Kern(L), d.h. L(v1 ) = 0 = L(v2 ), so folgt mit der Linearität L(λ1 v1 + λ2 v2 ) = λ1 L(v1 ) + λ2 L(v2 ) = 0 + 0 = 0, d.h. λ1 v1 + λ2 v2 ∈ Kern(L). Gilt w1 , w2 ∈ Bild(L), d.h. gibt es v1 , v2 ∈ V mit L(v1 ) = w1 und L(v2 ) = w2 , so folgt mit der Linearität λ1 w1 + λ2 w2 = L(λ1 v1 + λ2 v2 ) ∈ Bild(L). Während (r) sofort aus der Definition von Surjektivität folgt, ist (q) eine bemerkenswerte Eigenart linearer Abbildungen: Wenn die homogene Gleichung L(v) = 0 nur die triviale Lösung v = 0 besitzt, so ist die Lösung einer jeden zugehörigen inhomogenen Gleichung L(v) = w eindeutig, falls sie überhaupt lösbar ist. Sind nämlich v1 , v2 ∈ V zwei Lösungen, d.h. gilt L(v1 ) = w = L(v2 ), so folgt mit der Linearität L(v1 − v2 ) = L(v1 ) − L(v2 ) = w − w = 0. Hat die homogene Gleichung nur die triviale Lösung, so impliziert dies v1 = v2 . 1.12 Wie geht es weiter? Für die Behandlung linearer Gleichungen sind also Informationen über Kern und Bild der zugehörigen linearen Abbildung essentiell. Um diese Informationen in §3 zum Lösen linearer Gleichungssysteme einzusetzen, entwicklen wir in §2 u.a. den Matrizenkalkül. Um die in den Beispielen 1.1 auftretenden abstrakten Vektorräume mitbehandeln zu können, müssen wir aber zuvor noch unsere Kenntnisse über Vektorräume erweitern. Die restlichen Paragraphen dieses Kapitels sind dann fortgeschrittenen Betrachtungen (v.a. der Eigenwerttheorie und deren Anwendungen) gewidmet. 2 Basis und Dimension 2.1 Erinnerung: lineare Unabhängigkeit, Erzeugnis, Basis, Koordinaten (siehe 3.§3.1). Gegeben sind Vektoren v1 , . . . , vn aus einem K-Vektorraum V . (a) Die Vektoren v1 , . . . , vn heißen linear unabhängig, wenn der Nullvektor nur auf triviale Weise als Linearkombination dargestellt werden kann, d.h. aus λ1 v1 +· · ·+λn vn = 0 folgt immer λ1 = . . . = λn = 0. (b) Die Vektoren v1 , . . . , vn erzeugen V , wenn jeder Vektor v ∈ V als Linearkombination dargestellt werden kann, d.h. es gibt Skalare λ1 , . . . , λn ∈ K mit λ1 v1 + · · · + λn vn = v (kurz Span(v1 , . . . , vn ) = V ). (c) Die Vektoren v1 , . . . , vn bilden eine Basis von V , wenn sie V erzeugen und linear unabhängig sind. Dann kann jeder Vektor v ∈ V in eindeutiger Weise als Linearkombination v = λ1 v1 +· · ·+λn vn dargestellt werden und wir nennen das n-Tupel vB = (λ1 , . . . , λn ) ∈ Kn den Koordinatenvektor von v bezüglich der Basis B = (v1 , . . . , vn ) von V (und hätten selbigen streng genommen nicht als Zeilenvektor sondern als Spaltenvektor schreiben müssen). 222 §1. LINEARE ABBILDUNGEN, VEKTORRÄUME, DIMENSION Beispiele. Wir zeigen, dass die drei Vektoren 0 1 1 v1 = , v2 = 0 , 1 1 1 v 3 = 1 0 Eine Basis des R3 bilden. Die Vektoren sind linear unabhängig. Aus λ2 + λ3 0 λ1 v1 + λ2 v2 + λ3 v3 = λ1 + λ3 = 0 λ1 + λ2 0 folgt nämlich durch Addieren aller drei Spalten λ1 + λ2 + λ3 = 0, anschließend durch Subtrahieren der drei Spalten λ1 = λ2 = λ3 = 0. Die drei Vektoren erzeugen auch den R3 . Setzen wir zu vorgegebenem y1 v = y2 ∈ R3 y3 nämlich y1 − y2 + y3 y1 + y2 − y3 −y1 + y2 + y3 , λ2 := , λ3 := , 2 2 2 so erhalten wir nach kurzem Nachrechnen tatsächlich λ1 v1 +λ2 v2 +λ3 v3 = v. Insbesondere hat v = (4, 1, 1) bezüglich der Basis B = (v1 , v2 , v3 ) die Koordinaten vB = (−1, 2, 2). λ1 := Man überlege sich selbst, dass diese drei Vektoren auch eine Basis des C3 bilden. Nun betrachten wir die drei Polynome p1 (x) := x2 + x, p2 (x) := x2 + 1, p3 (x) := x + 1. Wir wollen zeigen, dass diese drei Polynome eine Basis des Vektorraums P2 (R) der Polynome vom Grad höchstens zwei mit reellen Koeffizienten bilden. Die Vektoraddition in diesem Vektorraum ist die Addition von Funktionen, die Skalarmultiplikation die Multiplikation mit einer reellen Zahl. (Letztlich liegt ein Unterraum des Funktionenraums F(R, R) vor.) Die drei Polynome e0 (x) := 1, e1 (x) := x, e2 (x) := x2 bilden offensichtlich eine Basis B = (e0 , e1 , e2 ) von P2 (R). Jedes Polynom p(x) = a2 x2 + a1 x + a0 lässt sich eindeutig als Linearkombination p = a0 e0 + a1 e1 + a2 e2 , d.h. p(x) = a0 + a1 x + a2 x2 für x ∈ R darstellen, hat also bezüglich B die Koordinaten pB = (a0 , a1 , a2 ). (Die Existenz der Darstellung ist klar, die Eindeutigkeit wird letztlich durch den Identitätssatz für Polynome 2.§3.1.9 begründet.) Bezüglich der Basis B = (e0 , e1 , e2 ) des P2 (R) haben die Polynome p1 , p2 , p3 gerade die Vektoren v1 , v2 , v3 als Koordinatenvektoren. Wenn wir also zeigen wollen, dass auch B 0 = (p1 , p2 , p3 ) eine Basis des P2 (R) ist, so haben wir letztlich dieselbe Rechenarbeit wie zuvor. Verständnisfrage: Welche Koordinaten hat das Polynom p(x) := x2 +x+4 bezüglich B bzw. bezüglich B 0 ? 2.2 Vektorraum der Polynome vom Grad höchstens n. Die Polynome vom Grad höchstens n mit reellen Koeffizienten bilden mit der punktweisen Addition und der Multiplikation mit reellen Zahlen einen R-Vektorraum Pn (R). Lassen wir komplexe Koeffizienten zu, so erhalten wir den C-Vektorraum Pn (C). Die Monome e0 (x) := 1, e1 (x) := x, e2 (x) := x2 , ..., en (x) := xn bilden eine Basis B = (e0 , e1 , . . . , en ) dieser beiden Vektorräume. Das besagt der Identitätssatz für Polynome 2.§3.1.9: jedes Polynom p(x) = an xn + · · · + a1 x + a0 hat die eindeutige Darstellung p = a0 e0 + a1 e1 + · · · + an en mit den Koordinaten pB = (a0 , a1 , . . . , an ). 223 KAPITEL 5. LINEARE ALGEBRA 2.3 Vektorraum aller Polynome. Die eben eingeführten Monome e0 , e1 , . . . bilden eine Basis des R-Vektorraums P(R) aller Polynome mit reellen Koeffizienten (bzw. des C-Vektorraums P(C) aller Polynome mit komplexen Koeffizienten). Jedes Polynom lässt sich als Linearkombination aus endlich vielen dieser Monome darstellen. Um alle Polynome von beliebigen Grad darzustellen, benötigen wir allerdings auch alle Monome. Einem Polynom p(x) = an xn + · · · + a1 x + a0 entspricht bezüglich dieser Basis B = (e0 , e1 , . . .) eine Koordinatenfolge pB = (a0 , a1 , . . . , an , 0, 0, . . .). 2.4 Dimension eines Vektorraums. Der Dimensionsbegriff beruht auf dem folgenden Satz. Besitzt ein Vektorraum V eine Basis aus n Vektoren, so besteht auch jede andere Basis aus n Vektoren. Die somit von der gewählten Basis unabhängige Anzahl der Basisvektoren n ist eine Kennzahl (pompöser gesagt: eine Invariante) des Vektorraums V . Wir nennen sie die Dimension von V und schreiben dim V = n. Für den Nullraum V = {0} setzen wir dim V = 0. Hat ein Vektorraum keine endliche Basis, so sprechen wir von einem unendlichdimensionalen Vektorraum. Mit Hilfe eines grundlegenden Werkzeugs der Mengenlehre (dem Zornschen Lemma) kann man zeigen, dass jeder Vektorraum eine Basis besitzt. Wir beschäftigen uns hier aber vornehmlich mit endlichdimensionalen Vektorräumen. Dann ergibt sich der obige Satz unmittelbar aus der folgenden Aussage. Ist v1 , . . . , vn ein Erzeugendensystem von V und sind u1 , . . . , um ∈ V linear unabhängig, so gilt m ≤ n. Beweis∗ . Wir zeigen äquivalente Aussage: Gilt Span(v1 , . . . , vn ) = V , so sind u1 , . . . , um ∈ V linear abhängig falls m > n. Den Fall u1 = . . . = um = 0 können wir sofort erledigen: 1u1 + · · · + 1um = 0 ist dann eine nichttriviale Linearkombination. Für das Weitere können wir also zusätzlich annehmen, dass mindestens einer der Vektoren u1 , . . . , um , etwa u1 , nicht der Nullvektor ist, und zeigen durch Induktion nach n, dass für m > n immer eine nichttriviale Linearkombination existiert. Induktionsverankerung bei n = 1: Ist V = Span(v1 ) und sind u1 , . . . , um ∈ V , m > 1, so gibt es Skalare λ1 , . . . , λm mit uk = λk vk , k = 1, . . . , m. Ist u1 6= 0, so gilt auch λ1 6= 0 und damit λ2 u1 − λ1 u2 = λ2 λ1 v1 − λ1 λ2 v1 = 0v1 = 0. Wir haben also eine nichttriviale Linearkombination gefunden. Induktionsschritt n → n + 1: In V = Span(v1 , . . . , vn , vn+1 ) seien u1 , . . . , um+1 ∈ V , m + 1 > n + 1, gegeben. Dann gibt es Skalare λk,l mit uk = λk,1 v1 + · · · + λk,n+1 vn+1 für k = 1, . . . , m + 1. Durch Umnummerieren können wir λ1,1 6= 0 erreichen. Die m Vektoren wl := ul − n+1 X λ1,1 λk,l − λk,1 λ1,l λl,1 u1 = vk , λ1,1 λ1,1 l = 2, . . . , m + 1, k=1 liegen in Span(v2 , . . . , vn+1 ), da der Koeffizient bei v1 verschwindet und es gilt m > n. Nach Induktionsvoraussetzung sind w2 , . . . , wm+1 linear abhängig, d.h. es gibt Skalare µ2 , . . . , µm+1 , nicht sämtliche Null, mit m+1 m+1 m+1 m+1 X X X 1 X λl,1 0= µl wl = µl ul − u1 = µl ul mit µ1 := − µl λl,1 . λ1,1 λ1,1 l=2 l=2 l=1 l=2 Also sind auch u1 , . . . , um+1 linear abhängig. 2.5 Dimensionen wichtiger Vektorräume. Wir erhalten sofort dim Rn = dim Cn = n, dim Pn (R) = dim Pn (C) = n + 1, Dagegen sind die Folgenräume RN und RN ebenso wie die Polynomräume P(R) und P(C) sowie alle Funktionenräume C k (D) unendlichdimensional. (Bei den Funktionenräumen muss allerdings der Definitionsbereich D unendlich viele Elemente enthalten. Warum?) 224 §1. LINEARE ABBILDUNGEN, VEKTORRÄUME, DIMENSION 2.6 Basisergänzungssatz. Ist v1 , . . . , vn ein Erzeugendensystem von V und sind u1 , . . . , um linear unabhängige Vektoren in V , die keine Basis von V bilden, so lassen sich die u1 , . . . , um durch Hinzunahme geeigneter vk zu einer Basis von V ergänzen. Diesen Satz beweisen wir zusammen mit dem folgenden. Beide Sätze sind zusammen mit der Invarianz der Dimension grundlegend für alle weiteren Schlüsse der endlichdimensionalen linearen Algebra. 2.7 Basisaustauschsatz. Besitzt der Vektorraum V 6= {0} ein endliches Erzeugendensystem v1 , . . . , vn , so lässt sich aus diesem eine Basis für V auswählen. Beweis. Für 2.6 sei U = {u1 , . . . , um } und M = {u1 , . . . , um , v1 , . . . , vn }. Wir betrachten alle Mengen S mit U ⊆S⊆M und V = Span S. Dann ist M selbst solch eine Menge und unter all diesen Mengen gibt es (dank des Wohlordnungsprinzips 1.§1.5.6) eine Menge S0 mit kleinster Elementanzahl. Wir zeigen nun, dass die Vektoren von S0 linear unabhängig sind: Wäre ein vk ∈ S0 Linearkombination der restlichen Vektoren aus S0 , so wäre S0 nicht minimal. Wäre ein ul ∈ S0 Linearkombination der übrigen Vektoren aus S0 , so müsste dabei irgend ein vk einen nichtverschwindenden Koeffizienten haben, da u1 , . . . , um linear unabhängig sind. Dieses vk wäre dann Linearkombination der restlichen Vektoren von S0 , was wir aber zuvor schon ausgeschlossen haben. Damit ist S0 ein linear unabhängiges Erzeugendensystem, d.h. eine Basis. Für 2.7 wiederholen wir dieses Argument mit U = ∅ und M = {v1 , . . . , vn }. 2.8 Folgerungen. (d) In einem n-dimensionalen Vektorraum bilden je n linear unabhängige Vektoren eine Basis. (e) In einem n-dimensionalen Vektorraum bildet jedes Erzeugendensystem aus n Vektoren eine Basis. (f) Ist U ein Unterraum eines n-dimensionalen Vektorraums V mit dim U = n, so gilt U = V . Die Aussagen (d) und (e) ergeben sich unmittelbar aus dem Basisergänzungssatz 2.6 und dem Basisaustauschsatz 2.7. Mit ihnen lässt sich die Arbeit beim Basisnachweis in endlichdimensionalen Vektorräumen halbieren: statt des Nachweises von linearer Unabhängigkeit und Erzeugen genügt nur die Verifikation einer dieser beiden Eigenschaften zusammen mit einem Zählargument. Ist in (f) nun C = (w1 , . . . , wn ) eine Basis für U und B = (v1 , . . . , vn ) eine Basis von V , so wäre im Fall eines echten Unterraums C keine Basis für V , ließe sich also durch Hinzunahme geeigneter vk zu einer Basis von V ergänzen. Dann wäre aber dim V > n. 2.9 Dimensionsformel für lineare Abbildungen. Ist L : V → W eine lineare Abbildung auf einem endlichdimensionalen Vektorraum V mit dim V = n, so gilt dim Bild(L) + dim Kern(L) = n. Die Dimensionen des Bildraums bzw. des Kerns werden auch Rang bzw. Defekt genannt und mit rg(L) bzw. def(L) bezeichnet. Die Dimensionsformel lautet dann rg(L) + def(L) = n. Der Defekt gibt an, wie sehr L von der Injektivität abweicht, der Rang misst, wie „groß“ der Wertebereich von L ist (vgl. 1.11). Die Dimensionsformel ist fundamental für die Theorie linearer Gleichungssysteme. Beweis. Im Fall L = 0 ist Kern(L) = V und rg(L) = dim{0} = 0. Damit stimmt die Dimensionsformel. Für das Weitere können wir L 6= 0 annehmen und setzen m := def(L). Wegen L 6= 0 gilt m < n. Im Fall m > 0 wählen wir eine Basis (v1 , . . . , vm ) für Kern(L) und ergänzen sie mit 2.6 zu einer Basis (v1 , . . . , vm , vm+1 , . . . , vn ) von V . Im Fall m = 0 wählen wir irgend eine Basis (v1 , . . . , vn ) von V . Wir zeigen nun, dass (L(vm+1 ), . . . , L(vn )) eine Basis für Bild(L) ist. Da diese aus n−m Vektoren besteht, ist dann die Dimensionsformel bewiesen. 225 KAPITEL 5. LINEARE ALGEBRA Es gilt Bild(L) = Span(L(vm+1 ), . . . , L(vn )): Die Inklusion „⊇“ ist klar. Für die Inklusion “⊆“ betrachten wir ein w ∈ Bild(L), d.h. w = L(v) mit einem v = λ1 v1 + . . . + λn vn ∈ V . Wegen L(vk ) = 0 für k = 1, . . . , m gilt dann w = L(v) = L(λ1 v1 + · · · + λn vn ) = λ1 L(v1 ) + · · · + λm L(vm ) +λm+1 L(vm+1 ) + · · · + λn L(vn ) | {z } =0 = L(λm+1 vm+1 + · · · + λn vn ) ∈ Span(L(vm+1 ), . . . , L(vn )). Die L(vm+1 ), . . . , L(vn ) sind linear unabhängig: Gilt λm+1 L(vm+1 ) + · · · + λn L(vn ) = 0, so setzen wir v := λm+1 vm+1 + · · · + λn vn und erhalten aus der Linearität von L dann L(v) = 0, d.h. v ∈ Kern(L). Im Fall m = 0 folgt v = 0, d.h. λm+1 vm+1 + · · · + λn vn = 0 und dann mit der linearen Unabhängigkeit der vk auch λm+1 = . . . = λn = 0. Im Fall m > 0 gibt es Skalare λ1 , . . . , λm mit v = λ1 v1 + · · · + λm vm , d.h. 0 = v − v = λ1 v1 + · · · + λm vm − λm+1 vm+1 − · · · − λn vn , was wieder λ1 = . . . = λn = 0 impliziert. 2.10 Bijektive lineare Abbildungen. Für eine lineare Abbildung L : V → W zwischen zwei endlichdimensionalen Vektorräumen V und W mit dim V = n und dim W = m impliziert die Dimensionsformel 2.9 zusammen mit 1.11 L injektiv ⇔ def(L) = 0 ⇔ rg(L) = n, ⇔ rg(L) = m ⇔ def(L) = n − m. L surjektiv Damit L bijektiv ist, muss also m = n gelten. Dann impliziert aber die Injektivität bemerkenswerterweise schon die Sujektivität und umgekehrt. (g) Eine lineare Abbildung L ∈ L(V, W ) kann nur dann umkehrbar sein, wenn dim V = dim W . (h) Sind V und W endlichdimensional mit dim V = dim W , so gilt für eine lineare Abbildung L ∈ L(V, W ): L ist bijektiv ⇔ L ist injektiv ⇔ L ist surjektiv. Anmerkung. Für unendlichdimensionale Vektorräume ist (h) nicht mehr richtig. Beispielsweise ist der Differentiationsoperator auf P(R) zwar surjektiv (jedes Polynom kann als Ableitung eines Polynoms dargestellt werden) aber nicht injektiv (alle Polynome mit demselben konstanten Koeffizienten haben dieselbe Ableitung). §2 1 Lineare Abbildungen und Matrizen Umgang mit linearen Abbildungen 1.1 Rechnen mit linearen Abbildungen. Sind V und W zwei K-Vektorräume und L1 , L2 : V → W zwei lineare Abbildungen so ist für λ1 , λ2 ∈ K auch λ1 L1 + λ2 L2 : V → W, v 7→ λ1 L1 (v) + λ2 L2 (v) eine lineare Abbildung. (Warum?) Damit bilden die linearen Abbildungen V → W ihrerseits einen KVektorraum. Diesen Vektorraum nennt man auch Raum der Homomorphismen von V nach W und bezeichnet ihn mit Hom(V, W ) oder L(V, W ). Gilt V = W , stimmen also Bild- und Zielraum überein, so schreiben wir End(V ) oder L(V ) statt Hom(V, V ). Derartige lineare Abbildungen werden auch Endomorphismen genannt. Ist U ein weiterer K-Vektorraum, so können wir für K ∈ L(U, V ) und L ∈ L(V, W ) die Verkettung L ◦ K bilden und erhalten eine lineare Abbildung aus L(U, W ). Statt L ◦ K schreibt man auch LK. 226 §2. LINEARE ABBILDUNGEN UND MATRIZEN 2 d d 00 0 Beispiel. Der Differentialoperator L = dx 2 + a dx + b id, L(y) = y + ay + by, der Schwingungsgleichung 2 d d entsteht durch Linearkombination der drei Differentialoperatoren dx 2 , dx , id (zweimaliges, einmaliges Differenzieren, bzw. die Funktion unverändert lassen). Die rekursive Definition höherer Ableitungen, z.B. d2 d d d dx2 = dx dx können wir als Verkettung des Ableitungsoperators dx mit sich selbst auffassen. 1.2 Was geschieht? Wir führen nun den Matrizenkalkül ein, der es uns erlaubt, lineare Abbildungen und das Rechnen mit ihnen effizient und elegant zu beschreiben, sofern wir in den zu Grunde liegenden Vektorräumen Basen gewählt haben. Achtung. Die Tatsache, dass ein Vektorraum mehrere Basen besitzt, wird dabei zunächst etwas gewöhnungsbedürftige Konsequenzen haben, die sich aber gerade im Hinblick auf die Anwendungen im Alltag als nützliches Mittel bei der Suche nach einer eleganten Beschreibung von Anwendungsproblemen herausstellen. 2 Darstellung linearer Abbildungen durch Matrizen 2.1 Beschreibung einer linearen Abbildung nach Wahl von Basen. Die folgenden beiden Beobachtungen sind grundlegend für den Matrizenkalkül. (a) Ist (v1 , . . . , vn ) eine Basis von V , so ist eine lineare Abbildung L ∈ L(V, W ) durch die Kenntnis der Bildvektoren L(v1 ), . . . , L(vn ) eindeutig festgelegt. (b) Zu vorgegebenen Vektoren w1 , . . . , wn ∈ W gibt es genau eine lineare Abbildung L ∈ L(V, W ) mit L(v1 ) = w1 , . . . , L(vn ) = wn . Beweis. Zu (a): Hat v ∈ V die Basisdarstellung v = λ1 v1 + · · · + λn vn mit Skalaren λ1 , . . . , λn ∈ K, so gilt wegen der Linearität L(v) = λ1 L(v1 ) + · · · + λn L(vn ). Zu (b): Für v ∈ V mit Basisdarstellung v = λ1 v1 + . . . + λn vn erklären wir L(v) := λ1 w1 + · · · + λn wn . Dann gilt insbesondere L(vk ) = wk . Man rechnet leicht nach, dass L dann linear ist. Anmerkung. Nach (a) sind lineare Abbildungen eigentlich langweilig. Normalerweise ist eine Abbildung L : V → W erst dann eindeutig festgelegt, wenn wir für jedes v ∈ V das Bild L(v) angegeben haben. Ist L aber linear (und dim V = n endlich), so genügt die Kenntnis der Bilder von n Basisvektoren. 2.2 Darstellungsmatrix einer linearen Abbildung nach Wahl von Basen. Gilt dim V = n, dim W = m, so wählen wir Basen B = (v1 , . . . , vn ) für V und C = (w1 , . . . , wm ) für W . Zur Beschreibung einer linearen Abbildung L : V → W genügt gemäß 2.1 die Angabe von L(v1 ), . . . , L(vn ). Diese Vektoren besitzen bezüglich der Basis C von W Basisdarstellungen L(vk ) = m X aj,k wj , k = 1, . . . , n. j=1 Die somit eindeutig bestimmten Koeffizienten aj,k ∈ K, j = 1, . . . , m, k = 1, . . . , n, ordnen wir zu einem rechteckigen Schema a1,1 · · · a1,n .. .. . aj,k . am,1 · · · am,n an, nennen dieses Schema (Darstellungs-)Matrix von L bezüglich der Basen B und C und bezeichnen es mit MBC (L). 227 KAPITEL 5. LINEARE ALGEBRA Bei fest gewählten Basen B und C von V bzw. W lassen wir deren Angabe weg und schreiben einfach a1,1 · · · a1,n .. = (a )k=1,...,n oder kurz (aj,k ). A = ... j,k j=1,...,m a . j,k am,1 ··· am,n Im letzten Fall muss man sich die Abmessungen der Matrix selbst zurecht legen. Wir nennen A eine (m×n)-Matrix mit m Zeilen und n Spalten, j den Zeilenindex und k den Spaltenindex . Gewöhnlich wird in A = (aj,k ) immer zuerst der Zeilenindex angegeben („Zeile zuerst, Spalte später“). Die aj,k heißen Koeffizienten, Komponenten oder Einträge der Matrix A. Die k-te Spalte von A = MBC (L) enthält die Koordinaten des Bildes L(vk ) des k-ten Basisvektors vk unter L a1,1 · · · a1,n .. = (L(v ) , . . . , L(v ) ), MBC (L) = ... 1 C n C . L(vk )C = am,1 · · · a1,k .. . , am,n L(vk ) = a1,k w1 + · · · + an,k wm . am,k Die Menge der (m × n)-Matrizen mit reellen (bzw. komplexen) Koeffizienten bezeichnen wir mit Rm×n (bzw. Cm×n ). Beispiel. Die Nullabbildung 0 ∈ L(V, W ), v 7→ 0, besitzt als Darstellungsmatrix MBC (0) bezüglich eines jeden Basispaars B von V und C von W die Nullmatrix 0 ··· 0 0m,n := ... . . . ... = (0)k=1,...,n j=1,...,m . 0 ··· 0 Oft schreiben wir einfach 0 statt 0m,n und haben damit schon wieder eine neue 0 eingeführt. 2.3 Quadratische Matrizen. Im Fall V = W können wir — müssen aber nicht — in Definitions- und Zielraum dieselbe Basis B wählen. Haben wir das getan, so schreiben wir MB (L) statt MBB (L). Beispiele. Zur identischen Abbildung id Einheitsmatrix 1 0 En := . .. 0 ∈ L(V ), x 7→ x, gehört bezüglich jeder Basis B von V die 0 ··· 0 1 · · · 0 k=1,...,n .. . . .. = (δj,k )j=1,...,n . . . . 0 ··· 1 Meist schreiben wir einfach E statt En . Weitere Beispiele für quadratische Matrizen sind Drehmatrizen in der Ebene 3.§2.6.1 und im Raum 3.§4.3.4. Achtung. Wählen wir für id : R2 → R2 im Definitionsraum R2 die Standardbasis B = (e1 , e2 ), aber im Bildraum R2 die Basis C = (e2 , e1 ) (das ist eine andere Basis, da sie sich von B in der Reihenfolge der Basisvektoren unterscheidet), so erhalten wir als Darstellungsmatrix MBC (id) = 01 10 6= E2 . Einfache lineare Abbildungen können also bei „ungeschickter“ Basiswahl komplizierte Darstellungen bekommen. Umkehrt werden wir bald lernen, dass komplizierte lineare Abbildungen bei geeigneter Basiswahl einfache Darstellungen bekommen. Das ist u.a. der Trick bei der Hauptachsentransformation §6.4. 228 §2. LINEARE ABBILDUNGEN UND MATRIZEN 2.4 Darstellungsmatrizen von Linearformen. Für eine Linearform L ∈ L(V, K) wählen wir eine Basis B = (v1 , . . . , vn ) von V und die Zahl 1 als Basis K des eindimensionalen Vektorraums K. Dann hat L die (1 × n)-Matrix (Zeilenmatrix ) MBK (L) = (a1,1 , . . . , a1,n ) = (L(v1 ), . . . , L(vn )) ∈ R1×n als Darstellungsmatrix. Ist V ein R-Vektorraum und hat v die Basisdarstellung v = x1 v1 + · · · + xn vn , so können wir das mit dem Koordiantenvektor x := vB von v bezüglich B auch als Skalarprodukt schreiben: L(v) = L(x1 v1 + · · · + xn vn ) = x1 L(v1 ) + · · · + xn L(vn ) = a1,1 x1 + · · · + a1,n xn = hx|ai = hvB |ai. Umgekehrt ist jede Abbildung v 7→ hvB |ai, v ∈ V , eine Linearform auf V . Die Linearformen eines ndimensionalen R-Vektorraums können nach Wahl einer Basis durch Vektoren mit n reellen Einträgen dargestellt werden. Das stimmt mit analoger Begründung auch für Linearformen eines C-Vektorraums, sobald wir in §6.2.1 auch dort ein Skalarprodukt erklärt haben. 2.5 Berechnen des Bildvektors. Für eine lineare Abbildung L ∈ L(V, W ) mit Darstellungsmatrix MBC (L) = A = (aj,k ) ∈ Km×n bezeichnen wir die Koordinaten eines Vektors v ∈ V und seines Bildvektors w = L(v) ∈ W mit x1 y1 vB =: x = ... , wC = L(v)C =: y = ... . xn ym In Koordinatenschreibweise liest sich L(v) = w wegen L(v) = L(x1 v1 + x2 v2 + · · · + xn vn ) = x1 L(v1 ) + x2 L(v2 ) + · · · + xn L(vn ) = x1 a1,1 w1 + x1 a2,1 w2 + · · · + x1 am,1 wm +x2 a1,2 w1 + x2 a2,2 w2 + · · · + x2 am,2 wm .. . +xn a1,n w1 + xn a2,n w2 + · · · + xn am,n wm = (a1,1 x1 + a1,2 x2 + · · · + a1,n xn )w1 +(a2,1 x1 + a2,2 x2 + · · · + a2,n xn )w2 .. . +(am,1 x1 + am,2 x2 + · · · + am,n xn )wm = y1 w1 + y2 w2 + · · · + ym wm komponentenweise als n X aj,k xk = yj , j = 1, . . . , m. k=1 oder knapp in Einsteinscher Summenkonvention als aj,k xk = yj . Wir fassen diese Gleichungen in Kurzform zusammen zu Ax = y und haben damit allgemein eine Matrix-Vektor-Multiplikation erklärt. Selbige ergibt sich damit nach dem 229 KAPITEL 5. LINEARE ALGEBRA Schema a1,1 .. . am,1 | ··· a1,k .. . ··· ··· am,k {z ··· =A∈Km×n x1 . y1 a1,n .. a1,1 x1 + · · · + a1,n xn . .. . .. = .. . . xk = ym am,n ... am,1 x1 + · · · + am,n xn | {z } } xn =y∈Km | {z } =x∈Kn Zur Berechnung von y = Ax denke man sich also den Koordinatenvektor x über die Zeilen von A gelegt und bilde die Summen der Produkte übereinanderstehender Koeffizienten um die Komponenten von y zu berechnen. Schreiben wir eine Matrix A ∈ Km×n als Ansammlung ihrer Spaltenvektoren a1 , . . . , an ∈ Km , so lässt sich das Matrizen-Vektor-Produkt Ax auch als Linearkombination der Spalten von A mit den Koeffizienten von x als Skalaren interpretieren: a1,n a1,1 Ax = (a1 , . . . , an )x = x1 a1 + · · · + xn an = x1 ... + · · · + xn ... . am,1 am,n Achtung. Ax kann nur gebildet werden, wenn der Vektor x genau so viele Komponenten hat wie die Matrix A Spalten. Der Ergebnisvektor erbt dann von A die Zeilenzahl. Beispiel. 2 1 2 3 −3 0 0 4 2 −3 0 3 2·4−3·0+0·3−3·1 5 0 3 0 1 +0 0 +3 5 −1 1 = 1 · 4 + 0 · 0 + 5 · 3 − 1 · 1 = 18 . 5 1 = 4 3 2 0 0 3 2·4+0·0+0·3−3·1 5 0 3 −1 Grundlegender Matrizenkalkül 3.1 Zielsetzung. Wir wollen das Rechnen mit linearen Abbildungen nach Wahl von Basen in das Rechnen mit Matrizen übersetzen. Grundlegende Rechenoperationen für lineare Abbildungen sind: • für L, M ∈ L(V, W ): das Bilden der Summe L + M : V → W , v 7→ L(v) + M (v), • für L ∈ L(V, W ) und λ ∈ K: das Bilden des Vielfachen λL : V → W , v 7→ λL(v), • für M ∈ L(U, V ) und L ∈ L(V, W ): das Bilden der Verkettung L ◦ M : U → W , v 7→ L(M (v)), • für bijektives L ∈ L(V, W ): das Bilden der Umkehrabbildung L−1 : W → V . Man verifiziert, dass die Abbildungen L + M , λL und L ◦ M und L−1 selbst linear sind (sofern sie gebildet werden können). Also sollten sich die Darstellungsmatrizen dieser Abbildungen aus denen von L und M berechnen lassen. Das tun wir in für die ersten drei Fälle in 3.2–3.4, für die Umkehrabbildung in 3.9. 3.2 Summe zweier Matrizen. Sind in zwei K-Vektorräumen V und W mit dim V = n und dim W = m Basen B bzw. C fest gewählt und sind L, M ∈ L(V, W ) zwei lineare Abbildungen mit Darstellungsmatrizen MBC (L) = A = (aj,k ) ∈ Km×n , MBC (M ) = B = (bj,k ) ∈ Km×n , so ist die Darstellungsmatrix von L + M ∈ L(V, W ) gegeben durch MBC (L + M ) = A + B := (aj,k + bj,k ) ∈ Km×n . Die Darstellungsmatrizen werden koeffizientenweise addiert. Offensichtlich geht das nur, wenn beide Matrizen A, B gleiche Abmessung haben. Die Summenmatrix A + B hat dann dieselbe Abmessung. 230 §2. LINEARE ABBILDUNGEN UND MATRIZEN 3.3 Vielfaches einer Matrix. Sind in zwei K-Vektorräumen V und W mit dim V = n und dim W = m Basen B bzw. C fest gewählt, ist λ ∈ K ein Skalar und ist L ∈ L(V, W ) eine lineare Abbildungen mit Darstellungsmatrix MBC (L) = A = (aj,k ) ∈ Km×n , so ist die Darstellungsmatrix von λL ∈ L(V, W ) gegeben durch MBC (λL) = λA := (λaj,k ) ∈ Km×n . Jeder Eintrag der Darstellungsmatriz A wird also mit λ multipliziert. Die so entstehende Matrix λA hat dann dieselbe Abmessung wie A. 3.4 Produkt zweier Matrizen. Sind in drei K-Vektorräumen U , V und W mit dim U = p, dim V = n und dim W = m Basen A, B bzw. C fest gewählt und sind L ∈ L(V, W ) und M ∈ L(U, V ) zwei lineare Abbildungen mit Darstellungsmatrizen MBC (L) = A = (aj,k ) ∈ Km×n , B MA (M ) = B = (bk,l ) ∈ Kn×p , so ist die Darstellungsmatrix von L ◦ M ∈ L(U, W ) gegeben durch C MA (L m×p ◦ M ) = A · B := (cj,l ) ∈ K mit cj,l := n X aj,k bk,l , k=1 d.h. ausführlich a1,1 .. . aj,1 . .. am,1 ··· ··· ··· a1,n .. b1,1 . . aj,n .. .. bn,1 . am,n ··· b1,l .. . ··· ··· bn,l ··· c1,1 b1,p .. = .. . . bn,p cm,1 ··· c1,p .. . . cj,l ··· cm,p Für das Matrizenprodukt A · B schreiben wir auch kurz AB. Es kann nur gebildet werden, wenn die Zeilenzahl der zweiten mit der Spaltenzahl der ersten Matrix übereinstimmt (dem entspricht, dass der Definitionsraum der nachgeschalteten Abbildung mit dem Zielraum der vorgeschalteten übereinstimmt, d.h. insbesondere dieselbe Dimension hat). Dann hat die Produktmatrix AB ebenso viele Zeilen wie A und Spalten wie B. Für die Berechnung des Produkts gilt dann die Merkregel: „Man erhält die Spalten der Produktmatrix AB, indem man die Spalten von B an die Matrix A multipliziert“, d.h. AB = A( b1 , . . . , bn ) = (Ab1 , . . . , Abn ). | {z } Spalten von B 3.5 Potenz einer quadratischen Matrix, nilpotente Matrizen. Für A ∈ Kn×n erklären wir An rekursiv durch A0 := En , An := A · An−1 für n ≥ 1. Das Bilden von An entspricht (nach Wahl einer Basis von V ) der n-fachen Verkettung einer linearen Abbildung L ∈ L(V ) mit sich selbst. Gilt dann An = 0 für ein n ∈ N, so nennen wir die Matrix A nilpotent. Beispiel. Für 0 A := 0 0 1 0 0 0 1 0 gilt 1 A0 = E = 0 0 0 1 0 0 0 0 , A1 = A = 0 1 0 1 0 0 0 0 1 , A2 = 0 0 0 0 0 0 1 0 0 , A3 = 0 0 0 0 0 0 0 0 = A4 = . . . . 0 231 KAPITEL 5. LINEARE ALGEBRA 3.6∗ Beweis der Darstellungen für Summe, Vielfaches und Produkt. Seien A = (u1 , . . . , up ), B = (v1 , . . . , vn ) und C = (w1 , . . . , wm ). Dann folgt mit der Linearität von L und M (L+M )(vk ) = L(vk ) + M (vk ) = m X aj,k wj + j=1 (λL)(vk ) = λL(vk ) = λ m X (L◦M )(uµ ) = L(M (ul )) = L m X bj,k wj = (aj,k + bj,k )wj , j=1 aj,k wj = j=1 m X j=1 m X (λaj,k )wj , j=1 n X ! bk,l vk k=1 = n X bk,l L(vk ) = k=1 n X k=1 bk,l m X aj,k wj = j=1 m n X X j=1 ! aj,k bk,l wj , k=1 woraus wir mit 2.1 (b) ablesen, dass die Darstellungsmatrizen von L + M , λL bzw. L ◦ M tatsächlich die in 3.2, 3.3 bzw. 3.4 angegebene Form haben. 3.7 Rechenregeln für Addition, Vielfaches und Produkt von Matrizen. (a) Bei fest gewählten Basen B von V und C von W existiert zu jeder Matrix A ∈ Km×n genau eine lineare Abbildung L : V → W mit A = MBC (L). (b) Die Matrizen aus Km×n bilden zusammen mit der Addition von Matrizen 3.2 und der Skalarmultiplikation 3.3 einen K-Vektorraum der Dimension mn. (c) Die Matrizenmultiplikation erfüllt das Assoziativgesetz A(BC) = (AB)C. (d) Matrizenaddition und -multiplikation erfüllen das Distributivgesetz A(B + C) = AB + AC. (e) Für die Matrizenmultiplikation und das Bilden von Vielfachen gilt (λA)(µB) = (λµ)(AB). In den Regeln (c)–(e) müssen die beteiligten Matrizen natürlich die richtigen Abmessungen haben. Dank (c) können wir bei der Produktbildung die Klammern weglassen. Beweis. (a) folgt sofort aus 2.1. Für (b) prüft man die Vektorraumaxiome durch stumpfsinniges Nachrechnen. Für die Dimensionsaussage betrachtet man die Basis gebildet aus den mn Matrizen mit genau einem Eintrag 1 und sonst 0. Die Regeln (c)–(e) ergeben sich aus den entsprechenden Gesetzen für das Verketten und Addieren von Abbildungen. Beispiel. Für A= 1 2 −2 4 0 , 3 −1 −1 , 2 3 B = 1 0 C= 2 0 1 . 1 berechnen wir 1 2 3 B(C + C 2 ) = 1 0 3 = 1 0 ABC = 3 −1 −2 0 2 1 −1 4 3 0 0 2 −1 2 1 2 −1 + 0 1 0 2 −1 18 6 4 −1 =6 0 2 2 0 1 1 2 0 10 2 . 4 1 1 6 2 −2 0 2 2 2 0 = , 4 3 20 10 0 2 3 −1 1 2 1 4 3 = 1 −1 + 1 0 1 0 1 0 2 1 = 2 Es gilt AB ∈ R2×2 aber BA ∈ R3×3 — beim Matrizenprodukt können wir also keine Kommutativität erwarten, ja es oftmals gar nicht in beiden Reihenfolgen bilden. Die Terme A + C oder CB können aus Abmessungsgründen nicht gebildet werden. 232 §2. LINEARE ABBILDUNGEN UND MATRIZEN Achtung. Beim Rechnen mit Matrizen immer zuerst die Abmessungen prüfen. 3.8 Rechenregeln für quadratische Matrizen. Gemäß 3.7 bilden die quadratischen (n × n)-Matrizen einen Vektorraum der Dimension n2 . Zusätzlich zu den zuvor genannten Regeln gelten hier weitere. Wir notieren alle zusammen. (f) Die Matrizenmultiplikation ist assoziativ (A(BC) = (AB)C) und distributiv (A(B + C) = AC + BC), und es gilt (λA)(µB) = (λµ)(AB). (g) Die Einheitsmatrix E = En ist neutrales Element der Multiplikation: AE = EA = A. (h) Die Multiplikation ist für n ≥ 2 nicht kommutativ, i.A. gilt AB 6= BA. (i) Die Multiplikation ist für n ≥ 2 nicht nullteilerfrei, d.h. es gibt (n×n)-Matrizen A, B 6= 0 mit AB = 0. Beweis. Spannend ist nur der Nachweis von (h) und (i). Das Beispiel 0 1 0 0 A= , B= 0 0 1 0 zeigt, dass Kommutativität und Nullteilerfreiheit in K2×2 verletzt sind. Es gilt nämlich 1 0 0 0 0 1 0 1 0 0 2 AB = 6= = BA, A = AA = = . 0 0 0 1 0 0 0 0 0 0 Für n ≥ 2 schließe man analog mit entsprechend vergrößerten Matrizen. Anmerkung. Zusätzlich zur Vektorraumstruktur in Kn×n , d.h. einer Addition und einer Skalarmultiplikation samt den zugehörigen Regeln, haben wir hier noch eine Multiplikation, welche die Regeln (f)–(i) erfüllt. In der Mathematik nennt man eine derartige Struktur eine nichtkommutative Algebra mit Einselement. 3.9 Invertierbare Matrizen. Nach 2.10 müssen bei einer bijektiven linearen Abbildung zwischen zwei endlichdimensionalen Vektorräumen Definitions- und Zielraum dieselbe Dimension haben. Für bijektives L ∈ L(V ) mit dim V = n überträgt sich dann die Beziehung L ◦ L−1 = L−1 ◦ L = idV nach Wahl einer Basis B von V in die Beziehung AB = BA = E für die Darstellungsmatrizen A = MB (L) und B = MB (L−1 ). Eine quadratische Matrix A ∈ Kn×n nennen wir daher invertierbar , falls es eine quadratische Matrix B ∈ Kn×n gibt mit AB = BA = E. Die Matrix B ist dann die Darstellungsmatrix der Umkehrabbildung. Sie ist somit eindeutig bestimmt und wir bezeichnen sie mit A−1 . Ist V endlichdimensional, so ist L ∈ L(V ) genau dann bijektiv, wenn nach Wahl einer Basis B die Darstellungsmatrix A = MB (L) invertierbar ist. Dann gilt A−1 = MB (L−1 ). 3.10 Invertierbare Matrizen und Basen. Eine Matrix A ∈ Kn×n ist genau dann invertierbar, wenn die Spalten von A eine Basis des Kn bilden. Beweis. Genau dann bildet (a1 , . . . , an ) eine Basis des Kn , wenn y = x1 a1 + · · · + xn an = Ax für jedes y ∈ Kn eindeutig lösbar ist, d.h. wenn die zu A gehörige lineare Abbildung bijektiv ist. Beispiel. Eine (2 × 2)-Matrix a A= c b d ist genau dann invertierbar, wenn keine der beiden Spalten ein Vielfaches der anderen ist, d.h. ad−bc 6= 0. Dann gilt 1 d −b −1 . A = ad − bc −c a 233 KAPITEL 5. LINEARE ALGEBRA Anmerkung. In §4.2.4 zeigen wir, dass eine Matrix genau dann invertierbar ist, wenn ihre Determinante nicht verschwindet. In §3.2.6 führen wir vor, wie man die inverse Matrix mit einer simultanen GaußElimination berechnet. 3.11 Rechenregeln für die inverse Matrix. Für quadratische Matrizen A, B ∈ Kn×n gilt: (j) Ist AB = E, so sind beide Matrizen invertierbar mit B = A−1 . (k) Sind A und B invertierbar, so auch AB mit (AB)−1 = B −1 A−1 . Beweis. In (j) gilt für die zugehörigen linearen Abbildungen L, M ∈ L(V ) dann L ◦ M = idV . Damit ist L surjektiv und M ist injektiv. Nach 2.10 sind beide Abbildungen bijektiv mit M = L−1 . Nun folgt (k) aus (AB)(B −1 A−1 ) = A(BB −1 )A−1 = AEA−1 = AA−1 = E. Beispiel. Beim Rechnen mit inversen Matrizen tauchen oft Operationen der folgenden Art auf: (S −1 AS)k = (S −1 AS)(S −1 AS) · · · (S −1 AS) = S −1 A(SS −1 )A(S · · · S −1 )AS = S −1 AEA · · · AS = S −1 Ak S. Man beachte, wie bei obiger Rechnung durch Umklammern vom Assoziativgesetz gezehrt wurde, ohne das nicht zur Verfügung stehende Kommutativgesetz zu verwenden. 3.12 Dreiecksmatrizen. Eine quadratische Matrix A = (aj,k ) ∈ Kn×n heißt obere (untere) Dreiecksmatrix , falls aj,k = 0 für j > k (j < k). Die Einträge a1,1 , . . . , an,n heißen Diagonaleinträge. Eine Dreiecksmatrix ist genau dann invertierbar, wenn kein Diagonaleintrag verschwindet. Die inverse Matrix ist dann wieder eine Dreiecksmatrix. Beweis. Wir betrachten für eine obere dabei spaltenweise, d.h. a1,1 a1,2 · · · 0 a2,2 BA = (b1 , . . . , bn ) . .. .. . 0 0 ··· 0 Dreiecksmatrix A das Matrizenprodukt BA und schreiben B a1,n a2,n .. = (a1,1 b1 , a1,2 b1 + a2,2 b2 , . . . , a1,n b1 + · · · + an,n bn ). {z } {z } | | {z } | . 1. an,n 2. n-te Spalte von BA Die Einheitsmatrix entsteht hierbei genau dann, wenn für die Spalten b1 , . . . , bn von B die Bedingungen a1,1 b1 a1,2 b1 +a2,2 b2 a1,n b1 +a2,n b2 +··· +an,n bn = = .. . e1 , e2 , = en erfüllt sind. Dazu dürfen die Diagonaleinträge von A nicht verschwinden. Dann berechnen sich die Spalten von A−1 = B rekursiv zu 1 1 1 b1 = e1 , b2 = (e2 − a1,2 b1 ), ..., bn = (en − a1,n b1 − · · · − an−1,n bn−1 ). a1,1 a2,2 an,n Die inverse Matrix ist damit selbst eine obere Dreiecksmatrix. Für untere Dreicksmatrizen schließe man analog. Beispiel. Es gilt 1 0 0 2 1 0 −1 3 1 2 = 0 1 0 da nach obigem Schema 1 1 b2 = (e2 − 2b1 ) = −2e1 + e2 , b1 = e 1 = e 1 , 1 1 −2 1 0 1 −2 , 1 b3 = 1 (e3 − 3b1 − 2b2 ) = e1 − 2e2 + e3 . 1 234 §2. LINEARE ABBILDUNGEN UND MATRIZEN 3.13 Transponieren, Konjugieren und Adjungieren einer Matrix. Wir beenden diesen Abschnitt mit zwei Operationen für Matrizen, die zunächst keine abbildungstheoretische Interpretation zu haben scheinen, sich aber als recht nützlich im Matrizenkalkül erweisen. Vertauschen wir die Zeilen und Spalten einer (m×n)-Matrix, so wird die dabei entstehende (n×m)-Matrix transponierte Matrix genannt und mit AT bezeichnet: a1,1 · · · am,1 .. a1,1 · · · a1,k · · · a1,n .. . . .. .. . · · · am,k , für A = ... AT := . . a1,k .. .. am,1 · · · am,k · · · am,n . . a1,n · · · am,n Hat A komplexe Einträge, so erklären wir die konjugierte Matrix durch elementweises Konjugieren a1,1 · · · a1,n .. . A := ... . am,1 · · · am,n Für Matrizen aus Cm×n werden Transponieren und Konjugieren zusammengefasst zum Adjungieren a1,1 · · · am,1 .. a1,1 · · · a1,k · · · a1,n .. . . T .. .. . · · · am,k A∗ := A = AT = , für A = ... . . a1,k .. .. am,1 · · · am,k · · · am,n . . a1,n · · · am,n Statt AT schreibt man auch At , statt A∗ auch A† . 3.14 Rechenregeln für Transponieren und Konjugieren. (l) (AT )T = A, A = A, (A∗ )∗ = A. (m) (A + B)T = AT + B T , A + B = A + B, (A + B)∗ = A∗ + B ∗ . (n) (λA)T = λAT , λA = λ A, (λA)∗ = λA∗ . (o) (AB)T = B T AT , AB = A B, (AB)∗ = B ∗ A∗ . Beweis. Die Regeln (l) und (m) sind offensichtlich, (n) und (o) ergeben sich durch ordentliches Nachrechnen. 3.15 Symmetrische und hermitesche Matrizen. Eine reelle (n × n)-Matrix A heißt symmetrisch bzw. antisymmetrisch, wenn AT = A bzw. AT = −A. Für eine symmetrische Matrix gilt aj,k = ak,j , sie wird also durch die n(n+1)/2 Einträge auf und oberhalb der Diagonalen festgelegt. Für eine antisymmetrische Matrix gilt aj,k = −ak,j , d.h. insbesondere aj,j = 0. Eine komplexe (n × n)-Matrix A heißt hermitesch bzw. antihermitesch, wenn A∗ = A bzw. A∗ = −A. Jede reelle quadratische Matrix A kann via 1 1 (A + AT ) + (A − AT ) A= | {z } 2 | {z } 2 symmetrisch antisymmetrisch als Summe einer symmetrischen und einer antisymmetrischen Matrix dargestellt werden. Für komplexe quadratische Matrizen besteht eine analoge Zerlegung 1 1 A= (A + A∗ ) + (A − A∗ ) . | {z } 2 | {z } 2 hermitesch antihermitesch 235 KAPITEL 5. LINEARE ALGEBRA 3.16 Standardnorm und -skalarprodukt im Rn (vgl. 3.§3.2). Aus einem Spaltenvektor x1 x = ... ∈ Rn xn entsteht durch Transponieren ein Zeilenvektor xT = (x1 , . . . , xn ). Die Norm kxk können wir nun als Matrizenprodukt darstellen: kxk2 = x1 2 + · · · + xn 2 = xT x für x ∈ Rn . Für das Standardskalarprodukt im Rn folgt analog hy|xi = y1 x1 + · · · + yn xn = y T x für x, y ∈ Rn . Achtung. y T x = xT y ist eine reelle Zahl. (Welche Abmessungen hat dagegen xy T ?) 3.17 Nochmals Matrizenprodukte. Aus der Definition 3.4 ergeben sich drei nützliche Lesarten für das Matrizenprodukt AB von A ∈ Km×n und B ∈ Kn×p . Wir haben diese Lesarten teilweise schon in vorangegangenen Argumenten verwendet und stellen sie jetzt als „Schatzkästchen“ zusammen. (p) Man erhält die Spalten von AB indem man die Spalten von B von rechts an A multipliziert: b1,l .. AB = A(b1 , . . . , bp ) = (Ab1 , . . . , Abp ) mit bl = . bn,l (q) Man erhält die Zeilen von AB, indem man die Zeilen von A von links an B multipliziert: T T a1 B a1 mit aj T = (aj,1 , . . . , aj,n ). AB = ... B = ... am T B am T (r) Man erhält die Einträge von AB, indem man die Zeilen von A mit den Spalten von B multipliziert: T T a1 a1 b1 ··· a 1 T bp .. . AB = ... (b1 , . . . , bp ) = ... aj T bl . T T am am b1 ··· am T bp 3.18 Orthogonale und unitäre Matrizen. Bilden die Vektoren u1 , . . . , un ∈ Rn ein ONS, so gilt huj |uk i = uj T uk = δj,k . Für die aus diesen Vektoren gebildete Matrix U := (u1 , . . . , un ) ∈ Rn×n erhalten wir damit T u1 .. T U U = . (u1 , . . . , un ) = (uj T uk ) = (δj,k ) = E. un T Erfüllt umgekehrt eine Matrix U ∈ Rn×n die Bedingung U T U = U U T = E, so sind nach obiger Lesart die Spalten (und auch die Zeilen) von U normiert und stehen paarweise aufeinander senkrecht. Derartige Matrizen heißen orthogonal . Eine Matrix U ∈ Rn×n ist genau dann orthogonal, wenn ihre Spalten (und dann auch die Zeilen) ein ONS bezüglich des Standardskalarprodukts im Rn bilden. Dann ist U invertierbar mit U −1 = U T . Das komplexe Analogon hierzu sind die unitären Matrizen. Das sind diejenigen U ∈ Cn×n mit U ∗ U = U U ∗ = E. 236 §2. LINEARE ABBILDUNGEN UND MATRIZEN Eine unitäre Matrix ist damit ebenfalls invertierbar mit U −1 = U ∗ . Sobald wir in §6.2 für C-Vektorräume ein Skalarprodukt eingeführt haben, werden wir die Analogie zu orthogonalen Matrizen in R-Vektorräumen vervollständigen. 4 Basiswechsel, Koordinatentransformation und Darstellungsmatrizen 4.1 Worum geht es? Ein und dieselbe lineare Abbildung L hat bezüglich verschiedener Basen in Definitions- und Zielraum verschiedene Darstellungsmatrizen. Wir studieren nun, wie sich ein Basiswechsel auf die Darstellungsmatrix auswirkt. Das liefert uns die Grundlage, später „geschickte“ Basen wählen zu können, um das Abbildungsverhalten einer linearen Abbildung zu verstehen. Dabei beschränken wir uns auf den einfachsten Fall L ∈ L(V ), der auch für die Anwendungen der wichtigste ist. 4.2 Basiswechsel. Wir wählen in einem endlichdimensionalen Vektorraum V zwei Basen B = (v1 , . . . , vn ) und B 0 = (v10 , . . . , vn0 ). Ein Vektor v ∈ V besitzt bezüglich dieser beiden Basis die Basisdarstellungen v= n X x k vk , v= k=1 n X x0k vk0 , k=1 d.h. die Koordinatenvektoren x1 vB =: x = ... , x01 =: x0 = ... . vB 0 x0n xn Mit dem folgenden Trick können wir nun diese beiden Koordinatendarstellungen ineinander umrechnen. Wir betrachten die identische Abbildung idV , v 7→ v, und wählen im Definitionsraum V die Basis B 0 , im Zielraum V dagegen die Basis B. nach Wahl von Basen: v7→idV (v)=v −→ V koordinatenfrei: x0 7→x 0 (V, B ) −→ V (V, B) Gemäß 3.9 ist die zugehörige Darstellungsmatrix S := MBB0 (idV ) dann invertierbar. Die Umkehrabbildung (das ist wieder idV , jetzt aber mit den Basen B im Definitionsund B 0 im Zielraum) hat damit gemäß 3.9 die Darstellungsmatrix 0 S −1 := MBB (idV ). Die k-te Spalte von S enthält die Koordinaten von vk0 bezüglich B, die l-te Spalte von S −1 die Koordinaten von vl bezüglich B 0 . Beispiel. Wir betrachten den R3 mit den beiden Basen 0 1 1 1 0 0 B = (v1 , v2 , v3 ) = 1 , 0 , 1 , B 0 = (v10 , v20 , v30 ) = 1 , 1 , 0 . 1 1 0 1 1 1 Offensichtlich gilt v10 v1 und damit 1 (v1 + v2 + v3 ), 20 = v2 , v20 = 1/2 S = 1/2 1/2 v2 1 0 0 v30 = v30 , v3 = 0 = 1 0 1 −1 1 1 0 , −1 = v1 , = 1/2 1/2 . −1/2 v10 − v20 + S −1 1 2 (v1 v10 − + v2 − v3 ), v30 237 KAPITEL 5. LINEARE ALGEBRA Betrachten wir den Polynomraum P2 (R) mit den beiden Basen B 0 = (x2 + x + 1, x2 + x, x2 ), B = (x2 + x, x2 + 1, x + 1), so haben die Basisvektoren bezüglich der Standardbasis (1, x, x2 ) des P2 (R) die Koordinatenvektoren (0, 1, 1)T , (1, 0, 1)T , (1, 1, 0)T , bzw. (1, 1, 1)T , (0, 1, 1)T , (0, 0, 1)T und wir erhalten dieselben Darstellungsmatrizen für die beiden Basiswechsel. 4.3 Koordinatenwechsel. Ein Vektor v ∈ V wird durch idV auf sich selbst abgebildet. Die Darstellungsmatrix S des Basiswechsels B 0 → B und ihre Inverse S −1 dienen dann zur Umrechnung der Koordinaten x0 = vB0 und x = vB : x = Sx0 , −→ x0 7→x=Sx0 0 (V, B ) nach Wahl von Basen: Beispiel. Für den Vektor gilt v = 2v2 − v3 und damit 0 vB = 2 , −1 v7→idV (v)=v V koordinatenfrei: −→ x0 = S −1 x. V (V, B) v7→idV (v)=v −→ x7→x0 =S −1 x −→ V (V, B 0 ) 1 v := −1 ∈ R3 2 vB 0 0 = S −1 vB = 1 0 1 −1 1 0 1 1 0 2 = −2 , −1 3 −1 d.h. v = v10 − 2v20 + 3v30 . Tatsächlich gilt 0 0 1 1 −1 = 1 1 − 2 1 + 3 0 . 1 1 1 2 Für das Polynom 2x2 − x + 1, welches bezüglich der Standardbasis des P2 (R) die Koordinaten (1, −1, 2)T besitzt, erhalten wir damit die Darstellungen 2x2 − x + 1 = 0 · (x2 + x) + 2(x2 + 1) − 1(x + 1) = 1(x2 + x + 1) − 2(x2 + x) + 3(x2 ). 4.4 Ähnliche Matrizen. Hat eine lineare Abbildung L ∈ L(V ) die Darstellungsmatrizen A := MB (L), B := MB0 (L) bezüglich der simultanen Basenwahl B bzw. B 0 in V und ist S die Darstellungsmatrix des Basiswechsels von B 0 auf B, so gilt B = S −1 AS. Gilt diese Beziehung für zwei Matrizen A, B ∈ Kn×n so nennen wir A und B ähnlich. Achtung. Ähnliche Matrizen gehören also zu ein und derselben linearen Abbildung L ∈ L(V ). Sie entstehen dadurch, dass man für die Darstellung von L unterschiedliche Basen in V wählt. Beweis. Wir schreiben L = idV ◦L ◦ idV und fassen die erste Identität als lineare Abbildung von V versehen mit der Basis B 0 nach V versehen mit der Basis B auf, betrachten anschließend die Darstellungsmatrix von L bezüglich der Basis B in Definitions- und Zielraum und schalten anschließend die Identität als lineare Abbildung von V versehen mit der Basis B nach V versehen mit der Basis B 0 nach. Nach Wahl 238 §3. LINEARE GLEICHUNGSSYSTEME 0 von Basen hat L dann einerseits die Darstellungsmatrix B = MBB0 (L), andererseits das Matrizenprodukt 0 S −1 AS = MBB (idV )MBB (L)MBB0 (idV ). Damit gilt B = S −1 AS. (V, B 0 ) y 0 =Bx0 =S −1 ASx0 −→ x = Sx0 ↓ (V, B 0 ) ↑ y 0 = S −1 y y=Ax (V, B) −→ (V, B) 2 Beispiel. 0Wir betrachten eine lineare Abbildung L des R in sich, welche bezüglich der Standardbasis 1 B = ( 0 , 1 ) die Darstellungsmatrix 2 −1 A= −1 2 besitzt, und wollen L bezüglich der Basis B 0 = (v10 , v20 ) = 2 1 , −2 1 darstellen. Die Darstellungsmatrizen der Basiswechsel von B 0 auf B und zurück lauten wegen 1 1 0 1 2 1 1 2 1 0 1 1 0 1 1 2 + , =− + , =2 −2 , =1 +1 , = 4 −2 2 1 1 4 −2 2 1 −2 0 1 1 0 1 0 dann S= 2 −2 1 , 1 S −1 = Also hat L bezüglich B 0 die Darstellungsmatrix 1/4 −1/4 2 −1 2 −1 B = S AS = 1/2 1/2 −1 2 −2 1/4 1/2 −1/4 . 1/2 1 1/4 = 1 1/2 −1/4 1/2 6 −6 1 3 = 1 0 0 . 1 Damit gilt L(v10 ) = 3v10 und L(v20 ) = v20 . Bezüglich der neuen Basis B 0 = (v10 , v20 ) ist das Abbildungsverhalten von L also einfach: Längs der v10 -Achse wirkt L wie eine Streckung um den Faktor 3, längs der v20 -Achse wie die Identität. §3 1 Lineare Gleichungssysteme Lösbarkeit, Struktur des Lösungsraums 1.1 Lineare Gleichungssysteme im Matrizenkalkül. Ein lineares Gleichungssystem mit m Gleichungen für n Unbekannte (kurz ein (m × n)-LGS) hat die Gestalt a1,1 x1 +a1,2 x2 + · · · a2,1 x1 +a2,2 x2 + · · · +a1,n xn = b1 , +a2,n xn = b2 , .. . am,1 x1 +am,2 x2 + · · · +am,n xn = bm , wobei die Koeffizienten aj,k ∈ K und die Zahlen bk ∈ K der „rechten Seite“ gegeben sind, und alle Lösungstupel (x1 , . . . , xn )T ∈ Kn gesucht werden. Mit a1,1 a1,2 · · · a1,n x1 b1 a2,1 a2,2 · · · a2,n x2 b2 m×n A := . , x := . ∈ Kn , b := . ∈ Km , .. .. ∈ K . .. .. . . . am,1 am,2 · · · am,n xn bm 239 KAPITEL 5. LINEARE ALGEBRA erhält das Gleichungssystem die prägnante Form Ax = b. Die Lösungsmenge dieses LGS bezeichnen wir mit LA,b := {x ∈ Kn | Ax = b} für A ∈ Km×n , b ∈ Km . Meistens ist klar, welche Matrix A gemeint ist. Dann schreiben wir einfach Lb statt LA,b . Insbesondere ist L0 die Lösungsmenge des homogenen LGS Ax = 0. 1.2 Beispiele. Schnitt zweier Ebenen: Gemäß 3.§4.1.6 wird eine Ebene im R3 in Normalenform durch eine Gleichung a1 x1 + a2 x2 + a3 x3 = b beschrieben. Das ist eine Gleichung für drei Unbekannte. Der Schnitt zweier Ebenen führt dann auf ein (2 × 3)-LGS. Basisdarstellung: Ist (a1 , . . . , an ) eine Basis des Kn , so ist die Koordinatenberechnung für einen Vektor y ∈ Kn , d.h. das Auffinden von x1 , . . . , xn ∈ K mit x1 a1 + · · · + xn an = y nichts anderes als das Lösen eines inhomogenen (n × n)-Gleichungssystems Ax = y. Die Spalten der quadratischen Matrix A werden hierbei von den Vektoren a1 , . . . , an gebildet, die rechte Seite vom Vektor y. Lineare Unabhängigkeit: Die Frage nach der linearen Unabhängigkeit von n Vektoren a1 , . . . , an ∈ Km führt auf ein homogenes (m×n)-LGS Ax = 0 mit einer (m×n)-Matrix A gebildet aus den Spaltenvektoren a1 , . . . , an . 1.3 Struktur der Lösungsmenge. Wir übertragen unsere Ergebnisse aus Abschnitt 1 und erhalten: (a) Die Lösungsmenge L0 des homogenen LGS Ax = 0 ist ein Unterraum von Kn . (b) Ist x̃ eine spezielle Lösung des inhomogenen LGS Ax = b, so ist die gesamte Lösungsmenge Lb gegeben durch den affinen Teilraum Lb = x̃ + L0 = {x̃ + x ∈ Kn | x ∈ L0 }. (Für die Bedeutung von „ x̃ + L0 “ und den Begriff affiner Teilraum schlage man ggf. 3.§4.1.18 nach.) Bezeichnen wir die Spaltenvektoren von A mit a1 , . . . , an ∈ Km , so lässt sich das Matrizen-Vektor-Produkt Ax in der Form Ax = (a1 , . . . , an )x = x1 a1 + · · · + xn an schreiben. Dies führt zu einer für das Lösen von linearen Gleichungssystemen fundamentalen Beobachtung. Der Vektor Ax ist eine Linearkombination der Spalten von A. 1.4 Existenz und Eindeutigkeit von Lösungen. Die obige Beobachtung hat folgende Konsequenzen: (c) Die Lösungen von Ax = b sind die Koeffiziententupel all derjenigen Linearkombinationen der Spalten von A, die b darstellen. (d) Das LGS Ax = b ist genau dann lösbar, wenn b im Erzeugnis der Spalten von A liegt. Sind die Spalten von A linear unabhängig, so hat Ax = b höchstens eine Lösung. (e) Erzeugen die Spalten von A den Km , so ist Ax = b für jede rechte Seite b lösbar. (f) Sind die Spalten von A linear unabhängig, so hat Ax = 0 nur die triviale Lösung. 1.5 Bild und Kern, Rang und Defekt einer Matrix. Analog zu 1.10 setzen wir für A ∈ Km×n Bild(A) := {Ax ∈ Km | x ∈ Kn }, Kern(A) := {x ∈ Kn | Ax = 0}, sowie rg(A) := dim Bild(A), def(A) := dim Kern(A), und erhalten aus der Dimensionsformel 2.9 rg(A) + def(A) = n. Damit können wir die obigen Lösbarkeitsaussagen umformulieren. 240 §3. LINEARE GLEICHUNGSSYSTEME 1.6 Rang- und Defektbedingung für Lösbarkeit. (g) Für def(A) = 0 hat Ax = 0 nur die triviale und damit Ax = b für jede rechte Seite b höchstens eine Lösung. In diesem Fall muss m ≥ n gelten. (h) Für rg(A) = m hat Ax = b für jede rechte Seite b mindestens eine Lösung. Dann muss m ≤ n gelten. (i) Genau dann hat Ax = b für jede rechte Seite b genau eine Lösung, wenn Ax = 0 nur die triviale Lösung hat und wenn m = n gilt, d.h. A eine quadratische Matrix ist. (j) Gilt allgemein rg(A) = k ≤ n, so hat Ax = 0 einen (n − k)-dimensionalen Lösungsraum. Nur dann ist Ax = b lösbar, wenn b ∈ Bild(A). Dann ist die Lösungsmenge LA,b ein (n − k)-dimensionaler affiner Teilraum. Das Lösbarkeitskriterium b ∈ Bild(A) in (j) schreibt man gerne in der Form rg(A) = rg(A|b), wobei A|b die um die Spalte b erweiterte Matrix A bezeichnet. Der Rang kann dabei nur dann erhalten bleiben, wenn b eine Linearkombination der Spalten von A ist, d.h. wenn Ax = b lösbar ist. 1.7 Fazit. Bisher haben wir viel über die Lösbarkeit von linearen Gleichungssystemen und die Struktur der Lösungsmenge kennengelernt, aber noch kein effizientes Verfahren zur Bestimmung von rg(A), def(A) und der Lösungsmenge Lb von Ax = b. Das geschieht im folgenden Abschnitt. 2 Gauß-Elimination 2.1 Die Idee der Gauß-Elimination besteht darin, ein vorgegebenes LGS Ax = b in ein einfach lösbares LGS Dx = c umzuformen, ohne im Verlauf der Umformungen die Lösungsmenge zu ändern, d.h. es gilt LA,b = LD,c . Bei den Umformungen wechseln sich drei „elementare“ Umformungstypen ab, die nacheinander abgearbeitet werden und nach endlich vielen Schritten sicher zum Ziel führen. Wir erläutern das Verfahren an Hand eines Beispiels. 2.2 Gauß-Elimination an Hand eines Beispiels. Wir wollen alle Lösungen des LGS −3x1 4x1 kurz Ax = b mit 4x2 −3x2 2x2 −x2 0 4 −3 −3 A= 0 2 4 −1 +4x3 +3x3 +2x3 −9x3 4 3 2 −9 3 1 3 −2 +3x4 +x4 +3x4 −2x4 −2x5 −2x5 −4x5 −x5 −2 −2 , −4 −1 = = = = 16 −2 14 −5 16 −2 b= 14 , −5 bestimmen. Es erweist sich als praktisch, das LGS schematisch in folgender Form darzustellen: 0 −3 0 4 4 4 3 −3 3 1 2 2 3 −1 −9 −2 −2 −2 −4 −1 16 −2 14 −5 Schritt 1.1: Vertauschen. Die Reihenfolge der Gleichungen ist für die Lösungsmenge unerheblich. Wir wollen eine erste Zeile („Kopfzeile“) in der eine Variable mit niedrigstem Index (hier x1 ) vorkommt, und vertauschen darum die erste und die zweite Zeile. −3 0 0 4 −3 3 1 4 4 3 2 2 3 −1 −9 −2 −2 −2 −4 −1 −2 16 14 −5 241 KAPITEL 5. LINEARE ALGEBRA Schritt 1.2: Normieren. Multiplikation einer Zeile mit einer nichtverschwindenden Konstanten ändert die Lösungsmenge nicht. Wir wollen die Kopfzeile so normieren, dass bei x1 der Koeffizient 1 steht, und erweitern diese Zeile darum mit −1/3. 1 0 0 4 1 −1 −1/3 4 4 3 2 2 3 −1 −9 −2 2/3 −2 −4 −1 2/3 16 14 −5 Schritt 1.3: Eliminieren. Wir addieren geeignete Vielfache der Kopfzeile zu allen anderen Zeilen, um dort die Anteile bei x1 zu eliminieren. (Dass sich hierbei die Lösungsmenge nicht ändert, überlegen wir uns später in 2.4.) In unserem Fall muss nur das (−4)-fache der Kopfzeile zur vierten addiert werden. 1 0 0 0 1 −1 −1/3 4 4 3 2 2 3 −5 −5 −2/3 2/3 −2 −4 −11/3 2/3 16 14 −23/3 Nach diesen drei Teilschritten lassen wir die erste Zeile und die Variable x1 unberührt. In den Zeilen ab der zweiten suchen wir eine mit einer Variablen niedrigstem Index (jetzt x2 ) und verfahren analog. Schritt 2.1: Vertauschen ist diesmal nicht nötig: die zweite Zeile hat schon bei x2 einen nichtverschwindenden Koeffizienten. Schritt 2.2: Normieren. Wir erweitern die zweite Zeile mit 1/4. 1 0 0 0 1 −1 −1/3 1 1 3/4 2 2 3 −5 −5 −2/3 2/3 −1/2 −4 −11/3 2/3 4 14 −23/3 Schritt 2.3: Eliminieren. Wir addieren das (−2)- bzw. 5-fache der zweiten Zeile zur dritten bzw. vierten 1 1 0 1 0 0 0 0 −1 −1/3 1 3/4 0 3/2 0 37/12 2/3 −1/2 −3 −37/6 2/3 4 6 37/3 Im dritten Schritt wenden wir uns der dritten Zeile und der Variablen x4 zu (das ist jetzt die Variable mit niedrigstem Index). Schritt 3.1: Vertauschen ist wieder nicht notwendig. Schritt 3.2: Normieren. Wir erweitern die dritte Zeile mit 2/3. 1 1 0 1 0 0 0 0 −1 −1/3 2/3 1 3/4 −1/2 0 1 −2 0 37/12 −37/6 2/3 4 4 37/3 Schritt 3.3: Eliminieren. Wir addieren das (−12/37)-fache der dritten Zeile zur vierten: 1 1 0 1 0 0 0 0 −1 −1/3 2/3 1 3/4 −1/2 0 1 −2 0 0 0 2/3 4 4 0 An dieser Stelle ist die Gauß-Elimination beendet und wir haben ein LGS Dx = c in Zeilenstufenform vorliegen, wobei wir die letzte Gleichung unterschlagen können. (Hätte die letzte Zeile rechts einen von 242 §3. LINEARE GLEICHUNGSSYSTEME Null verschiedenen Eintrag gehabt, so wäre das LGS nicht lösbar gewesen.) x1 +x2 −x3 − 31 x4 + 23 x5 = 2 3 x2 +x3 + 34 x4 − 12 x5 = 4 x4 −2x5 = 4 Dieses LGS lösen wir folgendermaßen. Freie Parameter identifizieren. Wir wählen die Unbekannten, die nicht zu Beginn einer Zeile auftreten (in unserem Fall x3 und x5 ), als freie Parameter, d.h. wir setzen x3 = λ1 , x5 = λ2 . Dreiecksform erzeugen. Diese Unbekannten schaffen wir auf die rechte Seite und erhalten für die restlichen Unbekannten (hier x1 , x2 , x4 ) ein LGS in oberer Dreiecksform x1 +x2 − 31 x4 = 2 3 + λ1 − 32 λ2 x2 + 34 x4 = 4 − λ1 + 12 λ2 x4 = 4 + 2λ2 Aufrollen. Dieses LGS können wir durch „Aufrollen“ von unten herauf lösen (vgl. Invertieren von Dreiecksmatrizen §2.3.12). Wir lösen dazu die letzte Gleichung nach x4 auf, setzen in die darüberstehenden ein und verfahren so fort, bis wir alle restlichen Unbekannten erhalten haben. x4 = 4 + 2λ2 , x2 = 1 − λ1 − λ2 , x1 = 1 + 2λ1 + λ2 . Lösungsmenge angeben. Wir erhalten als Lösungsmenge den zweidimensionalen affinen Unterraum 1 2 1 −1 −1 1 LA,b = 0 + λ1 1 + λ2 0 | λ1 , λ2 ∈ R . 2 0 4 1 0 0 2.3 Mögliche Endergebnisse. Man mache sich klar, dass die Gauß-Elimination in der eben geschilderten Form ein (m × n)-LGS auf jeden Fall nach m − 1 Schritten in Zeilenstufenform bringt. Dabei können die folgenden Ergebnisse auftreten. (i) Es gibt eine Zeile, in der links lauter Nullen, aber rechts ein von Null verschiedener Eintrag steht. Dann ist das LGS nicht lösbar. (ii) Es gibt Zeilen, in der nur Nullen vorkommen. Selbige können weggelassen werden, ohne die Lösungsmenge zu verändern. (iii) Von einer Zeile zur nächsten tritt eine Einrückung um mehr als eine Variable auf. Dann kann jede der „verloren gegangenen“ Unbekannten als freier Parameter gewählt werden. Falls (i) nicht eintritt, so kann das LGS nach Bereinigung gemäß (ii) und Parametervergabe gemäß (iii) wie eben in 2.2 geschildert aufgerollt werden. Insbesondere sind dabei die folgenden Fälle erwähnenswert: • Tritt (i) ein, so ist das LGS nicht lösbar. • Liegt ein (n × n)-LGS vor und treten nach der Gauß-Elimination keine Einrückungen auf, so ist das LGS eindeutig lösbar. • Tritt (ii) nicht ein, so liefert jede Einrückung einen freien Parameter. Treten insgesamt Einrückungen um r Stufen auf, so ist LA,b ein r-dimensionaler affiner Teilraum. 243 KAPITEL 5. LINEARE ALGEBRA 2.4∗ Gauß-Elimination im Matrizenkalkül. Die drei elementaren Zeilenoperationen Vertauschen, Normieren und Eliminieren, mit denen wir ein gegebenes (m × n)-LGS Ax = b mit in ein LGS Dx = c in Zeilenstufenform umformen können, lassen sich als Matrizenoperationen schreiben. Hierzu erklären wir die folgenden drei (m × m)-Matrizen. Das Vertauschen („Zj ↔ Zk“) beschreiben wir durch die (m × m)-Matrix Pj,k := (e1 , . . . , ek , . . . , |{z} j-te Spalte = ej |{z} , . . . , em ) k-te Spalte 1 0 1 .. , 1 . 1 0 1 ≤ j < k ≤ m. Sie unterscheidet sich von der Einheitsmatrix Em lediglich dadurch, dass die j-te und die k-te Spalte vertauscht sind. Linksmultiplikation mit Pj,k vertauscht die j-te mit der k-te Zeile: a1,1 .. . aj,1 Pj,k ... ak,1 . .. am,1 ··· ··· ··· ··· a1,n a1,1 .. .. . . aj,n ak,1 .. = .. . . ak,n aj,1 .. .. . . ··· am,n ··· a1,n .. . ak,n .. , . aj,n .. . am,n ··· ··· am,1 b1 b1 .. .. . . bj bk Pj,k ... = ... . bk bj . . .. .. bm bm Das Normieren („Zk → cZk“) beschreiben wir durch die (m × m)-Matrix Nk,c := (e1 , . . . , cek |{z} , . . . , em ) k-te Spalte = 1 .. , . c .. . k ∈ {1, . . . , m}, c 6= 0. 1 Sie unterscheidet sich von der Einheitsmatrix Em nur dadurch, dass der k-te Diagonaleintrag nicht 1 sondern c ist. Linksmultiplikation mit Nk,c erweitert die k-te Zeile mit dem Faktor c: a1,1 .. . Nk,c ak,1 . .. am,1 ··· ··· ··· a1,n a1,1 .. .. . . ak,n = cak,1 .. .. . . am,n am,1 ··· ··· ··· a1,n .. . cak,n , .. . am,n b1 b1 .. .. . . Nk,c bk = cbk . . . .. .. bm bm 244 §3. LINEARE GLEICHUNGSSYSTEME Das Eliminieren („Zk → Zk + cZj“) beschreiben wir durch die (m × m)-Matrix Ej,c,k := (e1 , . . . , ej + cek , . . . , | {z } j-te Spalte , . . . , em ) k-te Spalte = ek |{z} .. . , 1 .. . c 1 .. 1 ≤ j, k ≤ n. . Sie unterscheidet sich von der Einheitsmatrix Em nur dadurch, dass in der j-ten Spalte in der k-ten Zeile ein c eingetragen ist. Linksmultiplikation mit Ej,c,k addiert das c-fache der j-ten Zeile zur k-ten (die j-te Zeile bleibt dabei unverändert): a1,1 .. . aj,1 Ej,c,k ... ak,1 . .. ··· am,1 ··· ··· ··· a1,n a1,1 .. .. . . aj,n a j,1 .. = .. . . ak,1 + caj,1 ak,n .. .. . . am,n am,1 ··· ··· ··· ··· a1,n .. . aj,n .. , . ak,n + caj,n .. . am,n b1 b1 .. .. . . bj bj .. Ej,c,k ... = . . bk bk + cbj . .. .. . bm bm Alle diese Matrizen sind invertierbar und es gilt −1 Pj,k = Pj,k , −1 Nk,c = Nk,1/c −1 Ej,c,k = Ej,−c,k , wie man sich leicht selbst überlegen kann. Ist also S eine dieser drei Matrizen, so gilt ⇔ Ax = b SAx = Sb. Man gelangt nämlich von einer Gleichung zur anderen, indem man von links mit S bzw. S −1 multipliziert. Dies zeigt LA,b = LSA,Sb , Die beiden Gleichungen Ax = b und SAx = Sb haben also dieselbe Lösungsmenge. Die drei elementaren Zeilenumformungen der Gauß-Elimination ändern zwar das LGS, aber alle dabei entstehenden LGS haben dieselbe Lösungsmenge. So gesehen besagt die Gauß-Elimination: Jede (m×n)-Matrix A kann durch Linksmultiplikation mit einer invertierbaren Matrix S in eine (m × n)-Matrix D in Zeilenstufenform umgeformt werden: SA = D. Beweis. Man wähle für S einfach ein Produkt aus den oben beschriebenen Matrizen, welches der GaußElimination entspricht. Beispiel. Für die Matrix 0 −3 A= 0 4 4 −3 2 −1 4 3 2 −9 3 1 3 −2 −2 −2 , −4 −1 aus 2.2 liefern die dort beschriebenen elementaren Zeilenumformungen der Gauß-Elimination nacheinan- 245 KAPITEL 5. LINEARE ALGEBRA der die Matrizen 0 1 0 0 0 4 4 3 −2 −3 −3 3 1 −2 −3 0 1 0 0 0 −3 3 1 −2 4 4 3 −2 = , 0 0 0 0 1 0 2 2 3 −4 2 2 3 −4 0 0 0 1 4 −1 −9 −2 −1 4 −1 −9 −2 −1 0 0 0−3 −3 3 1 −2 1 1 −1 −1/3 2/3 −1/3 0 0 1 0 0 4 4 3 −2 4 4 3 −2 0 = , 0 0 0 0 1 0 2 2 3 −4 2 2 3 −4 0 0 0 1 4 −1 −9 −2 −1 4 −1 −9 −2 −1 0 0 01 1 −1 −1/3 2/3 1 1 −1 −1/3 2/3 1 0 0 0 1 0 0 4 4 3 −2 4 4 3 −2 = , 0 0 1 00 2 2 3 −4 0 2 2 3 −4 −4 0 0 1 4 −1 −9 −2 −1 0 −5 −5 −2/3 −11/3 0 0 01 1 −1 −1/3 2/3 1 1 −1 −1/3 2/3 1 0 0 0 1/4 0 0 4 4 3 −2 1 1 3/4 −1/2 = , 0 0 0 0 1 0 2 2 3 −4 2 2 3 −4 0 0 0 1 0 −5 −5 −2/3 −11/3 0 −5 −5 −2/3 −11/3 2/3 2/3 1 1 −1 −1/3 0 0 01 1 −1 −1/3 1 0 0 0 1 1 3/4 −1/2 1 0 0 1 1 3/4 −1/2 = , 0 0 0 0 0 3/2 −3 2 2 3 −4 −2 1 0 0 −5 −5 −2/3 −11/3 0 0 0 1 0 −5 −5 −2/3 −11/3 2/3 2/3 1 1 −1 −1/3 0 0 01 1 −1 −1/3 1 0 0 1 1 3/4 −1/2 1 1 3/4 −1/2 1 0 0 0 , = 0 0 0 0 0 3/2 −3 0 0 3/2 −3 0 1 0 0 0 0 37/12 −37/6 0 5 0 1 0 −5 −5 −2/3 −11/3 2/3 2/3 1 1 −1 −1/3 0 0 01 1 −1 −1/3 1 0 0 0 1 1 3/4 −1/2 1 1 3/4 −1/2 1 0 0 , = 0 0 0 0 0 1 −2 0 0 3/2 −3 0 2/3 0 0 0 0 1 0 0 0 37/12 −37/6 0 0 0 37/12 −37/6 2/3 1 1 −1 −1/3 2/3 0 0 01 1 −1 −1/3 1 0 0 0 1 1 3/4 −1/2 1 1 3/4 −1/2 1 0 0 = . 0 0 0 0 0 1 −2 0 0 1 −2 0 1 0 0 0 0 0 0 0 0 −37/12 1 0 0 0 37/12 −37/6 A1 = P1,2 A = A2 = N1,−1/3 A1 = A3 = E1,−4,4 A2 = A4 = N2,1/4 A3 = A5 = E2,−2,3 A4 = A6 = E2,−5,4 A5 = A7 = N3,2/3 A6 = A8 = E3,−37/12,4 A7 = Tatsächlich gilt für S = E3,−37/12,4 N3,2/3 E2,5,4 E2,−2,3 N2,1/4 E1,−4,4 N1,−1/3 P1,2 0 −1/3 1/4 0 = −1/3 0 41/18 4/3 0 0 2/3 −37/18 0 0 0 1 dann 0 −1/3 1/4 0 SA = −1/3 0 41/18 4/3 0 0 2/3 −37/18 0 0 4 0 −3 −3 0 0 2 1 4 −1 4 3 2 −9 3 1 3 −2 −2 1 1 −2 = 0 1 −4 0 0 −1 0 0 −1 1 0 0 −1/3 3/4 1 0 2/3 −1/2 . −2 0 2.5 Simultane Gauß-Elimination. Ist das LGS Ax = bµ für mehrere rechte Seiten b1 , . . . , bp ∈ Km zu lösen, so können wir dies durch eine simultane Gauß-Elimination bewerkstelligen. Dabei ist es zweckmäßig, aus b1 , . . . , bp eine Matrix B := (b1 , . . . , bp ) ∈ Km×p zu bilden und die Gauß-Eliminatin auf das Schema A|B anzuwenden. Das kann man auch als Lösen der Matrizengleichung AX = B interpretieren, die k-te Spalte der (n × p)-Matrix X enthält gerade die Lösung von Ax = bk . Ist eine dieser Gleichungen nicht lösbar, so ist AX = B unlösbar. Hat eine dieser Gleichungen mehrere Lösungen, so auch AX = B. 246 §3. LINEARE GLEICHUNGSSYSTEME 2.6 Berechnung der inversen Matrix. Das Invertieren einer (n × n)-Matrix A interpretieren wir als simultanes Lösen von Ax1 = e1 , . . . , Axn = en . Nachdem wir die Lösungsvektoren x1 , . . . , xn durch simultane Gauß-Elimination bestimmet haben, erhalten wir A−1 , indem wir die Lösungen als Spalten eintragen. Falls bei der Gauß-Elimination eine Einrückung (und damit eine Nullzeile) auftritt, ist A nicht invertierbar. Beispiel. 0 A = 1 2 1 3 −1 −1 2 . 12 Ausgangsschema P1,2 (Z1 ↔ Z2) E1,−2,3 (Z3 → Z3 − 2Z1) E2,7,3 (Z3 → Z3 + 7Z2) E3,1,2 , E3,−2,1 (Z2 → Z2 + Z3, Z1 → Z1 − 2Z3) E2,−3,1 (Z1 → Z1 − 3Z2) 0 1 2 1 −1 1 3 2 0 −1 12 0 0 1 0 0 0 1 1 0 2 3 2 0 1 −1 1 −1 12 0 1 0 0 0 0 1 1 0 0 3 2 0 1 −1 1 −7 8 0 1 0 0 0 −2 1 1 3 0 1 0 0 2 0 −1 1 1 7 1 0 0 0 −2 1 1 3 0 0 1 0 0 0 1 −14 5 −2 8 −2 1 7 −2 1 1 0 0 0 1 0 0 0 1 −38 11 −5 8 −2 1 7 −2 1 Nach Erzeugen der Zeilenstufenform haben wir das Aufrollen derart gestaltet, dass wir auch oberhalb der Diagonalen Nullen erzeugt haben. Wir erhalten −38 11 −5 −2 1 A−1 = 8 7 −2 1 Anmerkung. Um ein quadratisches LGS Ax = b mit einer invertierbaren Matrix A zu lösen, ist die Berechnung der inversen Matrix A−1 zur Bestimmung der Lösung x = A−1 b i.A. zu aufwendig — eine Gauß-Elimination geht schneller. Das kann sich ändern, falls das LGS für mehrere rechte Seiten gelöst werden muss. 2.7 Gauß-Elimination und Rang-Bestimmung. Wir machen uns klar, dass keine der elementaren Zeilenumformungen die Anzahl der linear unabhängigen Spalten, bzw. Zeilen von A ändert. Wir können also die Gauß-Elimination auch zur Rangbestimmung heranziehen. Beispiel. Wir bestimmen den Rang einer Matrix durch Gauß-Elimination 0 2 1 0 1 −2 3 1 1 −2 3 1 1 rg 1 −2 3 1 = rg 0 2 1 0 = rg 0 2 1 0 = rg 0 2 −2 7 2 2 −2 7 2 0 2 1 0 0 −2 2 0 3 1 1 0 = 2. 0 0 Das LGS Ax = b wird also nicht für jede rechte Seite b lösbar sein. Wenn es lösbar ist, so wird die Lösungsmenge 4 − rg(A) = 2 freie Parameter haben. 247 KAPITEL 5. LINEARE ALGEBRA 2.8 Eigenschaften des Ranges. In 1.5 hatten wir den Rang von A als die Dimension von Bild(A), d.h. der Anzahl der linear unabhängigen Spalten von A eingeführt. Die Gauß-Elimination besagt nun, dass der Rang auch die Anzahl der linear unabhängigen Zeilen von A liefert. Der Rang einer Matrix A ∈ Km×n gibt gleichzeitig an • die Maximalzahl der linear unabhängigen Spalten von A, • die Maximalzahl der linear unabhängigen Zeilen von A, • die Dimension des von den Spalten von A aufgespannten Teilraums von Km , • die Dimension des von den Zeilen von A aufgespannten Teilraums von Kn . Es gilt rg(A) = rg(AT ) ≤ min{m, n}. 2.9 Zusammenfassung. Durch gezielte Anwendung von elementaren Zeilenumformungen können wir lineare Gleichungssysteme lösen. Das LGS ändert sich im Laufe der Umformungen, die Lösungsmenge bleibt erhalten. Analog können wir durch gezielte Anwendung von Zeilen- und Spaltenumformungen den Rang einer Matrix bestimmen. Alle im Laufe der Umformungen auftretenden Matrizen haben denselben Rang. In 2.8 werden wir sehen, dass wir die elementaren Zeilen- und Spaltenumformungen auch zur Berechnung von Determinaten einsetzen können. §4 1 Determinanten Beispiele und Definition 1.1 Wiederholung. Wir hatten in 3.§2.3 und 3.§4.2 Determinanten für (2 × 2)- und (3 × 3)-Matrizen eingeführt durch a a1,2 det 1,1 = a1,1 a2,2 − a1,2 a2,1 , a2,1 a2,2 a1,1 a1,2 a1,3 det a2,1 a2,2 a2,3 = ha1 × a2 |a3 i = ha2 × a3 |a1 i = ha3 × a1 |a2 i = a3,1 a3,2 a3,3 = a1,1 a2,2 a3,3 + a1,2 a2,3 a3,1 + a1,3 a2,1 a3,2 −a1,3 a2,2 a3,1 − a1,2 a2,1 a3,3 − a1,1 a2,3 a3,2 . Beide Definitionen haben folgende Gemeinsamkeiten: • zwei Vektoren im R2 bzw. drei Vektoren im R3 — anders aufgefasst: einer (2×2)- bzw. (3×3)-Matrix — wird eine reelle Zahl zugeordnet. • det(E2 ) = 1, det(E3 ) = 1, • wenn man zwei Spalten vertauscht, so ändert die Determinante ihr Vorzeichen, • die Determinante ist linear in jeder Spalte und u.a. folgende Nutzanwendungen: • Basistest: die Determinante verschwindet genau dann nicht, wenn die Spaltenvektoren eine Basis bilden, • Volumen: der Betrag der Determinante gibt die Fläche bzw. das Volumen des von den Spaltenvektoren aufgespannten Parallelogramms bzw. Spats an, • Orientierung: die Determinante ist genau dann positiv, wenn die Spaltenvektoren eine Basis bilden, die dieselben Orientierung wie die Standardbasis hat. 248 §4. DETERMINANTEN Wenn wir nun allgemein die Determinante von n Vektoren im Kn bzw. einer aus diesen Vektoren gebildeten (n × n)-Matrix erklären wollen, so sollten wir dies nicht durch Angabe einer (höchstwahrscheinlich recht komplizierten) Formel tun, sondern unter Verwendung der grundlegenden Eigenschaften. 1.2 Determinantenformen. Eine Abbildung f : Kn × · · · × Kn → K, die für n ≥ 2 jeweils n Vektoren im Kn eine Zahl aus dem Grundkörper K zuordnet, heißt eine Determinantenform auf dem Kn , wenn sie eine normierte alternierende Multilinearform ist. Das bedeutet: (DF1) Normiertheit: f (e1 , . . . , en ) = 1 für die kanonische Basis e1 , . . . , en des Kn . (DF2) Alternieren: f (. . . , aj , . . . , ak . . .) = −f (. . . , ak , . . . , aj . . .), beim Vertauschen zweier Spalten ändert sich das Vorzeichen. (DF3) Multilinearität: f (. . . , λ1 a1 + λ2 a2 , . . .) = λ1 f (. . . , a1 , . . .) + λ2 f (. . . , a2 , . . .), in jedem der n Argumente ist f linear bei festgehaltenen restlichen Spalten. Zunächst ist weder klar, ob für ein n ≥ 2 überhaupt eine Determinantenform existiert, noch ob selbige im Existenzfall eindeutig bestimmt ist. Bevor wir diese Fragen klären, geben wir Rechenregeln an, die unmittelbar aus den definierenden Eigenschaften folgen. 1.3 Alternierende Multilinearformen und lineare Unabhängigkeit. Ist f eine alternierende Multilinearform auf dem Kn , so gilt f (a1 , . . . , an ) = 0 falls a1 , . . . , an ∈ Kn linear abhängig sind. Insbesondere gilt f (a1 , . . . , an ) = 0, falls zwei der Einträge gleich sind, d.h. aj = ak für j 6= k. Beweis. Wir beweisen zuerst die zweite Aussage. Ist f alternierend, so ergibt sich bei zwei gleichen Einträgen durch Vertauschen f (. . . , a, . . . , a, . . .) = −f (. . . , a, . . . , a, . . .), d.h. f (. . . , a, . . . , a, . . .) = 0. Sind nun a1 , . . . , an linear abhängig, so lässt sich einer dieser Vektoren, etwa a1 , als Linearkombination Pn der anderen darstellen: a1 = k=2 λk ak . Mit der Linearität von f und dem zuvor Bewiesenen folgt nun f (a1 , a2 , . . . , an ) = n X k=2 λk f (ak , a2 , . . . , an ) {z } | = 0. =0 da zwei gleiche Einträge 1.4 Existenz und Eindeutigkeit der Determinantenform. Für jedes n ≥ 2 existiert eine Determinantenform auf dem Kn . Selbige ist eindeutig bestimmt und wird mit det bezeichnet. Für eine quadratische Matrix A ∈ Kn×n mit Spalten a1 , . . . , an erklären wir die Determinante durch det(A) := det(a1 , . . . , an ) und schreiben dafür auch |A|, |(aj,k )|, a1,1 .. . an,1 ··· aj,k ··· a1,n .. . . an,n Beweis∗ . Wir beweisen zunächst die Eindeutigkeit und zeigen hierzu: Stimmen zwei alternierende Multilinearformen f und g auf der kanonischen Basis des Kn überein, so sind sie gleich. Wenn dies bewiesen ist, so liefert die Normiertheit (DF1) die Eindeutigkeit. Sind f und g zwei alternierende Multilinearformen mit f (e1 , . . . , en ) = g(e1 , . . . , en ), so gilt für h := f − g dann h(e1 , . . . , en ) = 0. Durch sukzessives Vertauschen von zwei Einträgen erhalten wir h(ek1 , . . . , ekn ) = 0 für jede beliebige Verteilung der n Basisvektoren auf die n Einträge von h. Die Linearität von h in jeder Komponente liefert dann h(a1 , . . . , an ) = 0 für jeden Satz von Vektoren a1 , . . . , an ∈ Kn . Also verschwindet h identisch und es folgt f = g. Die Existenz einer Determinantenform beweisen wir konstruktiv durch vollständige Induktion, d.h. wir geben eine Determinantenform D2 auf dem K2 an und zeigen, wie wir aus einer Determinantenform Dn−1 auf dem Kn−1 eine Determinantenform Dn auf dem Kn erhalten. 249 KAPITEL 5. LINEARE ALGEBRA Induktionsverankerung: Für n = 2 verwenden wir natürlich die schon bekannte Determinantenform D2 (A) := a1,1 a2,2 − a1,2 a2,1 . Induktionsschritt: Wir nehmen an, dass wir für ein n ≥ 3 schon eine Determinantenform Dn−1 auf dem Kn−1 konstruiert haben. Für A ∈ Kn×n und j, k ∈ {1, . . . , n} bezeichnen wir die ((n−1)×(n−1))-Matrix, die aus A durch Streichen der j-ten Zeile und der k-ten Spalte entsteht, mit Aj,k und setzen Dn (A) := n X (−1)j+k aj,k Dn−1 (Aj,k ) j=1 für ein k ∈ {1, . . . , n}. Wir müssen zeigen, dass Dn eine Determinantenform auf dem Kn ist. Normiertheit: Für A = En gilt aj,j = 1 und Aj,j = En−1 bzw. aj,k = 0 für j 6= k. Da Dn−1 eine Determinantenform ist, folgt zunächst aj,j Dn−1 (Aj,j ) = 1 und aj,k Dn−1 (Aj,k ) = 0 für j 6= k, anschließend dann Dn (En ) = 1. Alternieren: Man macht sich zunächst klar, dass es genügt zu zeigen, dass Dn (A) = 0 verschwindet, falls in A zwei benachbarte Spalten gleich sind. Gilt nun ak0 = ak0 +1 , so hat Aj,k für k 6= k0 , k0 + 1 zwei gleiche Spalten und es folgt Dn−1 (Aj,k ) = 0 nach Induktionsvoraussetzung. Damit gilt Dn (A) = (−1)j+k0 aj,k0 Dn−1 (Aj,k0 ) + (−1)j+k0 +1 aj,k0 +1 Dn−1 (Aj,k0 +1 ). Wegen ak0 = ak0 +1 gilt aber aj,k0 = aj,k0 +1 und Aj,k0 = Aj,k0 +1 . Damit haben wir Dn (A) = 0. Multilinearität: Wir zeigen, dass jeder Summand aj,k Dn−1 (Aj,k ) multilinear ist. Da Aj,k bezüglich aj konstant ist, ist aj 7→ aj,k Dn−1 (Aj,k ) linear. Für i 6= j hängt aj,k nicht von ai ab, und ai 7→ aj,k Aj,k ist nach Induktionsvoraussetzung linear in ai . Damit ist der Induktionsschritt abgeschlossen und der Beweis beendet. 2 Eigenschaften der Determinante 2.1 Laplacescher Entwicklungssatz. Die Determinante einer n × n-Matrix A = (aj,k ) lässt sich auf 2n Arten durch ((n − 1) × (n − 1))-Determinanten berechnen: |A| = = n X (−1)j+k aj,k |Aj,k | j=1 n X (−1)j+k aj,k |Aj,k | für k = 1, . . . , n (Entwicklung nach der k-ten Spalte), für j = 1, . . . , n (Entwicklung nach der j-ten Zeile). k=1 Dabei bezeichnet Aj,k diejenige ((n − 1) × (n − 1))-Matrix, die aus A durch Streichen der j-ten Zeile und der k-ten Spalte entsteht. Symbolisch merkt man sich das in der (hier für die Entwicklung nach der dritten Spalte angegebenen) Form + − + .. . ± + · · · ± × − · · · ∓ + · · · ∓ = • × .. .. .. . . . × ∓ ± ··· + − + − .. . • × × .. . × × · · · × · · · × − • × .. .. . . × ··· × × · · · × × • × · · · × + • .. .. .. . . . × × ··· × × × · · · × × · · · × • − · · · ± • × .. .. .. . . . × ··· × × × × × × .. . · · · × · · · × · · · × . .. . • 250 §4. DETERMINANTEN Beweis. Die Entwicklung nach einer Zeile ist gerade die im Induktionsbeweis in 1.4 für die Existenz der Determinante verwendete Formel. Die Eindeutigkeit der Determinantenform liefert daher die Gültigkeit der Formel für die Entwicklung nach einer Zeile. Die Entwicklung nach einer Spalte erhalten wir dann sofort durch Übergang zur transponierten Matrix, sobald wir den folgenden Satz bewiesen haben. Beispiel. Man wendet den Entwicklungssatz zweckmäßig auf eine Zeile oder Spalte an, die möglichst viele Nullen enthält — hier die zweite Spalte: 2 1 2 1 2 2 1 2 2 1 2 2 1 1 1 3 1 0 1 3 1+2 ·1· 4 2 0 + (−1)2+2 ·0· 4 2 0 + (−1)3+2 ·0· 1 1 3 + (−1)4+2 ·2· 1 1 3 4 0 2 0 = (−1) 4 2 0 5 0 2 5 0 2 5 0 2 5 2 0 2 1 3 4 0 2+2 1+2 − (−1) ·2· = −(−1) ·1· 5 2 5 2 2 2 1 1 2+3 1+3 + 2(−1) ·3· +2(−1) ·1· 4 2 4 2 = (4 · 2 − 5 · 0) − 2(1 · 2 − 3 · 5) + 2(1 · 2 − 1 · 4) − 6(2 · 2 − 4 · 2) = 54. 2.2 Determinante der Transponierten. Für jede quadratische Matrix A gilt det(AT ) = det(A). Beweisidee∗ . (Details siehe z.B. [FiKau, Band 1, §17.3].) Sind z1 , . . . , zn die Spalten von AT , d.h. die Zeilen von A, so betrachtet man f (z1 , . . . , zn ) := |A| und zeigt, dass dies eine Determinantenform ist. Aus der Eindeutigkeit der Determinante folgt dann f (z1 , . . . , zn ) = |AT |, d.h. |A| = |AT |. 2.3 Multiplikationssatz. Für A, B ∈ Kn×n gilt |AB| = |A||B|. Beweisidee∗ . Für A, B ∈ Kn×n bezeichnen wir die Spalten von B mit b1 , . . . , bn und betrachten f (b1 , . . . , bn ) := det(Ab1 , . . . , Abn ) = |AB|, g(b1 , . . . , bn ) := |A| det(b1 , . . . , bn ) = |A||B|. Man mache sich klar, dass f und g beide alternierende Multilinearformen sind. Aus f (e1 , . . . , en ) = det(a1 , . . . , an ) = |A|, g(e1 , . . . , en ) = |A| det(e1 , . . . , en ) = |A| erhalten wir nach Normieren mit der Eindeutigkeit der Determinantenform f = g, d.h. |AB| = |A||B|. 2.4 Determinante einer invertierbaren Matrix. Eine quadratische Matrix A ist genau dann invertierbar, wenn |A| = 6 0. Dann gilt 1 |A−1 | = . |A| Das folgt aus dem Multiplikationssatz für AA−1 = E. 2.5 Determinante einer linearen Abbildung. Ähnliche Matrizen haben dieselbe Determinante: |S −1 AS| = |A|. Beweis. |S −1 AS| = |S −1 ||A||S| = 1 |S| |A||S| = |A|. Damit können wir einer linearen Abbildung L ∈ L(V ) eine Determinante zuordnen. Ist V ein n-dimensionaler Vektorraum, so hängt für eine lineare Abbildung L : V → V die Zahl |MB (L)| nicht von der Wahl der Basis B von V ab. Wir bezeichnen diese Zahl mit det(L) und nennen sie Determinante von L. 251 KAPITEL 5. LINEARE ALGEBRA 2.6 Determinante einer Dreiecksmatrix. Für Dreiecksmatrizen erhalten wir sofort durch sukzessives Anwenden des Entwicklungssatzes a1,1 0 ··· 0 a1,1 a1,2 · · · a1,n .. 0 a2,2 a2,n a2,1 a2,2 . = a1,1 a2,2 · · · an,n = . .. . . . .. .. .. . .. . 0 0 ··· 0 an,n an,1 an,2 · · · an,n Eine Dreiecksmatrix ist genau dann invertierbar, wenn kein Diagonaleintrag verschwindet. 2.7∗ Vandermondesche Determinante. Für λ1 , . . . , λn ∈ K gilt 1 λ1 λ1 2 · · · λ1 n−1 1 λ2 λ2 2 · · · λ2 n−1 Y (λk − λj ). = . . . . . . . . . . . . 1≤j<k≤n 1 λ λ 2 · · · λ n−1 n n n Beweis. Wir beweisen die Formel durch Induktion nach n. Die Induktionsverankerung ist klar. Für den Induktionsschritt n − 1 → n ziehen wir das λ1 -fache der vorletzten Spalte von der letzten, anschließend das λ1 -fache der drittletzten von der vorletzten ab und so fort bis wir zum Schluss das λ1 -fache der ersten Spalte von der zweiten abgezogen haben. Durch Entwickeln nach der ersten Zeile und mit Ausklammern folgt dann mit der Induktionsvoraussetzung 1 λ1 λ1 2 · · · λ1 n−1 1 0 0 ··· 0 1 λ2 λ2 2 · · · λ2 n−1 1 λ2 − λ1 λ2 2 − λ1 λ2 · · · λ2 n−1 − λ1 λ2 n−2 . .. .. .. .. .. .. = .. .. . . . . . . . 2 n−1 n−2 2 n−1 1 λ 1 λn − λ1 λn − λ1 λn · · · λn − λ1 λn λn · · · λn n λ2 − λ1 λ2 2 − λ1 λ2 · · · λ2 n−1 − λ1 λ2 n−2 .. .. .. = . . . λn − λ1 λn 2 − λ1 λn · · · λn n−1 − λ1 λn n−2 1 λ2 λ2 2 · · · λ2 n−2 .. .. .. = (λ2 − λ1 ) · · · (λn − λ1 ) ... . . . 1 λn λn 2 · · · λn n−2 n Y Y Y = (λk − λ1 ) (λk − λj ) = (λk − λj ). k=2 2≤j<k≤n 1≤j<k≤n Damit ist der Induktionsbeweis beendet. 2.8 Berechnung der Determinante durch Gauß-Elimination. Die Idee der Gauß-Elimination lässt sich auch für die Berechnung von Determinanten einsetzen, indem man selbige in Stufenform bringt. Wir notieren die Wirkung der elementaren Zeilenumformungen, die bei Determinanten auch zusammen mit analog wirkenden Spaltenumformungen benutzt werden können. (a) Die Determinante von A wechselt ihr Vorzeichen, wenn man zwei Spalten oder zwei Zeilen von A vertauscht. (b) Die Determinante von A ändert sich um den Faktor c, wenn man die Einträge einer Spalte oder einer Zeile mit c multipliziert. (c) Die Determinanten von A ändert sich nicht, wenn man ein beliebiges Vielfaches einer Spalte bzw. Zeile zu einer anderen Spalte bzw. Zeile addiert. Beweis. Für die Spalten folgt das aus der Linearität der Determinante, für die Spalten dann aus 2.2. 252 §4. DETERMINANTEN Beispiel. 2 1 2 1 0 1 4 0 2 5 2 0 1 3 0 2 1 2 2 1 1 3 Z4→Z4−2Z1 0 1 1 3 = − 0 0 4 2 0 0 1 −4 0 2 1 1 2 2 1 Z4→Z4+5Z3 0 0 1 1 Z3→−1/2Z3 3 = 2 = −(−2) 6 0 0 0 1 0 0 0 −5 −3 1 0 S1↔S2 = − 0 2 2 1 4 5 2 1 2 0 1 2 Z3→Z3−4Z1 0 1 Z4→Z4−Z2 = − 0 0 0 0 2 2 1 1 1 3 = 54. 0 1 6 0 0 27 2 1 −2 −5 1 3 −12 −3 Für große Matrizen ist die Determinantenberechnung mittels Gauß-Elimination mit O(n3 ) Rechenoperationen i.A. viel effektiver als die Anwendung des Entwicklungssatzes mit O(n!) Rechenoperationen. 3 Anwendungen 3.1 Überblick. In diesem Abschnitt geben wir zwei Anwendungen der Determinante: wir gehen auf die Grundlagen des n-dimensionalen Volumenbegriffs ein und erklären für Vektorraumbasen eine Orientierung. 3.2 Parallelotope. Unter einem n-dimensionalen Parallelotop verstehen wir eine Menge der Form ) ( n X λk ak | λ1 , . . . λn ∈ [0, 1] . a0 + P (a1 , . . . , an ) := a0 + k=1 Ist der „Aufhängpunkt“ a0 des Parallelotops der Nullvektor, so schreiben wir einfach P (a1 , . . . , an ). Beispiele. Ein eindimensionales Parallelotop a0 + P (a1 ) ist eine Strecke mit den Endpunkten a0 und a0 + a1 , ein zweidimensionales Parallelotop a0 + P (a1 , a2 ) ist ein von den Vektoren a1 , a2 aufgespanntes Parallelogramm mit einer Ecke in a0 , ein dreidimensionales Parallelotop ist ein Spat. P (e1 , . . . , en ) = {x ∈ Rn | 0 ≤ x1 , . . . , xn ≤ 1} ist der n-dimensionale Einheitswürfel . R1 R2 R3 a0 + a3 a0 + a2 r a0 r a0 + a1 a0 + a2 a0 + a1 a0 a0 + a1 a0 Abbildung 5.1: n-dimensionale Parallelotope für n = 1, 2, 3. 3.3 Grundeigenschaften des n-dimensionalen Volumens. Wir wollen hier noch keinen allgemeinen Volumenbegriff für n-dimensionale Figuren einführen. Dass dies ein ambitioniertes Unterfangen ist, haben wir schon für n = 2 in unserem Einstieg in die Integrationstheorie 4.§4.1.1 erkannt. Die folgenden plausiblen Grundannahmen für einen allgemeinen Volumenbegriff können wir aber schon jetzt an Parallelotopen studieren. Das Volumen eines Parallelotops a0 + P (a1 , . . . , an ) soll nur von den aufspannenden Vektoren a1 , . . . , an abhängen. Wir bezeichnen es mit V (a1 , . . . , an ). Ferner fordern wir 253 KAPITEL 5. LINEARE ALGEBRA (Vol1) positive Homogenität in jede Richtung: V (. . . , λak , . . .) = |λ|V (. . . , ak , . . .) für k = 1, . . . , n und λ ∈ R. (Vol2) Cavalierisches Prinzip: V (. . . , aj + λak , . . . , ak , . . .) = V (. . . , aj , . . . , ak , . . .) für j, k = 1, . . . , n, j 6= k und λ ∈ R. (Vol3) Normierung Der Einheitswürfel hat das Volumen 1: V (e1 , . . . , en ) = 1. Gemäß (Vol1) wächst das Volumen um den Faktor |λ|, wenn ein Parallelotop in eine Richtung um den Faktor λ gestreckt bzw. gestaucht wird. Das Cavalierische Prinzip besagt, dass zwei Körper volumengleich sind, wenn sie in jeder zur Grundebene parallelen Ebene flächengleiche Figuren ausschneiden. Das wurde schon von Archimedes, Kepler und Galileo verwendet. Man stelle sich einen Spat als einen Stapel dünner Blätter vor, dessen Volumen sich beim Verrutschen nicht ändert. Abbildung 5.2: Cavalierisches Prinzip. 3.4 Volumen und Determinante. Es gibt nur ein Volumen V : Rn × · · · × Rn → R, das die drei Forderungen (1)–(3) erfüllt: V (a1 , . . . , an ) = | det(a1 , . . . , an )|. Beweisidee∗ . Man macht sich leicht klar, dass | det(a1 , . . . , an )| die drei geforderten Eigenschaften hat. Zum Nachweis der Eindeutigkeit betrachtet man ( V (a1 ,...,an ) det(a1 , . . . , an ) falls a1 , . . . , an linear unabhängig, f (a1 , . . . , an ) := | det(a1 ,...,an )| 0 sonst und zeigt, dass f eine Determinantenform ist (Details siehe z.B. [FiKau, Band 1, §17.4]). 3.5 Affine Abbildungen. Eine Abbildung T : Rn → R n , x 7→ Ax + b, mit vorgegebenen A ∈ Rn×n und b ∈ Rn nennen wir eine affine Abbildung des Rn . In den Anwendungen ist man oft schlampig und sagt statt „affin“ auch „linear“, obwohl das nur den Fall b = 0 trifft. Beispiele. Eine Verschiebung x 7→ x+b um den Vektor b ist eine affine Abbildung. Ist A eine Drehmatrix in der Ebene oder im Raum, so ist x 7→ Dx + b eine affine Abbildung, die im Fall b = 0 den Ursprung fest lässt. 254 §4. DETERMINANTEN 3.6 Volumenänderung bei affinen Abbildungen. Eine affine Abbildung T (x) = Ax + b bildet das Parallelotop P := a0 + P (a1 , . . . , an ) auf das Parallelotop T (P ) := Aa0 + b + P (Aa1 , . . . , Aan ) ab. Das Volumen ändert sich dabei gemäß V (T (P )) = | det(A)|V (P ). Eine affine Abbildung x 7→ Ax + b ändert das Volumen eines Parallelotops um den Faktor | det(A)|. Beweis. Mit der Translationsinvarianz und dem Multiplikationssatz für Determinanten 2.3 folgt V (T (P )) = | det(Aa1 , . . . , Aan )| = | det(A) det(a1 , . . . , an )| = | det(A)|V (P ). 3.7 Orientierung und Determinante. Zwei Basen B und C eines R-Vektorraums V heißen gleichorientiert, wenn die Transformationsmatrix S = MBC (idV ) positive Determinante hat. Ist det(S) < 0, so heißen die beiden Basen entgegengesetzt orientiert. Für C-Vektorräume erklärt man keine Orientierung. Die Gesamtheit der Basen eines R-Vektorraums zerfällt so in zwei disjunkte Klassen. Im Rn ist diejenige Klasse vor der anderen ausgezeichnet, welche die Standardbasis (e1 , . . . , en ) enthält. Wir nennen die Standardbasis im Rn und alle gleichorientierten Basen positiv orientiert, die anderen negativ orientiert. Achtung. Orientierung überträgt sich nicht vom Vektorraum auf Teilräume. Auf eine Ebene E im R3 beispielsweise haben wir keine natürlich ausgezeichnete Orientierung — wir können die Ebene von zwei Seiten betrachten. Wir müssen also erst innerhalb von E eine Basis auszeichnen. 3.8 Orientierungstreue lineare Abbildungen. Eine bijektive lineare Abbildung L : V → V eines R-Vektorraums V auf sich nennen wir orientierungstreu, wenn L jede Basis von V in eine gleichorientierte Basis überführt. Eine lineare Abbildung L ∈ L(V ) ist genau dann orientierungstreu, wenn det(L) > 0. Beweis. Gemäß 3.10 und 2.5 ist L genau dann bijektiv, wenn det(L) 6= 0. Ist B = (v1 , . . . , vn ) dann eine Basis von V , so ist die Transformationsmatrix von B auf die Basis C := (L(v1 ), . . . , L(v2 )) gerade die Darstellungsmatrix von L bezüglich B, d.h. MBC (idV ) = MB (L). Durch Determinantenbildung folgt hieraus die Behauptung. Beispiel. Eine Drehung in der Ebene (vgl. 3.§2.6.1) mit der Drehmatrix Uϕ = cos ϕ − sin ϕ sin ϕ cos ϕ ist orientierungstreu, da det(Uϕ ) = cos2 ϕ+sin2 ϕ = 1. Eine Spiegelung in der Ebene wird nach geeigneter Koordinatenwahl durch die Matrix 1 0 S= 0 −1 beschrieben und ist wegen det(S) = −1 nicht orientierungstreu. 255 KAPITEL 5. LINEARE ALGEBRA §5 1 Eigenwerttheorie Das Eigenwertproblem bei Matrizen 1.1 Gekoppelte Pendel. Wir betrachten zwei Pendel der Masse m (konzentriert im Schwerpunkt), die durch eine Feder der Federhärte k gekoppelt sind. Bei kleinen Auslenkungen aus der Ruhelage ϕ1 = 0 = ϕ2 lauten die Newtonschen Bewegungsgleichungen l mlϕ̈1 = −mgϕ1 + k(ϕ2 − ϕ1 ), mlϕ̈2 = −mgϕ2 + k(ϕ1 − ϕ2 ), ϕ1 ẍ1 = −αx1 + β(x2 − x1 ), = −αx2 + β(x1 − x2 ), d.h. m m Abbildung 5.3: Gekoppelte Pendel. ẍ(t) = Ax(t) ϕ2 k oder kurz in den Variablen x1 := mlϕ1 , x2 := mlϕ2 und mit positiven Konstanten α := g/l, β := k/(ml) ẍ2 l mit A := β , −α − β −α − β β x(t) := x1 (t) . x2 (t) Beim Versuch, dieses System von Differentialgleichungen zu lösen, geraten wir in ein Dilemma: beide DGL sind miteinander gekoppelt, keine kann für sich alleine gelöst werden. Gehen wir zu den neuen Variablen y1 := x1 − x2 und y2 := x1 + x2 über, d.h. transformieren wir gemäß 1 1 1 1 −1 −1 −1 x = Sy, y=S x mit S = , S = , 1 1 2 −1 1 so erhalten wir das DGL-System ÿ(t) = d2 −1 S x(t) = S −1 ẍ(t) = S −1 Ax(t) = |S −1 {zAS} y(t) dt2 :=B mit einer Systemmatrix B = S −1 AS = d.h. mit ω1 := √ α, ω2 := 1 1 −1 −α − β 1 β β −α − β 1/2 −1/2 1/2 1/2 = −α 0 0 , −α − 2β √ α + 2β, ÿ1 (t) −ω1 2 = 0 ÿ2 (t) 0 −ω2 2 y1 (t) −ω1 2 y1 (t) = . y2 (t) −ω2 2 y2 (t) Dieses „entkoppelte“ System können wir komponentenweise lösen und erhalten y1 (t) = a1 cos ω1 t + b1 sin ω1 t, y2 (t) = a2 cos ω2 t + b2 sin ω2 t, Rücktransformation mit x = Sy liefert uns dann auch eine Lösung für das ursprünglich gegebene DGLSystem. Was ist da passiert? Wir haben eine geschickte Variablensubstitution vorgenommen, die zwar etwas vom Himmel fällt (allerdings auch eine sinnvolle physikalische Interpretation besitzt), dafür aber das DGLSystem in eine einfache Form bringt. Ist so etwas immer möglich? Wie findet man solch eine Substitution? Damit wollen wir uns jetzt systematisch beschäftigen. 256 §5. EIGENWERTTHEORIE 1.2 Diagonalisierbare Matrizen. Eine (n × n)-Matrix A heißt diagonalisierbar oder diagonalähnlich, wenn es eine invertierbare (n × n)-Matrix S gibt, so dass λ1 .. S −1 AS = =: diag(λ1 , . . . , λn ) = D . λn eine Diagonalmatrix ist. Wir erinnern uns an §2.4. Wir suchen für die zu A gehörige lineare Abbildung L eine Basis, bezüglich der L durch eine Diagonalmatrix D dargestellt wird. Gehen wir vom Kn mit der Standardbasis aus, so wird diese Basis gerade aus den Spalten v1 , . . . , vn des Basiswechsels S gebildet und es gilt dann Avk = λk vk für k = 1, . . . , n, AS = SD. d.h. Die Abbildung L wirkt also in Richtung des k-ten Basisvektors vk wie eine Streckung um λk . Damit sind wir bei dem folgenden Problem angelangt. 1.3 Das Eigenwertproblem. Gegeben ist eine Matrix A ∈ Kn×n . Gesucht sind alle λ ∈ K, so dass Av = λv n nichttrivale Lösungen v ∈ K besitzt. Jede solche Zahl λ heißt Eigenwert, jede Lösung v 6= 0 Eigenvektor zum Eigenwert λ. Mit diesen Begriffen können die Frage nach Diagonalähnlichkeit umformulieren. 1.4 Diagonalisierbarkeit. Eine (n × n)-Matrix A ist genau dann diagonalisierbar, wenn es eines Basis des Kn aus Eigenvektoren von A gibt. Die zugehörige Diagonalmatrix hat dann als Diagonaleinträge die Eigenwerte von A. Dieses Kriterium ist nutzlos, solange wir nicht wissen, ob und wie wir uns eine Basis aus Eigenvektoren beschaffen können. Darum müssen wir uns jetzt genauer mit Eigenwerten und Eigenvektoren beschäftigen. In 1.11 erhalten wir ein praktikables Kriterium für Diagonalisierbarkeit, in §5.4 diskutieren wir zwei wichtige Klassen diagonalisierbarer Matrizen, die symmetrischen und die hermiteschen. 1.5 Charakteristisches Polynom. Wie finden wir nun heraus, für welche λ die Gleichung Av = λv nichttriviale Lösungen besitzt? Wir schreiben die Gleichung hierzu in der Form 0 = λv − Av = λEn v − Av = (λEn − A)v. Dieses homogene LGS muss also nichttriviale Lösungen besitzen, damit λ tritt genau dann ein, wenn die Matrix λEn − A nicht invertierbar ist, d.h. λ − a1,1 −a1,2 ··· −a1,n −a2,1 λ − a −a 2,2 2,n det(λEn − A) = .. . . .. .. . −an,1 −an,2 ··· ein Eigenwert von A ist. Das genau dann, wenn = 0. λ − an,n Durch Anwendung des Laplaceschen Entwicklungssatzes 2.2.1 machen wir uns klar, dass χA : K → K, χA (t) := det(tEn − A) für t ∈ K, ein normierts Polynom in der Variablen t vom Grad n ist. Dieses Polynom heißt charakteristisches Polynom der Matrix A. Den Koeffizienten bei tn−1 können wir bei der Laplace-Entwicklung noch gut ablesen, der konstante Koeffizient entpuppt sich nach Einsetzen von t = 0 als eine vorzeichenbehaftete Determinante. Damit gilt χA (t) = tn − (a1,1 + a2,2 + · · · + an,n )tn−1 ± · · · + (−1)n det(A). Die Summe der Diagonaleinträge Spur(A) := a1,1 + a2,2 + · · · + an,n heißt Spur der Matrix A. KAPITEL 5. LINEARE ALGEBRA 257 Anmerkung. Manchmal wird das charakteristische Polynom auch durch det(A − tEn ) definiert. Wegen det(A − tEn ) = (−1)n det(tEn − A) = (−1)n χA (t) ist das aber kein großer Unterschied. Die Spur wird im angelsächsischen mit tr(A) („trace“) bezeichnet. Die Eigenwerte von A ∈ Kn×n sind gerade die Nullstellen des charakteristischen Polynoms χA . Die zum Eigenwert λ gehörigen Eigenvektoren sind gerade die nichttrivialen Lösungen von (λEn − A)v = 0. 1.6 Eigenräume. Ist λ ein Eigenwert von A ∈ Kn×n , so nennen wir die aus dem Nullvektor und allen zu λ gehörigen Eigenvektoren gebildete Menge den Eigenraum des Eigenwerts λ und schreiben dafür NA,λ = Kern(λEn − A) = {v ∈ Kn | (λEn − A)v = 0}. Falls klar ist, um welche Matrix es gerade geht, schreiben wir auch Nλ statt NA,λ . Beispiel. Die (n×n)-Einheitsmatrix hat nur den Eigenwert 1, die (n×n)-Nullmatrix nur den Eigenwert 0. Je nachdem, ob man diese Matrizen in Rn×n oder Cn×n betrachtet, sind die Eigenräume Rn bzw. Cn . Die Projektion im R2 auf die erste Koordinate hat (bezüglich der Standardbasis) die Darstellungsmatrix 1 0 A= . 0 0 Diese Matrix hat die Eigenwerte 0 und 1. Offensichtlich gilt 1 0 0 N1 = Kern(E2 − A) = Kern = Span( ), 0 1 0 0 −1 0 N0 = Kern(−A) = Kern = Span( ). 0 0 1 1.7 Geometrische und algebraische Vielfachheit. Die Dimension des Eigenraums NA,λ berechnet sich nach der Dimensionsformel zu nA,λ := dim NA,λ = def(λEn − A) = n − rg(λEn − A) ≥ 1. Sie wird geometrische Vielfachheit genannt. Auch hier schreiben wir bisweilen einfach nλ statt nA,λ . Die Vielfachheit k, mit der λ als Nullstelle im charakteristischen Polynom χA vorkommt, heißt algebraische Vielfachheit. Wir sprechen dann auch von einem k-fachen Eigenwert. Es gilt dann χA (t) = (t − λ)k q(t) mit einem Polynom q vom Grad n − k mit q(λ) 6= 0. In §6.5.9 werden wir zeigen, dass zwischen diesen beiden Vielfachheiten folgende Beziehung besteht. Die geometrische Vielfachheit eines Eigenwerts ist höchstens so groß wie seine algebraische. Mit Vielfachheiten gezählt hat eine (n × n)-Matrix also höchstens n Eigenwerte. 1.8 Nicht jede Matrix ist diagonalisierbar. Die (n × n)-Matrix λ 1 λ 1 .. .. J = Jn,λ := (leere Einträge sind 0) . . λ 1 λ wird Jordan-Block der Größe n zum Eigenwert λ genannt. Wir werden ihr später noch begegnen. Mit J ist auch tEn − J eine obere Dreiecksmatrix. Da auf der Diagonalen nur die Einträge t − λ stehen, erhalten wir χJ (t) = det(tEn − J) = (t − λ)n . Daher ist λ ein n-facher und damit der einzige Eigenwert von J. Wegen 0 −1 1 . . .. .. 0 NJ,λ = Kern = Span( .. ) . 0 −1 0 0 hat λ nur einen eindimensionalen Eigenraum. Damit ist J für n ≥ 2 nicht diagonalisierbar. 258 §5. EIGENWERTTHEORIE 1.9 Achtung: Grundkörper beachten. Nach dem Fundamentalsatz der Algebra 2.§3.1.14 hat ein Polynom vom Grad n (mit Vielfachheiten gezählt) genau n komplexe Nullstellen. Damit hat eine Matrix A ∈ Cn×n (auch wenn sie reelle Koeffizienten hat) immer genau n Eigenwerte, falls man jeden Eigenwert so oft (d.h. algebraisch) zählt, wie er als Nullstelle in χA vorkommt. Eine Matrix aus Rn×n dagegen muss gar keine Eigenwerte besitzen — schließlich gibt es reelle Polynome, die keine reellen Nullstellen haben. Reelle Matrizen betrachtet man darum zunächst gerne über C. Anschließend muss man überlegen, was sich ins Reelle „hinüberretten“ lässt (vgl. das Beispiel in 1.12). Beispiel. Die zu einer Drehung im R2 um den Ursprung um π/2 gehörige Drehmatrix 0 −1 Uπ/2 = 1 0 hat das charakteristische Polynom t χUπ/2 (t) = −1 1 = t2 + 1. t Wenn man also Uπ/2 als eine reelle (2 × 2)-Matrix auffasst, so hat diese Matrix keinen Eigenwert. Das ist auch gut so, schließlich führt eine Vierteldrehung (außer dem Nullvektor, den wir als Eigenvektor explizit ausgeschlossen haben) keinen Vektor des R2 in ein Vielfaches seiner selbst über. Dagegen hat Uπ/2 als Matrix in C2×2 die zwei Eigenwerte ±i = e±iπ/2 . Eigenvektoren zu i und −i erhalten wir durch Bestimmung der Eigenräume i i 1 ), Ni = Kern(iE2 − Uπ/2 ) = Kern = Span( −1 i 1 1 −i 1 N−i = Kern(−iE2 − Uπ/2 ) = Kern = Span( ). −1 −i i Offensichtlich sind alle Eigenvektoren komplex. Wir wählen zu jedem Eigenwert einen Eigenvektor und bauen hieraus die Transformationsmatrix i 1 S := . 1 i Offensichtlich ist S invertierbar und es gilt 1 −i 1 0 −1 S AS = 1 2 1 −i −1 i 0 1 1 i = i 0 0 . −i Damit haben wir A durch eine Matrix mit einer Basis aus Eigenvektoren über C diagonalisiert. 1.10 Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. Sind λ1 , . . . , λr paarweise verschiedene Eigenwerte einer Matrix A und sind v1 , . . . , vr zugehörige Eigenvektoren, so sind diese linear unabhängig. Das beweisen wir in 2.6 in allgemeinerer Form, notieren aber jetzt schon eine Folgerung. Sind λ1 , . . . , λr paarweise verschiedene Eigenwerte einer Matrix A und sind B1 , . . . , Br Basen der zugehörigen Eigenräume Nλ1 , . . . , Nλr , so bilden diese zusammen eine linear unabhängige Menge. Nun können wir unser erstes Kriterium für Diagonalisierbarkeit 1.4 umschreiben: Um für den Kn eine Basis aus Eigenvektoren zu erhalten, muss die eben genannte linear unabhängige Menge aus n Vektoren bestehen. Die Summe der geometrischen Vielfachheiten aller Eigenwerte (das ist gerade die Summe der Dimensionen der zugehörigen Eigenräume) muss also die Raumdimension n ergeben. Da die geometrische Vielfachheit eines Eigenwerts nicht größer als die algebraische sein kann, muss dazu auch die Summe aller algebraischen Vielfachheiten n sein. Das bedeutet aber, dass das charakteristische Polynom mit Vielfachheiten gezählt genau n Nullstellen haben muss. Das fassen wir jetzt zusammen. 259 KAPITEL 5. LINEARE ALGEBRA 1.11 Kriterium für Diagonalisierbarkeit. Eine Matrix A ∈ Kn×n ist genau dann diagonalisierbar, wenn das charakteristische Polynom χA mit Vielfachheiten gezählt genau n Nullstellen in K besitzt und für jede Nullstelle die algebraische Vielfachheit mit der geometrischen übereinstimmt. Insbesondere ist eine (n × n)-Matrix diagonalisierbar, wenn das charakteristisch Polynom n paarweise verschiedene Nullstellen besitzt. 1.12 Spur- und Determinantenbedingung für Eigenwerte. Hat A ∈ Cn×n die verschiedenen Eigenwerte λ1 , . . . , λr mit algebraischen Vielfachheiten k1 , . . . , kr ∈ N, so gilt det(A) = λ1 k1 · · · λr kr . Spur(A) = k1 λ1 + · · · + kr λr , Beispiel. Die (n × n)-Matrix 1+c 1 ··· 1 1 + c A := . .. .. . 1 1 ··· 1 1 .. . 1 1 1 1 = .. . 1 1+c | ··· .. 1 . ··· {z =:B 1 1 .. +cEn = B + cEn . 1 } hat den Eigenwert c und dieser hat die geometrische Vielfachheit nc = n − 1. Es gilt nämlich rg(c · En − A) = rg(−B) = 1. Zu c existieren damit n − 1 linear unabhängige Eigenvektoren. Aus der Spurbedingung erhalten wir für den verbleibenden Eigenwert λ die Gleichung n(1 + c) = Spur(A) = (n − 1)c + λ, d.h. λ = n+c 6= c. (Die Determinantenbedingung liefert dann det(A) = cn−1 (n+c). Nett, dass man so eine Determinante berechnen kann.) Außerdem muss zum Eigenwert n + c ein mindestens eindimensionaler Eigenraum gehören. Da für den Eigenwert c schon ein (n−1)-dimensionaler Eigenraum existiert, hat n+c einen eindimensionalen Eigenraum. Damit hat A eine Basis aus Eigenvektoren und ist diagonalisierbar. Ohne explizite Rechnung wissen wir nun, dass es eine invertierbare (n × n)-Matrix S geben muss mit S −1 AS = diag( c, . . . , c , n + c) | {z } n − 1 mal Damit haben wir A durch einen Ausflug ins Komplexe auch über R diagonalisiert. 1.13 Eigenwerte und Eigenvektoren ähnlicher Matrizen. Ähnliche Matrizen haben dasselbe charakteristische Polynom und dieselben Eigenwerte mit denselben algebraischen und geometrischen Vielfachheiten. Wie der folgende Beweis zeigen wird, stimmen die zu einem Eigenwert gehörigen Eigenvektoren und Eigenräume i.A. nicht überein. Beweis. Seien A, B ∈ Kn×n ähnlich, d.h. B = S −1 AS mit invertierbarem S ∈ Kn×n . Dann zeigt eine kurze Rechnung mit Determinanten χB (t) = det(tEn − B) = det(tEn − A) = χA (t). Also haben A und B dieselben charakteristischen Polynome und dann auch dieselben Eigenwerte mit denselben algebraischen Vielfachheiten. Weiter gilt Av = λv ⇔ S −1 ASS −1 v = λS −1 v ⇔ B(S −1 v) = λ(S −1 v). Ist also v ein Eigenvektor von A zum Eigenwert λ, so ist S −1 v ein Eigenvektor von B zum selben Eigenwert. Der zugehörige Eigenraum NA,λ wird durch S −1 in den Eigenraum NB,λ übergeführt: v ∈ NA,λ ⇔ S −1 v ∈ NB,λ . Die zum Eigenwert λ gehörigen Eigenräume sind damit nicht identisch, haben aber dieselbe Dimension. 260 2 §5. EIGENWERTTHEORIE Eigenwerttheorie bei linearen Operatoren 2.1 Worum geht es? Wir entwickeln Grundlagen der Eigenwerttheorie bei linearen Operatoren. Dabei lassen wir auch unendlichdimensionale Vektorräume zu, um Anwendungen bei Differentialgleichungen, in der Mechanik und Quantenmechanik zu diskutieren. Einiges wird uns von Matrizen bekannt vorkommen, an manchen Stellen werden aber „unendlichdimensionale Effekte“ hervorspitzeln. 2.2 Eigenwerte, Eigenvektoren und Eigenräume eines linearen Operators. Ist V ein K-Vektorraum und ist L ∈ L(V ) ein linearer Operator, so heißt λ ∈ K ein Eigenwert, wenn es einen Eigenvektor v ∈ V , v 6= 0, gibt mit L(v) = λv. Den Teilraum NL,λ := Kern(λ id −L) = {v ∈ V | L(v) = λv} nennen wir den Eigenraum zum Eigenwert λ. Ist klar, welcher lineare Operator gemeint ist, so schreiben wir einfach Nλ . Beispiel. Wir betrachten den Differentialoperator u 7→ −u00 . Wir legen zunächst den R-Vektorraum C ∞ (R) zu Grunde. Ein λ ∈ R ist genau dann Eigenwert, wenn die Differentialgleichung −u00 = λu eine Lösung besitzt. Damit ist jedes λ ∈ R ein Eigenwert, die zugehörigen Eigenräume sind zweidimensional und es gilt √ √ für λ > 0, {a cos λt + b sin λt | a, b ∈ R} Nλ = {a + bt | a, b ∈ R} für λ = 0, √ √ {a cosh −λt + b sinh −λt | a, b ∈ R} für λ < 0. Betrachten wir diesen Differentialoperator dagegen auf dem R-Vektorraum V := {u ∈ C ∞ ([0, 1]) | u(0) = 0 = u(1)}, was der Diskussion einer schwingenden Saite entspricht, die an den Punkten 0 und 1 eingespannt ist, so treten nur die Eigenwerte λn := n2 π 2 , n ∈ N0 , auf und die zugehörigen Eigenräume sind eindimensional. (Man überlege sich selbst, warum dem so ist und wie die Eigenvektoren aussehen.) 2.3 Anmerkung zum endlichdimensionalen Fall. Ist V ein endlichdimensionaler Vektorraum, so können wir eine lineare Abbildung L ∈ L(V ) nach Wahl einer Basis von V durch eine Matrix darstellen. Wir wissen aus §2.4, dass alle Darstellungsmatrizen für L zueinander ähnlich sind. Nach 1.13 haben all diese Matrizen dieselben Eigenwerte. Wir können also irgendeine Darstellungsmatrix zur Bestimmung der Eigenwerte von L heranziehen und dabei den Matrizenkalkül verwenden. 2.4 Polynome in linearen Operatoren. Ist L ∈ L(V ), so können wir L mehrmals hintereinander ausführen. Für die n-malige Hintereinanderausführung schreiben wir Ln , d.h. wir erklären rekursiv L0 := idV , Ln := L ◦ Ln−1 für n ∈ N. Beispielsweise ist L2 = L ◦ L die zweimalige Verkettung von L mit sich selbst. Da wir lineare Operatoren addieren und vervielfachen können, ist damit zu vorgegebenen Zahlen am . . . , a2 , a1 , a0 ∈ K der Operator p(L) : V 7→ V, p(L) := am Lm + · · · + a2 L2 + a1 L + a0 id erklärt und selbst linear. Formal entsteht der lineare Operator p(L) durch das Einsetzen von L in das Polynom p(t) = am tm + · · · + a2 t2 + a1 t + a0 . Beispiele. (a) In der Definition des Eigenraums NL,λ wird L in das Polynom pλ (t) := λ − t eingesetzt: NL,λ = Kern(λ id −L) = Kern pλ (L). Die Eigenwerte von L sind also die Zahlen λ, für welche der lineare Operator pλ (L) nicht injektiv ist. 261 KAPITEL 5. LINEARE ALGEBRA (b) Die Ableitung f 0 einer Funktion f ist das Bild von f unter dem Differentialoperator D := dn n (n) . Einsetzen von D in das Polynom tn liefert Dn = dx n , d.h. die n-te Ableitung D f = f d dx . (c) Ein linearer Differentialoperator L vom Grad r hat die Form L(y) = y (r) + ar−1 y (r−1) + · · · + a2 y 00 + a1 y 0 + a0 y. Er entsteht durch das Einsetzen des Differentialoperators D = d dx in das Polynom p(t) = tr + ar−1 tr−1 + · · · + a2 t2 + a1 t + a0 , welches auch charakteristisches Polynom des Differentialoperators genannt wird, d.h. L = p(D). Die Lösungsmenge der homogenen linearen Differentialgleichung r-ter Ordnung y (r) + ar−1 y (r−1) + · · · + a2 y 00 + a1 y 0 + a0 y = 0 ist gerade Kern L = Kern p(D). 2.5 Zerlegungssatz. Ist p = p1 · · · pr ein Produkt aus r paarweise teilerfremden Polynomen und ist L ∈ L(V ), so gilt v ∈ Kern p(L) ⇔ es gibt eindeutig bestimmte v1 ∈ Kern p1 (L), . . . , vr ∈ Kern pr (L) mit v = v1 + · · · + vr . Wir erinnern uns (vgl. 2.§3.1): zwei Polynome p1 und p2 heißen teilerfremd, wenn aus p1 = qq1 und p2 = qq2 mit Polynomen q, q1 , q2 folgt, dass q konstant ist. Eine Polynomdivision mit Rest zeigt, dass dies gleichbedeutend ist mit der Existenz einer Darstellung 1 = h1 p1 + h2 p2 mit Polynomen h1 und h2 . Beweis∗ . Wir beweisen nur den Fall r = 2, aus dem durch Induktion alles weitere folgt. Zu „⇐“: Sind v1 , v2 ∈ V mit p1 (L)v1 = 0 und p2 (L)v2 = 0, so folgt für v = v1 + v2 dann p(L)v = p(L)v1 + p(L)v2 = (p2 p1 )(L)v1 + (p1 p2 )(L)v2 = p2 (L)p1 (L)v1 + p1 (L)p2 (L)v2 = p2 (L)0 + p1 (L)0 = 0. Zu „⇒“: Für v ∈ V mit p(L)v = 0 setzen wir v1 := (h2 p2 )(L)v und v2 := (h1 p1 )(L)v. Wegen h1 p1 + h2 p2 = 1 gilt dann v = (h1 p1 + h2 p2 )(L)v = (h2 p2 )(L)v + (h1 p1 )(L)v = v1 + v2 . Ist ṽ1 + ṽ2 = v eine andere Zerlegung mit ṽ1 ∈ Kern p1 (L) und ṽ2 ∈ Kern p2 (L), so folgt aus v1 + v2 = v = ṽ1 + ṽ2 dann Kern p1 (L) 3 v1 − ṽ1 = ṽ2 − v2 ∈ Kern p2 (L), da beide Mengen Unterräume sind. Ist aber u ∈ Kern p1 (L) ∩ Kern p2 (L), so gilt u = (h1 p1 + h2 p2 )(L)u = h1 (L)p1 (L)u + h2 (L)p2 (L)u = h1 (L)0 + h2 (L)0 = 0. Dies zeigt ṽ1 = v1 und ṽ2 = v2 . Die Zerlegung von v ist also eindeutig. 2.6 Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. Sind λ1 , . . . , λr paarweise verschiedene Eigenwerte eines linearen Operators L ∈ L(V ), und sind v1 , . . . , vr zugehörige Eigenvektoren, so sind diese linear unabhängig. Beweis∗ . Für k = 1, . . . , r setzen wir pk (t) := λk − t. Dann ist vk ∈ Nλk = Kern pk (L) und p := p1 · · · pr ist ein Produkt paarweise teilerfremder Polynome. Ist nun 0 = µ1 v1 + · · · + µr vr eine Linearkombination für den Nullvektor, so sagt der Zerlegungssatz 2.5 angewendet auf p und v = 0, dass µ1 v1 = . . . = µr vr = 0 gelten muss. Wegen v1 , . . . , vr 6= 0 folgt nun µ1 = . . . = µr = 0. Also sind v1 , . . . , vr linear unabhängig. Beispiel. Wir betrachten im Vektorraum C ∞ (R) den linearen Operator y 7→ y 0 . Dann ist t 7→ eλt ein d λt Eigenvektor zum Eigenwert λ. Es gilt ja dt e = λeλt . Also sind die Funktionen t 7→ eλt für verschiedene λ linear unabhängig. 262 §6. VEKTORRÄUME MIT SKALARPRODUKT 2.7 Lösungen der homogenen linearen Differentialgleichung r-ter Ordnung. Um alle Lösungen von y (r) + ar−1 y (r−1) + · · · + a1 y 0 + a0 y = 0 d auf dem C-Vektorraum C ∞ (R) und setzen zu bestimmen, betrachten wir den Differentialoperator D := dx r r−1 selbigen in das charakteristische Polynom p(t) := t + ar−1 t + · · · + a1 t + a0 der DGL ein. Wir müssen dann Kern p(D) bestimmen (siehe 2.4). Sind λ1 , . . . , λm ∈ C die verschiedenen Nullstellen von p mit Vielfachheiten k1 , . . . , km ∈ N, d.h. p(t) = (t − λ1 )k1 · · · (t − λm )km , so sagt der Zerlegungssatz, dass sich jede Lösung der DGL eindeutig als Linearkombination von Vektoren aus Kern(D − λ1 id)k1 , . . . , Kern(D − λm id)km darstellen lässt. Wir müssen also noch Kern(D − λ id)k für λ ∈ C und k ∈ N bestimmen, d.h. die DGL (D − λ)k y = 0 lösen. Die Transformation y 7→ eλt y führt die Lösungen dieser DGL wegen (D − λ)(eλt y) = λeλt y + eλt y 0 − λeλt y = eλt y 0 = eλt Dy in die Lösungen der DGL Dk y = y (k) = 0 über. Diese DGL hat offensichtlich genau die komplexen Polynome vom Grad höchstens k−1 als Lösungen. Damit gilt Kern(D − λ id)k = {(ck−1 tk−1 + · · · + c1 t + c0 )eλt | ck−1 , . . . , c1 , c0 ∈ C} = Span(eλt , teλt , . . . , tk−1 eλt ). Wir fassen zusammen: Die Lösungen von y (r) + ar−1 y (r−1) + · · · + a1 y 0 + a0 y = 0 sind gerade die Linearkombinationen der Funktionen tk eλt , wobei λ ∈ C die Nullstellen des charakteristischen Polynoms tr +ar−1 tr−1 +· · ·+a1 t+a0 durchläuft und k ∈ N0 kleiner ist als die Vielfachheit der Nullstelle λ. Beispiel. y (4) − 2y 000 + 2y 00 − 2y 0 + y = 0. Das charakteristische Polynom lautet t4 − 2t3 + 2t2 − 2t + 1 = (t − 1)2 (t − i)(t + i). Die allgemeine Lösung hat also die Form y(x) = c1 ex + c2 xex + c3 eix + c4 e−ix mit c1 , . . . , c4 ∈ C. Wenn man sich nur für reelle Lösungen interessiert, bildet man den Realteil und erhält y(x) = C1 ex + C2 xex + C3 cos x + C4 sin x §6 mit C1 , . . . , C4 ∈ R. Vektorräume mit Skalarprodukt In diesem und dem nächsten Paragraphen werden wir viele ganz unterschiedlich anmutende Fragestellungen mit einer einheitlichen Methode behandeln lernen. Hierzu gehören: • Lösungsverfahren für lineare Differentialgleichungssysteme, insbesondere für schwingende Systeme, • Finden des „richtigen“ Koordinatensystems für ein mechanisches System (z.B. Kreisel, Festkörper), • Umgang mit Polynomen zweiten Grades in mehreren Veränderlichen (wie sie später in der Analysis zur Taylor-Approximation und bei der Extremwertberechnung verwendet werden), • Kegelschnitte, 263 KAPITEL 5. LINEARE ALGEBRA • orthogonale Funktionenfolgen, • Fourier-Analyse und Fourier-Synthese, • mathematische Grundlagen der Quantenmechanik. Damit wir all diese Fragestellungen auf eine gemeinsame Wurzel zurückführen und einheitlich bearbeiten können, müssen wir zunächst eine passende Begrifflichkeit entwickeln. Dies tun wir in diesem Paragraphen mit einem Fokus auf endlichdimensionale Vektorräumen. In §7 stehen dann Anwendungen in unendlichdimensionalen Vektorräumen im Vordergrund. 1 Bilinear- und Sesquilinearformen, quadratische Formen 1.1 Worum geht es? Wir beginnen mit der angekündigten Entwicklung der Begrifflichkeit. Das tun wir parallel für R- und C-Vektorräume. Es wird nur kleine Unterschiede geben. 1.2 Symmetrische Bilinearformen. Eine symmetrische Bilinearform q auf einem R-Vektorraum V ist eine Abbildung q : V × V → R, die jedem Paar von Vektoren aus V eine reelle Zahl zuordnet mit den beiden Eigenschaften (BL1) (Linearität in der zweiten Komponente) q(v, λ1 w1 + λ2 w2 ) = λ1 q(v, w1 ) + λ2 q(v, w2 ) für alle Vektoren v, w1 , w2 ∈ V und alle Skalare λ1 , λ2 ∈ R, (BL2) (Symmetrie) q(v, w) = q(w, v) für alle Vektoren v, w ∈ V . Dann ist q automatisch „bilinear“, d.h. nicht nur in der zweiten, sondern auch in der ersten Komponente linear: q(λ1 v1 + λ2 v2 , w) = λ1 q(v1 , w) + λ2 q(v2 , w). Das kann man auch so sagen: die beiden Abbildungen v 7→ q(v, w) bzw. w 7→ q(v, w) sind bei festem w bzw. v Linearformen V → R. 1.3 Hermitesche Sesquilinearformen. Für einen C-Vektorraum erklären wir analog: eine hermitesche Sesquilinearform q auf einem C-Vektorraum V ist eine Abbildung q : V × V → C, die jedem Paar von Vektoren aus V eine komplexe Zahl zuordnet mit den beiden Eigenschaften (SL1) (Linearität in der zweiten Komponente) q(v, λ1 w1 + λ2 w2 ) = λ1 q(v, w1 ) + λ2 q(v, w2 ) für alle Vektoren v, w1 , w2 ∈ V und alle Skalare λ1 , λ2 ∈ C, (SL2) (Hermitizität) q(v, w) = q(w, v) für alle Vektoren v, w ∈ V . Dann ist q automatisch in der ersten Komponenten antilinear : q(λ1 v1 +λ2 v2 , w) = λ1 q(v1 , w)+λ2 q(v2 , w). Daher kommt auch der Name: „Sesqui“ bedeutet „eineinhalb“ — q ist nur „eineinhalb-mal“ linear. Für v = w erhalten wir aus (SL2) sofort q(v, v) = q(v, v). Damit ist q(v, v) immer reell. 1.4 Quadratische Formen. Ist q eine symmetrische Bilinearform oder eine hermitesche Sesquilinearform, so nennen wir die Abbildung Q : V → R, v 7→ Q(v) := q(v, v) die zu q gehörige quadratische Form. Sie ordnet jedem Vektor eine reelle Zahl zu. 1.5 Fundamentalmatrix. Ist dim V = n endlich und ist (v1 , . . . , vn ) eine Basis von V , so heißt die (n × n)-Matrix q(v1 , v1 ) · · · q(v1 , vn ) .. .. A = (aj,k ) := (q(vj , vk )) = . . q(vn , v1 ) · · · q(vn , vn ) die Fundamentalmatrix von q für diese Basis. Wegen (BL2) bzw. (SL2) ist A symmetrisch, sofern q eine symmetrische Bilinearform ist, bzw. hermitesch, sofern q eine hermitesche Sesquilinearform ist. 264 §6. VEKTORRÄUME MIT SKALARPRODUKT Durch q ist A bestimmt. Umgekehrt wird im rellen Fall zu jeder symmetrischen Matrix A ∈ Rn×n mittels n n n X X X q(v, w) = q x j vj , yk vk = xj yk aj,k = xT Ay für x = vB , y = vB . j=1 k=1 j,k=1 eine symmetrische Bilinearform erklärt, im komplexen für hermitesches A ∈ Cn×n mittels n n n X X X xj yk aj,k = x∗ Ay für x = vB , y = vB . q(v, w) = q x j vj , yk vk = j=1 k=1 j,k=1 eine hermitesche Sesquilinearform. Nach Wahl einer Basis können wir also die Bilinearformen auf einem ndimensionalen R-Vektorraum mit den reellen symmetrischen (n×n)-Matrizen, die Sesquilinearformen auf einem n-dimensionalen C-Vektorraum mit den komplexen hermiteschen (n × n)-Matrizen identifizieren. Zu jeder symmetrischen Bilinearform gehört nach Wahl einer Basis genau eine symmetrische Fundamentalmatrix und umgekehrt. Zu jeder hermiteschen Sesquilinearform gehört nach Wahl einer Basis genau eine hermitesche Fundamentalmatrix und umgekehrt. Im Kn mit der kanonischen Basis ist das besonders einfach. Im Rn hat jede symmetrische Bilinearform die Gestalt q(x, y) = xT Ay mit A = AT ∈ Rn×n , im Cn hat jede hermitesche Sesquilinearform die Darstellung q(x, y) = x∗ Ay mit A = A∗ ∈ Cn×n . 1.6 Lorentz-Form und Minkowski-Metrik. Die Lorentz-Form x1 y1 x2 y2 4 q(x, y) := x1 y1 + x2 y2 + x3 y3 − tτ für x = x3 , y = y3 ∈ R t τ ist eine symmetrische Bilinearform auf dem R4 . Sie ist in der speziellen Relativitätstheorie gebräuchlich und separiert dort Raum und Zeit. Die zugehörige quadratische Form x1 x2 2 2 2 2 4 Q(x) = q(x, x) = x1 + x2 + x3 − t für x = x3 ∈ R t heißt Minkowski-Metrik . Die Fundamentalmatrix der Lorentz-Form bezüglich der Standardbasis des R4 lautet T 1 0 0 0 x1 1 0 0 0 y1 0 1 0 0 x2 0 1 0 0 y2 d.h. 0 0 1 0 , x3 0 0 1 0 y3 = x1 y1 + x2 y2 + x3 y3 − tτ. 0 0 0 −1 t 0 0 0 −1 τ 1.7 Fundamentalmatrizen und Basiswechsel. Bei einem Basiswechsel x = Sx0 transformiert sich eine Bi- bzw. Sesquilinearform gemäß xT Ay = (Sx0 )T A(Sy 0 ) = x0T (S T AS)y 0 , bzw. x∗ Ay = (Sx0 )∗ A(Sy 0 ) = x0∗ (S ∗ AS)y 0 , Die Fundamentalmatrix bezüglich der neuen Basis ist also im reellen Fall durch S T AS, im komplexen durch S ∗ AS gegeben. 265 KAPITEL 5. LINEARE ALGEBRA Achtung. Fundamentalmatrizen transformieren sich anders als Darstellungsmatrizen von linearen Abbildungen (da lautetet die Transformationsregel S −1 AS). Lediglich bei einem Basiswechsel mit einer orthogonalen bzw. unitären Matrix S besteht kein Unterschied. Dann gilt ja S T = S −1 bzw. S ∗ = S −1 und damit S T AS = S −1 AS bzw. S ∗ AS = S −1 AS. 1.8∗ Polarisationsgleichung. Quadratische Formen haben wir aus Bi- bzw. Sesqulinearformen durch Gleichsetzen der beiden Einträge gebildet. So wurde aus einer Funktion in zwei (vektoriellen) Variablen eine in nur einer Variablen. Man denkt, dass dabei Information verloren geht. Dass dies stimmt nicht, sagt die Polarisationsgleichung mit der man aus der quadratischen Form die Bi- bzw. Sesqulinearform zurückgewinnen kann. Für jede quadratische Form in einem R-Vektorraum gilt 1 [Q(v + w) − Q(v − w)]. 4 Für jede quadratische Form in einem C-Vektorraum gilt q(v, w) = q(v, w) = 1 [Q(v + w) − Q(v − w) + iQ(v − iw) − iQ(v + iw)]. 4 Beweis. Man ersetze Q(v + w) = q(v + w, v + w) usw. und rechne sich fleißig von rechts nach links durch. Beispiel. Eine quadratische Form im Rn hat die Gestalt xT Ax = n X aj,k xj xk = a1,1 x1 2 + a1,2 x1 x2 + · · · + a1,n x1 xn +a2,1 x2 x1 + a2,2 x2 2 + · · · + a2,n x2 xn j,k=1 +··· +an,1 xn x1 + an,2 x2 xn + · · · + an,n xn 2 . Wenn wir umgekehrt aus solch einer Linearkombination von Monomen zweiten Grades xj xk die zugehörige quadratische Form mit der Polarisationsgleichung rekonstruieren wollen, so läuft das darauf hinaus, den Vorfaktor bei xk 2 an die k-te Diagonalstelle von A zu setzen und den Vorfaktor bei xj xk = xk xj „gleichmäßig“ auf die Koeffizienten aj,k und ak,j zu verteilen, d.h. aj,k = ak,j zu verlangen. Konkret geht das so: T T x1 x1 0 1 0 x x 2 3 1 1 2x1 2 + 6x1 x2 + x2 2 = , 2x1 x2 − x3 2 = x2 1 0 0 x2 . 3 1 x2 x2 x3 0 0 −1 x3 Im Cn agiere man analog mit x∗ Ax und einer hermiteschen Matrix A. 1.9 Definite quadratische Formen. positiv definit positiv semidefinit Eine quadratische Form Q : V → R heißt negativ semidefinit negativ definit >0 ≥0 , falls Q(v) ≤0 <0 für v ∈ V r {0}. Semidefinitheit ist schwächer als Definitheit: jede positiv (negativ) definite Form ist auch positiv (negativ) semidefinit. Umgekehrt muss dass nicht gelten. Falls eine quadratische Form ν in keine dieser vier Kategorien gehört, so nennen wir sie indefinit. Dann gibt es v+ , v− ∈ V mit Q(v+ ) > 0 und Q(v− ) < 0. positiv definit λ, µ > 0 positiv semidefinit λ ≥ 0, µ = 0 oder λ = 0, µ ≥ 0 indefinit λ > 0, µ < 0 oder λ < 0, µ > 0 . Beispiel. λx2 + µy 2 ist für negativ semidefinit λ ≤ 0, µ = 0 oder λ = 0, µ ≤ 0 negativ definit λ, µ < 0 Die Definitheit einer quadratischen Form kann man aus den Eigenwerten ihrer Fundamentalmatrix ansehen (siehe 4.11) — das folgt wieder aus der Hauptachsentransformation. 266 2 §6. VEKTORRÄUME MIT SKALARPRODUKT Skalarprodukte, euklidische und unitäre Vektorräume 2.1 Skalarprodukte, euklidische und unitäre Vektorräume. Schlagen wir die Definition in 3.§3.2 nach, so erkennen wir, dass ein Skalarprodukt in unserer neuen Terminologie nichts anderes als eine symmetrische Bilinearform ist, für welche die zugehörige quadratische Form positiv ist. Ein euklidischer Vektorraum ist also ein R-Vektorraum mit einer positiv definiten symmetrischen Bilinearform. Statt q(v, w) schreiben wir dann wieder hv|wi. Im komplexen Fall erklären wir das jetzt analog: ein unitärer Vektorraum ist ein C-Vektorraum mit einer positiv definiten hermiteschen Sesquilinearform q. Wir nennen dann q ebenfalls ein Skalarprodukt und schreiben hv|wi statt q(v, w). Das bedeutet also: (SP1) Linearität: hu|λv + µwi = λhu|vi + µhu|wi für alle Vektoren v, w und alle Skalare λ, µ. (SP2) Hermitezität: hv|wi = hw|vi für alle Vektoren v, w. (SP3) Positive Definitheit: hv|vi ≥ 0 für alle Vektoren v und hv|vi = 0 genau dann, wenn v = 0. 2.2 Wichtige Skalarprodukte. Für die nachfolgend genannten „Standardskalarprodukte“ kann man die Eigenschaften (SP1)–(SP3) durch einfaches Nachrechnen verifizieren. (a) Standardskalarprodukt auf dem Rn : y1 x1 .. .. h . | . i := x1 y1 + · · · + xn yn xn y1 x1 .. .. für . , . ∈ Rn . xn yn (b) Standardskalarprodukt auf dem Cn : x1 y1 .. .. h . | . i := x1 y1 + · · · + xn yn xn yn x1 y1 .. .. für . , . ∈ Cn . yn xn yn (c) Standardskalarprodukt auf dem reellen Hilbertschen Folgenraum ( ) ∞ X 2 N 2 ` (R) := (ak )k ∈ R | ak < ∞ , k=1 dem Teilraum derjenigen rellen Zahlenfolgen (ak )k , für die h(ak )k |(bk )k i := ∞ X P∞ k=1 ak 2 konvergiert: für (ak )k , (bk )k ∈ `2 (R). ak bk k=1 P∞ P∞ 2 2 2 2 Hierzu muss P∞ man bemerken, dass wegen 2|ak bk | ≤ |ak | +|bk | die Konvergenz von k=1 ak und k=1 bk die von k=1 ak bk nach sich zieht. Analog argumentiert man für den nachfolgend eingeführten „komplexen Bruder“. (d) Standardskalarprodukt auf dem komplexen Hilbertschen Folgenraum ( ) ∞ X 2 N 2 ` (C) := (ak )k ∈ C | |ak | < ∞ , k=1 denjenigen komplexen Zahlenfolgen (ak )k , für die h(ak )k |(bk )k i := ∞ X P∞ ak bk k=1 |ak |2 konvergiert: für (ak )k , (bk )k ∈ `2 (C). k=1 Wenn klar ist, ob wir reelle oder komplexe Folgen betrachten wollen, so schreiben wir einfach `2 statt `2 (K). Wir können uns den `2 als die Verallgemeinerung des euklidischen bzw. unitären Kn für Koordinatenvektoren mit abzählbar unendlich vielen Koordinaten vorstellen. 267 KAPITEL 5. LINEARE ALGEBRA 2.3 Norm. Ist V ein euklidischer oder unitärer Vektorraum mit Skalarprodukt h·|·i, so nennen wir p kvk := hv|vi die zugehörige Norm. Wir erhalten wieder (e) Positive Definitheit: kvk ≥ 0 und kvk = 0 genau für v = 0. (f) Homogenität: kλvk = |λ|kvk. (g) Dreiecksungleichung: kv + wk ≤ kvk + kwk. Die ersten beiden Regeln folgen sofort aus (SP3) und (SP1), die dritte aus der nachfolgend genannten Cauchy-Schwarzschen Ungleichung. 2.4 Cauchy-Schwarzsche Ungleichung. Ist V ein euklidischer oder unitärer Vektorraum mit Skalarprodukt h·|·i so gilt |hv|wi| ≤ kvk · kwk für v, w ∈ V. In einem euklidischen Vektorraum kann dank dieser Ungleichung der Winkel zwischen v und w definiert werden (vgl. 3.§2.4.6). In diesem Fall haben wir sie schon in 3.§3.2.8 bewiesen. Bei einem unitären Vektorraum geht die Rechnung ziemlich analog, man muss nur ein wenig „konjugieren“. Beispiele. Für zwei `2 -Folgen (ak )k und (bk )k gilt ∞ X ak bk ≤ k=1 ∞ X !1/2 |ak |2 k=1 ∞ X !1/2 |bk |2 . k=1 Im Reellen kann dabei jeweils auf das Konjugieren verzichtet werden. 2.5 Same procedure. . . Nach diesen Vorbereitungen können wir wie im euklidischen Fall in 3.§3.3 nun auch für unitäre Vektorräume über Orthonormalsysteme sprechen. Man führe sich also die nächsten Nummern genussvoll zur Vertiefung zu Gemüte und schlage die Beweise am zuvor angegebenen Ort nach. In §7.1 werden wir auf dieser Grundlage Fourier-Analysis betreiben. 2.6 Orthogonalität und Normiertheit. Ist V ein euklidischer oder unitärer Vektorraum mit Skalarprodukt h·|·i, so nennen wir v ∈ V normiert, wenn kvk = 1. Wir sagen, dass v, w ∈ V orthogonal sind oder aufeinander senkrecht stehen und schreiben dafür auch v ⊥ w, wenn hv|wi = 0. Der Nullvektor ist definitionsgemäß zu jedem Vektor orthogonal. Ist U ⊂ V und v ∈ V , so nennen wir v orthogonal zu U und schreiben v ⊥ U , wenn v ⊥ u für alle u ∈ U . Die Menge U ⊥ := {v ∈ V | v ⊥ U } = {v ∈ V | hv|ui = 0 für alle u ∈ U } aller zu U senkrechten Vektoren ist dann ein Unterraum von V , genannt das orthogonale Komplement von U . 2.7 Orthonormalsysteme und -basen. Eine Menge U von Vektoren in V nennen wir orthogonal oder Orthogonalsystem, wenn je zwei verschiedene Vektoren aus U zueinander orthogonal sind: v ⊥ w für alle v, w ∈ U mit v 6= w. Sind zusätzlich alle Vektoren aus U normiert, so sprechen wir von einer orthonormalen Menge oder einem Orthonormalsystem (kurz ONS ). Bilden die Vektoren von U eine Basis von V , so nennen wir U eine Orthogonalbasis bzw. im normierten Fall eine Orthonormalbasis von V (kurz ONB ). Beispiel. Die Folgen ek := (0, . . . , 0, 1 , 0, . . .) |{z} k-te Stelle 2 bilden ein ONS im Hilbertschen Folgenraum ` — man verifiziere die Orthogonalitätsrelationen. 268 §6. VEKTORRÄUME MIT SKALARPRODUKT Endliche Linearkombinationen a1 e1 + · · · + an en = (a1 , . . . , an , 0, . . .), d.h. Vektoren in Span(e1 , e2 , . . .), sind Folgen mit nur endlich vielen von Null verschiedenen Gliedern. Für den Raum dieser Folgen ist (e1 , e2 , . . .) eine ONB. Dagegen ist (e1 , e2 , . . .) keine ONB für den `2 selbst. Es gibt nämlich `2 -Folgen mit unendlich vielen nicht verschwindenen Folgenglieder, beispielsweise (1/k)k . 2.8 Entwickeln nach Orthonormalsystemen. Jedes Orthonormalsystem U in einem euklidischen oder unitären Vektorraum ist linear unabhängig. Jedes v ∈ Span(U ) besitzt eine eindeutige Darstellung als Linearkombination n X v= huk |viuk = hu1 |viu1 + · · · + hun |viun k=1 mit gewissen u1 , . . . , un ∈ U . 2.9 Orthogonale Projektion und Bestapproximation im Quadratmittel. Ist U = (u1 , . . . , un ) ein endliches Orthonormalsystem in einem euklidischen oder unitären Vektorraum V , so gibt es zu jedem v ∈ V genau einen Punkt u ∈ Span(U ) kürzesten Abstands zu v. Dieser Punkt ist gegeben durch u = P (v) := n X huk |viuk k=1 und für den minimalen Abstand von v zu U gilt kv − P (v)k2 = kvk2 − m X |huk |vi|2 . k=1 Wir nennen P (v) die orthogonale Projektion von v auf Span(U ) oder die Bestapproximation im Quadratmittel für v in Span(U ). Die orthogonale Projektion P (v) ist charakterisiert durch P (v) ∈ Span(U ) und v − P (v) ⊥ Span(U ). 2.10 Orthonormalisieren nach Gram-Schmidt. Zu jedem vorgegebenen Satz v1 , v2 , . . . von linear unabhängigen Vektoren in einem euklidischen oder unitären Vektorraum V gibt es ein Orthonormalsystem u1 , u2 , . . . in V mit Span(u1 , . . . , um ) = Span(v1 , . . . , vm ) für m = 1, 2, . . .. Im endlichdimensionalen Fall erhält man so aus einer Basis (v1 , . . . , vn ) von V eine ONB von V . Jeder endlichdimensionale euklidische oder unitäre Vektorraum hat eine ONB. Im unendlichdimensionalen Fall kann das Gram-Schmidt-Verfahren auch auf einen Satz von abzählbar unendlich vielen Vektoren angewendet werden (Beispiele siehe §7.2.2.8) und liefert dann ein ONS. Das Gram-Schmidt-Verfahren läuft auch im unitären Fall wie aus 3.§3.3.8 bekannt ab: • Initialisierung: u1 = 1 kv1 k v1 • Rekursion: Sind u1 , . . . , um schon berechnet, so erhalte um+1 mittels Pm – Projezieren: P (vm+1 ) = k=1 huk |vm+1 iuk , – Senkrechtmachen: u0m+1 := vm+1 − P (vm+1 ), – Normieren: um+1 : ku0 1 k u0m+1 . m+1 2.11 Positiv definite Matrizen. Eine Matrix A ∈ Rn×n ist genau dann positiv definit, wenn es eine reguläre Matrix P ∈ Rn×n gibt mit A = P T P . Eine Matrix A ∈ Cn×n ist genau positiv definit, wenn es eine reguläre Matrix P ∈ Cn×n gibt mit A = P ∗ P . Beweis. Wir führen nur den reellen Fall vor, der komplexe geht analog. „⇐“ Ist P invertierbar und ist A := P T P , so folgt xT Ax = xT (P T P )x = (P x)T (P x) = y T y ≥ 0 mit Gleichheit genau dann, wenn y = P x = 0, d.h. x = 0. Also ist A positiv definit. „⇒“ Diese Beweisrichtung ist nichts anderes als eine Interpretation des Gram-Schmidt-Verfahrens. 269 KAPITEL 5. LINEARE ALGEBRA Ist V ein euklidischer Raum mit Basis (v1 , . . . , vn ) und wird das Skalarprodukt durch eine positiv definite symmetrische (n×n)-Fundamentalmatrix A dargestellt, d.h. hx1 v1 +· · ·+xn vn |y1 w1 +· · ·+yn wn i = xT Ay, so wird das Gram-Schmidt-Verfahren u1 = 1 v1 , kv1 k u2 = 1 v2 + · · · , ku02 k ..., un = 1 vn + · · · ku0n k durch eine obere Dreiecksmatrix R mit positiven Diagonaleinträgen beschrieben. Die Orthogonalitätsrelationen für die neues Basis (u1 , . . . , un ) lassen sich gemäß 1.7 nach dem Basiswechsel mit R in der Form δj,k = huj |uk i = ej T (RT AR)ek für j, k = 1, . . . , n schreiben, d.h. RT AR = En . Da P := R−1 wieder eine obere Dreiecksmatrix mit positiven Diagonaleinträgen ist, gilt P T P = P T En P = P T (RT AR)P ) = (RP )T A(RP ) = A. 3 Orthogonale und unitäre Abbildungen 3.1 Worum geht es? Wir stellen die mathematische Grundlage für „starre Bewegungen“ (z.B. eines Körpers oder eines kartesischen Koordinatensystems) zur Verfügung — sowohl in der Operator-Sprache als auch im Matrizenkalkül. 3.2 Isometrien. Ein linearer Operator L ∈ L(V ) eines euklidischen oder unitären Vektorraums V heißt Isometrie, wenn kL(v)k = kvk für alle v ∈ V. Insbesondere gilt L(v) = 0 nur für v = 0, d.h. Kern L = {0}, und L ist injektiv. Mit der Polarisationsgleichung 1.8 folgt ferner hL(v)|L(w)i = hv|wi für alle v, w ∈ V. Wir fassen zusammen: Eine Isometrie ist eine norm- und winkeltreue injektive lineare Abbildung. Beispiel. Im `2 ist der Rechts-Shift (a1 , a2 , . . .) 7→ (0, a1 , a2 , . . .) eine Isometrie aber nicht surjektiv. 3.3 Orthogonale und unitäre Operatoren. Ist eine Isometrie zusätzlich surjektiv, so wird sie orthogonal bzw. unitär genannt, je nachdem, ob V euklidisch oder unitär ist. Da in einem endlichdimensionalen Vektorraum jede injektive lineare Abbildung automatisch surjektiv ist (§1.2.10), ist dort jede Isometrie orthogonal bzw. unitär. 3.4 Darstellungsmatrizen von orthogonalen bzw. unitären Operatoren. Ein orthogonaler (unitärer ) Operator eines endlichdimensionalen euklidischen (unitären) Vektorraums V hat bezüglich einer ONB von V eine orthogonale (unitäre) Darstellungsmatrix. Beweis∗ . Wir führen den unitären Fall vor, der euklidische geht analog. Ist L unitär und B = (u1 , . . . , un ) eine ONB von V , so gilt hL(uj )|L(uk )i = huj |uk i = δj,k und C = (L(u1 ), . . . , L(un )) ist wieder eine ONB von V . Entwickeln 2.8 nach der ONB B liefert L(uj ) = n X huk |L(uj )iuk . k=1 Für die Darstellungsmatrix A = MB (L) folgt ak,j = huk |L(uj )i. Da auch C eine ONB ist, gilt δj,l = hL(uj )|L(ul )i = n X k=1 d.h. A∗ A = E. Also ist A eine unitäre Matrix. huk |L(uj )ihuk |L(ul )i = n X k=1 ak,j ak,l , 270 §6. VEKTORRÄUME MIT SKALARPRODUKT 3.5 Basiswechsel zwischen Orthonormalbasen. Die Transformationsmatrix S des Basiswechsels zwischen zwei Orthonormalbasen eines euklidischen (unitären) Vektorraums ist orthogonal (unitär ). Eine orthogonale (unitäre) Koordinatentransformationen einer ONB des Rn (des Cn ) mit dem natürlichen Skalarprodukt liefert wieder eine ONB. 3.6 Eigenschaften orthogonaler bzw. unitärer Matrizen. Ist U eine orthogonale oder unitäre (n × n)-Matrix, so gilt: (a) | det(U )| = 1, (b) |λ| = 1 für jeden Eigenwert λ von U , (c) die Spalten bzw. Zeilen von U bilden eine ONB des Kn bezüglich des Standardskalarprodukts. Achtung. Orthogonale bzw. unitäre Matrizen haben i.A. komplexe Eigenwerte. Beweis. Wir führen wieder nur den unitären Fall vor: aus U ∗ U = E folgt 1 = det(E) = det(U ∗ ) det(U ) = det(U ) det(U ) = | det(U )|2 , d.h. | det(U )| = 1. Gilt ferner U x = λx für ein x 6= 0, so folgt |λ|2 x∗ x = (λx∗ )(λx) = (λx)∗ (λx) = (U x)∗ (U x) = x∗ U ∗ U x = x∗ x, d.h. |λ|2 = 1. 3.7 Isometrien der Ebene. Jede orientierungserhaltende Isometrie der Ebene ist eine Drehung. Jede nicht orientierungserhaltende Isometrie der Ebene ist eine Achsenspiegelung. Genauer: Ist L eine Isometrie eines zweidimensionalen euklidischen Vektorraums V (z.B. der Ebene), so ergeben sich für die Darstellungsmatrix U ∈ R2×2 von L bezüglich einer ONB von V zwei Möglichkeiten: • Es gilt det(U ) = 1 und U = cos ϕ − sin ϕ . Dann ist L orientierungserhaltend und eine Drehung sin ϕ cos ϕ um den Winkel ϕ, cos ϕ sin ϕ • Es gilt det(U ) = −1 und U = . Dann ist L nicht orientierungserhaltend, hat die sin ϕ − cos ϕ Eigenwerte ±1 und ist eine Spiegelung an der von den Eigenvektoren zu −1 aufgespannten Geraden. Beweis. Gemäß 3.4 können wir mit der orthogonalen Darstellungsmatrix U ∈ R2×2 argumentieren, um L zu beschreiben. Nach 3.6 gilt | det(U )| = 1, d.h. det(U ) = ±1, da U reelle Einträge hat. Ferner müssen ϕ die Spalten von U normiert und orthogonal sein. Damit können wir die erste Spalte in der Form cos sin ϕ mit ϕ ∈ R schreiben und die zweite Spalte muss dann die jeweils angegebene Form haben. Dass im ersten ψ Fall dann eine Drehung vorliegt, wissen wir aus 3.§2.6.1. Im zweiten Fall setzen wir v(ψ) := cos sin ψ und zeigen durch eine kurze Rechnung U v(ϕ/2) = v(ϕ/2) bzw. U v(ϕ/2 + π/2) = −v(ϕ/2 + π/2) (wir haben die Eigenwerte und Eigenvektoren zu U bestimmt). Also wirkt U längs Span(v(ϕ/2)) wie die Identität und senkrecht dazu längs Span(v(ϕ/2 + π/2)) wie eine Spiegelung. 3.8 Isometrien des Raums. Jede orientierungserhaltende Isometrie des Raums ist eine Drehung um eine feste Drehachse. Jede nicht orientierungserhaltende Isometrie der Ebene unterscheidet sich von einer orientierungserhaltenden nur um eine Spiegelung an der zur Drehachse senkrechten Ebene. Ist die Drehachse durch einen normierten Vektor u vorgegeben und ist ϕ ∈ R der Drehwinkel, so verschaffen wir uns einen zu u senkrecht stehenden normierten Vektor v und ergänzen durch u × v zu einer positiv orientierten ONB. Im R3 baut man sich aus diesen Spalten dann die zugehörige Drehmatrix. Im Beweis werden wir sehen, wie man umgekehrt zu einer vorgegebenen Drehung die Drehachse findet. Beweis. Gemäß 3.6 gilt det(L) = ±1. Im orientierungserhaltenden Fall gilt det(L) = 1. Das charakteristische Polynom von L muss als reelles Polynom dritten Grades eine reelle Nullstelle besitzen. Nach 3.6 müssen alle (komplexen) Nullstellen den Betrag 1 haben und ihr Produkt muss det(L) = 1 ergeben. Damit hat L den Eigenwert 1. Wir wählen einen zugehörigen normierten Eigenvektor u und erhalten die Drehachse: wegen L(u) = u wirkt L längs Span(u) wie die Identität. Die zu u senkrechte 271 KAPITEL 5. LINEARE ALGEBRA Ursprungsebene E wird von L in sich selbst übergeführt, aus hv|ui = 0 folgt wegen L(u) = u nämlich hL(v)|ui = hL(v)|L(u)i = hv|ui = 0. In E wirkt L dann wie eine orientierungserhaltende ebene Isometrie. Wir spannen E durch einen zu u senkrecht stehenden normierten Vektor v und u × v auf: E = Span(v, u × v). Die Darstellungsmatrix bezüglich der ONB B = (u, v, u × v) hat damit die Form 1 0 0 MB (L) = 0 cos ϕ − sin ϕ 0 sin ϕ cos ϕ und L ist eine Drehung. Ist L nicht orientierungserhaltend, so gilt det(L) = −1 und mit ähnlicher Argumentation wie zuvor erhält man einen Eigenwert −1. Ist u ein zugehöriger normierter Eigenvektor, so wirkt L längs Span(u) wie eine Spiegelung. Senkrecht zu u kann man wie zuvor argumentieren und erhält bezüglich der ONB B = (u, v, u × v) die Darstellungsmatrix −1 0 0 MB (L) = 0 cos ϕ − sin ϕ . 0 sin ϕ cos ϕ 3.9 Isometrien des C2 . Ist U ∈ C2×2 unitär det(U ) = 1, so gilt a −b mit a, b ∈ C, |a|2 + |b|2 = 1. U= b a Beweis. Gemäß 3.6 müssen die beiden Spalten von U normiert und orthogonal sein. Das liefert zusammen mit det(U ) = 1 die angegebene Darstellung. 3.10∗ Matrixgruppen. Wir erinnern uns an den Begriff einer Gruppe (siehe 3.§2.3.4). Eine Teilmenge G von Kn×n bildet eine Matrizengruppe, wenn (MG1) E ∈ G, (MG2) alle A, B ∈ G sind invertierbar mit AB −1 ∈ G. Wichtige Beispiele für Matrizengruppen sind: GL(n, K) O(n) SO(n) U(n) SU(n) := {S ∈ Kn×n | S ist invertierbar} := {U ∈ R n×n T | U U = E} := {U ∈ O(n) | det(U ) = 1} := {U ∈ C n×n ∗ | U U = E} := {U ∈ U(n) | det(U ) = 1} („general linear group“), orthogonale Gruppe der Ordnung n, spezielle orthogonale Gruppe der Ordnung n, unitäre Gruppe der Ordnung n, spezielle unitäre Gruppe der Ordnung n. Die O(2) repräsentiert gemäß 3.7 die Drehungen und Achsenspiegelungen der Ebene, SO(2) die Untergruppe der Drehungen. Analog repäsentiert O(3) gemäß 3.8 die Drehungen und Drehspiegelungen im Raum, SO(3) die Untergruppe der Drehungen. Die Gruppe SU(2) heißt auch Quaternionengruppe oder Spin(3). Sie stellt den Schiefkörper der Quaternionen dar (dort gelten alle Körperaxiome mit Ausnahme des Kommutativgesetzes für die Multiplikation). 3.11 Längentreue Abbildungen. Eine Abbildung f : V → V eines euklidischen Vektorraums V heißt längentreu, wenn kf (v) − f (w)k = kv − wk für alle v, w ∈ V. Jede längentreue Abbildung hat die Form f (u) = f (0) + L(u) mit einer Isometrie L. Beweisidee∗ . Man zeigt in mehreren Teilschritten, dass u 7→ f (u) − f (0) isometrisch und linear ist. Dabei verwendet man mehrfach die Polarisationsgleichung 1.8. 272 §6. VEKTORRÄUME MIT SKALARPRODUKT 3.12 Bewegungen. Eine Abbildung der Form x 7→ a + U x mit a ∈ Rn , U ∈ SO(n), heißt Bewegung des Rn . Die Bewegung eines starren Körpers im R3 . wird dann durch eine Schar von Bewegungen x 7→ ft (x) := a(t) + U (t)x beschrieben. Hierbei hängen die Koeffizienten a(t) ∈ R3 und U (t) ∈ SO(3) differenzierbar von der Zeit t ab und zur Startzeit t = 0 gilt a(0) = 0 und U (0) = E3 . Die Bahn eines Massenpunktes im Raum ist dann durch t 7→ ft (x0 ) = x(t) gegeben, wobei x(0) = x0 der Ortsvektor des Massenpunktes zur Startzeit t = 0 ist. 3.13∗ Momentaner Drehvektor einer Bewegung. Wir diskutieren jetzt die Bewegung eines starren Körpers, bei dem ein Punkt festgehalten wird (eine sogenannte „Kreiselbewegung“). In den fixierten Punkt legen wir den Ursprung einer ONB des R3 . Die Bahn eines Massenpunktes mit Ortsvektor x0 zur Startzeit t = 0 wird dann durch x(t) = U (t)x0 beschrieben mit einer differenzierbaren Funktion t 7→ U (t), R → SO(3). Durch (gliedweises) Differenzieren erhalten wir ẋ(t) = U̇ (t)x0 = U̇ (t)U (t)−1 x(t) = U̇ (t)U (t)T x(t), da U (t) orthogonal ist. Wegen d 0 = E˙3 = (U (t)U (t)T ) = U̇ (t)U (t)T + U (t)U̇ (t)T = U̇ (t)U (t)T + (U̇ (t)U (t)T )T dt ist U̇ (t)U (t)T zu jeder Zeit t antisymmetrisch, d.h. 0 −ω3 (t) ω2 (t) 0 −ω1 (t) U̇ (t)U (t)T = ω3 (t) −ω2 (t) ω1 (t) 0 mit geeigneten Funktionen ω1 , ω2 , ω3 : R → R. Fassen wir diese drei Funktionen als Komponenten einer vektorwertigen Funktion ω auf, so gilt 0 −ω3 (t) ω2 (t) x1 (t) ω2 (t)x3 (t) − ω3 (t)x2 (t) 0 −ω1 (t) x2 (t) = ω3 (t)x1 (t) − ω1 (t)x3 (t) = ω(t) × x(t). U̇ (t)U (t)T x(t) = ω3 (t) −ω2 (t) ω1 (t) 0 x3 (t) ω1 (t)x2 (t) − ω2 (t)x1 (t) Die Bewegung des Massenpunktes gehorcht also der DGL ẋ(t) = ω(t) × x(t). Der Vektor ω(t) heißt momentaner Drehvektor der Bewegung, seine Länge kω(t)k ist als momentane Winkelgeschwindigkeit aufzufassen. 4 Symmetrische und hermitesche Abbildungen, Hauptachsentransformation 4.1 Worum geht es? Wir kommen zum Hauptwerkzeug dieses Paragraphen, der Hauptachsentransformation, einem nicht zu unterschätzenden Werkzeug mit vielfältigen Einsatzbereichen. Nach einigen Vorbereitungen stellen wir eine Operator- und zwei Matrizenvarianten („Spektralsatz“ bzw. „Hauptachsentransformation“ und „simultane Hauptachsentransformation“) vor. Danach kommen diverse Anwendungen. 273 KAPITEL 5. LINEARE ALGEBRA 4.2 Symmetrische und hermitesche Operatoren. Ein linearer Operator L ∈ L(V ) eines euklidischen (unitären) Vektorraums V heißt symmetrisch (hermitesch), falls hv|L(w)i = hL(v)|wi für alle v, w ∈ V. Symmetrische oder hermitesche Operatoren werden auch selbstadjungiert genannt. Ist L hermitesch, so gilt hv|L(v)i = hL(v)|vi = hv|L(v)i, d.h. hv|L(v)i = hL(v)|vi ist reell. Beispiel. Jede symmetrische Matrix A ∈ Rn×n liefert wegen xT Ay = xT AT y = (Ax)T y = y T Ax einen symmetrischen Operator x 7→ Ax des Rn bezüglich des Standardskalarprodukts y T x. Im Cn geht das analog mit einer hermiteschen Matrix A. 4.3 Darstellungsmatrizen von symmetrischen bzw. hermiteschen Operatoren. Ein symmetrischer (hermitescher ) Operator eines endlichdimensionalen euklidischen (unitären) Vektorraums V hat bezüglich einer ONB von V eine symmetrische (unitäre) Darstellungsmatrix. Beweis∗ . Ist L hermitesch und B = (u1 , . . . , un ) eine ONB von V , so erhalten wir durch Entwickeln 2.8 L(uk ) = n X huj |L(uk )iuj . j=1 Hieraus können wir die Darstellungsmatrix A = (aj,k ) = MB (L) ablesen: es gilt aj,k = huj |L(uk )i. Mit der Hermitezität des Skalarprodukts folgt nun aj,k = huj |L(uk )i = hL(uj )|uk i = huk |L(uj )i = ak,j , d.h. A = A∗ . Damit ist A eine hermitesche Matrix. Für symmetrische Operatoren gehe man analog vor. 4.4 Rechenregeln für symmetrische bzw. hermitesche Operatoren. Sind L, L1 , L2 symmetrische (hermitesch) Operatoren, so gilt: (a) λ1 L1 + λ2 L2 ist symmetrisch (hermitesch), (b) ist L bijektiv, so ist auch L−1 symmetrisch (hermitesch), (c) alle Eigenwerte von L sind reell, (d) Eigenvektoren von L zu verschiedenen Eigenwerten stehen aufeinander senkrecht, (e) ist U ⊆ V ein Unterraum mit L(U ) ⊆ U , so gilt L(U ⊥ ) ⊆ U ⊥ . Beweis. (a) und (b) erhält man durch unspektakuläres Nachrechnen. Zu (c): Gilt L(v) = λv für ein v ∈ V , v 6= 0, so erhalten wir λkvk2 = hv|λvi = hv|L(v)i = hL(v)|vi = hλv|vi = λkvk2 und mit kvk2 > 0 dann λ = λ. Also ist λ reell. Zu (d): Ist L(w) = µw für ein w ∈ V , w 6= 0, so folgt µhv|wi = hv|µwi = hv|L(w)i = hL(v)|wi = hλv|wi = λhv|wi = λhv|wi, d.h. (λ − µ)hv|wi = 0. Gilt also λ 6= µ, so folgt hv|wi = 0, d.h. v ⊥ w. Zu (e): Für u ∈ U und v ∈ U ⊥ gilt hu|L(v)i = hL(u)|vi = 0, da L(u) ∈ L(U ) ⊆ U . Es folgt L(v) ⊥ u für alle u ∈ U , d.h. L(v) ∈ U ⊥ und dann auch L(U ⊥ ) ⊆ U ⊥ . 4.5 Eigenschaften symmetrischer bzw. hermitescher Matrizen. Jede der Eigenschaften 4.4 (a)–(e) kann sofort in eine entsprechende Eigenschaft für symmetrische bzw. hermitesche Matrizen übersetzt werden. Wir notieren die beiden Wichtigsten. Ist A eine symmetrische oder hermitesche (n × n)-Matrix, so gilt: (f) alle Eigenwerte von A sind reell, (g) Eigenvektoren zu verschiedenen Eigenwerten von A sind orthogonal bezüglich des Standardskalarprodukts. 274 §6. VEKTORRÄUME MIT SKALARPRODUKT 4.6 Hermitesche Operatoren in der Quantenmechanik In der Quantenmechanik werden die möglichen Zustände eines Systems als die Vektoren eines unitären Vektorraums modelliert, wobei alle Vektoren λψ mit λ ∈ C r {0} denselben Zustand darstellen. Die messbaren Größen wie Ort, Impuls, etc. (genannt „Observable“) werden durch lineare Operatoren beschrieben. Ist L solch ein linearer Operator, so bedeutet hψ|L(ψ)i , hψ|ψi ψ 6= 0, den Erwartungswert der Observablen L im Zustand ψ, d.h. den Mittelwert der Messwerte für die Eigenschaft L, wenn sich das System im Zustand ψ befindet. Da Messwerte reell sind, d.h. hψ|L(ψ)i ∈ R, werden als Observable nur hermitesche Operatoren zugelassen. Die Eigenvektoren von L stellen die einzigen Zustände des Systems dar, für die die Eigenschaft L einen scharfen Messwert hat. Gilt L(ψ) = λψ, so ist hψ|λψi hψ|L(ψ)i = =λ hψ|ψi hψ|ψi nach 4.4 (c) reell. Der zum Eigenvektor ψ gehörige Eigenwert λ ist also der Erwartungswert der Observablen L im Eigenzustand ψ. 4.7 Spektralsatz für symmetrische bzw. hermitesche Operatoren. Ein symmetrischer (hermitescher ) Operator eines endlichdimensionalen euklidischen (unitären) Vektorraums besitzt eine Orthonormalbasis aus Eigenvektoren. Beweis. Wir betrachten zunächst einen hermiteschen Operator L auf einem unitären Vektorraum V und führen einen Induktionsbeweis nach dim V = n. Induktionsverankerung (n = 1): Wähle u ∈ V normiert, dann gilt V = Span(u) und (u) ist eine einelementige ONB von V . Wegen L(V ) ⊆ V muss L(u) = λu mit einem Skalar λ gelten. Dann ist λ ein Eigenwert von L und u ein Eigenvektor. Induktionsschritt (n → n + 1): Das charakteristische Polynom von L zerfällt über C in Linearfaktoren. Also hat L einen Eigenwert λ und dazu einen normierten Eigenvektor u ∈ V . Ergänze u zu einer (n + 1)elementigen ONB (u, v1 , . . . , vn ) von V . Für U = Span(u) gilt dann U ⊥ = Span(v1 , . . . , vn ). Nach 4.4 (e) ist L(U ⊥ ) ⊆ U ⊥ und wir können die Einschränkung von L auf den n-dimensionalen Unterraum U ⊥ betrachten. Selbige ist wieder hermitesch und hat nach Induktionsannahme eine ONB aus Eigenvektoren u1 , . . . , un . Damit ist (u, u1 , . . . , un ) eine ONB von V aus Eigenvektoren von L. Den euklidischen Fall können wir genauso beweisen, sobald wir die Existenz eines reellen Eigenwerts sichergestellt haben. Ist V ein euklidischer Vektorraum und ist L ∈ L(V ) symmetrisch, so wähle eine ONB B von V und setze A := MB (L). Nach 4.3 ist A ∈ Rn×n symmetrisch. Fasse x 7→ Ax als lineare Abbildung Cn → Cn auf. Diese Abbildung ist dann hermitesch, es gilt ja AT = A∗ . Nach dem bisher Gezeigten hat A und damit L einen reellen Eigenwert. 4.8 Hauptachsentransformation. Jede symmetrische Matrix kann durch eine orthogonale Matrix diagonalisiert werden: zu jedem A ∈ Rn×n mit A = AT existiert ein S ∈ Rn×n mit S T S = E, so dass S −1 AS = S T AS = diag(λ1 , . . . , λn ) mit λ1 , . . . , λn ∈ R. Jede hermitesche Matrix kann durch eine unitäre Matrix diagonalisiert werden: zu jedem A ∈ Cn×n mit A = A∗ existiert ein S ∈ Cn×n mit S ∗ S = E, so dass S −1 AS = S ∗ AS = diag(λ1 , . . . , λn ) mit λ1 , . . . , λn ∈ R. Die k-te Spalte von S ist in beiden Fällen ein normierter Eigenvektor von A zum Eigenwert λk . Beweis. Das ist die Matrizenversion des Spektralsatzes 4.7. 4.9 Durchführung der Hauptachsentransformation. Bei einer Hauptachsentransformation will man entweder nur wissen, welche Einträge in der Diagonalmatrix herauskommen — dann genügt die Berechnung der Eigenwerte, oder man benötigt auch die transformierende Matrix (z.B. um den Basiswechsel explizit auszuführen). Dann geht man nach folgendem Rezept vor: 275 KAPITEL 5. LINEARE ALGEBRA Schritt 1: Bestimme alle Eigenwerte von A. Schritt 2: Finde zu jedem Eigenwert eine Basis des zugehörigen Eigenraums. Schritt 3: Orthonormiere jeder der Eigenraumbasen. Schritt 4: Setze alles zu einer ONB zusammen. Der Spektralsatz 4.7 stellt dabei sicher, dass wir genügend viele linear unabhängige Eigenvektoren finden. Eigenvektoren zu verschiedenen Eigenwerten sind gemäß 4.4 (d) automatisch orthogonal. Zu einem k-fachen Eigenwert existieren immer k linear unabhängige Eigenvektoren, die allerdings ggf. noch orthonormiert werden müssen. Beispiel. Wir zeigen wie man die symmetrische Matrix 51 4 −3 A := 4 36 12 , −3 12 43 durch eine orthogonale Matrix S diagonalisiert. Für hermitesche Matrizen geht das dann genauso. Schritt 1: Berechnung des charakteristischen Polynoms χA (t) = det(tE3 − A) = t3 − 130t2 + 5408t − 70304 = (t − 26)(t − 52)2 liefert einfachen Eigenwert 26 und zweifachen Eigenwert 52. Schritt 2: Gauß-Elimination liefert eine Basis für die beiden Eigenräume N26 (eindimensional) und N52 (zweidimensional): 4 −3 1 N52 = Kern(52E3 − A) = Span( 0 , 1). N26 = Kern(26E3 − A) = Span(−4), 0 1 3 Schritt 3: Orthonormalisieren der einzelnen Eigenraumbasen. Für N26 müssen wir nur Normieren, für N52 ist nach Normieren des ersten Eigenvektors noch ein Gram-Schmidt-Schritt auszuführen. 1 −3 2 1 1 1 −4 ), 0 ,√ 5 ). N52 = Kern(52E3 − A) = Span( √ N26 = Span( √ 26 10 65 6 3 1 Schritt 4: Zusammensetzen der ONB für die einzelnen Eigenräume liefert eine ONB für den gesamten R3 und diagonalisierenden Basiswechsel √ √ √ 1/ √26 −3/ 10 2/√65 S = −4/√ 26 0 5/√65 . √ 3/ 26 1/ 10 6/ 65 Wir erhalten S −1 AS = S T AS = diag(26, 52, 52). Das rechnet man nicht aus, sondern man weiß aus der vorangegangenen Rechnung, welche Diagonalmatrix entstehen muss. Die Reihenfolge der Eigenwerte in der Diagonalen wird dadurch bestimmt, in welcher Reihenfolge man die Eigenvektoren in S anordnet. 4.10 Simultane Hauptachsentransformation. Eine positiv definite und eine symmetrische Matrix können simultan diagonalisiert werden: zu jedem A ∈ Rn×n mit A = AT und xT Ax > 0 für alle x 6= 0 und jedem B ∈ Rn×n mit B = B T existiert ein invertierbares S ∈ Rn×n , so dass S T AS = En , S T BS = diag(λ1 , . . . , λn ) Analog gilt das für eine hermitesche Matrix. Achtung. Diesmal ist S nicht notwendigerweise orthogonal. mit λ1 , . . . , λn ∈ R. 276 §6. VEKTORRÄUME MIT SKALARPRODUKT Beweis. Ist A positiv definit, so existiert nach 2.11 eine invertierbare Matrix P ∈ Rn×n mit A = P T P . T Mit B ist auch C = P −1 BP −1 symmetrisch und kann durch eine orthogonale Matrix U ∈ Rn×n diagonalisiert werden: U T CU = D = diag(λ1 , . . . , λn ). Dann ist S := P −1 U als Produkt invertierbarer Matrizen invertierbar und es gilt S T AS T T (P −1 U )T A(P −1 U ) = U T (P −1 AP −1 )U = U T (P −1 P T P P −1 )U = = U T (En En )U = U T U = En , S T BS T (P −1 U )T B(P −1 U ) = U T (P −1 BP −1 )U = U T CU = D. = 4.11 Klassifikation quadratischer Formen. Als erste Anwendung der Hauptachsentransformation klassifizieren wir die fünf Typen von quadratischen Formen. Gegeben sei eine relle quadratische Form Q(x) = xT Ax mit symmetrischen A ∈ Rn×n oder eine komplexe quadratische Form Q(x) = x∗ Ax mit hermiteschem A ∈ Cn×n . Dann gilt: • Sind alle Eigenwerte von A positiv, so ist Q positiv definit. • Sind alle Eigenwerte von A nichtnegativ, so ist Q positiv semidefinit. • Hat A sowohl positive als auch negative Eigenwerte, so ist Q indefinit. • Sind alle Eigenwerte von A nichtpositiv, so ist Q negativ semidefinit. • Sind alle Eigenwerte von A negativ, so ist Q negativ definit. Die Klassifikation merkt man sich am besten an den typischen reell-quadratischen Formen in zwei Variablen. positiv definit positiv semidefinit indefinit λ = 0, µ > 0 λ > 0, µ < 0 λ, µ > 0 0 0 0 0 0 0 negativ semidefinit λ = 0, µ < 0 0 0 0 negativ definit λ, µ < 0 0 0 0 0 0 0 0 0 0 0 0 Abbildung 5.4: Q(x, y) = λx2 + µy 2 für verschiedene Wahlen der Vorzeichen von λ, µ ∈ R. Beweis. Gilt A = AT und sind λ1 , . . . , λn ∈ R die Eigenwerte von A, so führt eine Hauptachsentransformation S T AS = D = diag(λ1 , . . . , λn ) mit orthogonalem S und mit x0 = S T x zu Q(x) = xT Ax = xT EAEx = xT (SS T )A(SS T )x = (S T x)T (S T AS)(S T x) 2 2 = x0T Dx0 = λ1 x01 + · · · + λn x0n . Hieraus liest man alle Behauptungen ab. Im komplexen Fall schließe man analog. 277 KAPITEL 5. LINEARE ALGEBRA Beispiel. Wir betrachten reell-quadratische Form T x 34 −12 Q(x, y, z) = 34x2 − 24xy + 41y 2 + 2z 2 = y −12 41 z 0 0 {z | =:A x 0 0 y z 2 } und berechnen χA (t) = (t − 2)(t − 25)(t − 50). Also hat A die drei positiven Eigenwerte 2, 25, 50. Damit ist Q positiv definit, d.h. 34x2 − 24xy + 41y 2 + 2z 2 > 0 für alle x, y, z ∈ R mit (x, y, z) 6= (0, 0, 0). Hauptachsentransformation für A liefert 25 0 0 S T AS = 0 50 0 0 0 2 Setzen wir also 4/5 mit S = 3/5 0 0 x 4/5 3/5 y 0 = −3/5 4/5 0 0 z0 {z | −3/5 4/5 0 0 0 . 1 4 3 x 0 5x + 5y 0 y = − 35 x + 45 y , z 1 z } =S T so gilt wie im Beweis vorgeführt Q(x, y, z) = 25x02 + 50y 02 + 2z 02 = 25 4 3 x+ y 5 5 2 2 3 4 + 50 − x + y + 2z 2 . 5 5 4.12∗ Rayleigh-Prinzip. Ist Q(x) = xT Ax eine reelle quadratische Form mit einer symmetrischen Fundamentalmatrix A ∈ Rn×n und ist λmax der größte, λmin der kleinste Eigenwert von A, so gilt λmax = λmin = xT Ax = max xT Ax, r{0} xT x x∈Rn , kxk=1 max n x∈R xT Ax = min xT Ax, r{0} xT x x∈Rn , kxk=1 min n x∈R Für eine komplex quadratische Form gilt das analog, wenn man xT durch x∗ und Rn durch Cn ersetzt. Beweis. Dass das erste Maximum bzw. Minimum gleich dem zweiten ist, erkennt man dadurch, dass T 1 man xxTAx durch kxk2 > 0 kürzt, d.h. zum normierten Vektor kxk x übergeht. x Für A = diag(λmin , . . . , λmax ) mit der Größe nach geordneten Diagonaleinträgen folgt die Behauptung aus λmin (x1 2 + · · · + xn 2 ) ≤ λmin x1 2 + · · · + λmax xn 2 ≤ λmax (x1 2 + · · · + xn 2 ), | {z } | {z } | {z } =xT x =xT Ax =xT x T weil Gleichheit in der ersten Ungleichung für x = (1, 0, . . . , 0) , in der zweiten für x = (0, . . . , 0, 1)T angenommen wird. Ist A keine Diagonalmatrix, so gelangt man nach einer Hauptachsentransformation x := Sy, xT Ax = y T S T ASy = y T Dy, xT x = xT S T Sx = y T y auf die eben diskutierte Situation. 4.13 Polynome zweiten Grades in mehreren Variablen haben im Reellen die Gestalt xT Ax + bT x + c mit A ∈ Rn×n symmetrisch, b ∈ Rn , c ∈ R, bzw. analog im Komplexen x∗ Ax + b∗ x + c mit A ∈ Cn×n hermitesch, b ∈ Cn , c ∈ C. Neben den Gliedern xj xk zweiten Grades treten auch Glieder xk ersten Grades und nullten Grades auf. 278 §6. VEKTORRÄUME MIT SKALARPRODUKT Beispiel. Darstellung eines reellen Polynom zweiten Grades in zwei Variablen im Matrizenkalkül: T T x x −2 x 1 −2 x2 − 4xy + y 2 − 2x + 4 = + + 4. −2 1 y y 0 y 4.14∗ Quadratische Ergänzung. Falls das LGS −2AT u = b lösbar ist (d.h. falls b ∈ Bild(A)) erhält man wegen uT Ax = uT AT x = (Au)T x = xT Au (x − u)T A(x − u) = xT Ax − 2uT Ax + uT Au = xT Ax + bT x + uT Au, d.h. xT Ax + bT x + c = (x − u)T A(x − u) + d mit d := c − uT Au ∈ R. Das nennt man eine quadratische Ergänzung. Beispiel. T x 1 x + 2xy + y − 6x − 6y + 5 = 1 y 2 x −6 x 1 + + 5. 1 y −6 y 2 Wir lösen T u1 −6 1 1 −2 = 1 1 u2 −6 u1 2 beispielsweise durch u2 = 1 und erhalten x2 + 2xy + y 2 − 6x − 6y + 5 = x−2 y−1 ⇔ T 1 1 1 1 1 1 T u1 3 1 = 1 u2 3 T x−2 2 1 +5− 1 y−1 1 {z | =−4 = 2 1 1 1 } (x − 2)2 + 2(x − 2)(y − 1) + (y − 1)2 − 4. 4.15 Quadriken. Eine Quadrik ist das Nullstellengebilde eines Polynoms zweiten Grades in mehreren Veränderlichen, d.h. eine Menge der Gestalt {x ∈ Rn | xT Ax + bT x + c = 0} bzw. {x ∈ Cn | x∗ Ax + b∗ x + c = 0}. Im Fall R2 spricht man auch von einem Kegelschnitt, im Fall R3 von einer Fläche zweiter Ordnung. Eine Quadrik versteht man am besten, wenn man sie bezüglich eines an die Quadrik angepassten ONS betracht. Man führt also eine Bewegung 3.12 durch und erhält eine der folgenden „Normalformen“. 4.16 Normalformen von Quadriken. Durch eine Bewegung des Rn bzw. des Cn lässt sich jede Quadrik in eine der drei Formen m X k=1 λk xk 2 = 0, m X λk xk 2 = 1, k=1 m X λk xk 2 = 2xm+1 k=1 mit 0 ≤ m ≤ n und reellen λ1 , . . . , λm 6= 0 transformieren. Beweisidee. Die Bewegung x 7→ Sx+d bestehend aus einer orthogonalen bzw. unitären (n×n)-Matrix S und einem Verschiebungsvektor d können wir nach dem Satz über die Hauptachsentransformation so wählen, dass S T AS = diag(λ1 , . . . , λm , 0, . . . , 0) eine Diagonalmatrix wird mit reellen λ1 , . . . , λm 6= 0 (für m = 0 hat A nur den Eigenwert 0, für m = n keinen Eigenwert 0). Durch geschickte Wahl von d kann man schließend die meisten linearen Terme eliminieren. 4.17 Kegelschnitte. Ein Kegelschnitt wird von den Punkten (x, y) ∈ R2 mit ax2 + bxy + cy 2 + dx + ey + f = 0 gebildet. Die Zahlen a, b, c, d, e, f ∈ R sind vorgegeben. Nach einer Bewegung des R2 gemäß 4.16, welche die Quadrik in Normalform bringt, erhalten wir die folgende Klassifikation der Kegelschnitte. 279 KAPITEL 5. LINEARE ALGEBRA Degenerierte Fälle. 0 = 1 oder −y 2 = 1, die leere Menge; x2 + y 2 = 0, der Punkt; y = 0 oder x2 = 0, die Gerade; 0 = 0, die Ebene. √ Geradenpaare. Die Gleichung λx2 = 1, λ > 0 definiert zwei parallele Geraden x = ±1/ λ, die Gleichung p λx2 − µy 2 = 0, λ, µ > 0, definiert zwei sich schneidende Geraden y = ± λ/µx. y y x x Abbildung 5.5: Geradenpaare. 2 2 Hyperbel. Hyperbel mit den beiden Asymptoten p Die Gleichung λx − µy = 1, λ, µ > 0, definiert eine √ √ √ √ y = ± λ/µx. Das erkennt man am besten mit der Substition x0 = λx − µy, y 0 = λx + µy. Dann gilt nämlich x0 y 0 = 1. y x Abbildung 5.6: Hyperbel. Ellipse und Kreis. Die Gleichung λx2 + µy 2 = 1, λ, µ > 0, definiert eine Ellipse. Üblich ist die Darstellung x2 y2 + =1 a2 b2 √ √ mit den Hauptachsenradien a := 1/ λ und b := 1/ µ. In dieser Darstellung sind die Koordinatenachsen die Hauptachsen. Für a = b erhält man einen Kreis mit Radius a. y | y b {z a } x Abbildung 5.7: Ellipse und Kreis. x 280 §6. VEKTORRÄUME MIT SKALARPRODUKT Parabel. Die Gleichung λx2 = 2y, λ > 0, beschreibt eine Parabel . y x Abbildung 5.8: Parabel. 4.18 Flächen zweiter Ordnung. Analog zu den Quadriken im R2 , den Kegelschnitten, kann man die Quadriken im R3 durch eine Bewegung des Raumes in Normalform bringen und damit klassifizieren. Neben allerlei entarteten Fällen (leere Menge, Punkt, Gerade, Ebene, Raum) gibt es die folgenden „wichtigen“ Flächen zweiter Ordnung. Zylinder über einem Kegelschnitt. Das sind die Gleichungen λx2 = 1, λx2 − µy 2 = 0, λx2 − µy 2 = 1, λx2 + µy 2 = 1, λx2 = 2y mit λ, µ > 0, in denen die dritte Koordinaten z nicht vorkommt. Abbildung 5.9: Zylinder über Kegelschnitten. Kegel. λx2 + µy 2 − νz 2 = 0 mit λ, µ, ν > 0. Abbildung 5.10: Kegel. 281 KAPITEL 5. LINEARE ALGEBRA Einschaliges bzw. zweischaliges Hyperboloid. Das sind die beiden Gleichungen λx2 + µy 2 − νz 2 = 1 bzw. λx2 − µy 2 − νz 2 = 1 mit λ, µ, ν > 0. Abbildung 5.11: Einschaliges und zweischaliges Hyperboloid. Ellipsoid. λx2 + µy 2 + νz 2 = 1 mit λ, µ, ν > 0. Die zweite übliche Darstellung lautet x2 y2 z2 + + = 1. a2 b2 c2 Die Zahlen a, b, c > 0 heißen Hauptachsenradien. Abbildung 5.12: Ellipsoid. Paraboloid. λx2 + µy 2 = z mit λ, µ > 0. Die Höhenlinien z = c, d.h. λx2 + µy 2 = c bilden ein System konzentrischer Ellipsen. 1 0.5 0 -0.5 -1 -1 -0.5 0 Abbildung 5.13: Paraboloid. 0.5 1 282 §6. VEKTORRÄUME MIT SKALARPRODUKT Sattelfläche. λx2 − µy 2 = z mit λ, µ > 0. Die Höhenlinien der Sattelfläche sind Hyperbeln. 1 0.5 0 -0.5 -1 -1 -0.5 0 0.5 1 Abbildung 5.14: Sattelfläche. 4.19 Entkopplung von schwingenden Systemen. In der Mechanik und anderen Bereichen der Physik treten DGL-Systeme der Form mit M ∈ Rn×n positiv definit und K ∈ Rn×n symmetrisch M ẍ + Kx = 0 auf. Oft sind dies schwingende Systeme. Dann geben die Koordinaten von x die Auslenkungen der einzelnen Teilchen aus der Ruhelage an, die Matrix M trägt Informationen über deren Masse und die Einträge von K geben die Federkonstanten an, mit der die verschiedenen Teilchen miteinander gekoppelt sind. Wir können derartige Systeme jetzt mit einer simultanen Hauptachsentransformation entkoppeln. Ist S T M S = En und S T KS = D = diag(λ1 , . . . , λn ) wie in 4.10, so gehen wir zu den Koordinaten y := S −1 x über und erhalten M ẍ + Kx = 0 S T M SS −1 ẍ + S T KSS −1 x = 0 ⇔ ⇔ ÿ + Dy = 0, d.h. ein entkoppeltes System ÿk + λk yk = 0, k = 1, . . . , n, in dem wir jede DGL einzeln lösen können. Für die Berechnung von S bei vorgegebenen M und K gehe man wie im Beweis von 4.10 vor. 5 Matrizenexponentialfunktion 5.1 Lineare Differentialgleichungssysteme erster Ordnung haben im homogenen Fall die Form ẋ = Ax, mit A ∈ Rn×n . Für ein Anfangswertproblem gibt man noch eine Startzeit t0 und einen Startvektor x0 = x(t0 ) vor. Ohne uns vorerst um Konvergenzfragen zu kümmern erklären wir für eine (n × n)-Matrix A die „Matrizenexponentialfunktion“ eA := ∞ X 1 k 1 1 A = E n + A + A2 + A3 + · · · . k! 2! 3! k=0 Mit A ist auch eA eine (n × n)-Matrix. Durch das Matrixen-Vektor-Produkt x(t) := eA(t−t0 ) x0 für t ∈ R wird eine vektorwertige Funktion x definiert mit x(t0 ) = e0 x0 = En x0 = x0 . 283 KAPITEL 5. LINEARE ALGEBRA Durch mutiges gliedweises Differenzieren erhalten wir d A(t−t0 ) d (t − t0 )2 2 (t − t0 )3 3 ẋ(t) = e x0 = En + A(t − t0 ) + A + A + · · · x0 dt dt 2! 3! 2 (t − t0 )2 2 (t − t ) 0 A3 + · · · x0 = A En + (t − t0 )A + A + · · · x0 = A + (t − t0 )A2 + 2! 2! = AeA(t−t0 ) x0 = Ax(t). Also ist x eine Lösung des AWP ẋ = Ax, x(t0 ) = x0 . Für eine weitere Lösung y betrachten wir d −At e y(t) = −Ae−At y(t) + e−At ẏ(t) = −Ae−At y(t) + e−At Ay(t) = −Ae−At y(t) + Ae−At y(t) = 0. dt Also ist t 7→ e−At y(t) ein konstanter Vektor c, d.h. y(t) = eAt c. Für t = t0 folgt x0 = y(t) = c und die oben gefundene Lösung des AWP ist eindeutig bestimmt. Wir fassen zusammen. Ist A eine (n × n)-Matrix, so ist die homogene lineare DGL ẋ = Ax für jeden Startwert x(t0 ) = x0 eindeutig lösbar und die Lösung lautet x(t) = eA(t−t0 ) x0 für t ∈ R. 5.2 Was fehlt? Der obige Ansatz ist ohne eine Begründung für die Existenz der Matrizenexponentialfunktion und ohne Methoden zur Berechnung von eA für gegebenes A wertlos. Hierzu brauchen wir die „Matrizennorm“ und die „Jordansche Normalform“. 5.3 Matrizennorm. Für eine Matrix A ∈ Kn×n nennen wir die Zahl kAk := max x∈Kn r{0} kAxk = max kAxk kxk x∈Kn , kxk=1 die Matrizennorm von A. Dass beide Maxima denselben Wert liefern, erkennt man aus kAxk 1 = kA( kxk x)k kxk für x 6= 0. Wegen kAxk kxk 2 = (Ax)∗ (Ax) x∗ (A∗ A)x = x∗ x x∗ x sagt das Rayleigh-Prinzip 4.12, dass kAk2 gerade der Betrag des größten Eigenwerts von A∗ A ist (im reellen Fall können wir natürlich auf das Konjugieren verzichten). 5.4 Eigenschaften der Matrizennorm. Für A, B ∈ Kn×n und λ, µ ∈ K gilt (a) kλA + µBk ≤ |λ|kAk + |µ|kBk, (b) kABk ≤ kAkkBk, (c) kAn k ≤ kAkn für n ∈ N, (d) |aj,k | ≤ kAk für alle j, k = 1, . . . , n. Den Beweis führe man selbständig. 5.5 Matrizenexponentialfunktion. Für jede (n × n)-Matrix A konvergiert die Matrizenreihe eA := ∞ X 1 k 1 1 A = E n + A + A2 + A3 + · · · k! 2! 3! k=0 gliedweise absolut und wird Matrizenexponentialfunktion von A genannt. 284 §6. VEKTORRÄUME MIT SKALARPRODUKT Mit 5.4 gilt nämlich n n ∞ X 1 X X 1 1 k A ≤ kAkk ≤ kAkk ≤ ekAk . k! k! k! k=0 k=0 k=0 Pn 1 k Die Matrizenfolge der Partialsummen von k=0 k! A konvergiert also elementweise absolut. Damit existiert die Grenzmatrix eA . 5.6 Rechenregeln für die Matrizenexponentialfunktion. (e) eA+B = eA eB falls A und B vertauschen, d.h. AB = BA, (f) eA e−A = En , insbesondere ist eA immer invertierbar, (g) eS −1 AS = S −1 eA S für invertierbares S. 2 2 2 2 2 Beweis. Zu (e): Im Fall AB = BA beweist k n−k(A+B) = A +AB+BA+B = A +2AB+B Pnman nzunächst n und dann durch Induktion (A + B) = k=0 k A B für n ∈ N. Wegen absoluter Konvergenz kann dann eA eB gliedweise als Cauchy-Produkt ausgewertet werden und ergibt wie in 1.§4.3.9 dann eA+B . Nun folgt (f) für die Wahl B = −A. Aus (S −1 AS)k = S −1 Ak S (vgl. §2.3.11) erhalten wir (g). 5.7 Matrizenexponentialfunktion einer diagonalisierbaren Matrix. Ist A diagonalisierbar, d.h. gilt S −1 AS = D = diag(λ1 , . . . , λn ), mit einer invertierbaren Matrix S, so erhalten wir S −1 Ak S = (S −1 AS)k = Dk = diag(λ1 k , . . . , λn k ) und anschließend S −1 eA S = eS −1 AS = eD = diag(eλ1 , . . . , eλn ). Nach Linksmultiplikation mit S und Rechtsmultiplikation mit S −1 folgt eA = S diag(eλ1 , . . . , eλn )S −1 und wir können eA berechnen. Insbesondere ist diese Methode für symmetrische oder hermitesche Matrizen verwendbar. Dann nimmt man für S eine orthogonale bzw. unitäre Matrix, die A auf Hauptachsen transformiert. Beispiel. Berechnung von eA Eine Hauptachsentransformation liefert 8 −1 S AS = 0 für A := 0 3 4 1 1 . −1 1 mit S := √ 5 1 2 −2 . 1 Für die Matrizenexponentialfunktion folgt mit S −1 = S T dann 8 1 e8 + 4e3 1 1 −2 e 0 1 2 A 8 3 −1 = e = S diag(e , e )S = 0 e3 −2 1 5 2 1 5 2e8 − 2e3 2e8 − 2e3 . 4e8 + e3 5.8∗ Matrizenexponentialfunktion eines Jordan-Blocks. Wir zeigen nun in einem einfachen Fall, wie eA für eine nichtdiagonalisierbare Matrix A berechnet wird. Hierzu betrachten wir den aus §5.1.8 bekannten Jordan-Block λ 1 0 1 0 1 λ 1 .. .. .. .. J = Jn,λ := mit N := = λEn + N . . . . λ 1 0 1 λ 0 zum Eigenwert λ ∈ C. 285 KAPITEL 5. LINEARE ALGEBRA Die Matrix N ist nilpotent mit 1 1 N 0 = En = .. N =N = , . 1 0 1 0 1 .. . 1 , 1 0 .. . 0 1 0 N2 = 0 0 1 0 .. . 1 .. . 0 .. , . 0 0 ..., N n−1 0 = 0 0 ··· .. . .. . 0 1 .. . 0 0 .. , . 0 0 N n = N n+1 = . . . = 0. Die „Einserreihe“ steht also bei N k in der k-ten Nebendiagonale. Daher hat die Matrizenreihe für eN nur endlich viele nichtverschwindende Glieder und es gilt eN = n−1 X k=0 1 1 k N = k! 1 1! 1 ··· 1 (n−2)! 1 (n−1)! 1 (n−2)! 1 1! .. . .. . .. . 1 1 1! 1 1! 1 . 1 Da N mit λEn vertauscht, folgt nun eJ = eλEn +N = eλEn eN = eλ eN eλ = eλ 1! λ e ··· eλ (n−2)! eλ 1! .. . .. .. . . eλ eλ (n−1)! eλ (n−2)! eλ 1! λ e eλ 1! λ . e Ist A ∈ Cn×n nicht diagonalisierbar, so muss der Satz über die Jordansche Normalform verwendet werden. 5.9 Jordansche Normalform. Zu jedem A ∈ Cn×n existiert eine invertierbare Matrix S ∈ Cn×n mit Jk1 ,λ1 Jk2 ,λ2 S −1 AS = . . .. Jkr ,λr Man kann also S auf „Blockdiagonalgestalt“ transformieren. Die λ1 , . . . , λr sind die Eigenwerte von A und die Darstellung ist bis auf die Reihenfolge der Jordan-Blöcke eindeutig bestimmt. U.U. gehören zu einem Eigenwert mehrere Jordan-Blöcke, d.h. die λ1 , . . . , λr müssen nicht paarweise verschieden sein. Aus der Jordanschen Normalform kann man die geometrische Vielfachheit eines Eigenwerts (Anzahl der zugehörigen Jordan-Blöcke) sowie die algebraische (Summe ihrer Größen) ablesen. Sobald also für einen Eigenwert ein „echter“ Jordan-Block auftritt (d.h. nicht nur (1 × 1)-Blöcke), ist A nicht mehr diagonalisierbar. Der zugehörige Eigenwert hat dann eine kleinere geometrische als algebraische Vielfachheit. Für einen Beweis des Satzes über die Jordansche Normalform und für die Konstruktion von S schlage man in der Literatur nach (z.B. [Brö, Kapitel V]). 286 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME 5.10∗ Matrizenexponentialfunktion im allgemeinen Fall. Wird A durch S auf Jordansche Normalform transformiert, so erhalten wir eA in der Form J e k 1 λ1 eJk2 ,λ2 −1 eA = S S , .. . eJkr λr wobei man die Matrizenexponentialfunktion der Jordan-Blöcke wie zuvor geschildert berechnet. §7 Fourier-Analysis und Hilbert-Räume In Abschnitt §6.2 haben wir zwar allgemein erklärt, was ein euklidischer bzw. unitärer Vektorraum ist, die Theorie aber hauptsächlich im endlichdimensionalen Fall angewendet. Nun führen wir Skalarprodukte auf den wichtigsten Funktionenräumen ein und betrachten damit unendlichdimensionale euklidische bzw. unitäre Vektorräume. Insbesondere erhalten wir dabei der Theorie der Fourier-Reihen. 1 Fourier-Reihen 1.1 Fourier-Koeffizienten und Fourier-Polynome. Existieren für eine 2π-periodische Funktion f die Integrale Z π 1 b f (k) = ck := f (t)e−ikt dt, k ∈ Z, 2π −π so nennen wir f Fourier-transformierbar und die (i.A. komplexen) Zahlen fb(k) die (komplexen) FourierKoeffizienten von f . Statt der ck werden auch die reellen Fourier-Koeffizienten Z Z 1 π 1 π ak := f (t) cos(kt) dt, k ∈ N0 , bk := f (t) sin(kt) dt, π −π π −π k ∈ N, benutzt. (Statt cos(kt) bzw. sin(kt) schreibt man gerne cos kt bzw. sin kt und muss dann ggf. darauf achten, was genau „in den Cosinus bzw. Sinus hineingesteckt“ wird.) Für n ∈ N0 nennen wir Sn [f ](t) := n X n fb(k)eikt bzw. Sn [f ](t) := k=−n a0 X + (ak cos kt + bk sin kt) 2 k=1 das n-te Fourier-Polynom von f . Wie in 4.§6.1.8 geschildert können wir die reellen Fourier-Koeffizienten und -Polynome in die komplexen umrechnen und umgekehrt: ak = ck + c−k , bk = i(ck − c−k ). Fourier-Polynome sind Beispiele für trigonometrische Polynome. Während „normale“ Polynome endliche Linearkombinationen der Monome xk mit k ∈ N0 , sind, werden bei trigonometrischen Polynomen die Funktionen eikt mit k ∈ Z (komplexe Darstellung), bzw. 1, cos kt und sin kt mit k ∈ N (reelle Darstellung) linearkombiniert. 1.2 Fourier-Reihen und Fourier-Entwicklung. Die aus der Folge der Fourier-Polynome zu f gebildete unendliche Reihe S∞ [f ](t) := ∞ X ∞ fb(k)eikt bzw. S∞ [f ](t) := k=−∞ nennen wir Fourier-Reihe von f . Hierbei bezeichnet a0 X + (ak cos kt + bk sin kt) 2 k=1 P∞ k=−∞ den Grenzwert limn→∞ Pn k=−n . 287 KAPITEL 5. LINEARE ALGEBRA 1.3 Fourier-Analyse und Fourier-Synthese. Beim Bilden der Fourier-Koeffizienten (fb(k))k∈Z wird eine Funktion f in ihr „Frequenzspektrum“ zerlegt: fb(k) gibt an, mit welcher komplexen Amplitude die Eigenschwingung eikt in f vorkommt. Die Bestimmung der Fourier-Koeffizienten wird Fourier-Analyse oder Fourier-Transformation genannt. Die aus den Fourier-Koeffizienten gebildete Zahlenfolge (fb(k))k∈Z heißt Fourier-Transformierte von f . Den Versuch, mit Hilfe der aus den Fourier-Koeffizienten gebildeten Fourier-Reihe S∞ [f ] die Funktion f zu rekonstruieren, nennt man Fourier-Synthese oder Fourier-Rücktransformation. Achtung. Da eine 2π-periodische Funktion erst durch ihre überabzählbar vielen Funktionswerte f (t), t ∈] − π, π], festgelegt ist, dürfen wir nicht erwarten, dass die abzählbar vielen Fourier-Koeffizienten fb(k), k ∈ Z, alle Informationen über f beinhalten. Ohne weitere Annahmen an f dürfen wir also keine Hoffnung hegen, dass die Fourier-Synthese immer gelingt, d.h. dass S∞ [f ] = f gilt. 1.4 Wichtige Fourier-Reihen. Die folgenden vier Beispiele sollte man sich merken. Nicht nur, weil sich aus ihnen durch Verschieben und Linearkombinieren viele weitere Fourier-Reihen bilden lassen, sondern auch weil sie den typischen Zusammenhang zwischen Glattheit der Funktion und Abfallen der FourierKoeffizienten illustrieren (Näheres siehe 1.8). (a) Rechteck r : R → R, 2π-periodisch mit r(t) = sgn(t) für t ∈] − π, π]. Da r ungerade ist, gilt ak = 0 für alle k ≥ 0 sowie Z 4 für k = 1, 3, 5, . . . , 2 π sin kt dt = kπ bk = 0 π 0 für k = 2, 4, 6, . . . . Das n-te Fourier-Polynom zur Rechteckschwingung r lautet für ungerades n also 4 1 1 1 Sn [r](t) = sin t + sin 3t + sin 5t + · · · + sin nt . π 3 5 n Es ist nicht klar, für welche t ∈ R die zugehörige Fourier-Reihe 4 1 1 S∞ [r](t) = sin t + sin 3t + sin 5t + · · · . π 3 5 konvergiert. -Π Π -1 1 1 1 -Π Π -Π -1 Π -1 Abbildung 5.15: Die Rechteckschwingung und einige ihrer Fourier-Polynome (n = 1, 3, 5). (b) Sägezahn f : R → R, 2π-periodisch mit f (t) = π − t für t ∈ [0, 2π[. Da f ungerade ist, gilt ak = 0 für alle k ≥ 0 sowie nach einer partiellen Integration Z 2 π 2 (π − t) sin kt dt = für k = 1, 2, 3, . . . bk = π 0 k Die Fourier-Reihe der Sägezahnschwingung f lautet damit 1 1 S∞ [s](t) = 2 sin t + sin 2t + sin 3t + · · · . 2 3 288 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME 1 -Π 1 Π -1 -Π 1 Π -1 -Π Π -1 Abbildung 5.16: Die Sägezahnschwingung und einige ihrer Fourier-Polynome (n = 2, 6, 10). Auch für diese Reihe ist nicht klar, ob und wo sie konvergiert. (c) Dreieck d : R → R, 2π-periodisch mit d(t) = |t| für t ∈] − π, π]. Da d gerade ist, gilt bk = 0 für alle k ≥ 1. Eine partielle Integration liefert unter Ausnutzung der Symmetrie Z Z 2 π 2 1 − (−1)k 1 π |t| cos kt dt = t cos kt dt = − für k ∈ N ak = π −π π 0 π k2 sowie a0 = π. Die Fourier-Reihe zur Dreieckschwingung d lautet damit π 4 1 1 S∞ [d](t) = − cos t + 2 cos 3t + 2 cos 5t + · · · . 2 π 3 5 P∞ Das n-te Fourier-Polynom ist gerade die n-te Partialsumme dieser Reihe. Da k=1 1/k 2 eine gleichmäßige Majorante ist, konvergiert diese Fourier-Reihe auf ganz R und die Grenzfunktion ist stetig. Wie die Grenzfunktion aussieht, ist aber zunächst nicht klar. Π -Π Π Π -Π Π Π -Π Π Abbildung 5.17: Die Dreieckschwingung und einige ihrer Fourier-Polynome (n = 1, 3, 5). P∞ Die Majorante k=1 1/k 2 führt offensichtlich zu einer schnelleren Konvergenz als in (a) und (b), wo sich P∞ ein Vergleich mit der alternierenden harmonischen Reihe k=1 (−1)k /k nahe liegt. (d) Parabel p : R → R, 2π-periodisch und ungerade mit p(t) = t(π − t) für t ∈ [0, π[. Dank der Symmetrie gilt ak = 0 für k ≥ 0 sowie (nach zweimaliger partieller Integration) Z 8 2 π für k = 1, 3, 5, . . . , t(π − t) sin kt dt = πk 3 bk = 0 π 0 für k = 2, 4, 6, . . . . Damit hat die Parabelschwingung p die Fourier-Entwicklung 1 8 1 sin t + 3 sin 3t + 3 sin 5t + · · · . S∞ [p](t) = π 3 5 P∞ Hier ist die gleichmäßige Konvergenz durch die Majorante k=1 1/k 3 sichergestellt, ja sogar die gliedweise Differenzierbarkeit. 289 KAPITEL 5. LINEARE ALGEBRA -Π Π -Π Π -Π Π Abbildung 5.18: Die Parabelschwingung und einige ihrer Fourier-Polynome (n = 1, 3, 5). P∞ Da die Majorante k=1 1/k 3 schneller als die Majorante in (c) konvergiert, schmiegen sich die FourierPolynome auch schneller an die Grenzfunktion an. 1.5 Beobachtungen in den Beispielen. Die vier Beispiele der vorherigen Nummer legen folgende Vermutungen nahe: 1. Überall dort, wo f stetig ist, konvergieren die Fourier-Polynome gegen den Funktionswert. (Falsch, es gibt Gegenbeispiele!) 2. An einer Sprungstelle von f konvergieren die Fourier-Polynome gegen den Mittelwert aus links- und rechtsseitigem Grenzwert. (Stimmt fast, aber nur unter einer Zusatzannahme, siehe 1.7.) 3. Je glatter die Funktion ist, desto schneller konvergieren die Fourier-Polynome (Stimmt, siehe 1.8.) 1.6 Integraldarstellung für arithmetischen Mittel von Fourier-Polynomen. Wir wollen uns kurz mit der punktweisen Konvergenz von Fourier-Reihen beschäftigen. Dies ist ein steiniges Feld. Historisch gesehen hat die Beschäftigung mit diesem Problem viel zur Klärung des Stetigkeitsbegriffs beigetragen. Joseph Fourier (1768–1830) selbst war der Meinung, das jede periodische Funktion durch ihre FourierReihe dargestellt wird. Von Du Bois-Reymond stammt aus dem Jahre 1876 ein Beispiel einer stetigen Funktion, deren Fourier-Reihe in einem Punkt divergiert. Es stellt sich heraus, dass für punktweise Konvergenzbetrachtungen nicht so sehr die Folge der FourierPolynome Sn [f ], sondern die ihrer arithmetischen Mittel σn [f ](t) := n n n X 1 X n + 1 − |k| b a0 X n + 1 − k Sk [f ](t) = f (k)eikt = + (ak cos kt + bk sin kt) n+1 n+1 2 n k=0 k=−n k=1 b geeignet ist. Durch Einsetzen der Definition wir mit der Periodizität von f und den aus Pn Pn für kf (k) erhalten 1.§4.2.5 bekannten Summenformeln für k=0 q bzw. k=0 kq k σn [f ](t) = = = = Z π Z π n n X n + 1 − |k| 1 1 X n + 1 − |k| −ikτ ikt f (τ )e dτ e = f (τ )eik(t−τ ) dτ n + 1 2π −π 2π n+1 −π k=−n k=−n Z π n X 1 n + 1 − |k| ikτ f (t + τ ) e dτ 2π n+1 −π k=−n Z π (1 − ei(n+1)τ )2 f (t + τ ) dτ 2π(n + 1)(1 − eiτ )2 −π !2 Z π sin( (n+1)τ ) 1 2 f (t + τ )Fn (τ ) dτ mit Fn (τ ) := . 2π(n + 1) sin( τ2 ) −π Die Funktion Fn wird n-ter Fejér-Kern genannt. 290 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME 4 F25 3 2 F10 1 F2 -Π Π Abbildung 5.19: Graphen einiger Fejer-Kerne. Die Fejér-Kerne haben die folgenden charakteristischen Eigenschaften (FK1) Fn (τ ) ≥ 0, Z π (FK2) Fn (τ ) dτ = 1, −π Z Fn (τ ) dτ = 0 für jedes δ > 0. (FK3) lim n→∞ [−π,π]r]−δ,δ[ Im Integral Z π σn [f ](t) = f (t + τ )Fn (τ ) dτ −π liefert der Integrand wegen (FK3) und (FK1) nur für τ nahe bei 0 einen Beitrag. Dank (FK2) ist das Integral σn [f ](t) dann eine Näherung an f (t). Zum Zwecke der Approximation selbst kommt es also gar nicht so sehr auf die genaue Gestalt der Kerne Fn an, sondern auf die drei oben genannten Eigenschaften. Genügt eine Funktionenfolge (Fn )n diesen drei Bedingungen, so wird sie eine Dirac-Folge genannt. Damit die Approximanden allerdings dann trigonometrische Polynome werden, müssen die Kerne Fn geeignete Form haben. Über die genauen Approximationseigenschaften der trigonometrischen Polynome σn [f ] gibt der folgende Satz von Fejér Auskunft. Für den Beweis verweisen wir auf [Kön, Band 2, §10.1]. Wir erinnern uns daran, dass für eine Regelfunktion f definitionsgemäß an jeder Stelle t im Definitionsbereich die beiden einseitigen Grenzwerte f (t−) := lim f (τ ) τ →t− und f (t+) := lim f (τ ) τ →t+ existieren (vgl. 4.§4.1.16). Satz von Fejér. Ist f Fourier-transformierbar, so konvergiert die Folge der arithmetischen Mittel σn [f ] an jeder Stelle gegen den Mittelwert der beiden einseitigen Grenzwerte von f , d.h. lim σn [f ](t) = n→∞ f (t−) + f (t+) . 2 Ist f insbesondere in einem Punkt t stetig, so gilt limn→∞ σn [f ](t) = f (t). Ist f auf R stetig, so konvergiert (σn )n auf R gleichmäßig gegen f . 291 KAPITEL 5. LINEARE ALGEBRA In Sachen punktweiser Konvergenz verhält sich also die Folge (σn [f ])n angenehm und gerecht — wo f nicht stetig ist, konvergiert sie gegen den Mittelwert aus links- und rechtseitigem Grenzwert von f . Wie das Beispiel von Du Bois-Reymond zeigt, kann ein entsprechender Satz für die Folge der Fourier-Polynome selbst nicht stimmen. Dafür gilt folgender Satz von Dirichlet (siehe z.B. [Kön, Band 1, §17.4]). 1.7 An welchen Stellen konvergiert eine Fourier-Reihe? Satz von Dirichlet. Hat eine Fouriertransformierbare Funktion f an der Stelle t eine links- und eine rechtsseitige Ableitung, so konvergiert die Fourier-Reihe dort gegen den Mittelwert der beiden einseitigen Grenzwerte, d.h. S∞ [f ](t) = lim Sn [f ](t) = n→∞ f (t−) + f (t+) 2 falls f 0 (t+) und f 0 (t−) existieren. Ist insbesondere f in t stetig differenzierbar, so gilt S∞ [f ](t) = f (t). Beispiele. (e) Die Rechteckschwingung r in 1.4 (a) hat an jeder Stelle t ∈ R sowohl eine links- als auch die rechtsseitige Ableitung und es gilt r0 (t−) = 0 = r0 (t+). Also konvergiert die Fourier-Reihe S∞ [r] an jeder Stelle t gegen den Mittelwert von r(t−) und r(t+), d.h. S∞ [r] = r. (f) Die Sägezahnschwingung s aus 1.4 (b) hat auch an jeder Stelle t ∈ R links- und rechtsseitige Ableitungen. Da aber an den Sprungstellen t = ±π, ±3π, . . . der Funktionswert nicht der Mittelwert zwischen den beiden einseitigen Grenzwerten ist, konvergiert dort die Fourierreihe gegen 0 = (s(t−) + s(t+))/2 und nicht gegen den Funktionswert d(t). (g) Die Dreieckschwingung d und die Parabelschwingung p aus 1.4 (c) und (d) sind stetig und haben überall einseitige Grenzwerte, also gilt S∞ [d] = d und S∞ [p] = p. (h) Die Parabelgirlande welche durch „Aneinanderhängen“ von q(t) := t(t−π) für t ∈ [0, π[ entsteht, liefert ebenfalls eine stetige Funktion, die überall einseitige Grenzwerte besitzt. Nach dem Satz von Dirichlet gilt also S∞ [q] = q. Man berechnet a0 = −π 2 /3, ak = 4/k 2 für k = 2, 4, . . ., ak = 0 für k = 1, 3, . . ., bk = 0 für k ∈ N und erhält die Fourier-Reihe 2π 2 1 1 S∞ [q](t) = − + 4 cos 2t + 2 cos 4t + 2 cos 6t + · · · · · · . 3 2 3 Für t = 0 erhalten wir insbesondere ∞ 0 = q(0) = − X 1 2π 2 +4 , 3 k2 k=1 d.h. ∞ X 1 π2 = . 2 k 6 k=1 1.8 Glattheit der Funktion und Fallen der Fourier-Koeffizienten. Die beiden folgenden Beobachtungen sind grundlegend für die Anwendung der Fourier-Transformation zur Datenkompression. (i) Ist f eine C m -Funktion und zusammen mit ihren Ableitungen f, f 0 , . . . , f (m) Fourier-transformierbar, so gilt fb(k) = O(|k|−m ) für |k| → ∞. (j) Ist f Fourier-transformierbar und gibt es ein ε > 0 mit fb(k) = O(|k|−m−1−ε ) für |k| → ∞, so ist f eine C m -Funktion. Kurz gesagt: „je glatter f , desto schneller fallen die Fourier-Koeffizienten und umgekehrt.“ Diese Beobachtung fußt auf der Formel fb0 (k) = −ik fb(k) für k ∈ Z, 292 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME falls f und f 0 Fourier-transformierbar. Eine partielle Integration liefert nämlich π Z π Z π 1 1 1 0 ikt ikt 0 b f (t) e dt = f (t)ikeikt dt = −ik fb(k). f (t)ike − f (k) = 2π −π | {z } |{z} 2π 2π −π −π ↑ ↓ Beweis. Zu (i): Existiert f (m) und ist dies eine stetige Funktion, so ist sie auf [−π, π] durch eine Zahl M (m) (k)| ≤ M . beschränkt und die Standardabschätzung für Integrale liefert |k m fb(k)| = | − (ik)m fb(k)| = |fd P ∞ Zu (j): Im Fall ck = O(|k|−m−1−ε ) fürP|k| → ∞ konvergiert f (t) := k=−∞ ck eikt zusammen mit den ∞ −1−ε ersten m gliedweisen Ableitungen, da k=1 |k| jeweils eine gleichmäßige Majorante ist. 1.9 Datenkompression durch Fourier-Analyse funktioniert folgendermaßen: Werden Daten durch eine glatte Funktion f modelliert (z.B. Bilddaten mit weichen Übergängen oder „vernünftige“ Musik), so bildet man die Fourier-Transformierte fb, überträgt von dieser schnell fallenden Nullfolge nur die ersten Glieder und rekonstruiert aus selbigen eine Näherung an f . Damit lässt sich überraschend viel anstellen. Wo Datenkompression durch Fourier-Transformation mangels Glattheit von f an ihre Grenzen stößt, hilft eine Wavelet-Transformation, welche die Grundidee der Fourier-Transformation verfeinert. 1.10∗ In der Praxis: diskrete Fourier-Transformation. In der Praxis hat man die zu transformierende Funktion (das „Signal“) oft als einen diskreten Datensatz vorliegen, den wir als einen Vektor f = (f (0), f (1), . . . , f (n − 1)) ∈ Cn der Länge n schreiben. Man kann sich f als die Werte einer stückweise konstanten Funktion vorstellen. Als diskretes Analogon zu den Funktionen ek : t 7→ eikt , k ∈ Z, wählen wir die Vektoren εk := 1, e2πik/n , e2πi2k/n , . . . , e2πi(n−1)k/n ∈ Cn , k = 0, 1, . . . , n − 1, die als Komponenten gerade die Funktionswerte ek (0), ek (2π/n), . . . , ek (2π(n − 1)/n) besitzen. Bezüglich des Skalarprodukts n−1 1X hf |gi := f (l)g(l), n l=0 welches bis auf einen Faktor 1/n gerade das Standardskalarprodukt auf dem Cn ist, entpuppen selbige sich als Orthonormalsystem: ( n−1 1 für k = m, 1 X 2πi(k−m)l/n hεk |εm i = e = k, m = 0, 1, . . . , n − 1. n 0 für k 6= m, l=0 Die diskreten Fourier-Koeffizienten sind nun n−1 1X fb(k) := hf |εk i = f (l)e−2πikl/n , n k = 0, 1, . . . , n − 1, l=0 und die diskrete Fourier-Transformation lautet fb = fb(0), fb(1), . . . , fb(n − 1) . Damit ist fb selbst ein Vektor des Cn . Die diskrete Fourier-Rücktransformation f (l) = n−1 X k=0 fb(k)εl (k) = n−1 X fb(k)e2πikl/n , l = 0, 1, . . . , n − 1, k=0 ist nichts anderes als die Darstellung des Vektors f bezüglich der ONB aus den Vektoren ε0 , ε1 , . . . , εn−1 . Da wir uns nun in einem endlichdimensionalen Vektorraum bewegen, stellen sich keine Konvergenzfragen. Die Fourier-Synthese gelingt immer. 293 KAPITEL 5. LINEARE ALGEBRA 1 0.175 1 0.15 0.8 0.8 0.125 0.6 0.6 0.1 0.4 0.4 0.075 0.2 0.2 0.05 0.025 -1 -0.5 0.5 1 10 20 30 40 50 60 10 20 30 40 50 60 Abbildung 5.20: Ein Signal mit Periodenintervall [−1, 1[, seine Diskretisierung f mit 26 Abtastpunkten f (0), f (1), . . . , f (63) sowie seine diskrete Fourier-Transformierte fb. 1.11∗ Effiziente Berechnung der diskreten Fourier-Transformierten. Bei genauem Hinsehen erweisen sich die beiden Formeln für die diskrete Fourier-Transformation und -Rücktransformation in 1.10 als Polynom-Auswertung der Polynome x 7→ n−1 1X f (l)xl n x 7→ bzw. l=0 n−1 X fb(l)xl l=0 2πik/n an den Stellen x = e , k = 0, 1, . . . , n−1. Mit einer Fast Fourier Inversion [StBul, Band 1, 2.3.3] können die diskrete Fourier-Transformation und -Rücktransformation in O(n log n) Multiplikationen durchgeführt werden. 1.12∗ Datenkompression durch diskrete Fourier-Transformation. Was nützt es nun, statt des Datensatzes f den Fourier-transformierten Datensatz fb zu übertragen? Nun, zunächst gar nichts. Ist f strukturlos, so auch fb. Die Fourier-Transformation wird nur interessant, wenn f eine gewisse Glattheit aufweist. In 1.8 haben wir gesehen, dass die Fourier-Koeffizienten einer Funktion umso schneller gegen Null konvergieren, je glatter die Funktion ist. Auch im diskreten Fall können wir erwarten, dass dann die Komponenten von fb schnell klein werden und fb damit erfolgreich komprimiert werden kann. Eine schnelle und erfolgreiche Kompression eines „glatten“ Datensatzes geschieht also nach folgendem Prinzip: Der gegebene Datensatz wird durch schnelle Fourier-Interpolation transformiert. Die Komponenten des transformierten Datensatzes werden schnell klein, man überträgt daher nur seine ersten Komponenten. Aus ihnen erhält man durch eine weitere schnelle Fourier-Interpolation eine Approximation an den ursprünglichen Datensatz zurück. 1 1 1 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0.8 -1 -0.5 0.5 1 10 20 30 40 50 60 10 20 30 40 50 60 Abbildung 5.21: Nochmal das Signal aus Abbildung 5.20 sowie die Approximationen an seine Diskretisierung durch Rekonstruktion nur unter Verwendung der 2m + 2 niederfrequenten Anteile für m = 3 bzw. m = 5. Die Approximationsfehler in diesem Beispiel sind 3% bzw. 0,06%, die Kompressionraten 87,5% bzw. 78,1%. Dieses Kompressionsverfahren funktioniert nicht nur bei eindimensionalen Datensätzen. Auch Bilddaten (also ein zweidimensionaler Datensatz bei einem monochromen Bild, bzw. drei derartige Datensätze bei einem Farbbild) können so erfolgreich komprimiert werden. Der JPEG-Standard ist ein Beispiel hierfür. 294 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME 1.13 Wie geht es weiter? Dieser Abschnitt war einer „bodenständigen“ Einführung in die FourierAnalysis gewidmet: der Definition von Fourier-Koeffizienten, Fourier-Polynomen, Fourier-Entwicklung sowie den grundlegenden Fragen zum Konvergenzverhalten von Fourier-Reihen. Im nächsten Abschnitt ordnen wir die gesamte Fourier-Analysis in die lineare Algebra, genauer gesagt in die Theorie der Orthonormalsysteme, ein. Dass Fourier-Analysis etwas mit Orthonormalsystemen zu tun hat, merkt man schon bei der diskreten Fourier-Transformation. In Abschnitt 3 schließlich gehen wir kurz auf die kontinuierliche Fourier-Transformation ein, bei der die zu transformierende Funktion nicht mehr periodisch sein muss. 2 Hilbert-Räume 2.1 Hilbertsche Funktionenräume. Ist I ein Intervall und ist ρ : I → R+ eine stetige Gewichtsfunktion, so nennen wir Z 2 2 Lρ (I) := f : I → C | |f (x)| ρ(x) dx < ∞ , I R einen Hilbertschen Funktionenraum. Er besteht aus den Funktionen, für die I |f (x)|2 ρ(x) dx konvergiert (für Details siehe §2.1.15). Diese Funktionen nennt man bezüglich des Gewichts ρ quadratintegrabel . Wir stiften auf dem L2ρ (I) das Standardskalarprodukt Z hf |gi := f (x) g(x) ρ(x)dx für f, g ∈ L2ρ (I). I Ähnlich wie im „kleinen“ `2 (siehe §6.2.2) zeigt man, dass für f, g ∈ L2ρ (I) das Produkt f gρ über I integrierbar ist. In der oben genannten Form sind komplexwertige Funktionen zugelassen und es liegt ein unitärer Vektorraum vor. Will man nur reellwertige Funktionen betrachten, so kann man sich das Konjugieren sparen und arbeitet in einem euklidischen Vektorraum. Im einfachsten Fall ist die Gewichtsfunktion ρ = 1 oder eine positive Konstante. Für das Integrationsintervall [0, 2π] und reellwertige Funktionen ist beispielsweise 1 hf |gi := π Z 2π f (t) g(t) dt 0 üblich, d.h. ρ = 1/π. Die Orthogonalitätsrelationen für Cosinus und Sinus aus 4.§4.2.10 erhalten dann die Form Z 2π 2 für m = n = 0, 1 cos(mt) cos(nt) dt = hcos(mt)| cos(nt)i = m, n ∈ N0 , 1 für m = n 6= 0 π 0 0 für m 6= n, Z 2π 1 hcos(mt)| sin(nt)i = cos(mt) sin(nt) dt = 0, m ∈ N0 , n ∈ N, π 0 ( Z 1 für m = n, 1 2π hsin(mt)| sin(nt)i = sin(mt) sin(nt) dt = m, n ∈ N. π 0 0 für m 6= n, Für das Integrationsintervall [−π, π] und komplexwertige Funktionen nimmt man gerne Z π 1 hf |gi := f (x)g(x) dx, 2π −π 295 KAPITEL 5. LINEARE ALGEBRA d.h. ρ = 1/(2π). Dann bekommen die Orthogonalitätsrelationen für die Exponentialfunktion 4.§4.2.10 die Form ( Z π Z π 1 für k = l, 1 1 −ilt ikt i(k−l)t ilt ikt k, l ∈ Z. e e dt = e dt = he |e i = 2π −π 2π −π 0 für k = 6 l, 2.2 Anmerkung R zur Null im Hilbertschen Funktionenraum. Streng genommen ist die quadratische Form f 7→ I |f (t)|2 ρ(t) dt auf dem L2ρ (I) gar nicht positiv definit Rsondern nur positiv semidefinit. Für eine über I integrierbare Funktion g = |f |2 ρ ≥ 0 gilt nämlich schon I g(t) dt = 0 wenn g fast überall verschwindet (vgl. später 6.§2.1 oder früher 4.§4.1.22 und 4.§4.1.4). Dieses Problem kann man auf zwei Arten umgehen: Entweder betrachtet man nur den Unterraum C 0 (I) der stetigen Funktionen (die sind im Fall I = [c, d] automatisch R integrierbar, aus g(t0 ) > 0 folgt dann aber auch g(t) > 0 in einer ganzen Umgebung von t0 , so dass I g(t) dt dann nicht mehr verschwinden kann). Oder man ist etwas lax und „identifiziert“ in L2ρ (I) zwei Funktionen, die fast überall gleich sind. 2.3 Fourier-Analysis. Wir betrachten den Hilbert-Raum L21/(2π) ([−π, π]). Die Funktionen . . . , e−2it , e−it , 1, eit , e2it , . . . erfüllen die Orthogonalitätsrelationen bezüglich des Skalarprodukts 1 hf |gi = 2π Z 2π f (t) g(t) dt 0 und bilden damit ein ONS für den L21/(2π) ([−π, π]). Die konstante Gewichtsfunktion ρ = 1/(2π) beim Skalarprodukt hat wie gesagt normierende Wirkung, andernfalls läge nur ein Orthogonalsystem vor. Wir können die Fourier-Koeffizienten einer Funktion f als das Skalarprodukt 1 fb(k) = 2π Z π f (t)e−ikt dt = heikt |f i. −π von f mit eikt schreiben. Das n-te Fourier-Polynom erhält daher die Darstellung Sn [f ](t) = n X heikt |f ieikt k=−n und entpuppt sich gemäß §6.2.8 als Projektion von f in den von e−int , . . . , eint aufgespannten Unterraum. Das formulieren wir jetzt abstrakt. 2.4 Fourier-Entwicklung, Fourier-Koeffizienten und Besselsche Ungleichung. Haben wir in einem unendlichdimensionalen euklidischen oder unitären Vektorraum V ein Orthonormalsystem mit abzählbar unendlich vielen Vektoren u1 , u2 , . . ., so können wir zu einem vorgegebenen Vektor v ∈ V für jedes n ∈ N die orthogonale Projektion vn := Pn (v) = n X huk |viuk k=1 von v in den von u1 , . . . , un aufgespannten Teilraum Un = Span(u1 , . . . , un ) bilden. Das nennen wir die Fourier-Entwicklung und die Zahlen huk |vi die Fourier-Koeffizienten von v bezüglich des ONS u1 , u2 , . . .. 296 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME Die Vektoren v1 , v2 , . . . der Fourier-Entwicklung (die „Fourier-Polynome“) sind gemäß 2.2.9 bestapproximierend (der n-te vn bezüglich des Unterraums Un ) mit kv − vn k2 = kvk2 − n X |huk |vi|2 . k=1 Wegen U1 ⊂ U2 ⊂ . . . ist die Folge der Abstände kv − vn k monoton fallend. Damit konvergiert die Reihe ∞ X |huk |vi|2 ≤ kvk2 . k=1 Das ist die Besselsche Ungleichung. Achtung. Bisher wird noch nichts darüber gesagt, dass die Fourier-Reihe P∞ k=1 huk |viuk konvergiert. 2.5 Vollständige Orthonormalsysteme. Ein Orthonormalsystem u1 , u2 , . . . eines euklidischen oder unitären Vektorraums V heißt vollständig (kurz vONS ), wenn lim kv − vn k = 0 n→∞ für alle v ∈ V wobei vn = n X huk |viuk . k=1 Für jedes v ∈ V konvergiert also die Fourier-Entwicklung im Sinne der Norm gegen v. Ist u1 , u2 , . . . ein vollständiges Orthonormalsystem von V , so gilt kvk2 = ∞ X |huk |vi|2 , hv|wi = ∞ X huk |vihuk |wi k=1 k=1 für alle v, w ∈ V . Beide Beziehungen werden Parsevalsche Gleichung genannt. Beweis. Die erste Form Pn der Parsevalschen Gleichung folgt sofort durch Grenzübergang in der Gleichung kv − vn k2 = kvk2 − k=1 |huk |vi|2 für den minimalen Abstand bei Bestapproximation. Die zweite Form der Parsevalschen Gleichung beschafft man sich über die Polarisationsgleichung §6.1.8. 2.6 Hilbert-Räume. Einen euklidischen oder unitären Vektorraum mit einem vollständigen Orthonormalsystem nennen wir einen (separablen) Hilbert-Raum. Anmerkung. Das Adjektiv „separabel“ rührt daher, dass wir nur endliche oder abzählbar unendliche Orthonormalsysteme betrachten. Ein vollständiges Orthonormalsystem aus abzählbar unendlich vielen Vektoren kann quasi als ein abzählbar unendlicher Ersatz für eine Basis aus endlich vielen Vektoren gesehen werden. Eine Basis im strengen Sinn ist das nicht, da jeder Vektor v nur durch eine Reihe P∞ λ n=1 n un aus Linearkombinationen der ONS-Vektoren u1 , u2 , . . . dargestellt wird, nicht durch eine endliche Summe. Die für die „Linearkombination“ benötigten Skalare λn erhält man — wie bei einem ONS üblich — bequem mittels λn = hun |vi. 2.7 L2 -Theorie für Fourier-Reihen. Wir wenden die Ergebnisse der letzten Nummern auf FourierReihen an und erhalten: Ist f Fourier-transformierbar, so gilt kf − fn k2 ≥ kf k2 − n X |fb(k)|2 k=−n Pn ikt für jedes trigonometrische Polynom fn (t) = und Gleichheit tritt genau dann ein, wenn k=−n γk e P∞ fn = Sn [f ] das n-te Fourier-Polynom ist. Insbesondere konvergiert k=−∞ |fb(k)|2 . 297 KAPITEL 5. LINEARE ALGEBRA Durch kf − fn k = 1 2π π Z 1/2 |f (t) − fn (t)| dt 2 −π wird der Fehler im quadratischen Mittel zwischen f und fn gemessen. Das n-te Fourier-Polynom hat also unter allen trigonometrischen Polynomen vom Grad n den kleinsten Fehler im quadratischen Mittel. Insbesondere gilt kf − Sn [f ]k ≤ kf − σn [f ]k2 für das arithmetischen Mittel σn [f ] der ersten n FourierPolynome. Da σn [f ] für stetiges f gleichmäßig gegen f konvergiert, folgt kf − Sn [f ]k → 0 für n → ∞. Damit bilden die reinen Schwingungen . . . , e−2it , e−it , 1, eit , e2it , . . . ein vONS für die 2π-periodischen stetigen Funktionen. Mit etwas mehr Aufwand beweist man: Die reinen Schwingungen bilden ein vollständiges Orthonormalsystem für den L21/(2π) ([−π, π]), d.h. jede 2π-periodische Fourier-transformierbare Funktion wird im quadratischen Mittel durch ihre Fourier-Reihe approximiert. Wer will, kann das Ganze auch pompös ausdrücken. Der L21/(2π) ([−π, π]) ist ein separabler Hilbert-Raum. 2.8∗ Weitere wichtige Orthonormalsysteme. Wir geben einige wichtige Orthonormalsysteme in Hilbertschen Funktionenräumen an, die durch Gram-Schmidt-Orthonormalisierung erhalten werden. Solche ONS findet man in jeder guten Formelsammlung (z.B. [AbSteg, RyGrad]). Es gibt eine umfangreiche Theorie, welche für solche Funktionenfolgen Differentialgleichungen, Rekursionsformeln, erzeugende Funktionen und vieles mehr zur Verfügung stellt. (a) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L2 ([−1, 1]) mit dem Standardskalarprodukt Z 1 hf |gi := f (x) g(x) dx −1 liefert die Legendre-Polynome oder Kugelfunktionen 1. Art Pn (x) = 1 -1 1 dn 2 (t − 1)n , 2n n! dtn 1 1 1 1 -1 1 -1 -1 -1 n ∈ N0 ; -1 1 1 -1 Abbildung 5.22: Graphen der ersten Legendre-Polynome Ln (n = 0, 1, 2, 3). 1 1 (3x2 − 1), P3 (x) = (5x3 − 3x), 2 2 Die Legendre-Polynome sind nicht normiert, vielmehr gilt Z 1 2 kPn k2 = Pn (x)2 dx = . 2n +1 −1 P0 (x) = 1, P1 (x) = x, P2 (x) = .... 298 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME (b) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L21/√1−x2 ([−1, 1]) mit dem Skalarprodukt 1 Z f (x) g(x) √ hf |gi := −1 1 dx 1 − x2 liefert die Chebyshev-Polynome 1. Art T0 (x) = 1, 1 -1 1 cos(n arccos x), 2n−1 Tn (x) = 1 1 1 -1 1 -1 n ∈ N; 1 -1 1 -1 -1 1 -1 -1 Abbildung 5.23: Graphen der ersten Chebyshev-Polynome Tn (n = 0, 1, 2, 3). T0 (x) = 1, T1 (x) = x, T2 (x) = 2x2 − 1, T3 (x) = 4x3 − 3x, .... (c) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L2e−x ([0, +∞[) mit dem Skalarprodukt Z hf |gi := +∞ f (x) g(x)e−x dx 0 liefert die Laguerre-Polynome Ln (x) = ex 1 1 1 -1 dn n −x (x e ), dxn n ∈ N0 ; 1 1 1 1 -1 1 -1 -1 Abbildung 5.24: Graphen von e−x/2 Ln (x) für die ersten Laguerre-Polynome Ln (n = 0, 1, 2, 3). L0 (x) = 1, L1 (x) = −x + 1, L2 (x) = 1 2 (x − 4x + 2), 2 L3 (x) = 1 (−x3 + 92 − 18x + 6), 6 Ohne die Gewichtsfunktion ρ(x) = e−x würde dieser Hilbert-Raum keine Polynme enthalten. .... 299 KAPITEL 5. LINEARE ALGEBRA (d) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L2e−x2 (] − ∞, +∞[) mit dem Skalarprodukt Z +∞ 2 f (x) g(x)e−x dx hf |gi := −∞ liefert die Hermite-Polynome Hn (x) = (−1)n ex 1 -1 dn −x2 (e ), dxn 1 1 -1 -1 −x2 1 -1 H1 (x) = 2x, 1 1 -1 -1 /2 √ Hn (x) 2n n! π H0 (x) = 1, n ∈ N0 ; 1 -1 Abbildung 5.25: Graphen von √e 3 2 1 -1 für die ersten Hermite-Polynome Hn (n = 0, 1, 2, 3). H2 (x) = 4x2 − 2, H3 (x) = 8x3 − 12x, .... Kontinuierliche Fourier-Transformation 3.1 Fourier-Transformation. Jetzt wollen wir ein Signal f : R → C in sein RFrequenz-Spektrum zerle+∞ gen, ohne die Periodizität von f anzunehmen. Um die Existenz der Integrale −∞ f (t)e−ikt dt sicherzustellen, fordern wir die Konvergenz des uneigentlichen Integrals Z +∞ |f (t)| dt. −∞ Den Raum aller Regelfunktionen für die dieses Integral existiert bezeichnen wir mit R1 (R). Die durch Z +∞ 1 f (t)e−ixt dt für x ∈ R fb(x) := √ 2π −∞ definierte Funktion fb: R → C heißt dann die Fourier-Transformierte von f . 3.2 Zur Notation. In der Literatur sind statt des obigen Integrals auch die Integrale Z +∞ Z +∞ f (t)e−ixt dt, f (t)e−2πixt dt −∞ −∞ zusammen mit verschiedenen Vorfaktoren gebräuchlich. Inhaltlich wird sich dabei nichts ändern, lediglich die Formeln bekommen eine etwas andere Gestalt. 3.3 Interpretation der Fourier-Transformierten. Unter fb(x) stellen wir uns wieder die (komplexe) Amplitude vor, mit der die reine Schwingung ex : t 7→ eixt in f vertreten ist. 300 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME Zur Veranschaulichung dieser Sichtweise betrachten wir ein Signal f , dessen Wert f (t) während eines längeren Zeitintervalls [c, d] mit der Kreisfrequenz x und den Ursprung herumläuft, während der restlichen Zeit aber kaum messbar ist. Dann ist arg(f (t)e−ixt ) für t ∈ [c, d] im wesentlichen konstant, das Rd Integral c f (t)e−ixt R dt hat also einen großen Betrag, da sich beim Aufsummieren kaum etwas weghebt. Das Restintegral Rr[c,d] f (t)eixt dt dagegen kann vernachlässigt werden: für t ∈ R r [c, d] ändert sich f (t) nämlich im Gegensatz zum schnell und harmonisch oszillierenden ex (t) kaum, so dass sich bei der Integration fast alles weghebt. 3.4 Beispiele. Wir berechnen zwei wichtige Fourier-Transformierte. (a) Die durch f (t) := χ[−1,1] (t) = 1 für |t| ≤ 1, 0 für |t| > 1 R +∞ R1 definierte Treppenfunktion f gehört wegen −∞ |f (t)| dt = −1 1 dt = 2 zu R1 (R). Ihre Fourier-Transformierte berechnet sich mit Hilfe der Sinc-Funktion zu r 2 sin(x) für x 6= 0, Z +∞ Z 1 π x 1 1 −ixt −ixt b . f (t)e dt = √ e dt = r f (x) = √ 2π −∞ 2π −1 2 für x = 0 π Es gilt also r fb(x) = 2 sinc(x) π für x ∈ R. 1 1 0.5 f -1 1 -10 fb = -5 5 p 2/π sinc 10 Abbildung 5.26: Die Sinc-Funktion als Fourier-Transformierte. 2 (b) Für a > 0 liegt die durch ga (t) := e−at definierte Funktion g in R1 (R). Ihre Fourier-Transformierte können wir mit Hilfe der aus 4.§6.3.8 bekannten Formel Z +∞ 2 e−u /2 du = √ 2π −∞ (die allerdings erst in 6.§2.3.5 bewiesen werden kann) und einer Substitution u := gba (x) = = = √ ix 2a(t+ 2a ) ausrechnen: Z +∞ Z +∞ ix 2 x2 1 1 −at2 −ixt √ e e dt = √ e−a(t+ 2a ) − 4a dt 2π −∞ 2π −∞ Z 1 −x2 /(4a) +∞ −[√2a(t+ ix )]2 /2 2a √ e e dt 2π −∞ Z +∞ 2 2 2 2 1 du 1 1 √ 1 √ e−x /(4a) e−u /2 √ = √ e−x /(4a) √ 2π = √ e−x /(4a) . 2π 2a 2π 2a 2a −∞ 301 KAPITEL 5. LINEARE ALGEBRA 1 0.5 -5 5 2 Abbildung 5.27: Für g1/2 (t) = e−t /2 gilt g1/2 = gd 1/2 . Insbesondere gilt also g1/2 = gd 1/2 2 für g1/2 (t) = e−t /2 . 3.5 Stetigkeit der Fourier-Transformierten. In Beispiel (a) haben wir eine unstetige Funktion mit einer stetigen Fourier-Transformierten kennengelernt. Das ist kein Zufall, es gilt nämlich der folgende Satz. Für jede Funktion f ∈ R1 (R) ist die Fourier-Transformierte fb auf ganz R stetig. R +∞ Beweis∗ . Ist f ∈ R1 (R), so existiert ein M > 0 mit −∞ |f (t)| dt ≤ M . Sei a ∈ R und sei ε > 0. Setzen √ wir δ := 2πε/M , so gilt wegen e−ixt − e−iat = e−i(x+a)t/2 (e−i(x−a)t/2 − ei(x−a)t/2 ) und | sin(t)/t| ≤ 1 für t ∈ R r {0} für alle x ∈ R mit |x − a| < δ im Fall x 6= a dann Z Z 1 +∞ 1 +∞ −ixt −iat −i(x−a)t/2 i(x−a)t/2 b b |f (x) − f (a)| = √ f (t)(e −e ) dt = √ f (τ )(e −e ) dt 2π −∞ 2π −∞ Z +∞ Z +∞ 2 sin( x−a ) 1 2 · |x − a| dt ≤ √1 ≤ √ |f (t)| · |f (t)| dt|x − a| x−a 2π −∞ 2π −∞ M ≤ √ |x − a| < ε. 2π Für x = a ist diese Ungleichung sowieso wahr. Also ist fb in a stetig. 3.6 Fourier-Rücktransformation. Wieder stellt sich die Frage, ob eine Funktion f ∈ R1 (R) aus ihrer Fourier-Transformierten fb zurückgewonnen werden kann. Wünschenswert wäre eine Darstellung der Art Z +∞ 1 √ fb(x)eixt dx, 2π −∞ bei der f (t) durch Aufsummieren der reinen Schwingungen ex mit den zugehörigen Amplituden fb(x) synthetisiert wird. Der Frequenzvorrat ist diesmal nicht diskret wie im periodischen Fall, sondern wir benötigen ex für alle Frequenzen x ∈ R. Auch wenn wir wissen, dass für jedes f ∈ R1 (R) die Fourier-Transformierte fb auf ganz R stetig ist, so ist a priori nicht klar, ob das obige Integral überhaupt gebildet werden kann. So gehört die Sinc-Funktion beispielsweise nicht zu R1 (R). Setzt man seine Existenz aber voraus, so erhalten wir folgendes Analogon zum Satz von Dirichlet 5.§7.1.7 (vgl. [Kön, Band 2 §10.2]). Für jede Funktion f ∈ R1 (R) mit fb ∈ R1 (R) gilt 1 f (t) = √ 2π für jeden Punkt t ∈ R, in dem f stetig ist. Z +∞ −∞ fb(x)eixt dx 302 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME 3.7 Glattheit der Funktion und Fallen der Fourier-Transformierten. Wie schon im periodischen Fall besteht ein Zusammenhang zwischen der Glattheit der Ausgangsfunktion und der ihrer FourierTransformierten. Wir notieren hierzu zwei Sätze. Der erste besagt, dass für eine schnell fallende Funktion die Fourier-Transformierte differenzierbar wird, der zweite, dass für eine differenzierbare Funktion die Fourier-Transformierte schnell fällt. R +∞ (c) Existiert zu f ∈ R1 (R) ein n ∈ N, so dass −∞ |tn f (t)| dt konvergiert, so besitzt f eine n-mal stetig differenzierbare Fourier-Transformierte fb und es gilt kf fb(k) = (−i)k td für k = 1, 2, . . . , n. (d) Ist f ∈ C n (R) eine Funktion mit f (k) ∈ R1 (R) für k = 0, 1, . . . , n, so gilt (k) = (ix)k fb fd für k = 1, 2, . . . , n. Beweis∗ . Zu (c): Wir behandeln nur den Fall n = 1 aus dem durch Induktion der allgemeine Fall folgt. Zunächst gilt Z +∞ e−i(x+h)t − e−ixt 1 fb(x + h) − fb(x) 0 b √ = lim f (t) dt. f (x) = lim h→0 h→0 h h 2π −∞ R +∞ Die Konvergenz von −∞ |tf (t)| dt erlaubt eine gliedweise Integration (vgl. 4.§6.2.3) und liefert Z +∞ Z +∞ 1 1 e−ixt − e−i(x+h)t 0 b b (x). dt = √ f (x) = √ f (t) lim f (t)(−it)e−ixt dt = −itf h→0 h 2π −∞ 2π −∞ Aus dieser Darstellung als Fourier-Transformierte folgt auch die Stetigkeit von fb0 . Rt Zu (d): Wieder genügt die Betrachtung von n = 1. Aus f (t) = f (0) + 0 f 0 (τ ) dτ und der Integrierbarkeit von f 0 über R folgt die Existenz von limt→∞ f (t) und limt→−∞ f (t). Diese Grenzwerte müssen dann beide verschwinden, sonst wäre f nicht über R integrierbar. Eine partielle Integration liefert nun wie behauptet Z +∞ Z +∞ ix 1 f 0 (t)e−ixt dt = √ f (t)e−ixt dt = ixfb(x). fb0 (x) = √ 2π −∞ 2π −∞ 3.8 Fourier-Transformation algebraisiert. Die Fourier-Transformation übersetzt also die Differentiation in die Multiplikation mit ix. Ähnliches haben wir schon in 4.§6.4.7 bei der Laplace-Transformation erlebt. Dank dieser „Algebraisierung“ kann auch die Fourier-Transformation zum Lösen von Differentialgleichungen eingesetzt werden. 3.9∗ Wie geht es weiter?. Unser Hauptanliegen in diesem Abschnitt ist das Abtast-Theorem von Shannon, auch Sampling Theorem genannt. Hier geht es um eine überraschende Antwort auf folgende Frage: Kann man ein Zeitsignal f aus diskreten Werten {f (kT ) | k ∈ Z} rekonstruieren? Im Allgemeinen ist das natürlich unmöglich. In den offenen Intervallen zwischen den Messpunkten kT , k ∈ Z, kann sich f ja noch ganz beliebig verhalten. Unter einer — für die technischen Anwendungen oft unbedenklichen — Zusatzannahme gelingt die Rekonstruktion aber doch. Wir stellen jetzt zuerst das notwendige Vokabular bereit und formulieren dann das Abtast-Theorem. 3.10∗ Bandbegrenzte Funktionen. Eine Funktion f ∈ R1 (R) heißt Ω-bandbegrenzt für ein Ω > 0, wenn ihre Fourier-Transformierte fb außerhalb des Intervalls [−Ω, Ω] verschwindet: fb(x) = 0 für |x| > Ω. Die kleinste Zahl Ω ≥ 0 mit dieser Eigenschaft wird Bandbreite von f genannt. Eine Funktion heißt bandbegrenzt, wenn sie Ω-bandbegrenzt ist für ein Ω > 0. 303 KAPITEL 5. LINEARE ALGEBRA 3.11∗ Träger einer Funktion. Für eine Funktion g : R → C wird der Abschluss der Menge {x ∈ R | g(x) 6= 0} der Träger von g genannt. Eine Funktion ist also genau dann bandbegrenzt, wenn ihre Fourier-Transformierte einen kompakten Träger besitzt. f fb Abbildung 5.28: Eine bandbegrenzte Funktion: die Fourier-Transformierte hat kompakten Träger. 3.12∗ Abtast-Theorem von Shannon. Eine stetige Ω-bandbegrenzte Funktion f ∈ R1 (R) kann für jedes T ∈]0, π/Ω[ aus den Werten f (kT ), k ∈ Z, rekonstruiert werden. Für alle t ∈ R gilt f (t) = ∞ X k=−∞ π (t − kT ) . f (kT ) sinc T Man nennt π/T die Nyquist-Frequenz zum Abtastintervall T . Beweis∗ . Ist f bandbegrenzt, so ist fb sicher über R integrierbar. Daher ist eine Rücktransformation 3.6 möglich, und es gilt (da f außerhalb von [−π/T, π/T ] verschwindet) Z +∞ Z π/T Z π 1 1 1 τ dτ f (t) = √ . fb(x)eixt dx = √ fb(x)eixt dx = √ fb eiτ t/T T T 2π −∞ 2π −π/T 2π −π Wir betrachten die 2π-periodischen Funktionen F, Et : R → C, die im Periodenintervall [−π, π[ durch √ 2π b τ F (τ ) := f , Et (τ ) := e−iτ t/T T T festgelegt sind. Für ihre Fourier-Koeffizienten gilt dann nach obiger Formel und Beispiel 3.4 (a) Z π √ 1 2π b τ −ikτ Fb(k) = f e dτ = f (−kT ), 2π −π T T Z π π ct (k) = 1 e−iτ t/T e−ikτ dτ = sinc (t + kT ) , E 2π −π T Z π 1 f (t) = F (τ )Et (τ ) dτ. 2π −π Mit der allgemeinen Parsevalschen Gleichung §7.2.5 und der Ersetzung von k durch −k folgt nun Z π ∞ π X 1 f (t) = F (τ )Et (τ ) dτ = f (kT ) sinc (t − kT ) . 2π −π T k=−∞ 3.13∗ Anmerkungen zum Abtast-Theorem. Eine stetige bandbegrenze Funktion lässt sich also aus ihren Werten auf einem genügend feinen Raster rekonstruieren. Gerade in der Tonübertragung ist eine Beschränkung auf solche Funktionen kein Verlust — unser Gehör nimmt sowieso nur Töne bis zu einer bestimmten Frequenz wahr. Die Mathematik steuert dann die Grundlage zur verlustlosen Digitalisierung des Klangerlebnisses bei. 304 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME Im Abtast-Theorem ist die Feinheit des Abtastrasters wesentlich. Ist f bandbegrenzt mit Bandbreite Ω, so hat jede in f auftretende reine Schwingung ex eine Schwingungsdauer von mindestens 2π/Ω. Das Abtast-Theorem sagt, dass für ein vollständiges Klangerlebnis die Länge T des Abtastintervalls so klein gewählt werden muss, dass jede auftretende reine Schwingung mindestens zweimal pro Periode erfasst wird: die Nyquist-Frequenz muss größer als die Bandbreite sein. 3.14∗ Kardinalreihen. Die im Abtast-Theorem zur Rekonstruktion von f verwendete Reihe ist von der Bauart ∞ X ak sinc(t − kπ). k=−∞ Solche Reihen werden Kardinalreihen genannt. Man kann davon ausgehen, dass eine Verfeinerung des Abtastrasters — sogenanntes Oversampling — zu einer besseren Konvergenz der zugehörigen Kardinalreihe führt. Beim Undersampling dagegen wird das Abtastraster zu grob, d.h. die Nyquist-Frequenz zu klein, gewählt. Dann treten unerwünschte Effekte wie das Aliasing auf. 3.15 Fourier-Transformierte bei Verschiebung, Stauchung, Modulierung. Zum Schluss dieses Abschnitts wollen wir kurz untersuchen, wie sich die Fourier-Transformierte ändert, wenn die zu transformierende Funktion einer einfachen Operation, beispielsweise einer Verschiebung, einer Stauchung oder einer Modulierung mit einer reinen Schwingung, unterzogen wird. Für f : R → C definieren wir durch Th [f ](t) Mξ [f ](t) Da [f ](t) := f (t − h) für h ∈ R, := eξ (t)f (t) = eiξt f (t) := f at für ξ ∈ R, für a > 0 drei weitere Funktionen Th [f ], Mξ [f ], Da [f ] : R → C. Offensichtlich liegen mit f auch diese drei Funktionen in R1 (R). Für h > 0 bewirkt Th eine Verschiebung des Graphen von f nach rechts. Durch Mξ wird f mit einer reinen Schwingung moduliert. Die Operation Da zieht den Graphen von f für a > 1 in die Breite, für 0 < a < 1 wird er dagegen horizontal gestaucht. f Th [f ] Da [f ] f Abbildung 5.29: Translation Th und Dilatation Da einer Funktion. Was mit den Fourier-Transformierten geschieht, wenn f einer dieser drei Operationen unterworfen wird, können wir uns durch einfaches Anwenden der Substitutionsregel 4.§6.3.10 überlegen. Für f ∈ R1 (R) gilt := e−h (x)fb(x) = e−ihx fb(x) für h ∈ R, \ M ξ [f ](x) := fb(x − ξ) für ξ ∈ R, \ D a [f ](x) := aD1/a [fb](x) = afb(ax) für a > 0. T[ h [f ](x) Statt der langweiligen Rechnung für den Beweis machen wir uns geometrisch klar, was geschieht. 305 KAPITEL 5. LINEARE ALGEBRA • Wird f auf der t-Achse um h verschoben, so wird fb mit dem Faktor e−h moduliert. • Wird f mit eξ moduliert, so verschiebt sich fb um ξ auf der x-Achse. • Wird der Graph von f mit dem Faktor a > 1 in die Breite gezogen (bzw. für 0 < a < 1 um den Faktor a gestaucht), so wird der Graph von fb mit dem Faktor 1/a < 1 horizontal gestaucht (bzw. mit dem Faktor 1/a > 1 horizontal gestreckt) und zusätzlich mit dem Faktor a vertikal gestreckt (bzw. gestaucht). 3.16 Beispiel. Die drei eben diskutierten Operationen sind bei der Berechnung von Fourier-Transformierten nützlich. Zum Beleg hierfür bestimmen wir die Fourier-Transformierte der durch f (t) := e−2t(t+1) definierten 2 2 Funktion f ∈ R1 (R). Es gilt f (t) = e1/2 e−(2t+1) /2 . Setzen wir g(t) := e−t /2 für t ∈ R, so erhalten 1/2 wir für f die Darstellung f = e T−1 [D1/2 [g]]. Die Fourier-Transformierte von g ist aus Beispiel 3.4 (b) 2 bekannt, sie lautet gb(x) = e−x /2 . Damit folgt 2 2 1 1 1 1/2 1 ix/2 x e fb(x) = e1/2 T−1\ [D1/2 [g]](x) = e1/2 T\ gb( x2 ) = e1/2 eix/2 e−x /8 = e−(x−2i) /8 . −1 [g]( 2 ) = e 2 2 2 2 3.17 Faltung von Funktionen (Version für Fourier-Transformation). Ein weiteres nützliches Hilfsmittel, um aus bekannten Fourier-Transformierten weitere zu erhalten, benutzt die „Faltung“ von Funktionen, welche als eine etwas eigentümliche Art von Produktbildung angesehen werden kann. Die Faltung ist uns schon von der Laplace-Transformation bekannt, wurde dort (4.§6.4.8) aber in einer für die dortigen Zwecke angepassten Form eingeführt (die im wesentlichen der Tatsache Rechnung trägt, dass bei der Laplace-Transformation Funktionen immer auf dem Definitionsbereich [0, +∞[ betrachtet werden). Existiert für zwei Funktionen f, g ∈ R1 (R) das Integral Z ∞ (f ∗ g)(t) := f (τ )g(t − τ ) dτ −∞ für alle t ∈ R, so wird die hierdurch definierte Funktion f ∗ g : R → C die Faltung von f und g genannt. 3.18 Faltungssatz für die Fourier-Transformation. Die Fourier-Transformierte der Faltung zweier Funktionen ist nun einfach das Produkt der Fourier-Transformierten der gefalteten Funktionen. Sind f, g ∈ R1 (R) Fourier-transformierbar, existiert die Faltung f ∗ g und ist sie Fourier-transformierbar, so gilt √ f[ ∗ g = 2π fbgb. Die zum Beweis notwendige Rechnung erscheint verführerisch einfach. Definitionsgemäß gilt Z +∞ Z +∞ 1 \ (f ∗ g)(x) = √ f (τ )g(t − τ ) dτ e−ixt dt 2π −∞ −∞ Z ∞ Z ∞ 1 = √ f (τ )e−ixτ g(t − τ )e−ix(t−τ ) dτ dt. 2π −∞ −∞ Wenn wir nun die Reihenfolge der Integration vertauschen dürften, so erhielten wir Z ∞ Z ∞ 1 −ixτ −ix(t−τ ) \ (f ∗ g)(x) = √ f (τ )e g(t − τ )e dt dτ 2π −∞ −∞ Z ∞ √ f (τ )e−ixτ gb(x) dτ = 2π fb(x)b = g (x). −∞ Tatsächlich ist diese Vertauschung erlaubt. Die Rechtfertigung hierfür erfordert aber Ergebnisse der mehrdimensionalen Integrationstheorie (Satz von Fubini, 6.§2.2.5), die uns erst später zur Verfügung stehen. 306 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME Beispiel. (e) Die Faltung des aus Beispiel 3.4 (a) bekannten Rechteckimpulses f = χ[−1,1] ∈ R1 (R) mit sich selbst erhalten wir nach kurzer Rechnung zu ( Z 1 Z ∞ 2 − |t| für |t| ≤ 2, f (t − τ ) dτ = f (τ )f (t − τ ) dτ = (f ∗ f )(t) = 0 für |t| > 2. −1 −∞ Damit ist f ∗ f ein Dreieckimpuls. Die Fourier-Transformierte lautet wegen fb = r f[ ∗f = p 2/π sinc dann 8 sinc2 . π 3.19 Fazit. Außer dem Abtast-Theorem von Shannon hat uns dieser Abschnitt nicht Überraschendes gebracht. Das meiste begegnet uns schon bei der Fourier-Transformation periodischer Funktionen. Auch das Fazit über die Stärken und Schwächen bleibt erhalten: die Fourier-Transformation behandelt eine Funktion als ein Gesamtobjekt. Man erkennt an ihr nur, wie glatt die transformierte Funktion höchstens sein kann, aber nicht, wo sie sich unangenehm erhält. Weist eine Funktion eine regelmäßige Textur auf, so kann sie gut Fourier-transformiert werden. Die Fourier-Transformierte fällt dann schnell und eignet sich gut zur Datenkompression. Mit diesem Wissen über die Fourier-Transformation und der Kenntnis der drei Operationen Th , Mξ und Da sind wir in der Lage, die Grundidee der Wavelet-Transformation zu verstehen. 4∗ Wavelet-Transformation 4.1 Grundidee der Wavelet-Transformation. Die Fourier-Transformation erlaubt die Analyse komplexwertiger Zeitsignale und zehrt dabei von den überragenden Eigenschaften der Funktion t 7→ eit . Selbige wird mit einem rellen Frequenzparameter x zu ex : t 7→ eixt dilatiert. Die Grundidee der Wavelet-Transformation besteht darin, dass man als Abfragemuster statt den Dilatationen ex von e1 ein „Wavelet“ verwendet, welches einerseits der Schwingungscharakter von ex erhält, andererseits eine Lokalisierung ermöglicht. Letztlich ist nämlich die Periodizität von ex für die Stärken und Schwächen der Fourier-Transformation verantwortlich. 4.2 Definition: Wavelet. Eine Funktion ψ : R → C heißt Wavelet oder Mutter-Wavelet, wenn ψ und |ψ|2 über R integrierbar sind mit Z +∞ Z ψ(τ ) dτ = 0 −∞ ∞ und |ψ(τ )|2 dτ = 1. −∞ Die zu diesem Mutter-Wavelet durch Dilatation und Verschiebung gebildeten Funktionen t−b 1 , a ∈ R+ , b ∈ R, ψa,b : R → C, ψa,b (t) := √ ψ a a werden Wavelet-Funktionen genannt, a heißt Skalenparameter, b Verschiebungsparameter. Ein typisches Mutter-Wavelet ψ mit kompaktem Träger hat die in Bild 5.30 gezeigte Form. Der Skalenparameter a bewirkt, dass die Breite des Abfragemusters bzw. -fensters proportional zu a wächst und im Abfragefenster immer eine vollständige Kopie des analysierenden Wavelets sichtbar ist. Skalenparameter a > 1 liefern breite Abfragefenster und erfassen langsame Vorgänge. Skalenparameter a mit 0 < a < √1 liefern schmale Fenster und fangen hochfrequente bzw. kurzlebige Phänomene ein. Der Vorfaktor 1/ a beim Bilden der Wavelet-Funktionen ist technischer Natur. 307 KAPITEL 5. LINEARE ALGEBRA 1 ψ = ψ1,0 -1 1 2 3 -1 ψ2,1 -1 1 1 2 3 -1 ψ1/2,2 1 2 3 -1 Abbildung 5.30: Ein Mutterwavelet ψ und zugehörige Wavelet-Funktionen ψa,b mit großem bzw. kleinem Skalierungsfaktor. 4.3 Wavelet-Transformation. Die Wavelet-Transformierte eines Zeitsignals f wird in Analogie zur Fourier-Transformierten durch Z ∞ 1 τ −b W[f ] : R+ × R → C, W[f ](a, b) := √ f (τ ) ψ dτ a a −∞ gebildet. Ein gegebenes Zeitsignal einer reellen Variablen t wird also als eine Funktion W[f ] von zwei reellen Veränderlichen kodiert. Damit ist f im Datensatz {W[f ](a, b) : a ∈ R+ , b ∈ R} hochredundant abgespeichert. Dies erleichtert die Rekonstruktion des Ausgangssignals f aus W[f ] ungemein. Tatsächlich gibt es nicht nur eine Umkehrformel (wie bei der Fourier-Transformation), sondern beliebig viele. 4.4 Diskrete Wavelet-Transformation. Bei vielen Wavelets kann man sogar den Datensatz diskretisieren und trotzdem f vollständig rekonstruieren. Für die Wavelet-Transformation existiert also ebenfalls ein Abtast-Theorem, diesmal sogar für beliebige (und nicht nur für bandbegrenzte) Funktionen. Als Dreingabe erhält man effektive Kompressionsmethoden, schnelle Algorithmen zur Berechnung der Waveletkoeffizienten bzw. zur Synthese des Signals. 4.5 Wavelet-Gitter. Für die Diskretisierung im Frequenzbereich erweist sich eine logarithmische Skala, wie sie von der Akustik bekannt ist, als geeignet. Gleiche Tonschritte gehören zu gleichen Frequenzverhältnissen, nicht zu gleichen Frequenzdifferenzen. Der diskretisierte Skalenparameter a hat also die Form a = σ r , r ∈ Z, mit einem Zoomschritt σ > 1. Der Verschiebungsparameter b muss entsprechend angepasst werden: ist der Skalenparameter fein diskretisiert, so muss es auch der zugehörige Verschiebungsparameter sein. Man erhält als Gitterpunkte die in Abbildung 5.31 (Waveletgitter ) gezeigten Paare (a, b) = (σ r , kσ r β), r, k ∈ Z, 308 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME mit fest gewähltem Zoomschritt σ > 1 und Grundschrittweite β > 0. a σ1 σ0 (σ, σβ) (1, β) (σ, 2σβ) (σ, 3σβ) (1, 2β) σ −1 0 b Abbildung 5.31: Abtastgitter für eine diskrete Wavelet-Transformation. 4.6 Wavelet-Koeffizienten. Der zu einer diskreten Wavelet-Transformierten gehörige Datensatz hat dann die Form {W[f ](σ r , kσ r β) : r, k ∈ Z}, und zur Rücktransformation werden nur die Wavelet-Koeffizienten cr,k := W[f ](σ r , kσ r β) = 1 σ r/2 Z ∞ f (τ )ψ −∞ τ − kσ r β σr dτ, r, k ∈ Z, benötigt. 4.7 Datenkompression und Wavelet-Synthese. Wie bei der diskreten Fourier-Transformation wird die Datenkompression dadurch erzielt, dass man nur Wavelet-Koeffizienten überträgt, die einen gewissen Schwellenwert übersteigen. Diesmal werden aber hierbei nicht nur die „wesentlichen“ Frequenzen, sondern auch die wesentlichen Kanten übertragen. Auf Details der Wavelet-Synthese können wir aus Zeitgründen leider nicht weiter eingehen (Interessierte seien z.B. auf [Bla] verwiesen). Dafür wiederholen wir die obigen Ausführungen nochmal an Hand des folgenden Szenarios. Wir betrachten ein reales Bild- oder Tondokument. Selbiges enthält typischer Weise einerseits Regionen hoher Informationsdichte und andererseits informationsarme Bereiche. (Man stelle sich ein Haus mit grobem Verputz vor grauem Hintergrund vor.) Analysieren wir dieses Bild mit einer Wavelet-Transformation, so können wir leicht diejenigen Wavelet-Koeffizienten herausfiltern, die einen gewissen Schwellenwert überschreiten. Nur diese Koeffizienten werden übermittelt. Hierbei dürfen wir eine hohe Datenkompression erwarten, weil ja von jedem Teil des Bildes soviel Inhalt übermittelt wird, wie dort vorhanden ist. Die Bildauflösung wird also dynamisch der wechselnden Informationsdichte angepasst. 309 KAPITEL 5. LINEARE ALGEBRA Abbildung 5.32: Rekonstruktion eines Bildes aus einem diskreten Satz von Wavelet-Koeffizienten. 4.8 Haar-Wavelet. Für das Weitere beschränken wir uns auf das durch ψHaar (t) := 1 für 0 ≤ t < 1 , 2 1 −1 für ≤ t < 1, 2 0 für t < 0 oder t ≥ 1 definierte Haar-Wavelet. An ihm kann man die Grundideen der Wavelet-Theorie studieren und die schnellen Algorithmen zur Wavelet-Analyse illustrieren. 310 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME Das Haar-Wavelet ist zwar unstetig, aber im Zeitbereich gut lokalisiert. Nach kurzer Rechnung erhalten wir seine Fourier-Transformierte zu ! Z 1 Z 1/2 1 −ixτ −ixτ √ e dτ e dτ − ψ\ Haar (x) = 2π 1/2 0 1/2 1 ! 1 1 sin2 ( x4 ) −ix/2 e−ixτ e−ixτ √ = √ = − e . x −ix 0 −ix 1/2 2π 2π 4 Wir erkennen, dass |ψ\ Haar | eine gerade Funktion ist, die ihr Maximum an der Stelle x0 = 4, 662 . . . erreicht und für |x| → ∞ wie 1/x fällt. Damit ist ψ\ Haar selbst ziemlich gut bei der Frequenz x0 lokalisiert. 0.4 1 0.2 ψHaar -1 1 −8π −4π 0 |ψ\ Haar | x0 4π 8π -1 Abbildung 5.33: Das Haar-Wavelet ψHaar und der Betrag seiner Fourier-Transformierten ψ\ Haar . 4.9 Diskrete Wavelet-Transformation mit dem Haar-Wavelet. Wir zeigen nun konstruktiv, dass das Haar-Wavelet eine diskrete Wavelet-Transformation zulässt. Dabei erhalten wir einen schnellen Algorithmus zur diskreten Wavelet-Transformation. Man vergleiche mit §7.2.5. Die zum Haar-Wavelet ψHaar gehörigen Wavelet-Funktionen 1 t + k2r , ψHaar r,k (t) := r/2 ψHaar 2r 2 r, k ∈ Z, bilden ein Orthonormalsystem bezüglich des Skalarprodukts Z ∞ hf, gi := f (τ )g(τ ) dτ −∞ auf dem R1 (R). Jede Funktion f ∈ R1 (R) kann im quadratischen Mittel, d.h. im Sinne der Norm kf k := p Z 1/2 ∞ 2 hf, f i = |f (τ )| dτ , −∞ beliebig genau durch endliche Linearkombinationen diese Wavelet-Funktionen approximiert werden: zu jedem ε > 0 existieren Zahlen r1 , r2 , k1 , k2 ∈ Z und komplexe Koeffizienten λr,k , r = r1 , r1 + 1 . . . , r2 , k = k1 , k1 + 1 . . . , k2 , mit kf − Ψk < ε, Ψ(t) := r2 X k2 X r=r1 k=k1 λr,k ψr,k (t). 311 KAPITEL 5. LINEARE ALGEBRA Beweis. Wir schreiben ψ statt ψHaar . Durch Nachrechnen verifiziert man, dass durch die angegebenen Formeln für hf, gi und kf k ein Innenprodukt sowie eine Norm auf dem R1 (R) definiert werden. Wir zeigen zunächst, dass die ψr,k , r, k ∈ Z, ein Orthonormalsystem bilden: Für k 6= l besitzen die Wavelet-Funktionen ψr,k und ψr,l disjunkte Träger. Damit gilt hψr,k , ψr,l i = 0 für k 6= l. Ist r < s, so ist ψs,l auf dem Träger R ∞ von ψr,k konstant. Also gilt hψr,k , ψs,l i = 0 für s 6= r und beliebige k, l. Zusammen mit kψr,k k2 = −∞ |ψr,k (τ )|2 dτ = 1 folgt nun die Orthonormalität der ψr,k . ψr,k ψr,l ψr,k ψs,l k2r (k+1)2r l2r l2s (l+1)2r k2r Abbildung 5.34: Zur Orthonormalität der ψr,k . Nun müssen wir noch zeigen, dass jede Funktion f ∈ R1 (R) im quadratischen Mittel beliebig genau durch endliche Linearkombinationen der Wavelet-Funktionen ψr,k (kurz: Wavelet-Polynome) approximiert werden kann. Indem man f zunächst durch Treppenfunktionen approximiert (vgl. Satz 4.§4.1.11), kann man sich hierbei auf Funktionen f der folgenden Bauart beschränken: Es gibt Zahlen m, n ∈ Z mit (i) f (t) = 0 für |t| > 2m , (ii) f ist eine Treppenfunktion und im Inneren von Intervallen der Form I−n,k := [k2−n , (k + 1)2−n ], k ∈ Z, konstant. Wir konstruieren nun eine Folge von Wavelet-Polynomen R X ΨR := k2 X λr,k ψr,k r=−n+1 k=k1 indem wir, beginnend mit den feinsten Sprüngen von f , Schritt für Schritt immer langwelligere Anteile aus dem noch „unerledigten Rest“ fR := f − ΨR heraussieben. Die langwelligsten Anteile von f werden also zuletzt behandelt, gerade umgekehrt wie bei der Fourier-Analyse. Wir beginnen die Konstruktion bei R = −n mit Ψ−n := 0 und f−n := f . Für den Schritt von R nach R + 1 treffen wir folgende Annahmen. A(R) Für das Wavelet-Polynom ΨR und den Rest fR gilt f = ΨR + fR . B(R) fR ist auf den Intervallen IR,k := [k2R , (k + 1)2R ], k ∈ Z, konstant mit Wert fR,k . Dieser Wert fR,k ist dabei der Mittelwert von f auf IR,k . Um fR+1 zu erhalten, mitteln wir fR auf zwei benachbarten Intervallen wie in Abbildung 5.35 skizziert. D.h. wir setzen fR+1 (t) := ΨR+1 (t) := fR,2k + fR,2k+1 für t ∈ IR+1,k , 2 X fR,2k − fR,2k+1 ΨR (t) + 2(R+1)/2 ψR+1,k (t). 2 k Dann gelten offensichtlich die Aussagen A(R + 1) und B(R + 1), und wir können im nächsten Approximationsschritt mit fR+1 und ΨR+1 fortfahren. 312 §7. FOURIER-ANALYSIS UND HILBERT-RÄUME fR,2k fR+1,k fR,2k+1 IR+1,k }| z 2k2R | { (2k + 1)2R }| {z IR,2k (2k + 2)2R } {z IR,2k+1 Abbildung 5.35: Approximationsschritt bei der Approximation einer Treppenfunktion durch WaveletPolynome zum Haar-Wavelet. Nach n + m Schritten sind wir bei einer Darstellung f = fm + Ψm angelangt, in welcher der Rest fm im Inneren der beiden Intervallen [−2m , 0] und [0, 2m ] jeweils konstant ist und als Wert jeweils den Mittelwert von f auf dem entsprechenden Intervall annimmt, ansonsten aber verschwindet. Wir bezeichnen diese beiden Mittelwerte mit A und B. Setzen wir das Verfahren an diesem Punkt wie beschrieben fort, so ist nach p weiteren Schritten fm+p im Inneren der beiden Intervalle [−2m+p , 0] und [0, 2m+p ] konstant mit Werten fm+p,−1 = A/2p bzw. fm+p,0 = B/2p und verschwindet außerhalb von [−2m+p , 2m+p ]. Daher gilt Z kf − Ψm+p k ∞ = kfm+p k = |fm+p (τ )|2 dτ 1/2 −∞ = 2 (m+p)/2 |B|2 |A|2 + 22p 22p 1/2 = 2m/2 p |A|2 + |B|2 1 2p/2 , und wir erhalten für p → ∞ tatsächlich kf − Ψm+p k → 0. 4.10 Analyse des Beweises aus algorithmischer Sicht. Der erste Approximationsschritt in obigem Beweis entspricht dem Diskretisieren des vorgegebenen Datensatzes f . Anschließend haben wir die Koeffizienten λr,k konstruktiv bestimmt und damit einen Algorithmus zur Bestimmung der Wavelet-Polynome ΨR angegeben. Wir werden nun die hierzu benötigten Rechenoperationen bestimmen. Hierbei werden wir erkennen, dass es sich um einen schnellen Algorithmus handelt. Die betrachtete Funktion f ist durch N := 2 · 2m · 2n Einzeldaten bestimmt. Der erste Reduktionsschritt bezieht sich auf N/2 Intervallpaare und benötigt pro Paar zwei Additionen (das Halbieren und die Skalierung zählen nicht, da sie durch einen Binärshift realisiert werden können). Jeder weitere Reduktionsschritt benötigt halb soviele Operationen wie der vorangehende. Nach m + n Schritten wird abgebrochen. Die Bestimmung aller Koeffizienten λr,k erfordert also N 1 1 1 + + + · · · · 2 = 2N 2 2 4 Operationen. Man kann zeigen, dass die Rücktransformation mit derselben Anzahl von Operationen realisiert werden kann. Zum Vergleich: Die Multiplikation eines Datenvektors mit N Komponenten mit einer N -reihigen Matrix erfordert O(N 2 ) Operationen. 4.11 Fazit. Die Wavelet-Transformation kombiniert die Stärken der Fourier-Transformation in der Erkennung regelmäßiger Muster mit der Fähigkeit, Sprünge und Kanten zu lokalisieren. Diese Informationen können i.a. hochredundant in den Wavelet-Koeffzienten gespeichert werden und ermöglichen dann eine gute Datenkompression. Für die Analyse und Synthese stehen schnelle Algorithmen zur Verfügung. 313 Kapitel 6 Analysis in mehreren Variablen In diesem Kapitel führen wir die Analysis fort. Im Gegensatz zu Kapitel 4 stehen jetzt Funktionen in mehreren Variablen im Vordergrund. Wir verwenden wieder Vektorpfeile, insbesondere um zwischen reellund vektorwertigen Funktionen zu unterscheiden, und lassen aus Platzgründen bei Spaltenvektoren auch Zeilenschreibweise zu. Zur Vorbereitung empfiehlt sich die Lektüre von 4.§1–4.§3, insbesondere 4.§3.7. §1 1 Differentialrechnung in mehreren Variablen Differenzierbarkeit 1.1 Erinnerung: Differenzierbarkeit und lineare Approximierbarkeit bei Funktionen einer Variablen. Wir erinnern uns an die O-Charakterisierung für Differenzierbarkeit einer Funktion in einer Variablen aus 4.§3.1.6: Genau dann ist f : ]c, d[→ R in a ∈]c, d[ differenzierbar, wenn es eine Zahl m gibt (die dann Ableitung von f in a genannt und mit f 0 (a) bezeichnet wird) mit f (x) = f (a) + m(x − a) + O(|x − a|) für x → a, x ∈]c, d[. Geometrisch interpretiert bedeutet das: „Genau dann ist f in a differenzierbar, wenn es eine affine Abbildung x 7→ f (a) + m(x − a) gibt, die f für x → a besser als linear approximiert.“ Die Steigung m der Tangente ist dann gerade der Wert der Ableitung von f in a. Diese Charakterisierung von Differenzierbarkeit übertragen wir jetzt auf Funktionen in mehreren Variablen. 1.2 Totale Differenzierbarkeit, Ableitung und Differential. Sei f~ : D ⊂ Rn → Rm eine Funktion in n Variablen. Um zu erklären, was es bedeutet, dass f~ in einem Punkt ~a ∈ D differenzierbar ist, müssen wir im Definitionsbereich um diesen Punkt herum „Platz haben“. Wir verlangen daher, dass ~a ein innerer Punkt von D ist, d.h. dass es eine Kugel um ~a gibt, die in D liegt: Kr (~a) ⊂ D für ein r > 0. ~ : Rn → Rm gibt mit Wir nennen f~ im Punkt ~a (total ) differenzierbar , wenn es eine lineare Abbildung L ~ x − ~a) + O(k~x − ~ak) f~(~x) = f~(~a) + L(~ für ~x → ~a. ~ heißt dann die Ableitung von f in ~a. Übliche Bezeichnungen sind Die lineare Abbildung L df~(~a), f~0 (~a), Df~(~a), Df~(~a). Ist D offen und ist f~ in jedem Punkt von D differenzierbar, so heißt f~ (total ) differenzierbar . Im Fall m = 1, d.h. für eine reellwertige Funktion f , ist die Ableitung df (~a) eine Linearform Rn → R. Man nennt sie auch Differential . 314 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN 1.3 Tangentialabbildung und Tangentialraum. Totale Differenzierbarkeit von f~ im Punkt ~a mit Ableitung df~(~a) bedeutet, dass f~ in einer Umgebung von ~a durch die affine Abbildung T~1 : Rn → Rm , T~1 (~x) := f~(~a) + df~(~a)(~x − ~a), so gut approximiert werden kann, dass der Fehler ~ x − ~a) := f~(~x) − T~1 (~x) = f~(~x) − f~(~a) − df~(~a)(~x − ~a) R(~ für ~x → ~a schneller als von erster Ordnung gegen Null geht: ~ x − ~a)k kR(~ = 0. ~ x→~ a k~x − ~ak lim Dabei bedeutet „ f~(~a) + df~(~a)(~x − ~a)“: werte die lineare Abbildung df~(~a) an der Stelle ~x − ~a aus und verschiebe das Ergebnis um den Bildvektor f~(~a). Die affine Abbildung T~1 nennen wir die Tangentialabbildung von f~ im Punkt ~a. Sie parametrisiert den Tangentialraum an den Graphen von f~ im Punkt ~a. Wenn wir die Abhängigkeit von f~ und ~a deutlich machen wollen, so schreiben wir auch T~1 [f~, ~a] statt T~1 . Achtung. Im Sinn unserer Definition 1.2 ist die Ableitung einer Funktion f~ an einer Stelle ~a selbst eine Funktion und zwar eine lineare Abbildung. Die Schreibweise df~(~a) macht deutlich, dass diese lineare Abbildung vom Punkt ~a abhängt. Aus der Ableitung df~(~a) wird dann die Tangentialabbildung ~x 7→ T~1 (~x) := f~(~a) + df~(~a)(~x − ~a). Dabei wird im Argument und im Bild so verschoben, dass die T~1 im Punkt ~a den richtigen Wert hat: T~1 (~a) = f~(~a). 1.4 Lokale Koordinaten. Nach Übergang zur Variablen ~h := ~x − ~a können wir Differenzierbarkeit auch in lokalen Koordinaten schreiben: f~(~a + ~h) = f~(~a) + df~(~a)(~h) + O(k~hk) für ~h → ~0. ~ x) + ~b, gebildet aus einer linearen 1.5 Erstes Beispiel. Jede affine Abbildung f~ : Rn → Rm , f~(~x) := L(~ n m m ~ ∈ L(R , R ) und einem Vektor ~b ∈ R , ist überall differenzierbar mit df~(~a) = L. ~ Dank der Abbildung L ~ ~ ~ ~ ~ Linearität von L gilt nämlich f (~x) = f (~a) + L(~x − ~a), d.h. das Restglied R verschwindet. Insbesondere ist die Abbildung x 7→ xk , Rn → R, auf die k-te Koordinate differenzierbar und stimmt überall mit Ihrer Ableitung dxk überein. (Das ist eine korrekte Interpretation des Differentials dxk .) 1.6 Zusammenhang mit der Ableitung einer Funktion einer Variablen. Ist f eine reellwertige differenzierbare Funktion einer Variablen, so ist die Ableitung von f im Sinn unserer Definition 1.2 selbst eine reellwertige Funktion einer Variablen und zwar die lineare Abbildung h 7→ f 0 (a) · h. Selbige haben wir bisher stillschweigend mit der Zahl f 0 (a) identifiziert. 1.7 Differenzierbarkeit impliziert Stetigkeit. Ist f~ im Punkt ~a differenzierbar, so ist f~ dort auch auch stetig. Beweis. Lineare Abbildungen sind stetig. Aus der Darstellung f~(~x) = f~(~a) + df~(~a)(~x − ~a) + O(k~x − ~ak) für ~x → ~a folgt insbesondere wegen df~(~a)(~x − ~a) → df~(~a)(~0) = ~0 für ~x → ~a auch f~(~x) → f~(~a) für ~x → ~a. 1.8 Komponentenweise Differenzierbarkeit. Genau dann ist f~ im Punkt ~a differenzierbar, wenn dort alle Komponentenfunktionen f1 , . . . , fm differenzierbar sind. Beweis. Unsere Definition von Differenzierbarkeit ist eine Grenzwertaussage und die Existenz eines Grenzwerts kann komponentenweise nachgewiesen werden (vgl. 4.§2.1.3). KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN 315 1.9 Wie bestimmen wir die Ableitung? Ist f~ im Punkt ~a total differenzierbar, so gilt definitionsgemäß 1 ~ f (~a + ~h) − f~(~a) − df~(~a)(~h) → ~0 für ~h → ~0 khk und für ~h ist hierbei eine beliebige Annäherung an ~0 zugelassen. Insbesondere dürfen wir ~h auf den Koordinatenachsen gegen Null schicken, d.h. wir setzen ~h = tek , k = 1, . . . , n, und betrachten t → 0. Damit existieren auch für k = 1, . . . , n die Grenzwerte ~0 = = 1 ~ f (~a + te~k ) − f~(~a) − df~(~a)(te~k ) t→0 t 1 ~ f (~a + te~k ) − f~(~a) − df~(~a)(e~k ) = ∂xk f~(~a) − df~(~a)(e~k ). lim t→0 t lim (zur Definition der partiellen Ableitung ∂xk f~ siehe 4.§3.7.2). Totale Differenzierbarkeit von f~ im Punkt ~a impliziert dort also die Existenz aller partiellen Ableitungen. Und die partielle Ableitung ∂xk f~(~a) nach der k-ten Variablen liefert gerade das Bild des k-ten Standardbasisvektors ~ek unter der Ableitung df~(~a). f (a1 , a2 ) Schnitt parallel zur (x1 , y)-Ebene, Tangentensteigung in x1 -Richtung: ∂x1 f (a1 , a2 ). a2 (a1 , a2 ) a1 Schnitt parallel zur (x2 , y)-Ebene, Tangentensteigung in y-Richtung: ∂x2 f (a1 , a2 ). Abbildung 6.1: Zur Bestimmung der Ableitung df (~a) (hier für n = 2, m = 1). Damit haben wir die Darstellungsmatrix der Ableitung df~(~a) bezüglich der Standardbasis bestimmt und ein notwendiges Kriterium für totale Differenzierbarkeit erhalten. Das notieren wir in den nächsten beiden Nummern. 316 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN 1.10 Jacobi-Matrix. Existieren für f~ : D ⊂ Rn → Rm im Punkt ~a ∈ D alle n partiellen Ableitungen, so nennen wir die aus diesen Vektoren als Spaltenvektoren gebildete (m × n)-Matrix ! ∂x1 f1 (~a) · · · ∂xn f1 (~a) ~ ~ ∂f ∂f .. .. m×n (~a), . . . , (~a) = Jf~(~a) := ∈R . . ∂x1 ∂xn ∂x1 fm (~a) · · · ∂xn fm (~a) die Jacobi-Matrix oder Funktionalmatrix von f~ in ~a. Weitere übliche Bezeichnungen sind ∂~x f~(~a), ∂ f~ (~a) ∂~x ∂(f1 , . . . , fm ) (~a). ∂(x1 , . . . , xn ) oder Im Fall m = 1, d.h. für eine reellwertige Funktion f , ist die Jacobi-Matrix ein Zeilenvektor. 1.11 Notwendige Bedingung für Differenzierbarkeit. Ist f~ im Punkt ~a total differenzierbar, so existieren dort alle partiellen Ableitungen ∂x1 f~(~a), . . . , ∂xn f~(~a). Die totale Ableitung df~(~a) ist eindeutig bestimmt und besitzt als Darstellungsmatrix (bzgl. der Standardbasen) die Jacobi-Matrix von f~ in ~a, d.h. ∂x1 f1 (~a) · · · ∂xn f1 (~a) x1 . . . .. .. df~(~a)(~x) = Jf~(~a)~x = .. . ∂x1 fm (~a) · · · ∂xn fm (~a) xn Die Jacobi-Matrix ist also die Darstellungsmatrix der Ableitung bezüglich der Standardbasen im Raum bzw. Bildraum. Daher ist Jf~(~a)~x das Matrix-Vektor-Produkt aus der Jacobi-Matrix Jf~(~a) und dem Vektor ~x. 1.12 Vereinbarung. Da wir in der Analysis durchweg mit den Standardbasen arbeiten, können wir die Ableitung mit der Jacobi-Matrix identifizieren. 1.13 Bemerkung nur Notation in der Physik. Durch Auswerten des obigen Matrix-Vektor-Produkts erhalten wir für eine reellwertige Funktion f (bzw. für eine vektorwertige komponentenweise) df (~a)(~x) = ∂f ∂f (~a)x1 + · · · + (~a)xn ∂x1 ∂xn für alle ~x ∈ Rn . In der Physik schreibt man hierfür (nach klassischem Vorbild und unter Weglassung aller Argumente) df = ∂f ∂f dx1 + · · · + dxn . ∂x1 ∂xn Die Differentiale df , dx1 , . . . , dxn sollte man dabei nicht als „unendlich kleine Größen“ deuten. Eine korrekte Interpretation ist die in 1.5 genannte: Das Differential dxk ist diejenige Linearform Rn → R, die jedem Vektor ~x = (x1 , . . . , xn ) seine k-te Komponente xk zuordnet. Die Linearform df wird also mittels df = ∂x1 f dx1 +· · ·+∂xn f dxn als Linearkombination der „Standardlinearformen“ dxk dargestellt und man müsste eigentlich df (~a) = ∂x1 f (~a)dx1 + · · · + ∂xn f (~a)dxn schreiben, da die Ableitung von f und damit auch die Koeffizienten ∂x1 f (~a), . . . , ∂xn f (~a) der Linearkombination ja i.A. von der Stelle ~a abhängen, an der sie gebildet werden. 1.14 Beispiele. 2 2 (a) Die durch f (x, y) := ye2−x −y definierte reellwertige Funktion f : R2 → R besitzt in jedem Punkt (a, b) ∈ R2 partielle Ableitungen bezüglich beider Variablen. Es gilt ∂x f (a, b) ∂y f (a, b) = = −2xye2−x 2 2 (1 − 2y )e −y 2 (x,y)=(a,b) 2−x2 −y 2 = −2abe2−a 2 −b2 2 (x,y)=(a,b) = (1 − 2b )e , 2−a2 −b2 . 317 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Die Ableitung von f in (a, b) lautet also 2 2 2 2 df (a, b) = −2abe2−a −b , (1 − 2b2 )e2−a −b . Wenn f in (a, b) differenzierbar ist, so wird die Tangentialebene an den Graphen von f in (a, b) parametrisiert durch die Tangentialabbildung x−a T1 (x, y) = T1 [f, (a, b)](x, y) = f (a, b) + df (a, b) y−b x − a 2 2 −a −b −a2 −b2 2 2−a2 −b2 = be + −2abe , (1 − 2b )e y−b = 2 [−2abx + (1 − 2b2 )y + 2b(a2 + b2 )]e2−a −b2 4 2 0 1 -2 -4 0 -1 0 -1 1 2 Abbildung 6.2: Graphen von f (x, y) = ye2−x −y 2 und Tangentialabbildung im Punkt (a, b) = (−1/2, 3/4). Wir wissen noch nicht, ob f in (a, b) wirklich differenzierbar ist, haben aber mit der Jacobi-Matrix die Darstellungsmatrix der einzigen in Frage kommenden linearen Abbildung bestimmt. In 1.15 werden wir tatsächlich belegen können, dass f differenzierbar ist und dass T1 [f, (a, b)] diejenige affine Abbildung ist, die f im Punkt (a, b) im Sinn der Definition 1.2 O-approximiert. (b) Nun betrachten wir die vektorwertige Abbildung f~ : R2 → R2 mit der Zuordnungsvorschrift f~(x, y) := (ex cos y, ex sin y) . Hier lautet die Ableitung df~(x, y) = ! ∂x f1 (x, y) ∂y f1 (x, y) ∂x f2 (x, y) ∂y f2 (x, y) = ex cos y −ex sin y ex sin y ex cos y ! . Damit erhalten wir die Tangentialabbildung zu f~ im Punkt (1, π/6) zu x−1 T~1 (x, y) = T~1 [f~, (1, π/6)](x, y) = f~(1, π/6) + df~(1, π/6) y − π/6 √ ! √ 3e/2 −e/2 3e/2 x−1 + = √ e/2 y − π/6 e/2 3e/2 √ ! 6 3x − 6y + π e = . √ √ 12 6x + 6 3y − 3π 318 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN f~ 1 1 1 -1 1 -1 -1 PP q P f~, T~1 1 -1 1 -1 1 -1 Abbildung 6.3: Lokales Abbildungsverhalten der Funktion f~(x, y) = (ex cos y, ex sin y) und der zugehörigen Tangentialabbildung im Punkt (1, π/6). (c) Dieses Beispiel beleuchtet das Verhältnis zwischen partieller und totaler Differenzierbarkeit. Wir betrachten die aus 4.§2.2.4 bekannte Funktion g mit 2xy für (x, y) 6= (0, 0), g(x, y) := x2 + y 2 0 für (x, y) = (0, 0). Die Existenz der beiden partiellen Ableitungen im Ursprung zeigen wir unter Verwendung der Definition: ∂g (0, 0) ∂x ∂g (0, 0) ∂y g(h, 0) − g(0, 0) 0−0 = lim = 0, h→0 h h g(0, h) − g(0, 0) 0−0 lim = lim = 0. h→0 h→0 h h = lim h→0 = Wie in 4.§2.2.4 gezeigt ist g aber im Ursprung nicht einmal stetig. -1 0 1 -1 0 1 -1 0 2 1 1 1 1 1 0 0 0 -1 -1 -1 -1 0 -1 1 0 0 -1 -1 1 0 1 -2 -2 -1 0 1 2 Abbildung 6.4: Eine in (0, 0) unstetige und damit auch nicht differenzierbare Funktion, die dort alle partiellen Ableitungen besitzt. Die Existenz der partiellen Ableitungen ist also keine Gewähr für totale Differenzierbarkeit, ja nicht einmal für Stetigkeit. Das ist eigentlich auch klar: Zur Bestimmung der partiellen Ableitungen von f~ in ~a muss man die Werte von f~ nur auf den zu den Achsen parallelen Geraden durch ~a kennen. Außerhalb kann sich f~ beliebig „unanständig“ verhalten. Genau das haben wir in obigem Beispiel ausgenutzt. 319 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN 1.15 Hauptkriterium für Differenzierbarkeit. Existieren für f~ im Punkt ~a alle partiellen Ableitungen und sind selbige in ~a stetig, so ist f~ in ~a total differenzierbar. Insbesondere ist eine C 1 -Funktion in jedem Punkt ihres Definitionsbereichs differenzierbar. Beweis∗ . Differenzierbarkeit wird gemäß 1.8 komponentenweise nachgeprüft. Wir müssen also nur reellwertige Funktionen (d.h. den Fall m = 1) betrachten. Wir führen den Beweis für n = 2, für n ≥ 2 verläuft er analog. Sei also f : D ⊂ R2 → R im Punkt (a, b) ∈ D stetig partiell differenzierbar. In der Zerlegung f (a + h1 , b + h2 ) − f (a, b) = [f (a + h1 , b + h2 ) − f (a, b + h2 )] + [f (a, b + h2 ) − f (a, b)] wenden wir auf beide Summanden den eindimensionalen Mittelwertsatz an, d.h. es gibt Zahlen ah zwischen a und a + h1 bzw. bh zwischen b und b + h2 mit ∂f ∂f ∂f ∂f (ah , b + h2 ) − (a, b) , f (a + h1 , b + h2 ) − f (a, b + h2 ) = h1 (ah , b + h2 ) = h1 (a, b) + h1 ∂x ∂x ∂x ∂x ∂f ∂f ∂f ∂f f (a, b + h2 ) − f (a, b) = h2 (a, bh ) = h2 (a, b) + h2 (a, bh ) − (a, b) . ∂y ∂y ∂y ∂y Für h = (h1 , h2 ) → (0, 0) gilt auch h1 , h2 → 0 und damit ah , bh → 0. Mit der Stetigkeit der beiden partiellen Ableitungen in (a, b) folgt nun f (a + h1 , b + h2 ) − f (a, b) 2 ∂f ∂f (a, b) + h2 (a, b) + h1 O(1) + h2 O(1) ∂x ∂y = df (a, b)h + O(khk) für h = (h1 , h2 ) → (0, 0). = h1 Umgang mit differenzierbaren Funktionen 2.1 Rechenregeln für Ableitungen. (a) (Linearität) Sind f~, ~g : D ⊂ Rn → Rm im Punkt ~a ∈ D differenzierbar, so ist für λ, µ ∈ R auch die Funktion λf~ + µ~g : D → Rm in ~a differenzierbar mit d(λf~ + µ~g )(~a) = λdf~(~a) + µd~g (~a), (b) (Produktregel ) Sind f, g : D ⊂ Rn → R reellwertig und im Punkt ~a ∈ D differenzierbar, so ist auch die Funktion f g : D → R in ~a differenzierbar mit d(f g)(~a) = f (~a)dg(~a) + g(~a)df (~a), (c) (Kettenregel ) Ist f~ : D ⊂ Rn → Rm im Punkt ~a ∈ D differenzierbar, ist G ⊂ Rm eine Umgebung von f~(~a) und ist ~g : G → Rp in f~(~a) differenzierbar, so ist auch ~g ◦ f~ : D → Rp in ~a differenzierbar mit d(~g ◦ f~)(~a) = d~g (f~(~a)) ◦ df~(~a). Linearität und Produktregel kann man unter Weglassung der Argumente kurz in der Form d(λf~ + µ~g ) = λdf~ + µd~g , bzw. d(f g) = f dg + gdf notieren. Für die Kettenregel ist das nicht empfehlenswert, da es dort ja darauf ankommt, welche Ableitung an welcher Stelle ausgewertet wird. Wenn wir gemäß unserer Vereinbarung 1.12 die Ableitung mit ihrer Jacobi-Matrix (bezüglich der Standardbasen) identifizieren, ist auf der rechten Seite der Kettenregel (c) die Hintereinanderausführung von d~g (f~(~a)) und df~(~a) als eine Matrizenmultiplikation zu lesen. Achtung. Die Produktregel kann nur für reellwertige Funktionen angewendet werden. (Warum?) 320 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN Beweis∗ . (a) ergibt sich aus der Linearität des Grenzwerts und den Rechenregeln für lineare Abbildungen. Zu (c): Wir setzen A := df~(~a), ~b := f~(~a) und B := d~g (~b). Sind f~ in ~a und ~g in ~b differenzierbar, so gilt f~(~a + ~h) ~ ~h) = f~(~a) + A~h + R( ~g (~b + ~k) ~ ~k) = ~g (~b) + B~k + S( 1 ~ ~ R(h) = ~0, ~ khk 1 ~ ~ S(k) = ~0. mit lim ~ ~ k→~ 0 kkk mit lim ~ h→~ 0 Wir erhalten (~g ◦ f~)(~a + ~h) ~ ~h)) = ~g (f~(~a + ~h)) = ~g (f~(~a) + A~h + R( ~ ~h)) + S(A~h + R( ~ ~h)) = ~g (f~(~a)) + B(A~h + R( = (~g ◦ f~)(~a) + BA~h + T~ (~h) ~ ~h) + S(A ~ ~h + R( ~ ~h)) mit T(~h) := B R( und müssen zeigen, dass lim ~ h→~ 0 1 ~ ~ T (h) = ~0. ~ khk Um dies nachzuweisen benützen wir die Darstellung 1 ~ ~ 1 ~ ~h) + T (h) = B R( k~hk k~hk | {z } →~ 0 ~ ~h)k kA~h + R( k~hk {z } | beschränkt für ~ h →~ 0 1 ~ ~h + R( ~ ~h)) S(A ~ ~h)k kA~h + R( {z } | für ~h → ~0 →~ 0 und zeigen, dass die drei Teilterme sich wie angegeben verhalten. Für den ersten Teilterm folgt dies wegen 1 ~ ~h) = B 1 R( ~ ~h) → ~0 B R( k~hk k~hk | {z } für ~h → ~0 →~ 0 ~ da die lineare Abbildung ~x 7→ B~x in ~x = ~0 stetig ist mit B~0 = ~0. aus der Voraussetzung über R, Mit ähnlicher Argumentation gilt auch ~ ~h) → ~0 A~h + R( für ~h → ~0 ~ und wir erhalten das Grenzverhalten des dritten Teilterms aus der Voraussetzung über S. Die Beschränktheit des zweiten Teilterms schließlich ergibt sich mit der Definition der Matrizennorm 5.§6.5.3 und der Stetigkeit der Norm aus 1 ~ ~h)k ~ ~h)k kA~h + R( kAkk~hk + kR( ~ ~ ≤ = kAk + R(h) → ~0 für ~h → ~0. k~hk k~hk k~hk Zu (b): Durch Anwenden der Kettenregel (c) auf G(u, v) := uv und F~ (~x) := (f (~x), g(~x)) erhalten wir d(f g)(~a) = d(G ◦ F~ )(~a) = (g(~a), f (~a))dF~ (~a) = g(~a)df (~a) + f (~a)dg(~a). 2.2 Beispiele zur Kettenregel. (d) Die Ableitung eines Vektorfeldes ~v längs einer Bahnkurve t 7→ ~x(t) lautet n X ∂ d ~v (~x(t)) = d~v (~x(t))~x˙ (t) = ~v (~x(t))ẋk (t). dt ∂xk k=1 321 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Man beachte, dass d~v (~x(t)) eine (n × n)-Matrix ist und ~x˙ (t) ein Vektor. (e) Eine wichtige Anwendung der Kettenregel betrifft den Fall, dass g eine reellwertige Funktion in m Variablen ist. Komponentenweise lautet sie dann m X ∂fl ∂(g ◦ f~) ∂g ~ (~x) = (f (~x)) (~x) ∂xk ∂yl ∂xk für k = 1, . . . , n. l=1 Es wird also wie bei der eindimensionalen Kettenregel nachdifferenziert, jetzt aber nach allen Komponenten und mit Aufsummieren. Genügen daher zwei differenzierbare Funktionen f : D ⊂ R → R und g : D ×f (D) ⊂ R2 → R der Identität für x ∈ D, g(x, f (x)) = 0 so folgt durch Differenzieren mit der Kettenregel auch 0= ∂g ∂g (x, f (x)) + (x, f (x))f 0 (x) ∂x ∂y für x ∈ D, 2.3∗ Wiederholung: höhere partielle Ableitungen. Wir rufen uns an zwei Beispielen in Erinnerung, wie man höhere partielle Ableitungen berechnet (vgl. 4.§3.7.3). (f) Für die durch f (x, y) := ye2−x 2 −y 2 definierte C ∞ -Funktion f : R2 → R lauten die sämtlichen partiellen Ableitungen bis zur Ordnung zwei 2 2 ∂f (x, y) = −2xye2−x −y , ∂x 2 2 ∂f 2 (x, y) = 2(2x2 − 1)ye2−x −y , ∂2x 2 2 ∂f (x, y) = (1 − 2y 2 )e2−x −y ∂y 2 2 ∂f 2 (x, y) = 2(2y 2 − 3)ye2−x −y , ∂2y 2 2 ∂f 2 ∂f 2 (x, y) = 2(2x2 − 1)xe2−x −y = (x, y). ∂y∂x ∂x∂y In diesem Beispiel stimmen die beiden gemischten partiellen Ableitungen ∂y,x f und ∂x,y f überein und sind auf dem ganzen Definitionsbereich stetig. (g) Jetzt präsentieren wir eine Funktion, bei der die gemischten partiellen Ableitungen zweiter Ordnung nicht übereinstimmen. Wir setzen 2 2 4xy(x − y ) für (x, y) 6= (0, 0), 2 2 f (x, y) := x +y 0 für (x, y) = (0, 0), und definieren so eine Funktion f : R2 → R, die in Polarkoordinaten die Darstellung f (r cos(ϕ), r sin(ϕ)) = r2 sin(4ϕ) besitzt. In jedem Punkt (x, y) 6= (0, 0) besitzt f stetige partielle Ableitungen beliebiger Ordnung. Unter Beachtung der Symmetrie f (x, y) = −f (y, x) berechnen wir dann 4y(x4 + 4x2 y 2 − y 4 ) ∂f ∂f (x, y) = = − (x, y), 2 2 2 ∂x (x + y ) ∂y ∂2f 4(x6 + 9x4 y 2 − 9x2 y 4 − y 6 ) ∂2f (x, y) = = (y, x). ∂x∂y (x2 + y 2 )3 ∂y∂x 322 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN Weil f auf den Koordinatenachsen verschwindet, gilt ∂f ∂f (0, 0) = 0 = (0, 0). ∂x ∂y Für partiellen Ableitungen zweiter Ordnung erhalten wir somit ∂2f (0, 0) ∂y∂x = ∂2f (0, 0) ∂x∂y = lim ∂f ∂x (0, h) h→0 lim ∂f ∂y (h, 0) − h ∂f ∂x (0, 0) − ∂f ∂y (0, 0) h h→0 = lim −4h5 h4 h h→0 = lim h→0 −0 = −4, 4h5 h4 −0 = 4. h Im Ursprung führt also eine unterschiedliche Differentiationsreihenfolge zu unterschiedlichen Ergebnissen. Man kann zeigen, das die beiden gemischten partiellen Ableitungen ∂y,x f und ∂x,y f in (0, 0) unstetig sind. Zum Glück passiert das nur bei „unanständigen“ Funktionen. 2.4 Vertauschbarkeit gemischter partieller Ableitungen. (Satz von Schwarz) Für jede C 2 -Funktion f~ gilt ∂ 2 f~ ∂ 2 f~ = für k, l = 1, . . . , n. ∂xk ∂xl ∂xl ∂xk Beweis∗ . Da im Satz f~ nur als eine Funktion von zwei Veränderlichen betrachtet wird, genügt es, den Fall n = 2 zu betrachten. Nach einer Verschiebung brauchen wir die angegebene Beziehung nur im Ursprung zu beweisen. Da der Beweis für jede Komponentenfunktionen einzeln geführt werden kann, können wir f außerdem als reellwertig voraussetzen. Wir werden zeigen, dass der Ausdruck D(h) := f (h, h) − f (h, 0) − f (0, h) + f (0, 0) h2 für h → 0 sowohl gegen ∂x,y f (0, 0) als auch gegen ∂y,x f (0, 0) konvergiert. Setzen wir ϕ(x) := f (x, h) − f (x, 0) , h ψ(y) := f (h, y) − f (0, y) , h so erhalten wir ϕ(h) − ϕ(0) ψ(h) − ψ(0) = . h h Wenden wir den Mittelwertsatz 4.§3.3.5 für Funktionen einer Variablen an, so gilt D(h) = ϕ0 (x1 ) = ψ 0 (y2 ) mit gewissen x1 , y2 zwischen 0 und h. Unter Beachtung der Definition von ϕ und ψ folgt D(h) = D(h) = ∂x f (x1 , h) − ∂x f (x1 , 0) ∂y f (h, y2 ) − ∂y f (0, y2 ) = . h h Auf die erste Differenz wenden wir nun den Mittelwertsatz 4.§3.3.5 in der zweiten Variablen, auf die zweite Differenz in der ersten Variablen an. Wir erhalten D(h) = ∂y,x f (x1 , y1 ) = ∂x,y f (x2 , y2 ) mit gewissen x2 , y1 zwischen 0 und h. Für h → 0 gilt (x1 , y1 ) → (0, 0) und (x2 , y2 ) → (0, 0). Die Stetigkeit der beiden gemischten partiellen Ableitungen impliziert dann wie behauptet ∂y,x f (0, 0) = ∂x,y f (0, 0). 3 Reellwertige Funktionen: Gradient und Richtungsableitungen 3.1 Der Gradient. Ist eine reellwertige Funktion f : D ⊂ Rn → R in einem Punkt ~a ∈ D total differenzierbar, lautet die Tangentialabbildung in lokalen Koordinaten ~h 7→ f (~a) + df (~a)(~h). Da wir in der Analysis den Rn immer mit der Standardbasis versehen, können wir den Wert der Linearform df (~a) an der Stelle ~h als das Produkt des Zeilenvektors (∂x1 f (~a), . . . , ∂xn f (~a)) mit dem Spaltenvektor ~h 323 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN berechnen. Nun kann jede Linearform Rn → R als ein Skalarprodukt ~h 7→ h~c|~hi mit einem festen Vektor ~c ∈ Rn dargestellt werden. In unserem Fall ist dies gerade der Vektor ∂x1 f (~a) .. ∇f (~a) = grad f (~a) := , . ∂xn f (~a) genannt Gradient von f an der Stelle ~a. Es gilt also df (~a)(~h) = h∇f (~a)|~hi und für die Tangentialabbildung zu f im Punkt ~a erhalten wir T1 (~x) = T1 [f, ~a](~x) = f (~a) + h∇f (~a)|~x − ~ai. 3.2 Rechenregeln für den Gradienten erhalten wir sofort aus 2.1. (a) (Linearität) ∇(λf + µg) = λ∇f + µ∇g, (b) (Produktregel ) ∇(f g) = f ∇g + g∇f , (c) (Kettenregel ) d x(t)) dt u(~ = h∇u(~x(t)|~x˙ (t)i für ein C 1 -Skalarfeld u und einen Weg ~x. 3.3 Richtungsableitungen. Jeder Vektor ~v ∈ Rn mit k~v k = 1 heißt eine Richtung im Rn . Existiert für eine Funktion f : D ⊂ Rn → R und einen inneren Punkt ~a ∈ D der Grenzwert d 1 ∂f f (~a) := f (~a + t~v ) = lim (f (~a + t~v ) − f (~a)), t→0 t ∂~v dt t=0 so nennen wir f in ~a in der Richtung ~v differenzierbar und den obigen Grenzwert Richtungsableitung von f an der Stelle ~a in Richtung ~v . Weitere gebräuchliche Bezeichnungen sind f~v (~a) oder ∂~v f (~a). Die Richtungsableitung in Richtung ~v = ~ek für einen der Standardbasisvektoren ist gerade die partielle Ableitung nach der k-ten Variablen ∂f ∂f = ∂~ek ∂xk für k = 1, . . . , n. Eine geometrische Interpretation der Richtungsableitung erhalten wir folgendermaßen: Sie gibt die Steigung des Graphen von t 7→ f (~a + t~v ) in t = 0 an. Beispiel. Die Richtungen ~v ∈ R2 haben die Form ~v = (cos(ϕ), sin(ϕ)) mit ϕ ∈ [0, 2π[. Für die Funktion 2 2x y für (x, y) 6= (0, 0), g(x, y) := x2 + y 2 0 für (x, y) = (0, 0), berechnen wir die Richtungsableitung in Richtung ~v mit Hilfe der Definition zu g(t cos(ϕ), t sin(ϕ)) − g(0, 0) 1 2t3 cos(ϕ)2 sin(ϕ) = lim = cos(ϕ) sin(2ϕ). t→0 t→0 t (t cos(ϕ))2 + (t sin(ϕ))2 t ∂~v g(0, 0) = lim Insbesondere gilt ∂~v g(0, 0) = 0 genau dann, wenn ~v eine der beiden Koordinatenrichtungen ~e1 oder ~e2 ist. Damit ist g in (0, 0) nicht total differenzierbar, andernfalls würde die in der nächsten Nummer beweisene Formel zeigen, dass auch alle anderen Richtungsableitungen verschwinden müssen. 3.4 Berechnung von Richtungsableitungen. Ist f im Punkt ~a total differenzierbar, so existieren die Richtungsableitungen für alle Richtungen ~v ∈ Rn , k~v k = 1, und es gilt ∂~v f (~a) = h∇f (~a)|~v i. 324 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN -1 0 1 -1 0 1 -1 0 2 1 1 1 1 1 0 0 0 -1 -1 -1 -1 0 -1 1 0 0 -1 -1 1 0 -2 -2 1 -1 0 1 2 Abbildung 6.5: Eine Funktion, die in (0, 0) alle Richtungsableitungen besitzt, aber nicht total differenzierbar ist. Beweis. Man wende die Kettenregel 3.2 (c) auf u = f und ~x(t) = ~a + t~v an. 3.5 Geometrische Bedeutung des Gradienten. Ist f im Punkt ~a total differenzierbar, so nimmt ∂~v f (~a) für n ≥ 2 alle Werte im Intervall [−k∇f (~a)k, k∇f (~a)k] an. Ist ∇f (~a) 6= ~0, so wird die Richtungsableitung maximal bzw. minimal in Richtung ~vmax = 1 ∇f (~a), k∇f (~a)k ~vmin = −~vmax = −1 ∇f (~a). k∇f (~a)k Für jede Richtung ~v ⊥ ~vmax dagegen gilt ∂~v f (~a) = 0. Kurz gesagt: „Der Gradient gibt die Richtung stärksten Anstiegs (lat. gradiens: fortschreitend) an, sein Betrag die maximale Steigung. Die gegengesetzte Richtung ist diejenige stärkstens Abfalls, senkrecht zu diesen Richtungen bewegt man sich in erster Näherung auf gleicher Höhe.“ Beweis. Aus der geometrischen Interpretation der Cauchy-Schwarzschen Ungleichung folgt, dass das Skalarprodukt h∇f (~a)|~v i alle Werte zwischen −k∇f (~a)k und k∇f (~a)k durchläuft, wenn wir den normierten Vektor ~v ∈ Rn so bewegen können, dass grad f (~a) und ~v alle Winkel zwischen 0 und π miteinander einschließen. Dies ist für Raumdimensionen n ≥ 2 möglich. Der maximale (minimale) Wert wird hierbei für ~v = ~vmax (~vmin = −vmax ) angenommen. Beispiel. Abbildung 6.6 zeigt den Graphen und Niveaumengen einer Funktion zusammen mit den Gradienten in ausgewählten Punkten. In Bereichen mit eng aneinander liegenden Niveaulinien ist große Steigung zu erwarten, d.h. ein betragsmäßig großer Gradient. Abbildung 6.6: Gradienten für vier Punkte, davon einer mit verschwindendem Gradienten. 3.6 Hauptsatz der Differential- und Integralrechung für Skalarfelder. Ist f : D ⊂ Rn → R eine C 1 -Funktion und ist ~x : [c, d] → D ein C 1 -Weg in D mit Anfangspunkt ~x1 = ~x(c) und Endpunkt ~x2 = ~x(d), 325 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN so gilt d Z h∇f (~x(t))|~x˙ (t)i dt. f (~x2 ) − f (~x1 ) = c Beweis. Das ergibt sich aus dem Hauptsatz 4.§4.2.5 und der Kettenregel 3.2 (c) mittels Z d f (~x2 ) − f (~x1 ) = f (~x(d)) − f (~x(c)) = c d f (~x(t)) dt = dt Z d h∇f (~x(t))|~x˙ (t)i dt. c 3.7 Schrankensätze. Ist f : D ⊂ Rn → R ein C 1 -Skalarfeld und liegt für zwei Punkte ~x1 , ~x2 ∈ D auch die Verbindungsstrecke S ganz in D, so gilt |f (~x2 ) − f (~x1 )| ≤ M k~x2 − ~x1 k mit M := max{k∇f (~x)k | ~x ∈ S}. Ist ~v : D ⊂ Rn → Rm eine vektorwertige C 1 -Funktion und liegt für zwei Punkte ~x1 , ~x2 ∈ D auch die Verbindungsstrecke S ganz in D, so gilt k~v (~x2 ) − ~v (~x1 )| ≤ Lk~x2 − ~x1 k mit L := max{kd~v (~x)k | ~x ∈ S}. Beweis. Für ein Skalarfeld folgt die Behauptung aus dem Hauptsatz für Skalarfelder 3.6 und der Standardabschätzung für Integrale 4.§4.1.18. Für ein Vektorfeld gehe man komponentenweise vor und verwende die Cauchy-Schwarzsche Ungleichung. 3.8 Identitätssatz für Skalarfelder. Verschwindet der Gradient einer C 1 -Funktion f auf einem Gebiet, so ist f dort konstant. Beweis. Da f auf einem Gebiet definiert ist, können wir zwei beliebige Punkte durch einen Polygonzug verbinden. Längs der einzelnen Teilstrecken ist dann f nach dem Schrankensatz 3.7 konstant. Also hat f auch in den beiden betrachteten Punkten denselben Wert. 4 Taylor-Entwicklung und lokale Extrema 4.1 Unser Wunsch. Wir wollen eine Funktion f : D ⊂ Rn → R in n Variablen lokal in einem Punkt ~a durch Polynome in n Variablen approximieren mit einem Fehler der schneller als von n-ter Ordnung gegen Null geht. Liegt für ein ~h ∈ Rn die Verbindungsstrecke von ~a mit ~a + ~h in D, so können wir für die Funktion g(t) := f (~a + t~h), t ∈ [0, 1], eine Taylor-Entwicklung in einer Variablen bei t = 0 machen und selbige in t = 1 auswerten. Falls f eine C 1 -Funktion ist, so erhalten wir mit der Kettenregel g 0 (t) = h∇f (~a + t~h)|~hi = n X ∂ f (~a + t~h)hk , ∂xk k=1 das ist ein Polynom ersten Grades in den n Variablen h1 , . . . , hn . Falls f sogar eine C 2 -Funktion ist, liefert eine nochmalige Anwendung der Kettenregel g 00 (t) = n X k=1 hk n n X X ∂ ∂f ∂2f (~a + t~h)hl = (~a + t~h)hk hl , ∂xl ∂xk ∂xk xl l=1 k,l=1 326 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN also ein Polynom zweiten Grades in n Variablen. Wenn f stetige partielle Ableitungen dritter und höherer Ordnung besitzt, können wir entsprechend fortfahren. Die Funktionen g(0) 0 g(0) + tg (0) = f (~a), n X ∂f (~a)hν1 , = f (~a) + ∂x ν1 ν =1 1 t2 g(0) + tg 0 (0) + g 00 (0) 2 n n X 1 X ∂2f ∂f (~a)hν1 + (~a)hν1 hν2 , = f (~a) + ∂xν1 2 ν ,ν =1 ∂xν1 xν2 ν =1 1 1 2 .. . (für t = 1) bieten sich uns daher als Taylor-Polynome an. 4.2 Taylor-Polynome in mehreren Variablen. Ist f in einer Umgebung von ~a von der Klasse C r , r ∈ N0 , so nennen wir Tr (~x) := r X 1 (k) d f (~a)(~x − ~a), k! k=0 wobei d(k) f (~a)(~h) := n X νk =1 ··· n X n X ν2 =1 ν1 ∂kf (~a) · hνk · · · hν2 hν1 ∂xνk · · · ∂xν2 ∂xν1 =1 ! für h ∈ Rn , das r-te Taylor-Polynom (oder den r-Jet) von f im Punkt ~a. Will man die Abhängigkeit von f und ~a deutlich machen, so schreibt man statt Tr auch Tr [f ] oder Tr [f, ~a]. Die Abbildung df (k) (~a) heißt k-te Ableitung von f im Punkt ~a. Beispiel. Für zwei Variable (d.h. n = 2) und dem Ursprung als Entwicklungspunkt lautet das r-te Taylor-Polynom Tr (x, y) = 1 f (0, 0) 0! 1 1 ∂f 1 ∂f + (0, 0)x + (0, 0)y 1! 0 ∂x 1 ∂y 1 + 2! 2 2 2 2 ∂ f 2 ∂ f 2 ∂ f 2 2 (0, 0)x + (0, 0)xy + (0, 0)y 0 ∂x2 1 ∂x∂y 2 ∂y 2 1 + 3! 3 3 3 3 3 ∂ f 3 ∂ f 3 ∂ f 3 ∂ f 3 2 2 3 (0, 0)x + (0, 0)x y + (0, 0)xy + (0, 0)y 0 ∂x3 1 ∂x2 ∂y 2 ∂x∂y 2 3 ∂y 3 +··· r r 1 r ∂ f r ∂rf r ∂ f r r−1 r + (0, 0)x + (0, 0)x y + · · · + (0, 0)y . r! 0 ∂xr 1 ∂xr−1 ∂y r ∂y r Hierbei haben wir wieder den Satz von Schwarz 2.4 über gemischte partielle Ableitungen berücksichtigt. 4.3 Erstes und zweites Taylor-Polynom im Matrizenkalkül, Hesse-Matrix. Das erste TaylorPolynom können wir mit Hilfe des Gradienten in der Form T1 (~x) = f (~a) + ∇f (~a)T (~x − ~a) schreiben. Beim zweiten Taylor-Polynom kommt offensichtlich eine quadratische Form hinzu. Wir schreiben 1 T2 (~x) = f (~a) + ∇f (~a)T (~x − ~a) + (~x − ~a)T Hf (~a)(~x − ~a), 2 327 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN mit der sogenannten Hesse-Matrix Hf (~a) := ∂2f (~a) ∂xj , xk ∂x1 ,x1 f (~a) .. = . ··· ∂xn ,x1 f (~a) · · · ∂x1 ,xn f (~a) .. n×n . ∈R . ∂xn ,xn f (~a) Nach dem Satz von Schwarz 2.4 ist die Hesse-Matrix einer C 2 -Funktion symmetrisch. Beispiel. In 2.3 (f) haben wir für f (x, y) = ye2−x bestimmt. Wir erhalten insbesondere ∂f (1, 1) = −2, ∂x ∂f (1, 1) = −1, ∂y ∂f ∂f −1 −1 )= ) = 0, (0, √ (0, √ 2 2 ∂x ∂y 2 −y 2 die partiellen Ableitungen bis zur Ordnung zwei ∂2f (1, 1) = 2, ∂2x √ ∂2f −1 ) = 2e3/2 , (0, √ 2 2 ∂ x ∂2f (1, 1) = 2, ∂x∂y ∂2f −1 ) = 0, (0, √ 2 ∂x∂y ∂2f (1, 1) = −2, ∂2y √ ∂2f −1 ) = 2 2e3/2 , (0, √ 2 2 ∂ y und damit T2 [f, (1, 1)](x, y) = 1+ −2 −1 T x−1 1 x−1 2 + 2 y−1 2 y−1 x−1 2 −2 y−2 = x2 + 2xy − y 2 − 6x − y + 6, −1 )](x, y) T2 [f, (0, √ 2 √ 3/2 T e3/2 1 0 x x 2e √ + + −1 −1 √ 0 2 0 y− √ y − 2 2 2 ! 2 e3/2 1 = −√ −1 + x2 + 2 y + √ . 2 2 = √0 2 2e3/2 x −1 y− √ 2 4 2 0 1 -2 -4 0 -1 0 -1 1 Abbildung 6.7: √ Graphen der Funktion f (x, y) = ye2−x (a, b) = (0, −1/ 2). 2 −y 2 und ihres zweiten Taylor-Polynoms im Punkt 4.4 Taylor-Entwicklung mit Restglied. Ist f : D ⊂ Rn → R eine reellwertige C r+1 -Funktion und liegt für einen Punkt ~a ∈ D und ein ~h ∈ Rn die Verbindungsstrecke von ~a mit ~a + ~h ganz in D, so gibt es ein (von ~h abhängiges) θ ∈]0, 1[ mit f (~a + ~h) = Tr [f, ~a](~a + ~h) + 1 df (r+1) (~a + θ~h)(~h). (r + 1)! 328 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN Beweis. Man wende auf die in 4.1 betrachtete Hilfsfunktion g die Lagrange-Darstellung für das Restglied 4.§3.4.12 an. Für eine quantitative Fehlerabschätzung muss man also das Fehlerglied, d.h. df (r+1) abschätzen können. Ähnlich wie in 4.§3.4.14 erhält man dann eine qualitative Fehlerabschätzungen. 4.5 Qualitative Restgliedabschätzung. Ist f in einer Umgebung von ~a eine C r -Funktion, so gilt für das r-te Taylor-Polynom Tr von f in ~a f (~x) = Tr (~x) + O(k~x − ~akr ) für ~x → ~a. Ist f sogar von der Klasse C r+1 , so gilt f (~x) = Tr (~x) + O(k~x − ~akr+1 ) für ~x → ~a. 4.6 Mittelwertsatz für Skalarfelder. Ist f : D ⊂ Rn → R eine C 1 -Funktion und liegt die Verbindungsstrecke S von ~x und ~y ganz in D, so gibt es einen Punkt ζ~ ∈ S mit ~ y − ~xi. f (~y ) − f (~x) = h∇f (ζ)|~ Beweis. Das ist die Taylor-Entwicklung 4.4 mit Restglied für r = 0. 4.7 Lokale Extrema. Ist f : D ⊂ Rn → R eine C 2 -Funktion und ist ~a ∈ D ein innerer Punkt so gilt: • Hat f in ~a ein lokales Maximum (Minimum), so gilt ∇f (~a) = ~0 und Hf (~a) ist negativ (positiv ) semidefinit. • Ist ~a ein kritischer Punkt, d.h. gilt ∇f (~a) = ~0, so hat f in ~a ein lokales Maximum (Minimum), falls Hf (~a) negativ (positiv ) definit ist. Ist dagegen Hf (~a) indefinit, so liegt in ~a sicher kein lokales Extremum vor. Achtung. Gilt ∇f (~a) = ~0 und ist Hf (~a) nur semidefinit, so kann mit diesen beiden Informationen allein nicht entschieden werden, ob f in ~a ein lokales Extremum hat. Beweisidee. Die notwendige Bedingung ∇f (~a) = ~0 für ein lokales Extremum ist uns schon bekannt (4.§3.7.7). Das zweite Taylor-Polynom von f lautet also f (~a) + 21 ~hT Hf (~a)~h und man kann aus der Definitheit der quadratischen Form Q(~h) = 21 ~hT Hf (~a)~h alles über das lokale Verhalten von f ablesen, was nicht durch ein O(k~hk2 ) verfälscht wird (was passieren kann, wenn Q semidefinit ist). Beweis∗ . Zum ersten Teil (notwendige Bedingungen): Wir müssen nur noch die zweiten Behauptung beweisen und tun dies im Fall eines lokalen Maximums. Dann existiert eine Kugel Kr (~a) ⊂ D, r > 0, mit f (~x) ≤ f (~a) für alle ~x ∈ Kr (~a). Zu ~v ∈ Rn r{0} betrachten wir t 7→ f (~a +t~v ) mit t ∈ I :=]−r/k~v k, r/k~v k[. Wegen ∇f (~a) = ~0 lautet die qualitative Taylor-Formel für f somit f (~a + t~v ) = f (~a) + Q(t~v ) + O(kt~v k2 ) = f (~a) + t2 Q(~v ) + O(t2 ) für t → 0. Das bedeutet f (~a + t~v ) − f (~a) = Q(~v ). t2 Wegen f (~a + t~v ) ≤ f (a) für t ∈ I folgt Q(~v ) ≤ 0. Also ist Hf (~a) negativ semidefinit. Für ein lokales Minimum schließe man analog. lim t→0 Zum zweiten Teil (hinreichende Bedingungen): Die quadratische Form Q nimmt als stetige Funktion auf der kompakten Menge {~v ∈ Rn | k~v k = 1} nach dem Hauptsatz über stetige Funktionen 4.§2.4.10 ein Maximum M und ein Minimum m an. Ist Q positiv definit, so gilt m > 0. Wir betrachten wieder die qualitative Taylor-Formel f (~a + ~h) = f (~a) + Q(~h) + O(k~hk2 ) für ~h → 0. 329 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN f (~a) a2 ~a a1 Abbildung 6.8: Zur notwendigen Bedingung ∇f (~a) = ~0 für eine Extremalstelle einer C 2 -Funktion, hier in zwei Veränderlichen. Es gibt also ein ε > 0 mit Kε (~a) ⊂ D und m f (~a + ~h) − f (~a) − Q(~h) < k~hk2 4 für k~hk < ε. Für ~h ∈ Rn mit 0 < k~hk < ε setzen wir ~v := ~h/k~hk. Dann gilt k~v k = 1 und es folgt k~hk2 m m m Q(~v ) − k~hk2 ≥ f (~a) + k~hk2 > f (~a). f (~a + ~h) ≥ f (~a) + Q(~h) − k~hk2 = f (~a) + 4 2 4 4 Damit hat f in ~a ein lokales Minimum. Ist Hf (~a) und damit Q positiv definit, so schließe man analog. T2 [f, ~a] f a2 ~a a1 Abbildung 6.9: Zur hinreichenden Bedingung für eine lokale Extremalstelle einer C 2 -Funktion, hier in zwei Veränderlichen. Ist Hf (~a) und damit Q indefinit, so existieren ~v , w ~ ∈ Rn mit M := Q(~v ) > 0 bzw. m := −Q(w) ~ > 0. Die qualitative Taylor-Formel liefert ähnlich wie zuvor f (~a + t~v ) f (~a + tw) ~ M 2 t + O(t2 ) 2 m = f (~a) + t2 Q(w) ~ + O(t2 ) = f (~a) − t2 + O(t2 ) 2 = f (~a) + t2 Q(~v ) + O(t2 ) = f (~a) + für t → 0, für t → 0, Daher existiert ein ε > 0 mit f (~a + t~v ) ≥ f (~a) + M 2 t , 4 f (~a + tw) ~ ≤ f (~a) − m 2 t 4 für t ∈] − ε, ε[. 330 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN Also nimmt f in jeder Umgebung von ~a sowohl Werte an, die größer als f (~a) sind, also auch Werte, die kleiner sind. Daher kann f in a nicht extremal sein. 4.8 Beispiel für eine Extremwertaufgabe. Wir beweisen die Ungleichung x2 + y 2 ≤ 4ex+y−2 für x, y ≥ 0, indem wir die durch f (x, y) := (x2 + y 2 )e−x−y definierte C ∞ -Funktion f : R2 → R auf dem ersten Quadranten D := {(x, y) ∈ R2 | x, y ≥ 0} diskutieren. Zunächst berechnen wir Gradient und Hesse-Matrix und erhalten 2 2 −x−y x + y − 2x ∇f (x, y) = −e , x2 + y 2 − 2y 2 x + y 2 − 4x + 2 x2 + y 2 − 2x − 2y −x−y Hf (x, y) = e . x2 + y 2 − 2x − 2y x2 + y 2 − 4y + 2 Die kritischen Punkte von f bestimmen wir nun durch Lösen des nichtlinearen Gleichungssystems ∇f (x, y) = (0, 0). Durch Subtrahieren der beiden Gleichungen x2 + y 2 − 2x = 0 und x2 + y 2 − 2y = 0 erhalten wir x = y, durch Einsetzen anschließend die beiden Lösungen (0, 0) und (1, 1). Nachdem nur (1, 1) ein innerer Punkt von D ist, benötigen wir nur die Hesse-Matrix 0 −2e−2 Hf (1, 1) = . −2e−2 0 Selbige ist indefinit, wie man durch Berechnen der Eigenwerte oder durch Betrachten von ~v T Hf (1, 1)~v für ~v = (−1, 1) bzw. ~v = (1, 1) erkennen kann. Also hat f im Inneren von D keine lokalen Extrema und wir können mit der Randbetrachtung fortfahren. Auf der x-Achse gilt f (x, 0) = x2 e−x . Eine Diskussion der Hilfsfunktion g(x) := x2 e−x für x ≥ 0 zeigt, dass g für x ∈ [0, 2] streng monoton steigt und für x ∈ [2, +∞[ streng monoton fällt. Also liegt für f in (2, 0) ein Randmaximum vor mit Wert f (2, 0) = 4e−2 . Aus Symmetriegründen hat f in (0, 2) ein weiteres Randmaximum mit demselben Wert. Für x, y ≥ 0 mit x + y ≥ 2 besteht die Abschätzung f (x, y) ≤ (x2 + 2xy + y 2 )e−x−y = g(x + y) ≤ g(2) = 4e−2 . Damit kann f auf D außerhalb des Dreiecks D0 := {(x, y) ∈ R2 | 0 ≤ x, y ≤ 0, x + y ≤ 2} keinen größeren Wert als 2e−4 annehmen. Im Kompaktum D0 muss f als stetige Funktion ein globales Maximum haben. Nach unseren bisherigen Überlegungen hat selbiges den Wert 4e−2 und wird den Randpunkten (2, 0) und (0, 2) angenommen. Damit muss dies auch das globale Maximum von f auf ganz D sein. Also gilt f (x, y) ≤ 4e−2 für x, y ≥ 0. Wir haben die behauptete Ungleichung bewiesen und dabei auch die Extremalsituation entlarvt: Gleichheit tritt genau für (x, y) = (2, 0) oder (x, y) = (0, 2) ein. 4 3 0.4 4 0.2 2 3 0 0 2 1 1 1 2 3 4 0 1 2 3 4 Abbildung 6.10: Graph und Niveaulinien von f (x, y) := (x2 + y 2 )e−x−y . 331 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN 4.9 Quadratischer Fit. Für einen Satz von Messdaten (t1 , y1 ), . . . , (tm , ym ) (beispielsweise die Menge yk einer radioaktiven Substanz zur Zeit tk ) vermuten wir einen Zusammenhang der Gestalt y(t) = c1 e−t + c2 te−t + c3 t2 e−t (Statt e−t , te−t , t2 e−t sind je nach Problemstellung auch Linearkombinationen aus anderen Funktionen möglich, z.B. 1, t, t2 , t3 oder cos ωt, sin ωt). Das lässt sich als ein LGS −t y1 e 1 t1 e−t1 t1 2 e−t1 c1 .. .. .. .. c2 = . . . . 2 −tm −tm −tm c3 ym e tm e tm e | {z } | {z } | {z } =:A =:~ x =:~b schreiben, in dem die Eingabedaten in der Matrix A ∈ Rm×n und die zugehörigen Messergebnisse im Vektor ~b ∈ Rm abgelegt sind. Die Spaltenzahl n von A hängt hängt davon ab, wie viele „Grundfunktionen“ zur Modellbildung verwendet werden (hier sind es n = 3). Gesucht sind die Koeffizienten für die Linearkombination dieser Grundfunktionen, d.h. Lösungen ~x von A~x = ~b. Im Allgemeinen wird dieses LGS nicht lösbar sein: Es liegen zu viele Messungen vor (n > m) und es gibt Messfehler. Darum geben wir uns ersatzweise mit einem Vektor ~x zufrieden, der kA~x − ~bk minimiert. Das nennt man einen quadratischen Fit oder Gaußsche Methode der kleinsten Quadrate. Dabei dürfen wir die Grundfunktionen linear unabhängig wählen, d.h. rg A = n. Für A ∈ Rm×n mit rg A = n ≤ m und ~b ∈ Rm wird kA~x − ~bk genau für ~x = (AT A)−1 AT ~b minimal. Beweis. Wegen der Monotonie der Wurzelfunktion genügt es, das Minimum der Funktion f : Rn → R, f (~x) := kA~x − ~bk2 = (A~x − ~b)T (A~x − ~b) = ~xT AT A~x − 2~bT A~x + ~bT ~b zu bestimmen. Wir berechnen Gradient und Hesse-Matrix zu ∇f (~x) = 2AT A~x − 2AT ~b, Hf (~x) = AT A. Da rg A = m maximal ist, ist Hf positiv definit: Aus 0 = ~xT AT A~x = (AT ~x)(A~x) = kA~xk2 folgt A~x = ~0 und dann ~x = ~0. Das zeigt auch, dass AT A invertierbar ist. Damit hat f genau einen kritischen Punkt, nämlich die eindeutig bestimmte Lösung der Gaußsche Normalengleichungen AT A~x = AT ~b. Dieser liefert ein lokales Minimum von f . Wegen f (~x) → +∞ für k~xk → ∞ muss dieses Minimum global sein. 5 Lokale Umkehrbarkeit und Koordinatentransformationen 5.1 Worum geht es? In diesem und dem nächsten Abschnitt beschäftigen wir uns mit Gleichungssystemen. Liegen m Gleichungen für n Unbekannte vor, so schreiben wir das System in der Form f~(~x) = ~b mit einer Funktion f~ : D ⊂ Rn → Rm und können so Mittel der Analysis einsetzen, indem wir das Abbildungsverhalten von f~ diskutieren. Im Fall f~(~x) = A~x liegt ein lineares Gleichungssystem vor. Wir sind hier primär an nichtlinearen Gleichungssystemen interessiert. Es wird sich aber zeigen, dass man vieles aus der Theorie linearer Gleichungssysteme übertragen kann — allerdings in einer „lokalisierten“ Form. Wie in der linearen Algebra werden wir zwei grundlegende Fälle unterscheiden: • A~x = ~b mit invertierbarem A ∈ Rn×n , d.h. det(A) 6= 0 („genauso viele Gleichungen wie Unbekannte“). Dann ist das LGS für jede rechte Seite ~b eindeutig lösbar und wir erhalten die Lösung in Abhängigkeit von ~b durch Invertieren: ~x = A−1~b. 332 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN • A~x = ~b mit A ∈ Rm×n und rg(A) = m < n („weniger Gleichungen als Unbekannte“). Auch dann ist das LGS für jede rechte Seite ~b lösbar. Jetzt können aber in jedem Lösungsvektor m (geeignete) Variable frei gewählt werden, die restlichen n − m Variablen hängen dann von den freien ab und sind nach deren Wahl festgelegt. In diesem Abschnitt beschäftigen wir uns mit der ersten Situation und behandeln dabei auch „krummlinige Koordinatentransformationen“. Im Abschnitt 6 geht es dann um Gleichungssysteme mit „freien“ und „abhängigen“ Variablen und um „implizite Funktionen“, mit denen Abhängigkeit der abhängigen Variablen von den freien beschrieben wird. 5.2 Koordinatentransformationen, Diffeomorphismen. Gegeben sind zwei Gebiete D ⊂ Rn und G ⊂ Rm . Eine Abbildung f~ : D → G heißt eine C r -Koordinatentransformation oder ein C r -Diffeomorphismus, wenn f~ eine bijektive Abbildung von D auf G ist und wenn sowohl f~ als auch die Umkehrabbildung f~−1 eine C r -Funktion ist. Beispiel. Die Darstellung in Polarkoordinaten r x(r, ϕ) r cos ϕ ~ f: 7→ := ϕ y(r, ϕ) r sin ϕ ϕ/2 ist ein C ∞ -Diffeomorphismus von D :=]0, +∞[×] − π, π[ auf G := R2 r {(x, 0) ∈ R2 | x ≤ 0}, die längs der negativen x-Achse geschlitzte Ebene. Die auf G definierte Umkehrabbildung f~−1 erhalten wir gemäß nebenstehender Skizze zu p x2 + y 2 r(x, y) x −1 ~ . 7→ = f : 2 arctan √y 2 2 ϕ(x, y) y x+ x +y r ϕ/2 r y ϕ x Abbildung 6.11: Umrechung in Polarkoordinaten. 5.3 Wann ist eine Abbildung eine Koordinatentransformation? Das ist eine wichtige Frage, die sich nicht leicht beantworten lässt. Die explizite Berechnung der Umkehrfunktion ist meist mühsam oder gar unmöglich. Die folgende Beobachtung liefert uns zumindest ein notwendiges Kriterium: Ist f~ : D → G ein C r -Diffeomorphismus mit r ≥ 1 und Umkehrabbildung ~g = f~−1 : G → D, so folgt aus (~g (f~(~x)) = ~x und (f~(~g (~y )) = ~y für ~x ∈ D ⊂ Rn und ~y = f~(~x) ∈ G ⊂ Rm durch Differenzieren mit der Kettenregel d~g (~y ) · df~(~x) = En sowie df~(~x) · d~g (~y ) = Em . Die beiden Jacobi-Matrizen A = df~(~x) und B = d~g (~y ) genügen also den Gleichungen AB = Em , BA = En . Damit müssen beide Matrizen quadratisch und invertierbar sein: m = n und B = A−1 . 5.4 Notwendige Bedingung für Diffeomorphie. Ist f~ : D ⊂ Rn → G ⊂ Rm eine C r -Koordinatentransformation mit r ≥ 1, so gilt n = m und an jeder Stelle ~x ∈ D ist die Jacobi-Matrix df~(~x) invertierbar. Die Umkehrabbildung ~g := f~−1 : G → D erhalten wir dann zu d~g (~y ) = (df~(~x))−1 für ~x ∈ D, ~y = f~(~x) ∈ G. Anmerkung. Das ist eine Verallgemeinerung der Regel 4.§3.2.7 für die Ableitung der Umkehrfunktion. Beispiel. Für die Polarkoordinatentransformation r r cos ϕ cos ϕ −r sin ϕ f~ : 7→ mit df~(r, ϕ) = sin ϕ r cos ϕ ϕ r sin ϕ erhalten wir det(df~(r, ϕ)) = r > 0 für (r, ϕ) ∈]0, +∞[×] − π, π[ und berechnen 1 r cos ϕ r sin ϕ −1 ~ (df (r, ϕ)) = . r − sin ϕ cos ϕ 333 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Mit x = r cos ϕ und y = r sin ϕ folgt damit für die Umkehrabbildung ~g = f~−1 ! p p x/ x2 + y 2 y/ x2 + y 2 . d~g (x, y) = −y/(x2 + y 2 ) x/(x2 + y 2 ) Die notwendige Bedingung „df~(~x) ist für jedes ~x ∈ D invertierbar“ für Diffeomorphie ist (zumindest für n ≥ 2) leider nicht hinreichend. Die Problematik können wir schon bei der Polarkoordinatentransformation studieren. Es gilt zwar det(df~(r, ϕ)) = r 6= 0 sobald r 6= 0, aber f~ ist beispielsweise auf dem Gebiet D =]0, +∞[×R nicht invertierbar, da f~(r, ϕ) = f~(r, ϕ+2π). Erst, wenn wir den Definitionsbereich „genügend klein“ wählen (z.B. D =]0, +∞[×] − π, π[, vgl. 5.2), erhalten wir auch Invertierbarkeit. Der folgende Satz besagt nun, dass die notwendige Bedingung 5.4 „lokal“ immer hinreichend ist. 5.5 Satz über lokale Umkehrbarkeit. Ist f~ : D ⊂ Rn → Rn eine C r -Abbildung mit r ≥ 1 und ist für ein ~a ∈ D die Jacobi-Matrix df~(~a) invertierbar (d.h. gilt det(df~(~a)) 6= 0), so ist f~ lokal eine C r Koordinatentransformation. Das bedeutet: es gibt offene Umgebungen U ⊂ D von ~a und V ⊂ Rn von f~(~a), so dass f~|U eine Koordinatentransformation von U auf V ist. f~(D) D f~ - a2 f2 (a) a1 f1 (a) Abbildung 6.12: Zum Satz über lokale Umkehrbarkeit: Eine C 1 -Funktion f~ : D ⊂ R2 → R2 mit det(df~(~a)) 6= 0 für ein ~a ∈ D. Auf D selbst (graues Gitter) ist f~ nicht injektiv, die Umgebung U von ~a (schwarzes Gitter) wird aber von f~ bijektiv auf V = f~(U ) abgebildet. Der Beweis dieses Satzes gehört zu den harten Brocken einer jeden Vorlesung in Analysis. Wir verweisen auf [HeuA, Band 2, 171], [Köh, §26] oder [Kön, Band 2 §3.3]. Zusammen mit der notwendigen Bedingung 5.4 erhalten wir aus dem Satz über lokale Umkehrbarkeit das folgende Kriterium. 5.6 Hinreichende Bedingung für Diffeomorphie. Ist D ⊂ Rn ein Gebiet, ist f~ : D → Rn eine injektive C r -Abbildung mit r ≥ 1 und ist df~(~a) in jedem Punkt ~a ∈ D invertierbar, so ist G = f~(D) ein Gebiet und f~ eine C r -Koordinatentransformation zwischen D und G. Beweis∗ . Nach dem Satz über lokale Umkehrbarkeit gibt es zu jedem Punkt ~b = f~(~a) ∈ G := f~(D) eine Umgebung V ⊂ G, die Bild einer Umgebung U ⊂ D von ~a unter dem C r -Diffeomorphismus f~|U ist. Damit ist G offen und f~−1 stimmt auf V mit der C r -Umkehrabbildung von f~|U überein, ist also selbst von der Klasse C r . Da stetige Bilder von wegezusammenhängenden Mengen selbst wegezusammenhängend sind, ist G ein Gebiet. 5.7 Generalisierte Koordinaten. In allgemeinen Aussagen wird meist mit kartesischen Koordinaten ~x = (x1 , . . . , xn ) ∈ Rn gearbeitet. In den Anwendungen gibt man aber gerne denjenigen Koordinaten den Vorzug, die dem Problem auf Grund dessen Geometrie am besten angepasst sind. Der Übergang von diesen krummlinigen oder generalisierten Koordinaten (q1 , . . . , qn ) = ~q zu den kartesischen ~x = ~x(q1 , . . . , qn ) = ~x(~q) 334 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN ist nichts anderes als eine spezielle bijektive Abbildung. Um die Methoden der Analysis anwendbar zu machen, verlangen wir, dass diese bijektive Abbildung geeignet oft differenzierbar ist. Dann haben wir es mit einem C r -Diffeomorphismus mit r ≥ 1 zu tun. Wir studieren nun solch eine C r -Koordinatentransformation ~x : D ⊂ Rn → G := ~x(D) ⊂ Rn , ~q 7→ ~x(~q), von generalisierten in kartesische Koordinaten. Für einen Punkt ~x = ~x(~q) mit generalisiertem Koordinatentupel ~q ∈ D liefert die partielle Funktion t 7→ ~x(~q + t~ek ), bei der nur die k-te generalisierte Koordinate variiert, die (i.A. gekrümmte) k-te Koordinatenlinie durch ~x. Der zugehörige Tangenteneinheitsvektor dort ist ∂~x 1 ~gk (~q) mit ~gk (~q) := (~q). ~eqk (~q) := k~gk (~q)k ∂qk Wir erhalten also den k-ten generalisierten Koordinateneinheitsvektor ~eqk durch Normieren der k-ten Spalte der Jacobi-Matrix d~x(~q). Im Gegensatz zur Standardbasis (~e1 , . . . , ~en ) bildet (~eq1 (~q), . . . , ~eqn (~q)) kein raumfestes n-Bein. Wir stellen es uns an den Punkt ~x = ~x(~q) angeheftet vor. Wir erhalten (unter Weglassung des Arguments) n n X X ∂~x ∂~x dqk = d~x = ∂qk ~eqk dqk . ∂qk k=1 k=1 5.8 Generalisierte orthogonale Koordinaten und Maßtensor. Das n-Bein (~eq1 (~q), . . . , ~eqn (~q)) an der Stelle ~x(~q) ist orthonormal, falls d~x(~q) orthogonal ist, d.h. falls d~x(~q)T d~x(~q) = En . Gilt dagegen nur d~x(~q)T d~x(~q) = diag(λ1 , . . . , λn ) mit λ1 , . . . , λn > 0, so ist (~eq1 (~q), . . . , ~eqn (~q)) zwar ein orthogonales n-Bein, aber i.A. nicht mehr normiert. Wir sprechen dann von generalisierten orthogonalen Koordinaten. Die Matrix h∂q1 ~x(~q)|∂q1 ~x(~q)i .. d~x(~q)T d~x(~q) = . ··· h∂q1 ~x(~q)|∂qn ~x(~q)i .. . h∂qn ~x(~q)|∂q1 ~x(~q)i ··· h∂qn ~x(~q)|∂qn ~x(~q)i trägt also offensichtlich wichtige Informationen über die generalisierten Koordinaten. Sie wird Maßtensor , metrischer Tensor oder Gramsche Matrix von ~x genannt, mit G(~q) bezeichnet und ist die Fundamentalmatrix der durch den Koordinatenwechsel induzierten quadratischen Form Q(~q) := h~x(~q)|~x(~q)i 5.9 Gradient in generalisierten orthogonalen Koordinaten. Wir betrachten ein C 1 -Skalarfeld f : D ⊂ Rn → R. Wird selbiges lokal in generalisierten C 1 -Koordinaten ~x = ~x(~q) dargestellt, so erhalten wir eine neue C 1 -Funktion F (~q) := f (~x(~q)) in diesen Koordinaten. Wir wollen jetzt den Gradienten ∇f (~x) von f an der Stelle ~x = ~x(~q) in den Gradienten der lokalen Darstellung F an der Stelle ~q umrechnen. Mit der Kettenregel folgt zunächst dF (~q) = df (~x(~q))d~x(~q) und damit für den Gradienten ∇F (~q) = d~x(~q)T ∇f (~x(~q)). 335 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Liegen generalisierte orthogonale Koordinaten vor, so gilt d~x(~q)T d~x(~q) = diag k∂q1 ~x(~q)k2 , . . . , k∂qn ~x(~q)k2 und damit (da Diagonalmatrizen mit allen Matrizen vertauschen) 1 1 ∇f (~x(~q)) = diag ,..., d~x(~q)∇F (~q). k∂q1 ~x(~q)k2 k∂qn ~x(~q)k2 Unter Verwendung der Basisvektoren ~eqk (~q) = 1 x(~q) k∂qk ~ x(~ q )k ∂qk ~ an der Stelle ~q erhalten wir nun n X 1 1 ∂F 1 ∇f (~x(~q)) = diag ~eq1 (~q), . . . , ~eqn (~q) ∇F (~q) = (~q)~eqk (~q). k∂q1 ~x(~q)k k∂qn ~x(~q)k k∂qk ~x(~q)k ∂qk k=1 Das nennt man die Darstellung des Gradienten in generalisierten orthogonalen Koordinaten. In der Physik lässt man die Argumente gerne weg und schreibt einfach ∇f (~x) = n X k=1 1 ∂F ~eq . k∂qk ~xk ∂qk k 5.10 Ein Beispiel für generalisierte orthogonale Koordinaten sind Kugelkoordinaten im R3 r sin θ cos ϕ r > 0, θ ∈]0, π[, ϕ ∈]0, 2π[, ~x(r, θ, ϕ) := r sin θ sin ϕ , r cos θ die jeden Punkt in G := R3 r Span(~e3 ) durch ein Tripel ~q = (r, θ, ϕ) aus Radius, Breiten- und Längenwinkel im offenen Quader D :=]0, +∞[×]0, π[×]0, 2π[ beschreiben (vgl. 3.§4.3.5, die x3 -Achse muss ausgeschlossen werden, um Injektivität zu erhalten). Wir berechnen die Jacobi-Matrix d~x(r, θ, ϕ) = sin θ cos ϕ ∂~x ∂~x ∂~x (r, θ, ϕ), (r, θ, ϕ), (r, θ, ϕ) = sin θ sin ϕ ∂r ∂θ ∂ϕ cos θ r cos θ cos ϕ −r sin θ sin ϕ r cos θ sin ϕ r sin θ cos ϕ . −r sin θ 0 Das Dreibein an der Koordinatenstelle (r, θ, ϕ) lautet damit (unter Weglassung der Argumente) sin θ cos ϕ sin θ cos ϕ 1 sin θ sin ϕ = sin θ sin ϕ , ~er = p (sin θ cos ϕ)2 + (sin θ sin ϕ)2 + (cos θ)2 cos θ cos θ r cos θ cos ϕ cos θ cos ϕ 1 r cos θ sin ϕ = cos θ sin ϕ , ~eθ = p (r cos θ cos ϕ)2 + (r cos θ sin ϕ)2 + (−r sin θ)2 −r sin θ − sin θ −r sin θ sin ϕ − sin ϕ 1 r sin θ cos ϕ = cos ϕ . ~eϕ = p (−r sin θ sin ϕ)2 + (r sin θ cos ϕ)2 + 02 0 0 Der Maßtensor an der Koordinatenstelle (r, θ, ϕ) hat die Form 1 G(r, θ, ϕ) = d~x(r, θ, ϕ)T d~x(r, θ, ϕ) = 0 0 0 r2 0 0 0 . r2 sin2 θ Ferner gilt (wieder unter Weglassung der Argumente) d~x = ∂~x ∂~x ∂~x dr + dθ + dϕ = ~er dr + r~eθ dθ + r sin θ~eϕ dϕ. ∂r ∂θ ∂ϕ 336 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN Kugelkoordinaten liefern also keine orthonormalen generalisierten Koordinaten, sondern nur orthogonale, in Richtung ~er wird um den Faktor 1, in Richtung ~eθ um den Faktor r und in Richtung ~eϕ um den Faktor r sin θ gestreckt. Die Streckungsfaktoren hängen vom Punkt ~x = ~x(r, θ, ϕ) ab. Der Gradient eines Skalarfeldes f (~x(r, θ, ϕ)) = F (r, θ, ϕ) in Kugelkoordinaten lautet dann (nochmals unter Weglassung der Argumente) ∇f = ∂F 1 ∂F 1 ∂F ~er + ~eθ + ~eϕ . ∂r r ∂θ r sin θ ∂ϕ ~er 1 ~x = ~x(r, θ, ϕ) ~eϕ r θ ~eθ ϕ Abbildung 6.13: Lokales Dreibein in Kugelkoordinaten. 6 Implizite Funktionen und Lösungsmannigfaltigkeiten 6.1 Problematik beim Lösen nichtlinearer Gleichungen. Eine einzelne nichtlineare Gleichung für n Unbekannte können wir mit Hilfe einer C 1 -Funktion f : D ⊂ Rn → R in der Form f (x1 , . . . , xn−1 , xn ) = 0 schreiben. Dass rechts die Null steht, ist keine Spezialisierung: Wir können ja, z.B. durch Subtraktion, immer „alles“ auf die linke Seite bringen. Unter der Auflösung dieser Gleichung nach einer Variablen, etwa nach xn , verstehen wir eine C 1 -Funktion g mit der Eigenschaft f (x1 , . . . , xn−1 , xn ) = 0 ⇔ xn = g(x1 , . . . , xn−1 ). Damit solch eine Funktion g überhaupt existiert, muss die Gleichung Lösungen haben, d.h. es muss mindestens einen Lösungspunkt ~c = (c1 , . . . , cn ) ∈ D geben mit f (~c) = 0. Im Allgemeinen dürfen wir nicht erhoffen, die Lösungsfunktion explizit darstellen zu können. Daher suchen wir zuerst nach einer Bedingung, die uns zumindest theoretisch die Auflösbarkeit einer nichtlinearen Gleichung sicherstellt. Wenn eine Auflösung existiert, so wird sie in der Regel nur in einer Umgebung des Lösungspunkts ~c existieren. Wir illustrieren diese Problematik an einem überschaubaren Beispiel. Die Kreisgleichung x2 + y 2 − 1 = 0 ist für |y|√> 1 nicht nach y auflösbar (kein ~c = (x, y) mit |y| > 1 ist Lösungspunkt). Für 0 < y ≤ 1 liefert g(x) = 1 − x2 eine Auflösung nach y, für −1 ≤ y < 0 müssen wir √ g(x) = − 1 − x2 wählen. In Umgebungen der beiden Lösungspunkte (±1, 0) können wir die Gleichung x2 + y 2 − 1 = 0 zwar nicht nach y, dafür aber nach x auflösen. Man mache sich das geometrisch klar! KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN 337 Wissen wir nun, dass die Gleichung f (x, y) = 0 mit zwei Unbekannten in einer Umgebung eines Lösungspunktes (a, b) durch eine C 1 -Funktion g nach y auflösbar ist, d.h. gilt f (x, g(x)) = 0 für alle x nahe bei a wobei f (a, b) = 0 und g(a) = b, so können wir diese Identität mit der Kettenregel differenzieren und erhalten 0= ∂f ∂f d f (x, g(x)) = (x, g(x)) + (x, g(x))g 0 (x). dx ∂x ∂y Insbesondere gilt also an der Stelle x = a ∂f ∂f (a, b) + (a, b)g 0 (a) = 0 ∂x ∂y und wir können g 0 (a) berechnen, falls ∂y f (a, b) 6= 0. Damit kennen wir g(a) = b und g 0 (a), d.h. das erste Taylor-Polynom zu g im Entwicklungspunkt a, ohne die implizite Funktion g selbst zu kennen. Darum werden wir uns im Weiteren nicht nur damit beschäftigen, unter welchen Bedingungen eine Gleichung lokal nach einer Variablen auflösbar ist, sondern auch damit, welche Glattheitseigenschaften die implizite Funktion hat. 6.2 Zur Notation bei nichtlinearen Gleichungssystemen. Beim Lösen eines nichtlinearen Gleichungssystems mit m Gleichungen für n Unbekannte wollen wir die Variablen offensichtlich in zwei Gruppen aufteilen: die „abhängigen“, nach denen aufgelöst wird, und die „unabhängigen“, welche die Lösung parametrisieren. Zu diesem Zweck schreiben wir das Gleichungssystem in der Form f1 (x1 , . . . , xp , y1 , . . . , ym ) fm (x1 , . . . , xp , y1 , . . . , ym ) = .. . 0 = 0 oder knapp f~(~x, ~y ) = ~0 mit ~x ∈ Rp , ~y ∈ Rm und m + p = n. Dabei stellen wir uns die Variablen so nummeriert vor, dass y1 , . . . , ym die abhängigen Variablen sind, nach denen aufgelöst werden soll, und x1 , . . . , xp die unabhängigen, mit denen die Lösungen parametrisiert werden. Unter welchen Bedingungen solch eine Auflösung möglich ist und wie man die abhängigen Variablen identifiziert, werden wir in der übernächsten Nummer erfahren. Als Einstimmung betrachten wir zuvor die lineare Variante. 6.3 Wiederholung: Auflösen von linearen Gleichungssystemen. Das LGS Aζ~ = ~b mit A ∈ Rm×n und ~b ∈ Rm ist genau dann für jedes ~b ∈ Rm lösbar, wenn A regulär ist, d.h. wenn A genau m linear unabhängige Spalten besitzt. Genau dann ist auch die Anzahl der Freiheitsgrade der Lösung minimal (genauer: der Lösungsraum des homogenen Systems Aζ~ = ~0 ist von der Dimension p = n − m). Indem wir die Variablen geeignet umbenennen, können wir dann erzwingen, dass die letzten m Spalten von A linear unabhängig sind. In unserer Notation schreiben wir daher das LGS Aζ~ = ~b mit A = (~a1 , . . . , ~ap , ~ap+1 , . . . , ~an ) ∈ Rm×n , ~b ∈ Rm , ζ~ ∈ Rn , in der Form B~x + C~y = ~b mit B := (~a1 , . . . , ~ap ) ∈ Rm×p , C := (~ap+1 , . . . , ~an ) ∈ Rm×m , ~x ∈ Rp , ~y ∈ Rm . Hierbei wird die Matrix B aus den ersten p Spalten von A gebildet, die Matrix C besteht aus den letzen m Spalten von A und ist nach unserer Annahme regulär, d.h. es gilt det(C) 6= 0. Die n = p + m Variablen des Gleichungssystems sind gerade die Komponenten von ~x bzw. ~y . In dieser Schreibweise manifestieren sich unsere Freiheitsgrade beim Lösen des Systems gerade darin, dass wir ~x ∈ Rp frei wählen können und ~y anschließend durch Lösen von C~y = ~b − B~x erhalten. Unter der „Auflösebedingung“ det(C) 6= 0 können wir das System nach ~y auflösen und erhalten ~y = C −1 (~b − B~x). 338 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN Der folgende Satz sagt nun, dass dies bei nichtlinearen Gleichungen „lokal“ genauso geht. 6.4 Der Satz über implizite Funktionen. Seien D ⊂ Rp und G ⊂ Rm zwei offene Mengen. Ist f~ : D × G → Rm eine C r -Funktion mit r ≥ 1 und gilt an einer Stelle (~a, ~b) mit ~a ∈ D, ~b ∈ G ∂(f1 , . . . , fm ) ~ ~ ~ ~ (~a, b) 6= 0, f (~a, b) = 0 sowie det ∂(y1 , . . . , ym ) so ist das Gleichungssystem f~(~x, ~y ) = 0 lokal bei (~a, ~b) eindeutig durch eine C r -Funktion nach ~y auflösbar: Es gibt offene Umgebungen U ⊂ D von ~a und V ⊂ G von ~b sowie eine C r -Funktion ~g : U → V mit f~(~x, ~g (~x)) = ~0 für alle ~x ∈ U und aus f~(~x, ~y ) = ~0 mit (~x, ~y ) ∈ U × V folgt stets ~y = ~g (~x). Durch die Gleichung f~(~x, ~y ) = ~0 ist ~g also implizit bestimmt. Eine explizite (d.h. formelmäßige) Angabe von ~g ist in der Regel nicht möglich. Die Bedingung ∂(f1 , . . . , fm ) det (~c) 6= 0, ~c = (~a, ~b), ∂(y1 , . . . , ym ) nennen wir Auflösebedingung. Zur Anwendung des Satzes über implizite Funktionen muss man in der Jacobi-Matrix df~(~c) ∈ Rm×n nach m linear unabhängigen Spalten suchen (und hat sie gefunden, sobald die aus diesen Spalten gebildete (m × m)-Teilmatrix nichtverschwindende Determinante hat). Dann nummeriert man die Variablen so um, dass diese Spalten die letzten m werden. Beweis∗ . Mit f~ ist auch die Funktion F~ : D × G ⊂ Rn → Rn , F~ (~x, ~y ) := (~x, f~(~x, ~y )) von der Klasse C r . Die Jacobi-Matrix von f~ in (~a, ~b) berechnen wir zu 1 ··· 0 0 ··· 0 .. .. .. .. .. . . . . . 0 ··· 0 0 ··· 1 En dF~ (~a, ~b) = = ∂f1 (~a, ~b) · · · ∂f1 (~a, ~b) ∂f1 (~a, ~b) · · · ∂f1 (~a, ~b) ∗ ∂x1 ∂xn ∂y1 ∂ym .. .. .. .. . . . . ∂f ∂f ∂f ∂fm m m m ~b) · · · ~b) ~b) · · · ~b) (~ a , (~ a , (~ a , (~ a , ∂x1 ∂xn ∂y1 ∂ym 0 ∂(f1 ,...,fm ) a, ~b) ∂(y1 ,...,ym ) (~ . ∂(f1 ,...,fm ) (~a, ~b)) 6= 0 folgt det(dF~ (~a, ~b)) 6= 0. Also ist F~ in einer Umgebung Aus der Auflösebedingung det( ∂(y 1 ,...,ym ) von (~a, ~b) lokal umkehrbar. Wegen F~ (~a, ~b) = (~a, 0) ist damit die Gleichung f~(~x, ~y ) = ~0 wie behauptet lokal bei (~a, ~b) durch eine C r -Funktion nach ~y auflösbar. Anmerkung. Wir haben den Satz über implizite Funktionen aus dem Satz über lokale Umkehrbarkeit abgeleitet. Das geht auch umgekehrt (vgl. z.B. [HeuA, Band 2, 171]. Beide Sätze sind also äquivalent. 6.5 Wozu ist der Satz über implizite Funktionen nützlich? Zunächst kann man aus dem Satz über implizite Funktionen nicht ablesen, wie die Auflösung einer nichtlinearen Gleichung bewerkstelligt wird. Damit erscheint der Satz ähnlich „unnütz“ wie der Satz vom Maximum 4.§2.4.7. Beide Sätze sind aber von grundlegender Bedeutung, weil sie die Voraussetzung schaffen, konstruktive Methoden anzuwenden. Für den Satz über implizite Funktionen illustrieren wir das an zwei Beispielen. 6.6 Zustandsgleichungen in der Thermodynamik. Zwischen dem Druck p, dem Molvolumen v und der Temperatur T eines Gases besteht die Zustandsgleichung F (p, v, T ) = 0 339 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN mit einer C ∞ -Funktion F . Für ein van der Waals Gas gilt beispielsweise a p + 2 (v − b) − RT = 0. v Ist nun im Zustand (p0 , v0 , T0 ) die Auflösebedingung ∂F (p0 , v0 , T0 ) 6= 0 ∂v erfüllt, so können wir die Zustandsgleichung in der Nähe dieses Zustands durch eine Funktion ϕ nach v auflösen. Aus der Identität F (p, ϕ(p, T ), T ) = 0 erhalten wir durch partielles Differenzieren ∂F ∂ϕ ∂F (p, v, T ) + (p, v, T ) (p, T ) ∂p ∂v ∂p ∂F ∂F ∂ϕ (p, v, T ) + (p, v, T ) (p, T ) ∂T ∂v ∂T Man nennt κ := − 1 ∂ϕ (p, T ) v ∂p bzw. α := = 0, = 0. 1 ∂ϕ (p, T ) v ∂T die Kompressibiliät bzw. den thermischen Ausdehnungskoeffizient des Gases und schreibt häufig ∂v ∂ϕ ∂v ∂ϕ statt statt , bzw. . ∂p T ∂p ∂T p ∂T Ist also das Molvolumen v0 zum Druck p0 und zur Temperatur T0 bekannt, so erhalten wir durch Auflösen der beiden obigen Gleichungen Kompressibilität und Ausdehnungskoeffizient in diesem Zustand zu 1 κ0 = v0 ∂F ∂p ∂F ∂v (p0 , v0 , T0 ) (p0 , v0 , T0 ) , α0 = − 1 v0 ∂F ∂T ∂F ∂v (p0 , v0 , T0 ) (p0 , v0 , T0 ) . Die Veränderung des Molvolumen wird in erster Näherung beschrieben durch (p, T ) 7→ ϕ(p0 , T0 ) + ∂ϕ ∂ϕ (p0 , T0 )(p − p0 ) + (p0 , T0 )(T − T0 ) = v0 (1 − κ0 (p − p0 ) + α0 (T − T0 )) . ∂p ∂T 6.7 Taylor-Approximation einer impliziten Funktion. Wir wollen die Gleichung x = yexy nach y auflösen. Ein einfaches Argument zeigt, dass dies für jedes x ∈ R eindeutig möglich ist: Für x = 0 muss y = 0 gelten. Für x > 0 ist y 7→ yexy eine streng monoton wachsende Abbildung von R auf sich, d.h. die Gleichung x = yexy hat genau eine Lösung. Aus Symmetriegründen gilt gleiches für x < 0. Also existiert genau eine Funktion g : R → R mit x = g(x)exg(x) für x ∈ R. Momentan wissen wir nur, dass g punktsymmetrisch ist. Mit dem Satz über implizite Funktionen erhalten wir weitere Informationen. Hierzu betrachten wir die C ∞ -Funktion f : R2 → R, f (x, y) := x − yexy . Die partielle Ableitung ∂y f (x, y) = −(1 + xy)exy verschwindet nur für xy = −1. Für solche Punkte gilt aber sicher x 6= 0 und dann f (x, −1/x) = x+1/(ex) = (ex2 +1)/(ex) 6= 0. Also ist der Satz über implizite Funktionen anwendbar. Er zeigt uns, dass g eine C ∞ -Funktion ist. 340 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN Mit dieser Information können wir g beispielsweise in x = 0 approximieren. Hierzu differenzieren wir die Identität x = g(x)exg(x) und erhalten 1 = [g(x)2 + xg(x)g 0 (x) + g 0 (x)]exg(x) für x ∈ R. Durch Auswerten in x = 0 folgt aus g(0) = 0 dann g 0 (0) = 1. Da g punktsymmetrisch ist, muss g 00 (0) = 0 gelten. Durch weiteres Differenzieren der obigen Identität und Auswerten in x = 0 kann man sukzessive höhere Ableitungen von g bestimmen. Man erhält g 000 (0) = −6, g (4) (0) = 0 und g (5) (0) = 180. Die ersten sechs Taylor-Polynome von g in 0 lauten also T1 (x) = T2 (x) = x, T3 (x) = T4 (x) = x − x3 , 3 T5 (x) = T6 (x) = x − x3 + x5 . 2 T1 = T2 T5 = T6 g 0.6 0.4 T3 = T4 0.2 -0.6 -0.4 -0.2 0.2 0.4 0.6 -0.2 -0.4 -0.6 Abbildung 6.14: Die implizite Funktion g mit x = g(x)exg(x) und ihre ersten sechs Taylor-Polynome in 0. 6.8 Parametrisierung von Lösungsmannigfaltigkeiten. Wir betrachten wieder eine C r -Abbildung f~ : D ⊂ Rn → Rm mit n > m. Das Nullstellengebilde Nf~ := {~x ∈ D | f~(~x) = ~0} nennen wir Lösungsmannigfaltigkeit von f~, falls Nf~ 6= ∅ und falls df~(~x) in jedem Punkt ~x ∈ D die Regularitätsbedingung rg df~(~x) = m erfüllt, d.h. die Gradienten der Komponentenfunktionen sind ∇f1 (~x), . . . , ∇fm (~x) in jedem Punkt ~x ∈ D linear unabhängig. Die Regularitätsbedingung stellt sicher, dass der Satz über implizite Funktionen anwendbar ist. An jeder Stelle kann Nf~ daher lokal durch p = n − m Parameter beschrieben werden. Wir sagen, dass Nf~ die Dimension p oder p Freiheitsgrade hat. Die Lösungsmannigfaltigkeit stellen wir uns als ein gekrümmtes p-dimensionales Objekt im Rn vor. 6.9 Tangentialräume an Lösungsmannigfaltigkeiten. Ist ~a ∈ Nf~ ein Punkt auf der Lösungsmannigfaltigkeit und ist ~x : ] − ε, ε[→ D ein C 1 -Weg mit ~x(0) = ~a, der in der Lösungsmannigfaltigkeit verläuft, so erhalten wir aus f~(~x(t)) = 0 mit der Kettenregel ~0 = d f~(~x(t)) = df~(~a)~x˙ (0). dt t=0 341 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN z z (x1 , y1 , z1 ) Nf Nf (x2 , y2 , z2 ) y ) 1 g2 g1 6 y x x Abbildung 6.15: Eine zweidimensionale Lösungsmannigfaltigkeit Nf im R3 . An der Stelle (x1 , y1 , z1 ) ist Nf lokal in der Form f (x, y, g1 (x, y)) = 0 nach z aufgelöst, an der Stelle (x2 , y2 , z2 ) lokal in der Form f (x, g2 (x, z), z) nach y. Komponentenweise gelesen bedeutet dies h∇f1 (~a)|~x˙ (0)i = . . . = h∇fm (~a)|~x˙ (0)i = 0. Für jeden Weg durch ~a in der Lösungsmannigfaltigkeit steht also der Tangentenvektor senkrecht auf den Gradienten der Komponentenfunktionen von f~ an dieser Stelle. Den von diesen Tangentenvektoren aufgespannte Raum nennen wir Tangentialraum der Lösungsmannigfaltigkeit im Punkt ~a und bezeichnen ihn mit Tf~(~a). Es gilt dann Tf~(~a) = ~a + Span(∇f1 (~a), . . . , ∇fm (~a))⊥ = {~x ∈ Rn | h∇f1 (~a)|~x − ~ai = . . . = h∇fm (~a)|~x − ~ai = 0}. Beispiel. Ein achsenparalleles Ellipsoid mit den Hauptachsenradien a, b, c > 0, d.h. die Menge der Punkte (x, y, z) ∈ R3 mit x 2 y 2 z 2 + + = 1, a b c ist eine zweidimensionale Lösungsmannigfaltigkeit im R3 . Das Ellipsoid lässt sich nämlich als Nullstellengebilde der Funktion x 2 y 2 z 2 + + −1 f (x, y, z) := a b c schreiben und der Gradient 2x/a2 ∇f (x, y, z) = 2y/b2 2z/c2 verschwindet nur für (x, y, z) = (0, 0, 0), d.h. für keinen Punkt auf dem Ellipsoid. Den Tangentialraum an den „Nordpol“ (a, 0, 0) des Ellipsoids erhalten wir wegen ∇f (a, 0, 0) = (2/a, 0, 0)T zu Tf (a, 0, 0) = {(x, y, z) ∈ R3 | 2/a(x − a) = 0} = {(a, y, z) ∈ R3 | x, y ∈ R}. Das ist wie erwartet die Parallele zur (x, y)-Ebene durch den Nordpol. 342 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN Abbildung 6.16: Ein Ellipsoid als zweidimensionale Lösungsmannigfaltigkeit im R3 zusammen mit einem Tangentialraum. 6.10 Niveaumengen und Gradientenlinien. Ist f : D ⊂ Rn → R eine C 1 -Funktion, so heißt für c ∈ R die Menge Nf,c := {~x ∈ D | f (~x) = c} die Niveaumenge von f zum Niveau c. Ist Nf,c nichtleer und gilt ∇f (~x) 6= ~0 für alle ~x ∈ Nf,c , so ist Nf,c eine (n − 1)-dimensionale Lösungsmannigfaltigkeit im Rn (nämlich das Nullstellengebilde von f − c) und wird auch eine (reguläre) Hyperfläche genannt. Der Tangentialraum an einen Punkt ~a ∈ Nf,c ist dann ebenfalls (n − 1)-dimensional und in Normalenform gegeben durch Tf,c (~a) = {~x ∈ Rn | h∇f (~a)|~x − ~ai = 0}. Eine Gradientenlinie von f ist ein C 1 -Weg ~x : ]c, d[→ D, dessen Tangentenvektor nirgends verschwindet und an jeder Stelle in Richtung des Gradienten von f zeigt, d.h. ~x˙ (t) = λ(t)∇f (~x(t)) 6= ~0 mit λ(t) > 0. Hieraus folgt unmittelbar: Jede Gradientenlinie ist orthogonal zu den Niveauflächen. Im Fall n = 2 sind die Niveaumengen einer Funktion f : D ⊂ R2 → R mit (∂x f (x, y), ∂y f (x, y)) = 6 (0, 0) entweder leer, einpunktig oder eindimensional. Fassen wir den Graphen (x, y) 7→ (x, y, f (x, y)) als eine Gebirgslandschaft auf, so sind die Niveaulinien gerade die Höhenlinien. Ein Weg t 7→ (x(t), y(t), f (x(t), y(t)) in diesem „Graphengebirge“ ist genau dann ein Weg steilsten Anstiegs, wenn t 7→ (x(t), y(t)) eine Gradientenlinie ist. 7 Lokale Extrema mit Nebenbedingungen 7.1 Problemstellung und Lösungsskizze. In den Anwendungen (z.B. in der theoretischen Mechanik) hat man oft eine (reellwertige) Zielfunktion unter Nebenbedingungen zu maximieren oder zu minimieren. Wir nehmen für das Weitere an, dass die Zielfunktion f : D ⊂ Rn → R eine C 1 -Funktion und der Definitionsbereich D eine offene Menge ist. Die Nebenbedingungen, sagen wir m Stück, sollen mittels einer C 1 -Funktion ~g : D → Rm in der Form ~g (~x) = 0 formulierbar sein. Unter der weiteren Annahme, 343 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Abbildung 6.17: Niveau- und Gradientenlinien sowie Graph einer Funktion in zwei Variablen. dass d~g überall auf D maximalen Rang hat, können wir unser Problem nun folgendermaßen formulieren: Suche die lokalen Maxima von f auf der Lösungsmannigfaltigkeit N~g , d.h. diejenigen Punkte ~a ∈ N~g mit f (~x) ≤ f (~a) für alle ~x ∈ N~g ∩ Br (~a) für ein geeignetes r > 0, bzw. entsprechend für lokale Minima. Bildlich gesprochen: Ein Wanderer will bei einer Gebirgswanderung (in der Gebirgslandschaft des Graphen von f ) die Hoch- und Tiefpunkte auf seinem Weg (modelliert durch die Nebenbedingungsgleichungen ~g = ~0) bestimmen. Die Gipfel und Senken des Gebirges (d.h. die lokalen Extrema von f ) sind für ihn damit unwichtig. Es zählen nur die lokalen Extrema auf seinem Weg. Als Kandidaten hierfür kommen nur diejenigen Punkte in Frage, in denen seine Bewegungsrichtung senkrecht zum Gradienten der Gebirgslandschaft läuft. Innerhalb der Gebirgslandschaft können das ganz unspektakuläre Punkte sein, für den Wanderer sind sie aber extremal. Etwas formaler: ein Punkt ~a ∈ D kann nur dann eine Extremalstelle sein, wenn für jede durch die Nebenbedingung zugelassene Richtung ~v die Richtungsableitung ∂~v f (~a) = h∇f (~a)|~v i verschwindet, d.h. ~v ⊥ ∇f (~a). Die zulässigen Richtungen ihrerseits liegen im Tangentialraum T~g (~a) und stehen damit senkrecht auf ∇g1 (~a), . . . , ∇gm (~a) (vgl. 6.9). Also muss ∇f (~a) in Span(∇g1 (~a), . . . , ∇gm (~a)) liegen. Dieses Argument ist allerdings nur zulässig, wenn wir überhaupt Differentialrechnung ins Spiel bringen können (über C 1 -Funktionen sprechen) und der Tangentialraum T~g (~a) existiert, d.h. d~g (~a) maximalen Rang hat. Das erklärt die zuvor gemachten „technischen“ Annahmen. Damit haben wir den Beweis der folgenden Multiplikatorenregel von Lagrange skizziert (vgl. z.B. [FiKau, Band 1, §22.6], [HeuA, Band 2, 174] oder [Kön, Band 2, §3.6]). 7.2 Notwendige Bedingung für Extrema mit Nebenbedingungen. Gegeben sind eine offene Menge D ⊂ Rn sowie C 1 -Funktionen f : D → R und ~g : D → Rm . Besitzt f an der Stelle ~a ∈ D unter den Nebenbedingungen ~g (~a) = ~0 ein lokales Extremum und ist die Regularitätsbedingung rg d~g (~a) = m erfüllt, so gibt es eindeutig bestimmte Zahlen λ1 , . . . , λm ∈ R mit ∇f (~a) + m X λk ∇gk (~a) = ~0. k=1 Die Zahlen λ1 , . . . , λm werden Lagrange-Multiplikatoren genannt. Anmerkung. Um die kritischen Punkte (d.h. die Kandidaten für lokale Extrema) von f ohne Nebenbedingungen zu bestimmen, hat man die n nichtlinearen Gleichungen ∇f (~x) = ~0 344 §1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN für die n Unbekannten x1 , . . . , xn zu lösen. Um die kritischen Punkte von f unter den m Nebenbedingungen g1 (~x) = 0, . . . , gm (~x) = 0 zu finden, muss man die n + m nichtlinearen Gleichungen ∇f (~x) + m X λk ∇gk (~x) = ~0, g1 (~x) = 0, ..., gm (~x) = 0, k=1 für die n + m Unbekannten x1 , . . . , xn und λ1 , . . . , λm lösen. Das ist gleichbedeutend damit, die kritischen Punkte (ohne Nebenbedingungen) des durch F (~x, ~λ) := f (~x) + n X λk gk (~x) = f (~x) + ~λT ~g (~x) k=1 definierten Lagrange-Funktionals F : D × Rm → R zu bestimmen. Achtung. Die Multiplikatorenregel von Lagrange liefert nur Kandidaten für lokale Extrema unter Nebenbedingungen (ähnlich wie die notwendige Bedingung ∇f (~x) = ~0 für lokale Extrema ohne Nebenbedingungen). Anschließend muss man die Kandidaten näher betrachten (vgl. 4.§3.5.3 und 4.§3.5.4 sowie 7.4). 7.3 Beispiel. Wir bestimmen min x(x2 − 3) − 4y 2 + 28 | x2 + y 2 = 1 . Das Minimum existiert, da eine stetige Funktion (nämlich (x, y) 7→ x(x2 − 3) − 4y 2 + 28) auf einer kompakten Menge (hier der durch x2 + y 2 = 1 beschriebenen Einheitskreislinie) betrachtet wird. 30 1.5 20 1 0.5 10 0 1 0 -2 0 -1 0 -1 1 2 -0.5 -1 -1.5 -2 -1 0 1 2 Abbildung 6.18: Graph und Niveaulinien der Funktion f (x, y) = x(x2 − 3) − 4y 2 + 28 zusammen mit der durch die Nebenbedingung x2 + y 2 = 1 gegebene Lösungsmannigfaltigkeit (hier eine Kreislinie). Wir führen die C ∞ -Funktionen f, g : R2 → R mit f (x, y) := x(x2 − 3) − 4y 2 + 28, g(x, y) := x2 + y 2 − 1 ein und minimieren f unter der Nebenbedingung g = 0. Es gilt 2 3(x − 1) 2x ∇f (x, y) = , ∇g(x, y) = . −8y 2y 345 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Da g nur in (0, 0) nicht regulär ist, dort aber g(0, 0) 6= 0 gilt, können wir beide Funktionen auf der punktieren Ebene R2 r {(0, 0)} betrachten und die Multiplikatorenregel von Lagrange anwenden. Wir müssen dann das Gleichungssystem ∇f (x, y) + λ∇g(x, y) = 0, g(x, y) = 0 d.h. die drei nichtlinearen Gleichungen 3(x2 − 1) + 2λx = 0, −8y + 2λy = 0, x2 + y 2 − 1 = 0 lösen. Die zweite Gleichung ist nur für y = 0 oder λ = 4 erfüllt. Gilt y = 0, so folgt aus der dritten Gleichung x = ±1 und aus der ersten λ = 0. Gilt λ = 4, so liefert die erste Gleichung x = −3 oder √ x = 1/3. Für x = −3 ist die dritte Gleichung√nicht lösbar, für x = 1/3 folgt y = ±2 2/3. Damit haben wir die vier Kandidaten (±1, 0) und (1/3, ±2 2/3) für diejenigen Stellen ausgesondert, an denen f unter der Nebenbedingung g minimal wird. Durch Einsetzen erhalten wir f (1, 0) = 26, f (−1, 0) = 30 bzw. √ f (1/3, ±2 2/3) = 634/27 < 26. Also gilt √ 7 min x(x2 − 3) − 4y 2 + 28 | x2 + y 2 = 1 = f ( 13 , ± 2 3 2 ) = 23 . 27 7.4∗ Hinreichende Bedingung für lokale Extrema unter Nebenbedingungen. Gegeben sind eine offene Menge D ⊂ Rn sowie C 2 -Funktionen f : D → R und ~g : D → Rm . Wenn f an der Stelle ~a ∈ N~g auf der Lösungsmannigfaltigkeit ein lokales Extremum besitzt, so erfüllt das Lagrange-Funktional F (~x, ~λ) = ∇f (~x) + ~λT ~g (~x) die zwei Bedingungen ∇F (~a, ~λ) = ~0, und ~v T HF (~a, ~λ)~v > 0 für alle ~v ∈ Rn+m r {~0} mit d~g (~a)~v = ~0. Eine Beweisidee findet man in [FiKau, Band 1, §22.6]. Die erste Bedingung ist gerade die notwendige Bedingung aus der Multiplikatorenregel von Lagrange 7.2. §2 Integralrechnung in mehreren Variablen Der Umfang der mathematischen Vorbereitungen für eine Integrationstheorie hängt im Wesentlichen davon ab, wieviele Funktionen man über welche Mengen integrieren möchte und wie einfach das Integral rechentechnisch handzuhaben sein soll. Das klassische Riemann-Integral ist zwar leicht zu motivieren, für viele Anwendungen in der theoretischen Physik (z.B. in der Quantenmechanik) aber nicht leistungsfähig genug. Das für derartige Zwecke standardgemäß verwendete Lebesgue-Integral erfordert für eine saubere Behandlung umfangreiche beweistechnische Vorbereitungen, die wir uns im Rahmen dieser Vorlesung nicht leisten können (wer es genau wissen will, lese [Köh, Kapitel VI], [Kön, Band 2, 7] oder [HeuA, Band 2, XVI und XXVI]. Wir wählen also einen Mittelweg, skizzieren in Abschnitt 1 die Grundidee des Lebesgue-Integrals (die der des Regelintegrals aus 4.§4 ähnelt), geben die wichtigsten Rechenregeln ohne Beweis an und legen den Schwerpunkt auf die Anwendungen. 1 Das Lebesgue-Integral R 1.1 Überblick. Wie beim Regelintegral benötigen wir zunächst ein „Elementarintegral“ P f (~x) dvn (~x), mit dem wir einfachen Mengen (den „Quadergebäuden“ P ⊂ Rn ) ein n-dimensionales Volumen vn (P ) zuordnen und einfache Funktionen (Treppenfunktionen f : Rn → R) integrieren können. Nachdem wir dieses Elementarintegral eingeführt haben, setzen wir dieses durch einen Grenzübergang fort. Dabei erhalten wir alle für den Umgang mit Integralen wichtigen Rechenregeln sowie einen genügend allgemeinen 346 §2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN Volumenbegriff. Im Abschnitt 2 wird die Berechnung von konkreten Integralen bzw. Volumina durch sukzessive Integration auf den eindimensionalen Fall zurückgeführt. Im Abschnitt 3 erklären wir die Transformationsformel für Integrale als zusätzliches Mittel zur Berechnung. 1.2 Quader und ihr Volumen. Was ein (achsenparalleler ) Quader Q = I1 × · · · × In := {(x1 , . . . , xn ) ∈ Rn | xk ∈ Ik } mit beschränkten Intervallen I1 , . . . , In im Rn ist, haben wir schon in 4.§1.3.12 erklärt. Für unsere weiteren Zwecke ist es unerheblich, ob die Intervalle Ik offen, halboffen oder abgeschlossen sind. Sie dürfen auch leer sein, aber nicht unbeschränkt. Sind ck = inf Ik , dk = sup Ik ∈ R, die Randpunkte von Ik , so setzen wir |Ik | := dk − ck . Dann ist |Ik | gerade die Länge des Intervalls Ik . Das n-dimensionale Volumen erklären wir durch vn (Q) := n Y |Ik | = (d1 − c1 ) · · · (dn − cn ). k=1 Gilt Ik = ∅ oder ist Ik einpunktig (ck = dk ) für ein k, so folgt vn (Q) = 0. Der Rand ∂Q eines Quaders Q ist eine Vereinigung aus 2(n + 1) Seitenhyperflächen ∂Q = {c1 } × I2 × · · · × In ∪ {d1 } × I2 × · · · × In ∪ . . . ∪ I1 × · · · × In−1 × {cn } ∪ I1 × · · · × In−1 × {dn }. Beispiel. Ein eindimensionaler Quader ist ein Intervall. Sein Rand besteht aus den beiden Intervallendpunkten. Für n = 2 ist Q = I1 × I2 ein achsenparalleles Rechteck mit den vier Ecken (c1 , c2 ) (d1 , c2 ), (d1 , d2 ) und (c1 , d2 ) und v2 (Q) = (d1 − c1 )(d2 − c2 ) gibt dessen Fläche („zweidimensionales Volumen“) an. Der Rand ∂Q besteht aus den vier Seitenlinien {c1 } × [c2 , d2 ], {d1 } × [c2 , d2 ], [c1 , d1 ] × {c2 } und [c1 , d1 ] × {d2 }. Für n = 3 ist Q = I1 × I2 × I3 ein achsenparalleler Quader, der durch die beiden raumdiagonal gegenüberliegenden Ecken (c1 , c2 , c3 ) und (d1 , d2 , d3 ) festgelegt ist. Sein Rand setzt sich aus sechs Seitenflächen zusammen. Abbildung 6.19: Quader und ihr Ränder für n = 1, 2, 3. 1.3 Quadergebäude und ihr Volumen. Ein Quadergebäude oder eine parkettierbare Menge im Rn P = Q1 ∪ Q2 ∪ · · · ∪ Qr , Qj1 ∩ Qj2 = ∅ für j1 6= j2 ist eine disjunkte Vereinigung von endlich vielen Quadern. Die Familie (Qj )j=1,...,r heißt Parkettierung von P . Jeder Quader ist parkettierbar. Eine parkettierbare Menge P besitzt viele verschiedene Parkettierungen. Man kann aber zeigen, dass unabhängig von der Wahl der Parkettierung einem Quadergebäude durch vn (P ) := r X j=1 vn (Qj ) 347 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Abbildung 6.20: Ein Quadergebäude im R2 mit drei verschiedenen Parkettierungen. ein n-dimensionales Volumen vn (P ) zugeordnet werden kann. 1.4 Charakteristische Funktionen und Treppenfunktionen. Für eine Teilmenge D ⊂ Rn nennen wir ( 1 für ~x ∈ D, n χD : R → R, χD (~x) := 0 für ~x ∈ Rn r D die charakteristische Funktion von D. Sind Q1 , . . . , Qr ⊂ Rn paarweise disjunkte achsenparallele Quader und sind Zahlen c1 , . . . , cr ∈ R vorgegeben, so nennen wir r X n t : R → R, t(~x) = cj χQj (~x) j=1 eine (reelle) Treppenfunktion. Eine Treppenfunktion ist eine endliche Linearkombinationen von charakteristischen Funktionen achsenparalleler Quader. Sie ist auf ganz Rn definiert, nimmt aber nur auf dem Quadergebäude P = Q1 ∪· · ·∪Qr von Null verschiedene Werte an und ist auf jedem der Quader Qj konstant mit Wert cj . Pr 1.5 Elementarintegral für Treppenfunktionen. Für eine Treppenfunktion t = j=1 cj χQj erklären wir durch Z r X t(~x) dvn (~x) := cj vn (Qj ) Rn j=1 das (Elementar -)Integral von t. RAnmerkung. Da t außerhalb des Quadergebäudes P = Q1 ∪ · · · ∪ Qr verschwindet, hätten wir auch t(~x) dvn (~x) schreiben können. P Das Elementarintegral einer Treppenfunktion kann man sich (zumindest für n = 1, 2) als die Summe der Volumina der (n + 1)-dimensionalen Quader über den Quadern Qj mit Höhen cj vorstellen. Für cj < 0 wird das Volumen negativ gezählt. 1.6 Nullmengen. Eine Teilmenge N ⊂ Rn heißt Nullmenge, falls es zu jedem ε > 0 eine Folge (Qj )j von achsenparallelen Quadern Qj ∈ Rn gibt mit N⊆ ∞ [ j=1 Qj und ∞ X j=1 vn (Qj ) < ε. 348 §2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN Abbildung 6.21: Zum Elementarintegral einer reellen Treppenfunktion im R2 . Abbildung 6.22: Nullmengen (hier im R2 bzw. R3 ) werden von Quaderfolgen überdeckt, deren Gesamtvolumen beliebig klein gemacht werden kann. Beispiel. Jede endliche oder abzählbar unendliche Punktmenge ist eine Nullmenge, ebenso wie jeder entartete Quader (bei dem ein Intervall leer oder einpunktig ist) oder jede Hyperebene. Jede Teilmenge einer Nullmenge ist selbst Nullmenge, ebenso endliche und abzählbar unendliche Vereinigungen. Insbesondere ist der Rand eines Quaders oder eines Quadergebäudes eine Nullmenge. 1.7 „Fast überall“. Da die Ränder von Quadern Nullmengen sind, ist es beim Volumen eines Quaders, eines Quadergebäudes oder dem Elementarintegral einer Treppenfunktion egal, ob die Intervalle der beteiligten Quader offen, halboffen oder abgeschlossen sind. Insbesondere kann eine Treppenfunktion auf einer Nullmenge abgeändert werden, ohne ihr Integral zu verändern. Für derartige, im Rahmen der Integrationstheorie belanglose Abänderungen von Funktionen oder Mengen benutzen wir folgende Sprechweise. Wir nennen zwei reell- oder komplexwertige Funktionen f und g mit gemeinsamen Definitionsbereich D ⊆ Rn fast überall gleich, wenn f (~x) = g(~x) für alle ~x ∈ D r N mit einer Nullmenge N ⊂ Rn und schreiben dafür f =g f.ü. f.ü. f = g. oder Das verallgemeinert unsere Notation in 4.§4.1.4. Analog erklären wir f.ü. f ≤ g, f.ü. f < g, f.ü. f > g, f.ü. f ≥ g. 349 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Für eine Folge von reell- oder komplexwertigen Funktionen fk auf D erklären wir schließlich lim fk = f k→∞ f.ü. oder f.ü. lim fk = f k→∞ durch für fast alle ~x ∈ D. lim fk (~x) = f (~x) k→∞ Die Funktionenfolge (fk )k konvergiert also auf D mit eventueller Ausnahme einer Nullmenge punktweise gegen f . Beispiel. Für die aus 4.§2.3.15 bekannte erste Dirichlet-Funktion d := χQ gilt d = 0 f.ü., da Q abzählbar und damit eine Nullmenge in R ist. 1.8 Lebesgue-integrierbare Funktionen und Lebesgue-Integral. Nach diesen „elementaren“ Vorbereitungen erklären wir nun, was eine Lebesgue-integrierbare Funktion und deren Integral sind. Das Motiv ist einfach: das Elementarintegral für Treppenfunktionen soll erhalten bleiben und möglichst viele Funktionen sollen integrierbar werden. Dieser Wunsch wird durch den folgenden Existenzsatz erfüllt. Für jede Dimension n ∈ N existiert ein eindeutig bestimmter R-Vektorraum V von Funktionen f : Rn → R und eine eindeutig bestimmte Linearform Z f 7→ f (~x) dvn (~x) Rn mit den folgenden drei Eigenschaften: (L1) Für f, g ∈ V gilt Z Z f (~x) dvn (~x) ≤ g(~x) dvn (~x) Rn falls f ≤ g f.ü.. Rn (L2) Für jede Treppenfunktion t = c1 χQ1 + · · · + cr χQr : Rn → R gilt Z t∈V und t(~x) dvn (~x) = c1 vn (Q1 ) + · · · + cr vn (Qr ). Rn (L3) Ist Folge von Funktionen fk ∈ V , ist die Folge der Zahlen R (fk )k eine fast überall monoton wachsende n f (~ x ) dv (~ x ) beschränkt und ist f : R → R eine Funktion mit f = limk→∞ fk f.ü., so gilt k n n R Z Z f ∈V und f (~x) dvn (~x) = lim fk (~x) dvn (~x). k→∞ Rn Rn Wir nennen V den Raum der Lebesgue-integrierbaren Funktionen in n Variablen und bezeichnen ihn mit L(Rn , R) oder L(Rn ). R Für das (Lebesgue-)Integral Rn f (~x) dvn (~x) sind unter anderem die folgenden Bezeichnungen gebräuchlich Z Z Z Z Z n n f (~x) dvn (~x), f dvn , d ~x f, f (x1 , . . . , xn ) d (x1 , . . . , xn ), f dx1 · · · dxn . Rn Rn Rn Die ersten beiden Varianten tragen u.a. der Tatsache Rechnung, dass formal immer über den gesamten Rn integriert wird und dürfen nicht als unbestimmte Integrale (siehe 4.§4.2.4) interpretiert werden. Eine Funktion f : D ⊂ Rn → R nennen wir auf D Lebesgue-integrierbar, wenn die durch f (~x) := 0 für ~x ∈ Rn r D auf den ganzen Rn fortgesetzte Funktion integrierbar ist. Ihr Integral bezeichnen wir dann mit Z f (~x) dvn (~x) D 350 §2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN und den R-Vektorraum dieser Funktionen mit L(D, R) oder L(D). Bei einem Integrationsbereich D ⊆ R2 in der Ebene schreibt man auch ZZ Z Z ZZ f (x, y) dF, f dA, f (x, y) d2 (x, y), f (x, y) dx dy D D D D und bei einer Integration über eine Teilmenge D ⊆ R3 im Raum ZZZ Z Z f (~x) dV, f (x, y, z) d3 (x, y, z), dx dy dz f (x, y, z) D D D oder Ähnliches. 1.9 Volumen einer Menge. Ist D eine Teilmenge des Rn deren charakteristische Funktion χD Lebesgueintegrierbar ist, so erklären wir das n-dimensionale Volumen von D durch Z vn (D) := χD (~x) dvn (~x). D Anmerkung. Man kann zeigen, dass insbesondere offene und beschränkte sowie kompakte Teilmengen des Rn ein Volumen besitzen. Es gibt aber auch Teilmengen des Rn , deren charakteristische Funktionen nicht Lebesgue-integrierbar sind. Das Spiel mit solchen Mengen führt zum Banach-Hausdorff-TarskiParadoxon, das in seiner allgemeinen Form folgendes besagt: Ist n ≥ 3 und sind A, B ⊂ Rn beliebige Mengen mit inneren Punkten, dann gibt es eine Zahl m ∈ N und diskjunkte Zerlegungen A = A1 ∪· · ·∪Am bzw. B = B1 ∪ · · · ∪ Bm mit fj (Aj ) = Bj , wobei f1 , . . . , fm Bewegungungen des Rn sind. Insbesondere kann eine Kugel (das ist A) im R3 in m = 5 Teile zerlegt werden, die, geeignet bewegt, zusammen zwei Kugeln (die bilden B) ergeben. Die Paradoxie der scheinbaren Volumenverdoppelung löst sich dadurch auf, dass den Aj kein Volumen zugeordnet werden kann. 1.10 Anmerkungen. R • Die Forderungen „f 7→ Rn f (~x) dvn (~x) ist eine Linearform“ und (L1) liefern grundlegende Rechenregeln für ein Integral: Linearität und Monotonie. • Durch (L2) wird sichergestellt, dass Treppenfunktionen integriert werden können und Quadergebäude ein Volumen erhalten, welches unserer Anschauung entspricht. • (L3) kann als eine Verallgemeinerung des Monotoniekriteriums für Zahlenfolgen 1.§2.8.3 angesehen werden und garantiert ähnlich wie die Supremumseigenschaft (A9), dass genügend viele Funktionen Lebesgue-integrierbar sind. Im Gegensatz zu unserem Vorgehen in 4.§4.1 bei der Einführung des Regelintegrals wird aber über die Grenzfunktion weniger verlangt (punktweise Konvergenz der Funktionenfolge fast überall und Beschränktheit der Integrale statt gleichmäßiger Konvergenz der Funktionenfolge). Folgen mit den in (L3) genannten Eigenschaften heißen Levi-Folgen. • Lebesgue-integrierbare Funktionen dürfen auf Nullmengen modifiziert werden, ohne die Integrierbarkeit zu verlieren und den Wert des Integrals zu verändern. • Das Lebesgue-Integral unterscheidet nicht zwischen eigentlichen und uneigentlichen Integralen. Jede Funktion wird (nach Fortsetzung auf Rn wie zuvor geschildert) über den ganzen Rn integriert. • Die Volumenberechnung wird auf die Integration von charakteristischen Funktionen zurückgeführt (man hätte es auch umgekehrt machen können). 1.11 Rechenregeln für Integrale. Sind f, g : D ⊂ Rn → R integrierbar und sind λ, µ ∈ R, so gilt (a) λf + µg, max{f, g}, min{f, g}, f + := sup{f, 0}, f − := inf{f, 0} sowie |f | sind integrierbar, R R R (b) (Linearität) D (λf + µg) dvn = λ D f dvn + µ D g dvn , R R (c) (Monotonie im Integranden) D f dvn ≤ D g dvn falls f ≤ g f.ü., 351 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN R |f | dvn ≥ 0 mit Gleichheit genau dann, wenn f = 0 f.ü., R (e) (Beschränktheit) | D f dvn | ≤ kf k∞,D vn (D). (d) (Definitheit) D Ist f auf D1 ⊂ Rn und D2 ⊂ Rn integrierbar, so gilt R R R (f) (Additivität im Integrationsbereich) D1 f dvn + D2 f dvn = D1 ∪D2 f dvn falls D1 ∩ D2 Nullmenge ist, R R (g) (Monotonie im Integrationsbereich) D1 f dvn ≤ D2 f dvn falls D1 ⊆ D2 und f ≥ 0 f.ü. 1.12 Rechenregeln für Volumina. Sind A, B ⊂ Rn zwei Teilmengen mit Volumen, so gilt (h) A ∪ B, A ∩ B und A r B haben Volumen, (i) vn (A r B) = vn (A) − vn (A ∩ B), (j) vn (A ∪ B) = vn (A) + vn (B) − vn (A ∩ B). 1.13 Integrale von komplex- oder vektorwertigen Funktionen erklären wir durch Real- und Imaginärteilbildung bzw. komponentenweise: Z Z Z f dvn := Re(f ) dvn + i Im(f ) dvn , D D D falls f komplexwertig und Re f, Im f Lebesgue-integrierbar, bzw. R f dvn Z D 1 .. f~ dvn := , . R D f dvn D m falls f~ vektorwertig mit Werten im Rm und Lebesgue-integrierbaren Komponentenfunktionen f1 , . . . , fm . 1.14 Vertauschungssätze. Die beiden folgenden Vertauschungssätze machen den Umgang mit dem Lebesgue-Integral angenehm. Den ersten kennen wir schon aus (L3). (Satz von Levi über monotone Konvergenz) Ist (fk )k eine fast überall monoton wachsende Folge von R Funktionen fk ∈ L(Rn ) und ist die Folge der Zahlen Rn fk dvn beschränkt, so gibt es eine Funktion f ∈ L(Rn ) mit Z Z f.ü. f = lim fk und f dvn = lim fk dvn . k→∞ k→∞ Rn Rn (Satz von Lebesgue über beschränkte Konvergenz) Ist (fk )k eine Folge von Funktionen fk ∈ L(Rn ), die fast überall punktweise gegen eine Funktion f : Rn → R konvergiert, und existiert eine Funktion g ∈ L(Rn ) mit f.ü. |fk | ≤ g für alle k, so gilt f ∈ L(Rn ) und Z Z f dvn = lim Rn k→∞ fk dvn . Rn 1.15∗ Hilbertsche Funktionenräume. Für D ⊂ Rn und stetiges ρ : D → R+ nennt man eine auf D R definierte Funktion f bezüglich des Gewichts ρ über D quadratintegrierbar , falls D |f (~x)|2 ρ(~x) dvn (~x) existiert. Die Klasse dieser Funktionen wird ein Hilbertscher Funktionenraum genannt und mit L2 (D) bezeichnet. Auf solch einem (reellen bzw. komplexen) Funktionenraum kann man ein Skalarprodukt erklären und die Theorie von Vektorräumen mit Skalarprodukten einsetzen (vgl. 5.§7.2). 352 §2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN 1.16 Regelintegral und Lebesgue-Integral. Für Funktionen einer Variablen haben wir in 4.§4.1 und 4.§6.3 Integrale erklärt. Zunächst konnten wir gewisse Funktionen (Regelfunktionen) über kompakte Intervalle integrieren, anschließend haben wir den Integralbegriff auf (absolut bzw. bedingt) uneigentliche Integrale über halboffene, offene oder unbeschränkte Intervalle erweitert. Zwischen diesen Integralen und dem Lebesgue-Integral im R1 besteht folgender Zusammenhang. Jede über ein kompaktes Intervall integrierbare Regelfunktion und jede uneigentlich absolut integrierbare Funktion in einer Variablen ist Lebesgue-integrierbar und die Werte der Integrale stimmen überein. Integrale für Funktionen in einer Variablen können wir also wie bisher ausrechnen. Die Integration von Funktionen mehrerer Variablen wird im folgenden Abschnitt auf die sukzessive Integration von Funktionen einer Variablen zurückgespielt. 2 Berechnung von Integralen durch sukzessive Integration R 2.1 Wie geht es weiter? Ein Lebesgue-Integral D f dvn können wir bisher nur im Fall n = 1 und D = [c, d] ausrechnen und auch nur dann, wenn f eine Regelfunktion ist, also überall einseitige Grenzwerte besitzt. Für n ≥ 2 wird die Integration „scheibchenweise“ ausgeführt. Diesen Zugang motivieren wir zunächst historisch und geben anschließend eine saubere Formulierung. 2.2 Cavalierisches Prinzip. Wenn zwei Körper von jeder Ebene einer Schar paralleler Ebenen in Flächen mit gleichem Inhalt geschnitten werden, dann haben die beiden Körper gleiches Volumen. Dieses Cavalieri (1598–1647), einem Schüler von Galilei, zugeschriebene Prinzip legt nahe, das n-dimensionale Volumen eines Körpers K ⊂ Rn rekursiv durch Zerlegung desselben in Schnittkörper Kt := {(x1 , . . . , xn−1 ) ∈ Rn−1 | (x1 , . . . , xn−1 , t) ∈ K} und Berechnung von d Z vn (K) = vn−1 (Kt ) dt c auszuführen. Die Volumenberechnung wird also auf Flächenberechnungen zurückgeführt. Auf diese Weise hat schon Archimedes im 3. Jahrhundert v. Chr. — also lange vor Cavalieri — das Volumen von Zylindern, Kegeln und Kugeln im R3 bestimmt. Für einen Zylinder Z der Höhe h und mit Grundkreisradius r ist beispielsweise jeder Schnittkörper Zt mit der Ebene z = t eine Kreisscheibe der Fläche πr2 und wir erhalten Z h v3 (Z) = πr2 dt = πr2 h. 0 2.3 Kegelvolumen nach Cavalieri. Ein gerader Kreiskegel im R3 mit Höhe h und Grundkreisradius r ist eine Menge der Gestalt z 2 2 r . A = (x, y, z) ∈ R3 | 0 ≤ z ≤ h, x2 + y 2 ≤ 1 − h Der Schnitt von A mit der Ebene z = t ist für 0 ≤ t ≤ h ein Kreis mit Radius (1−t/h)r und Flächeninhalt π(1 − t/h)2 r2 . Nach Cavalieri hat der Kegel also das Volumen Z vn (A) = 0 h t π 1− h 2 2 r dt = πr 2 Z 0 1 ht2 dt = π 2 r h. 3 Diese Volumenformel bleibt nach Cavalieri auch für schiefe Kreiskegel gültig. 353 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN h t 0 Abbildung 6.23: Gerader und schiefer Kreiskegel im R3 . 2.4 Kugelvolumen nach Cavalieri. Eine Kugel K = {(x, y, z) ∈ R3 | x2 + y 2 + z 2 ≤ r2 } mit Radius r schneidet mit der Ebene z = t für −r ≤ t ≤ r eine Kreisscheibe Kt vom Radius aus. Selbige ist flächengleich zu einem Kreisring At mit Innenradius t und Außenradius r: v2 (Bt ) = π(r2 − t2 ), √ r 2 − t2 v2 (At ) = πr2 − πt2 . Die Kreisringe At ihrerseits schneiden aus einem Zylinder Z der Höhe 2r zwei Kreiskegel A mit Grundkreisradius r und Höhe r aus. Daher gilt für das Kugelvolumen π 4π 3 v3 (K) = v3 (Z) − 2v3 (A) = πr2 · 2r − 2 r2 · r = r . 3 3 r t 0 −r Abbildung 6.24: Kugelvolumen im R3 nach Cavalieri. 2.5 Sukzessive Integration. Dem Cavalierischen Prinzip fehlt eine Rechtfertigung dafür, dass für einen Körper K ⊂ Rn mit n-dimensionalem Volumen auch jeder Schnittkörper Kt ⊂ Rn−1 ein (n − 1)dimensionales Volumen besitzt und dass man das Volumen „scheibchenweise“ berechnen kann. Dies wollen wir auch für Integrale über Funktionen tun. Im Fall n = 2 wäre das für ein Flächenstück K mit Schnittlinien Ky , c ≤ y ≤ d, parallel zur x-Achse die Beziehung ! ZZ Z d Z 2 f (x, y) d (x, y) = f (x, y) dx dy, K c Ky wobei die Integrierbarkeit von f über K die von x 7→ f (x, y) über Ky für jedes y ∈ [c, d] und dann auch R die von y 7→ Ky f (x, y) dx implizieren sollte. Dass alles gut geht, besagt der folgende Satz in einer recht allgemeinen Form. 354 §2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN (Satz von Fubini) Ist f über den Rn Lebesgue-integrierbar und ist k = 1, 2, . . . , n − 1 so gilt Folgendes. • Die Funktion (x1 , . . . , xk ) 7→ f (x1 , . . . , xn ) ist für fast alle (xk+1 , . . . , xn ) über den Rk Lebesgueintegrierbar und Z (xk+1 , . . . , xn ) 7→ f (x1 , . . . , xn ) dx1 · · · dxk Rk ist dann über den R n−k Lebesgue-integrierbar. • Die Funktion (xk+1 , . . . , xn ) 7→ f (x1 , . . . , xn ) ist für fast alle (x1 , . . . , xk ) über den Rn−k Lebesgueintegrierbar und Z (x1 , . . . , xk ) 7→ f (x1 , . . . , xn ) dxk+1 · · · dxn Rn−k ist dann über den Rk Lebesgue-integrierbar. • Es gilt Z f (x1 , . . . , xn ) dx1 · · · dxn Z Z f (x1 , . . . , xn ) dx1 · · · dxk = Rn Rn−k Rk Z Z = Rk dxk+1 · · · dxn f (x1 , . . . , xn ) dxk+1 · · · dxn dx1 · · · dxk . Rn−k Eine wiederholte Anwendung des Satzes von Fubini liefert Z Z Z Z f (x1 , . . . , xn ) dx1 . . . dxn = ··· f (x1 , . . . , xn ) dx1 · · · dxn−1 dxn . Rn R R R Kurz gesagt: ein n-dimensionales Lebesgue-Integral kann sukzessive ausgerechnet werden und es kommt dabei nicht auf die Reihenfolge an. Darum werden wir im Weiteren auch die Klammern weglassen. Falls f auf einem Quader Q = [c1 , d1 ] × · · · [cn , dn ] definiert ist, erhalten wir insbesondere ! ! Z Z Z Z dn−1 dn Q d1 ··· f (x1 , . . . , xn ) dx1 . . . dxn = cn cn−1 · · · dxn−1 f (x1 , . . . , xn ) dx1 dxn . c1 Anmerkung. Umgekehrt sagt ein Satz von Tonelli, dass aus der absoluten Integrierbarkeit der partiellen Funktionen auch die der Funktion selbst folgt. 2.6 Integration über achsenparallele Quader. Wollen wir eine Funktion über einen achsenparallelen Quader integrieren, so erhalten wir nach Fubini beispielsweise π ZZ Z π/2 Z π Z π/2 cos(x + y) d2 (x, y) = cos(x + y) dx dy = sin(x + y) dy [0,π]×[0,π/2] 0 Z 0 0 π/2 0 Z π/2 (sin(π + y) − sin(y)) dy = = 0 (−2 sin y) dy 0 π/2 = 2 cos y = 2(0 − 1) = −2, 0 Z 1Z 1Z 1 Z 1 Z xyz d3 (x, y, z) = xyz dx dy dz = x dx ZZZ [0,1]3 0 0 0 0 1 Z 1 y dy 0 z dz 0 3 3 1 1 = , t dt = 2 8 0 ∞ Z Z ∞ Z +∞ 2 2 2xe−x dx e−|y| dy = −e−x · 2 = Z 1 = ZZ R+ ×R 2 2xe−x −|y| d2 (x, y) 0 = −∞ [0 − (−1)] · 2 · 1 = 2. 0 0 ∞ e−y dy 355 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN 2.7 Integration nach Darstellung des Integrationsbereichs durch Randfunktionen. Kann der Integrationsbereich durch Randfunktionen beschrieben werden, so ist ebenfalls eine sukzessive Integration möglich. Die Kreisfläche K = {(x, y) ∈ R2 | x2 +√y 2 ≤ 1} kann beispielsweise als das Flächenstück zwischen den Graphen der beiden Funktionen x 7→ ± 1 − x2 , x ∈ [−1, 1], interpretiert werden. Damit gilt ZZ 2 v2 (K) = d (x, y) = (1 − x2 − y 2 ) d2 (x, y) √ Z 1−x2 √ − 1−x2 √ 1−x2 1 Z Z Z = −1 K 1 dy dx = −1 K ZZ 1 Z −1 (1 √ − 1−x2 1 p p 2 2 2 1 − x dx = x 1 − x + arcsin x = π, −1 − x2 − y 2 ) dy dx = Z 1 −1 4 π (1 − x2 )3/2 dx = . 3 2 Das zweite Integral kann man als Integration der Funktion (x, y) 7→ 1 − x2 − y 2 über die Kreisscheibe K √ auffassen oder als das Volumen des „Zuckerhuts“ Z := {(x, y, z) ∈ R3 | 0 ≤ z ≤ 1, x2 + y 2 ≤ 1 − z}. √ 1 1 0.5 1 − x2 0.5 0 0 -0.5 -0.5 -1 1 1-1 0.8 0.75 0.6 0.5 0.4 0.25 √ − 1 − x2 0.2 0 -1 0 -1 -0.5 -0.5 0 0 0.5 0.5 1 1 Abbildung 6.25: Sukzessive Integration zur Berechnung der Kreisfläche bzw. des Zuckerhutvolumens. 3 Transformationsformel für Integrale 3.1 Transformationsformel. Wir notieren die Substitutionsregel 4.§4.3.4 in einer leicht modifizierten Form: Ist ϕ : [c, d] → R eine injektive C 1 -Funktion mit ϕ0 (x) 6= 0 für alle x ∈ [c, d], so gilt Z ϕ(d) Z f (y) dy = ϕ(c) d f (ϕ(x))|ϕ0 (x)| dx. c Dem entspricht im Rn die folgende Transformationsformel . Ist D ⊆ Rn eine offene Menge und ist ϕ ~ : D → Rn eine injektive C 1 -Funktion mit det(d~ ϕ(~x)) 6= 0 für 1 alle ~x ∈ D (d.h. ist ϕ ~ ein C -Diffeomorphismus von D auf ϕ ~ (D)), so ist für jede über ϕ ~ (D) integrierbare Funktion f die Funktion (f ◦ ϕ ~ ) · | det d~ ϕ| über D integrierbar mit Z Z f (~y ) dvn (~y ) = f (~ ϕ(~x)) · | det(d~ ϕ(~x))| dvn (~x). ϕ ~ (D) D Der Beweis der Transformationsformel ist ziemlich kompliziert und erfordert umfassende Vorbereitungen. Das liegt daran, dass anders als im Fall einer Variablen kein Hauptsatz der Differential- und Integralrechnung zur Verfügung steht. Ja umgekehrt: die Integralsätze in §3, welche man als höherdimensionale Analoga des Hauptsatzes auffassen kann, werden aus der Transformationsformel abgeleitet. Statt eines Beweises begnügen wir uns daher mit der nachfolgenden heuristischen Betrachtung und gehen anschließend auf Anwendungen der Transformationsformel ein. 356 §2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN 3.2 Heuristik zur Transformationsformel. Ist ϕ ~ : D → Rn stetig und injektiv, so R Pdifferenzierbar r approximieren wir das Volumen vn (D) = D dvn durch die Summe j=1 vn (Qj ) der Volumina eines Systems von disjunkten achsenparallelen Quadern Qj , deren Vereinigung ungefähr mit D übereinstimmt. Wenn die Qj klein sind, so kann ϕ ~ auf Qj näherungsweise durch eine lineare Abbildung d~ ϕ(~aj ) mit einem Punkt ~aj ∈ Qj ersetzt werden. Das Bild d~ ϕ(~aj )(Qj ) ist ein Parallelotop, welches das etwas verzerrte Parallelotop ϕ ~ (Qj ) in erster Ordnung approximiert, also ungefähr dasselbe Volumen besitzt. Das Bildparallelotop d~ ϕ(~aj )(Qj ) hat gemäß 5.§4.3.6 das Volumen vn (d~ ϕ(~aj )(Qj )) = | det(~ ϕ(~aj )| · vn (Qj ). Wir erhalten also näherungsweise vn (~ ϕ(D)) ≈ r X vn (~ ϕ(Qj )) ≈ j=1 r X | det(~ ϕ(~aj )| · vn (Qj ) j=1 und nach einem geeignet ausgeführten Grenzübergang vermutlich Z Z vn (~ ϕ(D)) = dvn (~y ) = | det(d~ ϕ(~x))| dvn (~x). ϕ ~ (D) D Ist nun f eine stetige Funktion auf ϕ ~ (D), so ändert sich an dieser Überlegung nicht viel, da f sich lokal (z.B. auf einem verzerrten Parallelotop ϕ ~ (Qj )) nur wenig ändert. Dies motiviert die Transformationsformel Z Z f (~y ) dvn (~y ) = f (~ ϕ(~x)) · | det(d~ ϕ(~x))| dvn (~x). ϕ ~ (D) D ϕ ~ (D) ϕ ~ * D ϕ ~ (D) HH j H Abbildung 6.26: Heuristik zur Transformationsformel 3.3 Bewegungsinvarianz des Volumens. Ist ϕ ~ (~x) := U~x + ~b mit U ∈ O(n), ~b ∈ Rn eine Bewegung des Rn mit einer orthogonalen Matrix U , so gilt | det(d~ ϕ(~a))| = | det(U )| = 1 und damit Z Z Z vn (~ ϕ(K)) = dvn = | det(d~ ϕ)(~x)| dvn (~x) = dvn = vn (K) ϕ ~ (K) K n für jede Teilmenge K ⊂ R , die ein Volumen besitzt. Das n-dimensionale Volumen ist invariant unter Bewegungen des Rn . K 357 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN 3.4 Volumenänderung bei affinen Abbildungen. Analog verifizieren wir für eine affine Abbildung ϕ ~ (~x) := Ax + ~b mit A ∈ GL(n), ~b ∈ Rn die Beziehung vn (~ ϕ(K)) = | det A|vn (K). Das n-dimensionale Volumen ändert sich bei einer affinen Abbildung ~x 7→ A~x + ~b um den Faktor | det A|. 3.5 Transformation auf Polarkoordinaten. Ist K = K(R1 , R2 ) := {(x, y) ∈ R2 | R1 2 ≤ x2 + y 2 ≤ R2 2 } der Kreisring um den Ursprung mit Radien R1 und R2 , 0 ≤ R1 < R2 ≤ +∞, und ist f über K integrierbar, so gilt ZZ Z 2π Z R2 2 f (r cos ϕ, r sin ϕ) rdr dϕ. f (x, y) d (x, y) = R1 0 K Ist f insbesondere rotationssymmetrisch, d.h. gilt f (x, y) = F (r) für alle (x, y) ∈ K mit r = so folgt ZZ Z R2 f (x, y) d2 (x, y) = 2π F (r) rdr. K p x2 + y 2 , R1 ~ ϕ) = (r cos ϕ, r sin ϕ) von Beweis. Transformationsformel für die Polarkoordinatentransformation Φ(r, ]R1 , R2 [×]0, 2π[ auf den offenen geschlitzten Kreisring {(x, y) ∈ R2 | R1 2 < x2 + y 2 < R2 2 , y = 0 ⇒ x ≤ 0}. ~ ϕ)) = r. Die beiden angegebenen Integrationsbereiche werden von Φ ~ C ∞ -diffeomorph Es gilt det(dΦ(r, aufeinander abgebildet. Sie unterscheiden sich vom Quader [R1 , R2 ]×[0, 2π] bzw. dem Kreisring K(R1 , R2 ) nur um eine Nullmenge, erlauben aber die Anwendung der Transformationsformel. R +∞ √ 2 Beispiel. −∞ e−x dx = π. Wir berechnen dieses Integral mit folgendem Trick, der mittels Fubini zu einer Funktion in zwei Variablen übergeht. Z +∞ e −x2 2 dx Z = −∞ e −x2 Z dx e R Z = +∞ −r 2 e 0 ZZ dy = e −x2 −y 2 e ZZ +y 2 ) d2 (x, y) K(0,∞) +∞ Z rdr dϕ = 2π −r 2 re 0 2 e−(x dx dy = R2 R 2π Z −y 2 0 2 R −e−r = π. dr = 2π lim R→+∞ 2 0 3.6 Transformation auf Zylinderkoordinaten. Ist Z = Z(R1 , R2 , z1 , z2 ) := {(x, y, z) ∈ R3 | R1 2 ≤ x2 + y 2 ≤ R2 2 , z1 ≤ z ≤ z2 } der Zylinderring um den Ursprung mit Radien R1 und R2 , 0 ≤ R1 < R2 ≤ +∞ und Anfangshöhe z1 bzw. Endhöhe z2 , und ist f über Z integrierbar, so gilt ZZZ Z 2π Z R2 Z z2 3 f (x, y, z) d (x, y, z) = f (r cos ϕ, r sin ϕ, z) dz rdr dϕ. Z 0 R1 z1 Ist f insbesondere rotationssymmetrisch zur z-Achse, d.h. gilt f (x, y, z) = F (r, Z) für alle (x, y, z) ∈ Z p mit r = x2 + y 2 , so folgt ZZZ f (x, y, z) d3 (x, y, z) = 2π Z Z z2 Z R2 F (r, z) rdr dz. z1 R1 358 §2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN Beweis. Transformationsformel für die Zylinderkoordinatentransformation r cos ϕ ~ ϕ, z) = r sin ϕ Φ(r, z ~ ϕ, z)) = r. Man muss die Halbebene {(x, 0, z) ∈ R3 | x > 0, z ∈ R} — also eine Nullmenge mit det(dΦ(r, — ausschließen. 3.7 Transformation auf Kugelkoordinaten. Ist K = K(R1 , R2 ) := {(x, y, z) ∈ R3 | R1 2 ≤ x2 + y 2 + z 2 ≤ R2 2 } die Kugelschale um den Ursprung mit Radien R1 und R2 , 0 ≤ R1 < R2 ≤ +∞, und ist f über K integrierbar, so gilt ZZZ Z 2π Z π Z R2 f (r sin θ cos ϕ, r sin θ sin ϕ, r cos θ) r2 dr sin θdθ dϕ. f (x, y, z) d3 (x, y, z) = K R1 0 0 Ist f radialsymmetrisch, d.h. gilt f (x, y, z) = F (r) für alle (x, y, z) ∈ K mit r = ZZZ 3 Z R2 f (x, y, z) d (x, y, z) = 4π Z p x2 + y 2 + z 2 , so folgt F (r) r2 dr. R1 Beweis. Transformationsformel für die Kugelkoordinatentransformation r sin θ cos ϕ ~ θ, ϕ) = r sin θ sin ϕ Φ(r, r cos θ ~ θ, ϕ)) = r2 sin θ unter Ausschluss einer geeigneten Nullmenge (der Halbebene durch den mit det(dΦ(r, Nullmeridian). Beispiel. Wir betrachten das rotationssymmetrische Potential ~x 7→ k~xk−α und erhalten Z 0<k~ xk<R Z 1≤k~ xk<R 1 d3 (~x) k~xkα 1 d3 (~x) k~xkα Z = R 4π 0 Z = 4π 1 R 4π 1 2 r dr = R3−α für α < 3, rα 3−α 4π (1 − R3−α ) für α > 0, α 6= 3, 1 2 α−3 r dr = 4π ln R rα für α = 3. R R Insbesondere folgt k~xk≥1 k~xk−α d3 (~x) = 4π/(α − 3) für α > 3. Das Integral 0<k~xk<R divergiert für R → ∞. 1 k~ xk3 d3 (~x) dagegen 3.8 Allgemeines Kugelvolumen. Das Volumen einer n-dimensionalen Kugel p Kn (R) := {~x ∈ Rn | k~xk = x1 2 + · · · + xn 2 ≤ R} vom Radius R > 0 bestimmen wir entweder durch sukzessive Integration oder für n ≥ 3 mit ndimensionalen Kugelkoordinaten r sin θn−2 · · · sin θ1 cos ϕ r sin θn−2 · · · sin θ1 sin ϕ r sin θn−2 · · · cos θ1 ~ θ1 , . . . , θn−2 , ϕ) := Φ(r, r > 0, θn−2 , . . . , θ1 ∈]0, π[, ϕ ∈]0, 2π[. , .. . r sin θn−2 · · · cos θn−3 r cos θn−2 359 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Man mache sich selbst klar, dass dies eine geeignete Verallgemeinerung von Polar- und Kugelkoordinaten ist. Wegen ~ θ1 , . . . , θn−2 , ϕ) = sin θ1 · · · (sin θn−2 )n−2 rn−1 det dΦ(r, liefert die Transformationsformel (nach Ausschluss einer geeigneten Nullmenge) Z π Z 2π Z R Z π rn−1 dr dϕ sin(θn−2 )n−2 dθn−2 · · · sin(θ1 )dθ1 ··· vn (Kn (R)) = Z = 0 0 0 2π R rn−1 dr 0 0 n−2 YZ π k=1 sink θ dθ. 0 Durch einen Induktionsbeweis erhält man unter Verwendung der Gamma-Funktion (siehe 4.§6.3.14) Z π √ Γ( k+1 2 ) sink θ dθ = π k+2 Γ( 2 ) 0 und damit die Volumenformel 2π n/2 Rn . nΓ(n/2) Insbesondere gilt für das Volumen der Einheitskugel im Rn vn (Kn (R)) = 1 2 3 4 5 6 7 8 Vn (Kn (1)) 2 π 4π 3 π2 2 8π 2 15 π3 6 16π 3 105 π4 24 n Man kann zeigen, dass Vn (Kn (1)) → 0 §3 für n → ∞. Integralsätze Integralsätze spielen in vielen Bereichen der Natur- und Ingenieurswissenschaften eine wichtige Rolle (z.B. in der Elektrodynamik oder der Strömungsmechanik, siehe auch [HeuA, Band 2, XXV]). Sie sind höherdimensionale Analoga des Hauptsatzes der Differential- und Integralrechnung 4.§4.2.5: Ist [c, d] ein kompaktes Intervall, so gilt für jede C 1 -Funktion f auf [c, d] Z d f 0 (x) dx = f (d) − f (c). c Eine Verallgemeinerung für die Integration von Potentialfeldern haben wir schon in §1.3.6 und 4.§4.6.3 behandelt: ~ so gilt für jedes C 1 -Skalarfeld u auf einer Ist γ eine C 1 -Kurve im Rn mit Anfangspunkt ~c und Endpunkt d, offenen Umgebung von γ Z ~ − u(~c). ∇u(~x) d~x = u(d) γ In beiden Fällen wird die Integration der „Ableitung“ einer geeignet glatten Funktion über eine gewisse Menge (bisher ein Intervall oder eine Kurve, d.h. etwas „Eindimensionales“) auf die Integration der Funktion selbst über den „Rand“ dieser Menge (bisher die Randpunkte, d.h. etwas „Nulldimensionales“) zurückgeführt. Das ist charakteristisch für den allgemeinen Satzes von Stokes Z Z dω = ω, Ω ∂Ω der alle Integralstze beinhaltet und die Integration von ω über einen k-dimensionalen „Bereich Ω“ im Rn mit der der „Ableitung dω“ über den (k − 1)-dimensionalen „Rand ∂Ω“ verbindet. Wir behandeln die folgenden Fälle: 360 §3. INTEGRALSÄTZE • k = 1, n ≥ 1: Ω ist eine Kurve (s.o., Integration eines Potentialfeldes, §1.3.6 und 4.§4.6.3), • k = n, n ≥ 1: Ω ist ein „zulässiger Bereich“ im Rn (Satz von Gauß, Abschnitt 2), das beinhaltet insbesondere die Fälle n = 2 (Satz von Gauß in der Ebene: Ω ist ein Flächenstück im R2 ) und n = 3 (Satz von Gauß im Raum: Ω ist ein dreidimensionaler Körper im R3 ), • k = 2, n = 3: Ω ist ein zweidimensionales Flächenstück im R3 (Satz von Stokes im Raum, Abschnitt 3). Unsere Hauptarbeit wird darin bestehen, jeweils zu erklären, was und worüber integriert werden darf. Dazu führen wir insbesondere im Abschnitt 1 Oberflächenintegrale im Raum und deren Verallgemeinerungen im Rn ein. Tatsächlich machen derartige Vorbereitungen auch die Formulierung und den Beweis des allgemeinen Satzes von Stokes so aufwendig. Ein Versuch, zu erklären, was dort mit „ω“, „dω“, „Ω“ und „∂Ω“ genau gemeint ist, würden den Rahmen dieses Skriptes sprengen. Wir beschränken uns auf die oben genannten Spezialfälle. (Wer mehr wissen will, lese [HeuA, Band 2, XXIV], [Köh, Teil VII], [Kön, Band 2, 11–13].) Der allgemeine Satz von Stokes wurde eigentlich von Elie Cartan (1869–1951) gefunden und bewiesen. Die Bezeichnung „allgemeiner Satz von Stokes“ hat sich wohl eingebürgert, weil die von Stokes gefundene Version für k = 2 und n = 3 schon alle Kennzeichen des allgemeinen Satzes sichtbar macht. 1 Oberflächenintegrale und Integration auf Hyperflächen 1.1 Parameterdarstellung eines Flächenstücks im Raum. Eine (reguläre glatte) Flächenparametrisierung (kurz auch Parametrisierung genannt) Φ1 (~u) ~ : D → R3 , ~ u) = Φ2 (~u) , Φ ~u = (u1 , u2 ) 7→ Φ(~ Φ3 (~u) ist eine injektive C r -Abbildung, r ≥ 1, auf einem Gebiet D ⊂ R2 , deren partielle Ableitungen ∂u1 Φ1 (~u) ∂u2 Φ1 (~u) ~ ~ ∂ Φ ∂Φ (~u) = ∂u1 Φ2 (~u) , (~u) = ∂u2 Φ2 (~u) , ∂u1 ∂u2 ∂u1 Φ2 (~u) ∂u2 Φ2 (~u) in jedem Punkt ~u ∈ D linear unabhängig sind. ~ Φ(u) ~ ∂2 Φ(u) x3 u2 ~ ∂1 Φ(u) ~ Φ u x2 Flächenstück im R3 x1 u1 Parameterebene Abbildung 6.27: Flächenparametrisierung. ~ im Punkt ~u. Sie spannen Wir nennen diese beiden partiellen Ableitungen die Tangentenvektoren von Φ den Tangentialraum im Punkt ~u auf und liefern die Tangenten an die beiden Koordinatenlinien ~ 1 + t, u2 ), t 7→ Φ(u ~ 1 , u2 + t). t 7→ Φ(u 361 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN ~ Diese zwei C r -Kurven verlaufen auf der Bildmenge Φ(D). Die obige Forderung nach linearer Unabhän~ u)) = 2 und stellt sicher, dass die Bildmenge Φ(D) ~ gigkeit lautet in Kurzform rg(dΦ(~ unserer Vorstellung einer Fläche, d.h. eines „zweidimensionalen Gebildes im Raum“ entspricht. 1.2 Beispiele für Flächenparametrisierungen. Man überlege sich in den folgenden Beispielen jeweils selbst, wie die Koordinatenlinien verlaufen. (a) Ebene in Parameterdarstellung (u1 , u2 ) 7→ ~a + u1~v1 + u2~v2 , u1 , u2 ∈ R, 3 mit einem Aufpunkt ~a ∈ R und linear unabhängigen Vektoren ~v1 , ~v2 ∈ R3 . (b) Der Graph einer Funktion f : D ⊂ R2 → R wird parametrisiert durch x (x, y) 7→ y , (x, y) ∈ D. f (x, y) Ist D = {(x, y) ∈ R2 | x2 + y 2 < 1} die Einheitskreissscheibe und f (x, y) := wir insbesondere die obere Halbkugel der Einheitssphäre ohne Äquator. p 1 − x2 − y 2 , so erhalten (c) Einheitssphäre ohne Nullmeridian sin θ cos ϕ (θ, ϕ) 7→ sin θ sin ϕ , cos θ θ ∈]0, π[, ϕ ∈]0, 2π[ 1.3 Flächenstücke. Wir nennen eine Teilmenge M ⊂ R3 ein C r -Flächenstück , r ≥ 1, wenn M die ~ : D ⊂ R2 → Φ(D) ~ Bildmenge einer C r -Flächenparametrisierung Φ = M mit stetiger Umkehrabbildung ist. Anmerkung. Flächenstücke sind die zweidimensionalen Analoga zu Kurven (vgl. 4.§1.2). Wie schon bei Kurven gilt auch hier: „ein Flächenstück ist weniger als seine Parametrisierung aber mehr als eine Menge“. Ein Flächenstück besitzt viele Parameterdarstellungen. Um damit umgehen zu können, erklären wir wieder, was ein Parameterwechsel ist (vgl. 4.§1.2.4). 1.4 Hyperflächenstücke. Das eben geschilderte Konzept lässt sich problemlos vom R3 auf einen beliebigen Rn mit n ≥ 2 übertragen. ~ : D → Φ(D) ~ Ein C r -Hyperflächenstück M ⊂ Rn ist die Bildmenge einer injektiven C r -Abbildung Φ =M n−1 ~ auf einem Gebiet D ⊂ R mit stetiger Umkehrabbildung und rg(dΦ(~u)) = n − 1 für alle ~u ∈ D. Die ~ heißt dann (reguläre glatte) Hyperflächenparametrisierung von M . Abbildung Φ ~ : D ⊂ Rn−1 → Rn und 1.5 Orientierung und Parameterwechsel. Zwei C r -Parametrisierungen Φ n−1 n r ~:G⊂R Ψ → R eines C -Hyperflächenstücks M heißen Parametrisierungen desselben Hyperflächen~ =Ψ ~ ◦ϕ stücks im Rn , wenn es einen C r -Diffeomorphismus ϕ ~ : D → G gibt mit Φ ~ . Wir nennen ϕ ~ dann einen Flächenparameterwechsel oder kurz Parameterwechsel. Da d~ ϕ überall invertierbar ist, gilt det(d~ ϕ)(~x) 6= 0 für alle ~x ∈ D. Als stetige Funktion muss det(d~ ϕ) damit ~ und Ψ ~ gleichorientiert. Jedes Hyperein einheitliches Vorzeichen haben. Im Fall det(d~ ϕ) > 0 heißen Φ flächenstück besitzt also zwei disjunkte Klassen von untereinander gleichorientierten Parametrisierungen und damit zwei Orientierungen. Wenn wir eine dieser beiden Orientierungen auszeichnen — beispielsweise durch Auszeichnung einer speziellen Flächenparametrisierung — so sprechen wir von einem orientierten Hyperflächenstück . Dann sind nur noch gleichorientierte Parameterwechsel zulässig und wir nennen diese positive Parametrisierungen. Die in der anderen Klasse heißen negative Parametrisierungen. Geometrisch interpretiert bedeutet das, ein Einheitsnormalenfeld auf M auszuzeichnen, das ist ein stetiges Vektorfeld ~n : M → Rn mit k~nk = 1 für alle ~x ∈ M . 362 §3. INTEGRALSÄTZE 1.6 Einheitsnormalenfeld. Ein orientiertes Hyperflächenstück M ⊂ Rn besitzt genau ein Einheitsnormalenfeld ~n : M → Rn mit der Eigenschaft ~ u), . . . , ∂u Φ(~ ~ u), ~n(~x) > 0 det ∂u1 Φ(~ mit ~x := Φ(~u) n−1 ~ von M . Für alle negativen Orientierungen gilt die gleiche Formel mit für alle positiven Orientierungen Φ einem Minuszeichen. Im Fall n = 3 erhält man ~n durch die Formel ~n(~x) = 1 ~ u) × ∂u Φ(~ ~ u)k k∂u1 Φ(~ 2 ~ u) × ∂u Φ(~ ~ u) ∂u1 Φ(~ 2 ~ u). mit ~x := Φ(~ Beweis. Wir führen den Beweis nur für n = 3 (in der allgemeinen Situation ist die Konstruktion von ~ von M und ~n etwas schwieriger zu beschreiben). Wir wählen eine positive Flächenparametrisierung Ψ setzen für ~x ∈ M ~n(~x) = 1 ~ u) × ∂u Ψ(~ ~ u) ∂ Ψ(~ 2 ~ ~ u)k u1 k∂u1 Ψ(~u) × ∂u2 Ψ(~ ~ −1 (~x). mit ~u := Ψ ~ −1 ist auch ~n auf M stetig. Ist Φ ~ eine weitere Parametrierung und ist ϕ Mit Ψ ~ der Parameterwechsel mit ~ ~ ~ ~ u) = det(d~ ~ ϕ(~u)) × ∂u Φ(~ ~ ϕ(~u)) und liest hieraus Ψ = Φ◦ϕ ~ , so berechnet man ∂u1 Ψ(~u) × ∂u2 Ψ(~ ϕ(~u)) · ∂u1 Φ(~ 2 alles weitere ab. 1.7 Anmerkung zur Nichtorientierbarkeit. Das durch [1 + v cos(u/2)] sin(u) ~ (u, v) ∈ [0, 2π[×] − 1/2, 1/2[, Φ(u, v) := [1 + v cos(u/2)] cos(u) , v sin(u/2) parametrisierte Möbius-Band ist nicht orientierbar. Wenn man einmal um den „Äquator“ herumläuft, dreht sich der Einheitsnormalenvektor um π, ist also nicht stetig. Das ist kein Widerspruch zu unserer vorherigen Überlegung: das Möbius-Band ist nämlich kein Flächenstück! Dazu müsste nämlich der Definitionsbereich der obigen Parametrisierung ein Gebiet, d.h. insbesondere offen, sein. Wenn man den obigen nicht offenen Definitionsbereich durch ]0, 2π[×] − 1/2, 1/2[ ersetzt, erhält man zwar ein Gebiet, schneidet aber das MöbiusBand einmal quer durch, so dass das zuvor genannte Argument nicht mehr gilt. 1 0 -1 1 0 -1 1 0 -1 Abbildung 6.28: Ein Möbius-Band. Wir werden uns mit derartigen Problemen nicht herumschlagen müssen, da wir nur Flächenstücke benötigen, die als Teil des Randes eines „Kompaktums mit glattem Rand“ auftreten. 1.8 Kompakta mit glattem Rand. Eine Teilmenge Ω ⊂ Rn nennen wir Kompaktum mit glattem Rand , wenn folgendes gilt: • Ω ist kompakt (d.h. Ω ist beschränkt und enthält alle seine Randpunkte), • zu jedem Randpunkt ~a ∈ ∂Ω existiert eine offene Umgebung U ⊂ Rn und eine C 1 -Funktion g : U → R mit Ω ∩ U = {~x ∈ U | g(~x) ≤ 0} und ∇g(~x) 6= ~0 für alle ~x ∈ U. Man kann zeigen, dass dann automatisch ∂Ω ∩ U = {~x ∈ U | g(~x) = 0} 363 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN gilt. Der Rand von Ω lässt sich also überall lokal als eine (n − 1)-dimensionale C 1 -Lösungsmannigfaltigkeit (vgl. §1.6.8) darstellen: wir können lokal n − 1 geeignete Variablen wählen und die n-te als Funktion der anderen darstellen um den Rand lokal durch ein C 1 -Flächenstück zu parametrisieren. Damit haben wir den ersten Teil des folgenden Satzes bewiesen. 1.9 Rand eines Kompaktums mit glattem Rand. Ist Ω ⊂ Rn ein Kompaktum mit glattem Rand, so kann der Rand überall lokal durch C 1 -Hyperflächenstücke dargestellt werden und es existiert genau ein Einheitsnormalenfeld ~n : ∂Ω → Rn , so dass es zu jedem ~x ∈ ∂Ω ein ε > 0 gibt mit ~x + t~n(~x) ∈ / Ω für t ∈]0, ε[. Dieses Einheitsnormalenfeld ist stetig. Wir nennen ~n das äußere Einheitsnormalenfeld des Randes ∂Ω von Ω. Beweis. Wird ∂Ω lokal bei ~a ∈ ∂Ω durch g(~x) = 0 für ~x ∈ ∂Ω ∩ U und g(~x) ≤ 0 für ~x ∈ Ω ∩ U dargestellt, so setzen wir 1 ∇g(~a) ~n(~a) := k∇g(~a)k und erhalten gerade den äußeren Einheitsnormalenvektor an den Tangentialraum zu ∂Ω in ~a. Selbiger ist eindimensional. Damit ist ~n(~a) eindeutig bestimmt. Die obige Darstellung zeigt dann auch die Stetigkeit. 1.10 Wie erklären wir den Inhalt eines Flächenstücks? Ist M ein zweidimensionales Flächenstück im R3 , so wird das Volumen Null sein. Der naheliegende Gedanke, ähnlich wie bei der Bogenlänge eine Approximation durch Rechtecke vorzunehmen, scheitert (das kann man an Beispielen belegen). Der folgende Zugang bietet einen plausiblen Ersatz. Wir denken uns das Flächenstück in eine dünne Schale M2ε der Dicke 2ε eingebettet, berechnen deren Volumen v3 (M2ε ) und erklären den Flächeninhalt v2 (M ) durch den Grenzwert v2 (M ) := lim ε→0 1 v3 (M2ε ) 2ε sofern dieser existiert. ) 2ε Abbildung 6.29: Zum Flächeninhalt eines Flächenstücks. ~ : D ⊂ R2 → M eine Parametrisierung für M und ist ~n : M → R3 ein Einheitsnormalenfeld, so Ist Φ können wir die Schale M2ε mittels ~ u) + t(~n ◦ Φ)(~ ~ u)), (~u, t) = (u1 , u2 , t) 7→ ϕ ~ (~u, t) := Φ(~ (~u, t) ∈ D×] − ε, ε[, parametrisieren. Man kann zeigen, dass ϕ ~ für genügend kleine ε ein C 1 -Diffeomorphismus ist. (Falls ε zu 364 §3. INTEGRALSÄTZE groß wird, kann es zu Überlappungen kommen.) Wir berechnen mit einer Laplace-Entwicklung ! ~ ~ ~ ~ ∂Φ ∂(~n ◦ Φ) ∂Φ ∂(~n ◦ Φ) ~ det(d~ ϕ(~u, t)) = det (~u) + t (~u), (~u) + t (~u), (~n ◦ Φ)(~u) ∂u1 ∂u1 ∂u2 ∂u2 ! ~ ~ ∂Φ ∂Φ ~ u)) + tR(~u, t), = det (~u), (~u), ~n(Φ(~ ∂u1 ∂u2 wobei in (~u, t) 7→ R(~u, t) auf D×] − ε, ε[ stetig und reellwertig ist. Mit der Transformationsformel und scheibchenweise Integration erhalten wir ZZZ ZZZ v3 (M2ε ) = dv3 (~y ) = | det(d~ ϕ(~u, t))| dv3 (~u, t) M2ε D×]−ε,ε[ ! ! Z Z Z ε ~ ~ ∂Φ ∂Φ ~ (~u), (~u), ~n(Φ(~u)) + tR(~u, t) dt dv2 (~u) = det ∂u1 ∂u2 D −ε ! ZZ Z ε ZZ ~ ~ ∂Φ ∂Φ ~ u)) dv2 (~u) + tR(~u, t) dt dv2 (~u). = 2ε (~u), (~u), ~n(Φ(~ det ∂u1 ∂u2 D −ε D Liegt nun der Parameterbereich D in einem Rechteck derRFläche A und ist R(~u, t) durch eine Zahl C ≥ 0 ε 2 beschränkt, so können wir das letzte Integral durch AC −ε |t| dt = AC 2 ε abschätzen und erhalten nach Grenzübergang ε → 0 für die Oberfläche die Formel ! Z Z ~ ~ ∂Φ 1 ∂Φ ~ u)) dv2 (~u). v2 (M ) = lim v3 (M2ε ) = (~u), (~u), ~n(Φ(~ det ε→0 2ε ∂u1 ∂u2 D Die Determinante berechnen wir (unter Weglassung der Argumente) mit folgendem Trick: wir multiplizie~ ∂u Φ, ~ ~n) mit ihrer Transponierten und erhalten, da ~n auf ∂u Φ ~ und ∂u Φ ~ senkrecht ren die Matrix (∂u1 Φ, 2 1 2 steht und normiert ist ~ ~n) ~ ∂u Φ, ~ ~n)T (∂u Φ, ~ ∂u Φ, ~ ~n)|2 = det (∂u Φ, ~ ∂u Φ, | det(∂u1 Φ, 2 1 2 1 2 ~ ~ u Φi ~ ~ u Φi 0 h∂u1 Φ|∂ h∂u1 Φ|∂ 2 1 ~ u Φi ~ ~ u Φi ~ = deth∂u2 Φ|∂ h∂u2 Φ|∂ 0 1 2 0 0 1 ~ ~ ~ ~ h∂u1 Φ|∂u1 Φi h∂u1 Φ|∂u2 Φi = det ~ u Φi ~ ~ u Φi ~ . h∂u Φ|∂ h∂u Φ|∂ 2 1 2 2 Damit gilt v2 (M ) = ZZ p g(~u) dv2 (~u) D mit ~ u Φi ~ ~ u Φi ~ h∂u1 Φ|∂ h∂u1 Φ|∂ 1 2 g := det ~ u Φi ~ ~ u Φi ~ . h∂u2 Φ|∂ h∂u2 Φ|∂ 1 2 Diese Argumentation funktioniert für beliebige n ≥ 2, nicht nur für n = 3 (man prüfe das Schritt für Schritt nach). Sie motiviert die folgende Definition. 1.11 Hyperflächeninhalt, Gramsche Determinante. Für ein Hyperflächenstück M ⊂ Rn parame~ : D → M nennen wir die Zahl trisiert durch Φ Z p g(~u) dv2 (~u) vn−1 (M ) := D den Hyperflächeninhalt von M , sofern dieses Integral konvergiert. Hierbei ist die Funktion ~ u Φi ~ ~ u Φi ~ h∂u1 Φ|∂ ··· h∂u1 Φ|∂ 1 n−1 .. .. ~ u Φi) ~ = det g := det(h∂uj Φ|∂ k . . ~ ~ ~ ~ h∂u Φ|∂u Φi · · · h∂u Φ|∂u Φi n−1 1 n−1 n−1 365 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN ~ die Gramsche Determinante von Φ. 1.12 Flächeninhalt. Im Fall n = 3 sprechen wir einfach vom Flächeninhalt. Dann werden nach Gauß die Einträge der Gramschen Determinante auch mit ~ u Φi, ~ E := g1,1 = h∂u1 Φ|∂ 1 ~ u Φi, ~ F := g1,2 = g2,1 = h∂u1 Φ|∂ 2 ~ u Φi, ~ E := g2,2 = h∂u2 Φ|∂ 2 bezeichnet. In dieser Notation gilt ZZ p E(u1 , u2 )G(u1 , u2 ) − F (u1 , u2 )2 d2 (u1 , u2 ). v2 (M ) = D Für n = 3 existiert noch eine andere Formel für die Gramsche Determinante. Mit der aus 1.6 bekannten Darstellung des Einheitsnormalenfeldes ~ = ~n ◦ Φ 1 ~ × ∂u Φ ~ ∂ Φ 2 ~ ~ u1 k∂u1 Φ × ∂u2 Φk ~ ∂u Φ, ~ ~n)| bis auf den obigen Normierungsfaktor als Spatprodukt und wir erhalten entpuppt sich | det(∂u1 Φ, 2 √ ~ ∂u Φ, ~ ~n)| = k∂u Φ ~ × ∂u Φk ~ g = | det(∂u1 Φ, 2 1 2 d.h. ZZ ∂Φ ~ ∂Φ ~ v2 (M ) = (u1 , u2 ) × (u1 , u2 ) d2 (u1 , u2 ). ∂u ∂u 1 2 D Wir illustrieren diese beiden Flächenformeln jetzt an je einem Beispiel. 1.13 Kugeloberfläche. Die Oberfläche Sr einer Kugel im R3 mit Radius r > 0 wird durch r sin θ cos ϕ ~ θ ∈]0, π[, ϕ ∈]0, 2π[ Φ(θ, ϕ) := r sin θ sin ϕ , r cos θ parametrisiert. Streng genommen ist in dieser Parametrisierung der Nullmeridian ausgenommen (und dafür unsere Regularitätsannahme für eine Parametrisierung eines Flächenstücks erfüllt). Für die Integration ist es aber unerheblich, ob wir eine Nullmenge hinzunehmen. Wir berechnen zunächst r cos θ sin ϕ −r sin θ sin ϕ ~ ~ ∂Φ ∂ Φ (θ, ϕ) = r cos θ cos ϕ , (θ, ϕ) = r sin θ cos ϕ ∂θ ∂ϕ −r sin θ 0 und erhalten gθ,θ (θ, ϕ) = r2 sin2 θ, gθ,ϕ (θ, ϕ) = 0, gϕ,ϕ (θ, ϕ) = r2 . Damit gilt für die Gramsche Determinante g (θ, ϕ) gθ,ϕ (θ, ϕ) g(θ, ϕ) = det θ,θ = r4 sin2 θ. gθ,ϕ (θ, ϕ) gϕ,ϕ (θ, ϕ) und es folgt wie zu erwarten ZZ p v2 (Sr ) = [0,π]×[0,2π] 2 Z π Z g(θ, ϕ) d (θ, ϕ) = 2π 2 r sin θ dϕ dθ = 2πr 0 0 2 Z 0 π sin θ dθ = 4πr2 . 366 §3. INTEGRALSÄTZE z z h y x r(z) Abbildung 6.30: Rotationsfläche und Mantellinie. 1.14 Rotationsflächen. Eine Rotationsfläche M im R3 mit der z-Achse als Rotationsachse parametrisieren wir mittels einer stetigen Funktion r : [0, h] → R+ 0 (der Mantellinie) in der Form r(z) cos ϕ ~ (ϕ, z) ∈ [0, 2π[×[0, h]. Φ(ϕ, z) := r(z) sin ϕ , z Wegen 0 r(z) cos ϕ r (z) cos ϕ −r(z) sin ϕ ∂Φ ~ p ∂Φ ~ r(z) cos ϕ × r0 (z) sin ϕ = r(z) sin ϕ = r(z) 1 + r0 (z)2 (~u) × (~u) = ∂u1 ∂u2 r(z)r0 (z) 1 0 erhalten wir für den Flächeninhalt des Mantels nach einer scheibchenweisen Integration die Formel Z h p v2 (M ) = 2π r(z) 1 + r0 (z)2 dz. 0 1.15 Skalares Hyperflächenintegral. Für ein Hyperflächenstück M ⊂ Rn und ein integrierbares Skalarfeld f : M → R erklären wir das skalare Hyperflächenintegral durch Z Z p ~ u)) g(~u) dvn−1 (~u). f (~x) dσ(~x) := f (Φ(~ M D ~:D⊂R Hierbei ist Φ → M eine Parametrisierung von M und g die zugehörige Gramsche Determinante. Man schreibt dafür auch Z Z Z Z f dσ, f (~x) • dσ(~x), f dS, f (~x) dS(~x). n−1 M M M M oder Ähnliches. Im Fall n = 3 sprechen wir von einem skalaren Oberflächenintegral und erhalten aus 1.12 die alternative Formel ZZ ZZ ~ ~ ~ f dσ = (f ◦ Φ)k∂ u1 Φ × ∂u2 Φk dv2 . M D 367 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Anmerkung. Man führe sich die Analogie zum skalaren Kurvenintegral 4.§4.5.1 vor Augen. Genauso wie dort ist unsere Definition zunächst scheinbar von der Wahl der Parametrisierung des Flächenstücks abhängig. Man rechnet aber nach, dass das obige Integral invariant gegenüber zulässigen Parameterwechsel ist, und zwar unabhängig davon, ob diese die Orientierung erhalten oder wechseln. Beispiel. Unsere Hyperflächenformel 1.11 ist gerade das skalare Hyperflächenintegral des konstanten Skalarfeldes ~x 7→ 1. 1.16 Vektorielles Hyperflächenintegral, Fluss eines Vektorfeldes. Ist M ⊂ Rn ein orientiertes Hyperflächenstück und ist ~v : M → Rn ein Vektorfeld, so nennen wir Z Z p ~ u))|~n(Φ(~ ~ u))i g(~u) dvn−1 (~u) ~v (~x) d~σ (~x) := h~v (Φ(~ M D ~ : D ⊂ Rn−1 → M eine Parametrisierung das vektorielle Hyperflächenintegral von ~v über M . Hierbei ist Φ von M , g ist die zugehörige Gramsche Determinante und ~n bezeichnet das gemäß 1.6 zur Orientierung von M gehörige Einheitsnormalenfeld. Weitere gebräuchliche Bezeichnungen sind Z Z ~v d~σ , ~v (~x) • d~σ (~x), M M Z M ~ ~v dS Z ~ x). ~v (~x) dS(~ M Für n = 3 sprechen wir auch von einem vektoriellen Oberflächenintegral und bekommen gemäß 1.12 als weitere Darstellung ZZ ZZ ~ u Φ ~ × ∂u Φi ~ dv2 . ~v d~σ = h~v ◦ Φ|∂ 1 2 M D Auch hier rechnet man Invarianz unter Parameterwechseln nach — allerdings nur, sofern selbige orientierungserhaltend sind. Bei einem Orientierungswechsel ändert sich das Vorzeichen. Die definierende Formel zeigt, dass das vektorielle Hyperflächenintegral des Vektorfeldes ~v als skalares Hyperflächenintegral über die Normalenkomponente h~v |~ni geschrieben werden kann: Z Z ~v d~σ = h~v |~ni dσ. M ~n ~v M Es wird daher auch Fluss von ~v durch M genannt. Bei diesem Übergang von vektoriellem zu skalarem Hyperflächenintegral muss auf das richtige Einheitsnormalenfeld geachtet werden. M Abbildung 6.31: Fluss eines Vektorfeldes durch eine Hyperfläche. 1.17 Berechnung eines Oberflächenintegrals. Wir berechnen den Fluss des Vektorfeldes ~v (~x) := ~x durch die Oberfläche Sr der Kugel {(x, y, z) ∈ R3 | x2 + y 2 + z 2 = r2 }. Hierzu wählen wir die aus 1.13 bekannte Parametrisierung r sin θ cos ϕ ~ Φ(θ, ϕ) = r sin θ sin ϕ , θ ∈]0, π[, ϕ ∈]0, 2π[, r cos θ (bei der das Einheitsnormalenfeld nach außen zeigt) und berechnen r cos θ sin ϕ −r sin θ sin ϕ ~ ~ ∂ Φ ∂Φ (θ, ϕ) = r cos θ cos ϕ , (θ, ϕ) = r sin θ cos ϕ . ∂θ ∂ϕ −r sin θ 0 368 §3. INTEGRALSÄTZE Weil wir ein Oberflächenintegral berechnen wollen (Fall n = 3), können wir die zweite der zuvor angegebenen Formeln verwenden und kommen schneller zum Ziel (da wir nicht das äußere Einheitsnormalenfeld und die Gramsche Determinante bestimmen müssen). Wir erhalten unter Verwendung der Formeln 3.§4.2.2 für das Spatprodukt ZZ ZZ ~ θΦ ~ × ∂ϕ Φi ~ dv2 ~x d~σ (~x) = hΦ|∂ Sr [0,π]×[0,2π] r sin θ cos ϕ r cos θ sin ϕ −r sin θ sin ϕ h r sin θ sin ϕ | r cos θ cos ϕ × r sin θ cos ϕ i d(θ, ϕ) [0,π]×[0,2π] r cos θ −r sin θ 0 Z π Z 2π r3 sin θ dϕ θ = 4πr3 . ZZ = = 0 0 Der Fluss dieses Vektorfeldes wächst also mit dem Volumen der Kugel. 1.18 Zusammenfassung. Wir haben nun alle technischen Hilfsmittel für die Sätze von Gauß und Stokes zur Verfügung, d.h. wir können insbesondere Skalar- und Vektorfelder über Kompakta mit glattem Rand (dreidimensionale Objekte im Raum), über Oberflächen (zweidimensionale Objekte im Raum) und Wege (eindimensionale Objekte im Raum) integrieren. 2 Der Satz von Gauß 2.1 Gaußscher Integralsatz. Ist Ω ⊂ Rn ein Kompaktum mit glattem Rand und äußerem Einheitsnormalenfeld ~n : Ω → Rn und ist ~v : D → Rn ein C 1 -Vektorfeld auf einer offenen Obermenge D ⊂ Rn von Ω, so gilt Z Z div ~v dvn = h~v |~ni dσ. Ω ∂Ω In Worten: „der Fluss des Vektorfeldes ~v durch den Rand des Bereichs Ω entspricht der Divergenz von ~v in Ω.“ Der Gaußsche Integralsatz gilt auch dann noch, wenn der Rand ∂Ω von Ω nicht glatt ist, sondern niederdimensionale Singularitäten (Kanten, Ecken oder Ähnliches) enthält. Einen Beweis für die obige Form kann man in [Fo, Band 3, §15] finden. Pn Die Divergenz div ~v = k=1 ∂xk vk haben wir schon in 4.§4.6.11 eingeführt und erhalten jetzt folgende Interpretation. 2.2 Deutung der Divergenz. An jeder Stelle ~a ∈ Ω gilt Z 1 h~v |~ni dvn . div ~v (~a) = lim r→0+ Vn S (~ r a) Hierbei bezeichnet Sr (~a) := {~x ∈ Rn | k~x − ~ak = r} die Sphäre mit Radius r um ~a und Vn = das Volumen der Kugel Kr (~a). 2π n/2 n nΓ(n/2) r Die Divergenz div ~v (~a) gibt also die Quelldichte des Vektorfeldes ~v an der Stelle ~a an. Ist sie positiv, so liegt eine Quelle vor, ist sie negativ, eine Senke. Beweis. Für jeden genügend kleinen Kugelradius r > 0 gilt Kr (~a) ⊂ Ω und mit dem Gaußschen Integralsatz folgt Z Z h~v |~ni dσ = div ~v dvn . Sr (~ a) Kr (~ a) 369 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN Da div ~v an der Stelle ~a stetig ist, gilt damit Z 1 div ~v (~x) dvn (~x) div ~v (~a) − vn (Kr (~a)) Kr (~a) Z Z 1 div ~v (~a) dvn (~x) − div ~v (~x) dvn (~x) = vn (Kr (~a)) Kr (~a) Kr (~ a) ≤ k div ~v (~a) − div ~v (~x)kKr (~a),∞ → 0 für r → 0 + . Beispiel. Ist ~v die Strömung einer inkompressiblen Flüssigkeit im Raum (oder in der Ebene), so verschwindet der Gesamtfluss durch die Oberfläche eines jeden (gedachten) Bereichs Ω. Mit dem Gaußschen R Integralsatz folgt Ω div ~v dv3 = 0 für alle Ω, also div ~v = 0. Gleiches gilt für das elektrische Feld im ladungsfreien Raum. 2.3 Sätze von Gauß und Green in der Ebene. Ist Ω ⊂ R2 ein Kompaktum mit glattem Rand und sind P, Q : D → R zwei C 1 -Funktionen in einer offenen Umgebung D ⊂ R2 von Ω, so gilt Z Z ∂Q ∂P + d2 (x, y) = Q dx − P dy (Satz von Gauß in der Ebene), ∂x ∂y ∂Ω Ω Z Z ∂Q ∂P − d2 (x, y) = P dx + Q dy (Satz von Green in der Ebene). ∂x ∂y ∂Ω Ω Beweis. Die zweite Formel folgt durch Ersetzung von (P, Q) durch (Q, −P ) aus der ersten. Zum Beweis der ersten Formel betrachten wir das Vektorfeld (P, Q) und wenden den Satz von Gauß für n = 2 an. Der Rand ∂Ω besteht aus einer oder mehreren Kurven. Für eine (reguläre) Parametrisierung t 7→ (x(t), y(t)), t ∈ [c, d], einer solchen gilt 1 −ẏ(t) p ~n(x(t), y(t)) = ẋ2 (t) + ẏ 2 (t) ẋ(t) und daher h P (x(t), y(t)) Q(x(t), y(t)) 1 ẋ(t) |~n(x(t), y(t))i = h |p i. Q(x(t), y(t)) −P (x(t), y(t)) ẋ2 (t) + ẏ 2 (t) ẏ(t) Wir können also das Integral über ∂Ω als ein Kurvenintegral für das Vektorfeld (Q, −P ) schreiben. 2.4 Flächenberechnung mit dem Satz von Gauß in der Ebene. Für jedes Kompaktum Ω ⊂ R2 mit glattem Rand gilt Z 1 v2 (Ω) = x dy − y dx. 2 ∂Ω Beweis. Satz von Green in der Ebene mit P (x, y) = −y/2 und Q(x, y) = x/2. Beispiel. Die Punkte (x, y) ∈ R2 mit x 2/3 +y 2/3 a 2/3 =a für a > 0 bilden eine Hypozykloide γ. Diese kann durch t 7→ (x(t), y(t)) = (a cos3 t, a sin3 t), t ∈ [0, 2π], parametrisiert werden. Die Fläche A des von der Hypozykloide berandeten Bereichs berechen wir mit obiger Flächenformel zu Z Z 1 2π 1 x dy − y dx = [x(t)ẏ(t) − y(t)ẋ(t)] dt A = 2 γ 2 0 Z 3a2 2π 2 3 = sin t cos2 t dt = πa2 . 2 0 8 a -a -a Abbildung 6.32: Hypozykloide. 370 §3. INTEGRALSÄTZE 2.5 Greensche Formeln. Ist Ω ⊂ Rn ein Kompaktum mit glattem Rand und äußerem Einheitsnormalenfeld ~n : Ω → Rn und sind f, g : D → R zwei C 2 -Skalarfelder auf einer offenen Obermenge D ⊂ Rn von Ω, so gilt Z Z ∂g dσ, (h∇f |∇gi + f ∆g) dvn = f ∂~ n Ω Z Z∂Ω ∂f ∂g −g dσ. (f ∆g − g∆f ) dvn = f ∂~n ∂~n Ω ∂Ω Beweis. Man wende den Gaußschen Integralsatz auf das C 1 -Vektorfeld ~v := f ∇g an und beachte div ~v = h∇f |∇gi + f ∆g. Die zweite Formel folgt dann durch Vertauschen und Subtrahieren aus der ersten. Beispiel. Sei u 6= 0 auf Ω eine Eigenfunktion des Laplace-Operators mit u(~x) = 0 für ~x ∈ ∂Ω, d.h. −∆u(~x) = λu(~x) für ~x ∈ Ω, zum Eigenwert λ. Wir zeigen, dass λ dann positiv sein muss. Aus der ersten Greenschen Formel für f = g = u folgt Z Z Z Z (k∇uk2 − λu2 ) dvn = (k∇uk2 + u∆u) dvn = (h∇u|∇ui + u∆u) dvn = Ω Ω Ω ∂Ω u ∂u dσ = 0, ∂~n da u auf ∂Ω verschwindet. Dies zeigt Z k∇uk2 dvn = λ Ω Z u2 dvn . Ω Dann muss aber λ > 0 gelten, da beide Integrale einen wegen u 6= 0 und der Stetigkeit von u positiv sind. 2.6 Archimedisches Prinzip. Wir betrachten einen festen Körper Ω in einer Flüssigkeit konstanter Dichte ρ > 0. Wir wählen ein Koordinatensystem im R3 , dessen (x1 , x2 )-Ebene mit der Oberfläche der Flüssigkeit zusammenfüllt so dass x3 < 0 für Punkte ~x in der Flüssigkeit. Im Randpunkt ~x ∈ ∂Ω übt die Flüssigkeit auf den Körper Ω den Druck p(~x) = ρx3~n(~x) aus. Dabei ist ~n(~x) der äußere Einheitsnormalenvektor an Ω im Punkt ~x. Wegen x3 < 0 ist der Druck tatsächlich nach Innen gerichtet. Für die Gesamtauftriebskraft F~ erhalten wir Z F~ = ρx3~n(~x) dσ(~x). ∂Ω Auf die drei Komponenten wenden wir den Gaußschen Integralsatz für n = 3 an und erhalten Z Z 0 Z für j = 1, 2, ∂x3 Fj = ρx3~nj (~x) dσ(~x) = ρx3 dv3 (~x) = ρ ∂xj dv3 (~x) = ρv3 (Ω) für j = 3. ∂Ω Ω Ω Also erfährt der Körper einen Auftrieb in x3 -Richtung, dessen Betrag dem Gewicht der verdrängten Flüssigkeit entspricht. 2.7 Massenerhaltung und Kontinuitätsgleichung. Ist ~v (t, ~x) das Geschwindigkeitsfeld einer Gasoder Flüssigkeitsströmung und ist ρ(t, ~x) die Massendichte zur Zeit t am Ort ~x, so ist die in einem Raumgebiet Ω zur Zeit t enthaltene Masse gegeben durch Z ρ(t, ~x) dv3 (~x). Ω Die pro Zeiteinheit durch den Rand ∂Ω nach außen abfließende Masse ist Z ρh~v (t, ~x)|~n(~x)i dσ(~x), ∂Ω 371 KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN wobei ~n das äußere Einheitsnormalenfeld von Ω bezeichnet. Das Gesetz der Massenerhaltung („Zunahme der Masse in Ω und Abfluss der Masse durch ∂Ω gleichen sich aus“) besagt daher Z Z d ρ(t, ~x) dv3 (~x) + ρ(t, ~x)h~v (t, ~x)|~n(~x)i dσ(~x) = 0 dt Ω ∂Ω für jedes (für die Anwendung des Integralsatzes geeignete) Raumgebiet Ω ⊂ R3 und zu jedem Zeitpunkt t ∈ R. Das ist die Integralform des Massenerhaltungssatzes. Wenden wir auf das zweite Integral den Gaußschen Integralsatz an und vertauschen wir mutig Integration und Differentiation, so gilt Z ∂ρ (t, ~x) + div(ρ(t, ~x)~v (t, ~x)) dv3 (~x) = 0 ∂t Ω für jedes Raumgebiet Ω. Daher gilt die Kontinuitätsgleichung ∂ρ + div(ρ(t, ~x)~v ) = 0, ∂t die differentielle Fassung des Massenerhaltungssatzes. Wäre nämlich der Integrand an einer Stelle positiv, so wegen Stetigkeit auch in einer kleinen Kugel um diese Stelle. Wählen wir selbige als Raumgebiet, so würde das obige Integral nicht verschwinden. Bei einer inkompressiblen Flüssigkeit ist die Dichte ρ räumlich konstant und es gilt div(ρ~v ) = ρ div ~v . Ist ρ auch zeitlich konstant, so sprechen wir von einer inkompressiblen stationären Strömung und es gilt div ~v = 0. 3 Der Satz von Stokes im Raum 3.1 Satz von Stokes im Raum. Ist M ⊂ R3 ein C 1 -Flächenstück und ~v : D → R3 ein C 1 -Vektorfeld auf einer offenen Obermenge D ⊂ R3 von M , so gilt Z Z rot ~v d~σ = ~v d~x. M ∂M Wir sagen: „die Zirkulation des Vektorfeldes ~v längs des Randes der Fläche M entspricht der Rotation von ~v auf M .“ Der Satz von Stokes kann auch auf allgemeinere Flächenstücke übertragen werden. Die Hauptarbeit besteht darin, dann vernünftig zu erklären, was der Rand ist. Beispiel. Wir berechnen den Fluss der Rotation des Feldes ~v (x, y, z) := (−y 2 , x, z 2 ) durch die obere Hälfte der Einheitssphäre M = {(x, y, z) ∈ R3 | x2 + y 2 + z 2 = 1, z ≥ 0} auf zwei Arten: direkt und mit dem Satz von Stokes im Raum. Direkte Berechnung: Es gilt rot ~v (x, y, z) = (0, 0, 2y +1). Das Flächenstück M wird (in Kugelkoordinaten) parametrisiert durch ~ Φ(θ, ϕ) := (cos θ cos ϕ, cos θ sin ϕ, sin θ), Damit gilt Z Z rot ~v d~σ = M = = 2π Z ϕ ∈ [0, 2π], θ ∈ [0, π/2], . π/2 ~ ~ ~ hrot ~v (Φ(θ, ϕ))|∂ϕ Φ(θ, ϕ) × ∂θ Φ(θ, ϕ)i dθ dϕ Z 2π Z π/2 0 − cos θ sin ϕ − sin θ cos ϕ | cos θ cos ϕ × − sin θ sin ϕ i dθ dϕ 0 h 0 0 2 cos θ sin ϕ + 1 0 cos θ Z 2π Z π/2 (2 sin θ sin ϕ + 1) sin θ cos θ dθ dϕ = π. 0 0 0 0 372 §3. INTEGRALSÄTZE Berechnung mit dem Satz von Stokes im Raum: M ist durch den Einheitskreis in der (x, y) Ebene berandet. Dieser wird parametrisiert durch t 7→ (cos t, sin t, 0), t ∈ [0, 2π]. Mit dem Satz von Stokes erhält man den Fluss zu Z Z Z rot ~v d~σ = ~v d~x = −y 2 dx + x dy + z 2 dz M ∂M ∂M Z 2π − sin2 t Z 2π − sin t = h | cos t i dt = (sin3 t + cos2 t) dt = π. cos t 0 0 0 0 3.2 Deutung der Rotation. Bezeichnen wir mit Dr (~a, ~n) die Kreisscheibe an der Stelle ~a mit Normalenvektor ~n und mit γr (~a, ~n) deren positiv orientierten Rand, so erhalten wir mit einer ähnlichen Rechnung wie in 2.2 die Beziehung Z 1 ~v d~x. rot ~v (~a) = lim r→0+ πr 2 γ (~ n) r a,~ Die Rotation rot ~v des Vektorfeldes ~v gibt also die Wirbeldichte von ~v an der Stelle ~a an. 373 Literaturverzeichnis [AbSteg] M. Abramovitz, I. A. Stegun, Handbook of Mathematical Functions. Dover Publications Inc., 1965. [BeWei] G. Behrendt, E. Weimar, Mathematik für Physiker. Band 1: Analysis und Lineare Algebra, Band 2: Funktionentheorie, gewöhnliche und partielle Differentialgleichungen. VCH Verlagsgesellschaft, Weinheim, 2. Auflage 1990 (Band 1), 2. Auflage 1990 (Band 2). [Bla] Chr. Blatter, Wavelets — eine Einführung. Vieweg Verlag, 1998. [BöRee] M. Böhm, G. Reents, Mathematik für Ingenieure I und II, Manuskript zu einer zweisemestrigen Vorlesung. Band 1: Differential- und Integralrechnung, Band 2: Vektorräume, Lineare Algebra, Analysis mehrerer Variablen, Vektoranalysis. Würzburg, Version Oktober 2004 (Band 1), Version April 2005 (Band 2). [Brö] Th. Bröcker, Lineare Algebra und Analytische Geometrie, Ein Lehrbuch für Physiker und Mathematiker. Vektorräume, Matrizenrechnung, Determinante, Bilinearformen, Jordansche Normalform, Geometrie, Tensorrechnung, Lineare Gruppen und Liealgebren, Quaternionen und orthogonale Gruppen, Ringe und Moduln. Birkhäuser, Basel/Boston/Berlin, 1. Auflage 2003. [DaCa] M. P. DoCarmo, Differentialgeometrie von Kurven und Flächen, Vieweg, Braunschweig, 3. Auflage 1993. [FiKau] H. Fischer, H. Kaul, Mathematik für Physiker. Band 1: Grundlagen, Vektorrechnung im Rn , Analysis einer Veränderlichen, Lineare Algebra, Analysis mehrerer Variablen, Vektoranalysis, Einführung in die Funktionentheorie, Band 2: Gewöhnliche und partielle Differentialgleichungen, mathematische Grundlagen der Quantenmechanik, Band 3: Variationsrechnung, Differentialgeometrie, mathematische Grundlagen der allgemeinen Relativitätstheorie. Teubner, Stuttgart, 5. Auflage 2005 (Band 1), 2. Auflage 2004 (Band 2), 2. Auflage 2006 (Band 3). [Fo] O. Forster, Analysis. Band 1: Differential- und Integralrechnung einer Veränderlichen, Band 2: Differentialrechnung im Rn , Gewöhnliche Differentialgleichungen, Band 3: Integralrechnung im Rn mit Anwendungen. Vieweg+Teubner, Braunschweig/Wiesbaden, 10. Auflage 2011 (Band 1), 9. Auflage 2011 (Band 2), 6. Auflage 2011 (Band 3). 374 LITERATURVERZEICHNIS [HeuA] H. Heuser, Lehrbuch der Analysis. Band 1: Mengen und Zahlen, Folgen und Reihen, Differential- und Integralrechnung in einer Variablen, Band 2: Differential- und Integralrechung in mehreren Variablen, Integralsätze, Banachräume, Fourierreihen, Fixpunktsätze. Teubner, Stuttgart, 15. Auflage 2003 (Band 1), 13. Auflage 2004 (Band 2). [HeuD] H. Heuser, Gewöhnliche Differentialgleichungen. Allgemeine Theorie, spezielle Typen, Stabilitätstheorie und viele Beispiele. Teubner, Stuttgart, 5. Auflage 2006. [Ka] E. Kamke, Differentialgleichungen: Lösungsmethoden und Lösungen. Band 1: gewöhnliche Differentialgleichungen, Band 2: partielle Differentialgleichungen. Teubner, Leipzig, 1959. [Köh] G. Köhler, Analysis. Heldermann Verlag, Lemgo, 1. Auflage 2006. [Kön] K. Königsberger, Analysis. Band 1: Grundlagen, Differential- und Integralrechung in einer Variablen, Differentialgleichungen, Fourierreihen, Band 2: Differential- und Integralrechung in mehreren Variablen, Kurvenintegrale, LebesgueIntegral. Springer, Berlin, 6. Auflage 2004 (Band 1), 5. Auflage 2004 (Band 2). [MaTro] J. E. Marsden, A. J. Tromba, Vector Calculus. The Geometry of Euclidean Space; Differentiation; Vector-Valued Functions; Higher-Order Derivatives: Maxima and Minima; Double Integrals; The Triple Integral, The Change of Variables Formula, And Applications; Integrals Over Paths and Sucfaces; The Integral Theorems of Vector Analysis. W. H. Freeman and Company, 3. Auflage 1988. [RyGrad] I. S. Gradstein, I. M. Ryshik, Summen-, Produkt- und Integraltafeln / Tables of Series, Products and Integrals. zwei Bände deutsch/englisch. Verlag Harri Deutsch, dt. Übersetzung der 5. russ. Auflage, 1981. [StBul] J. Stoer, R. Bulirsch, Einführung in die Numerische Mathematik, Springer-Verlag, 2005 (Band 1, 9. Auflage), 2000 (Band 2, 4. Auflage). 375 Index ·, 6, 32 ∗, Faltung von Funktionen (Fourier-Transf.), 305 ∗, Faltung von Funktionen (Laplace-Transf.), 215 + in Körpern, 3 −γ (bei Kurven), 176 < in geordneten Körpern, 5 A−1 , 232 H, 118 K(~a), 101 Kr (a) in C, 32 L(γ), 175 L(γ) (Bogenlänge), 175 MB (L), 227 MBC (L), 227 P (~a), 103 S1 , 101 S2 , 101 Sn−1 , 101 T∞ [f, a], 142 Tn [f, a], 142 [c, d[, 12 [c, d], 12 Bild(A), 239 Bild(L), 221 def(A), 239 def(L), 224 ∆, 188 End(V ), 225 GL(2), 86 GL(n, K, 271 Γ, 211 Hom(V, W ), 225 Im, 31 Kern(A), 239 Kern(L), 221 O für Folgen, 29 O für Funktionen, 123 O für Folgen, 29 O für Funktionen, 123 ⇔, 1 O(n), 271 Re, 31 rg(A), 239 rg(L), 224 ⇒, 1 SO(2), 89 SO(n), 271 SU(n), 271 Span, 95 Spin(3), 271 Spur(A), 256 U(n), 271 ≈,25 c k , 9 ∩, 2 χA (t), 256 χD , 347 ∪, 2 f¨(a), 140 δk,l , 101 diag(λ1 , . . . , λn ), 256 dim, 223 div, 188 f˙(a), 132 ẋ(t0 ), 133 `2 (C), 266 `2 (R), 266 ε-δ-Kriterium für Grenzwert, 119 ε-δ-Kriterium für Stetigkeit, 125 ε-Schlauch um eine Funktion, 158 εklm , 105 exp, 50 d2 dxn2 , 140 d dxn , 140 d dx , 132 γ + δ (bei Kurven), 176 inf, R 15 ~v (~x) d~x, 182 Rγ f (~x) ds, 180 γ R ~x2 ~v (~x) d~x, 183 ~ x1 h·, ·i bei R-VR 99, bei C-VR 266 ld, 55 b·c, 16 lg, 55 limn→∞ , 19, 21 limx→a+ , 121 limx→a− , 121 limx→a , 119 ln, 53 376 loga , 55 ~ 179 B, C, 31 CN , 93 Cn , 93 Cm×n , 227 N, 7 Q, 11 R, 15 R+ , 12 R+ 0 , 12 R− , 12 R− 0 , 12 R2 , 82 RN , 93 Rn , 92 Rm×n , 227 Z, 7 C 0 , 126 C 0 -Funktion (eine Var.), 126 C 1 , 153 C 1 (eine Var.), 142 C 1 -Funktion, 142 C 1 -Funktion (mehrere Var.), 153 C ∞ , 142, 153 C ∞ -Funktion (eine Var.), 142 C ∞ -Funktion (mehrere Var.), 153 C n , 142, 153 C n -Funktion (eine Var.), 142 C n -Funktion (mehrere Var.), 153 F(D, K), 93 L2 , 294 R1 (R), 299 max, 13 min, 13 ∇, 153 ¬, H 1 ~v (~x) d~x, 183 γ z, 32 K(~a), 101 ∂D für D ⊂ Rn , 116 ∂K Q (~a), 101 ,8 · in Körpern, 3 det, 248 rot, 189 r, 2 sgn, 6 ' für Folgen, 30 ' für Funktionen, 123 sinc, 118 √ n ·, 16 √ ·, 16 ⊂, 2 INDEX ⊆, 2 (, P2 ,8 sup, 15 τ (Torsion), 180 ~ , 177 N ~ T , 177 ~σ (Bogenlängenparametrisierung), 177 e~k , 95 ∨, 1 ∧, 1 ]c, d[, 12 ]c, d], 12 cn , n ∈ Z, 9 f 00 (a), 140 f 0 (a), 132 f 0 (a+), 132 f 0 (a−), 132 f (a+), 125 f (a−), 125 f (x) → b für x → a, 119 f (n) (a), 140 n!, 9 nA,λ , 257 vn (P ), 347 vn (Q), 346 0 , 132 00 , 140 1-1-Abbildung, 48 Ähnlichkeitssatz, Laplace-Transformation, 214 Äquivalenz von Aussagen, 1 ähnliche Matrizen, 237 äußeres Einheitsnormalenfeld, 363 Abbildung, 46 Abel, Niels Hendrik, 69 abelsche Gruppe, 86 Abfall, exponentieller, 30 Abfall, polynomialer, 30 abgeschlossen bzgl. + und ·, 4 abgeschlossen bzgl. Vektorraumoperationen, 92 abgeschlossene Menge, 116 abgeschlossenes Intervall, 12 Ableitung, 133 Ableitung der Umkehrfunktion (eine Var.), 136 Ableitung in einem Punkt, 132 Ableitung in einem Punkt, 313 Ableitungsoperator, 220 abschnittsweise erklärte Zuordnungsvorschrift, 47 absolut uneigentlich integrierbar, 207 absolut konvergente Reihe, 42 Abspalten einer Nullstelle (bei Polynomen), 67 Abstand im R2 , 87 abstandserhaltende Abbildung, 90 377 INDEX Abtast-Theorem von Shannon, 303 Abzählbarkeit von Q, 11 achsensymmetrische Funktion, 50 Additionstheorem für Binomialkoeff., 9, 68 Additionstheorem für trig. Funktionen, 58 Additionstheoreme der Hyperbelfunktionen, 56 Additivität des Integrals, 162 adjungierte Matrix, 234 affiner Teilraum, 95 algebarische Funktion, 72 Algebra, 232 algebraische Vielfachheit eines Eigenwerts, 257 Aliasing, 304 allgemeine Exponentialfunktion, 54 allgemeiner Logarithmus, 55 Alternieren (bei Determinanten), 248 alternierende Reihe, 41 alternierende harmonische Reihe, 41 analytische Funktion, 143 Aneinanderhängen von Kurven, 176 Anfangsbedingung (Beispiel), 151 Anfangspunkt einer Kurve, 113 Anfangswerte (lin. hom. DGL 2. Ordung), 97 Anfangswertproblem, 192 antilinear, 263 Antisymmetrie (Kreuzprodukt), 105 Antisymmetrie (Spatprodukt), 106 antisymmetrische Matrix, 234 Archimedische Anordnung von Q, 11 Archimedische Anordnung von R, 15 Archimedisches Prinzip, 15, 370 Arcuscosinus, 60 Arcuscotangens, 65 Arcussinus, 61 Arcustangens, 65 Arcustangensreihe, 145 Areacosinus Hyperbolicus, 57 Areasinus Hyperbolicus, 57 Areatangens Hyperbolicus, 57 Argument einer komplexen Zahl, 61 arithmetisches Mittel, 6 Assoziativgesetz, 3 Asymptoten einer Hyperbel, 279 asymptotische Gleichheit von Folgen, 30 asymptotische Gleichheit von Funktionen, 123 Auflösebedingung, 338 Aussage, 1 AWP, 192 Babylonisches Wurzelziehen, 27 Banach-Hausdorff-Tarski-Paradoxon, 157, 350 bandbegrenzte Funktion, 302 Bandbreite, 302 Basis, 96 Basis einer Potenz, 9 Basis einer Potenz, 54 Basisaustauschsatz, 224 Basisergänzungssatz, 224 Basislösung (lin. DGL 2. Ordnung), 97 Basiswechsel, 236 bedingt konvergente Reihe, 42 bedingt uneigentlich integrierbar, 207 begleitendes Dreibein, 179 begleitendes Zweibein, 178 Bernnoullische DGL, 199 Bernoulli-Zahlen, 78 Bernoullische Ungleichung, 10 beschränkte Funktion, 49 beschränkte Teilmenge von C, 32 beschränkte Teilmenge von R, 13 beschränktes Intervall, 12 Beschränktheit des Integrals für Treppenfkt., 161 Besselsche Ungleichung, 296 Bestapproximation im Quadratmittel, 268 bestimmte Divergenz, 28 Betrag einer reellen Zahl, 6 Bewegung des Rn , 272 bijektiv, 48 Bild einer linearen Abbildung, 221 Bild einer Matrix, 239 Bild unter einer Abbildung, 46 Bilinearform, 263 Binomialkoeffizient, 9 Binomialreihe, 41 binomische Formel, 10 Binormalenvektor, 179 Bogenlänge, 175 Bogenlängenparametrisierung, 177 Bogenmaß eines Winkels, 64 Cantorsches Diagonalverfahren, 11 Cauchy-Folge im Rn , 112 Cauchy-Folge in C, 36 Cauchy-Folge in R, 28 Cauchy-Hauptwert, 208 Cauchy-Integral, 157 Cauchy-Kriterium, 28 Cauchy-Produkt zweier Reihen, 44 Cauchy-Schwarzsche Ungleichung, 100 Cavalierisches Prinzip, 253 charakteristische Funktion, 156, 347 charakteristisches Polynom einer Matrix, 256 charakteristisches Polynom einer quad. Gl., 97 charakteristisches Polynom eines Diff.Op., 261 Chebyshev-Polynome 1. Art, 298 Cosinus, 58 Cosinus Hyperbolicus, 55 Cosinus-Reihe, 203 378 Cosinussatz, 88 Cotangens, 64 Cotangens Hyperbolicus, 57 Cramersche Regel, 107 Dämpfungssatz, Laplace-Transformation, 214 Defekt einer Matrix, 239 Defekt einer lin.Abb., 224 Definitionsbereich, 46 dekadischer Logarithmus, 55 Determinante (n × n), 248 Determinante (3 × 3), 106 Determinante (2 × 2), 85 Determinante (lineare Abbildung), 250 Determinantenform, 248 Dezimalbruchentwicklung, 24 Dezimalkomma, 24 Dezimalpunkt, 24 DGL, 191 DGL mit getrennten Variablen, 193 DGL mit rationalem Richtungsfeld, 200 diagonalähnliche Matrix, 256 Diagonaleintrag (Matrix), 233 diagonalisierbare Matrix, 256 Diagonalmatrix, 256 Dichtheit von Q, 11 Diffeomorphismus, 332 Differential, 313 Differentialgleichung, 191 Differentiationssatz, Laplace-Transformation, 214 Differenzenquotient, 132 differenzierbar, 133, 313 differenzierbar in einem Punkt, 132, 313 Differenzierbarkeit (eine Variable), 132 Differenzierbarkeit (mehrere Variable), 313 Dimension einer DGL, 191 Dimension einer Lösungsmannigfaltigkeit, 340 Dimension eines Vektorraums, 223 Dimensionsformel für lin.Abb., 224 Dirac-Folge, 290 direkter Beweis, 14 Dirichlet, 201 Dirichlet-Funktion, 128 diskrete Wavelet-Transformation, 307 Distributivgesetz, 3 divergente Folge, 29 divergente Reihe, 37 Divergenz, 188 divergenzfrei, 188 Division, 3 Doppelkreuzung mit parallelen Geraden, 80 Doppelreihe, 43 Drehmatrix (2 × 2), 89 Drehstreckung (in der Zahlenebene), 34 INDEX Dreieckschwingung, 288 Dreiecksmatrix, 233 Dreiecksungleichung in C, 33 Dreiecksungleichung (Norm), 100 Dreiecksungleichung (Supremumsnorm), 158 Dreiecksungleichung im R2 , 87 Dreiecksungleichung in R, 6 Durchschnitt, 2 Ebene, 95 echt rationale Funktion, 71 Eigenraum bei lin. Abb., 257, 260 eigentliche Konvergenz, 29 Eigenvektor bei lin. Abb., 260 Eigenvektor bei Matrizen, 256 Eigenwert bei lin. Abb., 260 Eigenwert bei Matrizen, 256 eineindeutig, 48 Einheitskreis im R2 , 101 Einheitsmatrix (2 × 2), 85 Einheitsmatrix (n×), 227 Einheitsnormalenfeld, 361 Einheitsnormalenvektor, 106 Einheitspunkte, 81 Einheitssphäre im R3 , 101 Einheitssphäre im Rn , 101 Einheitsvektor, 81 Einheitswürfel, 252 Einheitswurzel, 70 einschaliges Hyperboloid, 281 Einschränkung einer Funktion, 48 einseitiger Grenzwert, 121 Einsfunktion, 50 Einsteinsche Summenkonvention, 8 1-1-Abbildung, 48 Element, 1 Ellipse, 279 Ellipsoid, 281 Emissionsmaxium eines strahlenden Körpers, 129 Endomorphismen, 225 Endpunkt einer Kurve, 113 entgegengesetzt orientiert, 254 Entwickeln eines Polynoms, 68 Entwicklungspunkt einer Potenzreihe, 73 Entwicklungssatz (Determinante), 249 Erzeugnis, 94 euklidische Bewegung, 90 euklidischer Vektorraum, 99 Euler-Konstante, 211 Euler-Produkt (Zeta-Funktion), 210 Eulersche DGL, 200 Eulersche Formel, 58 Eulersche Zahl, 52 exaktes Vektorfeld, 183 INDEX explizite DGL erster Ordnung, 191 explizite Funktion, 338 explizite Zuordnungsvorschrift, 47 Exponent einer Potenz, 9, 54 Exponentialfunktion, 50 Exponentialreihe, 39 Faktorisierung eines Polynoms, 69 Fakultät, 9 Faltung von Funktionen (Fourier-Transf.), 305 Faltung von Funktionen (Laplace-Transf.), 215 Faltungssatz (Fourier-Transf.), 305 Faltungssatz (Laplace-Transf.), 215 fast überall gleich, 156, 348 Fast Fourier Inversion, 293 Fejér-Kern, 289 Fibonacci-Zahlen, 17 Flächen zweiter Ordnung, 278 Flächeninhalt, 365 Flächenparameterwechsel, 361 Flächenparametrisierung, 360 Flächenstück, 361 Fluss eines Vektorfeldes, 367 Folgenglied, 17 Folgenkriterium für Grenzwert, 119 Folgenkriterium für Stetigkeit, 126 Fortsetzung einer Funktion, 48 Fourier, 200 Fourier-Entwicklung (allg.), 295 Fourier-Koeffizienten, 203 Fourier-Koeffizienten (allg.), 295 Fourier-Koeffizienten (diskret), 292 Fourier-Koeffizienten (komplex), 286 Fourier-Koeffizienten (reell), 286 Fourier-Polynom, 286 Fourier-Rücktransformation, 287 Fourier-Rücktransformation (diskret), 292 Fourier-Reihe, 286 Fourier-Reihe (komplexe), 203 Fourier-Reihe (reelle), 203 Fourier-Synthese, 287 Fourier-Transformation, 287 Fourier-Transformation (diskret), 292 Fourier-Transformation in R1 R, 299 Fourier-transformierbar, 286 Freiheitsgrade einer Lösungsmannigfaltigkeit, 340 Frenet-Formeln, 180 Fundamentallösung (lin. DGL 2. Ordnung), 97 Fundamentalmatrix (Bi-, Sesquilinearform), 263 Funktion, 46 Funktion einer komplexen Variablen, 112 Funktion einer reellen Variablen, 112 Funktion mehrerer Variablen, 112 Funktional, 47 379 Funktionalgleichung der Exponentialfunktion, 51 Funktionalgleichung der trig. Funktionen, 58 Funktionalgleichungen der Hyperbelfunkt., 56 Funktionenfolge, 201 Funktionenreihe, 203 gültige Stellen, 25 Galois, Evariste, 69 Gamma-Funktion, 211 ganze Zahlen, 7 Gauß, Carl Friedrich, 69 Gauß-Klammer, 16 Gauß-Methode kleinster Quadrate, 331 Gaußsche Normalengleichungen, 331 Gaußsche Zahlenebene, 32 Gaußscher Integralsatz, 368 Gaußsches Fehlerintegral, 173 Gebiet, 185 gedämpfte kollabierende Oszillation, 118 gekoppelte Pendel, 255 gemischte partielle Ableitungen, 153 generalisierte Koordinaten, 333 geographische Breite, 110 geographische Länge, 110 geometrische Summenformel, 10 geometrische Reihe, 37 geometrische Vielfachheit eines Eigenwerts, 257 geordneter Körper, 5 Gerade, 95 gerade Funktion, 50 Gerade im R2 , 83 gerade Zahl, 4 gerichtete Größe, 79 Gewichtsfunktion (Mittelwertsatz der Int.), 164 glatte Kurve, 176 Gleichheit von Funktionen, 47 Gleichheit von Vektoren, 81 gleichmäßiger Abstand zweier Funktionen, 158 gleichorientiert, 254 Glieder einer Reihe, 37 Graßmannscher Entwicklungssatz, 105 Grad eines Polynoms, 66 Gradient, 153, 323 Gradient in generalisierten Koordinaten, 335 Gradientenfeld, 184 Gradientenlinie, 342 Gradmaß eines Winkels, 64 Gramsche Matrix, 334 Gramsche Determinante, 365 Graph einer Funktion, 48, 114 Greensche Formeln, 370 Grenzfunktion, 201 Grenzvektor einer Folge, 111 Grenzwert einer Folge, 21 380 Grenzwert einer Funktion, 119 Grenzwert einer Reihe, 37 Grenzwertkriterium für Stetigkeit, 125 Grundkörper eines Vektorraums, 92 Gruppe, 86 Häufungspunkt, 115 höhere Ableitung, 140 höhere partielle Ableitung, 153 Haar-Wavelet, 309 halboffenes Intervall, 12 harmonisch, 188 harmonische Reihe, 37 Hauptachsen einer Ellipse, 279 Hauptachsenradien eines Ellipsoids, 281 Hauptachsenradien einer Ellipse, 279 Hauptachsentransformation, 274 Hauptnormalenvektor, 177 Hauptsatz über stetige Funktionen, 130 Hauptsatz der Diff.- und Int. (Integralfkt.), 165 Hauptsatz der Diff.- und Int. (Skalarfeld), 324 Hauptsatz der Diff.- und Int. (Stammfkt.), 166 Hauptteil einer rationalen Funktion, 71 Hauptzweig des Logarithmus, 63 Hauptzweig des Arcuscosinus, 60 Hauptzweig des Arcussinus, 61 Hauptzweig des Arguments, 62 Heaviside-Funktion, 118 hebbarer Pol, 128 Hermite-Polynome, 299 hermitesche Abbildung, 273 hermitesche Matrix, 234 hermitesche Sesqilinearform, 263 Hermitezität (Skalarprodukt für C-VR), 266 Hesse-Matrix, 327 Hessesche Normalform, 106 Hilbert-Raum, 296 Hilbertscher Folgenraum (komplex), 266 Hilbertscher Folgenraum (reell), 266 Hilbertscher Funktionenraum, 294, 351 hinreichende Bed. für lokale Extrema, 146 hinreichende Bedingung, 14 Hintereinanderausführung von Funktionen, 48 homogene Gleichung, 220 Homogenität (Norm), 100 Homogenität (Supremumsnorm), 158 Homomorphismus, 225 Horner-Schema, 66 Hyperbel, 279 Hyperboloid, 281 Hyperfläche, 342 Hyperflächeninhalt, 364 Hyperflächenparametrisierung, 361 Hyperflächenstück, 361 INDEX Hypozykloide, 369 identisch verschwindende Funktion, 50 identische Abbildung, 47 Identität, 47, 220 Identitätssatz für Skalarfelder, 325 Identitätssatz für das Integral, 163 Identitätssatz für diff. bare Fkt., 140 Identitätssatz für Polynome, 68 Identitätssatz für Potenzreihen, 75 imaginäre Einheit, 31 Imaginärteil, 31 Implikation, 1, 13 implizite, 47 implizite Funktion, 338 implizite Funktion (Beispiel), 137 indefinite quad. Form, 265 Index (bei Folgen), 17 Indexverschiebung, 8 indirekter Beweis, 14 Induktionsschluss, 7 Induktionsschritt, 7 Induktionsverankerung, 7 induktive Menge, 6 Infimum, 15 inhomogene Gleichung, 220 injektiv, 48 inkompressible Flüssigkeit, 371 inkompressible stationäre Strömung, 371 Innenprodukt im R2 , 87 innerer Punkt, 115 Integrabilitätsbedingung, 186 Integral einer Regelfunktion, 159 Integral einer Treppenfunktion, 157, 347 Integralfunktion, 165 Integrallogarithmus, 173 Integralsinus, 173 integrierbare Funktion, 349 integrierbare Funktion, 158 Intervall, 12 Intervallgrenze, 12 Intervallschachtelung, 24 inverse Matrix (2 × 2), 85 inverses Element, 3 inverses Element in einer Gruppe, 86 Inversion in der Zahlenebene, 35 invertierbare Matrix, 232 isolierter Punkt, 115 Isometrie, 269 Jacobi-Identität, 105 Jet, 326 Jordan-Block, 257 Jordansche Normalform, 285 381 INDEX Körper, 4 Körperaxiome, 3 Kardinalreihe, 304 kartesische Koordinaten, 81 kartesische Koordinaten, 32 Katenoide, 56 Kegel, 280 Kegelschnitt, 278 Kern einer Matrix, 239 Kern einer linearen Abbildung, 221 Kettenlinie, 56 Kettenregel für Ableitungen (eine Variable), 135 Koeffizienten einer Matrix, 227 Koeffizientenvergleich bei Polynomen, 68 kollabierende Oszillation, 118 kommutative Gruppe, 86 Kommutativgesetz, 3 kompakte Menge, 116 kompaktes Intervall, 12 Kompaktum mit glattem Rand, 362 Komplement, 2 komplexe Zahlen, 31 komplexes Polynom, 66 komplexwertige Funktion, 112 Komponenten eines Koordinatenvektors, 81 Komponentenfunktion, 112 Komposition von Funktionen, 48 konforme Abbildung, 62 Kongruenzabbildung, 90 konjugierte Matrix, 234 konjugierte Zahl, 32 konservatives Vektorfeld, 183 konstante Funktion, 47 Kontinuitätsgleichung, 371 konvergente Doppelreihe, 44 konvergente Folge komplexer Zahlen, 35 konvergente Folge reeller Zahlen, 21 konvergente Folge von Vektoren, 111 konvergente Majorante, 39 konvergente Reihe, 37 Konvergenzabszisse bei Laplace-Transformation, 212 Konvergenzradius, 74 Koordinatenachsen, 81 Koordinatentransformation, 332 Koordinatenvektor, 81 Koordinatenwechsel, 237 Krümmung einer Kurve, 177 Krümmungskreis, 178 Kreiselbewegung, 272 Kreisgleichung, 58 Kreisinneres in C, 32 Kreislinie in C, 32 Kreisscheibe in C, 32 Kreuzprodukt, 104 kritischer Punkt (Fkt. einer Variablen), 146 kritischer Punkt (Fkt. mehrerer Variablen, 154 Kronecker-Symbol, 101 krummlinige Koordinaten, 333 Kugel, 101 Kugelfunktionen 1. Art, 297 Kugelkoordinaten, 110 Kugelkoordinaten (n-dimensional), 358 Kugeloberfläche, 101 Kugelvolumen, 358 Kurve, 113 Länge eines Kreisbogens, 64 Länge im R2 , 86 längenerhaltende Abbildung, 90 längentreu, 271 Lösung einer DGL, 192 Lösungsmannigfaltigkeit, 340 Lagrange-Funktional, 344 Lagrange-Multiplikatoren, 343 Lagrange-Polynome, 68 Laguerre-Polynome, 298 Landau-O für Folgen, 29 Landau-O für Folgen, 29 Landau-O für Funktionen, 123 Landau-O für Funktionen, 123 Landau-Notation für Folgen, 29 Landau-Notation für Funktionen, 123 Laplace-Integral, 212 Laplace-Operator, 188 Laplace-transformierbare Funktion, 212 Laplace-Transformierte einer Funktion, 212 Laplacescher Entwicklungssatz, 249 Lebesgue-Integral, 349 Lebesgue-integrierbare Funktion, 349 leere Menge, 2 Legendre-Polynome 1. Art, 297 Leibniz, Gottfried Wilhelm, 132 Leibniz-Kalkül, 136 Leibniz-Kriterium für Reihen, 40 Leibniz-Regel, 140 Leibniz-Reihe, 40 Leitkoeffizient eines Polynoms, 66 Levi-Civita-Tensor, 105 Levi-Folge, 350 LGS, 238 linear abhängig, 94 linear-logarithmische Darstellung, 55 lineare Abbildung, 219 lineare DGL 1. Ord mit konst. Koeff., 151 lineare DGL erster Ordnung, 197 lineare Hülle, 94 lineare homogene DGL r-ter Ordnung, 261 lineare homogene DGL 2. Ordnung, 96 382 lineare inhomogene DGL 2. Ordnung, 98 linearer Differentialoperator, 261 linearer Operator, 220 lineares Funktional, 220 lineares Gleichungssystem, 238 Linearform, 220 Linearität (Kreuzprodukt), 105 Linearität (Skalarprodukt für C-VR), 266 Linearität (Skalarprodukt in R-VR), 99 Linearität (Spatprodukt), 107 Linearität der Ableitung (eine Variable), 134 Linearität des Integrals für Treppenfkt., 161 Linearitätssatz, Laplace-Transformation, 214 Linearkombination, 94 linksseitig differenzierbar, 132 linksseitig stetig, 125 linksseitige Ableitung, 132 linksseitiger Grenzwert, 121 Linkssystem, 106 logarithmisch-lineare Darstellung, 55 logarithmisch-logarithmische Darstellung, 55 Logarithmus dualis, 55 Logarithmusfunktion, 53 Logarithmusreihe, 145 logisches oder, 1 logisches und, 1 logistische DGL, 194 lokale Koordinaten, 133, 314 lokales Extremum, 139 lokales Maximum, 139 lokales Minimum, 139 Lorentz-Form, 264 Lotfußpunkt, 89 Möbius-Band, 362 Maßtensor, 334 Majorantenkriterium für Funktionenreihen, 203 Majorantenkriterium für Reihen, 39 Mantellinie einer Rotationsfläche, 366 Massenerhaltungssatz, 371 Matrix (3 × 3), 108 Matrix (m × n), 227 Matrix (2 × 2), 85 Matrizenexponentialfunktion, 283 Matrizengruppe, 271 Matrizennorm, 283 Maximum einer Menge, 13 mehrfach stetig differenzierbar, 142 mehrfacher Eigenwert, 257 Menge, 1 metrischer Tensor, 334 Minimum einer Menge, 13 Minkowski-Metrix, 264 Mittelpunkt, 84 INDEX Mittelpunkt einer Kugel, 101 Mittelwertsatz der Int., 163 Mittelwertsatz für Skalarfelder, 328 momentaner Drehvektor, 272 Monom, 222 monoton wachsende Funktion, 49 monoton fallende Funktion, 49 monoton fallende Folge, 27 monoton wachsende Folge, 27 Monotonie des Grenzwerts, 22 Monotonie des Integrals für Treppenfkt., 161 Monotoniekriterium für Reihen, 39 Monotoniekriterium für Folgen, 27 Monotoniekriterium für differenzierbare Fkt., 140 Multilinearität (bei Det.), 248 Multiplikatorenregel von Lagrange, 343 Mutter-Wavelet, 306 Nabla-Operator, 153 nach oben beschränkte Menge, 12 nach unten beschränkte Menge, 12 natürliche Zahlen, 7 natürlicher Definitionsbereich, 47 natürlicher Logarithmus, 53 Nebenteil einer rationalen Funktion, 71 negativ definite quad. Form, 265 negativ orientiert, 254 negativ orientiertes ONS, 106 negativ semidefinite quad. Form, 265 negative Zahl, 5 Nennerpolynom einer rationalen Funktion, 71 neutrales Element, 3 neutrales Element einer Gruppe, 86 Newton, Isaac, 132 Newton-Iteration, 148 nichtorientierter Winkel, 100 nilpotente Matrix, 230 Niveaumenge, 342 Niveaumenge einer Funktion, 114 Norm (zu einem Skalarprodukt), 99 Norm im R2 , 86 Norm im Rn , 99 Norm zu einem Skalarprodukt, 267 Normale im R3 , 106 Normalendarstellung einer Geraden, 88 Normalenvektor im R2 , 88 Normalform einer Quadrik, 278 normierter Vektor, 267 normierter Vektor im R2 , 86 Normiertheit (bei Det.), 248 notwendige Bedingung, 14 notwendige Bedingung für lokale Extrema, 139 notwendiges Konvergenzkriterium für Reihen, 37 Nullfolge, 19 383 INDEX Nullfunktion, 50 Nullmatrix, 227 Nullmenge, 347 Nulloperator, 220 Nullpunkt, 81 Nullraum, 92 Nullstelle eines Polynoms, 67 Nullstellen stetiger Funktionen, 129 nullte Ableitung, 140 Nullvektor, 81, 92 Nyquist-Frequenz, 303 obere Schranke, 12 offene Menge, 116 offenes Intervall, 12 ONB, 102, 267 ONS, 102, 267 Operator, 47 Optimierungsproblem, 147 Ordnung einer DGL, 191 Ordnungsaxiome, 5 orientierte Kurve, 113 orientiertes Hyperflächenstück, 361 Orientierung eines Hyperflächenstücks, 361 orientierungstreu, 254 orthogonal, 101 orthogonal zu einer Menge, 267 Orthogonalbasis, 267 orthogonale Projektion, 268 orthogonale Abbildung, 269 orthogonale Gruppe, 271 orthogonale Matrix, 235 orthogonale Menge, 267 orthogonale Projektion, 89, 103 orthogonale Vektoren, 267 orthogonale Vektoren im R2 , 88 orthogonales Komplement, 101, 267 Orthogonalitätsrelationen (cos, sin), 169 Orthogonalitätsrelationen (exp), 168 Orthogonalsystem, 267 Orthonormalbasis, 102, 267 orthonormale Menge, 267 Orthonormalisieren, 103 Orthonormalisierungsverfahren, 103 Orthonormalsystem, 267 Ortsvektor, 81 Oszillationsstelle, 127 Oversampling, 304 Parabel, 280 Parabelschwingung, 288 Paraboloid, 281 Parallelenaxiom, 80 Parallelotop, 252 Parameterwechsel, 113 Parametrisierung einer Ebene, 95 Parametrisierung einer Geraden, 83, 95 Parametrisierung einer Kurve, 113 parkettierbare Menge, 346 Parkettierung, 346 Parsevalsche Gleichung, 296 Partialsumme, 36 partielle Ableitung, 152 partielle Funktion, 152 Pascalsches Dreieck, 9 periodische Funktion, 50 Perronsches Paradoxon, 130 Poincaré-Lemma, 186 Pol, 128 Polarisationsgleichung, 265 Polarkoordinaten im Raum, 110 Polarkoordinaten in C, 61 Polordnung, 128 Polynom, 66 Polynom 2. Grades in n Variablen, 277 Polynomdivision, 66 positiv definite quad. Form, 265 positiv orientiert, 254 positiv orientiertes ONS, 106 positiv semidefinite quad. Form, 265 positive Definitheit (Skalarprodukt C-VR), 266 positive Definitheit (Skalarprodukt R-VR), 99 positive Definitheit (Norm), 100 positive Definitheit (Supremumsnorm), 158 positive Hyperflächenparametrisierung, 361 positive Zahl, 5 Potential, 184 Potential (eine Variable), 166 Potentialfeld, 184 Potentialgleichung, 188 Potenz, beliebige, 54 Potenz, ganzzahlige, 9 Potenzreihe, 73 Potenzreihenansatz bei DGL, 152 Potenzschreibweise, 25 Produkt von Matrix mit Vektor (2 × 2), 85 Produkt von Matrix mit Vektor (3 × 3), 108 Produkt zweier Matrizen (3 × 3), 108 Produkt zweier Matrizen, 230 Produkt zweier Matrizen (2 × 2), 85 Produktregel für Ableitungen (eine Variable), 134 Produktzeichen, 8 punktsymmetrische Funktion, 50 punktweise stetig, 126 Quader, 117, 346 Quadergebäude, 346 Quadrat, 117 quadratintegrable Funktion, 294 384 quadratintegrierbar, 351 quadratische Ergänung, 69 quadratische Ergänzung, 278 quadratische Form, 263 quadratischer Fit, 331 Quadrik, 278 Quaternionen, 271 Quaternionengruppe, 271 Quelldichte, 188, 368 Quotientenregel für Ableitungen (eine Var.), 134 Radiant, 64 radioaktiver Zerfall, 27 Radius einer komplexen Zahl, 61 Radius einer Kugel, 101 Randpunkt einer Menge, 116 Rang einer linearen Abbildung, 224 Rang einer Matrix, 239 rationale Funktion, 71 rationale Zahlen, 11 Rayleigh-Prinzip, 277 Realteil, 31 Rechteck, 117 Rechteckschwingung, 287 rechtsseitig differenzierbar, 132 rechtsseitig stetig, 125 rechtsseitige Ableitung, 132 rechtsseitiger Grenzwert, 121 Rechtssystem, 106 reelle Zahlen, 15 reellwertige Funktion, 112 Regelfunktion, 158 Regelintegral, 157 reguläre Parametrisierung einer Kurve, 177 Regularitätsbedingung, 340 Reihenrest, 39 rein imaginäre Zahl, 32 reine Schwingung, 297 rektifizierbare Kurve, 175 Rekursionsprinzip, 17 Restglied bei Taylor-Entw., Cauchy-Darst., 143 Restglied bei Taylor-Entw., Fehler, 144 Restglied bei Taylor-Entw., Lagrange-Darst., 143 Restglied bei Taylor-Entwicklung, 143 Richtungsableitung, 323 Richtungsvektor einer Geraden, 83 Riemann, 201 Riemann-Integral, 164 Riemannsche Fläche der Exponentialfunktion, 63 Riemannsche Obersumme, 164 Riemannsche Untersumme, 164 Riemannsche Vermutung, 210 Rotation, 189 Rotationsfläche, 366 INDEX rotationsfreies Vektorfeld, 186 Russellsche Antinomie, 2 Sägezahnschwingung, 287 Sampling Theorem, 303 Sandwichprinzip bei Folgen, 22 Sandwichprinzip bei Funktionen, 120 Sattelfläche, 282 Satz über die Jordansche Normalform, 285 Satz über implizite Funktionen, 338 Satz über lokale Umkehrbarkeit, 333 Satz des Eudoxos, 16 Satz des Pythagoras, 32 Satz vom Maximum, 130 Satz vom Maximum für Skalarfelder, 130 Satz von Bolzano-Weierstraß, 28 Satz von Dirichlet, 291 Satz von Fejér, 290 Satz von Fubini, 354 Satz von Gauß im R2 , 369 Satz von Green im R2 , 369 Satz von Lebesgue, 351 Satz von Levi, 351 Satz von Peano für DGL, 193 Satz von Picard-Lindelöf für DGL, 193 Satz von Schwarz, 322 Satz von Stokes, allgemeine Form, 359 Satz von Tonelli, 354 Satz von Weierstraß, 130 Satz von Weierstraß für Skalarfelder, 130 Schmiegparabel, 144 Schranke, 13 Schrankensatz, 325 Schraubenlinie, 113 Schwerpunkt einer Kurve, 181 selbstadjungierte Abbildung, 273 senkrecht, 101 senkrechte Vektoren im R2 , 88 Sesquilinearform, 263 simultane Hauptachsentransformation, 275 Sinc-Funktion, 118 Sinus, 58 Sinus Hyperbolicus, 55 Sinus-Reihe, 203 Skalar, 92 skalare Größe, 79 skalares Hyperflächenintegral, 366 skalares Kurvenintegral, 180 skalares Oberflächenintegral, 366 Skalarfeld, 114 Skalarmultiplikation, 91 Skalarmultiplikation im R2 , 82 Skalarprodukt, 99 Skalarprodukt bei C-VR, 266 385 INDEX Skalarprodukt im R2 , 87 Skalarprodukt im Rn , 99 Skalenparameter, 306 Spalten einer Matrix, 227 Spaltenindex einer Matrix, 227 Spaltenvektor, 92 Spaltfunktion der Frauenhofer-Beugung, 117 Spann, 94 Spatprodukt, 106 Spektralsatz, 274 spezielle orthogonale Gruppe, 89, 271 spezielle unitäre Gruppe, 271 Sphäre, 101 Spiegelung an einem Kreis, 35 Sprungstelle, 127 Spur einer Kurve, 113 Spur einer Matrix, 256 stückweise glatte Kurve, 176 stückweise reguläre Param. einer Kurve, 177 Stammfunktion, 166 Standardbasis, 82 Sterngebiet, 186 stetig, 126 stetig differenzierbar, 142 stetig in einem Punkt, 125 stetige Fortsetzung, 127 Stirling-Formel, 150 Streckung (in der Zahlenebene), 33 streng monoton fallende Folge, 27 streng monoton fallende Funktion, 49 streng monoton wachsende Funktion, 49 streng monoton wachsende Folge, 27 Subtraktion, 3 Summe zweier Matrizen, 229 Summenzeichen, 8 Superpositionsprinzip, 94 Supremum, 15 Supremumsaxiom, 15 Supremumsnorm, 157 surjektiv, 48 Symmetrie (Skalarprodukt in R-VR), 99 symmetrische Abbildung, 273 symmetrische Bilinearform, 263 symmetrische Matrix, 234 System, dynamisches, 191 System, statisches, 191 Tangens, 64 Tangens Hyperbolicus, 57 Tangenteneinheitsvektor, 177 Tangentenproblem, 132 Tangentenvektoren an eine Fläche, 360 Tangentialraum, 314 Tangentialraum an eine Lösungsmannigf., 341 Taylor-Entwicklung, 143 Taylor-Polynom (eine Variable), 142 Taylor-Polynom (mehrere Variable), 326 Taylor-Reihe (eine Variable), 142 Teiler, 4 Teiler eines Polynoms, 67 teilerfremde Polynome, 67 Teilfolge, 18 Teilmenge, 2 Teilraum, 92 Teleskopreihe, 37 Toricelli-Gesetz, 196 Torsion einer Kurve, 179 total differenzierbar, 313 Träger einer Funktion, 303 Trägheitsmoment einer Kurve, 181 Transformationsformel für Integrale, 355 Translation, 90 transzendente Funktion, 72 Trapezregel, 174 Treppenfunktion, 156, 347 trigonometrisches Polynom, 286 triviale Linearkombination, 94 triviale Lösung, 220 Umgebung eines Punktes, 117 umgekehrte Dreiecksungleichung in C, 33 umgekehrte Dreiecksungleichung in R, 6 Umkehrabbildung, 48 umkehrbare Abbildung, 48 Umordnung einer Reihe, 41 Umordnungssatz, 42 Umordnungssatz, großer, 43 unbeschränktes Intervall, 12 unbestimmtes Integral, 166 Undersampling, 304 uneigentlich integrierbar, 207 uneigentliche Konvergenz, 28 uneigentlicher Grenzwert 1. Art bei Fkt., 122 uneigentlicher Grenzwert 2. Art bei Fkt., 122 unendlichdimensionaler Vektorraum, 223 unendliche Reihe, 36 unendliches Produkt, 37 ungerade Funktion, 50 ungerade Zahl, 4 Ungleichungskette, 5 unitäre Matrix, 235 unitäre Abbildung, 269 unitäre Gruppe, 271 unitärer Vektorraum, 266 Universalität expl. DGL erster Ordnung, 192 untere Schranke, 12 Untergruppe, 86 Unterraum, 92 386 Untervektorraum, 92 Unvollständigkeit von Q, 11 Ursprung, 81 Ursprungsebene, 95 Ursprungsgerade, 95 Variation der Konstanten, 198 Vektor, 92 Vektoraddition, 91 Vektoraddition im R2 , 82 Vektorfeld, 114 vektorielle Größe, 79 vektorielles Hyperflächenintegral, 367 vektorielles Kurvenintegral, 182 vektorielles Oberflächenintegral, 367 Vektorprodukt, 104 Vektorraum, 91 Vektorraum Cn , 93 Vektorraum R2 , 82 Vektorraum Rn , 92 Vektorrechnung, 80 vektorwertige Funktion, 112 verallg. Mittelwertsatz der Differentialr., 140 verallg. Mittelwertsatz der Int., 163 verallgemeinerte geometrische Reihe, 40 verallgemeinerte harmonische Reihe, 40 Verbindungsstrecke zweier Punkte, 84 Verdoppelungsformel für Hyperbelfunktionen, 56 Vereinigung, 2 Vergleichskriterium für Folgen, 19 Verhulst-Gleichung, 18 Verkettung von Funktionen, 48 Verneinung einer Aussage, 1 Verschiebung, 90 Verschiebung (in der Zahlenebene), 33 Verschiebungsätze für cos, sin und exp, 60 Verschiebungsparameter, 306 Verschiebungssatz, Laplace-Transformation, 214 Vertauschungssatz, 201 Vielfaches einer Matrix, 230 Vielfachheit einer Nullstelle (bei Polynomen), 67 vollständige Induktion, 7 Vollständigkeit der Regelfunktionen, 162 Vollständigkeit von R, 28 Volumen, 350 Volumen eines Quadergebäudes, 347 Volumen eines Quaders, 346 vONS, 296 Vorzeichen einer reellen Zahl, 6 Würfel, 117 Wachstum, exponentielles, 30 Wachstum, polynomiales, 30 Wahrheitstafel, 1 Wallis-Produkt, 212 INDEX Wavelet, 306 Wavelet-Funktionen, 306 Wavelet-Koeffizient, 308 Wavelet-Polynom, 311 Wavelet-Transformation, 292, 307 Weg, 113 wegezusammenhängend, 117 Wert einer Funktion, 46 Wertemenge, 46 Wertevorrat, 46 Widerspruchsbeweis, 14 Wiensches Gesetz, 129 Winkel, 100 Winkel im R2 , 87 winkelerhaltende Abbildung in R2 , 90 winkelerhaltende Abbildung in C, 62 Wirbeldichte, 189, 372 wirbelfrei, 189 Wohlordnung der natürlichen Zahlen, 8 Wronski-Matrix, 97 Wurzel aus einer Zahl in R+ 0 , 16 Zählerpolynom einer rationalen Funktion, 71 Zahlenebene, 32 Zahlenfolge, 47 Zahlengerade, 3 Zeilen einer Matrix, 227 Zeilenindex einer Matrix, 227 Zeilenmatrix, 228 Zeilenvektor, 93 Zentralfeld, 185 Zerlegungssatz, 261 Zeta-Funktion, 210 Zielbereich, 46 Ziffer, 24 Zoomschritt, 307 Zuordnungsvorschrift, 46 zusammenhängend, 117 zweimal differenzierbar, 140 zweischaliges Hyperboloid, 281 zweiseitiger Grenzwert, 121 zweite Ableitung, 140 zweite partielle Ableitung, 153 Zwischenwertsatz, 129 Zwischenwertsatz für Skalarfelder, 130 zyklische Symmetrie (Spatprodukt), 107 Zykloide, 175 Zylinder über Kegelschnitt, 280 Zylinderkoordinaten im R3 , 107