Analysis 1/2 und Vertiefung Analysis Jürgen Grahl, WS 2011/12, SS 2012 und WS 2012/13 Version: 6.2.2013 - komplettes Skript mit Index 1 Inhaltsverzeichnis Vorwort 1 I 6 Grundlagen 1 Das Prinzip der vollständigen Induktion und einige Anwendungen 7 1.1 Vollständige Induktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Erste Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Der Binomische Lehrsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4 Arithmetisches und geometrisches Mittel . . . . . . . . . . . . . . . . . . . . 12 1.5 Die geometrische Summenformel . . . . . . . . . . . . . . . . . . . . . . . . . 15 2 Die reellen Zahlen 17 2.1 Die algebraische Struktur der reellen Zahlen . . . . . . . . . . . . . . . . . . 17 2.2 Die Ordnungsstruktur der reellen Zahlen . . . . . . . . . . . . . . . . . . . . 23 2.3 Die metrische Struktur der reellen Zahlen: Absolutbetrag und euklidischer Abstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.4 Das Vollständigkeitsaxiom . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.5 Eine exakte Definition der natürlichen Zahlen∗ . . . . . . . . . . . . . . . . . 34 2.6 Vergleich der rationalen und der reellen Zahlen . . . . . . . . . . . . . . . . . 37 3 Die komplexen Zahlen und die Räume Rn und Cn 43 3.1 Warum komplexe Zahlen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2 Konstruktion der komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . 43 3.3 Rn und Cn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4 Metrische Räume 53 II 57 Konvergenz und Stetigkeit 5 Konvergenz von Folgen 57 5.1 Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.2 Der Begriff der Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.3 Regeln für Grenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.4 Einige wichtige Grenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2 6 Konvergenzkriterien für Folgen 71 6.1 Beschränkte und monotone Folgen . . . . . . . . . . . . . . . . . . . . . . . . 71 6.2 Häufungswerte und der Satz von Bolzano-Weierstraß . . . . . . . . . . . . . 73 6.3 Cauchy-Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 7 Unendliche Reihen 81 7.1 Nur eine Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 7.2 Die geometrische, die harmonische und die Exponentialreihe . . . . . . . . . 82 7.3 Allgemeine Konvergenzkriterien für Reihen . . . . . . . . . . . . . . . . . . . 85 7.4 Kriterien für absolute Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . 90 7.5 Umordnung von Reihen 97 7.6 Produkte von Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 7.7 Die Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 7.8 Partielle Summation und das Abelsche Konvergenzkriterium∗ . . . . . . . . . 105 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Ein wenig Topologie 108 8.1 Häufungspunkte von Mengen und Abgeschlossenheit . . . . . . . . . . . . . . 108 8.2 Kompakte Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 9 Stetige Funktionen 114 9.1 Der Begriff der Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 9.2 Das Folgenkriterium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 9.3 Bildung neuer stetiger Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 120 9.4 Beispiele stetiger und unstetiger Funktionen . . . . . . . . . . . . . . . . . . 122 9.5 Grenzwerte von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 9.6 Uneigentliche und einseitige Grenzwerte . . . . . . . . . . . . . . . . . . . . 131 10 Abbildungseigenschaften stetiger Funktionen 134 10.1 Bilder kompakter Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 10.2 Topologische Kennzeichnung der Stetigkeit . . . . . . . . . . . . . . . . . . . 135 10.3 Der Zwischenwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 10.4 Umkehrfunktionen stetiger Funktionen . . . . . . . . . . . . . . . . . . . . . 140 11 Gleichmäßige Konvergenz 145 11.1 Punktweise und gleichmäßige Konvergenz und die Stetigkeit der Grenzfunktion145 11.2 Kriterien für gleichmäßige Konvergenz . . . . . . . . . . . . . . . . . . . . . 149 11.3 Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 11.4 Der Abelsche Stetigkeitssatz∗ . . . . . . . . . . . . . . . . . . . . . . . . . . 162 3 12 Spezielle Funktionen 165 12.1 Die Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 12.2 Der natürliche Logarithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 12.3 Allgemeine Potenzen und Logarithmen . . . . . . . . . . . . . . . . . . . . . 168 12.4 Trigonometrische Funktionen und Hyperbelfunktionen . . . . . . . . . . . . . 171 12.5 Die Kreiszahl π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 12.6 Der Fundamentalsatz der Algebra∗ . . . . . . . . . . . . . . . . . . . . . . . 186 13 Vertiefte topologische Betrachtungen 190 13.1 Bild und Urbild von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . 190 13.2 Weitere topologische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 13.3 Kompaktheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 13.4 Gleichmäßige Stetigkeit und Dehnungsbeschränktheit . . . . . . . . . . . . . 208 13.5 Der Banachsche Fixpunktsatz . . . . . . . . . . . . . . . . . . . . . . . . . . 211 13.6 Ausblick: Topologische Räume . . . . . . . . . . . . . . . . . . . . . . . . . . 213 III Differential- und Integralrechnung einer Variablen 14 Differenzierbarkeit 215 215 14.1 Die Ableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 14.2 Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 14.3 Höhere Ableitungen und stetige Differenzierbarkeit . . . . . . . . . . . . . . 229 15 Die Mittelwertsätze der Differentialrechnung und Folgerungen daraus 233 15.1 Lokale Extrema und stationäre Punkte . . . . . . . . . . . . . . . . . . . . . 233 15.2 Die beiden Mittelwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 15.3 Monotone Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 15.4 Konvexe Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 15.5 Zwischenwertsatz für Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . 249 15.6 Regeln von Bernoulli und de l’Hospital . . . . . . . . . . . . . . . . . . . . . 251 16 Stammfunktionen und Integrationstechniken 255 16.1 Stammfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 16.2 Partielle Integration und Substitutionsregel . . . . . . . . . . . . . . . . . . . 256 16.3 Partialbruchzerlegung rationaler Funktionen . . . . . . . . . . . . . . . . . . 260 4 17 Das Riemann-Integral 265 17.1 Intervallzerlegungen und Treppenfunktionen . . . . . . . . . . . . . . . . . . 265 17.2 Definition des Riemann-Integrals . . . . . . . . . . . . . . . . . . . . . . . . 268 17.3 Operationen mit integrierbaren Funktionen . . . . . . . . . . . . . . . . . . . 274 17.4 Die Integrierbarkeit der stetigen und der monotonen Funktionen . . . . . . . 279 18 Der Hauptsatz der Differential- und Integralrechnung 282 19 Grenzwertvertauschung bei der Differentiation und Integration 288 19.1 Vertauschung der Integration mit Grenzübergängen . . . . . . . . . . . . . . 288 19.2 Vertauschung der Differentiation mit Grenzübergängen . . . . . . . . . . . . 291 20 Taylorpolynome und Taylorreihe 295 20.1 Lokale Approximation durch Taylor-Polynome . . . . . . . . . . . . . . . . . 295 20.2 Taylorsche Formeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 20.3 Die Taylorreihe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 21 Uneigentliche Riemann-Integrale 308 21.1 Definition uneigentlicher Integrale . . . . . . . . . . . . . . . . . . . . . . . . 308 21.2 Konvergenzkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 22 Wege, Kurven und ihre Länge 316 22.1 Wege . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 22.2 Die Länge von Wegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 22.3 Funktionen von beschränkter Variation . . . . . . . . . . . . . . . . . . . . . 326 22.4 Parametertransformationen und Kurven . . . . . . . . . . . . . . . . . . . . 328 IV Differentialrechnung in mehreren Variablen 23 Benötigte Hilfsmittel aus der Linearen Algebra 331 331 23.1 Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 23.2 Lineare Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . 333 23.3 Normierte Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 24 Partielle Ableitungen und totale Differenzierbarkeit 342 24.1 Partielle Differenzierbarkeit und Richtungsableitungen - Auf der Suche nach dem richtigen“ Differenzierbarkeitsbegriff . . . . . . . . . . . . . . . . . . . 342 ” 24.2 Totale Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 24.3 Die Ableitung und die Jacobi-Matrix . . . . . . . . . . . . . . . . . . . . . . 347 5 24.4 Rechenregeln für Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . 352 24.5 Der Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 24.6 Niveaumengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 25 Höhere Ableitungen und lokale Extrema 360 25.1 Die Reihenfolge partieller Ableitungen . . . . . . . . . . . . . . . . . . . . . 360 25.2 Die Hesse-Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 25.3 Bestimmung von Extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366 26 Der Satz über lokale Umkehrbarkeit und der Satz über implizite Funktionen 375 26.1 Der Satz über lokale Umkehrbarkeit . . . . . . . . . . . . . . . . . . . . . . . 375 26.2 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 26.3 Der Satz über implizite Funktionen . . . . . . . . . . . . . . . . . . . . . . . 384 26.4 Beispiele und Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 27 Lokale Extrema unter Nebenbedingungen 391 28 Untermannigfaltigkeiten und Tangentialräume 396 28.1 Untermannigfaltigkeiten in Rn . . . . . . . . . . . . . . . . . . . . . . . . . . 396 28.2 Der Satz vom regulären Wert und der Immersionssatz . . . . . . . . . . . . . 399 28.3 Tangentialebenen an Untermannigfaltigkeiten . . . . . . . . . . . . . . . . . 403 28.4 Ausblick: Der Begriff der Mannigfaltigkeit . . . . . . . . . . . . . . . . . . . 408 V Die Lebesguesche Integrationstheorie 29 Quader, Nullmengen und Treppenfunktionen 410 412 29.1 Quader . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412 29.2 Nullmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 29.3 Treppenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419 30 Das Lebesgue-Integral 421 30.1 Integration von Treppenfunktionen . . . . . . . . . . . . . . . . . . . . . . . 421 30.2 Monotone Folgen von Treppenfunktionen . . . . . . . . . . . . . . . . . . . . 423 30.3 Integrierbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 30.4 Die Konvergenzsätze der Lebesgue-Theorie . . . . . . . . . . . . . . . . . . . 432 30.5 Vergleich zwischen Riemann- und Lebesgue-Integral . . . . . . . . . . . . . . 440 6 31 Messbarkeit 445 31.1 Messbare Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445 31.2 Eine nicht-messbare Menge . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 31.3 Messbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 32 Die Lp -Räume∗ 456 32.1 Die Räume Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456 32.2 Die Höldersche und die Minkowskische Ungleichung . . . . . . . . . . . . . . 457 32.3 Der Raum L∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 32.4 Hilberträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 32.5 Die Vollständigkeit der Räume Lp . . . . . . . . . . . . . . . . . . . . . . . . 461 VI Mehrfachintegrale, Transformationsformel, Integralsätze 465 33 Mehrfache Integrale 465 33.1 Der Satz von Fubini für stetige Funktionen zweier Variabler . . . . . . . . . 465 33.2 Die Sätze von Fubini und Tonelli . . . . . . . . . . . . . . . . . . . . . . . . 467 33.3 Das Cavalierische Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 34 Die Transformationsformel 472 35 Die Integralsätze von Green, Stokes und Gauß 478 35.1 Vektorfelder und Kurvenintegrale . . . . . . . . . . . . . . . . . . . . . . . . 478 35.2 Divergenz, Rotation und Kreuzprodukt . . . . . . . . . . . . . . . . . . . . . 480 35.3 Der Satz von Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482 35.4 Der Satz von Stokes im R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484 35.5 Der Integralsatz von Gauß . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488 Literatur 489 Index 489 7 Vorwort Bei der Erstellung des vorliegenden Skripts wollte ich bewusst nicht das Rad neu erfinden, sondern aus zahlreichen hervorragenden Vorlagen das aus meiner Sicht Gelungenste zusammenstellen. In erster Linie basiert es auf den Vorlesungsausarbeitungen von G. Köhler, aus denen ich selbst die Analysis gelernt habe. Eine unschätzbare Erleichterung war es für mich, dass mir Herr Köhler den LATEX-Quellcode seines Vorlesungsskripts sowie die zugehörigen Grafiken zur Verfügung gestellt hat; auch die meisten der Abbildungen in diesem Skript gehen auf ihn zurück. Darüberhinaus habe ich – neben eigenen Vorstellungen und Erfahrungen – zahlreiche Anregungen aus anderen Analysis-Texten einfließen lassen. Insbesondere die Vorlesungsskripten von C. Kanzow, H. Pabel, O. Roth und J. Steuding sowie die Bücher von E. Behrends und H. Heuser waren in dieser Hinsicht sehr inspirierend für mich, und ich verdanke ihnen eine Menge. Insofern beansprucht dieses Skript in keiner Weise Originalität. Sehr habe ich von den Kommentaren und Anregungen kritischer Leser profitiert. Insbesondere Frank Feustel und Florian Möller danke ich für viele wertvolle Verbesserungsvorschläge. Aus Zeitgründen können einige wenige Themen nicht bzw. nur kursorisch in der Vorlesung behandelt werden. Sie sind durch Sternchen (∗) gekennzeichnet. Für das Verständnis der übrigen Vorlesung sind diese Abschnitte nicht erforderlich, und sie sind auch für die Semesterabschlussklausuren bzw. später für die mündlichen Prüfungen nicht relevant. Dennoch empfehle ich im Hinblick auf das weitere Mathematik-Studium, diese Inhalte in einer ruhigen Stunde (z.B. in den Semesterferien) im Selbststudium durchzuarbeiten. 1 Ein paar Worte der Ermutigung zum Studienanfang. . . Ein Fremder in New York: Können Sie mir ” sagen, wie ich zur Carnegie Hall komme?“ Antwort: Üben, üben, üben“.1 ” Das Mathematikstudium steht nicht gerade im Ruf, ein sonderlich einfaches Studium zu sein, und insbesondere die Umstellung von der Schulmathematik auf die universitäre Mathematik bereitet erfahrungsgemäß der Mehrzahl der Studienanfänger mehr oder minder große Schwierigkeiten. Als um so entmutigender, ja mitunter provokanter wird es daher oft empfunden, wenn sich in Vorlesungen und Lehrbüchern Floskeln wie Offensichtlich gilt. . .“, wie ” ” man leicht einsieht“, Die Gültigkeit der Behauptung ist klar“ oder Der Beweis ist trivial ” ” und wird daher dem Leser als leichte Übung überlassen“ aneinanderreihen. Das vorliegende Skript bemüht sich, diesen (für den Autor bequemen, für den Leser hingegen um so unbequemeren und frustrierenden) Stil, an dem ich mich selbst seit meinem eigenen Studium oft gestört habe, weitgehend zu vermeiden, alle Überlegungen ausführlich zu erläutern und auf diese Weise möglichst flüssig lesbar zu sein. Aber auch ein noch so ausführliches Skript und noch so umfangreiche Erläuterungen während der Vorlesung ebenso wie alle begleitenden Hilfsangebote in Form von Übungen, Tutorien und Fragestunden können es nicht ersparen, die Inhalte der jeweiligen Vorlesung eigenständig zu durchdenken. Die Argumentationsdichte in mathematischen Vorlesungen ist in der Regel so hoch, dass ein sofortiges Verstehen aller Details oder gar ein sofortiges Überblicken der tieferen Zusammenhänge nicht zu erwarten sind. Daher ist ein gründliches Nacharbeiten der Vorlesung in Ruhe und mit Muße unbedingt erforderlich. Wieviel Zeit dies in Anspruch nimmt, ist individuell natürlich höchst unterschiedlich; als grobe Richtschnur dürften aber 90 bis 120 Minuten pro Vorlesungsdoppelstunde realistisch sein. Die Bedeutung des Nacharbeitens der Vorlesung (und insbesondere des schrittweisen Nachvollziehens der Beweise) wird von Studienanfängern häufig erheblich unterschätzt. Ein typisches Anfängerproblem ist regelrechte Ratlosigkeit, wie man die in Übungs- oder Klausuraufgaben auftretenden Beweise überhaupt angehen soll. Ich will dieses Problem nicht bagatellisieren; in der Tat lernt man mathematisches Argumentieren, das ja in der Schulmathematik höchstens noch ein Randdasein fristet, meist nicht von heute auf morgen. Zu bedenken ist aber, dass alle in der Vorlesung vorgeführten Beweise Anschauungsbeispiele darstellen, anhand derer man (wenn auch ganz allmählich) lernen kann, wie man mathematisch korrekt und sinnvoll argumentiert. Wer ein Übungsblatt bearbeiten will, ohne sich vorher gründlich mit der Vorlesung (und insbesondere mit den dort vorkommenden Beweisen) vertraut gemacht zu haben, trägt viel selbst dazu bei, wenn sich alsbald ein Gefühl der Überforderung einstellt. Selbst bei intensiver Beschäftigung mit der Vorlesung und den Übungsaufgaben ist freilich nicht zu erwarten, dass sogleich ein umfassendes Verständnis entsteht; für den Anfang genügt es durchaus, einen Beweis Schritt für Schritt nachvollziehen zu können (im Sinne eines lediglich lokalen“ Verständnisses) – wobei es äußerst hilfreich ist, sich am Ende ei” 1 entnommen aus dem nicht nur für Musikliebhaber lesenswerten Buch C. Drösser: Der Musikverführer Warum wir alle musikalisch sind, Rowohlt, Reinbek 2011 2 nes Beweises Rechenschaft darüber abzulegen, was denn die zentralen Ideen und Argumente des Beweises waren2 . Ein vertieftes, globales“ Verständnis – insbesondere die Einsicht in ” größere Zusammenhänge – entwickelt sich oft erst mit einigem zeitlichen Abstand, z.B. gegen Semesterende bei der Vorbereitung auf die Klausur oder später bei der Vorbereitung auf die mündlichen Prüfungen. Dies lässt sich vielleicht damit vergleichen, wie man sich in einer neuen, unbekannten Stadt schrittweise orientiert: Als erstes wird man sich die täglich benutzten Routen (zur Arbeitsstätte, zu den wichtigsten Geschäften etc.) einprägen – und vielleicht ängstlich bemüht sein, von diesen möglichst wenig abzuweichen; nach einer Weile wird man nach und nach mutiger werden und die Sicherheit gewinnen, auch einmal andere Wege zu erkunden, wird sich in bisher unbekannte Stadtviertel vorwagen, bis man nach einigen Jahren die meisten Winkel kennt – und vor allem eine Übersichtskarte der Stadt vor dem geistigen Auge hat, die einen davor bewahrt, sich hoffnungslos zu verlaufen, wenn man doch einmal in eine unbekannte Ecke der Stadt gerät. Aus dem anfänglichen geronnenen ” Wissen“, einem kargen Vorrat an wenigen, mühsam einstudierten Rezepten, wie man gewisse Routinewege zurücklegen kann, ist ein fluides Wissen“ geworden, das einem hilft, sich ” auch in neuen und unerwarteten Situationen flexibel zurechtzufinden. Sich im Laufe dieses Orientierungsprozesses mal so richtig verlaufen zu haben, ist zwar zunächst ärgerlich, hilft aber oftmals entscheidend dabei, sich künftig besser zurechtzufinden, denn aus den Fehlern, die man selber begeht, lernt man meist am besten. Wichtig ist dabei natürlich, sich überhaupt erst einmal dem Risiko, sich zu verlaufen, auszusetzen; niemand käme auf die Idee, Orientierung in einer Stadt zu erlangen, indem er Abend für Abend den Stadtplan auswendig lernt, ohne dabei sein Haus zu verlassen. Und genauso muss man auch in der Mathematik erst einmal manche geistigen Irr- und Umwege gehen, Rückschläge und Frustrationen überstehen, bis sich nach und nach die Erfolge in Form eines sich zunehmend vertiefenden Verständnisses einstellen. Konkret bedeutet das, dass es neben dem Nachvollziehen fremder Beweise ebenso wichtig ist, das mathematische Argumentieren selbst aktiv zu üben. Dazu dienen die Übungsaufgaben in Form von Haus- und Präsenzaufgaben. Beweise zu führen lernt man nur, indem man sich selbst daran versucht, ebenso wie man Klavierspielen nur durch beharrliches Üben und nicht durch Zuhören lernt – und dabei als unvermeidlich in Kauf nimmt, dass sich das erste Herantasten an das Klavier oft grauenhaft oder zumindest sehr holprig anhört. In beiden Fällen – beim Klavierspielenlernen wie in der Mathematik – bedarf es zugegebenermaßen einiger Frustrationstoleranz, nicht gleich vor den ersten Schwierigkeiten zu kapitulieren, sondern sich diesen zu stellen und an ihrer Bewältigung zu arbeiten. Leider ist es ein verbreiteter Reflex unter Studienanfängern, auf die Schwierigkeiten, die sich beim Bearbeiten der ersten Übungsblätter einstellen, mit dem Abschreiben fremder Lösungen zu reagieren; begründet wird dies oft damit, man wolle sich auf diese Weise wenigstens“ die ” 2 Letztlich ist die Herausforderung, sich mathematische Beweise sinnvoll einzuprägen, mit dem Problem der effizienten Datenkompression vergleichbar: Man kann ein Bild, das z.B. ein schwarzes Dreieck auf weißem Grund zeigt, pixelweise abspeichern und wird hierfür vielleicht 1 MB Speicherplatz benötigen. Man kann aber auch, wenn man sich der Struktur des Dreiecks bewusst ist, lediglich die Koordinaten der Eckpunkte abspeichern zusammen mit der Information, dass diese drei Punkte die Eckpunkte eines Dreiecks sind, dass dessen Inneres Schwarz und dessen Äußeres Weiß ist. Auf diese Weise wird man mit einem Bruchteil des Speicherplatzes auskommen. Ähnlich verhält es sich mit mathematischen Beweisen: Man kann einen Beweis Schritt für Schritt auswendig lernen – was sehr aufwändig und fehleranfällig ist, sicher nicht zur Freude an der Mathematik und schon gar nicht zu einem tieferen Verständnis beiträgt. Sinnvoller ist es, die Grundstruktur eines Beweises herauszudestillieren, sich nur diese einzuprägen und sich die zusätzlich benötigten, oftmals rein technischen Details bei Bedarf selbst wieder abzuleiten. 3 Klausurzulassung sichern. Dies mag zwar als Panikreaktion3 verständlich sein, ist aber etwa so erfolgversprechend, als würde man für einen 10-Kilometer-Lauf trainieren“, indem ” man jeden Abend die Laufstrecke mit dem Auto abfährt. Umgekehrt gilt: Wer sich während des Semesters immer selbst mit den Übungsaufgaben abgemüht hat, ohne der kurzfristigen Bequemlichkeit des Abschreibens nachzugeben, ist eigentlich bestmöglich auf die Klausur vorbereitet und darf dieser zuversichtlich und ohne Angst entgegensehen. Dies soll andererseits kein Plädoyer dafür sein, isoliert für sich alleine zu arbeiten. Gemeinsame Diskussionen über den Vorlesungsstoff und die Aufgaben können sehr wertvoll sein, um ein tieferes Verständnis zu gewinnen und die Einsicht in mathematische Zusammenhänge zu fördern. Freilich ist die aktive Mitarbeit eines jeden Einzelnen in einer Arbeitsgruppe wichtig; bloße Mitläuferschaft ist nutzlos. Auch zum Aufschreiben gemeinsam erarbeiteter Lösungen sollten alle Beteiligten beitragen; es reicht nicht aus, lediglich Ideen beizusteuern, nicht aber an deren Ausformulierung mitzuarbeiten: Die Anforderung, gute Ideen auch verständlich auszudrücken, ist nicht zu unterschätzen. U.a. um die Bildung von Arbeitsgruppen zu fördern, lassen wir bei den Hausaufgaben Doppelabgaben (zwei Namen pro Bearbeitung) zu. Noch einige Bemerkungen zum Wesen des Wissenserwerbs in der Mathematik: Beim Ler” nen“ in der Mathematik steht weniger als in anderen Disziplinen der Erwerb von Faktenwissen im Vordergrund; und schon gar nicht geht es um ein pures Auswendiglernen“. Vielmehr ” geht es vor allem um das Verständnis von Zusammenhängen, in zweiter Linie auch um die Aneignung gewisser Fähigkeiten und Techniken (in der Analysis z.B. der sog. ε-δ-Technik). Solch fluides Wissen“ erreicht man nur durch beständige aktive Beschäftigung mit der Ma” terie; das erforderliche Faktenwissen stellt sich dann eher nebenbei automatisch ein, so wie man sich – um auf obiges Beispiel zurückzukommen – Straßennamen sinnvollerweise nicht durch tägliches Lernen“ eines abstrakten Stadtplans einprägt, sondern dadurch, dass man ” oft genug in der Stadt spazieren geht. Wichtig für das mathematische Verständnis ist dabei das Wechselspiel zwischen mathematischem Formalismus und mathematischer Vorstellung bzw. Anschauung. Beide sind wichtig, bleiben für sich genommen aber einseitig: Bloßer Formalismus bleibt blutleer und degradiert die Mathematik zum Gespenst, vor dem man verständlicherweise Angst hat. Bloße Anschauung ohne Formalismus bleibt vage und unpräzise und genügt den strengen logischen Ansprüchen der Mathematik nicht. Ich will dies an einem wichtigen Begriff der Analysis erläutern, der Stetigkeit: In der Schulmathematik stellt man sich unter einer stetigen Funktion meist eine Funktion vor, die keine Sprünge hat, oder auch eine Funktion, deren Graph man zeichnen kann, ohne den Stift abzusetzen. Beide Vorstellungen erweisen sich, wie wir später sehen werden, als zu unpräzise für eine sinnvolle Definition des Stetigkeitsbegriffs. Stattdessen sieht die offizielle“ Definition der Stetigkeit ” einer Funktion f : R −→ R im Punkt a in der universitären Mathematik wie folgt aus: ∀ ε>0 ∃ δ>0 ∀ x∈R |x − a| < δ =⇒ |f (x) − f (a)| < ε . Das sieht erst einmal fürchterlich abschreckend aus. Natürlich gilt es, diese rein formale Definition mit Leben zu füllen, damit sie kein furchteinflößendes Gespenst bleibt; niemand sollte sich damit selbst kasteien, eine solche Definition auswendigzulernen, ohne zu verstehen, was sie bedeutet. Dazu freilich bedarf es einer Menge an Erläuterungen, die insbesondere die Brücke schlagen müssen zu den aus der Schule gewohnten Vorstellungen. Keine Sorge: Wir werden uns für diese Erläuterungen in Kapitel 9 ausführlich Zeit nehmen. 3 Bei etwas gelassenerer Betrachtung sollte klar sein, dass die Befürchtungen, die Klausurzulassung zu verfehlen, in der Regel weit übertrieben sind: Die 30%-Grenze für die Klausurzulassung ist bewusst niedrig gewählt, so dass sie im Regelfall keine allzu ernsthafte Hürde darstellen sollte. 4 Womit wir wieder beim schon oben angeklungenen Stichwort Zeit wären: Das hier skizzierte mathematische Verständnis entwickelt sich natürlich nicht über Nacht, sondern braucht wie alle geistigen Entwicklungs- und Reifungsprozesse seine Zeit, und man sollte sich diese auch gönnen, ohne mit sich selbst zu ungeduldig zu sein: Gras wächst nicht schneller, wenn man daran zieht. Leider gehen die gesellschaftlichen Erwartungen derzeit oftmals in genau die entgegengesetzte Richtung: Der ideale Bewerber aus Sicht der Unternehmen scheint der 25jährige zu sein, der in sechs Semestern zwei Bachelorstudiengänge und nebenbei vier Firmenpraktika absolviert, fünf Fremd- und vier Programmiersprachen gelernt, zwei Semester im Ausland verbracht hat und bereits über sieben Jahre Berufserfahrung verfügt. Tanjev Schultz hat es in dem Artikel Generation der Lebenslauf-Optimierer“ (Süddeutsche Zeitung vom 26.08.2011) ” treffend auf den Punkt gebracht: Politiker, Manager und Eltern schärfen den Jugendlichen ” gerne ein, dass sie bloß nicht den Anschluss verlieren dürften. So haben sie eine Generation von Getriebenen geschaffen, die unvereinbare Erwartungen erfüllen und möglichst wenig nach links und rechts schauen sollen. Der Bildungsweg folgt streng den vorgegebenen Bahnen. Immer mehr Eindrücke und Wissensschnipsel in immer kürzerer Zeit zu sammeln – das gelingt nur akademischen Pauschaltouristen.“ Ich halte es nicht nur für an der Zeit, sondern für dringend überfällig, sich diesem kollektiven Beschleunigungswahn zu widersetzen. Es ist sicherlich nicht leicht, unbeirrt seinen eigenen Weg zu gehen; aber nur wer gegen den Strom schwimmt, kommt an der Quelle an. Und über allem Engagement im Studium, auf dessen Notwendigkeit wir im Laufe der kommenden zwei oder drei Semester noch oft genug mahnend hinweisen werden, sollte man schließlich auch nicht vergessen, dass es neben Analysis und Linearer Algebra noch viele andere schöne und interessante Dinge im Leben gibt, viele weitere Möglichkeiten der persönlichen Entwicklung und Entfaltung, die ebenfalls zu ihrem Recht kommen sollten. Entscheidend ist auch hier natürlich die richtige Balance; Richard David Precht drückt es in seinem Bestseller Wer bin ich – und wenn ja, wie viele?“ wie folgt aus: Lernen und Genießen sind das ” ” Geheimnis eines erfüllten Lebens: Lernen ohne Genießen verhärmt, Genießen ohne Lernen verblödet.“ Daran sollten wir uns halten – und dabei eines bedenken: Wir leben für uns selber – nicht für unseren Lebenslauf. Würzburg, im September 2011, 5 Jürgen Grahl Teil I Grundlagen Die Analysis handelt vorwiegend von reellwertigen Funktionen von einer oder mehreren reellen Variablen. Deshalb muss zunächst erklärt werden, was reelle Zahlen überhaupt sind. Allerdings wollen wir uns nicht allzu lange mit der Frage aufhalten, wie man reelle Zahlen mathematisch präzise definiert bzw. konstruiert, sondern uns im Wesentlichen auf den pragmatischen Standpunkt stellen, dass die reellen Zahlen aus dem Schulunterricht bekannt“ ” sind. Man könnte die reellen Zahlen in konstruktiver Form einführen, indem man den in vielen Schuljahren zurückgelegten Weg von den natürlichen Zahlen über die ganzen zu den rationalen Zahlen (den Brüchen) und schließlich zu den reellen Zahlen nachvollzieht und dabei mathematisch präzisiert. Dabei würde jedoch der Weg zu den eigentlichen Inhalten der Analysis unvertretbar lang werden, und zudem würde ein solcher konstruktiver Zugang vermutlich vor allem Verwirrung stiften. Er entspräche auch nicht der historischen Entwicklung: Eine hochentwickelte Analysis gab es spätestens im 17. und 18. Jahrhundert, während eine befriedigende Konstruktion des Systems der reellen Zahlen erst um 1870 gelang. Dennoch wollen wir (in Kapitel 2) kurz (und teilweise von einer abstrakteren Ebene als im Schulunterricht) zusammenstellen, was wir von den reellen Zahlen wissen (sollten), und dabei auf einige bisher vermutlich eher weniger vertraute Aspekte besonders eingehen. Wir werden im Folgenden allerdings nicht einfach davon sprechen, dass gewisse Eigenschaften der reellen Zahlen bekannt“ seien. Vielmehr werden wir – etwas vornehmer – die betreffenden Eigen” schaften als Axiome formulieren, d.h. wir postulieren kurzerhand, dass die reellen Zahlen die Eigenschaften haben, von denen wir ohnehin wissen (oder besser: zu wissen glauben), dass sie sie haben. Auch wenn in der Analysis I und II die eindimensionale“ reelle Analysis im Vordergrund ” stehen wird, lassen sich viele Betrachtungen fast wörtlich auf etwas allgemeinere Situationen übertragen, nämlich auf Funktionen einer komplexen Variablen oder auf Abbildungen zwischen metrischen Räumen. In den Kapiteln 3 und 4 führen wir daher den Körper der komplexen Zahlen und den allgemeinen Begriff des metrischen Raumes ein. Wir beginnen in Kapitel 1 mit einem wichtigen Beweisprinzip, dem Prinzip der vollständigen Induktion, und einigen mithilfe dieses Prinzips beweisbaren Resultaten, die wir später immer wieder benötigen werden. Hier aber zunächst ein Überblick über die allgemein üblichen Symbole für die Zahlenbereiche, mit denen wir im Folgenden hauptsächlich zu tun haben werden: • die natürlichen Zahlen N := {1, 2, 3, . . .} • die natürlichen Zahlen mit Null N0 := N ∪ {0} = {0, 1, 2, 3, . . .} • die ganzen Zahlen Z := {0, ±1, ±2, ±3, . . .} | m ∈ Z, n ∈ N • die rationalen Zahlen Q := m n • die reellen Zahlen R • die komplexen Zahlen C (Kapitel 3) 6 1 Das Prinzip der vollständigen Induktion und einige Anwendungen Jeder kennt die natürlichen Zahlen 1, 2, 3, . . ., und jeder weiß, dass die natürlichen Zahlen als Teilmenge in den reellen Zahlen enthalten sind. Wir verwenden sie in diesem Kapitel vorerst in einer sog. naiven“ Weise und gehen zunächst nicht weiter auf die Frage ein, wie man ” die natürlichen Zahlen und ihre Beziehung zu den reellen Zahlen exakt definiert. Wie dies möglich ist, werden wir später (in Abschnitt 2.5) zumindest andeuten. 1.1 Vollständige Induktion Bereits aus dem Vorkurs bekannt ist eine der wichtigsten Beweismethoden der Mathematik: die vollständige Induktion, mit der wir uns nun etwas eingehender beschäftigen wollen. Sie wird häufig bei folgendem Problem angewandt: Für jede natürliche Zahl n sei A(n) eine Aussage (die a priori wahr oder falsch sein kann). Es soll bewiesen werden, dass die Aussage A(n) für alle natürlichen Zahlen n wahr ist. Dazu geht man wie folgt vor: Prinzip der vollständigen Induktion: • Induktionsanfang (Induktionsverankerung): Man zeigt, dass die Aussage A(1) richtig ist. • Induktionsvoraussetzung (Induktionsannahme): Man betrachtet ein festes, aber beliebiges n ∈ N und nimmt an, dass A(n) wahr ist. • Induktionsschritt (Induktionsschluss): Man zeigt, dass auch A(n + 1) gültig ist. Hat man sowohl den Induktionsanfang als auch den Induktionsschritt bewiesen, so gilt die Aussage A(n) für alle natürlichen Zahlen n: Zunächst ist nämlich A(1) aufgrund des Induktionsanfangs richtig. Anwendung des Induktionsschritts mit n = 1 liefert anschließend die Gültigkeit von A(2). Erneute Anwendung des Induktionsschrittes mit n = 2 ergibt dann, dass auch A(3) gilt. Durch wiederholte Benutzung des Induktionsschrittes zeigt man dann nacheinander auch A(4), A(5) usw.4 Im Induktionsprinzip ist es unwesentlich, die Induktionsverankerung bei n = 1 vorzunehmen; stattdessen ist dies mit einer beliebigen ganzen Zahl möglich. Es gilt also folgende Variante des Induktionsprinzips. Es sei ein n0 ∈ Z gegeben, und für jede ganze Zahl n ≥ n0 sei eine Aussage A(n) gegeben. Wenn A(n0 ) wahr ist und wenn für jede ganze Zahl n ≥ n0 die Implikation A(n) =⇒ A(n + 1) wahr ist, dann gilt die Aussage A(n) für alle ganzen Zahlen n ≥ n0 . Mitunter benutzt man auch eine Modifikation des Induktionsprinzips, bei der man im Induktionsschritt zum Beweis von A(n + 1) nicht nur die Gültigkeit von A(n), sondern von A(1), A(2), . . . , A(n) verwendet: 4 Wir verwenden hier das Induktionsprinzip als anschaulich klar“. Wie man es – bei geeigneter Definition ” der natürlichen Zahlen – zu einem beweisbaren Satz macht, werden wir ebenfalls in Abschnitt 2.5 sehen. 7 Modifiziertes Prinzip der vollständigen Induktion. Für jedes n ∈ N sei eine Aussage A(n) gegeben. Es seien die folgenden beiden Bedingungen erfüllt: (1) Die Aussage A(1) ist wahr. (2) Für alle n ∈ N folgt aus der Gültigkeit von A(1), A(2), . . . , A(n) auch die Gültigkeit von A(n + 1). Dann ist A(n) für alle n ∈ N wahr. 1.2 Erste Anwendungen Wir illustrieren das Prinzip der vollständigen Induktion im Folgenden an mehreren Beispielen. Dabei benutzen wir insbesondere die Notation n X ak := am + am+1 + . . . + an k=m für die Summe und n Y ak := am · am+1 · . . . · an k=m für das Produkt von gewissen Zahlen am , am+1 . . . , an . Es erweist sich als sinnvoll, sog. leeren Summen (mit null Summanden) den Wert 0 und leeren Produkten den Wert 1 zuzuweisen5 . Dementsprechend setzt man n n X Y ak := 0, ak := 1, falls n < m. k=m k=m Unser erstes Resultat gibt einen geschlossenen Ausdruck für die Summe der ersten n natürlichen Zahlen an. Satz 1.1 Für alle n ∈ N gilt n X n(n + 1) . k = 1 + 2 + ... + n = 2 k=1 Beweis. Induktionsanfang: Für n = 1 haben beide Seiten der behaupteten Formel den Wert 1. In diesem Fall ist also die Formel gültig. Der Induktionsanfang ist damit gemacht. Induktionsvoraussetzung: Nun nehmen wir an, für ein n ∈ N sei die Formel gültig. Induktionsschritt: Dann folgt n+1 X k=1 k= n X k=1 k + (n + 1) (IV) n(n + 1) 1 = + (n + 1) = (n + 1)(n + 2). 2 2 (Hierbei haben wir mit (IV) den Schritt markiert, in dem die Induktionsvoraussetzung benutzt wurde.) Damit ist die Formel für n + 1 anstelle von n bewiesen. Der Induktionsschluss ist also geleistet. Aufgrund des Prinzips der vollständigen Induktion gilt die behauptete Formel somit für alle n ∈ N. 5 Der Wert 1 für das leere Produkt mag überraschen. Er erklärt sich daraus, dass 1 das neutrale Element der Multiplikation ist (vgl. Definition 2.1). 8 Mit der Formel aus Satz 1.1 erregte der achtjährige C. F. Gauß (1777 – 1855) die Aufmerksamkeit seines Lehrers. Dieser hatte, um eine Weile seine Ruhe zu haben, seinen Schülern die Aufgabe gestellt, die Zahlen von 1 bis 100 zu addieren. Zu seiner Verblüffung konnte der kleine Gauß fast augenblicklich das Ergebnis 5050 verkünden. Er hatte sich dabei des folgenden Tricks bedient: Unter die Summe S(n) = 1 + 2 + . . . + (n − 1) + n schreibt man noch einmal S(n) = n + (n − 1) + . . . + 2 + 1 mit umgekehrter Reihenfolge der Summanden hin. Jedes Paar untereinander stehender Zahlen hat dann die Summe n + 1, und man hat n solche Paare. Also folgt 2S(n) = n(n + 1). Warnung: Ein häufiger Anfängerfehler besteht darin, als Induktionsannahme zu schreiben: Nun nehmen wir an, für alle n ∈ N sei die Aussage A(n) gültig.“ (statt korrekterweise für ” ” ein n ∈ N“). Dies ist offensichtlich sinnlos: Wäre diese Annahme richtig, so wäre ja nichts mehr zu beweisen. Auch die folgende wichtige Ungleichung lässt sich induktiv beweisen. Satz 1.2 (Bernoullische Ungleichung) Für alle reellen Zahlen x > −1 und alle n ∈ N0 gilt die Ungleichung (1 + x)n ≥ 1 + nx . Falls x 6= 0 und n ≥ 2 ist, gilt sogar (1 + x)n > 1 + nx. Beweis. Für n = 0 haben beide Seiten in der behaupteten Ungleichung den Wert 1. Für n = 1 haben beide Seiten den Wert 1 + x. Für x = 0 und beliebige n haben beide Seiten den Wert 1. Nach Erledigung dieser trivialen Fälle genügt es also aufgrund des Induktionsprinzips, die folgende Implikation zu beweisen: Ist n ∈ N, x ∈ R, x > −1, x 6= 0, und setzt man (1 + x)n ≥ 1 + nx voraus, dann folgt (1 + x)n+1 > 1 + (n + 1)x. Dies zeigt man folgendermaßen. Aus den Voraussetzungen folgt 1 + x > 0 und nx2 > 0. Damit ergibt sich (1 + x)n+1 = (1 + x)n · (1 + x) ≥ (1 + nx) · (1 + x) = 1 + (n + 1)x + nx2 > 1 + (n + 1)x . Das war zu zeigen. Das Resultat ist nach Jakob Bernoulli (1654 – 1705) benannt, dem ältesten Vertreter der Baseler Mathematiker-Familie der Bernoullis. Beispiel 1.3 In den obigen beiden Induktionsbeweisen bestand die Hauptarbeit jeweils im Induktionsschritt, während der Induktionsanfang höchst einfach war. Dies ist für die meisten Induktionsbeweise typisch. Dennoch ist der Induktionsanfang, die Induktionsverankerung ein unverzichtbarer Beweisbestandteil, wie folgendes Beispiel zeigt: Betrachten wir die Aussage A(n) : Es gilt 1n = 0. Hier gelingt für alle natürlichen Zahlen n der Induktionsschritt A(n) =⇒ A(n + 1); aus 1n = 0 folgt nämlich 1n+1 = 1n · 1 = 0 · 1 = 0. Dennoch ist A(n) für kein einziges n ∈ N richtig; der Induktionsbeweis scheitert nämlich bereits an der Induktionsverankerung. 9 1.3 Der Binomische Lehrsatz Definition 1.4 Für ganze Zahlen n ≥ 0 definiert man Fakultäten in der Form n! := n Y j = 1 · ... · n (gelesen n Fakultät“). ” j=1 Insbesondere ist 0! = 1. Für ganze Zahlen n, k ≥ 0 setzt man n(n − 1)(n − 2) · . . . · (n − k + 1) n n! = , falls k ≤ n, := k!(n − k)! k! k und man setzt nk := 0 für ganze Zahlen k > n ≥ 0. Man liest nk als n über k“ oder k ” ” aus n“. Diese Zahlen heißen Binomialkoeffizienten. Die Fakultäten und Binomialkoeffizienten haben die folgende kombinatorische Bedeutung: Für beliebige ganze n ≥ 0 ist n! gleich der Anzahl der Permutationen einer Menge aus n Elementen. Für k ≤ n ist sodann nk gleich der Anzahl der Möglichkeiten, k Objekte ohne Zurücklegen und ohne Beachtung der Reihenfolge aus einer Menge von n Elementen auszuwählen. Zugleich ist das die Anzahl der k-elementigen Teilmengen einer Menge aus n Elementen. Alle diese Feststellungen könnte man formal exakt durch Induktion beweisen; die Beweise würden aber vermutlich mehr Verwirrung als Klarheit stiften. Ein bekanntes Beispiel für dieses Ziehen ohne Zurücklegen und ohne Beachtung der Reihenfolge stellt das Lottospiel dar: Z.B. ist 49 = 13983816 die Zahl der möglichen Ziehungser6 gebnisse beim Lotto 6 aus 49“. ” Proposition 1.5 Für beliebige ganze Zahlen n, k mit 1 ≤ k ≤ n gilt die Formel n n n+1 + = . k−1 k k Beweis. Mit den Definitionen berechnet man n! n n n! + + = k−1 k (k − 1)!(n − k + 1)! k!(n − k)! n! · (k + (n − k + 1)) k!(n − k + 1)! n! · (n + 1) n+1 = = . k!((n + 1) − k)! k = Diese Beziehung stellt eine Rekursionsformel für die Binomialkoeffizienten dar: Sind die Werte von nk für ein n ∈ N0 und alle k ∈ {1, . . . , n} bekannt, so lassen sich unter Berückn n+1 n sichtigung der Randwerte“ 0 = n = 1n alle Binomialkoeffizienten k berechnen, indem ” n man jeweils die beiden Werte k und k−1 addiert. Man kann sich diese Rekursionsformel leicht merken, indem man die Binomialkoeffizienten in Form des sog. Pascalschen Drei ecks6 (Abbildung 1) anordnet. Dabei stehen in der (n + 1)-ten Zeile die Einträge nk für k = 0, 1, . . . , n. In diesem Dreieck ist jede Zahl gleich der Summe der beiden schräg darüber stehenden Zahlen. 6 Es ist nach B. Pascal (1623 – 1662) benannt, der bei Untersuchungen zur Wahrscheinlichkeitstheorie auf Binomialkoeffizienten und die Formel in Proposition 1.5 stieß. 10 1 1 1 2 1 1 1 1 .. . 3 4 1 3 6 5 6 1 10 15 4 10 20 .. . 1 .. . 1 5 15 .. . 1 6 .. . 1 .. . Abbildung 1: Das Pascalsche Dreieck Die Binomialkoeffizienten verdanken ihren Namen der Tatsache, dass sie im binomischen Satz als Koeffizienten auftreten. Für alle a, b ∈ R und alle ganzen Zahlen n ≥ 0 gilt Satz 1.6 (Binomischer Lehrsatz) n X n k n−k (a + b) = a b . k k=0 n Bei festem n enthält der Ausdruck (a + b)n zwei Variable oder Namen“ a und b; er ist ein ” Binom“. Das erklärt den Namen des Satzes 1.6. Dieser Satz ist also nicht nach einer Person ” benannt7 . Beweis. Es seien beliebige a, b ∈ R gegeben. Für n = 0 haben beide Seiten in der behaupteten Formel den Wert 1 (Induktionsanfang). Für ein n ∈ N0 wird nun die Gültigkeit der Formel angenommen (Induktionsvoraussetzung). Dann folgt (a + b)n+1 = (a + b) · (a + b)n n X n k n−k = (a + b) · a b k k=0 n n X n k+1 n−k X n k n+1−k = a b + a b . k k k=0 k=0 7 Lediglich in einem alten Mathematiker-Witz wird dieser Satz einem fiktiven Alessandro Binomi (17271643) zugeschrieben. 11 In der ersten Summe verschiebt“ man den Index: Man setzt k = j − 1 und schreibt danach ” wieder k statt j. Mit Hilfe von Proposition 1.5 erhält man dann n+1 (a + b) = = = = n+1 n X X n n k n+1−k j n+1−j ab + a b j−1 k j=1 k=0 n n X X n k n+1−k n n+1 k n+1−k a + a b + a b + bn+1 k−1 k k=1 k=1 n X n n an+1 + + ak bn+1−k + bn+1 k − 1 k k=1 n+1 X n + 1 ak bn+1−k . k k=0 Dies ist die behauptete Formel mit n + 1 anstelle von n. Nach dem Induktionsprinzip ist die Formel somit für alle ganzen n ≥ 0 gültig. Bemerkung 1.7 Für a = b = 1 liefert der binomische Satz n 2 = n X n k=0 k . Dies lässt sich wie folgt interpretieren: Es sei M eine beliebige Menge mit n Elementen (z.B. M = {1, . . . , n}). Dann ist 2n die Gesamtzahl der Teilmengen von M ; dies lässt sich wie folgt einsehen: Man kann jede dieser Teilmengen dadurch charakterisieren, dass man für jedes der n Elemente angibt, ob es zur Menge gehört oder nicht. Die Gesamtzahl der Teilmengen von M ist also gleich der Zahl der Wörter“ der Länge n, die man mit den Buchstaben J und N ” bilden kann. Diese Zahl ist 2n . Andererseits lassen sich die Teilmengen von M nach ihrer Elementanzahl sortieren: Es gibt Teilmengen mit 0, 1, . . . , n Elementen. Wie oben festgestellt, beträgt die Zahl der Teilmengen n mit genau k Elementen gerade k . Daher ist es nicht verwunderlich, dass die Summe dieser Anzahlen nk genau 2n ergibt, wie es der binomische Satz besagt. 1.4 Arithmetisches und geometrisches Mittel In einem rechtwinkligen Dreieck seien a und b die Hypotenusenabschnitte, h die Höhe und s die Seitenhalbierende (vgl. Abbildung 2). Nach dem Satz von Thales und dem Höhensatz gilt dann 1 und h2 = ab. h ≤ s = (a + b) 2 Es folgt √ a+b ab = h ≤ . 2 Dies ist die Ungleichung zwischen dem geometrischen und dem arithmetischen Mittel von a und b. 12 s h a b Abbildung 2: Zur Ungleichung zwischen geometrischem und arithmetischem Mittel Diese geometrische Begründung ist im Rahmen eines deduktiven Zugangs zur Analysis natürlich nicht zu gebrauchen, denn die verwendeten Sätze der elementaren euklidischen Geometrie stehen hier nicht zur Verfügung. Man kann die Ungleichung aber auch wie folgt rechnerisch begründen: Für a, b ≥ 0 ist (a + b)2 − 4ab = a2 + 2ab + b2 − 4ab = a2 − 2ab + b2 = (a − b)2 ≥ 0, (1.1) also √ 1 (a + b) ≥ ab. 2 Hierbei gilt Gleichheit genau dann, wenn a = b ist. (Dass für a = b Gleichheit gilt, ist klar. Umgekehrt folgt aus der Gleichheit in der letzten Abschätzung, dass bereits in (1.1) Gleichheit vorliegt, also (a − b)2 = 0 ist. Dies hat aber a = b zur Folge.) Wir wollen nun mittels vollständiger Induktion eine allgemeinere Ungleichung zwischen dem arithmetischen und dem geometrischen Mittel von beliebig vielen positiven reellen Zahlen beweisen, die wir später öfters benötigen. Definition 1.8 Für beliebige positive reelle Zahlen a1 , . . . , an nennt man 1 · (a1 + . . . + an ) n das arithmetische Mittel und √ n a1 · . . . · an das geometrische Mittel von a1 , . . . , an . Wir gehen hier naiv mit dem Wurzelsymbol um. Die Existenz von Wurzeln werden wir später (in Korollar 10.16) auch exakt begründen. Satz 1.9 (Ungleichung zwischen arithmetischem und geometrischem Mittel) Für jede natürliche Zahl n und beliebige positive reelle Zahlen a1 , a2 , . . . , an gilt √ n 1 · (a1 + a2 + . . . + an ). n Hierin besteht genau dann Gleichheit, wenn a1 = a2 = . . . = an ist. a1 · a2 · . . . · an ≤ Trost: Auf den nachstehenden kunstvoll arrangierten Beweis (der einer Vorlesung von Horst Alzer entnommen ist) muss man nicht selbst kommen – schon gar nicht im ersten Semester. Vorerst genügt es völlig, ihn schrittweise nachvollziehen zu können. 13 Beweis. Für n = 1 haben beide Seiten in der behaupteten Ungleichung den Wert a1 . Für n = 2 haben wir die Behauptung bereits oben begründet. Es sei ein n ≥ 2 gegeben. Wir treffen die Induktionsannahme, dass für beliebige positive b1 , . . . , bn die Ungleichung p 1 n b1 · . . . · bn ≤ · (b1 + . . . + bn ) n gilt und dass in dieser Ungleichung genau dann Gleichheit vorliegt, wenn b1 = . . . = bn ist. Es seien positive a1 , . . . , an+1 gegeben. Für k = 1, . . . , n + 1 setzen wir Gk := √ k a1 · . . . · ak , Ak := 1 · (a1 + . . . + ak ) . k Gk und Ak sind also das geometrische bzw. arithmetische Mittel der Zahlen a1 , . . . , ak . Weiter seien q e e := 1 (an+1 + (n − 1) · An+1 ) G := n an+1 An−1 A n+1 , n die geometrischen bzw. arithmetischen Mittel der Zahlen b1 := · · · := bn−1 := An+1 und bn := an+1 . Nach der Induktionsvoraussetzung gilt dann Gn ≤ An und e ≤ A. e G Aus der Gültigkeit der Behauptung für das geometrische und arithmetische Mittel von zwei Zahlen folgt ferner q e ≤ 1 · An + A e . An · A 2 Nun berechnet man q q n n−1 n−1 e Gn G = a1 · . . . · an · an+1 · An+1 = n Gn+1 n+1 · An+1 und 1 1e A + An = (an+1 + (n − 1) · An+1 + a1 + · · · + an ) 2 2n 1 = (a1 + · · · + an + an+1 + (n − 1) · An+1 ) 2n 1 = ((n + 1) · An+1 + (n − 1) · An+1 ) = An+1 . 2n (1.2) Damit ergibt sich insgesamt An+1 q q q 1 2n n−1 e e e = · An + A ≥ An · A ≥ Gn · G = Gn+1 n+1 · An+1 , 2 also n+1 n−1 A2n n+1 ≥ Gn+1 · An+1 und somit n+1 An+1 n+1 ≥ Gn+1 , d.h. An+1 ≥ Gn+1 . Falls hierin Gleichheit gilt, so muss bereits in allen verwendeten Abschätzungen Gleichheit vorgelegen haben. Insbesondere muss Gn = An und 14 e=A e G gelten. Aus Gn = An und der Induktionsvoraussetzung folgt dann a1 = · · · = an . Damit ist e=A e und der Induktionsvoraussetzung aber auch An = a1 = · · · = an . Ebenso folgt aus G e e = an+1 . Damit und mit (1.2) An+1 = an+1 . Gemäß der Definition von A bedeutet dies A ergibt sich nun insgesamt an+1 = An+1 1 1e = A + An = (an+1 + a1 ) 2 2 (1.2) und hieraus an+1 = a1 . Insgesamt erhält man also die Gleichheit aller Zahlen a1 , . . . , an , an+1 . Damit ist der Induktionsschluss beendet, und der Satz ist bewiesen. 1.5 Die geometrische Summenformel Satz 1.10 Für alle n ∈ N0 und alle x ∈ R \ {1} gilt n X 1 − xn+1 x = . 1−x k=0 k Für x = P 1 trifft der P Satz keine Aussage. Dieser Fall ist jedoch unproblematisch, denn für x = 1 ist nk=0 xk = nk=0 1 = n + 1. Beweis. Variante 1: Wohl am einprägsamsten ist die folgende Begründung: Wenn wir die Summe 1 + x + x2 + · · · + xn mit 1 − x multiplizieren, stellen wir fest, dass sich fast alle Terme wegheben; wir erhalten (1 − x) · (1 + x + x2 + · · · + xn ) = 1 +x + x2 + · · · + xn −x − x2 − · · · − xn − xn+1 = 1 − xn+1 . Wegen 1 − x 6= 0 darf man durch 1 − x dividieren und erhält die Behauptung. Etwas präziser kann man denselben Sachverhalt mithilfe der Summenschreibweise ausdrücken: Für alle n ∈ N0 und alle x ∈ R ist (1 − x) · n X k x = k=0 n X k=0 k x − n X x k+1 = k=0 n X k=0 k x − n+1 X xk = 1 − xn+1 . k=1 Im zweiten Schritt haben wir hierbei eine Indexverschiebung durchgeführt. Im letzten Schritt haben wir wiederum ausgenutzt, dass sich fast alle Terme der Form xk wegheben, mit Ausnahme des ersten (nämlich x0 = 1) und des letzten (xn+1 ). (Man bezeichnet solche Summen auch als Teleskopsummen.) Variante 2: Man kann auch vollständige Induktion benutzen: Für n = 0 hat man n X xk = x0 = 1 = k=0 1−x 1 − xn+1 = 1−x 1−x d.h. die Formel gilt für n = 0. 15 für alle x ∈ R \ {1} , Es sei Pn k=0 xk = 1−xn+1 1−x n+1 X k=0 k x = für ein n ∈ N0 und alle x ∈ R \ {1} bereits bewiesen. Dann folgt n X k x +x n+1 k=0 1 − xn+2 1 − xn+1 xn+1 − xn+2 + = = 1−x 1−x 1−x für alle x ∈ R \ {1}. Damit ist der Induktionsschritt vollzogen, und die geometrische Summenformel ist für alle n ∈ N0 und alle x ∈ R \ {1} bewiesen. n+1 Ausblick. Der Ausdruck 1−x auf der rechten Seite der geometrischen Summenformel 1−x ist für x = 1 natürlich nicht definiert (Nennernullstelle!). Man kann sich jedoch fragen, ob n+1 existiert. Dies ist in der Tat der Fall, und wir werden ihn evtl. der Grenzwert limx→1 1−x 1−x später als Ableitung der Funktion h(x) := xn+1 im Punkt x0 = 1 interpretieren: Es ist 1 − xn+1 xn+1 − 1 h(x) − h(1) = lim = lim = h0 (x0 ) = (n + 1) · xn0 = n + 1. x→1 1 − x x→1 x − 1 x→1 x−1 P Dies ist das zu erwartende Ergebnis, denn für x = 1 hat nk=0 xk ja den Wert n + 1. lim Die geometrische Summenformel werden wir später zur Berechnung des Werts der unendlichen geometrischen Reihe benötigen. Sie spielt aber auch eine überragende Rolle in der Zinsrechnung, wie wir anhand eines Beispiels illustrieren wollen. Beispiel 1.11 Auf ein Konto werden jedes Jahr 1000 Euro eingezahlt. Diese werden mit 4% pro Jahr verzinst. Welches Kapital hat sich zu Beginn des 40. Jahres (d.h. unmittelbar nach der 40. Einzahlung) angesammelt? Dessen Wert (in Euro) ist K = 1000 · 1 + 1,04 + 1,042 + · · · + 1,0439 . Selbst mit einem gewöhnlichen (nicht-programmierbaren) Taschenrechner ist dieser Wert nur mühsam zu berechnen. Hier erweist sich die geometrische Summenformel als große Erleichterung: Sie liefert unmittelbar K = 1000 · 1,0440 − 1 = 95.025,51.... 1,04 − 1 Der Wert des Kapitals ist also fast zweieinhalb mal so groß wie die insgesamt eingezahlte Summe; diese beträgt nämlich nur 40.000 Euro. 16 2 Die reellen Zahlen Anschaulich stellen wir uns unter den reellen Zahlen die Gesamtheit der Punkte auf einer Geraden vor, der sogenannten Zahlengeraden. Eine einzelne reelle Zahl stellen wir uns als eine Dezimalzahl vor mit einer abbrechenden oder auch nicht abbrechenden Folge von Ziffern hinter dem Komma. Diese Menge der reellen Zahlen, die wir wie üblich mit R bezeichnen, hat drei Strukturen: • eine algebraische Struktur: R ist mit der Addition und Multiplikation ein sog. Körper. • eine Ordnungsstruktur: Die reellen Zahlen sind (der Größe“ nach) angeordnet. ” • eine metrische Struktur: Man kann in R Abstände messen. Diese drei Strukturen werden wir im Folgenden genauer unter die Lupe nehmen. Dies ist der Inhalt der Abschnitte 2.1 bis 2.3. Allerdings charakterisieren diese Strukturen die reellen Zahlen noch nicht eindeutig; sie sind z.B. alle drei auch bei den rationalen Zahlen zu finden. Es stellt sich also die Frage, was den Unterschied zwischen den rationalen und den reellen Zahlen ausmacht. Dieser liegt in der sog. Vollständigkeit von R, der wir in Abschnitt 2.4 genauer nachgehen werden. Sie wird sich später als bedeutsam für Konvergenzüberlegungen, die ja den Kern der Analysis ausmachen, erweisen. 2.1 Die algebraische Struktur der reellen Zahlen Mit Zahlen, insbesondere mit reellen Zahlen, kann man rechnen. Es gibt die vier Grundrechnungsarten der Addition, Subtraktion, Multiplikation und Division, und für diese Operationen gelten gewisse Regeln. Außer der Menge R der reellen Zahlen gibt es zahlreiche andere Mengen, auf denen analoge Operationen bestehen und dieselben Rechenregeln gelten. Einen solchen Bereich nennt man einen Körper (im Englischen field). Wir definieren zunächst in voller Allgemeinheit den Begriff des Körpers und postulieren erst dann axiomatisch8 , dass R ein Körper ist. Um die Körperdefinition zu vereinfachen 8 H. Heuser [Heuser 1, § 3] erläutert die axiomatische Vorgehensweise treffend (wenn auch etwas pathetisch) wie folgt: Dieses Verfahren, an den Anfang einer Theorie einige Grund-Sätze, sogenannte Axiome zu ” stellen (die man nicht mehr diskutiert, nicht mehr ‘hinterfragt’, sondern einfach hinnimmt) und aus ihnen durch logisches Schließen (durch Deduktion) den ganzen Aussagebestand der Theorie zu gewinnen, nennt man die axiomatische oder deduktive Methode. Sie ist der Lebensnerv der Mathematik, das, wodurch die Mathematik zur Wissenschaft wird. Sie geht vermutlich auf den großen Eudoxos zurück und findet ihre erste volle Entfaltung in den ‘Elementen’ des Euklid von Alexandria (um 300 v. Chr.). Seit diesem epochalen Werk ist sie konstitutiv für die Mathematik und vorbildlich für die exakten Wissenschaften geworden. [...] Das axiomatische Verfahren ist wohl die ehrlichste Methode, die je ersonnen wurde: Ihr moralischer Kern besteht darin, dass man alle seine Voraussetzungen offen darlegt, dass man im Laufe der Spieles keine Karten aus dem Ärmel holt und dass man somit alle seine Behauptungen überprüfbar macht. Sie darf als der größte Beitrag angesehen werden, den das erstaunliche Volk der Griechen der Mathematik zugebracht hat. [...] Ob man die Grund-Sätze ansieht als Folgerungen aus der [...] Konstruktion des Zahlensystems, oder als vertraute Bekannte aus dem Schulalltag, oder ob man sie sich einfach gefallen lässt und nicht fragt, warum sie gelten, sondern was aus ihnen folgt – das ist der axiomatischen Methode ganz gleichgültig. Diese Methode sagt nur: ‘Hier sind gewisse Objekte, genannt reelle Zahlen und bezeichnet mit Buchstaben a, b, . . . ; gehe mit diesen Objekten um nach gewissen Regeln, die in den Axiomen fixiert sind, und sieh zu, welche Folgerungen Du durch regel-rechtes Schließen gewinnen kannst. Was diese Objekte sind, was ihr Wesen“ ist, braucht ” Dich im übrigen nicht zu kümmern.’“ 17 und übersichtlicher zu gestalten, führen wir als erstes einen anderen wichtigen algebraischen Begriff ein: den der Gruppe. Definition 2.1 Verknüpfung (G0) Eine Gruppe ist ein Paar (G, ◦), bestehend aus einer Menge G und einer ◦ : G × G −→ G, wofür die folgenden drei Bedingungen erfüllt sind: (G1) Es gilt das Assoziativgesetz, d.h. es ist (a ◦ b) ◦ c = a ◦ (b ◦ c) für alle a, b, c ∈ G. (G2) Es gibt ein neutrales Element e ∈ G für die Verknüpfung ◦, d.h. es ist e ◦ a=a◦ e=a für alle a ∈ G. (G3) Zu jedem a ∈ G gibt es ein inverses Element b ∈ G mit a ◦ b = b ◦ a = e. Die Aussagen (G0) bis (G3) heißen die Gruppenaxiome. Eine Gruppe (G, ◦) heißt eine abelsche9 oder eine kommutative Gruppe, falls auch das Kommutativgesetz gilt, d.h. falls a ◦ b=b ◦ a für alle a, b ∈ G. Eine Teilmenge H von G heißt eine Untergruppe von G, falls H mit der auf G gegebenen Verknüpfung ◦ selber eine Gruppe ist. Bemerkung 2.2 (1) Die runden Klammern im Assoziativgesetz sollen eine bestimmte Reihenfolge vorschreiben, in der die Operationen auszuführen sind. Das Assoziativgesetz besagt gerade, dass es auf diese Reihenfolge nicht ankommt, und im Falle seiner Gültigkeit schreibt man daher einfacher a ◦ b ◦ c anstelle von a ◦ (b ◦ c) oder (a ◦ b) ◦ c. (2) Falls die Verknüpfung ◦ kommutativ ist (wie im Falle der Addition und der Multiplikation von reellen Zahlen), dann genügt es natürlich, eine der beiden Bedingungen e ◦ x = x oder x ◦ e = x an ein neutrales Element e zu stellen. (3) Die Notation (G, ◦) für eine Gruppe macht deutlich, dass außer der Menge G auch die Verknüpfung ◦ Bestandteil der Gruppe ist. Eventuell könnte eine Menge durch ganz verschiedene Verknüpfungen zu einer Gruppe gemacht werden. Trotzdem spricht man meist von einer Gruppe G“ und lässt die Verknüpfung unerwähnt, sofern sie sich aus ” 9 nach dem norwegischen Mathematiker N. H. Abel (1802 – 1829). 18 dem Zusammenhang ergibt. Man nennt a ◦ b das Produkt aus den Faktoren a und b. Oft schreibt man ab anstelle von a ◦ b. Andererseits verwendet man gerade in abelschen Gruppen häufig auch + anstelle von ◦ als Verknüpfungszeichen; in diesem Fall vermeidet man es natürlich, von einem Pro” dukt“ zu sprechen. Die Verknüpfung auf G wird in dieser Situation die Addition genannt, das neutrale Element wird mit 0 bezeichnet und die Null in G genannt, und a + b heißt die Summe von a und b. (4) Von einer Gruppe G wird verlangt, dass für beliebige a, b ∈ G stets auch a ◦ b ∈ G gilt; dies ist implizit in der Forderung ◦ : G × G −→ G in (G0) enthalten. Man sagt auch, G sei abgeschlossen unter der Operation ◦. Tipp: Beim Nachweis der Gruppeneigenschaften besteht oftmals die Hauptaufgabe darin, die Abgeschlossenheit unter der Gruppenverknüpfung und unter Inversenbildung nachzuweisen. Ein häufiger Anfängerfehler besteht darin, relativ langatmig die Gültigkeit der Rechenregeln“ (Assoziativ- und evtl. Kommutativgesetz) nachzuweisen ” (die in vielen gängigen Situationen mehr oder minder klar ist), aber über die eigentlich entscheidende Frage der Abgeschlossenheit achtlos hinwegzugehen. Diese Bemerkung betrifft insbesondere die Situation, dass eine Teilmenge H einer Gruppe G als Untergruppe nachzuweisen ist: Die Gültigkeit der Rechenregeln ist hier unproblematisch, da diese bereits in G gelten; ebenso sichern die Gruppenaxiome die Existenz des neutralen Elements und der inversen Elemente in G. Es kommt also nur darauf an, zu zeigen, dass H unter der Verknüpfung in G abgeschlossen ist, dass also für beliebige a, b ∈ H auch a ◦ b ∈ H ist, und dass das neutrale Element und das zu einem a ∈ H inverse Element in H liegen. (5) In (G2) wird insbesondere G 6= ∅ gefordert; jede Gruppe ist eine nicht-leere Menge. (6) Mit der Redewendung es gibt ein“ ist in der Mathematik immer es gibt mindestens ” ” ein“ gemeint. Das Axiom (G2) lässt also die Möglichkeit der Existenz mehrerer neutraler Elemente offen. Diese Möglichkeit werden wir aber in Korollar 2.4 ausschließen: Das neutrale Element einer Gruppe ist eindeutig bestimmt. Ebenfalls in Korollar 2.4 wird gezeigt: Das inverse Element b, dessen Existenz in Axiom (G3) gefordert wird, ist eindeutig durch a bestimmt. Dies rechtfertigt die Schreibweise a−1 für das zu a inverse Element. Falls man + als Verknüpfungszeichen verwendet, die Gruppe also als additive Gruppe ansieht, nennt man das zu a inverse Element das Negative von a, und man bezeichnet es mit − a. Beispiel 2.3 (1) Die Menge R aller reellen Zahlen mit der Addition ist eine abelsche Gruppe, die man exakt mit (R, +) bezeichnet. Die Menge R \ {0} aller von 0 verschiedenen reellen Zahlen mit der Multiplikation ist eine abelsche Gruppe; man schreibt (R \ {0}, ·). Diese Gruppeneigenschaften werden in unserem ersten Axiom über die reellen Zahlen gefordert werden. Hingegen ist (R, ·) keine Gruppe, da 0 kein multiplikatives Inverses besitzt. 19 (2) Es sei M eine Menge und M 6= ∅. Es bezeichne G = Sym(M ) die Menge aller bijektiven Abbildungen f : M −→ M von M auf sich selber. Für beliebige f, g ∈ G sei f ◦ g die Komposition (Hintereinanderausführung) von f und g. Dann ist G eine Gruppe mit der identischen Abbildung idM als neutralem Element; das inverse Element eines Elements f ∈ G ist die Umkehrabbildung f −1 : M −→ M ; diese existiert, weil die Abbildung f : M −→ M nach Definition von G bijektiv ist, und sie ist ebenfalls bijektiv, liegt also in G. Die Gruppe G ist i.Allg. nicht abelsch (nämlich immer dann nicht, falls M mindestens drei verschiedene Elemente enthält). Man nennt Sym(M ) die symmetrische Gruppe von M oder die Permutationsgruppe von M . Jede bijektive Abbildung f : M −→ M heißt auch eine Permutation von M . (3) Eine Menge G = {e} aus einem einzigen Element e wird durch die Festsetzung e◦e = e zu einer Gruppe gemacht. Diese Gruppe {e} heißt die triviale Gruppe. Korollar 2.4 In einer Gruppe sind das neutrale Element und die inversen Elemente eindeutig bestimmt. Beweis. Es sei (G, ◦) eine Gruppe, und e und ee seien neutrale Elemente in G. Aus der Definition neutraler Elemente folgt dann einerseits e = e ◦ ee, weil ee neutral ist, und es folgt andererseits e◦e e = ee, weil e neutral ist. Hieraus ergibt sich e = ee. Damit ist die Eindeutigkeit des neutralen Elements gezeigt. Nun sei a ∈ G, und die Elemente b, c ∈ G seien beide invers zu a. Es wird also a◦b = b◦a = e und a ◦ c = c ◦ a = e vorausgesetzt. Unter Verwendung des Assoziativgesetzes folgt dann c = c ◦ e = c ◦ (a ◦ b) = (c ◦ a) ◦ b = e ◦ b = b , also c = b. Dies zeigt die Eindeutigkeit des zu a inversen Elements. Die Addition und die Multiplikation der reellen Zahlen stehen nicht beziehungslos nebeneinander. Sie sind vielmehr durch das Distributivgesetz gekoppelt. Dieses ist ein Bestandteil der nun folgenden Körperaxiome (K1), (K2) und (K3). Definition 2.5 Eine Menge K mit zwei Verknüpfungen + und · , die man die Addition und die Multiplikation auf K nennt, heißt ein Körper, falls die folgenden drei Bedingungen erfüllt sind. (K1) Mit der Verknüpfung + ist K eine abelsche Gruppe. Das neutrale Element dieser Verknüpfung wird mit 0 bezeichnet und heißt die Null von K. (K2) Die Menge K \ {0} mit der Verknüpfung · ist eine abelsche Gruppe, und diese Verknüpfung ist auf der gesamten Menge K kommutativ. Das neutrale Element dieser Verknüpfung wird mit 1 bezeichnet und heißt die Eins von K. (K3) Es gilt das Distributivgesetz: Für alle a, b, c ∈ K gilt a(b + c) = ab + ac . 20 Bemerkung 2.6 (1) Anstelle von a·b schreibt man kürzer auch ab. Davon haben wir beim Distributivgesetz Gebrauch gemacht, ebenso von der Konvention Punkt vor Strich“. ” (2) Das inverse Element a−1 eines Elements a 6= 0 in K wird üblicherweise auch mit 1 a oder 1/a bezeichnet. Für a, b ∈ K und a 6= 0 hat die Gleichung ax = b gemäß (K2) und (G3) eine Lösung, nämlich a−1 b. Diese ist nach Korollar 2.4 eindeutig bestimmt; sie wird mit b oder b/a a bezeichnet. (Aufgrund der Kommutativität der Multiplikation kommt es nicht auf die Reihenfolge der Faktoren a−1 und b an; das macht die gewohnte Schreibweise ab erst möglich.) Eine Summe der Gestalt b + (−a) schreibt man üblicherweise als Differenz b − a. Die Abbildung (b, a) 7→ b − a von K × K nach K heißt die Subtraktion auf K, und die Abbildung (b, a) 7→ ab von K × (K \ {0}) nach K heißt die Division auf K. Außerdem können wir noch die Potenzen x0 := 1 für x ∈ K, xn := x . . · x} | · .{z für x ∈ K, n ∈ N, n−mal x−n := (x−1 )n für x ∈ K \ {0} , n ∈ N definieren. Dafür gelten dann die üblichen Potenzgesetze. (Diese kann man mittels vollständiger Induktion beweisen. Wir wollen dies nicht ausführen, da dies wohl eher verwirrend als erhellend wäre.) (3) Da nur K \ {0}, nicht aber K eine multiplikative Gruppe ist, besitzt die Null kein inverses Element. Darin spiegelt sich die altbekannte Tatsache wider, dass man niemals durch Null dividieren darf. (4) Die zweite Forderung in (K2) stellt klar, dass a · 0 = 0 · a für alle a ∈ K gilt. Das ist in der ersten Forderung in (K2) nicht enthalten, weil diese sich nur auf die Menge K \ {0} bezieht. Natürlich erwarten wir, dass stets a · 0 = 0 · a = 0 gilt. Dies begründet man wie folgt: Aufgrund des Distributivgesetzes gilt für alle a ∈ K 0 · a = (0 + 0) · a = 0 · a + 0 · a; indem man auf beiden Seiten 0 · a subtrahiert, folgt tatsächlich 0 · a = 0. 21 Axiom (K). Die Menge R der reellen Zahlen mit der gewöhnlichen Addition und Multiplikation bildet einen Körper. Das Axiom (K) lässt es natürlich völlig offen, was eine reelle Zahl eigentlich ist. Das liegt im Wesen der axiomatischen Methode. Beispiel 2.7 • Die Menge o nm Q= m ∈ Z, n ∈ N n der rationalen Zahlen bildet (mit den auf R gegebenen Verknüpfungen + und ·) einen Körper. Die neutralen Elemente 0 und 1 von Q sind dieselben wie in R. Man nennt daher Q einen Teilkörper10 von R. Wer bis hierhin kritisch mitgedacht hat, sollte sich soeben eine Frage gestellt haben: Warum eigentlich ist Q ein Körper? Wenn wir die Körpereigenschaft von R bereits zur Verfügung haben (wie hier aufgrund unseres Axioms (K)), ist der Nachweis, dass auch Q ein Körper ist, gar nicht so schwer – und weniger mühselig, als die langwierige Körperdefinition befürchten lässt: Wir sind hier nämlich gerade in der in Bemerkung 2.2 beschriebenen komfortablen Situation, nicht jede einzelne der von einem Körper verlangten Rechenregel nachprüfen zu müssen, sondern uns darauf berufen zu können, dass diese ja in R und damit erst recht in der Teilmenge Q gelten. Wir müssen daher im Wesentlichen nur nachweisen, dass Q abgeschlossen unter Addition, Multiplikation und Bildung der additiven bzw. multiplikativen Inversen ist, dass also Summen, Produkte und Inverse von rationalen Zahlen wieder rational sind. Dies aber ist klar“ aufgrund ” der Rechenregeln für Brüche. • In § 3 wird der Körper C der komplexen Zahlen eingeführt. Die reellen Zahlen bilden einen Teilkörper von C. • In der Linearen Algebra und vor allem in der Algebra betrachtet man Körper mit einer endlichen Anzahl von Elementen. Beispielsweise kann man F2 := {0, 1} durch geeignete Festlegung der Verknüpfungen + und · zu einem Körper machen; diese definiert man überwiegend“ wie in Z, mit einer Ausnahme: Man setzt 1 + 1 := 0. (Der Nachweis, ” dass damit die Körperaxiome erfüllt sind, ist mühsam und wenig inspirierend.) Der Körper F2 hat eine enorme Bedeutung in der Daten- und Signalverarbeitung. Es drängt sich die Frage auf, für welche natürlichen Zahlen q es einen Körper mit genau q Elementen gibt. Dies ist, wie später in der Algebra gezeigt werden wird, genau dann der Fall, wenn q eine Primzahlpotenz ist. Aus den Körperaxiomen lassen sich jetzt die üblichen Rechenregeln, wie sie von den reellen Zahlen bekannt sind, herleiten. Z.B. kann man für jeden Körper K Folgendes zeigen: • Sind a, b ∈ K mit a 6= 0, dann gilt −(−b) = b und 1/(1/a) = a. • Lineare Gleichungen in K sind eindeutig lösbar: Zu beliebigen a, b, c ∈ K mit a 6= 0 gibt es genau ein x ∈ K mit ax + b = c. 10 Die an sich ebenfalls mögliche Bezeichnung Unterkörper“ hat sich aus naheliegenden Gründen nicht ” durchgesetzt. 22 • Für beliebige Elemente a, b, c ∈ K gilt a · 0 = 0, (−1) · a = −a, (−b)a = −ba, a(b − c) = ab − ac . Wenn ab = 0 ist, dann folgt a = 0 oder b = 0. • (Kürzungsregel) Wenn a, b, c Elemente in K sind, die ab = ac und a 6= 0 erfüllen, dann gilt b = c. Wir führen dies nicht näher aus, zum einen um nicht mit der formalen Begründung scheinbarer Selbstverständlichkeiten zu verwirren oder zu langweilen, zum anderen weil diese Beweise ihrer Natur nach eher der Linearen Algebra zuzurechnen sind; sie sind z.B. in [Köhler, § 2.3] oder [Behrends, Satz 1.3.6] zu finden. Wichtiger ist folgende Warnung: Die Kürzungsregel ab = ac =⇒ b = c ist falsch für a = 0. Z.B. kann man aus 0 · 2 = 0 · 1 natürlich nicht auf 2 = 1 schließen. Bei der Anwendung dieser Regel muss man daher zunächst überprüfen, ob der Faktor a, der gekürzt werden soll, wirklich von Null verschieden ist. Hier liegt eine Quelle für viele vermeidbare Fehler. 2.2 Die Ordnungsstruktur der reellen Zahlen Zur weiteren Kennzeichnung der reellen Zahlen verwenden wir die Vorstellung der Zahlengeraden, auf der die Zahlen aufgereiht sind. Reelle Zahlen können in ihrer Größe verglichen werden. Eine Zahl x ist größer als jede links von ihr liegende und kleiner als jede rechts von ihr liegende. Die rechts von 0 liegenden Zahlen sind positiv. Die Summe und das Produkt von zwei positiven Zahlen sind ebenfalls positiv. Diese Eigenschaften der reellen Zahlen werden nun in den Anordnungsaxiomen zusammengefasst. Definition 2.8 Ein Körper K heißt angeordnet oder geordnet, falls in ihm gewisse Elemente a ∈ K als positiv“ ausgezeichnet sind (in Zeichen: a > 0), so dass folgende ” Anordnungsaxiome erfüllt sind: (O1) (Trichotomie) Für alle a ∈ K gilt genau eine der drei Beziehungen a > 0, a = 0, −a > 0. (O2) Für alle a, b ∈ K gilt: Wenn a > 0 und b > 0 ist, so ist auch ab > 0. (O3) Für alle a, b ∈ K gilt: Wenn a > 0 und b > 0 ist, so ist auch a + b > 0. Die Forderung (O1) besagt, dass jedes Element des Körpers mit der 0 vergleichbar ist. Die Forderungen (O2) und (O3) bringen die Verträglichkeit“ der Ordnungsrelation mit der ” Addition und der Multiplikation zum Ausdruck. Damit definieren wir Größer-/Kleiner-Relationen“ zwischen je zwei Elementen wie folgt. ” Definition 2.9 Es sei K ein geordneter Körper, und es seien a, b ∈ K. Wir schreiben (1) a > b, falls a − b > 0 ist. (2) a < b, falls b − a > 0 ist. (3) a ≥ b, falls a − b > 0 oder a = b ist. (4) a ≤ b, falls b − a > 0 oder a = b ist. 23 Korollar 2.10 Für beliebige Elemente a, b, c eines geordneten Körpers K gelten die folgenden Aussagen. (1) (Trichotomie) Es gilt genau eine der Beziehungen a > b, a = b, a < b. (Antisymmetrie) Gilt a ≤ b und b ≤ a, so ist a = b. (2) (Transitivität) Aus a > b und b > c folgt a > c. (3) (Translationsinvarianz) Aus a > b folgt a + c > b + c. Insbesondere gilt: Falls a > 0 ist, so ist −a < 0. (4) Aus a > b und c > 0 folgt ca > cb. (5) Ist a 6= 0, dann gilt a2 > 0. Insbesondere gilt 1 > 0. (6) Aus a > 0 folgt 1 a > 0. (7) Aus a > b > 0 folgt 1 a < 1 b und a b > 1. Beweis. (1) Nach (O1) gilt für das Element a − b ∈ K genau eine der Beziehungen a − b > 0, a − b = 0 oder b − a > 0. Hieraus folgt die erste Behauptung in (1). Nun sei a ≤ b und b ≤ a. Wäre a 6= b, so würde aus den Definitionen sowohl a − b > 0 als auch b − a > 0 folgen, im Widerspruch zu der soeben begründeten ersten Aussage in (1). Also gilt a = b. Damit ist auch die zweite Aussage in (1) bewiesen. (2) Definitionsgemäß bedeuten die Voraussetzungen a > b und b > c, dass a − b > 0 und b − c > 0 ist. Aus (O3) folgt dann auch a − c = (a − b) + (b − c) > 0, d.h. a > c. (3) Falls a > b ist, so ist a − b > 0, also auch (a + c) − (b + c) = a − b > 0 und somit definitionsgemäß a + c > b + c. Falls a > 0 ist, so folgt insbesondere 0 = a − a > 0 − a = −a, also die zweite Behauptung. (4) Es sei a > b und c > 0. Dann ist a − b > 0, und mit (O2) und dem Distributivgesetz folgt ca − cb = c(a − b) > 0. Folglich ist ca > cb. (5) Es sei a 6= 0. Wegen (O1) ist dann a > 0 oder a < 0. Falls a > 0 ist, so folgt aus (O2) a2 = a · a > 0. Falls a < 0 ist, so ist −a > 0 aufgrund von (3), und damit folgt ebenfalls a2 = (−a)2 > 0. Insbesondere ist 1 = 12 > 0. Damit ist (5) bewiesen. (6) Es sei a > 0. Dann ist natürlich a1 6= 0 (denn K \ {0} ist abgeschlossen bezüglich Inversenbildung). Wäre a1 < 0, so wäre − a1 > 0 gemäß (3), und mit (O2) würde −1 = − a1 · a > 0 folgen, im Widerspruch zu 1 > 0. Also muss a1 > 0 sein. (7) Es sei a > b > 0. Dann ist a − b > 0, und aus (6) folgt a1 > 0, 1b > 0. Wegen (O2) folgt hieraus 1 1 1 1 − = (a − b) · · > 0 , b a a b also 1b > a1 . Hieraus und aus (4) erhält man noch ab = a · 1b > a · a1 = 1. Damit ist (7) bewiesen. 24 Die wohlbekannte Tatsache“, dass die reellen Zahlen angeordnet sind, formulieren wir nun ” wie angekündigt als Axiom: Axiom (O): Der Körper R der reellen Zahlen ist ein geordneter Körper. Die Definitionsbereiche von reellen Funktionen sind oftmals Intervalle oder Vereinigungen endlich vieler Intervalle. Diese können wir, nachdem wir R angeordnet haben, auch offi” ziell“ einführen: Ein Intervall ist eine Teilmenge von R, die mit je zwei Punkten auch alle dazwischen liegenden Punkte enthält: Definition 2.11 Eine Teilmenge I ⊆ R heißt ein Intervall, falls für alle x, y ∈ I mit x < y und für beliebige t ∈ R mit x < t < y stets auch t ∈ I gilt. Ein Intervall I heißt ein echtes Intervall, falls I mindestens zwei verschiedene Punkte enthält. Bemerkung 2.12 (1) Auch die leere Menge ∅ und die einpunktigen Mengen {a} für beliebige a ∈ R sind Intervalle. Diese sind in der Praxis natürlich weniger interessant; dies erklärt die Einführung des Begriffs der echten Intervalle. (2) Jedes echte Intervall enthält unendlich viele Punkte. Beweis. Dies zeigt man sinnvollerweise indirekt: Wäre I ein echtes Intervall mit nur endlich vielen Punkten, so könnte man I in der Form I = {x1 , . . . , xn } mit gewissen paarweise verschiedenen xj ∈ I schreiben. Da I echt ist, ist n ≥ 2. O.B.d.A. darf man x1 < x2 < · · · < xn annehmen. (Andernfalls nummeriert man die xj geeignet um.) Es ist dann s := 21 (x1 + x2 ) eine von allen xj verschiedene reelle Zahl, die jedoch nach der Definition von Intervallen zu I gehören müsste, im Widerspruch dazu, dass x1 , . . . , xn sämtliche Elemente aus I sind. (3) Der Durchschnitt zweier Intervalle ist ebenfalls ein Intervall. Dieser Satz wäre nicht ausnahmslos richtig, wenn man nur die echten Intervalle als Intervalle gelten lassen würde. (Denn der Schnitt zweier solcher Intervalle kann leer oder einelementig sein.) Es gibt verschiedene Typen von Intervallen. Dafür werden jetzt Benennungen und Notationen eingeführt. Definition 2.13 Es seien a und b reelle Zahlen mit a ≤ b. Man setzt ]a, b[:= {x ∈ R | a < x < b}, ] − ∞, b[:= {x ∈ R | x < b}, ]a, ∞[:= {x ∈ R | x > a}. Diese Intervalle (sowie auch R selbst) heißen offene Intervalle. Der Fall a = b ist zulässig, und daher ist auch die leere Menge ∅ =]a, a[ ein offenes Intervall. Weiter setzt man [a, b] := {x ∈ R | a ≤ x ≤ b}, ] − ∞, b] := {x ∈ R | x ≤ b}, [a, ∞[:= {x ∈ R | x ≥ a}. Diese Intervalle sowie auch R und ∅ heißen abgeschlossene Intervalle. Der Fall a = b besagt, dass die einpunktigen Mengen abgeschlossene Intervalle sind. Die Intervalle [a, b[:= {x ∈ R |a ≤ x < b} und ]a, b] := {x ∈ R | a < x ≤ b} heißen halboffene Intervalle. Die abgeschlossenen Intervalle des Typs [a, b] und auch die leere Menge ∅ heißen kompakte Intervalle. Die Punkte a und b in obigen Notationen heißen der linke bzw. der rechte Endpunkt (oder Randpunkt) des jeweiligen Intervalls. Diese müssen nicht zu dem Intervall gehören. 25 Man könnte auch noch das uneigentliche Intervall ] − ∞, ∞[ definieren. Dieses ist aber nichts anderes als R selbst. Den Adjektiven offen“, abgeschlossen“ und kompakt“ wird bald eine eigenständige Be” ” ” deutung zukommen, losgelöst von den Intervallen. Dass die Mengen R und ∅ sowohl offen als auch abgeschlossen genannt werden, läuft dem umgangssprachlichen Sinn dieser Wörter zuwider und ist insofern gewöhnungsbedürftig, wird sich später aber als sehr sinnvoll erweisen. Die Notationen für Intervalle in der Literatur sind nicht einheitlich; oft sieht man (a, b) anstelle von ]a, b[, [a, b) anstelle von [a, b[ und (a, b] anstelle von ]a, b]. 2.3 Die metrische Struktur der reellen Zahlen: Absolutbetrag und euklidischer Abstand Dass der Körper R angeordnet ist, ermöglicht es, den Absolutbetrag einer reellen Zahl und den Abstand zweier reeller Zahlen zu definieren. Damit erhält man auf R eine sog. metrische Struktur. Eine bessere anschauliche Vorstellung von einer Metrik wird sich erst in Abschnitt 3.3 ergeben, wenn die analogen Begriffe für die Ebene R2 und den Raum R3 eingeführt werden. Definition 2.14 Für reelle Zahlen x wird der Absolutbetrag oder der Betrag |x| durch x für x > 0, 0 für x = 0, |x| := −x für x < 0 definiert. Für zwei reelle Zahlen a, b wird der (euklidische) Abstand oder die Distanz, euklidische d(a, b) durch d(a, b) := |a − b| definiert. Das Vorzeichen einer reellen Zahl x ist 1 für x > 0, 0 für x = 0, sgn (x) := −1 für x < 0. Die Funktionen x 7→ |x| und x 7→ sgn (x) auf R sind in Abbildung 3 dargestellt. sgn (x) |x| x x Abbildung 3: Betrag und Vorzeichen Unmittelbar aus den Definitionen ergeben sich die folgenden Regeln. 26 Korollar 2.15 (1) Für alle x ∈ R gilt x = |x| · sgn (x), | − x| = |x| und x ≤ |x|. (2) Für alle reellen x 6= 0 gilt |x| > 0. (3) Für alle x, y ∈ R gilt |xy| = |x| · |y| und sgn (xy) = sgn (x) · sgn (y). (4) Für beliebige reelle x, a und beliebige reelle ε > 0 ist |x − a| < ε äquivalent mit a − ε < x < a + ε. Insbesondere ist |x| < ε äquivalent mit −ε < x < ε. Wir beweisen nun die Dreiecksungleichung, die außerordentlich wichtig für die Analysis ist. In der Zahlengeraden R gibt es keine Dreiecke, so dass der Name vorerst nicht verständlich wird. Die in Abschnitt 3.3 zu beweisende Verallgemeinerung auf Punkte in R2 , R3 , Rn und Cn erklärt den Namen. Satz 2.16 (Dreiecksungleichung) Für beliebige reelle Zahlen a, b gelten die Ungleichungen |a + b| ≤ |a| + |b| , |a − b| ≥ |a| − |b| . Beweis. Für alle x ∈ R gilt x ≤ |x|. Wenn also a + b ≥ 0 ist, dann folgt |a + b| = a + b ≤ |a| + |b|. Ist jedoch a + b < 0, dann ist −(a + b) > 0, und es folgt |a + b| = −(a + b) = −a + (−b) ≤ | − a| + | − b| = |a| + |b|. Damit ist die erste Behauptung bewiesen. Mit ihrer Hilfe folgt |a| = |(a − b) + b| ≤ |a − b| + |b|, also |a| − |b| ≤ |a − b|. Vertauscht man hierin die Rollen von a und b, so ergibt sich |b| − |a| ≤ |b − a| = |a − b|. Also folgt |a − b| ≥ |a| − |b|. Korollar 2.17 (Dreiecksungleichung) Für beliebige reelle Zahlen a, b, c gilt d(a, c) ≤ d(a, b) + d(b, c) . Beweis. Satz 2.16 mit a − b und b − c anstelle von a und b ergibt d(a, c) = |a − c| = |(a − b) + (b − c)| ≤ |a − b| + |b − c| = d(a, b) + d(b, c) . 27 2.4 Das Vollständigkeitsaxiom Eine ernsthafte Unzulänglichkeit der rationalen Zahlen wurde bereits in der Antike entdeckt. Damals waren nur die rationalen Zahlen bekannt. Ein Verwendungszweck der positiven Zahlen war (und ist) die Messung von Längen. Wie selbstverständlich ging man davon aus, dass jede beliebige Länge ein Vielfaches, und zwar ein rationales Vielfaches einer fest gewählten Einheitslänge ist. Das würde auch bedeuten, dass je zwei Längen l1 und l2 in einem rationalen Verhältnis l1 /l2 = q ∈ Q zueinander stehen und dass somit natürliche Zahlen m und n existieren mit ml2 = nl1 . Zwei Längen mit dieser Eigenschaft heißen kommensurabel. Die Entdeckung inkommensurabler Längen lässt sich am leichtesten mittels der Seite und der Diagonale eines Quadrats nachvollziehen. Wir betrachten ein Quadrat, dessen Seite die Einheitslänge 1 hat. Für die Länge x der Diagonalen gilt dann nach dem Satz von Pythagoras die Beziehung x2 = 2. Ist x eine rationale Zahl? Das folgende, vielleicht schon aus dem Schulunterricht bekannte Lemma gibt eine negative Antwort. Lemma 2.18 Es gibt keine rationale Zahl x mit x2 = 2. Beweis. Der Beweis ist ein typisches Beispiel für einen Widerspruchsbeweis: Man nimmt an, die Aussage gilt nicht, und führt diese Annahme dann zu einem Widerspruch, so dass die Aussage doch gelten muss. Wir nehmen also an, dass es eine rationale Zahl x ∈ Q gibt mit x2 = 2. Dann können wir x = pq mit gewissen ganzen Zahlen p, q schreiben, wobei q 6= 0 ist. Nun ist diese Darstellung einer rationalen Zahl zwar nicht eindeutig, durch geeignetes Kürzen können wir allerdings stets erreichen, dass p und q teilerfremd sind, also keinen gemeinsamen (von Eins verschiedenen) Teiler haben. Aus x2 = 2 folgt nun durch Quadrieren p2 = 2q 2 . Diese Gleichung zeigt, dass p2 gerade ist. Daher ist p selber gerade, denn Quadrate ungerader Zahlen sind ungerade. Somit ist p = 2u mit einer ganzen Zahl u. Es folgt 2q 2 = p2 = 4u2 und q 2 = 2u2 . Diese Gleichung zeigt, dass q 2 und folglich auch q selber gerade sind. Also sind p und q beide gerade, und man hat einen Widerspruch dazu, dass p und q als teilerfremd vorausgesetzt waren. Daher existiert keine rationale Zahl x mit x2 = 2. Die Antwort der antiken Mathematiker auf die Entdeckung inkommensurabler Längen war nicht etwa die Erfindung eines größeren Bereiches von Zahlen. Vielmehr wurden Zahlen wegen ihrer vermeintlich erwiesenen Unzulänglichkeit aus der messenden Geometrie entfernt, und es wurde eine Theorie der Längenverhältnisse geschaffen. Dies ist die Proportionenlehre des Eudoxos von Knidos (4. Jahrhundert v. Chr.), die uns im 5. und 10. Buch der Elemente des Euklid überliefert ist. Mit der Erfindung der Analytischen Geometrie im 17. Jahrhundert durch R. Descartes und P. de Fermat wurden die Zahlen wieder zu einem wirksamen Werkzeug in der Geometrie. Eine logisch zufriedenstellende Grundlage für ein System von Zahlen, das für die Analysis und die Geometrie ausreicht, wurde aber erst um 1870 von G. Cantor (1845 – 1918) und R. Dedekind (1831 – 1916) geschaffen. Man stellt sich die Zahlen als ausdehnungslose Punkte einer Geraden vor, die diese Gerade lückenlos ausfüllen. Trägt man auf der Geraden eine beliebige Strecke ab, dann sollen also den Endpunkten der Strecke Zahlen entsprechen. Dieser Vorstellung werden die rationalen 28 Zahlen nicht gerecht, wie das Beispiel der Diagonalen eines Quadrats der Seitenlänge 1 und viele andere Beispiele zeigen. Die Menge der rationalen Zahlen füllt die Gerade nicht lückenlos aus. Es verbleiben Löcher – so schwer es auch fallen mag, sich diese vorzustellen. Die Löcher müssen mit Zahlen ausgestopft“ werden. Zu diesem Zweck fanden Cantor und ” Dedekind recht verschiedene Methoden. Im Nachhinein könnte man sagen, dass Dedekind nur“ die Proportionenlehre des Eudoxos in geeigneter Weise umbaute. Wir behandeln diese ” beiden Methoden nicht näher, sondern gehen weiterhin axiomatisch vor. Dazu müssen wir zunächst einige neue Begriffe einführen. Definition 2.19 Es sei K ein geordneter Körper und A ⊆ K eine nicht-leere Teilmenge. (1) Man nennt A nach oben (bzw. nach unten) beschränkt, falls es ein c ∈ K gibt, so dass x ≤ c für alle x ∈ A (bzw. x ≥ c für alle x ∈ A) gilt. Jedes solche c heißt eine obere (bzw. untere) Schranke von A. Man nennt A beschränkt, falls A nach oben und nach unten beschränkt ist. (2) Eine obere Schranke von A, die in A liegt, heißt ein Maximum von A. Ebenso heißt eine untere Schranke von A, die in A liegt, ein Minimum von A. Ein Element M ∈ K ist also genau dann ein Maximum von A, falls x ≤ M für alle x ∈ A gilt und falls M ∈ A ist. Eine analoge Aussage gilt für Minima. (3) Ein Element s ∈ K heißt Supremum von A, falls s eine kleinste obere Schranke von A ist, d.h. wenn die beiden folgenden Eigenschaften gelten: (a) Es ist x ≤ s für alle x ∈ A. (b) Ist c ∈ K eine obere Schranke von A, so gilt s ≤ c. Analog heißt r ∈ K Infimum von A, falls r eine größte untere Schranke von A ist, d.h. falls r eine untere Schranke von A ist und r ≥ c für jede untere Schranke c von A gilt. Falls die Menge A nicht nach oben beschränkt ist, dann schreibt man sup A = ∞, und falls A nicht nach unten beschränkt ist, dann schreibt man inf A = −∞. Bemerkung 2.20 (1) Im Falle ihrer Existenz sind Maximum und Minimum einer Menge eindeutig bestimmt: Sind nämlich z.B. M ∈ A und M 0 ∈ A zwei Maxima von A, so muss einerseits M 0 ≤ M gelten (wegen der Maximumseigenschaft von M ), andererseits aber auch M ≤ M 0 (wegen der Maximumseigenschaft von M 0 ). Aus Korollar 2.10 (1) folgt M = M 0 . Für Minima argumentiert man entsprechend. Diese Eindeutigkeit rechtfertigt es, von dem Maximum bzw. Minimum von A zu sprechen und dieses mit max A bzw. min A zu bezeichnen. Ebenso ist klar, dass Supremum und Infimum einer Menge im Falle ihrer Existenz eindeutig bestimmt sind. Man bezeichnet sie mit sup A bzw. 29 inf A . (2) Die Voraussetzung A 6= ∅ ist für Teil (3) der Definition wichtig. Bevor man das Supremum oder Infimum einer Menge bildet, muss man sich davon überzeugen, dass diese Menge nicht leer ist. (Manchmal erweist es sich als nützlich, sup ∅ := −∞ und inf ∅ := +∞ zu setzen. Wir machen davon freilich keinen Gebrauch.) (3) Der wesentliche Unterschied zwischen Supremum und Maximum einer (nach oben beschränkten) Menge A 6= ∅ besteht darin, dass das Maximum (sofern es existiert) definitionsgemäß zu A gehört, während das Supremum zu A gehören kann, aber nicht muss. Falls A ein Maximum besitzt, so ist dieses auch Supremum von A (denn es ist obere Schranke für A, und da es zu A gehört, kann A keine kleinere obere Schranke haben). In diesem Fall gilt also sup A = max A. Entsprechendes gilt für den Zusammenhang zwischen Minimum und Infimum. (4) Die beiden unendlichen“ Objekte ∞ und −∞ können relativ beliebig sein; wesentlich ” ist nur, dass ∞ und −∞ untereinander und von allen x ∈ K verschieden sind. Man setzt −∞ < x < ∞ für alle x ∈ K fest. Beispiel 2.21 (1) Es sei K = Q und A := {x ∈ Q | x < 0} , B := {x ∈ Q | x ≤ 0} . Dann gilt sup A = 0 und sup B = 0. Das Supremum von A gehört nicht zu A, das Supremum von B hingegen ist ein Element von B; es ist sup B = max B = 0. (2) Wieder sei K = Q, und es sei 1 1 1 1 | n ∈ N = 1, , , , . . . . A := n 2 3 4 Dann ist sup A = 1 und inf A = 0, wobei sup A zu A gehört (also ein Maximum ist), während inf A kein Element von A ist. Die Menge A besitzt also kein Minimum. (3) Abermals sei K = Q. Wir betrachten die Teilmenge A := x ∈ Q | x2 < 2 und behaupten, dass diese kein Supremum in Q besitzt. (Würde man A√hingegen als Teilmenge von R auffassen, so hätte diese ein Supremum in R, nämlich 2.) Begründung. Wir nehmen an, s ∈ Q wäre ein Supremum von A. Wegen 1 ∈ A ist dann natürlich s ≥ 1 > 0. Wäre s2 < 2, so wäre s keine obere Schranke für A, denn durch geringfügige Vergrößerung von s würde man dann ein t ∈ Q mit t > s und t2 < 2 finden. Wäre s2 > 2, so wäre s nicht die kleinste obere Schranke für A, denn es gäbe dann ein u ∈ Q mit 0 < u < s und u2 > 2, so dass auch u obere Schranke für A wäre. 30 Die beiden Behauptung über die Existenz von t und u sind intuitiv klar. Man kann solche t und u auch konkret vorweisen, indem man z.B. t = u := s − s2 − 2 2s + 2 = s+2 s+2 setzt. Mit s ∈ Q ist dann auch t ∈ Q, wegen s > 0 ist t > 0, und es gilt t2 − 2 = (2s + 2)2 − 2(s + 2)2 s2 − 2 (2s + 2)2 − 2 = = 2 · . (s + 2)2 (s + 2)2 (s + 2)2 Nimmt man s2 < 2 an, so folgt t > s und t2 < 2. Analog folgt aus der Annahme s2 > 2 sowohl t < s als auch t2 > 2. Sowohl die Annahme s2 < 2 als auch die Annahme s2 > 2 führen also auf einen Widerspruch zur Definition des Supremums. Daher ist s2 = 2. Dies widerspricht jedoch Lemma 2.18, wonach es kein x ∈ Q mit x2 = 2 gibt. Also kann sup A in Q nicht existieren. Definition 2.22 Ein geordneter Körper K heißt vollständig oder ordnungsvollständig, wenn jede nichtleere und nach oben beschränkte Teilmenge A ⊆ K ein Supremum sup A ∈ K besitzt. Wie Beispiel 2.21 (3) zeigt, ist Q nicht vollständig. Unsere Forderung, dass die reellen Zahlen keine Lücken enthalten, können wir nun wie folgt formulieren. Axiom (V) (Vollständigkeitsaxiom). Der geordnete Körper R der reellen Zahlen ist ordnungsvollständig. Mit diesem Axiom wird eigentlich nur ein Wunsch zum Ausdruck gebracht. Dass dieser Wunsch erfüllt werden kann, dass es also einen ordnungsvollständigen Körper gibt, kann mit den Konstruktionen von Cantor oder Dedekind bewiesen werden. Hierzu sei auf [Cohen/Ehrlich] und [Ebbinghaus et al.] verwiesen. Die Vollständigkeit von R spielt ab Kapitel 6 in Konvergenzkriterien eine entscheidende Rolle. Als Folgerung aus dem Vollständigkeitsaxiom können wir nun das sog. Intervallschachtelungsprinzip beweisen. Definition 2.23 Eine Intervallschachtelung ist eine Folge I1 , I2 , I3 , . . . von kompakten echten Intervallen In = [an , bn ] mit den folgenden Eigenschaften: (1) Für alle n ∈ N gilt In+1 ⊆ In . (2) Zu jeder reellen Zahl ε > 0 gibt es ein n ∈ N mit bn − an < ε. Von einer Intervallschachtelung setzen wir also nicht nur voraus, dass die Intervalle gemäß (1) ineinander geschachtelt“ sind, sondern ihre Längen sollen auch gemäß (2) für wachsendes ” n beliebig klein werden. Das Intervallschachtelungsprinzip besagt, dass jede Intervallschachtelung eine eindeutig bestimmte reelle Zahl festlegt (die im Durchschnitt aller beteiligten Intervalle liegt). Verzichtet man auf Forderung (2) und betrachtet lediglich ineinander geschachtelte Intervalle, so kann man immerhin noch sagen, dass deren Schnitt nichtleer ist. (Er könnte allerdings mehr als ein Element enthalten.) 31 Satz 2.24 (1) Ist I1 , I2 , I3 , . . . eine Folge von kompakten echten Intervallen In mit In+1 ⊆ In für alle n ∈ N, so ist der Durchschnitt der In nichtleer: \ In 6= ∅. n∈N (2) (Prinzip der Intervallschachtelung) Ist I1 , I2 , I3 , . . . eine Intervallschachtelung, dann existiert genau eine reelle Zahl c mit c ∈ In für alle n ∈ N, und es gilt \ In = {c} . n∈N Beweis. Es sei In = [an , bn ]. Unter den Voraussetzungen von (1) bzw. (2) gilt dann am ≤ an ≤ b n ≤ b m für alle m, n ∈ N mit m ≤ n. (Wir werden später davon sprechen, dass (an )n monoton steigt und (bn )n monoton fällt, vgl. Definition 6.1.) (1) Wir betrachten die Menge A := {an | n ∈ N} der linken Endpunkte der In . Dann ist A nach oben beschränkt; obere Schranken sind z.B. alle bm ; für alle m, n ∈ N gilt nämlich ( am ≤ bm falls n ≤ m, an ≤ bn ≤ bm falls m ≤ n, in jedem Fall also an ≤ bm . Nach dem Vollständigkeitsaxiom existiert also das Supremum c := sup A ∈ R. Es gilt dann an ≤ c ≤ bn für alle n ∈ N. (Weil c obere Schranke von A ist, gilt an ≤ c; weil alle bn obere Schranken von A sind und c die kleinste obere Schranke ist, gilt c ≤ bn .) Also liegt c in jedem In und damit auch im Durchschnitt sämtlicher Intervalle In . T (2) Aus (1) folgt sofort die Existenz eines c ∈ n∈N In . Es bleibt noch die Eindeutigkeit von c zu zeigen. Es seien also c und d reelle Zahlen, die beide im Durchschnitt aller In liegen. O.B.d.A. darf man c ≤ d annehmen. Für alle n ∈ N gilt dann an ≤ c ≤ d ≤ b n , also 0 ≤ d − c ≤ b n − an . Aus der Eigenschaft (2) von Intervallschachtelungen folgt 0 ≤ d − c < ε für jede reelle Zahl ε > 0. Dies ist nur möglich, wenn d − c = 0, also c = d ist. 32 Das Intervallschachtelungsprinzip ist sogar äquivalent zum Vollständigkeitsaxiom, d.h. aus ihm kann das Vollständigkeitsaxiom hergeleitet werden. Das wird hier nicht ausgeführt. Ferner bieten die Schachtelungen von Intervallen mit rationalen Endpunkten eine Möglichkeit zur Konstruktion der reellen Zahlen. Auch darauf gehen wir nicht näher ein. Dass die Vollständigkeit von R für die Gültigkeit des Intervallschachtelungsprinzips entscheidend ist, wird auch durch folgendes Gegenbeispiel illustriert: Beispiel 2.25 Wenn wir den Körper R durch Q ersetzen, verliert das Intervallschachtelungsprinzip seine Gültigkeit. Es sei z.B. In := 1 1 x ∈ Q | x > 0, − ≤ x2 − 2 ≤ n n . Dann kann man die In als Intervalle“ in Q auffassen. (Es handelt sich dabei freilich nicht um ” Intervalle im Sinne von Definition 2.13; diese müssten ja auch sämtliche irrationalen Zahlen zwischen den enthalten.) Es gilt In+1 ⊆ In für alle n. T∞rationalen Zahlen dieses ”Intervalls“ T Jedoch ist n=1 In leer: Gäbe es nämlich ein x ∈ ∞ n=1 In , so wäre nach Definition der In einerseits x ∈ Q, andererseits − 1 1 ≤ x2 − 2 ≤ n n für alle n. Letzteres ist nur möglich, wenn x2 − 2 = 0 ist. Gemäß Lemma 2.18 gibt es jedoch in Q kein solches x. Bemerkung 2.26 (Existenz von Wurzeln) Eine weitere wichtige Konsequenz der Vollständigkeit von R ist die Existenz von Wurzeln: Zu jeder reellen Zahl a ≥ 0 und jeder natürlichen Zahl n gibt es eine eindeutig bestimmte reelle Zahl x ≥ 0 mit xn = a. Man √ = a1/n und nennt schreibt x = n a √ √ x die n-te Wurzel aus a. Für die Quadratwurzel schreiben 2 wir anstelle von a einfacher a. Wir wollen den Beweis für diese Existenzaussage an dieser Stelle nicht ausführen; er wird sich später (in Korollar 10.16) als Spezialfall eines viel allgemeineren Satzes, nämlich des Zwischenwertsatzes für stetige Funktionen (Satz 10.9) ergeben; dieser beruht ganz wesentlich auf dem Vollständigkeitsaxiom. Bis dahin verwenden wir dennoch gelegentlich Wurzeln bereits in der aus der Schule vertrauten Weise, auch wenn deren Existenz erst später gerechtfertigt wird. (Natürlich wird gewährleistet sein, dass der spätere Beweis keinen Gebrauch von Resultaten macht, die die Existenz von Wurzeln bereits vorausgesetzt haben, d.h. dass wir keinen Zirkelschluss begehen.) Damit haben wir alle Axiome kennengelernt, die die reellen Zahlen R charakterisieren: R ist ein Körper (Axiom (K)), er ist geordnet (Axiom (O)), und er ist vollständig (Axiom (V)). (Die metrische Struktur von R hatte keines eigenen Axioms bedurft, sondern sich aus der Körper- und der Ordnungsstruktur ergeben.) Wenn man die reellen Zahlen nicht axiomatisch einführt, sondern konstruiert, würde man beweisen, dass es tatsächlich einen Körper gibt, der diesen drei Axiomen genügt. Man kann noch mehr zeigen: Dieser Körper ist im Wesentlichen“, d.h. bis auf Umbenennung“ der Elemente eindeutig bestimmt. Man ” ” kann also auch so vorgehen, dass man zunächst die Existenz und Quasi-Eindeutigkeit dieses Körpers beweist und dann vereinbart, dass man ihn den Körper der reellen Zahlen nennt. 33 2.5 Eine exakte Definition der natürlichen Zahlen∗ Bisher (insbesondere in Kapitel 1) waren wir mit den natürlichen Zahlen naiv umgegangen. Es stellt sich nun die Frage, wie sich die natürlichen Zahlen mathematisch exakt in den axiomatischen Aufbau der reellen Zahlen einfügen lassen. Mit anderen Worten: Was sind die natürlichen Zahlen eigentlich, und was dürfen wir über sie als bekannt annehmen? Wir erklären, dass die reelle Zahl 1 (das neutrale Element der Multiplikation) eine natürliche Zahl ist, wir definieren 2 := 1 + 1, 3 := 2 + 1, und so weiter, und wir definieren die Menge N aller natürlichen Zahlen durch N := {1, 2, 3, . . .}. Das Problem besteht aber in der Präzisierung, was mit und so weiter“ gemeint ist. Eine Lösung dieses Problems bietet der Begriff der ” induktiven Menge. Definition 2.27 Eine Teilmenge S der reellen Zahlen R heißt induktiv oder eine induktive Menge, falls sie die beiden folgenden Eigenschaften hat. (N1) Es gilt 1 ∈ S. (N2) Für jedes x ∈ S gilt auch x + 1 ∈ S. Beispiel 2.28 Es gibt viele Beispiele von induktiven Mengen. Eines ist R selber. Ein anderes ist die Menge R+ := {x ∈ R | x > 0} aller positiven reellen Zahlen. Auch die Menge {x ∈ R | x ≥ 1} ist induktiv. Nicht-induktive Teilmengen von R sind z.B. die Mengen {x ∈ R | x ≥ 2} oder {x ∈ R | x ≤ 2011}. Jede induktive Menge enthält die Zahlen 1, 2 = 1 + 1, 3 = 2 + 1 und so weiter. Diese Beobachtung legt es nahe, die Menge N der natürlichen Zahlen als die kleinste induktive Teilmenge von R zu definieren: Definition 2.29 Die Menge N der natürlichen Zahlen ist der Durchschnitt aller induktiven Teilmengen S von R. Wir notieren die Definition von N in der Form T N := {S ⊆ R | S ist induktiv} = {n ∈ R | für jede induktive Menge S ⊆ R gilt n ∈ S} . Man setzt N0 := {0} ∪ N = {0, 1, 2, 3, . . .} und Z := {n ∈ R | n ∈ N oder n = 0 oder − n ∈ N} . Die Elemente . . . , −3, −2, −1, 0, 1, 2, 3, . . . von Z heißen die ganzen Zahlen. Dass die solchermaßen definierte Menge N selber eine induktive Menge ist, erscheint selbstverständlich, bedarf aber eines Beweises. Die zweite Behauptung des folgenden Satzes stellt klar, dass N die kleinste11 induktive Menge ist. Erstaunlicherweise erhält man auf diese Weise auch einen Beweis für das Prinzip der vollständigen Induktion, das wir in Kapitel 1 ohne nähere Begründung formuliert hatten. 11 Hier begegnet uns eine Idee, die sich in vielen Bereichen der Mathematik immer wieder als nützlich erweist: Die kleinste Menge mit einer gewissen Eigenschaft ergibt sich oft als der Durchschnitt aller Mengen mit dieser Eigenschaft. 34 Satz 2.30 (Prinzip der vollständigen Induktion) Die Menge N der natürlichen Zahlen ist eine induktive Menge. Falls S eine induktive Menge mit S ⊆ N ist, dann ist S = N. Beweis. Für jede induktive Menge S ⊆ R gilt 1 ∈ S. Daher liegt 1 auch im Durchschnitt N aller induktiven Mengen. Es gilt also 1 ∈ N. Es sei n ∈ N. Für jede induktive Menge S ⊆ R gilt dann n ∈ S. Wegen (N2) folgt somit n+1 ∈ S für jede induktive Menge S ⊆ R. Also liegt n+1 im Durchschnitt N aller induktiven Mengen. Es gilt also n + 1 ∈ N. Damit ist gezeigt, dass N induktiv ist. Wenn S ⊆ R eine induktive Menge ist, dann gilt N ⊆ S nach Definition von N. Unter der Voraussetzung S ⊆ N folgt also S = N. Bemerkung 2.31 Warum enthält Satz 2.30 das Prinzip der vollständigen Induktion? Dieses besagt, wie in Kapitel 1 erläutert, Folgendes: Für jede natürliche Zahl n sei eine Aussage A(n) gegeben, und es sei folgendes erfüllt: (IA) Die Aussage A(1) ist wahr. (IS) Für jedes n ∈ N ist die Implikation A(n) =⇒ A(n + 1) wahr. Dann ist die Aussage A(n) für alle n ∈ N wahr. Zur Begründung betrachten wir die Menge S := {n ∈ N | es gilt A(n)}. Diese ist aufgrund der Voraussetzungen (IA) und (IS) eine induktive Menge. Wegen Satz 2.30 folgt also S = N, und dies war zu zeigen. Aus der Definition der natürlichen Zahlen und dem Induktionsprinzip lassen sich nun die üblichen wohlbekannten Eigenschaften von N herleiten, z.B. dass Summen und Produkte natürlicher Zahlen wieder natürliche Zahlen sind, dass 1 die kleinste natürliche Zahl ist und dass es zwischen einer natürlichen Zahl n und n + 1 keine weiteren natürlichen Zahlen gibt. Detailliert ist dies z.B. in [Köhler, § 3.3] ausgeführt. Wir übergehen die Beweise, da diese keinen nennenswerten Erkenntnisgewinn versprechen. Beweisen wollen wir hingegen die folgende wichtige Eigenschaft der natürlichen Zahlen: Satz 2.32 (Wohlordnung der natürlichen Zahlen) N besitzt ein Minimum. Jede nicht-leere Teilmenge von Beweis. Es sei A eine Teilmenge von N, die kein Minimum besitzt. Zum Beweis des Satzes muss gezeigt werden, dass A = ∅ ist. Zu diesem Zweck wird die Menge S = {n ∈ N | für alle x ∈ A gilt x > n} betrachtet. Wäre 1 6∈ S, dann gäbe es ein x ∈ A mit x ≤ 1. Wegen A ⊆ N und weil 1 die kleinste natürliche Zahl ist, könnte dies nur x = 1 sein. Dann wäre also 1 ∈ A, d.h. 1 = min A, im Widerspruch dazu, dass A kein Minimum hat. Damit ist 1 ∈ S gezeigt. Nun sei ein beliebiges n ∈ S gegeben. Für alle m ∈ A gilt dann m > n, also m ≥ n + 1. Wir nehmen an, es wäre n + 1 6∈ S. Dann gibt es ein x ∈ A mit x ≤ n + 1. Weil m ≥ n + 1 für alle m ∈ A ist, folgt x = n + 1. Also folgt n + 1 = min A im Widerspruch zur Voraussetzung 35 über A. Folglich ist n + 1 ∈ S. Damit ist gezeigt, dass S eine induktive Menge ist. Aus Satz 2.30 folgt somit S = N. Wäre nun A 6= ∅, so gäbe es ein n0 ∈ A = A ∩ N = A ∩ S, und aus der Definition von S folgt n0 < n0 im Widerspruch zu den Ordnungsaxiomen. Also ist A = ∅. Die Wohlordnung der natürlichen Zahlen (Satz 2.32) ist die Grundlage für eine wichtige Beweisstrategie. Vorgelegt sei eine Aussage A(n) über natürliche Zahlen, die für alle n ∈ N bewiesen werden soll. Man führt den Beweis indirekt. Wenn A(n) nicht für alle n ∈ N wahr ist, dann gibt es nach Satz 2.32 ein kleinstes n0 ∈ N, so dass A(n0 ) falsch ist. Durch problemspezifische Überlegungen lässt sich daraus manchmal ein n1 ∈ N mit n1 < n0 gewinnen, so dass A(n1 ) ebenfalls falsch ist, im Widerspruch zur Minimalität von n0 . Diese Strategie wurde von Pierre de Fermat (1601 oder 1607 – 1665) in die Mathematik eingeführt und Methode des unendlichen Abstiegs genannt. Er konnte hiermit beispielsweise beweisen, dass die Gleichung x4 + y 4 = z 4 keine Lösung in natürlichen Zahlen x, y, z besitzt. Manchmal nennt man die Methode scherzhaft auch das Prinzip des kleinsten Verbrechers“; das ” hypothetische n0 in der obigen Argumentation ist der kleinste Verbrecher“. ” Zum Abschluss dieses Abschnitts diskutieren wir noch eine andere Eigenschaft unseres Zahlensystems, die auf den ersten Blick als selbstverständlich erscheint: Jede reelle Zahl x wird bekanntlich“ von einer natürlichen Zahl übertroffen; es gibt also ein n ∈ N mit n > x. Ent” gegen der Anschauung folgt dies jedoch nicht aus den Axiomen eines geordneten Körpers12 . Erstaunlicherweise kommt uns hier das Vollständigkeitsaxiom zu Hilfe. Satz 2.33 (Archimedisches Axiom) Zu jeder reellen Zahl a gibt es eine natürliche Zahl n mit n > a. Die Teilmenge N der natürlichen Zahlen in R ist nicht nach oben beschränkt. Beweis. Man nimmt an, die Menge N wäre nach oben beschränkt. Nach Axiom (V) existiert dann das Supremum s = sup N ∈ R. Nach Definition des Supremums ist s − 1 keine obere Schranke von N. Also gibt es eine natürliche Zahl m mit s − 1 < m ≤ s. Für die natürliche Zahl m + 1 folgt m + 1 > s im Widerspruch zu s = sup N. Die anfängliche Annahme ist also unhaltbar. Damit ist die zweite Behauptung bewiesen. Gäbe es ein a ∈ R mit n ≤ a für alle n ∈ N, so wäre a obere Schranke für N, im Widerspruch zur soeben gezeigten zweiten Behauptung. Also gibt es für alle a ∈ R ein n ∈ N mit n > a. Dies zeigt die erste Behauptung. Die (historisch bedingte) Einstufung von Satz 2.33 als Axiom“ mag zunächst irritieren. ” Eine mathematische Aussage kann je nach der logischen Organisation des Kontextes die Rolle eines Axioms, einer Definition oder eines beweisbaren Satzes annehmen. Bei dem hier gewählten Zugang ist das Archimedische Axiom“ aus dem Vollständigkeitsaxiom ableitbar. ” Der Beweis des Satzes 2.33 enthält folgende Schlussweise, die häufig nützlich ist. 12 Dies wird durch Beispiele von geordneten Körpern K belegt, in denen es unendlich große“ Elemente ” a gibt, die also a > n für alle natürlichen Zahlen n erfüllen. Es sei z.B. K der Körper aller rationalen Funktionen f auf R. Das sind die Funktionen der Gestalt f = p/q, worin p und q reelle Polynome sind und q nicht das Nullpolynom ist. Zu K gehören insbesondere die konstanten Funktionen, und insofern ist R ein Teilkörper von K. Eine Funktion f ∈ K wird positiv genannt, falls es eine reelle Zahl ε > 0 gibt, so dass f (x) > 0 für alle reellen Zahlen x mit 0 < x < ε gilt. Hierdurch wird K zu einem geordneten Körper gemacht. Die Funktion f : x 7→ 1/x gehört zu K und erfüllt f > n für alle natürlichen Zahlen n. 36 Proposition 2.34 Es sei A ⊆ R eine nichtleere Menge. Wenn t ∈ R und t < sup A ist, dann gibt es ein a ∈ A mit t < a. Wenn t ∈ R und t > inf A ist, dann gibt es ein a ∈ A mit t > a. Dies gilt auch, falls sup A = ∞ oder inf A = −∞ ist. Beweis. Es sei t ∈ R und t < sup A. Man nimmt an, die Behauptung wäre falsch. Dann gilt a ≤ t für alle a ∈ A. Somit ist t eine obere Schranke von A, und es folgt t ≥ sup A im Widerspruch zur Voraussetzung. Die Behauptung über das Infimum folgt analog. Nun werden drei wichtige Folgerungen aus dem Archimedischen Axiom bewiesen. Satz 2.35 (Satz des Eudoxos) (1) Zu jeder reellen Zahl ε > 0 gibt es eine natürliche Zahl n mit 1 n < ε. (2) Zu beliebigen reellen Zahlen ε > 0 und M > 0 gibt es eine natürliche Zahl n mit nε > M . (3) Ist a ∈ R und 0 ≤ a ≤ 1 n für alle n ∈ N, dann ist a = 0. Beweis. (1) Aus ε > 0 folgt 1ε > 0. Nach Satz 2.33 gibt es also ein n ∈ N mit n > 1ε . Es folgt Damit ist (1) bewiesen. 1 n < ε. (2) Zum Beweis von (2) wenden wir Satz 2.33 auf a := Mε > 0 an und finden ein n ∈ N mit n > a. Dieses erfüllt dann nε > M . Also gilt (2). (3) Aus (1) und aus den Voraussetzungen in (3) folgt zunächst a ≤ 0 und sodann a = 0. Dies zeigt (3). In der Analysis werden mit den Buchstaben ε und δ vorzugsweise positive reelle Zahlen bezeichnet, die man sich sehr klein vorstellen soll. Mit M oder C werden vorzugsweise positive reelle Zahlen bezeichnet, die man sich sehr groß vorstellen soll. 2.6 Vergleich der rationalen und der reellen Zahlen In Beispiel 2.7 hatten wir die Menge nm o m ∈ Z, n ∈ N n der rationalen Zahlen eingeführt, und wir hatten begründet, dass Q mit den auf R gegebenen Verknüpfungen ein Körper ist, der Körper der rationalen Zahlen. Auch die Ordnungsstruktur überträgt sich von R auf Q, d.h. Q ist ein angeordneter Körper. Es gelten die echten Inklusionen N ( Z ( Q ( R. Q= Denn beispielsweise ist 12 ∈ Q, 12 6∈ Z. Dass auch die Inklusion Q ⊆ R echt ist, ergibt sich daraus, dass R vollständig ist, Q hingegen nicht (siehe Beispiel 2.21 (3)). Natürlich sind die meisten“ rationalen Zahlen nicht ganzzahlig. Die Menge Q ist also sehr ” viel größer als Z und noch viel größer als N. Im nächsten Satz wird bewiesen, dass alle drei Mengen dennoch in einem bestimmten Sinne gleich groß sind. Zur Auflösung der Paradoxie in dieser Behauptung braucht man die von Cantor eingeführten Begriffe zum Größenvergleich von Mengen. 37 Definition 2.36 Zwei Mengen A und B heißen gleich mächtig oder von gleicher Mächtigkeit, falls es eine bijektive Abbildung φ : A −→ B gibt. Eine Menge A heißt endlich, falls entweder A = ∅ ist oder eine natürliche Zahl n und eine bijektive Abbildung von A auf den Zahlenabschnitt An = {j ∈ N | 1 ≤ j ≤ n} existieren. Eine Menge heißt unendlich, falls sie nicht endlich ist. Eine Menge A heißt abzählbar unendlich, falls A und die Menge N der natürlichen Zahlen gleich mächtig sind. Eine Menge A heißt abzählbar, falls sie entweder endlich oder abzählbar unendlich ist. Eine Menge A heißt überabzählbar, falls sie nicht abzählbar ist, falls sie also weder endlich noch abzählbar unendlich ist. Bemerkung 2.37 (1) Dieser Definition der Mächtigkeit von Mengen liegt folgende anschauliche Vorstellung zugrunde: Wenn man nachprüfen möchte, ob in einem Saal ebenso viele Personen wie Stühle vorhanden sind, dann kann man je eine Person auf je einem Stuhl Platz nehmen lassen und nachsehen, ob weder Personen noch Stühle übrig geblieben sind. In diesem Kontext ist das sog. Schubfachprinzip erwähnenswert: Versucht man, n Gegenstände auf n Schubfächer zu verteilen, so kann jeder Gegenstand dann und nur dann seine eigene Schublade bekommen, wenn man alle Schubfächer tatsächlich benutzt. Anders ausgedrückt: Falls man n Objekte auf k Schubfächer verteilt und n > k ist, so müssen in einem dieser Schubfächer mindestens zwei Objekte landen. Dieses Prinzip beschreibt eigentlich eine Selbstverständlichkeit, ist aber dennoch oftmals überraschend nützlich; z.B. ergibt sich daraus sofort, dass unter 32 beliebigen Personen zwei am gleichen Tag im Monat Geburtstag haben müssen. Mathematisch lässt sich das Schubfachprinzip wie folgt ausdrücken: Eine Abbildung zwischen zwei endlichen Mengen gleicher Elementeanzahl (Mächtigkeit) ist genau dann surjektiv, wenn sie injektiv ist. Für Abbildungen zwischen unendlichen Mengen ist diese Aussage nicht richtig: Es gibt durchaus Abbildungen f : M −→ M einer unendlichen Menge M in sich, die injektiv, aber nicht surjektiv sind oder umgekehrt. Es sei beispielsweise M := N, und es seien S, T : N −→ N definiert durch 1, falls n = 1, S(n) := n + 1 für alle n ∈ N, T (n) := n − 1, falls n ≥ 2. Dann ist S injektiv, aber nicht surjektiv (da 1 6∈ S(N), während T surjektiv, aber nicht injektiv ist (denn es ist T (1) = T (2) = 1). Durch S wird N bijektiv auf die echte Teilmenge S(N) = N \ {1} abgebildet; eine unendliche Menge kann also gleich mächtig zu einer echten Teilmenge sein. (2) Wenn es eine bijektive Abbildung φ : N −→ A gibt, dann kann man φ(n) = an für n ∈ N und A = {a1 , a2 , a3 , a4 , . . .} schreiben. Die Elemente von A werden also mit den natürlichen Zahlen als Indizes durchnummeriert, und damit ist die Menge A abgezählt“. Beispielsweise ist ” Z = {0, 1, −1, 2, −2, 3, −3, . . .} 38 eine Abzählung der Menge Z aller ganzen Zahlen. In diesem Beispiel ist die Menge Z von gleicher Mächtigkeit wie die echte Teilmenge N und auch von gleicher Mächtigkeit wie das Komplement Z \ N. Dieses Beispiel und das aus (1) geben einen ersten kleinen Einblick in die Abgründe, die sich bei unendlichen Mengen eröffnen. Einen noch etwas tieferen Blick in diese Abgründe eröffnet der folgende Satz. Satz 2.38 Die Menge Q der rationalen Zahlen ist abzählbar unendlich, also gleich mächtig zur Menge N der natürlichen Zahlen. mit m, n ∈ N denkt man sich in dem folgenden Schema Beweis. Die positiven Brüche m n aufgeschrieben, worin in der n-ten Zeile die Brüche mit dem Nenner n in aufsteigender Reihenfolge stehen. Sodann werden sie den Pfeilen folgend nummeriert. 1 1 → 2 1 5 1 ... 4 2 5 2 ... 3 3 4 3 5 3 ... 2 4 3 4 4 4 5 4 ... 2 5 3 5 4 5 5 5 . 1 2 3 1 % 2 2 ↓ % 1 3 . . 4 1 . 3 2 2 3 1 4 → % % % ↓ % 1 5 .. . .. . .. . .. . .. . .. . .. . .. . ... .. . . . . Erscheint eine Zahl mehrfach, wie etwa 11 = 22 = 33 = . . . oder 23 = 64 = . . . , dann erhält sie nur bei ihrem ersten Auftreten eine Nummer. Auf diese Weise erhält man eine Abzählung q1 , q2 , q3 , . . . der positiven Zahlen in Q. Dann ist aber 0, q1 , −q1 , q2 , −q2 , q3 , −q3 , . . . eine Abzählung von Q. Hingegen lassen sich die reellen Zahlen nicht abzählen; es gilt sogar: Satz 2.39 Jedes echte Intervall in R ist überabzählbar. Beweis. Es sei I ein echtes Intervall. Wir nehmen an, I wäre abzählbar. Dann gibt es eine bijektive Abbildung ϕ : N −→ I. Wir schreiben xn := ϕ(n). Wir konstruieren nun rekursiv eine Intervallschachtelung I1 , I2 , I3 , . . . so, dass In ⊆ I, aber xn 6∈ In für alle n ≥ 1 gilt. Hierzu wählen wir für I1 ein beliebiges kompaktes, echtes Intervall mit I1 ⊆ I und x1 6∈ I1 . (Dies ist offensichtlich möglich.) Falls In für ein n bereits konstruiert ist, zerlegen wir In in drei gleichgroße abgeschlossene Teilintervalle. Mindestens eines dieser drei Teilintervalle enthält dann xn+1 nicht. (Diese Feststellung wäre falsch, wenn wir In nicht gedrittelt, sondern nur halbiert hätten!) Wir wählen dann In+1 als eines der Teilintervalle, das xn+1 nicht enthält. 1 · |I1 | für alle Es ist dann nach Konstruktion klar, dass In+1 ⊆ In , xn 6∈ In und |In | = 3n−1 n ∈ N gilt. (Hierbei bezeichnet |J| die Länge eines Intervalls J, d.h. die Differenz von rechtem 39 und linkem Endpunkt.) Zu jedem ε > 0 gibt es also ein n ∈ N mit |In | < ε. Somit bildet I1 , I2 , I3 , . . . eine Intervallschachtelung. Nach dem Intervallschachtelungsprinzip (Satz 2.24 (2)) gibt es ein c ∈ R mit c ∈ In für alle n. Wegen I1 ⊆ I ist insbesondere c ∈ I. Da x1 , x2 , x3 , . . . eine Abzählung von I ist, gibt es also ein N ∈ N mit c = xN . Nach Konstruktion ist aber xN 6∈ IN , im Widerspruch zu c ∈ In für alle n. Die Annahme der Existenz einer Bijektion ϕ : N −→ I ist damit widerlegt. Variante: Bekannter ist eine Beweisvariante mithilfe des sog. Cantorschen Diagonalverfahrens, die wir freilich nur kurz skizzieren wollen. Sie benutzt die Tatsache, dass jede reelle Zahl eine Dezimaldarstellung hat, welche eindeutig ist, sofern man Neunerenden“ (wie in ” 0,201099999 · · · = 0,2011) ausschließt. Was eine solche Dezimaldarstellung genau bedeutet, können wir strenggenommen erst nach Einführung unendlicher Reihen in Kapitel 7 präzise fassen; zudem müsste man die Existenz einer solchen Darstellung erst beweisen. Wir verweisen hierzu auf [Köhler, Satz 4.6 und Satz 6.8] und verwenden die Dezimaldarstellung wieder einmal in naiver“ Weise. ” O.B.d.A. genügt es, die Überabzählbarkeit von [0, 1] zu zeigen. Dazu nehmen wir wieder an, dass x1 , x2 , x3 , . . . eine Abzählung von [0, 1] ist. Wir denken uns nun die xn in Dezimaldarstellung geschrieben und konstruieren uns nun eine neue Zahl x ∈ [0, 1] mit der Dezimaldarstellung x = 0, b1 b2 b3 . . . so, dass für alle n die Ziffer bn nicht mit der n-ten Ziffer in der Dezimaldarstellung von xn übereinstimmt und dass x keine Neunerenden hat. (Man könnte z.B. im Regelfall bn = 1 setzen, aber bn = 2, falls xn an der n-ten Stelle eine 1 stehen hat.) Dann ist x von allen xn verschieden, im Widerspruch dazu, dass x1 , x2 , x3 , . . . alle reellen Zahlen in [0, 1] erschöpfend abzählt. Bemerkung 2.40 Die Mächtigkeiten von Q und R werden oft mit der (leicht surrealen) Geschichte von Hilberts Hotel13 illustriert. Dieses besitzt abzählbar unendlich viele Zimmer. Zu jeder natürlichen Zahl n gibt es ein Hotelzimmer mit der Nummer n. Dieser Umstand erlaubt es dem Hotelier auf wundersame Weise, Gruppen neuer Gäste in seinem voll belegten Hotel ohne Mehrfachbelegungen unterzubringen. Nehmen wir z.B. an, dass eine Gruppe von N neuen Gäste erscheint. Dann bittet der Hotelier den Gast im Zimmer n, dieses Zimmer zu räumen und in das Zimmer n + N umzuziehen. In die frei gewordenen Zimmer mit den Nummern 1, . . . , N ziehen die neuen Gäste ein. Wir stellen uns nun vor, dass der Hotelier noch ein zweites Hilbertsches Hotel besitzt, das ebenfalls voll belegt ist. Zur Halbierung seiner Unkosten kann er dann bedenkenlos das zweite Hotel schließen, ohne Gäste zu verlieren. Zu diesem Zweck bittet er den Gast in Zimmer n des ersten Hotels, in das Zimmer mit der Nummer 2n − 1 im gleichen Haus umzuziehen. Sodann weist er den Gast in Zimmer n des zweiten Hauses in das nun freie Zimmer mit der Nummer 2n im ersten Haus ein. Das somit evakuierte zweite Hotel kann aufgelöst werden. Wer den Beweis des Satzes 2.38 aufmerksam studiert, findet noch erheblich größere Einsparpotentiale. Stellen wir uns nämlich vor, in einer Stadt gebe es abzählbar unendlich viele 13 David Hilbert (1862 – 1943) hat große Beiträge zu vielen verschiedenen Teilen der Mathematik geleistet, u.a. zur Algebra, Algebraischen Zahlentheorie, Logik, Mengenlehre, Funktionalanalysis, Mathematischen Physik und zu den Grundlagen der Geometrie. Seine Rede auf dem Internationalen Mathematikerkongress 1900 in Paris, auf der er eine Liste von 23 ungelösten Problemen vorstellte, war wegweisend für die Entwicklung der Mathematik im 20. Jahrhundert. 40 Hilbertsche Hotels, die alle voll belegt sind. Dann ist es möglich, alle Hotels mit einer einzigen Ausnahme zu schließen, und in dem verbliebenen Hotel kann man trotzdem alle Gäste ohne Mehrfachbelegungen unterbringen. Eines Tages widerfuhr dem Hotelier Schreckliches. Ein Omnibus mit dem Einheitsintervall ]0, 1[ fuhr vor. Jeder Punkt des Intervalls begehrte ein Zimmer für sich allein. Diesen vorgeblich so bescheidenen Wunsch konnte der Hotelier nicht erfüllen. . . . Wie die beiden letzten Sätze zeigen, gibt es viel mehr reelle als rationale Zahlen. Man könnte sagen, dass die Zahlengerade R fast nur aus den Löchern“ zwischen den rationalen Zahlen ” besteht; diese Löcher“ sind natürlich keine wirklichen Löcher“, sondern irrationale Zahlen. ” ” Andererseits liegen die rationalen Zahlen dicht in den reellen in folgendem Sinne: In jedem beliebig kleinen echten Intervall liegen, wie wir als nächstes zeigen werden, rationale Zahlen. Definition 2.41 Intervall I gilt. Satz 2.42 Zahlen. Eine Teilmenge A in R heißt dicht in R, falls A ∩ I 6= ∅ für jedes echte Die Menge Q ist dicht in R. In jedem echten Intervall I gibt es rationale Beweis. Es genügt, die Behauptung für beschränkte Intervalle I zu beweisen. Dann sind die Endpunkte a = inf I und b = sup I reelle Zahlen, und es gilt a < b. Also ist ε := b − a > 0. Man darf auch a > 0 voraussetzen. Denn anderenfalls ersetzt man I durch ein Intervall {x + m | x ∈ I}, wobei m ∈ N gemäß Satz 2.33 so groß zu wählen ist, dass a + m > 0 ist. Nach Teil (1) von Satz 2.35 gibt es ein n ∈ N mit n1 < ε. Nach Satz 2.33 gibt es ein k ∈ N mit k > na. Es sei k die kleinste natürliche Zahl mit dieser Eigenschaft. Sie existiert wegen Satz 2.32. Dann gilt k − 1 ≤ na < k. Es folgt a< also k n k−1 1 1 k = + ≤ a + < a + ε = b, n n n n ∈ I ∩ Q. Bemerkung 2.43 (1) Umgekehrt liegen auch die irrationalen Zahlen dicht in R. Insbesondere gibt es also zu je zwei rationalen Zahlen q1 , q2 mit q1 < q2 eine irrationale Zahl x mit q1 < x < q2 . Dies werden wir in Aufgabe 4.3 beweisen. (2) (Kontinuumshypothese) Man kann zeigen, dass alle echten Intervalle von gleicher Mächtigkeit sind, nämlich der Mächtigkeit von R. Andererseits ist Q von gleicher Mächtigkeit wie N, obwohl doch Q so viel größer als N zu sein scheint und dicht in R liegt. Gibt es eine Menge X, deren Mächtigkeit echt größer als diejenige von N und echt kleiner als diejenige von R ist? Cantor vermutete, dass es keine solche Menge X gibt. Dies nennt man die Kontinuumshypothese. (Jede Menge mit der Mächtigkeit von R wird auch ein Kontinuum genannt.) Cantor konnte die Kontinuumshypothese nicht beweisen. Im Jahr 1938 bewies K. Gödel (1906 – 1978), dass die Kontinuumshypothese im Rahmen der üblichen (Zermelo-Fraenkelschen) Axiome der Mengenlehre 41 nicht widerlegbar ist. Und 1963 bewies P. J. Cohen (geb. 1934), dass sie in diesem Rahmen auch nicht beweisbar ist. Gewissermaßen ist also die Kontinuumshypothese ein unabhängiger Satz, der innerhalb einer genau umgrenzten Theorie reeller Zahlen nicht herleitbar ist und den man in die Vorstellungen über reelle Zahlen aufnehmen darf, ohne Widersprüche befürchten zu müssen, die nicht bereits ohne Annahme dieses Satzes auftreten könnten. Zum Abschluss dieses Abschnitts stellen wir einige Eigenschaften der reellen und der rationalen Zahlen noch einmal in Tabellenform gegenüber. Q vollständig nein R ja abzählbar ja nein dicht in R ja ja 42 Die komplexen Zahlen und die Räume Rn und Cn 3 3.1 Warum komplexe Zahlen? In R besitzt die Gleichung x2 = −1 keine Lösung. Wir erweitern R daher zum Körper C der komplexen Zahlen, worin diese Gleichung lösbar ist – um den Preis, dass C nicht zu einem geordneten Körper gemacht werden kann. Auf den ersten Blick mag sich die Frage stellen, was mit einer solchen Erweiterung, die zunächst nur die Lösung einer ganz speziellen Gleichung erlaubt, gewonnen ist. Denn natürlich kann man sich viele andere Gleichungen ausdenken, von denen a priori zu befürchten ist, dass sie in C ebenso unlösbar sind wie in R, so dass man C immer weiter vergrößern müsste, um auch diese Gleichungen lösen zu können. Tatsächlich stellt sich jedoch heraus, dass in C bereits alle Polynomgleichungen lösbar sind, so dass solche zusätzlichen Erweiterungsschritte unnötig sind. Dies ist der Inhalt des berühmten Fundamentalsatzes der Algebra, den wir in dem optionalen Abschnitt 12.6 beweisen werden. Die Kenntnis komplexer Zahlen und Funktionen erweist sich auch für die reelle Analysis als unverzichtbar und außerordentlich gewinnbringend. 1. Jedes nicht-konstante Polynom mit reellen oder komplexen Koeffizienten besitzt nach dem Fundamentalsatz der Algebra komplexe Nullstellen (möglicherweise aber keine reelle Nullstelle). Die Existenz komplexer Nullstellen benötigt man z.B. in der Linearen Algebra für die Eigenwerttheorie von linearen Abbildungen und in der Analysis zur Lösung von Systemen linearer Differentialgleichungen mit konstanten Koeffizienten. 2. Zwischen den elementaren transzendenten Funktionen exp(x) = ex , sin(x) und cos(x) besteht die von Leonhard Euler (1707 – 1783) entdeckte wundervolle Identität eiz = cos(z) + i sin(z) für alle z ∈ C. Sie ist u.a. in der Elektrotechnik bei der Berechnung von Wechselstromkreisen außerordentlich nützlich. Ein Spezialfall der Eulerschen Identität ist die Formel eiπ + 1 = 0, die fünf der wichtigsten mathematischen Konstanten (0, 1, i, e und π) miteinander in Zusammenhang bringt. 3. Manche Beweise funktionieren im Komplexen genauso wie im Reellen. Dann muss man sie nur einmal führen, nämlich im Komplexen. 3.2 Konstruktion der komplexen Zahlen Den Anlass und auch den Ansatz zur Konstruktion der komplexen Zahlen gibt die Tatsache, dass die Gleichung x2 + 1 = 0 43 keine reelle Lösung x besitzt. Denn für jeden geordneten Körper K und alle x ∈ K gilt nach Korollar 2.10 (5) x2 + 1 ≥ 1 > 0. Man stellt sich nun vor, in einer größeren Menge als R habe man eine Lösung der Gleichung x2 + 1 = 0; man bezeichnet sie mit i wie imaginär“. Es ist wünschenswert, mit dem neuen ” Symbol in gewohnter Weise rechnen zu können. Konkret bedeutet dies: Wir möchten R zu einem Körper C erweitern, für den i ∈ C (und natürlich R ⊆ C) gilt. Für alle reellen Zahlen a, b gilt dann auch a + bi ∈ C, und aus i2 = −1 und den Körperaxiomen folgen für alle a, b, c, d ∈ R die Gleichungen (a + bi) + (c + di) = (a + c) + (b + d)i und (a + bi)(c + di) = (ac − bd) + (ad + bc)i . Jetzt kann man den Spieß umdrehen und die gefundenen Gleichungen zur Konstruktion des Körpers C verwenden. Wir werden dabei C zunächst als den R2 definieren, den wir mit einer zusätzlichen multiplikativen Struktur versehen. Dies ist auch insofern sinnvoll, als wir uns die komplexen Zahlen als Punkte in der Ebene veranschaulichen werden. Für konkrete Rechnungen ist es hingegen wenig praktikabel, komplexe Zahlen in der für Vektoren im R2 üblichen Schreibweise (a, b) darzustellen; wir werden daher nach der formalen Definition sofort zu der Schreibweise a + bi umschwenken. Die Menge R2 = {(a, b) | a, b ∈ R} mit den beiden Satz 3.1 (Komplexe Zahlen) Verknüpfungen (a, b) + (c, d) = (a + c, b + d) , (a, b) · (c, d) = (ac − bd, ad + bc) ist ein Körper. Er heißt der Körper der komplexen Zahlen und wird mit C bezeichnet. Beweis. Die in C definierte Addition ist identisch mit der Addition im Vektorraum R2 . Daher ist (C, +) eine abelsche Gruppe mit dem Nullelement (0, 0). Die Multiplikation ist offensichtlich kommutativ, und (1, 0) ist ein neutrales Element. Es sei ein Element (a, b) 6= (0, 0) in C gegeben. Dann gilt a2 + b2 > 0. Daher ist (a, b) −1 := b a , − a2 + b 2 a2 + b 2 (3.1) ein wohldefiniertes Element von C. Aus der Definition der Multiplikation in C folgt a −b b a −1 (a, b) · (a, b) = a · 2 −b· 2 , −a · 2 +b· 2 = (1, 0). a + b2 a + b2 a + b2 a + b2 Somit ist jedes von der Null (0, 0) verschiedene Element in C bezüglich der Multiplikation invertierbar. 44 Der Nachweis der Assoziativität der Multiplikation ist relativ lästig. (Dies ist eine der eher seltenen Situationen, in denen man das Assoziativitätsgesetz wirklich nachprüfen muss und es nicht von vornherein offensichtlich“ ist.) Man berechnet für alle (a, b), (c, d), (x, y) ∈ C ” (a, b) · (c, d) · (x, y) = (ac − bd, ad + bc) · (x, y) = (acx − bdx − ady − bcy, acy − bdy + adx + bcx) und (a, b) · (c, d) · (x, y) = (a, b) · (cx − dy, cy + dx) = (acx − ady − bcy − bdx, acy + adx + bcx − bdy), also (a, b) · (c, d) · (x, y) = (a, b) · (c, d) · (x, y) . Dies zeigt die Assoziativität der Multiplikation.14 Die Gültigkeit des Distributivgesetzes ergibt sich aus (a, b) + (c, d) · (x, y) = (a + c, b + d) · (x, y) = (ax + cx − by − dy, ay + cy + bx + dx) = (ax − by, ay + bx) + (cx − dy, cy + dx) = (a, b) · (x, y) + (c, d) · (x, y). Notationen. Durch die Abbildung a 7→ (a, 0) wird R in C eingebettet, wobei die Rechenoperationen in R und C miteinander verträglich sind: (a, 0) + (b, 0) = (a + b, 0), (a, 0) · (b, 0) = (ab, 0). Deshalb ist es sinnvoll, den Unterschied zwischen der komplexen Zahl (a, 0) und der reellen Zahl a aufzuheben und a = (a, 0) als Element in C aufzufassen. Es wird dann R ⊆ C, und R wird zu einem Teilkörper von C. Setzen wir nun i := (0, 1) , so folgt i2 = (−1, 0) = −1. Damit haben wir in C die gewünschte Lösung i der Gleichung x2 + 1 = 0 gefunden. Selbstverständlich gilt auch (−i)2 = −1. Für beliebige a, b ∈ R folgt nun (a, b) = (a, 0) + (0, b) = (a, 0) + (b, 0) · (0, 1) = a + bi . Das rechtfertigt die Notation a + bi für komplexe Zahlen, die von jetzt an anstelle von (a, b) benutzt wird. 14 Der obige Beweis des Assoziativgesetzes der Multiplikation in C liefert keine Einsicht in den eigentlichen Grund für die Gültigkeit des Gesetzes. Man findet einen eleganteren Beweis, der zudem die geometrische Bedeutung der Multiplikation in C erhellt, wenn man anstelle der Paare (a, b) die Matrizen a −b b a betrachtet und mit diesen wie in der Linearen Algebra rechnet. Die zu diesen speziellen Matrizen gehörigen linearen Abbildungen sind Drehstreckungen. Die Matrizenmultiplikation entspricht der Komposition der zugehörigen linearen Abbildungen R2 −→ R2 . Für die Komposition von Abbildungen ist das Assoziativgesetz klar. – Dieser Beweis wird verständlich, sobald die nötigen Hilfsmittel aus der Linearen Algebra verfügbar sind. 45 Definition 3.2 Es sei a, b ∈ R und z = a + bi. Dann heißt a = Re (z) der Realteil und b = Im(z) der Imaginärteil der komplexen Zahl z. Man setzt z := a − bi und nennt z die zu z konjugiert komplexe Zahl. Es ist z · z = (a + bi)(a − bi) = a2 + b2 eine reelle Zahl und nicht negativ, und für z 6= 0 ist z · z > 0. Man definiert √ |z| := zz und nennt diese reelle Zahl |z| ≥ 0 den Betrag oder den Absolutbetrag der komplexen Zahl z. (Zur Existenz der Quadratwurzel siehe Bemerkung 2.26.) Satz 3.3 (Rechenregeln in C) z = z, Für alle z, w ∈ C gilt 1 Re (z) = (z + z) , 2 | Re (z)| ≤ |z|, | Im(z)| ≤ |z|, Das Inverse z −1 = 1 z zw = z · w, z +w = z +w, 1 (z − z), 2i |zw| = |z| · |w|, Im(z) = |z| = |z|. einer komplexen Zahl z 6= 0 ist 1 z = 2. z |z| Beweis. Die meisten dieser Regeln sind unmittelbar klar aufgrund der Definitionen. Wir gehen nur auf diejenigen ein, bei denen die Gültigkeit nicht offensichtlich ist: Es seien z, w ∈ C gegeben, und es sei z = a + ib, w = c + id mit a, b, c, d ∈ R. Dann ist z · w = (a − ib)(c − id) = ac − bd − i(ad + bc) = ac − bd + i(ad + bc) = zw. Damit folgt weiter |zw|2 = zw · zw = z · w · z · w = (zz)(ww) = |z|2 · |w|2 . Indem man auf beiden Seiten die Quadratwurzel zieht, ergibt sich |zw| = |z| · |w|. Weiter ist √ √ | Re (z)| = |a| = a2 ≤ a2 + b2 = |z|, und analog ergibt sich | Im(z)| ≤ |z|. Für die Inverse 1 z erhält man schließlich 1 z z = = 2. z zz |z| Dasselbe Ergebnis kann man auch aus (3.1) ablesen; demzufolge ist 1 a − ib z = 2 = 2; 2 z a +b |z| 46 Im(z) 6 z = a + bi bi i a 0 1 - Re (z) z = a − bi Abbildung 4: Geometrische Interpretation der komplexen Konjugation Bemerkung 3.4 Es ist sehr nützlich, sich die komplexe Zahl z = a + bi (mit a, b ∈ R) als Punkt (a, b) in der Ebene R2 zu veranschaulichen. In diesem Zusammenhang nennt man R2 auch die komplexe Zahlenebene bzw. zu Ehren von Gauß die Gauß’sche Zahlenebene. Die Darstellung z = a+bi für komplexe Zahlen ist dann die aus dem R2 vertraute Darstellung von Vektoren in kartesischen Koordinaten. Die komplexe Konjugation lässt sich geometrisch als Achsenspiegelung an der reellen Achse interpretieren (Abbildung 4). √ Auch der Betrag |z| = a2 + b2 von z hat in der Zahlenebene eine einfache anschauliche Bedeutung: Er ist aufgrund des Satzes von Pythagoras der Abstand des Punktes z vom Nullpunkt, wenn man wie üblich den euklidischen Abstandsbegriff in der Ebene zugrunde legt. Die Addition komplexer Zahlen z und w entspricht der Addition von Vektoren im R2 . Hingegen ist auf den ersten Blick nicht ersichtlich, welche geometrische Bedeutung die Multiplikation komplexer Zahlen haben könnte. Diese wird sich erst später ergeben, wenn wir komplexe Zahlen in Polarkoordinaten schreiben werden: In Satz 12.14 (5) werden wir sehen, dass wir jede komplexe Zahl z in der Form z = reit mit einem r ≥ 0 und einem t ∈ [0, 2π[ darstellen können und dass hierbei |eit | = 1 ist. Daher ist r = |z| der Betrag von z. Weiter erweist sich t als der Winkel (das Argument), den z (als Vektor im R2 aufgefasst) mit der positiven reellen Achse einschließt. Wir werden auch zeigen, dass das aus dem Reellen bekannte Additionstheorem der Exponentialfunktion auch in C seine Gültigkeit behält, so dass insbesondere stets eis eit = ei(s+t) gilt. Für das Produkt zweier komplexer Zahlen z = r1 eit1 und w = r2 eit2 ergibt sich damit z1 z2 = (r1 r2 ) · ei(t1 +t2 ) . 47 Hierbei ist r1 r2 der Betrag und t1 +t2 das Argument von zw. Dies kann man so interpretieren: Bei der Multiplikation komplexer Zahlen multiplizieren sich die Beträge, und die Winkel addieren sich. Der Betrag |z − w| hat die anschauliche Bedeutung des Abstands von z und w. Das gibt uns den Anlass zu folgender Definition. Definition 3.5 Für komplexe Zahlen z, w heißt d(z, w) := |z − w| der (euklidische) Abstand oder die Distanz von z und w. z+w w |z − w| z w |z + w| z 0 z−w 0 Abbildung 5: Abstand und Dreiecksungleichung Satz 3.6 (Dreiecksungleichung) Für alle z, w, v ∈ C gilt |z + w| ≤ |z| + |w| , d(z, w) ≤ d(z, v) + d(v, w) . Beweis. Man berechnet unter Verwendung der Regeln aus Satz 3.3 |z + w|2 = = = ≤ ≤ (z + w)(z + w) zz + zw + zw + ww |z|2 + |w|2 + 2 Re (zw) |z|2 + |w|2 + 2| Re (zw)| |z|2 + |w|2 + 2|zw| = (|z| + |w|)2 . Hieraus folgt |z + w| ≤ |z| + |w|. Das ist die erste Behauptung. Daraus ergibt sich die zweite gemäß d(z, w) = |z − w| = |(z − v) + (v − w)| ≤ |z − v| + |v − w| = d(z, v) + d(v, w) . In der Zahlenebene hat die Dreiecksungleichung eine offensichtliche anschauliche Bedeutung (vgl. Abbildung 5). Wir können jetzt die Situation in Satz 2.16 als einen degenerierten eindimensionalen Fall ansehen. 48 3.3 Rn und Cn Die Mengen Rn bzw. Cn bestehen aus allen n-Tupeln z = (z1 , . . . , zn ) von reellen bzw. komplexen Zahlen z1 , . . . , zn . Zwei solche Vektoren z und w = (w1 , . . . , wn ) werden gemäß der Vorschrift z + w := (z1 + w1 , . . . , zn + wn ) addiert, und die skalare Multiplikation mit einer komplexen beziehungsweise einer reellen Zahl λ ist durch λ(z1 , . . . , zn ) := (λz1 , . . . , λzn ) definiert. In der Linearen Algebra zeigt man, dass Rn und Cn damit zu Vektorräumen über R bzw. über C der Dimension n gemacht werden15 . Wir benötigen hier das Skalarprodukt, das in der Linearen Algebra erst an späterer Stelle behandelt wird. Definition 3.7 Für beliebige Vektoren z = (z1 , . . . , zn ) und w = (w1 , . . . , wn ) in Cn heißt hz, wi := n X zk wk k=1 das euklidische Skalarprodukt oder (Standard-)Skalarprodukt aus z und w. Bemerkung 3.8 dere Für Vektoren a = (a1 , . . . , an ) und b = (b1 , . . . , bn ) in Rn gilt insbesonha, bi = a1 b1 + . . . + an bn . Für beliebige z, v und w in Cn und für beliebige λ ∈ C gelten die Rechenregeln hw, zi hz + v, wi hz, v + wi hλz, wi hz, λwi n X hz, zi = |zk |2 = = = = = hz, wi , hz, wi + hv, wi , hz, vi + hz, wi , λhz, wi , λhz, wi , ≥ 0 hz, zi = 0 ⇐⇒ z = 0 = (0, . . . , 0). mit k=1 Für reelle Vektoren a, b ∈ Rn und für λ ∈ R vereinfachen sich die erste und die fünfte Rechenregel zu hb, ai = ha, bi und ha, λbi = λha, bi . Das Skalarprodukt wird nun zur Definition des Abstands von Punkten in Cn oder in Rn verwendet. 15 Was ein Vektorraum genau ist, wird ebenfalls in der Linearen Algebra erklärt. 49 Definition 3.9 Es seien z = (z1 , . . . , zn ) ∈ Cn und w = (w1 , . . . , wn ) ∈ Cn . Man nennt p √ ||z|| := hz, zi = z1 z1 + . . . + zn zn die (euklidische) Norm von z. Wegen hz, zi ≥ 0 ist ||z|| eine wohldefinierte nicht-negative reelle Zahl, und es gilt ||z|| = 0 genau dann, wenn z = 0 der Nullvektor ist. Für a = (a1 , . . . , an ) ∈ Rn gilt insbesondere q ||a|| = a21 + . . . + a2n . Man nennt d(z, w) := ||z − w|| = n X !1/2 |zk − wk |2 k=1 den (euklidischen) Abstand oder die (euklidische) Distanz der Punkte z und w. Für Punkte a = (a1 , . . . , an ) und b = (b1 , . . . , bn ) in Rn vereinfacht sich die Definition zu p d(a, b) = (a1 − b1 )2 + . . . + (an − bn )2 . Bemerkung 3.10 (1) Für alle z ∈ Cn und alle λ ∈ C gilt ||λz|| = |λ| · ||z||. Dies folgt sofort aus ||λz||2 = hλz, λzi = λλ · hz, zi = |λ|2 · ||z||2 durch Wurzelziehen. (2) Für alle z, w ∈ Cn gilt d(z, w) = d(w, z), d(z, w) ≥ 0 und d(z, w) = 0 ⇐⇒ z = w. (3) Im Spezialfall n = 1 ist die Norm ||z|| eines Vektors z ∈ C1 = C gerade der Betrag |z| der komplexen Zahl z. Daher ist die zuletzt gegebene Definition des Abstands zweier Punkte im Cn mit den früheren Definitionen des Abstands zweier komplexer (Definition 3.5) bzw. reeller Zahlen (Definition 2.14) verträglich: Für n = 1 stimmt der soeben definierte Abstand zweier Punkte in C1 mit dem in Definition 3.5 erklärten überein; ebenso ist der Abstand zweier Punkte in R nach allen drei Definitionen der gleiche. (4) Die Schreibweisen für die euklidische Norm sind in der Literatur nicht einheitlich. Oft schreibt man dafür auch |z| oder |z|2 oder ||z||2 . Falls man die Schreibweise |z| benutzt, sollte man besonders darauf achten, nicht aus Gedankenlosigkeit Regeln für die Norm zu benutzen, die lediglich für den Betrag, nicht jedoch für Vektoren im Cn mit n ≥ 2 gültig sind. 50 In den Räumen Rn mit n ≤ 3 hat dieser Abstand die anschauliche Bedeutung des üblichen (euklidischen) Abstandes. Die Räume Rn mit n ≥ 4 und die Räume Cn mit n ≥ 2 sind unserer Anschauung nicht zugänglich. Dennoch erlauben es die Eigenschaften des Skalarproduktes und des Abstands, in diesen Räumen Geometrie zu treiben. Zum Beispiel könnte man den Winkel α zwischen zwei Vektoren a 6= 0 und b 6= 0 in Rn durch die Formel cos(α) = ha, bi ||a|| · ||b|| definieren, sobald die Umkehrfunktion des Cosinus zur Verfügung steht. Dies ist aus dem Schulunterricht vermutlich für den Fall n = 3 bekannt. Da der Cosinus nur Werte im Intervall [−1, 1] annimmt, muss hierzu freilich gewährleistet sein, dass auf der rechten Seite dieser Formel nur Werte vom Betrag ≤ 1 auftauchen. Die Grundlage hierfür ist die CauchySchwarzsche Ungleichung16 . Satz 3.11 (Cauchy-Schwarzsche Ungleichung) und w = (w1 , . . . , wn ) des Cn gilt Für alle Vektoren z = (z1 , . . . , zn ) |hz, wi| ≤ ||z|| · ||w||, also n X zk wk ≤ k=1 n X !1/2 |zk |2 k=1 · n X !1/2 |wk |2 . k=1 Hierin besteht genau dann Gleichheit, wenn es komplexe Zahlen λ und µ gibt, die nicht beide 0 sind und die λz + µw = 0 erfüllen (d.h. in der Sprache der Linearen Algebra: wenn z und w linear abhängig sind). Dies gilt insbesondere auch für den Spezialfall z, w ∈ Rn . In [Heuser 1, S. 97] findet sich ein Beweis, der die Ungleichung zwischen dem arithmetischen und dem geometrischen Mittel (Satz 1.9) benutzt. Der folgende Beweis ist unabhängig von diesem Resultat und lässt sich wörtlich auf beliebige Skalarprodukte übertragen, wie sie in der Linearen Algebra in allgemeinerem Rahmen betrachtet werden. Beweis. Es seien z, w ∈ Cn gegeben. Für alle λ, µ ∈ C gilt gemäß den Rechenregeln aus Bemerkung 3.8 0 ≤ hλz + µw, λz + µwi = λλ · hz, zi + µµ · hw, wi + λµ · hz, wi + λµ · hw, zi. Insbesondere gilt dies für λ := hw, wi = ||w||2 ≥ 0 und µ := −hz, wi. Für diese Wahl von λ, µ ist λ = λ und µ = −hw, zi, also µ · hz, wi = µ · hw, zi = −|hz, wi|2 , und es ergibt sich 0 ≤ ||w||4 · ||z||2 + ||w||2 · |hz, wi|2 − ||w||2 · |hz, wi|2 − ||w||2 · |hz, wi|2 = ||w||2 · ||w||2 · ||z||2 − |hz, wi|2 . Im Falle ||w|| > 0 folgt hieraus ||w||2 · ||z||2 − |hz, wi|2 ≥ 0, 16 also |hz, wi|2 ≤ ||w||2 · ||z||2 nach A. Cauchy (1789 – 1857) und H. A. Schwarz (1843 – 1921) 51 und sodann durch Wurzelziehen die behauptete Abschätzung. Im Falle ||w|| = 0 ist w = 0, und beide Seiten der Abschätzung sind 0. Damit ist die Gültigkeit der Cauchy-Schwarzschen Ungleichung gezeigt. Es bleibt noch der Fall der Gleichheit zu diskutieren. Hierfür darf man wieder o.B.d.A. w 6= 0 annehmen. (Im Fall w = 0 sind ja beide Seiten der Ungleichung 0, und es gilt dann 0 · z + 1 · w = 0.) Falls in der Cauchy-Schwarzschen Ungleichung Gleichheit auftritt, so zeigt die obige Rechnung hλz + µw, λz + µwi = 0 mit den dort gewählten λ, µ. Dies hat aber λz + µw = 0 zur Folge, wobei w 6= 0 sicherstellt, dass λ = ||w||2 6= 0 gilt. Dies zeigt die eine der behaupteten Implikationen. Nun sei umgekehrt λz + µw = 0 für gewisse λ, µ ∈ C mit (λ, µ) 6= (0, 0). Wegen w 6= 0 ist dabei λ 6= 0. Für α := − µλ gilt daher z = α · w, und mit den Regeln aus Bemerkung 3.8 und Bemerkung 3.10 (1) folgt wie gewünscht |hz, wi| = |hαw, wi| = |α · hw, wi| = |α| · ||w||2 = ||αw|| · ||w|| = ||z|| · ||w||. Eine direkte Folgerung aus der Cauchy-Schwarzschen Ungleichung ist die Dreiecksungleichung: Satz 3.12 (Dreiecksungleichung) Für beliebige z, v, w in Cn gilt ||z + w|| ≤ ||z|| + ||w|| , d(z, w) ≤ d(z, v) + d(v, w) . Beweis. Die erste Behauptung ergibt sich aus ||z + w||2 = = = = ≤ ≤ hz + w, z + wi hz, zi + hz, wi + hw, zi + hw, wi hz, zi + hz, wi + hz, wi + hw, wi ||z||2 + 2 Re hz, wi + ||w||2 ||z||2 + 2|hz, wi| + ||w||2 ||z||2 + 2||z|| · ||w|| + ||w||2 = (||z|| + ||w||)2 durch Wurzelziehen. Hierin ist die letzte Abschätzung durch die Cauchy-Schwarzsche Ungleichung begründet. Die zweite Behauptung ergibt sich nun wie in Satz 3.6 aus d(z, w) = ||z − w|| = ||(z − v) + (v − w)|| ≤ ||z − v|| + ||v − w|| = d(z, v) + d(v, w) . 52 4 Metrische Räume In Abschnitt 3.3 hatten wir den euklidischen Abstand zweier Punkte in Rn bzw. Cn definiert, und zwar durch Verallgemeinerung des aus den Anschauungsräumen“ R (Zahlengerade), R2 ” (Ebene) und R3 (dreidimensionaler Raum) bekannten Abstandsbegriffs. Wir werden später Abstände“ auch zwischen anderen mathematischen Objekten (wie etwa ” Funktionen oder Folgen) messen wollen, nicht nur zwischen Punkten im Rn oder Cn . Hierzu führen wir einen neuen abstrakten Begriff ein, nämlich den des metrischen Raumes. In den folgenden Kapiteln werden wir Konvergenz von Folgen und Stetigkeit von Funktionen gleich allgemein in beliebigen metrischen Räumen definieren, uns dann aber überwiegend auf die Untersuchung reeller Folgen und reellwertiger Funktionen in einer reellen Variablen beschränken. Verallgemeinerungen auf Funktionen mehrerer Variabler oder auf allgemeine metrische Räume bleiben weiterführenden Vorlesungen wie Vertiefung Analysis, Funktionalanalysis und Topologie vorbehalten. Definition 4.1 Es sei X eine Menge und X 6= ∅. Eine Abbildung d : X × X −→ R heißt eine Metrik auf X, falls für alle p, q, r ∈ X die folgenden Aussagen gelten. (M1) (Positive Definitheit) Es ist d(p, q) ≥ 0. Genau dann gilt d(p, q) = 0, wenn p = q ist. (M2) (Symmetrie) Es ist d(p, q) = d(q, p). (M3) (Dreiecksungleichung) Es ist d(p, q) ≤ d(p, r) + d(r, q). Das Paar (X, d) oder auch X selber heißt dann ein metrischer Raum, und die nichtnegative reelle Zahl d(p, q) heißt der Abstand oder die Distanz der Punkte p und q in diesem Raum. Beispiel 4.2 (1) Der in Definition 3.9 erklärte euklidische Abstand im Rn bzw. Cn ist aufgrund von Bemerkung 3.10 (2) und Satz 3.12 eine Metrik; diese heißt die euklidische Metrik auf Rn bzw. Cn . Sie ist für uns vorläufig das einzige wichtige Beispiel einer Metrik. Damit werden Rn bzw. Cn also zu metrischen Räumen. Aber auch eine beliebige Teilmenge von Rn bzw. Cn können wir mit dieser Metrik ausstatten und damit zu einem metrischen Raum machen. (2) Metrik des französischen Eisenbahnsystems Es sei F eine nicht-leere Teilmenge der Ebene R2 . Man wählt einen Punkt P ∈ F . Für beliebige A, B ∈ F setzt man dann ||A − B||, falls A, B, P auf einer Geraden liegen, dF (A, B) := ||A − P || + ||P − B|| sonst. Man kann dann für dF die drei Eigenschaften einer Metrik verifizieren (Aufgabe 6.3). Man hat dF scherzhaft die Metrik des französischen Eisenbahnsystems (mit P aris als Zentrum) genannt (Abbildung 6). 53 Abbildung 6: Die Metrik des französischen Eisenbahnsystems (Zeichnung: Jens Jordan) (3) Es sei X eine beliebige nichtleere Menge. Für x, y ∈ X definieren wir 0, falls x = y, d(x, y) := 1, falls x 6= y. Dann ist d eine Metrik auf X, die sog. diskrete Metrik (Aufgabe 6.3). (4) Die Codierungstheorie ist ein Zweig der angewandten Algebra, der bei Datenübertragungen zur Absicherung gegen Übermittlungsfehler eingesetzt wird. In dieser Theorie kommt die folgende wichtige Metrik vor. Es sei X = {0, 1}n die Menge aller (endlichen) Folgen aus n Binärziffern 0 und 1. Für zwei solche Folgen x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ) wird D(x, y) gleich der Anzahl der Indizes k gesetzt, wofür xk 6= yk ist. Man stellt sich vor, dass x eine gesendete Nachricht und y die empfangene Nachricht ist. Dann ist D(x, y) die Anzahl der Übertragungsfehler. Man kann diese Anzahl auch in der Form n X |xk − yk | D(x, y) = k=1 schreiben. Hierdurch lässt sich die Funktion D auf ganz Rn ×Rn fortsetzen. In Aufgabe 6.1 zeigen wir, dass D eine Metrik auf X und auch auf Rn ist. Für x, y ∈ X heißt D(x, y) die Hamming-Distanz von x und y. Die Metrik D auf X wurde 1948 von R. W. Hamming (1915 – 1998) in die Nachrichtentechnik eingeführt. Als Metrik auf Rn ist D auch in der Analysis von Bedeutung. Anschaulich könnte man sie als Metrik des Straßensystems von Manhattan beschreiben: Dort sind die Straßen gitterförmig angeordnet, so dass es keine direkten“ Verbindungen (im Sinne der eu” klidischen Metrik) gibt, sondern sich der Abstand zweier Adressen danach bemisst, wieviele (in Nord-Süd-Richtung verlaufende) Längsstraßen (Avenues) und wie viele (ost-westlich verlaufende) Querstraßen (Streets) die beiden Adressen trennen. Die in Abschnitt 2.2 für Intervalle eingeführten Bezeichnungen offen“ und abgeschlossen“ ” ” können auf beliebige Teilmengen beliebiger metrischer Räume übertragen werden. Definition 4.3 Menge Es sei (X, d) ein metrischer Raum, und es sei a ∈ X, ε ∈ R, ε > 0. Die Uε (a) := {p ∈ X | d(p, a) < ε} 54 heißt dann die offene Kugel vom Radius ε (oder die offene ε-Kugel) um den Punkt a oder auch die offene ε-Umgebung von a. Ebenso heißt Bε (a) := {p ∈ X | d(p, a) ≤ ε} die abgeschlossene Kugel vom Radius ε (oder die abgeschlossene ε-Kugel) um a. Eine beliebige Teilmenge U von X heißt offen (in X), falls es zu jedem Punkt a ∈ U ein ε > 0 gibt, so dass die offene Kugel Uε (a) vollständig in U enthalten ist. In Quantorenschreibweise lautet diese Bedingung ∀a∈U ∃ε>0 Uε (a) ⊆ U. Eine Teilmenge A ⊆ X heißt abgeschlossen (in X), falls ihr Komplement X \ A offen ist. Bemerkung 4.4 (1) Die Abhängigkeit von dem metrischen Raum X kommt in der Notation Uε (a) bzw. Bε (a) nicht zum Ausdruck. Im Regelfall ist sie aus dem Kontext klar. Je nachdem, in welchem metrischen Raum sich die jeweiligen Betrachtungen abspielen, kann Uε (a) also z.B. ein Intervall (falls X = R), eine Kreisscheibe (falls X = C oder X = R2 ), eine Kugel im umgangssprachlichen Sinn (falls X = R3 ) oder eine abstraktere Kugel“ ” bezeichnen. (2) Ein Intervall I ⊆ R ist als Menge genau dann offen beziehungsweise abgeschlossen, wenn I ein offenes beziehungsweise ein abgeschlossenes Intervall ist. (Selbstverständlich legt man die Bedeutung der Vokabeln“ so fest, dass dies zutrifft.) ” Der Begriff der offenen Menge ist aber viel allgemeiner als der des offenen Intervalls: Die meisten“ offenen Mengen in R sind keine Intervalle. ” (3) Warnung: Ein häufiger Anfängerfehler besteht in der Annahme, jede Menge in R oder auch in Rn bzw. Cn müsse entweder offen oder abgeschlossen sein. Dies verführt zu Fehlschlüssen wie Weil A nicht offen ist, ist A abgeschlossen.“ ” Tatsächlich sind die meisten“ Mengen weder offen noch abgeschlossen. Beispiele für ” solche Mengen (in R) sind die halboffenen Intervalle [a, b[ und ]a, b], aber auch Q, R \ Q oder N ∪ ] − 1, 0[. (4) Für jeden beliebigen metrischen Raum (X, d) sind die leere Menge ∅ und der Gesamtraum X sowohl offene als auch abgeschlossene Mengen. In den Beispielen 4.2 (3) bzw. (4) einer beliebigen Menge mit der diskreten Metrik bzw. des Raumes X = {0, 1}n mit der Hamming-Distanz D ist jede beliebige Teilmenge von X sowohl offen als auch abgeschlossen. (Denn in beiden Fällen gilt für jedes x ∈ X und für 0 < ε < 1 jeweils Uε (x) = {x}.) (5) Die Offen- bzw. Abgeschlossenheit einer Menge hängt wesentlich von dem umgeben” den“ metrischen Raum X ab. So ist z.B. das offene Intervall I :=]0, 1[ als Teilmenge des metrischen Raumes R, versehen mit der euklidischen Metrik, (erwartungsgemäß) nicht abgeschlossen. Betrachtet man hingegen den metrischen Raum X =]0, 1[ (ebenfalls versehen mit der euklidischen Metrik), so ist I (überraschenderweise) abgeschlossen in X, denn das Komplement X \ I = ∅ ist offen in X (siehe (4)). Im Regelfall, wenn der Bezug auf den umgebenden“ Raum X unzweideutig ist, spricht ” man nur von offenen bzw. abgeschlossenen Mengen und lässt den präzisierenden Zusatz in X“ weg. ” 55 (6) Eine offene ε-Kugel Uε (c) ist tatsächlich eine offene Menge im Sinne der obigen Definition. Ebenso ist eine abgeschlossene ε-Kugel Bε (c) tatsächlich abgeschlossen im obigen Sinne. Begründung: (i) Es sei ein a ∈ Uε (c) gegeben. Wir müssen ein δ > 0 finden mit Uδ (a) ⊆ Uε (c). Nach Definition der ε-Kugel ist d(a, c) < ε, also δ := ε − d(a, c) > 0. (Abbildung 7 illustriert, wie man auf diese Wahl von δ kommt.) Es sei x ∈ Uδ (a). Dann ist aufgrund der Dreiecksungleichung (M3) d(x, c) ≤ d(x, a) + d(a, c) < δ + d(a, c) = ε, also x ∈ Uε (c). Dies gilt für alle x ∈ Uδ (a). Daher ist Uδ (a) ⊆ Uε (c), wie gewünscht. Damit ist die Offenheit von Uε (c) gezeigt. δ a ε c Abbildung 7: Die Offenheit offener Kugeln (ii) Zum Nachweis der Abgeschlossenheit von Bε (c) müssen wir definitionsgemäß zeigen, dass U := X \ Bε (c) = {x ∈ X | d(x, c) > ε} offen ist. Dies geht ganz analog wie in (1). Der Vollständigkeit halber führen wir die Details aus: Es sei ein a ∈ U gegeben. Dann ist d(a, c) > ε, also δ := d(a, c) − ε > 0. Es sei x ∈ Uδ (a). Dann ist wiederum aufgrund von (M3) d(x, c) = d(c, x) ≥ d(c, a) − d(a, x) > d(a, c) − δ = ε, also x ∈ U . Dies gilt für alle x ∈ Uδ (a). Daher ist Uδ (a) ⊆ U , womit U als offen nachgewiesen ist. Die Begriffe offen“ und abgeschlossen“ sind sog. topologische Begriffe. Wir werden sie ” ” später noch genauer unter die Lupe nehmen. So werden wir u.a. (in Satz 8.6) eine alternative Beschreibung abgeschlossener Mengen kennenlernen, und wir werden auch den Begriff der Kompaktheit (der bisher nur bei Intervallen auftrat) in allgemeinerem Rahmen definieren. Hierzu benötigen wir das Konzept der Konvergenz von Folgen. Um dieses soll es im nächsten Kapitel gehen. Und damit sind wir auch schon“ am Ende des Grundlagen-Teils angelangt. ” Jetzt geht es richtig los. 56 Teil II Konvergenz und Stetigkeit 5 5.1 Konvergenz von Folgen Folgen Unter einer Folge stellt man sich anschaulich eine geordnete Auflistung von Zahlen oder auch anderen Objekten vor. Beispielsweise ist 2, 3, 5, 7, 11, 13, 17, . . . die Folge der Primzahlen oder Herberger, Schön, Derwall, Beckenbauer, Vogts, . . . , Löw die Folge der bisherigen deutschen Fußball-Bundestrainer (bzw. Teamchefs). Mathematisch präzise führt man eine Folge als Funktion ein, deren Definitionsbereich die natürlichen Zahlen sind. Definition 5.1 Es sei eine beliebige Menge X 6= ∅ gegeben. Jede Abbildung a : N −→ X heißt auch eine Folge in X. Die Funktionswerte a(n) schreibt man im Kontext von Folgen meistens in der Form an , und man nennt sie die Folgenglieder oder die Glieder der Folge. Für die Folge a sind Notationen wie (an )n∈N , (an )n≥1 , (an )∞ n=1 (an )n , oder a1 , a2 , a3 , . . . gebräuchlich. Oft lässt man die Indizierung der Folgenglieder nicht bei 1, sondern bei einer beliebigen Zahl n0 ∈ Z beginnen und nennt daher auch Abbildungen a : {n ∈ Z | n ≥ n0 } −→ X Folgen in X. Die so definierten Folgen sind unendliche, d.h. nicht abbrechende Folgen. Die endliche Folge Herberger, Schön, . . . , Löw der bisherigen Bundestrainer ist also keine Folge im soeben definierten Sinne. Formal sind Folgen zwar als Abbildungen eingeführt, diese Sichtweise steht aber in der Praxis nicht im Vordergrund; vielmehr ist die anschauliche Vorstellung einer Auflistung oft hilfreicher. Beispiel 5.2 (1) Es sei an := c für alle n ∈ N mit einem c ∈ R. Dann ist (an )n die konstante Folge c, c, c, c, c, c, . . . . (2) Es sei an := 1 n für alle n ∈ N. Dies liefert die sog. harmonische Folge 1, 12 , 13 , 41 , . . . . (3) Es sei an := (−1)n für alle n ∈ N. Damit ergibt sich die Folge −1, +1, −1, +1, −1, +1, −1, +1, . . . , deren Folgenglieder alternierendes Vorzeichen besitzen. 57 (4) Es sei an := 2n für alle n ∈ N. Dann ist (an )n die Folge der Zweierpotenzen 2, 4, 8, 16, 32, 64, . . . . (5) Wenn wir a1 = a2 := 1 setzen und an+1 für n ≥ 2 rekursiv17 durch an+1 := an + an−1 erklären, erhalten wir die Folge 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, . . . der sog. Fibonacci-Zahlen18 . Bemerkung 5.3 (1) Wichtig ist, eine Folge (an )n≥1 von der Menge {an | n ∈ N} ihrer Folgenglieder zu unterscheiden19 . Beispielsweise umfasst die Folge der bisherigen US-Präsidenten (die, da sie endlich ist, strenggenommen ebenfalls gar keine Folge im oben definierten Sinne ist) derzeit 44 Folgenglieder, die Menge der bisherigen US-Präsidenten hat jedoch nur 43 Elemente. Dies liegt daran, dass Grover Cleveland zweimal mit einer Unterbrechung von vier Jahren (nämlich 1885-1889 und 1893-1897) Präsident war und daher sowohl als 22. als auch als 24. US-Präsident gezählt wird. Ein mathematisches Beispiel liefert die konstante Folge (an )n mit an := 2011 für alle n; sie hat unendliche viele Folgenglieder, die alle gleich sind, so dass die Menge der Folgenglieder nur ein Element, nämlich 2011, enthält. 17 Das Wesen der Rekursion illustriert folgende Karikatur von Jens Jordan: 18 Sie ist nach Leonardo von Pisa (ca. 1180 – ca. 1250, mit Spitznamen Fibonacci) benannt, der diese Folge in einem stark vereinfachten (und daher realitätsfernen) Modell zur Beschreibung des Wachstums einer Population von (als unsterblich angenommenen!) Kaninchen verwendete. Die Fibonacci-Zahlen treten auch vielerorts in der Natur auf (z.B. in den spiralförmigen Mustern der Ananas oder Sonnenblume). Wir werden später sehen, dass die Verhältnisse aufeinanderfolgender Fibonacci-Zahlen besonders gute Approximationen für den Goldenen Schnitt darstellen. 19 Manche Autoren schreiben Folgen in der Form {an }n . Aufgrund der Verwechslungsgefahr mit der Menge der Folgenglieder vermeiden wir diese Notation. 58 (2) Warnung: Die oben verwendete Pünktchenschreibweise“ für Folgen (wie z.B. in ” 2, 3, 5, 7, 11, 13, 17, . . . ) ist mit einer gewissen Vorsicht zu verwenden; man sollte sich ihrer nur bedienen, wenn aus der Angabe einiger weniger Anfangsglieder wirklich unzweideutig klar wird, welches Bildungsgesetz der Folge zugrundeliegt20 . 5.2 Der Begriff der Konvergenz Wir beschäftigen uns vor allem mit Folgen von reellen Zahlen, gelegentlich auch mit Folgen in den Räumen Rn und Cn oder in allgemeineren metrischen Räumen. Manche dieser Folgen haben die Eigenschaft, dass ihre Glieder sich einem bestimmten Wert a mehr und mehr ” annähern“. Dieser Wert heißt dann der Grenzwert der Folge, und die Folge heißt konvergent (gegen diesen Grenzwert). Der Begriff der Konvergenz ist der zentrale Begriff der Analysis und macht ihr eigentliches Wesen aus. Unsere erste Aufgabe ist es, eine präzise Definition für diesen Begriff zu geben. Wir beginnen mit einigen Beispielen. Beispiel 5.4 (1) Es sei an := n n+1 für alle n ∈ N. Die ersten Glieder dieser Folge sind 1 2 3 4 5 6 7 , , , , , , ,.... 2 3 4 5 6 7 8 Diese nähern sich immer mehr dem Wert 1 an. Es ist zu erwarten, dass diese Folge gegen 1 konvergiert. (2) Die Folge (an )n in R sei rekursiv definiert durch 1 2 a1 := 2 und an+1 := an + für n ≥ 1. 2 an Die Berechnung einiger Folgenglieder 577 = 1, 4142 . . . , . . . 408 √ lässt vermuten, dass diese Folge konvergiert und den Grenzwert 2 hat. Wir werden in Satz 6.5 zeigen, dass diese Vermutung zutrifft. Tatsächlich ist die Folge (an )n sogar √ besonders gut zur Berechnung von 2 geeignet. a2 = 3 = 1, 5 , 2 a3 = 17 = 1, 416 . . . , 12 20 a4 = Dass aus der Vorgabe einiger weniger (insbesondere endlich vieler) Anfangsglieder einer Folge keineswegs logisch zwingend auf ein eindeutiges (!) Bildungsgesetz geschlossen werden kann, dem alle weiteren (unendlich vielen) Folgenglieder gehorchen, ist häufig gerade den Verfassern sog. IQ-Tests offenbar nicht bewusst. In solchen Tests könnte beispielsweise danach gefragt werden, wie die Folge 27, 11, 29, 29, 13, . . . fortzusetzen sei, und wahrscheinlich würde als richtige“ Antwort 27, 11, 29, 29, 13, 31, 31, 15, 33, 33, 17, 35, . . . ” erwartet. Aber man könnte die Folge auch so fortführen: 27, 11, 29, 29, 13, 4, 1, 13, . . . , wenn man sie nämlich als Folge der Geburtstage der in der Vorrunden-Partie Deutschland – Australien bei der Fußball-WM 2010 eingesetzten deutschen Nationalspieler interpretiert; diese waren: M. Neuer (geboren am 27.3.1986), P. Lahm (11.11.1983), P. Mertesacker (29.9.1984), A. Friedrich (29.5.1979), H. Badstuber (13.3.1989), S. Khedira (4.4.1987), B. Schweinsteiger (1.8.1984), T. Müller (13.9.1989),. . . . 59 (3) Wir betrachten eine konstante Folge: Für ein a ∈ R und alle n ∈ N sei an := a. Diese Folge ist konvergent mit dem Grenzwert a. Die Redeweise, wonach sich die Folgenglieder dem Grenzwert mehr und mehr annähern“, passt nicht recht auf dieses Beispiel: ” Sie nähern sich nicht an, sie sind schon angekommen“. ” (4) Es sei an := (−1)n · (1 + n1 ). Die Anfangsglieder dieser Folge sind −2 , 4 5 6 7 3 , − , , − , ,... . 2 3 4 5 6 Die Folgenglieder streben abwechselnd gegen 1 beziehungsweise −1“. Diese Folge ist ” nicht konvergent. Beispiele dieser Art geben in Abschnitt 6.2 Anlass zur Betrachtung von Teilfolgen und zur Definition von Häufungswerten. (5) Die Folge der Primzahlen 2, 3, 5, 7, 11, 13, 17, . . . wächst unbeschränkt an. Eine solche Folge ist nicht konvergent. Wie können wir die anschauliche Vorstellung der Konvergenz mathematisch präzisieren? Was meinen wir damit, wenn wir sagen, dass die Folge (an )n gegen a konvergiert? Wir geben einige verbale Umschreibungen dieses Sachverhalts, die sukzessive immer präziser werden – bis wir schließlich bei einer mathematisch verwertbaren Definition angelangt sind: • Man könnte sagen: (an )n konvergiert gegen a, wenn für genügend großes“ n der Grenz” wert a hinreichend gut“ durch an approximiert wird. ” Hier stellt sich die Frage: Was heißt genügend groß“ und hinreichend gut“? ” ” • Es wird eine gewisse Abweichung bzw. Fehlertoleranz ε > 0 für die Abweichung zwischen an und a vorgegeben, die (aus welchen Gründen auch immer) als gerade noch erträglich für die Zwecke der jeweiligen Betrachtung angesehen wird. Dann sollte sich an ab einem gewissen, hinreichend großen Index um weniger als ε vom Grenzwert a unterscheiden. Es soll also ein N ∈ N geben, so dass |an − a| < ε für alle n ≥ N gilt. • Es stellt sich nun die Frage, wie groß diese Fehlertoleranz ε zu wählen ist. Wesentlich für den Grenzwertprozess ist, dass man mit an dem Grenzwert a beliebig nahe kommen kann, dass also jedes beliebig kleine ε > 0 zulässig ist21 . Es soll also zu jedem ε > 0 ein N ∈ N geben, so dass |an − a| < ε für alle n ≥ N gilt. Dieses N wird i. Allg. natürlich von ε abhängen; es wird immer größer gewählt werden müssen, je kleinere Fehlertoleranzen ε > 0 man vorgibt, je ambitionierter“ die Approximation also sein ” soll. Um diese Abhängigkeit von ε zum Ausdruck zu bringen, könnten wir z.B. Nε schreiben. Damit sind wir bei der angestrebten Präzisierung des Konvergenzbegriffs angelangt. 21 In Anwendungen der Mathematik (in der Numerik, Physik oder den Ingenieurwissenschaften) würde man sich vermutlich mit einer festen, je nach angestrebter Genauigkeit der jeweiligen Untersuchung hinreichend √ klein gewählten Fehlertoleranz ε begnügen – falls man z.B. 2 auf 20 Dezimalstellen genau approximieren will. Dem Wesen der Konvergenz, dass man nämlich dem Grenzwert unendlich nahe kommen will, wird dies nicht gerecht. 60 Definition 5.5 Es sei (an )n≥1 eine Folge von reellen Zahlen. Diese heißt konvergent, falls es eine reelle Zahl a gibt, so dass zu jeder Zahl ε > 0 ein Nε ∈ N existiert mit |an −a| < ε für alle n ≥ Nε . Man sagt dann, dass (an )n gegen a konvergiert und nennt die Zahl a den Grenzwert oder den Limes der Folge, und man schreibt a = lim an n→∞ an → a oder auch für n → ∞ . Die Definition der Konvergenz von (an )n gegen a lautet in Quantorenschreibweise ∀ ε>0 ∃ Nε ∈N ∀ n≥Nε |an − a| < ε . Wenn eine Folge nicht konvergent ist, dann heißt sie divergent. Bemerkung 5.6 (1) Der Vorteil der (anfangs sicherlich etwas gewöhnungsbedürftigen) Quantorenschreibweise liegt darin, dass sie logisch komplexe Aussagen sauber zu strukturieren vermag. Dies ist insbesondere von Vorteil, wenn man solche Aussagen negieren will und man ansonsten Gefahr laufen würde, sich hoffnungslos zu verheddern. Hier ist die generelle Regel, dass man eine Negation an einem Quantor vorbeiziehen“ kann, sofern man ” dabei die Rolle von Existenz- und Allquantor vertauscht. Etwas präziser: Es sei X eine Menge, und für alle x ∈ X sei A(x) eine Aussage. Dann gelten die folgenden (nur kompliziert aussehenden, aber eigentlich unmittelbar einleuchtenden) Äquivalenzen ¬∃x∈X A(x) ¬∀x∈X A(x) ⇐⇒ ⇐⇒ ∀x∈X ¬A(x); ∃x∈X ¬A(x). (5.1) (5.2) In Worten: (5.1) Genau dann gibt es kein x ∈ X, so dass A(x) gilt, wenn für alle x ∈ X die Aussage A(x) falsch ist. (5.2) Genau dann gilt A(x) nicht für alle x ∈ X, wenn es ein x ∈ X gibt, für das A(x) nicht gilt. Beispiel: Wir möchten folgende Aussage negieren: In jeder Galaxie gibt es einen Planeten, auf dem es in jedem Land eine Stadt gibt, deren sämtliche Bewohner mindestens einmal eine Analysis-Vorlesung oder eine Lineare-Algebra-Vorlesung besucht haben. Hierzu sei A(b) die Aussage Bewohner b hat mindestens einmal eine Analysis” Vorlesung besucht“, und L(b) die Aussage Bewohner b hat mindestens einmal eine ” Lineare-Algebra-Vorlesung besucht“. Um eine griffige Schreibweise zur Verfügung zu haben, betrachten wir die Planeten als Elemente der Galaxien, die Länder als Elemente der Planeten, die Städte als Elemente der Länder und die Bewohner als Elemente der Städte. Die Galaxien selbst werden als Elemente des Universums U angesehen. Damit lautet die angegebene Aussage in (einer pseudo-mathematischen, aber intuitiven) Quantorenschreibweise ∀G∈U ∃P ∈G ∀L∈P ∃S∈L ∀b∈S (A(b) ∨ L(b)). Die Negation dieser Aussage lässt sich nun in den folgenden äquivalenten Formen ausdrücken: 61 ¬ ∀G∈U ∃P ∈G ∀L∈P ∃S∈L ∀b∈S (A(b) ∨ L(b)) ⇐⇒ ∃G∈U ∀P ∈G ∃L∈P ∀S∈L ∃b∈S ¬(A(b) ∨ L(b)) ⇐⇒ ∃G∈U ∀P ∈G ∃L∈P ∀S∈L ∃b∈S (¬A(b) ∧ ¬L(b)) Die Negation der angegebenen Aussage lautet also: Es gibt eine Galaxie, in der es ” auf jedem Planeten ein Land gibt, in dessen sämtlichen Städten jeweils mindestens ein Bewohner lebt, der noch nie eine Analysis- und noch nie eine Lineare-AlgebraVorlesung gehört hat.“ Warnung: Das Vertauschen der Reihenfolge von All- und Existenzquantoren ist nicht zulässig. Beispiel: Es sei M die Menge aller Männer und F die Menge aller Frauen. Es sei B(m, f ) := m hat eine Beziehung mit f“. ” Dann haben die beiden Aussagen ∀m∈M ∃f ∈F B(m, f ) und ∃f ∈F ∀m∈M B(m, f ) offensichtlich krass unterschiedliche Bedeutung. (2) In der Konvergenzdefinition haben wir die Notation Nε verwendet, um zu betonen, dass N von ε abhängt. Es ist jedoch logisch ebenso korrekt, statt Nε lediglich N zu schreiben. Die Definition der Konvergenz von (an )n gegen a sieht dann so aus: ∀ ε>0 ∃ N ∈N ∀ n≥N |an − a| < ε . In der Praxis verwenden wir meist letztere Schreibweise und unterdrücken in der Notation die Abhängigkeit des N von ε. Statt N oder Nε schreibt man häufig22 auch n0 . (3) Dass eine Folge (an )n nicht gegen a konvergiert (also entweder divergiert oder gegen einen Grenzwert 6= a konvergiert), lässt sich aufgrund von (1) wie folgt schreiben: ∃ ε>0 ∀ N ∈N ∃ n≥N |an − a| ≥ ε . (4) Warnung: Einer der häufigsten Anfängerfehler im Umgang mit der Definition von Konvergenz besteht darin, diese mit den Worten Es existiert ein ε > 0 . . .“ einzuleiten. ” Wie oben erläutert, ist es aber gerade das Entscheidende an der Konvergenz, dass man den Abstand |an − a| für jedes ε > 0 unter die Fehlertoleranz ε drücken“ kann, wenn ” man nur n hinreichend groß wählt. (5) Und noch eine Warnung: Der Begriff der Folge ist sehr allgemein und lässt auch völlig regellose Beispiele zu. Nur den allerwenigsten Folgen wird die Eigenschaft der Konvergenz zukommen. Gerade diesen Folgen gehört unser größtes Interesse. Dies sollte allerdings nicht zu dem Fehlschluss verleiten, Folgen grundsätzlich für konvergent zu halten. 22 Welche Variablennamen man benutzt, ist letztlich eine Frage der guten Einprägbarkeit, der im jeweiligen Gebiet üblichen Konvention und auch des persönlichen Geschmacks. Mathematisch wäre es beispielsweise völlig korrekt, die Konvergenzdefinition wie folgt zu schreiben: ∀ N >0 ∃ x∈N ∀ f ≥x |af − a| < N . Dies würde allerdings mit hoher Wahrscheinlichkeit zu heilloser Konfusion führen. . . . 62 (6) Das Konvergenzverhalten einer Folge hängt nur von den Endstücken“ der Folge ab: ” Man kann beliebig viele Anfangsglieder der Folge abändern, ohne an der Konvergenz bzw. Divergenz oder ggf. am Grenzwert etwas zu ändern. (7) In der Konvergenzdefinition darf man die Bedingung |an − a| < ε“ ohne weiteres ” durch |an − a| ≤ ε“ ersetzen. Ebenso kann man sie für jedes feste C > 0 durch ” |a − a| < C · ε“ ersetzen. ” n Beispiel 5.7 (1) Es sei an := 1 n für alle n ∈ N. Wir erwarten selbstverständlich 1 =0 n→∞ n lim und beweisen das folgendermaßen. Es sei eine beliebige reelle Zahl ε > 0 gegeben. Nach dem Satz von Eudoxos (Satz 2.35) existiert dann eine natürliche Zahl N mit 1/N < ε. Für alle n ≥ N folgt 1 − 0 = 1 ≤ 1 < ε . n n N Dies war zu zeigen. (2) Es sei a ∈ R und an := a für alle n ∈ N. Zum Beweis der Konvergenz einer solchen konstanten Folge denken wir uns eine Zahl ε > 0 gegeben. Wir können N = 1 wählen. Für alle n ≥ 1 gilt nämlich |an − a| = 0 < ε. Damit ist limn→∞ an = a gezeigt. Wir schreiben hierfür lim a = a . n→∞ Der Begriff der Konvergenz lässt sich mühelos auf Folgen in beliebigen metrischen Räumen übertragen, insbesondere also auf Folgen in C, Rm oder in Cm . Wir müssen lediglich den Abstand |an − a| in R durch den Abstand d(an , a) in der jeweiligen Metrik d ersetzen. Definition 5.8 Es sei (X, d) ein metrischer Raum. Eine Folge (xn )n≥1 in X heißt konvergent mit dem Grenzwert oder dem Limes x ∈ X, falls es zu jeder reellen Zahl ε > 0 eine natürliche Zahl Nε gibt mit d(xn , x) < ε für alle n ≥ Nε . In Quantorenschreibweise: ∀ ε>0 ∃ Nε ∈N ∀ n≥Nε d(xn , x) < ε . Man schreibt dann lim xn = x n→∞ oder auch xn → x für n → ∞. Wenn eine Folge in X nicht konvergent ist, dann heißt sie divergent. Selbstverständlich erwarten wir, dass der Grenzwert einer konvergenten Folge eindeutig bestimmt ist, so dass der Gebrauch des bestimmten Artikels für den Grenzwert berechtigt ist. Dies ist der Inhalt der folgenden Proposition. 63 Proposition 5.9 einen Grenzwert. Eine Folge (xn )n≥1 in einem metrischen Raum (X, d) besitzt höchstens Beweis. Es sei (xn )n≥1 eine Folge in X, und x, y ∈ X seien Grenzwerte dieser Folge. Es sei eine beliebige Zahl ε > 0 gegeben. Dann ist auch 2ε > 0. Nach Definition des Grenzwerts gibt es also natürliche Zahlen N1 und N2 , so dass die Ungleichungen d(xn , x) < ε 2 für alle n ≥ N1 und d(xn , y) < ε 2 für alle n ≥ N2 gelten. Wir setzen N := max{N1 , N2 }. Für alle n ≥ N folgt dann mit der Dreiecksungleichung ε ε d(x, y) ≤ d(x, xn ) + d(xn , y) < + = ε . 2 2 Für jede reelle Zahl ε > 0 gilt also 0 ≤ d(x, y) < ε. Hieraus folgt d(x, y) = 0. Aufgrund von Axiom (M1) in der Definition 4.1 von metrischen Räumen hat dies x = y zur Folge. Also ist der Grenzwert von (xn )n eindeutig bestimmt. 5.3 Regeln für Grenzwerte Oben haben wir die Folge der Primzahlen erwähnt und ihre Divergenz damit begründet, dass ihre Glieder unbeschränkt anwachsen. Diese Beobachtung führt zu einer notwendigen Bedingung für Konvergenz. Definition 5.10 Eine Folge (xn )n≥1 in Rm oder in Cm heißt beschränkt, falls es eine reelle Zahl M > 0 gibt, so dass ||xn || ≤ M für alle n ∈ N gilt. Allgemeiner nennt man eine Folge (xn )n≥1 in einem metrischen Raum (X, d) beschränkt, falls es ein M > 0 und ein a ∈ X gibt, so dass d(xn , a) ≤ M für alle n ∈ N gilt. Proposition 5.11 schränkt. Jede konvergente Folge in einem metrischen Raum (X, d) ist be- Beweis. Es sei (xn )n≥1 eine konvergente Folge in X, und es sei x = limn→∞ xn ihr Grenzwert. Es sei a ∈ X beliebig. Die Definition der Konvergenz liefert für ε = 1 die Existenz eines N ∈ N mit d(xn , x) < 1 für alle n ≥ N . Wir setzen M := max{1 + d(x, a), d(x1 , a), d(x2 , a), . . . , d(xN , a)}. Für alle n ≥ N gilt dann d(xn , a) ≤ d(xn , x) + d(x, a) < 1 + d(x, a) ≤ M. Nach Definition von M gilt d(xn , a) ≤ M auch für alle n = 1, . . . , N . Daher folgt d(xn , a) ≤ M für alle n ∈ N. Mithin ist (xn )n beschränkt. 64 Aus konvergenten Folgen lassen sich durch algebraische Operationen neue konvergente Folgen gewinnen. Das wird im nächsten Satz festgestellt. Satz 5.12 Es seien (an )n≥1 und (bn )n≥1 konvergente Folgen in R oder in C, und es sei a = limn→∞ an und b = limn→∞ bn . Dann gelten die folgenden Aussagen. (1) Die Folge (an + bn )n≥1 konvergiert. Sie hat den Grenzwert lim (an + bn ) = a + b . n→∞ (2) Die Folge (an bn )n≥1 konvergiert. Sie hat den Grenzwert lim (an bn ) = ab . n→∞ (3) Es sei a 6= 0. Dann gibt es ein n0 ∈ N mit an 6= 0 für alle n ≥ n0 . Die Folge ist konvergent, und sie hat den Grenzwert limn→∞ 1 an 1 an = a1 . n≥n0 Die Aussage (1) gilt auch für Folgen in Rm oder in Cm . Beweis. (1) Es sei ein ε > 0 gegeben. Dazu existieren natürliche Zahlen N1 und N2 mit |an − a| < ε 2 für alle n ≥ N1 und |bn − b| < ε 2 für alle n ≥ N2 . Für alle n ≥ N := max{N1 , N2 } folgt |(an + bn ) − (a + b)| = |(an − a) + (bn − b)| ≤ |an − a| + |bn − b| < ε ε + = ε. 2 2 Damit ist (1) bewiesen. Die Überlegung bleibt fast wörtlich auch für Folgen von Vektoren in Rm oder Cm gültig; wir müssen nur überall die Absolutbeträge | . | durch die Normen || . || ersetzen. (2) Nach Proposition 5.11 gibt es eine Konstante C > 0, so dass |an | ≤ C und |bn | ≤ C für alle n sowie auch |a| ≤ C und |b| ≤ C gilt. Es sei ein ε > 0 gegeben. Dazu existieren natürliche Zahlen N1 und N2 mit |an − a| < ε 2C für alle n ≥ N1 und |bn − b| < ε 2C Für alle n ≥ N := max{N1 , N2 } folgt dann |an bn − ab| = |an bn − an b + an b − ab| ≤ |an | · |bn − b| + |b| · |an − a| ε ε < C· +C · = ε. 2C 2C Damit ist (2) bewiesen. 65 für alle n ≥ N2 . (3) Es sei a 6= 0. Dann gibt es (zu ε := 12 |a| > 0) ein n0 ∈ N mit |an − a| < 21 |a| für alle n ≥ n0 . Es ist dann nach der umgekehrten Dreiecksungleichung auch 1 1 |an | = |a − (a − an )| ≥ |a| − |an − a| > |a| − |a| = |a| > 0 2 2 für alle n ≥ n0 . (5.3) Insbesondere ist an 6= 0 für alle n ≥ n0 , womit die erste Behauptung bewiesen ist. Es sei ein beliebiges ε > 0 gegeben. Dazu gibt es ein n1 ∈ N mit |an − a| < 12 ε|a|2 für alle n ≥ n1 . Für alle n ≥ N := max {n0 , n1 } folgt an 6= 0 und wegen (5.3) weiter 1 1 − = 1 · |an − a| < 2 · ε |a|2 = ε . an a |aan | |a|2 2 Damit ist auch (3) bewiesen. Bemerkung 5.13 Die Konvergenzbeweise lassen ein geradezu rituelles Muster erkennen, das von der Definition des Konvergenzbegriffes gefordert wird. Gemäß der Formel ∃ a∈R ∀ ε>0 ∃ Nε ∈N ∀ n≥Nε |an − a| < ε muss zuerst der Grenzwert a gefunden werden. Das kann ein ernstes Problem sein. Manchmal kann man a erraten, etwa durch Berechnung einiger Folgenglieder. In Satz 5.12 (und ebenso in einigen der folgenden Sätze) blieb das Problem verborgen, weil in den Behauptungen die Grenzwerte einfach mitgeteilt wurden. Im zweiten Schritt wird eine Toleranz ε > 0 vorgegeben. Der dritte Schritt ist das Auffinden eines passenden Nε , und dies verlangt wiederum Kreativität. Wenn man sich obigen Beweis durchliest, wirkt die Wahl von Nε vielleicht trickreich und unmotiviert und damit entmutigend. Tatsächlich geht man heuristisch meist in anderer Reihenfolge vor und überlegt sich zuerst, warum und wie schnell die Differenzbeträge |an − a| klein werden. Nach erfolgreicher Abschätzung kann man dann sagen, wie das Nε in Abhängigkeit von ε zu wählen ist. Leicht zu beweisen, aber von großem Wert in der Praxis sind die im nächsten Satz zusammengefassten Regeln. Satz 5.14 In R seien zwei konvergente Folgen (an )n und (cn )n sowie eine weitere Folge (bn )n gegeben. (1) Gilt an ≤ cn für alle n ∈ N, so folgt limn→∞ an ≤ limn→∞ cn . (2) (Sandwich-Theorem, Carabinieri-Lemma“) Haben (an )n und (cn )n denselben ” Grenzwert s und gilt an ≤ bn ≤ cn für alle n ∈ N, so ist auch (bn )n konvergent gegen s. (3) Ist (an )n eine konvergente Folge in Cm , so ist auch die Folge (||an ||)n ihrer euklidischen Normen konvergent mit lim ||an || = || lim an ||. n→∞ n→∞ Beweis. Aufgabe 7.3 66 Wir können jetzt auch das Intervallschachtelungsprinzip aus Satz 2.24 in eine neue, aber zur früheren äquivalente Form bringen. Satz 5.15 (Prinzip der Intervallschachtelung) Die Folge (In )n≥1 der Intervalle In = [an , bn ] sei eine Intervallschachtelung. Für die hierdurch gemäß Satz 2.24 eindeutig festgelegte T reelle Zahl c ∈ ∞ I gilt dann n=1 n lim an = lim bn = c . n→∞ n→∞ Beweis. Nach Definition einer Intervallschachtelung konvergiert (bn − an )n gegen Null. (Solche Folgen bezeichnet man auch als Nullfolgen.) Für alle n gilt c ∈ In , also an ≤ c ≤ bn . Damit ergibt sich |an − c| ≤ |bn − an | → 0 (n → ∞), |bn − c| ≤ |bn − an | → 0 (n → ∞). Dies zeigt limn→∞ an = c und limn→∞ bn = c. Fragen über die Konvergenz von Folgen in Rm oder in Cm können prinzipiell stets auf Konvergenzfragen über Folgen in R zurückgeführt werden. Wir dürfen uns also auf Folgen von reellen Zahlen konzentrieren. Das ist der Inhalt des folgenden Satzes. Satz 5.16 Es sei (an )n≥1 eine Folge in Rm oder in Cm , und es sei an = (an1 , . . . , anm ). Dann gelten die folgenden Aussagen. (1) Die Folge (an )n≥1 ist genau dann konvergent, wenn für alle j = 1, . . . , m die Komponentenfolgen (anj )n≥1 konvergieren. (2) Es gilt limn→∞ an = c = (c1 , . . . , cm ) genau dann, wenn limn→∞ anj = cj für alle j = 1, . . . , m ist. (3) Eine Folge (zn )n≥1 in C konvergiert genau dann, wenn die beiden Folgen (Re zn )n≥1 und (Im zn )n≥1 in R konvergieren. In diesem Fall gilt lim zn = lim Re zn + i · lim Im zn . n→∞ n→∞ n→∞ Beweis. Es sei x = (x1 , . . . , xm ) ein Vektor in Rm oder in Cm . Für alle j = 1, . . . , m gelten dann die Ungleichungen m X |xj | ≤ ||x|| ≤ |xk | . k=1 2 Pm 2 2 Die erste folgt aus ||x|| = k=1 |xk | ≥ |xj | . Die zweite folgt aus der Dreiecksungleichung, indem man x als Summe der m Vektoren (0, . . . , 0, xk , 0, . . . , 0) schreibt, worin xk an der k-ten Stelle steht. Wir zeigen zunächst (2). Hierzu sei limn→∞ an = c = (c1 , . . . , cm ) vorausgesetzt. Zu jedem ε > 0 gibt es also ein N ∈ N mit ||an − c|| < ε für alle n ≥ N . Für alle diese n und alle j = 1, . . . , m folgt dann |anj − cj | ≤ ||an − c|| < ε. Für alle j = 1, . . . , m ergibt sich damit limn→∞ anj = cj . Jetzt wird umgekehrt vorausgesetzt, dass für jedes j = 1, . . . , m die Folge (anj )n einen Grenzwert limn→∞ anj = cj besitzt. Wir setzen c := (c1 , . . . , cm ). Es sei eine beliebige Zahl 67 ε > 0 gegeben. Zu jedem j = 1, . . . , m gibt es dann nach Voraussetzung ein Nj ∈ N mit |anj − cj | < mε für alle n ≥ Nj . Wir setzen N := max{N1 , . . . , Nm }. Für alle n ≥ N folgt dann m X ε ||an − c|| ≤ = ε. |anj − cj | < m · m j=1 Also ist limn→∞ an = c. Damit ist die Behauptung (2) und insbesondere auch (1) bewiesen. Indem man zn ∈ C mit (Re zn , Im zn ) ∈ R2 identifiziert, folgt auch (3). 5.4 Einige wichtige Grenzwerte Satz 5.17 (1) Für jedes k ∈ N gilt 1 lim √ = 0. k n n→∞ (2) Es gilt limn→∞ √ n n = 1. (3) Für jedes q ∈ C mit |q| < 1 gilt limn→∞ q n = 0. (4) Für jedes k ∈ N0 und jedes q ∈ C mit |q| < 1 gilt lim (nk · q n ) = 0 . n→∞ Beweis. (1) Zur Gewöhnung an das typische Vorgehen bei Konvergenzbeweisen beginnen wir sehr ausführlich: Wir haben zu zeigen, dass zu jedem vorgegebenen ε > 0 ein N existiert, √1 so dass k n − 0 < ε für alle n ≥ N gilt. 1 Dazu stellen wir folgende heimliche“ Vorüberlegung an: √ − 0 < ε bedeutet dasselbe k n ” wie n1 < εk , d.h. wie n > ε1k . Es wird also reichen, ein N ∈ N mit N > ε1k zu finden. Diese Vorüberlegung schreibt man in aller Regel nicht auf, sondern lässt das fragliche N gewissermaßen vom Himmel fallen - oftmals zur Verblüffung oder auch Verärgerung des geneigten Lesers“. Das kann dann wie folgt aussehen: ” Es sei eine Zahl ε > 0 gegeben. Dann gibt es (nach dem archimedischen Axiom, Satz 2.33) ein N ∈ N mit N > ε1k . Für alle natürlichen Zahlen n ≥ N gilt dann √ 1 √ − 0 = √1 ≤ √1 < k εk = ε. k kn k n N Damit ist (1) bewiesen. 68 (2) Zum Beweis von (2) verwenden wir die Ungleichung zwischen dem arithmetischen und geometrischen Mittel (Satz 1.9). Für n ≥ 2 schreiben wir √ 2 n = 1n−2 · n √ als Produkt von n − 2 Faktoren, die alle 1 sind, und zwei Faktoren n. Die genannte Ungleichung ergibt dann q √ √ √ √ 1 2 2 n n n = 1n−2 n n ≤ · (n − 2) · 1 + 2 · n = 1 + √ − , n n n also √ n 2 2 n≤1+ √ − . n n Der Ausdruck auf der rechten Seite hat (wegen (1) und der Rechenregeln aus Satz 5.12) den Grenzwert √ 1 für n → ∞. Damit und mit dem Sandwich-Theorem folgt die Behauptung limn→∞ n n = 1. 1< (3) Da (3) ein Spezialfall von (4) ist (mit k = 0), genügt es eigentlich, (4) nachzuweisen. Wir geben dennoch einen eigenen Beweis für (3), da dieser etwas besser verständlich ist als der für die allgemeinere Situation in (4). Für q = 0 ist (3) klar. Wir dürfen also q 6= 0 voraussetzen. Dann ist 0 < |q| < 1, also 1 = 1 + h mit einem gewissen h > 0. Hieraus und aus der Bernoullischen Ungleichung |q| (Satz 1.2) folgt 1 1 1 |q n − 0| = |q|n = ≤ < . n (1 + h) 1 + nh nh Es sei eine Zahl ε > 0 gegeben. Wegen limn→∞ für alle n ≥ N . Für alle diese n folgt |q n | < 1 n = 0 gibt es ein N ∈ N mit 1 n < hε 1 1 < · hε = ε. nh h Damit ist limn→∞ q n = 0 bewiesen. (4) Für q = 0 ist (4) klar. Auch hier dürfen wir also 0 < |q| < 1 voraussetzen, und es ist 1 dann |q| = 1+h mit einem h > 0. Wir verwenden den Binomischen Lehrsatz (Satz 1.6). Er liefert die Abschätzung n n n k+1 n (1 + h) = 1 + nh + . . . + ·h + ... + h > · hk+1 k+1 k+1 für alle natürlichen Zahlen n ≥ k + 1. Für diese n folgt |nk · q n | = nk < (1 + h)n nk n · hk+1 k+1 nk+1 · (k + 1)! n · hk+1 · n · (n − 1) · . . . · (n − k) (k + 1)! 1 · = 1 k+1 h n · 1 · 1 − n · 1 − n2 · . . . · 1 − nk 1 (k + 1)! ≤ · k+1 1 2 k n h · 1 − k+1 · 1 − k+1 · . . . · 1 − k+1 A = , n = 69 worin die letzte Gleichheit als Definition der Zahl A zu verstehen ist. Es ist A > 0. Wichtig ist die Beobachtung, dass die Zahl A nicht von n abhängt. Es sei nun ein ε > 0 gegeben. Dann existiert eine natürliche Zahl N ≥ k + 1 mit An < ε für alle n ≥ N . Für alle diese n folgt |nk q n | < ε. Es folgt limn→∞ nk q n = 0. Damit ist auch (4) bewiesen. Beispiel 5.18 Mit den Rechenregeln in Satz 5.12 und aus bekannten Grenzwerten lassen sich routinemäßig viele neue Grenzwerte berechnen. Ein Beispiel ist √ n 3 1 + n · (3n2 + 1) √ 3 + n−2 n 3 lim = lim 1+ n · n→∞ n→∞ (5n + 1)2 25 + 10n−1 + n−2 √ 3 limn→∞ (3 + n−2 ) = 1 + lim n n · n→∞ limn→∞ (25 + 10n−1 + n−2 ) 3 6 = (1 + 13 ) · = . 25 25 In diesem und in vielen ähnlichen Beispielen ist die Existenz des Grenzwerts nicht von vornherein klar. Eigentlich dürfte man das Limeszeichen zu Beginn der Rechnung gar nicht verwenden, sondern erst dann, wenn die Existenz des Grenzwerts nachgewiesen ist. Der Verstoß gegen dieses Prinzip ist jedoch zu tolerieren, sofern (!) die Existenz aus der Rechnung hervorgeht. Rechnungen wie die soeben ausgeführte sind also letztlich von hinten nach vorne zu interpretieren: Die Existenz der zuletzt auftauchenden Grenzwerte ist klar bzw. unproblematisch; diese rechtfertigt mithilfe der obigen Rechenregeln die Existenz der Grenzwerte im Schritt davor usw. 70 6 Konvergenzkriterien für Folgen Gemäß der Definition der Konvergenz in Abschnitt 5.2 muss man den Grenzwert einer Folge kennen (oder zumindest erahnen), wenn man ihre Konvergenz beweisen will. Das ist oft schwierig und manchmal sogar prinzipiell unerwünscht oder unmöglich, wenn man nämlich z.B. eine neue Zahl mit Hilfe eines Grenzwertes definieren möchte. Ein Beispiel dieser Art ist die Eulersche Zahl e. In solchen Fällen muss die Konvergenz der Folge bewiesen werden, ohne dass man ihren Grenzwert kennt. Kriterien für diesen Zweck werden in diesem Kapitel bewiesen. 6.1 Beschränkte und monotone Folgen In Proposition 5.11 hatten wir gezeigt, dass jede konvergente Folge automatisch beschränkt ist. Die Umkehrung muss keinesfalls gelten: Beschränkte Folgen brauchen nicht zu konvergieren. Ein Gegenbeispiel stellt die divergente, aber beschränkte Folge ((−1)n )n dar. Setzt man allerdings zusätzlich zur Beschränktheit noch Monotonie voraus (was freilich eine starke Einschränkung ist!), so kann man auf Konvergenz schließen. Definition 6.1 Eine Folge (an )n≥1 von reellen Zahlen heißt an ≤ an+1 monoton steigend an < an+1 streng monoton steigend , falls an ≥ an+1 monoton fallend a >a streng monoton fallend n Bemerkung 6.2 für alle n ∈ N. n+1 Ist die Folge (an )n≥1 monoton steigend, so folgt induktiv sofort am ≤ an für alle m, n ∈ N mit m < n, und analoge Aussagen gelten auch für streng monoton steigende und für (streng) monoton fallende Folgen. Satz 6.3 (Monotonieprinzip) Jede monotone beschränkte Folge (an )n≥1 von reellen Zahlen konvergiert. Setzt man W = {an | n ∈ N}, so gilt limn→∞ an = sup W für monoton steigende Folgen und limn→∞ an = inf W für monoton fallende Folgen. Beweis. Nach Voraussetzung ist W eine beschränkte Teilmenge von R. Das Vollständigkeitsaxiom ergibt also, dass a = sup W und b = inf W existieren und reelle Zahlen sind. Wir nehmen zunächst an, dass die Folge (an )n monoton steigt. Es sei eine Zahl ε > 0 gegeben. Dazu gibt es nach Proposition 2.34 ein N ∈ N mit a − ε < aN ≤ a. Wegen der Monotonie folgt hieraus a − ε < an für alle n ≥ N . Zudem ist an ≤ a für alle n ∈ N, da a obere Schranke von W ist. Insgesamt gilt also a − ε < an ≤ a für alle n ≥ N . Da dies für jedes ε > 0 gilt, folgt limn→∞ an = a. Für monoton fallende Folgen argumentiert man analog. 71 Bemerkung 6.4 In Satz 6.3 kommt es im Fall von monoton steigenden Folgen auf die Beschränktheit nach oben und im Fall von monoton fallenden Folgen auf die Beschränktheit nach unten an. Denn jede monoton steigende Folge (an )n ist automatisch nach unten beschränkt (z.B. durch a1 ), und ebenso ist jede monoton fallende Folge automatisch nach oben beschränkt. Die erste Aussage in Satz 6.3 kann man also auch wie folgt formulieren: • Jede monoton steigende, nach oben beschränkte Folge reeller Zahlen konvergiert. • Jede monoton fallende, nach unten beschränkte Folge reeller Zahlen konvergiert. Als Anwendung von Satz 6.3 stellen wir ein Verfahren zur effizienten Berechnung von Quadratwurzeln vor. Satz 6.5 (Heron-Verfahren oder babylonisches Wurzelziehen) Es sei a > 0 eine beliebige positive reelle Zahl. Mit einem Startwert x0 > 0 definieren wir eine Folge (xn )n≥0 rekursiv durch die Vorschrift 1 a xn+1 := · xn + 2 xn √ für n ≥ 0. Dann konvergiert (xn )n gegen a. Beweis. Wir zeigen zunächst, dass (xn )n konvergiert. Den Grenzwert können wir dann bestimmen, indem wir in der Rekursionsvorschrift auf beiden Seiten den Grenzübergang n → ∞ ausführen und auf diese Weise eine Gleichung für den Grenzwert erhalten. Aus x0 > 0 und der Rekursionsvorschrift ergibt sich induktiv xn > 0 für alle n. (Insbesondere ist die Folge (xn )n wohldefiniert.) Da xn+1 das arithmetische Mittel aus xn und xan darstellt, folgt aus der Ungleichung zwischen arithmetischem und geometrischem Mittel (Satz 1.9) r √ a = a xn+1 ≥ xn · für alle n ≥ 0. xn √ Also ist xn ≥ a für alle n ≥ 1. Damit folgt weiter 1 1 a xn+1 − xn = · − xn = (a − x2n ) ≤ 0 2 xn 2xn für alle n √≥ 1. Die Folge (xn )n≥1 ist also streng monoton fallend. Sie besitzt die untere Schranke a > 0. Nach Satz 6.3 existiert also der reelle Grenzwert x = limn→∞ xn . Es ist √ x ≥ a > 0. Wir bilden nun auf beiden Seiten der Rekursionsgleichung den Grenzwert. Das Schöne dabei ist, dass mit limn→∞ xn = x auch limn→∞ xn+1 = x gilt. Damit ergibt sich 1 a 1 a x = lim xn+1 = lim xn + = · x+ . n→∞ n→∞ 2 xn 2 x Eine solche Fixpunktgleichung“ für x ist oft nützlich zum Berechnen oder Erraten von ” Grenzwerten, selbst wenn deren Existenz noch gar nicht gesichert ist. Wenn wir sie nach x auflösen, erhalten wir nacheinander √ a a 2x = x + , also x= , also x2 = a, also x = a. x x 72 √ (Die Möglichkeit x = − a scheidet aus, da x > 0 ist.) Damit ist der √ Satz bewiesen. (Tatsächlich haben wir hier auch die Existenz der reellen Quadratwurzel a unabhängig von dem später folgenden Korollar 10.16 bewiesen.) Das hier beschriebene Verfahren ist unempfindlich gegenüber (nicht allzu großen) Rechenfehlern: Eine fehlerhaft berechnete Iterierte xn kann als neuer Startwert verwendet werden. Man kann zeigen, dass das Heron-Verfahren quadratisch konvergiert [Köhler, Satz 7.7]. Das bedeutet, dass sich in jedem Schritt die Zahl der korrekten Dezimalstellen ungefähr verdoppelt, sofern man mit einer hinreichend guten Näherung x0 startet. Dies hat einen erheblichen praktischen Nutzen: Tippt man auf einem Taschenrechner auf die Wurzeltaste, so liefert dieser so gut wie augenblicklich eine Näherung für die gesuchte Quadratwurzel. Eine Möglichkeit zur schnellen Berechnung besteht in der Anwendung des Heron-Verfahrens. 6.2 Häufungswerte und der Satz von Bolzano-Weierstraß Aus dem letzten Abschnitt wissen wir, dass beschränkte monotone Folgen reeller Zahlen konvergieren. Beschränktheit alleine reicht hingegen nicht aus für Konvergenz. Allerdings kann man, wie wir in diesem Abschnitt sehen werden, aus beschränkten Folgen stets konvergente Teilfolgen aussondern. Dies ist der Inhalt eines der ganz wichtigen Resultate der Analysis, des Satzes von Bolzano-Weierstraß23 . Beispiel 6.6 In Beispiel 5.4 (4) hatten wir die Folge der Zahlen an := (−1)n · (1 + n1 ) betrachtet. Sie ist divergent. Allerdings gibt es zwei Werte, nämlich 1 und −1, denen sich die Folgenglieder abwechselnd annähern, bei denen sie sich häufen“. Betrachtet man nur ” die Folgenglieder a2n mit geradem Index, so streben diese für n → ∞ gegen +1, während die Glieder a2n+1 mit ungeradem Index gegen −1 streben. Es gibt also konvergente Teilfolgen mit verschiedenen Grenzwerten. Dieses Beispiel motiviert die folgenden Begriffsbildungen. Definition 6.7 Es sei (X, d) ein metrischer Raum und (an )n≥1 eine Folge in X. Ein Punkt c ∈ X heißt ein Häufungswert24 dieser Folge, falls es zu jeder Zahl ε > 0 unendlich viele n ∈ N gibt mit d(an , c) < ε. Äquivalent hierzu ist die Bedingung, dass es zu jeder Zahl ε > 0 und zu jedem N ∈ N ein n ≥ N mit d(an , a) < ε gibt, in Quantoren: ∀ε>0 ∀N ∈N ∃n≥N d(an , c) < ε. 23 Karl Weierstraß (1815 – 1897) war sicherlich der wichtigste unter den Mathematikern, die in der zweiten Hälfte des 19. Jahrhunderts die Analysis in ihre formal endgültige, logisch unanfechtbare Form brachten. Auf ihn geht die Epsilontik“ zurück, mit deren Hilfe sich Begriffe wie Konvergenz und Stetigkeit präzise fassen ” lassen und die das wichtigste und mächtigste Werkzeug der Analysis darstellt. Weierstraß hat die Analysis, vornehmlich die komplexe Analysis, auch inhaltlich durch wesentliche neue Beiträge gefördert. Bernard Bolzano (1781 – 1848) war Mathematiker, Philosoph und Theologe und hatte eine Art Welt” anschauungsprofessur“ in Prag inne, die in der Zeit der Restauration zum Zwecke der Eindämmung des Freidenkertums eingerichtet wurde. Infolge unerwünschter Lehren wurde er 1819 entlassen, er erhielt Publikationsverbot und durfte auch nicht als Assistent für Mathematik tätig sein. Auf diese Weise sind wichtige Schriften von Bolzano erst lange nach seinem Tod bekannt geworden. Darin ist manches vorweggenommen, zum Beispiel ein korrekter Beweis des Zwischenwertsatzes, was erst Jahrzehnte später zum allgemein bekannten Bestand der Mathematik wurde. 24 In der Literatur ist statt von Häufungswerten oft auch von Häufungspunkten, Akkumulationspunkten oder Verdichtungspunkten einer Folge die Rede. Wir vermeiden den Begriff Häufungspunkt im Kontext von Folgen, da wir später Häufungspunkte von Mengen einführen werden. 73 Bemerkung 6.8 (1) Es ist nützlich, die Definitionen von Grenzwert und Häufungswert in Quantorenschreibweise gegenüberzustellen, um sich den Unterschied vor Augen zu führen: ⇐⇒ ⇐⇒ c ist Grenzwert von (an )n c ist Häufungswert von (an )n ∀ε>0 ∃N ∈N ∀n≥N d(an , c) < ε. ∀ε>0 ∀N ∈N ∃n≥N d(an , c) < ε. (2) Unter Verwendung des Begriffs der ε-Kugel (siehe Definition 4.3) lässt sich die Definition von Häufungswerten auch wie folgt schreiben: ∀ε>0 ∀N ∈N ∃n≥N an ∈ Uε (c). In jeder noch so kleinen Kugel um den Punkt c sollen also unendlich viele Glieder der Folge liegen. Ebenso lässt sich die Definition der Konvergenz (gegen c) wie folgt umschreiben: ∀ε>0 ∃N ∈N ∀n≥N an ∈ Uε (c). In jeder noch so kleinen Kugel um den Punkt c sollen also alle Folgenglieder mit endlich vielen Ausnahmen liegen. Man beachte den Unterschied zwischen unendlich viele“ und alle mit endlich vielen ” ” Ausnahmen“! Definition 6.9 Es sei (an )n≥1 eine Folge in irgendeiner Menge A. Es sei (nk )k≥1 eine streng monoton steigende Folge von natürlichen Zahlen. Dann heißt die Folge (ank )k≥1 eine Teilfolge oder auch eine Auswahlfolge der gegebenen Folge (an )n . Man notiert eine solche Teilfolge auch in der Form an1 , an2 , an3 , . . . mit n1 < n2 < n3 < . . . . Beispiel 6.10 (1) Die Beobachtungen in Beispiel 6.6 lassen sich mit den soeben eingeführten Begriffen nunmehr wie folgt formulieren: Es sei an = (−1)n · (1 + n1 ). Dann hat die Folge (an )n die Häufungswerte 1 und −1. Die Teilfolge (a2n )n≥1 hat den Grenzwert 1. Die Teilfolge (a2n+1 )n≥0 hat den Grenzwert −1. Dieser Zusammenhang zwischen Häufungswerten und konvergenten Teilfolgen ist kein Zufall, wie unser nächster Satz zeigen wird. (2) Nach Satz 2.38 ist Q abzählbar, d.h. es gibt eine bijektive Abbildung n 7→ an von N auf Q (eine Abzählung“ von Q). Diese ist nach Definition 5.1 gerade eine Folge in Q. ” Wir zeigen, dass jede Zahl c ∈ R ein Häufungswert von (an )n ist: Wesentlich hierfür ist, dass Q nach Satz 2.42 dicht in R liegt. Zu jedem ε > 0 und jedem N ∈ N gibt es daher eine rationale Zahl q ∈]c − ε; c + ε[\ {a1 , . . . , aN }. Diese tritt als ein geeignetes Folgenglied q = an mit n > N auf. Für dieses gilt also an ∈ Uε (a). Eine Folge kann demnach überabzählbar viele Häufungswerte besitzen – obwohl sie selbst nur aus abzählbar vielen Gliedern besteht. 74 Satz 6.11 Es sei (an )n≥1 eine Folge in einem metrischen Raum (X, d). Dann gelten die folgenden Aussagen. (1) Ein Punkt c ∈ X ist genau dann ein Häufungswert von (an )n , wenn es eine konvergente Teilfolge (ank )k mit dem Grenzwert c gibt. (2) Wenn die Folge (an )n konvergiert und den Grenzwert a hat, dann ist a ihr einziger Häufungswert, und jede Teilfolge konvergiert gegen a. Beweis. (1) ⇐=“: Es sei zunächst c ∈ X der Grenzwert einer konvergenten Teilfolge (ank )k von ” (an )n . Zu jedem ε > 0 existiert dann ein k0 ∈ N, so dass d(ank , c) < ε für alle k ≥ k0 ist. Daher enthält Uε (c) unendlich viele Folgenglieder an (nämlich alle ank mit k ≥ k0 ), so dass c ein Häufungswert der Folge (an )n ist. =⇒ “: Jetzt setzen wir voraus, dass c ∈ X ein Häufungswert der Folge (an )n ist. ” Eine Teilfolge (ank )k wird dann rekursiv auf folgende Weise konstruiert: Man wählt n1 ∈ N minimal mit d(an1 , c) < 1. Das ist möglich, weil in U1 (c) sogar unendlich viele Folgenglieder liegen. Für ein k ∈ N nehmen wir nun an, dass wir natürliche Zahlen n1 , . . . , nk mit n1 < . . . < nk und 1 d anj , c < j für j = 1, . . . , k bereits gefunden haben. Weil c ein Häufungswert der Folge (an )n ist, gibt es dann ein 1 . Induktiv folgt also die Existenz einer (minimales) nk+1 > nk mit d(ank+1 , c) < k+1 streng monoton steigenden Folge (nk )k≥1 natürlicher Zahlen mit d(ank , c) < 1 k für alle k. Es ist dann limk→∞ ank = c. Damit ist (1) bewiesen. (2) Nun wird limn→∞ an = a vorausgesetzt. Dann ist klar, dass a ein Häufungswert der Folge (an )n ist (z.B. wegen (1)). Es sei (ank )k eine Teilfolge. Es sei ein ε > 0 gegeben. Dann gibt es ein N ∈ N mit an ∈ Uε (a) für alle n ≥ N . Wegen nk ≥ k für alle k ist dann insbesondere ank ∈ Uε (a) für alle k ≥ N . Es gilt also ∀ε>0 ∃N ∈N ∀k≥N ank ∈ Uε (a), d.h. (ank )k konvergiert ebenfalls gegen den Grenzwert a. Es bleibt noch zu zeigen, dass (an )n keine weiteren Häufungswerte außer a hat. Hierzu sei auch c ∈ X ein Häufungswert von (an )n . Nach (1) gibt es dann eine konvergente Teilfolge (ank )k mit Grenzwert c. Nach dem soeben Gezeigten muss diese jedoch auch gegen a konvergieren. Wegen der Eindeutigkeit des Grenzwerts (Proposition 5.9) muss also c = a sein. Also ist a der einzige Häufungswert von (an )n . Damit ist auch (2) bewiesen. 75 Satz 6.12 (Satz von Bolzano-Weierstraß) Jede beschränkte Folge in R besitzt wenigstens eine konvergente Teilfolge und wenigstens einen Häufungswert. Wir geben für diesen Satz zwei Beweisvarianten. Beweis 1. Es sei (an )n≥1 eine beschränkte Folge in R. Wir definieren rekursiv eine Intervallschachtelung (Ik )k≥0 von Intervallen Ik = [ck , dk ] derart, dass jedes Ik unendlich viele Folgenglieder enthält. Dies geschieht wie folgt: Da (an )n beschränkt ist, gibt es c0 , d0 ∈ R mit c0 ≤ an ≤ d0 für alle n. Wir setzen I0 := [c0 , d0 ]. Nun nehmen wir an, dass wir bereits ein Intervall Ik = [ck , dk ] mit der gewünschten Eigenschaft haben. Es sei mk := 21 (ck + dk ) dessen Mittelpunkt. Dann enthält mindestens eines der beiden Teilintervalle [ck , mk ] und [mk , dk ] unendlich viele Folgenglieder an . Wir setzen daher ( [ck , mk ], falls [ck , mk ] unendlich viele an enthält, Ik+1 = [ck+1 , dk+1 ] := [mk , dk ] sonst. Hierdurch ist eine Intervallschachtelung definiert: Die Ik sind ineinander geschachtelt, und die fortwährende Halbierung gewährleistet, dass die Intervalllänge gegen 0 strebt. Nach dem Intervallschachtelungsprinzip (Satz 2.24) gibt es genau ein s ∈ R, das in allen Ik liegt. Es sei nun ein ε > 0 gegeben. Dann gibt es ein k mit |Ik | < ε. Nach Konstruktion liegen unendlich viele Folgenglieder an in Ik . Da auch s in Ik liegt, gilt für alle diese Folgenglieder |an − s| ≤ dk − ck = |Ik | < ε. Also enthält Uε (s) unendlich viele an . Da dies für alle ε > 0 gilt, ist s in der Tat ein Häufungswert von (an )n . Die Existenz einer (gegen s) konvergenten Teilfolge von (an )n folgt nun aus Satz 6.11. Beweis 2. Es sei (an )n≥1 eine beschränkte Folge in R. Wir zeigen zunächst, dass (an )n eine monotone Teilfolge enthält. (Ob diese steigt oder fällt, haben wir allerdings i. Allg. nicht in der Hand.) Hierzu nennen wir N ∈ N eine Gipfelstelle dieser Folge, wenn am < aN für alle m > N gilt. (Der Begriff der Gipfelstelle wird außerhalb dieses Beweises nirgends gebraucht und daher auch nicht offiziell“ definiert.) Wenn die Folge unendlich viele Gipfelstellen n1 , n2 , n3 , . . . mit ” n1 < n2 < n3 < . . . besitzt, dann ist (ank )k eine streng monoton fallende Teilfolge. Es genügt also, die Alternative dieses Falles zu diskutieren. Sie besagt, dass die Folge nur endlich viele oder überhaupt keine Gipfelstelle besitzt. Insbesondere gibt es dann ein n1 ∈ N, das größer ist als jede Gipfelstelle der Folge. Weil n1 keine Gipfelstelle ist, gibt es ein n2 > n1 mit an2 ≥ an1 . Weil auch n2 keine Gipfelstelle ist, gibt es ein n3 > n2 mit an3 ≥ an2 . Rekursiv erhält man in dieser Weise eine monoton steigende Teilfolge (ank )k≥1 . In jedem Fall enthält (an )n also eine monotone Teilfolge. Diese ist beschränkt, also nach Satz 6.3 konvergent. Ihr Grenzwert ist nach Satz 6.11 (1) ein Häufungswert der Folge. Das Resultat ist auf Folgen von Vektoren im Rp bzw. Cp übertragbar; der Beweis wirkt nur wegen des unvermeidbaren Aufwands an Notationen etwas kompliziert: 76 Satz 6.13 (Satz von Bolzano-Weierstraß) Jede beschränkte Folge in Rp oder in Cp besitzt wenigstens eine konvergente Teilfolge und wenigstens einen Häufungswert. Beweis. Da wir Cp mit R2p identifizieren können, genügt es, Folgen in Rp zu diskutieren. (1) (p) Es sei (an )n eine beschränkte Folge in Rp . Wir schreiben an = (an , . . . , an ) mit reellen (j) (j) Zahlen an . Mit (an )n sind dann auch alle Komponentenfolgen an n (j = 1, . . . , p) beschränkt. Nach dem Satz von Bolzano-Weierstraß in der Version von Satz 6.12 können wir (1) (1) aus der ersten Komponentenfolge an n eine konvergente Teilfolge an1,k k auswählen. Wir (2) betrachten nun die zugehörige Teilfolge an1,k k der zweiten Komponentenfolge. Diese ist (2) ebenfalls beschränkt, so dass wir wiederum eine konvergente Teilfolge an2,k k auswählen (1) können. Natürlich ist auch an2,k k konvergent (Satz 6.11 (2)), denn sie ist Teilfolge der kon(1) vergenten Folge an1,k k . So fortfahrend erhält man schließlich nach p-maliger Anwendung (p) von Satz 6.12 eine konvergente Teilfolge anp,k k der p-ten Komponentenfolge, so dass auch (p−1) (1) anp,k k , . . . , anp,k k konvergieren. Gemäß Satz 5.16 (1) ist dann (anp,k )k eine konvergente Teilfolge von (an )n . Bemerkung 6.14 (1) Beide Beweise des Satzes von Bolzano-Weierstraß (Satz 6.12) beruhen wesentlich auf der Vollständigkeit von R: Die erste Variante benutzt das Intervallschachtelungsprinzip, für dessen Beweis das Vollständigkeitsaxiom (V) entscheidend ist. Die zweite Variante basiert auf Satz 6.3, dessen Beweis ebenfalls die Existenz von Suprema, also die Vollständigkeit von R ausnutzte. Tatsächlich kann man das Intervallschachtelungsprinzip auch aus Satz 6.3 ableiten; die Verwandtschaft beider Resultate wird ersichtlich, wenn man ihre Beweise miteinander vergleicht. (2) Wir können jetzt die in den Sätzen 6.3 und 6.12 sowie in Proposition 5.11 bewiesenen Beziehungen zwischen den Eigenschaften Konvergenz, Beschränktheit und Monotonie von reellen (!) Folgen (an )n in nachstehendem Diagramm zusammenfassen: (an )n konvergent w w ~ w w, falls (an )n monoton (an )n beschränkt w w (an )n hat konvergente Teilfolge Die Umkehrungen dieser Implikationen sind jeweils i.Allg. nicht gültig. Zudem kann man aus keiner der übrigen Eigenschaften auf die Monotonie einer Folge schließen – dazu handelt es sich bei der Monotonie um eine viel zu spezielle Eigenschaft. Die linken beiden Implikationen bleiben allgemein für Folgen in Rp und Cp gültig (Proposition 5.11 und Satz 6.13). Hingegen lässt sich das Monotonieprinzip nicht auf diesen allgemeineren Rahmen übertragen, denn Monotonie lässt sich nur für Folgen reeller Zahlen sinnvoll definieren. 77 6.3 Cauchy-Folgen Unser Ziel in diesem Kapitel ist es, Kriterien zu finden, mit deren Hilfe sich die Konvergenz einer Folge überprüfen lässt, auch wenn man keinen Kandidaten für den Grenzwert zur Hand hat. Das Monotonieprinzip, das wir in Satz 6.3 kennengelernt hatten, erfüllt zwar diesen Zweck, ist aber leider eher selten anwendbar, da die Monotonie eine sehr einschränkende Voraussetzung ist, die nicht allzu oft erfüllt ist. Ein wesentlich universeller einsetzbares (wenn auch auf den ersten Blick weniger griffiges) Kriterium ist das Cauchy-Kriterium25 . Seine Formulierung ähnelt sehr der Definition von Konvergenz selbst. Allerdings kommt darin der Grenzwert nicht mehr vor; vielmehr werden die Abstände d(an , a) zwischen den Folgengliedern an und dem Grenzwert a durch die Abstände d(an , am ) zweier beliebiger Folgenglieder ersetzt. Definition 6.15 Es sei (X, d) ein metrischer Raum. Eine Folge (an )n≥1 in X heißt eine Cauchy-Folge, falls zu jeder Zahl ε > 0 ein Nε ∈ N existiert, so dass für alle m ≥ Nε und alle n ≥ Nε die Ungleichung d(am , an ) < ε besteht. In Quantorenschreibweise lautet die Bedingung ∀ ε>0 ∃ Nε ∈N ∀ m,n≥Nε d(am , an ) < ε . Proposition 6.16 Folge. In einem metrischen Raum ist jede konvergente Folge eine Cauchy- Beweis. Es sei (X, d) ein metrischer Raum, es sei (an )n≥1 eine konvergente Folge in X, und a = limn→∞ an sei ihr Grenzwert. Es sei eine Zahl ε > 0 gegeben. Dazu gibt es ein N mit d(an , a) < 2ε für alle n ≥ N . Für alle m, n ≥ N folgt dann mit der Dreiecksungleichung (die in metrischen Räumen ja per definitionem gültig ist) d(am , an ) ≤ d(am , a) + d(a, an ) < Also ist (an )n eine Cauchy-Folge. ε ε + = ε. 2 2 Das Ziel dieses Abschnitts besteht darin zu zeigen, dass für Folgen reeller oder komplexer Zahlen die Umkehrung von Proposition 6.16 gilt, dass in diesen Räumen Cauchy-Folgen also automatisch konvergieren. Dies ist allerdings keineswegs selbstverständlich und hängt eng mit der Vollständigkeit von R zusammen. Um die Problematik zu verdeutlichen, betrachten wir zum Vergleich den Körper Q. √ Beispiel 6.17 Es sei a := 2, und es sei (xn )n die gegen 2 konvergente Folge aus dem Heron-Verfahren (Satz 6.5) mit einem beliebigen Startwert x0 ∈ Q. Aus der Rekursionsvorschrift für die xn folgt unmittelbar, dass die gesamte Folge (xn )n in Q liegt. Da (xn )n in R konvergiert, handelt es sich dabei nach √ Proposition 6.16 um eine Cauchy-Folge rationaler Zahlen. Hingegen liegt der Grenzwert 2 nicht in Q, d.h. in Q ist (xn )n divergent! 25 Auch A. Cauchy (1789 – 1857) hat große Beiträge zur Weiterentwicklung der Analysis, insbesondere der komplexen Analysis geleistet, und er gehört zu den Pionieren, die mit der Klärung der Grundlagen der Analysis begonnen haben. Unser heutiger Grenzwertbegriff geht auf Cauchy zurück. Seine Vorstellungen über reelle Zahlen sind nicht völlig präzise zu fixieren, und sie weichen wohl von denjenigen ab, die sich seit Cantor und Dedekind durchgesetzt haben. Wir werden in Abschnitt 11.1 hierauf zurückkommen. 78 Damit haben wir eine Cauchy-Folge in Q gefunden, die keinen √ Grenzwert in Q besitzt. (Dasselbe leisten auch die Anfänge der Dezimaldarstellung von 2: Sie liefern eine CauchyFolge von rationalen Zahlen ohne rationalen Grenzwert.) Die Umkehrung von Proposition 6.16 gilt in Q also nicht: Cauchy-Folgen rationaler Zahlen haben i. Allg. keinen Grenzwert in Q. Entscheidend für die Konvergenz von Cauchy-Folgen ist die Vollständigkeit von R. Satz 6.18 (Cauchy-Kriterium) Eine Folge (an )n≥1 in Rp oder in Cp ist genau dann konvergent, wenn sie eine Cauchy-Folge ist. Beweis. Dass jede konvergente Folge eine Cauchy-Folge ist, haben wir in Proposition 6.16 gezeigt. Es sei (an )n≥1 eine Cauchy-Folge in Rp oder in Cp . Zuerst wird gezeigt, dass die Folge beschränkt ist. Weil es sich um eine Cauchy-Folge handelt, gibt es (zu ε := 1) ein N ∈ N mit ||an − am || < 1 für alle m, n ≥ N . Speziell für m = N folgt hieraus unter Verwendung der Dreiecksungleichung ||an || ≤ ||an − aN || + ||aN || ≤ ||aN || + 1 für alle n ≥ N. Setzt man also C := 1 + max{||a1 ||, ||a2 ||, . . . , ||aN ||}, dann folgt ||an || ≤ C für alle n ∈ N. Damit ist die Beschränktheit der Folge nachgewiesen. Nach Satz 6.13 besitzt (an )n daher eine konvergente Teilfolge (ank )k . Wir setzen a := lim ank k→∞ und wollen zeigen, dass sogar die ganze Folge (an )n gegen a konvergiert. Hierzu sei eine Zahl ε > 0 gegeben. Aufgrund der Definition von Cauchy-Folgen gibt es dazu ein N 0 ∈ N, so dass für alle m, n ≥ N 0 die Ungleichung ||an − am || < 2ε gilt. Außerdem gibt es nach Definition von a ein k ∈ N mit nk ≥ N 0 und ||ank − a|| < 2ε . Für alle n ≥ N 0 folgt somit ε ε + = ε. 2 2 Damit ist limn→∞ an = a bewiesen. Die Folge ist also konvergent. ||an − a|| ≤ ||an − ank || + ||ank − a|| < Wir fassen noch einmal zusammen, in welchen Schritten wir das Cauchy-Kriterium aus der Vollständigkeit von R abgeleitet haben: Vollständigkeit von R (Supremumseigenschaft) w w Intervallschachtelungsprinzip (Satz 2.24) w w Satz von Bolzano-Weierstraß (Sätze 6.12, 6.13) w w Cauchy-Kriterium (Satz 6.18) 79 Aus dem Cauchy-Kriterium und dem Archimedischen Axiom (Satz 2.33) kann man wiederum die Gültigkeit des Vollständigkeitsaxioms in R folgern, siehe [Ebbinghaus et al.]. Daher kann man die Vollständigkeit von R statt durch die Supremumseigenschaft auch durch das Intervallschachtelungsprinzip oder das Cauchy-Kriterium oder auch durch die Gültigkeit des Satzes von Bolzano-Weierstraß erklären. Der Satz von Bolzano-Weierstraß und das Cauchy-Kriterium gelten sogar in C und in Rp und Cp . Hingegen lassen sich die Supremumseigenschaft und das Intervallschachtelungsprinzip dort gar nicht formulieren, da C, Rp und Cp keine geordneten Körper sind; dieselbe Schwierigkeit ergibt sich erst recht in allgemeinen metrischen Räumen. Der enge Zusammenhang zwischen Vollständigkeit und Gültigkeit des Cauchy-Kriteriums ist der Schlüssel, um Vollständigkeit auch in solchem allgemeineren Rahmen definieren zu können: Definition 6.19 Ein metrischer Raum (X, d) heißt vollständig, falls jede Cauchy-Folge in X einen Grenzwert in X besitzt. Das Cauchy-Kriterium stellt sicher, dass R auch im Sinne dieser Definition vollständig ist. Abbildung 8: Cauchy-Folgen und Vollständigkeit (Zeichnung: Jens Jordan) 80 7 7.1 Unendliche Reihen Nur eine Notation Definition 7.1 Es sei (an )n≥0 eine Folge in R oder C. Für ganze n ≥ 0 setzen wir sn := a0 + a1 + . . . + an = n X ak . k=0 Die Folge (sn )n≥0 heißt dann eine (unendliche) Reihe, und sie wird mit dem Symbol ∞ X ak k=0 bezeichnet. Man nennt sn die n-te Partialsumme der Reihe. Die ak heißen die Glieder oder die der Reihe. Falls die Folge (sn )n konvergiert, dann heißt die unendliche PSummanden ∞ Reihe k=0 ak konvergent, man nennt den Grenzwert den Wert der Reihe, und man bezeichnet ihn mit demselben Symbol wie die Reihe selbst; man schreibt also ∞ X k=0 ak = lim n→∞ n X ak . k=0 Wenn die Folge (sn )n divergiert, dann heißt die unendliche Reihe P∞ k=0 ak divergent. Bemerkung 7.2 P∞ ak bezeichnet also sowohl Pn – die Folge ( k=0 ak )n der Partialsummen als auch P – im Fall der Konvergenz den Grenzwert limn→∞ nk=0 ak . (1) Das Symbol k=0 Auf keinen Fall darf man eine unendliche Reihe als bloße Summe von unendlich vielen Gliedern ansehen und naiv davon ausgehen, dass die üblichen Rechenregeln wie das Kommutativgesetz und das Assoziativgesetz uneingeschränkt gültig bleiben. Wir werden in Abschnitt 7.5 sehen, dass dies i. Allg. nicht der Fall ist, aber wir werden auch Kriterien kennenlernen, die sicherstellen, dass diese Regeln doch gelten. (2) Reihen sind also auch nur“ Folgen. Damit bleiben alle Resultate über Folgen aus den ” letzten Kapiteln prinzipiell auch für Reihen gültig. Wir werden im Folgenden aber etliche weitere Konvergenzkriterien kennenlernen, die speziell auf die Bedürfnisse der Reihen zugeschnitten sind. (3) Die Summation in Reihen muss nicht bei k = 0 beginnen: Für P∞beliebiges m ∈ Z kann man in analoger Weise auch unendliche Reihen der Gestalt k=m ak einführen. Dabei ist zu beachten, dass das Hinzunehmen oder Wegnehmen von endlich vielen Summanden nichts an der Konvergenz der Reihe – also der Folge ihrer Partialsummen – ändert (denn diese werden nur umP eine Konstante verschoben“), sehr wohl aber den ” Grenzwert. Konvergiert eine Reihe P∞ k=0 ak beispielsweise gegen den Grenzwert S und ist a0 = 1, so konvergiert die Reihe ∞ k=1 ak gegen den Grenzwert S − 1. 81 7.2 Die geometrische, die harmonische und die Exponentialreihe Wir stellen drei Reihen vor, die von besonderer Bedeutung für die Analysis sind: die geometrische Reihe, die harmonische Reihe und die Exponentialreihe. Satz 7.3 Für alle q ∈ C mit |q| < 1 ist die geometrische Reihe mit dem Grenzwert ∞ X 1 . qk = 1−q k=0 P∞ k=0 q k konvergent Beweis. Nach der geometrischen Summenformel (Satz 1.10) gilt für alle n ∈ N n X qk = k=0 1 q n+1 1 − q n+1 = − . 1−q 1−q 1−q Gemäß Satz 5.17 (3) gilt hierbei limn→∞ lim n→∞ q n+1 1−q n X = 0. Damit folgt qk = k=0 1 , 1−q wie behauptet. Das Schöne an der geometrischen Reihe ist, dass man eine einfache Formel für ihren Grenzwert hat. Für q = 12 beispielsweise ergibt sich ∞ k X 1 2 k=0 =1+ 1 1 1 1 + + + ··· = 2 4 8 1− = 2, 1 2 während man für q = − 21 den Wert k ∞ X 1 1 1 1 1 − = 1 − + − ± ··· = 2 2 4 8 1+ k=0 erhält. Für q = 1 4 1 2 = 2 3 liefert die geometrische Reihe ∞ k X 1 k=0 4 =1+ 1 1 1 1 + 2 + 3 + ··· = 4 4 4 1− 1 4 4 = . 3 Für die letzte Identität kann man auch folgende etwas unkonventionelle Begründung geben: Wir stellen uns ein gleichseitiges Dreieck vom Flächeninhalt 4 vor. Dessen Seitenmitten bilden ebenfalls ein gleichseitiges Dreieck, und zwar vom Flächeninhalt 1. Hierdurch wird das urspüngliche Dreieck in vier Dreiecke der Fläche 1 zerlegt. Dieses Verfahren iterieren wir: Jeweils in das mittlere Dreieck beschreiben wir ein neues gleichseitiges Dreieck von halber Seitenlänge und einem Viertel der Fläche ein, und zwar ad infinitum, wie es Abbildung 7.2 andeutet. (Dort sind nur die ersten 5 Iterationsschritte gezeichnet.) Von den in jedem Schritt verbleibenden drei äußeren“ Dreiecken (die nicht weiter zerlegt werden) färben wir ” jeweils eines in einer bestimmten Farbe ein. Es ist dann klar, dass damit insgesamt ein 82 Abbildung 9: Eine geometrische Begründung für P∞ 1 n=0 4n = 4 3 Drittel des ursprünglichen Dreiecks eingefärbt wird, also eine Fläche von 34 . Andererseits ist die Gesamtfläche der eingefärbten Dreiecke 1 + 14 + 412 + 413 + . . . . Dieser Wert muss also tatsächlich 34 betragen. Die Konvergenz der geometrischen Reihe ist auch nützlich, wenn man das Zenonsche Paradoxon von Achill und der Schildkröte auflösen will: Zenon von Elea wollte nachweisen, dass ein schneller Läufer wie der griechische Sagenheld Achill niemals eine Schildkröte einholen könne, wenn dieser ein anfänglicher Vorsprung gewährt werde. Hierzu argumentierte er sinngemäß wie folgt: Bevor Achill die Schildkröte überholen kann, muss er zuerst ihren Vorsprung einholen. In der hierfür benötigten Zeit hat die Schildkröte einen neuen, kleineren Vorsprung gewonnen, den Achill wiederum einholen muss. Ist ihm auch das gelungen, hat die Schildkröte bereits einen neuen Vorsprung gewonnen, und so weiter ad infinitum. So kann sich Achill der Schildkröte zwar immer weiter nähern, sie aber niemals einholen und somit auch nicht überholen. Dies widerspricht natürlich jeder Anschauung26 . Die Auflösung dieses Paradoxons liegt in der geometrischen Reihe: Nehmen wir der Einfachheit an, Achill laufe nur doppelt so schnell wie die Schildkröte (auch wenn hier mindestens der Faktor 100 realistischer sein dürfte), und die Schildkröte habe einen anfänglichen Vorsprung von 100 Metern. Sobald Achill diesen Vorsprung aufgeholt hat, befindet sich die Schildkröte noch 50 Meter vor ihm. Hat Achill auch diese 50 Meter zurückgelegt, so beträgt 26 Vermutlich wollte Zenon damit die These des Parmenides stützen, dass es keine Bewegung gebe: Er war so sehr von seinem Argument überzeugt, dass er glaubte, damit werde die Beobachtung, dass Achill die Schildkröte doch überholt, als Illusion entlarvt – eines von vielen Beispielen für die Tendenz in manchen Wissenschaftsdisziplinen, nach dem Motto zu verfahren: Wenn die Wirklichkeit nicht zur Theorie passt – ” um so schlimmer für die Wirklichkeit.“ 83 der Vorsprung der Schildkröte noch 25 Meter usw. Aufgrund der Formel für den Grenzwert der geometrischen Reihe (mit q = 12 ) addieren sich diese einzelnen Wegstücke zu einer Strecke von 200 Metern, also zu einer endlichen Gesamtstrecke. Nach diesen 200 Metern wird Achill die Schildkröte eingeholt haben – ganz so, wie wir es erwarten. Auch die zugehörigen Zeiten, die zum Durchlaufen dieser Strecke benötigt werden, addieren sich zu einer endlichen Gesamtzeit. Der Irrtum Zenons liegt letztlich darin begründet, dass man durch Summation von unendlich vielen positiven Zahlen sehr wohl einen endlichen Wert erhalten kann. Nun ein wichtiges Beispiel einer divergenten Reihe: Satz 7.4 Die harmonische Reihe ∞ X 1 1 1 1 = 1 + + + + ... k 2 3 4 k=1 ist divergent. P Beweis. Für die Folge der Partialsummen sn = nk=1 k1 bildet man die Differenzen s2n − sn und schätzt darin jeden der n Summanden nach unten durch den kleinsten ab. Das ergibt s2n − sn = 1 1 1 1 1 + + ... + >n· = n+1 n+2 2n 2n 2 für alle n ≥ 2. Es folgt 3 s2 = , 2 s4 = s2 + (s4 − s2 ) > 3 1 + = 2, 2 2 s8 = s4 + (s8 − s4 ) > 2 + 1 5 = 2 2 und allgemein m+2 2 für alle m ≥ 2. Die Folge der sn ist also unbeschränkt und somit divergent. s2 m > Die Folge der sn ist zwar unbeschränkt, aber sie wächst so langsam, dass die Divergenz der harmonischen Reihe durch numerische Berechnungen der sn nicht leicht zu erraten ist. Um das zu sehen, schätzt man in s2n − sn jeden Term nach oben durch den größten ab. Man erhält 1 1 1 + ... + ≤n· <1 s2n − sn = n+1 2n n+1 für alle n ≥ 1. Hieraus und aus s3 = 1 + 12 + 31 < 2 ergibt sich also s6 < 3, s12 < 4 und allgemein s3·2m < m + 2. Beispielsweise ist s196608 < 18. Wir werden später zeigen, dass die Partialsummen sn ungefähr wie log n gegen ∞ streben. Hierbei bzeichnet log n den natürlichen Logarithmus von n, d.h. den Logarithmus zur Basis e. Was die Eulersche Zahl e genau ist, erklärt der folgende Satz. Satz 7.5 Die Reihe ∞ X 1 k! k=0 84 konvergiert; ihren Grenzwert bezeichnet man mit e und nennt ihn die Eulersche Zahl27 . Beweis. Für n ∈ N sei n X 1 sn = k! k=0 die n-te Partialsumme der gegebenen Reihe. Offensichtlich ist (sn )n monoton steigend, da die Summenden k!1 positiv sind. Weiter gilt für alle n ≥ 2 n n n−1 ∞ X X X X 1 1 1 1 sn = 2 + ≤ 2+ =2+ <1+ = 1 + 2 = 3; k−1 k k k! 2 2 2 k=2 k=2 k=1 k=0 hierbei haben wir die für k ≥ 2 gültige Abschätzung k! ≥ 2k−1 und die Konvergenz der geometrischen Reihe ausgenutzt. Also ist (sn )n auch beschränkt. Aus Satz 6.3 folgt sofort die Konvergenz von (sn )n . Die Reihe ∞ X zk k! k=0 mit variablem z ∈ C heißt die Exponentialreihe. Wir haben soeben gezeigt, dass sie für z = 1 konvergiert. In Beispiel 7.23 (2) werden wir sehen, dass sie sogar für jedes z ∈ C konvergiert. Sie wird uns dann (in Abschnitt 7.7) zur Definition der Exponentialfunktion dienen, die eine der wichtigsten Funktionen der Analysis ist. Vorher benötigen wir allerdings noch einige Werkzeuge zum Nachweis der Konvergenz unendlicher Reihen. 7.3 Allgemeine Konvergenzkriterien für Reihen Da Reihen spezielle Folgen sind, gelten für sie auch die Resultate über konvergente Folgen. Wir notieren zwei dieser Resultate explizit: Summen und skalare Vielfache konvergenter Reihen sind ebenfalls konvergent, und es gilt das Cauchy-Kriterium. P P∞ Satz 7.6 Es seien ∞ k=0 ak und k=0 bk zwei konvergente Reihen mit Gliedern in R oder C, und es sei c ∈ C beliebig. Dann sind auch die Reihen ∞ X (ak + bk ) und k=0 ∞ X cak k=0 konvergent, und für ihre Grenzwerte gilt ∞ ∞ ∞ X X X (ak + bk ) = ak + bk k=0 k=0 und k=0 ∞ X k=0 27 cak = c · ∞ X ak . k=0 Der Grenzwert e und seine Bezeichnung mit dem Buchstaben e tritt vermutlich erstmals in Eulers Lehrbuch der Analysis [Euler] aus dem Jahr 1748 auf. Euler berechnet (auf S. 91) die 23 gültigen Dezimalstellen e = 2, 71828 18284 59045 23536 028 . . . . 85 P P Beweis. Es seien An := nk=0 ak und Bn := nk=0 bk die Partialsummen der beiden gegebenen Reihen. Dann ist für alle n ∈ N n n n X X X (ak + bk ) = ak + bk = An + Bn ; k=0 k=0 k=0 dieser Schritt ist möglich, da es sich hier P um endliche Summen handelt. Dies zeigt, dass (An + Bn )n die Partialsummenfolge der Reihe ∞ k=0 (ak + bk ) ist. Nach Voraussetzung konvergieren die Folgen (An )n und (Bn )n . Aus Satz 5.12 (1) folgt daher die Konvergenz von (An + Bn )n und ∞ ∞ ∞ X X X (ak + bk ) = lim (An + Bn ) = lim An + lim Bn = ak + bk . k=0 n→∞ n→∞ n→∞ k=0 k=0 P∞ Analog sieht man, dass (c · An )n die Partialsummenfolge der Reihe k=0 cak ist, und mit Satz 5.12 (2) (oder Aufgabe 7.1 (d)) folgt die Konvergenz von (c · An )n und ∞ X cak = lim cAn = c · lim An = c · n→∞ k=0 n→∞ ∞ X ak . k=0 Man beachte, dass sich für das Produkt zweier konvergenter Reihen kein so einfaches Resultat beweisen lässt. Wir kommen hierauf in Abschnitt 7.6 zurück. P Satz 7.7 (Cauchy-Kriterium für Reihen) Es sei ∞ k=0 ak eine unendliche Reihe in R oder C. Diese Reihe ist genau dann konvergent, wenn es zu jeder Zahl ε > 0 ein Nε ∈ N gibt, so dass für alle m, n ∈ N mit n ≥ m ≥ Nε die Ungleichung n X ak = |am + am+1 + . . . + an | < ε k=m gilt. Beweis. Für die Partialsummen sn = Pn k=0 ak gilt am + am+1 + . . . + an = sn − sm−1 . Die Bedingung im Satz besagt demnach, dass (sn )n eine Cauchy-Folge ist. Nach dem CauchyKriterium (Satz 6.18) gilt daher die Behauptung. Als unmittelbare Folgerung aus dem Cauchy-Kriterium ergibt sich ein notwendiges Konvergenzkriterium für Reihen. P Satz 7.8 (Notwendiges Konvergenzkriterium) Es sei ∞ k=0 ak eine konvergente unendliche Reihe in R oder in C. Dann bilden die Reihenglieder eine Nullfolge, d.h. es gilt lim ak = 0. k→∞ Beweis. Es sei ein ε > 0 gegeben. Nach Satz 7.7 gibt es dazu ein N ∈ N mit |am + am+1 + . . . + an | < ε für alle m, n mit n ≥ m ≥ N. Speziell für n = m folgt |an | < ε für alle n ≥ N . Damit ist limk→∞ ak = 0 gezeigt. 86 Bemerkung 7.9 (1) Die Bedingung limk→∞ ak = 0 ist notwendig, aber nicht hinreichend für die KonPzwar ∞ vergenz der unendlichen Reihe k=0 ak . Dies zeigt das Beispiel der harmonischen Reihe: Für sie ist das notwendige Konvergenzkriterium in Satz 7.8 erfüllt, denn es ist limk→∞ k1 = 0. Jedoch ist sie nach Satz 7.4 divergent. (2) Aus dem Konvergenzkriterium in Satz 7.8 folgt, dass die geometrische P∞notwendigen k Reihe k=0 q für |q| ≥ 1 divergiert, denn dann ist |q|k ≥ 1 für alle k ≥ 1, so dass (q k )k keine Nullfolge bildet. Eine weitere Konsequenz des Cauchy-Kriteriums ist, dass die Reihenreste“ konvergenter ” Reihen beliebig klein werden: Korollar 7.10 Ist P∞ k=0 ak eine konvergente Reihe in C und setzt man rn := ∞ X ak , k=n so gilt limn→∞ rn = 0. Beweis. Zunächst ist zu beachten, dass mit so dass die rn wohldefiniert sind. P∞ k=0 ak auch die Reihe P∞ k=n ak konvergiert, Es sei ein ε > 0 gegeben. Nach dem Cauchy-Kriterium gibt es ein N ∈ N mit n X ak < ε für alle n ≥ m ≥ N. k=m Hierin kann man bei festem m den Grenzübergang n → ∞ durchführen und erhält mit Satz 5.14 (3) n n X X |rm − 0| = lim ak = lim ak ≤ ε für alle m ≥ N. n→∞ n→∞ k=m k=m Dies zeigt limm→∞ rm = 0. Für eine reelle Reihe mit nichtnegativen Gliedern gilt das folgende Konvergenzkriterium. P Satz 7.11 Eine Reihe ∞ k=0 ak mit ak ≥ 0 für alle k ∈ N0 ist genau dann konvergent, wenn die Folge ihrer Partialsummen beschränkt ist. Beweis. Wegen ak ≥ 0 für alle k ist die Folge der Partialsummen s n = a0 + a1 + · · · + an monoton wachsend. Falls sie zusätzlich beschränkt ist,P so ist sie nach dem Monotonieprinzip in Satz 6.3 konvergent. Dies bedeutet, dass die Reihe ∞ k=0 ak konvergiert. Falls umgekehrt die Reihe konvergiert, so ist die Folge ihrer Partialsummen nach Proposition 5.11 beschränkt. (Dieser letzte Schluss gilt für beliebige Reihen, auch ohne die Voraussetzung ak ≥ 0.) 87 Bemerkung 7.12 Aufgrund dieses Kriteriums drückt man die Konvergenz einer reellen P Reihe ∞ a mit nichtnegativen Gliedern oft kurz und intuitiv durch k=0 k ∞ X ak < ∞ k=0 aus. Warnung: Für beliebige Reihen in R (oder gar in dem nicht angeordneten Körper C) ist dies keine angemessene bzw. sinnvolle Weise, Konvergenz zum Ausdruck zu bringen. Hierzu zwei Beispiele: P • Der Aussage ∞ k=0 −1 < ∞ wird man sicherlich sofort zustimmen. Das bedeutet aber nicht, dass diese Reihe konvergiert. Vielmehr ist sie divergent; ihre Partialsummen streben gegen −∞. (Später, in Definition 9.20, werden wir für diese Art der Divergenz die Bezeichnung bestimmte Divergenz“ einführen.) ” P∞ • Die Reihe k=0 (−1)k divergiert, da ihre Glieder keine Nullfolge bilden. Ihre Partialsummenfolge ist aber trotzdem beschränkt, denn sie ist (1, 0, 1, 0, 1, . . . ). Für Reihen mit nichtnegativen Gliedern gibt Satz 7.11 zwar eine sehr allgemeine Charakterisierung von Konvergenz, diese ist aber eher selten anwendbar. Für die Praxis bedeutsamere Konvergenzkriterien für solche Reihen lernen wir in Abschnitt 7.4 kennen. Wesentlich komplizierter ist die Situation bei Reihen, deren Glieder kein einheitliches Vorzeichen haben. Ein nützliches Kriterium, das sog. Leibniz-Kriterium28 , beschäftigt sich mit der Situation, dass die Reihenglieder abwechselnd positives und negatives Vorzeichen haben, mit sog. alternierenden Reihen. Satz 7.13 (Leibniz-Kriterium) Es sei (ck )k eine monoton fallende Nullfolge reeller Zahlen. (Insbesondere gelte also c ≥ 0 für alle k.) Dann P konvergiert die alternierende Reihe k P∞ n k k k=0 (−1) ck ihre Partialsummen, k=0 (−1) ck . Bezeichnet s ihren Grenzwert und sn = dann bilden die Intervalle In := [s2n+1 , s2n ] T∞ eine Intervallschachtelung mit n=1 In = {s}. Beweis. Wir betrachten die Partialsummen s2n und s2n+1 . Weil (ck )k ≥ 0 eine monoton fallende Folge nichtnegativer reeller Zahlen ist, gilt für alle n s2n+3 = s2n+1 + (c2n+2 − c2n+3 ) ≥ s2n+1 , s2n+2 = s2n + (c2n+2 − c2n+1 ) ≤ s2n 28 Gottfried Wilhelm Leibniz (1646 – 1716) war Diplomat, Philosoph und Mathematiker. Er und Isaac Newton (1642 – 1727) sind die Begründer der Differential- und Integralrechnung. Die Leibnizschen Bezeichnungen haben sich wegen ihrer Zweckmäßigkeit bis heute in der Analysis erhalten. Die Vorstellungen von Leibniz und Newton über unendlich kleine (infinitesimale) Zahlen waren logisch anfechtbar und wurden durch die Methoden von Weierstraß formal aus der Analysis verbannt. Aber sie sind in den Naturwissenschaften von unverändert großem heuristischen Wert, und sie haben eine späte Erneuerung in der Nichtstandard-Analysis von Abraham Robinson (1918 – 1974) gefunden. 88 sowie s2n+3 = s2n+2 − c2n+3 ≤ s2n+2 , insgesamt also s2n+1 ≤ s2n+3 ≤ s2n+2 ≤ s2n . Für die Intervalle In = [s2n+1 , s2n ] gilt daher In+1 ⊆ In für alle n. Weil (ck )k und daher auch (s2n − s2n+1 )n eine Nullfolge ist, bilden die In somit eine Intervallschachtelung. Nach dem Intervallschachtelungsprinzip (Satz 2.24) legt diese genau eine reelle Zahl s fest, und nach Satz 5.15 gilt s = lim s2n+1 = lim s2n . n→∞ n→∞ Dies bedeutet aber, dass auch (sn )n selbst konvergiert29 , und zwar gegen s. Dies zeigt die Behauptung. Im Leibniz-Kriterium kann auf die Monotonie der Folge (ck )k nicht verzichtet werden; ein Beispiel hierzu werden wir in Aufgabe 10.3 (a) kennenlernen. Beispiel 7.14 (1) Die Reihe ∞ X 1 1 1 1 (−1)n−1 · = 1 − + − + − . . . n 2 3 4 n=1 heißt die alternierende harmonische Reihe. Sie ist nach Satz 7.13 konvergent. Wie wir in Kapitel 20 zeigen werden, gilt für den Grenzwert ∞ X 1 (−1)n−1 · = log 2. n n=1 (2) Die Reihe ∞ X (−1)n · n=0 1 1 1 1 = 1 − + − + −... 2n + 1 3 5 7 heißt die Leibnizsche Reihe. Sie ist ebenfalls nach Satz 7.13 konvergent. Wie wir in Satz 20.15 sehen werden, ist ∞ X (−1)n n=0 1 π = . 2n + 1 4 Alternierende Reihen haben den Vorzug, dass je zwei aufeinander folgende Partialsummen eine obere und eine untere Schranke für den Grenzwert liefern. Andererseits konvergieren sie oft so langsam, dass sie zur numerischen Berechnung des Grenzwerts völlig ungeeignet sind. Will man etwa mit der Leibnizschen Reihe nur 5 Nachkommastellen von π ausrechnen, so muss man 500.000 Brüche aufaddieren und die dabei auftretenden Rundungsfehler unter Kontrolle halten. 29 Warnung: Aus der Konvergenz der beiden Teilfolgen (s2n )n und (s2n+1 )n folgt i.Allg. nicht die Konvergenz der Folge (sn )n . Wir können hier nur deshalb so schließen, weil beide Teilfolgen den gleichen Grenzwert haben. 89 7.4 Kriterien für absolute Konvergenz Nach der Dreiecksungleichung ist der Betrag einer Summe höchstens so groß wie die Summe der Beträge. Es ist daher zu erwarten, dass sich die Konvergenz einer Reihe tendenziell verschlechtert, wenn man die Reihenglieder durch deren Beträge ersetzt. Reihen, die auch nach diesem relativ rabiaten“ Eingriff noch konvergieren, nennt man absolut konvergent: ” P∞ Definition 7.15 Eine unendliche P∞Reihe k=0 ak in R oder in C heißt absolut konvergent, falls die unendliche Reihe k=0 |ak | konvergiert. Natürlich erwarten wir, dass absolut konvergente Reihen auch im herkömmlichen Sinne konvergieren. Dass sich diese Hoffnung bewahrheitet, verdanken wir der Dreiecksungleichung: P Satz 7.16 Jede absolut konvergente Reihe ∞ k=0 ak ist konvergent. Für die Werte der Reihen gilt die Ungleichung ∞ ∞ X X ak ≤ |ak |. k=0 k=0 Beweis. Für beliebige m, n mit n ≥ m ≥ 0 gilt nach der Dreiecksungleichung n n X X |ak |. ak ≤ (7.1) k=m k=m P∞ P Wir setzen die absolute Konvergenz der Reihe ∞ k=0 |ak | k=0 ak , d.h. die Konvergenz von voraus. Es sei eine Zahl ε > 0 gegeben. Nach dem Cauchy-Kriterium in Satz 7.7 gibt es dann ein N mit n X |ak | < ε für alle n, m ∈ N mit n ≥ m ≥ N. k=m Mit der Abschätzung (7.1) ergibt sich n X ak < ε für alle n, m ∈ N mit n ≥ m ≥ N. k=m Wiederum aus Satz 7.7 folgt somit die Konvergenz der Reihe P∞ k=0 ak . Ferner besagt (7.1) für m = 0 insbesondere n n X X ak ≤ |ak | k=0 k=0 für alle n ∈ N. Durch den Grenzübergang n → ∞ folgt hieraus die behauptete Ungleichung für die Grenzwerte. (Hierbei stützen wir uns auf Satz 5.14 (3).) 90 Aus der Konvergenz einer Reihe kann man umgekehrt nicht auf deren absolute Konvergenz schließen. So ist etwa die alternierende harmonische Reihe nach dem Leibniz-Kriterium konvergent (Beispiel 7.14 (1)); jedoch ist sie nicht absolut konvergent, da die harmonische Reihe divergiert. Dies motiviert die folgende Begriffsbildung: Definition 7.17 Eine unendliche Reihe in R oder C heißt bedingt konvergent, falls sie konvergiert, aber nicht absolut konvergiert. Die alternierende harmonische Reihe ist also ein Beispiel für eine bedingt konvergente Reihe. Zum Nachweis der absoluten Konvergenz ist es oftmals hilfreich, eine Reihe mit einer anderen, deren Konvergenzverhalten bereits bekannt ist, zu vergleichen. Dazu dienen das sog. Majoranten- und Minorantenkriterium. P∞ Satz 7.18 (Majorantenkriterium und Minorantenkriterium) Es sei k=0 ak eine P∞ unendliche Reihe in R oder C, und es sei k=0 ck eine unendliche Reihe mit reellen Gliedern ck ≥ 0. Dann gelten die folgenden Aussagen. P (1) Wenn die Reihe ∞ k=0 ck konvergiert und P wenn es ein k0 ∈ N0 gibt, so dass |ak | ≤ ck für alle k ≥ k0 gilt, dann ist die Reihe ∞ k=0 ak absolut konvergent. P und wenn es ein k0 ∈ N0 gibt, so dass |ak | ≥ ck für (2) Wenn die Reihe ∞ k=0 ck divergiert P alle k ≥ k0 gilt, dann ist die Reihe ∞ k=0 |ak | divergent. P Die Reihe ∞ k=0 ck heißt unter den Voraussetzungen in Teil (1) des Satzes eine konvergente Majorante und unter den Voraussetzungen in Teil (2) eine divergente Minorante der P |a Reihe ∞ k |. k=0 Beweis. P∞ ist auch k=k0 ck konvergent. Daher ist die Partialsummenfolge c beschränkt. Hieraus und aus 0 ≤ |ak | ≤ ck für alle k ≥ k0 ergibt sich, k=k0 k n Pn dass auch die Partialsummenfolge |a | beschränkt ist. Aus Satz 7.11 folgt k k=k 0 n∞ P P die Konvergenz von ∞ |a | und damit von k k=k0 k=0 |ak |. (1) Mit Pn P∞ c k=0 k (2) P ergibt sich aus (1), wobei allerdings ak und cP k ihre Rollen tauschen: Wäre die Reihe ∞ ∞ k=0 |ak | konvergent, so wäre nach (1) auch k=0 ck konvergent, im Widerspruch zur Voraussetzung. Beispiel 7.19 In Teil (2) von Satz 7.18 kann man nicht auf die Divergenz der Reihe P∞ k=0 ak schließen, sondern nur auf die Divergenz der Reihe der Absolutbeträge. Auch dies wird durch die harmonische und die alternierende harmonische Reihe illustriert: Setzt man P∞ 1 n 1 an := (−1) · n und cn := n , so gilt |an | ≤ cn für alle n, und n=1 cn divergiert. Jedoch ist P ∞ n=1 an konvergent. 91 Zwei nützliche Konvergenzkriterien erhält man als Spezialfälle aus Satz 7.18, wenn man die geometrische Reihe zum Vergleich heranzieht: das Wurzel- und das Quotientenkriterium. P Satz 7.20 (Wurzelkriterium) Es sei ∞ k=0 ak eine unendliche Reihe in R oder C. Es existiere eine Zahl q mit 0 < q < 1 und eine natürliche Zahl k0 mit p k |ak | ≤ q für alle k ≥ k0 . Dann ist die Reihe P∞ k=0 ak absolut konvergent. Beweis. Wegen der Konvergenz der geometrischen Reihe k ≥ k0 ist Satz 7.18 (1) anwendbar. P∞ k=0 q k und wegen |ak | ≤ q k für P Satz 7.21 (Quotientenkriterium) Es sei ∞ k=0 ak eine unendliche Reihe in R oder C. Wenn eine Zahl q mit 0 < q < 1 und ein k0 ∈ N0 existieren, so dass ak 6= 0 dann ist die Reihe P∞ k=0 |ak+1 | ≤q |ak | und für alle k ≥ k0 , ak absolut konvergent. Beweis. Aus der Voraussetzung folgt durch Induktion |ak0 +n | ≤ q n · |ak0 | für alle natürlichen Zahlen n. Wegen der Konvergenz der geometrischen Reihe ist wieder Satz 7.18 (1) anwendbar. Bemerkung 7.22 Man kann auch Versionen des Wurzel- bzw. Quotientenkriteriums für Divergenz formulieren; diese besagen freilich nicht mehr als das notwendige Konvergenzkriterium für Reihen und sind daher eigentlich unnötig. Sie lauten wie folgt: P Es sei ∞ k=0 ak eine unendliche Reihe in R oder C. Es sei eine der beiden folgenden Bedingungen erfüllt. (1) Es gibt ein k0 ∈ N0 , so dass ak 6= 0 und |ak+1 | ≥1 |ak | für alle k ≥ k0 . (2) Es gibt ein k0 ∈ N0 mit p k Dann ist die Reihe P∞ k=0 |ak | ≥ 1 für alle k ≥ k0 . ak divergent. Begründung: In beiden Fällen ist (ak )k keine Nullfolge. Die Divergenz der Reihe folgt daher aus Satz 7.8. 92 Beispiel 7.23 (1) Die Reihe P∞ n n=0 2n ist absolut konvergent nach dem Wurzelkriterium: Es gilt nämlich r √ n n n n , = n 2 2 √ √ und wegen limn→∞ n n = 1 gibt es ein n0 mit n n < 32 für alle n ≥ n0 . (Tatsächlich gilt dies sogar für n0 = 1, was hier aber unwesentlich ist.) Es ist dann r n 3 n für alle n ≥ n0 , ≤ 2n 4 so dass wir das Wurzelkriterium mit q := 3 4 anwenden können. (2) Die Exponentialreihe ∞ X zn n=0 n! ist für jedes z ∈ C absolut konvergent. Dies begründen wir mithilfe des Quotientenkriteriums: Für z = 0 ist die Reihe konvergent mit dem Wert 1. (Hier wird die Konvention wirksam, wonach z 0 = 1 für alle z ∈ C und somit auch für z = 0 ist.) Weiterhin darf also z 6= 0 vorausgesetzt werden. Dann sind alle Reihenglieder 6= 0, und der Betrag des Quotienten zweier aufeinander folgender Glieder ist n+1 z z n |z| (n + 1)! : n! = n + 1 . |z| Zu gegebenem z gibt es ein N ∈ N mit N ≥ 2|z|. Für alle n ≥ N gilt dann n+1 < 12 . Die Anwendung des Quotientenkriteriums (Satz 7.21) mit q = 21 liefert somit die absolute Konvergenz der Exponentialreihe an der Stelle z. (3) Es sei ( an := Dann ist ( p n |an | = 1 , 2n 1 , 5n falls n gerade, falls n ungerade. ) 1 , 2 1 , 5 falls n gerade 2n 5n+1 5n 2n+1 < 1, falls n gerade, > 1, falls n ungerade. 1 ≤ . 2 falls n ungerade P Nach dem Wurzelkriterium ist daher die Reihe ∞ n=0 absolut konvergent. Hingegen ist |an+1 | = |an | ( Das Quotientenkriterium erlaubt daher keine Aussage über die Konvergenz oder Divergenz dieser Reihe. Wir werden später sehen, dass ganz allgemein das Wurzelkriterium universeller ist als das Quotientenkriterium: Wenn die Konvergenz einer Reihe mit dem Quotientenkriterium nachweisbar ist, so prinzipiell auch mit dem Wurzelkriterium - jedenfalls in der Theorie. Der praktische Vorteil des Quotientenkriteriums liegt einzig und allein darin, dass es manchmal einfacher zu handhaben ist. 93 p (4) Warnung: Im Wurzelkriterium ist es wesentlich, dass alle n |an | gleichmäßig von 1 p n |an | gibt. Ein entfernt bleiben, es also eine feste obere Schranke q < 1 für alle p n häufiger Anfängerfehler besteht darin, P lediglich |an | < 1 für alle n nachzuweisen. Dies ist für die Konvergenz der Reihe ∞ a viel zu schwach; es bedeutet nämlich n=0 n nicht mehr als |an | < 1 und sichert noch nicht einmal, dass (an )n eine Nullfolge ist. p p Für an := n1 beispielsweise gilt n |an | < 1 für alle n. Jedoch ist limn→∞ n |an | = p 1, und daher lässt sich kein q < 1 mit n |an | < q für alle n finden. Dies steht in Übereinstimmung damit, dass die harmonische Reihe divergiert, das Wurzelkriterium also gar nicht anwendbar sein kann. ≤ q für Ebenso ist es im Quotientenkriterium wesentlich, ein q < 1 zu finden mit an+1 an alle n; die Bedingung bn+1 < 1 für alle n genügt nicht für Konvergenz, wie wiederum bn das Beispiel der harmonischen Reihe zeigt. (5) Die Grenzen des Wurzel- und des Quotientenkriterium werden deutlich, wenn man sich an deren Beweise erinnert: Beide Kriterien sind nur auf Reihen anwendbar, die mindestens so gut wie eine geometrische Reihe konvergieren. Beispielsweise versagen beide Kriterien bei der Reihe ∞ X 1 . n2 n=1 Denn ebenso wie bei der harmonischen Reihe (siehe (4)) gilt auch hier für die Reihenglieder an := n12 p an+1 lim =1 und lim n |an | = 1. n→∞ an n→∞ Tatsächlich ist diese Reihe konvergent (wenngleich wesentlich langsamer als die geometrischen Reihen). Zum Beweis verwendet man die Abschätzung 0< 1 1 1 1 < = − 2 (n + 1) n(n + 1) n n+1 für n ≥ 1. Es folgt für alle N ≥ 1 N +1 X n=1 N X 1 1 = 1+ 2 n (n + 1)2 n=1 N X 1 1 1 < 1+ − =1+1− < 2. n n + 1 N + 1 n=1 Die Folge der Partialsummen nach oben beschränkt. Aus Satz 7.11 folgt P∞ist demnach 1 daher die Konvergenz von n=1 n2 , wie behauptet. Angesichts letzten Beispiels stellt sich nun die Frage, für welche reellen Zahlen s die P∞ des 1 Reihe n=1 ns konvergiert30 . Hierbei ist nur der Fall s > 0 von Interesse, denn für s ≤ 0 30 Was die Potenz ns für nicht-ganzzahliges s genau bedeutet, werden wir strenggenommen erst in Abschnitt 12.3 erklären. Einstweilen gehen wir mit solchen Potenzen naiv um und benutzen die aus der Schule dafür bekannten Rechenregeln. 94 bildet n1s n keine Nullfolge, so dass die fragliche Reihe nicht konvergieren kann. Aus dem Majorantenkriterium (Satz 7.18) folgt sofort: ∞ X 1 ns n=1 konvergiert für alle reellen Zahlen s ≥ 2; denn für alle n ∈ N und alle reellen s ≥ 2 gilt 0 < n1s ≤ n12 . Dieses Ergebnis ist für kein s ≥ 2 direkt aus dem Quotienten- oder Wurzelkriterium herleitbar. P 1 Nicht konvergent ist die Reihe ∞ n=1 ns für s = 1 (denn dann handelt es sich ja gerade um die harmonische Reihe), und aufgrund des Minorantenkriteriums erst recht nicht für s < 1. Es bleibt noch der Fall 1 < s < 2 zu betrachten. Hier kommen wir mit dem Majorantenkriterium nicht weiter. Als hilfreich erweist sich stattdessen das nun folgende Konvergenzkriterium für Reihen mit nichtnegativen Gliedern (das daher im Kern ein Kriterium für absolute Konvergenz ist). Satz 7.24 (Verdichtungskriterium) Zahlen. Dann gilt: ∞ X Es sei (ak )k eine monoton fallende Folge positiver ∞ X ⇐⇒ ak ist konvergent 2n · a2n ist konvergent. n=0 k=1 Dass die Monotonievoraussetzung hierbei unverzichtbar ist, werden wir in Aufgabe 10.2 sehen. Beweis. Der Beweis ähnelt der Argumentation im Beweis von Satz 7.4. Die Idee ist, in den Partialsummen der gegebenen Reihe jeweils 2k Summanden zusammenzufassen: N 2 X ak = a1 + a2 + (a3 + a4 ) + (a5 + · · · + a8 ) + (a9 + · · · + a16 ) + · · · + (a2N −1 +1 + · · · + a2N ) k=1 . . . und diese dann jeweils durch den größten (d.h. ersten) oder kleinsten (letzten) Summanden abzuschätzen. Präziser als in Pünktchenschreibweise lässt sich dies mit dem Summenzeichen ausdrücken. Wir erhalten für alle N ∈ N folgende Abschätzungen: N 2 X ak = a1 + k=1 = a1 + n N X 2 X n=1 k=2n−1 +1 N X (M) ak ≥ a1 + n n−1 2 −2 · a2n n=1 n N X 2 X n=1 k=2n−1 +1 a2 n N 1 X n = a1 + · 2 · a2n 2 n=1 und N 2 X ak = a1 + n N X 2 X (M) ak ≤ a1 + n=1 k=2n−1 +1 k=1 = a1 + N X n−1 2 ·a 2n−1 n=1 N X n=1 k=2n−1 +1 = a1 + N −1 X n=0 95 n 2 X 2n · a2n , a2n−1 wobei wir in (M) jeweils P N dieMonotonie von (ak )k verwendet haben. Diese beiden PAbschätzun 2 N n n gen zeigen, dass a genau dann nach oben beschränkt ist, wenn 2 a 2 k=1 k n=0 N N nach oben beschränkt ist. Hieraus und aus Satz 7.11 ergeben sich nun die folgenden Äquivalenzen: ! ∞ M X X 7.11 ak konvergiert ⇐⇒ ak ist nach oben beschränkt k=1 k=1 (∗) ⇐⇒ 2N X M ak k=1 ⇐⇒ 7.11 ⇐⇒ N X ist nach oben beschränkt N ! 2n a2n n=0 ∞ X n ist nach oben beschränkt N 2 a2n konvergiert; n=0 hierbei ist für die Implikation ⇐=“ in (∗) die Monotonie von ” alle k) wesentlich. Dies zeigt die Behauptung. P M k=1 ak M (d.h. ak ≥ 0 für Beispiel 7.25 Wir greifen die an Beispiel 7.23 (5) anschließende Frage auf, für welche P 1 reellen s > 0 die Reihe ∞ n=1 ns konvergiert. Hierzu wenden wir das Verdichtungskriterium 1 1 auf an := ns an; dies ist möglich, da die Folge ns n monoton fällt. Es gilt k 1 1 k k 2 a2k = 2 · k s = (2 ) 2s−1 für alle k. Für s > 1 ist q := 1 2s−1 < 1. Daher ist die verdichtete Reihe“ ” ∞ ∞ X X 1 qk 2k · k s = (2 ) k=0 k=0 als geometrische Reihe konvergent (und zwar gegen P 1 Reihe ∞ n=1 ns nach dem Verdichtungskriterium. 1 ). 1−q Also konvergiert für s > 1 die Auch für die Divergenz der harmonischen Reihe erhalten wir auf diese einen neuen P∞ Weise k Beweis: Für s = 1 ist nämlich 2k a2k = 1 für alle k, so dass die Reihe 2 · a 2k divergiert P∞ 1 k=0 P∞ - und damit nach dem Verdichtungskriterium auch n=1 an = n=1 n . Damit können wir zusammenfassen: Die Reihe ( ∞ X konvergiert für alle reellen s > 1, 1 n=1 ns divergiert für alle reellen s ≤ 1. Bei s = 1 liegt also die Grenze zwischen Konvergenz und Divergenz. Eine andere (verwandte) Methode, diese Ergebnisse zu beweisen, werden wir in der Integralrechnung in Form des Integralvergleichskriteriums (Satz 21.4) kennenlernen. Ausblick: Erstaunlicherweise kann man für geradzahliges s die Werte dieser Reihe explizit angeben. Beispielsweise gilt nach einem berühmten Resultat von Euler ∞ X 1 π2 = . 2 n 6 n=1 96 7.5 Umordnung von Reihen Eine (endliche) Summe von Zahlen bleibt ungeändert, wenn man die Reihenfolge der Summanden ändert. Gilt diese Aussage auch für unendliche Reihen? Beispiel 7.26 Wir betrachten die alternierende harmonische Reihe 1 − 12 + 13 − 14 + − . . .. Hierin stellen wir die Summationsreihenfolge um, indem wir abwechselnd zwei positive und ein negatives Glied berücksichtigen. Es entsteht die Reihe 1+ 1 1 1 1 1 − + + − + + − ... . 3 2 5 7 4 (7.2) Bezeichnet s den Grenzwert der alternierenden harmonischen Reihe, so gilt nach den Abschätzungen im Leibniz-Kriterium s<1− 1 1 1 1 47 + − + = . 2 3 4 5 60 Für die Partialsummen un der umgeordneten Reihe (7.2) gilt u3n = n X k=1 1 1 1 + − 4k − 3 4k − 1 2k . Wegen 1 1 1 + − >0 4k − 3 4k − 1 2k folgt u3 < u6 < u9 < . . . , wobei u3 = 1 + 31 − u3n ≥ u3 = 1 2 = für alle k ≥ 1 5 6 ist. Es ist also für alle n ∈ N 47 5 > > s. 6 60 Daher kann die umgeordnete Reihe – wenn sie denn überhaupt konvergiert – jedenfalls nicht gegen den gleichen Grenzwert wie die alternierende harmonische Reihe streben. Wie wir in Satz 7.28 zeigen werden, ist ein solches Phänomen bei absolut konvergenten Reihen ausgeschlossen. Zunächst müssen wir erklären, was genau wir unter einer Reihenumordnung verstehen. P Definition 7.27 Es sei ∞ n=0 an eine unendliche Reihe in R oder C. Ist σ eine beliebige Permutation von N0 , also σ ∈ Sym(N0 ) (vgl. Beispiel 2.3 (2)), dann heißt die Reihe ∞ X aσ(n) = aσ(0) + aσ(1) + aσ(2) + . . . n=0 eine Umordnung der Reihe P∞ n=0 an . Jedes Glied an der Ausgangsreihe tritt also genau einmal als Glied in der umgeordneten Reihe auf, aber möglicherweise erst an einer sehr späten Stelle. Als Beispiel betrachte man etwa die Permutation σ, die die gerade Zahl 2n auf 10n abbildet und zwischen den Zehnerpotenzen alle ungeraden Zahlen der Größe nach auflistet. 97 P Satz 7.28 (Reihenumordnung) Es sei ∞ k=0 ak eine absolut konvergente Reihe in R oder C, und es sei s ihr Wert. Dann ist auch jede Umordnung dieser Reihe absolut konvergent mit dem Wert s. Beweis. Es seien eine Permutation σ von N0 und eine Zahl ε > 0 gegeben. Wir setzen bk := aσ(k) . P Wegen der absoluten Konvergenz der Reihe ∞ k=0 ak existiert nach Korollar 7.10 ein N1 ∈ N mit ∞ X |ak | < ε. k=N1 Weil σ surjektiv ist, gibt es ein N2 ≥ N1 mit {0, 1, 2, . . . , N1 } ⊆ {σ(0), σ(1), σ(2), . . . , σ(N2 )}. Es sei n ≥ N1 und t ≥ N2 . In jeder der beiden Partialsummen n X ak t X und bj j=0 k=0 kommen dann alle Reihenglieder a0 , a1 , . . . , aN1 vor. Für die Differenz der beiden Partialsummen folgt also ∞ t n X X X |ak | < ε . ak ≤ bj − j=0 k=N1 +1 k=0 Das gilt bei festem t ≥ N2 für jedes n ≥ N1 . Deshalb folgt auch t X bj − s ≤ ε j=0 für jedes t ≥ N2 . Damit ist die Konvergenz der Reihe über die bj und auch die Behauptung ∞ X bj = s j=0 über den Grenzwert bewiesen. Die Überlegung bleibt mit |ak | und |bk | anstelle von ak und bk gültig, und somit ist die umgeordnete Reihe auch absolut konvergent. Wie wir am Beispiel der alternierenden harmonischen Reihe plausibel gemacht haben, wird das Konvergenzverhalten bedingt konvergenter Reihen durch Umordnen gestört. Durch geeignetes Umordnen kann man sogar eine Reihe mit einer beliebig vorgegebenen Zahl als Grenzwert herstellen: P Satz 7.29 (Umordnungssatz von Riemann31 ) Es sei ∞ n=0 an eine bedingt konvergente Reihe von reellen Zahlen an . Zu jeder Zahl c ∈ R gibt es dann eine Umordnung der Reihe, die gegen den Wert c konvergiert. Außerdem gibt es Umordnungen, die divergieren. 31 Das Werk von Bernhard Riemann (1826 – 1866) ist nicht allzu umfangreich, aber äußerst gehaltvoll. Es enthält bahnbrechende Beiträge zur Analysis, Geometrie und Zahlentheorie. Berühmt sind seine Habilitationsvorlesung Ueber die Hypothesen, welche der Geometrie zu Grunde liegen, und sein Aufsatz Ueber die Anzahl der Primzahlen unter einer gegebenen Grösse mit der noch immer nicht bewiesenen (oder widerlegten) Riemannschen Vermutung, die als das wohl größte ungelöste Problem der gesamten Mathematik gilt. Wir werden vor allem in der Integrationstheorie wieder auf Riemann treffen. 98 Beweisidee. Vollständige Beweise finden sich u.a. in [Blatter], Band 1, S. 98 oder [Heuser 1], S.198. Der Beweis ist recht technisch. Daher und weil wir das Resultat später nicht benötigen werden, beschränken wir uns auf eine kurze Skizze der Beweisidee: Zunächst zeigt man, dass die Teilreihe aus allen Gliedern an > 0 und auch die Teilreihe aus allen Gliedern an < 0 divergiert; in etwas suggestiver Schreibweise X X an = ∞, an >0 Begründung: Wäre P an >0 an = −∞. an <0 an konvergent, so auch X an = an <0 ∞ X X an − n=0 an an >0 als Differenz zweier konvergenter Reihen. Dann wäre aber auch ∞ X n=0 |an | = X an >0 an − X an an <0 konvergent, im Widerspruch nicht abPzu der Voraussetzung, dass die ursprüngliche ReiheP solut konvergiert. Also ist an >0 an divergent. Analog folgt die Divergenz von an <0 an . Sowohl die positiven als auch die negativen Glieder stellen also gewissermaßen ein unerschöpfliches Reservoir dar. Nun sei ein c ∈ R gegeben. Dann addiert man so viele Anfangsglieder an > 0 auf, bis c erstmals übertroffen wird. Hierauf addiert man so viele Anfangsglieder an < 0, bis der Wert c erstmals wieder unterschritten wird. Beides ist möglich wegen der Divergenz der Teilreihen der positiven und der negativen Glieder. Anschließend addiert man wieder so viele positive an vom Anfang des verbliebenen positiven Reservoirs“ auf, bis c überschritten ” wird. So fortfahrend erhält man eine Umordnung der ursprünglichen Reihe; dass man sich jeweils aus dem Anfang des positiven bzw. negativen Reservoirs bedient, stellt sicher, dass tatsächlich alle Folgenglieder verwendet werden, keines für immer vergessen“ wird. Und ” da wir jedesmal nur so viele Summanden wählen, dass c gerade über- oder unterschritten wird, ist der Abstand der Partialsummen zu c höchstens so groß wie der Betrag des zuletzt beim Umschalten“ zwischen positiven und negativen an verwendeten Folgengliedes; dieser ” Abstand bildet also eine Nullfolge. Dies bedeutet definitionsgemäß, dass der Reihenwert bei dieser Umordnung gerade c ist. Mit einer leichten Modifikation dieser Überlegung kann man zeigen, dass es auch Umordnungen gibt, deren Partialsummen gegen +∞ oder −∞ streben (also divergieren). Der Umordnungssatz von Riemann zeigt eindrucksvoll, dass für unendliche Reihen i.Allg. kein Kommutativgesetz gilt – ein Grund mehr, diese nicht einfach als unendliche Summen“ ” anzusehen! 99 7.6 Produkte von Reihen Das Produkt zweier (endlicher) Summen Zahlen an und bn kann als Doppelsumme PN n=0 N X N X an und PN n=0 bn von reellen oder komplexen aj b k (7.3) j=0 k=0 geschrieben werden. Hierbei kommt es aufgrund der Kommutativität der Addition nicht auf die Reihenfolge der Summanden an. Wenn wir die (N + 1)2 =: m Produkte aj bk also in irgendeiner Reihenfolge c1 , . . . , cm sortieren, so ist N X an · n=0 N X bn = n=0 m X c` . (7.4) `=0 Nun seien zwei konvergente unendliche Reihen A := ∞ X an und B := n=0 ∞ X bn n=0 von reellen oder komplexen Zahlen an und bn gegeben. Unser Ziel ist es, deren Produkt wieder als (konvergente) Reihe darzustellen. P Natürlich werden wir die beiden Reihen als Grenzwerte der Partialsummen N n=0 an und PN n=0 bn für N → ∞ ansehen wollen. Es scheint daher naheliegend, auch in (7.3) den Grenzübergang N → ∞ zu betrachten. Dabei stellt sich aber das Problem, dass es sich bei (7.3) um eine Doppelsumme handelt, in der die Summationsobergrenze N an zwei Stellen auftaucht und die daher keine Partialsumme einer unendlichen Reihe ist. Dieser Ansatz führt also zu nichts. Stattdessen müssen wir aus der Doppelsumme (7.3) erst eine gewöhnliche Summe machen, wie auf der rechten Seite von (7.4), und können dann den Grenzübergang N → ∞ (bzw. m → ∞) ausführen. Dabei stellt sich aber die Frage, in welcher Reihenfolge die Terme aj bk in der Liste c1 , . . . , cm sortiert sein sollen. Dass es bei unendlichen Reihen durchaus auf die Reihenfolge der Glieder ankommt, haben wir ja im letzten Abschnitt leidvoll“ erfahren. Und ” damit sind wir wieder mitten in den Verstrickungen, die das Unendliche mit sich bringt... Beim Multiplizieren der beiden Reihen A und B müssen wir also zunächst alle Produkte a0 b 0 a0 b 1 a0 b 2 a1 b 0 a1 b 1 a1 b 2 a2 b 0 a2 b 1 a2 b 2 .. .. .. . . . ... ... ... .. . bilden, diese in einer geeigneten Reihenfolge zu einer Folge c0 , c1 , c2 , . . . ordnen und uns anschließend um zwei Fragen kümmern, die im Fall endlicher Summen gar nicht auftreten: • Konvergiert die Reihe P∞ n=0 cn ? 100 • Wenn ja, stimmt ihr Wert mit dem Produkt AB der Werte der beiden gegebenen Reihen überein? Durchaus vorstellbar ist, dass nur für gewisse Anordnungen der Produkte aj bk zu einer Folge (c Pn∞)n Konvergenz vorliegt und dass von diesen Anordnungen nur für einige die Beziehung n=0 cn = AB gilt. Angesichts von Satz 7.28 ist es nicht sonderlich überraschend, dass es wiederum die absolute Konvergenz ist, die eine positive Antwort auf beide Fragen P∞sicherstellt: Falls beide Reihen A und B absolut konvergieren, so ist die Produktreihe“ n=0 cn konvergent gegen AB, und ” zwar unabhängig von der gewählten Reihenfolge der aj bk . P P∞ Satz 7.30 Es seien ∞ n=0 an und n=0 bn absolut konvergente Reihen von reellen oder komplexen Zahlen an und bn , und es seien A und B ihre Grenzwerte. Es sei (cn )P n≥0 eine ∞ beliebige Abzählung der Produkte aj bk (j, k = 0, 1, 2, . . . ). Dann ist die Reihe n=0 cn absolut konvergent, und es gilt ∞ X cn = A · B. n=0 Beweis. Es sei ein N ∈ N gegeben. Dann gibt es ein p ∈ N, so dass c0 , . . . , cN allesamt in der Liste der Produkte aj bk mit j, k ≤ p vorkommen. Damit folgt N X n=0 |cn | ≤ p p X X j=0 j=0 |aj bk | = p X j=0 |aj | · p X k=0 |bk | ≤ ∞ X |aj | · j=0 ∞ X |bk | =: M. k=0 Hierbei sind die beiden Reihen rechts konvergent aufgrund der Voraussetzung über die absolute Konvergenz; M ist also Zahl, und sie ist unabhängig von N . Dies zeigt, dass Peine reelle N beschränkt ist. Gemäß Satz 7.11 ist also die Reihe die Partialsummenfolge n=0 |cn | N P∞ n=0 cn absolut konvergent. Wegen Satz 7.28 liefern daher alle Umordnungen dieser Reihe den gleichen Grenzwert. Dieser sei mit C bezeichnet. Um die noch ausstehende Grenzwertbeziehung C = A · B zu zeigen, genügt es daher, wenn wir dies für eine spezielle Anordnung der cn tun. Hierzu betrachten wir folgende quadratische Anordung: a0 b 0 a0 b 1 a0 b 2 a0 b 3 . . . ↑ a1 b 0 → a1 b 1 ↑ a1 b 2 ↑ a2 b 0 → a2 b 1 → a2 b 2 ↑ a1 b 3 . . . ↑ a2 b 3 . . . ↑ a3 b 0 → a3 b 1 → a3 b 2 → a3 b 3 . . . .. .. .. .. .. . . . . . 101 Es sei also c0 := a0 b0 , c1 := a1 b0 , c2 := a1 b1 , c3 := a0 b1 , c4 := a2 b0 usw. Diese Anordnung ist so gewählt, dass die ersten n2 Folgenglieder c` gerade die n2 Produkte aj bk mit j, k ≤ n − 1 abdecken. Daher ist für alle n n X n X c0 + c1 + · · · + c(n+1)2 −1 = aj b k = n X j=0 k=0 aj · j=0 n X bk −→ AB (n → ∞). k=0 Andererseits gilt aufgrund des bereits Bewiesenen (und der Definition von C) c0 + c1 + · · · + c(n+1)2 −1 −→ C (n → ∞). Die Eindeutigkeit des Grenzwerts ergibt C = AB. Damit ist der Satz bewiesen. Die wohl wichtigste Anordnung der Produkte aj bk geht auf Cauchy zurück. Die Idee dabei ist, diese Terme nach der Indexsumme j + k =: n zu sortieren (und die mit gleicher Indexsumme zusammenzufassen). Wenn man sich die aj bk wie oben zweidimensional angeordnet vorstellt, läuft dies darauf hinaus, nacheinander die Diagonalen dieser Anordnung zu durchlaufen: a0 b 0 a0 b 1 % a1 b 0 a0 b 2 % a1 b1 % a2 b 0 a1 b 2 a2 b 1 a3 b 0 % % % a0 b 3 a0 b 4 . . . % a1 b 3 ... % a2 b 2 ... % a3 b 1 ... % a4 b0 .. . ... P∞ P Definition 7.31 Es seien ∞ n=0 bn unendliche Reihen aus reellen oder komn=0 an und plexen Zahlen a und b . Das Cauchy-Produkt dieser Reihen ist die unendliche Reihe n n P∞ n=0 cn mit cn := X k+j=n ak b j = n X ak bn−k = a0 bn + a1 bn−1 + . . . + an−1 b1 + an b0 . k=0 Als Spezialfall von Satz 7.30 ergibt sich nun: P P∞ Korollar 7.32 (Cauchy-Produkte) Es seien ∞ n=0 an und n=0 bn absolut konvergente Reihen von reellen oder komplexen Zahlen an und bn , und es seien A und B ihre Grenzwerte. Dann ist das Cauchy-Produkt der beiden Reihen absolut konvergent mit dem Grenzwert AB. Für bedingt konvergente Reihen bleiben Satz 7.30 und Korollar 7.32 i. Allg. nicht gültig. 102 7.7 Die Exponentialfunktion Ein gutes Beispiel zur Anwendung des Cauchy-Produktes bietet die Exponentialfunktion, die wir jetzt offiziell definieren wollen. Definition 7.33 Nach Beispiel 7.23 (3) ist die Exponentialreihe absolut konvergent. Durch ∞ X zn exp(z) := n! n=0 P∞ zn n=0 n! in jedem z ∈ C wird daher eine Funktion exp : C −→ C definiert. Diese heißt die Exponentialfunktion. Satz 7.34 (Exponentialfunktion) schaften. Die Exponentialfunktion hat die folgenden Eigen- (1) Es gilt exp(0) = 1, exp(1) = e und exp(x) ∈ R für alle x ∈ R. (2) (Additionstheorem der Exponentialfunktion) Für alle z, w ∈ C gilt exp(z + w) = exp(z) · exp(w). (3) Für alle z ∈ C ist exp(z) 6= 0 und 1/ exp(z) = exp(−z). Für alle x ∈ R ist exp(x) > 0. (4) Für alle m ∈ Z gilt exp(m) = em . (Hierbei ist em wie in Bemerkung 2.6 (2) definiert. Insbesondere ist em = e| · .{z . . · e} für m ∈ N). m−mal Beweis. (1) Die Aussagen exp(0) = 1 und exp(x) ∈ R für alle x ∈ R sind klar. Aus der Definition der Exponentialfunktion und der Eulerschen Zahl (Satz 7.5) folgt sofort exp(1) = e. (2) Für alle z, w ∈ C folgt aus dem Satz über Cauchy-Produkte (Korollar 7.32) und aus dem Binomischen Lehrsatz ∞ ∞ X z n X wn exp(z) · exp(w) = · n! n! n=0 n=0 ∞ n X X z k wn−k = k!(n − k)! n=0 k=0 ∞ X 1 = n! n=0 = ∞ X n=0 n X k=0 ! n! · z k wn−k k!(n − k)! 1 (z + w)n = exp(z + w) . n! 103 ! (3) Aus dem soeben bewiesenen Additionstheorem ergibt sich exp(z) exp(−z) = exp(z − z) = exp(0) = 1 für alle z ∈ C. Hieraus folgt exp(z) 6= 0 und 1/ exp(z) = exp(−z) für alle z ∈ C. Für reelle x > 0 hat die Exponentialreihe nur positive Glieder und das Anfangsglied 1. Deshalb gilt exp(x) > 1 für alle reellen x > 0. Wegen exp(0) = 1 und exp(−x) = 1/ exp(x) folgt exp(x) > 0 für alle reellen x. Damit ist (3) bewiesen. (4) Aus exp(0) = 1, exp(1) = e und dem Additionstheorem in (2) folgt durch Induktion exp(m) = em für alle m ∈ N0 . Mit (3) ergibt sich für m ∈ N weiter exp(−m) = 1/ exp(m) = 1/em = e−m . Damit ist (4) bewiesen. Satz 7.34 (4) rechtfertigt die bekannte Schreibweise exp(z) = ez zumindest für den Fall reeller, ganzzahliger z. Dass diese Formel für alle z ∈ C gilt, werden wir erst in Kapitel 12 begründen; dazu müssen wir insbesondere erklären, was ez für nicht-ganzzahliges z überhaupt bedeutet. Wir zeigen nun noch die Irrationalität der Eulerschen Zahl. Korollar 7.35 Die Zahl e ist irrational. Beweis. Wir nehmen an, dass e ∈ Q ist. Dann gibt es a, b ∈ N mit e = ab . Für jedes N ≥ b ist dann ! N N X N! X N! 1 =a· − ∈Z αN := N ! · e − k! b k! k=0 k=0 eine ganze Zahl (da b und k! für k ≤ N Teiler von N ! sind). Andererseits gilt ∞ X 1 N! 1 1 αN = N ! · = · 1+ + + ... , k! (N + 1)! N + 2 (N + 2)(N + 3) k=N +1 und mit einer Abschätzung durch die geometrische Reihe folgt für N ≥ b 1 1 1 1 1 1 1 0 < αN < · 1+ + + ... = · = ≤ , 1 2 N +1 N + 1 (N + 1) N + 1 1 − N +1 N 2 womit wir eine natürliche Zahl gefunden hätten, die echt zwischen 0 und 1 liegt. Dies ist absurd. Also ist e irrational. Die Folge der Partialsummen der e definierenden Reihe liefert also ein weiteres Beispiel einer Cauchyfolge rationaler Zahlen, die nicht in Q konvergiert. 104 7.8 Partielle Summation und das Abelsche Konvergenzkriterium∗ Wir wollen noch ein Kriterium beweisen, das sich zur Anwendung auf bedingt konvergente Reihen eignet und allgemeiner als das Leibnizsche Kriterium in Satz 7.13 ist. Zum Beweis benötigen wir einen Trick, der auch in anderem Kontext gelegentlich nützlich ist: Lemma 7.36 (Partielle Summation) Es seien (ck )k≥0 und (sk )k≥0 Folgen von komplexen Zahlen. Für alle ganzen Zahlen m und n mit m > n ≥ 0 gilt dann m X ck (sk − sk−1 ) = (cm+1 sm − cn+1 sn ) − k=n+1 m X (ck+1 − ck )sk . k=n+1 Beweis. Wir zerlegen die Summe m X Am,n := ck (sk − sk−1 ) k=n+1 in zwei Summen gemäß Am,n = m X m X ck s k − ck sk−1 . k=n+1 k=n+1 Eine Indexverschiebung in der zweiten Summe ergibt Am,n = m X ck s k − k=n+1 = m X m−1 X ck+1 sk k=n (ck − ck+1 )sk + cm+1 sm − cn+1 sn . k=n+1 Der Witz bei der partiellen Summation ist, dass der Übergang von den Differenzen sk − sk−1 zu den Differenzen ck+1 − ck manchmal vorteilhaft ist. Im Beweis des folgenden Satzes werden wir ein Beispiel hierzu sehen. Ein Analogon zur partiellen Summation ist die partielle Integration, die wir in den Kapiteln 16 und 18 kennenlernen werden. Satz 7.37 (Abelsches Konvergenzkriterium) Es sei (zn )n≥0 eine Folge von (reellen oder) komplexen Zahlen, und es sei (cn )n≥0Peine monoton fallende Nullfolge von positiven Zahlen. Die Folge der Partialsummen sn = nk=0 zk sei beschränkt. Dann ist die Reihe ∞ X cn zn n=0 konvergent. 105 Beweis. Nach Voraussetzung gibt es eine Zahl M > 0 mit |sn | ≤ M für alle n ∈ N0 . Für m > n ≥ 0 erhält man durch partielle Summation (Lemma 7.36) m X k=n+1 ck zk = m X ck (sk − sk−1 ) k=n+1 = cm+1 sm − cn+1 sn − m X (ck+1 − ck )sk . k=n+1 Weil die Folge der cn > 0 monoton fällt, folgt hieraus mit der Dreiecksungleichung m m X X ck zk ≤ cm+1 |sm | + cn+1 |sn | + (ck − ck+1 )|sk | k=n+1 k=n+1 ! m X ≤ M · cm+1 + cn+1 + (ck − ck+1 ) k=n+1 = M · (cm+1 + cn+1 + cn+1 − cm+1 ) = 2M cn+1 . Da (cn )n eine Nullfolge ist, ergibt sich die Behauptung aus dem Cauchy-Kriterium für Reihen (Satz 7.7). Beispiel 7.38 P (1) Es sei zn = (−1)n . Die Partialsummen sn = nk=0 zk sind dann abwechselnd 1 und 0, bleiben also beschränkt. Somit ist das Abelsche Kriterium anwendbar. Es liefert die Konvergenz von ∞ X (−1)n cn n=0 für jede monoton fallende Nullfolge von Zahlen cn > 0. Dies ist gerade die Aussage des Leibniz-Kriteriums (Satz 7.13). (2) Nun ein Beispiel, in dem das Leibniz-Kriterium nicht anwendbar ist, das Abelsche Kriterium hingegen schon. Es sei z eine komplexe Zahl mit dem Betrag |z| = 1, aber es sei z 6= 1. Es sei also z irgendein von 1 verschiedener Punkt auf der Einheitskreislinie. Wir setzen zn = z n . Für die Partialsummen sn = n X zk = 1 + z + z2 + . . . + zn k=0 ergibt die geometrische Summenformel 1 − z n+1 ; sn = 1−z hieraus erhalten wir die Abschätzung |sn | ≤ 1 2 · (1 + |z n+1 |) = . |1 − z| |1 − z| 106 Demnach Folge der sn beschränkt. Aus Satz 7.37 folgt somit die Konvergenz P ist die n von ∞ c z für jede monoton fallende Nullfolge von Zahlen cn > 0. Für cn = n1 n=0 n erhalten wir: Die Reihe ∞ X 1 n ·z n n=1 konvergiert für jedes z ∈ C mit |z| = 1, z 6= 1 . Ausblick: Sobald in Kapitel 12 die trigonometrischen Funktionen sin und cos verfügbar sind, kann man hierin z = eix = cos x + i sin x mit 0 < x < 2π einsetzen. Wegen z n = einx = cos(nx) + i sin(nx) liefert das die Konvergenz der Reihen ∞ X cos(nx) n n=1 und für 0 < x < 2π. ∞ X sin(nx) n n=1 Abbildung 10: Die harmonische Reihe: Sie konvergiert zwar nicht, klingt aber schön. (Zeichnung: Jens Jordan) 107 8 Ein wenig Topologie In Kapitel 4 hatten wir die topologischen Grundbegriffe Offenheit und Abgeschlossenheit in allgemeinen metrischen Räumen eingeführt. Die Theorie der Konvergenz von Folgen ermöglicht nun einige weiterführende topologische Betrachtungen. Trost und Ermutigung: Die topologischen Schlussweisen, mit denen wir im Folgenden zu tun haben, sind relativ abstrakt und dadurch anfangs sicherlich gewöhnungsbedürftig. Es ist empfehlenswert, sich die Überlegungen zunächst in R, R2 oder R3 zu veranschaulichen (wobei man sich manches in R2 oder R3 vielleicht sogar besser vorstellen kann als in R). Aufgrund ihrer Abstraktheit führen wir topologische Begriffe nur behutsam und schrittweise ein. Mit dem relativ komplizierten Begriff der Überdeckungskompaktheit beispielsweise warten wir bis zur Analysis II. 8.1 Häufungspunkte von Mengen und Abgeschlossenheit Aus Kapitel 4 kennen wir den Begriff der ε-Umgebung (als Synonym für ε-Kugel). Etwas allgemeiner können wir Umgebungen eines Punktes wie folgt erklären. Definition 8.1 Es sei X ein metrischer Raum und a ∈ X. Eine Teilmenge U von X heißt eine Umgebung von a, falls es eine offene Kugel um a gibt, die ganz in U enthalten ist, falls also ein ε > 0 existiert mit Uε (a) ⊆ U . Wenn U eine Umgebung von a ist, dann nennen wir U \ {a} eine punktierte Umgebung von a. Insbesondere ist U̇ε (a) := Uε (a) \ {a} die punktierte ε-Umgebung von a. Die Umgebungen eines Punktes müssen keine offenen Mengen sein. In jeder Umgebung U von a ist jedoch eine offene Umgebung von a enthalten, nämlich eine ε-Umgebung Uε (a). In Abschnitt 6.2 hatten wir Häufungswerte von Folgen kennengelernt. Eng verwandt damit – aber begrifflich dennoch davon zu unterscheiden – ist der Begriff des Häufungspunktes einer Menge. Definition 8.2 Es sei D eine Teilmenge eines metrischen Raumes X, und es sei a ∈ X. Man nennt a einen Häufungspunkt der Menge D, falls eine (und folglich jede) der vier folgenden äquivalenten Bedingungen erfüllt ist. (a) Zu jeder Zahl ε > 0 gibt es einen Punkt x ∈ D mit x 6= a und x ∈ Uε (a). (b) In jeder punktierten Umgebung von a gibt es einen Punkt von D. (c) In jeder Umgebung von a gibt es unendlich viele Punkte von D. (d) Es gibt eine Folge (xn )n in D \ {a}, die gegen a konvergiert. Beweis der Äquivalenz von (a), (b), (c), (d). Es genügt, folgende Implikationen zu zeigen: (a) =⇒ (b) =⇒ (c) =⇒ (a) ⇐⇒ (d). Hierbei sind die Implikationen (a) =⇒ (b) und (c) =⇒ (a) klar. Die Implikation (d) =⇒ (a) folgt sofort aus der Definition von Konvergenz. 108 Zum Nachweis von (b) =⇒ (c) setzen wir voraus, dass (c) nicht gültig ist. Dann gibt es eine Umgebung U von a, in der nur endlich viele Punkte von D liegen. Im Falle U ∩ D ⊆ {a} ist (b) nicht gültig. Anderenfalls haben die Abstände zwischen a und den endlich vielen Punkten x 6= a in U ∩ D ein positives Minimum δ. Es folgt U̇δ (a) ∩ D = ∅, und somit ist (b) nicht gültig. Schließlich bleibt noch (a) =⇒ (d) zu zeigen. Unter der Voraussetzung in (a) kann man zu jedem n ∈ N ein xn ∈ D ∩ U̇1/n (a) finden. Hierdurch erhält man eine Folge (xn )n in D \ {a}. Bezeichnet d die Metrik auf X, so gilt d(xn , a) < n1 für alle n. Hieraus folgt, dass (xn )n gegen a konvergiert. Also gilt (d). Beispiel 8.3 (1) Ein Häufungspunkt einer Menge D kann selber zu D gehören, muss es aber nicht. Beispielsweise haben die Intervalle [a, b] und ]a, b[ beide den Häufungspunkt a, dieser gehört aber nur zu dem ersten der beiden Intervalle. (2) Man muss Häufungspunkte von Mengen von Häufungswerten einer Folge unterscheiden: Ist (an )n eine Folge in X, dann ist jeder Häufungspunkt der Menge {an | n ∈ N} auch ein Häufungswert der Folge (an )n ; aber die Umkehrung gilt nicht, wie folgendes Beispiel zeigt: Die reelle Zahlenfolge (an )n sei durch an := (−1)n definiert. Diese Folge hat die beiden Häufungswerte 1 und −1. Aber die Menge A = {an | n ∈ N} besteht nur aus den beiden (isolierten) Punkten 1 und −1 und besitzt somit keinen Häufungspunkt. (3) Es sei 1 D := m + m ∈ Z, n ∈ N . n Die Menge der Häufungspunkte von D in R ist dann gleich der Menge Z aller ganzen Zahlen. (4) Nach Satz 2.42 ist Q dicht in R. Jede reelle Zahl ist also ein Häufungspunkt der Menge Q der rationalen Zahlen. Im Kontrast zu den Häufungspunkten einer Menge stehen die isolierten Punkte. Definition 8.4 Es sei X ein metrischer Raum und D ⊆ X. Ein Punkt a ∈ D heißt ein isolierter Punkt von D, falls er kein Häufungspunkt von D ist, falls es also ein δ > 0 gibt mit D ∩ Uδ (a) = {a}, d.h. D ∩ U̇δ (a) = ∅. Eine Teilmenge N ⊆ X heißt isoliert in X oder diskret in X, falls N keine Häufungspunkte in X hat, falls es also zu jedem x ∈ X ein δ > 0 gibt, so dass U̇δ (x) ∩ N = ∅ ist. 109 Beispiel 8.5 (1) Jeder Punkt von Z ist ein isolierter Punkt von Z (als Teilmenge von R). Die Menge Z liegt isoliert in R. (2) Es sei D := 1 n∈N . n Jeder Punkt n1 ist ein isolierter Punkt von D, d.h. D besteht nur aus isolierten Punkten. Jedoch ist 0 ein Häufungspunkt von D, d.h. die Menge D ist nicht isoliert in R. Der Begriff des Häufungspunktes gestattet eine neue, wichtige Charakterisierung von Abgeschlossenheit. Wir erinnern daran, dass abgeschlossene Mengen definitionsgemäß die Komplemente offener Mengen sind. Eine Teilmenge V eines metrischen Raumes heißt nach unserer Definition in Abschnitt 4 offen, falls es zu jedem Punkt a ∈ V ein ε > 0 gibt mit Uε (a) ⊆ V . Satz 8.6 (Abgeschlossenheit) Für Teilmengen A eines metrischen Raumes X sind die drei folgenden Aussagen äquivalent. (a) Die Menge A ist abgeschlossen, d.h. das Komplement X \ A ist offen. (b) Die Menge A enthält alle ihre Häufungspunkte. (c) Für jede Folge (an )n in A gilt: Falls (an )n in X konvergiert, so ist limn→∞ an ∈ A. Beweis. (a) =⇒ (c)“: Wir setzen voraus, dass U = X \ A offen ist. Es sei eine konvergente ” Folge (an )n von Punkten an ∈ A gegeben. Wir nehmen an, ihr Grenzwert a = limn→∞ an läge in U . Weil U offen ist, gibt es dann ein ε > 0 mit Uε (a) ∩ A = ∅. Zu diesem ε gibt es ein N ∈ N mit an ∈ Uε (a) für alle n ≥ N . Es folgt an 6∈ A für n ≥ N , und wir haben einen Widerspruch. Daher ist a ∈ A. Damit ist die Implikation (a) =⇒ (c) bewiesen. (c) =⇒ (b)“: Nun wird (c) vorausgesetzt. Es sei a ∈ X ein Häufungspunkt von A. Nach ” Definition 8.2 (d) gibt es eine Folge (an )n von Punkten an ∈ A mit limn→∞ an = a, und wegen (c) folgt a ∈ A. Also gilt (b). (b) =⇒ (a)“: Wir nehmen an, dass (a) nicht gilt. Dann gibt es einen Punkt c ∈ X \A =: V , ” so dass keine Kugel Uε (c) vollständig in V enthalten ist. Für jedes ε > 0 gilt also A∩Uε (c) 6= ∅, und wegen c 6∈ A ist sogar A ∩ U̇ε (c) 6= ∅. Demnach ist c ein Häufungspunkt von A, der nicht in A liegt. Also ist (b) nicht gültig. Wir können den Satz von Bolzano-Weierstraß nun auch in einer Version für Mengen (statt Folgen) ausdrücken. Satz 8.7 (Satz von Bolzano-Weierstraß) Rm hat einen Häufungspunkt. 110 Jede unendliche beschränkte Teilmenge des Beweis. Es sei M eine unendliche beschränkte Teilmenge des Rm . Da sie unendlich ist, gibt es eine Folge (an )n in M , so dass alle an paarweise verschieden sind. Diese Folge ist nach Voraussetzung beschränkt, besitzt also nach dem Satz von Bolzano-Weierstraß in der Version von Satz 6.13 einen Häufungswert a; dieser ist der Grenzwert einer konvergenten Teilfolge (ank )k . Da alle an paarweise verschieden sind und a daher höchstens einmal als Glied der Folge (ank )k auftreten kann, gibt es ein k0 ∈ N mit ank 6= a für alle k ≥ k0 . Somit ist (ank )k≥k0 eine Folge in M \ {a}, die gegen a konvergiert. Nach Definition 8.2 (d) ist a somit ein Häufungspunkt von M . 8.2 Kompakte Mengen Der Begriff der Kompaktheit ist von fundamentaler Bedeutung für die Analysis. Bisher haben wir ihn nur für Intervalle definiert: Kompakte Intervalle sind genau die Intervalle der Form [a, b], also die abgeschlossenen und beschränkten Intervalle. Ganz allgemein kann man eine Menge in Rm oder Cm kompakt nennen, wenn sie abgeschlossen und beschränkt ist. Manche Lehrbücher gehen in der Tat so vor. Dies führt allerdings zu gewissen Problemen, wenn man den Kompaktheitsbegriff später auf beliebige metrische Räume übertragen will, denn dort erweist sich die Eigenschaft abgeschlossen und beschränkt“ nicht mehr als adäquate De” finition für Kompaktheit. (Mit dieser Definition würden wichtige Resultate über kompakte Mengen, auf die man nicht verzichten möchte, nicht mehr gelten.) Der folgende Satz liefert daher für Mengen in Rm oder Cm zunächst eine äquivalente Charakterisierung der Eigenschaft abgeschlossen und beschränkt“, die sich für die Übertragung auf beliebige metrische ” Räume als geeigneter erweist. Satz 8.8 Für Teilmengen K von X = Rm oder X = Cm sind die beiden folgenden Aussagen äquivalent. (a) Die Menge K ist abgeschlossen und beschränkt. (b) Jede Folge in K besitzt einen Häufungswert in K, d.h. eine konvergente Teilfolge, die gegen ein Element aus K konvergiert. Beweis. (a) =⇒ (b)“: Es sei K abgeschlossen und beschränkt. Es sei eine Folge (an )n in ” K gegeben. Weil K beschränkt ist, besitzt die Folge nach dem Satz von Bolzano-Weierstraß (Satz 6.13) einen Häufungswert a ∈ X, d. h. eine gegen a konvergente Teilfolge (Satz 6.11 (1)). Weil K abgeschlossen ist, folgt a ∈ K wegen Satz 8.6 (c). Somit ist (b) gültig. (b) =⇒ (a)“: Jetzt setzen wir voraus, dass (a) nicht gilt. Dann ist K nicht beschränkt oder ” nicht abgeschlossen. Wenn K nicht beschränkt ist, dann gibt es zu jedem n ∈ N einen Punkt an ∈ K mit ||an || > n. Die Folge (an )n in K hat keine beschränkte Teilfolge und damit keinen Häufungswert (in X), denn dieser wäre nach Proposition 5.11 der Grenzwert einer konvergenten (und insbesondere beschränkten) Teilfolge. Nun sei K nicht abgeschlossen. Nach Satz 8.6 besitzt K dann einen Häufungspunkt a ∈ X mit a 6∈ K. Hierzu gibt es nach Definition 8.2 (d) eine gegen a konvergente Folge (an )n von Punkten an ∈ K mit an 6= a für alle n. Diese Folge hat keinen Häufungswert in K. Also ist (b) nicht gültig. 111 Im Schluss von (a) nach (b) sichert die Beschränktheit von K die Existenz von Häufungswerten von Folgen, und die Abgeschlossenheit von K bewirkt, dass die Häufungswerte in K liegen. Wir definieren nun in beliebigen metrischen Räumen Kompaktheit durch die Eigenschaft (b) in Satz 8.8. Definition 8.9 Es sei (X, d) ein metrischer Raum. Eine Teilmenge K ⊆ X heißt kompakt (oder genauer folgenkompakt), falls jede Folge in K eine konvergente Teilfolge besitzt, deren Grenzwert in K liegt. Wir werden später einen weiteren Kompaktheitsbegriff, den der Überdeckungskompaktheit kennenlernen, der sich freilich in metrischen Räumen glücklicherweise als äquivalent zur Folgenkompaktheit erweist. Jetzt können wir Satz 8.8 kürzer wie folgt formulieren: Korollar 8.10 Eine Teilmenge des Rm oder Cm ist genau dann kompakt, wenn sie abgeschlossen und beschränkt ist. In allgemeinen metrischen Räumen gilt diese Äquivalenz nicht mehr; dort impliziert die Kompaktheit immerhin noch die Abgeschlossen- und Beschränktheit. Wir kommen darauf in Kapitel 13 zurück. Beispiel 8.11 (1) Für k = 1, . . . , m seien reelle Zahlen ak und bk mit ak ≤ bk gegeben. Die Menge Q = {x = (x1 , . . . , xm ) ∈ Rm | ak ≤ xk ≤ bk für 1 ≤ k ≤ m} ist kompakt. Wir nennen Q einen achsenparallelen kompakten Quader. (2) Die m-dimensionale Einheitssphäre n o m m+1 S = x∈R ||x|| = 1 = (x1 , . . . , xm+1 ) ∈ Rm+1 | x21 + . . . + x2m+1 = 1 ist eine kompakte Menge. (3) Die m-dimensionale Einheitskugel oder der Einheitsball n o m m B = x ∈ R ||x|| ≤ 1 = (x1 , . . . , xm ) ∈ Rm | x21 + . . . + x2m ≤ 1 ist kompakt. (4) Es sei a eine reelle Zahl, und es sei ein k ∈ {1, 2, . . . , m} gegeben. Jede der Mengen {(x1 , . . . , xm ) ∈ Rm | xk ≤ a} und {(x1 , . . . , xm ) ∈ Rm | xk ≥ a} heißt ein Halbraum (für m = 2: Halbebene). Diese Mengen sind abgeschlossen, aber nicht beschränkt und somit nicht kompakt. 112 In den ersten drei Beispielen ist die Beschränktheit klar. In allen vier Beispielen zeigt man die Abgeschlossenheit bequem mit Hilfe von Satz 8.6: Die (nicht-strikten!) Ungleichungen, die die Mengen Q, S m usw. definieren, bleiben unter Grenzübergängen erhalten. Ist eine Menge hingegen durch eine oder mehrere strikte Ungleichungen ( <“ oder >“) de” ” finiert, so ist diese Menge i. Allg. nicht abgeschlossen; solche Ungleichungen bleiben nämlich unter Grenzübergängen i. Allg. nicht erhalten (d.h. sie werden zu lediglich nicht-strikten Ungleichungen: ≤“ bzw. ≥“ – vgl. hierzu auch Aufgabe 8.4 (a)). Beispiele hierfür sind die ” ” offene Einheitskugel n o m x ∈ R ||x|| < 1 = (x1 , . . . , xm ) ∈ Rm | x21 + . . . + x2m < 1 des Rm (für die immerhin das Komplement abgeschlossen ist) oder der Quader {x = (x1 , x2 ) ∈ R2 | a1 ≤ x1 ≤ b1 , a2 < x2 < b2 }, der (sofern er nicht leer ist) weder offen noch abgeschlossen ist. Oftmals nützlich ist die folgende (nicht sehr überraschende) Beobachtung. Proposition 8.12 Es sei K eine kompakte Teilmenge von R. Dann besitzt K ein Maximum und ein Minimum. Beweis. Nach Satz 8.8 ist K abgeschlossen und beschränkt. Insbesondere ist s := sup K eine reelle Zahl. Nach Proposition 2.34 gibt es zu jedem n ∈ N einen Punkt xn ∈ K, so dass s− 1 < xn ≤ s n gilt. Für die Folge (xn )n in K gilt also lim xn = s. n→∞ Da K abgeschlossen ist, liegt der Grenzwert s gemäß Satz 8.6 in K. Daher ist das Supremum s sogar das Maximum von K. Analog zeigt man, dass K ein Minimum besitzt. 113 9 Stetige Funktionen 9.1 Der Begriff der Stetigkeit Funktionen dienen unter anderem zur Modellierung von Vorgängen in der Natur und zur Beschreibung und Kontrolle von technischen Abläufen. Dabei beobachtet man, dass in vielen Fällen die betrachteten Funktionen folgende Eigenschaft haben: Ändert man das Argument (die Eingabe“) der Funktion hinreichend wenig, so ändert sich auch der Funktionswert ” (die Ausgabe“) nur wenig. Dieses Phänomen bezeichnet man als Stetigkeit. Wir wollen es ” zunächst anhand einiger Alltagsbeispiele erläutern: • Wir können sicher sein, dass wir die Bahn eines Fußballs bei hinreichend feinfühliger Variation unserer Fußbewegung zumindest theoretisch so beeinflussen können, dass er beim angespielten Mitspieler (oder im Tor) ankommt; ob dies auch in der Praxis mit der gewünschten Genauigkeit gelingt, ist eine Frage des fußballerischen Könnens, aber jedenfalls müssen wir nicht befürchten, dass eine leichte Variation im Krafteinsatz den Ball durch ein Wurmloch katapultiert und ihn in einer ganz anderen Gegend des Universums (oder einem Parallel-Universum) stranden lässt. Solche Bewegungsvorgänge sind ein typisches Beispiel für stetige Zusammenhänge zwischen Ursache und Wirkung. • Ebenso wissen wir, dass wir durch hinreichend kleine Bewegungen am Heizkörperthermostat die Zimmertemperatur praktisch stufenlos“ variieren können: Sie hängt ” stetig von der Thermostateinstellung ab. Wir müssen also nicht befürchten, dass ein fast unmerkliches Drehen am Thermostat zu einer Temperaturerhöhung um 10 Grad führt. (Falls dies doch passieren sollte, dann war das Thermostat verkalkt und ist durch das Drehen daran abrupt wieder gängig geworden. Aber selbst in diesem Fall ändert sich die Zimmertemperatur nur allmählich; sie hängt stetig von der Zeit ab - wenn auch nicht stetig von der Thermostateinstellung.) • Ein Kuchen wird nicht wesentlich anders schmecken, wenn man die Mengen der Zutaten geringfügig (um z.B. 1%) variiert: Sein Geschmack hängt stetig von den verwendeten Mengen an Zutaten ab. • Ganz anders gelagert ist folgende Situation: Nehmen wir an, wir wollen per Zug von Frankfurt nach Würzburg fahren. Eine Verspätung von wenigen Sekunden, mit der man am Bahnhof in Frankfurt eintrifft, kann dann gravierende Auswirkungen auf die Zeit haben, zu der man in Würzburg ankommt – wenn nämlich in diesen wenigen Sekunden gerade ein Zug nach Würzburg losgefahren ist und der nächste erst 80 Minuten später fährt (und zudem 40 Minuten länger benötigt). Hier hängt die Ankunftszeit in Würzburg also nicht stetig von der Zeit ab, zu der man in Frankfurt am Bahnhof eintrifft. Die weitaus meisten Gesetzmäßigkeiten der Physik werden durch stetige Funktionen beschrieben. Eine Welt, in der sich die Grundgesetze der Physik durchweg unstetig verhalten, würde die Phantasie jedes Science-Fiction-Autors bei weitem übersteigen. (Tatsächlich beziehen Science-Fiction-Filme ja oftmals ihren Reiz gerade aus der punktuellen, aber eben nicht durchgängigen Verletzung gewisser physikalischer Gesetze.) 114 Ähnlich wie beim Konvergenzbegriff stellt sich nun die Frage, wie wir die obigen relativ vagen Vorstellungen von Stetigkeit mathematisch präzise fassen können. Was bedeutet es, dass die Funktion f stetig im Punkt a ist? (Dabei denken wir der Einfachheit halber zunächst einmal an reellwertige Funktionen, die auf Intervallen definiert sind.) Wir können die Überlegungen, die uns zur Definition von Konvergenz geführt haben, weitgehend übertragen: • Man könnte sagen: f ist stetig in a, wenn für alle Argumente x genügend nahe“ bei ” a die Funktionswerte f (x) hinreichend nahe“ bei f (a) liegen. ” Hier gilt es zu präzisieren: Was heißt genügend nahe“ und hinreichend nahe“? ” ” • Hierzu geben wir eine gewisse Fehlertoleranz ε > 0 für die Abweichung zwischen f (x) und f (a) vor, die als gerade noch erträglich für die Zwecke der jeweiligen Betrachtung angesehen wird. Dann sollten sich f (x) und f (a) um weniger als ε voneinander unterscheiden, sofern nur x genügend nahe“ bei a liegt. Es soll also |f (x) − f (a)| < ε für ” alle x genügend nahe“ bei a gelten. ” • Dieses letzte genügend nahe“ präzisieren wir wiederum durch Einführung einer ge” wissen Toleranz δ > 0: Es soll ein δ > 0 geben, so dass |f (x) − f (a)| < ε für alle (zulässigen) x mit |x − a| < δ gilt. • Wie bei der Konvergenzdefinition ist auch hier wesentlich, dass dies für jedes beliebig kleine ε > 0 gelten soll (auch wenn man sich in praktischen Anwendungen vielleicht mit einer festen, hinreichend klein gewählten Fehlertoleranz ε begnügen würde). Es soll also zu jedem ε > 0 ein δ > 0 geben, so dass |f (x) − f (a)| < ε für alle (zulässigen) x mit |x − a| < δ gilt. Hierbei wird δ i. Allg. von ε abhängen; es wird um so kleiner gewählt werden müssen, je kleiner die vorgegebene Fehlertoleranz ε > 0 ist. Damit können wir die Stetigkeit nunmehr mathematisch präzise definieren32 . Definition 9.1 Es sei I ⊆ R ein Intervall und a ∈ I. Eine Funktion f : I −→ R heißt stetig im Punkt a, falls es zu jeder Zahl ε > 0 eine Zahl δ > 0 gibt, so dass für alle x ∈ I mit |x − a| < δ die Ungleichung |f (x) − f (a)| < ε gilt. In Quantorenschreibweise lautet die Bedingung ∀ ε>0 ∃ δ>0 ∀ x∈I |x − a| < δ =⇒ |f (x) − f (a)| < ε . Die Funktion f heißt stetig, falls sie in jedem Punkt a ∈ I stetig ist. Bemerkung 9.2 (1) Zur Veranschaulichung der Stetigkeitsdefinition ist es hilfreich, den horizontalen Streifen Sε = {(x, y) ∈ R2 | f (a) − ε < y < f (a) + ε} mit der Breite 2ε in der reellen Ebene, den sog. ε-Streifen um f (a), zu betrachten. Für die Stetigkeit von f in a wird dann (x, f (x)) ∈ Sε für alle x ∈ I, die genügend wenig 32 Der hier erklärte Stetigkeitsbegriff erscheint erstmals 1817 bei Bolzano. Das wurde aber damals aus den in Fußnote 23 genannten Gründen nicht bekannt. Deshalb muss man Cauchy als den Schöpfer unseres heutigen Stetigkeitsbegriffes ansehen. Er verbreitete ihn in seinen Vorlesungen und ab 1821 in seinem Lehrbuch Cours d’Analyse. Unsere heutige Formulierung mit der ε-δ-Bedingung stammt von Weierstraß. 115 von a abweichen, verlangt. Die Betonung in der Definition liegt wiederum darauf, dass ε beliebig klein vorgegeben sein kann. Stetigkeit von f im Punkt a bedeutet also anschaulich, dass man zu jedem horizontalen ε-Streifen um f (a) stets einen vertikalen δ-Streifen um a finden kann, so dass die Funktionswerte von f in dem ε-Streifen bleiben, sofern man den Definitionsbereich auf den δ-Streifen einschränkt. Je schmaler man den ε-Streifen wählt, desto schmaler wird i. Allg. auch der δ-Streifen ausfallen. y 6 ε f (a) ε δ δ a - x Abbildung 11: Die ε-δ-Bedingung für Stetigkeit Das δ in der Stetigkeitsdefinition hängt also von ε ab, ebenso wie in der Definition der Konvergenz von Folgen N von ε abhing. Wir könnten diese Abhängigkeit durch eine Schreibweise wie δε zum Ausdruck bringen. Um die Notationen nicht zu überladen verzichten wir darauf jedoch. (2) Sofern der Stetigkeitsbegriff im Schulunterricht überhaupt behandelt wird, wird die Stetigkeit einer Funktion f im Punkt a dort meist so erklärt, dass die links- und rechtsseitigen Grenzwerte limx→a− f (x) und limx→a+ f (x) existieren und mit dem Funktionswert f (a) übereinstimmen. Wir werden in Satz 9.18 sehen, dass dies äquivalent zu der soeben gegebenen Definition ist. Allerdings ist diese Schuldefinition“ insofern ” unbefriedigend, als sie unerklärt lässt, was man unter den vorkommenden Grenzwerten überhaupt versteht. Dies zu präzisieren läuft doch wieder auf eine ε-δ-Definition wie oben hinaus (vgl. Definition 9.16). Zudem verleitet die Art und Weise, wie Stetigkeit im Schulunterricht behandelt wird, zu falschen, viel zu oberflächlichen Vorstellungen über stetige Funktionen, insbesondere zu den Vorstellungen, stetige Funktionen seien genau die Funktionen ohne Sprungstellen, oder stetige Funktionen seien Funktionen, deren Graph sich zeichnen lasse, ohne den Stift abzusetzen. Diese Vorstellungen haben durchaus eine gewisse Berechtigung, werden der Bandbreite des Stetigkeitsbegriffs (und auch den vielfältigen Möglichkeiten für Unstetigkeiten) aber nicht wirklich gerecht: Stetige Funktionen müssen keinesfalls so harmlos sein wie die aus der Schule bekannten Funktionen33 ; es gibt z.B. sogar stetige Funktionen, die nirgends (!) differenzierbar sind. In Anlehnung an Hamlet möchte 33 Von daher erscheint es als nicht übermäßig bedauerlich, dass im bayerischen G8-Lehrplan die Stetigkeit nicht mehr auftaucht. 116 man fast sagen: Es gibt mehr stetige Funktionen zwischen Himmel und Erde, als eure ” Schulweisheit sich träumen lässt.“ Auf solche Phänomene kommen wir im Laufe der Vorlesung noch vielfach zurück. Stetigkeit ist also gar keine so starke Forderung, wie es auf den ersten Blick erscheinen mag. An wirklich harmlose“ Funktionen stellt man daher häufig restriktivere Erwar” tungen als die Stetigkeit: Man verlangt Differenzierbarkeit oder besser noch stetige Differenzierbarkeit. Das ist Gegenstand von Teil III der Vorlesung. Andererseits darf man nicht aus dem Auge verlieren, dass natürlich nur die aller” wenigsten“ Funktionen stetig sind. Dass wir uns dennoch hauptsächlich mit stetigen Funktionen beschäftigen, liegt daran, dass diese für praktische Anwendungen am wichtigsten sind. (3) Bei vielen Vorgängen bewirken winzige Änderungen in einem Anfangszustand f (t0 ) auf lange Sicht, also für hinreichend große Werte von T > 0, gewaltige Unterschiede im Wert f (t0 +T ). Das ist der Grund für die Unvorhersagbarkeit zum Beispiel des Wetters über längere Zeiten. Dieses (auch als Schmetterlingseffekt bekannte) Phänomen hat jedoch nichts mit Stetigkeit (bzw. Unstetigkeit) zu tun. Die Stetigkeit (und auch die Differenzierbarkeit) sind Bedingungen an das lokale Verhalten einer Funktion in der Nähe eines Punktes. Nur für kleine h werden Forderungen an die Unterschiede zwischen f (t0 ) und f (t0 + h) gestellt. Die Frage, wie stark sich kleine Änderungen langfristig auswirken, fällt hingegen in den Bereich der Stabilitätstheorie. Die Definition der Stetigkeit kann ohne weiteres auf Abbildungen zwischen beliebigen metrischen Räumen übertragen werden: Definition 9.3 Es seien X und Y metrische Räume mit den Metriken dX bzw. dY . Es sei a ∈ X. Eine Funktion f : X −→ Y heißt stetig im Punkt a, falls es zu jeder Zahl ε > 0 eine Zahl δ > 0 gibt, so dass für alle x ∈ X mit dX (x, a) < δ die Abschätzung dY (f (x), f (a)) < ε gilt. In Quantorenschreibweise: ∀ ε>0 ∃ δ>0 ∀ x∈X dX (x, a) < δ =⇒ dY (f (x), f (a)) < ε . Die Funktion f heißt stetig, falls sie in jedem Punkt a ∈ X stetig ist. Bemerkung 9.4 (1) Die Bedingung der Stetigkeit lässt sich umformulieren, wenn wir die in Abschnitt 4 eingeführten offenen Kugeln Ur (c) verwenden: Die Funktion f : X −→ Y ist im Punkt a ∈ X genau dann stetig, wenn es zu jedem ε > 0 ein δ > 0 gibt, so dass aus x ∈ Uδ (a) stets f (x) ∈ Uε (f (a)) folgt, wenn also Folgendes gilt: ∀ ε>0 ∃ δ>0 f (Uδ (a)) ⊆ Uε (f (a)) . (2) Durch Negation der Quantorenbedingung für Stetigkeit ergibt sich: Genau dann ist eine Funktion f : X −→ Y zwischen metrischen Räumen (X, dX ) und (Y, dY ) unstetig in a ∈ X, wenn Folgendes gilt: ∃ ε>0 ∀ δ>0 ∃ x∈X dX (x, a) < δ ∧ dY (f (x), f (a)) ≥ ε . 117 Es gibt also eine spezielle Zahl ε > 0, so dass man für jedes δ > 0 einen (von δ abhängigen) Punkt x ∈ X in der offenen δ-Kugel um a findet, wofür der Funktionswert f (x) nicht in der offenen ε-Kugel um f (a) liegt. (3) Der Einprägsamkeit halber haben wir die Stetigkeitsdefinition für Funktionen formuliert, deren Definitionsbereich der gesamte metrische Raum X ist. Oft liegt die Situation vor, dass eine Funktion f : D −→ Y nur auf einer Teilmenge D eines metrischen Raumes (X, d) definiert ist. Brauchen wir nun eine neue Definition, wenn wir die Stetigkeit einer solchen Funktion erklären wollen? Die Antwort ist glücklicherweise nein: Mit X wird auch D durch die Metrik d zu einem metrischen Raum gemacht. (Man bezeichnet (D, d) dann als Teilraum des metrischen Raumes (X, d).) Damit ist durch Definition 9.3 auch erklärt, was die Stetigkeit von f : D −→ Y in einem Punkt a ∈ D bedeutet, nämlich Folgendes: ∀ ε>0 ∃ δ>0 ∀ x∈D dX (x, a) < δ =⇒ dY (f (x), f (a)) < ε bzw. ∀ ε>0 ∃ δ>0 f (D ∩ Uδ (a)) ⊆ Uε (f (a)) . Bei der Interpretation der letzten Bedingung ist die Beobachtung nützlich, dass die offenen Kugeln in (D, d) gerade die Mengen der Gestalt D ∩ Ur (c) sind (wobei Ur (c) die offenen Kugeln in X bezeichnet34 ). (4) Angesichts von (3) haben wir den Begriff der Stetigkeit mittels Definition 9.3 insbesondere für Funktionen mit Definitionsbereichen in Rm oder in Cm und mit Werten in einem dieser Räume erklärt. (Man vergleiche Beispiel 4.2 (1); dort hatten wir bereits festgestellt, dass nicht nur Rm und Cm , sondern auch beliebige Teilmengen hiervon durch die euklidische Metrik zu metrischen Räumen gemacht werden.) Eine einfache, aber oftmals sehr nützliche Folgerung aus der Stetigkeitsdefinition ist das sog. Permanenzprinzip. Lemma 9.5 (Permanenzprinzip) Es sei X ein metrischer Raum, a ∈ X, und die Funktion f : X −→ R sei im Punkt a stetig. Falls f (a) > c (für ein c ∈ R) ist, dann gibt es ein δ > 0 mit f (x) > c für alle x ∈ Uδ (a). Beweis. Zu der nach Voraussetzung positiven Zahl ε := f (a) − c gibt es ein δ > 0 mit f (Uδ (a)) ⊆ Uε (f (a)) =]f (a) − ε, f (a) + ε[. Dies bedeutet insbesondere f (x) > f (a) − ε = c für alle x ∈ Uδ (a). 34 An dieser Stelle empfiehlt es sich, sich an Bemerkung 4.4 (1)/(5) zu erinnern. Wir sind gerade in einer der seltenen Situationen, in denen wir es mit mehr als einem metrischen Raum gleichzeitig zu tun haben und es daher schön wäre, für die offenen Kugeln in D und X zwei unterschiedliche Notationen zu haben. 118 9.2 Das Folgenkriterium Die obige Motivation für die Definition der Stetigkeit verlief weitgehend analog zu den Überlegungen in Abschnitt 5.2 bei der Definition der Konvergenz, und auch die Definitionen der beiden Begriffe weisen eine sehr ähnliche Struktur auf. Dies lässt vermuten, dass beide Begriffe eng miteinander verwandt sind. Tatsächlich kann die Stetigkeit anstelle der obigen Definition ebenso gut durch eine Bedingung über konvergente Folgen definiert werden. Das ist der Inhalt des sog. Folgenkriteriums für Stetigkeit. Satz 9.6 (Folgenkriterium) Es seien X und Y metrische Räume, und es sei a ∈ X. Für eine Funktion f : X −→ Y sind die beiden folgenden Aussagen äquivalent. (a) Die Funktion f ist stetig im Punkt a. (b) Für jede (!) Folge (xn )n≥1 von Punkten xn ∈ X mit limn→∞ xn = a ist die Folge der Funktionswerte f (xn ) konvergent mit dem Grenzwert lim f (xn ) = f (a). n→∞ Die in (b) beschriebene Eigenschaft bezeichnet man manchmal auch als Folgenstetigkeit. Das Folgenkriterium besagt also, dass Stetigkeit und Folgenstetigkeit äquivalent sind. Beweis. =⇒ “: Es sei f stetig in a. Es sei eine Folge (xn )n in X mit limn→∞ xn = a ” gegeben. Es sei ein ε > 0 gegeben. Dazu gibt es wegen der Stetigkeit von f in a ein δ > 0 mit f (Uδ (a)) ⊆ Uε (f (a)). Zu diesem δ gibt es wegen limn→∞ xn = a ein N ∈ N mit xn ∈ Uδ (a) für alle n ≥ N . Es folgt f (xn ) ∈ Uε (f (a)) für alle n ≥ N . Damit ist gezeigt, dass es zu jedem ε > 0 ein N ∈ N gibt, so dass f (xn ) ∈ Uε (f (a)) für alle n ≥ N ist. Dies bedeutet limn→∞ f (xn ) = f (a). Die Aussage (b) ist also gültig. ⇐=“: Nun setzen wir voraus, dass f in a unstetig ist. Dann gilt ” ∃ ε>0 ∀ δ>0 ∃ x∈X dX (x, a) < δ ∧ dY (f (x), f (a)) ≥ ε . Wir dürfen hierin δ = n1 wählen. Dadurch erhalten wir für jedes n ∈ N einen Punkt xn ∈ X mit 1 dX (xn , a) < und dY (f (xn ), f (a)) ≥ ε n (oder mit anderen Worten“: ” xn ∈ U1/n (a) und f (xn ) 6∈ Uε (f (a)).) Somit ist (xn )n eine Folge von Punkten in X mit limn→∞ xn = a, deren Bildfolge (f (xn ))n entweder divergiert oder gegen einen Wert 6= f (a) konvergiert. Die Aussage (b) ist also nicht gültig. 119 Die Betonung in (b) liegt auf den Worten für jede Folge“. Es genügt nicht, dass die Bezie” hung limn→∞ f (xn ) = f (a) für einige Folgen (oder gar nur für eine einzige Folge) (xn )n mit limn→∞ xn = a gilt. Einprägsam lässt sich das Folgenkriterium auch wie folgt formulieren: Genau dann ist f stetig in a ∈ X, wenn für alle gegen a konvergenten Folgen (xn )n in X gilt: lim f (xn ) = f ( lim xn ). n→∞ n→∞ Man kann hier also die Grenzwertbildung mit der Funktionsauswertung vertauschen. Dies ist ein erstes Beispiel zur Vertauschbarkeit von Grenzübergängen – ein Thema, das uns später immer wieder beschäftigen wird und zu den zentralen Fragestellungen der Analysis gehört. 9.3 Bildung neuer stetiger Funktionen Aus bekannten stetigen Funktionen kann man mittels verschiedener Operationen neue stetige Funktionen konstruieren. Zunächst definieren wir die benötigten Objekte. Definition 9.7 Es sei D eine nichtleere Menge und Y einer der Räume Rm oder Cm . Es seien Funktionen f : D −→ Y und g : D −→ Y sowie eine reelle oder komplexe Zahl c gegeben. Die Funktionen f + g : D −→ Y, cf : D −→ Y, ||f || : D −→ [0, ∞[ werden dann durch (cf )(x) := c · f (x), (f + g)(x) := f (x) + g(x), ||f ||(x) := ||f (x)|| für alle x ∈ D definiert. Eine Kombination dieser Definitionen liefert beliebige Linearkombinationen cf +dg mit c, d ∈ C und insbesondere f − g. Nun sei speziell m = 1. Dann können die Werte von f und g multipliziert und eventuell auch dividiert werden. Das Produkt f g : D −→ C wird definiert durch (f g)(x) := f (x) · g(x) Für g 6= 0 wird der Quotient f g definiert durch f f (x) (x) := g g(x) Der Definitionsbereich von f g für alle x ∈ D. für alle x ∈ D mit g(x) 6= 0. ist also möglicherweise eine echte Teilmenge von D. Satz 9.8 Es sei X ein metrischer Raum, a ∈ X und Y einer der Räume Rm oder Cm . Die Funktionen f : X −→ Y und g : X −→ Y seien stetig in a. Dann gelten die folgenden Aussagen. (1) Die Funktionen cf + dg mit beliebigen c, d ∈ C sind stetig in a. (2) Die Funktion ||f || ist stetig in a. 120 (3) Im Fall m = 1 ist das Produkt f g stetig in a. (4) Es sei m = 1 und g(a) 6= 0. Dann ist f g stetig in a. Das Folgenkriterium (Satz 9.6) macht es möglich, beim Beweis dieser Aussagen die Rechenregeln aus Satz 5.12 anzuwenden. Man könnte die Stetigkeit der hier genannten Funktionen auch direkt mit der ε-δ-Bedingung beweisen; die Beweise würden sehr denen von Satz 5.12 ähneln. Beweis. Wir verwenden das Folgenkriterium für Stetigkeit. Es sei eine beliebige Folge (xn )n in X mit limn→∞ xn = a gegeben. Nach Voraussetzung und dem Folgenkriterium (Satz 9.6) gilt dann limn→∞ f (xn ) = f (a) und limn→∞ g(xn ) = g(a). Aus Satz 5.12 (1)/(2) folgt also für beliebige c, d ∈ C lim (cf + dg)(xn ) = lim (cf (xn ) + dg(xn )) = cf (a) + dg(a). n→∞ n→∞ Gemäß Satz 5.14 (3) gilt außerdem lim ||f ||(xn ) = lim ||f (xn )|| = || lim f (xn )|| = ||f (a)||. n→∞ n→∞ n→∞ Im Fall m = 1 liefert Satz 5.12 (2) auch lim (f g)(xn ) = lim f (xn ) · g(xn ) = f (a) · g(a). n→∞ n→∞ Wenn m = 1 und g(a) 6= 0 ist, dann gibt es aufgrund der Stetigkeit von g in a ein δ > 0 mit g(x) 6= 0 für alle x ∈ Uδ (a). (Im Falle Y = R kann man sich hier auch auf das Permanenzprinzip (Lemma 9.5) berufen.) Hieraus und aus Satz 5.12 (2) und (3) folgt f (xn ) f (a) f (xn ) = lim = . n→∞ g(xn ) n→∞ g g(a) lim Aus den aufgelisteten Beziehungen und aus dem Folgenkriterium ergeben sich alle Behauptungen. Auch die Verkettung (Komposition) stetiger Funktionen liefert wieder stetige Funktionen: Satz 9.9 Es seien X, Y und Z metrische Räume. Die Funktion f : X −→ Y sei im Punkt a ∈ X stetig, und die Funktion g : Y −→ Z sei im Punkt b = f (a) ∈ Y stetig. Dann ist die Verkettung g ◦ f : X −→ Z im Punkt a stetig. Um den Umgang mit den neuen Techniken einzuüben, geben wir zwei Beweise, einen mithilfe der ε-δ-Bedingung und einen mithilfe des Folgenkriteriums. Beweis 1. Wir setzen c := g(b) = (g ◦ f )(a). Es sei ein ε > 0 gegeben. Dazu gibt es wegen der Stetigkeit von g im Punkt b ein η > 0 mit g(Uη (b)) ⊆ Uε (c). Wegen der Stetigkeit von f in a gibt es zu η ein δ > 0 mit f (Uδ (a)) ⊆ Uη (b). Es folgt (g ◦ f )(Uδ (a)) = g(f (Uδ (a))) ⊆ g(Uη (b)) ⊆ Uε (c). Das war zu zeigen. 121 Beweis 2. Es sei (xn )n eine beliebige gegen a konvergente Folge in X. Da f in a stetig ist, konvergiert (f (xn ))n nach dem Folgenkriterium gegen f (a) = b. Setzt man yn := f (xn ), so ist (yn )n also eine gegen b konvergente Folge in Y . Nun ist g aber stetig in b, so dass wiederum nach dem Folgenkriterium (g(yn ))n gegen g(b) konvergiert. Insgesamt haben wir daher lim (g ◦ f )(xn ) = lim g(yn ) = g(b) = g(f (a)) = (g ◦ f )(a). n→∞ n→∞ Dies gilt für alle gegen a konvergenten Folgen (xn )n in X. Also ist g ◦ f in a stetig. 9.4 Beispiele stetiger und unstetiger Funktionen Bisher haben wir nur abstrakt über stetige Funktionen geredet, ohne eine einzige konkrete Funktion als stetig identifiziert zu haben. Dies hatte seinen Grund darin, dass uns erst die Resultate des letzten Abschnitts brauchbare Werkzeuge lieferten, um in größerem Maßstab stetige Funktionen zu konstruieren. Wir beginnen mit dem Nachweis, dass Polynome und rationale Funktionen stetig sind. Definition 9.10 Eine Funktion P : C −→ C heißt eine Polynomfunktion oder ein Polynom, falls es ein n ∈ N0 und Elemente a0 , a1 , . . . , an ∈ C gibt mit n X ak z k für alle z ∈ C. P (z) = a0 + a1 z + . . . + an z n = k=0 Die Elemente a0 , a1 , . . . , an heißen die Koeffizienten des Polynoms P . Falls nicht alle Koeffizienten 0 sind, dann heißt das größte m mit am 6= 0 der Grad von P , und man schreibt m = grad (P ). Für m = 0 ist P die konstante Funktion a0 6= 0. Die konstante Funktion 0 heißt auch das Nullpolynom. Sein Grad wird als grad (0) = −∞ vereinbart. Es seien P, Q Polynome, Q sei nicht das Nullpolynom, und es sei D := {z ∈ C | Q(z) 6= 0}. Dann bezeichnet man die durch P (z) R : D −→ C, R(z) := Q(z) definierte Funktion R als eine rationale Funktion. Bemerkung 9.11 (1) Unsere Definition von Polynomen schließt auch den Fall reeller Polynome ein, deren Koeffizienten sämtlich reell sind und die man daher als Abbildungen P : R −→ R betrachten kann. (2) Sind p und q Polynome, so sind auch ihre Summe p + q und ihr Produkt pq Polynome. Für deren Grad gelten die Rechenregeln grad (pq) = grad (p) + grad (q) und grad (p + q) ≤ max{grad (p), grad (q)}. Damit diese Regeln auch gelten, falls p oder q das Nullpolynom ist, war es sinnvoll, dessen Grad auf −∞ festzusetzen. Hierbei müssen wir allerdings erklären, wie wir mit −∞ rechnen: Es ist (−∞) + n := −∞ und −∞ < n für alle n ∈ N0 (und allgemeiner für alle n ∈ R) zu setzen. 122 Korollar 9.12 Jedes Polynom ist stetig in C. Jede rationale Funktion ist in allen Punkten ihres Definitionsbereiches (d.h. außerhalb der Nullstellen ihres Nennerpolynoms) stetig. Beweis. Wir zeigen zunächst, dass konstante Funktionen und die Identität stetig sind (was natürlich ziemlich banal ist): Es sei f : C −→ C konstant, d.h. es gebe ein c ∈ C mit f (z) = c für alle z ∈ C. Es sei ein a ∈ C gegeben. Es sei (xn )n eine Folge in C, die gegen a konvergiert. Dann ist f (xn ) = c für alle n, d.h. die Bildfolge (f (xn ))n ist konstant und daher konvergent gegen c = f (a). Nach dem Folgenkriterium ist f also stetig in a. Dies gilt für alle a ∈ C, so dass f stetig in C ist. Nun sei f : C −→ C die identische Abbildung, d.h f (z) = z für alle z ∈ C. Wir könnten wie soeben die Stetigkeit mit dem Folgenkriterium nachweisen. Aus Gründen der Abwechslung ziehen wir diesmal aber das ε-δ-Kriterium heran. Es seien also ein Punkt a ∈ C (in dem wir die Stetigkeit nachweisen wollen) und ein ε > 0 gegeben. Wir setzen dann δ := ε(> 0). Für alle z ∈ C mit |z − a| < δ gilt dann |f (z) − f (a)| = |z − a| < δ = ε. Somit ist f in a und damit in ganz C stetig. (In diesem Fall hängt δ also nicht von dem speziellen Punkt a ab – wohl aber von ε.) Das war relativ viel Arbeit für ein scheinbar mageres Ergebnis. An dieser Stelle mag man sich fragen: Wenn wir uns mit dem Nachweis der Stetigkeit der beiden denkbar einfachsten Funktionen zwölf Zeilen aufgehalten haben – wie soll das dann erst bei beliebigen Polynomen werden? Tatsächlich geht nun aber alles ganz schnell: Nachdem wir nun wissen, dass konstante Funktionen und die Identität stetig sind, folgt aus Satz 9.8 (3) die Stetigkeit aller Monome x 7→ ak z k (die ja als Produkte aufgefasst werden können, als deren Faktoren die Identität und die konstanten Funktionen auftreten). Aus Satz 9.8 (1) ergibt sich dann die Stetigkeit aller Polynome. Satz 9.8 (4) liefert zu guter Letzt auch die Stetigkeit der rationalen Funktionen. Nun noch einige weitere Beispiele zur besseren Illustration des Stetigkeitsbegriffes: Beispiel 9.13 (1) Ausblick: Von den aus der Schule bekannten elementaren Funktionen Sinus, Cosinus, Exponentialfunktion, Logarithmus usw. erwarten wir intuitiv, dass sie stetig sind. Mit den derzeit zur Verfügung stehenden Methoden können wir dies noch nicht zeigen; schlimmer noch: Bisher haben wir die meisten dieser Funktionen offiziell“ noch ” gar nicht eingeführt; wir werden dies in Kapitel 12 nachholen. Diese Funktionen werden im Wesentlichen als sog. Potenzreihen definiert werden. Die Exponentialfunktion beispielsweise hatten wir in Definition 7.33 durch die Exponentialreihe exp(z) := ∞ X zn n=0 n! erklärt. Potenzreihen erhält man durch einen Grenzübergang aus Polynomen (indem man deren Grad gegen ∞“ streben lässt.) Hier deutet sich eine neue Möglichkeit ” 123 zur Konstruktion stetiger Funktionen an: als Grenzfunktionen von bereits bekannten stetigen Funktionen unter geeigneten Grenzübergängen. Was das genau bedeutet, werden wir in Kapitel 11 klären. Wir werden dort auch sehen, dass die Stetigkeit unter Grenzübergängen keinesfalls erhalten bleiben muss. Einstweilen werden wir die elementaren Funktionen Sinus, Cosinus etc. wie in der Schule naiv verwenden und auch deren Stetigkeit benutzen, so etwa unten in (3) und (4). (2) Es sei f : R −→ R definiert durch ( f (x) := 0 für x ≤ 0, 1 für x > 0. Dann ist f in jedem Punkt x ∈ R \ {0} stetig, jedoch in x = 0 unstetig. (Denn zu ε := 21 > 0 lässt sich keine Umgebung Uδ (0) finden, in der |f (x)| = |f (x) − f (0)| < ε für alle x ∈ Uδ (0) gelten würde.) Hier haben wir das wohl bekannteste Beispiel einer Unstetigkeitsstelle: eine Sprungstelle. (3) Dass Unstetigkeitsstellen keinesfalls Sprungstellen sein müssen, illustriert folgendes Beispiel: Es sei f : R −→ R definiert durch ( sin x1 für x 6= 0, f (x) := 0 für x = 0. -4 1 1 0.5 0.5 -2 4 2 -0.75 -0.5 -0.25 -0.5 0.5 0.75 -0.5 -1 -1 -0.2 0.25 1 1 0.5 0.5 -0.1 0.1 0.2 -0.04 -0.02 0.02 -0.5 -0.5 -1 -1 0.04 Abbildung 12: Das Verhalten von x 7→ sin x1 nahe bei 0 Auf R \ {0} ist f (als Verkettung stetiger Funktionen) stetig. An der Stelle x = 0 ist f unstetig, es liegt aber keine Sprungstelle“ vor, sondern eine Oszillationsstelle“. In ” ” 124 jeder Umgebung Uδ (0) (mit beliebig kleinem δ > 0) nimmt f jeden Wert aus [−1, 1] an, und zwar unendlich oft! Das Verhalten von f bei 0 illustrieren die in Abbildung 12 gezeichneten Ausschnitte aus dem Graphen. (4) Es sei f : R −→ R definiert durch ( f (x) := x sin x1 für x 6= 0, 0 für x = 0. Dann ist f in ganz R stetig – auch in x = 0. Dies folgt z.B. aus Aufgabe 11.3. In Abbildung 13 sind wieder mehrere Ausschnitte aus dem Graphen gezeichnet. 1 0.2 0.8 0.1 0.6 0.4 -0.2 -0.1 0.1 0.2 0.2 -0.1 -2 -1 1 2 -0.2 -0.2 0.02 0.015 0.05 0.01 0.025 0.005 -0.1 -0.05 0.05 0.1 -0.02 -0.01 0.01 0.02 -0.025 -0.005 -0.05 -0.01 -0.075 -0.015 Abbildung 13: Das Verhalten von x 7→ x sin x1 nahe bei 0 Später werden wir zeigen, dass der Graph von f in [−δ, δ] für jedes δ > 0 unendlich lang ist. Dieses Beispiel widerlegt die Vorstellung, eine Funktion sei genau dann stetig, wenn sich ihr Graph ohne abzusetzen zeichnen lässt: Startet man damit im Nullpunkt, so müsste man in jedem beliebig kleinen Abszissen-Intervall [0; δ] mit δ > 0 ein unendlich langes Wegstück durchlaufen; man kann hier nicht mehr sinnvoll erklären, was man mit einem Nachzeichnen“ des Graphens überhaupt meint. ” Die letzten Beispiele waren zwar sicherlich überraschend, aber letztlich noch gut zu veranschaulichen. Wir diskutieren nun zwei Funktionen, deren Graphen sich nicht mehr angemessen zeichnen lassen und die recht verblüffende Stetigkeitseigenschaften aufweisen. 125 Beispiel 9.14 (1) Die sog. Dirichlet-Funktion35 f : R −→ R wird definiert durch f (x) := 1 für rationale x, 0 für irrationale x. Nach Satz 2.42 ist Q dicht in R. Nach Aufgabe 4.2 ist auch die Menge R \ Q aller irrationalen Zahlen dicht in R. Es sei nun ein beliebiger Punkt a ∈ R gegeben. In jeder (beliebig kleinen) punktierten Umgebung von a existieren dann rationale Zahlen x und irrationale Zahlen y, wofür also f (x) = 1 und f (y) = 0 ist. Daher ist die Funktion f in jedem Punkt a unstetig. Der Graph von f kann nicht adäquat gezeichnet werden. Man könnte in der (x, y)Ebene die beiden Geraden mit den Gleichungen y = 1 und y = 0 zeichnen. Aber man muss sich dann beide Geraden als porös“ vorstellen, wobei die Lücken in der einen ” Geraden den Nicht-Lücken in der anderen entsprechen. Natürlich ist es unmöglich, diese Lücken graphisch darzustellen. mit m ∈ Z und n ∈ N geschrieben (2) Jede rationale Zahl q kann in der Gestalt q = m n werden. Wenn der Nenner n minimal gewählt wird, dann sind m und n eindeutig durch q bestimmt. (Die Quotientendarstellung m ist dann vollständig gekürzt.) Durch n die Vorschrift 1 für rationale x = m mit m ∈ Z und n ∈ N minimal, n n g(x) := 0 für irrationale x , ist also eine Funktion g : R −→ R definiert. Es gilt g(x) > 0 für alle x ∈ Q. Abbildung 14 versucht eine Vorstellung vom Graphen von g im Intervall 0 ≤ x ≤ 1 zu vermitteln. Darin sind die Punkte (x, g(x)) für die rationalen x mit Nennern n ≤ 8 eingetragen. Auf der x-Achse ist das Intervall von 0 bis 1 dick markiert; dort liegen die Punkte des Graphen von g dicht. Weil die irrationalen Zahlen dicht in R liegen, ist g in jedem Punkt a ∈ Q unstetig. Man könnte nun wegen der Dichtheit von Q in R glauben, dass g auch in den irrationalen Punkten unstetig ist. Aber das Gegenteil ist richtig, und das wird folgendermaßen bewiesen. Es sei eine irrationale Zahl a gegeben, und es sei ε > 0. Dazu gibt es ein N ∈ N mit 1 < ε. Im Intervall [a − 1, a + 1] gibt es nur endlich viele rationale Zahlen q = m mit N n Nennern n ≤ N . Daher und wegen der Irrationalität von a ist die Zahl n o m ∈ Q, 1 ≤ n ≤ N δ := min |q − a| q = n 35 nach P. G. L. Dirichlet (1805 – 1859) . Von ihm stammen wichtige Beiträge zur Zahlentheorie und zur Analysis, insbesondere zur Entwickelbarkeit von Funktionen in trigonometrische Reihen. Ihm wird auch die Prägung unseres heutigen Begriffes einer Funktion als einer im Prinzip willkürlichen Zuordnungsvorschrift zugeschrieben. An der Entwicklung des Begriffs waren mehrere Personen beteiligt. Im Grunde kannte Euler bereits willkürliche“ Funktionen, und er unterschied sie von den in seinem Sinne stetigen“ Funktionen. ” ” Die Diskussion von Funktionen mit zunehmend schlechteren“ Eigenschaften wurde durch den Wunsch er” zwungen, zunehmend kompliziertere Naturvorgänge mathematisch zu beschreiben. Dabei gab die Theorie der trigonometrischen Reihen wesentliche Impulse. 126 y 6 1 - 0 1 x 1/2 Abbildung 14: Die Funktion aus Beispiel 9.14 (2) positiv. Es sei x ∈ R und |x − a| < δ. Wenn x irrational ist, dann gilt g(x) = g(a) = 0. einen minimalen Nenner n > N Nun sei x rational. Nach Wahl von δ hat dann x = m n m (denn jede rationale Zahl q = n mit n ≤ N hat von a einen Abstand ≥ δ). Also ist 1 1 < < ε, d.h. |g(x) − g(a)| < ε. n N Somit gilt g(Uδ (a)) ⊆ Uε (g(a)). Damit ist die Stetigkeit von g in allen irrationalen Punkten a bewiesen. 0 < g(x) = Die Funktion g hat also die bizarre Eigenschaft, dass sowohl ihre Stetigkeitsstellen als auch ihre Unstetigkeitsstellen dicht in R liegen. Bei der Überprüfung einer Funktion auf Stetigkeit muss man auch auf deren Definitionsbereich achten. Dafür sollen die folgenden Beispiele sensibilisieren. Beispiel 9.15 (1) Wir wandeln Beispiel 9.13 (2) geringfügig ab: Es sei f : R \ {0} −→ R definiert durch ( 0 für x < 0, f (x) := 1 für x > 0. Gegenüber 9.13 (2) haben wir also lediglich den Nullpunkt aus dem Definitionsbereich der Funktion entfernt. Die so definierte Funktion f : R \ {0} −→ R ist stetig – denn sie ist ja in jedem Punkt x ∈ R \ {0} stetig. (2) Es seien X und Y metrische Räume, D ⊆ X, und f : D −→ Y sei eine Funktion. Falls a ∈ D ein isolierter Punkt von D ist, so ist f stetig in a. Begründung: Nach Definition 8.4 gibt es ein δ > 0, so dass D ∩ Uδ (a) = {a} ist. Für dieses δ gilt dann f (D ∩ Uδ (a)) = f ({a}) = {f (a)} ⊆ Uε (f (a)) für alle ε > 0, d.h. dieses δ leistet sogar für jedes ε > 0 das in der Definition von Stetigkeit Verlangte. Dies zeigt, dass f in a stetig ist. 127 Beispielsweise ist jede Funktion f : Z −→ R stetig, denn Z besteht nur aus isolierten Punkten. (3) Die Funktion 1 x ist stetig (in ihrem Definitionsbereich R \ {0}). Hingegen ist die Frage, ob f in x = 0 unstetig ist, schlicht sinnlos, da 0 gar nicht zum Definitionsbereich der Funktion gehört36 . f : R \ {0} −→ R, 9.5 x 7→ Grenzwerte von Funktionen Für Funktionen f und Punkte a soll jetzt die Bedeutung des Grenzwertes limx→a f (x) erklärt werden. Es wird nicht verlangt, dass a im Definitionsbereich von f liegt. Wenn dies aber doch der Fall ist, dann ist der Funktionswert f (a) völlig irrelevant für den fraglichen Grenzwert. Vielmehr sind nur die Werte f (x) an den Stellen x 6= a in unmittelbarer Nähe“ von a (d.h. ” in einer punktierten Umgebung von a) ausschlaggebend. Wir müssen voraussetzen, dass es solche Stellen gibt. Der nötige präzise Begriff wurde in Kapitel 8 bereitgestellt: Der Punkt a soll ein Häufungspunkt des Definitionsbereiches von f sein. Definition 9.16 Es seien metrische Räume X und Y mit den Metriken dX bzw. dY , eine Teilmenge D ⊆ X und eine Funktion f : D −→ Y gegeben. Der Punkt a ∈ X sei ein Häufungspunkt von D. Die Funktion f hat den Grenzwert b ∈ Y für x → a, und man schreibt lim f (x) = b, x→a falls zu jeder Zahl ε > 0 eine Zahl δ > 0 existiert, so dass für alle x ∈ D\{a} mit dX (x, a) < δ die Abschätzung dY (f (x), b) < ε gilt. In Quantorenschreibweise: ∀ ε>0 ∃ δ>0 ∀ x∈D\{a} dX (x, a) < δ =⇒ dY (f (x), b) < ε . Äquivalent hierzu ist folgende Bedingung: ∀ ε>0 ∃ δ>0 f (D ∩ U̇δ (a)) ⊆ Uε (b) . Diese Definition ähnelt stark der Definition von Stetigkeit. Den engen Zusammenhang zwischen beiden Begriffen werden wir in Satz 9.18 herausarbeiten. Beispiel 9.17 (1) Wir betrachten die rationale Funktion x2 − 1 f (x) := x−1 36 Richtig wäre allerdings die Aussage, dass es keine Fortsetzung von f zu einer in ganz R stetigen Funktion gibt. 128 mit dem Definitionsbereich D = R \ {1}. Für alle x ∈ D gilt f (x) = x + 1. (Man kann den Faktor x − 1 kürzen.) Deswegen gilt lim f (x) = 2. x→1 Der Punkt x = 1 liegt zwar nicht im Definitionsbereich von f , jedoch lässt sich f durch die Festsetzung f (1) := 2 stetig in x = 1 ergänzen, d.h. zu einer auf ganz R stetigen Funktion fortsetzen. (2) Es sei sgn : R −→ {−1, 0, 1} die in Definition 2.14 erklärte Vorzeichenfunktion auf R. Sie nimmt in jeder beliebig kleinen Umgebung von 0 die Werte 1 und −1 an. Der Grenzwert limx→0 sgn (x) existiert daher nicht. Für die Funktion g(x) := (sgn (x))2 gilt jedoch lim g(x) = lim (sgn (x))2 = 1, x→0 x→0 und dieser Grenzwert ist verschieden von dem Funktionswert g(0) = 0. Der neue Grenzwertbegriff erlaubt einige Umformulierungen von bekannten Aussagen: Satz 9.18 Es seien metrische Räume X und Y , eine Teilmenge D ⊆ X und eine Funktion f : D −→ Y gegeben. Der Punkt a ∈ X sei ein Häufungspunkt von D. Dann gelten die folgenden Aussagen. (1) Genau dann gilt limx→a f (x) = b, wenn für jede Folge (xn )n von Punkten in D \ {a}, die gegen a konvergiert, die Folge der Funktionswerte f (xn ) gegen b konvergiert. (2) Der Grenzwert limx→a f (x) existiert genau dann, wenn es eine Funktion F : D ∪ {a} −→ Y gibt, die im Punkt a stetig ist und die F (x) = f (x) für alle x ∈ D \ {a} erfüllt. In diesem Fall ist F (a) = limx→a f (x). (3) Im Falle a ∈ D ist f genau dann stetig im Punkt a, wenn limx→a f (x) = f (a) gilt. Man beachte, dass wir in (3) – im Gegensatz zu (1) und (2) und zu Definition 9.16 – voraussetzen, dass der betrachtete Punkt a zum Definitionsbereich D von f gehört. Dies ist erforderlich, da wir andernfalls nicht von der Stetigkeit von f in diesem Punkt sprechen könnten. Beweis. (1) Der Beweis verläuft fast wörtlich wie der Beweis des Folgenkriteriums (Satz 9.6). Aus Gründen der Vollständigkeit führen wir ihn dennoch aus: =⇒ “: Es sei limx→a f (x) = b. Es sei (xn )n eine Folge in D \ {a} mit limn→∞ xn = a. ” Es sei ein ε > 0 gegeben. Dazu gibt es wegen limx→a f (x) = b ein δ > 0 mit f (D ∩ U̇δ (a)) ⊆ Uε (b). 129 Zu diesem δ gibt es wegen limn→∞ xn = a ein N mit xn ∈ Uδ (a) für alle n ≥ N . Aufgrund der Voraussetzungen über die Folge (xn )n ist sogar xn ∈ D ∩ U̇δ (a) für alle n ≥ N . Damit folgt f (xn ) ∈ Uε (b) für alle n ≥ N . Dies zeigt limn→∞ f (xn ) = b. ⇐=“: Diese Implikation beweisen wir mittels Kontraposition. Wir setzen also voraus, ” dass der Grenzwert limx→a f (x) gar nicht existiert oder jedenfalls nicht b ist. Dann gilt: ∃ ε>0 ∀ δ>0 ∃ x∈D\{a} dX (x, a) < δ ∧ dY (f (x), b) ≥ ε . Wenn wir hierin δ = mit 1 n wählen, erhalten wir für jedes n ∈ N einen Punkt xn ∈ D \ {a} xn ∈ U1/n (a) und f (xn ) 6∈ Uε (b). Somit ist (xn )n eine Folge von Punkten in D \ {a} mit limn→∞ xn = a, deren Bildfolge (f (xn ))n entweder divergiert oder gegen einen Wert 6= b konvergiert. (2) Den Definitionsbereich der Funktion F , um die es in (2) geht, bezeichnen wir zur Abkürzung mit Da := D ∪ {a}. =⇒“: Der Grenzwert limx→a f (x) =: b möge existieren. Wir definieren die Funktion ” F : D ∪ {a} −→ Y durch ( f (x) für alle x ∈ D \ {a} , F (x) := b für x = a. Es gilt dann F (x) = f (x) für alle x ∈ D \ {a}. Nach Definition des Grenzwerts gilt ∀ ε>0 ∃ δ>0 f (D ∩ U̇δ (a)) ⊆ Uε (b) = Uε (F (a)) . Wegen F (Da ∩ Uδ (a)) = f (D ∩ U̇δ (a)) ∪ {F (a)} und weil F (a) natürlich stets in Uε (F (a)) liegt, folgt hieraus auch ∀ ε>0 ∃ δ>0 F (Da ∩ Uδ (a)) ⊆ Uε (F (a)) . Dies bedeutet gerade, dass F : Da −→ Y in a stetig ist. ⇐=“: Nun sei umgekehrt vorausgesetzt, dass eine Funktion F mit den in (2) genannten ” Eigenschaften existiert. Dann gilt also ∀ ε>0 ∃ δ>0 F (D ∩ Uδ (a)) ⊆ Uε (F (a)) . Wegen F (x) = f (x) für alle x ∈ D \ {a} folgt insbesondere ∀ ε>0 ∃ δ>0 f (D ∩ U̇δ (a)) ⊆ Uε (F (a)) . Dies zeigt, dass der Grenzwert limx→a f (x) existiert und gleich F (a) ist. Damit ist (2) bewiesen. (3) Nun sei a ∈ D. Es sei f stetig in a. Dann hat F := f : D −→ Y die in (2) genannten Eigenschaften. Gemäß (2) existiert also der Grenzwert limx→a f (x), und es ist limx→a f (x) = F (a) = f (a). 130 Nun sei umgekehrt limx→a f (x) = f (a) vorausgesetzt. Dann existiert insbesondere der Grenzwert limx→a f (x). Aus (2) folgt die Existenz einer Funktion F : D −→ Y , die im Punkt a stetig ist und F (x) = f (x) für alle x ∈ D \ {a} sowie F (a) = limx→a f (x) erfüllt. Es ist dann also F (a) = limx→a f (x) = f (a). Damit ist F (x) = f (x) für alle x ∈ D, d.h. F = f . Mit F ist also auch f stetig in a. In der Situation von Satz 9.18 (2) sagt man: Die Funktion f ist im Punkt a stetig ergänzbar. Durch geeignete Neufestsetzung oder Abänderung des Wertes im Punkt a erhält man eine Funktion F , die im Punkt a stetig ist. Satz 9.19 (Rechenregeln) Es sei D eine Teilmenge von Rn oder von Cn , der Punkt a sei ein Häufungspunkt von D, und Y sei einer der Räume Rm oder Cm . Für die Funktionen f : D −→ Y und g : D −→ Y mögen die Grenzwerte lim f (x) =: α x→a und lim g(x) =: β x→a existieren. Dann gelten die folgenden Aussagen. (1) Es ist limx→a (f + g)(x) = α + β. (2) Im Falle m = 1 ist limx→a (f g)(x) = αβ. (3) Im Falle m = 1 und β 6= 0 gilt α f (x) = . x→a g β lim (4) Es sei Y = R, und es existiere ein δ > 0 mit f (x) ≤ g(x) für alle x ∈ D ∩ U̇δ (a). Dann gilt α ≤ β. Beweis. Kraft Satz 9.18 (1) können diese Rechenregeln auf Aussagen über Folgen zurückgeführt werden. Man kann daher fast wörtlich wie im Beweis von Satz 9.8 vorgehen, wobei an die Stelle des Folgenkriteriums nun Satz 9.18 (1) tritt. 9.6 Uneigentliche und einseitige Grenzwerte Für reellwertige Funktionen f : I −→ R auf reellen Intervallen I haben wir den Grenzwert limx→a f (x) bisher nur für den Fall definiert, dass a ∈ R (und a ein Häufungspunkt von I) ist. Ebenso sind als Grenzwerte bisher nur reelle Zahlen zugelassen. Oft möchte man aber auch +∞ oder −∞ als Grenzwerte im weiteren Sinn (sog. uneigentliche Grenzwerte) ansehen, oder man möchte das Verhalten von f (x) für x → ±∞ untersuchen. Hierzu müssen wir den Grenzwertbegriff etwas erweitern. Wir wollen uns dabei natürlich so weit wie möglich an den bisherigen Definitionen orientieren. In diesen spielten (ε- oder δ-)Umgebungen die zentrale Rolle. Bei der Definition uneigentlicher Grenzwerte oder von Grenzwerten bei ±∞ treten an deren Stelle Intervalle der Gestalt ]R, ∞[ bzw. ] − ∞, −R[ mit R > 0; diese kann man als Umgebungen von ∞ auffassen. (Hierbei sollte man bei R an große“ reelle Zahlen denken.) ” Auch Folgen reeller Zahlen sind häufig in einer so übersichtlichen Weise divergent, dass man ihnen einen uneigentlichen Grenzwert ∞ oder −∞ zuschreiben möchte. Dies geschieht ganz analog wie bei Funktionen. 131 Definition 9.20 (1) Eine Folge (xn )n von reellen Zahlen xn heißt bestimmt divergent gegen ∞, falls es zu jedem R > 0 eine natürliche Zahl N gibt mit xn ≥ R für alle n ≥ N . Man schreibt in diesem Fall lim xn = ∞. n→∞ Analog werden die bestimmte Divergenz gegen −∞ und die Schreibweise limn→∞ xn = −∞ erklärt. (2) Es sei f : D −→ R eine Funktion auf einer Teilmenge D von R. Der Punkt a ∈ R sei ein Häufungspunkt von D. Man schreibt lim f (x) = ∞, x→a falls die folgende Bedingung erfüllt ist: Zu jedem R > 0 gibt es ein δ > 0, so dass f (x) ≥ R für alle x ∈ D ∩ U̇δ (a). Man nennt ∞ den uneigentlichen Grenzwert von f (x) für x → a. Analog erklärt man den uneigentlichen Grenzwert limx→a f (x) = −∞. (3) Es sei f : ]x0 , ∞[−→ R eine Funktion auf einem Intervall ]x0 , ∞[ mit x0 ∈ R. Es sei c ∈ R. Man schreibt lim f (x) = c, x→∞ falls die folgende Bedingung erfüllt ist: Zu jedem ε > 0 gibt es ein % ≥ x0 mit f (x) ∈ Uε (c) für alle x ≥ %. Man nennt c den (eigentlichen) Grenzwert von f (x) für x → ∞. Analog erklärt man Grenzwerte limx→−∞ f (x) von Funktionen f : ] − ∞, x0 [−→ R mit x0 ∈ R. (4) Es sei f : ]x0 , ∞[−→ R eine Funktion auf einem Intervall ]x0 , ∞[ mit x0 ∈ R. Man schreibt lim f (x) = ∞, x→∞ falls die folgende Bedingung erfüllt ist: Zu jedem R > 0 gibt es ein % > 0 mit f (x) ≥ R für alle x ≥ %. Man nennt ∞ den uneigentlichen Grenzwert von f (x) für x → ∞. Analog erklärt man die uneigentlichen Grenzwerte limx→∞ f (x) = −∞, limx→−∞ f (x) = ∞ und limx→−∞ f (x) = −∞. Bemerkung 9.21 Satz 9.18 (1) und die Rechenregeln in Satz 9.19 bleiben im Wesentlichen sinngemäß für uneigentliche Grenzwerte und Grenzwerte bei ±∞ gültig. Im Falle uneigentlicher Grenzwerte α und β muss man dabei allerdings voraussetzen, dass α + β, αβ beziehungsweise αβ auf sinnvolle Weise“ definiert werden können. Beispielsweise ist ” ∞ für α > 0, α + ∞ := ∞ für α ∈ R, ∞ + ∞ := ∞ α · ∞ := −∞ für α < 0 zu setzen. Ausdrücke wie ∞ − ∞, 0 · ∞, 0 0 oder ∞ ∞ müssen zwangsläufig undefiniert bleiben. Beweisen kann man diese Aussagen, indem man sie – wie beim Beweis von Satz 9.19 angedeutet – auf entsprechende Rechenregeln für Folgen zurückführt. Wir verzichten darauf, dies näher auszuführen. 132 Beispiel 9.22 Man zeigt leicht lim xn x→∞ ∞ für n ∈ N, 1 für n = 0, = 0 für n ∈ Z, n < 0, lim exp(x) = ∞, lim exp(x) = 0, x→∞ lim x→0 x→−∞ 1 = ∞. x2 Hierbei folgt limx→∞ exp(x) = ∞ aus der für alle x > 0 gültigen Abschätzung exp(x) = ∞ X xk k=0 x2 x3 =1+x+ + + · · · > 1 + x. k! 2! 3! Wegen exp(−x) = 1/ exp(x) folgt dann auch limx→−∞ exp(x) = 0. Die übrigen Behauptungen bedürfen sicherlich keiner weiteren Begründung. Im letzten Beispiel kann man statt 1/x2 auch das Verhalten von 1/x, 1/x3 usw. in der Nähe von Null betrachten. Hierfür erweist es sich aber als notwendig, einseitige Grenzwerte zu definieren. Definition 9.23 Es sei f : D −→ R eine Funktion auf einer Teilmenge D von R. Der Punkt a ∈ R sei ein Häufungspunkt von D ∩ ] − ∞, a[. Die Funktion f hat für x → a den linksseitigen Grenzwert c ∈ R, und man schreibt lim f (x) = c, x→a− falls die folgende Bedingung erfüllt ist: ∀ ε>0 ∃ δ>0 f (D ∩ ]a − δ, a[ ) ⊆ Uε (c). Unter der Voraussetzung, dass a ein Häufungspunkt von D ∩ ]a, ∞[ ist, definiert man analog den rechtsseitigen Grenzwert von f für x → a und die Schreibweise limx→a+ f (x) = c. Ebenso kann man uneigentliche links- und rechtsseitige Grenzwerte ähnlich wie in Definition 9.20 (2) erklären. Die einseitigen Grenzwerte können auch als gewöhnliche Grenzwerte (im Sinne der Definitionen 9.16 und 9.20) aufgefasst werden, nämlich als Grenzwerte der Einschränkungen (Restriktionen) von f auf D ∩ ] − ∞, a[ bzw. auf D ∩ ]a, ∞[. Somit gelten die Rechenregeln und Konvergenzkriterien für Grenzwerte sinngemäß auch für einseitige Grenzwerte. Beispiel 9.24 Man bestätigt leicht 1 1 lim n = ∞, lim n = −∞ für ungerade x→0+ x x→0− x lim sgn (x) = 1, lim sgn (x) = −1, x→0+ x→0− 1 1 lim exp = ∞, lim exp = 0. x→0+ x→0− x x n > 0, Die vorletzte Behauptung folgt (wie in Beispiel 9.22) aus exp(t) > 1 + t für alle t > 0, und die letzte ergibt sich dann mittels exp(−t) = 1/ exp(t). 133 10 Abbildungseigenschaften stetiger Funktionen Die wichtigsten Ergebnisse dieses Kapitels sind der Satz vom Maximum und der Zwischenwertsatz. Allgemeiner wird untersucht, wie sich topologische Eigenschaften von Mengen (nämlich Offenheit, Abgeschlossenheit und Kompaktheit) unter der Einwirkung von stetigen Abbildungen verhalten. 10.1 Bilder kompakter Mengen Der folgende Satz zählt zu den zentralen Resultaten der Analysis. Satz 10.1 Es seien X und Y metrische Räume und f : X −→ Y eine stetige Abbildung. Für jede kompakte Teilmenge K von X ist dann das Bild f (K) kompakt in Y . Beweis. Es sei eine kompakte Teilmenge K ⊆ X gegeben. Es sei (yn )n eine Folge in f (K). Dann gibt es eine Folge (xn )n in K mit yn = f (xn ) für alle n. Da K kompakt ist, besitzt (xn )n gemäß Definition 8.9 eine Teilfolge (xnj )j , die gegen ein a ∈ K konvergiert. Da f stetig ist, ergibt sich aus dem Folgenkriterium (Satz 9.6), dass die Bildfolge (ynj )j = (f (xnj ))j gegen f (a) konvergiert. Hierbei ist f (a) ∈ f (K). Also hat (yn )n eine konvergente Teilfolge mit Grenzwert in f (K). Dies zeigt, dass f (K) kompakt ist. Ein wichtiger Spezialfall hiervon ist der sog. Satz vom Maximum. Wir müssen zunächst erklären, was wir unter einem Maximum einer Funktion verstehen. Definition 10.2 Es sei f : D −→ R eine reellwertige Funktion auf irgendeiner Menge D 6= ∅. Die Funktion f hat im Punkt a ∈ D ein Maximum oder ein absolutes Maximum, falls f (x) ≤ f (a) für alle x ∈ D gilt. Sie hat in a ein Minimum oder ein absolutes Minimum, falls f (x) ≥ f (a) für alle x ∈ D. Korollar 10.3 (Satz vom Maximum) Es sei K eine kompakte, nicht-leere Teilmenge von Rm oder Cm , und f : K −→ R sei eine stetige Funktion. Dann besitzt f auf K sowohl ein absolutes Maximum als auch ein absolutes Minimum. Beweis. Nach Satz 10.1 ist f (K) eine kompakte Teilmenge von R. Nach Proposition 8.12 besitzt f (K) daher ein Maximum und ein Minimum. Es gibt also a, b ∈ K mit f (a) ≤ f (x) ≤ f (b) für alle x ∈ K. Dies bedeutet gerade, dass f auf K ein Maximum (in b) und ein Minimum (in a) annimmt. Der Beweis des Satzes liefert kein Verfahren, wie man die Maximalstelle b und den Maximalwert f (b) finden kann. Unter stärkeren Voraussetzungen an f stellt die Differentialrechnung Methoden hierfür bereit. 134 10.2 Topologische Kennzeichnung der Stetigkeit Die Stetigkeit einer Funktion kann durch die Urbilder abgeschlossener Mengen oder offener Mengen gekennzeichnet werden: Satz 10.4 Es seien X und Y metrische Räume. Für eine Funktion f : X −→ Y sind die folgenden drei Aussagen äquivalent: (a) Die Funktion f ist stetig. (b) Für jede offene Menge V in Y ist das Urbild f −1 (V ) offen in X. (c) Für jede abgeschlossene Menge B in Y ist das Urbild f −1 (B) abgeschlossen in X. Beweis. (b) ⇐⇒ (c)“: Für jede Teilmenge W von Y gilt ” X \ f −1 (W ) = {x ∈ X | f (x) 6∈ W } = {x ∈ X | f (x) ∈ Y \ W } = f −1 (Y \ W ) . Das Komplement des Urbildes von W ist also gleich dem Urbild des Komplementes von W . Weil abgeschlossene Mengen die Komplemente offener Mengen sind und umgekehrt, folgt damit die Äquivalenz der Aussagen (b) und (c). Ausführlich begründet man das wie folgt: Es sei (b) gültig. Es sei B ⊆ Y abgeschlossen. Dann ist Y \ B offen. Nach (b) ist das Urbild f −1 (Y \ B) offen. Wegen f −1 (Y \ B) = X \ f −1 (B) bedeutet dies, dass f −1 (B) abgeschlossen ist. Damit ist (c) gezeigt. Analog schließt man für die Implikation (c) =⇒ (b)“. ” (a) =⇒ (b)“: Nun wird die Stetigkeit von f vorausgesetzt. Es sei eine offene Menge V ⊆ Y ” gegeben. Es sei a ∈ f −1 (V ). Dann ist b := f (a) ∈ V . Weil V offen ist, gibt es ein ε > 0 mit Uε (b) ⊆ V . Weil f im Punkt a stetig ist, gibt es hierzu ein δ > 0 mit f (Uδ (a)) ⊆ Uε (b) ⊆ V . Es folgt Uδ (a) ⊆ f −1 (f (Uδ (a))) ⊆ f −1 (V ). Zu jedem a ∈ f −1 (V ) gibt es also ein δ > 0, so dass Uδ (a) ⊆ f −1 (V ). Daher ist f −1 (V ) offen. Damit ist die Implikation (a) =⇒ (b) bewiesen. (b) =⇒ (a)“: Es sei (b) gültig. Es sei ein Punkt a ∈ X gegeben. Wir wollen zeigen, ” dass f in a stetig ist. Hierzu sei eine Zahl ε > 0 gegeben. Wir setzen b := f (a). Die Menge V := Uε (b) ist offen. Nach Voraussetzung ist daher auch U := f −1 (V ) offen. Wegen a ∈ U gibt es also ein δ > 0 mit Uδ (a) ⊆ U . Es folgt f (Uδ (a)) ⊆ f (U ) = f (f −1 (V )) ⊆ V = Uε (b). Hierbei haben wir die Inklusion f (f −1 (V )) ⊆ V benutzt. Diese begründet man wie folgt: Es sei y ∈ f (f −1 (V )) beliebig. Dann gibt es ein x ∈ f −1 (V ) mit f (x) = y. Wegen x ∈ f −1 (V ) gilt f (x) ∈ V , also y = f (x) ∈ V . Da dies für alle y ∈ f (f −1 (V )) gilt, ist damit f (f −1 (V )) ⊆ V gezeigt. Warnung: I. Allg. gilt in dieser Inklusion keine Gleichheit. Somit ist f stetig im Punkt a. Das gilt für jedes a ∈ X. Damit ist die Implikation (b) =⇒ (a) bewiesen. 135 In Korollar 10.6 wollen wir eine einfache, aber nützliche Folgerung aus Satz 10.4 explizit festhalten. Zu deren Beweis benötigen wir das folgende möglicherweise etwas spitzfindig wirkende Lemma. Lemma 10.5 Es sei (X, d) ein metrischer Raum. Es seien A ⊆ X abgeschlossen in X und C ⊆ A abgeschlossen in A (d.h. in dem metrischen Raum (A, d)). Dann ist C auch abgeschlossen in X. Beweis. Wir benutzen die Charakterisierung von Abgeschlossenheit aus Satz 8.6 (c). Es sei (cn )n eine Folge in C, die in X konvergiert, die also einen Grenzwert x0 ∈ X besitzt. Wir müssen zeigen, dass x0 ∈ C ist. Wegen C ⊆ A ist (cn )n auch eine Folge in A. Da sie in X konvergiert und A in X abgeschlossen ist, gilt x0 ∈ A nach Satz 8.6 (c). Also ist (cn )n sogar in A konvergent. Da C abgeschlossen in A ist, folgt wiederum aus Satz 8.6 (c) nunmehr auch x0 ∈ C. Für alle Folgen (cn )n in C, die in X konvergieren, gilt also limn→∞ cn ∈ C. Gemäß Satz 8.6 (c) ist C daher abgeschlossen in X. Korollar 10.6 Es sei A eine abgeschlossene Teilmenge eines metrischen Raumes X, und f : A −→ R sei eine stetige Funktion. Für jedes c ∈ R sind dann die Mengen {x ∈ A | f (x) ≤ c} und f −1 ({c}) = {x ∈ A | f (x) = c} abgeschlossene Teilmengen von X. Beweis. Zur Abkürzung setzen wir C := {x ∈ A | f (x) ≤ c}. Dann ist C = f −1 (] − ∞, c]). Da das Intervall ] − ∞, c] abgeschlossen und die Funktion f : A −→ R stetig ist, ist C nach Satz 10.4 abgeschlossen in A (d.h. als Teilmenge des metrischen Raumes A, versehen mit derselben Metrik wie X). Da A abgeschlossen in X ist, folgt aus Lemma 10.5, dass C auch abgeschlossen in X ist. Völlig analog argumentiert man für die Menge f −1 ({c}), die als Urbild des abgeschlossenen Intervalls {c} abgeschlossen ist – zunächst in A, sodann dank Lemma 10.5 auch in X. Korollar 10.6 ist von großer praktischer Relevanz zum Nachweis der Abgeschlossenheit: Alle wie in Korollar 10.6 durch Gleichungen und nicht-strikte Ungleichungen zwischen stetigen Funktionen definierten Mengen sind abgeschlossen. Dies verallgemeinert einen Gedanken, der uns bereits in Beispiel 8.11 (1) – (3) beim Nachweis der Abgeschlossenheit der dort vorkommenden Mengen begegnet war. 10.3 Der Zwischenwertsatz Eine der wichtigsten Eigenschaften stetiger Funktionen f : I −→ R auf Intervallen ist die Zwischenwerteigenschaft: Mit je zwei Werten nimmt f auch alle dazwischenliegenden Werte an. Der folgende Nullstellensatz ist ein Spezialfall, der aber bereits alles Wesentliche enthält. 136 Satz 10.7 (Nullstellensatz von Bolzano) Es sei I = [a, b] ein kompaktes Intervall, und f : I −→ R sei eine stetige Funktion mit f (a) < 0 < f (b) oder mit f (b) < 0 < f (a). Dann besitzt f wenigstens eine Nullstelle im offenen Intervall ]a, b[. Wir geben zwei Beweise für diesen wichtigen Satz. Beweis 1. Die Grundidee des ersten Beweises ist recht anschaulich: Wir halbieren das Intervall I. In (mindestens) einem der beiden entstehenden Teilintervalle hat f dann einen Vorzeichenwechsel. Dieses Teilintervall halbieren wir erneut und greifen wieder das Teilintervall heraus, in dem f das Vorzeichen wechselt, usw. Auf diese Weise erhalten wir eine Intervallschachtelung (In )n , bei der f in jedem In einen Vorzeichenwechsel hat. Diese definiert einen Punkt x0 ∈ I. Aufgrund der Stetigkeit von f entpuppt sich x0 als Nullstelle von f . Wenn man diese Idee umsetzt, erweist es sich als günstig, die Bedingung f hat einen ” Vorzeichenwechsel in In“ durch die etwas stärkere und technisch leichter zu handhabende Bedingung f hat an den beiden Intervallgrenzen von In unterschiedliches Vorzeichen“ zu ” ersetzen. Nun zu den Details: Es genügt, den Fall f (a) < 0 < f (b) zu betrachten. (Andernfalls ersetzen wir f durch −f .) Wir definieren eine Folge (In )n≥0 von Intervallen In = [an , bn ] ⊆ I rekursiv wie folgt: Es sei I0 := I. Ist In für ein n ∈ N0 bereits definiert, so setzen wir cn := 21 (an + bn ) und ( [an , cn ], falls f (an ) · f (cn ) < 0, In+1 := [cn , bn ] sonst. Es gilt dann offensichtlich In+1 ⊆ In und |bn+1 − an+1 | = 21 · |bn − an | für alle n, und induktiv folgt |bn − an | = 21n · |b0 − a0 | für alle n. Daher ist (In )n eine T Intervallschachtelung. Diese legt nach Satz 2.24 eine (eindeutig bestimmte) reelle Zahl x0 ∈ ∞ n=0 In fest. Nach Satz 5.15 gilt x0 = limn→∞ an = limn→∞ bn . Aufgrund der Stetigkeit von f in x0 erhält man mit dem Folgenkriterium (Satz 9.6) f (x0 ) = lim f (an ) = lim f (bn ). n→∞ n→∞ Wir können annehmen, dass f (cn ) 6= 0 für alle n ist. (Andernfalls ist die Behauptung des Satzes gezeigt.) Induktiv ergibt sich dann aus unserer Konstruktion, dass f in jedem In einen Vorzeichenwechsel hat, präziser: dass f (an ) < 0 < f (bn ) für alle n gilt. Für n = 0 folgt dies aus der Voraussetzung f (a) < 0 < f (b). Es sei f (an ) < 0 < f (bn ) für ein n bereits gezeigt. Falls f (an ) · f (cn ) < 0 ist, so ist gemäß obiger Konstruktion an+1 = an , bn+1 = cn , und aus f (an ) < 0 folgt f (cn ) > 0, so dass man f (an+1 ) = f (an ) < 0 < f (cn ) = f (bn+1 ) erhält. Andernfalls ist f (an ) · f (cn ) ≥ 0, und mit f (an ) < 0 und der Annahme f (cn ) 6= 0 folgt f (cn ) < 0; ferner ist in diesem Fall an+1 = cn , bn+1 = bn , und es ergibt sich f (an+1 ) = f (cn ) < 0 < f (bn ) = f (bn+1 ). Damit folgt nun insgesamt 0 ≥ lim f (an ) = f (x0 ) = lim f (bn ) ≥ 0, n→∞ n→∞ Dies zeigt die Behauptung. also f (x0 ) = 0. 137 Beweis 2. Wiederum genügt es, den Fall f (a) < 0 < f (b) zu diskutieren. Man betrachtet die Menge A := {t ∈ I | f (t) ≤ 0}. f (b) A A x0 a b f (a) Abbildung 15: Zum 2. Beweis des Nullstellensatzes Wegen a ∈ A ist A 6= ∅, und mit I ist auch A beschränkt. Wegen der Vollständigkeit von R existiert also das Supremum x0 := sup A, und es ist a ≤ x0 ≤ b, also x0 ∈ I. Nach Proposition 2.34 gibt es zu jedem n ∈ N einen Punkt xn ∈ A mit x0 − n1 < xn ≤ x0 . Es folgt limn→∞ xn = x0 . Wegen xn ∈ A gilt f (xn ) ≤ 0 für alle n. Aus der Stetigkeit von f im Punkt x0 ergibt sich also mit dem Folgenkriterium (Satz 9.6) f (x0 ) = f ( lim xn ) = lim f (xn ) ≤ 0. n→∞ n→∞ Somit ist x0 ∈ A und insbesondere x0 < b (da f (x0 ) ≤ 0 < f (b)). Weil x0 obere Schranke von A ist, gilt f (t) > 0 für alle t ∈ ]x0 , b]. Es gibt eine Folge (yn )n in ]x0 , b] mit limn→∞ yn = x0 . Hieraus und aus der Stetigkeit von f folgt f (x0 ) = lim f (yn ) ≥ 0. n→∞ Damit ist f (x0 ) = 0 bewiesen. Bemerkung 10.8 (1) Die Funktion f in Satz 10.7 kann selbstverständlich mehrere Nullstellen haben. Im zweiten Beweis wird die größte herausgegriffen. (2) Der Nullstellensatz scheint anschaulich evident zu sein. Der Grund hierfür ist die Vorstellung von der Lückenlosigkeit der Zahlengeraden. Diese spiegelt sich im Vollständigkeitsaxiom wider. Tatsächlich benutzen beide Beweise wesentlich die Vollständigkeit von R (im ersten Fall in Form des Intervallschachtelungsprinzips). Betreibt man Analysis über Q, so ist der Nullstellensatz nicht mehr richtig: Beispielsweise hat die durch f (x) := x2 − 2 definierte Funktion f : Q −→ Q keine Nullstelle in Q. 138 Dedekind berichtet, er habe bei der Vorbereitung einer Anfängervorlesung (etwa um 1870) bemerkt, dass für diesen Satz noch niemals ein strenger Beweis gegeben worden sei. Das war für ihn der Anlass, seine Theorie der reellen Zahlen zu entwickeln. Satz 10.9 (Zwischenwertsatz von Bolzano) Es sei f : I −→ R eine stetige Funktion auf einem echten Intervall I. Es sei α = inf f (I) und β = sup f (I). Dann nimmt f jede reelle Zahl y mit α < y < β mindestens einmal als Wert an. Beweis. Im Fall α = β ist nichts zu zeigen. Es sei also α < β, und es sei eine Zahl y mit α < y < β gegeben. Dann existieren nach Definition des Infimums bzw. Supremums Punkte a, b ∈ I mit α < f (a) < y < f (b) < β. Es sei J das kompakte Intervall [a, b] oder [b, a], je nachdem ob a < b oder a > b ist. Wir fassen g(t) := f (t) − y als Funktion auf J auf. Diese Funktion ist stetig und erfüllt g(a) < 0 < g(b). Nach Satz 10.7 gibt es also wenigstens eine Stelle x0 ∈ J ⊆ I mit g(x0 ) = 0, und es folgt f (x0 ) = y. Bevor wir zu Anwendungen des Zwischenwertsatzes kommen, hier zwei Beispiele dafür, dass dieser Satz auch in unserem Alltagsleben eine Rolle spielt: • Empfinden wir das Duschwasser bei Stellung S1 des Misch-Hebels als zu kalt, bei Stellung S2 hingegen als zu warm, so können wir sicher sein, dass es dazwischen eine Stellung gibt, bei der wir die Temperatur als angenehm empfinden. • Wenn man ein neues asiatisches Essensrezept ausprobiert und das Essen beim ersten Zubereiten zu scharf und beim zweiten Versuch (mit der Hälfte an Gewürzen) fade schmeckt, so wissen wir, dass es irgendwo“ dazwischen einen Punkt geben muss, an ” dem der Grad an Schärfe gerade als richtig“ empfunden wird. (Diesen Punkt kann man ” z.B. mithilfe einer Intervallschachtelung herauszufinden versuchen. Wesentlich hierfür .) ist allerdings die Vollständigkeit von R Die nächsten drei Resultate sind einfache, aber wichtige Anwendungen des Zwischenwertsatzes. Korollar 10.10 Es sei f : I −→ R eine stetige Funktion auf einem echten Intervall I. Dann ist die Bildmenge f (I) ein Intervall. Beweis. Aus Satz 10.9 geht hervor, dass J := f (I) ein Intervall mit den Endpunkten α = inf J und β = sup J ist. Es spielt keine Rolle, ob die Endpunkte zu J gehören. Korollar 10.11 Es sei p : R −→ R ein Polynom mit reellen Koeffizienten und mit ungeradem Grad. Dann besitzt p wenigstens eine reelle Nullstelle. 139 Beweis. Es bezeichne n den Grad von p. Mit gewissen reellen Zahlen a0 , a1 , . . . , an und an 6= 0 ist dann p(x) = an xn + an−1 xn−1 + . . . + a1 x + a0 . Wir setzen ck := ak /an . Für alle x 6= 0 gilt dann p(x) = an xn f (x) mit f (x) = 1 + cn−1 c1 c0 + . . . + n−1 + n . x x x Die Beispiele in Abschnitt 9.6 und die Rechenregeln in Satz 9.19 zeigen lim f (x) = lim f (x) = 1. x→∞ x→−∞ Folglich gibt es eine Zahl R > 0 mit f (x) > 0 für alle reellen x mit |x| ≥ R. Weil n ungerade ist, haben daher p(R) und p(−R) verschiedene Vorzeichen. Nach Satz 10.9 (oder auch Satz 10.7) gibt es also einen Punkt x0 ∈] − R, R [ mit p(x0 ) = 0. Korollar 10.12 (Fixpunktsatz) Es sei I = [a, b] ein kompaktes Intervall und f : I −→ I eine stetige Funktion. Dann gibt es wenigstens einen Punkt x0 ∈ I mit f (x0 ) = x0 , d.h. einen Fixpunkt von f . Beweis. Wenn f (a) = a oder f (b) = b ist, dann gilt die Behauptung. Man kann daher f (a) 6= a und f (b) 6= b voraussetzen. Wegen f (I) ⊆ I gilt dann f (a) > a, f (b) < b. Durch g(x) := f (x) − x wird eine stetige Funktion g : I −→ R definiert (Satz 9.8 (1)). Es gilt g(a) = f (a) − a > 0 und g(b) = f (b) − b < 0. Nach Satz 10.7 besitzt g also eine Nullstelle in I, und diese ist ein Fixpunkt von f . 10.4 Umkehrfunktionen stetiger Funktionen In einer etwas schwierigeren Anwendung des Zwischenwertsatzes wird jetzt die Stetigkeit der Umkehrfunktionen von streng monotonen stetigen Funktionen bewiesen. Definition 10.13 Es sei f : I −→ R eine Funktion auf einem echten Intervall I. Man nennt f monoton steigend oder monoton wachsend, falls f (u) ≤ f (v) für alle u, v ∈ I mit u < v f (u) < f (v) für alle u, v ∈ I mit u < v gilt. Falls sogar gilt, dann heißt f streng monoton steigend. Analog wird erklärt, wann f monoton fallend beziehungsweise streng monoton fallend heißt. Man nennt f monoton, wenn f monoton steigend oder monoton fallend ist, und man nennt f streng monoton, wenn f streng monoton steigend oder streng monoton fallend ist. Offensichtlich ist jede streng monotone Funktion injektiv. Für stetige Funktionen auf Intervallen gilt sogar die Umkehrung: 140 Satz 10.14 Es sei f : I −→ R eine stetige Funktion auf einem echten Intervall I. Dann gelten die folgenden Aussagen: (1) Die Funktion f ist genau dann injektiv, wenn sie streng monoton ist. (2) Wenn f streng monoton steigt (fällt), dann existiert die Umkehrfunktion f −1 : f (I) −→ I, und diese ist streng monoton steigend (fallend) und stetig. Beweis. (1) Dass aus der strengen Monotonie die Injektivität von f folgt, ist klar. Ausführlich: O.B.d.A. sei f streng monoton steigend. Es seien x1 , x2 ∈ mit f (x1 ) = f (x2 ) gegeben. Wäre x1 < x2 , so wäre aufgrund der Monotonie f (x1 ) < f (x2 ), ein Widerspruch! Also ist x1 ≥ x2 . Analog folgt x1 ≤ x2 und damit insgesamt x1 = x2 . Dies zeigt die Injektivität von f . Nun wird vorausgesetzt, dass f injektiv ist. Wir wählen zwei Punkte a, b ∈ I mit a < b. Dann ist f (a) 6= f (b). O.B.d.A. dürfen wir f (a) < f (b) voraussetzen. (Anderenfalls betrachtet man −f anstelle von f ). Wir nehmen an, es gäbe ein x im offenen Intervall ]a, b[ mit f (x) ≤ f (a) oder f (x) ≥ f (b). Aus Satz 10.9 folgt dann im ersten Fall die Existenz eines t ∈ [x, b[ mit f (t) = f (a), und im zweiten Fall erhält man ein t ∈ ]a, x] mit f (t) = f (b). (Der Fall t = x tritt hierbei für f (x) = f (a) bzw. f (x) = f (b) ein.) Beides widerspricht der Injektivität von f . Damit ist f (a) < f (x) < f (b) für alle x ∈ ] a, b [ nachgewiesen. Für beliebige x, y mit a < x < y < b betrachtet man nun f auf den Intervallen [a, y] und [x, b], und wie zuvor erhält man f (a) < f (x) < f (y) < f (b). Also ist f auf [a, b] streng monoton steigend. Man kann das Teilintervall [a, b] in I beliebig (groß) wählen. Folglich ist f auf I streng monoton. Damit ist (1) bewiesen. (2) Wir dürfen o.B.d.A. annehmen, dass f streng monoton steigt. Nach (a) ist f injektiv, so dass die Umkehrfunktion g := f −1 : f (I) −→ I existiert. Ihr Definitionsbereich ist J := f (I), und nach Korollar 10.10 ist J ein Intervall. Zum Nachweis der Monotonie von g seien u, v ∈ J mit u < v gegeben. Wäre g(u) ≥ g(v), so würde aus dem monotonen Ansteigen von f u = f (g(u)) ≥ f (g(v)) = v folgen, ein Widerspruch. Also ist g(u) < g(v). Damit ist gezeigt, dass g streng monoton steigt. Wir müssen nun noch die Stetigkeit von g in einem beliebigen Punkt b ∈ J beweisen. Wir setzen a := g(b) und nehmen zunächst an, dass a kein Endpunkt von I ist. Für ein geeignetes r > 0 ist dann das kompakte Intervall [a − r, a + r] in I enthalten. Es sei ein ε > 0 gegeben. O.E. dürfen wir ε ≤ r annehmen. Dann gehören die Punkte a − ε und a + ε zu I, und wegen der strengen Monotonie von f gilt f (a − ε) < f (a) = b < f (a + ε). 141 f (x) 6 f (a + ε) =b+δ b b−δ f (a − ε) - a−ε a a+ε x Abbildung 16: Zur Stetigkeit der Umkehrfunktion (Satz 10.14 (2)) Für δ := min{b − f (a − ε), f (a + ε) − b} gilt daher δ > 0, und für jedes y ∈ Uδ (b) ist f (a − ε) < y < f (a + ε). Da J = f (I) ein Intervall ist, liegt jedes solche y zudem in J, also im Definitionsbereich von g. Weil g streng monoton steigt, folgt hieraus a − ε < g(y) < a + ε, d. h. |g(y) − a| < ε für alle y ∈ Uδ (b). Damit ist die Stetigkeit von g im Punkt b nachgewiesen. Es bleibt noch der Fall zu diskutieren, dass a ein Endpunkt von I ist. O.B.d.A. sei a der linke Endpunkt von I. Da f streng monoton steigt, ist dann b der linke Endpunkt von J. Für ein geeignetes r > 0 liegt das Intervall [a, a + r] noch ganz in I. Ist wieder ε > 0 mit o.E. ε ≤ r gegeben, so gehört a + ε zu I, und wir haben f (a) = b < f (a + ε). Wir setzen δ := f (a + ε) − b. Dann ist δ > 0, und für jedes y ∈ [b, b + δ[ ist f (a) ≤ y < f (a + ε). Weil f (I) ein Intervall ist, liegt jedes solche y zudem in f (I), so dass [b, b + δ[ ⊆ Uδ (b) ∩ f (I) gilt. Da b der linke Endpunkt des Intervalls J = f (I) ist, gilt auch Uδ (b) ∩ f (I) ⊆ [b, b + δ[, insgesamt also [b, b + δ[ = Uδ (b) ∩ f (I). 142 Mit der strengen Monotonie von g folgt nun a ≤ g(y) < a + ε, d. h. |g(y) − a| < ε für alle y ∈ Uδ (b) ∩ f (I). Auch in diesem Fall ist also g stetig in Punkt b. Da b ∈ J beliebig war, ist damit die Stetigkeit von g auf J nachgewiesen. Beispiel 10.15 In Satz 10.14 (1) sind sowohl die Stetigkeit von f als auch die Voraussetzung, dass der Definitionsbereich I ein Intervall ist, unverzichtbar. Dies zeigen die beiden folgenden Beispiele: (1) Es sei I := [−1, 1] und f : I −→ R definiert durch −x für − 1 ≤ x < 0, f (x) := x − 1 für 0 ≤ x ≤ 1. Dann ist f injektiv auf I, aber nicht monoton. Die Funktion f ist unstetig in x = 0. (2) Es sei D := [−1, 1] \ {0} und f : D −→ R definiert durch −x für − 1 ≤ x < 0, f (x) := x − 1 für 0 < x ≤ 1. Dann ist f stetig und injektiv auf D, aber nicht monoton. Mithilfe des Zwischenwertsatzes können wir nunmehr, wie in Bemerkung 2.26 angekündigt, die Existenz von Wurzeln beweisen. Dass diese stetig vom Radikanden abhängen, wird durch Satz 10.14 sichergestellt. Korollar 10.16 (Existenz und Stetigkeit von Wurzeln) (1) Es sei n ∈ N und a ∈ R mit a ≥ 0. Dann gibt es genau eine reelle Zahl w ≥ 0 mit wn = a. Man schreibt √ w = n a = a1/n und nennt w die n-te Wurzel aus a. (2) Für festes n ∈ N ist die Wurzelfunktion x 7→ streng monoton steigend. √ n x auf dem Intervall [0, ∞[ stetig und Beweis. Man betrachtet f (x) := xn als Funktion auf dem Intervall I := [0, ∞[. Dort ist f stetig (Korollar 9.12) und streng monoton steigend. Es sei ein a ≥ 0 gegeben. Dann gilt f (0) = 0 ≤ a ≤ 1 + a ≤ (1 + a)n = f (1 + a). Aus dem Zwischenwertsatz folgt daher die Existenz eines w ∈ [0, 1 + a] mit f (w) = a, d.h. wn = a. Da f streng monoton steigt, also injektiv ist, ist w eindeutig bestimmt. Dies zeigt die Behauptung in (1). Da f auf [0, ∞[ stetig ist und streng monoton steigt, ist nach Satz 10.14 die Umkehrfunktion f −1 :√f (I) −→ I streng monoton steigend und stetig. Sie ist gerade die Wurzelfunktion x 7→ n x, und nach dem soeben Gezeigten ist ihr Definitionsbereich f (I) = [0, ∞[. Damit ist auch (2) bewiesen. 143 y y √ 6 6 x5 x √ 5 x 1 x2 1 1 -x 1 - x Abbildung 17: Potenzen und Wurzeln Etwas schneller könnte man auch wie folgt argumentieren: Die Funktion f (x) := xn ist auf dem Intervall I := [0, ∞[ stetig und streng monoton steigend. Wegen f (x) = xn ≥ x für alle x ≥ 1 ist f (I) nicht nach oben beschränkt. Deswegen und weil f (I) nach Korollar 10.10 ein Intervall ist, gilt f (I) = [0, ∞[= I. Nach Satz 10.14 ist f −1 also auf I definiert, stetig und streng monoton steigend. Daraus folgen alle Behauptungen in (1) und (2). – Hierbei ist der Zwischenwertsatz auf dem Umweg über Korollar 10.10 eingeflossen. 144 11 Gleichmäßige Konvergenz Bei der Vertauschung von Grenzprozessen ist stets äußerste Vorsicht ratsam, wie bereits folgendes Beispiel zeigt: m m = 1 6= 0 = lim lim . lim lim m→∞ n→∞ m + n n→∞ m→∞ m + n Das Studium der Frage, wann das Vertauschen zweier Grenzprozesse dennoch möglich ist, ist eines der zentralen Themen der Analysis. Zu beachten ist dabei, dass auch die Stetigkeit über das Folgenkriterium eng mit Grenzprozessen zu tun hat und dass es sich – wie wir später sehen werden – auch bei der Differentiation und der Integration letztlich um Grenzprozesse handelt. 11.1 Punktweise und gleichmäßige Konvergenz und die Stetigkeit der Grenzfunktion Neue Funktionen werden häufig als Grenzfunktionen von Folgen oder Reihen bekannter einfacher“ Funktionen definiert – z.B. als Potenzreihen, die man als Grenzfunktionen von ” Folgen von Polynomen mit wachsendem Grad auffassen kann. Ein solches Beispiel haben wir bereits in Abschnitt 7.7 in Gestalt der Exponentialfunktion kennengelernt. Wir beginnen mit dem Studium allgemeiner Funktionenfolgen. Definition 11.1 Es seien D und W nichtleere Mengen. Für jedes n ∈ N0 sei eine Funktion fn : D −→ W gegeben. Dann heißt (fn )n eine Funktionenfolge oder eine Folge von Funktionen von D nach W . Pn Nun sei W = R oder W = C.PDann kann man die Summen sn = k=0 fk bilden. Die ∞ Funktionenfolge (sn )n wird mit k=0 fk bezeichnet, sie heißt eine unendliche Reihe von Funktionen, und die Funktionen sn heißen die Partialsummen dieser Reihe. Es stellt sich die Frage nach einem sinnvollen“ Konvergenzbegriff für Funktionenfolgen ” (fn )n . Am einfachsten ist es, für jedes x im Definitionsbereich der Funktionen die Konvergenz der Bildfolge (fn (x))n zu verlangen. Damit diese Forderung sinnvoll ist, sollte die Zielmenge W ein metrischer Raum sein. Definition 11.2 Es seien D eine nichtleere Menge, Y ein metrischer Raum und (fn )n eine Folge von Funktionen fn : D −→ Y . Diese Folge heißt in einem Punkt a ∈ D konvergent, falls die Folge (fn (a))n in Y konvergiert. Die Folge (fn )n heißt punktweise konvergent, falls für jedes x ∈ D die Folge (fn (x))n in Y konvergiert. In diesem Fall wird durch f (x) := lim fn (x) n→∞ für x∈D eine Funktion f : D −→ Y definiert. Sie heißt die Grenzfunktion der Folge (fn )n ; man schreibt f = lim fn . n→∞ Bei Funktionenfolgen ist man vor allem an Eigenschaften der Grenzfunktionen interessiert: Überträgt sich z.B. die Stetigkeit (oder Differenzierbarkeit oder Integrierbarkeit) von den einzelnen Funktionen der Folge auf die Grenzfunktion? 145 Beispiel 11.3 Es sei I := [0, 1] und fn (x) := xn für n ∈ N und x ∈ I. Alle Funktionen fn sind stetig auf I. Es gilt limn→∞ fn (x) = 0 für 0 ≤ x < 1. Für alle n ist fn (1) = 1. Somit existiert 0 für 0 ≤ x < 1, f (x) := lim fn (x) = n→∞ 1 für x = 1. Die Grenzfunktion f ist im Punkt 1 unstetig. Bemerkung 11.4 (Cauchy und die Stetigkeit der Grenzfunktion) Die Grenzfunktion einer punktweise konvergenten Folge von stetigen Funktionen kann also Unstetigkeitsstellen haben. Cauchy behauptete das Gegenteil: Die Grenzfunktion einer überall konvergenten Folge von reellwertigen Funktionen sei stetig. Es ist lehrreich, Cauchys falschen Beweis in die Weierstraßsche ε-δ-Terminologie“ zu übersetzen, um dann den Fehler zu lokalisieren37 : ” Cauchys Beweis“ in Weierstraßscher Terminologie: Es sei eine punktweise konver” gente Folge (fn )n von stetigen Funktionen fn : I −→ R auf einem Intervall I gegeben, und es sei f = limn→∞ fn die Grenzfunktion. Wir wollen die Stetigkeit von f in einem beliebigen Punkt a ∈ I beweisen. Es sei also eine Zahl ε > 0 gegeben. Wegen limn→∞ fn (x) = f (x) gibt es ein N , so dass für alle n ≥ N die Abschätzung |fn (x) − f (x)| < ε 3 (11.1) besteht. Das gilt insbesondere auch für x = a. Weil fN im Punkt a stetig ist, gibt es ein δ > 0 mit ε für alle x ∈ I mit |x − a| < δ. |fN (x) − fN (a)| < 3 Für alle diese x folgt nun mithilfe der Dreiecksungleichung |f (x) − f (a)| ≤ |f (x) − fN (x)| + |fN (x) − fN (a)| + |fN (a) − f (a)| < ε ε ε + + = ε. 3 3 3 Damit ist die Stetigkeit von f im Punkt a bewiesen“. ” Beispiel 11.3 zeigt, dass der Beweis“ nicht in Ordnung sein kann. Der Fehlschluss besteht ” darin, dass die Zahl N i. Allg. von der Stelle x abhängt. In der abschließenden Anwendung der Dreiecksungleichung wurde aber für jedes x ∈ I ∩ Uδ (a) dasselbe N verwendet38 . Wenn es ein solches von x unabhängiges N gibt, dann ist die Schlussweise vollkommen in Ordnung. Die Beweisanalyse führt somit zur Entdeckung eines stärkeren Konvergenzbegriffes, der für die Stetigkeit der Grenzfunktion hinreichend ist. 37 Letztlich beruht Cauchys Beweis“ auf einer aus heutiger Sicht unpräzisen und unhaltbaren Formulierung ” des Konvergenzbegriffs: Cauchys Definition für die Konvergenzaussage limn→∞ an = a kann folgendermaßen ausgedrückt werden: Für alle unendlich großen Zahlen n ist die Differenz an −a unendlich klein.“ Im Körper ” R der reellen Zahlen gibt es aber weder unendlich große“ noch unendlich kleine“ (infinitesimale) Zahlen. ” ” In der unpräzisen Terminologie von Cauchy fällt sein Fehler nicht auf – wohl aber in der logisch klaren ε-δ” Terminologie“. – Erst in den 1960er Jahren wurde (von Abraham Robinson) ein Ansatz entwickelt (die sog. Nicht-Standard-Analysis), um auch mit unendlich großen“ bzw. unendlich kleinen“ Zahlen logisch präzise ” ” und widerspruchsfrei operieren zu können. 38 Dies wurde dadurch verschleiert, dass (11.1) logisch unpräzise formuliert ist; es wird nicht erklärt, für welche x dies gilt, d.h. ob gemeint ist, dass es für alle x ein (evtl. von x abhängiges) N gibt, so dass (11.1) für alle n ≥ N gilt, oder ob gemeint ist, dass es ein N gibt, so dass (11.1) für alle n ≥ N und alle x gilt. 146 Definition 11.5 Es seien D 6= ∅ eine Menge, (Y, d) ein metrischer Raum und (fn )n eine Folge von Funktionen fn : D −→ Y . Diese Folge heißt gleichmäßig konvergent auf D mit der Grenzfunktion f : D −→ Y , falls es zu jeder Zahl ε > 0 eine natürliche Zahl N gibt, so dass für alle x ∈ D und alle n ≥ N die Ungleichung d(fn (x), f (x)) < ε gilt. In Quantorenschreibweise: ∀ε>0 ∃N ∈N ∀x∈D ∀n≥N d(fn (x), f (x)) < ε. Bemerkung 11.6 (1) In der Definition ist ausdrücklich gefordert, dass die Zahl N nur von ε und nicht von x abhängt. Es ist aufschlussreich, die Definitionen der punktweisen und der gleichmäßigen Konvergenz in Quantorenschreibweise miteinander zu vergleichen: ∀x∈D ∀ε>0 ∃N ∈N ∀n≥N d(fn (x), f (x)) < ε ∀ε>0 ∃N ∈N ∀x∈D ∀n≥N d(fn (x), f (x)) < ε (punktweise Konvergenz) (gleichmäßige Konvergenz) Der Unterschied besteht nur in der Reihenfolge zweier Quantoren. Es ist klar, dass aus der gleichmäßigen Konvergenz die punktweise Konvergenz folgt. (2) Für reellwertige Funktionen fn : I −→ R auf einem Intervall I kann die gleichmäßige Konvergenz gegen eine Funktion f gut veranschaulicht werden: Für jedes ε > 0 verlaufen die Graphen der Funktionen fn für alle genügend großen n innerhalb der Menge {(x, y) ∈ R2 | x ∈ I, f (x) − ε < y < f (x) + ε} . Diese Menge wird der ε-Schlauch um die Grenzfunktion f genannt. y 6 f +ε fn f @ R @ f −ε - x Abbildung 18: Gleichmäßige Konvergenz – der ε-Schlauch Wir betrachten nochmals die Funktionen fn (x) := xn für 0≤x≤1 aus Beispiel 11.3. In Abbildung 19 ist gut zu sehen, dass der Graph von fn auch für große n nicht vollständig im ε-Schlauch um die Grenzfunktion verläuft, sofern ε < 1 ist. Die Konvergenz ist also nicht gleichmäßig. 147 y 6 1• f3 f5 f +ε - 1 x Abbildung 19: Die Funktionen fn aus Beispiel 11.3 (3) Da auch unendliche Reihen von Funktionen nur“ Funktionenfolgen (nämlich von Par” tialsummen) sind, haben wir mit Definition 11.5 insbesondere auch erklärt, was unter der gleichmäßigen Konvergenz von Funktionenreihen zu verstehen ist. (4) Für Funktionen f : D −→ Cm kann man die gleichmäßige Konvergenz auch mithilfe der sog. Supremumsnorm39 ||f ||∞ := sup {||f (x)|| : x ∈ D} formulieren: Eine Folge (fn )n von Funktionen fn : D −→ Cm konvergiert genau dann gleichmäßig auf D gegen eine Grenzfunktion f , wenn lim ||fn − f ||∞ = 0 n→∞ (denn Letzteres ist gleichbedeutend damit, dass es für alle ε > 0 ein N ∈ N gibt mit ||fn − f ||∞ ≤ ε für alle n ≥ N , d.h. mit ||fn (x) − f (x)|| ≤ ε für alle n ≥ N und alle x ∈ D). Damit ist die gleichmäßige Konvergenz auf die gewöhnliche“ Konvergenz (allerdings ” bezüglich einer komplizierteren“ Metrik) zurückgeführt. ” Satz 11.7 (Satz von Cauchy und Weierstraß) Es seien X und Y metrische Räume und (fn )n eine Folge von stetigen Funktionen fn : X −→ Y , die auf X gleichmäßig konvergiert. Dann ist die Grenzfunktion f : X −→ Y stetig auf X. 39 In der Linearen Algebra bzw. in der Analysis 3 wird später gezeigt, dass es sich dabei um eine Norm auf dem Raum der beschränkten Funktionen f : D −→ V handelt. Für unbeschränktes f ist natürlich ||f ||∞ = ∞. 148 Beweis. Wir können Cauchys Beweis aus Bemerkung 11.4 kopieren – diesmal allerdings unter der stärkeren Voraussetzung der gleichmäßigen Konvergenz. Es bezeichne d die Metrik auf Y , und es seien ein Punkt a ∈ X und eine Zahl ε > 0 gegeben. Dazu existiert wegen der gleichmäßigen Konvergenz ein N ∈ N mit d(fn (x), f (x)) < ε 3 für alle x ∈ X und alle n ≥ N. Weil fN im Punkt a stetig ist, gibt es ein δ > 0 mit d(fN (x), fN (a)) < ε 3 für alle x ∈ Uδ (a). Für alle x ∈ Uδ (a) folgt mit der Dreiecksungleichung d(f (x), f (a)) ≤ d(f (x), fN (x)) + d(fN (x), fN (a)) + d(fN (a), f (a)) ε ε ε + + = ε. < 3 3 3 Damit ist die Stetigkeit von f im Punkt a bewiesen. 11.2 Kriterien für gleichmäßige Konvergenz Das Cauchy-Kriterium für gewöhnliche Folgen (Satz 6.18) hat den Vorteil, Konvergenz ohne Bezugnahme auf einen Grenzwert formulieren zu können. Ein solches Kriterium gilt auch für gleichmäßige Konvergenz. Man bezeichnet es ebenfalls als Cauchy-Kriterium – obwohl Cauchy den Begriff der gleichmäßigen Konvergenz gar nicht kannte. Satz 11.8 (Cauchy-Kriterium für gleichmäßige Konvergenz) Es sei D eine nichtp p leere Menge, Y sei einer der Räume R oder C , und (fn )n sei eine Folge von Funktionen fn : D −→ Y . Dann sind die folgenden beiden Aussagen äquivalent: (a) Die Folge (fn )n ist gleichmäßig konvergent auf D. (b) Zu jeder Zahl ε > 0 gibt es eine natürliche Zahl N , so dass für alle x ∈ D und alle m, n ≥ N die Ungleichung ||fn (x) − fm (x)|| < ε besteht. In Quantorenschreibweise: ∀ε>0 ∃N ∈N ∀x∈D ∀m,n≥N ||fn (x) − fm (x)|| < ε. Beweis. =⇒“: Es sei (fn )n gleichmäßig konvergent auf D. Dann existiert die Grenzfunktion ” f := limn→∞ fn auf D. Es sei eine Zahl ε > 0 gegeben. Dazu gibt es nach Voraussetzung ein N , so dass ε ||fn (x) − f (x)|| < für alle x ∈ D und alle n ≥ N 2 gilt. Für alle x ∈ D und alle m, n ≥ N folgt ||fm (x) − fn (x)|| ≤ ||fm (x) − f (x)|| + ||f (x) − fn (x)|| < ε ε + = ε. 2 2 Damit ist die Implikation (a) =⇒ (b) bewiesen. ⇐=“: Nun wird (b) vorausgesetzt. Für jedes x ∈ D ist dann (fn (x))n eine Cauchy-Folge ” in Y . Nach dem gewöhnlichen Cauchy-Kriterium (Satz 6.18) existiert also der Grenzwert f (x) := limn→∞ fn (x). Hierdurch ist eine Grenzfunktion f : D −→ Y definiert. 149 Es sei eine Zahl ε > 0 gegeben. Wegen (b) gibt es hierzu ein N mit ||fm (x) − fn (x)|| < ε für alle x ∈ D und alle m, n ≥ N. Bei festem m und festem x kann man hierin den Grenzübergang n → ∞ ausführen (wobei Satz 5.14 (3) benötigt wird) und erhält ||fm (x) − f (x)|| ≤ ε für alle x ∈ D und alle m ≥ N. Also konvergiert die Folge (fn )n auf D gleichmäßig gegen f . Damit ist auch (b) =⇒ (a) bewiesen. Satz 11.9 (Weierstraßsches Majoranten-Kriterium) Es sei D eine nichtleere Menge, Y = R oder Y = C, und (fk )k≥0 sei eine Folge von Funktionen fk : D −→ Y . Es existiere P∞ eine Folge (ck )k≥0 von Zahlen ck > 0, so dass die Reihe k=0 ck konvergiert und |fk (x)| ≤ ck für alle x ∈ D und alle k ≥ 0 gilt. Dann sind die beiden Reihen ∞ X fk und ∞ X |fk | k=0 k=0 gleichmäßig konvergent auf D. Beweis. Nach dem Majorantenkriterium (Satz 7.18) ist die Reihe absolut konvergent. Man muss die Partialsummen sn := n X fk und Sn := n X P∞ k=0 fk (x) für jedes x ∈ D |fk | k=0 k=0 untersuchen. Es sei eine Zahl ε > 0 gegeben. Es gibt dann nach dem Cauchy-Kriterium für Reihen (Satz 7.7) ein N ∈ N mit n X ck < ε für alle m, n mit n > m ≥ N. k=m+1 Für alle x ∈ D und alle diese m und n folgt n n n X X X |sn (x) − sm (x)| = fk (x) ≤ |fk (x)| = Sn (x) − Sm (x) ≤ ck < ε. k=m+1 k=m+1 k=m+1 Somit ist Satz 11.8 auf beide Folgen (sn )n und (Sn )n anwendbar. Damit ergibt sich die Behauptung. 150 Oftmals ist auch das folgende Kriterium nützlich, in dem die gleichmäßige Konvergenz von (fn )n durch die Konvergenz der Zahlenfolgen (fn (xn ))n für beliebige konvergente Folgen (xn )n gekennzeichnet wird: Satz 11.10 Es sei K ein kompakter metrischer Raum, Y sei einer der Räume Rm oder m C , und (fn )n sei eine Folge stetiger Funktionen fn : K −→ Y . Genau dann konvergiert (fn )n gleichmäßig, wenn für jede konvergente Folge (xn )n in K die Folge (fn (xn ))n konvergiert. In diesem Fall gilt für jede konvergente Folge (xn )n in K mit Grenzwert x e die Beziehung lim fn (xn ) = f (e x), n→∞ wobei f = limn→∞ fn die Grenzfunktion ist. Beweis. =⇒“: Es sei (fn )n gleichmäßig konvergent gegen f , und es sei (xn )n ⊆ K konver” gent gegen x e ∈ K. Es sei ein ε > 0 gegeben. Wegen der gleichmäßigen Konvergenz von (fn )n gibt es dann ein N1 ∈ N mit ε für alle n ≥ N1 und alle x ∈ K. ||fn (x) − f (x)|| < 2 Da die Grenzfunktion f nach Satz 11.7 stetig ist und (xn )n gegen x e ∈ K konvergiert, gilt nach dem Folgenkriterium für Stetigkeit (Satz 9.6) lim f (xn ) = f (e x). n→∞ Daher gibt es ein N2 ∈ N mit ||f (xn ) − f (e x)|| < ε 2 für alle n ≥ N2 . Es sei N := max {N1 , N2 }. Dann folgt für alle n ≥ N ||fn (xn ) − f (e x)|| ≤ ||fn (xn ) − f (xn )|| + ||f (xn ) − f (e x)|| < ε ε + = ε. 2 2 Damit ist gezeigt, dass (fn (xn ))n gegen f (e x) konvergiert. Also gilt =⇒“; zugleich ist die zweite Behauptung des Satzes bewiesen. ” ⇐=“: Nun sei für jede konvergente Folge (xn )n in K die Folge (fn (xn ))n konvergent. Dann ” ist auch für jede Teilfolge (fσk )k von (fn )n und jede konvergente Folge (yk )k in K die Folge (fσk (yk ))k konvergent. Denn es gibt hierzu eine konvergente Folge (xn )n , so dass xσk = yk für alle k ist; diese erhält man z.B., indem man die Lücken“ zwischen den yk durch den Grenzwert dieser Folge auffüllt. ” Auf (fn )n und (xn )n kann man jetzt die Voraussetzung anwenden und erhält die Konvergenz von (fn (xn ))n und damit auch von (fσk (xσk ))k = (fσk (yk ))k . Wir nehmen an, dass (fn )n nicht gleichmäßig konvergiert. Nach dem Cauchy-Kriterium (Satz 11.8) gilt dann ¬ ∀ε>0 ∃N ∈N ∀x∈K ∀n,m≥N ||fn (x) − fm (x)|| < ε, also ∃ε>0 ∀N ∈N ∃x∈K ∃n,m≥N ||fn (x) − fm (x)|| ≥ ε. 151 Dies können wir etwas suggestiver auch wie folgt schreiben: ∃ε0 >0 ∀k∈N ∃xk ∈K ∃nk ,mk ≥k ||fnk (xk ) − fmk (xk )|| ≥ ε0 . Hierbei gilt limk→∞ mk = limk→∞ nk = ∞. Daher können wir (nach Übergang zu geeigneten Teilfolgen von (mk )k bzw. (nk )k ) o.E. annehmen, dass (mk )k und (nk )k streng monoton wachsen (vgl. den zweiten Beweis von Satz 6.12). Es gibt also ein ε0 > 0, Teilfolgen (fmk )k und (fnk )k und eine Folge (xk )k in K, so dass ||fnk (xk ) − fmk (xk )|| ≥ ε0 für alle k (11.2) gilt. Da K (folgen-)kompakt ist, finden wir eine Teilfolge von (xk )k , die gegen ein x e ∈ K konvergiert. Um die Notation nicht durch Mehrfachindizes wie fnkj zu verkomplizieren, nehmen wir o.E. an, dass (xk )k selbst gegen x e ∈ K konvergiert. (Hierzu müssen wir gedanklich auch die Folgen (fmk )k und (fnk )k durch die entsprechenden Teilfolgen ersetzen!) Nach weiterer Teilfolgenauswahl können wir ferner mk < nk < mk+1 für alle k annehmen. Wir mischen“ nun die Folgen (fmk )k und (fnk )k , d.h. wir setzen ” σ2k := mk , σ2k+1 := nk , y2k = y2k+1 := xk . Dann ist (yk )k eine gegen x e konvergente Folge in K und (fσk )k eine Teilfolge von (fn )n . Es folgt nun aus der Voraussetzung, dass die Folge (fσk (yk ))k konvergiert. Insbesondere gibt es ein k0 ∈ N, so dass ||fnk (xk ) − fmk (xk )|| = ||fσ2k+1 (y2k+1 ) − fσ2k (y2k )|| < ε0 für alle k ≥ k0 ist. Dies widerspricht (11.2). Damit ist ⇐=“ bewiesen. ” Die Kompaktheitsvoraussetzung in Satz 11.10 ist unverzichtbar, wie wir in einer späteren Aufgabe sehen werden. 11.3 Potenzreihen Viele wichtige Funktionen der Analysis, z.B. die Exponentialfunktion oder die trigonometrischen Funktionen, werden über sog. Potenzreihen definiert. Definition 11.11 Es sei z0 ∈ C und (an )n≥0 eine Folge in C. Dann heißt die Reihe ∞ X an (z − z0 )n n=0 eine Potenzreihe. Man nennt z0 den Entwicklungspunkt und die Zahlen an die Koeffizienten dieser Potenzreihe. Jede Potenzreihe stellt für ein festes z ∈ C eine gewöhnliche Reihe dar, die in diesem Punkt konvergieren kann oder auch nicht. Ist D eine Teilmenge von C und konvergiert die PotenzP n reihe ∞ a n=0 n (z − z0 ) für alle z ∈ D, so ist durch f : D −→ C, z 7→ ∞ X n=0 152 an · (z − z0 )n eine Funktion f definiert. In Korollar 20.13 werden wir sehen, dass (im Fall D 6= {z0 }) die Koeffizienten an durch die Grenzfunktion f und den Entwicklungspunkt z0 eindeutig bestimmt sind. Es stellt sich die Frage, wie der maximale Definitionsbereich einer solchen durch eine Potenzreihe definierten Funktion aussehen kann. Zur Einstimmung betrachten wir zunächst zwei uns bereits bekannte Beispiele für Potenzreihen: Beispiel 11.12 (1) Aus Definition 7.33 ist die Exponentialfunktion exp(z) = ∞ X zn n! n=0 bekannt. Sie ist durch eine Potenzreihe mit dem Entwicklungspunkt 0 und mit reellen (sogar rationalen) Koeffizienten gegeben. Die Reihe ist für alle z ∈ C konvergent. (2) Die geometrische Reihe ∞ X qn n=0 ist ebenfalls eine Potenzreihe (in der Variablen q) mit dem Entwicklungspunkt 0. Nach Satz 7.3 und Bemerkung 7.9 (2) konvergiert sie genau für |q| < 1, also in der offenen 1 . Einheitskreisscheibe U1 (0) ⊆ C, und die Grenzfunktion ist q 7→ 1−q Jede Potenzreihe konvergiert offenbar in ihrem Entwicklungspunkt z0 . Es kann vorkommen, dass sie sonst nirgends konvergiert; solche Reihen sind nutzlos. Wir werden im Folgenden zeigen, dass Potenzreihen generell ein sehr übersichtliches und angenehmes Konvergenzverhalten haben; die beiden obigen Beispiele, in denen der Konvergenzbereich ein Kreis bzw. die gesamte Ebene (also ein Kreis mit Radius ∞“) war, sind typisch. ” Zunächst aber nehmen wir eine naheliegende Vereinfachung vor: Eine beliebige Potenzreihe P∞ n a (z − z ) mit Entwicklungspunkt z0 geht durch die Substitution w := z − z0 in die n=0 n P0∞ n Potenzreihe n=0 an w mit dem Entwicklungspunkt 0 über. Aus der Konvergenz in einem Punkt z1 bzw. der gleichmäßigen Konvergenz auf einer Menge D wird dabei die Konvergenz im Punkt w1 = z1 − z0 bzw. die gleichmäßige Konvergenz auf {w ∈ C | w + z0 ∈ D}. Deshalb werden wir im Folgenden o.B.d.A. z0 = 0 annehmen, also nur Potenzreihen mit dem Nullpunkt als Entwicklungspunkt betrachten. Diese Annahme ist zulässig, solange man nicht simultan Potenzreihen mit verschiedenen Entwicklungspunkten zu behandeln hat. Wir kommen nun zu der angekündigten Beschreibung des Konvergenzverhaltens von Potenzreihen. Der Beweis des folgenden Satzes fußt auf dem Weierstraßschen Majorantenkriterium (Satz 11.9) und dem Konvergenzverhalten der geometrischen Reihe. Satz 11.13 (Konvergenz von Potenzreihen) Für jede Potenzreihe es ein eindeutig bestimmtes R ∈ [0, ∞] mit den folgenden Eigenschaften: P∞ n=0 an z n gibt (1) Die Potenzreihe ist in jedem Punkt z ∈ C mit |z| < R konvergent und in jedem Punkt z ∈ C mit |z| > R divergent. 153 (2) Ist 0 < r < R, so ist die Potenzreihe Kreisscheibe Br (0) gleichmäßig P auf der kompakten n konvergent, und auch die Reihe ∞ |a | · |z| (bei der es sich nicht um eine Potenzn n=0 reihe handelt!) ist auf jeder solchen Kreisscheibe gleichmäßig konvergent. (3) Im Falle R > 0 wird durch f (z) := ∞ X an z n n=0 eine stetige Funktion f : UR (0) −→ C auf der offenen Kreisscheibe UR (0) in C definiert. Die Größe R heißt der Konvergenzradius der Potenzreihe, und die Kreisscheibe UR (0) heißt ihr Konvergenzkreis. Für R = ∞ ist die Behauptung so zu verstehen, dass die Potenzreihe in jedem z ∈ C konvergiert und dass sie eine stetige Funktion auf C definiert; man hat hierbei also UR (0) := C zu setzen. Dieser Fall liegt z.B. bei der Exponentialreihe vor. P n Beweis. Es sei eine Potenzreihe ∞ n=0 an z gegeben. Wir definieren R ∈ [0, ∞] durch ) ( ∞ X an z n konvergiert für ein z ∈ C mit |z| = % . R := sup % ≥ 0 n=0 (Man beachte, dass die Potenzreihe in jedem Fall in z = 0 konvergiert, so dass das Supremum wirklich über eine nichtleere Teilmenge von R gebildet wird und R somit wohldefiniert ist. – Evtl. ist R = ∞.) Es sei ein r ∈ ]0; R[ gegeben. Nach Definition des Supremums gibt es dann ein % ∈ ]r, R] und ein z1 ∈ C mit |z1 | = %, so dass die Potenzreihe in z1 konvergiert. Nach dem notwendigen Konvergenzkriterium für Reihen (Satz 7.8) bildet daher (an z1n )n eine Nullfolge. Insbesondere ist diese Folge beschränkt (Proposition 5.11), es gibt also eine Konstante M > 0 mit |an z1n | ≤ M Für q := r % für alle n ≥ 0. ist dann 0 < q < 1, und für alle z ∈ C mit |z| ≤ r folgt n |an z | = |an z1n | n n z r · ≤ M · = M · qn. z1 % P∞ n Die Reihe konvergiert. Nach dem Weierstraßschen Majoranten-Kriterium n=0 M q (Satz 11.9) sind also die beiden Reihen ∞ X an z n und n=0 ∞ X |an z n | n=0 auf der Kreisscheibe Br (0) gleichmäßig konvergent. Damit ist die Behauptung (2) bewiesen. Zudem ist damit die Konvergenz der Potenzreihe in jedem z ∈ C mit |z| < R, also die erste Behauptung in (1) gezeigt. Es sei ein z ∈ C mit |z| > R gegeben. Wäre die Potenzreihe in z konvergent, so würde für % := |z| die Abschätzung R ≥ % gelten (nach Definition von R), im Widerspruch zu R < |z|. Also divergiert die Potenzreihe in z. Damit ist auch (1) vollständig bewiesen. 154 P n Im Falle R > 0 wird also durch f (z) := ∞ n=0 an z eine Funktion f : UR (0) −→ C definiert. Es sei ein z0 ∈ UR (0) gegeben. Hierzu wähle man eine reelle Zahl r mit |z0 | < r < R. Weil die Potenzreihe gemäß (2) auf Br (0) und somit auch in Ur (0) gleichmäßig konvergiert und alle Reihenglieder Polynome und somit stetig sind, folgt aus Satz 11.7 die Stetigkeit von f in der offenen Kreisscheibe40 Ur (0) und insbesondere im Punkt z0 . Also ist f stetig auf UR (0). Damit ist auch (3) bewiesen. Mithin hat R die verlangten Eigenschaften. Dass R hierdurch (und sogar schon durch (1)) eindeutig bestimmt ist, ist klar. Beispiel 11.14 (1) Anschaulich besagt Satz 11.13, dass man jeder (um 0 entwickelten) Potenzreihe eine eindeutig bestimmte Zahl R ∈ [0, ∞] zuordnen kann, so dass die Potenzreihe innerhalb des Kreises mit Radius R um 0 konvergiert und außerhalb dieses Kreises divergiert. Somit genügt eine einzige Größe R zu einer fast vollständigen Kennzeichnung des Konvergenzverhaltens einer Potenzreihe. Über die Konvergenz in den Randpunkten des Konvergenzkreises, d.h. in den Punkten z mit |z| = R ist hingegen keine allgemeine Aussage möglich. Tatsächlich kann auf dem Rand sehr verschiedenartiges und kompliziertes Verhalten vorliegen. Drei einfache Beispiele hierfür sind die Potenzreihen f0 (z) := ∞ X n=1 n z , ∞ X 1 n z , f1 (z) := n n=1 ∞ X 1 n f2 (z) := z . n2 n=1 Alle drei Reihen haben den Konvergenzradius 1. (Denn für |z| < 1 folgt die Konvergenz aus der Konvergenz der geometrischen Reihe und dem Majorantenkriterium, und für |z| > 1 bilden die Reihenglieder in allen drei Fällen keine Nullfolge (vgl. Satz 5.17 (4)), so dass die Reihen nach dem notwendigen Konvergenzkriterium aus Satz 7.8 für |z| > 1 divergieren. – Das gleiche Ergebnis liefert der folgende Satz 11.15.) Für |z| = 1 verhalten sich die drei Reihen hingegen alle unterschiedlich: – Die Reihe f0 ist nach Satz 7.8 in jedem Punkt z mit |z| = 1 divergent; denn die Reihenglieder bilden dort keine Nullfolge. P 1 – In Beispiel 7.25 wurde die Konvergenz der Reihe ∞ n=1 n2 bewiesen. Diese ist eine Majorante der Potenzreihe f2 auf der kompakten Kreisscheibe vom Radius 1 um den Nullpunkt. Aus dem Weierstraßschen Majorantenkriterium (Satz 11.9) folgt daher die gleichmäßige Konvergenz von f2 auf dem Konvergenzkreis einschließlich aller Randpunkte. – Schließlich ist die Reihe f1 nach Beispiel 7.38 (2) in jedem Punkt z 6= 1 auf dem Rand des Konvergenzkreises konvergent, aber in z = 1 divergent. 40 Hingegen wäre es nicht ganz richtig, direkt auf die Stetigkeit von f in Br (0) zu schließen: Es ist bei der Anwendung von Satz 11.7 zu beachten, dass hierbei der metrische Raum Br (0), nicht UR (0) zugrunde gelegt wird, denn nur dort hat man ja gleichmäßige Konvergenz vorausgesetzt. Dementsprechend liefert dieser Satz nur die Stetigkeit der Einschränkung f |Br (0) von f auf Br (0). Diese ist schwächer als die Stetigkeit von f auf Br (0), d.h. in jedem Punkt von Br (0). – Ersetzt man hierin hingegen Br (0) durch Ur (0), so erhält man zwar wiederum nur die Stetigkeit der Einschränkung f |Ur (0) von f auf Ur (0). Diese ist jedoch gleichbedeutend mit der Stetigkeit von f auf Ur (0); dies liegt an der Offenheit von Ur (0). 155 (2) Die Konvergenz einer Potenzreihe ist i. Allg. nicht gleichmäßig im Konvergenzkreis, sondern nur gleichmäßig auf kompakten Kreisscheiben in dessen Innerem. (Man spricht hier auch von lokal gleichmäßiger Konvergenz.) P n Dies wird ebenfalls durch die Potenzreihe ∞ n=1 z (also die geometrische Reihe) illustriert, die in ihrem Konvergenzkreis U1 (0) nicht gleichmäßig konvergiert: Wäre sie nämlich gleichmäßig konvergent, so gäbe es nach dem Cauchy-Kriterium in Satz 11.8 zu ε := 1 ein N ∈ N, so dass n X xk < 1 für alle m, n mit n > m ≥ N und alle x ∈ U1 (0) k=m+1 gelten würde. Der Grenzübergang x → 1 würde dann (bei festen m, n) 1≥ n X 1=n−m für alle m, n ≥ N mit n > m k=m+1 liefern. Dies ist offensichtlich absurd. Es stellt sich nun die Frage, wie man den Konvergenzradius von Potenzreihen berechnen kann. Der folgende Satz ist sehr einfach und oft wirkungsvoll, aber er ist nicht in jedem Fall anwendbar. Satz 11.15 Es sei (an )n≥0 eine Folge von komplexen Zahlen. Es gebe ein n0 ∈ N, so dass an 6= 0 für alle n ≥ n0 ist, und es existiere der (eigentliche oder uneigentliche) Grenzwert an . R = lim n→∞ an+1 P n Dann ist R der Konvergenzradius der Potenzreihe ∞ n=0 an z . Beweis. Für beliebige komplexe Zahlen z 6= 0 gilt nach Definition des Grenzwerts R an+1 z n+1 |z| = , lim n→∞ an z n R wobei hierunter im Fall R = ∞ der Grenzwert 0 und im Fall R = 0 der uneigentliche Grenzwert ∞ zu verstehen ist. Aus dem Quotientenkriterium (Satz 7.21) folgt somit die Konvergenz der Potenzreihe in allen Punkten z ∈ C mit |z| < R und die Divergenz in allen Punkten z ∈ C mit |z| > R. Nach Satz 11.13 ist also R der Konvergenzradius. Satz 11.15 ist eine Konsequenz aus dem Quotientenkriterium. Aus dem Wurzelkriterium gewinnt man eine allgemeiner anwendbare Formel für den Konvergenzradius. Hierfür wird eine Verallgemeinerung des Grenzwertbegriffs benötigt. Definition 11.16 Es sei (cn )n eine Folge von reellen Zahlen. Wir nennen ∞ bzw. −∞ einen uneigentlichen Häufungswert der Folge (cn )n , falls es eine Teilfolge von (cn )n gibt, die bestimmt gegen ∞ bzw. −∞ divergiert. Es bezeichne H ⊆ R ∪ {∞, −∞} die Menge der eigentlichen und uneigentlichen Häufungswerte von (cn )n . Dann heißt lim cn = lim sup cn := sup H n→∞ bzw. n→∞ limn→∞ cn = lim inf cn := inf H der Limes superior bzw. der Limes inferior der Folge (cn )n . 156 n→∞ Bemerkung 11.17 Wenn die Folge (cn )n beschränkt ist, dann besitzt sie nach dem Satz von Bolzano-Weierstraß (Satz 6.12) einen Häufungswert in R. Anderenfalls hat sie wenigstens einen uneigentlichen Häufungswert (d.h. ∞ oder −∞). Daher ist H ⊆ R ∪ {∞, −∞} und H 6= ∅. Das Supremum und das Infimum dieser Menge sind also wohldefiniert, sofern man sup H = ∞ für ∞ ∈ H, inf H = −∞ für −∞ ∈ H sowie inf {∞} = ∞ und sup {−∞} = −∞ vereinbart. Beispiel 11.18 (1) Es sei 1 . cn := (−1) · 1 + n n Dann gilt lim inf cn = −1, lim sup cn = +1. n→∞ n→∞ (2) Es sei n 7→ cn eine Abzählung der Menge Q der rationalen Zahlen. Da Q dicht in R ist, ist jede reelle Zahl ein Häufungswert von (cn )n , und auch ±∞ sind uneigentliche Häufungswerte. Daher ist lim sup cn = ∞, lim inf cn = −∞. n→∞ n→∞ Wir stellen einige Rechenregeln für den Limes superior und den Limes inferior von Folgen zusammen: Satz 11.19 Für Folgen (an )n und (bn )n von reellen Zahlen gelten die folgenden Aussagen: (1) Die Folge (an )n ist genau dann konvergent oder bestimmt divergent, wenn lim inf an = lim sup an = lim an . n→∞ n→∞ n→∞ (2) Es sei c < lim supn→∞ an < C. Dann gibt es unendlich viele n mit an > c, aber nur endlich viele k mit ak > C. Ist c < lim inf n→∞ an < C, so gibt es unendlich viele n mit an < C, aber nur endlich viele k mit ak < c. (3) Setzt man sn := sup {ak | k ≥ n}, so ist lim sup an = lim sn . n→∞ n→∞ (4) lim sup(an + bn ) ≤ lim sup an + lim sup bn , n→∞ n→∞ n→∞ sofern nicht auf der rechten Seite ein Summand ∞ und der andere −∞ ist. 157 Beweis. (1) Eine Folge ist genau dann konvergent oder bestimmt divergent, wenn die Menge ihrer (evtl. uneigentlichen) Häufungswerte einelementig ist. Daraus folgt sofort (1). Ausführlich begründet man diese Feststellung wie folgt: Es sei H die Menge der eigentlichen oder uneigentlichen Häufungswerte von (an )n . =⇒“: Die Folge (an )n sei konvergent. Dann hat sie gemäß Satz 6.11 (2) nur einen ” (eigentlichen) Häufungswert (nämlich den Grenzwert). Zudem ist sie nach Proposition 5.11 beschränkt, so dass ±∞ keine uneigentlichen Häufungswerte sind. Daher ist in diesem Fall H einelementig. Nun sei (an )n bestimmt divergent gegen ∞ bzw. gegen −∞. Dann ist klar, dass ∞ bzw. −∞ der einzige uneigentliche Häufungswert von (an )n ist und dass es keine eigentlichen Häufungswerte dieser Folge gibt. Also ist H auch in diesem Fall einelementig. ⇐=“: Nun sei H = {a} einelementig. Falls a = ∞ oder a = −∞ ist, ist (an )n bestimmt ” divergent gegen a. Ist hingegen a ∈ R, so ist (an )n beschränkt (denn sonst wäre ∞ oder −∞ ein uneigentlicher Häufungswert); hieraus und aus Aufgabe 10.4 (a) folgt die Konvergenz von (an )n . (2) Für c = −∞ wie auch für C = +∞ ist nichts zu zeigen. Wir dürfen daher c, C ∈ R annehmen. Wir zeigen nur die erste Behauptung; die zweite ergibt sich analog. Es sei also c < lim supn→∞ an < C. Nach Definition des Limes superior gibt es einen Häufungswert h von (an )n mit h > c. Zu der positiven Zahl ε := h − c gibt es unendlich viele n mit an ∈ Uε (h). Für alle diese n folgt an > h − ε = c. Wäre ak > C für unendlich viele k, dann gäbe es nach dem Satz von Bolzano-Weierstraß einen (eigentlichen) Häufungswert h von (an )n mit h ≥ C (denn (an )n hat wegen lim supn→∞ an < C < ∞ nicht ∞ als Häufungswert und ist daher nach oben beschränkt). Nach Definition des Limes superior ist aber h ≤ lim supn→∞ an < C. Dieser Widerspruch zeigt, dass es nur endlich viele k mit ak > C gibt. (3) Für n > m ist sn = sup ak ≤ sup ak = sm k≥n k≥m (denn die Supremumsbildung auf der rechten Seite erstreckt sich über eine größere Menge als die auf der linken Seite). Daher ist die Folge (sn )n monoton fallend und somit entweder konvergent (falls sie beschränkt ist, vgl. Satz 6.3) oder bestimmt divergent gegen −∞. In jedem Fall ist also die Schreibweise limn→∞ sn wohlerklärt. Es sei s := limn→∞ sn . Wir geben zwei Varianten des Beweises: Variante 1: Falls s = ∞ ist, so ist sn = ∞ für alle n ∈ N. Induktiv findet man dann eine Teilfolge (ank )k mit ank ≥ k für alle k. Denn zu k = 1 gibt es wegen s1 = ∞ ein n1 ≥ 1 mit an1 ≥ 1. Hat man n1 , . . . , nk mit den gewünschten Eigenschaften bereits bestimmt, so findet man wegen snk +1 = ∞ ein nk+1 ≥ nk + 1 mit ank+1 ≥ k + 1. Es strebt dann (ank )k gegen ∞. Somit ist ∞ ein Häufungswert von (an )n , und es folgt lim supn→∞ an = ∞ = s. Für diesen Fall ist (3) damit nachgewiesen. 158 Es sei nun s < ∞. O.B.d.A. dürfen wir sn < ∞ für alle n annehmen. Wir zeigen zunächst, dass s ein (evtl. uneigentlicher) Häufungswert der Folge (an )n ist. Nach Definition des Supremums sn = sup {ak | k ≥ n} gibt es zu jedem n ein kn ≥ n, so dass 1 s n − ≤ ak n ≤ s n . n Es strebt dann (akn )n ebenso wie (sn )n gegen s. (Dies gilt auch im Fall s = −∞.) Also ist s tatsächlich ein Häufungswert von (an )n . Aus der Definition des Limes superior folgt nun sofort s ≤ lim supn→∞ an . Zum Nachweis der umgekehrten Abschätzung sei ein (evtl. uneigentlicher) Häufungwert h von (an )n gegeben. Dieser ist Grenzwert einer geeigneten Teilfolge (ank )k . Wegen nk ≥ k ist ank ≤ snk für alle k gemäß der Definition von snk . Damit folgt h = lim ank ≤ lim snk = lim sn = s. k→∞ n→∞ k→∞ Dies gilt für alle Häufungswerte h von (an )n , so dass auch lim supn→∞ an ≤ s ist. Insgesamt gilt also lim supn→∞ an = s auch in diesem Fall. Variante 2:∗ Wir betrachten zunächst die beiden Fälle lim supn→∞ an = ±∞. Im Falle lim supn→∞ an = −∞ strebt (an )n gegen −∞. Damit ist auch limn→∞ sn = −∞. Im Falle lim supn→∞ an = +∞ gibt es eine Teilfolge (ank )k , die gegen ∞ strebt. Damit ist sn = ∞ für alle n und somit limn→∞ sn = +∞. Für diese beiden Fälle ist (3) damit nachgewiesen. Von nun an dürfen wir lim supn→∞ an ∈ R annehmen. ≥“: Es sei ein ε > 0 gegeben. Nach (2) gibt es dann ein N ∈ N mit ” ak ≤ lim sup an + ε für alle k ≥ N. n→∞ Hieraus folgt sn0 = sup ak ≤ lim sup an + ε k≥n0 für alle n0 ≥ N. n→∞ Da dies für alle n0 ≥ N gilt, ergibt sich lim sn ≤ lim sup an + ε. n→∞ n→∞ Diese Betrachtung gilt für alle ε > 0. Daher ist limn→∞ sn ≤ lim supn→∞ an . ≤“: Erneut sei ein ε > 0 gegeben. ” Es sei n0 ∈ N beliebig. Da es nach (2) unendlich viele n mit an > lim supn→∞ an − ε gibt, gibt es insbesondere ein n1 ≥ n0 mit an1 ≥ lim sup an − ε. n→∞ Daher ist sn0 = sup ak ≥ an1 ≥ lim sup an − ε. n→∞ k≥n0 Weil dies für alle (beliebig großen) n0 ∈ N gilt, folgt lim sn ≥ lim sup an − ε. n→∞ n→∞ Diese Abschätzung gilt für alle ε > 0, so dass wir schließlich limn→∞ sn ≥ lim supn→∞ an folgern können. Insgesamt ist also limn→∞ sn = lim supn→∞ an , wie behauptet. 159 (4) Es sei A = lim sup an , B = lim sup bn , n→∞ S = lim sup(an + bn ). n→∞ n→∞ Wir setzen {A, B} = 6 {∞, −∞} voraus. Weiter dürfen wir A < ∞ und B < ∞ annehmen. (Andernfalls ist A + B = ∞, und die Behauptung ist klar.) Wir nehmen an, es wäre S > A + B. Dann gibt es reelle Zahlen α und β mit S > α + β, α > A, β > B. Hieraus und aus (2) folgt die Existenz unendlich vieler n mit an + bn > α + β. Also ist wenigstens eine der Ungleichungen an > α oder bn > β für unendlich viele n erfüllt. Das steht im Widerspruch zu (2). Damit ist S ≤ A + B bewiesen. Beispiel 11.20 In Teil (4) des Satzes kann strikte Ungleichheit auftreten. Ein Beispiel hierzu liefert an := (−1)n und bn := (−1)n+1 . Hier ist lim supn→∞ an = lim supn→∞ bn = 1. Aber es ist an + bn = 0 für alle n und somit lim supn→∞ (an + bn ) = 0. Damit können wir die angekündigte allgemeine Formel für den Konvergenzradius einer Potenzreihe formulieren und beweisen. Satz P 11.21 (Hadamardsche Formel41 ) Für den Konvergenzradius R einer Potenzn a z gilt reihe ∞ n=0 n p 1 = lim sup n |an |. R n→∞ Beweis. Es sei R durch die Formel im Satz definiert. Wir haben zu zeigen, dass es sich bei P∞ R um den Konvergenzradius der Potenzreihe n=0 an z n handelt. Hierzu sei ein Punkt z ∈ C mit |z| < R gegeben. Wir wählen eine Zahl r mit |z| < r < R und setzen q := |z| . Dann ist 0 < q < 1. Wegen r p 1 1 > = lim sup n |an | r R n→∞ p und Satz 11.19 (2) gibt es ein N mit n |an | ≤ 1r für alle n ≥ N . Es folgt p p |z| n |an z n | = n |an | · |z| ≤ =q r für alle n ≥ N. Aus dem Wurzelkriterium (Satz 7.20) folgt somit die Konvergenz der Potenzreihe im Punkt z. Nun sei z ∈ C und |z| > R. Dann folgt lim sup n→∞ p |z| n |an z n | = > 1. R p Nach Satz 11.19 (2) gibt es daher unendlich viele n mit n |an z n | > 1. Insbesondere ist (an z n )n keine Nullfolge. Folglich ist die Potenzreihe im Punkt z divergent. Nach Satz 11.13 ist also R ihr Konvergenzradius. 41 Der Satz ist nach J. Hadamard (1866 – 1963) benannt. Von ihm stammen wesentliche Beiträge zur Analysis, insbesondere zur komplexen Analysis. Er bewies 1896 den Primzahlsatz, eine asymptotische Formel für die Anzahl der Primzahlen p unterhalb einer beliebig gegebenen Schranke x, und war damit neben C.-J. de La Vallée Poussin einer der beiden ersten Mathematiker, die dieses lange angestrebte Ziel erreichten. 160 Beispiel 11.22 (1) Die Exponentialreihe ∞ X 1 · zn exp(z) = n! n=0 hat die Koeffizienten an = 1/n!. Es ist an /an+1 = n + 1 für alle n. Aus Satz 11.15 erhält man somit für den Konvergenzradius R das bekannte Ergebnis R = ∞. (2) Für ein beliebiges k ∈ Z betrachten wir die Potenzreihe ∞ X an z n an = n k . mit n=1 Es gilt an nk = = an+1 (n + 1)k 1− 1 n+1 k und daher lim n→∞ an = 1. an+1 Nach Satz 11.15 haben diese Potenzreihen also unabhängig von k den Konvergenzradius √ n 1. Dasselbe Ergebnis liefert die Hadamardsche Formel, denn es ist limn→∞ nk = 1. (3) Auf die Potenzreihe ∞ X 1 · z 2n n 3 n=0 ist Satz 11.15 nicht direkt anwendbar, weil alle Koeffizienten mit ungeradem Index verschwinden. Man kannP die Reihe aber als Potenzreihe in der Variablen w := z 2 auffassen. 1 n Konvergenzradius 3. Für die Potenzreihe ∞ n=0 3n · w erhält man mit Satz 11.15 den √ Somit hat die ursprüngliche Potenzreihe den Konvergenzradius 3 (denn sie ist für √ √ |z 2 | < 3, also für |z| < 3 konvergent und für |z| > 3 divergent). (4) Dieses Argument versagt z.B. bei der Potenzreihe ( 1 ∞ X 3n n an z mit an := 1 5n n=0 für gerade n für ungerade n Ebensowenig ist Satz 11.15 anwendbar. Hingegen liefert die Hadamardsche Formel sofort den Konvergenzradius 3. Eine ganz ähnliche Beobachtung hatten wir bereits in Beispiel 7.23 (3) im Kontext von gewöhnlichen Reihen gemacht. (5) In Anbetracht der Hadamardschen Formel könnte man hoffen, auch Satz 11.15 ließe sich dadurch verallgemeinern, dass man den (nicht immer existenten) Grenzwert an an limn→∞ an+1 durch den (immer vorhandenen) Limes Superior lim supn→∞ an+1 ersetzt. Diese Hoffnung istP vergeblich: I.Allg. stellt letztere Größe nicht den Konvergenzn radius der Potenzreihe ∞ n=0 an z dar. Dies wird ebenfalls durch das Beispiel aus (4) an belegt; dort ist nämlich lim supn→∞ an+1 = ∞, während der Konvergenzradius der betreffenden Potenzreihe 3 ist. 161 Man kann für den Konvergenzradius R von P∞ n=0 an z n allerdings zeigen, dass an an ≤ R ≤ lim sup lim inf an+1 n→∞ an+1 n→∞ gilt. Bemerkung 11.23 Mithilfe des Begriffs des Limes superior können wir nunmehr auch das Wurzel- und das Quotientenkriterium für allgemeine Reihen umformulieren, und zwar wie folgt: P Es sei ∞ n=0 an eine unendliche Reihe in R oder C. Es sei eine der beiden folgenden Bedingungen erfüllt: (1) (Wurzelkriterium) Es ist lim sup p n |an | < 1. n→∞ (2) (Quotientenkriterium) Es gibt ein n0 ∈ N0 , so dass an 6= 0 für alle n ≥ n0 , und es ist |an+1 | < 1. lim sup |an | n→∞ Dann ist die Reihe P∞ n=0 an absolut konvergent. Begründung: Im Falle des Wurzelkriteriums begründet man dies wie folgt: Für p 1 n q := · 1 + lim sup |an | 2 n→∞ p gilt lim supn→∞pn |an | < q < 1 nach der Voraussetzung in (1). Gemäß Satz 11.19 (2) gibt es ein N ∈ N mit n |an | ≤ q für alle n ≥ N . Damit folgt die absolute Konvergenz der gegebenen Reihe aus dem Wurzelkriterium in der Version von Satz 7.20. Für das Quotientenkriterium schließt man analog. p | = 1 kann man keine Aussage über Im Falle lim supn→∞ n |an | = 1 bzw. lim supn→∞ |a|an+1 n| P∞ 1 das Konvergenzverhalten der Reihe treffen: Dieser Fall liegt z.B. für die Reihen n=1 n und P∞ 1 n=1 n2 vor; die erste dieser beiden Reihen divergiert, während die zweite konvergiert. Vgl. hierzu auch Beispiel 7.23 (4). 11.4 Der Abelsche Stetigkeitssatz∗ Eine Potenzreihe definiert eine stetige Funktion auf dem im Konvergenzkreis gelegenen offenen reellen Intervall. Wir betrachten jetzt die spezielle Situation, dass die Reihe in einem Endpunkt dieses Intervalls konvergiert. Die Frage ist dann, ob die Grenzfunktion in diesem Endpunkt noch stetig ist. N. H. Abel konnte diese Frage bejahend beantworten. 162 P n Satz 11.24 (Abelscher Stetigkeitssatz) Die Potenzreihe ∞ n=0 an x (mit Koeffizienten an ∈ C) habe den Konvergenzradius 1, und sie sei im Punkt x = 1 konvergent. Dann definiert ∞ X f (x) := an xn n=0 eine stetige Funktion f auf dem Intervall ] − 1, 1]. Beweis. Nach Satz 11.13 (3) definiert die Potenzreihe eine stetige Funktion f auf der offenen Einheitskreisscheibe U1 (0) in C. Insbesondere ist f auf ] − 1, 1[ stetig. Nach Voraussetzung existiert der Grenzwert ∞ X an = f (1) =: s. n=0 Angesichts von Satz 9.18 (3) besagt die Behauptung des Satzes lim f (x) = f (1). x→1− Wir setzen s−1 := 0, sn := n X ak n ≥ 0. für k=0 Dann ist limn→∞ sn = s. Mittels partieller Summation (Satz 7.36) erhalten wir n X k=0 ak x k = n X (sk − sk−1 )xk k=0 = sn x n+1 − n X sk (x k+1 k − x ) = sn x n+1 − (x − 1) · k=0 n X s k xk k=0 für alle x ∈ C. Nun wird |x| < 1 vorausgesetzt. (Auf reelle x müssen wir uns erst an einer späteren Stelle beschränken.) Der Grenzübergang n → ∞ ergibt dann f (x) = (1 − x) · ∞ X s k xk ; k=0 hierbei ist es wesentlich, dass (sn )n als konvergente Folge beschränkt ist, so dass limn→∞ sn xn+1 = 0 ist.PMan schreibt die Formel für die geometrische Reihe trickreich in k der Form 1 = (1 − x) · ∞ k=0 x und erhält f (x) − f (1) = f (x) − s = f (x) − s(1 − x) · ∞ X k=0 k x = (1 − x) · ∞ X (sk − s)xk . k=0 Es sei eine Zahl ε > 0 gegeben. Dazu existiert wegen limk→∞ sk = s ein N mit |sk − s| < für alle k ≥ N . Weiterhin gibt es eine Zahl δ ∈]0, 1[ mit δ· N X ε |sk − s| < . 2 k=0 163 ε 2 Für alle reellen x mit 1 − δ < x < 1 folgt nun |f (x) − f (1)| ≤ (1 − x) · N X k |sk − s| · x + (1 − x) · k=0 ∞ X |sk − s| · xk k=N +1 ∞ X ε xk < δ· |sk − s| + · (1 − x) · 2 k=N +1 k=0 N X < ε ε + = ε. 2 2 Damit ist limx→1− f (x) = f (1) bewiesen. Beispiel 11.25 Die Potenzreihe ∞ X 1 (−1)n+1 · · xn n n=1 hat den Konvergenzradius 1 und ist nach dem Leibniz-Kriterium auch in x = 1 konvergent. Nach dem Abelschen Stetigkeitssatz definiert sie also eine in ] − 1, 1] stetige Funktion. Wir werden später sehen, dass der Wert dieser Potenzreihe gerade log(1 + x) ist. Bemerkung 11.26 In der Situation von Satz 11.24 kann f mittels der gegebenen Potenzreihe als Funktion auf D := U1 (0)∪{1} definiert werden, wobei U1 (0) die Einheitskreisscheibe in C ist. Der Abelsche Stetigkeitsssatz besagt dann gerade, dass die Restriktion f |]−1,+1] stetig ist. Man könnte nun vermuten, dass f auf ganz D stetig ist. Diese Vermutung ist falsch. Hinweise auf Gegenbeispiele findet man in [Remmert, S. 95]. Immerhin gilt die folgende, von O. Stolz 1875 bewiesene Verallgemeinerung des Satzes von Abel: P n Wenn eine Potenzreihe ∞ n=0 an z in einem Randpunkt w ihres Konvergenzkreises konvergiert, dann konvergiert sie gleichmäßig auf jedem kompakten Dreieck ∆, dessen eine Ecke w ist und dessen beide anderen Ecken im Inneren des Konvergenzkreises liegen. 164 12 Spezielle Funktionen 12.1 Die Exponentialfunktion In Definition 7.33 hatten wir die Exponentialfunktion exp : C −→ C mithilfe der Exponentialreihe erklärt: ∞ X zn für alle z ∈ C. exp(z) := n! n=0 Hierfür war es wesentlich, dass die Exponentialreihe in ganz C konvergiert, wie wir in Beispiel 7.23 (2) mithilfe des Quotientenkriteriums nachgewiesen hatten. Einige wichtige Eigenschaften der Exponentialfunktion hatten wir in Satz 7.34 zusammengestellt. Von zentraler Bedeutung hierbei war das Additionstheorem exp(z + w) = exp z · exp w für alle z, w ∈ C, aus dem sich u.a. die Nullstellenfreiheit der Exponentialfunktion ergibt. Aus Beispiel 9.22 wissen wir ferner lim exp(x) = ∞, lim exp(x) = 0. (12.1) x→∞ x→−∞ Unsere Überlegungen zu Potenzreihen in Abschnitt 11.3 hatten eine neue Begründung für das Konvergenzverhalten der Exponentialreihe, bei der es sich ja um eine Potenzreihe handelt, geliefert: In Beispiel 11.22 (1) hatten wir gezeigt, dass sie den Konvergenzradius ∞ besitzt. Aus unseren Resultaten über Potenzreihen ergibt sich nun auch mühelos die Stetigkeit der Exponentialfunktion. Diese und weitere Eigenschaften sind im folgenden Korollar zusammengestellt. Korollar 12.1 (Eigenschaften der Exponentialfunktion) (a) Die Exponentialfunktion exp : C −→ C ist stetig in ganz C. (b) Auf R ist die Exponentialfunktion streng monoton wachsend. (c) Die Abbildung exp : R −→]0, ∞[ ist bijektiv. Beweis. (a) Die Stetigkeit der Exponentialfunktion folgt sofort aus Satz 11.13 (3) in Verbindung mit der Tatsache, dass die Exponentialreihe den Konvergenzradius ∞ hat. (b) Aus der Reihenentwicklung der Exponentialfunktion ist unmittelbar ersichtlich, dass exp h = 1 + h + h2 h3 + + ··· > 1 2! 3! für alle h > 0 (12.2) ist. Es seien reelle u, v mit u < v gegeben. Dann ist v − u > 0. Nach (12.2) ist daher exp(v − u) > 1. Hiermit und mit dem Additionstheorem der Exponentialfunktion folgt exp(v) = exp(v − u) · exp(u) > exp(u). Dies zeigt, dass exp auf R streng monoton wächst. 165 (c) Nach Satz 7.34 (3) ist exp(x) > 0 für alle x ∈ R, so dass exp eine Abbildung R −→]0, ∞[ ist. Wegen der in (b) gezeigten strengen Monotonie ist die Abbildung exp : R −→]0, ∞[ injektiv (Satz 10.14 (1)). Es bleibt zu zeigen, dass sie auch surjektiv ist. Es sei also ein y0 > 0 gegeben. Wegen (12.1) gibt es a, b ∈ R mit exp a < y0 < exp b. Aus dem Zwischenwertsatz (welcher wegen der Stetigkeit der Exponentialfunktion anwendbar ist) folgt die Existenz eines x0 ∈]a, b[ mit exp x0 = y0 . Dies zeigt die Behauptung. Als Nächstes zeigen wir, dass exp(x) auf der reellen Achse für x → ∞ schneller“ gegen ” Unendlich strebt als jede Potenz xN und für x → −∞ schneller“ gegen Null strebt als jede ” Potenz xN gegen ±∞: Satz 12.2 Für jede Zahl ε > 0 und jede natürliche Zahl N gilt exp(εx) = ∞, x→∞ xN lim xN exp(εx) = 0. lim x→−∞ Beweis. Für reelle x > 0 hat die Exponentialreihe exp(x) = Bei gegebenem N ∈ N und ε > 0 gilt daher exp(εx) > (εx)N +1 , (N + 1)! also P∞ n=0 exp(εx) εN +1 > ·x xN (N + 1)! xn /n! nur positive Glieder. für alle x > 0. Da N und ε fest sind und limx→∞ x = ∞ ist, folgt hieraus sofort exp(εx) −→ ∞ xN für x −→ ∞, also die erste Behauptung. Die zweite Behauptung lässt sich hierauf zurückführen: Durch xN = 0. Indem man von x zu t := −x Reziprokenbildung erhält man zunächst limx→∞ exp(εx) übergeht, ergibt sich schließlich tN = (−1)N · 0 = 0. t→∞ exp(εt) lim xN exp(εx) = lim (−t)N exp(−εt) = (−1)N · lim x→−∞ 12.2 t→∞ Der natürliche Logarithmus Die reelle Exponentialfunktion exp : R −→]0, ∞[ ist nach Korollar 12.1 stetig und bijektiv (genauer: streng monoton wachsend). Nach Satz 10.14 gibt es also eine auf ]0, ∞[ definierte stetige Umkehrfunktion. Sie hat einen eigenen Namen: Definition 12.3 Die auf ]0, ∞[ definierte Umkehrfunktion der Exponentialfunktion auf R heißt der Logarithmus oder der natürliche Logarithmus oder auch die Logarithmusfunktion. Übliche Bezeichnungen für diese Funktion sind log oder auch ln. (Die zweite Bezeichnung ist eine Abkürzung des lateinischen Namens logarithmus naturalis.) Für x > 0 heißt der Funktionswert log(x) der (natürliche) Logarithmus von x. 166 Satz 12.4 (Logarithmus) Eigenschaften: Die Logarithmusfunktion log : ]0, ∞[−→ R hat folgende (1) Sie ist stetig und streng monoton steigend. (2) Es gilt limx→∞ log(x) = ∞ und limx→0+ log(x) = −∞. (3) Für alle x > 0 und y > 0 und alle m ∈ Z gilt log(xy) = log(x) + log(y) log(xm ) = m · log(x). und Beweis. Die Behauptungen (1) und (2) folgen – unter Beachtung von Satz 10.14 – aus den oben erwähnten Eigenschaften der Exponentialfunktion. Für gegebene x > 0 und y > 0 setze man u := log(x) und v := log(y). Dann ist exp(u + v) = exp(u) exp(v) = xy. Daraus folgt u + v = log(xy), also die erste Behauptung in (3). Aus dieser und aus log(1) = 0 folgt durch Induktion log(xm ) = m · log(x) zunächst für alle m ∈ N0 . Weiter ergibt sich für alle m ∈ N0 log(xm ) + log(x−m ) = log xm · x−m = log(1) = 0, also log(x−m ) = − log(xm ) = −m · log(x). Damit ist log(xm ) = m · log(x) sogar für alle m ∈ Z bewiesen. y6 y6 log 1 1 - x exp 1 1 - x Abbildung 20: Exponentialfunktion und Logarithmus Bemerkung 12.5 Die Funktionalgleichung in Satz 12.4 (3) macht es möglich, eine Multiplikationsaufgabe auf eine schneller ausführbare Additionsaufgabe zurückzuführen. Man benötigt dazu eine Logarithmentafel oder einen Rechenschieber: • Eine Logarithmentafel ist eine Tabelle der Werte log(x); ihre Ausführlichkeit bestimmt die erreichbare Rechengenauigkeit. Zur Anpassung an das Dezimalsystem tabelliert man nicht die natürlichen Logarithmen, sondern die Logarithmen zur Basis 10 (vgl. Abschnitt 12.3). Für seine umfangreichen numerischen Rechnungen hat Gauß großen Wert auf genaue und bequem zu benutzende Logarithmentafeln gelegt. 167 • Ein Rechenschieber besteht aus zwei gegeneinander verschiebbaren Stäben mit gleichen Längeneinteilungen, wobei an der zur Länge u gehörigen Position der Wert x mit u = log(x) vermerkt ist. Zwei Längen u und v mit v = log(y) werden durch Verschieben der Stäbe addiert, und bei der Längensumme ist das Produkt xy ablesbar. Beide Methoden werden seit dem Aufkommen von Taschenrechnern und Computern nicht mehr benutzt. 12.3 Allgemeine Potenzen und Logarithmen Bisher hatten wir Potenzen ax lediglich für ganzzahlige Exponenten x erklärt (Bemerkung 2.6 (2)). Für a > 0 wollen wir nun die Potenzen ax für beliebige reelle x definieren. Wie sich zeigt, kann man sogar beliebige komplexe x zulassen. Zunächst betrachten wir rationale Exponenten x. Es sei also a > 0 und x ∈ Q, d.h. x = m/n mit gewissen m ∈ Z und n ∈ N. Dann setzt man √ (12.3) ax = am/n := n am . Hier stellt sich das Problem der Wohldefiniertheit: Ist diese Festsetzung unabhängig von der ? Diese Frage ist leicht zu beantworten: Für Wahl von m und n in der Darstellung x = m n alle p ∈ N gilt √ pn √ pn pn apm = apm = (am )p = n am und daher √ pn apm = √ n am ; dies zeigt, dass unsere Definition von ax tatsächlich unabhängig von der Darstellung der Zahl x als Bruch ist. Wie aber definiert man ax , wenn x nicht rational ist? Man könnte wie folgt vorgehen: Weil Q dicht in R ist, gibt es eine Folge (qn )n von rationalen Zahlen qn mit limn→∞ qn = x. Man setzt dann ax := lim aqn . n→∞ Hierbei wurden die Potenzen auf der rechten Seite gemäß (12.3) definiert. Es ist auch nicht schwierig, die Existenz des Grenzwertes zu beweisen. Dann muss man aber noch die Unabhängigkeit des Grenzwerts von der Auswahl der gegen x konvergierenden Folge (qn )n ⊆ Q nachweisen. Dies erweist sich als relativ mühsam. Details hierzu sind in [Heuser 1, § 25] zu finden. Weil uns hier die Exponentialfunktion bereits zur Verfügung steht, können wir unser Ziel wesentlich müheloser erreichen und zudem sogar az für beliebige komplexe Zahlen z definieren. Proposition 12.6 Es sei a > 0. Für alle x ∈ Q gilt dann ax = exp(x · log(a)). Insbesondere ist ex = exp(x). 168 m n ∈ Q mit m ∈ Z und n ∈ N. Dann folgt mit Satz 12.4 (3) √ n (12.3) n n · log(ax ) = log((ax )n ) = log am = log(am ) = m · log(a), Beweis. Es sei x = also log(ax ) = m · log(a) = x · log(a) n und somit ax = exp (log(ax )) = exp(x log(a)). Damit ist die erste Behauptung gezeigt. Setzt man hierin speziell a := e, so ergibt sich ex = exp(x log(e)). Wegen exp(1) = e ist log e = 1 und somit ex = exp(x). Dies zeigt auch die zweite Behauptung. Definition 12.7 Es sei a > 0. Für beliebige z ∈ C wird az := exp(z · log(a)) gesetzt, und insbesondere wird ez := exp(z) gesetzt. Man nennt az die Potenz von a zum Exponenten z und a die Basis der Potenz az . Durch Proposition 12.6 wird sichergestellt, dass die hier definierte Potenz az im Falle einer rationalen Zahl z mit der bereits oben in (12.3) erklärten Potenz identisch ist. Satz 12.8 Für jede positive Zahl a wird durch z 7→ az eine stetige Funktion auf C definiert. Für alle positiven Zahlen a und b, alle komplexen Zahlen z und w und für alle reellen Zahlen x und y gelten die Rechenregeln az+w = az · aw , (ax )y = axy = (ay )x , az · bz = (ab)z . Beweis. Kompositionen stetiger Funktionen sind nach Satz 9.9 stetig. Aus der Stetigkeit der Exponentialfunktion folgt daher die Stetigkeit von z 7→ az = exp(z log(a)) auf C. Die Rechenregeln ergeben sich wie folgt aus den Additionstheoremen der Exponentialfunktion (Satz 7.34 (2)) und des Logarithmus (Satz 12.4 (3)): Es ist az+w = exp((z + w) log(a)) = exp(z log(a)) · exp(w log(a)) = az · aw und (ax )y = exp(y log(ax )) = exp(y · log(exp(x log(a)))) = exp(y · x log(a)) = exp(xy · log(a)) = axy und analog auch (ay )x = ayx = axy . Hierbei ist die Einschränkung auf reelle x und y nötig, damit ax > 0 bzw. ay > 0 im Definitionsbereich der Logarithmusfunktion liegt. Schließlich folgt az · bz = exp(z log(a)) · exp(z log(b)) = exp(z · (log(a) + log(b))) = exp(z · log(ab)) = (ab)z . 169 Es sei a > 1. Dann ist log(a) > 0, und folglich ist x 7→ ax = exp(x log(a)) ebenso wie exp streng monoton steigend auf R. Es gilt lim ax = 0, lim ax = ∞. x→−∞ x→∞ Wegen der Stetigkeit ist daher x 7→ ax eine Bijektion von R auf das Intervall ]0, ∞[. Die Umkehrfunktion ist nach Satz 10.14 ebenfalls stetig. Dies ermöglicht die Definition von Logarithmen zu beliebigen Basen: Definition 12.9 Es sei a > 1. Dann bezeichne loga : ]0, ∞[ −→ R die Umkehrfunktion der Funktion x 7→ ax . Diese Funktion heißt der Logarithmus zur Basis a. Für y > 0 heißt der Funktionswert loga (y) der Logarithmus von y zur Basis a. Für die Logarithmen zur Basis 10 gilt die Identität log10 (10x) = 1 + log10 (x). In einer Logarithmentafel braucht man daher die Werte log10 (x) nur für 1 ≤ x < 10 zu tabellieren. Deswegen und wegen der Bedeutung von Logarithmentafeln zur Vereinfachung von Multiplikationen (s. Bemerkung 12.5) waren die Logarithmen zur Basis 10 lange Zeit von großer praktischer Bedeutung. Man kann jeden Logarithmus durch jeden anderen und insbesondere durch den natürlichen Logarithmus ausdrücken. Es sei nämlich u = loga (y). Dann ist y = au = exp(u log(a)) und somit log(y) = u log(a), also log(y) . loga (y) = log(a) Die Logarithmen zur Basis a unterscheiden sich von den natürlichen Logarithmen also nur durch die multiplikative Konstante 1/ log(a). Von theoretischer Bedeutung ist in der Mathematik nur der natürliche Logarithmus, und nur diesen werden wir weiterhin studieren. Der eigentliche Grund für die Auszeichnung der Zahl e gegenüber anderen Basen ist darin zu sehen, dass – wie wir später sehen werden – die Exponentialfunktion gleich ihrer eigenen Ableitung ist. Die Wachstumsaussage über die Exponentialfunktion in Satz 12.2 hat ein Gegenstück für den Logarithmus: Er strebt zwar gegen ∞ für x → ∞, jedoch langsamer als jede noch so kleine positive Potenz von x. Satz 12.10 (Wachstum des Logarithmus) log(x) =0 x→∞ xε lim und Für jede Zahl ε > 0 gilt lim xε · log(x) = 0. x→0+ Beweis. Wir setzen y = y(x) = log(x) und t = t(x) = − log(x). Dann gilt xε = exp(εy) = 1/ exp(εt), und nach Satz 12.4 (2) ist lim y(x) = ∞, lim y(x) = −∞. x→∞ x→0+ Mit Hilfe von Satz 12.2 folgt also lim x→∞ log(x) y = lim =0 ε y→∞ exp(εy) x und lim xε · log(x) = lim exp(εy) · y = lim x→0+ y→−∞ t→∞ 170 −t = 0. exp(εt) Beispiel 12.11 Wie unvorstellbar langsam der Logarithmus anwächst, mag folgendes Beispiel verdeutlichen. Wir denken uns ein Koordinatensystem in der Ebene mit einer Längeneinheit von 1 Zentimeter. Die Sonne ist etwa 1, 5 · 1013 Zentimeter von uns entfernt. Es gilt log(1, 5 · 1013 ) = 30, 339... . Der Graph der Logarithmusfunktion erreicht also in Sonnenentfernung nicht einmal 31 Zentimeter Höhe. Die zweite Aussage in Satz 12.10 über das Verhalten des Logarithmus bei 0 illustriert Abbildung 21 für den Fall ε = 31 . y 6 - 1 x Abbildung 21: Die Funktion x 7→ 12.4 √ 3 x log(x) Trigonometrische Funktionen und Hyperbelfunktionen x 1 sin(x) cos(x) Abbildung 22: Trigonometrische Funktionen Die Winkelfunktionen oder trigonometrischen Funktionen oder auch Kreisfunktionen Sinus, Cosinus und Tangens werden im Schulunterricht durch Längenverhältnisse im Einheitskreis wie in Abbildung 22 definiert. Wollte man hier diese Definition übernehmen, 171 dann müsste man zuvor Winkel oder die Länge von Kreisbogenstücken diskutieren. Vom logischen Standpunkt ist es einfacher, Bogenlängen erst später, in der Integralrechnung zu studieren, die Winkelfunktionen aber bereits jetzt mit Hilfe der Exponentialfunktion einzuführen. Selbstverständlich wäre diese Vorgehensweise für den Schulunterricht ungeeignet. Definition 12.12 Die Funktionen sin, cos, sinh, cosh : C −→ C werden definiert durch 1 iz e + e−iz , 2 1 z cosh(z) := e + e−z 2 1 iz e − e−iz 2i 1 z sinh(z) := e − e−z , 2 cos(z) := sin(z) := für alle z ∈ C. Diese vier Funktionen auf C heißen der Reihe nach der Sinus, der Cosinus, der Sinus hyperbolicus und der Cosinus hyperbolicus. Offensichtlich sind alle diese vier Funktionen stetig auf C. Für reelle x ist ex reell, und aufgrund der Definition sind somit auch cosh(x) und sinh(x) reell. Es ist nicht schwierig, sich ein Bild vom Verlauf der beiden Funktionen cosh und sinh im Reellen zu verschaffen: y 6 cosh(x) - x sinh(x) Abbildung 23: Hyperbelfunktionen Der Graph des Cosinus hyperbolicus beschreibt eine Kettenlinie (Katenoide), d.h. den Verlauf einer an ihren Enden aufgehängten Kette unter dem Einfluss der Gravitation. Hingegen ist es aufgrund der Definitionen überhaupt nicht offensichtlich, wie die Funktionen Cosinus und Sinus im Reellen verlaufen. Der Nachweis der Richtigkeit der in Abbildung 22 gezeigten Sachverhalte ist eine nicht ganz einfache Herausforderung. Dieser werden wir uns im nächsten Abschnitt stellen. Aus den Definitionen folgt sofort sinh(−z) = − sinh(z), sin(−z) = − sin(z) cosh(−z) = cosh(z), cos(−z) = cos(z), für alle z ∈ C. Solche Funktionen bezeichnet man als gerade beziehungsweise ungerade Funktionen: 172 Definition 12.13 Es sei f : D −→ C eine Funktion auf einer Menge D ⊆ C, und für alle z ∈ D sei auch −z ∈ D. Man nennt f eine gerade Funktion, falls f (−z) = f (z) für alle z ∈ D gilt, und f heißt eine ungerade Funktion, falls f (−z) = −f (z) für alle z ∈ D ist. Wir haben festgestellt, dass cosh und cos gerade Funktionen, sinh und sin ungerade Funktionen auf C sind. Eine Reihe weiterer Folgerungen aus den Definitionen sind in dem folgenden Satz gesammelt. Satz 12.14 Die trigonometrischen Funktionen und die Hyperbelfunktionen haben die folgenden Eigenschaften: Für alle z ∈ C gilt (1) cosh(iz) = cos(z), sinh(iz) = i · sin(z), (2) eiz = cos(z) + i sin(z) ez = cosh(z) + sinh(z). (Formel von Euler-Moivre), (3) cosh2 (z) − sinh2 (z) = 1, cos2 (z) + sin2 (z) = 1. Die zweite Beziehung bezeichnet man auch als trigonometrischen Pythagoras. (4) Es bestehen die auf ganz C gültigen Potenzreihenentwicklungen cos(z) = ∞ X (−1)n z 2n n=0 (2n)! , sin(z) = ∞ X (−1)n z 2n+1 n=0 ∞ X z 2n cosh(z) = , (2n)! n=0 sinh(z) = ∞ X n=0 (2n + 1)! . z 2n+1 , (2n + 1)! (5) Für reelle x sind alle Funktionswerte cosh(x), sinh(x), cos(x) und sin(x) reell. Die Punkte (cos(x), sin(x)) liegen auf der Kreislinie S 1 = {(u, v) ∈ R2 | u2 + v 2 = 1}, und die Punkte (cosh(x), sinh(x)) liegen auf dem Hyperbelast H = {(u, v) ∈ R2 | u > 0, u2 − v 2 = 1}. Dieses Resultat erklärt die Namen Kreisfunktionen für cos und sin und Hyperbelfunktionen für cosh und sinh. (6) Für alle z, w ∈ C gelten die Additionstheoreme cos(z + w) = cos(z) cos(w) − sin(z) sin(w), sin(z + w) = sin(z) cos(w) + cos(z) sin(w), cosh(z + w) = cosh(z) cosh(w) + sinh(z) sinh(w), sinh(z + w) = sinh(z) cosh(w) + cosh(z) sinh(w). 173 Beweis. (1) Ersetzt man im hyperbolischen Cosinus und Sinus die Variable z durch iz, so erhält man die Identitäten in (1). Demnach ist das Verhalten des Cosinus und des Sinus auf der reellen Achse durch das Verhalten von cosh und sinh auf der imaginären Achse gegeben. (2) Die Definitionsgleichungen können nach ez und eiz aufgelöst werden. Das ergibt die beiden Identitäten in (2). Hierdurch werden die beiden Funktionen z 7→ ez und z 7→ eiz jeweils in einen geraden und einen ungeraden Anteil zerlegt. (3) Aus den Definitionen und aus (exp(z))2 = exp(2z) folgt 2 1 z 2 1 z e + e−z − e − e−z 4 4 1 2z = e + 2 + e−2z − e2z + 2 − e−2z 4 = 1. cosh2 (z) − sinh2 (z) = Das ist die erste Identität in (3). Die zweite folgt, indem man z durch iz ersetzt und (1) verwendet. (4) Die Exponentialfunktion hat eine auf ganz C gültige Potenzreihenentwicklung. Aus dieser und aus den Definitionen folgt 1 (exp(iz) + exp(−iz)) 2 ! ∞ ∞ 1 X ik z k X (−i)k z k = + 2 k=0 k! k! k=0 cos(z) = ∞ X 1 k 1 (i + (−i)k ) · z k = 2 k! k=0 = ∞ X i2n · z 2n (2n)! n=0 ∞ X (−1)n 2n = ·z (2n)! n=0 und ebenso ∞ ∞ X ik − (−i)k k X (−1)n sin(z) = ·z = · z 2n+1 . 2i · k! (2n + 1)! n=0 k=0 Dabei wurde ik + (−i)k = 0 für ungerade k und ik − (−i)k = 0 für gerade k verwendet. Indem man z durch iz ersetzt, erhält man unter Beachtung von (1) cosh z = cos(−iz) = cos(iz) = ∞ ∞ X X (−1)n 1 · (iz)2n = · z 2n (2n)! (2n)! n=0 n=0 und ebenso sinh z = −i · sin(iz) = −i · ∞ X n=0 ∞ X (−1)n 1 · (iz)2n+1 = · z 2n+1 , (2n + 1)! (2n + 1)! n=0 174 also die Potenzreihenentwicklungen für cosh(z) und sinh(z). (5) Alle vier Potenzreihen haben reelle Koeffizienten. Für reelle x sind folglich auch die Werte cosh(x), sinh(x), cos(x) und sin(x) reell. Für cosh(x) und sinh(x) war das bereits aufgrund der Definition klar. Hieraus und aus (3) folgen die Behauptungen (cosh(x), sinh(x)) ∈ H (cos(x), sin(x)) ∈ S 1 und für x ∈ R. Damit ist (5) bewiesen. (6) Das Additionstheorem der Exponentialfunktion und die Definitionen ergeben cos(z) cos(w) − sin(z) sin(w) 1 iz 1 iz e + e−iz eiw + e−iw + e − e−iz eiw − e−iw = 4 4 1 iz iw = e e + e−iz e−iw 2 1 i(z+w) = e + e−i(z+w) 2 = cos(z + w), cos(z) sin(w) + sin(z) cos(w) 1 iz 1 iz = e + e−iz eiw − e−iw + e − e−iz eiw + e−iw 4i 4i 1 i(z+w) = e − e−i(z+w) 2i = sin(z + w), also die Additionstheoreme für Sinus und Cosinus. Hieraus folgen dann mittels (1) die Additionstheoreme der Hyperbelfunktionen: cosh(z + w) = cos(iz + iw) = cos(iz) cos(iw) − sin(iz) sin(iw) = cosh(z) cosh(w) + sinh(z) sinh(w), sinh(z + w) = −i · sin(iz + iw) = −i cos(iz) sin(iw) − i sin(iz) cos(iw) = cosh(z) sinh(w) + sinh(z) cosh(w). Bemerkung 12.15 Ein leichter zu merkender, allerdings nur für reelle Argumente gültiger Beweis für die Additionstheoreme von Sinus und Cosinus funktioniert wie folgt: Aufgrund des Additionstheorems der Exponentialfunktion sowie der Formel von Euler-Moivre gilt für alle z, w ∈ R cos(z + w) + i sin(z + w) = ei(z+w) = eiz · eiw = (cos z + i sin z) · (cos w + i sin w) = cos z cos w − sin z sin w + i (sin z cos w + cos z sin w) . 175 Durch Vergleich von Real- und Imaginärteil erhält man hieraus die Additionstheoreme für den Sinus und Cosinus. – Für beliebige z, w ∈ C bleiben die Umformungen zwar richtig, nicht aber der Vergleich von Real- und Imaginärteil: Dieser beruhte nämlich wesentlich darauf, dass alle auftretenden Funktionswerte sin z, sin w, cos z, cos w reell sind, was nur für reelle z, w gewährleistet ist. Aus den Additionstheoremen für Sinus und Cosinus lassen sich zahlreiche andere trigonometrische Identitäten herleiten. Einige Beispiele dafür lernen wir in den Übungen kennen. Aus den Potenzreihenentwicklungen von Sinus und Cosinus erhält man insbesondere zwei Grenzwerte, die sich immer wieder als nützlich erweisen: Korollar 12.16 Es gilt sin z =1 z→0 z lim und cos z − 1 = 0. z→0 z lim Beweis. Für alle z ∈ C \ {0} erhält man aus den Potenzreihendarstellungen in Satz 12.14 ∞ z2 z4 sin z X (−1)n z 2n = =1− + − +..., z (2n + 1)! 3! 5! n=0 ∞ z z3 cos z − 1 X (−1)n z 2n−1 = =− + − +.... z (2n)! 2 4! n=1 Die zunächst nur für z 6= 0 definierten Funktionen z 7→ sinz z und z 7→ cos zz−1 besitzen also Potenzreihenentwicklungen um 0. Insbesondere sind sie stetig in z = 0 ergänzbar (Satz 11.13 (3)), so dass die Grenzwerte sin z =1 z→0 z lim und cos z − 1 =0 z→0 z lim existieren. 12.5 Die Kreiszahl π Das Ergebnis (cos(x), sin(x)) ∈ S 1 für reelle x in Satz 12.14 (5) kann auch folgendermaßen formuliert werden: Durch x 7→ Φ(x) := eix = cos(x) + i sin(x) ist eine stetige Abbildung von R in die Einheitskreislinie in der komplexen Ebene gegeben. Wie bereits in Bemerkung 3.4 angedeutet, lässt sich hierbei das Argument x in eix als Winkel zwischen der positiven reellen Achse und dem vom Nullpunkt ausgehenden Strahl durch den Punkt eix auffassen, d.h. als Länge des Kreisbogenstücks zwischen Φ(0) = 1 und Φ(x) = eix auf dem Einheitskreis. Wir können also vermuten, dass Φ das Intervall [0, ∞[ längentreu auf die Einheitskreislinie abwickelt und dass deren Umfang, den wir wie üblich mit 2π bezeichnen wollen, die kleinste positive Zahl mit der Eigenschaft e2πi = 1 ist. Diese Sachverhalte näher zu begründen, ist eines der Ziele dieses Abschnitts. 176 Hiezu müssen wir zunächst die Kreiszahl π definieren. Wir tun dies so, dass sie die soeben genannte Eigenschaft hat. Aus beweistechnischen Gründen führen wir π zunächst allerdings etwas anders ein, nämlich als das Doppelte der kleinsten positiven Nullstelle des Cosinus. Es ist klar, dass es nicht mehr als eine solche Zahl geben kann. Das Problem besteht darin zu zeigen, dass der Cosinus überhaupt eine positive Nullstelle hat. (Außerdem muss man sich vergewissern, dass es unter seinen positiven Nullstellen eine kleinste gibt; dies ergibt sich aus der Stetigkeit des Cosinus.) Satz 12.17 (Die Kreiszahl π) Es gibt eine eindeutig bestimmte Zahl π mit den Eigenschaften π π π > 0, cos =0 und cos(x) > 0 für 0 ≤ x < . 2 2 Weiter ist sin x > 0 für alle x ∈ ]0, 2] sowie π sin = 1. 2 Beweis. Für alle x ∈ R besitzt der Cosinus die Potenzreihenentwicklung cos x = ∞ X (−1)n x2n n=0 (2n)! =1− x2 x4 + − +.... 2! 4! Diese Reihe ist für jedes x ∈ R alternierend. Für 0 < x ≤ 2 bildet ferner monoton fallende Nullfolge: Für an := 0< x2n (2n)! x2n (2n)! eine n≥1 gilt nämlich an+1 x2n+2 x2n x2 4 1 = : = ≤ = an (2n + 2)! (2n)! (2n + 1)(2n + 2) 12 3 für n ≥ 1 und 0 < x ≤ 2. (Für n = 0 ist dies hingegen nicht richtig!) Nach dem Leibniz-Kriterium (Satz 7.13) kann man daher ∞ X x2n cos x − 1 = (−1)n · (2n)! n=1 durch die Partialsummen dieser Reihe nach oben bzw. unten abschätzen und erhält cos x − 1 ≤ − x2 x4 + 2 24 Insbesondere ist für alle x ∈ ]0, 2]. 16 1 = − < 0 < 1 = cos 0. 24 3 Nach dem Zwischenwertsatz (Satz 10.9) besitzt der Cosinus im Intervall [0, 2] also mindestens eine Nullstelle. Wegen der Stetigkeit des Cosinus ist die Menge seiner Nullstellen abgeschlossen (Korollar 10.6). Daher gibt es eine kleinste Nullstelle x0 des Cosinus im (kompakten!) Intervall [0, 2] (vgl. Proposition 8.12). Wegen cos 0 = 1 > 0 ist x0 6= 0 und (wiederum nach dem Zwischenwertsatz) cos x > 0 für alle x ∈ [0, x0 [. Setzen wir nun π := 2x0 , so leistet π offensichtlich das im ersten Teil des Satzes Behauptete. cos 2 ≤ 1 − 2 + 177 Zu zeigen bleibt noch sin x > 0 für alle x ∈ ]0, 2] und sin π2 = 1. Aus cos π2 = 0 und cos2 + sin2 = 1 folgt zunächst sin π2 ∈ {+1, −1}. In der Potenzreihenentwicklung sin x = ∞ X (−1)n x2n+1 n=0 ist die Folge x2n+1 (2n+1)! (2n + 1)! =x− x3 x5 + − +... 3! 5! für alle x ∈ [0, 2] eine monoton fallende Nullfolge. Wie oben erhält n≥0 man daher aus dem Leibniz-Kriterium die Abschätzung x3 x2 sin x ≥ x − =x· 1− für alle x ∈ [0, 2]. 6 6 Daher ist sin x > 0 für alle x ∈ ]0, 2] und insbesondere sin π2 > 0, denn π2 = x0 liegt ja im Intervall [0, 2]. Damit und mit sin π2 ∈ {+1, −1} ergibt sich nunmehr auch sin π2 = 1, wie gewünscht. Korollar 12.18 tabelle: Für die Funktionen x 7→ eix , Sinus und Cosinus gilt folgende Werte- x π/2 eix i cos x sin x π 3π/2 2π −1 −i 1 0 −1 0 1 1 0 −1 0 Beweis. Aufgrund der Formel von Euler-Moivre und der Beziehungen cos π2 = 0 und sin π2 = 1 aus Satz 12.17 gilt zunächst eiπ/2 = cos π π + i sin = i. 2 2 Die weiteren Werte für eix ergeben sich dann aus einπ/2 = in für n ∈ N. (Hier fließt also einmal mehr das Additionstheorem der Exponentialfunktion wesentlich ein!) Die Werte für Cosinus bzw. Sinus erhält man durch Übergang zum Real- bzw. Imaginärteil unter Beachtung von cos x = Re eix , sin x = Im eix für x ∈ R. Die Ergebnisse von Korollar 12.18 kombinieren wir nun abermals mit dem Additionstheorem der Exponentialfunktion. Dadurch erhalten wir die Periodizität der Exponentialfunktion und damit auch von Cosinus und Sinus. Zudem können wir die Nullstellen der beiden letzteren Funktionen angeben. Definition 12.19 Es sei K = R oder K = C. Man nennt p ∈ K eine Periode der Funktion f : K −→ K, falls f (z + p) = f (z) für alle z ∈ K gilt. Die Zahl 0 ist offensichtlich Periode einer jeden Funktion f : K −→ K. Die Funktion f : K −→ K heißt periodisch, falls sie eine Periode p 6= 0 besitzt. 178 Satz 12.20 (1) Die Funktionen exp, cos und sin sind periodisch. Die sämtlichen Perioden von exp sind die Zahlen 2kπi mit k ∈ Z, und das sind die sämtlichen Stellen, an denen exp den Wert 1 annimmt. Für reelle x und y gilt |ex+iy | = ex . Die sämtlichen Perioden von Cosinus und Sinus sind die Zahlen 2kπ mit k ∈ Z, und zwar sowohl für cos, sin : R −→ R als auch für cos, sin : C −→ C. (2) Für alle z ∈ C gilt π cos z + = − sin z, 2 π sin z + = cos z, 2 cos(z + π) = − cos z, sin(z + π) = − sin z. (3) Der Sinus hat in C genau die (reellen) Nullstellen kπ mit k ∈ Z. Der Cosinus hat in C genau die (reellen) Nullstellen π 2 + kπ mit k ∈ Z. Beweis. (1) Wir zeigen zunächst, dass die Zahlen 2kπi bzw. 2kπ mit k ∈ Z Perioden der Exponentialfunktion bzw. des Sinus und Cosinus sind, und weisen hierauf nach, dass dies sämtliche Perioden sind. (a) Aus dem Additionstheorem der Exponentialfunktion und aus der in Korollar 12.18 bewiesenen Beziehung e2πi = 1 folgt exp(z + 2πi) = ez · e2πi = exp(z) für alle z ∈ C. Daher ist 2πi eine Periode der Exponentialfunktion. Offensichtlich ist dann auch 2kπi für jedes k ∈ Z eine Periode der Exponentialfunktion. Damit sind die Zahlen 2kπ mit k ∈ Z Perioden von z 7→ eiz und von z 7→ e−iz . Aus den Definitionen von Sinus und Cosinus folgt, dass sie auch Perioden von Sinus und Cosinus sind. (b) Wegen exp(z + p) = exp(z) · exp(p) und der Nullstellenfreiheit der Exponentialfunktion ist die Identität exp(z + p) = exp(z) äquivalent mit exp(p) = 1. Daher ist eine Zahl p ∈ C genau dann eine Periode von exp, wenn exp(p) = 1 ist. Es sei nun ein p ∈ C mit exp(p) = 1 gegeben. Wir schreiben p = x + iy mit reellen x und y. Wie am Anfang dieses Abschnitts ausgeführt, gilt |eiy | = 1. Damit und mit ex > 0 folgt 1 = |ep | = ex+iy = |ex | · |eiy | = ex . Aufgrund der strengen Monotonie der reellen Exponentialfunktion (Korollar 12.1) hat dies x = 0 zur Folge. Es ist also p = iy mit y ∈ R. Wir zerlegen y in der Form y = 2kπ + t mit k ∈ Z und −π < t ≤ π. Wegen eiy = 1 und e2kπi = 1 folgt dann 179 auch eit = 1. Für z := eit/2 folgt z 2 = 1, also z ∈ {1, −1}, sowie z = z −1 = e−it/2 . Mit der Definition des Sinus folgt t 1 it/2 1 sin = e − e−it/2 = · (z − z) = 0 2 2i 2i und damit auch sin − 2t = 0. Also ist | 12 t| eine Nullstelle des Sinus mit 0 ≤ | 12 t| ≤ π2 ≤ 2. In Satz 12.17 wurde gezeigt, dass der Sinus im Intervall ]0, 2] keine Nullstelle besitzt. Also folgt t = 0 und y = 2kπ, d.h. p = 2kπi. Die ganzzahligen Vielfachen von 2πi sind also die einzigen Stellen, an denen die Exponentialfunktion den Wert 1 annimmt, und damit deren einzige Perioden. Damit sind die die Exponentialfunktion betreffenden Aussagen in (1) komplett bewiesen. Es sei p ∈ C eine Periode von cos; wir schreiben sie in der Form p = 2πv mit v ∈ C. Für alle z ∈ C gilt dann eiz e2πiv + e−iz e−2πiv = 2 cos(z + 2πv) = 2 cos(z) = eiz + e−iz , also e2iz · e2πiv − 1 = 1 − e−2πiv = e−2πiv · e2πiv − 1 , also e2πiv − 1 · e2iz − e−2πiv = 0. Weil die Exponentialfunktion nicht konstant ist, folgt hieraus e2πiv = 1 und somit nach dem bereits Bewiesenen v ∈ Z. Diese Betrachtung bleibt sinngemäß gültig, wenn man den Cosinus als Funktion cos : R −→ R betrachtet und voraussetzt, dass p ∈ R eine Periode dieser Funktion ist. Sowohl der reelle als auch der komplexe Cosinus haben also nur die Perioden 2kπ mit k ∈ Z. Genauso schließt man für den Sinus. Damit ist (1) vollständig bewiesen. (2) Mit den Additionstheoremen und den aus Korollar 12.18 bekannten Werten des Sinus und Cosinus an den Stellen π2 und π folgt für alle z ∈ C π π π = cos z · cos − sin z · sin = − sin z, cos z + 2 2 2 π π π sin z + = sin z · cos + cos z · sin = cos z, 2 2 2 sin(z + π) = sin z · cos(π) + cos z · sin(π) = − sin z, cos(z + π) = cos z · cos(π) − sin z · sin(π) = − cos z. Dies zeigt (2). (3) Für alle z ∈ C gelten aufgrund der Definition des Sinus und aufgrund von (1) die Äquivalenzen sin z = 0 ⇐⇒ eiz = e−iz ⇐⇒ e2iz = 1 ⇐⇒ 2iz = 2kπi für ein k ∈ Z ⇐⇒ z = kπ für ein k ∈ Z. Dies zeigt die Behauptung über die Nullstellen des Sinus. Da gemäß (2) cos z + π2 = − sin z gilt, entstehen die Nullstellen des Cosinus aus denen des Sinus durch eine Verschiebung um π2 . Damit folgt auch die Behauptung über die Nullstellen des Cosinus. 180 Bemerkung 12.21 (1) Die Sätze 12.17 bis 12.20 in Verbindung mit dem trigonometrischen Pythagoras“ ” ermöglichen eine Vorstellung vom Verlauf des Cosinus und des Sinus auf der reellen Achse (vgl. Abbildung42 24). Aus sin2 x + cos2 x = 1 folgt nämlich zunächst −1 ≤ sin x ≤ 1 und −1 ≤ cos x ≤ 1 für alle x ∈ R. Wegen cos(π/2) = sin(0) = 0 und cos(0) = sin(π/2) = 1 ergibt sich dann aus dem Zwischenwertsatz, dass cos : [0, π/2] −→ [0, 1] und sin : [0, π/2] −→ [0, 1] surjektive Funktionen sind. Ihr Verlauf auf der übrigen reellen Achse ist dann durch die Beziehungen in Satz 12.20 (2) festgelegt. y 6 1 sin cos - 2π x Abbildung 24: Der reelle Sinus und Cosinus (2) Abbildung 25 zeigt die Partialsummen n X (−1)k sn (x) = x2k+1 (2k + 1)! k=0 der Sinusreihe für n = 6 und n = 12 im Intervall [−12, 12]. Wir beobachten eine gute Übereinstimmung zwischen sn (x) und sin x in einem Intervall um den Nullpunkt, dessen Länge mit n anwächst. Hier begegnet uns zum ersten Mal der Gedanke, eine durch eine Potenzreihe definierte Funktion durch die Partialsummen dieser Potenzreihe zu approximieren. Mit diesem Konzept der sog. Taylor-Approximation werden wir uns in Kapitel 20 ausführlich beschäftigen. Wir können jetzt auch zeigen, dass x 7→ eix eine surjektive Abbildung von R auf die Einheitskreislinie ist. 42 Tatsächlich reichen die bisher bewiesenen Resultate über den Sinus und Cosinus noch nicht ganz aus, um den genauen Verlauf der Graphen in Abbildung 24 zu begründen. Strenggenommen wissen wir bisher z.B. noch nichts über das Monotonieverhalten auf geeigneten Teilintervallen, und auch die waagrechten Tangenten an den Graphen in den Maximal- und Minimalstellen sind nicht selbstverständlich. Hier greifen wir bereits Erkenntnissen vor, die wir später im Rahmen der Differentialrechnung gewinnen werden. 181 s6 s12 s12 s6 Abbildung 25: Partialsummen der Sinusreihe Korollar 12.22 (a) Für jede reelle Zahl a wird das Intervall [a, a + 2π[ durch x 7→ eix bijektiv und stetig auf die Einheitskreislinie in C abgebildet. (b) Für jede reelle Zahl a wird der horizontale Streifen {z ∈ C | a ≤ Im(z) < a + 2π} durch z 7→ ez bijektiv und stetig auf die punktierte Ebene C \ {0} abgebildet. Beweis. (a) Wir betrachten die Funktion Φ : x 7→ eix auf dem Intervall I = [0, 2π[ . Sie ist injektiv: Ist nämlich Φ(x) = Φ(y) für gewisse x, y ∈ I, so folgt ei(x−y) = 1, also x − y = 2kπ für ein k ∈ Z (Satz 12.20 (1)). Da x und y jedoch beide in I = [0, 2π[ liegen, muss k = 0, also x = y sein. Dies beweist die Injektivität von Φ auf I. (Auf größeren Intervallen, z.B. auf R, ist Φ selbstverständlich nicht mehr injektiv.) Deswegen und weil die Funktionen cos : [0, π/2] −→ [0, 1] und sin : [0, π/2] −→ [0, 1] surjektiv sind (Bemerkung 12.21 (1)), bildet Φ das Intervall [0, π/2] bijektiv auf den Viertelkreis E1 := {z ∈ C : |z| = 1, Re (z) ≥ 0, Im(z) ≥ 0} (d.h. auf das im abgeschlossenen ersten Quadranten der komplexen Ebene liegende Stück der Einheitskreislinie) ab. Wegen eiπ/2 = i gilt π = iΦ(x). Φ x+ 2 Daher wird das Intervall [π/2, π] durch Φ bijektiv auf den Viertelkreis E2 := {z ∈ C : |z| = 1, Re (z) ≤ 0, Im(z) ≥ 0} abgebildet. Entsprechend schließt man für die Intervalle [π, 3π/2] und [3π/2, π]. Insgesamt bildet Φ das Intervall I bijektiv auf die Einheitskreislinie {z ∈ C : |z| = 1} ab. Dasselbe folgt dann auch für verschobene Intervalle a + I = [a, a + 2π[ mit reellen a. Damit ist (a) bewiesen. 182 (b) Es sei S := {z ∈ C | a ≤ Im(z) < a + 2π}. Wegen der Nullstellenfreiheit der Exponentialfunktion ist exp(S) ⊆ C \ {0}. Zum Nachweis der Surjektivität sei ein w ∈ C \ {0} gegeben. Dann ist r := |w| > 0, und für ζ := wr gilt |ζ| = 1 und w = rζ. Es gibt ein x ∈ R mit ex = r. Nach (a) gibt es ferner ein y ∈ [a, a + 2π[ mit eiy = ζ. Für z := x + iy gilt dann z ∈ S und ez = ex · eiy = rζ = w. Also ist exp : S −→ C \ {0} surjektiv. Die Injektivität kann man ganz ähnlich begründen wie die Injektivität von Φ in (a): Es seien z, w ∈ S mit ez = ew gegeben. Dann ist ez−w = 1, also z − w = 2kπi für ein k ∈ Z. Da z und w beide in dem halboffenen Streifen S der Breite 2π liegen, muss k = 0, also z = w sein. Also ist exp : S −→ C \ {0} injektiv und damit insgesamt bijektiv. Hiermit ist auch (b) bewiesen. Mit Hilfe von Satz 12.20 kann jetzt die Einführung von Polarkoordinaten in der Ebene begründet werden. Definition 12.23 Es sei z ∈ C \ {0}, und man setze r := |z|. Dann ist r > 0 und zr = 1. Nach Korollar 12.22 (a) gibt es also genau eine reelle Zahl ϕ mit 0 ≤ ϕ < 2π und z = eiϕ , r also z = reiϕ . Für x := Re (z) und y := Im(z) folgt x = r · cos(ϕ), y = r · sin(ϕ) und r= p x2 + y 2 . Man nennt (r, ϕ) die Polarkoordinaten der komplexen Zahl z und auch des Punktes (x, y) ∈ R2 , und man schreibt ϕ = arg(z) und nennt ϕ den Hauptwert des Arguments von z. Die sämtlichen reellen Zahlen t mit z = reit sind nach Satz 12.20 (1) die Zahlen t = ϕ + 2πik mit beliebigen k ∈ Z. Jede solche Zahl t wird ein Argument von z genannt. Das Argument einer komplexen Zahl 6= 0 ist also nur bis auf ganzzahlige Vielfache von 2π eindeutig bestimmt. Bemerkung 12.24 (1) Wir können jetzt endlich die in Bemerkung 3.4 erwähnte geometrische Deutung der Multiplikation komplexer Zahlen begründen: Es sei z = reiϕ wie zuvor und w = %eiψ mit % > 0 und 0 ≤ ψ < 2π. Dann folgt zw = r% · ei(ϕ+ψ) . Wegen 0 ≤ ϕ + ψ < 4π folgt für den Hauptwert des Arguments von zw arg(zw) = ϕ + ψ oder 183 arg(zw) = ϕ + ψ − 2π. Zwei komplexe Zahlen 6= 0 werden demnach multipliziert, indem man ihre (positiven) Beträge multipliziert und ihre Argumente addiert (wobei man mit den Argumenten modulo 2π zu rechnen hat, d.h. Argumente, die sich nur um 2π unterscheiden, miteinander zu identifizieren hat). Bei variablem z ist die Multiplikation mit einem festen w 6= 0 eine Drehstreckung ; die Beträge werden um den Faktor |w| gestreckt, und es wird mit dem Winkel arg(w) entgegen dem Uhrzeigersinn gedreht. (2) Wir können jetzt auch die Interpretation des Arguments x in eix als Länge des Kreisbogenstücks (auf dem Einheitskreis) zwischen 1 und eix besser plausibilisieren. (Hierbei greifen wir allgemeineren Überlegungen in Kapitel 22 vor, in dem wir die Weglänge offiziell definieren werden.) zn = eit • • • sin(t) • • it/n • z1 = e 0 z0 = 1 cos(t) Abbildung 26: Geometrische Veranschaulichung von eix Bei fest gewähltem x ∈ [0, 2π[ betrachten wir Φ(t) := eit auf dem Intervall I := [0, x]. Wir wählen eine natürliche Zahl n und zerlegen I in n gleich lange Teilintervalle mit den Endpunkten kx/n, und wir setzen kx zk := Φ = eikx/n für k = 0, 1, . . . , n. n Alle Punkte zk liegen auf der Einheitskreislinie. Insbesondere ist z0 = Φ(0) = 1 und zn = Φ(x) = eix . Um zu der angestrebten Interpretation von x als Winkel, d.h. als Länge eines Kreisbogens zu gelangen, berechnen wir zunächst die Abstände aufeinander folgender Teilpunkte: Es gilt |zk+1 − zk | = ei(k+1)x/n − eikx/n = eikx/n · eix/n − 1 = eix/n − 1 = |z1 − z0 |. 184 Der Abstand ist demnach unabhängig von k. Die Summe der Abstände ist daher Ln := n−1 X |zk+1 − zk | = n · |z1 − z0 |. k=0 Dies ist die Länge des Polygonzuges durch die Punkte z0 , z1 , . . . , zn . Sie approximiert bei größer werdendem n immer besser die Länge des Kreisbogens von z0 = 1 bis zn = eix . Wir wollen daher den Grenzübergang n → ∞ ausführen. Es gilt ix/n e ix/n − 1 . L n = n · e − 1 = |ix| · |ix/n| Aufgrund der Reihendarstellung der Exponentialfunktion gilt für alle z ∈ C \ {0} ∞ ∞ ez − 1 X z j−1 X z j z z2 = = =1+ + + .... z j! (j + 1)! 2! 3! j=1 j=0 z Dies zeigt, dass die (zunächst nur für z 6= 0 definierte) Funktion z 7→ e z−1 eine Potenzreihenentwicklung um 0 besitzt. Insbesondere ist sie stetig in z = 0 ergänzbar, so dass der Grenzwert ez − 1 =1 lim z→0 z existiert. Also existiert auch der Grenzwert ix/n z e e − 1 − 1 = |ix|. lim Ln = |ix| · lim = |ix| · lim n→∞ n→∞ z→0 |ix/n| z Anschaulich ist dieser Grenzwert als Länge des Kreisbogens von 1 bis eix zu interpre tieren; die Länge ist x, also identisch mit der Länge von I. Als weitere Folgerung aus der Polarkoordinatendarstellung komplexer Zahlen ergibt sich das folgende Resultat: Lemma 12.25 (Einheitswurzeln) Es sei n ∈ N. Die Gleichung z n − 1 = 0 hat in C die n verschiedenen Lösungen 2πik zk = exp mit k ∈ {0, 1, . . . , n − 1}. n Für jede komplexe Zahl a 6= 0 gibt es n verschiedene Lösungen der Gleichung z n = a in C. Die Lösungen zk der Gleichung z n −1 = 0 bilden die auf der Einheitskreislinie gelegenen Ecken eines regelmäßigen n-Ecks. Deswegen nennt man z n − 1 = 0 eine Kreisteilungsgleichung, und die Lösungen zk = exp(2πik/n) heißen n-te Einheitswurzeln. Beweis. Die Zahlen zk = exp(2πik/n) mit 0 ≤ k ≤ n − 1 erfüllen zkn = e2πik = 1, und sie sind nach Korollar 12.22 (a) paarweise verschieden (da x 7→ eix auf [0, 2π[ injektiv ist). Damit ist die erste Behauptung bewiesen. Es sei a ∈ C und a 6= 0. In Polarkoordinaten ist a = reiϕ mit r > 0 und 0 ≤ ϕ < 2π. Die Zahlen √ √ n r · eiϕ/n · zk = n r · ei(2kπ+ϕ)/n ergeben dann n verschiedene Lösungen der Gleichung z n = a. 185 e2πi/7 1 Abbildung 27: 7-teEinheitswurzeln 12.6 Der Fundamentalsatz der Algebra∗ In Kapitel 3 wurden die komplexen Zahlen durch die Erfindung“ einer Nullstelle des Poly” noms X 2 + 1 konstruiert. Man kann jetzt zeigen, dass damit sehr viel mehr erreicht wurde: Jedes nicht-konstante komplexe Polynom besitzt eine komplexe Nullstelle. Die speziellen Polynome X n − 1 mit beliebigen natürlichen Zahlen n hatten wir bereits in Lemma 12.25 behandelt. Wir betrachten nun beliebige nicht-konstante Polynome. Zunächst zeigen wir, dass der Betrag |f (z)| eines Polynoms f (z) = an z n + an−1 z n−1 + . . . + a1 z + a0 vom Grad n ≥ 1 und mit führendem Koeffizienten an 6= 0 sowohl nach oben als auch nach unten im Wesentlichen durch |an | · |z|n abgeschätzt werden kann, wenn |z| genügend groß ist. Lemma 12.26 (Wachstum von Polynomen) Es sei f (z) = an z n + an−1 z n−1 + . . . + a1 z + a0 ein Polynom vom genauen Grad n ≥ 1 mit Koeffizienten aν ∈ C. Dann gibt es eine Zahl R > 0, so dass für alle z ∈ C mit |z| ≥ R die Ungleichung 1 · |an | · |z|n ≤ |f (z)| ≤ 2|an | · |z|n 2 besteht. Beweis. Da f genauen Grad n hat, ist an 6= 0. Es ist f (z) = an z n · (1 + Q(z)) mit 186 Q(z) := n−1 1 X ak z k . n an z k=0 Es sei n−1 R := 1 + 2 X |ak | . |an | k=0 Dann gilt für alle z ∈ C mit |z| ≥ R n−1 n−1 n−1 X 1 1 X |ak | 1 X |ak | 1 · |Q(z)| ≤ ≤ ≤ |ak | < ; n−k n−k |an | k=0 |z| |an | k=0 R |an | · R k=0 2 hierbei haben wir in der vorletzten Abschätzung R ≥ 1 ausgenutzt. Somit ergibt sich für alle z ∈ C mit |z| ≥ R 1 · |an | · |z|n ≤ |an z n | · (1 − |Q(z)|) ≤ |f (z)| ≤ |an z n | · (1 + |Q(z)|) ≤ 2|an | · |z|n . 2 Den ersten vollständigen Beweis des Fundamentalsatzes der Algebra gab Gauß in seiner Dissertation 1799. Wir folgen einem Beweis von Argand (1768 – 1822) aus dem Jahr 1814. Satz 12.27 (Fundamentalsatz der Algebra, Nullstellensatz für Polynome) Jedes Polynom mit Koeffizienten in C und mit einem Grad ≥ 1 hat wenigstens eine Nullstelle in C. Beweis. Es sei ein Polynom f (z) = an z n + an−1 z n−1 + . . . + a1 z + a0 mit Koeffizienten aν ∈ C und mit n = grad (f ) ≥ 1 gegeben. Für n = 1 ist die Behauptung klar, und daher dürfen wir n ≥ 2 annehmen. Nach Lemma 12.26 gibt es ein R > 0 mit |f (z)| ≥ 1 · |an | · |z|n 2 für alle z ∈ C mit |z| ≥ R. O.B.d.A. dürfen wir hierbei R so groß wählen, dass |an |·Rn > 2|f (0)| ist. Auf der kompakten Menge K := BR (0) = {z ∈ C : |z| ≤ R} besitzt die stetige Funktion z 7→ |f (z)| nach Korollar 10.3 ein absolutes Minimum. Es sei z0 eine Stelle, an der das Minimum angenommen wird. Für alle z ∈ C mit |z| = R gilt dann |f (z)| ≥ |an | · Rn > |f (0)| ≥ min |f (ζ)| = |f (z0 )|. ζ∈BR (0) 2 Deshalb folgt |z0 | < R; der Punkt z0 liegt im Inneren UR (0) von K. Falls z0 eine Nullstelle von f ist, ist die Behauptung gezeigt. Wir dürfen also f (z0 ) 6= 0 annehmen. Dann ist g(w) := 1 · f (z0 + w). f (z0 ) ein Polynom vom Grad n mit dem konstanten Koeffizienten g(0) = 1. Wir können dieses Polynom in der Form g(w) = 1 + bm wm + bm+1 wm+1 + . . . + bn wn 187 mit bν ∈ C, 1 ≤ m ≤ n, bm , bn 6= 0 schreiben. Nach Lemma 12.25 gibt es ein β ∈ C mit β m = −1/bm . Es folgt g(βw) = 1 − wm + cm+1 wm+1 + . . . + cn wn mit Koeffizienten cm+1 , . . . , cn ∈ C und cn 6= 0. Wenn m = n ist, dann ist g(βw) = 1 − wm , und es folgt g(β) = 0, also f (z0 + β) = 0, und somit hat f eine Nullstelle. Im Falle m < n schreiben wir g(βw) = 1 − wm + wm+1 · h(w) mit einem Polynom h 6= 0, und wir setzen M := 1 + max{|h(w)| : w ∈ C, |w| ≤ 1}, δ := 1 . M Für alle w ∈ C mit 0 < |w| < δ ist |w| < 1 und daher |wm+1 · h(w)| ≤ M · |w|m+1 < M · δ · |w|m = |w|m . Für alle reellen x mit 0 < x < δ folgt |g(βx)| ≤ |1 − xm | + |xm+1 h(x)| < 1 − xm + xm = 1, also |g(βx)| < 1 und somit |f (z0 + βx)| < |f (z0 )|. Das ist ein Widerspruch zur Minimalität von |f (z)| im Punkt z0 ; denn da z0 im Inneren von K liegt, gibt es ein x ∈]0, δ[ mit z0 + βx ∈ K. Damit ist der Satz bewiesen. Der Widerspruch am Ende des Beweises kam durch eine Beobachtung zu Stande, die man auch positiv“ wie folgt aussprechen kann: Ist f ein komplexes Polynom, f nicht konstant ” und f (z0 ) 6= 0, dann gibt es eine komplexe Zahl β mit |f (z0 + βx)| < |f (z0 )| für alle genügend kleinen positiven reellen Zahlen x. In einer gewissen Richtung von z0 aus nehmen die Beträge der Werte von f ab. Eine solche Richtung findet man mit Hilfe von Lemma 12.25, und für dieses Ergebnis benötigen wir alle unsere Kenntnisse über die Exponentialfunktion. Die Schlussweise bleibt für eine viel größere Klasse von Funktionen gültig. Dies besagt das Minimumprinzip (Korollar 26.8). Eine Konsequenz aus Satz 12.27 ist die Zerlegbarkeit komplexer Polynome in Linearfaktoren. Zur Begründung benötigen wir ein Hilfsmittel aus der Algebra, die Division mit Rest für Polynome. Lemma 12.28 (Divisionsalgorithmus) Es seien f und g Polynome mit Koeffizienten aus einem Körper K, und g sei nicht das Nullpolynom. Dann gibt es Polynome q und r mit Koeffizienten in K und mit f = qg + r, grad (r) < grad (g). Beweisskizze. Im Falle grad (f ) < grad (g) gilt die Behauptung mit q = 0, r = f . Es sei grad (f ) = m ≥ n = grad (g) und f (x) = am xm + . . . + a1 x + a0 , g(x) = cn xn + . . . + c1 x + c0 mit Koeffizienten aµ , cν ∈ K und am 6= 0, cn 6= 0. Dann setzen wir q1 (x) := (am /cn )xm−n und f1 (x) := f (x) − q1 (x)g(x). Es folgt grad (f1 ) < grad (f ). Wir setzen das Verfahren mit f1 anstelle von f fort. Nach endlich vielen Schritten erhalten wir die Behauptung, worin q1 (x) der Term in q(x) mit der höchsten Potenz in x ist. 188 In Lemma 12.28 nennen wir q(x) den Quotienten und r(x) den Rest bei der Division von f (x) durch g(x). Wir betrachten nun in Lemma 12.28 den speziellen Fall, dass g(x) = x − x0 mit x0 ∈ K ist und f (x0 ) = 0 gilt. Man erhält dann f = qg + r mit grad (r) < 1. Also ist r(x) ein konstantes Polynom. Setzt man in f (x) = q(x) · (x − x0 ) + r(x) x = x0 ein, so erkennt man, dass r die Konstante 0 ist. Die Division von f durch g geht also ohne Rest auf. Jetzt sei f ein Polynom mit Koeffizienten im Körper C, und f sei nicht konstant. Nach Satz 12.27 besitzt f eine Nullstelle z1 ∈ C. Also können wir von f (z) den Faktor z − z1 abspalten. Auf den Quotienten können wir die gleiche Überlegung anwenden. Nach endlich vielen Schritten erhalten wir das folgende Ergebnis. Korollar 12.29 Es sei f ein Polynom mit Koeffizienten aus C und mit n = grad (f ) ≥ 1. Dann besteht eine Zerlegung f (z) = an · (z − z1 )(z − z2 ) · . . . · (z − zn ) mit an ∈ C, an 6= 0 und mit (nicht notwendigerweise verschiedenen) z1 , z2 , . . . , zn ∈ C. Eine andere Konsequenz aus Lemma 12.28 ist, dass ein Polynom vom Grad n ≥ 1 mit Koeffizienten in einem Körper K höchstens n Nullstellen in K haben kann. Über einem Körper mit unendlich vielen Elementen wie etwa Q, R oder C ist daher eine Polynomfunktion f nur dann konstant 0, wenn alle Koeffizienten 0 sind, wenn also f das Nullpolynom ist. Durch die Polynomfunktion sind dann die Koeffizienten und insbesondere der Grad eindeutig bestimmt. (Diese Aussagen sind über endlichen Körpern nicht mehr richtig. Dort muss man daher zwischen Polynomen und Polynomfunktionen unterscheiden.) Für reelle Polynome erhalten wir die folgende Zerlegung: Korollar 12.30 Es sei f (x) = xn +an−1 xn−1 +. . .+a1 x+a0 ein Polynom mit Koeffizienten aν ∈ R und mit n = grad (f ) ≥ 1. Dann besteht eine Zerlegung f (x) = (x − x1 ) · . . . · (x − xm ) · g1 (x) · . . . · gr (x) mit reellen Zahlen x1 , . . . , xm , worin m ≥ 0, r ≥ 0, m + 2r = n ist und g1 , . . . , gr reelle Polynome vom Grad 2 ohne reelle Nullstellen sind. Beweis. Nach Korollar 12.29 gilt f (x) = (x − x1 ) · . . . · (x − xn ) mit x1 , . . . , xn ∈ C. Es sei m ≥ 0 die Anzahl der ν mit xν ∈ R. Wir dürfen x1 , . . . , xm ∈ R und xν 6∈ R für ν > m annehmen. Weil f reelle Koeffizienten hat, folgt aus f (xν ) = 0 auch f (xν ) = f (xν ) = 0. Die nicht-reellen Nullstellen treten also in Paaren konjugiert komplexer Zahlen auf. Das Produkt zweier solcher Linearfaktoren ist (x − xν )(x − xν ) = x2 − (xν + xν )x + xν xν . Wegen xν + xν = 2 Re (xν ) ∈ R und xν xν = |xν |2 ∈ R ist das ein reelles Polynom vom Grad 2 ohne reelle Nullstellen. Hieraus folgt die Behauptung. 189 13 Vertiefte topologische Betrachtungen Zum Abschluss von Teil II. der Vorlesung setzen wir unsere topologischen Betrachtungen aus Kapitel 8 fort und stellen damit wichtige Hilfsmittel für spätere Überlegungen bereit. Wir führen neue topologische Begriffe wie Abschluss, Rand und Inneres einer Menge ein und geben eine neue Charakterisierung von Kompaktheit mithilfe der sog. Heine-Borelschen Überdeckungseigenschaft. Ferner lernen wir die Konzepte der gleichmäßigen Stetigkeit und der Dehnungsbeschränktheit kennen und beweisen den Banachschen Fixpunktsatz. Trost und Ermutigung: Dieses Kapitel ist aufgrund des relativ hohen Abstraktionsgrades das vermutlich anspruchvollste der gesamten Vorlesung. Die folgenden Kapiteln werden wieder deutlich anschaulicher. 13.1 Bild und Urbild von Funktionen Wir werden im Folgenden immer wieder einige allgemeine Regeln für das Urbild und das Bild von Mengen unter Funktionen benötigen. Diese Regeln haben nichts mit analytischen Eigenschaften der Funktionen wie Stetigkeit oder Differenzierbarkeit zu tun, sondern gelten in viel allgemeinerem Rahmen. Die Überlegungen dieses Abschnitts hätte man auch an den Beginn der Analysis I stellen (oder im Vorkurs behandeln) können. Wir bringen sie bewusst so spät, in der Hoffnung, dass sie nunmehr – zu Beginn des zweiten (oder vierten) Semesters – besser verständlich sind als es bei Studienanfängern erfahrungsgemäß meist der Fall ist. Wir beginnen mit der Wiederholung einiger bekannter (wenn auch evtl. noch nicht vertrauter) Definitionen. Definition 13.1 Es seien X und Y nichtleere Mengen und f : X −→ Y eine Funktion. (1) Für eine beliebige Teilmenge A ⊆ X nennt man die Menge f (A) := {y ∈ Y | ∃x∈A y = f (x)} = {f (x) | x ∈ A} ⊆ Y das Bild von A unter f . Für eine beliebige Teilmenge B ⊆ Y nennt man f −1 (B) := {x ∈ X | f (x) ∈ B} ⊆ X das Urbild von B unter f . Dieses Urbild besteht also aus allen denjenigen x ∈ X, die von f in die Menge B hinein abgebildet werden. (2) Die Funktion f heißt surjektiv, falls f (X) = Y gilt, falls es also zu jedem y ∈ Y ein x ∈ X gibt, wofür f (x) = y gilt. In Quantorenschreibweise: ∀y∈Y ∃x∈X f (x) = y. In diesem Fall nennt man f auch eine Abbildung von X auf Y (englisch: onto). Man nennt f injektiv oder eineindeutig (englisch: one-to-one), falls aus x1 , x2 ∈ X und f (x1 ) = f (x2 ) stets x1 = x2 folgt. In Quantorenschreibweise: ∀x1 ,x2 ∈X (f (x1 ) = f (x2 ) =⇒ x1 = x2 ) . Falls f surjektiv und injektiv ist, nennt man f bijektiv. 190 Bemerkung 13.2 (1) Warnung: In der Notation f −1 (B) für das Urbild taucht dasselbe Symbol f −1 auf, mit dem man auch die Umkehrfunktion bezeichnet. Das Urbild f −1 (B) ist aber auch dann erklärt, wenn f gar keine Umkehrfunktion besitzt. (Um hier Verwechslungen zu vermeiden, schreibt man oft auch f − (B) für das Urbild.) Auch wird in der Definition von f −1 (B) keineswegs B ⊆ f (X) vorausgesetzt. Im Falle B ∩ f (X) = ∅ beispielsweise ist f −1 (B) = ∅. (2) Für eine surjektive Funktion f : X −→ Y ist also die Zielmenge (der Wertevorrat) Y identisch mit der Wertemenge f (X). Die Zielmenge einer Funktion ist oft43 von untergeordneter Bedeutung: Man kann prinzipiell die Zielmenge so einschränken, dass die Funktion surjektiv wird, indem man nämlich f : X −→ Y als eine Funktion f : X −→ f (X) auffasst. surjektiv injektiv ist, bedeutet, dass für jedes y ∈ Y die Gleichung (3) Dass f : X −→ Y bijektiv mindestens höchstens eine Lösung x ∈ X hat. f (x) = y genau Im Fall der durchweg eindeutigen Lösbarkeit kann man die Richtung der Zuordnung x 7→ f (x) umkehren: Definition 13.3 Es sei f : X −→ Y eine injektive Funktion. Dann ist f : X −→ f (X) bijektiv. Man setzt f −1 (y) := x, falls y ∈ f (X) und f (x) = y gilt. Einem Wert y ∈ f (X) der Funktion f wird also der eindeutig bestimmte Punkt x zugeordnet, in dem dieser Wert angenommen wird. Hierdurch ist eine Funktion f −1 : f (X) −→ X wohldefiniert. Man nennt f −1 die Umkehrfunktion oder die Umkehrabbildung von f oder die zu f inverse Funktion. Es gilt f −1 ◦ f = idX , f ◦ f −1 = idf (X) . Im Falle X, Y ⊆ R und bei der üblichen Veranschaulichung des Graphen erhält man den Graphen der Umkehrfunktion f −1 , indem man den Graphen von f an der Winkelhalbierenden des ersten und dritten Quadranten spiegelt (Abbbildung 28). Lemma 13.4 Es seien X, Y, Z nichtleere Mengen und f : X −→ Y , g : Y −→ Z Abbildungen. Dann gilt: 43 Diese Feststellung gilt z.B. nicht in der Linearen Algebra. 191 f f (A) f −1 A A f (A) Abbildung 28: Eine injektive Funktion und ihre Umkehrung (a) Sind f und g injektiv, so ist auch g ◦ f injektiv. Sind f und g surjektiv, so ist auch g ◦ f surjektiv. Sind f und g bijektiv, so ist auch g ◦ f bijektiv. (b) Ist g ◦ f : X −→ Z surjektiv, so ist g surjektiv. (c) Ist g ◦ f : X −→ Z injektiv, so ist f injektiv. Beweis. (a) Die Resultate in (a) sind aus dem Vorkurs bekannt. (b) Zum Nachweis der Surjektivität von g sei ein z ∈ Z gegeben. Da g ◦ f surjektiv ist, gibt es ein x ∈ X mit z = (g ◦ f )(x). Setzt man y := f (x), so ist y ∈ Y und g(y) = g(f (x)) = (g ◦ f )(x) = z. Dies zeigt die Surjektivität von g. (c) Zum Nachweis der Injektivität von f seien x1 , x2 ∈ X mit f (x1 ) = f (x2 ) gegeben. Dann ist auch (g ◦ f )(x1 ) = g(f (x1 )) = g(f (x2 )) = (g ◦ f )(x2 ). Da g ◦ f injektiv ist, folgt x1 = x2 . Dies zeigt die Injektivität von g. Wir wenden uns nun der Frage zu, wie sich Urbilder und Bilder unter den mengentheoretischen Operationen Vereinigung“ und Durchschnittsbildung“ verhalten: Ist der Durch” ” schnitt der Bilder/Urbilder gewisser Mengen dasselbe wie das Bild bzw. Urbild des Durchschnittes dieser Mengen usw.? Um Durchschnitte bzw. Vereinigungen beliebig vieler Mengen bequem schreiben zu können, ist es nützlich, zunächst den Begriff der Familie einzuführen: Definition 13.5 Eine Familie von Teilmengen einer Menge X ist eine Abbildung A : I −→ P(X) zwischen einer nichtleeren Menge I (der Indexmenge) und der Potenzmenge P(X) von X. Wir schreiben Aj := A(j) für j∈I und bezeichnen diese Familie mit (Aj )j∈I . Man kann Familien als Verallgemeinerungen von Folgen ansehen: Bei diesen ist I = N oder allgemeiner I abzählbar. Im Folgenden benutzen wir immer wieder stillschweigend, dass sich Mengeninklusionen auf Bild und Urbild übertragen. Diese Beinahe-Selbstverständlichkeit halten wir als Proposition fest: 192 Es seien X und Y nichtleere Mengen und f : X −→ Y eine Funktion. Proposition 13.6 Dann gilt: (a) Sind A1 , A2 Teilmengen von X mit A1 ⊆ A2 , so ist f (A1 ) ⊆ f (A2 ). (b) Sind B1 , B2 Teilmengen von Y mit B1 ⊆ B2 , so ist f −1 (B1 ) ⊆ f −1 (B2 ). Beweis. (a) Es seien A1 , A2 Teilmengen von X mit A1 ⊆ A2 . Es sei ein b ∈ f (A1 ) beliebig vorgegeben. Dann gibt es ein a ∈ A1 mit b = f (a). Wegen A1 ⊆ A2 ist auch a ∈ A2 . Dies bedeutet b = f (a) ∈ f (A2 ). Damit ist auch f (A1 ) ⊆ f (A2 ) nachgewiesen. (b) Es seien B1 , B2 Teilmengen von Y mit B1 ⊆ B2 . Es sei ein a ∈ f −1 (B1 ) gegeben. Dann ist nach Definition des Urbilds f (a) ∈ B1 . Wegen B1 ⊆ B2 ist somit auch f (a) ∈ B2 , so dass also (wiederum nach Definition) a ∈ f −1 (B2 ) gilt. Damit ist f −1 (B1 ) ⊆ f −1 (B2 ) gezeigt. Satz 13.7 Es seien X und Y nichtleere Mengen und f : X −→ Y eine Abbildung. (a) Es sei (Bi )i∈I eine Familie von Teilmengen von Y . Dann gilt: ! ! \ [ \ [ f −1 (Bi ). f −1 (Bi ) und f −1 Bi = f −1 Bi = i∈I i∈I i∈I i∈I (b) Sind B1 und B2 Teilmengen von Y , so gilt f −1 (B1 \ B2 ) = f −1 (B1 ) \ f −1 (B2 ). Angesichts dieser Resultate kann man die (mathematisch unpräzise) Merkregel aufstellen: Bei f −1 (Urbild) geht alles gut.“ Dass die Lage beim Bild von Mengen ein wenig kompli” zierter ist, werden wir im nächsten Satz sehen. Beweis. (a) Für alle x ∈ X gilt nach Definition des Urbilds sowie der Vereinigung folgende Äquivalenzkette: ! [ [ Bi ⇐⇒ ∃i∈I f (x) ∈ Bi x ∈ f −1 Bi ⇐⇒ f (x) ∈ i∈I i∈I ⇐⇒ ∃i∈I x ∈ f −1 (Bi ) ⇐⇒ x ∈ [ f −1 (Bi ). i∈I Dies zeigt die erste Behauptung. Analog folgt die Gültigkeit der zweiten Behauptung aus der Äquivalenzkette ! \ \ x ∈ f −1 Bi ⇐⇒ f (x) ∈ Bi ⇐⇒ ∀i∈I f (x) ∈ Bi i∈I i∈I ⇐⇒ ∀i∈I x ∈ f −1 (Bi ) ⇐⇒ x ∈ \ i∈I 193 f −1 (Bi ). (b) Für alle x ∈ X gilt nach Definition des Urbilds sowie der Mengendifferenz die folgende Äquivalenzkette: x ∈ f −1 (B1 \ B2 ) ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ f (x) ∈ B1 \ B2 f (x) ∈ B1 und f (x) 6∈ B2 x ∈ f −1 (B1 ) und x 6∈ f −1 (B2 ) x ∈ f −1 (B1 ) \ f −1 (B2 ). Dies zeigt f −1 (B1 \ B2 ) = f −1 (B1 ) \ f −1 (B2 ), wie behauptet. Satz 13.8 Es seien X und Y nichtleere Mengen und f : X −→ Y eine Abbildung. (a) Es sei (Ai )i∈I eine Familie von Teilmengen von X. Dann gilt ! ! [ [ \ \ (1) f Ai = f (Ai ) und (2) f Ai ⊆ f (Ai ). i∈I i∈I i∈I i∈I (b) Genau dann ist f injektiv, wenn in (a) (2) stets Gleichheit gilt, wenn also ! \ \ f Ai = f (Ai ) für alle Familien (Ai )i∈I von Teilmengen von X ist. i∈I i∈I (c) Sind A1 , A2 Teilmengen von X, so gilt f (A1 ) \ f (A2 ) ⊆ f (A1 \ A2 ). (d) Genau dann ist f injektiv, wenn in (c) stets Gleichheit gilt, wenn also f (A1 ) \ f (A2 ) = f (A1 \ A2 ) für alle Teilmengen A1 , A2 ⊆ X gilt. Beweis. (a), (c) und (d): Aufgabe 3.1 (b) =⇒ “: Es sei f als injektiv vorausgesetztTund (Ai )i∈I eineTFamilie von Teilmengen ” A von X. Wegen (a) (2) genügt es, f (A ) ⊆ f i i∈I i zu zeigen. Es sei i∈I T also ein b ∈ i∈I f (Ai ) gegeben. Zu jedem i ∈ I gibt es dann ein ai ∈ Ai mit f (ai ) = b. Für alle i, j ∈ I gilt dann f (ai ) = f (aj ), wegen der Injektivität von f also ai = aj . Es sei i0 ∈ I beliebig (Hier wird I 6= ∅ benötigt!) und T e a := ai0 , so dass also e aT= ai für a ∈ i∈I Ai und alle i ∈ I gilt. Es folgt e fT(e a) = b, also bT ∈ f i∈I Ai . Damit ist die noch ausstehende Inklusion i∈I f (Ai ) ⊆ f i∈I Ai nachgewiesen. ⇐=“: Wir setzen voraus, dass in (a) (2) stets Gleichheit gilt, und wollen die Injek” tivität von f nachweisen. Hierzu seien a1 , a2 ∈ X mit f (a1 ) = f (a2 ) gegeben. Wenn wir die Voraussetzung auf I := {1; 2}, A1 := {a1 }, A2 := {a2 } anwenden, erhalten wir f ({a1 } ∩ {a2 }) = f ({a1 }) ∩ f ({a2 }) = {f (a1 )} ∩ {f (a2 )} = {f (a1 )} = 6 ∅. Damit muss auch {a1 } ∩ {a2 } = 6 ∅ sein, d.h. a1 = a2 . Also ist f injektiv. 194 Satz 13.9 Es seien X und Y nichtleere Mengen und f : X −→ Y eine Abbildung. (a) Für alle Teilmengen A ⊆ X gilt die Inklusion A ⊆ f −1 (f (A)). (b) Für alle Teilmengen B ⊆ Y gilt die Inklusion f (f −1 (B)) ⊆ B. (c) f : X −→ Y ist genau dann injektiv, wenn für alle A ⊆ X gilt: f −1 (f (A)) = A. (d) f : X −→ Y ist genau dann surjektiv, wenn für alle B ⊆ Y gilt: f (f −1 (B)) = B. Beweis. (a) Es sei eine Teilmenge A ⊆ X gegeben. Es sei a ∈ A. Dann ist f (a) ∈ f (A), also per definitionem a ∈ f −1 (f (A)). Dies zeigt A ⊆ f −1 (f (A)). (b) Es sei eine Teilmenge B ⊆ Y gegeben. Es sei b ∈ f (f −1 (B)) beliebig. Dann gibt es ein a ∈ f −1 (B) mit f (a) = b. Wegen a ∈ f −1 (B) gilt f (a) ∈ B, also b = f (a) ∈ B. Dies zeigt die Inklusion f (f −1 (B)) ⊆ B. (c) ” =⇒ “: Es sei f injektiv und A ⊆ X. Die Inklusion A ⊆ f −1 (f (A)) ist aus (a) bekannt. Zum Nachweis der umgekehrten Inklusion sei ein x ∈ f −1 (f (A)) gegeben. Dann ist (nach Definition des Urbilds!) b := f (x) ∈ f (A). Also gibt es ein a ∈ A mit f (a) = b. (A priori ist hier nicht klar, ob x = a möglich ist, da wir nicht wissen, ob x ∈ A; dies ist ja gerade nachzuweisen!) Wegen b = f (x) ist f (a) = f (x), und wegen der Injektivität von f folgt a = x, also x ∈ A. Damit ist die noch fehlende Inklusion gezeigt. ⇐=“: Es sei nun vorausgesetzt, dass f −1 (f (A)) = A für alle A ⊆ X gilt. ” Zum Nachweis der Injektivität betrachten wir a1 , a2 ∈ X mit f (a1 ) = f (a2 ) und versuchen, a1 = a2 zu zeigen. Nach Voraussetzung, angewandt auf die Mengen {a1 } bzw. {a2 }, gilt f −1 (f ({a1 })) = {a1 } und f −1 (f ({a2 })) = {a2 }. Wegen f (a1 ) = f (a2 ) ist aber f ({a1 }) = f ({a2 }), also {a1 } = f −1 (f ({a1 })) = f −1 (f ({a2 })) = {a2 }, d.h. a1 = a2 . Somit ist f injektiv. (d) ” =⇒ “: Es sei f surjektiv. Es sei eine Teilmenge B ⊆ Y gegeben. Nach (b) gilt f (f −1 (B)) ⊆ B. Zum Nachweis der umgekehrten Inklusion sei ein b ∈ B gegeben. Wegen der Surjektivität von f gibt es ein a ∈ X mit f (a) = b. Dies bedeutet aber a ∈ f −1 (B), also b = f (a) ∈ f (f −1 (B)). Damit folgt B ⊆ f (f −1 (B)), insgesamt also f (f −1 (B)) = B. ⇐=“: Nun gelte f (f −1 (B)) = B für alle B ⊆ Y . ” Wir wollen zeigen, dass f surjektiv ist. Hierzu sei ein beliebiges b ∈ Y gegeben. Nach Voraussetzung, angewandt auf die (einelementige) Menge {b}, gilt {b} = f (f −1 ({b})). Dies bedeutet aber gerade, dass es ein a ∈ f −1 ({b}) ⊆ X gibt mit b = f (a). Dies zeigt die Surjektivität von f . 195 13.2 Weitere topologische Begriffe Wir beginnen mit einer Zusammenstellung von beinahe selbstverständlichen, aber wichtigen Eigenschaften des Systems der offenen Mengen: Lemma 13.10 Es sei (X, d) ein metrischer Raum, und T bezeichne die Menge aller offenen Teilmengen von X. Dann gelten die folgenden Aussagen: (T1) Es ist ∅ ∈ T und X ∈ T . (T2) Ist (Uj )j∈I eine Familie von Mengen Uj ∈ T , dann gilt auch S j∈I Uj ∈ T . (T3) Wenn U ∈ T und V ∈ T ist, dann folgt U ∩ V ∈ T . Endliche Durchschnitte und beliebige Vereinigungen offener Mengen sind also offen. Außerdem sind die leere Menge und der gesamte Raum offen. Beweis. Die Offenheit von ∅ und X, d.h. die Gültigkeit von (T1) ist trivial. S Es sei (Uj )j∈I eine Familie von Mengen Uj ∈ T und U := j∈I Uj deren Vereinigung. Ist a ∈ U , dann gibt es ein k ∈ I mit a ∈ Uk und hierzu eine Zahl δ > 0 mit Uδ (a) ⊆ Uk ⊆ U . Somit ist U offen. Dies zeigt (T2). Es seien U, V offene Mengen. Es sei ein a ∈ U ∩ V gegeben. Dann gibt es ε1 , ε2 > 0 mit Uε1 (a) ⊆ U und Uε2 (a) ⊆ V . Für ε := min {ε1 , ε2 } > 0 folgt Uε (a) ⊆ U ∩ V . Also ist U ∩ V offen und (T3) gezeigt. Durch Komplementbildung erhält man aus Lemma 13.10 das folgende Resultat über abgeschlossene Mengen. Korollar 13.11 Es sei (X, d) ein metrischer Raum. Dann gelten die folgenden Aussagen: (A1) ∅ und X sind abgeschlossen. (A2) Der Durchschnitt beliebig vieler abgeschlossener Teilmengen von X ist abgeschlossen. (A3) Die Vereinigung endlich vieler abgeschlossener Teilmengen von X ist abgeschlossen. Beweis. (A1) ist klar. Zum Beweis von (A2) sei eine Familie (Ai )i∈I abgeschlossener Mengen T Ai ⊆ X gegeben. Es sei A := i∈I Ai deren Durchschnitt. Da alle Komplemente X \ Ai offen sind, ist auch deren Vereinigung [ \ (X \ Ai ) = X \ Ai . i∈I i∈I nach Lemma 13.10 offen. Dies bedeutet, dass gezeigt. Analog argumentiert man bei (A3). 196 T i∈I Ai abgeschlossen ist. Damit ist (A2) Beispiel 13.12 T (1) Es sei In := − n1 , n1 . Die Intervalle In sind alle offen. Jedoch ist ∞ n=1 In = {0} nicht offen. Warnung: Beliebige (unendliche) Schnitte offener Mengen sind i. Allg. nicht offen. (2) S Es sei In := −1 + n1 , 1 − n1 . Die Intervalle In sind alle abgeschlossen. Jedoch ist ∞ n=1 In =] − 1, 1[ nicht abgeschlossen. Warnung: Beliebige (unendliche) Vereinigungen abgeschlossener Mengen sind i. Allg. nicht abgeschlossen. Eine Teilmenge eines metrischen Raumes ist i. Allg. weder offen noch abgeschlossen. Man kann eine solche beliebige Teilmenge jedoch durch Hinzunahme fehlender“ Punkte zu einer ” abgeschlossenen und durch Wegnahme von Randpunkten zu einer offenen Teilmenge machen. Dies gibt Anlass zu folgenden Definitionen, die recht abstrakt aussehen, aber zumindest im R2 und R3 gut zu veranschaulichen sind. Definition 13.13 ge. Es sei (X, d) ein metrischer Raum und M ⊆ X eine beliebige Teilmen- Ein Punkt x ∈ M heißt ein innerer Punkt von M , wenn es ein (von x abhängiges) ε > 0 gibt, so dass Uε (x) ⊆ M ist. Die Menge M ◦ := {x ∈ X | ∃ε>0 Uε (x) ⊆ M } der inneren Punkte von M nennt man das Innere (oder den offenen Kern) von M . Weiter nennt man M := {x ∈ X | ∀ε>0 Uε (x) ∩ M 6= ∅} die abgeschlossene Hülle oder kurz den Abschluss von M in X und ∂M := {x ∈ X | ∀ε>0 (Uε (x) ∩ M 6= ∅) ∧ (Uε (x) ∩ (X \ M ) 6= ∅)} den Rand von M . Schließlich bezeichnet man mit M 0 := {x ∈ X | ∀ε>0 (Uε (x) \ {x}) ∩ M 6= ∅} die Menge der Häufungspunkte von M . Die in der Definition von M 0 verwendete Charakterisierung von Häufungspunkten ist aus Definition 8.2 (a) bekannt. Die Definition von ∂M bedeutet anschaulich: Ein Punkt x ist genau dann ein Randpunkt von M , wenn sich in jeder beliebig kleinen Umgebung von x sowohl Punkte aus M selbst als auch aus dem Komplement X \ M finden. Der folgende Satz stellt einige wichtige Eigenschaften der neuen Objekte zusammen. 197 Satz 13.14 Es sei (X, d) ein metrischer Raum und M ⊆ X eine beliebige Teilmenge. (a) Es gilt (1) M◦ ⊆ M ⊆ M, (2) M0 ⊆ M, (3) ∂M = M \ M ◦ , (4) ∂M = ∂(X \ M ), (5) X \ M = (X \ M )◦ , (6) M = M ∪ ∂M = M ◦ ∪ ∂M = M ∪ M 0 . X \ M◦ = X \ M, (b) Die Menge M ◦ ist offen; die Mengen M , ∂M und M 0 sind abgeschlossen. (c) Ist M ⊆ N ⊆ X, so gilt M ⊆ N , M 0 ⊆ N 0 und M ◦ ⊆ N ◦ . Beweis. (a) (1) Es sei ein x ∈ M ◦ gegeben. Dann gibt es ein ε > 0 mit Uε (x) ⊆ M . Wegen x ∈ Uε (x) ist dann auch x ∈ M . Dies zeigt M ◦ ⊆ M . Es sei ein x ∈ M gegeben. Es sei ε > 0. Dann ist x ∈ Uε (x) ∩ M und somit Uε (x) ∩ M 6= ∅. Da dies für alle ε > 0 gilt, ist x ∈ M . Hiermit ist auch die Inklusion M ⊆ M gezeigt. (2) Es sei ein x ∈ M 0 gegeben. Dann gilt nach Definition (Uε (x) \ {x}) ∩ M 6= ∅ für alle ε > 0. Insbesondere ist dann auch Uε (x) ∩ M 6= ∅ für alle ε > 0, also x ∈ M . Somit gilt M 0 ⊆ M . (3) Es gilt die Äquivalenz Uε (x) ⊆ M ⇐⇒ Uε (x) ∩ (X \ M ) = ∅ und somit auch ¬∃ε>0 Uε (x) ⊆ M ⇐⇒ ∀ε>0 ¬(Uε (x) ⊆ M ) ⇐⇒ ∀ε>0 Uε (x)∩(X\M ) 6= ∅. Daher ist ∂M = = = = {x ∈ X {x ∈ X {x ∈ X {x ∈ X | ∀ε>0 (Uε (x) ∩ M 6= ∅) ∧ (Uε (x) ∩ (X \ M ) 6= ∅)} | (∀ε>0 Uε (x) ∩ M 6= ∅) ∧ (∀ε>0 Uε (x) ∩ (X \ M ) 6= ∅)} | (∀ε>0 Uε (x) ∩ M 6= ∅) ∧ (¬∃ε>0 Uε (x) ⊆ M )} | ∀ε>0 Uε (x) ∩ M 6= ∅} \ {x ∈ X | ∃ε>0 Uε (x) ⊆ M } = M \ M ◦ . (4) Die Gleichheit ∂M = ∂(X \ M ) ist klar, da die Definition von ∂M symmetrisch ist bezüglich Vertauschung von M und X \ M . (5) Es ist X \M = = = = X \ {x ∈ X | ∀ε>0 Uε (x) ∩ M 6= ∅} {x ∈ X | ¬∀ε>0 Uε (x) ∩ M 6= ∅} {x ∈ X | ∃ε>0 Uε (x) ∩ M = ∅} {x ∈ X | ∃ε>0 Uε (x) ⊆ X \ M } = (X \ M )◦ . 198 Hieraus folgt außerdem M = X \ (X \ M )◦ . Ersetzt man hierin M durch X \ M , so ergibt sich auch X \ M = X \ M ◦. (6) Aufgabe 4.1 (b) Die Offenheit von M ◦ und die Abgeschlossenheit von M und ∂M wird in Aufgabe 4.1 gezeigt. Zum Nachweis der Abgeschlossenheit von M 0 ziehen wir Satz 8.6 heran, wonach eine Menge genau dann abgeschlossen ist, wenn sie alle ihre Häufungspunkte enthält. Es sei a ein Häufungspunkt von M 0 (!). Wir wollen zeigen, dass a ∈ M 0 ist, d.h. dass a ein Häufungspunkt auch von M ist. Wir müssen also zeigen, dass in jeder punktierten ε-Umgebung von a ein Element von M liegt. Hierzu sei ein ε > 0 gegeben. Da a Häufungspunkt von M 0 ist, gibt es einen Punkt x ∈ M 0 ∩ Uε/2 (a) mitx 6= a. (Es gibt sogar unendlich viele solche Punkte.) Es sei δ := min d(x, a); 21 · ε . Dann ist δ > 0, da ja d(x, a) > 0. Wegen x ∈ M 0 gibt es ein y ∈ M ∩ Uδ (x) mit y 6= x. Es ist dann d(y, a) ≤ d(y, x) + d(x, a) < δ + ε ≤ ε, 2 also y ∈ Uε (a). Wäre y = a, so wäre d(x, a) = d(x, y) < δ, im Widerspruch zur Definition von δ. Also ist y 6= a. Damit haben wir einen Punkt y ∈ M ∩ Uε (a) mit y 6= a gefunden. Dies ist für alle ε > 0 möglich. Also ist a ein Häufungspunkt von M , d.h. a ∈ M 0 . Mithin enthält die Menge M 0 alle ihre Häufungspunkte und ist somit gemäß Satz 8.6 abgeschlossen. (c) (1) Es sei ein x ∈ M gegeben. Es sei ε > 0. Dann gilt nach Definition Uε (x) ∩ M = 6 ∅. Wegen M ⊆ N ist dann erst recht Uε (x) ∩ N 6= ∅. Dies gilt für alle ε > 0, so dass wir auf x ∈ N schließen können. Also gilt M ⊆ N . (2) Die Inklusion M 0 ⊆ N 0 folgt analog; man hat in der obigen Begründung nur Uε (x) durch die punktierte Umgebung Uε (x) \ {x} zu ersetzen. (3) Es sei ein x ∈ M ◦ gegeben. Dann gibt es ein ε > 0 mit Uε (x) ⊆ M . Wegen M ⊆ N ist dann auch Uε (x) ⊆ N , nach Definition also x ∈ N ◦ . Korollar 13.15 Es sei (X, d) ein metrischer Raum und M ⊆ X eine Teilmenge von X. (a) Es gilt M = {x ∈ X | Es gibt eine Folge (xn )n in M mit lim xn = x.} n→∞ \ = {A ⊆ X | A abgeschlossen mit M ⊆ A} . Der Abschluss von M ist also die Menge aller Grenzwerte von Folgen in M und auch die kleinste abgeschlossene Menge, die M enthält. Ebenso ist [ M◦ = {U ⊆ X | U offen mit U ⊆ M } . Das Innere von M ist also die größte offene Menge, die in M enthalten ist. 199 (b) Die Menge M ist genau dann abgeschlossen, wenn sie gleich ihrer abgeschlossenen Hülle ist, wenn also M = M gilt. Die Menge M ist genau dann offen, wenn sie gleich ihrem Inneren ist, wenn also M ◦ = M gilt. Hierbei ist die Aussage, dass M die kleinste abgeschlossene Menge ist, die M enthält, wie folgt zu verstehen: Ist A eine beliebige abgeschlossene Menge, die M enthält, so kann man auf A ⊇ M schließen. Beweis. (a) (1) Es sei G := {x ∈ X | Es gibt eine Folge (xn )n in M mit lim xn = x.}. n→∞ Wir zeigen, dass G = M ist. Hierzu sei ein x ∈ G gegeben. Es gibt dann also eine Folge (xn )n in M mit limn→∞ xn = x. Falls (xn )n sogar eine Folge in M \ {x} ist, ist x ein Häufungspunkt von M (Definition 8.2 (d)), also x ∈ M 0 ⊆ M ∪ M 0 = M (Satz 13.14 (a)). Andernfalls gibt es ein n ∈ N mit xn = x, so dass x ∈ M ist; in diesem Fall ist x ∈ M ebenfalls klar. Dies zeigt G ⊆ M . Nun sei umgekehrt ein x ∈ M gegeben. Nach Satz 13.14 (a) ist dann x ∈ M oder x ∈ M 0 . Im Fall x ∈ M setzt man xn := x für alle n. Dann ist (xn )n trivialerweise eine gegen x konvergente Folge in M . Im Fall x ∈ M 0 gibt es nach Definition 8.2 (d) sogar eine Folge (xn )n in M \ {x} (erst recht also in M ), die gegen x konvergiert. In beiden Fällen gilt also x ∈ G. Damit ist auch M ⊆ G, also insgesamt G = M gezeigt. (2) Es sei \ S := {A ⊆ X | A abgeschlossen mit M ⊆ A} . Da A := M eine abgeschlossene Teilmenge von X mit M ⊆ A ist, ist nach Definition des Durchschnitts klar, dass S ⊆ A = M gelten muss. Zum Nachweis der umgekehrten Inklusion sei eine abgeschlossene Teilmenge A von X mit M ⊆ A gegeben. Wir müssen zeigen, dass M ⊆ A ist. Hierzu sei x ∈ M . Nach dem in (1) Gezeigten gibt es dann eine Folge (xn )n in M mit limn→∞ xn = x. Wegen M ⊆ A ist (xn )n auch eine Folge in A. Wegen der Abgeschlossenheit von A liegt dann gemäß Satz 8.6 auch der Grenzwert x in A. Da dies für alle x ∈ M gilt, ist damit M ⊆ A gezeigt. Dies gilt wiederum für alle abgeschlossenen Teilmengen A von X mit M ⊆ A. Hieraus folgt M ⊆ S gemäß der Definition von S. Also ist insgesamt M = S. Mit (1) und (2) sind die Behauptungen über M gezeigt. (3) Die Behauptung über M ◦ ergibt sich hieraus durch Übergang zu den Komplementen unter Benutzung von X \ M = X \ M ◦ (Satz 13.14 (a)): Es ist M ◦ = X \ (X \ M ) \ = X \ {A ⊆ X | A abgeschlossen mit X \ M ⊆ A} [ = {X \ A | A ⊆ X abgeschlossen mit X \ M ⊆ A} [ = {X \ A | A ⊆ X abgeschlossen mit X \ A ⊆ M } [ = {U ⊆ X | U offen mit U ⊆ M } . 200 (b) Es sei M abgeschlossen. Für die Menge M 0 der Häufungspunkte von M gilt dann nach Satz 8.6 M 0 ⊆ M . Mit Satz 13.14 (a) folgt M = M ∪ M 0 ⊆ M ⊆ M , also M = M . Falls umgekehrt M = M ist, so folgt die Abgeschlossenheit von M direkt daraus, dass M immer abgeschlossen ist (Satz 13.14 (b)). Damit ist die erste Äquivalenz bewiesen. Die zweite ergibt sich hieraus durch Komplementbildung unter Verwendung von X \ M = X \ M ◦ (Satz 13.14 (a)) wie folgt: M offen ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ X \ M abgeschlossen X \M =X \M X \ M◦ = X \ M M ◦ = M. Bemerkung 13.16 Der Abschluss Uε (c) der offenen ε-Kugel Uε (c) ist i.Allg. nicht gleich der abgeschlossenen Kugel Bε (c). Zwar gilt stets die Inklusion Uε (c) ⊆ Bε (c) (denn Bε (c) ist eine abgeschlossene Menge, die Uε (c) enthält, und Uε (c) ist die kleinste abgeschlossene Menge mit dieser Eigenschaft). Jedoch kann die Inklusion durchaus echt sein. Es sei beispielsweise X eine beliebige Menge mit mindestens zwei Elementen, und d sei die diskrete Metrik auf X aus Beispiel 4.2 (3). Dann ist für alle c ∈ X U1 (c) = {x ∈ X | d(x, c) < 1} = {c} und daher auch U1 (c) = {c}. Für die abgeschlossene Kugel hingegen folgt B1 (c) = {x ∈ X | d(x, c) ≤ 1} = X 6= {c} . In Definition 2.41 hatten wir erklärt, was wir unter dichten Teilmengen von R verstehen. Der Begriff der Dichtheit lässt sich in naheliegender Weise auf beliebige metrische Räume verallgemeinern. Definition 13.17 Eine Teilmenge D eines metrischen Raumes X heißt dicht in X, falls für jedes x ∈ X und jedes ε > 0 der Schnitt D ∩ Uε (x) nichtleer ist. Proposition 13.18 Eine Teilmenge D eines metrischen Raumes X ist genau dann dicht in X, falls D = X gilt, falls also ihr Abschluss der gesamte Raum ist. Beweis. Aufgrund der Definitionen gelten die folgenden Äquivalenzen: D ist dicht in X ⇐⇒ ∀x∈X ∀ε>0 D ∩ Uε (x) 6= ∅ ⇐⇒ ∀x∈X x ∈ D ⇐⇒ D = X. Beispiel 13.19 Die rationalen Zahlen liegen dicht in R – ebenso die irrationalen Zahlen. Q + iQ liegt dicht in C. 201 13.3 Kompaktheit In Definition 8.9 hatten wir den Begriff der (Folgen-)Kompaktheit kennengelernt: Eine Teilmenge K eines metrischen Raumes X heißt folgenkompakt, falls jede Folge in K eine konvergente Teilfolge besitzt, deren Grenzwert in K liegt. Wir führen nun einen neuen Kompaktheitsbegriff ein, der sich in metrischen Räumen freilich als äquivalent zur Folgenkompaktheit erweisen wird. Definition 13.20 Es sei (X, d) ein metrischer Raum. (1) Es sei M eine Teilmenge von X. Eine offene Überdeckung von M ist eine Familie (Uj )j∈I von offenen Teilmengen Uj ⊆ X, so dass [ M⊆ Uj j∈I gilt. (Hierbei ist I eine beliebige, evtl. auch überabzählbare Indexmenge.) (2) Eine Teilmenge K ⊆ X heißt überdeckungskompakt, falls jede (!) offene Überdeckung (Uj )j∈I von K eine endliche Teilüberdeckung enthält, d.h. wenn es endlich viele Indizes j1 , . . . , jm ∈ I gibt, so dass K ⊆ Uj1 ∪ · · · ∪ Ujm . In diesem Fall sagt man auch, dass K die Heine-Borelsche Überdeckungseigenschaft hat. Warnung: Jede Menge K ⊆ X besitzt eine endliche offene Überdeckung – z.B. durch X selbst. In der Definition von Überdeckungskompaktheit wird jedoch gefordert, dass eine beliebig vorgegebene offene Überdeckung eine endliche Teilüberdeckung enthält. Beispiel 13.21 Das Intervall I = ]0, 1[ ist nicht überdeckungskompakt. Eine offene Überdeckung von I, zu der es keine endliche Teilüberdeckung gibt, wird durch die Folge der offenen 1 Intervalle 0 , 1 − n mit n ∈ N gegeben. Wir wollen nun für beliebige metrische Räume zeigen, dass die Begriffe Folgenkompaktheit und Überdeckungskompaktheit äquivalent sind. (In etwas allgemeineren Räumen, sog. topologischen Räumen, die wir in Abschnitt 13.6 einführen werden, ist dies nicht der Fall.) Dabei ist insbesondere der Schluss von der Folgen- auf die Überdeckungskompaktheit nicht leicht. Die Hauptschwierigkeit bereiten dabei überabzählbare offene Überdeckungen. Wir lagern die hierfür erforderlichen Überlegungen in ein Lemma aus. Lemma 13.22 Es sei (X, d) ein metrischer Raum und K ⊆ X folgenkompakt. Dann gilt: (1) Es gibt eine abzählbare Menge D ⊆ K, die dicht in K liegt. (Man sagt auch, dass K separabel ist.) (2) Jede offene Überdeckung von K besitzt eine abzählbare Teilüberdeckung. (Man sagt auch, dass K ein Lindelöf-Raum ist.) 202 Beweis. (1) Die Idee zur Konstruktion der Menge D besteht darin, K mit abzählbar vielen Git” ternetzen“ zunehmender Feinheit zu überziehen. Die Vereinigung aller hierbei auftretender Gitterpunkte bildet dann die Menge D. Nun zu den Details: Im Falle K = ∅ leistet D = ∅ das Gewünschte. O.E. sei also K 6= ∅. Zu jedem ε > 0 gibt es endlich viele Punkte a1 , . . . , am ∈ K, so dass K ⊆ Uε (a1 ) ∪ · · · ∪ Uε (am ); man kann K also mit endlich vielen ε-Kugeln überdecken. Wäre dies nämlich nicht der Fall, so fände man induktiv – beginnend mit einem beliebigen a1 ∈ K – eine Folge (an )n in K mit d(an , am ) ≥ ε für alle n 6= m. Die Folge (an )n könnte dann keine konvergente Teilfolge (die ja auch Cauchy-Folge wäre!) besitzen, im Widerspruch zur Folgenkompaktheit von K. (k) (k) Insbesondere gibt es für jedes k ∈ N endlich viele Punkte a1 , . . . , amk ∈ K, so dass (k) K ⊆ U1/k a1 ∪ · · · ∪ U1/k a(k) (13.1) mk . Es sei n o (k) D := aj | 1 ≤ j ≤ mk , k ∈ N (k) die Menge aller dieser Punkte aj . Dann ist D abzählbar und D ⊆ K. Um zu zeigen, dass D dicht in K liegt, seien ein x ∈ K und ein ε > 0 gegeben. Hierzugibtes ein (k) k ∈ N mit k1 < ε. Wegen (13.1) gibt es ein j ∈ {1, . . . , mk } mit x ∈ U1/k aj . Dies (k) bedeutet aber auch aj ∈ U1/k (x) ⊆ Uε (x). Also ist Uε (x) ∩ D 6= ∅. Damit ist D als dicht in K nachgewiesen. (2) Nach (1) gibt es eine abzählbare Menge D ⊆ K, die dicht in K liegt. Wegen der Abzählbarkeit von D ist das Mengensystem B := U1/n (a) | a ∈ D, n ∈ N abzählbar, wir können B also in der Form B = {B1 , B2 , B3 , . . .} schreiben, wobei jedes Bm eine der Mengen U1/n (a) mit a ∈ D, n ∈ N ist. Es sei eine offene Überdeckung (Uj )j∈I von K gegeben. Für alle j ∈ I sei Sj := {k ∈ N | Bk ⊆ Uj } die Menge der Indizes k ∈ N, für die Bk in Uj enthalten ist, und es sei [ S := Sj . j∈I 203 Als Teilmenge von N ist S abzählbar. Wir zeigen, dass die Mengen Bm mit m ∈ S zur Überdeckung von K ausreichen. Hierzu sei ein x ∈ K gegeben. Da (Uj )j∈I eine Überdeckung von K ist, gibt es ein j ∈ I mit x ∈ Uj . Wegen der Offenheit von Uj existiert hierzu ein N ∈ N mit U1/N (x) ⊆ Uj . Da D dicht in K liegt, gibt es ein a ∈ D ∩ U1/(2N ) (x). Für alle y ∈ U1/(2N ) (a) folgt mit der Dreiecksungleichung d(y, x) ≤ d(y, a) + d(a, x) < 1 1 1 + = . 2N 2N N Also gilt U1/(2N ) (a) ⊆ U1/N (x) ⊆ Uj . Nach Definition des Mengensystems B gibt es ein m ∈ N mit U1/(2N ) (a) = Bm . Es ist also Bm ⊆ Uj . Dies bedeutet m ∈ Sj ⊆ S. Wegen a ∈ U1/(2N ) (x) ist ferner auch x ∈ U1/(2N ) (a) = Bm . Damit ist ein m ∈ S gefunden mit x ∈ Bm . Da dies für alle x ∈ K gilt, gilt in der Tat [ K⊆ Bm . m∈S Zu jedem m ∈ S gibt es ein jm ∈ I mit m ∈ Sjm , und nach Definition von Sjm folgt Bm ⊆ Ujm . Damit ergibt sich insgesamt [ [ Ujm . Bm ⊆ K⊆ m∈S m∈S K wird also bereits von den abzählbar vielen Mengen Ujm mit m ∈ S überdeckt. Satz 13.23 Es sei (X, d) ein metrischer Raum. Dann gilt: (1) Eine Teilmenge von X ist genau dann überdeckungskompakt, wenn sie folgenkompakt ist. (2) Jede überdeckungs- bzw. folgenkompakte Teilmenge von X ist abgeschlossen und beschränkt. Beweis. (1) =⇒ “: Es sei K ⊆ X überdeckungskompakt. ” Es sei (xn )n eine Folge in K. Falls die Menge {xn | n ∈ N} der Folgenglieder endlich ist, ist die Existenz einer konvergenten (nämlich einer ab einem gewissen Index konstanten) Teilfolge klar. Wir dürfen also annehmen, dass {xn | n ∈ N} unendlich ist. Wir nehmen an, (xn )n hätte keine in K konvergente Teilfolge (d.h. keine Teilfolge mit Grenzwert in K). Dann besitzt jeder Punkt a ∈ K eine offene Umgebung Uεa (a), in der nur endlich viele xn liegen. (Denn lägen in jeder Umgebung eines solchen a unendlich viele Folgenglieder xn , so wäre a ein Häufungswert von (xn )n , es gäbe also gemäß Satz 6.11 (1) eine gegen a konvergente Teilfolge von (xn )n .) Es gilt [ K⊆ Uεa (a), a∈K 204 da ja a ∈ Uεa (a) für jedes a ∈ K. Die Umgebungen Uεa (a) mit a ∈ K bilden also eine offene Überdeckung von K. Da K überdeckungskompakt ist, gibt es endlich viele Punkte a1 , . . . , am ∈ K mit m [ K⊆ Uεaµ (aµ ). µ=1 Damit liegen aber nur endliche viele Folgenglieder xn in K, ein Widerspruch. ⇐=“: Nun sei K ⊆ X folgenkompakt. Es sei eine offene Überdeckung (Uj )j∈I von K ” gegeben. Hieraus können wir nach Lemma 13.22 (2) eine abzählbare Teilüberdeckung auswählen. Wir dürfen daher o..d.A. annehmen, dass I = N ist. Wir nehmen an, dass sich aus (Uj )j∈I keine endliche Teilüberdeckung von K auswählen lässt. Dann gilt n [ An := K \ Uj 6= ∅ für alle n ∈ N. j=1 Daher finden wir eine Folge (xn )n mit xn ∈ An für alle n. Da (xn )n eine Folge in K und K folgenkompakt ist, gibt es eine Teilfolge (xnk )k , die gegen ein x0 ∈ K konvergiert. Da (Uj )j∈I eine Überdeckung von K ist, ist x0 ∈ UN für ein N ∈ I = N. Da UN offen ist, gibt es ein ε > 0 mit Uε (x0 ) ⊆ UN . Wegen der Konvergenz von (xnk )k gibt es hierzu ein k0 ≥ N , so dass xnk ∈ Uε (x0 ) ⊆ UN für alle k ≥ k0 . Für alle n ≥ N und alle k ≥ k0 folgt xnk 6∈ An . Wegen nk0 ≥ k0 ≥ N ist insbesondere xnk0 6∈ Ank0 , im Widerspruch zur Wahl der xn . Also enthält (Uj )j∈I eine endliche Teilüberdeckung von K. Damit ist die Überdeckungskompaktheit von K nachgewiesen. (2) Es sei K ⊆ X überdeckungs- und damit nach (1) auch folgenkompakt. Wir zeigen zunächst, dass K abgeschlossen ist. Hierzu sei (an )n eine Folge in K, die gegen ein a ∈ X konvergiert. Es ist zu zeigen, dass der Grenzwert a in K liegt. Aufgrund der Folgenkompaktheit von K gibt es eine Teilfolge (xnk )k , die gegen ein e a∈K konvergiert. Andererseits konvergiert diese Teilfolge natürlich auch gegen a. Aus der Eindeutigkeit des Grenzwerts folgt a = e a ∈ K. Damit ist K als abgeschlossen nachgewiesen. Den Nachweis der Beschränktheit stützen wir hingegen auf die Überdeckungskompaktheit von K: Die offenen Kugeln vom Radius 1 um die Punkte x ∈ K bilden eine offene Überdeckung von K. Da K überdeckungskompakt ist, genügen endlich viele dieser Kugeln zur Überdeckung von K. Hieraus folgt die Beschränktheit von K. Angesichts von Satz 13.23 (1) geben wir die Unterscheidung zwischen Überdeckungs- und Folgenkompaktheit nunmehr wieder auf und sprechen nur noch von Kompaktheit. In Satz 8.8 bzw. Korollar 8.10 hatten wir gezeigt, dass im Rn und Cn die Kompaktheit sogar äquivalent zur Abgeschlossen- und Beschränktheit ist. Diese Aussage (genauer: die Äquivalenz zwischen Abgeschlossen- und Beschränktheit einerseits und Überdeckungskompaktheit andererseits) ist auch als Satz von Heine-Borel44 bekannt. Während der Schluss von der 44 nach E. Heine (1821 - 1881) und E. Borel (1871 – 1956) 205 Kompaktheit auf die Abgeschlossenheit und Beschränktheit in beliebigen metrischen Räumen gilt, haben wir für die umgekehrte Implikation im Rn in Satz 8.8 die Vollständigkeit des Rn bezüglich der euklidischen Metrik benutzt, und zwar in Gestalt des Satzes von BolzanoWeierstraß. Hierauf kann nicht verzichtet werden. Tatsächlich ist in beliebigen unendlichdimensionalen normierten Vektorräumen die abgeschlossene Einheitskugel nicht kompakt. (Dies liefert eine interessante Charakterisierung der Endlichdimensionalität: Die endlichdimensionalen normierten Vektorräume sind genau diejenigen, in denen Kompaktheit äquivalent ist mit Abgeschlossenheit und Beschränktheit.) Für den Beweis sei auf [Heuser 3, Satz 11.7] verwiesen. I.Allg. ist Abgeschlossenheit eine wesentlich schwächere Eigenschaft als Kompaktheit. Falls man sich jedoch bereits in einem kompakten umgebenden Raum befindet, kann man von der Abgeschlossenheit auf Kompaktheit schließen: Lemma 13.24 Es sei X ein metrischer Raum und K ⊆ X kompakt. Dann ist jede abgeschlossene Teilmenge von K kompakt. Wir geben zwei Beweise; der erste beruht auf der Überdeckungs-, der zweite auf der Folgenkompaktheit von X. Beweis 1. Es sei A ⊆ K abgeschlossen. Es sei eine offene Überdeckung (Uj )j∈I von A gegeben. Da X \ A offen ist und [ Uj K ⊆ X = (X \ A) ∪ A ⊆ (X \ A) ∪ j∈I gilt, bilden die Mengen Uj sowie X \ A eine offene Überdeckung von K. Da K kompakt ist, gibt es endlich viele Indizes j1 , . . . , jm ∈ I mit K ⊆ (X \ A) ∪ Uj1 ∪ . . . ∪ Ujm . Wegen A ⊆ K und weil A natürlich disjunkt zu X \ A ist, folgt A ⊆ Uj1 ∪ . . . ∪ Ujm . Also lässt sich A bereits durch endlich viele der Uj überdecken. Dies zeigt, dass A (überdeckungs-)kompakt ist. Beweis 2. Es sei A ⊆ K abgeschlossen. Es sei (xn )n eine Folge in A. Da (xn )n auch eine Folge in K ist und K kompakt ist, gibt es eine Teilfolge (xnk )k , die gegen ein x ∈ K konvergiert. Da A abgeschlossen ist, ist sogar x ∈ A. Dies zeigt, dass A (folgen-)kompakt ist. Das folgende Lemma stellt ein Analogon zu Lemma 13.10 und Korollar 13.11 dar. Lemma 13.25 In einem metrischen Raum sind beliebige Durchschnitte und endliche Vereinigungen kompakter Mengen wieder kompakt. Beweis. Aufgabe 5.? 206 Aus Satz 10.1 wissen wir, dass Kompaktheit unter stetigen Abbildungen erhalten bleibt. Wir hatten den Beweis mithilfe des Begriffs der Folgenkompaktheit geführt. Das neue Konzept der Überdeckungskompaktheit in Verbindung mit der topologischen Charakterisierung von Stetigkeit in Satz 10.4 ermöglicht einen weiteren Beweis dieses wichtigen Satzes. Wir verweisen hierfür auf die Übungen, Aufgabe 5.4. In der Analysis ist es oftmals wünschenswert, dass sich schöne“ Eigenschaften (wie Ste” tigkeit, Differenzierbarkeit usw.) einer bijektiven Abbildung auf deren Umkehrabbildung übertragen. Nicht immer geht dieser Wunsch freilich in Erfüllung. So muss z.B. die Umkehrabbildung einer bijektiven stetigen Abbildung keinesfalls stetig sein, wie folgendes Beispiel zeigt45 : Beispiel 13.26 Es sei X =]0; 2π], Y = ∂U1 (0) der Rand des Einheitskreises in R2 und für alle t ∈]0; 2π]. f (t) := (cos t, sin t) Nach Korollar 12.22 bildet x 7→ eix das halboffene Intervall ]0; 2π] stetig und bijektiv auf die Einheitskreislinie in C ab. Angesichts von eix = cos x + i sin x bedeutet dies, dass ]0; 2π] durch f stetig und bijektiv auf ∂U1 (0) abgebildet wird. (Anschaulich: Wir wickeln das Intervall ]0; 2π] auf den Einheitskreisrand ab.) Jedoch ist die Umkehrabbildung im Punkt (1, 0) unstetig46 . Anschaulich ist dies klar. Exakt argumentiert man wie folgt: Für die Folge (xn )n mit 1 1 xn := cos , sin n n gilt lim xn = (1, 0), n→∞ aber 1 = 0 6= 2π = f −1 (1, 0). n→∞ n lim f −1 (xn ) = lim n→∞ Definition 13.27 Es seien X und Y metrische Räume. Eine Abbildung f : X −→ Y heißt ein Homöomorphismus, falls f stetig und bijektiv und die Umkehrabbildung f −1 : Y −→ X ebenfalls stetig ist. Die Kompaktheit des Definitionsbereichs (die in Beispiel 13.26 verletzt war) sichert die Stetigkeit der Umkehrabbildung: Satz 13.28 Es seien K und Y metrische Räume, und K sei kompakt. Dann ist jede bijektive stetige Abbildung f : K −→ Y ein Homöomorphismus (d.h. f −1 ist automatisch stetig). 45 Man beachte andererseits Satz 10.14 (2), wonach für reellwertige stetige injektive Funktionen f : I −→ R auf reellen Intervallen I die Umkehrfunktion automatisch stetig ist. 46 Ohne die Unstetigkeit wirklich nachzuprüfen, kann man auch wie folgt schließen: Wäre f −1 stetig, so wäre nach Satz 10.1 mit Y auch das Bild (!) f −1 (Y ) = X =]0; 2π] von Y unter f −1 kompakt in X =]0, 2π]. Analog zu Beispiel 13.21 sieht man jedoch, dass X =]0, 2π] nicht (überdeckungs-)kompakt in X ist. 207 Beweis. Es ist nur zu zeigen, dass f −1 stetig ist. Hierzu genügt es gemäß Satz 10.4 nachzuweisen, dass Urbilder offener Mengen unter f −1 wieder offen sind. (Dies ist äquivalent damit, dass f offene Mengen auf offene Mengen abbildet.) Es sei U ⊆ K offen. Dann ist K \ U abgeschlossen. Aus Lemma 13.24 folgt, dass K \ U sogar kompakt ist. Nach Satz 10.1 ist auch f (K \ U ) kompakt und damit abgeschlossen. Wegen der Bijektivität von f ist gemäß Satz 13.8 (d) f (K \ U ) = f (K) \ f (U ) = Y \ f (U ), und es folgt, dass f (U ) offen ist. Nun ist aber f (U ) = f −1 −1 (U ). Dies zeigt, dass für jede offene Teilmenge U ⊆ K das Urbild (f −1 ) offen ist. Also ist f −1 stetig. Damit ist f ein Homöomorphismus. 13.4 −1 (U ) von U unter f −1 Gleichmäßige Stetigkeit und Dehnungsbeschränktheit In Quantorenschreibweise lässt sich die Stetigkeit einer Funktion f : X −→ Y zwischen zwei metrischen Räumen (X, dX ) und (Y, dY ) wie folgt ausdrücken: ∀x0 ∈X ∀ε>0 ∃δ>0 ∀x∈X dX (x, x0 ) < δ =⇒ dY (f (x), f (x0 )) < ε . Hierbei hängt δ nicht nur von ε, sondern auch von x0 ab. Oft ist die Situation interessant, in der man für alle x0 mit demselben, nur von ε abhängigen δ auskommt. Dies führt auf den Begriff der gleichmäßigen Stetigkeit. Definition 13.29 Es seien (X, dX ) und (Y, dY ) metrische Räume. Eine Funktion f : X −→ Y heißt gleichmäßig stetig, falls zu jeder Zahl ε > 0 eine Zahl δ > 0 existiert, so dass für alle x1 , x2 ∈ X mit dX (x1 , x2 ) < δ stets dY (f (x1 ), f (x2 )) < ε gilt. In Quantorenschreibweise: ∀ε>0 ∃δ>0 ∀x1 ,x2 ∈X dX (x1 , x2 ) < δ =⇒ dY (f (x1 ), f (x2 )) < ε . Der Unterschied zwischen Stetigkeit und gleichmäßiger Stetigkeit besteht (ebenso wie beim Unterschied zwischen punktweiser und gleichmäßiger Konvergenz) nur in der Reihenfolge zweier Quantoren. Offensichtlich folgt aus der gleichmäßigen Stetigkeit einer Funktion die Stetigkeit. Die Umkehrung gilt i.Allg. nicht: Beispiel 13.30 Auf dem halboffenen Intervall I := ]0, 1] ist die Funktion f (x) := x1 stetig. Sie ist dort allerdings nicht gleichmäßig stetig. Hierzu müssen wir zeigen, dass zu einem gewissen ε > 0 kein δ > 0 existiert, das für jedes x ∈ I den erforderlichen Dienst leistet. Dazu wählen wir ε := 1. Es sei eine Zahl δ > 0 gegeben. Es gibt eine natürliche Zahl 1 n mit n1 < δ. Für die beiden Punkte x := n1 und y := n+1 in I gilt 1 1 1 |x − y| < < δ und |f (x) − f (y)| = − = |n − (n + 1)| = 1 6< ε. n x y Damit ist die Behauptung bewiesen. Der Grund für die mangelnde Gleichmäßigkeit ist natürlich die Unbeschränktheit des Graphen von f in der Nähe von 0. 208 Auf kompakten Mengen fallen Stetigkeit und gleichmäßige Stetigkeit jedoch zusammen; anschaulich: Auf einem Kompaktum kann die Stetigkeit einer Funktion nicht beliebig schlecht“ ” werden. Dies wird später (im Beweis von Satz 17.14) der Schlüssel für den Nachweis sein, dass stetige Funktionen auf kompakten Intervallen Riemann-integrierbar sind. Satz 13.31 Es seien (X, dX ) und (Y, dY ) metrische Räume, und X sei kompakt. Dann ist jede stetige Funktion f : X −→ Y gleichmäßig stetig. Wir geben einmal mehr zwei Beweise, einen mithilfe der Überdeckungs- und einen mithilfe der Folgenkompaktheit von X. Beweis 1. Es sei eine Zahl ε > 0 gegeben. Weil f stetig ist, gibt es zu jedem Punkt x ∈ X eine Zahl δ(x) > 0, so dass dY (f (y), f (x)) < ε 2 für alle y ∈ Uδ(x) (x) gilt. Wir betrachten die offenen Kugeln U%(x) (x) mit den halben Radien %(x) := 21 δ(x). Sie bilden eine offene Überdeckung von X; es ist [ X⊆ U%(x) (x) . x∈X Wegen der (Überdeckungs-)Kompaktheit von X genügen endlich viele dieser Kugeln zur Überdeckung von X. Es gibt also Punkte x1 , x2 , . . . , xN in X mit X ⊆ U%(x1 ) (x1 ) ∪ U%(x2 ) (x2 ) ∪ . . . ∪ U%(xN ) (xN ) . Wir setzen δ := min{%(x1 ), %(x2 ), . . . , %(xN )} und erhalten damit eine Zahl δ > 0. Es seien beliebige Punkte x, y ∈ X mit dX (x, y) < δ gegeben. Der Punkt x liegt in einer der endlich vielen überdeckenden Kugeln; für ein geeignetes ν gilt also x ∈ U%(xν ) (xν ). Dann folgt dX (y, xν ) ≤ dX (y, x) + dX (x, xν ) < δ + %(xν ) ≤ 2%(xν ), es liegen also x und y beide in der offenen Kugel vom Radius 2%(xν ) = δ(xν ) um den Punkt xν . Daher folgt ε ε dY (f (x), f (y)) ≤ dY (f (x), f (xν )) + dY (f (xν ), f (y)) < + = ε. 2 2 Damit ist die gleichmäßige Stetigkeit von f bewiesen. Beweis 2. Wir nehmen an, die Funktion f wäre nicht gleichmäßig stetig. Die Negation der Bedingung für gleichmäßige Stetigkeit lautet ∃ε0 >0 ∀δ>0 ∃x,y∈X dX (x, y) < δ ∧ dY (f (x), f (y)) ≥ ε0 . Wir können für δ nacheinander die Zahlen k1 mit k ∈ N wählen. So erhalten wir zwei Folgen (xk )k und (yk )k von Punkten xk , yk ∈ X mit dX (xk , yk ) < 1 k dY (f (xk ), f (yk )) ≥ ε0 . und 209 Weil X (folgen-)kompakt ist, besitzt die Folge (xk )k eine gegen ein ξ ∈ X konvergente Teilfolge (xkν )ν . Wegen dX (xk , yk ) < k1 ist auch lim ykν = ξ. ν→∞ Aus der Stetigkeit von f ergibt sich mithilfe des Folgenkriteriums lim f (xkν ) = f (ξ) = lim f (ykν ). ν→∞ ν→∞ Das steht im Widerspruch zu dY (f (xkν ), f (ykν )) ≥ ε0 für alle ν. Damit ist die Behauptung abermals bewiesen. Ein einfaches Beispiel gleichmäßig stetiger Funktionen sind die dehnungsbeschränkten Funktionen. Definition 13.32 Es seien (X, dX ) und (Y, dY ) metrische Räume. Eine Funktion f : X −→ Y heißt dehnungsbeschränkt oder Lipschitz-stetig47 oder auch quasikontrahierend, falls es ein L < ∞ gibt, so dass dY (f (x1 ), f (x2 )) ≤ L · dX (x1 , x2 ) für alle x1 , x2 ∈ X. Man bezeichnet jedes solche L als Dehnungsschranke oder Lipschitz-Konstante für f . Wenn f eine Dehnungsschranke L < 1 besitzt, dann heißt f kontrahierend. Die Anwendung einer kontrahierenden Abbildung auf zwei Punkte verkleinert die Abstände zwischen diesen Punkten; die Anwendung einer quasikontrahierenden Abbildung kann sie nicht allzu sehr“ vergrößern. ” Die Dehnungsbeschränktheit einer reellwertigen Funktion f : I −→ R auf einem Intervall I ⊆ R bedeutet anschaulich, dass der Betrag der Steigung der Sekante durch zwei beliebige Punkte des Graphen von f nirgends größer als eine gewisse Konstante L ist. Proposition 13.33 Es seien (X, dX ) und (Y, dY ) metrische Räume. Falls f : X −→ Y dehnungsbeschränkt ist, so ist f gleichmäßig stetig. Beweis. Es sei L > 0 eine Dehnungsschranke für f . Es sei ein ε > 0 gegeben. Dann ist δ := Lε > 0. Es seien x1 , x2 ∈ X mit dX (x1 , x2 ) < δ gegeben. Dann folgt dY (f (x1 ), f (x2 )) ≤ L · dX (x1 , x2 ) < L · δ = ε. Dies zeigt die gleichmäßige Stetigkeit von f . 47 Der Name Lipschitz-stetig“ erinnert an R. Lipschitz (1832 – 1903), der die Bedeutung der Dehnungs” beschränktheit für die Theorie der Differentialgleichungen erkannt hat: Ist f eine stetige Funktion von zwei Variablen x und y und bezüglich der zweiten Variablen y dehnungsbeschränkt, dann besitzt die Differentialgleichung y 0 = f (x, y) durch jeden Punkt eine eindeutig bestimmte Lösung. 210 √ Beispiel 13.34 Die Quadratwurzelfunktion f (x) := x ist auf dem kompakten Intervall [0, 1] stetig und damit nach Satz 13.31 gleichmäßig stetig. Sie ist dort jedoch nicht dehnungsbeschränkt: Wäre nämlich L > 0 eine Dehnungsschranke, so müsste insbesondere √ | x| = |f (x) − f (0)| ≤ L · |x − 0| = L · |x| für alle x ∈ [0, 1] gelten. Dies hätte L2 x ≥ 1 für alle x ∈]0, 1] zur Folge, was offensichtlich absurd ist. √ Jedoch ist x 7→ x auf jedem Intervall [ε, ∞[ mit ε > 0 dehnungsbeschränkt, denn es ist √ √ |x1 − x2 | 1 | x1 − x2 | = √ für alle x1 , x2 ∈ [ε, ∞[. √ ≤ √ · |x1 − x2 | x1 + x2 2 ε √ Aus Proposition 13.33 folgt daher, dass x 7→ x z.B. auf [1, ∞[ gleichmäßig stetig ist. Zusammen mit der bereits begründeten gleichmäßigen Stetigkeit auf [0, 1] ergibt sich, dass f insgesamt auf [0, ∞[ gleichmäßig stetig ist. 13.5 Der Banachsche Fixpunktsatz Wir haben nun die Hilfsmittel, um ein Fixpunktprinzip zu beweisen, das sich in der Analysis bei vielen Gelegenheiten als nützlich erweist. Erinnerung: Laut Definition 6.19 nennen wir einen metrischen Raum (X, d) vollständig, falls jede Cauchy-Folge in X einen Grenzwert in X besitzt. Das Cauchy-Kriterium in Satz 6.18 besagt dann gerade, dass die metrischen Räume Rm und Cm vollständig sind. Satz 13.35 (Banachscher Fixpunktsatz48 , Kontraktionslemma) Es sei (X, d) ein vollständiger metrischer Raum, und f : X −→ X sei eine kontrahierende Abbildung. Dann besitzt f genau einen Fixpunkt ξ ∈ X. Es sei λ < 1 eine Dehnungsschranke für f . Wenn man einen beliebigen Punkt a0 ∈ X wählt und die Folge (an )n≥0 in X rekursiv durch an = f (an−1 ) für n ≥ 1 definiert, dann gilt d(an , ξ) ≤ λn · d(a1 , a0 ) 1−λ und ξ = lim an . n→∞ Beweis. Wir erklären die Folge (an )n wie im Satz. Induktiv ergibt sich dann d(an+1 , an ) ≤ λn · d(a1 , a0 ) 48 für alle n ∈ N0 . Stefan Banach (1892 – 1945) war einer der hervorragendsten polnischen Mathematiker des 20. Jahrhunderts. Die wichtigste Leistung von Banach sind grundlegende Beiträge zu einem Gebiet, das sich damals aus Fragen über reelle Funktionen und ihre Entwicklung in Orthogonalreihen neu entwickelte und jetzt Funktionalanalysis genannt wird. Hierzu gehört die Theorie der Banachräume. Das sind normierte Vektorräume, die bezüglich der von der Norm induzierten Metrik vollständig sind. In den in der Funktionalanalysis interessanten Fällen haben diese Vektorräume zumeist unendliche Dimension. Wichtige Beispiele sind die aus gewissen messbaren Funktionen bestehenden Lp -Räume, die wir in Kapitel 32 behandeln werden. Bekannt ist Banach außerdem u.a. durch das sog. Banach-Tarski-Paradoxon: Eine Kugel in R3 ist in endlich viele (fünf) Teilmengen zerlegbar, die durch geeignete Bewegungen zu einer Kugel mit doppeltem Volumen (!) zusammensetzbar sind (vgl. Abbildung 29). Ein entscheidendes Hilfsmittel im Beweis ist das in Abschnitt 31.2 diskutierte Auswahlaxiom der Mengenlehre. 211 Denn dies ist offensichtlich richtig für n = 0, und aus der Gültigkeit für ein n folgt d(an+2 , an+1 ) = d(f (an+1 ), f (an )) ≤ λ · d(an+1 , an ) ≤ λn+1 · d(a1 , a0 ). Aus der Dreiecksungleichung und aus der Voraussetzung λ < 1 folgt nun mithilfe der geometrischen Summenformel d(an+k , an ) ≤ n+k−1 X d(aν+1 , aν ) ν=n λn · d(a1 , a0 ) 1−λ für alle natürlichen Zahlen n und k. Hierbei strebt die rechte Seite für n → ∞ gegen 0. Dies zeigt, dass (an )n eine Cauchy-Folge in X ist. Wegen der Vollständigkeit von X ist die Folge konvergent; es existiert also der Grenzwert ≤ (λn + . . . + λn+k−1 ) · d(a1 , a0 ) ≤ ξ = lim an ∈ X. n→∞ Wegen |d(an+k , an ) − d(ξ, an )| ≤ d(ξ, ank ) −→ 0 für k → ∞ ist dann auch limk→∞ d(an+k , an ) = d(ξ, an ) für alle n. Hieraus und aus der Abschätzung für d(an+k , an ) folgt für k → ∞ weiter d(ξ, an ) = lim d(an+k , an ) ≤ k→∞ λn · d(a1 , a0 ). 1−λ Die dehnungsbeschränkte Funktion f ist nach Proposition 13.33 stetig, und mit dem Folgenkriterium ergibt sich f (ξ) = f ( lim an ) = lim f (an ) = lim an+1 = ξ. n→∞ n→∞ n→∞ Somit ist ξ ein Fixpunkt von f . Zu zeigen bleibt noch die Eindeutigkeit des Fixpunkts. Hierzu sei neben ξ auch η ∈ X ein Fixpunkt von f , also f (η) = η. Dann folgt d(η, ξ) = d(f (η), f (ξ)) ≤ λ · d(η, ξ). Wegen λ < 1 folgt hieraus d(η, ξ) = 0, also η = ξ. Der Fixpunkt ξ von f ist demnach eindeutig bestimmt. Beispiel 13.36 (1) Im Banachschen Fixpunktsatz kann auf die Vollständigkeit von X nicht verzichtet werden, wie das Beispiel des Raumes X = Q ∩ [1, 2] und der Abbildung f : x 7→ x2 + x1 zeigt (vgl. hierzu auch Satz 6.5): Zunächst ist offensichtlich 1 ≤ f (x) ≤ 2 für alle x ∈ [1, 2], und f bildet rationale Zahlen auf ebensolche ab, so dass f : X −→ X eine Selbstabbildung von X ist. Für alle x, y ∈ [1, 2] ist 1 1 y − x 1 = − · |x − y| ≤ 1 · |x − y|, |f (x) − f (y)| = (x − y) + 2 xy 2 xy 2 d.h. f ist kontrahierend (mit Dehnungsschranke 21 ). √ Jedoch liegt der einzige Fixpunkt ξ = 2 von f nicht in Q. 212 (2) Die Voraussetzung λ ≤ 1 ist zu schwach, wie das Beispiel X = R, f (x) = x + 1 zeigt: Offensichtlich ist f dehnungsbeschränkt mit Dehnungsschranke 1, hat aber keinen Fixpunkt. Abbildung 29: Zum in Fußnote 48 erwähnten Banach-Tarski-Paradoxon (Zeichnung: Jens Jordan) 13.6 Ausblick: Topologische Räume Nach Satz 10.4 lässt sich Stetigkeit dadurch charakterisieren, dass die Urbilder offener Mengen offen sind. Hierbei kommt es letztlich nicht darauf an, dass die offenen Mengen mit Hilfe von Kugeln, also mithilfe einer Metrik definiert wurden: Wichtig sind nur die in Lemma 13.10 gelisteten Eigenschaften des Systems der offenen Mengen. Ausgehend von diesen kann man noch weiter abstrahieren: Definition 13.37 Es sei X eine Menge, und es sei T ⊆ P(X) eine Menge von Teilmengen von X, wofür die Aussagen (T1), (T2) und (T3) in Lemma 13.10 gelten; es sollen also beliebige Vereinigungen und endliche Durchschnitte von Mengen aus T wieder in T liegen; zudem sollen die leere Menge und X selbst zu T gehören. Dann heißt T eine Topologie auf X, das Paar (X, T ) oder auch die Menge X selber heißt ein topologischer Raum, und die Mengen U ∈ T heißen die offenen Mengen in X. Es seien X und Y topologische Räume. Eine Abbildung f : X −→ Y heißt stetig, falls für jede offene Menge V in Y das Urbild U = f −1 (V ) offen in X ist. 213 Aufgrund von Lemma 13.10 ist jeder metrische Raum ein topologischer Raum; die zugehörige Topologie ist das System der bezüglich der betreffenden Metrik offenen Mengen. Bemerkung 13.38 Es sei (X, T ) ein topologischer Raum, und A sei eine Teilmenge von X. Die Menge A wird in naheliegender Weise zu einem topologischen Raum gemacht, indem man TA := {U ∩ A | U ∈ T } setzt und TA als System von offenen Mengen in A deklariert. Eine Menge ist also genau dann offen in A, wenn sie sich als Durchschnitt einer in X offenen Menge mit A darstellen lässt. Es ist leicht zu sehen, dass die Axiome (T1), (T2) und (T3) für TA erfüllt sind. Man nennt TA die von T induzierte Teilraumtopologie oder Relativtopologie auf A. Topologische Räume in voller Allgemeinheit werden in dieser Vorlesung nur am Rande auftauchen. Mit Relativtopologien hingegen hat man häufig (teils ohne diesen Begriff explizit zu benutzen) durchaus auch im Kontext metrischer Räume zu tun, nämlich z.B. immer dann, wenn man als metrischen Raum eine bestimmte feste Teilmenge des Rn , versehen mit der euklidischen Metrik, verwendet. Dabei kommt es immer wieder zu paradoxen Situationen, die zu Fehlschlüssen verleiten (vgl. auch Bemerkung 4.4 (5)): Beispiel 13.39 Es sei A =]0; 1[. Man kann A als Teilraum des topologischen Raumes X = R(versehen mit der von der euklidischen Metrik erzeugten Topologie) auffassen. Die 1 Menge 0; 2 ist abgeschlossen in A, aber (natürlich) nicht in X. Hingegen ist sie weder in A noch in X kompakt. Dies kann man analog zu Beispiel 13.21 begründen, indem man offene Überdeckungen von A angibt, die keine endliche Teilüberdeckung besitzen. Alternativ kann man zeigen, dass A nicht folgenkompakt ist: Beispielsweise besitzt die Folge ( n1 )n in A keine konvergente Teilfolge mit Grenzwert in A. 214 Teil III Differential- und Integralrechnung einer Variablen 14 14.1 Differenzierbarkeit Die Ableitung Zwei Probleme sind es vor allem, die zur Differentialrechnung führen: 1. Eine Grundaufgabe der Mechanik ist es, den Ort und die Geschwindigkeit eines bewegten Körpers als Funktionen der Zeit zu beschreiben und eine Beziehung zwischen den beiden Funktionen zu finden. Wie kann man überhaupt die momentane Geschwindigkeit eines ungleichmäßig bewegten Körpers definieren? 2. Eine wichtige Aufgabe in der Geometrie ist es, die Tangente an eine gegebene Kurve in einem gegebenen Punkt zu finden. Wie wird die Tangente durch eine Gleichung beschrieben? Unter welchen Umständen gibt es überhaupt eine Tangente? Parallel zur Differentialrechnung wurde auch die Integralrechnung geschaffen. Die Arbeiten an den Problemen beider Theorien gehen bis in die Antike zurück. Hierbei ist vor allem die Inhalts- und die Längenmessung des Archimedes (ca. 287 – 212 v. Chr.) zu nennen. Die eigentliche Erfindung der Differential- und Integralrechnung und ihre Etablierung als mathematische Disziplin gelang aber erst im 17. Jahrhundert. Die Begründer sind I. Newton (1643 – 1727) und G. W. Leibniz (1646 – 1716). Unklarheiten in den von beiden benutzten infinitesimalen Vorstellungen wurden von Bischof G. Berkeley (1684 – 1753) in seiner Schrift The Analyst kritisiert. Angesichts der überwältigenden Erfolge der Infinitesimalrechnung in der Mathematik und in ihren Anwendungsgebieten im 18. Jahrhundert trat die Kritik in den Hintergrund. Erst im 19. Jahrhundert wurde eine logisch unanfechtbare Differential- und Integralrechnung geschaffen, letztlich durch die Verbannung infinitesimaler Größen und die Einführung der Weierstraßschen Epsilontik“. Aus Teil I und II der Vorlesung stehen uns ” die hierbei relevanten Methoden zur Verfügung. Daher können wir jetzt mit geringer Mühe eine Einführung in die Differentialrechnung geben. Wir gehen von der Tangente an den Graphen einer Funktion in einem gegebenen Punkt aus, die wir uns als Grenzlage von Sekanten vorstellen. Definition 14.1 Es sei I =]a, b[⊆ R ein offenes Intervall. Eine Funktion f : I −→ R heißt differenzierbar im Punkt x0 ∈ I, falls der Grenzwert lim x→x0 f (x) − f (x0 ) =: f 0 (x0 ) x − x0 (als reelle Zahl) existiert. In diesem Fall heißt f 0 (x0 ) die Ableitung von f im Punkt x0 . Gebräuchliche Notationen hierfür sind df df 0 f (x0 ) = (x0 ) = . dx dx x=x0 215 Die Funktion f : I −→ R heißt differenzierbar, falls sie in jedem Punkt x0 ∈ I differenzierbar ist. In diesem Fall existiert die Ableitung f 0 (x0 ) in jedem Punkt x0 ∈ I. Die hierdurch definierte Funktion f 0 : I −→ R heißt die Ableitung von f . Notationen für die Ableitung sind 49 df . f 0 = f˙ = dx Bemerkung 14.2 (1) Die Ableitung einer Funktion f : I −→ R in einem Punkt x0 ∈ I kann auch in der Form f (x0 + h) − f (x0 ) f 0 (x0 ) = lim h→0 h geschrieben werden. (Diese triviale Umformulierung wird im Schulunterricht mitunter mit dem etwas hochtrabenden Begriff h-Methode“ belegt.) ” (2) Der Quotient f (x) − f (x0 ) q(x) := x − x0 ist für x = x0 natürlich nicht definiert. Bei der Grenzwertbildung genügt es dennoch, lim zu schreiben (und nicht etwa x→x lim ), denn unsere Definition 9.16 des Grenzwerts x→x0 0 x6=x0 lim q(x) einer Funktion q war gerade so eingerichtet, dass es keine Rolle spielt, ob q x→x0 in x0 definiert ist. Der nächste Satz liefert eine Charakterisierung von Differenzierbarkeit, die einen wichtigen Aspekt dieses Begriffs besser betont: die lokale lineare Approximierbarkeit. Satz 14.3 Es sei I = ]a, b[ ⊆ R ein offenes Intervall, x0 ∈ I und f : I −→ R eine Funktion. (a) Die folgenden Aussagen sind äquivalent: (1) Die Funktion f ist differenzierbar im Punkt x0 mit der Ableitung c = f 0 (x0 ). (2) Es gibt eine Funktion r : I −→ R, die im Punkt x0 stetig ist und den Wert r(x0 ) = 0 hat, so dass f (x) = f (x0 ) + c · (x − x0 ) + r(x) · (x − x0 ) für alle x ∈ I gilt. (b) Wenn f im Punkt x0 differenzierbar ist, dann ist f dort stetig. 49 Der Punkt zur Bezeichnung der Ableitung f˙ einer Funktion f geht auf Newton zurück. Diese Notation wird in der theoretischen Physik und in der Differentialgeometrie verwendet, falls mit der Variablen, nach df der man differenziert, die Zeit gemeint ist. Vorwiegend sind die Notationen f 0 und dx gebräuchlich. Die df letzte wurde von Leibniz eingeführt. Man nennt dx auch den Differentialquotienten von f . Da es in der modernen, Weierstraßschen Analysis keine von 0 verschiedenen unendlich kleinen Größen gibt, haben dx df und df für uns vorerst keine eigene Bedeutung, und wir können das Symbol dx nur als Ganzes benutzen. Im Rahmen der Nicht-Standard-Analysis von A. Robinson kann man formale Definitionen für die Differentiale dx und df geben, ebenso in der Theorie der Differentialformen. In letzterer haben diese Differentiale allerdings mit unendlich kleinen“ Größen überhaupt nichts zu tun. ” 216 Beweis. (a) =⇒ “: Es sei (1) gültig. Wir definieren die Funktion r durch die Formeln in (2); wir ” setzen also ( f (x)−f (x ) 0 − c für x ∈ I \ {x0 } , x−x0 r(x) := 0 für x = x0 . Aus der Voraussetzung (1) folgt dann die Existenz des Grenzwerts lim r(x) = f 0 (x0 ) − c = 0 = r(x0 ). x→x0 Also ist r stetig im Punkt x0 (Satz 9.18 (3)), und somit ist (2) gültig. ⇐=“: Nun wird (2) vorausgesetzt. Aufgrund der Stetigkeit von r in x0 ist dann ” limx→x0 r(x) = r(x0 ) = 0. Hieraus und aus f (x) − f (x0 ) = c + r(x) x − x0 folgt die Existenz des Grenzwerts lim x→x0 f (x) − f (x0 ) = lim (c + r(x)) = c + r(x0 ) = c. x→x0 x − x0 Somit gilt (1). (b) Im Falle der Differenzierbarkeit folgt aus der Darstellung in (a) (2) insbesondere limx→x0 f (x) = f (x0 ). Dies bedeutet, dass f im Punkt x0 stetig ist. Bemerkung 14.4 Wir können die Differenzierbarkeit einer Funktion f : I −→ R im Punkt x0 ∈ I wie folgt veranschaulichen: (1) Geometrisch beschreibt der Differenzenquotient f (x) − f (x0 ) x − x0 die Steigung der Sekante des Graphen von f durch die Punkte (x0 , f (x0 )) und (x, f (x)). Dass f in x0 differenzierbar ist, bedeutet, dass der Grenzwert dieser Sekantensteigungen beim Grenzübergang x → x0 existiert (Abbildung 30). Die Sekante geht bei diesem Grenzübergang in die Tangente an den Graphen im Punkt (x0 , f (x0 )) über; diese wird durch die Gleichung y = f (x0 ) + f 0 (x0 ) · (x − x0 ) beschrieben. Der Wert f 0 (x0 ) ist die Steigung dieser Tangente. (2) Ist f in x0 differenzierbar und besitzt daher nach Satz 14.3 (a) die Darstellung f (x) = f (x0 ) + (f 0 (x0 ) + r(x)) · (x − x0 ) mit in x0 stetigem r und r(x0 ) = 0, so kann f 0 (x0 ) + r(x) in einer kleinen“ Umgebung ” von x0 durch f 0 (x0 ) angenähert werden, d.h. es ist f (x) ≈ f (x0 ) + f 0 (x0 ) · (x − x0 ) 217 für x nahe bei“ x0 . ” f • • • x x0 Abbildung 30: Sekanten und die Tangente Hierbei ist y = f (x0 ) + f 0 (x0 ) · (x − x0 ) wiederum die Gleichung der Tangente an den Graphen von f im Punkt (x0 , f (x0 )).50 In diesem Sinne kann man Differenzierbarkeit als (lokale) lineare Approximierbarkeit interpretieren. Dies wird sich später als der Schlüssel erweisen, um den Differenzierbarkeitsbegriff auf Funktionen von mehreren Variablen zu verallgemeinern. Beispiel 14.5 (1) Es sei f (x) = ax + b mit reellen Zahlen a und b. Für jedes x0 ∈ R ist dann der Differenzenquotient f (x) − f (x0 ) = a. x − x0 Folglich ist f überall differenzierbar mit f 0 (x) = a: Die Ableitung ist die konstante Funktion mit dem Wert a. Das Ergebnis ist anschaulich klar, denn der Graph von f ist eine Gerade mit der Steigung a. (2) In Bemerkung 12.24 (2) hatten wir aus der Reihendarstellung der Exponentialfunktion die Existenz des Grenzwerts ez − 1 lim =1 z→0 z 50 Selbstverständlich ist damit nichts darüber ausgesagt, wie groß oder klein die Umgebung von x ist, in der diese Approximation gut“ ist; ohnehin handelt es sich bei suggestiven Formulierungen wie annähern“ ” ” und klein“ um mathematisch unpräzise Sprechweisen – die man allerdings mithilfe von ε-δ-Formulierungen ” (wie sie ja auch der Grenzwertdefinition zugrundeliegen!) präzisieren kann. Global gesehen wird sich f (x) jedenfalls i.Allg. stark von der approximierenden Tangente unterscheiden. 218 hergeleitet. Hierbei waren für den Grenzübergang z → 0 sogar komplexe z zugelassen. Erst recht existiert der reelle Grenzwert ex − e0 ex − 1 = lim = 1, x→0 x − 0 x→0 x exp0 (0) = lim also die Ableitung der Exponentialfunktion im Nullpunkt. Mit dem Additionstheorem folgt nun für beliebige x0 ∈ R die Existenz des Grenzwerts exp0 (x0 ) = lim x→x0 ex−x0 − 1 ex − ex0 eh − 1 = ex0 · lim = ex0 · lim = e x0 . x→x0 x − x0 h→0 x − x0 h Dies zeigt, dass die Exponentialfunktion auf ganz R differenzierbar ist und dass exp0 = exp gilt. (3) Die Funktion f (x) := |x| ist auf R stetig. Wie im ersten Beispiel erhält man f 0 (x0 ) = 1 für alle x0 > 0 und f 0 (x0 ) = −1 für alle x0 < 0. Wegen |x| |x| f (x) − f (0) f (x) − f (0) = lim = 1 6= −1 = lim = lim x→0+ x x→0− x x→0− x→0+ x−0 x−0 lim ist f im Punkt 0 nicht differenzierbar. Warnung: Stetige Funktionen müssen nicht differenzierbar sein. Die volle Wahrheit ist noch erstaunlicher: Es gibt Funktionen f : R −→ R, die überall stetig, aber nirgends differenzierbar sind. Ein Beispiel steht u.a. in [Königsberger 1, S. 153]. Das erste solche Beispiel hat Weierstraß 1861 bekannt gemacht: Die Funktion f (x) := ∞ X cos(an πx) n=0 mit b > 1 und bn a 3π >1+ b 2 hat die geforderten Eigenschaften. (Ein Beispiel von Bolzano aus dem Jahr 1834 wurde erst später bekannt.) Das letzte Beispiel gibt Anlass, einseitige Ableitungen einzuführen: Definition 14.6 Es sei f : I −→ R eine Funktion auf einem echten Intervall I, und es sei x0 ∈ I. Falls die einseitigen Grenzwerte f (x) − f (x0 ) x→x0 + x − x0 f 0 (x0 +) := lim bzw. f (x) − f (x0 ) x→x0 − x − x0 f 0 (x0 −) := lim existieren (als reelle Zahlen), so nennt man sie die rechtsseitige bzw. linksseitige Ableitung von f im Punkt x0 . 219 Bemerkung 14.7 (1) Geometrisch bedeutet die Existenz einseitiger Ableitungen, dass der Graph von f im Punkt (x0 , f (x0 )) Halbtangenten besitzt; darunter versteht man die beiden Halbgeraden {(x0 + t, f (x0 ) + tf 0 (x0 +)) | t ≥ 0}, {(x0 + t, f (x0 ) + tf 0 (x0 −)) | t ≤ 0}. (2) Anders als in Definition 14.1 haben wir hier nicht vorausgesetzt, dass das Definitionsintervall I offen ist: Der Begriff der einseitigen Ableitung ist auch und gerade dann sinnvoll, wenn x0 ein Randpunkt von I ist. (In diesem Fall kann natürlich nur allenfalls eine der beiden einseitigen Ableitungen existieren; im Fall eines linken Randpunktes beispielsweise ist die Frage nach einer linksseitigen Ableitung nicht sinnvoll.) Ist x0 hingegen ein innerer Punkt von I und existieren die einseitigen Ableitungen f 0 (x0 +) und f 0 (x0 −) und sind gleich, so ist f differenzierbar in x0 . Beispiel 14.8 (1) Für die Funktion f (x) := | sin(x)| gilt f (x) f (x) − f (0) = = x−0 x sin x x − sinx x für 0 < x < π, für − π < x < 0. Mit Korollar 12.16 folgt, dass im Nullpunkt die einseitigen Ableitungen f 0 (0+) := lim x→0+ f (x) − f (0) = 1, x−0 f 0 (0−) := lim x→0− f (x) − f (0) = −1 x−0 existieren. Jedoch ist f im Nullpunkt nicht differenzierbar. Abbildung 31 zeigt neben dem Graphen von f auch die oben erwähnten Halbtangenten im Punkt (0, 0). Abbildung 31: Der Graph von x 7→ | sin(x)| (2) Wir wollen nun ein Beispiel einer stetigen Funktion betrachten, bei der im Nullpunkt die einseitigen Ableitungen nicht existieren. Aus Beispiel 9.13 (4) wissen wir, dass die durch ( x sin x1 für x 6= 0, f (x) := 0 für x = 0 definierte Funktion f : R −→ R stetig ist – auch in x = 0. Den Graphen zeigt Abbildung 32. Wir werden alsbald (mithilfe der Produkt- und Kettenregel) auch begründen 220 0.05 0.025 -0.1 -0.05 0.05 0.1 -0.025 -0.05 -0.075 Abbildung 32: Das Verhalten von x 7→ x sin x1 nahe bei 0 können, dass f auf ganz R \ {0} differenzierbar ist. Hier interessiert uns allerdings die Frage der Differenzierbarkeit in x = 0, und für diese müssen wir auf die Definition von Differenzierbarkeit zurückgreifen: Für alle x 6= 0 ist f (x) − f (0) f (x) 1 = = sin . x−0 x x Der Grenzwert limx→0 differenzierbar. f (x)−f (0) x−0 existiert nicht51 . Daher ist f im Punkt x = 0 nicht Auch die links- und rechtsseitigen Ableitungen f 0 (0−) und f 0 (0+) existieren nicht. Bisher hatten wir Differenzierbarkeit nur für Funktionen auf offenen Intervallen erklärt. Wir können die Definition nun auf Funktionen verallgemeinern, die auf beliebigen Intervallen definiert sind. Definition 14.9 Eine Funktion f : I −→ R auf einem kompakten Intervall I = [a, b] nennt man differenzierbar in a bzw. in b , falls die rechtsseitige Ableitung f 0 (a+) bzw. die linksseitige Ableitung f 0 (b−) existiert. Eine Funktion f : I −→ R auf einem beliebigen Intervall heißt differenzierbar, falls sie in jedem Punkt x0 ∈ I differenzierbar ist (im Falle eines Randpunktes im soeben definierten Sinne, im Falle eines inneren Punktes im Sinne von Definition 14.1). 51 Darin spiegelt sich gerade der aus Beispiel 9.13 (3) bekannte Umstand wider, dass die auf R \ {0} definierte Funktion x 7→ sin x1 nicht stetig in den Nullpunkt fortsetzbar ist. 221 Bemerkung 14.10 Satz 14.3 bleibt sinngemäß auch für den Fall gültig, dass eine Funktion in einem Randpunkt des Definitionsintervalls differenzierbar (im soeben definierten Sinne) ist. Wir können daher in zukünftigen Anwendungen dieses Satzes auf die Offenheitsvoraussetzung verzichten. 14.2 Rechenregeln Satz 14.11 (Rechenregeln für Ableitungen) Es sei I = ]a, b[ ⊆ R ein offenes Intervall und x0 ∈ I. Die Funktionen f : I −→ R und g : I −→ R seien in x0 differenzierbar. Dann gilt: (1) Für jedes a ∈ R ist a · f im Punkt x0 differenzierbar mit der Ableitung (af )0 (x0 ) = a · f 0 (x0 ). (2) Die Summe f + g ist in x0 differenzierbar mit der Ableitung (f + g)0 (x0 ) = f 0 (x0 ) + g 0 (x0 ). (3) (Produktregel) Das Produkt f · g ist in x0 differenzierbar mit der Ableitung (f · g)0 (x0 ) = f 0 (x0 ) · g(x0 ) + f (x0 ) · g 0 (x0 ). (4) (Quotientenregel) Wenn g(x0 ) 6= 0 ist, dann ist die Funktion mit der Ableitung 0 f f 0 · g − f · g0 (x0 ) = (x0 ) . g g2 f g differenzierbar in x0 Beweis. Wir setzen α := f 0 (x0 ) und β := g 0 (x0 ). Nach Voraussetzung und nach Satz 14.3 (a) gibt es reellwertige Funktionen r1 und r2 auf I, die im Punkt x0 stetig sind mit r1 (x0 ) = r2 (x0 ) = 0 und mit denen die Identitäten f (x) = f (x0 ) + (α + r1 (x)) · (x − x0 ), g(x) = g(x0 ) + (β + r2 (x)) · (x − x0 ) für alle x ∈ I gelten. Die Funktionen a · r1 und r1 + r2 sind nach Satz 9.8 (1) stetig in x0 und haben dort den Wert 0. Es gelten die Identitäten (af )(x) = (af )(x0 ) + (aα + ar1 (x)) · (x − x0 ) , (f + g)(x) = (f + g)(x0 ) + (α + β + (r1 + r2 )(x)) · (x − x0 ) . Hieraus und aus Satz 14.3 (a) folgen die Behauptungen (1) und (2). Aus den Voraussetzungen folgt die Identität (f g)(x) = (f g)(x0 ) + (αg(x0 ) + βf (x0 )) · (x − x0 ) + r(x) · (x − x0 ) , worin r(x) := f (x0 ) · r2 (x) + g(x0 ) · r1 (x) + (α + r1 (x)) · (β + r2 (x)) · (x − x0 ) 222 gesetzt ist. Nach Satz 9.8 ist r im Punkt x0 stetig; der Wert dort ist r(x0 ) = 0. Hieraus und aus Satz 14.3 (a) folgt die Behauptung (3). Es sei g(x0 ) 6= 0. Aus der Offenheit von I und aus der Stetigkeit von g in x0 in Verbindung mit dem Permanenzprinzip (Lemma 9.5) folgt, dass x0 ein innerer Punkt des Definitionsbereiches D := {x ∈ I | g(x) 6= 0} des Quotienten f /g ist. Für alle x ∈ D gilt 1 g(x) − g(x0 ) β + r2 (x) 1 − =− =− · (x − x0 ) . g(x) g(x0 ) g(x) · g(x0 ) g(x) · g(x0 ) Nach Division durch x − x0 ergibt sich hieraus die Differenzierbarkeit von 1/g in x0 und 0 1 − g(x10 ) 1 β + r2 (x) β g0 g(x) = − lim =− (x0 ) = lim = − (x0 ), x→x0 g(x)g(x0 ) x→x0 g x − x0 (g(x0 ))2 g2 wobei wir abermals die Stetigkeit von r2 in x0 und r2 (x0 ) = 0 ausgenutzt haben. Hieraus und aus der Produktregel in (3) folgt 0 0 1 f 1 f 0 · g − f · g0 0 + f (x0 ) · (x0 ) = f (x0 ) · (x0 ) = (x0 ), g g(x0 ) g g2 also die Behauptung (4). Satz 14.12 (Kettenregel) Es seien I und J echte Intervalle. Die Funktion f : I −→ J sei im Punkt x0 ∈ I differenzierbar, und die Funktion g : J −→ R sei im Punkt y0 := f (x0 ) differenzierbar. Dann ist die Funktion g ◦ f im Punkt x0 differenzierbar mit der Ableitung (g ◦ f )0 (x0 ) = g 0 (y0 ) · f 0 (x0 ). Falls f auf I und g auf J differenzierbar sind, dann ist g ◦ f auf I differenzierbar mit (g ◦ f )0 = (g 0 ◦ f ) · f 0 . Beweis. Es genügt, die erste Behauptung zu beweisen. Wir setzen α := f 0 (x0 ) und β := g 0 (y0 ). Nach Satz 14.3 (a) gelten dann die Identitäten52 f (x) = y0 + (α + r1 (x)) · (x − x0 ), g(y) = g(y0 ) + (β + r2 (y)) · (y − y0 ), worin r1 : I −→ R stetig im Punkt x0 und r2 : J −→ R stetig im Punkt y0 ist und r1 (x0 ) = r2 (y0 ) = 0 gilt. Es folgt (g ◦ f )(x) − (g ◦ f )(x0 ) = (β + r2 (f (x))) · (f (x) − y0 ) = (β + r2 (f (x))) · (α + r1 (x)) · (x − x0 ) = (βα + r(x)) · (x − x0 ) mit r(x) := βr1 (x) + αr2 (f (x)) + r2 (f (x)) · r1 (x). Die hierdurch definierte Funktion r ist nach den Sätzen 9.8 und 9.9 im Punkt x0 stetig mit dem Wert r(x0 ) = 0. Nach Satz 14.3 (a) ist g ◦ f somit differenzierbar im Punkt x0 mit der Ableitung (g ◦ f )0 (x0 ) = βα = g 0 (f (x0 )) · f 0 (x0 ). 52 Dies gilt auch für den Fall, dass x0 bzw. y0 Randpunkte der betreffenden Definitionsintervalle sind, vgl. Bemerkung 14.10. 223 Merkregel: Wenn wir in Satz 14.12 y = f (x) und z = g(y) = g(f (x)) schreiben, lautet die Kettenregel im Leibnizschen Kalkül dz dy dz (x0 ) = (y0 ) · (x0 ). dx dy dx Wenn man die Argumentstellen weglässt, bekommt man dz dz dy = · . dx dy dx Das sieht so aus, als könne man das Differential dy im Zähler und im Nenner einfach wegkürzen. Als Merkregel ist diese suggestive Schreibweise gut geeignet. Sie hat jedoch keinerlei Beweiswert, da die Differentiale dx, dy, dz nicht definiert sind und daher auch nicht naiv gekürzt werden können. Beispiel 14.13 (1) Es sei fn (x) := xn . Dann gilt fn0 (x) = nxn−1 für alle n ∈ Z und alle x ∈ R (falls n ≥ 0) bzw. alle x ∈ R \ {0} (falls n < 0). Dies beweist man am einfachsten induktiv mithilfe der Produktregel: Für n = 0 und n = 1 ist die Behauptung klar nach Beispiel 14.5 (1), und aus der Gültigkeit für ein n folgt 0 fn+1 (x) = (f1 · fn )0 (x) = f10 (x) · fn (x) + f1 (x) · fn0 (x) = 1 · xn + x · nxn−1 = (n + 1) · xn . Vermöge vollständiger Induktion gilt die Behauptung also für alle n ∈ N. Damit und mit der Quotientenregel folgt für alle n ∈ N und alle x 6= 0: 0 f−n (x) = f 0 (x) n · xn−1 d 1 =− n = − = −nx−n−1 . 2 2n dx fn (x) (fn (x)) x Daher gilt die Behauptung sogar für alle n ∈ Z. (2) Aus (1) und aus Satz 14.11 (1)/(2) folgt, dass jede Polynomfunktion p(x) := a0 + a1 x + a2 x2 + . . . + an xn auf R differenzierbar ist und die Ableitung p0 (x) = a1 + 2a2 x + . . . + nan xn−1 hat. Hieraus und aus der Quotientenregel (4) in Satz 14.11 folgt weiter, dass jede rationale Funktion in jedem Punkt ihres Definitionsbereichs differenzierbar ist und dass die Ableitung ebenfalls eine rationale Funktion ist. 224 (3) Es sei a > 0 und f (x) := ax = exp(x·log(a)). Aus Beispiel 14.5 (2) und der Kettenregel (Satz 14.12) erhält man f 0 (x) = exp(x · log(a)) · log(a) = ax · log(a), also d x a = log(a) · ax . dx (4) Aus der Ableitung von exp erhält man nun auch die Ableitungen der hyperbolischen Funktionen: Es ist d d 1 x 1 −x cosh(x) = (e + e ) = (ex − e−x ) = sinh(x) , dx dx 2 2 d d 1 x 1 sinh(x) = (e − e−x ) = (ex + e−x ) = cosh(x) . dx dx 2 2 Auf R gilt also cosh0 = sinh, sinh0 = cosh . (5) Die trigonometrischen Funktionen cos(x) = 21 (eix + e−ix ) und sin(x) = 2i1 (eix − e−ix ) kann man nicht genauso wie im vorigen Beispiel behandeln, denn in der Kettenregel (Satz 14.12) sind keine komplexwertigen Funktionen vorgesehen. Man könnte warten, bis der Satz über das Differenzieren von Potenzreihen (Satz 20.12) verfügbar ist. Schneller kommen wir zum Ziel, indem wir das Additionstheorem des Sinus (Satz 12.14 (6)) mit den aus Korollar 12.16 bekannten Grenzwerten cos z − 1 sin z =1 und lim =0 lim z→0 z→0 z z verbinden: Es sei ein x0 ∈ R gegeben. Für alle h ∈ R gilt dann 1 sin(x0 + h) − sin x0 = · (sin x0 · cos h + cos x0 sin h − sin x0 ) h h cos h − 1 sin h = sin x0 · + cos x0 · . h h Mit den genannten Grenzwerten ergibt sich die Existenz des Grenzwerts sin(x0 + h) − sin x0 = sin x0 · 0 + cos x0 · 1 = cos x0 . h→0 h lim Also ist der Sinus an der Stelle x0 differenzierbar mit sin0 x0 = cos x0 . Da dies für alle x0 ∈ R gilt, ist also sin0 = cos . Für den Cosinus könnte man genauso vorgehen. Man kann aber auch die Identität π cos(x) = sin x + 2 aus Satz 12.20 (2) verwenden. Hiermit und aus der Kettenregel (Satz 14.12) folgt dann π π cos0 (x) = sin0 x + · 1 = cos x + = sin(x + π) = − sin(x). 2 2 Somit sind die trigonometrischen Funktionen Sinus und Cosinus auf R differenzierbar mit den Ableitungen sin0 = cos, cos0 = − sin . 225 (6) Wichtige trigonometrische Funktionen sind neben dem Sinus und dem Cosinus noch der Tangens und der Cotangens. Sie werden durch die Formeln sin(x) cos(x) tan(x) := , cot(x) := cos(x) sin(x) definiert. Ihre Definitionsbereiche im Reellen sind die Komplemente der Nullstellenmengen der jeweiligen Nenner, also im Falle des Tangens R \ {(2k + 1) · π2 | k ∈ Z} beziehungsweise im Falle des Cotangens R \ {kπ | k ∈ Z} . Aus der Quotientenregel, den Formeln in (5) und aus der Identität sin2 + cos2 = 1 in Satz 12.14 erhält man 1 cos2 (x) + sin2 (x) = 1 + tan2 (x) = tan (x) = 2 cos (x) cos2 (x) 0 und ebenso cot0 (x) = −1 − cot2 (x) = −1 . sin2 (x) Aus der Differenzierbarkeit einer injektiven Funktion f , deren Ableitung nirgends verschwindet, kann man auf die Differenzierbarkeit und auf den Wert der Ableitung der Umkehrfunktion f −1 schließen. Weil der Graph von f −1 aus dem Graphen von f durch Spiegelung an der Geraden y = x hervorgeht, gilt dasselbe für Tangenten. Daher ist der folgende Satz anschaulich klar. Satz 14.14 (Ableitung der Umkehrfunktion) Es sei I ein echtes Intervall. Die Funktion f : I −→ R sei stetig und streng monoton und im Punkt x0 ∈ I differenzierbar mit f 0 (x0 ) 6= 0. Dann ist die Umkehrfunktion f −1 : f (I) −→ I im Punkt y0 := f (x0 ) differenzierbar, und die Ableitung ist 1 1 = 0 . (f −1 )0 (y0 ) = 0 −1 f (f (y0 )) f (x0 ) Beweis. Da f stetig ist, ist f (I) nach Korollar 10.10 ein Intervall. Wir setzen g := f −1 und c := f 0 (x0 ). Für alle x ∈ I gilt gemäß Satz 14.3 (a) f (x) − f (x0 ) = (c + r(x)) · (x − x0 ) mit einer Funktion r : I −→ R, die im Punkt x0 stetig ist und den Wert r(x0 ) = 0 hat. Nach Voraussetzung gilt c 6= 0, und aus der Injektivität von f folgt sogar c + r(x) 6= 0 für alle x ∈ I. Deshalb folgt 1 x − x0 = für alle x ∈ I \ {x0 } . f (x) − f (x0 ) c + r(x) Für alle y ∈ f (I) folgt daher g(y) − x0 1 g(y) − g(y0 ) = = . y − y0 f (g(y)) − f (x0 ) c + r(g(y)) Da r stetig in x0 und g nach Satz 10.14 stetig auf f (I) ist, ist die auf f (I) definierte Funktion 1 % : y 7→ c + r(g(y)) im Punkt y0 stetig mit dem Wert %(y0 ) = 1c . Es folgt daher, dass die Ableitung g(y) − g(y0 ) 1 1 = lim %(y) = %(y0 ) = = 0 y→y0 y→y0 y − y0 c f (x0 ) existiert. Dies zeigt die Behauptung. g 0 (y0 ) = lim 226 f f −1 Abbildung 33: Ableitung der Umkehrfunktion Bemerkung 14.15 Die Formel in Satz 14.14 für die Ableitung der Umkehrfunktion kann man auch herleiten, indem man die Identität (f ◦ f −1 )(y) = y für alle y ∈ f (I) mithilfe der Kettenregel differenziert. Dabei ergibt sich nämlich f 0 (f −1 (y)) · (f −1 )0 (y) = 1, also (f −1 )0 (y) = 1 f 0 (f −1 (y)) für alle y ∈ f (I). Diese Betrachtung ist eine gute Merkhilfe, aber kein Beweis von Satz 14.14, denn hierbei wird bereits die Differenzierbarkeit von f −1 vorausgesetzt! Beispiel 14.16 (1) Für f (x) := ex ist f −1 (y) = log(y). Aus exp0 = exp und Satz 14.14 folgt log0 (x) = 1 1 1 = = . exp0 (log(x)) exp(log(x)) x Somit ist die Logarithmusfunktion auf ihrem Definitionsbereich ]0, ∞[ differenzierbar mit der Ableitung 1 log0 (x) = . x d (2) Gemäß Beispiel 14.13 gilt dx (xn ) = n · xn−1 für alle n ∈ N. Wir können diese Formel jetzt mithilfe von (1) und der Kettenregel (Satz 14.12) auf beliebige reelle Exponenten anstelle der natürlichen Zahl n verallgemeinern: Es ist d α d 1 α (x ) = (exp(α · log x)) = exp(α · log x) · α · = · xα = α · xα−1 . dx dx x x 227 (3) Das nächste Beispiel belegt, dass man in Satz 14.14 auf die Voraussetzung f 0 (x0 ) 6= 0 nicht verzichten kann: Es sei f (x) := xn für x ∈ [0, ∞[ mit einem n ∈ N. Diese Funktion ist stetig und streng monoton steigend, und sie hat die auf [0, ∞[ definierte Umkehrfunktion √ f −1 : y 7→ n y. Wir setzen nun n ≥ 2 voraus. Dann ist 1 f −1 (y) − f −1 (0) = lim y n −1 = ∞. y→0+ y→0+ y−0 lim Hiernach ist g im Punkt y0 = 0 nicht differenzierbar. Dies liegt daran, dass die Voraussetzung f 0 (x0 ) 6= 0 in Satz 14.14 im Punkt x0 = f −1 (0) = 0 verletzt ist. Geometrisch besagt unser Ergebnis, dass der Graph von f −1 im Punkt (0, 0) eine vertikale Halbtangente hat. (4) Der Sinus hyperbolicus bildet R bijektiv auf sich ab. Die Umkehrfunktion heißt der Areasinus hyperbolicus, und sie wird üblicherweise mit Arsinh := sinh−1 bezeichnet. Wir wollen die Ableitung dieser Funktion berechnen. Weil sinh0 (x) = cosh(x) ≥ 1 für alle reellen x ist, kann man Satz 14.14 in jedem Punkt anwenden. Nutzt man noch die Identität cosh2 − sinh2 = 1 aus Satz 12.14 (3) sowie cosh t ≥ 0 für alle t ∈ R, so folgt 1 1 = Arsinh0 (x) = 0 cosh(Arsinh(x)) sinh (Arsinh(x)) 1 1 , = p =√ 1 + x2 1 + (sinh(Arsinh(x)))2 also d 1 Arsinh(x) = √ dx 1 + x2 für alle x ∈ R. Der hyperbolische Cosinus bildet das Intervall [0, ∞[ streng monoton steigend auf das Intervall [1, ∞[ ab. Die Umkehrfunktion heißt der Areacosinus hyperbolicus und wird mit Arcosh : [1, ∞[−→ [0, ∞[ bezeichnet. Aus Satz 14.14 folgt die Differenzierbarkeit dieser Funktion auf ]1, ∞[, und wie zuvor findet man eine Formel für ihre Ableitung. Als Konsequenz aus dem Resultat über die Ableitung des Logarithmus gewinnen wir eine interessante neue Grenzwertdarstellung der Exponentialfunktion: Korollar 14.17 Für alle x ∈ R gilt lim n→∞ Insbesondere ist 1+ x n = ex . n n 1 lim 1 + = e. n→∞ n 228 Beweis. Für x = 0 ist die Behauptung klar. Daher dürfen wir x 6= 0 annehmen. Nach Beispiel 14.16 (1) ist der Logarithmus differenzierbar mit log0 (1) = 1. Dies bedeutet log(1 + h) = log0 (1) = 1. h→0 h Für alle reellen x 6= 0 folgt hieraus lim log(1 + hx) log(1 + hx) = x · lim = x. h→0 h→0 h hx ! log 1 + nx x n 1+ = exp 1 n n lim Hieraus und aus folgt nun wegen der Stetigkeit der Exponentialfunktion x n lim 1 + = ex für alle x ∈ R. n→∞ n Bemerkung 14.18 Die Exponentialfunktion tritt in natürlicher Weise bei der Zinseszinsrechnung auf: Ein zum Zinssatz q angelegtes und jährlich verzinstes Kapital K wächst nach N Jahren unter Berücksichtigung der Zinseszinsen auf den Betrag K(1 + q)N an. Wenn die Zinsen monatlich oder sogar täglich gut geschrieben und weiter verzinst wer q 12 bezieden, dann ist das Kapital nach einem Jahr bereits auf den Betrag K 1 + 12 q 365 hungsweise K 1 + 365 angewachsen. Kann man durch unbeschränkte Verkleinerung der Zinsintervalle einen beliebig großen Gewinn erzielen? Korollar 14.17 zeigt, dass dies nicht der Fall ist: Bei kontinuierlicher“ Zinsgutschrift beträgt das Kapital nach einem Jahr ” n = Keq . Für kleine“ Zinssätze q ist dies nur unwesentlich mehr als limn→∞ K 1 + nq ” K(1 + q), d.h. als das bei lediglich jährlicher Zinsgutschrift nach einem Jahr vorhandene Kapital. 14.3 Höhere Ableitungen und stetige Differenzierbarkeit Die Ableitung einer differenzierbaren Funktion ist selbst eine Funktion, die man auf Differenzierbarkeit untersuchen kann. Dies führt auf den Begriff der mehrfachen Differenzierbarkeit: Definition 14.19 Es sei eine differenzierbare Funktion f : I −→ R auf einem Intervall I ⊆ R gegeben. Falls die Ableitung f 0 : I −→ R, x 7→ f 0 (x) in einem Punkt x0 ∈ I selbst differenzierbar ist, so nennen wir f 00 (x0 ) := (f 0 )0 (x0 ) die zweite Ableitung von f in x0 . Ist f 0 in jedem Punkt x0 ∈ R differenzierbar, so nennen wir f zweimal differenzierbar. Allgemein definiert man rekursiv die n-te Ableitung f (n) von f als Ableitung von f (n−1) , sofern f (n−1) differenzierbar ist; in diesem Fall sagt man, f sei n-mal differenzierbar. Man nennt f unendlich oft differenzierbar, falls die n-te Ableitung f (n) für alle n ∈ N existiert. Die n-te Ableitung bezeichnet man oft auch mit Für n = 1, 2, 3 schreibt man statt f (n) dn f . dxn meist f 0 , f 00 , f 000 . 229 In vielen unserer Beispiele existiert die Ableitung nicht nur, sondern sie ist sogar eine stetige Funktion. Dies motiviert die folgende Definition: Definition 14.20 Eine Funktion f : I −→ R auf einem Intervall I ∈ R heißt stetig differenzierbar, falls f differenzierbar und die Ableitung f 0 stetig ist. Allgemeiner nennt man f n-mal stetig differenzierbar, falls f n-mal differenzierbar und die n-te Ableitung f (n) stetig ist. Man setzt C(I) = C 0 (I) := {f : I −→ R | f stetig auf I} , C n (I) := {f : I −→ R | f n-mal stetig differenzierbar auf I} , C ∞ (I) := {f : I −→ R | f unendlich oft stetig differenzierbar auf I} . Wenn man in den Sätzen 14.11, 14.12 und 14.14 statt Differenzierbarkeit sogar stetige Differenzierbarkeit der Funktionen f und g (auf dem gesamten Definitionsintervall) voraussetzt, so kann man schließen, dass die auftretenden Verknüpfungen f + g, f · g, g ◦ f , f −1 etc. ebenfalls stetig differenzierbar sind. Denn die Stetigkeit der Ableitungen dieser Funktionen ergibt sich aus den Rechenregeln für stetige Funktionen. Die differenzierbaren Funktionen, die uns bisher begegnet waren, waren allesamt stetig differenzierbar. Dies sollte nicht zu der Annahme verführen, Ableitungen seien grundsätzlich stetig; dass es sich hierbei um einen Fehlschluss handelt, illustrieren die folgenden beiden Beispiele: Beispiel 14.21 (1) Wir definieren f : R −→ R durch ( f (x) := x2 sin x1 für x 6= 0, 0 für x = 0. Aus den vorangegangenen Rechenregeln und Beispielen erhält man, dass f auf R \ {0} differenzierbar ist mit 1 1 1 1 1 0 2 f (x) = 2x · sin + x · cos · − 2 = 2x · sin − cos x x x x x für alle x 6= 0. Für alle reellen x 6= 0 ist | sin(x)| ≤ 1, also |x · sin x1 | ≤ |x|. Daher existiert der Grenzwert f (x) − f (0) f (x) 1 = lim = lim x · sin = 0, x→0 x→0 x x→0 x−0 x f 0 (0) = lim d.h. f ist auch in x = 0 differenzierbar mit f 0 (0) = 0. Somit ist f auf ganz R differenzierbar mit 2x · sin x1 − cos x1 , falls x 6= 0, 0 f (x) = 0, falls x = 0. Für x 6= 0 hat der erste Term in der Formel für f 0 (x) den Grenzwert 0 für x → 0, während der zweite Term cos x1 in jeder punktierten Umgebung von 0 jeden Wert 230 0.00006 0.00004 0.00002 -0.01 -0.005 0.005 0.01 -0.00002 -0.00004 Abbildung 34: Das Verhalten von x 7→ x2 sin x1 nahe bei 0 zwischen −1 und 1 annimmt. Daher existiert der Grenzwert von f 0 (x) für x → 0 nicht, und somit ist die Ableitung f 0 im Punkt 0 unstetig: Sie hat dort eine Oszillationsstelle. Abbildung 34 zeigt den Graphen von f in einer kleinen“ Umgebung von 0. Der zu” gehörige Graph von f 0 sieht fast genauso aus wie der uns aus Beispiel 9.13 (3) wohlbekannte Graph von x 7→ sin x1 . (2) Stetige reellwertige Funktionen auf Kompakta sind beschränkt; genauer: Sie haben dort ein Maximum und ein Minimum (Korollar 10.3). Wie wir soeben gesehen haben, müssen Ableitungen nicht stetig sein. Es gibt daher auch keinen Grund anzunehmen, dass Ableitungen auf Kompakta beschränkt sind. Ein Gegenbeispiel erhält man, indem man die Funktion aus (1) leicht variiert: Es sei ( f (x) := x2 sin x12 für x ∈ R \ {0} , 0 für x = 0. Wie in (1) sieht man, dass f auf ganz R differenzierbar ist mit 2x · sin x12 − x2 · cos x12 , falls x 6= 0 0 f (x) = 0, falls x = 0 Hieraus sieht man sofort die Unbeschränktheit von f 0 auf jedem kompakten Intervall [−ε; ε] mit ε > 0. Wir werden später (Beispiel 22.13) zeigen, dass der Graph von f auf jedem solchen Intervall unendliche Länge hat. 231 200 0.1 0.05 100 -0.4 -0.2 0.2 0.4 -0.05 -0.3 -0.2 -0.1 0.1 0.2 0.3 -0.1 -100 -0.15 -200 -0.2 Abbildung 35: Die Graphen von f (x) := x2 sin x12 und f 0 nahe bei 0 Ähnlich wie in Beispiel 14.21 kann man Funktionen f konstruieren, die überall differenzierbar sind, deren Ableitung f 0 aber viele“ Unstetigkeitsstellen besitzt. Allerdings kann man zeigen, ” dass f 0 nicht überall unstetig sein kann (vgl. [Gelbaum/Olmsted, S. 53]). Abbildung 36: Zu den Funktionen aus Beispiel 14.21 (Zeichnung: Jens Jordan) 232 15 Die Mittelwertsätze der Differentialrechnung und Folgerungen daraus Was lässt sich aus der Differenzierbarkeit einer Funktion f und aus Eigenschaften der Ableitung f 0 über den Verlauf von f selber folgern? Der Inhalt dieses Kapitels besteht aus verschiedenen Antworten auf diese Frage. Zuerst begründen wir eine wohlbekannte Methode zur Ermittlung von Extremalstellen von Funktionen. Das betreffende Resultat über stetige Funktionen in Korollar 10.3 trifft nur eine Existenzaussage. 15.1 Lokale Extrema und stationäre Punkte Definition 15.1 Es sei D eine Teilmenge eines metrischen Raumes, x0 ∈ D und f : D −→ R eine reellwertige Funktion auf D. Die Funktion f hat ein lokales Maximum in x0 , wenn es ein δ > 0 gibt mit f (x) ≤ f (x0 ) für alle x ∈ D ∩ Uδ (x0 ). Die Funktion f hat ein striktes lokales Maximum in x0 , wenn es ein δ > 0 gibt mit f (x) < f (x0 ) für alle x ∈ D ∩ (Uδ (x0 ) \ {x0 }). Analog definiert man ein lokales Minimum bzw. striktes lokales Minimum von f in x0 . Die Funktion f hat ein (striktes) lokales Extremum in x0 , falls sie in x0 ein (striktes) lokales Maximum oder ein (striktes) lokales Minimum hat. Die Stelle x0 nennt man in diesen Fällen eine (strikte) lokale Extremal- bzw. Maximal- bzw. Minimalstelle. Satz 15.2 (Notwendige Bedingung für lokale Extrema) Es sei I ein Intervall und x0 ein innerer Punkt von I. Die Funktion f : I −→ R habe im Punkt x0 ein lokales Extremum und sie sei in x0 differenzierbar. Dann gilt f 0 (x0 ) = 0. Wir geben zwei Beweise für diesen wichtigen Satz: Beweis 1. O.B.d.A. dürfen wir annehmen, dass x0 ein lokales Maximum ist. Deshalb und weil x0 ein innerer Punkt von I ist, existiert dann ein δ > 0 mit Uδ (x0 ) ⊆ I und f (x) ≤ f (x0 ) für alle x ∈ Uδ (x0 ). Es folgt f (x) − f (x0 ) x − x0 ( ≥0 für alle x ∈ Uδ (x0 ) mit x < x0 , ≤0 für alle x ∈ Uδ (x0 ) mit x > x0 . Da f differenzierbar ist, können wir hierin den Grenzübergang x → x0 ausführen und erhalten einerseits f (x) − f (x0 ) f 0 (x0 ) = lim ≥ 0, x→x0 − x − x0 andererseits f (x) − f (x0 ) f 0 (x0 ) = lim ≤ 0, x→x0 + x − x0 so dass f 0 (x0 ) = 0 sein muss. 233 Beweis 2. Wir setzen c := f 0 (x0 ). Nach Satz 14.3 (a) gilt f (x) − f (x0 ) = (c + r(x)) · (x − x0 ) für alle x ∈ I, worin r : I −→ R eine Funktion ist, die im Punkt x0 stetig ist und den Wert r(x0 ) = 0 hat. Wir nehmen an, es wäre c 6= 0. Nach dem Permanenzprinzip in Lemma 9.5 gibt es dann eine Umgebung Uδ (x0 ) von x0 , so dass die Funktion x 7→ c + r(x) auf Uδ (x0 ) ∩ I entweder nur positive oder nur negative Werte annimmt. Da x0 ein innerer Punkt von I ist, dürfen wir Uδ (x0 ) ⊆ I annehmen. Die obige Gleichung für f zeigt dann, dass die auf der Umgebung Uδ (x0 ) von x0 definierte Funktion x 7→ f (x) − f (x0 ) im Punkt x0 ihr Vorzeichen wechselt; denn das trifft für den Faktor x − x0 zu, während der Faktor c + r(x) keinen Vorzeichenwechsel hat. Somit ist x0 keine lokale Extremalstelle von f . Dies ist ein Widerspruch zur Voraussetzung. Also muss c = 0 sein. Wegen Satz 15.2 verdienen die Nullstellen der Ableitung einer Funktion besondere Aufmerksamkeit. Definition 15.3 Es sei I ein Intervall. Ein innerer Punkt x0 von I heißt ein kritischer Punkt oder eine stationäre Stelle einer Funktion f : I −→ R, falls f in x0 differenzierbar ist und f 0 (x0 ) = 0 gilt. Bemerkung 15.4 (1) Dass die Bedingung f 0 (x0 ) = 0 in Satz 15.2 nur notwendig, aber nicht hinreichend für lokale Extremalstellen ist, illustriert das Beispiel der durch f (x) := x3 für x ∈ R definierten Funktion f : R −→ R: Diese hat in x0 = 0 eine stationäre Stelle, aber kein lokales Extremum. (2) Warnung: Das notwendige Kriterium in Satz 15.2 ist nur auf innere Punkte des Definitionsbereichs anwendbar. Extrema an den Rändern des Definitionsbereichs lassen sich grundsätzlich nicht dadurch charakterisieren, dass die Ableitung verschwindet. Dies zeigen schon banale Beispiele: So hat die Funktion f : [0, 1] −→ R mit f (x) := x ein lokales (sogar globales) Minimum in x = 0 und ein lokales (sogar globales) Maximum in x = 1, aber an keiner dieser Stellen verschwindet die Ableitung. Bei der Suche nach Extrema einer differenzierbaren Funktion genügt es daher i.d.R. nicht, nur ihre kritischen Punkte zu betrachten; man muss die Randpunkte des Definitionsbereichs (sofern es solche gibt!) separat untersuchen. Diese eigentlich selbstverständliche Feststellung wird leider bei Anwendungen der Differentialrechnung in anderen Disziplinen, insbesondere in den Wirtschaftswissenschaften, immer wieder außer acht gelassen: Dort werden Extremalstellen oft unreflektiert durch das Nullsetzen der Ableitung beschrieben, was zu mitunter gravierenden Fehlschlüssen führen kann. Siehe hierzu ausführlich z.B. [Grahl/Kümmel]. Trotzdem hat der Satz eine große praktische Bedeutung. Er reduziert nämlich die Extremwertsuche bei differenzierbaren Funktionen f : I −→ R auf die Berechnung der Werte von f in den Randpunkten von I und in den Nullstellen der Ableitung f 0 in inneren Punkten von I. In günstigen Fällen sind nur wenige, leicht zu findende Funktionswerte zu vergleichen. Dies ist in dem folgenden Korollar näher ausgeführt. Es betrifft stetige Funktionen auf kompakten Intervallen, wofür Korollar 10.3 die Existenz eines (globalen) Maximums und Minimums garantiert: 234 Korollar 15.5 Es sei I = [a, b] ein echtes kompaktes Intervall. Die Funktion f : I −→ R sei stetig und auf ]a, b[ differenzierbar. Auf ]a, b[ habe f nur endlich viele stationäre Stellen x1 , x2 , . . . , xm . Dann ist das (absolute) Maximum von f auf I gleich dem Maximum der endlich vielen Zahlen f (a), f (b), f (x1 ), f (x2 ), . . . , f (xm ), und das (absolute) Minimum von f auf I ist gleich dem Minimum dieser Zahlen. Beispiel 15.6 (1) Korollar 15.5 hat eine Vielzahl an praktischen Anwendungen. Die folgende ist [Heuser 1, S. 304] entnommen: Aus einem Baumstamm mit kreisförmigem Querschnitt und Durchmesser d soll ein Balken mit rechteckigem Querschnitt und mit maximaler Tragfähigkeit T herausgeschnitten werden. In der Statik zeigt man, dass T proportional zur Grundlinie g und zum Quadrat der Höhe h des Querschnitts ist. Die Proportionalitätskonstanten dürfen wir außer acht lassen und daher T = gh2 annehmen. Hierbei hängen zudem g und h durch die Beziehung g 2 + h2 = d2 (aus dem Satz des Pythagoras!) zusammen. Es ist also das Maximum der Funktion T : g 7→ gh2 = g(d2 − g 2 ) auf dem kompakten Intervall [0, d] zu bestimmen. Die Ableitung ist T 0 (g) = d2 − 3g 2 . √ Hiernach ist g0 = d/ 3 der einzige kritische Punkt der Funktion. Wegen T (0) = T (d) = 0 und T (g0 ) > 0 folgt aus Korollar 15.5, dass in g0 tatsächlich das Maximum angenommen wird. d h g Abbildung 37: Zu Beispiel 15.6 (1) (2) In Korollar 15.5 hatten wir vorausgesetzt, dass f nur endlich viele stationäre Stellen in ]a, b[ hat. In praktischen Anwendungen ist diese Voraussetzung in aller Regel erfüllt. Jedoch kann eine differenzierbare Funktion auf einem beschränkten (und sogar auf einem kompakten) Intervall durchaus unendlich viele stationäre Stellen besitzen. Ein Beispiel hierfür liefert die Funktion f (x) := x2 sin x1 aus Beispiel 14.21 (1), die im Intervall [−1, 1] unendlich viele lokale Maxima und unendlich viele lokale Minima hat. Man kann dieses Beispiel so variieren, dass f sogar stetig differenzierbar ist, indem man nämlich z.B. f (x) := x3 sin x1 setzt: Es ist dann leicht nachzuprüfen, dass f 0 auch in x = 0 stetig ist mit f 0 (0) = 0. 235 15.2 Die beiden Mittelwertsätze Eine Konsequenz aus Satz 15.2 von großer Tragweite sind die Mittelwertsätze. Um zu illustrieren, worum es dabei geht, stellen wir uns vor, dass wir eine Radtour durch eine bergige Gegend unternehmen. Falls der Zielort die gleiche Höhe über dem Meeresspiegel hat wie der Ausgangsort, so kann es nicht auf der ganzen Strecke nur bergauf oder nur bergab gegangen sein, sondern an mindestens einer Stelle muss der Weg horizontal verlaufen (wenn man von dem Fall absieht, dass der Weg an einer Stelle eine Spitze hat, also durch eine an dieser Stelle nicht differenzierbare Funktion beschrieben wird.) Der Mittelwertsatz kann als abstrakte Formulierung dieser Erfahrungstatsache angesehen werden. In dem folgenden Satz von M. Rolle (1652 – 1719) ist alles Wesentliche bereits enthalten. Satz 15.7 (Satz von Rolle) Es sei I = [a, b] ein echtes kompaktes Intervall. Die Funktion f : I −→ R sei stetig, auf ]a, b[ differenzierbar, und es sei f (a) = f (b). Dann gibt es einen Punkt x0 ∈]a, b[ mit f 0 (x0 ) = 0. Beweis. Für konstante Funktionen f ist die Behauptung mit beliebigem x0 in ]a, b[ gültig. Nun sei f nicht konstant. Dann gibt es ein x0 ∈]a, b[ mit f (x0 ) > f (a) = f (b) oder f (x0 ) < f (a) = f (b). Daher wird das Maximum oder das Minimum von f auf [a, b] (deren Existenz wegen der Stetigkeit von f aus Korollar 10.3 folgt) in einem x0 ∈]a, b[ angenommen. Also hat f ein lokales Extremum x0 in ]a, b[. Wegen Satz 15.2 gilt hierbei f 0 (x0 ) = 0. Satz 15.8 (Mittelwertsatz der Differentialrechnung) Es sei I = [a, b] ein echtes kompaktes Intervall. Die Funktion f : I −→ R sei stetig und auf ]a, b[ differenzierbar. Dann gibt es einen Punkt x0 ∈]a, b[ mit f 0 (x0 ) = f (b) − f (a) . b−a Die Behauptung besagt geometrisch, dass die Tangente an den Graphen von f in einem geeigneten Punkt parallel zur Sekante durch die Punkte (a, f (a)) und (b, f (b)) ist. Die Parallelität kann auch in mehreren Punkten eintreten. Ebenso wie im Fall des Satzes von Rolle – der ein Spezialfall des Mittelwertsatzes ist – ist die Behauptung anschaulich klar, und sie kann leicht aus diesem Spezialfall gefolgert werden. Beweis. Wir setzen F (x) := f (x) − f (b) − f (a) · (x − a) b−a für alle x ∈ I. Dann gilt F (b) = F (a) = f (a), und F erfüllt alle Voraussetzungen in Satz 15.7. Danach gibt es also ein x0 ∈ I mit F 0 (x0 ) = 0. Es folgt f 0 (x0 ) = f (b) − f (a) . b−a 236 • • • • a • x0 • b Abbildung 38: Zum Mittelwertsatz der Diffferentialrechnung Beispiel 15.9 (1) Der Satz von Rolle und der Mittelwertsatz verlieren ihre Gültigkeit, wenn f auf [a, b] zwar stetig ist, die Ableitung f 0 aber nicht in jedem Punkt existiert: Beispielsweise ist die Betragsfunktion f (x) := |x| auf [−1, 1] stetig und auf [−1, 1] \ {0} differenzierbar mit f (1) = f (−1), aber es gibt kein x0 ∈ [−1, 1] \ {0} mit f 0 (x0 ) = 0. (2) Der Mittelwertsatz besagt, dass (unter den dort genannten Voraussetzungen) jede Sekantensteigung auch als Tangentensteigung auftritt. Die Umkehrung gilt nicht, wie wir in den Übungen sehen werden. (3) In [Behrends, S. 250] findet sich folgende Illustration des Mittelwertsatzes: Auf einem 20 km langen Autobahnstück gelte durchweg eine Geschwindigkeitsbegrenzung auf 100 Kilometer pro Stunde. Wenn jemand am Beginn und am Ende dieses Autobahnstücks beobachtet wurde und sich dadurch zweifelsfrei feststellen lässt, dass er die 20 km in 10 Minuten zurückgelegt hat, so muss er irgendwo unterwegs eine Geschwindigkeitsübertretung begangen haben – auch wenn man aus diesen Informationen nicht ermitteln kann, wo genau zu schnell gefahren wurde. Korollar 15.10 Es sei I = [a, b] ein echtes kompaktes Intervall. (a) Die Funktion f : I −→ R sei stetig und auf ]a, b[ differenzierbar. Auf ]a, b[ sei die Ableitung f 0 konstant 0. Dann ist f konstant. (b) Die Funktion f, g : I −→ R seien stetig und auf ]a, b[ differenzierbar mit f 0 = g 0 . Dann gibt es eine Konstante c ∈ R mit f = c + g. Beweis. (a) Wir nehmen an, f wäre nicht konstant. Dann gibt es Punkte x1 , x2 ∈ [a, b] mit x1 < x2 und f (x1 ) 6= f (x2 ). Nach Satz 15.8 gibt es dann ein x0 ∈]x1 , x2 [ mit f 0 (x0 ) = f (x2 ) − f (x1 ) 6= 0, x2 − x1 im Widerspruch zur Voraussetzung. (b) Dies folgt sofort aus (a), angewandt auf die Funktion f − g anstelle von f . 237 Auch die Aussage in (a) ist anschaulich evident: Wenn die Tangente an den Graphen von f überall horizontal ist, dann verläuft auch f selber horizontal. Das Ergebnis in (b) lässt sich wie folgt interpretieren: Eine differenzierbare Funktion f auf einem Intervall I ist durch ihre Ableitung f 0 und einen einzigen Wert f (α) vollständig festgelegt. Als weitere Folgerung aus dem Mittelwertsatz können wir jetzt auch zeigen, dass stetig differenzierbare Funktionen auf kompakten Intervallen dehnungsbeschränkt (Lipschitz-stetig) sind: Korollar 15.11 Es sei f : I −→ R eine stetig differenzierbare Funktion auf einem kompakten Intervall I. Dann ist f dehnungsbeschränkt. Als Dehnungsschranke kann man L := maxx∈I |f 0 (x)| wählen. Beweis. Wegen der Stetigkeit von |f 0 | und der Kompaktheit von I existiert nach Korollar 10.3 das Maximum L := max |f 0 (x)|. x∈I Es seien x, y ∈ I mit o.E. x < y gegeben. Nach dem Mittelwertsatz gibt es ein ξ ∈]x, y[ mit f (x) − f (y) = f 0 (ξ). x−y Damit folgt |f (x) − f (y)| = |f 0 (ξ)| · |x − y| ≤ L · |x − y|. Dies gilt für alle x, y ∈ I. Also ist f dehnungsbeschränkt mit Dehnungsschranke L. Das folgende Korollar gibt einen Überblick über die Zusammenhänge zwischen einigen wichtigen Begriffen: Korollar 15.12 Es sei f : I −→ R eine Funktion auf einem reellen Intervall I. Dann gelten die folgenden Implikationen: f stetig differenzierbar, I kompakt w w f dehnungsbeschränkt w w f gleichmäßig stetig w ~ w w w, falls I kompakt f stetig Beweis. Dies ist eine Zusammenfassung der Ergebnisse aus Satz 13.31, Proposition 13.33 und Korollar 15.11. 238 Beispiel 15.13 Dass man aus der gewöhnlichen Differenzierbarkeit nicht auf Dehnungsbeschränktheit auf Kompakta schließen kann, zeigen Funktionen mit auf Kompakta unbeschränkter Ableitung, wie etwa f (x) := x2 sin x12 (Beispiel 14.21 (2)). Bereits in Beispiel 13.34 hatten wir ein Beispiel einer gleichmäßig stetigen, aber nicht dehnungsbeschränkten (und in x = 0 nicht differenzierbaren) Funktion betrachtet: die Wurzelfunktion √ f : [0, ∞[−→ R, f (x) := x. Diese ist zugleich ein Beispiel dafür, dass man in Korollar 15.11 nicht auf die Kompaktheitsvoraussetzung verzichten kann: f ist auf ]0, 1[ stetig differenzierbar, aber dort nicht dehnungsbeschränkt. Satz 15.14 (Verallgemeinerter Mittelwertsatz der Differentialrechnung) Es sei I = [a, b] ein echtes kompaktes Intervall. Die Funktionen f : I −→ R und g : I −→ R seien stetig und auf ]a, b[ differenzierbar. Für alle x ∈ ]a, b[ sei g 0 (x) 6= 0. Dann ist g(a) 6= g(b), und es gibt ein x0 ∈ ]a, b[ mit f (b) − f (a) f 0 (x0 ) = . g 0 (x0 ) g(b) − g(a) Für g(x) = x erhält man hieraus den gewöhnlichen Mittelwertsatz (Satz 15.8) als Spezialfall zurück. Beweis. Wäre g(a) = g(b), dann gäbe es nach dem Satz von Rolle (Satz 15.7) ein t ∈ I mit g 0 (t) = 0, im Widerspruch zur Voraussetzung. Also ist g(a) 6= g(b) und der in der Behauptung auftretende Nenner somit von Null verschieden. Wir setzen F (x) := f (x) − f (b) − f (a) · (g(x) − g(a)) g(b) − g(a) für alle x ∈ I. Dann gilt F (a) = F (b) = f (a), und F erfüllt alle Voraussetzungen im Satz von Rolle (Satz 15.7). Also gibt es ein x0 ∈ ]a, b[ mit F 0 (x0 ) = 0. Es folgt f 0 (x0 ) = 15.3 f (b) − f (a) 0 · g (x0 ) . g(b) − g(a) Monotone Funktionen Aus den Mittelwertsätzen folgt ein Kriterium für die Monotonie differenzierbarer Funktionen. Satz 15.15 (Monotone Funktionen) Es sei I = [a, b] ein echtes kompaktes Intervall. Die Funktion f : I −→ R sei stetig und auf ]a, b[ differenzierbar. Dann gelten die folgenden Aussagen: (1) Die Funktion f ist genau dann monoton steigend, wenn f 0 (x) ≥ 0 für alle x ∈ ]a, b[ ist. (2) Die Funktion f ist genau dann streng monoton steigend, wenn f 0 (x) ≥ 0 für alle x ∈ ]a, b[ gilt und kein echtes Intervall J = ]α, β[ ⊆ I existiert mit f 0 (x) = 0 für alle x ∈ J. Analog lassen sich (streng) monoton fallende Funktionen charakterisieren. 239 Beweis. (1) ” =⇒ “: Die Funktion f sei monoton steigend. Für alle x, y ∈ I mit x 6= y ist dann f (y) − f (x) ≥ 0. y−x Führt man hierin den Grenzübergang y → x aus, so folgt aus der Definition der Ableitung f 0 (x) ≥ 0 für alle x ∈ ]a, b[. ⇐=“: Jetzt wird f 0 (x) ≥ 0 für alle x ∈ ]a, b[ vorausgesetzt. Es seien Punkte u, v ∈ I ” mit u < v gegeben. Nach dem Mittelwertsatz (Satz 15.8) gibt es dann ein t ∈ ]u, v[ mit f (v) − f (u) = f 0 (t) · (v − u), und wegen f 0 (t) ≥ 0 folgt f (v) − f (u) ≥ 0, also f (u) ≤ f (v). Demnach ist f monoton steigend. (2) =⇒ “: Es sei f streng monoton steigend. Aus (1) folgt dann insbesondere f 0 (x) ≥ 0 ” für alle x ∈ ]a, b[. Wir nehmen nun an, für gewisse α und β mit a ≤ α < β ≤ b und alle x ∈ J = ]α, β[ sei f 0 (x) = 0. Nach Korollar 15.10 ist f dann auf dem Intervall [α, β] konstant, im Widerspruch zur strengen Monotonie von f . Also gibt es kein echtes Intervall J = ]α, β[ ⊆ I mit f 0 (x) = 0 für alle x ∈ J. ⇐=“: Jetzt setzen wir voraus, dass f 0 (x) ≥ 0 für alle x ∈ ]a, b[ gilt und dass kein ” echtes Intervall J = ]α, β[ ⊆ I existiert mit f 0 (x) = 0 für alle x ∈ J. Nach (1) ist dann f jedenfalls monoton steigend. Wäre f nicht streng monoton steigend, so gäbe es Zahlen α und β mit a ≤ α < β ≤ b und f (α) = f (β), und es folgt sogar f (x) = f (α) für alle x ∈ [α, β]. Also ist f auf dem Intervall [α, β] konstant. Es folgt f 0 (x) = 0 für alle x ∈ ]α, β[, im Widerspruch zur Voraussetzung. Also ist f streng monoton steigend. Wenn man diese Ergebnisse auf −f anstelle von f anwendet, erhält man analoge Charakterisierungen für (streng) monoton fallende Funktionen. Bemerkung 15.16 (1) Das Kriterium in Teil (2) des Satzes erscheint etwas schwerfällig. Für die meisten praktischen Anwendungen genügt folgende schwächere, aber leichter zu merkende Aussage: Wenn (unter den Voraussetzungen von Satz 15.15) f 0 (x) > 0 für alle x ∈ ]a, b[ gilt, so ist f streng monoton steigend. Man muss sich aber bewusst bleiben, dass die Umkehrung hiervon nicht richtig ist: Auch streng monoton steigende Funktionen können einzelne Ableitungsnullstellen haben (wie es etwa bei f (x) := x3 in x = 0 der Fall ist) – es dürfen nur nicht zu viele“ ” sein. (2) Setzt man in der Situation des Satzes voraus, dass f sogar auf dem kompakten Intervall [a, b] (statt nur auf ]a, b[) differenzierbar ist, so kann man auch in (1) und (2) überall ]a, b[ durch [a, b] ersetzen. Der Beweis bleibt praktisch wörtlich gültig. 240 Beispiel 15.17 (1) Aus Beispiel 14.13 (5) und Satz 12.17 folgt sin0 (x) = cos(x) > 0 für − π π <x< . 2 2 Daher ist der Sinus auf dem Intervall [− π2 , π2 ] streng monoton steigend. Er bildet dieses Intervall bijektiv auf das Intervall [−1, 1] ab. Die Umkehrfunktion h π πi arcsin : [−1, 1] −→ − , 2 2 heißt der Arcussinus. Nach Satz 14.14 ist der Arcussinus auf dem Intervall ] − 1, 1[ differenzierbar, und für die Ableitung berechnet man arcsin0 (x) = 1 1 = sin (arcsin(x)) cos(arcsin(x)) für alle x ∈ ] − 1, 1[. 0 Für diese x ist − π2 < arcsin(x) < π2 , also cos(arcsin(x)) > 0. Mit dem trigonometri” schen Pythagoras“ folgt daher 1 1 =√ arcsin0 (x) = p . 2 1 − x2 1 − (sin(arcsin(x))) arcsin sin • −1 • − π2 • 1 • π 2 Abbildung 39: Sinus und Arcussinus (2) Aus cos0 (x) = − sin(x) < 0 für 0 < x < π folgt, dass der Cosinus auf [0, π] streng monoton fällt. Die Umkehrfunktion arccos : [−1, 1] −→ [0, π] heißt der Arcuscosinus. Wie in (1) findet man arccos0 (x) = − √ 1 1 − x2 241 für − 1 < x < 1. (3) In Beispiel 14.13 (6) wurde der Tangens tan = sin cos eingeführt. Er ist eine ungerade Funktion, denn der Sinus im Zähler ist eine ungerade und der Cosinus im Nenner eine gerade Funktion. Auf dem Intervall [0, π2 ] steigt der Sinus streng monoton von 0 auf 1, und der Cosinus fällt streng monoton von 1 auf 0. Deshalb bildet der Tangens das Intervall [0, π2 [ streng monoton steigend auf das Intervall [0, ∞[ ab. Weil die Funktion zudem ungerade ist, erhält man eine streng monoton steigende bijektive Abbildung i π πh tan : − , −→ R. 2 2 Die Umkehrfunktion i π πh arctan : R −→ − , 2 2 heißt der Arcustangens. Er ist differenzierbar, und da nach der Quotientenregel tan0 = cos2 + sin2 = 1 + tan2 cos2 gilt, erhält man für alle x ∈ R arctan0 (x) = 1 1 1 = = . 2 tan (arctan(x)) 1 + (tan(arctan(x))) 1 + x2 0 tan π/2 arctan − π2 π 2 −π/2 Abbildung 40: Tangens und Arcustangens Im Alltag treten der Tangens und Arcustangens u.a. bei Steigungsangaben auf Verkehrsschildern in Erscheinung: Eine Steigung von z.B. 15% bedeutet einen Höhenunterschied von 15 Metern pro 100 Metern horizontalem Abstand. Der zugehörige Steigungswinkel ist dann arctan(0.15). Insbesondere bedeuten 100% Steigung einen Steigungswinkel von arctan(1) = π4 = 45◦ ; der Wert für arctan(1) ergibt sich hierbei wie folgt: Weil der Cosinus gerade ist und wegen Satz 12.20 (2) gilt π π π π π cos = cos − = sin − + = sin . 4 4 4 2 4 242 Daher ist tan π4 = 1 und somit arctan(1) = π4 . Mit dem Tangens wurde auch der Cotangens eingeführt. Er bildet das Intervall ]0, π[ streng monoton fallend auf R ab. Für die Ableitung der als Arcuscotangens bezeichneten Umkehrfunktion arccot : R −→]0, π[ erhält man wie zuvor arccot0 (x) = − 1 . 1 + x2 (4) Üblicherweise stellt man sich differenzierbare Funktionen mit strikten lokalen Minima so vor, dass sie in einem gewissen Intervall links von der Minimalstelle streng monoton fallen und in einem gewissen Intervall rechts davon streng monoton steigen. Diese Vorstellung ist unzutreffend, wie wir anhand der Funktion ( 2 für x ∈ R \ {0} , x 2 + sin x1 f (x) := 0 für x = 0 illustrieren wollen (Abbildung 41). Wegen 2 + sin x1 ≥ 1 für alle x 6= 0 ist f (x) ≥ x2 > 0 = f (0) für alle x 6= 0, so dass f in x = 0 ein striktes lokales (sogar globales) Minimum besitzt. Klar ist, dass f differenzierbar auf R \ {0} ist, und aus der Produkt- und Kettenregel folgt für alle x 6= 0 1 1 1 1 1 0 2 f (x) = 2x · 2 + sin + x · cos · − 2 = 2x · 2 + sin − cos . x x x x x Aber auch in x = 0 ist f differenzierbar; es ist nämlich f (x) − f (0) 1 = x · 2 + sin für alle x 6= 0, x−0 x und hierbei ist stets 2 + sin x1 ≤ 3, so dass der Grenzwert f (x) − f (0) =0 x→0 x−0 f 0 (0) = lim existiert. Insgesamt ist f also differenzierbar auf R mit ( 1 2x · 2 + sin − cos x1 für alle x 6= 0, x 0 f (x) = 0 für x = 0. Gäbe es ein δ > 0, so dass f im Intervall ]0, δ[ monoton steigt, so würde f 0 (x) ≥ 0 für alle x ∈ ]0, δ[ gelten. Es ist jedoch 1 1 2 0 f = · (2 + sin(2nπ)) − cos(2nπ) = −1<0 2nπ nπ nπ 1 1 0 für alle n ∈ N, und es gibt ein n0 ∈ N mit 2n0 π ∈]0, δ[, wofür dann also f 2n0 π < 0 ist. Dieser Widerspruch zeigt, dass f in keinem Intervall ]0, δ[ monoton steigt. Analog folgt, dass f in keinem Intervall ] − δ, 0[ mit δ > 0 monoton fällt. 243 0.012 0.25 0.01 0.2 0.008 0.15 0.006 0.1 0.004 0.05 -0.4 -0.2 0.002 0.2 0.4 -0.1 -0.05 0.05 0.1 0.00025 0.0002 0.00015 0.0001 0.00005 -0.01 -0.005 0.005 0.01 Abbildung 41: Die Funktion f (x) := x2 2 + sin x1 nahe bei 0 Dieser Argumentation liegt folgende etwas anschaulichere Überlegung zugrunde: In dem Ausdruck f 0 (x) = 2x · 2 + sin x1 − cos x1 ist für x nahe“ bei 0 der Term − cos x1 der ” bestimmende, während 2x · 2 + sin x1 kaum ins Gewicht fällt. Nun oszilliert aber cos x1 bekanntlich für jedes δ > 0 in ]0; δ[ unendlich oft zwischen −1 und +1, d.h. in jedem solchen Intervall wechselt das Verhalten von f unendlich oft zwischen monoton fallend und monoton steigend hin und her. 15.4 Konvexe Funktionen Eine reellwertige Funktion f wird konvex genannt, wenn ihr Graph in jedem Intervall [a, b] unterhalb der Sekante durch die Punkte (a, f (a)) und (b, f (b)) verläuft. Da diese Sekante durch λ 7→ (λ · a + (1 − λ)b, λ · f (a) + (1 − λ) · f (b)) mit λ ∈ [0, 1] parametrisiert wird, lässt sich die angegebene Bedingung folgendermaßen präzisieren: 244 a λ · a + (1 − λ) · b b Abbildung 42: Strenge Konvexität Definition 15.18 Es sei I ein echtes Intervall. Eine Funktion f : I −→ R heißt konvex, falls für alle a, b ∈ I und alle λ ∈ ]0, 1[ die Ungleichung f (λ · a + (1 − λ) · b) ≤ λ · f (a) + (1 − λ) · f (b) gilt. Sie heißt streng konvex, falls für alle a, b ∈ I und alle λ ∈ ]0, 1[ f (λ · a + (1 − λ) · b) < λ · f (a) + (1 − λ) · f (b) gilt. Weiter heißt f konkav bzw. streng konkav, falls −f konvex bzw. streng konvex ist. Eine einfache Folgerung aus der Definition ist die Jensensche Ungleichung: Lemma 15.19 (Jensensche Ungleichung) Es sei f : I −→ R eine konvexe Funktion auf dem echten Intervall I, n ∈ N, und es seien x1 , . . . , xn ∈ I, λ1 , . . . , λn ≥ 0 mit λ1 + · · · + λn = 1. Dann gilt f (λ1 x1 + . . . λn xn ) ≤ λ1 f (x1 ) + · · · + λn f (xn ). Hierbei bezeichnet man einen Ausdruck der Form λ1 x1 + · · · + λn xn mit λ1 , . . . , λn ≥ 0 und λ1 +· · ·+λn = 1 als Konvexkombination der x1 , . . . , xn . Setzt man M := max {x1 , . . . , xn } und m := min {x1 , . . . , xn }, so ist offensichtlich m = (λ1 + · · · + λn ) · m ≤ λ1 x1 + · · · + λn xn ≤ (λ1 + · · · + λn ) · M = M. Daher liegen mit x1 , . . . , xn auch alle Konvexkombinationen der xj im Intervall I. Dies stellt sicher, dass in der Situation von Lemma 15.19 der Funktionswert f (λ1 x1 + · · · + λn xn ) wohldefiniert ist. Beweis. Aufgabe 9.1 245 Auch die folgende Umformulierung der Definition konvexer Funktionen ist oftmals nützlich. Lemma 15.20 Es sei I ein echtes Intervall. Eine Funktion f : I −→ R ist genau dann konvex, wenn für alle a, b, t ∈ I gilt: a<t<b =⇒ f (t) − f (a) f (b) − f (t) ≤ . t−a b−t Falls f konvex ist, so gilt für alle a, b, t ∈ I genauer a<t<b =⇒ f (b) − f (a) f (b) − f (t) f (t) − f (a) ≤ ≤ . t−a b−a b−t Analoge Aussagen gelten für streng konvexe Funktionen mit <“ anstelle von ≤“. ” ” Interpretiert man die hierbei auftretenden Differenzenquotienten als Sekantensteigungen, so sind die Aussagen des Satzes anschaulich klar (vgl. Abbildung 42). Beweis. =⇒ “: Es sei f konvex. ” Es seien a, b, t ∈ I mit a < t < b gegeben. Setzt man dann λ := 0<λ<1 und λa + (1 − λ)b = b−t , b−a so ist (b − t)a + (t − a)b = t. b−a Aus der Konvexität von f ergibt sich daher f (t) = f (λa + (1 − λ)b) ≤ λ · f (a) + (1 − λ) · f (b) = t−a b−t · f (a) + · f (b). b−a b−a Hieraus folgt f (t) − f (a) ≤ t−a · (f (b) − f (a)) b−a und f (t) − f (b) ≤ b−t · (f (a) − f (b)) b−a und daher f (t) − f (a) f (b) − f (a) f (b) − f (t) ≤ ≤ . t−a b−a b−t =⇒“: Nun sei vorausgesetzt, dass für alle a, b, t ∈ I mit a < t < b die Abschätzung ” f (t) − f (a) f (b) − f (t) ≤ (15.1) t−a b−t gilt. Zum Nachweis der Konvexität von f seien a, b ∈ I mit o.E. a < b und ein λ ∈ ]0, 1[ gegeben. Wir setzen t := λa+(1−λ)b. Dann ist a < t < b, so dass nach Voraussetzung (15.1) gilt. Durch Multiplikation mit b−a > 0 folgt dann unter Beachtung von t−a = (1−λ)(b−a) und b − t = λ(b − a) f (t) − f (a) f (b) − f (t) ≤ , 1−λ λ also λ · (f (t) − f (a)) ≤ (1 − λ) · (f (b) − f (t)) und somit f (λa + (1 − λ)b) = f (t) ≤ λf (a) + (1 − λ)f (b). Dies zeigt die Konvexität von f . Völlig analog schließt man für streng konvexe Funktionen und <“ anstelle von ≤“. ” ” 246 Differenzierbare konvexe Funktionen lassen sich mithilfe ihrer Ableitung charakterisieren: Satz 15.21 (Konvexe Funktionen) Es sei I = [α, β] ein echtes kompaktes Intervall. Die Funktion f : I −→ R sei stetig und auf ]α, β[ differenzierbar. Dann ist f genau dann (streng) konvex auf [α, β], wenn die Ableitung f 0 auf ]α, β[ (streng) monoton wächst. Beweis. =⇒ “: Es sei f konvex. Es seien Punkte a, b ∈]α, β[ mit a < b fixiert. Gemäß ” Lemma 15.20 gilt dann f (b) − f (a) f (b) − f (t) f (t) − f (a) ≤ ≤ t−a b−a b−t für alle t ∈ ]a, b[. Führt man hierin einerseits den Grenzübergang t → a+, andererseits den Grenzübergang t → b− aus, so erhält man f (t) − f (a) t→a+ t−a f (b) − f (a) ≤ b−a f (b) − f (t) = f 0 (b−) = f 0 (b). ≤ lim t→b− b−t f 0 (a) = f 0 (a+) = lim Da dies für alle a, b ∈ I mit a < b gilt, ist f 0 monoton steigend. Nun sei f sogar streng konvex. Man kann dann in voranstehender Überlegung nicht einfach ≤“ durch <“ ersetzen, da die strikten Ungleichungen in Lemma 15.20 bei den ” ” Grenzübergängen verloren gehen könnten. Stattdessen muss man etwas genauer argumentieren: Es seien wieder a, b ∈]α, β[ mit a < b fixiert. Dann ist die Sekantensteigung s(t) = f (t) − f (a) t−a für t ∈ ]a, b[ streng monoton wachsend; für t1 , t2 ∈]a, b[ mit t1 < t2 gilt nämlich gemäß der zweiten Abschätzung in Lemma 15.20 (mit t2 anstelle von b und t1 anstelle von t) s(t1 ) = f (t1 ) − f (a) f (t2 ) − f (a) ≤ = s(t2 ). t1 − a t2 − a Daher ist f (b) − f (a) . t→a+ a<t≤b b−a Man kann nun die weitere Argumentation von oben übernehmen und erhält lim s(t) = inf s(t) < s(b) = f 0 (a) = lim t→a+ f (t) − f (a) = t−a < lim s(t) t→a+ f (b) − f (a) f (b) − f (t) ≤ lim = f 0 (b). t→b− b−a b−t Also ist f 0 streng monoton steigend. 247 =⇒“: Jetzt wird vorausgesetzt, dass f 0 monoton steigt. Es seien Punkte a, b, t ∈ I mit ” a < t < b gegeben. Nach dem Mittelwertsatz (Satz 15.8) existieren dann Punkte ξ, η mit a < ξ < t < η < b und f (t) − f (a) f (b) − f (t) = f 0 (ξ) ≤ f 0 (η) = . t−a b−t Hieraus folgt mittels Lemma 15.20 die Konvexität von f . Analog argumentiert man, falls f 0 als streng monoton vorausgesetzt wird. Für den Fall zweimal differenzierbarer konvexer Funktionen erhält man hieraus das folgende einprägsame Resultat: Es sei I ein echtes Intervall, und f : I −→ R Korollar 15.22 (Konvexe Funktionen) sei zweimal differenzierbar. Dann gilt: (1) Genau dann ist die Funktion f konvex, wenn f 00 (x) ≥ 0 für alle x ∈ I gilt. (2) Genau dann ist die Funktion f streng konvex, wenn f 00 (x) ≥ 0 für alle x ∈ I gilt und wenn es kein echtes Teilintervall von I gibt, auf dem f 00 konstant 0 ist. Beweis. Nach Satz 15.21 ist die Konvexität bzw. strenge Konvexität äquivalent damit, dass f 0 monoton bzw. streng monoton wächst. Aus der Charakterisierung monotoner Funktionen in Satz 15.15 folgen daher alle Behauptungen. Bemerkung 15.23 Konvexe Funktionen müssen nicht differenzierbar sein, wie etwa die Betragsfunktion x 7→ |x| zeigt. Dann sind Satz 15.21 und Korollar 15.22 nicht anwendbar. Man kann jedoch zeigen [Köhler, Satz 14.8], dass konvexe Funktionen automatisch stetig sind, und dass in jedem Punkt x des Definitionsbereichs die einseitigen Ableitungen existieren und f 0 (x−) ≤ f 0 (x+) gilt. Aus Korollar 15.22 folgt ein notwendiges Kriterium für Wendepunkte. Definition 15.24 Es sei c ein innerer Punkt eines Intervalles I. Eine Funktion f : I −→ R hat in c einen Wendepunkt, falls es eine Zahl δ > 0 gibt, so dass f entweder auf [c − δ, c] streng konkav und auf [c, c + δ] streng konvex oder aber auf [c − δ, c] streng konvex und auf [c, c + δ] streng konkav ist. Korollar 15.25 (Wendepunkte) Es sei c ein innerer Punkt eines Intervalles I. Die Funktion f : I −→ R sei zweimal differenzierbar, und c sei ein Wendepunkt von f . Dann gilt f 00 (c) = 0. Beweis. O.B.d.A. genügt es den Fall zu betrachten, dass f für ein geeignetes δ > 0 auf [c − δ, c] streng konkav und auf [c, c + δ] streng konvex ist. Aus Korollar 15.22 folgt dann f 00 (x) ≤ 0 für alle x ∈ [c − δ, c] und f 00 (x) ≥ 0 Insbesondere ist f 00 (c) ≤ 0 und f 00 (c) ≥ 0, also f 00 (c) = 0. 248 für alle x ∈ [c, c + δ]. Abbildung 43: Ein Wendepunkt Bemerkung 15.26 Die Bedingung f 00 (x) = 0 ist nicht hinreichend für einen Wendepunkt, wie der Punkt c = 0 für die Funktion f (x) = x4 zeigt. 15.5 Zwischenwertsatz für Ableitungen In Beispiel 14.21 hatten wir differenzierbare Funktionen kennengelernt, deren Ableitung nicht überall stetig ist, nämlich x 7→ x2 · sin x1 und x 7→ x2 · sin x12 . In beiden Fällen verhält sich die Ableitung in der Nähe der Unstetigkeitsstelle ziemlich wild; sie oszilliert. Das ist keine Besonderheit dieses Beispiels, sondern ein typisches Verhalten. Dies ergibt sich daraus, dass für Ableitungen der Zwischenwertsatz gilt. Zur Begründung darf man natürlich nicht auf den Zwischenwertsatz für stetige Funktionen verweisen, denn Ableitungen müssen nicht stetig sein; die Argumentation ist tiefliegender. Satz 15.27 (Satz von Darboux53 , Zwischenwertsatz für Ableitungen) Es sei I = [a, b] ein echtes kompaktes Intervall. Die Funktion f : I −→ R sei differenzierbar. Dann nimmt die Ableitung f 0 auf dem offenen Intervall ]a, b[ jeden Wert an, der echt zwischen f 0 (a) und f 0 (b) liegt. Beweis 1. Wir dürfen f 0 (a) < f 0 (b) annehmen. Es sei ein m mit f 0 (a) < m < f 0 (b) gegeben. Hierzu betrachten wir die Funktion g : I −→ R, g(x) := f (x) − mx. Diese ist differenzierbar auf I mit g 0 (a) = f 0 (a) − m < 0 < f 0 (b) − m = g 0 (b). Da g 0 in a und in b unterschiedliches Vorzeichen hat, kann g gemäß Satz 15.15 (2) (in der in Bemerkung 15.16 (2) erwähnten Variante) nicht streng monoton auf I sein. Gemäß Satz 10.14 (1) ist g damit auch nicht injektiv. Es gibt also c, d ∈ I mit g(c) = g(d). Aus dem Satz von Rolle folgt nun sofort die Existenz eines ξ ∈]c, d[⊆ I mit g 0 (ξ) = 0, d.h. mit f 0 (ξ) = m. 53 Der Satz ist nach G. Darboux (1842 – 1917) benannt. Der Name wird uns am Beginn der Integrationstheorie wieder begegnen. 249 Beweis 2 (∗). Wir dürfen wieder f 0 (a) < f 0 (b) annehmen. Wir setzen s1 (x) := f (x) − f (a) x−a für x ∈]a, b], s2 (x) := f (b) − f (x) b−x für x ∈ [a, b[ . Weil f in den Punkten a und b differenzierbar ist, sind s1 bzw. s2 stetig in die Punkte a bzw. b fortsetzbar, nämlich durch s1 (a) := f 0 (a) und s2 (b) := f 0 (b). Damit sind s1 und s2 stetig auf ganz I. Nach dem Zwischenwertsatz für stetige Funktionen (Satz 10.9) ist das Intervall mit den Endpunkten f (b) − f (a) s1 (a) = f 0 (a) und s1 (b) = b−a im Bild s1 (I) enthalten, und das Intervall mit den Endpunkten s2 (b) = f 0 (b) und s2 (a) = f (b) − f (a) = s1 (b) b−a ist im Bild s2 (I) enthalten. Es gilt daher insbesondere [f 0 (a), f 0 (b)] ⊆ s1 (I) ∪ s2 (I). Nun sei eine Zahl m mit f 0 (a) < m < f 0 (b) gegeben. Dann folgt die Existenz eines Punktes t ∈ [a, b] mit s1 (t) = m oder s2 (t) = m. Wegen s1 (a) = f 0 (a) < m und s2 (b) = f 0 (b) > m liegt wenigstens einer der Fälle a < t ≤ b, s1 (t) = m oder a ≤ t < b, s2 (t) = m vor. In jedem der beiden Fälle folgt aus dem Mittelwertsatz (Satz 15.8) die Existenz eines Punktes ξ ∈ ]a, b[ mit f 0 (ξ) = s1 (t) = m beziehungsweise f 0 (ξ) = s2 (t) = m. Die Ableitung f 0 nimmt also in ]a, b[ den Wert m an. Aus dem Zwischenwertsatz für Ableitungen folgt insbesondere, dass Unstetigkeitsstellen von Ableitungen keine Sprungstellen sein können. Eine Funktion wie x 7→ sgn (x) kann also nicht die Ableitung einer differenzierbaren Funktion f : R −→ R sein. Genauer gilt: Korollar 15.28 Es sei f : I −→ R eine differenzierbare Funktion auf einem offenen Intervall I, und x0 ∈ I sei eine Unstetigkeitsstelle der Ableitung f 0 . Dann gibt es ein ε > 0, so dass f 0 in jeder (beliebig kleinen) Umgebung von x0 jeden Wert aus [f 0 (x0 ), f 0 (x0 )+ε] oder aber jeden Wert aus [f 0 (x0 ) − ε, f 0 (x0 )] annimmt. Man sagt, dass x0 eine Oszillationsstelle der Ableitung f 0 ist. Beweis. Da f 0 in x0 unstetig ist, gibt es nach Definition der Stetigkeit ein ε > 0 mit folgender Eigenschaft: Zu jedem δ > 0 gibt es ein xδ ∈ Uδ (x0 ) ∩ I mit |f 0 (xδ ) − f 0 (x0 )| ≥ ε. Nach Satz 15.27 ist jeweils das ganze Intervall mit den Endpunkten f 0 (xδ ) und f 0 (x0 ) in f 0 (Uδ (x0 ) ∩ I) enthalten, und dieses Intervall hat die Länge ≥ ε. Dies bedeutet, dass für jedes δ > 0 das Intervall [f 0 (x0 ), f 0 (x0 ) + ε] oder das Intervall [f 0 (x0 ) − ε, f 0 (x0 )] in f 0 (Uδ (x0 ) ∩ I) enthalten ist. Bei der Funktion f (x) := x2 · sin x12 aus Beispiel 14.21 (2) war die Ableitung f 0 in jeder Umgebung von 0 sogar unbeschränkt gewesen; hier nimmt f 0 in jeder Umgebung der Oszillationsstelle also sogar jeden reellen Wert an. 250 Bemerkung 15.29 Es sei f : I −→ R eine differenzierbare Funktion auf einem reellen Intervall I mit f 0 (x) 6= 0 für alle x ∈ I. Nach dem Zwischenwertsatz für Ableitungen (Satz 15.27) hat dann f 0 auf I einheitliches Vorzeichen; es ist also entweder f 0 (x) > 0 für alle x ∈ I oder f 0 (x) < 0 für alle x ∈ I. Daher ist f auf I streng monoton (Satz 15.15) und somit injektiv. Die Injektivität von f erhält man schneller auch aus dem Satz von Rolle (mit demselben Argument wie am Ende des ersten Beweises von Satz 15.27): Wäre f nämlich nicht injektiv, so gäbe es a, b ∈ I mit f (a) = f (b). Nach dem Satz von Rolle hätte dann f 0 zwischen a und b eine Nullstelle, im Widerspruch zur Voraussetzung. 15.6 Regeln von Bernoulli und de l’Hospital Aus den Mittelwertsätzen können Regeln hergeleitet werden, mit denen man manchmal einen Grenzwert f (x) lim x→b g(x) bestimmen kann, wenn die Grenzwerte limx→b f (x) und limx→b g(x) beide 0 oder beide ±∞ sind. Satz 15.30 (Regeln von Bernoulli und de l’Hospital54 ) Es sei I = [a, b[ ein halboffenes Intervall, wobei der Fall b = ∞ zugelassen ist. Die Funktionen f : I −→ R und g : I −→ R seien differenzierbar. Für alle x ∈ I sei g 0 (x) 6= 0. Es sei entweder lim f (x) = lim g(x) = 0 x→b x→b oder lim f (x) = lim g(x) = ±∞. x→b x→b Falls der eigentliche oder uneigentliche Grenzwert lim f 0 (x) =λ g 0 (x) lim f (x) = λ. g(x) x→b existiert, dann ist auch x→b Beweis. Wegen der Nullstellenfreiheit von g 0 ist g injektiv (Bemerkung 15.29). Es gibt daher ein a1 ∈ I mit g(x) 6= 0 für alle x ∈ [a1 , b[. Indem man a ggf. durch a1 ersetzt, darf man o.B.d.A. annehmen, dass g(x) 6= 0 für alle x ∈ I ist. Fall 1: Es sei λ ∈ R. Es sei eine Zahl ε > 0 gegeben. Nach Voraussetzung gibt es dann ein x0 ∈ I mit 0 f (x) ε für alle x ∈ [x0 , b[. g 0 (x) − λ < 2 54 Der Marquis G. F. A. de l’Hospital (1661 – 1704) publizierte 1696 das erste Lehrbuch der Infinitesimalrechnung. Darin steht auch die nach ihm benannte Regel. Das Resultat selber wird Johann Bernoulli (1667 – 1748) zugeschrieben, dem jüngeren Bruder von Jakob Bernoulli und Lehrer Eulers. 251 Zu beliebigen x und y mit x0 ≤ x < y < b gibt es nach dem verallgemeinerten Mittelwertsatz (Satz 15.14) ein ξ ∈]x, y[ mit f 0 (ξ) f (y) − f (x) . = 0 g(y) − g(x) g (ξ) (Für die Anwendbarkeit dieses Satzes ist die Nullstellenfreiheit von g 0 entscheidend.) Für alle x und y mit x0 ≤ x < y < b folgt somit ε f (y) − f (x) < . − λ (15.2) 2 g(y) − g(x) Fall 1.1: Es sei limx→b f (x) = limx→b g(x) = 0. Bei festem x führt man dann in (15.2) den Grenzübergang y → b durch und erhält ε f (x) für alle x ∈ [x0 , b[. g(x) − λ ≤ 2 (15.3) Zu jedem ε > 0 gibt es also ein x0 ∈ I, so dass (15.3) gilt. Hiermit folgt die Behauptung lim x→b f (x) = λ. g(x) Fall 1.2: Es sei limx→b f (x) = limx→b g(x) = +∞. (Der Fall des uneigentlichen Grenzwerts −∞ lässt sich hierauf zurückführen.) In (15.2) setzen wir x = x0 ein und dividieren Zähler und Nenner durch g(y). So folgt f (y) f (x0 ) ε g(y) − g(y) für alle y ∈]x0 , b[. − λ < g(x ) 0 1− 2 g(y) Weil g(y) für y → b gegen ∞ strebt, gibt es ein y0 ∈]x0 , b[ mit 1− g(x0 ) >0 g(y) für alle y ∈ [y0 , b[. Wir multiplizieren die Ungleichung mit dieser positiven Größe und erhalten f (y) f (x0 ) ε g(x ) g(x ) 0 0 g(y) − g(y) − λ 1 − g(y) < 2 · 1 − g(y) , also mit der umgekehrten Dreiecksungleichung f (y) ε ε g(x0 ) f (x0 ) g(x0 ) g(y) − λ < 2 + 2 · g(y) + g(y) + λ · g(y) für alle y ∈ [y0 , b[. Für y → b streben alle drei Beträge auf der rechten Seite gegen 0. Deshalb gibt es ein y1 ∈ [y0 , b[ mit f (y) <ε − λ für alle y ∈ [y1 , b[. g(y) Hiermit folgt die Behauptung lim x→b f (y) = λ. g(y) 252 Fall 2: Es sei λ = ∞. (Der Fall λ = −∞ wird hierauf zurückgeführt.) Es sei eine Zahl M > 0 gegeben. Nach Voraussetzung gibt es hierzu ein x0 ∈ I mit f 0 (x) > 2M g 0 (x) für alle x ∈ [x0 , b[. Wie zuvor folgt mit dem verallgemeinerten Mittelwertsatz f (y) − f (x) > 2M g(y) − g(x) für alle x, y mit x0 ≤ x < y < b. Analog zu Fall 1 schließt man hieraus auf die Existenz eines y1 ∈ [x0 , b[ mit f (y) >M g(y) für alle y ∈ [y1 , b[. Damit folgt die Behauptung lim y→b f (y) = ∞. g(y) Bemerkung 15.31 (1) In Satz 15.30 genügt es natürlich, wenn die Voraussetzung g 0 (x) 6= 0 in einem Teilintervall [a1 , b[ von I erfüllt ist. (2) Analoge Aussagen wie in Satz 15.30 gelten selbstverständlich auch für Funktionen auf Intervallen ]a, b] mit Grenzwertaussagen für x → a+. (3) Für mehrfach differenzierbare Funktionen kann man den Satz mehrfach anwenden und (k) (x) somit gegebenenfalls aus der Existenz eines Grenzwerts limx→b fg(k) (x) auf den Grenzwert limx→b f (x) g(x) schließen. (4) Die Grenzwerte, von denen Satz 15.30 handelt, lassen sich in der Praxis statt durch eine Anwendung der Regel von Bernoulli und de l’Hospital oftmals schneller und geschickter durch die Untersuchung geeigneter Potenzreihenentwicklungen bestimmen. Beispiele hierfür lernen wir in den Übungen kennen. Beispiel 15.32 (1) Es sei α > 0. Aus Satz 15.30 folgt lim x→∞ α · eαx eαx = lim = ∞. x→∞ x 1 Durch wiederholte Anwendung folgt lim x→∞ eαx αn · eαx = lim =∞ x→∞ xn n! für jede natürliche Zahl n. Das Ergebnis ist aus Satz 12.2 bereits bekannt. Wir haben es jetzt ganz mühelos aus Satz 15.30 folgern können. 253 (2) Es gilt cos π2 = 0 und lim exp(− tan(x)) = 0. x→ π2 − Man kann Satz 15.30 auf die Funktionen f (x) := exp(− tan x) und g(x) := cos x auf jedem Intervall a, π2 mit 0 < a < π2 anwenden, denn die Ableitungen f 0 (x) = − exp(− tan x) · (1 + tan2 x) und g 0 (x) = − sin x sind dort nullstellenfrei. Es folgt lim π x→ 2 − exp(− tan x) = cos x lim π x→ 2 − − exp(− tan x) · (1 + tan2 x) − sin x 1 · lim (1 + y 2 )e−y sin(π/2) y→∞ = 0, = wobei zuletzt (1) beziehungsweise Satz 12.2 benutzt wurde. 254 16 Stammfunktionen und Integrationstechniken Eine wesentliche Aufgabe der Integralrechnung ist die Inhaltsmessung von Flächen. In Kapitel 17 werden wir eine Theorie zur Messung von Ordinatenmengen {(x, y) | a ≤ x ≤ b, 0 ≤ y ≤ f (x)} positiver Funktionen f : [a, b] −→ [0, ∞[ entwickeln. In Kapitel 18 lernen wir einen überraschenden Bezug dieser Theorie zur Differentialrechnung kennen: Wir konstruieren differenzierbare Funktionen F , deren Ableitung gleich einer gegebenen Funktion f ist, als sog. Integralfunktionen von f . Es besteht also ein innerer Zusammenhang zwischen zwei geometrischen Problemen, die auf den ersten Blick nichts miteinander zu tun zu haben scheinen, nämlich dem Inhalt von Ordinatenflächen einer Funktion und der Konstruktion von Funktionen, deren Graph vorgegebene Tangentensteigungen hat. In diesem Kapitel wollen wir uns zunächst mit formalen Aspekten des Integrationskalküls beschäftigen. Wir lernen Techniken kennen, mit denen man manchmal zu einer gegebenen Funktion f eine differenzierbare Funktion F mit der Ableitung F 0 = f finden kann. Die Techniken haben den prinzipiellen Nachteil, dass zunächst nicht klar wird, wann sie zum Erfolg führen und wann nicht. Erst die Theorie in den Kapiteln 17 und 18 wird Klarheit schaffen. 16.1 Stammfunktionen Definition 16.1 Es sei f : I −→ R eine Funktion auf einem echten Intervall I. Eine Funktion F : I −→ R heißt eine Stammfunktion von f oder ein unbestimmtes Integral von f , falls F differenzierbar ist und die Ableitung F 0 = f hat. Mit den Symbolen Z Z f (x) dx oder f wird die Menge aller Stammfunktionen von f bezeichnet. Proposition 16.2 Es sei F eine Stammfunktion einer Funktion f : I −→ R auf einem echten Intervall I. Für jede reelle Zahl C ist dann auch x 7→ F (x) + C eine Stammfunktion von f , und in dieser Gestalt erhält man alle Stammfunktionen von f ; es gilt Z f (x) dx = {F + C | C ∈ R}. Beweis. Aus F 0 = f folgt (F + C)0 = f für jede reelle Zahl C, so dass mit F auch F + C Stammfunktion von f ist. Ist neben F auch G Stammfunktion von f , gilt also F 0 = f und G0 = f , so ist (G − F )0 = 0, und nach Korollar 15.10 (b) ist dann G − F konstant. Bemerkung 16.3 (1) Anstelle der etwas schwerfälligen Mengenschreibweise in Proposition 16.2 werden wir wie in Formelsammlungen und in vielen Lehrbüchern auch die (eigentlich unexakte, aber nützliche) Schreibweise Z f (x) dx = F (x) + C 255 R verwenden. Hierin heißt C eine Integrationskonstante. Die Symbole f (x) dx und R f werden oft auch zur Bezeichnung einzelner Stammfunktionen verwendet. Man schreibt also beispielsweise Z 1 dx = log(x) für x > 0. x Warnung: Das Weglassen der Integrationskonstanten kann zu Fehlschlüssen verführen. So gilt etwa gemäß Beispiel 15.17 (3) Z Z 1 1 dx = arctan(x) und dx = −arccot(x). 2 1+x 1 + x2 Hieraus darf man nicht auf die Gleichheit der rechten Seiten schließen. Richtig ist vielmehr π für alle x ∈ R. arctan(x) = − arccot(x) 2 Und erst recht ist ein Schluss wie Z Z x2 x2 x dx = ∧ x dx = +1 =⇒ 1=0 2 2 natürlich nicht zulässig. (2) Jede Formel für Ableitungen liefert in der Umkehrung eine Formel für unbestimmte Integrale. Die Beispiele in Kapitel 14 können also zur Aufstellung einer Liste von Stammfunktionen verwendet werden. So findet man etwa die beiden Stammfunktionen 1 x 7→ arctan(x) und x 7→ −arccot(x) von x 7→ 1+x 2. (3) Die Aussagen (1) und (2) in Satz 14.11 liefern die Integrationsregel Z Z Z (af (x) + bg(x)) dx = a f (x) dx + b g(x) dx für beliebige reelle Zahlen a, b und Funktionen f und g, die Stammfunktionen besitzen. Die Linearität der Operation des Differenzierens impliziert die Linearität der umgekehrten Operation des Integrierens. (4) Die Konstruktion von Stammfunktionen ist die Umkehrung der Differentiation und hat insofern zunächst nichts mit der Integration zur Flächenmessung zu tun. Dass hier – wie eingangs angesprochen – doch einR enger Zusammenhang besteht (welcher es rechtfertigt, in beiden Fällen das Symbol zu verwenden), wird sich erst aus dem Hauptsatz der Differential- und Integralrechnung in Kapitel 18 ergeben. 16.2 Partielle Integration und Substitutionsregel Das Produkt zweier differenzierbarer Funktionen u und v hat nach Satz 14.11 (3) die Ableitung (uv)0 = u0 v + uv 0 . Es sei G eine Stammfunktion von u0 v. Setzt man dann F := uv − G, so folgt F 0 = u0 v + uv 0 − G0 = uv 0 . Also ist F eine Stammfunktion von uv 0 . Damit ist das folgende Ergebnis bewiesen: 256 Satz 16.4 (Partielle Integration) Es seien u : I −→ R und v : I −→ R differenzierbare Funktionen auf einem echten Intervall I, und G sei eine Stammfunktion von u0 v. Dann ist F := uv − G eine Stammfunktion von uv 0 . Es gilt also Z Z 0 u(x)v (x) dx = u(x)v(x) − u0 (x)v(x) dx Gemäß unserer Vereinbarung über das Symbol strenggenommen Mengen von Funktionen. R stehen auf beiden Seiten dieser Formel Die partielle Integration ist ein Analogon zur partiellen Summation in Lemma 7.36. Zur Ermittlung von Stammfunktionen wird die partielle Integration eingesetzt, wenn das Produkt u0 v irgendwie einfacher“ erscheint als uv 0 . Ähnlich wie R die0 partielle Summation dient die ” partielle Integration auch dazu, um R aus einem Integral uv einen ”wesentlichen“ Anteil uv auszusondern und den Rest“ − u0 v weiter zu untersuchen. ” Beispiel 16.5 (1) Wir suchen eine Stammfunktion von x 7→ log(x). Hierzu setzen wir u(x) := log(x) und v(x) := x, und wir erhalten für x > 0 Z Z log(x) dx = 1 · log(x) dx Z 1 = x log(x) − x · dx x Z = x log(x) − 1 dx = x log(x) − x + C. (2) Wir suchen eine Stammfunktion von x 7→ sin2 (x). Setzt man v(x) := − cos(x) und u(x) := v 0 (x) = sin(x), dann ist scheinbar keine Vereinfachung zu erwarten. Man erhält aber Z Z 2 sin (x) dx = − sin(x) cos(x) + cos2 (x) dx Z = − sin(x) cos(x) + (1 − sin2 (x)) dx Z = − sin(x) cos(x) + x − sin2 (x) dx . R Wir können diese Gleichung nach sin2 (x) dx auflösen; damit folgt Z 1 sin2 (x) dx = (x − sin(x) cos(x)) + C . 2 (3) Die Funktion F0 (x) := − 12 exp(−x2 ) hat die Ableitung f0 (x) := F00 (x) = x exp(−x2 ). Für beliebige ganze Zahlen k ≥ 0 suchen wir nun eine Stammfunktion Fk von 2 fk (x) := x2k+1 e−x . 257 Mittels partieller Integration gewinnen wir eine Rekursionsformel für Fk (x). Denn es ist fk+1 (x) = u(x)v 0 (x) mit u(x) = x2k+2 , 2 v 0 (x) = xe−x = f0 (x) = F00 (x). Aus Satz 16.4 folgt daher Z Z 2k + 2 2 · x2k+1 e−x dx fk+1 (x) dx = u(x)F0 (x) + 2 1 2 = − x2k+2 e−x + (k + 1)Fk (x) + C . 2 Wir können daher Stammfunktionen Fk von fk rekursiv durch 1 2 Fk+1 (x) := − x2k+2 e−x + (k + 1)Fk (x) 2 definieren. Es ist dann Fk (x) = pk (x) · exp(−x2 ) mit Polynomen pk , welche p0 (x) = − 12 und die Rekursionsgleichung 1 pk+1 (x) = − x2k+2 + (k + 1) · pk (x) 2 erfüllen; hieraus ergibt sich, dass pk für alle k ∈ N0 den Grad 2k hat. Die Kettenregel der Differentialrechnung (Satz 14.12) lautet (f ◦ ϕ)0 = (f 0 ◦ ϕ) · ϕ0 unter geeigneten Voraussetzungen an f und ϕ. Sie lässt sich mühelos in ein Resultat über Stammfunktionen umschreiben: Satz 16.6 (Substitutionsregel) Es seien f : I −→ R und ϕ : J −→ I differenzierbare Funktionen auf echten Intervallen I und J. (a) Es sei F eine Stammfunktion von f . Dann ist F ◦ϕ eine Stammfunktion von (f ◦ϕ)·ϕ0 . (b) Es sei ϕ(J) = I und ϕ0 (t) 6= 0 für alle t ∈ J. Dann existiert die Umkehrfunktion ϕ−1 : I −→ J, und wenn G eine Stammfunktion von (f ◦ϕ)·ϕ0 ist, dann ist F = G◦ϕ−1 eine Stammfunktion von f . Man notiert diese Regel in der Formel Z Z f (x) dx = f (ϕ(t))ϕ0 (t) dt . −1 t=ϕ (x) Beweis. (a) Dies ist klar aufgrund der Kettenregel. (b) Aus Bemerkung 15.29 folgt, dass ϕ injektiv (sogar streng monoton) ist. Also existiert die Umkehrfunktion, und diese ist nach Satz 14.14 differenzierbar mit der Ableitung 1 . (ϕ−1 )0 = 0 ϕ ◦ ϕ−1 Aus der Voraussetzung G0 = (f ◦ ϕ) · ϕ0 folgt also F 0 = (G ◦ ϕ−1 )0 = (G0 ◦ ϕ−1 ) · (ϕ−1 )0 1 = (f ◦ ϕ) · ϕ0 ◦ ϕ−1 · 0 ϕ ◦ ϕ−1 1 = f · (ϕ0 ◦ ϕ−1 ) · 0 ϕ ◦ ϕ−1 = f. 258 Zur Anwendung der Substitutionsregel müssen wir eine gegebene Funktion g in der Form g = (f ◦ ϕ) · ϕ0 schreiben. Dazu wird in g(x) die Variable durch x = ϕ(t) ersetzt. Das erklärt den Namen der Regel, und es erklärt auch, warum meistens die Variante (b) benötigt wird. Die Kunst bei der Anwendung der Substitutionsregel besteht im geschickten Erraten“ ” erfolgreicher Substitutionen. Merkregel. Die Substitutionsregel ist ebenso wie die ihr zugrundeliegende Kettenregel im Leibnizschen Kalkül einprägsam zu merken: Schreibt man die Ableitung von x = ϕ(t) in und löst formal nach dx auf, so ergibt sich nämlich gerade dx = ϕ0 (t) dt. der Form ϕ0 (t) = dx dt Man muss sich freilich wiederum bewusst sein, dass diese suggestive Schreibweise eigentlich mathematisch unsinnig und daher ohne Beweiswert ist, da wir den Differentialen dx und dt keine eigene Bedeutung gegeben haben; dass sie dennoch das richtige“ Ergebnis liefert, liegt ” daran, dass die Notationen entsprechend geschickt eingerichtet worden sind. Beispiel 16.7 (1) Wir betrachten noch einmal die Funktion f (x) := sin2 (x), zu der wir bereits in Beispiel 16.5 (2) mithilfe partieller Integration eine Stammfunktion bestimmt hatten. Wir wollen nun die aus Aufgabe 2.5 bekannte trigonometrische Identität 1 sin2 (x) = (1 − cos(2x)) 2 ausnutzen. Wir setzen also x = ϕ(t) := 2t und erhalten Z Z 1 1 2 x− sin (x) dx = cos(2x) dx 2 2 Z 1 1 = x− cos(t) dt 2 4 t=2x 1 1 x − sin(t) +C = 2 4 t=2x 1 1 = x − sin(2x) + C 2 4 1 (x − sin(x) cos(x)) + C, = 2 wobei wir zuletzt das Additionstheorem des Sinus angewandt haben. Dies stimmt mit dem Ergebnis aus Beispiel 16.5 (2) überein. (2) Es sei f (x) := 2−x . 1 − 4x + x2 Setzt man ϕ(x) := 1 − 4x + x2 , so ist f (x) = − −4 + 2x ϕ0 = − (x). 2(1 − 4x + x2 ) 2ϕ 259 Mit der Substitutionsregel in der Fassung von Satz 16.6 (b) erhalten wir Z 0 Z Z ϕ (x) 1 1 1 1 dx = − dt = − log |1 − 4x + x2 | + C, f (x) dx = − 2 ϕ(x) 2 t 2 t=ϕ(x) und diese Formel ist in jedem Intervall gültig, in dem der Nenner von f keine Nullstelle hat. Die Methode in diesem Beispiel führt offenbar zu dem folgenden allgemeineren Resultat: Proposition 16.8 Es sei g : I −→ R eine differenzierbare und nullstellenfreie Funktion 0 (x) auf einem echten Intervall I. Dann ist x 7→ log |g(x)| eine Stammfunktion von x 7→ gg(x) . Es gilt also Z 0 g (x) dx = log |g(x)| + C . g(x) 16.3 Partialbruchzerlegung rationaler Funktionen Wir haben im letzten Abschnitt einige Methoden zur Konstruktion von Stammfunktionen kennengelernt. In diesem Zusammenhang stellen sich nun zwei Fragen: (1) Welche Funktionen besitzen überhaupt eine Stammfunktion? Eine zumindest teilweise Antwort hierauf werden uns die Riemann’sche Integrationstheorie und speziell der Hauptsatz der Differential- und Integralrechnung geben. (2) Welche Funktionen sind elementar integrierbar“ in dem Sinne, dass sie Stammfunk” tionen besitzen, welche sich durch die uns bisher bekannten elementaren Funktionen ausdrücken lassen? Hierbei nennen wir eine reellwertige Funktion auf einem Intervall eine elementare Funktion, falls sie aus Polynomen, der Exponentialfunktion sowie aus den trigonometrischen und den Hyperbelfunktionen und aus Umkehrfunktionen dieser Funktionen durch endlich viele Operationen (Addition, Subtraktion, Multiplikation, Division und Komposition von Funktionen) entsteht. Zumindest die rationalen Funktionen besitzen stets eine elementare Funktion als Stammfunktion. Wir wollen dies nicht formal beweisen, sondern uns darauf beschränken, die für das tatsächliche Auffinden solcher Stammfunktionen relevanten Methoden vorzustellen. Eine zentrale Rolle hierbei spielt die Partialbruchzerlegung rationaler Funktionen: Bemerkung 16.9 Es sei eine rationale Funktion f= p q gegeben, worin p und q Polynome mit reellen Koeffizienten sind und q nicht konstant ist. Der Nenner q lässt sich gemäß Korollar 12.30 in reelle Faktoren vom Grad 1 und 2 zerlegen. Dabei ist zu beachten, dass Faktoren auch mehrfach auftreten können. Somit besitzt q eine Darstellung der Form s t Y Y mj q(x) = c · (x − xj ) · (x2 + ak x + bk )nk j=1 k=1 260 mit paarweise verschiedenen reellen Nullstellen x1 , . . . , xs , ebenfalls paarweise verschiedenen quadratischen Faktoren x2 + a1 x + b1 , . . . , x2 + at x + bt ohne reelle Nullstellen und mit Vielfachheiten mj , nk ∈ N. Man kann zeigen, dass f dann eine (reelle) Partialbruchzerlegung f (x) = p0 (x) + mj s X X j=1 µ=1 t n k XX Aj,µ Bk,ν · x + Ck,ν + (x − xj )µ k=1 ν=1 (x2 + ak x + bk )ν mit geeigneten Koeffizienten Aj,µ , Bk,ν , Ck,ν ∈ R und einem reellen Polynom p0 besitzt55 . Die Partialbruchzerlegung bestimmt man wie folgt: • Den Polynom-Anteil p0 von f = pq gewinnt man durch Polynomdivision mit Rest: Gemäß Lemma 12.28 hat p eine Darstellung p = p0 · q + r mit Polynomen p0 und r und mit grad (r) < grad (q). • Nach Abspaltung des Polynoms p0 bleibt noch eine rationale Funktion qr zu zerlegen, bei der der Zählergrad kleiner als der Nennergrad ist. Welche Partialbrüche dabei auftreten können, entnimmt man der Zerlegung des Nenners in Linear- und quadratische Faktoren. Für die auftretenden Koeffizienten kann man ein lineares Gleichungssystem aufstellen, das mit Methoden der Linearen Algebra zu lösen ist. Das eigentliche numerische Problem bei der Partialbruchzerlegung besteht in der Faktorisierung des Nenners q(x). Übungsbeispiele sind immer so konstruiert, dass diese Aufgabe mit algebraischen Methoden bewältigt werden kann. Die Ermittlung einer Stammfunktion für eine beliebige rationale Funktion wird durch die Partialbruchzerlegung auf die Aufgabe reduziert, für die speziellen rationalen Funktionen 1 , (x − x0 )k (x2 1 + ax + b)k und (x2 x + ax + b)k mit beliebigen k ∈ N Stammfunktionen zu finden, wobei x2 + ax + b keine reellen Nullstellen hat. Solche Stammfunktionen gibt es stets, und zwar sogar unter den o.g. elementaren Funktionen. Man findet sie mit den im letzten Abschnitt vorgestellten Methoden: 55 Von der komplexen Warte aus sind die Dinge wieder einmal viel einfacher – was daran liegt, dass Polynome über C, nicht aber über R vollständig in Linearfaktoren zerfallen: Es sei f = pq eine rationale Funktion mit Polynomen p und q mit Koeffizienten in C, und q sei nicht konstant. Dann besitzt der Nenner q nach dem Fundamentalsatz der Algebra (Satz 12.27) eine Zerlegung q(z) = c · s Y (z − zj )mj j=1 mit paarweise verschiedenen komplexen Nullstellen z1 , . . . , zr . Die Funktion f hat dann die Partialbruchzerlegung mj s X X Aj,µ f (z) = p0 (z) + (z − zj )µ j=1 µ=1 mit geeigneten Koeffizienten Aj,µ ∈ C. Ein elementarer Beweis hierfür findet sich in [Königsberger 1, S. 3637]. In der Funktionentheorie wird sich dies als einfache Folgerung aus dem Satz von Mittag-Leffler ergeben. 261 • Es ist Z 1 dx = log |x − x0 | + C, x − x0 und für k ≥ 2 ist Z 1 1 1 · dx = + C. k (x − x0 ) 1 − k (x − x0 )k−1 • Das unbestimmte Integral Z 1 dx + ax + b)k lässt sich mittels quadratischer Ergänzung und einer geeigneten Substitution auf das Integral Z 1 Ik := dx (x2 + 1)k zurückführen. Hierbei ist Z 1 dx = arctan x + C, I1 = 2 x +1 (x2 und für k ∈ N gilt 1 1 − (x2 + 1) = + 2k · 2 dx (x2 + 1)k (x + 1)k+1 Z 2kx2 1 − dx = (x2 + 1)k (x2 + 1)k+1 0 Z x x dx = 2 + C, = 2 k (x + 1) (x + 1)k Z 2k · Ik+1 + (1 − 2k) · Ik also x 1 · + (2k − 1) · Ik + C 0 . Ik+1 = 2k (x2 + 1)k Damit kann man die Ik im Prinzip rekursiv bestimmen. Für größere k wird dies natürlich alsbald recht aufwändig. • Die Integrale Z x dx + ax + b)k kann man mittels quadratischer Ergänzung und einer geeigneten Substitution auf die oben behandelten Integrale vom Typ Z Z 1 x dx sowie auf dx 2 k 2 (x + ax + b) (x + 1)k (x2 zurückführen. Hierbei ist gemäß Proposition 16.8 Z x 1 dx = · log |x2 + 1| + C 2 x +1 2 und Z x 1 dx = 2 k (x + 1) 2 Z 1 1 1 dt · 2 +C = k (t + 1) 2(1 − k) (x + 1)k−1 t=x2 Wir illustrieren dieses Vorgehen an zwei Beispielen: 262 für k ≥ 2. Beispiel 16.10 (1) Für eine beliebige reelle Zahl a suchen wir eine Stammfunktion von f (x) := Für a = ±1 ist f (x) = 1 , (x∓1)2 1 . 1 − 2ax + x2 und wir können mühelos die Stammfunktion F (x) = − 1 x∓1 angeben. Wir setzen jetzt √ |a| > 1 voraus. Dann hat der Nenner von f die beiden reellen Nullstellen x1,2 = a ± a2 − 1. Somit hat f die Partialbruchzerlegung 1 (x − x1 )(x − x2 ) 1 1 1 = · − x1 − x2 x − x1 x − x2 1 1 1 · − . = √ x − x1 x − x2 2 a2 − 1 f (x) = Dies führt uns zu der Stammfunktion x − x1 1 1 . · log |x − x1 | − log |x − x2 | = √ · log F (x) = √ x − x2 2 a2 − 1 2 a2 − 1 Schließlich wird der Fall −1 < a < 1 diskutiert. Der Nenner von f hat dann keine reellen Nullstellen. Wir können f (x) durch eine geeignete Substitution in die Form 1 mit der Stammfunktion t 7→ arctan(t) bringen. Es ist nämlich 1+t2 f (x) = Wir setzen daher (x − a)2 1 1 = · 2 + (1 − a ) 1 − a2 1 1+ √x−a 1−a2 2 . x−a t = ϕ(x) := √ , 1 − a2 und wir erhalten Z 1 f (x) dx = · 1 − a2 Z 1 1+ √x−a 1−a2 2 dx Z √ 1 1 2· = · 1 − a dt 2 2 1−a 1+t t=ϕ(x) 1 = √ · arctan(t) +C t=ϕ(x) 1 − a2 1 x−a = √ · arctan √ +C . 1 − a2 1 − a2 263 (2) Es sei 2x5 + 2x4 + 2x3 + 2x2 − 1 . x 3 + x2 + x + 1 Der Nenner hat die Faktoren x + 1 und x2 + 1. Eine Polynomdivision mit Rest gemäß Lemma 12.28 ergibt f (x) := f (x) = 2x2 − x3 + 1 1 = 2x2 − . +x+1 (x + 1)(x2 + 1) x2 Die Partialbruchzerlegung ist in der Gestalt 1 a bx + c = + 2 2 (x + 1)(x + 1) x+1 x +1 mit noch zu bestimmenden Koeffizienten a, b, c ∈ R anzusetzen. Dies ist äquivalent zu (a + b)x2 + (b + c)x + (a + c) 1 = , (x + 1)(x2 + 1) (x + 1)(x2 + 1) und durch Koeffizientenvergleich erhält man das lineare Gleichungssystem a + b = 0, b + c = 0, a + c = 1. Die eindeutig bestimmte Lösung ist a = c = 12 , b = − 12 . Also ist f (x) = 2x2 − 1 1 1 x 1 1 · + · 2 − · 2 . 2 x+1 2 x +1 2 x +1 Damit ergibt sich Z 1 1 1 2 f (x) dx = x3 − log |x + 1| + log(x2 + 1) − arctan(x) + C . 3 2 4 2 Wie am Anfang dieses Kapitels bereits angekündigt, sind die bisherigen Ausführungen zur Integralrechnung in vieler Hinsicht noch unbefriedigend. Ob wir eine explizite Stammfunktion zu einer gegebenen Funktion f finden, hängt von unserem Geschick (bzw. den verwendeten Formelsammlungen) ab. Die Sätze 16.4 und 16.6 und die Partialbruchzerlegung geben Rezepte zur Berechnung von Stammfunktionen, die manchmal zum Erfolg führen, meistens aber nicht. Wir benötigen deshalb eine Theorie, die unter möglichst geringen Annahmen über f die Existenz von Stammfunktionen sichert. Die Entwicklung einer solchen Theorie ist der Inhalt der beiden folgenden Kapitel. 264 17 17.1 Das Riemann-Integral Intervallzerlegungen und Treppenfunktionen Integrale sind bisher lediglich als unbestimmte Integrale, d.h. als Menge aller Stammfunktionen einer gegebenen Funktion aufgetreten. Probleme der Inhaltsmessung führen in natürlicher Weise zum Begriff des bestimmten Integrals: + + + − − a + − + b Abbildung 44: Inhaltsmessung von Ordinatenmengen Unter der Ordinatenmenge der Funktion f : I −→ R auf einem kompakten Intervall I wird die Menge {(x, y) ∈ R2 | x ∈ I, f (x) ≤ y ≤ 0 oder 0 ≤ y ≤ f (x) } verstanden. Für diese soll ein orientierter Flächeninhalt definiert werden. Die oberhalb der x-Achse gelegenen Teile mit 0 ≤ y ≤ f (x) sollen positiv gerechnet werden, und die Teile mit f (x) ≤ y ≤ 0 sollen negativ gerechnet werden. Die Idee zur Definition des orientierten Flächeninhalts ist einfach: Wir zerlegen das Intervall I in viele“ kleine“ Teilintervalle [x0 , x1 ], [x1 , x2 ], . . . , [xn−1 , xn ]. Die zu einem Teilintervall ” ” [xν−1 , xν ] gehörige Ordinatenmenge ist näherungsweise ein Rechteck, falls sich die Funktion f nicht zu wild“ verhält. Der Flächeninhalt dieser Menge ist daher ungefähr“ f (xν ) · (xν − ” ” xν−1 ). Diese Messgröße trägt bereits das gewünschte Vorzeichen. Ein Näherungswert für den gesuchten orientierten Flächeninhalt ist daher die Summe n X f (xν ) · (xν − xν−1 ) . ν=1 Ein geeigneter Grenzübergang sollte zur Definition des orientierten Flächeninhalts führen. Das Problem liegt darin, diesen Grenzübergang zu präzisieren. Die Riemannsche und die (in der Vertiefung Analysis behandelte) Lebesguesche Integrationstheorie stellen zwei unterschiedliche Möglichkeiten dar, wie die skizzierte Idee in eine exakte Definition umgesetzt werden kann. Definition 17.1 Es sei I = [a, b] ein echtes kompaktes Intervall. Eine Zerlegung von I ist ein (n + 1)-Tupel Z = (x0 , x1 , . . . , xn ) mit einer beliebigen natürlichen Zahl n und reellen 265 Zahlen x0 , x1 , . . . , xn , die a = x0 < x1 < . . . < xn−1 < xn = b erfüllen. Die Punkte xν heißen die Teilpunkte der Zerlegung Z, und die positive Zahl |Z| := max{ |xν − xν−1 | : 1 ≤ ν ≤ n} heißt die Feinheit der Zerlegung Z. Es seien Z1 = (x0 , x1 , . . . , xn ) und Z2 = (y0 , y1 , . . . , ym ) zwei Zerlegungen von I. • Wir nennen Z1 feiner als Z2 oder eine Verfeinerung von Z2 , und wir schreiben Z1 ≤ Z2 , falls jeder Teilpunkt von Z2 auch ein Teilpunkt von Z1 ist, falls also {y0 , y1 , . . . , ym } ⊆ {x0 , x1 , . . . , xn } gilt. • Wenn man die Zahlen in der Menge {x0 , x1 , . . . , xn , y0 , y1 , . . . , ym } der Größe nach anordnet, insbesondere also doppelt vorkommende nur einmal auflistet, dann erhält man wieder eine Zerlegung von I. Diese ist feiner als Z1 und feiner als Z2 . Wir bezeichnen sie mit Z1 Z2 und nennen sie eine gemeinsame Verfeinerung von Z1 und Z2 . Definition 17.2 Eine Funktion t : I −→ R auf einem echten kompakten Intervall I = [a, b] heißt eine Treppenfunktion, falls es eine Zerlegung Z = (x0 , x1 , . . . , xn ) von I gibt, so dass t auf jedem offenen Teilintervall ]xν−1 , xν [ konstant ist. Es soll also reelle Zahlen c1 , . . . , cn geben mit für alle x ∈ ]xν−1 , xν [ und alle ν = 1, . . . , n. t(x) = cν Das Integral (oder Elementarintegral) der Treppenfunktion t ist die Zahl Z b Z t= a b t(x) dx := a Ergänzend definieren wir Z a t(x) dx := 0 , a n X cν (xν − xν−1 ) . ν=1 Z a Z t(x) dx := − b b t(x) dx . a Mit T (I) bezeichnen wir die Menge aller Treppenfunktionen auf einem kompakten Intervall I = [a, b]. Das Integral einer Treppenfunktion t gibt offenbar die richtige“ Definition des orientierten ” Flächeninhalts der Ordinatenmenge von t. In Abbildung 45 sind die Werte von t in den endlich vielen Teilpunkten xν der Intervallzerlegung durch dicke Punkte markiert. Diese Werte sind irrelevant für den Flächeninhalt; sie bleiben bei der Definition des Integrals von t unberücksichtigt. Aus diesem Grund haben wir bei der Definition von Treppenfunktionen über die Werte t(xν ) in den Teilpunkten nichts vorausgesetzt. 266 1111 0000 0000 1111 0000 1111 0000 1111 00 00000 11111 000 111 000 111 000011 1111 000 111 00 11 00000 11111 000 111 000 0000 1111 000 00 11 00000 11111 000111 111 000 111 111 0000 1111 000 111 00 11 00000 11111 000 111 000 111 0000 1111 000 111 00 11 00000 11111 000 111 000 111 0000 1111 000 111 0000 1111 000 111 00000 11111 00 11 000x =b 111 00 11 00000 11111 000 111 000 111 0000 1111 000 111 0000 1111 000 111 00000 11111 00 11 x =a 000 111 0000 1111 000 111 00000 11111 00 11 000 111 0000 1111 000 111 00000 11111 000 111 0000 1111 000 111 000 0000 1111 000111 111 000 111 000 111 000 111 n 0 Abbildung 45: Treppenfunktionen und ihr Integral Bemerkung 17.3 Die Definition des Integrals von Treppenfunktionen wirft ein (kleines) Wohldefiniertheitsproblem auf: Es gibt viele Zerlegungen Z = (x0 , x1 , . . . , xn ) des Intervalls I, so dass t auf jedem offenen Teilintervall ]xν−1 , xν [ konstant ist. Die Summe in der Definition des Integrals von t stützt sich auf eine bestimmte solche Zerlegung. Das Integral sollte aber nur von t und nicht von der Wahl der Zerlegung von I abhängen. Es ist nicht schwierig, die Unabhängigkeit von der Wahl der Intervallzerlegung zu beweisen: Je zwei Zerlegungen von I besitzen eine gemeinsame Verfeinerung. Es genügt daher den Fall zu diskutieren, dass die Zerlegung Z1 = (x0 , . . . , xk−1 , ξ, xk , . . . , xn ) aus der Zerlegung Z = (x0 , . . . , xk−1 , xk , . . . , xn ) durch Hinzunahme eines einzigen Teilpunktes ξ entsteht. Die Differenz der zu Z1 und zu Z gehörigen Summen ist dann ck (ξ − xk−1 ) + ck (xk − ξ) − ck (xk − xk−1 ) = 0. Hieraus folgt die Behauptung im allgemeinen Fall durch einen Induktionsschluss. Lemma 17.4 (Integral von Treppenfunktionen) Es seien t, t1 und t2 Treppenfunktionen auf einem echten kompakten Intervall I = [a, b]. Dann gilt: Rb Rb Rb (1) Auch t1 + t2 ist eine Treppenfunktion, und es ist a (t1 + t2 ) = a t1 + a t2 . (2) Für alle λ ∈ R ist λt eine Treppenfunktion, und es ist (3) Wenn t1 (x) ≤ t2 (x) für alle x ∈ I ist, dann ist Rb a t1 ≤ (4) Für beliebige α, β, γ ∈ I gilt Z γ Z β t= α Z t+ α 267 γ t. β Rb a Rb a (λt)(x) dx = λ · t2 . Rb a t(x) dx . Beweis. Wir dürfen annehmen, dass t, t1 und t2 bezüglich derselben Zerlegung Z von I definiert sind. (Anderenfalls ersetzt man die zugehörigen Zerlegungen durch eine gemeinsame Verfeinerung.) Die Behauptungen (1), (2) und (3) sind unmittelbare Folgerungen aus der Definition. (In (3) wird die Voraussetzung t1 (x) ≤ t2 (x) nur für diejenigen x benötigt, die keine Teilpunkte von Z sind.) Beliebig gegebene α, β, γ ∈ I kann man als zusätzliche Teilpunkte in die Zerlegung Z aufnehmen. Dann folgt (4) im Falle α < β < γ sofort aus der Definition des Integrals von t als Summe. In den übrigen Fällen folgt es aus den zusätzlichen Vereinbarungen in Definition 17.2. In der Sprache der Linearen Algebra kann man die Aussagen (1) und (2) in Lemma 17.4 wie folgt ausdrücken: Bezüglich der punktweisen Addition von Funktionen und der Multiplikation mit Skalaren λ ∈ R ist T (I) ein Vektorraum über dem Körper R. Die Abbildung Z b t(x) dx t 7→ a ist linear. Es handelt sich bei dieser Abbildung also um eine Linearform oder ein lineares Funktional auf dem reellen Vektorraum T (I). Wegen der Regel (3) heißt dieses lineare Funktional monoton. Eine Aufgabe der Integrationstheorie ist es, dieses monotone lineare Funktional auf T (I) zu einem Funktional mit den gleichen Eigenschaften auf einen möglichst großen Vektorraum von Funktionen fortzusetzen. 17.2 Definition des Riemann-Integrals Definition 17.5 Für Funktionen f : D −→ R und g : D −→ R schreiben wir f ≤ g oder auch g ≥ f , falls f (x) ≤ g(x) für alle x ∈ D gilt. Es sei f : I −→ R eine beschränkte Funktion auf einem echten kompakten Intervall I = [a, b]. Wegen der Beschränktheit gibt es Treppenfunktionen t1 und t2 auf I mit t1 ≤ f ≤ t2 . Die Mengen (Z ) (Z ) b b U := t(x) dx t ∈ T (I), t ≤ f und O := t(x) dx t ∈ T (I), t ≥ f a a von reellen Zahlen sind deshalb nicht leer. Nach Lemma 17.4 (3) gilt u ≤ v für alle u ∈ U und alle v ∈ O. Daher ist sup U = 6 ∞ und inf O 6= −∞. Die Elemente von U (d.h. die Rb Zahlen a t(x) dx mit t ∈ T (I), t ≤ f ) heißen Riemannsche Untersummen für f , und die Elemente von O heißen Riemannsche Obersummen für f . Das Supremum (Z ) Z b Z b b f= f (x) dx := sup U = sup t(x) dx t ∈ T (I), t ≤ f a a a heißt das Riemannsche oder Darbouxsche Unterintegral der Funktion f . Das Infimum (Z ) Z b Z b b f= f (x) dx := inf O = inf t(x) dx t ∈ T (I), t ≥ f a a a heißt das Riemannsche oder Darbouxsche Oberintegral der Funktion f . Wir beweisen einige funktionale Eigenschaften des Ober- und des Unterintegrals: 268 Lemma 17.6 (Ober- und Unterintegral) Es seien f : I −→ R und g : I −→ R beschränkte Funktionen auf einem echten kompakten Intervall I = [a, b]. Dann gilt: (1) Das Ober- und das Unterintegral von f sind reelle Zahlen, und es ist b Z b Z f (x) dx ≤ a f (x) dx . a (2) Es ist Z b b Z (f + g) ≥ b Z f+ a Z g a b b Z (f + g) ≤ und a Z f+ a a b g. a (3) Für alle reellen Zahlen λ ≥ 0 ist Z b Z b λ·f =λ· Z f a b Z b λ·f =λ· und a f. a a (4) Für alle reellen Zahlen λ < 0 ist Z b Z λ·f =λ· a b Z f b Z λ·f =λ· und a b f. a a Beweis. Die Bemerkungen in der Definition machen die Behauptung (1) klar. Es sei eine Zahl ε > 0 gegeben. Nach Definition des Unterintegrals als Supremum gewisser Untersummen und nach Proposition 2.34 gibt es Treppenfunktionen t1 und t2 auf I mit t1 ≤ f , t2 ≤ g und Z b Z b Z b Z b ε ε t2 > f − , g − . t1 > 2 2 a a a a Dann ist t1 + t2 eine Treppenfunktion auf I mit t1 + t2 ≤ f + g, und es gilt Z b Z b Z b Z b Z b Z b (f + g) ≥ (t1 + t2 ) = t1 + t2 > f+ g − ε. a a a a a a Die Ungleichung Z b Z (f + g) > a b Z a b g −ε f+ a besteht somit für jedes ε > 0. Hieraus folgt die erste Behauptung in (2), nämlich Z b Z b Z b (f + g) ≥ f+ g. a a a Die Behauptung (3) ist für λ = 0 klar, denn die konstante Funktion 0 hat offenbar das Oberund das Unterintegral 0. Nun sei λ > 0, und es sei eine Zahl ε > 0 gegeben. Wie zuvor gibt es dann Treppenfunktionen t3 und t4 auf I mit t3 ≤ f , t4 ≤ λf , Z b Z b Z b Z b ε t3 > f − und t4 > λf − ε . λ a a a a 269 Die Treppenfunktionen λt3 und t4 /λ auf I erfüllen λt3 ≤ λf und t4 /λ ≤ f sowie b Z b Z λf ≥ λt3 = λ b b Z f ≥λ λ a a a a a Z Z b t3 > λ f − ε , b Z a b Z 1 · t4 = λ Z b λf − ε . t4 > a a Hieraus folgt Z −ε < λ b b Z f − λf < ε. a a Weil das für jedes ε > 0 gilt, folgt Z b b Z λf = λ f. a a Damit ist die erste Behauptung in (3) bewiesen. Die übrigen Behauptungen des Satzes können analog bewiesen werden. Man kann aber auch folgendermaßen schließen: Für eine beliebige beschränkte Funktion h : I −→ R ergeben die Definitionen Z b Z b h = − (−h) . a a Hieraus und aus den bereits bewiesenen Eigenschaften der Unterintegrale folgen die Behauptungen in (2) und in (3) über Oberintegrale, und mit (3) folgen dann auch die beiden Behauptungen in (4). Definition 17.7 Es sei I = [a, b] ein echtes kompaktes Intervall. Eine Funktion f : I −→ R heißt Riemann-integrierbar, falls sie beschränkt ist und Z b Z f (x) dx = b f (x) dx a a gilt. In diesem Fall heißt der gemeinsame Wert des Unter- und des Oberintegrals von f das (Riemann-)Integral von f oder auch das bestimmte Integral von f in den Grenzen von a bis b. Es wird mit Z Z b Z Z b f oder f oder f (x) dx oder f (x) dx I a I a bezeichnet. Ergänzend setzen wir Z a Z f (x) dx := 0 a a Z f (x) dx = − und b b f (x) dx , a und wir sehen jede Funktion f : [a, a] −→ R als Riemann-integrierbar an. Mit R(I) bezeichnen wir die Menge aller Riemann-integrierbaren Funktionen auf einem kompakten Intervall I. 270 Wir werden in Teil V der Vorlesung die etwas subtilere Integrationstheorie von H. Lebesgue (1875 – 1941) studieren. Wie sich herausstellen wird, ist jede Riemann-integrierbare Funktion f auch Lebesgue-integrierbar, und das Integral von f nachR Lebesgue hat denselben Wert wie b das Integral nach Riemann. Deshalb können wir die Zahl a f (x) dx in der obigen Definition kurz das Integral von f nennen und die umständlichere Bezeichnung Riemann-Integral vermeiden. R Das Integralsymbol geht auf Leibniz zurück. P Es soll historisch aus einem handschriftlich sehr in die Länge gezogenen Summenzeichen oder S entstanden sein. Das folgende Kriterium für Integrierbarkeit ergibt sich direkt aus den Definitionen, stellt aber dennoch ein wichtiges beweistheoretisches Hilfsmittel dar: Lemma 17.8 (Integrabilitätskriterium von Riemann) Eine Funktion f : I −→ R auf einem kompakten Intervall I = [a, b] ist genau dann Riemann-integrierbar, wenn es zu jeder Zahl ε > 0 Treppenfunktionen t und T auf I gibt mit Z b (T − t) < ε. t≤f ≤T und a Beweis. =⇒ “: Es sei f als Riemann-integrierbar vorausgesetzt. Es sei ein ε > 0 gegeben. ” Nach Definition des Unter- bzw. Oberintegrals gibt es dann Treppenfunktionen t, T ∈ T (I) mit t ≤ f ≤ T und Z b Z b Z b Z b ε ε T < f+ . f− , t> 2 2 a a a a Hieraus und aus der Riemann-Integrierbarkeit von f folgt sofort Z b Z b Z b Z b Z b ε ε (T − t) = T− t< f+ − f + = ε. 2 2 a a a a a ⇐=“: Nun sei vorausgesetzt, dass die im Lemma angegebene Bedingung erfüllt ist. Es sei ” ein ε > 0 gegeben. Hierzu gibt es dann also Treppenfunktionen t0 und T0 auf I mit Z b t0 ≤ f ≤ T0 und (T0 − t0 ) < ε. a Wegen der Beschränktheit der Treppenfunktionen t0 und T0 bedeutet dies zunächst, dass f beschränkt ist. Nach Definition des Unter- und Oberintegrals folgt außerdem (Z ) Z b b f = inf T T ∈ T (I), T ≥ f a a Z b Z b ≤ T0 < t0 + ε a a (Z ) Z b b ≤ sup t t ∈ T (I), t ≤ f + ε = f + ε. a a Rb f ≤ a f . Da andererseits gemäß Lemma 17.6 (1) Rb Rb auch die umgekehrte Abschätzung gilt, ist a f = a f . Dies bedeutet definitionsgemäß, dass f Riemann-integrierbar ist. Dies gilt für alle ε > 0. Daher ist sogar Rb a 271 Beispiel 17.9 (1) Es sei f : I −→ R eine Treppenfunktion auf I = [a, b]. In Definition 17.2 haben wir das Rb (Elementar-)Integral a f (x) dx erklärt. Natürlich möchten wir, dass f auch Riemannintegrierbar im Sinne von Definition 17.7 ist, und dass beide Integrale den gleichen Wert haben. Dass dies der Fall ist, ist leicht einzusehen. Wegen f ∈ T (I) gilt nämlich f ∈ {t ∈ T (I) | t ≤ f } f ∈ {t ∈ T (I) | t ≥ f } . und Die Definition des Ober- und des Unterintegrals sowie Lemma 17.6 (1) ergeben daher Z b Z b Z f≤ f≤ b Z f≤ f, a a a b a wobei an zweiter Stelle das Elementarintegral der Treppenfunktion f im Sinne von Definition 17.2 steht. Hieraus folgt Z b Z f= a b Z b f= a f. a Dies bedeutet, dass f Riemann-integrierbar ist und das Riemann-Integral von f mit dem Elementarintegral der Treppenfunktion f übereinstimmt. Es gilt also T (I) ⊆ R(I). (2) (∗) Es sei A > 0. Wir wollen nachvollziehen, wie Archimedes den Flächeninhalt der Ordinatenmenge P = {(x, y) ∈ R2 | 0 ≤ x ≤ A, 0 ≤ y ≤ x2 } unter der Parabel y = x2 gemessen hat. Mit einer natürlichen Zahl n zerlegen wir I = [0, A] in n gleich lange Teilintervalle mit den Teilpunkten xk = kA n , k = 0, 1, . . . , n. Zwei Treppenfunktionen tn ≤ f und Tn ≥ f auf I werden durch tn (0) = Tn (0) = 0 und tn (x) = x2k−1 = (k − 1)2 A2 , n2 Tn (x) = x2k = k 2 A2 n2 für xk−1 < x ≤ xk und k = 1, . . . , n definiert. Mit der bekannten Beziehung m X k=1 k2 = 1 · m(m + 1)(2m + 1) 6 für alle m ∈ N berechnen wir ihre Elementarintegrale Z A tn = 0 n X A (k − 1)A 2 A3 1 1 1 1 = 3 · (n − 1) · n · (2n − 1) = A3 · 1 − · 1− n n n 6 3 n 2n k=1 und Z 0 A n X A kA 2 A3 1 1 3 1 1 Tn = · = 3 · n(n + 1)(2n + 1) = A · 1 + 1+ . n n n 6 3 n 2n k=1 272 x1 x2 xn = A Abbildung 46: Parabelmessung des Archimedes Die Formeln zeigen Z lim n→∞ 0 A Z tn (x) dx = lim n→∞ 0 A 1 Tn (x) dx = A3 . 3 Hieraus folgt mittels Lemma 17.8, dass die Funktion x 7→ x2 auf I Riemann-integrierbar ist und das Integral Z A 1 x2 dx = A3 3 0 hat. – Wir konnten hier die Definition des Integrals erfolgreich anwenden. Das Beispiel zeigt aber auch, wie wünschenswert Methoden sind, mit denen man Integrale mit weniger Mühe ausrechnen kann. (3) Auf dem Intervall I = [0, 1] betrachten wir die aus Beispiel 9.14 (1) bekannte DirichletFunktion f . Es sei also f (x) = 1 für rationale x und f (x) = 0 für irrationale x in I. Es sei t eine Treppenfunktion auf I mit t ≤ f . Weil R \ Q dicht in R ist, gibt es dann eine endliche Menge E ⊆ R , so dass t(x) ≤ 0 für alle x ∈ [0, 1] \ E gilt. (Die Ausnahmemenge E tritt dadurch auf, dass t(x) in den Teilpunkten x der die Treppenfunktion definierenden Zerlegung beliebig festgelegt werden kann, sofern nur R1 t(x) ≤ 1 ist.) Es ist dann 0 t ≤ 0. Ebenso gibt es wegen der Dichtheit von Q in R für jede Treppenfunktion T auf I mit T ≥ f eine R 1 endliche Menge E ⊆ R , so dass T (x) ≥ 1 für alle x ∈ [0, 1] \ E gilt, und es folgt 0 T ≥ 1 für jedes solche T . Deshalb ist Z 1 Z f (x) dx ≤ 0 0 0 273 1 f (x) dx ≥ 1 . und Die Betrachtung der Treppenfunktionen t ≡ 0 und T ≡ 1, welche t ≤ f ≤ T erfüllen, zeigt, dass hierin sogar Gleichheit gilt, also Z 1 Z 1 f (x) dx = 0 und f (x) dx = 1 0 0 ist. Damit ist gezeigt, dass die Dirichlet-Funktion f nicht Riemann-integrierbar ist. Für die Funktion g := 1 − f folgt mit analoger Begründung Z 1 Z 1 g(x) dx = 0 und g(x) dx = 1 . 0 0 Die Summe f + g = 1 ist eine Treppenfunktion, und daher folgt Z 1 Z 1 Z 1 Z 1 Z 1 f+ g=0<1= (f + g) < 2 = f+ g. 0 0 0 0 0 Wir haben damit ein Beispiel für strikte Ungleichungen in Lemma 17.6 (2). Wir werden später (in Beispiel 30.14) R 1 zeigen, dass die Dirichlet-Funktion f Lebesgueintegrierbar ist und das Integral 0 f (x) dx = 0 hat. Der Grund dafür ist, dass Q als abzählbare Menge eine zwar unendliche, aber in einem gewissen Sinne trotzdem sehr ” kleine“ Menge (eine sog. Nullmenge) ist und f nur auf dieser kleinen“ Menge von der ” Konstanten 0 abweicht. 17.3 Operationen mit integrierbaren Funktionen Satz 17.10 Es seien f und g Riemann-integrierbare Funktionen auf dem kompakten Intervall I = [a, b], und es sei λ ∈ R. Dann sind die Funktionen f + g und λf Riemannintegrierbar, und es gilt: Rb Rb Rb (1) Es ist a (f + g) = a f + a g . Rb Rb (2) Es ist a λf = λ a f . Rb Rb (3) Wenn f ≤ g ist, dann folgt a f ≤ a g . Beweis. Offenbar sind f + g und λf beschränkt. Aus Lemma 17.6 (1)/(2) und aus der Riemann-Integrierbarkeit von f und g folgt Z b Z b Z b Z b Z b Z b Z b (f + g) ≤ f+ g= (f + g) . f+ g ≤ (f + g) ≤ a a a a a a a Hieraus folgt die Riemann-Integrierbarkeit von f + g und die Behauptung (1). Ganz ähnlich folgt (2). Wir setzen nun f ≤ g voraus. Für jede Treppenfunktion t auf I mit t ≤ f gilt dann auch t ≤ g. Daher folgt gemäß der Definition des Unterintegrals als Supremum gewisser Untersummen Z Z Z Z b b f≤ f= a b a g= a Damit ist (3) bewiesen. b g. a 274 In der Sprache der Linearen Algebra haben wir damit gezeigt, dass R(I) ein reeller Vektorraum R ist und dass durch f 7→ I f ein monotones lineares Funktional auf diesem Vektorraum definiert ist. Wir zeigen nun, dass innerhalb dieses Vektorraums noch einige andere Operationen ausführbar sind, die aus Funktionen in R(I) wieder Funktionen in R(I) machen. Definition 17.11 Für eine Funktion f : D −→ R auf einer Menge D setzen wir f + (x) := max{f (x), 0} f − (x) := − min{f (x), 0} . und Offenbar gilt dann f + ≥ 0, f − ≥ 0, f = f + − f −, |f | = f + + f − . Wir können f + den positiven Anteil und f − den positiv gemachten negativen Anteil von f nennen. f− f+ f Abbildung 47: f + und f − Satz 17.12 Es seien f : I −→ R und g : I −→ R Riemann-integrierbare Funktionen auf einem echten kompakten Intervall I = [a, b]. Dann gilt: (1) Die Funktionen f + und f − sind Riemann-integrierbar. (2) Die Funktion |f | ist Riemann-integrierbar, und es gilt die Standardabschätzung für Integrale Z b Z b ≤ f (x) dx |f (x)| dx . a a (3) Für jede reelle Zahl p ≥ 1 ist die Funktion |f |p Riemann-integrierbar. (4) Die Funktion f · g ist Riemann-integrierbar. (5) Die Funktion f ist auf jedem kompakten Teilintervall von I Riemann-integrierbar. Für beliebige α, β, γ ∈ I ist Z γ Z β Z γ f= f+ f. α α 275 β Beweis. (1) Es sei eine Zahl ε > 0 gegeben. Nach dem Riemann’schen Integrabilitätskriterium (Lemma 17.8) gibt es dann Treppenfunktionen t1 und t2 auf I mit t1 ≤ f ≤ t2 und Rb + (t − t1 ) < ε. Auch t+ 1 und t2 sind Treppenfunktionen auf I. Es gilt a 2 + + t+ 1 ≤ f ≤ t2 + 0 ≤ t+ 2 − t1 ≤ t2 − t1 . und Die letzte Abschätzung ergibt sich durch folgende naheliegende Fallunterscheidung: Ist + + t2 (x) ≥ 0, so ist t+ 2 (x) − t1 (x) = t2 (x) − t1 (x) ≤ t2 (x) − t1 (x). Ist hingegen t2 (x) < 0, + so ist auch t1 (x) ≤ t2 (x) < 0, also t+ 2 (x) − t1 (x) = 0 − 0 = 0 ≤ t2 (x) − t1 (x). Aus Lemma 17.4 (3) folgt also Z 0≤ b (t+ 2 − t+ 1) Z ≤ b (t2 − t1 ) < ε . a a Gemäß Lemma 17.8 ist f + somit Riemann-integrierbar. Wegen Satz 17.10 ist f − = f + − f folglich ebenfalls Riemann-integrierbar. Damit ist (1) bewiesen. (2) Aus (1) und aus Satz 17.10 folgt nun, dass |f | = f + + f − Riemann-integrierbar R R ist. b b Wegen f ≤ |f | und −f ≤ |f | folgt aus Satz 17.10 auch die Ungleichung a f ≤ a |f |. Damit ist (2) bewiesen. (3) Es sei eine Zahl p ≥ 1 gegeben. Weil f beschränkt ist, gibt es eine Zahl λ > 0 mit 0 ≤ h := 1 · |f | ≤ 1. λ Wegen (2) und Satz 17.10 (2) ist die Funktion h Riemann-integrierbar. Es sei eine Zahl ε > 0 gegeben. Hierzu gibt es nach Lemma 17.8 Treppenfunktionen t und T auf I mit Z b ε (T − t) < . t≤h≤T und p a O.B.d.A. dürfen wir t ≥ 0 und T ≤ 1 annehmen. Auch tp und T p sind Treppenfunktionen auf I, und diese erfüllen 0 ≤ tp ≤ hp ≤ T p ≤ 1. Wir müssen das Integral der Differenz T p − tp abschätzen. Dazu wenden wir den Mittelwertsatz (Satz 15.8) auf die Funktion x 7→ xp mit der Ableitung x 7→ pxp−1 an. Wir erhalten für beliebige x, y mit 0 ≤ x < y ≤ 1 die Ungleichung 0 < y p − xp ≤ (y − x) · sup{p ξ p−1 | 0 < ξ < 1} = p · (y − x). Damit folgt 0 ≤ T p − tp ≤ p · (T − t), mittels Lemma 17.4 also Z b p p Z (T − t ) ≤ p a b (T − t) < p · a ε = ε. p Nach Lemma 17.8 ist daher hp Riemann-integrierbar. Also ist auch |f |p = λp hp Riemann-integrierbar. Damit ist (3) bewiesen. 276 (4) Aus der Identität 1 · ((f + g)2 − (f − g)2 ) 4 und aus (3) und Satz 17.10 folgt die Behauptung (4). f ·g = (5) Es sei ein kompaktes Teilintervall [c, d] ⊆ I gegeben. Zum Nachweis der RiemannIntegrierbarkeit von f auf [c, d] ziehen wir abermals das Integrabilitätskriterium von Riemann (Lemma 17.8) heran. Es sei also ein ε > 0 gegeben. Da f auf I Riemann-integrierbar ist, gibt es Treppenfunktionen t, T ∈ T (I) mit b Z t≤f ≤T (T − t) < ε. und a Die Restriktionen e t := t|[c,d] und Te := T |[c,d] sind dann Treppenfunktionen auf [c, d], und sie erfüllen selbstverständlich e t ≤ f |[c,d] ≤ Te. Mit Lemma 17.4 (4) und mit T −t ≥ 0 erhält man außerdem Z d Z b Z c Z b Z d e e (T − t) = (T − t) − (T − t) − (T − t) T −t = c a a d c Z b ≤ (T − t) − 0 − 0 < ε. a Aus Lemma 17.8 folgt also die Riemann-Integrierbarkeit von f auf [c, d]. Damit ist die erste Behauptung in (5) gezeigt. Die zweite Behauptung ist für Treppenfunktionen bereits aus Lemma 17.4 (4) bekannt. Wir wollen sie auf beliebige Riemann-integrierbare Funktionen übertragen. Hierzu seien α, β, γ ∈ [a, b] gegeben. O.B.d.A. darf man α < γ < β annehmen. (Die übrigen Fälle Rc Rd kann man mittels der Konventionen d f = − c f hierauf zurückführen.) Durch das Rβ Rγ Rγ soeben Gezeigte ist dann die Existenz der Integrale α f , α f und β f gesichert. Es sei wiederum ein ε > 0 gegeben. Wegen der Riemann-Integrierbarkeit von f auf [α, β] findet man hierzu Treppenfunktionen t, T ∈ T ([α, β]) mit β Z t ≤ f |[α,β] ≤ T (T − t) < ε. und α Mit der Monotonie des Integrals (Satz 17.10 (3)) und mit Lemma 17.4 (4) folgt nun Z β β Z f≤ T ≤ α Z Z f≥ α Z t≥ α T −ε= α α β Z Z α γ Z γ α γ Z Z β f −ε≤ f+ α β γ Z γ f≤ α 277 Z f+ α β f + ε. γ β f − ε, f+ insgesamt also Z f +ε γ T −ε≥ T+ β Z f+ γ γ γ Z t+ε≤ α β β Z t+ α β γ Z t+ε= α und analog Z β β Z γ Da dies für alle ε > 0 gilt, muss Z β Z γ f= Z β f+ α α f γ sein. Damit ist auch die zweite Behauptung in (5) gezeigt. Die Voraussetzung p ≥ 1 in Satz 17.12 (3) wird im Beweis zur Abschätzung des Supremums von pξ p−1 über 0 < ξ < 1 benötigt. Das Ergebnis selber gilt auch unter der schwächeren Voraussetzung p > 0. Das können wir in Kapitel 30.4 aus einem Kriterium von Lebesgue folgern. In der Lebesgueschen Integrationstheorie spielen Funktionen f eine Rolle, wofür |f |p integrierbar ist. Der Vektorraum dieser Funktionen kann unter der Voraussetzung p ≥ 1 zu einem sogenannten normierten Raum gemacht werden. Damit werden wir uns in Kapitel 32 beschäftigen. In Satz 17.12 (4) gilt natürlich i. Allg. Z b Z b Z f· f g 6= g. a a a b Jedoch besteht die folgende Abschätzung, die ein Analogon zur Cauchy-Schwarzschen Ungleichung aus Satz 3.11 darstellt. Satz 17.13 (Cauchy-Schwarzsche Ungleichung) Es seien f, g : I −→ R Riemannintegrierbare Funktionen auf einem kompakten Intervall I = [a, b]. Dann gilt s Z b sZ b Z b 2 f g ≤ f · g2. a a a Die Analogie zu Satz 3.11 ist nicht zufällig: Beide Resultate erweisen sich vom Standpunkt der Linearen Algebra aus als Spezialfälle derselben allgemeinen Cauchy-Schwarzschen Ungleichung für Skalarprodukte: Die Riemann-integrierbaren Funktionen auf I bilden nach Satz 17.10 einen reellen Vektorraum R(I), das Integral ist eine Linearform auf R(I), und für beliebige f, g ∈ R(I) gilt nach Satz 17.12 auch f g ∈ R(I). Daher ist Z b Z b hf , gi := fg = f (x)g(x) dx a a wohldefiniert, und hierdurch ist eine symmetrische Bilinearform h , i auf R(I) gegeben, d.h. für alle f, f1 , f2 , g ∈ R(I) und alle λ ∈ R gilt hg, f i = hf, gi , hf1 + f2 , gi = hf1 , gi + hf2 , gi und hλf, gi = λ · hf, gi. Weiter gilt ||f || := p hf , f i ≥ 0 für alle f ∈ R(I). Die Bilinearform unterscheidet sich nur dadurch von einem Skalarprodukt auf R(I), dass sie nicht positiv definit ist, d.h. dass der Fall ||f || = 0 auch für Funktionen f 6= 0 in R(I) eintreten kann. Unter Verwendung der Schreibweisen hf, gi und ||f || können wir den Beweis von Satz 3.11 fast wörtlich übernehmen (und dort sogar auf die komplexe Konjugation verzichten). Die Behauptung lautet dann |hf, gi| ≤ ||f || · ||g|| für alle f, g ∈ R(I). Lediglich in dem Fall, dass auf der rechten Seite der behaupteten Abschätzung Null steht, müssen wir anders argumentieren. 278 Beweis. Es seien f, g ∈ R(I) gegeben. Für alle λ, µ ∈ C gilt gemäß den oben zusammengefassten Regeln 0 ≤ hλf + µg, λf + µgi = λ2 · hf, f i + µ2 · hg, gi + 2λµ · hf, gi. Insbesondere gilt dies für λ := hg, gi = ||g||2 ≥ 0 und µ := −hf, gi. Für diese Wahl von λ, µ ergibt sich 0 ≤ ||g||4 · ||f ||2 + ||g||2 · |hf, gi|2 − 2||g||2 · |hf, gi|2 = ||g||2 · ||g||2 · ||f ||2 − |hf, gi|2 . Im Falle ||g|| > 0 folgt hieraus ||g||2 · ||f ||2 − |hf, gi|2 ≥ 0, also |hf, gi|2 ≤ ||g||2 · ||f ||2 und sodann durch Wurzelziehen die behauptete Abschätzung. Nun sei ||g|| = 0. Dieser Fall bedarf besonderer Aufmerksamkeit, da hier anders als im Beweis von Satz 3.11 der Schluss g = 0 nicht zulässig ist. Wir geben uns ein ε > 0 vor. Es gilt dann |g(x)| ≤ ε + 1 2 · g (x) ε für alle x ∈ I (denn diese Abschätzung ist für alle x ∈ I mit |g(x)| ≤ ε und auch für alle x ∈ I mit Rb |g(x)| > ε offensichtlich richtig). Aus der Monotonie des Integrals und aus a g 2 = 0 folgt daher Z b Z b Z b Z b 1 1 2 g 2 = (b − a) · ε. 0≤ |g| ≤ ε+ · ε+ ·g = ε ε a a a a Rb Da dies für alle ε > 0 gilt, muss a |g| = 0 sein. Nun ist f als Riemann-integrierbare Funktion beschränkt, es gibt also ein M > 0 mit |f (x)| ≤ M für alle x ∈ I. Damit und mit der Standardabschätzung für Integrale in Satz 17.12 (2) folgt Z b Z b Z b 0≤ f g ≤ |f g| ≤ M · |g(x)| dx = 0, a also auch 17.4 Rb a a a f g = 0. Damit ist die Behauptung auch in diesem Fall gezeigt. Die Integrierbarkeit der stetigen und der monotonen Funktionen Stetige Funktionen auf kompakten Intervallen sind Riemann-integrierbar. Als Hilfsmittel zum Beweis benötigen wir die aus Satz 13.31 bekannte Tatsache, dass stetige Funktionen auf Kompakta sogar gleichmäßig stetig sind. Satz 17.14 integrierbar. Jede stetige Funktion auf einem kompakten Intervall ist Riemann- 279 Beweis. Im Fall I = [a, a] ist die Behauptung klar. Es sei also o.B.d.A. I = [a, b] mit a < b ein echtes kompaktes Intervall und f : I −→ R eine stetige Funktion. Nach dem Satz vom Maximum (Korollar 10.3) ist f beschränkt auf I. Es sei eine Zahl ε > 0 gegeben. Nach Satz 13.31 ist f gleichmäßig stetig. Daher gibt es ein die Ungleichung n ∈ N, so dass für alle x, y ∈ I mit |x − y| ≤ b−a n |f (x) − f (y)| < ε b−a gilt. Es sei Z = (x0 , x1 , . . . , xn ) die Zerlegung von I mit den äquidistanten Teilpunkten xk = a + k · b−a . Wegen der Beschränktheit von f sind n ck := inf{f (x) | xk−1 ≤ x ≤ xk } und Ck := sup{f (x) | xk−1 ≤ x ≤ xk } reelle Zahlen56 , und es gilt ε . b−a Wir definieren Treppenfunktionen t, T auf I durch 0 ≤ C k − ck ≤ t(x) := ck , T (x) := Ck für xk−1 ≤ x < xk und k = 1, . . . , n; im Punkt b können wir t(b) = T (b) := f (b) setzen. Dann gilt t ≤ f ≤ T und Z b (T − t) = a n X (Ck − ck ) · (xk − xk−1 ) k=1 ≤ n X k=1 ε ε · (xk − xk−1 ) = · (xn − x0 ) = ε . b−a b−a Nach Lemma 17.8 ist f somit Riemann-integrierbar. Satz 17.15 integrierbar. Jede monotone Funktion auf einem kompakten Intervall ist Riemann- Beweis. Es sei I = [a, b], und f : I −→ R sei monoton. Wiederum genügt es, den Fall a < b zu betrachten. Wir dürfen annehmen, dass f monoton steigt. Für alle x ∈ I gilt dann f (a) ≤ f (x) ≤ f (b). Insbesondere ist f beschränkt. Für eine beliebige natürliche Zahl n betrachten wir die Zerlegung Z = (x0 , x1 , . . . , xn ) von I mit den äquidistanten Teilpunkten xk = a + k · b−a . n Nun definieren wir zwei Treppenfunktionen t und T auf I durch t(x) := f (xk−1 ) und T (x) := f (xk ) für xk−1 ≤ x < xk und k = 1, . . . , n sowie t(b) = T (b) := f (b). Weil f monoton steigt, gilt t≤f ≤T. 56 Aufgrund der Stetigkeit von f handelt es sich bei Ck und ck sogar um Maxima bzw. Minima. 280 a = x0 x1 x2 xn = b Abbildung 48: Integrierbarkeit monotoner Funktionen Das Integral der Differenz T − t ist Z b (T − t) = a n X f (xk ) − f (xk−1 ) · (xk − xk−1 ) k=1 b−a · (f (xn ) − f (x0 )) n b−a = · (f (b) − f (a)) . n = Zu jeder Zahl ε > 0 gibt es eine natürliche Zahl n, wofür in dieser Abschätzung die rechte Seite kleiner als ε ist. Für die zu diesem n gehörigen Treppenfunktionen ist also die Bedingung in Lemma 17.8 erfüllt, und somit ist f Riemann-integrierbar. 281 18 Der Hauptsatz der Differential- und Integralrechnung In diesem Kapitel wird die bereits in Abschnitt 16.1 erwähnte Verbindung zwischen der Differentiation und der (bestimmten) Integration (im Sinne von Kapitel 17) hergestellt. Dies ist der Inhalt des Hauptsatzes der Differential- und Integralrechnung. Dadurch erhalten wir machtvolle Werkzeuge mit vielfältigen Anwendungsmöglichkeiten. Wir lernen, dass jede stetige Funktion eine Stammfunktion besitzt und dass diese mit Hilfe eines Integrals konstruiert werden kann. Zugleich erhalten wir eine effiziente Methode, mit der viele Integrale mittels Stammfunktionen mühelos berechnet werden können. Ein entscheidendes Hilfsmittel im Beweis des Hauptsatzes stellt der folgende Mittelwertsatz dar. Satz 18.1 (Mittelwertsatz der Integralrechnung) Es seien f, p : I −→ R stetige Funktionen auf einem echten kompakten Intervall I = [a, b]. Für alle x ∈ I sei p(x) ≥ 0. Dann gilt: (1) Es gibt ein ξ ∈ I mit Z b f (x) dx = f (ξ) · (b − a). a (2) Es gibt ein η ∈ I mit Z b Z f (x)p(x) dx = f (η) · a b p(x) dx. a Beweis. Aus (2) erhält man die Behauptung (1), wenn man für p die konstante Funktion 1 wählt. Es genügt daher, (2) zu beweisen. Weil f stetig und I kompakt ist, existieren nach dem Satz vom Maximum (Korollar 10.3) M := max f (x) x∈I und m := min f (x). x∈I Wegen p ≥ 0 folgt m · p(x) ≤ f (x) · p(x) ≤ M · p(x) für alle x ∈ I. Nach Satz 17.14 sind f und f · p als stetige Funktionen Riemann-integrierbar. Mit Satz 17.10 (3) folgt daher Z b Z b Z b m· p(x) dx ≤ f (x)p(x) dx ≤ M · p(x) dx . a Rb a a Rb Im Falle a p(x) dx = 0 folgt hiernach auch a f (x)p(x) dx = 0, und dann gilt (2) bei Rb beliebiger Wahl von η ∈ I. Jetzt wird a p(x) dx 6= 0 vorausgesetzt. Dieses Integral ist dann positiv (da p ≥ 0), und es folgt Rb f (x)p(x) dx ≤ M. m ≤ aR b p(x) dx a Da f stetig ist, gilt nach dem Zwischenwertsatz (Satz 10.9) f (I) = [m; M ]; es gibt also ein η ∈ I, so dass der Funktionswert f (η) gleich dem Quotienten in diesen Ungleichungen ist. Damit ist (2) auch in diesem Fall bewiesen. 282 Bemerkung 18.2 (1) Die Behauptung (1) ist anschaulich evident: Falls f stetig ist, ist der Flächeninhalt der Ordinatenmenge von f gleich einer Rechtecksfläche f (ξ)(b − a) mit geeignetem ξ. Abbildung 49: Zum Mittelwertsatz der Integralrechnung (2) Die Stetigkeitsvoraussetzung im Mittelwertsatz der Integralrechnung ist unverzichtbar. Ein Beispiel hierfür lernen wir in den Übungen kennen. Der erste Teil des Hauptsatzes liefert eine Konstruktion von Stammfunktionen, der zweite Teil eine Methode zur Berechnung von Integralen mit Hilfe von Stammfunktionen: Satz 18.3 (Hauptsatz der Differential- und Integralrechnung) eine stetige Funktion auf einem echten Intervall I. Dann gilt: Es sei f : I −→ R (a) Die Funktion f besitzt eine Stammfunktion. Wählt man ein a ∈ I und setzt man Z x Fa (x) := f (t) dt für alle x ∈ I, a dann ist Fa eine Stammfunktion57 von f ; es ist also Fa differenzierbar mit Fa0 = f . (b) Es sei F eine beliebige Stammfunktion von f . Für beliebige a, b ∈ I gilt dann Z b f (t) dt = F (b) − F (a). a Notation. Für die Formel in (b) ist die Schreibweise Z b t=b b f (t) dt = F (b) − F (a) = F (t) = F (t) t=a a üblich und nützlich. Die Funktion Fa (x) = funktion von f . Rx a a f (t) dt in (a) bezeichnet man als Integral- 57 Die Ableitung heißt auf Englisch derivative, und eine Stammfunktion wird antiderivative genannt. Man könnte sie auch im Deutschen eine Antiderivierte nennen und damit zum Ausdruck bringen, dass es sich beim Integrieren um eine Umkehrung des Differenzierens handelt. 283 Beweis. (a) Nach Satz 17.14 ist f auf jedem kompakten Teilintervall von I Riemann-integrierbar. Wählt man also ein a ∈ I, dann ist durch die Formel im Satz eine Funktion Fa : I −→ R wohldefiniert. Es sei ein x0 ∈ I gegeben. Es sei (xn )n eine beliebige Folge in I, die gegen x0 konvergiert. Für jedes n ist dann Z xn Z x0 Z xn 1 Fa (xn ) − Fa (x0 ) 1 f (t) dt = f (t) dt . = · f (t) dt − · xn − x0 xn − x0 x n − x 0 x0 a a Nach dem Mittelwertsatz der Integralrechnung (Satz 18.1) gibt es ein ξn zwischen x0 und xn mit Z xn 1 f (t) dt = f (ξn ). · x n − x 0 x0 Wegen limn→∞ xn = x0 und |ξn − x0 | ≤ |xn − x0 | ist auch limn→∞ ξn = x0 . Weil f im Punkt x0 stetig ist, ergibt sich mit dem Folgenkriterium für Stetigkeit Fa (xn ) − Fa (x0 ) = lim f (ξn ) = f (x0 ). n→∞ n→∞ xn − x0 lim Dies gilt für jede gegen x0 konvergente Folge (xn )n in I. Gemäß Satz 9.18 (1) existiert also der Grenzwert Fa (x) − Fa (x0 ) lim = f (x0 ). x→x0 x − x0 Also ist Fa in x0 differenzierbar, und die Ableitung ist Fa0 (x0 ) = f (x0 ). Das gilt für jedes x0 ∈ I. Somit ist Fa eine Stammfunktion von f . (b) Es sei ein x0 ∈ I fest gewählt. Dann definiert Z x Fx0 (x) := f (t) dt x0 gemäß (a) eine Stammfunktion Fx0 von f . Da auch F eine Stammfunktion von f ist, unterscheiden sich F und Fx0 nach Proposition 16.2 nur durch eine additive Konstante, es ist also F = Fx0 + C mit einem C ∈ R. Für alle a, b ∈ I folgt nun Z b Z b Z a f (t) dt = f (t) dt − f (t) dt = Fx0 (b) − Fx0 (a) = F (b) − F (a). a x0 x0 Satz 18.3 ist das zentrale Ergebnis zur Berechnung konkreter Integrale. Man benötigt danach nur“ eine Stammfunktion und hat von dieser lediglich die Differenz der Funktionswerte an ” den beiden Endpunkten des Integrationsintervalls zu bilden. Insbesondere spielt es keine Rolle, welche Werte die Stammfunktion im Inneren des Integrationsintervalls annimmt. Rb In Abschnitt 17.2 hatten wir vereinbart, ein Integral a f (t) dt ein bestimmtes Integral zu nennen. Wenn FR eine Stammfunktion einer stetigen Funktion f ist, dann gilt nach Satz 18.3 b (b) die Formel a f (t) dt = F (b) − F (a). Hierdurch wird es erklärlich, warum Stammfunktionen auch unbestimmte Integrale genannt werden. Die Resultate hierüber in Kapitel 16 erscheinen jetzt in neuem Licht und von größerem Wert. Wir müssen nicht mehr die Existenz von Stammfunktionen voraussetzen, sondern wir wissen, dass es für stetige Funktionen stets eine solche gibt. Es lohnt sich, die damaligen Integrationsregeln nochmals in Versionen für bestimmte Integrale zu formulieren. Die Beweise ergeben sich unmittelbar aus den Sätzen in Kapitel 16 und aus dem Hauptsatz. 284 Satz 18.4 (Partielle Integration) Es seien u : I −→ R und v : I −→ R stetig differenzierbare Funktionen auf einem Intervall I. Für beliebige a, b ∈ I gilt dann Z b a t=b Z b u0 (t)v(t) dt . − u(t)v (t) dt = u(t)v(t) 0 t=a a Beweis. Dies folgt direkt aus Satz 16.4 und dem Hauptsatz 18.3. Satz 18.5 (Substitutionsregel) Auf Intervallen I und J seien eine stetige Funktion f : I −→ R und eine stetig differenzierbare Funktion ϕ : J −→ I gegeben. Dann gilt: (1) Für alle a, b ∈ J ist b Z Z 0 ϕ(b) f (ϕ(t))ϕ (t) dt = a f (x) dx . ϕ(a) (2) Falls ϕ bijektiv ist, dann gilt Z β Z ϕ−1 (β) f (ϕ(t))ϕ0 (t) dt f (x) dx = ϕ−1 (α) α für alle α, β ∈ I. Beweis. (1) Nach dem Hauptsatz besitzt f eine Stammfunktion F . Nach der Kettenregel ist F ◦ ϕ dann eine Stammfunktion von (F 0 ◦ ϕ) · ϕ0 = (f ◦ ϕ) · ϕ0 . Aus Satz 18.3 (b) folgt daher Z a b x=ϕ(b) Z t=b = f (ϕ(t))ϕ (t)dt = (F ◦ ϕ)(t) = F (x) ϕ(b) 0 t=a x=ϕ(a) f (x) dx, ϕ(a) d.h. (1). (2) Ist ϕ bijektiv, so wendet man (1) mit a := ϕ−1 (α) und b := ϕ−1 (β) an und erhält sofort (2). Beispiel 18.6 (1) Für r > 0 bezeichne Ar den Flächeninhalt des Kreises vom Radius r mit dem Mittelpunkt (0, 0) in der Ebene. Wir interpretieren 14 · Ar als den Flächeninhalt der Ordinatenmenge der Funktion √ x 7→ r2 − x2 für 0 ≤ x ≤ r. Somit ist Ar = 4 · Z r√ 0 285 r2 − x2 dx . Das Integral existiert wegen der Stetigkeit (oder der Monotonie) des Integranden. Um es zu berechnen, wenden wir die Substitutionsregel mit x = rt an und erhalten Z rr Z 1√ x 2 2 Ar = 4r · 1− dx = 4r · 1 − t2 dt = r2 · A1 . r 0 0 Wie erwartet ist also Ar proportional zum Quadrat des Radius r. Durch t = ϕ(y) := sin(y) ist eine bijektive Abbildung des Intervalls [0, π2 ] auf das Intervall [0, 1] gegeben (vgl. Bemerkung 12.21 (1)). Die Ableitung ist ϕ0 (y) = cos(y). Satz 18.5 (2) ergibt daher 2 Z Ar = 4r · π/2 Z q 2 2 1 − sin (y) · cos(y) dy = 4r 0 π/2 cos2 (y) dy, 0 wobei wir noch den trigonometrischen Pythagoras“ und cos y ≥ 0 für alle y ∈ [0, π/2] ” benutzt haben. Aus Beispiel 16.5 (2) ist Z 1 sin2 (y) dy = (y − sin(y) cos(y)) + C 2 bekannt. Damit und mit cos2 (y) = 1 − sin2 (y) folgt Z 1 cos2 (y) dy = (y + sin(y) cos(y)) + C . 2 Also ist y=π/2 = πr2 . Ar = 2r2 · (y + sin(y) cos(y)) y=0 Damit haben wir endlich die bekannte Formel für den Flächeninhalt von Kreisen bewiesen, die den Namen Kreiszahl“ für π rechtfertigt. ” (2) Die Funktion t 7→ exp(−t2 ) ist stetig auf R. Durch Z x Φ(x) := exp(−t2 ) dt 0 wird also nach Satz 18.3 (a) eine differenzierbare Funktion Φ auf R mit der Ableitung Φ0 (x) = exp(−x2 ) definiert. Die Funktion Φ spielt in der Wahrscheinlichkeitstheorie und Statistik eine große Rolle. Sie heißt die (Gaußsche) Fehlerfunktion oder das (Gaußsche) Fehler- oder Wahrscheinlichkeitsintegral. Oft wird in der Definition √ von Φ noch der Normierungsfaktor 2/ π angebracht. Man kann zeigen, dass die Fehlerfunktion Φ keine elementare Funktion im Sinne der Erklärung in Abschnitt 16.3 ist. Man kann also Φ(x) nicht durch eine Formel ausdrücken, in der nur Funktionen aus dem uns bereits bekannten Fundus auftreten. Wir sollten dies nicht als betrübliche Unmöglichkeitsaussage werten, sondern eher positiv sehen: Wir können den Vorrat an differenzierbaren Funktionen mit Hilfe des Hauptsatzes (Satz 18.3) gewaltig vergrößern. Es bereitet keine Probleme, die Werte Φ(x) numerisch zu approximieren: Aus der Potenzreihenentwicklung ∞ X (−1)n 2n 2 exp(−t ) = ·t n! n=0 286 1√ π 2 • 1 −1,8 −2 1,8 • 2 H Y H − 1 √π 2 Abbildung 50: x 7→ exp(−x2 ) (links) und die Fehlerfunktion Φ(x) (rechts) folgt durch gliedweise Integration Φ(x) = ∞ X n=0 (−1)n · x2n+1 . (2n + 1) · n! Für nicht zu große“ Werte von |x| ist diese (alternierende) Reihe rasch“ konver” ” gent und daher gut“ durch eine geeignete Partialsumme approximierbar. Dass wir ” hier die Potenzreihe für exp(−t2 ) gliedweise integrieren dürfen, bedarf allerdings einer ausführlichen Rechtfertigung. Wir werden uns diesem Problem in Kapitel 19 zuwenden (Korollar 19.4). Bemerkung 18.7 Unpräzise formuliert, besagt der Hauptsatz der Differential- und Integralrechnung, dass Differentiation und Integration unter geeigneten Voraussetzungen zueinander inverse Operationen sind. Die Tatsache, dass Stammfunktionen nur bis auf additive Konstanten eindeutig sind, macht allerdings eine gewisse Vorsicht erforderlich: Setzt man X := C 0 ([a, b]) und Y := C 1 ([a, b]) und definiert für festes x0 ∈ [a, b] die beiden (linearen) Abbildungen Ix0 : X −→ Y, D : Y −→ X durch Z x (Ix0 (f ))(x) := f (t) dt für alle f ∈ X und alle x ∈ [a, b] x0 und D(f ) := f 0 für alle f ∈ Y, so gilt zwar D ◦ Ix0 = idX , aber Ix0 ◦ D 6= idY . Aus D ◦ Ix0 = idX folgt mittels Lemma 13.4 (b)/(c), dass Ix0 : X −→ Y injektiv und D : Y −→ X surjektiv ist. Hingegen ist Ix0 : X −→ Y nicht surjektiv (denn als Bilder unter Ix0 treten nur Funktionen auf, die in x0 eine Nullstelle haben), und D : Y −→ X ist nicht injektiv. 287 19 Grenzwertvertauschung bei der Differentiation und Integration Wie im Falle der Stetigkeit (Satz 11.7) stellt sich die Frage, unter welchen Voraussetzungen sich die Differenzierbarkeit bzw. Riemann-Integrierbarkeit einer Funktionenfolge auf die Grenzfunktion überträgt – und ob man Limesbildung und Differentiation bzw. Integration vertauschen darf. 19.1 Vertauschung der Integration mit Grenzübergängen Einfache Beispiele zeigen, dass die punktweise Konvergenz eine zu schwache Voraussetzung ist, um Limesbildung und Integration zu vertauschen: Beispiel 19.1 (1) Für n ≥ 2 definieren wir die Funktion fn : [0, 1] −→ R durch die Vorschrift 2 für 0 ≤ x < n1 , nx −n2 x + 2n für n1 ≤ x < n2 , fn (x) := 0 für n2 ≤ x ≤ 1. y 6 n• fn f +ε • 1 n - 1 x 2 n Abbildung 51: Eine der Funktionen fn aus Beispiel 19.1 (1) Wir haben fn aus linearen Funktionen zusammengestückelt. Die Überprüfung der linksseitigen Grenzwerte an den Stellen n1 und n2 zeigt, dass fn stetig ist. Die Folge (fn )n konvergiert punktweise gegen die Nullfunktion. Denn zu jedem x > 0 gibt es ein N mit 2 < x, so dass fn (x) = 0 für alle n ≥ N gilt. Ferner gilt fn (0) = 0 für alle n. Also ist N tatsächlich f (x) := lim fn (x) = 0 für alle x ∈ [0, 1]. n→∞ 288 Die Grenzfunktion f ist somit stetig auf [0, 1]. Wie im Beispiel der Funktionen x 7→ xn (Beispiel 11.3 und Bemerkung 11.6 (2)) ist klar, dass die Konvergenz nicht gleichmäßig ist.58 Die Dreiecksfläche zwischen der x-Achse und dem Graphen von fn hat für jedes n den Flächeninhalt 1. Es gilt also 1 Z fn (x) dx = 1 für alle n ∈ N 0 und somit auch Z Z fn (x) dx = 1 6= 0 = lim n→∞ 1 1 lim fn (x) dx. 0 n→∞ 0 In diesem Beispiel ist die Grenzfunktion der Folge (fn )n Riemann-integrierbar, aber ihr Integral ist verschieden vom Grenzwert der Folge der Integrale der Funktionen fn . (2) Es sei q1 , q2 , q3 , . . . eine Abzählung der Menge Q ∩ [0, 1] aller rationalen Zahlen im Intervall [0, 1]. Wir definieren fn : [0, 1] −→ R durch fn (x) := 1 für x ∈ {q1 , q2 , . . . , qn }, 0 sonst. Für jedes n ∈ N ist fn eine Treppenfunktion auf [0, 1] mit dem Integral 0. Daher gilt 1 Z fn (x) dx = 0. lim n→∞ 0 Die Grenzfunktion f = limn→∞ fn ist die Dirichlet-Funktion mit den Werten f (x) = 1 für rationale x und f (x) = 0 für irrationale x im Intervall [0, 1]. Gemäß Beispiel 17.9 (3) ist f nicht Riemann-integrierbar. Hinreichend für die Vertauschbarkeit der Integration mit einem Grenzübergang ist die gleichmäßige Konvergenz der Funktionenfolge: Satz 19.2 Es sei (fn )n eine Folge von Riemann-integrierbaren Funktionen fn : I −→ R auf einem echten kompakten Intervall I = [a, b]. Die Folge sei auf I gleichmäßig konvergent mit der Grenzfunktion f = limn→∞ fn . Dann ist f Riemann-integrierbar und es gilt Z b Z lim fn (x) dx = lim a n→∞ n→∞ 58 b fn (x) dx. a Damit haben wir nebenbei (wie schon in Aufgabe I 14.5 (c)) ein Beispiel dafür gefunden, dass sich auch bei nicht-gleichmäßiger Konvergenz die Stetigkeit auf die Grenzfunktion übertragen kann. 289 Bemerkung 19.3 Setzt man hierbei die fn sogar als stetig voraus, so lässt sich die Aussage des Satzes in wenigen Zeilen beweisen: Es ist dann f stetig nach Satz 11.7 und damit Riemann-integrierbar. Mit der Standardabschätzung für Integrale (Satz 17.12 (2)) folgt unter Verwendung der Supremumsnorm ||.||∞ aus Bemerkung 11.6 (4) Z b Z b Z b fn (x) dx − f (x) dx ≤ |fn (x) − f (x)| dx a a a ≤ (b − a) · ||fn − f ||∞ −→ 0 (n → ∞). Ohne diese zusätzliche Stetigkeitsvoraussetzung besteht die Hauptarbeit im Beweis darin, erst einmal die Integrierbarkeit der Grenzfunktion nachzuweisen. Beweis von Satz 19.2. Es sei ein ε > 0 gegeben. Dazu gibt es wegen der gleichmäßigen Konvergenz der Folge (fn )n eine natürliche Zahl N , so dass für alle n ≥ N und alle x ∈ I die Ungleichungen ε ε f (x) − < fn (x) < f (x) + 2(b − a) 2(b − a) gelten. Da jedes fn beschränkt ist, folgt hieraus insbesondere die Beschränktheit von f . Ferner erhält man für alle n ≥ N die Ungleichungen Z b Z b Z b ε ε f (x) dx ≤ fn (x) + fn (x) dx + dx = 2(b − a) 2 a a a und Z b Z b f (x) dx ≥ a a ε fn (x) − 2(b − a) Z b fn (x) dx − dx = a ε . 2 Hieraus folgt Z b b Z f (x) dx + ε ≥ a Z b f (x) dx. a a Das gilt für jedes ε > 0. Daher ist Z b f (x) dx ≥ Z b f (x) dx = f (x) dx. a a Also ist f Riemann-integrierbar. Mit derselben Abschätzung wie in Bemerkung 19.3 folgt nun Z b Z b f (x) dx = lim fn (x) dx. n→∞ a a Selbstverständlich gibt es zu Satz 19.2 auch eine analoge Version für Reihen: Korollar 19.4 (Gliedweise Integration) Es sei (fn )n eine Folge von Riemannintegrierbaren Funktionen f : I −→ R auf einem echten kompakten Intervall I = [a, Die n P∞ Pb]. ∞ Reihe n=0 fn sei auf I gleichmäßig konvergent. Dann ist die Grenzfunktion f = n=0 fn Riemann-integrierbar, und es gilt Z bX ∞ ∞ Z b X fn (x) dx = fn (x) dx . a n=0 n=0 290 a Insbesondere kann jede (reelle) Potenzreihe mit Entwicklungspunkt x0 und Konvergenzradius R > 0 auf jedem kompakten Teilintervall ihres (offenen) Konvergenzintervalles ]x0 −R, x0 +R[ gliedweise integriert werden. Für viele Anwendungen sind die Voraussetzung der gleichmäßigen Konvergenz sowie die Beschränkung auf kompakte Integrationsintervalle unnötig starke Vorbedingungen für die Vertauschung von Integration und Limesbildung.59 Das Bedürfnis nach einer leistungsfähigeren Integrationstheorie, in der ein solches Vertauschen unter schwächeren Voraussetzungen möglich ist, war einer der Hauptgründe für die Entwicklung der Lebesgue-Theorie, mit der wir uns in der Vertiefung Analysis beschäftigen werden. Auf die Vertauschbarkeitsfrage“ ” werden wir hauptsächlich in Abschnitt 30.4 zurückkommen. 19.2 Vertauschung der Differentiation mit Grenzübergängen Auch für die Vertauschbarkeit von Differentiation und Limesbildung spielt die gleichmäßige Konvergenz eine wichtige Rolle. Allerdings ist hier die gleichmäßige Konvergenz der Funktionenfolge selbst zu schwach – man benötigt die gleichmäßige Konvergenz der Folge der Ableitungen. Beispiel 19.5 (1) Setzt man 1 · sin(nx), n so konvergiert (fn )n gleichmäßig gegen die Nullfunktion, aber die Folge der Ableitungen fn0 (x) = cos(nx) ist in den meisten“ Punkten x ∈ R divergent. ” (2) Es sei x fn (x) := für alle x ∈ R, n ∈ N. 1 + nx2 Wir werden zeigen, dass die Funktionenfolge (fn )n gleichmäßig auf R gegen eine differenzierbare Grenzfunktion f konvergiert und dass die Folge (fn0 )n der Ableitungen punktweise auf R konvergiert, aber nicht gegen f 0 . fn (x) := Wir bestimmen zunächst eine obere Schranke für |fn | auf R, in der Hoffnung, dass diese Schranke für n → ∞ gegen 0 strebt. Es sei also ein festes n ∈ N gegeben. Es ist fn (0) = 0, lim fn (x) = 0 sowie fn (x) x→±∞ >0 <0 für alle x > 0, für alle x < 0. Daher besitzt fn auf ]0; ∞[ ein positives (absolutes) Maximum und auf ] − ∞; 0[ ein negatives (absolutes) Minimum (vgl. Aufgabe I 13.1 (a)). Nach dem notwendigen Kriterium für lokale Extrema (Satz 15.2) sind die beiden zugehörigen Extremalstellen 59 In der Riemannschen Integrationstheorie befreit man sich von der Beschränkung auf kompakte Integrationsbereiche nachträglich mithilfe eines geeigneten Grenzwertprozesses, nämlich durch die Einführung sog. uneigentlicher Integrale (Kapitel 21). Bei uneigentlichen Integralen ist aber selbst die gleichmäßige Konvergenz einer Funktionenfolge nicht mehr ausreichend für die Vertauschung von Integration und Grenzübergang, wie wir in Beispiel 21.6 sehen werden. 291 f1 0.4 f3 0.2 f10 -4 -2 2 4 -0.2 -0.4 Abbildung 52: Die Graphen von f1 , f3 und f10 Nullstellen von fn0 . Die Ableitung von fn ist fn0 (x) = (1 + nx2 ) − 2nx2 1 − nx2 = . (1 + nx2 )2 (1 + nx2 )2 Hieraus erkennt man, dass fn0 (x) = 0 genau dann gilt, wenn x = ± √1n ist. Also ist √1 eine Maximal- und − √1 eine Minimalstelle von fn . Die Funktionswerte an diesen n n Stellen sind 1 1 fn ± √ =± √ . n 2 n Also gilt 1 1 1 1 − √ = fn − √ ≤ fn (x) ≤ fn √ = √ 2 n n n 2 n und damit 1 |fn (x)| ≤ √ 2 n für alle x ∈ R für alle x ∈ R. Dies gilt für alle n ∈ N. Hieraus und aus limn→∞ gleichmäßig auf R gegen f ≡ 0 strebt. 1 √ 2 n = 0 folgt nunmehr, dass (fn )n Die Grenzfunktion f ist differenzierbar, und ihre Ableitung ist ebenfalls die Konstante 0. Andererseits liest man aus obiger Formel für fn0 ab, dass 1 für x = 0 , 0 lim fn (x) = n→∞ 0 für x 6= 0 292 ist. Die Folge (fn0 )n konvergiert also punktweise auf R, aber es ist 0 lim fn0 6≡ 0 ≡ f 0 = lim fn . n→∞ n→∞ Dieses Beispiel zeigt, dass für die Vertauschung von Differentiation und Grenzübergang die gleichmäßige Konvergenz der Funktionenfolge nicht ausreicht. Vielmehr kommt es, wie wir sogleich sehen werden, auf die gleichmäßige Konvergenz der zugehörigen Folge der Ableitungen an. (Diese ist hier verletzt, wie man z.B. aus der Unstetigkeit von limn→∞ fn0 ersehen kann.) Satz 19.6 (Ableitung von Grenzfunktionen) Es sei (fn )n eine Folge von stetig differenzierbaren Funktionen fn : I −→ R auf einem echten kompakten Intervall I = [a; b]. Die Folge (fn0 )n der Ableitungen sei auf I gleichmäßig konvergent. Für einen Punkt x0 ∈ I sei die Zahlenfolge (fn (x0 ))n konvergent. Dann konvergiert die Folge (fn )n auf I gleichmäßig gegen eine stetig differenzierbare Funktion f = lim fn , n→∞ und deren Ableitung ist f0 = lim fn 0 n→∞ = lim fn0 . (19.1) n→∞ Eine analoge Aussage gilt für Reihen von stetig differenzierbaren Funktionen. Beweis. Es sei g := limn→∞ fn0 die Grenzfunktion der Folge der Ableitungen fn0 . Nach Satz 11.7 ist g stetig auf I. Es sei ein beliebiges x ∈ I gegeben. Nach dem Hauptsatz der Differential- und Integralrechnung gilt Z x fn (x) = fn (x0 ) + fn0 (t) dt. x0 (fn0 )n ist nach Satz 19.2 Aufgrund der gleichmäßigen Konvergenz von Z x Z x lim fn0 (t) dt = g(t) dt. n→∞ x0 x0 Da zudem (fn (x0 ))n konvergiert, folgt die Existenz des Grenzwerts Z x f (x) := lim fn (x) = lim fn (x0 ) + g(t) dt. n→∞ n→∞ x0 Dies gilt für alle x ∈ I. Also konvergiert (fn )n punktweise gegen eine Grenzfunktion f , die sich aufgrund der Integraldarstellung als differenzierbar erweist. Differentiation bezüglich x liefert nunmehr f 0 = g. Dies zeigt (19.1). Dass (fn )n sogar gleichmäßig konvergiert, sieht man wie folgt ein: Es sei y0 := limn→∞ fn (x0 ). Dann gilt für alle x ∈ I aufgrund der obigen Darstellungen Z x Z x 0 |fn (x) − f (x)| = fn (x0 ) + fn (t) dt − y0 − g(t) dt x0 x0 Z x 0 ≤ |fn (x0 ) − y0 | + |fn (t) − g(t)| dt x0 ≤ |fn (x0 ) − y0 | + (b − a) · ||fn0 − g||∞ 293 und somit ||fn − f ||∞ ≤ |fn (x0 ) − y0 | + (b − a) · ||fn0 − g||∞ → 0 (n → ∞). Als gleichmäßiger Limes der stetigen Funktionen fn0 ist f 0 nach Satz 11.7 stetig, so dass f sogar stetig differenzierbar ist. Bemerkung 19.7 Satz 19.6 bleibt gültig, wenn man darin stetige Differenzierbarkeit durch gewöhnliche Differenzierbarkeit ersetzt. Der Beweis wird allerdings wesentlich aufwändiger. Man findet ihn z.B. in [Köhler, Satz 15.6]. 294 20 20.1 Taylorpolynome und Taylorreihe Lokale Approximation durch Taylor-Polynome Nach Satz 14.3 (a) bedeutet die Differenzierbarkeit von f in einem Punkt x0 , dass f in der Nähe von x0 gut durch eine lineare Funktion, d.h. durch ein Polynom mit einem Grad ≤ 1 approximiert werden kann. Man kann erwarten, dass Polynome höheren Grades bessere Approximationen ermöglichen. Wir fragen hier nach lokalen Approximationen: Wir suchen Polynome, die mit f in der Nähe eines Punktes x0 besonders gut“ übereinstimmen. Das ” Verhalten in größerer Entfernung von x0 wird nicht beachtet. Es ist nicht schwierig zu erraten, was präziser von solchen lokalen Approximationen zu erwarten ist: Die Funktion f sollte im Punkt x0 mehrfach, etwa n-mal differenzierbar sein, und die ersten n Ableitungen des approximierenden Polynoms in x0 sollten mit denjenigen von f übereinstimmen. Vermutlich ist die Approximation (für eine feste Funktion f ) umso besser, je größer n ist. Im folgenden Satz 20.1 wird gezeigt, dass es für diesen Zweck nur eine vernünftige Möglichkeit zur Wahl der Polynome gibt. Satz 20.1 (Taylorpolynome) Es sei I ein echtes Intervall, a ∈ I und n ∈ N. Die Funktion f : I −→ R sei n-mal differenzierbar im Punkt a. Dann gibt es genau ein Polynom Tn mit grad (Tn ) ≤ n und Tn(k) (a) = f (k) (a) für alle k = 0, . . . , n. Es gilt n X 1 (k) f (a) · (x − a)k . Tn (x) = k! k=0 Definition 20.2 Das Polynom Tn in Satz 20.1 heißt das n-te Taylorpolynom60 von f im Punkt a (selten auch der n-Jet von f bei a). Wenn f und a nicht aus dem Kontext hervorgehen, verwendet man anstelle von Tn die präziseren Notationen Tn,a oder Tn f oder Tn,a f . Die Differenz Rn,a = Rn := f − Tn,a f heißt das zu Tn gehörige Restglied von f im Punkt a. Beweis von Satz 20.1. Jedes reelle Polynom p mit grad (p) ≤ n kann eindeutig in der Form n X p(x) = cj · (x − a)j j=0 mit Koeffizienten cj ∈ R geschrieben werden.61 Die Rechenregeln für das Differenzieren ergeben n X (k) p (x) = j(j − 1) · . . . · (j − k + 1) · cj · (x − a)j−k j=k 60 Die Polynome Tn sind nach Brook Taylor (1685 – 1731) benannt. Dies begründet man z.B. wie folgt: Man kann jedes Monom xν = (x − a + a)ν mittels des Binomischen Satzes (Satz 1.6) nach Potenzen von x − a entwickeln und erhält somit die Behauptung für Monome. Bilden geeigneter Linearkombinationen ergibt die Behauptung für beliebige Polynome. 61 295 und insbesondere p(k) (a) = k! · ck für alle k = 0, 1, . . . , n. Somit ist p(k) (a) = f (k) (a) für 0 ≤ k ≤ n genau dann erfüllt, wenn man ck = k!1 f (k) (a) für 0 ≤ k ≤ n wählt. Daraus folgen alle Behauptungen. Für die Sinusfunktion haben wir bereits in Abbildung 25 die Graphen zweier Taylorpolynome (im Nullpunkt) gezeigt – diese sind nämlich gerade die Partialsummen der Sinusreihe. Die Graphen einiger weiterer Taylorpolynome des Sinus sind in Abbildung 53 dargestellt. -7.5 -7.5 -5 -5 4 4 2 2 -2.5 2.5 5 7.5 -7.5 -5 -2.5 -2 -2 -4 -4 4 4 2 2 -2.5 2.5 5 7.5 -7.5 -5 -2.5 -2 -2 -4 -4 2.5 5 2.5 5 7.5 7.5 Abbildung 53: Das n-te Taylorpolynom des Sinus für n = 3, 5, 9, 15 Die Abbildung 54 zeigt die Funktion f (x) = sin(x) + 51 cos(5x) + 51 und Taylorpolynome der Grade 1, 3 und 6 zur Approximation im Punkt a = 0. f T3 T6 T1 Abbildung 54: Drei Taylorpolynome von f (x) = sin(x) + 15 cos(5x) + 1 5 In allen diesen Fällen ist gut zu verfolgen, wie mit wachsendem Grad des Taylorpolynoms der Bereich, in dem approximierendes Taylorpolynom und approximierte Funktion gut“ ” übereinstimmen, größer wird. Es zeigt sich aber auch, dass man alle Hoffnung fahren lassen muss, mit Taylor-Polynomen eine gleichmäßige Approximation (z.B. auf ganz R) zu erzielen. 296 20.2 Taylorsche Formeln Ob und inwieweit Taylor-Polynome brauchbare Näherungen einer Funktion f darstellen, kann erst aus einer Abschätzung des Fehlers Rn = f −Tn beantwortet werden. Dieser Aufgabe wenden wir uns nunmehr zu. Vorüberlegung. Es sei f : I −→ R differenzierbar im Punkt a ∈ I. Dann gilt T1,a f (x) = f (a) + f 0 (a) · (x − a), R1,a (x) = f (x) − f (a) − f 0 (a) · (x − a). also Andererseits besteht nach Satz 14.3 (a) die Darstellung f (x) = f (a) + f 0 (a) · (x − a) + r(x) · (x − a) mit einer in a stetigen Funktion r : I −→ R, welche r(a) = 0 erfüllt. Hieraus ersieht man R1,a (x) = r(x) · (x − a) und somit R1,a (x) f (x) − T1,a (x) = lim = lim r(x) = 0. x→a x − a x→a x→a x−a lim Diese Aussage wird in Satz 20.6 auf die Reste Rn mit beliebigen n verallgemeinert. Satz 20.3 (Integral-Form des Restglieds) Es sei I ein echtes offenes Intervall, a ∈ I und n ∈ N0 . Die Funktion f : I −→ R sei (n + 1)-mal stetig differenzierbar. Es sei Rn = Rn,a das zum n-ten Taylorpolynom Tn,a f von f im Punkt a gehörige Restglied. Für alle x ∈ I gilt dann Z x 1 · (x − t)n · f (n+1) (t) dt. Rn (x) = n! a Beweis. Wir beweisen die Behauptung mittels Induktion: Im Fall n = 0 folgt aus dem Hauptsatz der Differential- und Integralrechnung Z x f 0 (t) dt = f (x) = T0 (x) + R0 (x) = f (a) + R0 (x). f (a) + a (Hierfür ist es wesentlich, dass f 0 nach Voraussetzung stetig ist.) Es ist also Z x f 0 (t) dt, R0 (x) = a womit der Induktionsanfang n = 0 erbracht ist. Es sei ein n ∈ N0 gegeben, und die Behauptung sei für dieses n und alle Funktionen f mit den im Satz angegebenen Eigenschaften gültig. Es sei eine (n + 2)-mal stetig differenzierbare Funktion f : I −→ R gegeben. Nach Induktionsvoraussetzung gilt dann für alle x ∈ I Z x 1 Rn (x) = · (x − t)n · f (n+1) (t) dt. n! a Mittels partieller Integration erhält man hieraus für alle x ∈ I t=x Z x (x − t)n+1 1 (n+1) Rn (x) = − ·f (t) + · (x − t)n+1 · f (n+2) (t) dt (n + 1) · n! (n + 1) · n! a t=a Z x n+1 (x − a) 1 = · f (n+1) (a) + · (x − t)n+1 · f (n+2) (t) dt; (n + 1)! (n + 1)! a 297 die Stetigkeit von f (n+2) benötigen wir hierbei, da wir den Hauptsatz der Differential- und Integralrechnung angewandt haben. Es folgt nun weiter Rn+1 (x) = f (x) − Tn+1 (x) (x − a)n+1 (n+1) ·f (a) (n + 1)! Z x (x − a)n+1 (n+1) 1 = Rn (x) − ·f (a) = · (x − t)n+1 · f (n+2) (t) dt. (n + 1)! (n + 1)! a = f (x) − Tn (x) − Damit ist der Induktionsschluss vollzogen. Als unmittelbare Folgerung erhält man eine Verallgemeinerung der Aussage in Korollar 15.10, wonach auf Intervallen definierte Funktionen, deren erste Ableitung überall verschwindet, konstant sein müssen: Korollar 20.4 Es sei n ∈ N0 und f : I −→ R eine (n + 1)-mal differenzierbare Funktion auf einem echten Intervall I mit f (n+1) (x) = 0 für alle x ∈ I. Dann ist f ein Polynom vom Grad grad (f ) ≤ n. Beweis. Es sei ein a ∈ R gegegeben. Aus der Integraldarstellung in Satz 20.3 folgt sofort, dass das Restglied Rn,a von f im Punkt a verschwindet. Also stimmt f mit seinem n-ten Taylorpolynom Tn,a überein. Satz 20.5 (Lagrange’sche Form des Restglieds) Es sei I ein echtes offenes Intervall, a ∈ I und n ∈ N0 . Die Funktion f : I −→ R sei (n + 1)-mal stetig differenzierbar. Es sei Rn = Rn,a das zum n-ten Taylorpolynom Tn,a f von f im Punkt a gehörige Restglied. Zu jedem Punkt x ∈ I gibt es dann ein ξ zwischen x und a, so dass Rn (x) = f (n+1) (ξ) · (x − a)n+1 (n + 1)! gilt. Dieser Ausdruck für Rn (x) heißt das n-te Lagrange’sche62 Restglied von f im Punkt a. Beweis. Es sei ein x ∈ I gegeben. Nach Satz 20.3 gilt dann Z x 1 (x − t)n · f (n+1) (t) dt. Rn (x) = · n! a Die Funktion p(t) := (x − t)n ist stetig und hat einheitliches Vorzeichen für alle t zwischen a und x. Daher können wir den Mittelwertsatz der Integralrechnung (Satz 18.1 (2)) anwenden; dieser liefert ein ξ zwischen a und x, so dass Z x f (n+1) (ξ) Rn (x) = · (x − t)n dt n! a t=x (n+1) f (ξ) f (n+1) (ξ) n+1 = − · (x − t) = · (x − a)n+1 . (n + 1) · n! (n + 1)! t=a 62 Hier begegnet uns erstmals der Name des bedeutenden Analytikers und theoretischen Physikers J. L. Lagrange (1736 – 1813). Er kam 1766 als Nachfolger von Euler an die Akademie der Wissenschaften in Berlin. 298 Satz 20.5 trifft eine quantitative Aussage über das Restglied Rn = f − Tn . Um sie auszunutzen, benötigt man eine Abschätzung der (n + 1)-ten Ableitung von f . Wir folgern aus Satz 20.5 eine qualitative Aussage über Rn , in die keine speziellen Eigenschaften von f eingehen. Sie verallgemeinert die obige Vorüberlegung bzw. das Resultat in Satz 14.3 (a) über die lokale lineare Approximierbarkeit differenzierbarer Funktionen. Satz 20.6 (Qualitative Taylor-Formel) Es sei I ein offenes Intervall, a ∈ I und n ∈ N. Die Funktion f : I −→ R sei n-mal stetig differenzierbar. Es sei Tn das n-te Taylorpolynom von f im Punkt a. Dann gilt lim x→a f (x) − Tn (x) = 0. (x − a)n Es besteht eine Identität f (x) = Tn (x) + r(x) · (x − a)n mit einer Funktion r : I −→ R, die im Punkt a stetig ist und dort den Wert r(a) = 0 hat. Beweis. Wir definieren die Funktion r : I −→ R für x ∈ I, x 6= a durch die Formel im Satz, und wir setzen ergänzend r(a) := 0. Zu beweisen ist dann lim r(x) = 0 ; x→a denn hieraus folgen alle Aussagen im Satz. Mit der Lagrange’schen Darstellung des Restglieds Rn−1 (!) aus Satz 20.5 ergibt sich für alle x 6= a 1 (x − a)n 1 = (x − a)n 1 = (x − a)n r(x) = · (f (x) − Tn (x)) f (n) (a) n · f (x) − Tn−1 (x) − · (x − a) n! f (n) (a) 1 n · Rn−1 (x) − · (x − a) = · f (n) (ηx ) − f (n) (a) n! n! mit einem geeigneten ηx zwischen a und x. Es ist dann limx→a ηx = a. Damit und mit der Stetigkeit von f (n) folgt sofort lim r(x) = 0. x→a Die qualitative Taylor-Formel kann besonders suggestiv mithilfe des sog. Landau-Symbols o( · ) ausgedrückt werden. Definition 20.7 Sind f, g : D −→ C Funktionen auf einer offenen Menge D ⊆ R oder D ⊆ C und ist a ∈ D, so schreibt man (x) falls limx→a fg(x) = 0, o(g(x)) für x → a, f (x) = falls es ein C > 0 und ein δ > 0 gibt mit O(g(x)) für x → a, |f (x)| ≤ C · |g(x)| für alle x ∈ Uδ (a). Falls D = [x0 , ∞[ bzw. D =] − ∞, x0 ] mit einem x0 ∈ R ist, so definiert man analoge Schreibweisen auch für x → ∞ bzw. für x → −∞. Die Symbole o( · ) und O( · ) bezeichnet man als Landau-Symbole. 299 Mit dieser Symbolik lautet die qualitative Taylor-Formel f (x) = Tn (x) + o ((x − a)n ) für x → a, sofern f mindestens n-mal stetig differenzierbar in einer Umgebung von a ist. Mit der Taylor-Formel kann man das notwendige Kriterium für lokale Extremalstellen in Satz 15.2 verschärfen und auch ein hinreichendes Kriterium gewinnen. Satz 20.8 (Lokale Extrema) Es sei I ein echtes Intervall, a ein innerer Punkt von I und n ≥ 2 eine natürliche Zahl. Die Funktion f : I −→ R sei n-mal stetig differenzierbar. Es sei f 0 (a) = f 00 (a) = . . . = f (n−1) (a) = 0, f (n) (a) 6= 0. Falls n ungerade ist, dann hat f in a einen Wendepunkt, aber kein lokales Extremum. Falls n gerade ist, dann hat f im Punkt a ein striktes lokales Extremum. Dieses ist im Falle f (n) (a) > 0 ein Minimum und im Falle f (n) (a) < 0 ein Maximum. Beweis. Aus Satz 20.6 und aus den Voraussetzungen erhalten wir eine Identität f (x) − f (a) = Tn,a f (x) − f (a) + r(x) · (x − a)n (n) f (a) + r(x) · (x − a)n = n! mit einer Funktion r : I −→ R, die im Punkt a stetig ist und dort den Wert r(a) = 0 hat. Aus f (n) (a) 6= 0 und aus dem Permanenzprinzip (Lemma 9.5) folgt die Existenz einer (n) Umgebung U = Uδ (a) ⊆ I des Punktes a, so dass der Faktor f n!(a) + r(x) sein Vorzeichen auf U nicht wechselt. Für gerade n ist (x − a)n stets nichtnegativ, und es folgt sgn (f (x) − f (a)) = sgn (f (n) (a)) für alle x ∈ U. Hieraus folgen die Behauptungen für gerade n. Nun sei n ungerade und n ≥ 3. Dann wechselt f (x) − f (a) im Punkt a das Vorzeichen. Folglich ist a keine lokale Extremalstelle von f . Wir können Satz 20.6 auf f 00 anstelle von f (und mit n − 2 statt n) anwenden und erhalten analog zu oben eine Darstellung (n) f (a) 00 00 + re(x) · (x − a)n−2 f (x) − f (a) = (n − 2)! mit einer in a stetigen Funktion re : I −→ R, welche re(a) = 0 erfüllt. Hieraus erkennt man, dass auch f 00 (x) im Punkt a das Vorzeichen wechselt. Aus Korollar 15.22 und der Definition der Wendepunkte folgt somit, dass a ein Wendepunkt von f ist. 20.3 Die Taylorreihe Häufig liegt der Fall vor, dass die Funktion f unendlich oft differenzierbar ist. Dann sind die Taylorpolynome Tn für alle n definiert, und man kann zu einer Potenzreihe übergehen. 300 Definition 20.9 Es sei I ein echtes Intervall und a ein innerer Punkt von I. Die Funktion f : I −→ R sei unendlich oft differenzierbar. Dann heißt die Potenzreihe ∞ X f (k) (a) · (x − a)k T (x) = k! k=0 die Taylorreihe von f im Punkt a, gelegentlich auch der Jet von f in a. Die Taylorreihe wird präziser mit Ta f bezeichnet, wenn f und a nicht aus dem Kontext hervorgehen. Mit der Definition kommen sogleich Fragen auf: Für welche x konvergiert die Taylorreihe T (x)? Gilt im Falle der Konvergenz die Identität f (x) = T (x), d.h. stellt die Taylorreihe die Funktion f dar? Beide Fragen können nicht zwangsläufig bejaht werden: • Als Potenzreihe hat die Taylor-Reihe einen Konvergenzradius; dieser kann durchaus 0 betragen, so dass die Taylor-Reihe nirgends (außer im Entwicklungspunkt) konvergiert. Und auch wenn dieser etwas pathologisch anmutende Sonderfall nicht vorliegt, ist zumindest nicht zu erwarten, dass der Konvergenzradius ∞ ist, d.h. dass die Taylorreihe auf ganz R konvergiert! • Selbst wenn die Taylor-Reihe in einem Punkt x konvergiert, dann nicht zwangsläufig gegen den Funktionswert f (x): Klar ist, dass f (x) = T (x) genau dann gilt, wenn limn→∞ Rn (x) = 0 ist. Dies muss nicht zwangsläufig erfüllt sein, wie folgendes Beispiel zeigt: Beispiel 20.10 Wir definieren die Funktion f : R −→ R durch ( für x ∈ R \ {0} , exp − x12 f (x) := 0 für x = 0. Es gilt f (x) > 0 für alle x 6= 0. Daher hat f im Nullpunkt ein striktes lokales (und globales) Minimum. Wir wollen zeigen, dass die Funktion f unendlich oft differenzierbar ist und dass ihre Taylorreihe im Nullpunkt die Nullreihe ist. Es folgt dann: Die Taylorreihe ist überall konvergent, aber ihre Grenzfunktion ist 0 und stellt nirgends (außer im Entwicklungspunkt) die Funktion f dar. Zu diesem Zweck beweisen wir f (n) (0) = 0 für alle n ∈ N0 und die Existenz von Polynomen pn : R −→ R mit 1 1 (n) · exp − 2 für alle x ∈ R \ {0} und alle n ∈ N0 . f (x) = pn x x Nach Definition von f gelten diese beiden Aussagen für n = 0 mit p0 (x) = 1. Wir nehmen die Gültigkeit der beiden Aussagen für ein n ≥ 0 an. Mit Hilfe von Satz 12.2 folgt dann die Existenz von f (n+1) (0) = lim x→0 f (n) (x) − f (n) (0) f (n) (x) = lim x→0 x x 1 1 1 = lim · pn · exp − 2 x→0 x x x = lim y · pn (y) · exp(−y 2 ) y→±∞ = 0. 301 1 Abbildung 55: Die Funktion x 7→ exp − x12 Für x 6= 0 folgt f (n+1) (x) = 1 − 2 · p0n x 2 1 1 1 + 3 · pn · exp − 2 . x x x x Damit ist die Behauptung für n + 1 anstelle von n mit dem Polynom pn+1 (y) := − y 2 p0n (y) + 2y 3 pn (y) bewiesen. (Nebenbei ergibt die Rekursionsformel für die pn noch grad (pn ) = 3n.) 200 3 −1.5 1.5 1 −2 2 −0.5 0.5 −200 Abbildung 56: Zweite und vierte Ableitung von x 7→ exp − x12 In diesem Beispiel existiert also die Taylorreihe von f , aber die Restglieder sind Rn = f − Tn = f für alle n. Außerdem haben wir hier ein striktes lokales Extremum, das mit dem Kriterium von Satz 20.8 nicht entdeckt werden kann. Abbildung 56 zeigt die zweite und die vierte Ableitung von f . Ausblick: Das überraschende Verhalten von f wird erst vom Standpunkt der komplexen Analysis aus besser verständlich: Während f : R −→ R im Nullpunkt stetig und sogar 302 unendlich oft differenzierbar ist, ist f (z) := exp − z12 als Funktion der komplexen Variablen z im Nullpunkt unstetig. Dies sieht man, indem man rein imaginäre Werte z = iy mit y ∈ R einsetzt: Es gilt 1 f (iy) = exp + 2 −→ ∞ für y → 0. y Genauer gilt sogar f (U̇δ (0)) = C \ {0} für jedes (beliebig kleine) δ > 0, d.h. f nimmt in beliebig kleinen Umgebungen von 0 sämtliche Werte an, die die Exponentialfunktion in C überhaupt annimmt. Dies begründet man folgendermaßen: U̇δ (0) wird durch z 7→ A := {w ∈ C : |w| > 1 z2 auf das Kreisäußere 1 } δ2 abgebildet, für ein geeignetes R > 0 ist der Streifen S := {w ∈ C | R ≤ Im(w) < R + 2π} in A enthalten, und aus Korollar 12.22 (b) folgt f (U̇δ (0)) = exp(A) ⊇ exp(S) = C \ {0}, während anderseits wegen der Nullstellenfreiheit der Exponentialfunktion natürlich auch f (U̇δ (0)) = exp(A) ⊆ C \ {0} ist. Die Funktion f verhält sich in der Nähe der Singularität z = 0 also außerordentlich turbulent. Derartige Singularitäten bezeichnet man in der Funktionentheorie als wesentliche Singularitäten. Hier liegt die tiefere Ursache dafür, dass f um Null nicht in eine Taylorreihe entwickelt werden kann. Wäre dies nämlich in R möglich, so auch in C, und dies hätte zur Folge, dass f : C −→ C in einer Umgebung von 0 stetig und damit beschränkt wäre. – Eine andere Funktion mit einer wesentlichen Singularität im Nullpunkt ist x 7→ sin x1 ; bei ihr demaskiert sich der turbulente“ Charakter dieser Singularität ansatzweise bereits im ” Reellen. Wir definieren nun eine Klasse von Funktionen, die nirgends das pathologische“ Verhalten ” wie in Beispiel 20.10 aufweisen: Definition 20.11 Es sei I ein echtes offenes Intervall. Eine Funktion f : I −→ R heißt reell-analytisch, falls zu jedem a ∈ I ein ε > 0 mit Uε (a) ⊆ I existiert, so dass f auf Uε (a) durch eine konvergente Potenzreihe mit dem Entwicklungspunkt a darstellbar ist, falls also f (x) = ∞ X ak (x − a)k für alle x ∈ ]a − ε, a + ε[ k=0 mit geeigneten a0 , a1 , a2 , . . . ∈ R gilt. Die reell-analytischen Funktionen sind also diejenigen Funktionen, die überall lokal in eine Potenzreihe entwickelbar sind. Die Betonung liegt hierbei auf lokal“: Es wird nicht voraus” gesetzt, dass diese Potenzreihen auf dem gesamten Definitionsintervall der Funktion konvergieren; dies wäre auch eine i. Allg. unerfüllbare Forderung, da ja das Konvergenzintervall 303 einer Potenzreihe im Wesentlichen (bis evtl. auf die Randpunkte) symmetrisch bezüglich des Entwicklungspunktes ist. Beispiel 20.10 zeigt, dass unendlich oft differenzierbare Funktionen keinesfalls reell-analytisch sein müssen. Umgekehrt erwarten wir natürlich, dass reell-analytische Funktionen unendlich oft differenzierbar sind, dass ihre Taylorreihe in a identisch mit der Potenzreihe in a ist und dass ihre Ableitungen durch gliedweises Differenzieren der Potenzreihe zu erhalten sind. Dies ergibt sich recht einfach aus Satz 19.6 über die Vertauschung von Differentiation und Grenzübergängen und aus der Tatsache, dass Potenzreihen lokal gleichmäßig konvergieren: Satz (Ableitungen und Stammfunktionen von Potenzreihen) Es sei P∞ 20.12 k k=0 ak x eine Potenzreihe mit reellen Koeffizienten ak und mit einem Konvergenzradius R > 0. Auf dem Intervall I =] − R, R[ wird dann durch f (x) := ∞ X ak x k k=0 eine unendlich oft differenzierbare Funktion f definiert. Es gilt 0 f (x) = ∞ X kak xk−1 , k=1 und diese Potenzreihe hat ebenfalls den Konvergenzradius R. Die Taylorreihe von f im Punkt 0 ist die gegebene Potenzreihe; für alle k ∈ N0 gilt ak = f (k) (0) . k! Weiter ist F : I −→ R, F (x) = ∞ X k=0 ak · xk+1 k+1 eine Stammfunktion von f auf I. √ Beweis. Aus Satz 5.17 ist limk→∞ k k = 1 bekannt. Daher haben die Folgen p p k k |ak | und k|ak | k k dieselben Häufungswerte. Die Hadamardsche Formel (Satz 11.21) zeigt somit, dass die gliedweise differenzierte Potenzreihe ∞ X kak xk−1 k=1 denselben Konvergenzradius R wie die Ausgangsreihe hat. Nach Satz 11.13 ist die differenzierte Reihe auf jedem kompakten Teilintervall von I gleichmäßig konvergent. Auf die Funktion f und jedes kompakte Teilintervall von I ist also Satz 19.6 anwendbar. Weil jedes x ∈ I in einem solchen Teilintervall enthalten ist, folgt die Differenzierbarkeit von f auf I und die behauptete Formel ∞ X f 0 (x) = kak xk−1 . k=1 304 Induktiv folgt nun, dass f unendlich oft differenzierbar ist und dass für jedes n die n-te Ableitung durch ∞ X (n) f (x) = k(k − 1) · . . . · (k − n + 1) ak xk−n k=n für x ∈ I gegeben ist. Für x = 0 erhält man f (n) (0) = n! · an . Die Taylorreihe von f im Nullpunkt ist also die gegebene Potenzreihe, und die Funktion f wird durch ihre Taylorreihe dargestellt. √ Ebenfalls wegen limk→∞ k k + 1 = 1 und der Hadamardschen Formel (Satz 11.21) haben auch die beiden Potenzreihen für f und für F den gleichen Konvergenzradius. Nach dem bereits Gezeigten ist also F eine differenzierbare Funktion auf I mit der Ableitung ∞ ∞ X X ak · xk = F (x) = ak xk = f (x) . (k + 1) · k + 1 k=0 k=0 0 Man kann zeigen, dass die Grenzfunktion f einer Potenzreihe mit Entwicklungspunkt 0 und Konvergenzradius R > 0 auf I = ] − R, R[ reell-analytisch ist: f lässt sich um jeden Punkt a ∈ I (nicht nur um den Entwicklungspunkt 0) in eine Potenzreihe entwickeln, deren Konvergenzradius mindestens R − |a| ist. Dieses Ergebnis ist jedoch nicht in Satz 20.12 enthalten; es wird später in der komplexen Analysis bewiesen. In Sonderfällen können spezielle Eigenschaften von f zum Ziel führen – z.B. bei der Exponentialfunktion. Die Werte einer reell-analytischen Funktion f unterliegen starken inneren Bindungen. Das wird bereits aus Satz 20.12 klar, wonach f durch die Folge der Ableitungen (f (n) (a))n in einem einzigen Punkt a vollständig festgelegt ist. In der Funktionentheorie wird später gezeigt, dass eine solche Funktion f bereits durch die Werte auf recht kleinen Punktmengen eindeutig bestimmt ist; diese müssen lediglich einen Häufungspunkt im Innern des Definitionsbereich von f haben. Dieses sog. Identitätsprinzip lässt sich auch mit den uns derzeit zur Verfügung stehenden Mitteln beweisen, siehe z.B. [Köhler, Satz 15.10]. Auf Satz 20.12 beruht die Methode des Koeffizientenvergleichs: Eine Funktion f kann um einen Punkt a auf höchstens eine Weise in eine Potenzreihe entwickelt werden. Korollar 20.13 (Koeffizientenvergleich) f (x) = ∞ X Mit reellen Zahlen an und bn sei n an · (x − x0 ) = n=0 ∞ X bn · (x − x0 )n n=0 für alle x in einem offenen Intervall I = Uε (x0 ) um den Punkt x0 (wobei ε > 0). Dann gilt an = b n für alle n ≥ 0. Beweis. Nach Satz 20.12 wird die Funktion f auf I durch ihre Taylorreihe um den Punkt x0 dargestellt, und die Koeffizienten der beiden f darstellenden Potenzreihen sind an = 1 · f (n) (x0 ) und ebenso bn = n!1 · f (n) (x0 ). Also gilt an = bn für alle n. n! 305 Wir haben nunmehr die Hilfsmittel, um für einige weitere wichtige Funktionen Reihenentwicklungen zu finden: Satz 20.14 (Logarithmus-Reihe) Für 0 < x ≤ 2 gilt ∞ X (−1)n+1 log(x) = · (x − 1)n . n n=1 Insbesondere gilt für den Grenzwert der alternierenden harmonischen Reihe ∞ X (−1)n+1 1 1 1 1 − + − + −... = = log(2). 2 3 4 n n=1 Beweis. Für alle x ∈ I :=] − 1, 1[ gilt ∞ X 1 = (−x)n =: f (x). log (1 + x) = 1 + x n=0 0 Eine Stammfunktion von f auf I ist nach Satz 20.12 F (x) := ∞ X (−1)n n=0 n+1 ·x n+1 = ∞ X (−1)n+1 n=1 n · xn . Da auch x 7→ log(1 + x) eine Stammfunktion von f ist, gibt es nach Korollar 15.10 ein C ∈ R mit log(1 + x) = F (x) + C für alle x ∈ I. Wegen log(1) = 0 = F (0) muss C = 0 sein. Also ist log(1 + x) = F (x) für alle x ∈ I. P (−1)n+1 ist nach dem LeibnizEs bleibt noch der Fall x = 1 zu diskutieren: Die Reihe ∞ n=1 n Kriterium (Satz 7.13) konvergent. Nach dem Abelschen Stetigkeitssatz (Satz 11.24) ist F daher stetig auf ] − 1, 1] (vgl. auch Beispiel 11.25), ebenso wie x 7→ log(1 + x). Damit und mit der soeben bewiesenen Übereinstimmung von F (x) und log(1 + x) auf I folgt log(2) = lim log(1 + x) = lim F (x) = F (1) = x→1− Also gilt log(1 + x) = F (x) = x→1− ∞ X (−1)n+1 n=1 n ∞ X (−1)n+1 n=1 · xn n . für alle x ∈] − 1, 1]. Indem man hierin 1 + x durch x ersetzt, ergibt sich die behauptete Identität. Satz 20.15 (Arcustangens-Reihe) Für −1 < x ≤ 1 gilt ∞ X (−1)n 1 1 1 arctan(x) = · x2n+1 = x − x3 + x5 − x7 + − . . . . 2n + 1 3 5 7 n=0 Insbesondere hat die Leibnizsche Reihe den Wert ∞ X (−1)n 1 1 1 π = . 1 − + − + −... = 3 5 7 2n + 1 4 n=0 306 Beweis. Gemäß Beispiel 15.17 (3) gilt für alle x ∈ I :=] − 1, 1[ ∞ X 1 arctan (x) = = (−1)n · x2n . 2 1+x n=0 0 Nach Satz 20.12 ist daher ∞ X (−1)n F (x) := · x2n+1 2n + 1 n=0 eine Stammfunktion von arctan0 auf I, so dass F − arctan konstant ist. Wegen F (0) = 0 = arctan(0) folgt sogar ∞ X (−1)n arctan(x) = F (x) = · x2n+1 2n + 1 n=0 für alle x ∈ I. Setzt man x = 1 in die Reihe ein, so entsteht die (nach dem Leibniz-Kriterium) konvergente Leibnizsche Reihe (vgl. Beispiel 7.14 (2)). Folglich können wir den Abelschen Stetigkeitssatz (Satz 11.24) anwenden. Damit erhalten wir auch F (1) = arctan(1) = π4 . Damit folgt für den Wert der Leibnizschen Reihe 1 1 1 π = F (1) = 1 − + − + − . . . . 4 3 5 7 307 21 21.1 Uneigentliche Riemann-Integrale Definition uneigentlicher Integrale Motivation: Bislang können wir nur beschränkte Funktionen auf kompakten Intervallen integrieren. Oftmals kann man jedoch auch unbeschränkten Funktionen oder Funktionen mit unbeschränktem Definitionsbereich in sinnvoller Weise ein Integral zuordnen. Dies geschieht in der Riemannschen Integrationstheorie nachträglich durch Grenzwertbildung.63 Definition 21.1 Es sei I = [a, b[ mit −∞ < a < b ≤ ∞, und es sei f : I −→ R auf jedem Intervall [a; c] mit c < b Riemann-integrierbar. Dann heißt Z b f (x) dx a ein an der oberen Grenze uneigentliches Integral. Dieses heißt konvergent und man sagt, dass es existiert, falls der Grenzwert Z c lim f (x) dx c→b− a existiert (als reelle Zahl!). Man schreibt dann Z c Z b f (x) dx f (x) dx := lim c→b− a a und nennt diese Zahl den Wert des uneigentlichen Integrals. Analog erklärt man Integrale, die an der unteren Grenze uneigentlich beziehungsweise beidseitig uneigentlich sind. Rb Ein beidseitig uneigentliches Integral a f (x) dx heißt konvergent, falls für ein c ∈ ]a, b[ Rc Rb die uneigentlichen Integrale a f (x) dx und c f (x) dx beide konvergieren. Das gilt dann für jedes c ∈ ]a, b[, und der Wert Z b Z c Z R Z R f (x) dx = lim f (x) dx + lim f (x) dx = lim f (x) dx a r→a+ R→b− r r→a+,R→b− c r ist unabhängig von der Wahl der Stelle c. Wesentlich hierbei ist, dass r und R unabhängig voneinander gegen a bzw. b streben. Beispiel 21.2 (1) Es gilt Z lim R→∞ R −x e 0 dx = lim R→∞ R −e = lim 1 − e−R = 1 , −x 0 also existiert das uneigentliche Integral Z ∞ R→∞ e−x dx = 1. 0 63 In der Lebesgueschen Integrationstheorie, die wir später besprechen werden, sind von vornherein auch unbeschränkte Funktionen auf offenen und auf unbeschränkten Intervallen zugelassen. 308 (2) Es sei α > 0. Für alle R > 1 ist x=R x1−α 1 1−α = 1−α · (R1−α − 1) , Z R x=1 dx = α 1 x log x|x=R x=1 = log R, falls α 6= 1, falls α = 1. Hierbei existiert der Grenzwert limR→∞ R1−α = 0 genau für α > 1, und es ist limR→∞ log R = ∞. Daher gilt 1 Z ∞ falls α > 1, dx = α−1 , xα ist divergent, 1 falls α ≤ 1. (3) Es sei wieder α > 0. Für alle ε ∈ ]0; 1] ist x=1 1 x1−α = 1−α · (1 − ε1−α ) , Z 1 1−α x=ε dx = α ε x log x|x=1 x=ε = − log ε, Analog zu (2) erkennt man hieraus: Z 1 dx ist divergent, α 0 x = 1 , 1−α falls α 6= 1, falls α = 1. falls α ≥ 1, falls α < 1. R∞ (4) Das uneigentliche Integral −∞ x dx ist divergent. Jedoch gilt Z R Z x dx = 0 für alle R > 0 und damit auch lim R→∞ −R R x dx = 0. −R R∞ Dies täuscht den Wert 0 für das uneigentliche Integral −∞ x dx vor. RR Der Grenzwert limR→∞ −R f (x) dx heißt der Cauchy’sche Hauptwert des beidseitig R∞ R∞ uneigentlichen Integrals −∞ f (x) dx. Falls das Integral −∞ f (x) dx existiert, so auch sein Cauchy’scher Hauptwert, und er stimmt mit dem Wert des uneigentlichen Integrals überein. Aus der Existenz des Cauchy’schen Hauptwerts darf man jedoch nicht auf die Existenz des betreffenden Integrals selbst schließen. (5) Es gilt Z R −r dx = arctan R − arctan(−r), 1 + x2 und hieraus folgt Z R lim r→∞,R→∞ −r π π dx = lim arctan R + lim arctan r = + = π. 2 r→∞ R→∞ 1+x 2 2 Somit konvergiert das beidseitig uneigentliche Integral Z ∞ dx = π. 2 −∞ 1 + x 309 21.2 Konvergenzkriterien Für die Konvergenz uneigentlicher Integrale gilt folgendes zum Majorantenkriterium für Reihen analoge Vergleichskriterium. Satz 21.3 (Majorantenkriterium für uneigentliche Integrale) Es sei I = [a, b[ mit −∞ < a < b ≤ ∞. Die Funktionen f : I −→ R und g : I −→ R seien auf jedem Intervall [a; c] mit a < c < b Riemann-integrierbar. Es sei |f (x)| ≤ g(x) und das uneigentliche Integral Rb gentliche Integral a f (x) dx. Beweis. Für x ∈ I setzen wir Z F (x) := Rb a x ∈ I, für alle g(x) dx sei konvergent. Dann konvergiert auch das unei- x Z f (t) dt und G(x) := a x g(t) dt . a Für alle x, y mit a ≤ x < y < b gilt dann Z y Z |F (y) − F (x)| = f (t) dt ≤ x y Z |f (t)| dt ≤ x y g(t) dt = G(y) − G(x). x Nach Voraussetzung existiert der reelle Grenzwert limx→b− G(x). Zu jedem ε > 0 gibt es daher ein x0 ∈ I, so dass |G(y) − G(x)| < ε für alle x, y ∈ [x0 , b[ |F (y) − F (x)| < ε für alle x, y ∈ [x0 , b[. gilt. Also ist auch Aus dem Cauchy-Kriterium (vgl. Aufgabe 5.3 (a)) folgt daher die Existenz des reellen Grenzwerts Z b lim F (x) = x→b− f (t) dt . a Der folgende Satz stellt einen Zusammenhang her zwischen der Konvergenz von Reihen und der von uneigentlichen Integralen. Satz 21.4 (Integralvergleichskriterium oder Reihenvergleichskriterium) Es sei f : [0, ∞[ −→ [0, ∞[ eine monoton fallende Funktion. Dann gilt: Das uneigentliche Integral Z ∞ f (x) dx 0 konvergiert genau dann, wenn die unendliche Reihe 310 P∞ n=0 f (n) konvergiert. 1 2 3 4 5 6 7 8 Abbildung 57: Zum Beweis des Integralvergleichskriteriums Beweis. Da f monoton ist, ist f auf jedem Intervall [0; x] mit x ≥ 0 Riemann-integrierbar. Für x ≥ 0 und n ∈ N0 setzen wir x Z F (x) := f (t) dt , sn := 0 n X f (k) . k=0 Weil f (t) ≥ 0 für alle t ist, sind die Funktion F und die Folge (sn )n beide monoton steigend. Gemäß dem Monotonieprinzip genügt es daher zu zeigen, dass die Funktion F genau dann beschränkt ist, wenn die Folge (sn )n beschränkt ist. Die Skizze in Abbildung 57 illustriert die Beweisidee. Für k ∈ N0 und k ≤ t ≤ k + 1 gilt nach Voraussetzung f (k + 1) ≤ f (t) ≤ f (k). Hieraus folgt Z k+1 f (k + 1) ≤ f (t) dt ≤ f (k). k Für alle n ∈ N gilt somit sn − f (0) = n X f (k) ≤ k=1 = k=1 n−1 Z X k=0 n Z X k Z f (t) dt = k−1 k+1 f (t) dt ≤ k n−1 X n f (t) dt = F (n) 0 f (k) = sn−1 , k=0 also sn − f (0) ≤ F (n) ≤ sn−1 . Daher sind die Folgen (sn )n und (F (n))n entweder beide beschränkt oder beide unbeschränkt. Zudem ist die Folge (F (n))n genau dann beschränkt, wenn F beschränkt ist (aufgrund der Monotonie von F !). Daraus folgt die Behauptung. 311 Beispiel 21.5 (Die Riemannsche Zeta-Funktion) uneigentliche Integral Z ∞ dx xs 1 1 xs für s > 1 konvergent. Da die Funktion x 7→ Integralvergleichskriterium, dass die Reihe Nach Beispiel 21.2 (2) ist das auf ]1, ∞[ monoton fällt, folgt mit dem ∞ X 1 ζ(s) := ns n=1 für s > 1 konvergiert. (Dieses Resultat hatten wir bereits in Beispiel 7.25 aus dem Verdichtungskriterium gewonnen.) Die Funktion ζ heißt die Riemannsche Zetafunktion. Sie wurde bereits von Euler untersucht. Er bewies die Produktdarstellung Y ζ(s) = p prim 1 . 1 − p1s Aufgrund dieser Darstellung enthält die Zeta-Funktion wichtige Informationen über die Verteilung der Primzahlen. Sie ist daher von überragender Bedeutung in der analytischen Zahlentheorie. Bernhard Riemann zeigte 1859, dass die Zeta-Funktion in natürlicher Weise auf ganz C fortgesetzt werden kann. (Die angegebene Reihe selbst ist nur für Re s > 1 konvergent.) Diese Fortsetzung hat in den Punkten −2, −4, −6, . . . Nullstellen. Riemann vermutete, dass alle übrigen (sog. nichttrivialen“) Nullstellen von ζ auf der Geraden mit der ” Gleichung Re (s) = 21 liegen. Bei dieser bis heute ungelösten Riemannschen Vermutung handelt es sich um das wahrscheinlich größte“ offene Problem der Mathematik (eines der ” sog. Millenniums-Probleme). Mit einem Beweis der Riemannschen Vermutung könnten die bisher bekannten Aussagen über die Verteilung der Primzahlen erheblich verbessert werden. Beispiel 21.6 Gemäß Satz 19.2 lassen sich unter der Voraussetzung der gleichmäßigen Konvergenz Integration auf kompakten Intervallen und Grenzübergang vertauschen. Das folgende Beispiel illustriert die Problematik des Vertauschens von Grenzübergängen mit der uneigentlichen Integration: Wir setzen fn (x) := Es ist |fn (x)| ≤ 1 n 1 −x/n ·e n für n ∈ N und x ≥ 0. für alle x ≥ 0, und daher gilt gleichmäßig auf [0, ∞[ . lim fn (x) = 0 n→∞ Infolgedessen ist Z ∞ lim fn (x) dx = 0. 0 n→∞ Andererseits gilt nach Beispiel 21.2 (1) Z ∞ Z Z ∞ 1 ∞ −x/n fn (x) dx = e dx = e−y dy = 1 n 0 0 0 312 1 0.8 f1 0.6 0.4 f2 0.2 f7 1 2 3 4 5 6 Abbildung 58: Die Graphen der Funktionen f1 , f2 und f7 aus Beispiel 21.6 für alle n, und daher ist Z ∞ lim fn (x) dx = 1. n→∞ 0 Warnung: Die Aussage in Satz 19.2 über die Vertauschbarkeit von Grenzübergängen mit der Integration gilt nicht für uneigentliche Integrale. Die gleichmäßige Konvergenz einer Funktionenfolge ist keine hinreichende Voraussetzung für die Vertauschbarkeit! Beispiel 21.7 Das uneigentliche Integral Z ∞ sin(πt) dt tα 1 ist für alle α > 0 konvergent. Hingegen ist Z ∞ 1 | sin(πt)| dt tα für 0 < α ≤ 1 divergent und für α > 1 konvergent. Warnung: Der Betrag einer uneigentlich Riemann-integrierbaren Funktion muss nicht uneigentlich Riemann-integrierbar sein. Die Aussage aus Satz 17.12 (2), wonach mit f auch |f | Riemann-integrierbar ist, ist also nicht auf uneigentliche Riemann-Integrale übertragbar. Beweis: Es sei α > 1. Dann folgt die Konvergenz von Z ∞ Z ∞ sin(πt) | sin(πt)| dt und von dt α t tα 1 1 R∞ mittels Satz 21.3 aus der Konvergenz von 1 t1α dt. R∞ Nun sei 0 < α ≤ 1. In diesem Fall ist die Abschätzung durch das Integral 1 denn dieses ist jetzt divergent. Es ist eine feinere Untersuchung erforderlich. 313 1 tα dt zu grob, 0.6 0.4 0.2 5 15 10 20 -0.2 -0.4 -0.6 -0.8 Abbildung 59: Die Funktion f (x) = Wir setzen Z an := n n+1 sin(πx) √ x aus Beispiel 21.7 | sin(πt)| dt tα für n ∈ N. Es gilt | sin(πt)| | sin(πt)| | sin(πt)| ≤ ≤ α α (n + 1) t nα und n+1 Z Z 1 sin(πt) dt = − | sin(πt)| dt = n für 0 n≤t≤n+1 t=1 2 1 · cos(πt) = . π π t=0 Hiermit folgt für alle n ∈ N 2 2 ≤ an ≤ α π(n + 1) πnα und damit auch an+1 ≤ 2 ≤ an . π(n + 1)α Demnach ist (an )n eine monoton fallende von positiven Zahlen. Nach dem LeibnizP Nullfolge n Kriterium (Satz 7.13) ist die Reihe ∞ (−1) a konvergent. Für beliebige x > 1 erhalten n n=1 wir unter Verwendung der Gauß-Klammer bxc := max {n ∈ Z | n ≤ x} Z 1 x bxc−1 Z n+1 X Z x sin(πt) sin(πt) dt + dt α α t t n bxc n=1 Z x bxc−1 X sin(πt) n = (−1) an + dt . tα bxc n=1 sin(πt) dt = tα 314 Hierbei ist x Z x sin(πt) 1 1 dt ≤ dt ≤ −→ 0 (x → ∞). α tα (x − 1)α bxc x−1 t P n Hieraus und aus der Konvergenz der Reihe ∞ n=1 (−1) an folgt somit, dass das uneigentliche Integral Z ∞ sin(πt) dt tα 1 P∞ 1 2 konvergiert. Wegen an ≥ π(n+1) α und der Divergenz der Reihe n=1 nα ist jedoch das uneigentliche Integral Z ∞ | sin(πt)| dt tα 0 Z divergent. Alternativ kann man die Konvergenz von einsehen. R∞ 1 sin(πt) tα dt auch mittels partieller Integration Beispiel 21.8 Nach Satz 7.8 kann eine Reihe höchstens dann konvergieren, wenn ihre Glieder eine Nullfolge bilden. Angesichts der durch das Integralvergleichskriterium suggerierten Analogie zwischen Reihen und uneigentlichen Integralen klingt folgende Vermutung R∞ plausibel: Wenn das uneigentliche Integral 0 f (x) dx konvergiert, so ist limx→∞ f (x) = 0. Diese Vermutung ist falsch; schlimmer noch: f muss nicht einmal beschränkt sein. Dies lehrt folgendes Beispiel: Es sei f (x) := x sin(x3 ). Offensichtlich ist f unbeschränkt auf [1; ∞[. 4 7.5 5 2 2.5 1 2 4 3 2 4 6 8 -2.5 -2 -5 -7.5 -4 Abbildung 60: Das Verhalten von f (x) = x sin(x3 ) in den Intervallen [0; 4] bzw. [0; 8] Wir substituieren y = ϕ(x) := x3 , so dass ϕ0 (x) = 3x2 ist, und erhalten Z R Z f (x) dx = 1 R3 y 1 1/3 dy · sin y 2/3 = 3y Z 1 R3 sin y dy 3y 1/3 für alle R > 0. Aus Beispiel 21.7 (mit α = 13 ) folgt, dass der Grenzwert limR→∞ existiert, so dass f auf [1; ∞[ uneigentlich Riemann-integrierbar ist. 315 RR 1 f (x) dx 22 Wege, Kurven und ihre Länge Mithilfe der Integralrechnung können wir auch Kurvenlängen berechnen. Unter einer Kurve stellt man sich anschaulich meistens eine linienhafte, eindimensionale Menge im Raum vor, die in einem Zuge gezeichnet werden kann. Oft wird auch verlangt, dass sie einen bestimmten Durchlaufungssinn haben soll. Diese vage Vorstellung muss allerdings noch präzisiert werden - und ist zudem auch nicht ganz unproblematisch, wie manche Gegenbeispiele zeigen werden. In diesem Kapitel betrachten wir zwar Abbildungen mit mehrdimensionalem Zielbereich, aber der Definitionsbereich bleibt eindimensional, so dass beim Differenzieren und Integrieren nichts konzeptionell Neues passiert. Wir können die folgenden Betrachtungen daher eher der ein- als der mehrdimensionalen Analysis zuordnen. 22.1 Wege Definition 22.1 Es sei I ein echtes Intervall. Jede stetige Abbildung γ : I −→ Rn heißt ein Weg im Rn (oder eine parametrisierte Kurve oder eine Parameterdarstellung einer Kurve im Rn ). Die Bildmenge Spur (γ) := γ(I) = {γ(t) | t ∈ I} ⊆ Rn heißt die Spur des Weges γ. (Weitere geläufige Notationen sind z.B. T (γ) oder tr(γ).) Falls I = [a, b] ein kompaktes Intervall ist, dann heißt γ(a) der Anfangspunkt und γ(b) der Endpunkt des Weges γ. Im Falle γ(a) = γ(b) heißt γ ein geschlossener Weg. Kinematische Interpretation: Oft fasst man die Variable t als Zeit und γ(t) als Ort auf. Der Weg beschreibt dann die zeitliche Bewegung eines Punktes im Rn . Die Abbildungsvorschrift γ liefert dabei gewissermaßen einen Fahrplan, mit dem die Bildmenge γ(I) = Spur (γ) zu durchlaufen ist. Wenn wir Wege zeichnen, dann zeichnen wir nur die Spur, und der Fahrplan γ bleibt unsichtbar; allenfalls wird ein Pfeil die Durchlaufungsrichtung anzeigen. Man sollte jedoch Wege und ihre Spur ebensowenig verwechseln wie Urlaubsreisen und die hierfür benutzten Autobahnen. Beispiel 22.2 (1) Für a, b > 0 parametrisiert der (geschlossene) Weg γ : [0; 2π] −→ R2 , t 7→ (a cos t, b sin t) eine Ellipse mit den Halbachsen a und b (für a = b einen Kreis mit Radius a). (2) Für r > 0 und h > 0 ist der Weg γ : R −→ R3 , t 7→ (r cos t, r sin t, ht) eine Schraubenlinie im R3 mit der Ganghöhe 2πh (Abbildung 61). (3) Ist f : I −→ R stetig, so kann der Graph Gf := {(t, f (t)) | t ∈ I} von f als Spur eines Weges im R2 aufgefasst werden. Eine mögliche Parameterdarstellung ist γ : I −→ R2 , t 7→ (t, f (t)). 316 z γ(4π) y γ(2π) γ(0) x Abbildung 61: Eine Schraubenlinie Bemerkung 22.3 (Peano-Wege) Die Voraussetzung der Stetigkeit von γ ist relativ schwach und lässt Spielraum für sehr komplizierte Wege, die gar nicht der anschaulichen Vorstellung von einem linienhaften Gebilde entsprechen. Beispielsweise gibt es stetige surjektive Abbildungen γ : [0; 1] −→ [0; 1] × [0; 1], also Wege, die das Einheitsquadrat im R2 ausfüllen, sog. Peano-Wege64 . Diese erhält man als Grenzfunktionen γ = limn→∞ γn von Folgen elementar“ definierter Funktionen γn . Hier” bei werden die γn meist durch ein Rekursionsverfahren erklärt, dem das Prinzip Verkleinere, ” transformiere und kopiere!“ zugrunde liegt. Abbildung 62 zeigt den Beginn einer solchen Rekursion. In diesem Beispiel haben alle Wege γn den Anfangspunkt (0, 0) und den Endpunkt (1, 0). Die Stetigkeit der Grenzfunktion wird in der Regel dadurch sichergestellt, dass die Folge (γn )n gleichmäßig konvergiert. Wir wollen uns damit nicht näher beschäftigen und gehen insbesondere nicht darauf ein, weshalb die Grenzfunktion γ tatsächlich flächenfüllend ist. Man kann zeigen, dass γ nicht injektiv sein kann65 . Zur Vermeidung derartiger pathologischer“ Fälle werden wir hauptsächlich nur differenzier” bare Wege studieren. Die Übertragung des Differenzierbarkeitsbegriffs auf Wege im Rn (d.h. auf Abbildungen vom Ein- ins Mehrdimensionale) ist dabei völlig unproblematisch. 64 Die Entdeckung derartiger Monster“ durch G. Peano (1858 - 1932) im Jahr 1890 löste einen Schock unter ” Mathematikern aus und trug wesentlich dazu bei, das Vertrauen in anschauliche Evidenz zu untergraben und stattdessen auf formale Beweise Wert zu legen. 65 Wir skizzieren hier nur die Grundidee dieses Beweises: Wäre γ : [0; 1] −→ [0; 1] × [0; 1] bijektiv und stetig, so würde aus der Kompaktheit des Definitionsbereichs mithilfe von Satz 13.28 folgen, dass γ sogar ein Homöomorphismus ist. Es wären [0; 1] und [0; 1] × [0; 1] also homöomorph zueinander. Damit wären auch [0; 1] \ {0.5} und ([0; 1] × [0; 1]) \ {γ(0.5)} homöomorph. Dies kann aber nicht sein, da die zweite dieser beiden Mengen zusammenhängend ist, die erste hingegen nicht, und da der Zusammenhang eine Invariante unter Homöomorphismen ist. 317 - @ R γ1 γ2 γ3 γ4 Abbildung 62: Ein Peano-Weg γ = limn→∞ γn Definition 22.4 Ein Weg γ : I −→ Rn , t 7→ γ(t) = (γ1 (t), . . . , γn (t)) heißt differenzierbar in t0 ∈ I, wenn der Grenzwert lim t→t0 γ(t) − γ(t0 ) =: γ 0 (t0 ) t − t0 existiert. In diesem Falle nennt man γ 0 (t0 ) den Tangentialvektor von γ zum Parameterwert t0 . Falls γ 0 (t0 ) 6= 0 ist, so heißt der auf Betrag 1 normierte Vektor γ 0 (t0 ) ||γ 0 (t0 )|| der zugehörige Tangenten-Einheitsvektor. Geometrische Interpretation: γ(t) − γ(t0 ) t − t0 ist der Vektor der Durchschnittsgeschwindigkeit im Zeitintervall zwischen t0 und t; für t → t0 strebt dieser gegen γ 0 (t0 ), den momentanen Geschwindigkeitsvektor zum Zeitpunkt t0 . Siehe hierzu Abbildung 63. Bemerkung 22.5 Wie im Eindimensionalen (vgl. Satz 14.3 (a)) gilt: Ein Weg γ : I −→ n R ist genau dann differenzierbar in t0 ∈ I mit Tangentialvektor γ 0 (t0 ), wenn es eine in t0 stetige Abbildung r : I −→ Rn gibt, so dass γ(t) = γ(t0 ) + γ 0 (t0 ) · (t − t0 ) + r(t) · (t − t0 ) für alle t ∈ I also genau dann, wenn γ lokal linear approximierbar ist. 318 und r(t0 ) = 0, γ(t) γ(t0 ) γ 0 (t0 ) Abbildung 63: Tangentialvektor Klar ist auch, dass ein Weg γ = (γ1 , . . . , γn ) : I −→ Rn genau dann differenzierbar in t0 ∈ I ist, wenn alle Komponentenfunktionen γj in t0 differenzierbar (im Sinne von Definition 14.1) sind; in diesem Fall gilt γ 0 (t0 ) = (γ10 (t0 ), . . . , γn0 (t0 )). Definition 22.6 Ein Weg γ : I −→ Rn heißt differenzierbar in I, wenn γ in allen t0 ∈ I differenzierbar ist; γ heißt stetig differenzierbar, wenn γ 0 : I −→ Rn stetig ist. (Man sagt in diesem Fall auch, dass γ von der Klasse C 1 ist.) Ein Weg γ : I −→ Rn heißt regulär (oder glatt), falls er stetig differenzierbar ist mit γ 0 (t) 6= 0 für alle t ∈ I. Gilt γ(t1 ) = γ(t2 ) = p mit t1 6= t2 (so dass γ nicht injektiv ist), so heißt p ein Doppelpunkt des Weges. Im Folgenden zwei Beispiele für die möglichen Folgen mangelnder Regularität und für Wege mit Doppelpunkten. Beispiel 22.7 (1) Durch γ(t) := (t2 , t3 ), t ∈ R, wird die sog. Neilsche Parabel parametrisiert (Abbildung 64). Ihre Spur ist die Lösungsmenge der Gleichung y 2 = x3 in R2 . Der Weg γ ist stetig differenzierbar mit γ 0 (t) = (2t, 3t2 ) Es ist γ 0 (0) = (0; 0). Dem Parameterwert t = 0 entspricht eine Spitze“ (0, 0); diese ” rührt - anschaulich gesprochen - daher, dass die Bewegung im Punkt (0; 0) für einen (infinitesimal kurzen) Moment zur Ruhe kommt und daher dort ihre Richtung wechseln kann. 0 (t) stetig von t ab. Dies Bei regulären Wegen hängt der Tangenteneinheitsvektor ||γγ 0 (t)|| garantiert einen glatten“ Kurvenverlauf und schließt Spitzen“ aus. ” ” 319 Abbildung 64: Die Neilsche Parabel (2) Wir betrachten den in Abbildung 65 skizzierten Weg γ(t) := (t2 − 1, t3 − t), t ∈ R. Abbildung 65: Tangentialvektoren in einem Doppelpunkt Er hat den Doppelpunkt γ(1) = γ(−1) = (0, 0). Es ist γ 0 (t) = (2t, 3t2 − 1) 6= (0, 0) für alle t ∈ R, d.h. γ ist regulär. Die zum Doppelpunkt gehörigen Tangentialvektoren sind γ 0 (−1) = (−2, 2) und γ 0 (1) = (2, 2). In Doppelpunkten gibt es also i.Allg. verschiedene Tangentialvektoren. Daher kann der Tangentialvektor γ 0 (t0 ) nur der Parameterstelle t0 und nicht dem Punkt γ(t0 ) eindeutig zugeordnet werden. 320 22.2 Die Länge von Wegen Anschaulich scheint es klar zu sein, dass jeder Weg γ : I −→ Rn mit kompaktem Definitionsintervall I eine endliche Länge hat. Das Beispiel der Peano-Wege führt diese Erwartung jedoch ad absurdum, und nicht einmal die Differenzierbarkeit von γ stellt sicher, dass γ endliche Länge hat, wie wir in Beispiel 22.13 sehen werden. Es stellt sich zunächst die Frage, wie man die Länge eines Weges sinnvoll definieren kann. Ein naheliegender Ansatz ist der folgende: Wir bilden Polygonzüge durch Punkte des Weges, die zu einer aufsteigenden Folge von Parameterwerten gehören, und sehen die Länge der Polygonzüge als Approximationen der gesuchten Länge des Weges an (Abbildung 66). Abbildung 66: Approximation eines Weges durch einen Polygonzug Definition 22.8 Es sei I = [a, b] ein kompaktes Intervall und γ : I −→ Rn ein Weg im Rn . Für eine beliebige Zerlegung Z = (t0 , t1 , . . . , tm ) von I setzen wir VZ (γ) := m X ||γ(tj ) − γ(tj−1 )|| . j=1 (Dies ist die Länge des Polygonzuges mit den Ecken γ(tj ).) Wir nennen L(γ) := sup{VZ (γ) | Z ist Zerlegung von I} die Länge des Weges γ. Im Falle L(γ) < ∞ heißt γ rektifizierbar. Bemerkung 22.9 Man beachte, dass wir die Länge eines Weges γ : I −→ Rn nur für den Fall definieren, dass I ein kompaktes Intervall ist. Dies liegt daran, dass wir zur Definition von VZ (γ) die Werte von γ in den Randpunkten von I benötigen. Durch einen geeigneten Grenzübergang könnte man natürlich auch den Fall eines nicht-kompakten Definitionsintervalls erfassen. 321 Heuristische Betrachtung. Es ist wenig praktikabel, die Länge eines Weges gemäß der Definition mit Hilfe von approximierenden Polygonzügen zu berechnen. Die Integralrechnung bietet zumindest für stetig differenzierbare Wege eine bequemere Methode. Die folgende heuristische Überlegung führt zu der richtigen Formel. Es sei I = [a, b] ein kompaktes Intervall und γ : I −→ R2 ein stetig differenzierbarer Weg im R2 . Es sei Z = (t0 , t1 , . . . , tm ) eine Zerlegung von I. Die Summanden in VZ (γ) sind 1/2 2 2 ||γ(tk ) − γ(tk−1 )|| = (γ1 (tk ) − γ1 (tk−1 )) + (γ2 (tk ) − γ2 (tk−1 )) . Wegen der Differenzierbarkeit von γ1 und γ2 gibt es nach dem Mittelwertsatz der Differentialrechnung (Satz 15.8) Punkte τk und θk im offenen Intervall ]tk−1 , tk [ mit 2 0 2 0 2 ||γ(tk ) − γ(tk−1 )|| = γ1 (τk ) + γ2 (θk ) · (tk − tk−1 )2 . Weil die Ableitungen γ10 und γ20 stetig sind, begeht man nur einen kleinen“ Fehler, wenn man ” hierin τk und θk beide durch tk ersetzt - jedenfalls dann, wenn die Zerlegung fein genug“ ” gewählt wird. Daher ist VZ (γ) ungefähr gleich der Summe m X p γ10 (tk )2 + γ20 (tk )2 · (tk − tk−1 ) . k=1 Diese Summe ist eine Approximation für das Integral Z bp γ10 (t)2 + γ20 (t)2 dt . a Für die Länge von γ gilt daher vermutlich die Formel Z bp γ10 (t)2 + γ20 (t)2 dt . L(γ) = a Es liegt auf der Hand, wie diese auf den Fall von Wegen im Rn statt R2 zu verallgemeinern ist. Satz 22.10 (Längenformel) Ist I = [a; b] ein kompaktes Intervall und γ : I −→ Rn ein stetig differenzierbarer Weg im Rn , so ist γ rektifizierbar, und es gilt Z b Z bp 0 ||γ (t)|| dt = γ10 (t)2 + . . . + γn0 (t)2 dt. L(γ) = a a Beweis. Wir dürfen a < b annehmen. Es sei ein ε > 0 gegeben. Als stetige Funktionen sind die Komponentenfunktionen γk0 auf dem Kompaktum I sogar gleichmäßig stetig (Satz 13.31). Folglich gibt es ein δ > 0, so dass für alle k = 1, . . . , n und für beliebige τ, θ ∈ I mit |τ − θ| < δ die Ungleichung ε |γk0 (τ ) − γk0 (θ)| < n(b − a) gilt. Es sei Z = (t0 , t1 , . . . , tm ) eine Zerlegung von I, deren Feinheit maxj (tj − tj−1 ) < δ ist. Wir wollen zeigen, dass Z b 0 VZ (γ) − < ε. ||γ (t)|| dt (22.1) a 322 Es sei ein j ∈ {1, . . . , m} gegeben. Es sei Ij := ]tj−1 , tj [. Nach dem Mittelwertsatz der Differentialrechnung gibt es Punkte τk ∈ Ij mit γk (tj ) − γk (tj−1 ) = γk0 (τk ). tj − tj−1 Daher gilt ||γ(tj ) − γ(tj−1 )|| = ||(γ10 (τ1 ), . . . , γn0 (τn ))|| · (tj − tj−1 ). Nach dem Mittelwertsatz der Integralrechnung (Satz 18.1) gibt es ein θ ∈ Ij mit Z tj ||γ 0 (t)|| dt = ||γ 0 (θ)|| · (tj − tj−1 ) = ||(γ10 (θ), . . . , γn0 (θ))|| · (tj − tj−1 ) . tj−1 Weiter gilt aufgrund der Dreiecksungleichung n X ||x|| − ||y|| ≤ ||x − y|| ≤ |xk − yk | für alle x, y ∈ Rn . k=1 Damit können wir den Beitrag des Intervalls Ij zur linken Seite in (22.1) abschätzen: Z tj ||γ 0 (t)|| dt ∆j := ||γ(tj ) − γ(tj−1 )|| − tj−1 = (tj − tj−1 ) · ||(γ10 (τ1 ), . . . , γn0 (τn ))|| − ||(γ10 (θ), . . . , γn0 (θ))|| ≤ (tj − tj−1 ) · n X |γk0 (τk ) − γk0 (θ)| . k=1 Weil die Feinheit von Z kleiner als δ ist und τk und θ beide in Ij liegen, gilt |τk − θ| < δ und somit ε für alle k = 1, . . . , n. |γk0 (τk ) − γk0 (θ)| < n(b − a) Also folgt ε . b−a Dies gilt für alle j ∈ {1, . . . , m}. Summation über j ergibt mittels der Dreiecksungleichung Z b m m Z tj X X 0 0 VZ (γ) − ||γ (t)|| dt = ||γ (t)|| dt ||γ(tj ) − γ(tj−1 )|| − a j=1 j=1 tj−1 Z tj m X ≤ ||γ 0 (t)|| dt ||γ(tj ) − γ(tj−1 )|| − tj−1 ∆j < (tj − tj−1 ) · j=1 m X m X ε = ∆j < · (tj − tj−1 ) = ε, b − a j=1 j=1 also (22.1). Dies gilt für alle Zerlegungen Z von I der Feinheit < δ. Hieraus erhalten wir unmittelbar Z L(γ) = sup {VZ (γ) | Z ist Zerlegung von I} > a 323 b ||γ 0 (t)|| dt − ε . Jede Zerlegung Z ∗ von I besitzt eine Verfeinerung Z mit einer Feinheit < δ. Daher folgt aus (22.1) auch Z b ||γ 0 (t)|| dt + ε . VZ ∗ (γ) ≤ VZ (γ) < a (Die erste Abschätzung ergibt sich direkt aus der Dreiecksungleichung: Beim Übergang zur Verfeinerung einer Zerlegung nimmt die Länge des approximierenden Polygonzuges zu.) Man bildet das Supremum über alle Z ∗ und erhält Z b ∗ ||γ 0 (t)|| dt + ε . L(γ) = sup {VZ ∗ (γ) | Z ist Zerlegung von I} ≤ a Insgesamt ist also Z b Z 0 ||γ (t)|| dt − ε < L(γ) ≤ a b ||γ 0 (t)|| dt + ε. a Dies gilt für jedes ε > 0. Daraus folgt die Behauptung Z b L(γ) = ||γ 0 (t)|| dt. a Insbesondere ist L(γ) < ∞, d.h. γ ist rektifizierbar. Wendet man dieses Resultat auf die aus Beispiel 22.2 (3) bekannte Parametrisierung t 7→ (t, f (t)) des Graphen einer stetigen Funktion f an, so erhält man insbesondere: Korollar 22.11 Der Weg γ im R2 sei eine Parametrisierung des Graphen einer stetig differenzierbaren Funktion f : [a, b] −→ R. Dann gilt Z bp L(γ) = 1 + f 0 (x)2 dx . a Beispiel 22.12 Es sei γ(t) := (a cos t, b sin t) , 0 ≤ t ≤ 2π, (mit a, b > 0) eine Parameterdarstellung einer Ellipse mit großer Halbachse a und kleiner Halbachse b. Es ist γ 0 (t) = (−a sin t, b cos t). Aus Satz 22.10 ergibt sich für den Umfang der Ellipse Z 2π p a2 sin2 t + b2 cos2 t dt. L(γ) = 0 Im Spezialfall a = b eines Kreises erhält man Z 2π p L(γ) = a sin2 t + cos2 t dt = 2πa. 0 Im Fall a 6= b besitzt der Integrand keine elementare Stammfunktion. Es liegt ein sog. elliptisches Integral vor. 324 Beispiel 22.13 Nicht einmal differenzierbare Wege (mit kompaktem Definitionsintervall) müssen rektifizierbar sein. Hierzu betrachten wir die Funktion66 ( 2 x · cos x12 für x ∈ [−1; 1] \ {0} , f (x) := 0 für x = 0 und den Weg für − 1 ≤ t ≤ 1, γ(t) := (t, f (t)) der eine Parametrisierung des Graphen von f darstellt (vgl. Abbildung 67). 100 0.15 50 0.10 0.05 -0.4 -0.4 0.2 -0.2 0.2 -0.2 0.4 0.4 -50 -0.05 -0.10 -100 Abbildung 67: Die Graphen von f und f 0 aus Beispiel 22.13 im Intervall [−0.5; 0.5] Aus der Beschränktheit des Cosinus folgt, dass f (und damit γ) auf dem ganzen Intervall [−1; 1] differenzierbar ist mit 2x · cos x12 + x2 · sin x12 , falls x = 6 0, 0 f (x) = 0, falls x = 0. Für natürliche Zahlen N ≥ 2 bilden wir die Zerlegungen ZN := ! 1 1 1 ,..., √ ,1 0, √ ,p π πN π(N − 1) von [0, 1]. In den von 0 und 1 verschiedenen Teilpunkten nimmt cos x12 abwechselnd die Werte 1 und −1 an. Deshalb gilt ! ! N N X X 1 1 1 1 √ p √ p VZN (γ) ≥ − γ − f γ ≥ f πk πk π(k − 1) π(k − 1) k=2 k=2 N N X X 1 1 1 1 = + kπ cos(kπ) − (k − 1)π cos((k − 1)π) = kπ (k − 1)π k=2 k=2 N 2 X 1 ≥ · . π k=2 k Die eineiige Zwillingsschwester“ x 7→ x2 sin x12 von f hatten wir bereits in Beispiel 14.21 (2) kennenge” lernt, als Beispiel für eine differenzierbare Funktion, deren Ableitung auf einem Kompaktum unbeschränkt ist. 66 325 Wegen der Divergenz der harmonischen Reihe folgt hieraus L(γ) ≥ sup VZN (γ) = ∞, N ∈N also L(γ) = ∞. Dieses Beispiel widerlegt in dramatischer Weise die Vorstellung, eine Funktion sei stetig, wenn sich ihr Graph ohne abzusetzen zeichnen lässt: Startet man damit im Nullpunkt, so müsste man in jedem beliebig kleinen Abszissen-Intervall [0; ε] mit ε > 0 ein unendlich langes Wegstück durchlaufen; man kann hier nicht mehr sinnvoll erklären, was man mit einem Nachzeichnen“ des Graphens überhaupt meint. ” 22.3 Funktionen von beschränkter Variation Wir können auch stetige reellwertige Funktionen als Wege (im R1 ) auffassen und nach ihrer Weglänge bzw. nach Rektifizierbarkeit fragen. Für die Bildung der Größen VZ (γ) und L(γ) aus Definition 22.8 kann man dabei sogar von der Stetigkeitsvoraussetzung absehen. Dies führt auf den Begriff der Funktionen von beschränkter Variation, der auf C. Jordan (1838 1922) zurückgeht. Definition 22.14 Es sei f : I −→ R eine reellwertige Funktion auf einem kompakten Intervall I = [a, b]. Es sei VZ (f ) wie in Definition 22.8 erklärt. Dann heißt V[a;b] (f ) = V (f ) := sup{VZ (f ) | Z ist Zerlegung von I} die totale Variation der Funktion f auf I. Falls V (f ) < ∞ ist, so heißt f von beschränkter Variation. Bemerkung 22.15 Die totale Variation V (f ) stimmt mit der Weglänge L(f ) überein (die wir freilich nur für stetiges f definiert hatten). Dabei darf man allerdings V (f ) nicht mit der Länge des Graphen von f verwechseln. (Dieser lebt“ ja im R2 , nicht in R.) ” Die korrekte Veranschaulichung für V (f ) ist vielmehr die folgende: Wird die Auf- und Abbewegung eines Punktes auf einer Geraden durch f beschrieben, so misst V (f ) die insgesamt von diesem Punkt zurückgelegte Strecke. Es gilt jedoch: Genau dann ist eine stetige Funktion f : I −→ R auf einem kompakten Intervall I von beschränkter Variation, wenn ihr Graph Gf ⊆ R2 endliche Länge hat (vgl. Aufgabe 2.1). Beinahe selbstverständlich ist folgende Additivitätseigenschaft der totalen Variation. Lemma 22.16 Es sei f : I −→ R eine reellwertige Funktion auf einem kompakten Intervall I = [a, b]. Dann gilt67 V[a,b] (f ) = V[a,c] (f ) + V[c,b] (f ) Beweis. siehe Übungen, Aufgabe 2.2 für alle c ∈ ]a; b[. Statt V[x,y] (f ) müssten wir im Folgenden strenggenommen V[x,y] f |[x,y] schreiben. Um diese Schwerfälligkeit in der Notation zu vermeiden, verwechseln“ wir also die Funktion f mit ihrer Restrik” tion auf das Intervall [x, y]. 67 326 Für Funktionen von beschränkter Variation gilt die folgende überraschende Charakterisierung: Satz 22.17 Es sei f : I −→ R eine reellwertige Funktion auf einem kompakten Intervall I = [a, b]. Genau dann ist f von beschränkter Variation, wenn f die Differenz zweier monoton steigender Funktionen ist. Beweis. ⇐=“: Es sei f = g − h die Differenz zweier monoton steigender Funktionen g ” und h. Es sei Z = (t0 , . . . , tm ) (mit a = t0 < t1 < · · · < tm = b) eine beliebige Zerlegung von [a; b]. Dann erhalten wir mit der Dreiecksungleichung VZ (f ) = ≤ (∗) = m X j=1 m X j=1 m X |f (tj ) − f (tj−1 )| |g(tj ) − g(tj−1 )| + (g(tj ) − g(tj−1 )) + j=1 m X j=1 m X |h(tj ) − h(tj−1 )| (h(tj ) − h(tj−1 )) j=1 = g(tm ) − g(t0 ) + h(tm ) − h(t0 ) = (g + h)(b) − (g + h)(a). (Dafür, dass wir in (∗) die Beträge weglassen konnten, ist die Monotonie von g und h wesentlich.) Hierbei ist die obere Schranke (g + h)(b) − (g + h)(a) unabhängig von der Wahl der Zerlegung Z. Somit folgt auch V (f ) = sup {VZ (f ) | Z ist Zerlegung von I} ≤ (g + h)(b) − (g + h)(a) < ∞. Dies zeigt, dass f von beschränkter Variation ist. =⇒“: Nun sei vorausgesetzt, dass f von beschränkter Variation ist. ” Wir setzen g(x) := V[a;x] (f ) für a ≤ x ≤ b. Es seien x, y ∈ [a; b] mit x < y vorgegeben. Dann ist gemäß Lemma 22.16 g(y) − g(x) = V[a;y] (f ) − V[a;x] (f ) = V[x;y] (f ) ≥ 0. (22.2) Dies zeigt, dass g monoton wächst. Wir setzen h := g − f . Dann ist wie gewünscht f = g − h. Wir müssen noch nachweisen, dass auch h monoton wächst. Hierzu seien x, y ∈ [a; b] mit x < y gegeben. Nach Definition der totalen Variation V[x;y] (f ) ist dann |f (x) − f (y)| ≤ V[x;y] (f ), da ja V[x;y] (f ) das Supremum über alle Variationen VZ (f ) mit beliebigen Zerlegungen Z des Intervalls [x; y] ist und auch Z = (x; y) eine solche Zerlegung ist. Es folgt mit (22.2) h(y) − h(x) = g(y) − g(x) − f (y) + f (x) = V[x;y] (f ) − (f (y) − f (x)) ≥ |f (y) − f (x)| − (f (y) − f (x)) ≥ 0. 327 Also ist auch h monoton wachsend. Somit ist f = g − h die Differenz zweier monoton wachsender Funktionen. 22.4 Parametertransformationen und Kurven Oft will man Wege mit gleicher Spur, gleicher Durchlaufungsrichtung und ähnlichem Fahr” plan“ miteinander identifizieren. (Wege mit lediglich gleicher Spur zu identifizieren ist nicht sinnvoll, wie das Beispiel von einfach bzw. mehrfach durchlaufenen Kreislinien zeigt.) Beispiel 22.18 Die beiden Wege h πi −→ R2 , α : 0, 2 α(t) = (cos(t), sin(t)) und β : [0, 1] −→ R2 , β(y) = p 1 − y2, y haben die gleiche Spur, nämlich die Viertelkreislinie Spur (α) = Spur (β) = {(u, v) ∈ R2 | u2 + v 2 = 1, u ≥ 0, v ≥ 0 }. Beide Wege haben auch den gleichen Durchlaufungssinn mit dem Anfangspunkt (1, 0) und dem Endpunkt (0, 1). Nur die Fahrpläne“ sind verschieden. Wir können den einen Weg wie ” folgt in den anderen transformieren: Es gilt π β ◦ ϕ = α mit ϕ(t) = sin(t) für 0 ≤ t ≤ . 2 Definition 22.19 Es seien I und J echte Intervalle. Jede stetige und bijektive Funktion ϕ : I −→ J heißt eine Parametertransformation. Es seien α : I −→ Rn und β : J −→ Rn zwei Wege im Rn . Wir nennen α und β äquivalent, und wir schreiben α ∼ β, falls es eine Parametertransformation ϕ : I −→ J gibt mit β ◦ ϕ = α. Erinnerung: Äquivalenzrelationen Es sei A 6= ∅ eine Menge. Eine Relation ∼ auf A heißt eine Äquivalenzrelation auf A, falls die folgenden drei Bedingungen erfüllt sind. (Ä1) Die Relation ist reflexiv: Für alle x ∈ A gilt x ∼ x. (Ä2) Die Relation ist symmetrisch: Aus x ∼ y folgt stets y ∼ x. (Ä3) Die Relation ist transitiv: Aus x ∼ y und y ∼ z folgt stets x ∼ z. Nun sei ∼ eine Äquivalenzrelation auf A. Für a ∈ A heißt dann C(a) = {x ∈ A | x ∼ a} die Äquivalenzklasse von a; jedes Element von C(a) heißt ein Repräsentant dieser Äquivalenzklasse. Aus (Ä3) geht hervor, dass für beliebige a, b ∈ A entweder C(a) = C(b) oder C(a) ∩ C(b) = ∅ ist; zwei Äquivalenzklassen sind entweder identisch oder disjunkt. Die Äquivalenzklassen bilden also eine Zerlegung von A in disjunkte Teilmengen. 328 Bemerkung 22.20 (a) Bei der Äquivalenz von Wegen handelt es sich tatsächlich um eine Äquivalenzrelation: (1) Die Reflexivität folgt daraus, dass die identische Abbildung eines Intervalls eine Parametertransformation ist. (2) Wenn ϕ : I −→ J eine Parametertransformation ist, dann ist ϕ−1 : J −→ I nach Satz 10.14 (2) stetig, also ebenfalls eine Parametertransformation. Daher ist die Relation symmetrisch. (3) Die Transitivität ergibt sich aus der Beobachtung, dass die Verkettung von zwei Parametertransformationen ebenfalls eine Parametertransformation ist. (b) Es sei ϕ : I −→ J eine Parametertransformation. Dann ist ϕ streng monoton (Satz 10.14 (1)). Falls ϕ streng monoton wächst, so ist ϕ orientierungstreu; falls ϕ streng monoton fällt, so ist ϕ orientierungsumkehrend. (c) Ist ϕ : I −→ J eine Parametertransformation und ist I kompakt, so ist auch J = ϕ(I) kompakt (Satz 10.1). Hat ein Weg einen kompakten Definitionsbereich, so gilt dies also auch für alle zu ihm äquivalenten Wege, so dass die Frage nach deren Länge sinnvoll ist. Es ist zu erwarten, dass die Weglänge invariant unter Parametertransformationen ist, dass äquivalente Wege also die gleiche Länge haben. Diese Erwartung wird Satz 22.21 bestätigen. Satz 22.21 Sind α : I −→ Rn und β : J −→ Rn (mit echten kompakten Intervallen I und J) äquivalente Wege im Rn , so haben α und β die gleiche Länge. Beweis. Es sei β = α ◦ ϕ mit einer Parametertransformation ϕ : J −→ I. Es sei Z 0 = (t0 , t1 , . . . , tm ) eine Zerlegung von J. Weil ϕ surjektiv und streng monoton ist, ist dann ( ϕ(t0 ), ϕ(t1 ), . . . , ϕ(tm ) falls ϕ streng monoton steigt Z := ϕ(tm ), ϕ(tm−1 ), . . . , ϕ(t0 ) falls ϕ streng monoton fällt eine Zerlegung von I. Es folgt VZ 0 (β) = m X j=1 ||β(tj ) − β(tj−1 )|| = m X ||α(ϕ(tj )) − α(ϕ(tj−1 ))|| = VZ (α) ≤ L(α). j=1 Das gilt für jede Zerlegung Z 0 von J; daher ist L(β) ≤ L(α). Durch Rollentausch von α und β erhält man auch L(α) ≤ L(β). Also ist L(α) = L(β). Bemerkung 22.22 Falls die Wege α und β sowie die Parametertransformation ϕ im voranstehenden Beweis sogar stetig differenzierbar sind, so folgt die Behauptung einfacher aus Satz 22.10 und aus der Substitutionsregel (Aufgabe 2.5) 329 Definition 22.23 Eine Kurve im Rn ist eine Äquivalenzklasse von Wegen im Rn . Ist Γ n eine Kurve im R und γ : I −→ Rn ein Weg in der Äquivalenzklasse Γ, dann heißt γ eine Parameterdarstellung der Kurve Γ. Das Bild γ(I) = Spur (γ) hängt offensichtlich nur von der Äquivalenzklasse Γ ab. Wir dürfen es daher die Spur der Kurve Γ nennen und mit Spur (Γ) bezeichnen. Weiter hängt nach Satz 22.21 die Weglänge L(γ) nur von Γ ab, nicht von der Wahl des Repräsentanten γ. Durch L(Γ) := L(γ) ist daher die Länge der Kurve Γ wohldefininiert. Im Falle L(Γ) < ∞ heißt Γ rektifizierbar. Warnung: Die Unterscheidung zwischen Wegen und Kurven ist in der Literatur nicht einheitlich. 330 Teil IV Differentialrechnung in mehreren Variablen 23 Benötigte Hilfsmittel aus der Linearen Algebra Die Ableitung (genauer: das totale Differential) einer Funktion mehrerer Variabler wird sich als lineare Abbildung erweisen. Daher benötigt die mehrdimensionale Differentialrechnung einige Grundkenntnisse der Linearen Algebra, die wir im Folgenden ohne Beweis bereitstellen wollen. 23.1 Vektorräume Als erstes müssen wir den (in der Linearen Algebra zentralen) Begriff des Vektorraums erklären. Definition 23.1 Ein Vektorraum V über einem Körper K (kurz: ein K-Vektorraum) ist eine nichtleere Menge, auf der eine Addition + : V × V −→ V und eine Skalarmultiplikation · : K × V −→ V erklärt sind, so dass (V, +) eine abelsche Gruppe bildet und die Skalarmultiplikation folgenden Bedingungen genügt: (S1) Es gilt λ · (v + w) = λ · v + λ · w für alle λ ∈ K und alle v, w ∈ V. (λ + µ) · v = λ · v + µ · v für alle λ, µ ∈ K und alle v ∈ V. (S2) Es gilt (S3) Es gilt (λµ) · v = λ · (µ · v) für alle λ, µ ∈ K und alle v ∈ V. (S4) Es gilt 1·v =v für alle v ∈ V, wobei 1 das Einselement in dem Körper K bezeichnet. Eine Teilmenge U ⊆ V eines K-Vektorraums V heißt ein Unterraum oder Teilraum von V , falls U mit der von V geerbten Addition + und Skalarmultiplikation · selbst ein Vektorraum ist. 331 Bemerkung 23.2 (1) Um nachzuprüfen, dass U ⊆ V Unterraum eines K-Vektorraums V ist, genügt der Nachweis, dass für alle u, u1 , u2 ∈ U und alle λ ∈ K stets auch u1 + u2 ∈ U und λu ∈ U gilt, d.h. dass U abgeschlossen bezüglich der Verknüpfungen + und · ist. (Die Gültigkeit aller anderen Vektorraumaxiome überträgt sich automatisch von dem größeren“ ” Vektorraum V auf U . Ein analoges Phänomen hatten wir bereits bei Gruppen und Untergruppen beobachtet, vgl. Bemerkung 2.2 (4)). Ebenso wie Gruppen sind Vektorräume (und damit auch Unterräume von Vektorräumen) stets nichtleer: Sie enthalten zumindest den Nullvektor. (2) In der Analysis betrachtet man meist nur Vektorräume über den Körpern R und C. Um in diesen grundlegende Begriffe wie Konvergenz und Stetigkeit erklären zu können, benötigt man zudem eine Metrik, in aller Regel in Form einer Norm. Wir kommen hierauf in Abschnitt 23.3 zurück. (3) Die bekanntesten Beispiele für Vektorräume sind die Räume Rn und Cn , versehen mit der komponentenweisen Addition und Skalarmultiplikation (Abschnitt 3.3). Aber auch viele wichtige Funktionenklassen der Analysis bilden Vektorräume, etwa die Menge aller stetigen (bzw. differenzierbaren bzw. integrierbaren) Funktionen f : [a, b] −→ R oder die Menge aller Polynome. Dies ist lediglich eine abstrakte Umformulierung der altbekannten (und nicht sonderlich tiefliegenden) Tatsache, dass Summen und skalare Vielfachen von stetigen Funktionen wieder stetig sind (bzw. analoge Aussagen für die Eigenschaften differenzierbar“, integrierbar“ und ist Polynom“ ” ” ” gelten). Definition 23.3 Es sei V ein K-Vektorraum. (a) Eine endliche Teilmenge M = {v1 , . . . , vn } von V heißt linear unabhängig, falls gilt: ∀λ1 ,...,λn ∈K (λ1 v1 + · · · + λn vn = 0 =⇒ λ1 = · · · = λn = 0) , wenn also die Gleichung λ1 v1 + · · · + λn vn = 0 nur in trivialer Weise erfüllbar ist. M heißt linear abhängig, falls M nicht linear unabhängig ist, falls es also Skalare λ1 , . . . , λn ∈ K gibt, so dass λ1 v1 + · · · + λn vn = 0 und (λ1 , . . . , λn ) 6= (0, . . . , 0) ist. (b) Eine Menge B ⊆ V heißt eine Basis von V , falls jede endliche Teilmenge von B linear unabhängig ist und falls sich jedes Element in V als (endliche) Linearkombination von Elementen aus B schreiben lässt, falls es also zu jedem v ∈ V endlich viele b1 , . . . , bn ∈ B und λ1 , . . . , λn ∈ K gibt, so dass v = λ1 b1 + · · · + λn bn gilt. (Hierbei kann n von v abhängen.) Zu beachten ist, dass hier stets nur endliche Linearkombinationen betrachtet werden. Dies liegt u.a. auch daran, dass ohne eine geeignete Metrik auf V (bzw. einen geeigneten Konvergenzbegriff) unendliche Linearkombinationen (d.h. unendliche Reihen!) gar nicht sinnvoll erklärt werden können. 332 Satz 23.4 (a) Ist B eine Basis des Vektorraums V , so lässt sich jedes v ∈ V eindeutig als endliche Linearkombination von Elementen aus B schreiben. (b) Jeder Vektorraum besitzt eine Basis. (c) Falls ein K-Vektorraum V eine endliche Basis besitzt, so ist deren Elementanzahl eindeutig bestimmt, d.h. je zwei Basen sind gleich mächtig. Diese gemeinsame Mächtigkeit der Basen von V heißt die Dimension von V und wird mit dim V (oder genauer auch mit dimK V ) bezeichnet. Der Begriff der Basis ermöglicht es, jeden endlichdimensionalen Vektorraum V über einem Körper K mit dem K n zu identifizieren (wobei n = dimK V ). Daher konzentriert man sich in der Linearen Algebra für viele Zwecke auf das Studium der Räume K n . Beispiel 23.5 (1) Der R-Vektorraum Rn hat die Dimension n. Eine Basis des Rn ist die Standardbasis {e1 , . . . , en }; sie besteht aus den Einheitsvektoren ek = (0, . . . , 0, 1, 0, . . . , 0)T , worin die k-te Komponente den Wert 1 und alle übrigen Komponenten den Wert 0 haben. (2) Man kann C als R-Vektorraum, aber auch als C-Vektorraum auffassen. Es ist dimR C = 2, dimC C = 1. Eine R-Basis von C ist {1, i}, eine C-Basis von C ist {1} . 23.2 Lineare Abbildungen und Matrizen Der zweite zentrale Begriff der Linearen Algebra ist der der linearen Abbildung: Definition 23.6 Es seien V und W zwei Vektorräume über einem Körper K. Eine Abbildung L : V −→ W heißt eine lineare Abbildung, falls L(v1 + v2 ) = L(v1 ) + L(v2 ) für alle v1 , v2 ∈ V (Additivität) und L(λv) = λL(v) für alle v ∈ V und alle λ ∈ K (Homogenität) gilt. Man setzt Kern (L) := {v ∈ V | L(v) = 0} , Bild (L) := {L(v) | v ∈ V } und nennt Kern (L) den Kern und Bild (L) das Bild der linearen Abbildung L. Eine lineare Abbildung L : V −→ K des K-Vektorraums V in den Körper K (aufgefasst als eindimensionaler K-Vektorraum K 1 ) heißt auch eine Linearform auf V . Eine einfache Folgerung aus den Definitionen ist, dass für jede lineare Abbildung L : V −→ W stets L(0) = 0 gilt. Ebenso leicht sieht man, dass eine lineare Abbildung L : V −→ W genau dann injektiv ist, wenn Kern (L) = {0} ist. Dass die Surjektivität von L äquivalent ist mit Bild (L) = W , ist ohnehin klar nach Definition. 333 Warnung: Anders als im Sprachgebrauch des Schulunterrichts sieht man in der Linearen Algebra Abbildungen f : R −→ R, x 7→ mx + t nur dann als linear an, wenn t = 0 ist. Vielmehr bezeichnet man solche Abbildungen x 7→ mx + t als affine Abbildungen. Satz 23.7 (Dimensionsformel für lineare Abbildungen) Es sei L : V −→ W eine lineare Abbildung. Dann ist Kern (L) ein Unterraum von V und Bild (L) ein Unterraum von W. Im Falle dim V < ∞ gilt dim Kern (L) + dim Bild (L) = dim V. Eine wichtige Klasse von linearen Abbildungen sind die durch Matrizen vermittelten zwischen den Räumen Rn und Rm . Definition 23.8 (Matrizen) (1) Es seien m, n ∈ N. Mit Rm×n bezeichnet man die Menge der m × n-Matrizen a11 a12 . . . a1n a21 a22 . . . a2n A = (ajk )j,k = .. (23.1) .. .. .. . . . . am1 am2 . . . amn mit Einträgen ajk ∈ R. (2) Summen und skalare Vielfache von Matrizen erklärt man komponentenweise. (3) Die Transponierte einer m × n-Matrix n × m-Matrix a11 a12 AT := (akj )j,k = .. . a1n A = (ajk )j,k ∈ Rm×n wie in (23.1) ist die a21 . . . am1 a22 . . . am2 n×m , .. .. .. ∈ R . . . a2n . . . amn bei der gegenüber A Zeilen und Spalten vertauscht sind. (4) Zu zwei Matrizen B = (bjk )j,k ∈ Rm×n , A = (akl )k,l ∈ Rn×p definiert man das Produkt C = (cjl )jl := B · A = BA ∈ Rm×p durch cjl := n X bjk akl für alle j = 1, . . . , m, l = 1, . . . , p. k=1 Der Eintrag in der j-ten Zeile und l-ten Spalte eines Produkts von Matrizen ergibt sich also, indem man die j-te Zeile der linken mit der l-ten Spalte der rechten Matrix multipliziert“, wobei die Multiplikation“ einer Zeile mit einer Spalte sich so vollzieht, ” ” dass man die einzelnen Einträge multipliziert und die Ergebnisse aufaddiert. 334 Natürlich ist die Multiplikation von Matrizen nur dann definiert, wenn die Formate“ der ” beteiligten Matrizen zueinander passen. Ein Spezialfall der Matrixmultiplikation ist die Multiplikation einer Matrix A ∈ Rm×n mit einem (Spalten-)Vektor68 x ∈ Rn (den man als n × 1-Matrix ansehen kann): Es ist a11 .. Ax = . am1 a11 x1 + a12 x2 + · · · + a1n xn . . . a1n x1 .. . .. .. .. = . . . . . .. . . . amn xn am1 x1 + am2 x2 + · · · + amn xn Transponiert man einen Spaltenvektor x ∈ Rm , so erhält man den Zeilenvektor xT (eine 1 × m-Matrix); diesen kann man von links an eine m × n-Matrix multiplizieren und damit dann auch xT A für x ∈ Rn und A ∈ Rm×n erklären. Zur Vereinfachung der Notationen will man gelegentlich mehrere (Spalten-)Vektoren v1 , . . . , vn ∈ Rm (nebeneinander angeordnet gedacht) zu einer Matrix zusammenfassen. Man schreibt dann z.B. A := (v1 , . . . , vn ).69 Ist A ∈ Rm×n eine reelle m × n-Matrix, so ist die Abbildung L : Rn −→ Rm , die definiert ist durch L(x) := Ax für alle x ∈ Rn , linear, wie man relativ schnell sieht. Bemerkenswerterweise lassen sich alle linearen Abbildungen zwischen den Räumen Rn und Rm in dieser Weise beschreiben. Dies ist der Inhalt des folgenden Satzes und erklärt die zentrale Bedeutung von Matrizen in der Linearen Algebra. Satz 23.9 Eine Abbildung L : Rn −→ Rm ist genau dann linear, wenn es eine Matrix A ∈ Rm×n gibt, so dass L(x) = Ax für alle x ∈ Rn ist. In diesem Fall heißt A die Darstellungsmatrix von L (bezüglich der Standardbasen des Rn und Rm ). Die Matrixmultiplikation ist gerade so eingeführt worden, dass die Multiplikation zweier Matrizen der Komposition der durch sie vermittelten linearen Abbildungen entspricht. Etwas präziser: Korollar 23.10 Sind L1 : Rp −→ Rn und L2 : Rn −→ Rm lineare Abbildungen und sind A1 bzw. A2 die zugehörigen Darstellungsmatrizen bezüglich der Standardbasen des Rm , Rn und Rp , so ist das Produkt A2 A1 die Darstellungsmatrix der linearen Abbildung L2 ◦ L1 : Rp −→ Rm . Aufgrund dieser Interpretation der Matrixmultiplikation ist es nicht verwunderlich, dass diese assoziativ ist. (Dies kann man auch direkt nachrechnen, was allerdings etwas mühsam ist). Diese und einige andere Rechenregeln fassen wir im nächsten Satz zusammen. 68 Hier begehen wir strenggenommen einen Bruch mit früheren Konventionen: Bisher hatten wir Elemente des Rn meist als Zeilenvektoren aufgefasst und in der Form x = (x1 , . . . , xn ) notiert. Wollen wir sie als Spaltenvektoren auffassen, müssten wir strenggenommen x = (x1 , . . . , xn )T schreiben. Wir werden im Folgenden immer wieder zwischen beiden Notationen wechseln; dies erklärt sich daraus, dass einerseits die Zeilenschreibweise platzsparender ist, andererseits aber aus Sicht der Linearen Algebra die Spaltenschreibweise die angemessene ist, um Matrizen und Vektoren korrekt zu multiplizieren. 69 In etwas vornehmerer algebraischer Ausdrucksweise: Man hat den Rm×n in kanonischer Weise mit dem n (Rm ) = Rm × · · · × Rm zu identifizieren | {z } . n−mal 335 Es seien A, A1 , A2 ∈ Rm×n , B, B1 , B2 ∈ Satz 23.11 (Rechenregeln für Matrizen) Rn×p , C ∈ Rp×q . Dann gilt: (AB)T = B T AT , A(BC) = (AB)C, A(B1 + B2 ) = AB1 + AB2 , (A1 + A2 )B = A1 B + A2 B. Definition 23.12 Es sei A ∈ Rm×n . Die Maximalzahl linear unabhängiger Zeilen von A nennt man den Zeilenrang von A. Analog nennt man die Maximalzahl linear unabhängiger Spalten von A den Spaltenrang von A. A priori nicht klar, ob ein Zusammenhang zwischen dem Spalten- und dem Zeilenrang einer Matrix besteht. Das folgende Ergebnis ist daher zunächst relativ überraschend. Satz 23.13 Es sei A ∈ Rm×n . Dann stimmen der Zeilenrang und der Spaltenrang von A überein. Man nennt diese Größe kurz den Rang der Matrix A und bezeichnet sie mit rang(A). Offensichtlich ist rang(A) ≤ min {m, n}. Falls hierin Gleichheit gilt, falls also rang(A) = min {m, n} ist, so sagt man, dass A vollen Rang hat. Ein Schwerpunkt der Linearen Algebra liegt auf dem Studium quadratischer Matrizen; diese sind (im Fall reeller Einträge) die Darstellungsmatrizen sog. Endomorphismen des Rn , d.h. von linearen Abbildungen L : Rn −→ Rn des Rn in sich. Für solche quadratischen Matrizen führen wir einige neue Begriffe ein, die für nicht-quadratische Matrizen keinen Sinn ergeben würden: Definition 23.14 (Quadratische Matrizen) Es sei n ∈ N und A = (ajk )j,k ∈ Rn×n eine quadratische n × n-Matrix. (a) Die Matrix A heißt symmetrisch, falls A = AT gilt, falls also ajk = akj für alle j, k = 1, . . . , n gilt. (b) Die Matrix A heißt eine Diagonalmatrix, falls ajk = 0 für alle j, k ∈ {1, . . . , n} mit j 6= k gilt, falls A also die Gestalt a11 0 . . . 0 0 a22 . . . 0 A = .. .. . . .. . . . . 0 0 . . . ann hat. Insbesondere setzt man 0 ... 0 1 . . . 0 .. . . .. . . . 0 0 ... 1 1 0 En := .. . und nennt En die Einheitsmatrix des Rn . 336 (c) Die Matrix A heißt regulär oder invertierbar, falls die von ihr vermittelte lineare Abbildung L : Rn −→ Rn , x 7→ Ax bijektiv ist. In diesem Fall existiert eine eindeutig bestimmte Matrix A−1 ∈ Rn×n , so dass AA−1 = A−1 A = En ist. Man bezeichnet A−1 als die Inverse von A; sie ist die Darstellungsmatrix der Umkehrabbildung L−1 : Rn −→ Rn von L : x 7→ Ax. (d) Die Matrix A heißt diagonalisierbar, falls es eine reguläre Matrix T ∈ Rn×n gibt, so dass T −1 AT eine Diagonalmatrix ist. (e) Eine Zahl λ ∈ C heißt ein Eigenwert von A, falls es einen Vektor v ∈ Cn \ {0} gibt, so dass Av = λv gilt. In diesem Fall heißt v ein Eigenvektor zum Eigenwert λ. Eine große Rolle für den praktischen Umgang mit quadratischen Matrizen spielen deren Determinanten: Satz 23.15 Es sei n ∈ N. Dann gibt es genau eine Abbildung det : Rn×n −→ R mit folgenden Eigenschaften: (1) Es ist det(En ) = 1. (2) In jeder Spalte ist det linear, d.h. für alle k ∈ {1, . . . , n} und alle v1 , . . . , vn ∈ Rn sind die Abbildungen w 7→ det(v1 , . . . , vk−1 , w, vk+1 , . . . , vn ) linear. (3) Sind A, B ∈ Rn×n und entsteht B aus A durch Vertauschen zweier Spalten, so gilt det(B) = − det(A). Aufgrund der Eigenschaften (2) und (3) sagt man auch, dass det : Rn×n −→ R eine alternierende Multilinearform auf Rn×n ist. Die reelle Zahl det(A) bezeichnet man als die Determinante der Matrix A ∈ Rn×n . In der Praxis kann man Determinanten z.B. rekursiv berechnen, indem man sie nach einer Zeile oder Spalte entwickelt. Diese und andere Regeln zum Umgang mit Determinanten fasst der folgende Satz zusammen: Satz 23.16 Es seien A, B ∈ Rn×n . [ (1) Für j, k ∈ {1, . . . , n} sei A(j,k) ∈ R(n−1)×(n−1) die Matrix, die entsteht, wenn man aus A die j-te Zeile und k-te Spalte streicht. Dann gilt für alle j, k ∈ {1, . . . , n} det(A) = n X j+µ (−1) [ (j,µ) aj,µ det A µ=1 n X \ = (−1)µ+k aµ,k det A(µ,k) . µ=1 337 (2) Es gilt det(A) = det(AT ). (3) Es gilt det(AB) = det(A) · det(B). Die folgenden Sätze fassen einige zentrale Resultate der Theorie der quadratischen Matrizen zusammen: Satz 23.17 Es sei A ∈ Rn×n eine quadratische Matrix und L : Rn −→ Rn , x 7→ Ax die von ihr vermittelte lineare Abbildung. Dann sind die folgenden Aussagen äquivalent: (1) Die Matrix A ist regulär. (2) Die Abbildung L : Rn −→ Rn ist bijektiv. (3) Die Abbildung L : Rn −→ Rn ist injektiv (d.h. Kern (L) = {0}). (4) Die Abbildung L : Rn −→ Rn ist surjektiv (d.h. Bild (L) = Rn ). (5) 0 ist kein Eigenwert von A. (6) Alle Zeilen von A sind linear unabhängig. (7) Alle Spalten von A sind linear unabhängig. (8) Es ist rang(A) = n. (9) Es ist det(A) 6= 0. Satz 23.18 Es sei A ∈ Rn×n eine quadratische Matrix. (a) Eine Zahl λ ∈ C ist genau dann ein Eigenwert von A, falls λ eine Nullstelle des charakteristischen Polynoms χA (t) := det(tEn − A) von A ist. (b) A ist genau dann diagonalisierbar, falls es eine Basis {b1 , . . . , bn } des Rn gibt, die aus Eigenvektoren von A besteht. In diesem Fall gilt mit T := (b1 , . . . , bn ) λ1 .. T −1 AT = , . λn wobei die λj die Eigenwerte von A zu den Eigenvektoren bj sind. Insbesondere gilt: Falls A n verschiedene reelle Eigenwerte hat, so ist A diagonalisierbar. (c) Falls A symmetrisch ist, so sind alle Eigenwerte von A reell (d.h. χA zerfällt über R in Linearfaktoren), und A ist diagonalisierbar. I.Allg. sind quadratische Matrizen jedoch nicht diagonalisierbar. Ein weiteres wichtiges Thema der Linearen Algebra ist die Frage, in welche einfacheren sog. Normalformen nichtdiagonalisierbare quadratische Matrizen transformiert werden können. Diese spielt für unsere Zwecke freilich eine untergeordnete Rolle, und wir gehen daher hierauf nicht näher ein. 338 23.3 Normierte Räume Normierte Räume sind spezielle metrische Räume, nämlich Vektorräume, die mit einer Norm, d.h. einer Art verallgemeinertem Betrag versehen sind. Definition 23.19 Es sei K = R oder K = C und V ein K-Vektorraum. Eine Abbildung || . || : V −→ R heißt eine Norm auf V , falls für alle v, w ∈ V und alle λ ∈ K die folgenden Aussagen gelten: (N1) (Positive Definitheit) Es ist kv|| ≥ 0. Genau dann gilt kv|| = 0, wenn v = 0 ist. (N2) (Homogenität) Es ist kλv|| = |λ| · kv||. (N3) (Dreiecksungleichung) Es ist kv + w|| ≤ kv|| + kw||. Das Paar (V, || . ||) oder auch V selbst heißt dann ein normierter Raum, und die nichtnegative reelle Zahl kv|| heißt die Norm des Vektors v ∈ V . Bemerkung 23.20 Ist (V, || . ||) ein normierter Raum und setzen wir d(v, w) := ||v − w|| für alle v, w ∈ V, so genügt die Abbildung d : V × V −→ R offensichtlich allen Eigenschaften einer Metrik. Jeder normierte Raum wird hierdurch zu einem metrischen Raum gemacht. Beispiel 23.21 (1) Die in Definition 3.9 eingeführte euklidische Norm ist eine Norm (im obigen Sinne) auf den Vektorräumen Rn bzw. Cn . Im Folgenden denken wir uns diese Räume stets mit der euklidischen Norm versehen. (2) Die Menge C 0 ([a, b]) := {f : [a, b] −→ R | f stetig} der auf dem Intervall [a, b] stetigen reellwertigen Funktionen bildet – wie oben erwähnt – einen R-Vektorraum. Durch kf k∞ := max {|f (x)| : 0 ≤ x ≤ 1} für alle f ∈ C 0 ([0; 1]) ist hierauf eine Norm definiert, die sog. Maximumsnorm. Wie bereits in Bemerkung 11.6 begründet, ist eine Funktionenfolge (fn )n in C 0 ([a, b]) genau dann konvergent bezüglich dieser Norm, wenn sie gleichmäßig konvergiert (im Sinne von Definition 11.5). 339 In normierten Vektorräumen kann man neben den algebraischen auch analytische Aspekte linearer Abbildungen untersuchen – z.B. die Stetigkeit. Im endlich-dimensionalen Fall gibt es dabei keine unliebsamen Überraschungen: Lineare Abbildungen zwischen endlichdimensionalen normierten Vektorräumen sind stetig und sogar dehnungsbeschränkt. Dies werden wir in Abschnitt 24.2 benötigen. Lemma 23.22 Jede lineare Abbildung L : Rn −→ Rm ist dehnungsbeschränkt und insbesondere gleichmäßig stetig. Beweis. Es sei A = (ajk )j,k die Matrix der linearen Abbildung L bezüglich der Standardbasen des Rn und des Rm . Sie besteht aus m Zeilen und n Spalten. Mithilfe der CauchySchwarzschen Ungleichung erhalten wir !2 ! n m n m n m X n X X X X X X 2 2 2 2 ||L(X)|| = ajk Xk ≤ ajk · Xk = ||X|| · a2jk . j=1 j=1 k=1 k=1 k=1 j=1 k=1 Für alle X ∈ Rn gilt also ||L(X)|| ≤ M · ||X|| mit der nur von L abhängigen Zahl M= m X n X !1/2 a2jk . j=1 k=1 Weil L linear ist, folgt ||L(X) − L(Y )|| = ||L(X − Y )|| ≤ M · ||X − Y || für alle X, Y ∈ Rn . Somit ist L dehnungsbeschränkt. Gemäß Proposition 13.33 ist L insbesondere gleichmäßig stetig. Die Voraussetzung der Endlichdimensionalität in Lemma 23.22 ist wesentlich: Lineare Abbildungen zwischen beliebigen Vektorräumen sind i.Allg. nicht dehnungsbeschränkt und nicht stetig. Beispiel 23.23 Es sei X := C 1 ([0; 1]) der Unterraum der stetig differenzierbaren Funktionen auf dem Intervall [0; 1] und Y := C 0 ([0; 1]), beide versehen mit der Maximumsnorm. Dann ist durch D(f ) := f 0 eine lineare Abbildung (nämlich der Ableitungsoperator) D : X −→ Y definiert, die in 0 nicht stetig (und damit auch nicht dehnungsbeschränkt) ist. Für die durch 1 fn (x) := · xn n definierten Funktionen fn ∈ X gilt nämlich kfn k∞ = 1 −→ 0 n (n → ∞), so dass (fn )n gegen die Nullfunktion f ≡ 0 konvergiert. Jedoch ist D(fn ) = (x 7→ xn−1 ), also kD(fn )k∞ = 1 für alle n, so dass (D(fn ))n nicht gegen L(f ) = 0 konvergieren kann. 340 In der Unstetigkeit des Ableitungsoperators D : f 7→ f 0 spiegelt sich natürlich der Umstand wider, dass die gleichmäßige Konvergenz einer Folge differenzierbarer Funktionen nicht die gleichmäßige Konvergenz der zugehörigen Folge der Ableitungen nach sich zieht. Hingegen kann man Satz 19.6 auch so ausdrücken, dass der Integraloperator I : Y −→ X, der definiert ist durch Z x f (t) dt für alle f ∈ Y und alle x ∈ [0, 1], (I(f ))(x) := 0 stetig ist: Die Konvergenz von (fn )n in der Maximumsnorm ||.||∞ hat die Konvergenz von (I(fn ))n in der Maximumsnorm zur Folge. Wie wir in Bemerkung 18.7 gesehen haben, sind die Operatoren D und I zwar nicht im strengen Sinne invers zueinander, aber fast“ invers. Setzt man X0 := {f ∈ X | f (0) = 0}, ” so gilt für die Abbildungen D|X0 : X0 −→ Y und I : Y −→ X0 sogar I ◦ D|X0 = idX0 , D ◦ I = idY . Damit haben wir ein Beispiel dafür, dass die Umkehrabbildung einer stetigen Abbildung nicht stetig sein muss. Das Resultat aus Satz 10.14, wonach Umkehrfunktionen reellwertiger stetiger Funktionen auf reellen Intervallen wieder stetig sind, lässt sich also nicht auf allgemeinere Situationen übertragen. Definition 23.24 Größe Gemäß Lemma 23.22 ist für jede lineare Abbildung L : Rn −→ Rm die ( ||L|| := sup ) ||L(x)|| n x ∈ R \ {0} = sup ||L(x)|| x ∈ Rn , ||x|| = 1 ||x|| endlich. Man bezeichnet sie als die Operatornorm von L. Es ist leicht zu zeigen, dass es sich bei der Operatornorm tatsächlich um eine Norm auf dem Vektorraum der linearen Abbildungen L : Rn −→ Rm handelt. In Satz 27.5 werden wir zeigen, dass die Operatornorm einer Matrix A die Wurzel aus dem größten Eigenwert der symmetrischen Matrix AT A ist. 341 24 Partielle Ableitungen und totale Differenzierbarkeit Wir erweitern nun den Differentiationskalkül auf Funktionen mehrerer Veränderlicher. Im letzten Kapitel hatten wir Wege, d.h. Funktionen von einer Variablen mit Werten im Rn studiert. Bei der Betrachtung ihrer Ableitungen traten keine wirklich neuen Gesichtspunkte im Vergleich zum eindimensionalen Fall (n = 1) auf; die Differenzierbarkeit eines Weges konnte man auf die aus Kapitel 14 vertraute Differenzierbarkeit der einzelnen Komponentenfunktionen zurückführen. Prinzipiell neue Aspekte gibt es jedoch bei der Differenzierbarkeit von Funktionen mit mehrdimensionalen Definitionsbereichen. 24.1 Partielle Differenzierbarkeit und Richtungsableitungen - Auf der Suche nach dem richtigen“ Differenzierbarkeitsbegriff ” Die Schul-Definition“ der Ableitung als Grenzwert des Differenzenquotienten lässt sich nicht ” auf Funktionen von mehreren Variablen übertragen, da im Rn für n ≥ 2 keine Division erklärt ist. Ein naheliegender Ansatz, die Differenzierbarkeit einer reellwertigen Funktion in n Variablen zu definieren, besteht darin, diese als Funktion von jeweils nur einer Variablen und die übrigen n − 1 Variablen als feste Parameter aufzufassen. Dieser Zugang führt auf den Begriff der partiellen Ableitung. Definition 24.1 Es seien ein n ∈ N, eine offene Teilmenge U des Rn , ein Punkt ξ = (ξ1 , . . . , ξn ) ∈ U und eine Funktion f : U −→ R gegeben. Für jedes k = 1, . . . , n nennen wir die Funktion xk 7→ f (ξ1 , . . . , ξk−1 , xk , ξk+1 , . . . , ξn ) die k-te partielle Funktion von f zum Punkt ξ. Ihr Definitionsbereich ist die Menge Uk := {xk ∈ R | (ξ1 , . . . , ξk−1 , xk , ξk+1 , . . . , ξn ) ∈ U } ⊆ R mit dem inneren Punkt ξk . Falls diese Funktion im Punkt ξk differenzierbar ist, dann heißt f im Punkt ξ partiell differenzierbar nach der k-ten Variablen, und der Wert der betreffenden Ableitung heißt die partielle Ableitung von f nach der k-ten Variablen an der Stelle ξ. Gebräuchliche Notationen für diese partielle Ableitung sind ∂f (ξ) , ∂xk ∂f (x) , ∂xk x=ξ fxk (ξ) oder Dk f (ξ). Wenn f in jedem Punkt ξ ∈ U nach der k-ten Variablen partiell differenzierbar ist, dann heißt f auf U partiell differenzierbar nach der k-ten Variablen. partielle Ableitung ∂f ist dann eine reellwertige Funktion auf U . ∂xk Falls f für alle k = 1 . . . , n auf U partiell differenzierbar nach der k-ten Variablen ist, so heißt f auf U partiell differenzierbar. 342 Bemerkung 24.2 In der Situation der voranstehenden Definition gilt (im Falle der Existenz der partiellen Ableitung) f (ξ1 , . . . , ξk−1 , xk , ξk+1 , . . . , ξn ) − f (ξ) f (ξ + hek ) − f (ξ) ∂f (ξ) = lim = lim , xk →ξk h→0 ∂xk xk − ξk h worin h nur reelle Zahlen als Werte annehmen darf. Beispiel 24.3 Es sei f : R2 −→ R definiert durch 1 , falls x 6∈ Q und y 6∈ Q , f (x, y) := 0 , falls x ∈ Q oder y ∈ Q . Auf den Koordinatenachsen ist f konstant 0. Deshalb existieren die partiellen Ableitungen ∂f ∂f (0, 0) = (0, 0) = 0. ∂x ∂y Aber f nimmt in jeder Umgebung des Nullpunkts die Werte 0 und 1 an, und daher ist f unstetig im Nullpunkt. Die Beobachtung in diesem Beispiel kann verallgemeinert werden: In die Definition der partiellen Ableitungen einer Funktion f in einem Punkt ξ gehen nur die Werte von f auf denjenigen Geraden durch ξ ein, die zu den Koordinatenachsen parallel sind, und nur das Verhalten von f auf diesen Geraden in der Nähe von ξ entscheidet über die Existenz der partiellen Ableitungen. Ansonsten darf sich f in der Nähe von ξ völlig willkürlich verhalten. Dies ist nun so ganz und gar nicht das Verhalten, das man sich von einer differenzierbaren Funktion erwarten würde. Es scheint also, dass die partielle Differenzierbarkeit nicht ganz der angemessene Differenzierbarkeitsbegriff für Funktionen mehrerer Variabler ist. Nun ist freilich zu bedenken, dass es im Falle n ≥ 2 durch einen Punkt ξ ∈ Rn sehr viel mehr Geraden gibt als die zu den Koordinatenachsen parallelen. Für jede solche Gerade können wir ein Analogon zur partiellen Ableitung bilden (die sog. Richtungsableitungen von f im Punkt ξ). Vielleicht sollten wir mehrdimensionale Differenzierbarkeit über die Existenz der Richtungsableitungen in beliebige Richtungen erklären? Definition 24.4 Jeder Vektor v ∈ Rn mit ||v|| = 1 heißt eine Richtung. Es sei U eine offene Teilmenge des Rn , ξ ∈ U und v eine Richtung in Rn . Eine Funktion f : U −→ R heißt im Punkt ξ in der Richtung v differenzierbar, falls der Grenzwert f (ξ + hv) − f (ξ) ∂f (ξ) := lim h→0 ∂v h existiert. (Auch hier darf h nur reelle Zahlen als Werte annehmen.) Dieser Grenzwert heißt die Richtungsableitung von f im Punkt ξ in der Richtung v. Spezielle Richtungen sind die Vektoren e1 , . . . , en der Standardbasis des Rn . Daher sind die partiellen Ableitungen ∂f ∂f (ξ) = (ξ) ∂xk ∂ek spezielle Richtungsableitungen. 343 0 0 1 1 0 0 Abbildung 68: Beispiel 24.5 Wir definieren die Funktion f : R2 −→ R durch f (x, y) = 0 , falls y ≤ 0 oder y ≥ x2 , 1 , falls 0 < y < x2 . Offensichtlich ist f im Nullpunkt ξ = (0, 0) unstetig. Es sei eine Richtung v in R2 gegeben. Im Falle v = ±e1 und im Falle v = ±e2 ist f auf der Geraden durch ξ mit der Richtung v konstant 0. Anderenfalls treffen sich die Parabel mit der Gleichung y = x2 und die Gerade durch ξ mit der Richtung v in einem gewissen Punkt (x0 , x20 ) mit x0 6= 0, und daher gibt es eine Zahl ε > 0 mit f (hv) = 0 für alle h ∈ ] − ε, ε[ . Somit existiert für alle Richtungen v die Richtungsableitung ∂f (0, 0) = 0. ∂v Dieses Beispiel beraubt uns der Illusion, mit der Einführung der Richtungsableitung die Frage nach dem richtigen“ Differenzierbarkeitsbegriff im Mehrdimensionalen beantwortet ” zu haben. So werden wir von einer differenzierbaren Funktion wie im Eindimensionalen (vgl. Satz 14.3 (b)) erwarten, dass sie zumindest auch stetig ist. Beispiel 24.5 zeigt jedoch, dass auch die Existenz sämtlicher Richtungsableitungen noch keine Stetigkeit in dem betreffenden Punkt gewährleistet. Diese entmutigenden Erfahrungen vermitteln den Eindruck, als ob wir bei unserer Suche nach einer sinnvollen Definition der Differenzierbarkeit im Mehrdimensionalen eine falsche Fährte verfolgten. Im nächsten Abschnitt 24.2 werden wir die richtigen“ Definitionen der ” Differenzierbarkeit und der Ableitung angeben. Anschließend zeigen wir in Abschnitt 24.3, dass die partiellen Ableitungen doch sehr eng mit der Differenzierbarkeit verbunden sind. 344 24.2 Totale Differenzierbarkeit Die entscheidende Idee, wie man mehrdimensionale Differenzierbarkeit definieren sollte, erhält man, indem man die Beobachtung aus Satz 14.3 (a) verallgemeinert, wonach eine Funktion in einem Punkt genau dann differenzierbar ist, wenn sie dort lokal linear approximierbar ist. Erinnerung: Differenzierbarkeit als lokale lineare Approximierbarkeit Aus Satz 14.3 (a) ist bekannt: Eine Funktion f : I −→ R auf einem offenen Intervall I ⊆ R ist genau dann differenzierbar in ξ ∈ I, falls es eine Funktion r : I −→ R gibt, die in ξ stetig ist mit r(ξ) = 0, so dass f (x) = f (ξ) + f 0 (ξ) · (x − ξ) + r(x) · (x − ξ) für alle x ∈ I gilt. Anschaulich: In diesem Fall wird f nahe“ bei ξ in guter Näherung“ durch die lineare ” ” (genauer: affine) Funktion x 7→ f (ξ) + f 0 (ξ) · (x − ξ) beschrieben. Deren Graph ist dann die Tangente an den Graphen von f im Punkt (ξ, f (ξ)). Der richtige“ Ansatz ist es also, die Ableitung in einem Punkt als Linearisierung der ” Funktion in diesem Punkt zu betrachten. Tatsächlich ist die lokale lineare Approximierbarkeit das eigentliche Wesen der Differenzierbarkeit. Wir formulieren die Definition allgemein für vektorwertige und nicht nur reellwertige Funktionen. Fortan verwenden wir für eine Funktion f : U −→ Rm stets die Notation f = (f1 , . . . , fm )T , bezeichnen die Komponentenfunktionen von f also mit fj . Definition 24.6 Es sei U eine offene Teilmenge des Rn und ξ ∈ U . Eine Funktion f : U −→ Rm heißt (total) differenzierbar in ξ, falls es eine lineare Abbildung L : Rn −→ Rm und eine Funktion r : U −→ Rm gibt, so dass f (X) = f (ξ) + L(X − ξ) + r(X) für alle X∈U und r(X) =0 X→ξ ||X − ξ|| gilt. In diesem Fall heißt L die Ableitung oder das (totale) Differential von f im Punkt ξ. Gebräuchliche Notationen für L sind lim Df (ξ), Df (ξ), D1 f (ξ), f 0 (ξ) oder df (ξ). Wir werden vorwiegend die Bezeichnung Df (ξ) verwenden. Die Bedingung für Differenzierbarkeit lautet dann r(X) f (X) = f (ξ) + (Df (ξ))(X − ξ) + r(X) mit lim = 0. X→ξ ||X − ξ|| Die Funktion f heißt differenzierbar, falls sie in jedem Punkt ξ ∈ U differenzierbar ist. 345 Bemerkung 24.7 (1) Veranschaulichung: Tangentialhyperebenen Für Abbildungen f : U −→ R mit U ⊆ Rn bedeutet die (totale) Differenzierbarkeit (d.h. die lokale lineare Approximierbarkeit) in geometrischer Ausdrucksweise, dass eine Tangentialhyperebene an den Graphen existiert (vgl. Abbildung 69). Wirklich anschaulich ist dies freilich nur für n = 2. z f (ξ) y ξ x Abbildung 69: Tangentialhyperebene (n = 2, m = 1) (2) Zur Rechtfertigung der Definition der Ableitung ist zu zeigen, dass die lineare Abbildung L = Df (ξ) eindeutig bestimmt ist. Dazu nehmen wir an, es seien L1 und L2 zwei lineare Abbildungen des Rn in den Rm , die beide die Bedingungen in der Definition erfüllen. Dann ist l := L1 − L2 eine lineare Abbildung des Rn in den Rm mit der Eigenschaft l(Y ) l(X − ξ) = 0, d.h. lim =0 lim Y →0 ||Y || X→ξ ||X − ξ|| Für jeden Vektor Y 6= 0 in Rn ist ν1 Y ν≥1 eine Nullfolge, und wegen der Linearität von l folgt l( 1 Y ) l(Y ) 0 = lim 1ν = . ν→∞ ||Y || Y ν Hieraus folgt l(Y ) = 0 für alle Y ∈ Rn , also l = 0. Somit ist L1 = L2 , was zu zeigen war. (3) Im Spezialfall n = m = 1 ist L(X) = cX mit einem c ∈ R, und die Bedingung der Differenzierbarkeit lautet r(X) f (X) = f (ξ) + c(X − ξ) + r(X) mit lim = 0, X→ξ |X − ξ| 346 in Übereinstimmung mit der aus dem Eindimensionalen bekannten Situation (Satz 14.3 (a)). Die Zahl c = f 0 (ξ) ist die Ableitung der Funktion f an der Stelle ξ. Im Sinne der neuen allgemeineren Definition ist jedoch die Abbildung X 7→ cX (und nicht die Zahl c) die Ableitung von f an der Stelle ξ. (4) Man beachte, dass es im Mehrdimensionalen nicht möglich ist, die Ableitung in der aus der eindimensionalen Analysis vertrauten Weise als Grenzwert eines Differenzenquotienten zu schreiben - weil keine Division durch Vektoren im Rn erklärt ist. (5) Offensichtlich ist eine Funktion genau dann differenzierbar, wenn ihre sämtlichen Komponentenfunktionen differenzierbar sind. Unser neuer Differenzierbarkeitsbegriff genügt - anders als die partielle Differenzierbarkeit oder die Existenz von Richtungsableitungen - dem Erfordernis, Stetigkeit nach sich zu ziehen. Der Beweis dieser Tatsache ist einfach und beruht im Wesentlichen auf der Dehnungsbeschränktheit linearer Abbildungen zwischen endlichdimensionalen Räumen. Satz 24.8 Es sei U ⊆ Rn offen, und die Funktion f : U −→ Rm sei im Punkt ξ ∈ U total differenzierbar. Dann ist f stetig in ξ. Beweis. Für alle X ∈ U gilt f (X) = f (ξ) + L(X − ξ) + r(X) mit L = Df (ξ) und r(X) = 0. X→ξ ||X − ξ|| lim Insbesondere ist auch limX→ξ r(X) = 0. Weil L als lineare Abbildung zwischen endlichdimensionalen Räumen stetig ist (Lemma 23.22) und L(0) = 0 gilt, folgt lim f (X) = f (ξ). X→ξ Also ist f stetig im Punkt ξ (Satz 9.18 (3)). 24.3 Die Ableitung und die Jacobi-Matrix Lineare Abbildungen zwischen endlichdimensionalen Vektorräumen werden (nach Vorgabe geeigneter Basen) bekanntlich durch Matrizen beschrieben. Es stellt sich die Frage, ob man etwas über die Darstellungsmatrix der im letzten Abschnitt erklärten Ableitung aussagen kann. Die Antwort ist so einfach wie verblüffend: Die Einträge in der Darstellungsmatrix der Ableitung einer total differenzierbaren Funktion (bzgl. der Standardbasen) sind gerade die partiellen Ableitungen der Komponenten dieser Funktion. Insbesondere sind die Komponentenfunktionen einer total differenzierbaren Funktion also nach allen Variablen partiell differenzierbar. Im Folgenden bezeichnen wir die Darstellungsmatrix einer linearen Abbildung L : Rn −→ Rm bezüglich der Standardbasen mit [L]. Für einen Spaltenvektor X = (X1 , . . . , Xn )T in Rn ist dann L(X) = [L] · X. 347 Satz 24.9 Es sei U ⊆ Rn offen. Die Funktion f : U −→ Rm sei in ξ ∈ U differenzierbar. ∂fk Dann existieren sämtliche partiellen Ableitungen ∂x , und die Matrix der Ableitung Df (ξ) j n m bezüglich der Standardbasen des R und des R ist ∂f1 ∂f1 ∂f1 (ξ) (ξ) . . . (ξ) ∂x1 ∂x2 ∂xn ∂f2 ∂f2 ∂f2 ∂x (ξ) ∂x (ξ) . . . (ξ) ∂x n 2 1 [Df (ξ)] = . .. .. .. . . . ∂fm ∂fm ∂fm (ξ) ∂x2 (ξ) . . . ∂xn (ξ) ∂x1 Beweis. Es sei A = (ajk )j,k := [Df (ξ)] die Darstellungsmatrix von Df (ξ) bezüglich der Standardbasen. Nach Definition der Differenzierbarkeit gibt es eine Funktion r : U −→ Rn , so dass f (X) = f (ξ) + A · (X − ξ) + r(X) für alle X ∈ U und lim X→ξ r(X) =0 ||X − ξ|| gilt. Es seien ein j ∈ {1, . . . , m} und ein k ∈ {1, . . . , n} gegeben. Man betrachtet X := ξ + t · ek und erhält f (ξ + tek ) = f (ξ) + t · Aek + r(ξ + tek ), also rj (ξ + tek ) fj (ξ + tek ) − fj (ξ) = ajk + t t für alle t in einer Umgebung von 0. Hierbei ist rj (ξ + tek ) = 0. t→0 t lim Damit folgt die Existenz von fj (ξ + tek ) − fj (ξ) = ajk . t→0 t lim Dieser Grenzwert ist definitionsgemäß die partielle Ableitung und es gilt ∂fj (ξ) = ajk . ∂xk ∂fj (ξ). ∂xk Diese existiert also, Definition 24.10 Die Matrix [Df (ξ)] in Satz 24.9 heißt die Funktionalmatrix oder die Jacobi-Matrix70 von f an der Stelle ξ. Gebräuchliche Notationen sind ∂f1 ∂f1 . . . ∂xn ∂x1 ∂fj ∂(f1 , . . . , fm ) .. .. [Df (ξ)] = Jf (ξ) = . (ξ) = . . (ξ) = ∂xk ∂(x1 , . . . , xn ) ξ j,k ∂fm m . . . ∂f ∂x1 ∂xn 70 nach C. G. Jacobi (1804 - 1851). 348 Wenn f durch analytische Formeln definiert ist, dann sind die partiellen Ableitungen und damit die Funktionalmatrix meistens leicht“ zu berechnen. Kann man aber daraus schon ” auf totale Differenzierbarkeit schließen? Dass dies i. Allg. nicht möglich ist, wissen wir aus den Beispielen 24.3 und 24.5. In der Praxis kann man aber doch sehr häufig schon aus den partiellen Ableitungen ablesen, dass eine Funktion total differenzierbar in einem Punkt ξ ist - nämlich dann, wenn die partiellen Ableitungen in einer Umgebung von ξ existieren und im Punkt ξ stetig sind: Satz 24.11 Es seien eine offene Menge U ⊆ Rn , ein Punkt ξ ∈ U und eine Funktion f : U −→ Rm gegeben. Für alle j = 1, . . . , m, alle k = 1, . . . , n und für alle x in einer e ⊆ U von ξ mögen die partiellen Ableitungen gewissen Umgebung U ∂fj (x) ∂xk existieren, und diese partiellen Ableitungen seien im Punkt ξ stetig. Dann ist f im Punkt ξ total differenzierbar. Beweis. Die Funktion f ist im Punkt ξ genau dann differenzierbar, wenn dort die sämtlichen Komponentenfunktionen f1 , . . . , fm differenzierbar sind. Deshalb dürfen wir o.B.d.A. m = 1 annehmen. Wir führen den Beweis mittels Induktion über n. Für n = 1 ist die Behauptung offensichtlich richtig. (Für Funktionen einer Variabler fallen partielle und totale Differenzierbarkeit zusammen.) Es sei n ≥ 2, und die Behauptung sei für alle Funktionen f mit den entsprechenden Eigenschaften für n − 1 anstelle von n gültig. Als Ableitung von f im Punkt ξ kommt nach Satz 24.9 nur die Multiplikation mit dem (Zeilen-)Vektor Jf (ξ) in Frage. (Man beachte, dass m = 1.) Wir setzen daher Jf (ξ) = (a1 , . . . , an ) mit ak = ∂f (ξ) ∂xk und erklären die lineare Abbildung L : Rn −→ R durch L(X) := Jf (ξ) · X = a1 X1 + . . . + an Xn für alle X = (X1 , . . . , Xn )T . Wir definieren eine Funktion r : U −→ R mittels r(X) := f (X) − f (ξ) − L(X − ξ) für alle X ∈ U. Die Funktion f ist im Punkt ξ genau dann differenzierbar, wenn lim X→ξ r(X) =0 ||X − ξ|| ist. Das ist also die Behauptung, die wir beweisen müssen. Wir schreiben im Folgenden ξ = (ξ 0 , ξn ), X = (X 0 , Xn ) mit ξ 0 , X 0 ∈ Rn−1 349 und ξn , Xn ∈ R. R X Xn ξn ξ (X 0 , ξn ) ξ0 Rn−1 X0 Abbildung 70: Zum Beweis von Satz 24.11 ∂f in ξ gibt es dazu ein δ1 > 0 mit Es sei ein ε > 0 gegeben. Wegen der Stetigkeit von ∂x n e und Uδ1 (ξ) ⊆ U ∂f ε < (X) − a für alle X ∈ Uδ1 (ξ). n ∂xn 2 Auf die Funktion X 0 7→ f (X 0 , ξn ) ist die Induktionsvoraussetzung anwendbar. Diese ist also im Punkt ξ 0 total differenzierbar; ihre Ableitung ist nach Satz 24.9 die lineare Abbildung X 0 7→ a1 X1 + · · · + an−1 Xn−1 . Daher gibt es ein δ2 > 0, so dass für alle X 0 ∈ Rn−1 mit ||X 0 − ξ 0 || < δ2 die Ungleichung n−1 ε X ak (Xk − ξk ) < · ||X 0 − ξ 0 || f (X 0 , ξn ) − f (ξ) − 2 k=1 erfüllt ist. Nun sei δ := min{δ1 , δ2 } > 0. Es sei ein X ∈ Rn mit ||X − ξ|| < δ gegeben. Dann folgt n X |r(X)| = f (X) − f (ξ) − ak (Xk − ξk ) k=1 n−1 X ≤ f (X) − f (X 0 , ξn ) − an (Xn − ξn ) + f (X 0 , ξn ) − f (ξ) − ak (Xk − ξk ) . k=1 Im ersten Betrag sind in f (X) und f (X 0 , ξn ) die ersten n − 1 Variablen X 0 fest, und wegen e existiert die partielle Ableitung ∂f (X 0 , t) für alle t zwischen ξn und Xn . Wir X ∈ Uδ (ξ) ⊆ U ∂xn 350 können daher den Mittelwertsatz der Differentialrechnung (Satz 15.8) anwenden. Danach gibt es ein (von X abhängiges) τ zwischen ξn und Xn mit f (X) − f (X 0 , ξn ) = ∂f (X 0 , τ ) · (Xn − ξn ) . ∂xn Damit erhält man ∂f ε 0 |r(X)| ≤ (X , τ ) − an · |Xn − ξn | + · ||X 0 − ξ 0 || ∂xn 2 ε ε 0 0 ≤ · |Xn − ξn | + · ||X − ξ || ≤ ε · ||X − ξ||. 2 2 Damit ist gezeigt, dass es für jedes ε > 0 ein δ > 0 gibt, so dass |r(X)| <ε ||X − ξ|| für alle X ∈ Uδ (ξ). Dies bedeutet gerade lim X→ξ r(X) = 0. ||X − ξ|| Damit ist der Induktionsschluss beendet. Das Ergebnis in Satz 24.11 gibt Anlass, den Begriff der stetigen Differenzierbarkeit zu erklären: Definition 24.12 Es sei f = (f1 , . . . , fm ) : U −→ Rm eine Funktion auf einer offenen Menge U ⊆ Rn . Die Funktion f heißt stetig differenzierbar, falls für alle j und k die partiellen Ableitungen ∂fj (x) ∂xk in allen Punkten x ∈ U existieren und stetige Funktionen auf U sind. Zusammenfassung: Wir können die Ergebnisse der Sätze 24.8, 24.9 und 24.11 kurz wie folgt zusammenstellen: partiell differenzierbar mit stetigen partiellen Ableitungen w w total differenzierbar w w =⇒ stetig partiell differenzierbar Die Umkehrungen dieser Implikationen gelten i. Allg. nicht, wie obige Beispiele (bzw. für die obere und die rechte Implikation bekannte Beispiele aus der eindimensionalen Analysis) zeigen. 351 24.4 Rechenregeln für Ableitungen Die Übertragung der aus der eindimensionalen Analysis bekannten Differentiationsregeln auf Funktionen von mehreren Variablen gestaltet sich unterschiedlich schwierig. Wir beginnen mit den relativ leicht beweisbaren Regeln wie Produkt- und Kettenregel. Der Satz über die Ableitung der Umkehrfunktion wird erst in Kapitel 26 verallgemeinert. Denn der Begriff der Monotonie ist in mehreren Variablen nicht verfügbar, und daher sind neue Konzepte zu entwickeln. Satz 24.13 Es sei U eine offene Teilmenge des Rn . Die Funktionen f : U −→ R und g : U −→ R seien im Punkt ξ ∈ U differenzierbar. Dann gelten die folgenden Aussagen. (1) Die Funktion f + g ist im Punkt ξ differenzierbar. Ihre Ableitung ist D(f + g)(ξ) = Df (ξ) + Dg(ξ). (2) Für jede reelle Zahl c ist die Funktion cf im Punkt ξ differenzierbar mit der Ableitung D(cf )(ξ) = c · Df (ξ). (3) (Produktregel) Die Funktion f · g ist im Punkt ξ differenzierbar. Ihre Ableitung ist D(f · g)(ξ) = f (ξ) · Dg(ξ) + g(ξ) · Df (ξ). (4) Wenn f in einer Umgebung von ξ konstant ist, dann ist Df (ξ) = 0. (5) Jede lineare Abbildung L : Rn −→ Rm ist differenzierbar, und es gilt DL(ξ) = L für alle ξ ∈ Rn . Die Formeln in (1) und (2) gelten auch für Funktionen mit Werten in Rm . Beweis. Zur Abkürzung setzen wir L1 := Df (ξ) und L2 := Dg(ξ). Aufgrund von Definition 24.6 gilt f (ξ + X) = f (ξ) + L1 (X) + r1 (X), g(ξ + X) = g(ξ) + L2 (X) + r2 (X) für alle X in einer Umgebung des Nullpunkts in Rn , wobei r1 und r2 Funktionen mit lim X→0 r2 (X) r1 (X) = lim =0 X→0 ||X|| ||X|| sind. Mit L := L1 + L2 und r := r1 + r2 folgt dann (f + g)(ξ + X) = (f + g)(ξ) + L(X) + r(X) und lim X→0 r(X) = 0. ||X|| Das beweist (1). Den einfachen Beweis von (2) übergehen wir. Die Übertragung von (1) und (2) auf Funktionen f : U −→ Rm macht keine Mühe. Für das Produkt f · g erhalten wir (f · g)(ξ + X) = (f · g)(ξ) + f (ξ) · L2 (X) + g(ξ) · L1 (X) + R(X) 352 mit R(X) := f (ξ) · r2 (X) + g(ξ) · r1 (X) + L1 (X) · r2 (X) + L2 (X) · r1 (X) +L1 (X) · L2 (X) + r1 (X) · r2 (X). Die Formel für das Restglied R(X) sieht zwar kompliziert aus, es ist aber leicht zu erkennen, dass R(X) lim =0 X→0 ||X|| gilt; wesentlich hierbei ist die Dehnungsbeschränktheit linearer Abbildungen zwischen endlichdimensionalen Räumen (Lemma 23.22). Daraus folgt (3). Die Behauptung (4) ist klar. Ist L : Rn −→ Rm linear, dann gilt für alle ξ und alle X in Rn L(ξ + X) = L(ξ) + L(X) + r(X) mit r := 0, und daher ist DL(ξ) = L für alle ξ ∈ Rn . Damit ist (5) bewiesen. Satz 24.14 (Kettenregel) Es seien U eine offene Menge in Rp und V eine offene Menge in Rn . Die Funktion f : U −→ V sei im Punkt ξ ∈ U differenzierbar, und g : V −→ Rm sei im Punkt η = f (ξ) differenzierbar. Dann ist die Funktion g ◦ f : U −→ Rm im Punkt ξ differenzierbar, und die Ableitung ist D(g ◦ f )(ξ) = Dg(f (ξ)) ◦ Df (ξ). Für die Jacobi-Matrizen und für die partiellen Ableitungen gilt Jg◦f (ξ) = Jg (η) · Jf (ξ) und n X ∂gj ∂fk ∂(g ◦ f )j (ξ) = (η) · (ξ) ∂xl ∂yk ∂xl k=1 für 1 ≤ j ≤ m, 1 ≤ l ≤ p. Beweis. Wir setzen L1 := Df (ξ) und L2 := Dg(η). Dann gilt f (ξ + X) − f (ξ) = L1 (X) + r1 (X), g(η + Y ) − g(η) = L2 (Y ) + r2 (Y ), worin r1 und r2 Funktionen auf gewissen Umgebungen der Nullpunkte in Rp beziehungsweise Rn sind, die r1 (X) r2 (Y ) lim = 0, lim =0 X→0 ||X|| Y →0 ||Y || erfüllen. Es folgt (g ◦ f )(ξ + X) − (g ◦ f )(ξ) = g η + L1 (X) + r1 (X) − g(η) = L2 (L1 (X) + r1 (X)) + r2 (L1 (X) + r1 (X)) = (L2 ◦ L1 )(X) + L2 (r1 (X)) + r2 (L1 (X) + r1 (X)) . 353 Da lineare Abbildungen zwischen endlichdimensionalen Räumen dehnungsbeschränkt sind (Lemma 23.22), ist L2 (r1 (X)) lim = 0. X→0 ||X|| Ferner gilt mit einer gewissen Konstanten c > 0 ||L1 (X) + r1 (X)|| ≤ c · ||X|| für alle X in einer Umgebung von 0 in Rp , und daher ist lim X→0 r2 (L1 (X) + r1 (X)) = 0. ||X|| Folglich ist g ◦ f im Punkt ξ differenzierbar, und die Ableitung ist D(g ◦ f )(ξ) = L2 ◦ L1 = Dg(f (ξ)) ◦ Df (ξ). Beim Übergang zu den Funktionalmatrizen ist nur zu beachten, dass die Darstellungsmatrix Jg◦f (ξ) = [L2 ◦L1 ] der Komposition zweier linearer Abbildungen gleich dem Produkt [L2 ]·[L1 ] der Darstellungsmatrizen der beiden Abbildungen ist (Korollar 23.10). Die Definition des Matrizenprodukts ergibt die Formel für die partiellen Ableitungen. 24.5 Der Gradient Ein wichtiger Spezialfall in Satz 24.9 ist m = 1, d.h. der Fall von reellwertigem f . In diesem Fall ist die Jacobi-Matrix ein Zeilenvektor. Er hat einen besonderen Namen: Definition 24.15 Es sei U ⊆ Rn offen, und die Funktion f : U −→ R sei im Punkt ξ ∈ U differenzierbar. Die Jacobi-Matrix ∂f ∂f ∂f Jf (ξ) = (ξ), (ξ), . . . , (ξ) ∂x1 ∂x2 ∂xn heißt der Gradient von f im Punkt ξ. Gebräuchliche Notationen für den Gradienten sind grad f (ξ) und ∇f (ξ) . Das Symbol ∇ wird Nabla“ gelesen. ” Bemerkung 24.16 (Einige Spitzfindigkeiten) Zunächst ist - wie schon oben - zu unterscheiden zwischen • der Ableitung Df (ξ); sie ist eine lineare Abbildung Rn −→ R, d.h. eine Linearform auf dem Rn • und dem Gradienten grad f (ξ), einem Zeilenvektor; dieser ist die Darstellungsmatrix der linearen Abbildung Df (ξ) bezüglich der Standardbasen. 354 Durch Df (ξ) wird einem (Spalten-)Vektor X = (X1 , . . . , Xn )T die reelle Zahl n X ∂f (Df (ξ))(X) = grad f (ξ) · X = (ξ) · Xk ∂xk k=1 zugeordnet, also das Matrizenprodukt der Zeile grad f (ξ) mit der Spalte X. Dieses Produkt kann man auch als Skalarprodukt lesen; deshalb schreibt man auch (Df (ξ))(X) = hgrad f (ξ), Xi. Strenggenommen ist dies nicht ganz korrekt: Das Skalarprodukt ist ja eine Abbildung Rn × Rn −→ R, die also je zwei (Spalten-)Vektoren in Rn eine reelle Zahl zuordnet. Hingegen repräsentiert der Gradient keinen Vektor im Rn , sondern eine Linearform auf dem Rn . Man verwechselt hier also den Zeilenvektor grad f (ξ) mit dem Spaltenvektor (grad f (ξ))T . In der Literatur wird gelegentlich auch ∇f (ξ) := (grad f (ξ))T gesetzt, oder es wird sogar der Gradient selbst als Spaltenvektor definiert. Aus der Differenzierbarkeit folgt nicht nur die partielle Differenzierbarkeit, sondern auch die Existenz sämtlicher Richtungsableitungen. Sie lassen sich mithilfe des Gradienten ausdrücken. Satz 24.17 Es sei U ⊆ Rn offen und ξ ∈ U . Die Funktion f : U −→ R sei im Punkt ξ differenzierbar. Dann besitzt f in jeder Richtung v eine Richtungsableitung, und diese ist ∂f (ξ) = hgrad f (ξ), vi . ∂v Beweis. Es sei v ∈ Rn eine Richtung, also ||v|| = 1. Für alle reellen Zahlen h mit genügend kleinem Betrag gilt dann nach Definition der Differenzierbarkeit und nach Satz 24.9 die Gleichung f (ξ + hv) − f (ξ) = Df (ξ)(hv) + r(ξ + hv) = h · hgrad f (ξ), vi + r(ξ + hv) , wobei r : U −→ R eine Funktion mit der Eigenschaft r(ξ + hv) r(ξ + hv) = lim =0 h→0 h→0 |h| ||hv|| lim ist. Hieraus folgt die Existenz des Grenzwerts ∂f f (ξ + hv) − f (ξ) r(ξ + hv) (ξ) = lim = hgrad f (ξ), vi + lim = hgrad f (ξ), vi . h→0 h→0 ∂v h h 355 Im Fall grad f (ξ) 6= 0 hat das Skalarprodukt in Satz 24.17 seinen maximalen Wert, wenn v= grad f (ξ) ||grad f (ξ)|| ist. Der Gradient zeigt also in die Richtung des steilsten Anstiegs der Funktion f im Punkt ξ. Interessant sind auch die Richtungen v, für die die Richtungsableitung ∂f (ξ) verschwin∂v det. Es sind dies die Richtungen, die senkrecht zum Gradienten stehen. Diese Beobachtung ermöglicht uns eine weitere geometrische Deutung des Gradienten. Hierfür müssen wir aber zunächst (im nächsten Abschnitt) den Begriff der Niveaumenge einführen. Vorher aber beweisen wir noch zwei zum eindimensionalen“ Mittelwertsatz analoge Aussa” gen für Funktionen mehrerer Variabler. Der Beweis beruht auf dem gewöhnlichen Mittelwertsatz und der mehrdimensionalen Kettenregel. Zu beachten ist, dass wir mehrdimensionale Versionen des Mittelwertsatzes quotientenfrei“ formulieren müssen. ” Satz 24.18 (Verallgemeinerter Mittelwertsatz) Es sei f : U −→ R eine differenn zierbare Funktion auf einer offenen Menge U ⊆ R . Es seien p, q ∈ U , und die Verbindungsstrecke S = {p + t · (q − p) | 0 ≤ t ≤ 1} dieser beiden Punkte sei in U enthalten. Dann gibt es einen Punkt ξ ∈ S mit f (q) − f (p) = hgrad f (ξ) , q − p i. Beweis. Übungen, Aufgabe 5.4 Beispiel 24.19 In Satz 24.18 ist es wesentlich, dass f reellwertig ist. Eine analoge Aussage für Funktionen f : U −→ Rm mit m ≥ 2 gilt nicht. Das wird durch das folgende Beispiel belegt: Es sei U = R, p = 0, q = 2π, m = 2 und f (t) = (cos t, sin t)T . Dann ist f (q) − f (p) der Nullvektor, aber die Jacobi-Matrix Jf (t) = (− sin t, cos t)T ist nirgends Null. Es gibt daher kein θ mit f (q) − f (p) = Jf (θ) · (q − p). Es gibt jedoch eine auch für m ≥ 2 gültige Abschätzung für die Norm ||f (q) − f (p)||; diese wird sich im Beweis des Satzes über lokale Umkehrbarkeit (Satz 26.4) als nützlich erweisen. Darin tritt die aus Definition 23.24 bekannte Operatornorm linearer Abbildungen auf. Satz 24.20 (Schrankensatz) Es sei f : U −→ Rm eine differenzierbare Funktion auf n einer offenen Menge U ⊆ R . Es sei p, q ∈ U , und die Verbindungsstrecke S = {p + t · (q − p) | 0 ≤ t ≤ 1} dieser beiden Punkte sei in U enthalten. Es gebe eine Zahl M > 0, so dass ||Df (x)|| ≤ M für alle Dann gilt ||f (q) − f (p)|| ≤ M · ||q − p||. 356 x ∈ S. Beweis. Wir setzen c = f (q) − f (p). Für c = 0 ist die Behauptung klar. Es sei also c 6= 0. Wir definieren Funktionen ϕ : Rm −→ R und g : U −→ R durch ϕ(y) := hc, yi , g(x) := (ϕ ◦ f )(x) = hc, f (x)i. Die Abbildung ϕ ist linear, und ihre Operatornorm ist |ϕ(y)| hc, ci m ||ϕ|| = sup = ||c||. y ∈ R , y 6= 0 = ||y|| ||c|| Für alle y ∈ Rm gilt nach Satz 24.13 (5) Dϕ(y) = ϕ und somit ||Dϕ(y)|| = ||c||. Auf die Funktion g ist Satz 24.18 anwendbar. Danach gibt es einen Punkt ξ ∈ S mit g(q) − g(p) = hgrad g(ξ) , q − p i = Dg(ξ)(q − p). Aus der Kettenregel (Satz 24.14) folgt ||c||2 = hc, f (q) − f (p)i = ||g(q) − g(p)|| = ||Dg(ξ)(q − p)|| = ||(Dϕ(f (ξ)) ◦ Df (ξ))(q − p)|| ≤ ||Dϕ(f (ξ))|| · ||Df (ξ)(q − p)|| ≤ ||c|| · ||Df (ξ)|| · ||q − p|| ≤ ||c|| · M · ||q − p|| . Wir kürzen einen Faktor ||c|| und erhalten die Behauptung. 24.6 Niveaumengen Funktionen f : U −→ R auf Definitionsbereichen U ⊆ R2 können durch ihren Graphen veranschaulicht werden. Er ist eine Teilmenge des R3 , in günstigen Fällen eine Fläche“. ” Verschiedene Computeralgebrasysteme sind in der Lage, Bilder solcher Graphen zu zeichnen. Für einen ungeübten Betrachter ist es manchmal nicht leicht, diese Bilder richtig zu interpretieren. Oft ist es daher nützlich, statt des (dreidimensionalen) Graphen ein (zweidimensionales) Bild der Niveaulinien von f zu betrachten71 , wie es traditionell in vielen Situationen benutzt wird: Eine Wetterkarte zeigt Linien konstanten Luftdrucks (Isobaren) oder auch konstanten Niederschlags (Isohyeten), eine Wanderkarte zeigt Linien konstanten Meeresniveaus, die Höhenlinien (Isohypsen). Aus den Höhenlinien gewinnt der Wanderer wertvolle Informationen über die Steilheit des Geländes. In der folgenden Definition sprechen wir vorläufig nicht von Linien, sondern wählen den neutralen Ausdruck Niveaumengen“. ” Definition 24.21 Es sei f : U −→ R eine Funktion auf einer nicht-leeren Menge U ⊆ Rn . Für c ∈ R heißt die Menge Nc (f ) := f −1 ({c}) = {x ∈ U | f (x) = c} die Niveaumenge der Funktion f zum Niveau c. 71 In Mathematica lassen sich Niveaulinien mithilfe des Befehls ContourPlot graphisch darstellen. 357 16 8 6 4 6 6 8 6 6 8 6 1 6 4 2 4 2 1 1 2 1 0 0 Abbildung 71: Höhenlinien Wir werden in Kapitel 28 Kriterien dafür kennenlernen, dass eine Niveaumenge im Fall n = 2 lokal wie eine Kurve und allgemein für n ≥ 2 wie eine Hyperfläche aussieht. Dann sind die Ausdrücke Niveaulinie“ bzw. Niveauhyperfläche“ berechtigt. ” ” Auch für gutartige“ (z.B. stetig differenzierbare) Funktionen f muss Nc (f ) keinesfalls li” nienförmig verlaufen; insbesondere kann eine Niveaumenge gelegentlich auch ein ganzes Flächenstück ausfüllen (d.h. innere Punkte enthalten), nämlich dann, wenn die Funktion ein ebenes Plateau“ aufweist. Und selbstverständlich kann Nc (f ) = ∅ für viele Werte von c ” sein. Wenn f in ξ ein striktes lokales Extremum hat, dann enthält die Niveaumenge Nf (ξ) (f ) den isolierten Punkt ξ. Beispiel 24.22 Es sei f (x, y) := x2 + y 2 , g(x, y) := x2 − y 2 Die (nichtleeren) Niveaulinien von f sind Kreise um den Ursprung. Die Niveaulinien von g sind Hyperbeln, die durch Gleichungen x2 − y 2 = c beschrieben werden. (Für c = 0 ergeben sich deren Asymptoten, nämlich die Winkelhalbierenden der einzelnen Quadranten.) Wie am Ende von Abschnitt 24.5 festgestellt, zeigt der Vektor grad f (ξ) in die Richtung des steilsten Anstieges der Funktion f im Punkt ξ. Diese Richtung ist im Falle von zwei Variablen in einem Höhenlinienbild von f gut erkennbar; es ist die Richtung mit der größten Dichte an Höhenlinien. Es ist anschaulich zu erwarten, dass der Gradient grad f (ξ) orthogonal zum Tangentialvektor an die Höhenlinie von f im Punkt ξ (zum Niveau f (ξ)) ist. Dies ist unter der Voraussetzung, dass eine Höhenlinie eine glatte Kurve ist, einfach zu beweisen. Wir formulieren dieses Resultat etwas allgemeiner für Wege, die in beliebigen (auch höherdimensionalen) Niveaumengen verlaufen. 358 4 4 2 2 0 0 -2 -2 -4 -4 -4 -2 0 2 4 -4 -2 0 2 4 Abbildung 72: Niveaulinien von f (x, y) = x2 + y 2 (links) und g(x, y) = x2 − y 2 (rechts) Satz 24.23 Es sei f : U −→ R eine differenzierbare Funktion auf einer offenen Teilmenge U des Rn . Es sei γ : [−1; 1] −→ U ein regulärer Weg, der ganz in einer Niveaumenge Nc (f ) verläuft, d. h. es gelte f (γ(t)) = c für alle t ∈ [−1; 1]. Dann ist für alle t0 ∈ ] − 1; 1[ der Tangentialvektor γ 0 (t0 ) orthogonal zum Gradienten grad f (γ(t0 )), und die Richtungsableitung von f in Richtung dieses Tangentialvektors ist Null. Eine Verallgemeinerung dieses Resultats werden wir in Satz 28.13 kennenlernen. Beweis. Es sei ein t0 ∈] − 1, 1[ gegeben. Mit der Kettenregel folgt 0= d f (γ(t)) = Jf (γ(t)) · γ 0 (t) = hgrad f (γ(t)), γ 0 (t)i dt für alle t ∈ [−1, 1]. Insbesondere ist hgrad f (γ(t0 )), γ 0 (t0 )i = 0, d.h. der Tangentialvektor γ 0 (t0 ) ist orthogonal zum Gradienten grad f (γ(t0 )). Wegen der Regularität von γ ist γ 0 (t0 ) 6= 0. Daher ist v0 := γ 0 (t0 ) ||γ 0 (t0 )|| die Richtung des Tangentialvektors. Mit Satz 24.17 folgt ∂f (γ(t0 )) = hgrad f (γ(t0 )), v0 i = 0, ∂v0 d. h. die Richtungsableitung von f in Richtung des Tangentialvektors ist 0. Beispiel 24.24 Es sei f (x, y, z) := x2 + y 2 + z 2 . Für c > 0 ist die Niveaumenge Nc (f ) eine Sphäre (Kugeloberfläche) von Radius √ c. Es ist grad f (x, y, z) = (2x, 2y, 2z) = 2(x, y, z). Der Gradient grad f (x, y, z) zeigt in die gleiche Richtung wie (x, y, z), nämlich senkrecht von der Sphäre nach außen“. ” 359 25 Höhere Ableitungen und lokale Extrema Wir greifen ein wichtiges Thema der eindimensionalen Analysis wieder auf: die Bestimmung von Extrema von Funktionen. Lokale Extrema im Innern des Definitionsbereichs kann man dabei in der Regel durch die Betrachtung geeigneter Ableitungen aufspüren und klassifizieren. Wie im eindimensionalen Fall liefert die erste Ableitung freilich nur eine notwendige Bedingung für das Vorliegen eines Extremums. Für eine detailliertere Analyse benötigen wir höhere Ableitungen. 25.1 Die Reihenfolge partieller Ableitungen Höhere partielle Ableitungen können ohne weiteres rekursiv definiert werden. Wir dürfen uns auf Funktionen mit Werten in R beschränken. Definition 25.1 Es sei f : U −→ R eine Funktion auf einer offenen Menge U ⊆ Rn , und es sei ξ ∈ U . Es seien eine natürliche Zahl r und Indizes k1 , k2 , . . . , kr ∈ {1, 2, . . . , n} gegeben. Wir nehmen an, dass die Funktion ∂ r−1 f ∂xkr−1 . . . ∂xk1 in allen Punkten einer gewissen Umgebung von ξ definiert ist. (Für r = 1 ist hierunter die Funktion f selbst zu verstehen, die auf der Umgebung U von ξ definiert ist.) Falls diese Funktion im Punkt ξ nach der Variablen xkr partiell differenzierbar ist, dann heißt ∂ ∂ r−1 f (ξ) ∂xkr ∂xkr−1 . . . ∂xk1 eine r-te partielle Ableitung von f im Punkt ξ. Wir bezeichnen diese r-te partielle Ableitung mit ∂rf (ξ) oder fxk1 ...xkr (ξ). ∂xkr . . . ∂xk1 Die Funktion f heißt r-mal stetig differenzierbar auf U oder auch eine Funktion der Klasse C r , falls die sämtlichen r-ten partiellen Ableitungen von f in allen Punkten x ∈ U existieren und stetige Funktionen auf U sind. Die Funktionen der Klasse C 0 sind die stetigen Funktionen auf U . Wenn f für jedes r ∈ N von der Klasse C r ist, dann heißt f unendlich oft differenzierbar oder von der Klasse C ∞ . Satz 24.11 besagt, dass Funktionen der Klasse C 1 tatsächlich (total) differenzierbar sind. In den partiellen Ableitungen fxk1 ...xkr (ξ) ist die Reihenfolge der Indizes k1 , . . . , kr wichtig. Sie zeigt an, dass zuerst nach der Variablen xk1 , dann nach xk2 und zuletzt nach xkr differenziert wird. A priori ist nicht klar, dass man hier die Reihenfolge vertauschen darf. Beispiel 25.2 (1) Es sei f (x, y) := x2 · sin(xy). 360 Man berechnet ∂f (x, y) = 2x · sin(xy) + x2 y · cos(xy), ∂x ∂f (x, y) = x3 · cos(xy), ∂y ∂ 2f (x, y) = 3x2 · cos(xy) − x3 y sin(xy), ∂y∂x ∂ 2f (x, y) = 3x2 · cos(xy) − x3 y sin(xy). ∂x∂y Somit gilt überall ∂ 2f ∂ 2f (x, y) = (x, y); ∂y∂x ∂x∂y verblüffenderweise sind die gemischten zweiten partiellen Ableitungen von der Differentiationsreihenfolge unabhängig. (2) Unsere durch das letzte Beispiel genährte Hoffnung, man könne die Reihenfolge partieller Ableitungen grundsätzlich vertauschen, erweist sich freilich als voreilig. Dazu betrachten wir die Funktion f : R2 −→ R, die durch f (0, 0) := 0 und xy 3 f (x, y) := 2 x + y2 für (x, y) 6= (0, 0) definiert ist. Offensichtlich besitzt f in jedem Punkt 6= (0, 0) stetige partielle Ableitungen beliebiger Ordnung. Mithilfe der Quotientenregel berechnet man für alle (x, y) 6= (0, 0) y 3 (x2 + y 2 ) − 2x2 y 3 ∂f y 5 − x2 y 3 (x, y) = = , ∂x (x2 + y 2 )2 (x2 + y 2 )2 3xy 2 (x2 + y 2 ) − 2xy 4 3x3 y 2 + xy 4 ∂f (x, y) = = . ∂y (x2 + y 2 )2 (x2 + y 2 )2 Weil f auf den Koordinatenachsen verschwindet, gilt außerdem ∂f ∂f (0, 0) = (0, 0) = 0. ∂x ∂y Damit ist ∂f (0, y) = y, ∂x ∂f (x, 0) = 0 ∂y für alle x, y ∈ R. Für die partiellen Ableitungen zweiter Ordnung im Nullpunkt folgt daher ∂ 2f (0, 0) = 1, ∂y∂x ∂ 2f (0, 0) = 0. ∂x∂y Im Nullpunkt führt also eine verschiedene Reihenfolge der Differentiationen zu verschiedenen Werten der Ableitungen. Dabei ist die Funktion f nicht einmal allzu patholo” gisch“: Sie ist auf ganz R2 partiell differenzierbar, und die partiellen Ableitungen sind (auch) im Nullpunkt stetig, so dass f gemäß Satz 24.11 dort auch total differenzierbar ist. 361 Um die Reihenfolge partieller Ableitungen vertauschen zu dürfen, benötigen wir zweimal stetig differenzierbare Funktionen. Satz 25.3 (Satz von Schwarz) Es sei f : U −→ R eine zweimal stetig differenzierbare Funktion auf einer offenen Teilmenge U des Rn . Für alle ξ ∈ U und alle j, k ∈ {1, . . . , n} gilt dann ∂ 2f ∂ 2f (ξ) = (ξ). ∂xj ∂xk ∂xk ∂xj Beweis. Bei naiver Betrachtung mag es als ziemlich mysteriös erscheinen, weshalb zwischen zwei unterschiedlich gebildeten partiellen Ableitungen überhaupt ein Zusammenhang bestehen sollte. Wir geben einen Beweis, der die verborgene Symmetrie herauszuarbeiten versucht, welche hinter unserem Resultat steckt. O.B.d.A. dürfen wir n = 2 und ξ = 0 annehmen und uns somit auf die Betrachtung des Falls j = 1, k = 2 beschränken. Ferner schreiben wir zur Vereinfachung (x, y) statt (x1 , x2 ). Es sei ein ε > 0 gegeben. Wegen der Stetigkeit der partiellen Ableitung fxy gibt es ein δ > 0, so dass Q := (x, y) ∈ R2 : |x| < δ, |y| < δ ⊆ U und 2 2 ∂ f ∂ f ∂y∂x (x, y) − ∂y∂x (0, 0) < ε für alle (x, y) ∈ Q. Es sei ein t ∈ ] − δ; δ[ =: I gegeben. y (σ,t) (t,t) (0,t) (σ,τ ) (0,0) (σ,0) (t,0) Abbildung 73: Zum Beweis von Satz 25.3 Wir betrachten die Funktion g : I −→ R, g(x) := f (x, t) − f (x, 0). Diese ist differenzierbar mit g 0 (x) = ∂f ∂f (x, t) − (x, 0). ∂x ∂x 362 x (25.1) Nach dem Mittelwertsatz gibt es ein σ ∈ I (sogar σ zwischen t und 0) mit g(t) − g(0) = g 0 (σ). t Es folgt ∂f ∂f g(t) − g(0) (σ, t) − (σ, 0) = g 0 (σ) = ∂x ∂x t 1 · (f (t, t) − f (t, 0) − f (0, t) + f (0, 0)) . = t Andererseits kann man auch auf die Funktion y 7→ ∂f (σ, y) ∂x den Mittelwertsatz anwenden und erhält ein τ ∈ I mit 1 ∂f ∂f ∂ 2f · (σ, t) − (σ, 0) = (σ, τ ). t ∂x ∂x ∂y∂x Insgesamt ist also 1 ∂ 2f · (f (t, t) − f (t, 0) − f (0, t) + f (0, 0)) = (σ, τ ). t2 ∂y∂x Auf die rechte Seite dieser Gleichung können wir (25.1) anwenden (denn (σ, τ ) ∈ Q). Damit ergibt sich 2 1 · (f (t, t) − f (t, 0) − f (0, t) + f (0, 0)) − ∂ f (0, 0) < ε. t2 ∂y∂x Dies gilt für alle t ∈] − δ, δ[. Damit haben wir gezeigt, dass ∂ 2f 1 (0, 0) = lim 2 · (f (t, t) − f (t, 0) − f (0, t) + f (0, 0)) . t→0 t ∂y∂x Das Entscheidende hieran ist, dass die rechte Seite symmetrisch bezüglich Vertauschung der beiden Variablen ist. Damit sind wir praktisch am Ziel: Wir können mit exakt der gleichen Argumentation auch zeigen, dass ∂ 2f 1 (0, 0) = lim 2 · (f (t, t) − f (t, 0) − f (0, t) + f (0, 0)) t→0 t ∂x∂y ist. Hieraus folgt unsere Behauptung. Analoge Aussagen gelten natürlich auch für die Vertauschung der Reihenfolge höherer partieller Ableitungen; durch Induktion folgt: Korollar 25.4 Ist die Funktion f : U −→ R auf der offenen Menge U ⊆ Rn von der Klasse C r , dann sind je zwei Ableitungen r-ter Ordnung, in denen gleich oft nach den gleichen Variablen differenziert wird, identisch. 363 25.2 Die Hesse-Matrix Für eine differenzierbare reellwertige Funktion f : U −→ R auf einer offenen Teilmenge U des Rn ist das totale Differential Df (ξ) von f in ξ eine Linearform auf dem Rn . Allgemein erweist sich das k-te Differential einer solchen Funktion als eine Multilinearform auf dem Rn in k Variablen - also als ein recht komplexes Objekt. Um die Betrachtungen überschaubar zu halten, beschränken wir uns auf den Fall der zweiten Ableitung. Bei ihr handelt es sich um eine Bilinearform. Sie wird durch die sog. Hesse-Matrix repräsentiert. Der allgemeine Fall von Differentialen höherer Ordnung ist z.B. in [Köhler, § 25.1-25.2] behandelt. Definition 25.5 Es sei U ⊆ Rn offen, ξ ∈ U und f : U −→ R eine Funktion der Klasse C 2 . Dann nennt man ∂2f ∂2f ∂2f (ξ) (ξ) . . . (ξ) 2 ∂x1 ∂x2 ∂x1 ∂xn ∂ 2f ∂x1 .. .. .. (ξ) Hf (ξ) := = . . . ∂xj ∂xk j,k=1,...,n ∂2f ∂2f ∂2f (ξ) (ξ) . . . (ξ) 2 ∂xn ∂x1 ∂xn ∂x2 ∂x n die Hesse-Matrix72 von f in ξ. Aus Satz 25.3 folgt (unter der Voraussetzung der zweimaligen stetigen Differenzierbarkeit von f ), dass die Hesse-Matrix Hf (ξ) symmetrisch ist. Satz 25.6 Es sei U ⊆ Rn offen, ξ ∈ U und f : U −→ R eine Funktion der Klasse C 2 . Dann gibt es ein r > 0 und eine Funktion R : Ur (0) −→ R, so dass f (ξ + h) = f (ξ) + Jf (ξ) · h + 1 T · h · Hf (ξ) · h + R(h) 2 für alle h ∈ Ur (0) (25.2) und R(h) =0 h→0 ||h||2 lim gilt. Beweis. Wir wählen ein r > 0 so, dass Ur (ξ) ⊆ U . Es sei ein h ∈ Rn mit ||h|| < r gegeben. Dann liegt die gesamte Verbindungsstrecke [ξ; ξ + h] von ξ und ξ + h in U , und wir können die Funktion ϕ(t) := f (ξ + th), t ∈ [0; 1] betrachten. Aufgrund der Kettenregel ist ϕ zweimal stetig differenzierbar, und die ersten beiden Ableitungen sind ϕ0 (t) = Jf (ξ + th) · h = 72 nach L. O. Hesse (1811 – 1874) 364 n X ∂f (ξ + th) · hj ∂x j j=1 und n X n X d ∂f hj · hj · ϕ00 (t) = (ξ + th) = dt ∂xj j=1 j=1 = n X n X j=1 k=1 hj · n X k=1 ∂ 2f (ξ + th) · hk ∂xk ∂xj ! ∂ 2f (ξ + th) · hk = hT Hf (ξ + th) · h. ∂xk ∂xj Auf die Funktion ϕ ist die (eindimensionale) Taylor-Formel mit (Lagrange’schem) Restglied (Satz 20.5) anwendbar. Hiernach gibt es für alle t ∈ [0; 1] ein τ ∈ [0; t], so dass 1 ϕ(t) = ϕ(0) + ϕ0 (0) · t + ϕ00 (τ ) · t2 2 ist. Insbesondere gibt es ein τ ∈ [0; 1] mit 1 f (ξ+h) = ϕ(1) = ϕ(0) + ϕ0 (0) + ϕ00 (τ ) 2 1 T = f (ξ) + Jf (ξ) · h + h Hf (ξ + τ h) · h 2 1 1 T = f (ξ) + Jf (ξ) · h + h Hf (ξ) · h + hT (Hf (ξ + τ h) − Hf (ξ)) · h, 2 2 und hierbei ist n n X X 2 2 T ∂ f ∂ f h (Hf (ξ + τ h) − Hf (ξ)) · h = (ξ + τ h) − (ξ) · hj hk ∂x ∂x ∂x ∂x k j k j j=1 k=1 n X n X ∂ 2f ∂ 2f 2 ≤ ∂xk ∂xj (ξ + τ h) − ∂xk ∂xj (ξ) · ||h|| . j=1 k=1 Definiert man also R durch (25.2), so gibt es für jedes h ∈ Ur (0) ein τh ∈ [0; 1], so dass R(h) = und 1 T · h (Hf (ξ + τh h) − Hf (ξ)) · h 2 n n |R(h)| 1 X X ∂ 2 f ∂ 2f ≤ · (ξ + τh h) − (ξ) . 2 ||h|| 2 j=1 k=1 ∂xk ∂xj ∂xk ∂xj Hierbei gilt limh→0 (ξ + τh h) = ξ. Daher folgt mithilfe der Stetigkeit der zweiten partiellen Ableitungen R(h) lim = 0. h→0 ||h||2 Bemerkung 25.7 Der in der Darstellung für f in Satz 25.6 auftretende Term hT ·Hf (ξ)·h besitzt eine anschauliche Interpretation als zweifache Richtungsableitung: Wie im Satz sei U ⊆ Rn offen und f : U −→ R eine Funktion der Klasse C 2 . Weiter sei v ∈ Rn eine beliebige Richtung (d.h. ||v|| = 1). Dann gilt für alle x ∈ U gemäß Satz 24.17 n X ∂f ∂f (x) = hgrad f (x), vi = vk · (x). ∂v ∂x k k=1 365 Die zweite Richtungsableitung von f in Richtung v ist dann die Richtungsableitung von x 7→ ∂f (x) in Richtung v; sie berechnet sich mithilfe des soeben benutzten Satzes (und ∂v aus Linearitätsgründen) zu n X ∂ 2f ∂ ∂f (x) (x) = vk · 2 ∂v ∂v ∂xk k=1 n X n X ∂ 2f (x) ∂xj ∂xk k=1 j=1 2 ∂ f ... 2 (x) ∂x1. .. = (v1 , . . . , vn ) 2 ∂ f (x) . . . ∂xn ∂x1 = 25.3 vk vj · v .1 .. .. = v T Hf (x) · v. . ∂2f vn (x) ∂x2 ∂2f (x) ∂x1 ∂xn n Bestimmung von Extrema Erinnerung: In Definition 15.1 hatten wir den Begriff des lokalen Extremums für reellwertige Funktionen erklärt, deren Definitionsbereich ein beliebiger metrischer Raum ist. Speziell für Funktionen f : U −→ R auf einer offenen Menge U ⊆ Rn bedeuten die Definitionen folgendes: Ein Punkt ξ ∈ U ist eine lokale Maximalstelle von f , falls es eine Umgebung V ⊆ U von ξ gibt, so dass f (x) ≤ f (ξ) für alle x ∈ V. Gilt sogar f (x) < f (ξ) für alle x ∈ V \ {ξ} , so nennt man ξ eine strikte lokale Maximalstelle von f . Analoge Aussagen gelten für (strikte) lokale Minimalstellen. Satz 25.8 (Notwendiges Kriterium für lokale Extremalstellen) Es sei U ⊆ Rn offen und f : U −→ R von der Klasse C 1 . Wenn f im Punkt ξ ∈ U eine lokale Extremalstelle hat, dann gilt Df (ξ) = 0, d.h. ∂f ∂f (ξ) = . . . = (ξ) = 0. ∂x1 ∂xn Beweis. Es sei ξ eine lokale Extremalstelle von f . Für jedes k ∈ {1, . . . , n} hat dann die partielle Funktion gk : x 7→ f (ξ1 , . . . , ξk−1 , x, ξk+1 , . . . , ξn ) eine lokale Extremalstelle im Punkt x = ξk . Nach dem notwendigen Kriterium für lokale Extrema im Eindimensionalen (Satz 15.2) folgt hieraus 0 = gk0 (ξk ) = ∂f (ξ). ∂xk Definition 25.9 Es sei U ⊆ Rn offen, und die Funktion f : U −→ R sei von der Klasse C 1 . Ein Punkt ξ ∈ U heißt eine stationäre Stelle oder ein kritischer Punkt der Funktion f , falls grad f (ξ) = 0 ist. 366 Warnung: Ebenso wie in der eindimensionalen Analysis (vgl. Bemerkung 15.4 (2)) ist das notwendige Kriterium in Satz 25.8 nur auf innere Punkte des Definitionsbereichs anwendbar. Extrema an den Rändern des Definitionsbereichs lassen sich nicht ohne weiteres dadurch charakterisieren, dass bestimmte Ableitungen verschwinden. (Wichtige Fälle, in denen dies doch gelingt, behandelt die Lagrange’sche Multiplikatorenregel in Kapitel 27.) Bei der Suche nach Extrema einer differenzierbaren Funktion genügt es daher i.d.R. nicht, nur ihre kritischen Punkte zu betrachten; man muss die Randpunkte des Definitionsbereichs (sofern es solche gibt!) separat untersuchen. Beispiel 25.10 Wie im Fall n = 1 brauchen stationäre Stellen keine lokalen Extremalstellen von f zu sein: Für f (x, y) := x2 − y 2 beispielsweise gilt grad f (0, 0) = (0, 0), aber f hat in (0, 0) kein lokales Extremum. Das notwendige Kriterium in Satz 25.8 ist also kein hinreichendes! Um zu klären, ob an stationären Stellen tatsächlich ein lokales Extremum vorliegt und ggf. um welchen Typ von Extremum es sich handelt, ist es wie im eindimensionalen Fall oft hilfreich, höhere Ableitungen zu betrachten. Im Folgenden beschränken wir uns darauf, die Rolle der zweiten Ableitung zu untersuchen. Definition 25.11 Eine symmetrische reelle n × n-Matrix A heißt • positiv definit, falls xT Ax > 0 für alle x ∈ Rn \ {0} gilt. • negativ definit, falls xT Ax < 0 für alle x ∈ Rn \ {0} gilt. • positiv semidefinit, falls xT Ax ≥ 0 für alle x ∈ Rn gilt. • negativ semidefinit, falls xT Ax ≤ 0 für alle x ∈ Rn gilt. • indefinit, falls es x, y ∈ Rn mit xT Ax > 0, y T Ay < 0 gibt. Man beachte, dass die positive (bzw. negative) Definitheit die positive (bzw. negative) Semidefinitheit impliziert und dass jede symmetrische Matrix entweder positiv semidefinit oder negativ semidefinit oder indefinit ist. In welche der in Definition 25.11 aufgelisteten Klassen eine symmetrische Matrix gehört, hängt nur von den Vorzeichen ihrer Eigenwerte ab. (Man beachte, dass symmetrische reelle Matrizen diagonalisierbar sind und ihre sämtlichen Eigenwerte reell sind.) Man kann die positive Definitheit aber auch anhand eines Determinanten-Kriteriums erkennen: Satz 25.12 (1) Eine symmetrische reelle n × n-Matrix A ist genau dann – positiv definit, wenn ihre sämtlichen Eigenwerte positiv sind. – negativ definit, wenn ihre sämtlichen Eigenwerte negativ sind. 367 – positiv semidefinit, wenn ihre sämtlichen Eigenwerte ≥ 0 sind. – negativ semidefinit, wenn ihre sämtlichen Eigenwerte ≤ 0 sind. – indefinit, falls A mindestens einen positiven und mindestens einen negativen Eigenwert besitzt. (2) (Routh-Hurwitz-Kriterium) Genau dann ist eine symmetrische reelle n × n-Matrix A positiv definit, wenn für alle k = 1, . . . , n a11 . . . a1k .. > 0 det ... . ak1 . . . akk gilt, wenn also alle durch sukzessives Streichen der jeweils letzten Zeile und Spalte sich ergebenden Matrizen positive Determinante haben. Beweis. Lineare Algebra, siehe z.B. [Huppert, Satz 7.3 und Satz 8.9] Man könnte das Routh-Hurwitz-Kriterium auch für negative Definitheit formulieren. Dies ist aber unpraktisch und verwirrend. Sinnvoller ist es, zum Nachweis der negativen Definitheit von A die Matrix −A auf positive Definitheit zu untersuchen. Es gibt auch ein entsprechendes Kriterium für positive Semidefinitheit (siehe z.B. [Huppert, Satz 8.10]); dieses ist freilich komplizierter: Es genügt nicht, in obiger Formulierung einfach > 0“ durch ≥ 0“ ” ” zu ersetzen. Satz 25.13 (Hinreichendes Kriterium für lokale Extremalstellen) Es sei U eine offene Teilmenge des Rn . Die Funktion f : U −→ R sei von der Klasse C 2 . Es sei ξ ∈ U ein kritischer Punkt von f (d.h. grad f (ξ) = 0). Dann gilt: (1) Wenn Hf (ξ) positiv definit ist, dann ist ξ ein striktes lokales Minimum von f . (2) Wenn Hf (ξ) negativ definit ist, dann ist ξ ein striktes lokales Maximum von f . (3) Wenn Hf (ξ) indefinit ist, dann ist ξ keine lokale Extremalstelle von f . Beweis. Unter den hier gegebenen Voraussetzungen gibt es nach Satz 25.6 ein r > 0 und eine Funktion R : Ur (0) −→ R, so dass f (ξ + h) = f (ξ) + 1 T · h Hf (ξ) · h + R(h) 2 und für alle h ∈ Ur (0) R(h) = 0. h→0 ||h||2 lim Zur Abkürzung setzen wir 1 T · h Hf (ξ) · h. 2 Zunächst sei Hf (ξ) positiv definit. Dann nimmt die Funktion q außer im Nullpunkt nur positive Werte an und hat daher als stetige Funktion auf der kompakten Einheitssphäre des Rn ein positives Minimum. Es gibt also ein c > 0, so dass q(h) := q(h) ≥ c für alle h ∈ Rn mit ||h|| = 1. 368 Da q homogen vom Grad 2 ist (d.h. q(λh) = λ2 q(h) für alle h ∈ Rn ), folgt q(h) ≥ c · ||h||2 für alle h ∈ Rn . Weiter gibt es ein δ ∈ ]0; r], so dass |R(h)| ≤ c · ||h||2 2 für alle h ∈ Uδ (0). Für alle h ∈ Uδ (0) \ {0} folgt f (ξ + h) − f (ξ) = q(h) + R(h) ≥ c · ||h||2 − c c · ||h||2 = · ||h||2 > 0. 2 2 Damit ist ξ ein striktes lokales Minimum von f . Dies zeigt (1). Wenn Hf (ξ) negativ definit ist, so betrachtet man statt f die Funktion −f und wendet hierauf (1) an. Damit ergibt sich (2). Nun sei Hf (ξ) indefinit. Dann gibt es a, b ∈ Rn mit c− := q(a) < 0 < q(b) =: c+ . O.B.d.A. darf man ||a|| = ||b|| = 1 annehmen. Hierzu gibt es ein δ ∈ ]0; r], so dass |R(h)| ≤ 1 · min {c+ , −c− } · ||h||2 2 für alle h ∈ Uδ (0). Für alle t ∈ ]0, δ[ ist dann ta, tb ∈ Uδ (0) und somit c− 2 c− 2 ·t = · t < 0, 2 2 c+ 2 c+ 2 f (ξ + tb) − f (ξ) = q(tb) + R(tb) ≥ c+ · t2 − ·t = · t > 0. 2 2 Da dies für beliebig kleine t > 0 gilt, nimmt die Differenz X 7→ f (X) − f (ξ) in jeder Umgebung von ξ sowohl positive wie auch negative Werte an. Somit hat f im Punkt ξ kein lokales Extremum. Damit ist auch (3) bewiesen. f (ξ + ta) − f (ξ) = q(ta) + R(ta) ≤ c− · t2 − Der Satz trifft keine Aussage über das Verhalten von f in der Nähe von ξ, wenn Hf (ξ) semidefinit, aber nicht definit ist. In diesem Fall sind allein aus der Betrachtung der zweiten Ableitung keine allgemeinen Aussagen über das lokale Verhalten der Funktion möglich, wie wir im Folgenden anhand einiger Beispiele sehen werden. In diesem Fall könnte man höhere Ableitungen betrachten, für die man analoge hinreichende Kriterien für lokale Extrema formulieren kann. (Für den eindimensionalen Fall ist dies in Satz 20.8 geschehen. Der allgemeine Fall findet sich z.B. in [Köhler, Satz 25.4].) Meist ist es jedoch geschickter, andere, dem jeweiligen Problem angepasste Überlegungen einzusetzen. Definition 25.14 Es sei U ⊆ Rn offen und f : U −→ R eine Funktion von der Klasse C 2 . Ein Punkt ξ ∈ U heißt ein Sattelpunkt von f , falls grad f (ξ) = 0 und Hf (ξ) indefinit ist. Ob ein Extremum oder ein Sattelpunkt vorliegt, zeigt sich auch anhand der Niveaulinien: Typischerweise werden lokale Extrema von den Niveaulinien umrundet“, während sich in ” Sattelpunkten zwei Niveaulinien zum gleichen Niveau kreuzen“; siehe hierzu Abbildung 72. ” 369 Beispiel 25.15 (1) Die beiden geradezu prototypischen Beispiele dafür, dass man ein striktes Minimum bzw. einen Sattelpunkt mithilfe der positiven Definitheit bzw. Indefinitheit der HesseMatrix identifizieren kann, sind die Funktionen f (x, y) := x2 + y 2 und g(x, y) := x2 − y 2 (vgl. auch Beispiel 24.22 für die Niveaulinien). Es ist grad g(x, y) = (2x, −2y), grad f (x, y) = (2x, 2y), so dass der Nullpunkt ein stationärer Punkt beider Funktionen ist. Ihre Hesse-Matrizen sind 2 0 2 0 Hf (x, y) = , Hg (x, y) = , 0 2 0 −2 haben also bereits Diagonalgestalt. Aus der Betrachtung der Eigenwerte wird die positive Definitheit von Hf (0, 0) und die Indefinitheit von Hg (0, 0) offensichtlich. Die Graphen von f bzw. g stellen ein elliptisches bzw. hyperbolisches Paraboloid dar (Abbildung 74). An diesem und ähnlichen Beispielen sieht man, dass der Graph einer Funktion in der Nähe eines Sattelpunktes wirklich einem Gebirgssattel oder Pferdesattel ähnlich sieht. 4 -2 0 2 -4 10 40 0 4 20 2 -10 0 0 -4 -2 4 -2 0 2 -4 2 0 -2 4 -4 Abbildung 74: Die Graphen von f (x, y) := x2 + y 2 und g(x, y) := x2 − y 2 (2) Es sei f (x, y) := x2 + y 4 und g(x, y) := x2 − y 4 . Auch hier ist der Nullpunkt offensichtlich ein stationärer Punkt beider Funktionen. Die zugehörigen Hesse-Matrizen sind 2 0 Hf (0, 0) = Hg (0, 0) = ; 0 0 sie sind also positiv semidefinit. Aber nur f hat im Nullpunkt ein striktes Minimum, während g dort kein Extremum hat. 370 (3) Es sei f (x, y) := sin(xy). Wegen grad f (x, y) = cos(xy) · (y, x) sind die stationären Stellen von f der Nullpunkt (0, 0) und alle Punkte auf den unendlich vielen Hyperbeln mit den Gleichungen 1 xy = k + ·π mit beliebigem k ∈ Z. 2 -2 0 −1 1 0 0 0 −1 1 1 −1 0 2 0 0 −1 0 1 0.5 0 0 -0.5 1 -1 2 0 -2 Abbildung 75: Höhenlinien und Graph von (x, y) 7→ sin(xy) Es gibt also unendlich viele stationäre Stellen, und unter diesen liegt nur der Nullpunkt isoliert. In einem beliebigen Punkt (x, y) hat f die Hesse-Matrix ! −y 2 · sin(xy) −xy · sin(xy) + cos(xy) Hf (x, y) = . −xy · sin(xy) + cos(xy) −x2 · sin(xy) Insbesondere ist 0 1 Hf (0, 0) = . 1 0 Die Eigenwerte dieser Matrix sind +1 und −1, sie ist also indefinit. Somit ist (0, 0) ein Sattelpunkt von f . In allen stationären Stellen (x, y) 6= (0, 0) ist cos xy = 0 und somit det H(x, y) = x2 y 2 sin2 (xy) − (xy sin(xy))2 = 0. Daher hat Hf (x, y) in allen diesen stationären Punkten den Eigenwert 0 (ist also semidefinit), und Satz 25.13 erlaubt keine Entscheidung über das lokale Verhalten von f . Die bekannten Eigenschaften des Sinus machen die Entscheidung jedoch leicht: In allen Punkten der Hyperbeln xy = (k + 21 )π mit geraden k hat f ein lokales und sogar ein absolutes (globales) Maximum, während bei ungeraden k Minima vorliegen. Die Extremalstellen liegen nicht isoliert, und insbesondere sind sie keine strikten Extremalstellen. 371 (4) Kann man allein daraus, dass für jede Richtung v die Funktion t 7→ f (ξ + tv) in t = 0 ein striktes Minimum hat, darauf schließen, dass dann auch f selbst in ξ ein striktes Minimum hat? Dies erscheint zwar sehr plausibel, ist aber i.Allg. nicht richtig, wie folgendes Beispiel zeigt: Es sei f (x, y) := (5y − x2 )(y − x2 ) = 5y 2 − 6x2 y + x4 . Dann ist grad f (x, y) = (4x3 − 12xy, 10y − 6x2 ), also grad f (0, 0) = (0, 0), d.h. (0, 0) ist stationärer Punkt von f . Für alle Richtungen v und alle t ∈ R gilt f (tv) = f (tv1 , tv2 ) = t2 · (5v22 − 6v12 v2 t + v14 t2 ). Ist v2 6= 0, so sieht man daraus, dass t 7→ f (tv) in t = 0 ein striktes lokales Minimum besitzt. Im Falle v2 = 0 ist v1 6= 0 und f (tv) = v14 t4 , so dass t 7→ f (tv) ebenfalls ein striktes lokales Minimum in t = 0 hat. 1 0 -1 15 10 5 0 1.5 0.5 1 0 -0.5 Abbildung 76: Der Graph von f (x, y) := (5y − x2 )(y − x2 ). Andererseits zeigt die Betrachtung von f (2t, t2 ) = −3t4 für t > 0, dass f in jeder Umgebung des Nullpunkts negative Werte annimmt, im Nullpunkt also kein lokales Minimum besitzt. Betrachtet man f also nur auf Geraden durch den Ursprung, so hat f (genauer: die Einschränkung von f auf diese Gerade) stets ein striktes Minimum in 0, bei Annäherung an den Nullpunkt auf einer Parabel hingegen sehen wir, dass im Nullpunkt doch kein Minimum vorliegt. Abbildung 76 zeigt den Graphen von f . Er vermittelt leider nur eine grobe Vorstellung der hier beschriebenen Phänomene. 372 (5) Es sei 2 f (x, y) := −y 4 − e−x + 2y 2 p ex + e−x2 . Wir zeigen in den Übungen (Aufgabe 7.1), dass die Funktion f : R2 → R genau eine stationäre Stelle besitzt, dass die Hesse-Matrix Hf dort positiv definit ist (so dass es sich also um ein striktes lokales Minimum handelt), dass jedoch f in diesem Punkt kein globales Minimum annimmt. 1 2 0.5 0 -0.5 -1 0 8 -2 -4 6 2 2 4 1 1 2 2.5 0 0 0 0 -2.5 -1 -1 -1 -0.5 -2 0 -5 -2 2 0 0.5 -2 1 -7.5 1 0 -1 -4 Abbildung 77: Die Funktion aus Beispiel 25.15 (5) Bemerkung 25.16 In Bemerkung 25.7 hatten wir gesehen, dass man den Ausdruck T v Hf (x) v als zweite Richtungsableitung der Funktion f an der Stelle x in Richtung v interpretieren kann. Es ist aufschlussreich, die oben diskutierten Kriterien für lokale Extrema noch einmal unter diesem Aspekt zu betrachten: Ist ξ eine stationäre Stelle der in einer Umgebung U von ξ definierten Funktion f : U −→ R und ist Hf (ξ) positiv definit, so ist also ∂ 2f (ξ) = v T Hf (ξ) · v > 0 2 ∂v für alle Richtungen v. Nach dem eindimensionalen“ hinreichenden Kriterium für lokale Extrema hat dann für jede ” Richtung v die Funktion t 7→ f (ξ + tv) in t = 0 ein striktes Minimum. Man ist geneigt, hieraus bereits darauf zu schließen, dass dann auch f selbst in ξ ein striktes Minimum hat. Dieser Schluss ist freilich falsch, wie wir in Beispiel 25.15 (4) gesehen hatten: Die Einschränkungen der Funktion f aus diesem Beispiel auf Geraden durch den Ursprung haben allesamt ein striktes Minimum in 0, bei Annäherung an den Nullpunkt auf einer Parabel hingegen sehen wir, dass f im Nullpunkt doch kein Minimum besitzt. Im Falle der positiven Definitheit von Hf (ξ) liegt jedoch eine stärkere Voraussetzung vor: Hier hat für alle Richtungen v die Funktion t 7→ f (ξ + tv) in t = 0 ein striktes lokales Minimum mit von Null verschiedener zweiter Ableitung73 (anschaulich: mit nichtverschwindender 73 Eben diese Bedingung war in unserem Beispiel 25.15 (4) verletzt: Es gibt dort eine (bis auf das Vorzeichen) einzige (!) Richtung, nämlich v = ±(1, 0), für die die zweite Ableitung von t 7→ f (tv) in t = 0 verschwindet, da nämlich f (tv) = t4 ist. 373 Krümmung). Hieraus können wir in der Tat darauf schließen, dass f selbst in ξ ein striktes lokales Minimum besitzt; dies hatten wir nämlich gerade in Satz 25.13 bewiesen.74 Jetzt wird auch einsichtig, dass im Falle einer indefiniten Hesse-Matrix Hf (ξ) kein lokales Extremum in ξ vorliegen kann: Es gibt dann nämlich Richtungen v, w mit ∂ 2f (ξ) > 0 ∂v 2 und ∂ 2f (ξ) < 0. ∂w2 Die Restriktion von f auf die Gerade durch ξ in Richtung v hat dann ein striktes lokales Minimum in ξ, während die Restriktion auf die Gerade durch ξ in Richtung w dort ein striktes lokales Maximum hat. Die Kriterien in Satz 25.13 sind hinreichende, aber nicht notwendige Kriterien, wie obige Beispiele gezeigt haben. Umgekehrt gilt jedoch: Satz 25.17 Es sei U eine offene Teilmenge des Rn . Die Funktion f : U −→ R sei von der Klasse C 2 . Es sei ξ ∈ U ein kritischer Punkt von f . Dann gilt: (1) Wenn f in ξ ein lokales Minimum hat, so ist Hf (ξ) positiv semidefinit. (2) Wenn f in ξ ein lokales Maximum hat, so ist Hf (ξ) negativ semidefinit. Beweis. Aufgabe 7.4 74 Letztlich liegt hier ein Kompaktheitsschluss vor: Auf der kompakten Menge S n−1 = {v ∈ Rn : ||v|| = 1} 2 aller Richtungen im Rn hat die stetige Funktion v 7→ ∂∂vf2 (ξ) ein Minimum µ, und dieses ist immer noch positiv; man kann dann f (ξ + h) für hinreichend kleine h nach unten durch f (ξ) + 41 µ||h||2 abschätzen. - Es ist empfehlenswert, den Beweis von Satz 25.13 im Lichte dieser Ausführungen noch einmal zu lesen. 374 26 26.1 Der Satz über lokale Umkehrbarkeit und der Satz über implizite Funktionen Der Satz über lokale Umkehrbarkeit Erinnerung: Es sei f : I −→ R eine differenzierbare Funktion auf einem Intervall I mit f 0 (x) 6= 0 für alle x ∈ I. Aus dem Zwischenwertsatz von Darboux für Ableitungen (Satz 15.27) folgt dann leicht, dass f streng monoton und damit injektiv ist (Bemerkung 15.29). Nach Satz 14.14 ist die Umkehrfunktion f −1 : f (I) −→ I differenzierbar, und ihre Ableitung ist 1 für alle y ∈ f (I). (f −1 )0 (y) = 0 −1 f (f (y)) In diesem Kapitel wollen wir dieses Resultat auf Funktionen von mehreren Variablen übertragen. Freilich ist nicht ganz klar, wie eine sinnvolle Verallgemeinerung aussehen könnte. An die Stelle von f 0 (x) tritt für eine Funktion f : Rn −→ Rm das totale Differential Df (x), also eine lineare Abbildung des Rn in den Rm . Die Forderung Df (x) 6= 0 (d.h. Df (x) ist nicht die Nullabbildung) ist sehr schwach und sicherlich keine hinreichende Voraussetzung für die Injektivität von f . Das folgende - im Sinne einer Vorüberlegung zu verstehende - Lemma liefert zwei notwendige Kriterien für die zumindest lokale Existenz einer differenzierbaren Umkehrfunktion sowie die richtige Formel für deren Ableitung: Lemma 26.1 Es seien U ⊆ Rn und V ⊆ Rm offen und f : U −→ V bijektiv. Es sei f total differenzierbar in einem Punkt a ∈ U und f −1 total differenzierbar in b := f (a) ∈ V . Dann gilt m = n, und die Ableitung Df (a) ist invertierbar mit Df −1 (b) = (Df (a))−1 . Beweis. Die Kettenregel (Satz 24.14), angewandt auf f −1 ◦ f = idU , und Satz 24.13 (5) ergeben Df −1 (b) ◦ Df (a) = D(f −1 ◦ f )(a) = (DidRn )(a) = idRn . Ausgehend von f ◦ f −1 = idV erhält man analog Df (a) ◦ Df −1 (b) = idRm . Somit sind die linearen Abbildungen Df −1 (b) : Rm −→ Rn und Df (a) : Rn −→ Rm beide bijektiv und zueinander invers. Aus der Linearen Algebra wissen wir, dass hieraus m = n folgt. (Dies ergibt sich aus der Dimensionsformel für lineare Abbildungen in Satz 23.7.) Damit sind alle Behauptungen bewiesen. Eine Chance auf die Existenz einer differenzierbaren Umkehrabbildung besteht also nur, wenn der Startraum und der Zielraum die gleiche Dimension haben und wenn die zugehörige Jacobi-Matrix invertierbar (regulär) ist. Erfreulicherweise sind diese Voraussetzungen auch hinreichend für die lokale Umkehrbarkeit. Das wird in Satz 26.4 gezeigt. Dass man grundsätzlich nur auf lokale, nicht auf globale Umkehrbarkeit hoffen kann, illustriert das folgende Beispiel: 375 Beispiel 26.2 R2 durch Auf der Menge U := ]0, ∞[×R ⊆ R2 definieren wir die Funktion ϕ : U −→ ϕ(r, t) := (r cos t, r sin t). Es seien also r und t die Polarkoordinaten des Punktes (x, y) = ϕ(r, t) 6= (0, 0). Die Determinante der Jacobi-Matrix von ϕ in einem beliebigen Punkt (r, t) ∈ U ist cos t −r sin t det Jϕ (r, t) = det = r > 0. sin t r cos t Für jeden Punkt (r, t) ∈ U ist daher das Differential Dϕ(r, t) eine invertierbare lineare Abbildung. Die Funktion ϕ ist jedoch nicht injektiv, denn sie hat in der Variablen t die Periode 2π. Allerdings ist ϕ für jedes reelle α auf der Teilmenge ]0, ∞[× ]α, α + 2π[ von U injektiv. Aus Eigenschaften der Ableitung einer Funktion von mehreren Variablen können wir also nicht auf ihre globale Umkehrbarkeit schließen. Allenfalls ist die Injektivität auf genügend kleinen Teilen des Definitionsbereiches zu erwarten. Wir führen daher den folgenden Begriff ein. Definition 26.3 Es sei A eine offene Teilmenge des Rn , es sei ξ ∈ A, und die Funktion f : A −→ Rn sei von der Klasse C 1 . Man nennt f im Punkt ξ lokal umkehrbar oder lokal invertierbar, falls es eine offene Umgebung U ⊆ A von ξ gibt, so dass die Restriktion f |U injektiv ist, die Menge V = f (U ) offen ist und die Umkehrfunktion (f |U )−1 : V −→ U wieder von der Klasse C 1 ist. Falls dies für jedes ξ ∈ A zutrifft, dann nennen wir f lokal umkehrbar oder lokal invertierbar. Hierbei ist die Forderung, dass f (U ) offen sein soll, wichtig dafür, dass man überhaupt von Differenzierbarkeit von (f |U )−1 reden kann. Der Beweis des Satzes über lokale Umkehrbarkeit beruht wesentlich auf dem Banachschen Fixpunktsatz (Satz 13.35). Wir erinnern kurz an die in diesem Kontext relevanten Begriffe. Erinnerung: (1) Ein metrischer Raum (X, d) heißt vollständig, falls jede Cauchy-Folge in X einen Grenzwert in X besitzt (Definition 6.19). (2) Es sei (X, d) ein metrischer Raum. Eine Abbildung f : X −→ X heißt gemäß Definition 13.32 eine Kontraktion, falls es eine Zahl λ mit 0 ≤ λ < 1 gibt, so dass d(f (x), f (y)) ≤ λ · d(x, y) für alle x, y ∈ X. (3) Banachscher Fixpunktsatz: Es sei (X, d) ein vollständiger metrischer Raum und f : X −→ X eine Kontraktion. Dann besitzt f genau einen Fixpunkt ξ ∈ X. Wenn man einen beliebigen Punkt a0 ∈ X wählt und die Folge (an )n≥0 in X rekursiv durch an = f (an−1 ) für n ≥ 1 definiert, dann gilt ξ = limn→∞ an . 376 Satz 26.4 (Satz über lokale Umkehrbarkeit) Es sei A eine offene Teilmenge in Rn , ξ ∈ A, und die Abbildung f : A −→ Rn sei von der Klasse C r mit einem r ≥ 1. Die Abbildung f ist im Punkt ξ genau dann lokal umkehrbar, wenn das Differential Df (ξ) invertierbar ist. In diesem Fall ist die lokale Umkehrabbildung g ebenfalls von der Klasse C r , und für alle u in einer geeigneten Umgebung U von ξ gilt Dg(f (u)) = (Df (u))−1 . Beweis. =⇒ “: Diese Implikation ist durch Lemma 26.1 im Wesentlichen bereits erledigt: ” Die Funktion f sei im Punkt ξ lokal umkehrbar, und g = (f |U )−1 sei die lokale Umkehrfunktion von f auf einer offenen Umgebung U von ξ. Für jeden Punkt u ∈ U ist dann f auch im Punkt u lokal umkehrbar, und g ist die lokale Umkehrfunktion von f auf der Umgebung U von u. Daher liefert das Lemma die Invertierbarkeit von Df (u) und Dg(f (u)) = (Df (u))−1 für alle u ∈ U, also Dg(v) = (Df (g(v)))−1 für alle v ∈ f (U ). Die aus der Linearen Algebra bekannte Cramersche Regel zeigt, dass die Einträge der Inversen einer Matrix M Funktionen von der Klasse C ∞ in den Einträgen von M selber sind. Man kann die partiellen Ableitungen von g also als Verkettung von Df ◦ g mit C ∞ -Funktionen schreiben. Hierbei ist g gemäß der Definition lokaler Umkehrbarkeit stetig differenzierbar. Hieraus folgt induktiv, dass g ebenso wie f von der Klasse C r ist. Dies zeigt =⇒ “. ” ⇐=“: Aufgrund des bereits Gezeigten genügt es, den Fall r = 1 zu diskutieren. Wir müssen ” aus der Regularität des Differentials Df (ξ) die lokale Umkehrbarkeit von f im Punkt ξ folgern. Wir gliedern den langen Beweis in mehrere Abschnitte. I. Man darf o.B.d.A. ξ = 0 und f (ξ) = f (0) = 0 voraussetzen. Weiter dürfen wir annehmen, dass Df (0) = idRn die identische Abbildung, also Jf (0) = En die n-reihige Einheitsmatrix ist. Zur Begründung setzen wir L := Df (0) F := f ◦ L−1 . und Die Funktion f ist genau dann im Punkt 0 lokal umkehrbar, wenn das für F gilt. Für die Ableitung von F in 0 erhält man aus der Kettenregel DF (0) = Df (0) ◦ D(L−1 )(0) = L ◦ L−1 = idRn . Nach dieser Reduktion des Problems setzen wir von jetzt an voraus, dass f von der Klasse C 1 sowie ξ = 0, f (0) = 0 und Df (0) = idRn ist. Wir müssen zeigen, dass f auf einer Umgebung U des Nullpunkts injektiv ist, dass f (U ) offen ist und dass die lokale Umkehrfunktion von der Klasse C 1 ist. II. Unsere Aufgabe besteht hauptsächlich darin, für alle y in einer Umgebung des Nullpunkts die Gleichung f (x) = y eindeutig nach x aufzulösen. Diese können wir auch in der Form hy (x) = x mit hy (x) := y + x − f (x) 377 schreiben. Für jedes feste y ist das eine Fixpunktgleichung in x. Zu ihrer Behandlung werden wir den Banachschen Fixpunktsatz heranziehen. Die Funktion h0 (x) = x − f (x) ist von der Klasse C 1 , und ihre Ableitung im Nullpunkt ist Dh0 (0) = idRn − Df (0) = 0. Wegen der Stetigkeit der partiellen Ableitungen von h0 und weil für die Operatornorm einer Matrix C = (cjk )jk ∈ Rn×n , wie im Beweis von Lemma 23.22 gezeigt, die Abschätzung n X n X ||C|| ≤ !1/2 c2jk j=1 k=1 gilt, ist die Operatornorm des Differentials von h0 in allen Punkten einer geeigneten Umgebung von 0 höchstens 21 ; es gibt also eine Zahl R > 0, so dass die kompakte Kugel BR (0) in der offenen Menge A enthalten ist und so dass ||Dh0 (u)|| ≤ 1 2 für alle u ∈ BR (0) erfüllt ist. Hieraus und aus dem Schrankensatz (Satz 24.20) folgt ||h0 (x1 ) − h0 (x2 )|| ≤ 1 · ||x1 − x2 || 2 x1 , x2 ∈ BR (0). für alle Hierin setzen wir x2 = 0 und erkennen wegen h0 (0) = 0, dass h0 (BR (0)) ⊆ B 1 R (0) 2 ist. Es folgt hy (x) = h0 (x) + y ∈ BR (0) für alle x ∈ BR (0) und alle y ∈ B 1 R (0). 2 Für jedes feste y ∈ B 1 R (0) ist daher hy eine Abbildung der kompakten Kugel BR (0) in sich. 2 Diese Abbildung ist kontrahierend, denn es gilt ||hy (x1 ) − hy (x2 )|| = ||h0 (x1 ) − h0 (x2 )|| ≤ 1 · ||x1 − x2 || 2 für alle x1 , x2 ∈ BR (0). Zudem ist BR (0) als abgeschlossener Teilraum des vollständigen metrischen Raumes Rn vollständig (Aufgabe 7.3). Somit ist der Banachsche Fixpunktsatz anwendbar, und wir erhalten das folgende Resultat: Zu jedem Punkt y ∈ B 1 R (0) gibt es einen eindeutig bestimmten Punkt x ∈ 2 BR (0) mit hy (x) = x, also mit f (x) = y. Deswegen definieren wir U := x ∈ Rn R ||x|| < R, ||f (x)|| < 2 und V := f (U ). Wegen der Stetigkeit von f ist U offen, und es gilt U ⊆ UR (0) ⊆ BR (0) ⊆ A 378 und V ⊆ U 1 R (0). 2 (26.1) Aufgrund von (26.1) ist daher f auf U injektiv. Somit können wir die lokale Umkehrfunktion g = (f |U )−1 : V −→ U einführen. Wir müssen zeigen, dass V eine offene Menge und g von der Klasse C 1 ist. III. In diesem Beweisschritt zeigen wir, dass V offen und g stetig ist. Für beliebige x, u ∈ BR (0) besteht die Abschätzung75 ||x − u|| = ||h0 (x) + f (x) − h0 (u) − f (u)|| ≤ ||h0 (x) − h0 (u)|| + ||f (x) − f (u)|| ≤ 1 2 · ||x − u|| + ||f (x) − f (u)||, also ||x − u|| ≤ 2 · ||f (x) − f (u)||. (26.2) Es sei ein Punkt v ∈ V gegeben, und es sei u := g(v) ∈ U , also v = f (u). Dann ist ||v|| < 21 R. Weil U offen ist, gibt es ein ε > 0 mit Uε (u) ⊆ U . Nun sei y ∈ U 1 R (0) ∩ U 1 ε (v). 2 2 Wir werden zeigen, dass alle diese Punkte y in V liegen. f v u Uε (u) Uε/2 (v) g V U Abbildung 78: Zum Beweis des Satzes über lokale Umkehrbarkeit Nach Teil II gibt es zu jedem solchen y (genau) ein x ∈ BR (0) mit f (x) = y. Die Abschätzung (26.2) für ||x − u|| liefert ||x − u|| ≤ 2||f (x) − f (u)|| = 2||y − v|| < ε. Somit ist x ∈ Uε (u) ⊆ U , also y = f (x) ∈ V . Somit gilt U 1 R (0) ∩ U 1 ε (v) ⊆ V. 2 2 Wir haben damit bewiesen, dass V offen ist. Wir verwenden nochmals (26.2) und erhalten ||g(y) − g(v)|| ≤ 2||f (g(y)) − f (g(v))|| = 2||y − v|| 75 für alle y, v ∈ V. Diese zeigt übrigens erneut die Injektivität von f auf BR (0); für diese Teilaussage in (26.1) bedarf es also nicht des Banachschen Fixpunktsatzes. 379 Daher ist g dehnungsbeschränkt, also stetig. IV. Schließlich beweisen wir die stetige Differenzierbarkeit von g. Für alle u ∈ U ist ||Dh0 (u)|| ≤ 21 . Wegen Df (u) = idRn − Dh0 (u) folgt für diese u ||Df (u)(X)|| = ||X − Dh0 (u)(X)|| ≥ ||X|| − ||Dh0 (u)|| · ||X|| ≥ 1 · ||X|| 2 für alle X ∈ Rn . Für alle X 6= 0 in Rn ist daher Df (u)(X) 6= 0. Damit ist die Invertierbarkeit von Df (u) für alle u ∈ U bewiesen. Es sei ein v ∈ V fixiert, und es sei u := g(v) ∈ U . Wir wollen zeigen, dass g in v total differenzierbar ist. Die Differenzierbarkeit von f in u liefert f (x) − f (u) = Df (u)(x − u) + r(x) für alle x ∈ U mit einer Funktion r, welche die Eigenschaft lim x→u ||r(x)|| =0 ||x − u|| hat. Für alle y 6= v in V folgt y − v = Df (u)(g(y) − g(v)) + r(g(y)). Wegen der Regularität von Df (u) können wir hierfür auch g(y) − g(v) = (Df (u))−1 (y − v) − (Df (u))−1 (r(g(y))) schreiben. Nach Teil III des Beweises ist g dehnungsbeschränkt. In ||(Df (u))−1 (r(g(y)))|| ||r(g(y))|| ||g(y) − g(v)|| ≤ ||(Df (u))−1 || · · ||y − v|| ||g(y) − u|| ||y − v|| strebt für y → v also der mittlere Faktor auf der rechten Seite gegen 0, während der letzte Faktor beschränkt ist. (Hierbei haben wir implizit die Stetigkeit der linearen Abbildung (Df (u))−1 benutzt, die sich in der Existenz einer endlichen Operatornorm ausdrückt.) Daher gilt ||(Df (u))−1 (r(g(y)))|| lim = 0. y→v ||y − v|| Nach Definition der Differenzierbarkeit ist g somit im Punkt v (total) differenzierbar mit der Ableitung Dg(v) = (Df (u))−1 . Das gilt für alle v ∈ V . Die Stetigkeit der partiellen Ableitungen von f und die Cramersche Regel für die Inverse einer Matrix zeigen schließlich, dass die partiellen Ableitungen von g ebenfalls stetig sind. Also ist g von der Klasse C 1 . 380 26.2 Anwendungen Wir beweisen zwei wichtige Folgerungen aus Satz 26.4. Korollar 26.5 (Offenheitsprinzip) Es sei A eine offene, nicht leere Teilmenge in Rn , n die Abbildung f : A −→ R sei von der Klasse C 1 , und für alle ξ ∈ A sei das Differential Df (ξ) regulär. Für jede offene Teilmenge U ⊆ A ist dann die Bildmenge f (U ) offen. Insbesondere ist also f (A) offen. Beweis. Es sei eine offene Teilmenge U ⊆ A gegeben. Wendet man Teil III des Beweises von Satz 26.4 auf f |U an, so folgt, dass jeder Punkt ξ ∈ U eine offene Umgebung U 0 mit U 0 ⊆ U besitzt, deren Bild f (U 0 ) offen ist. Dies zeigt die Offenheit von f (U ). 111111111 000000000 000000000 111111111 000000000 111111111 000000000 111111111 f (ξ) 000000000 111111111 f (U ) f (ξ) 1111111 0000000 0000000 1111111 0000000 1111111 f (U ) 1111111 0000000 0000000 1111111 0000000 1111111 0000000 1111111 0 0 Abbildung 79: Zum Beweis von Korollar 26.8 Korollar 26.5 gibt uns den Anlass, den Begriff der offenen Abbildung einzuführen: Definition 26.6 Es seien X und Y metrische Räume. Eine Abbildung f : X −→ Y heißt eine offene Abbildung, falls für jede offene Teilmenge U in X das Bild f (U ) offen in Y ist. Bemerkung 26.7 Dieser Begriff steht im Kontrast zur Stetigkeit; denn bekanntlich (Satz 10.4) ist eine Abbildung f : X −→ Y genau dann stetig, falls für jede offene Menge V in Y das Urbild f −1 (V ) offen in X ist. Eine wichtige Klasse von offenen Abbildungen bilden die Homöomorphismen: Die Stetigkeit der Umkehrfunktion f −1 einer bijektiven Funktion f : X −→ Y ist äquivalent damit, dass f offen ist. 381 Korollar 26.8 Es sei A eine offene, nicht leere Teilmenge in Rn , die Abbildung f : n A −→ R sei von der Klasse C 1 , und für alle ξ ∈ A sei das Differential Df (ξ) regulär. Dann gilt: (1) (Maximumprinzip) Die reelle Funktion x 7→ ||f (x)|| besitzt nirgends in A ein lokales Maximum. (2) (Minimumprinzip) Wenn die Funktion x 7→ ||f (x)|| in einem Punkt ξ ∈ A ein lokales Minimum hat, dann ist f (ξ) = 0. Beweis. Hätte x 7→ ||f (x)|| in einem Punkt ξ ∈ A ein lokales Maximum, dann gäbe es eine offene Umgebung U von ξ in A, so dass f (U ) in der Kugel B||f (ξ)|| (0) enthalten ist. Dann wäre f (ξ) ∈ f (U ) kein innerer Punkt von f (U ) (vgl. Abbildung 79). Also wäre f (U ) nicht offen, im Widerspruch zu Korollar 26.5. Die Funktion x 7→ ||f (x)|| besitze im Punkt ξ ∈ A ein lokales Minimum. Dann gibt es eine offene Umgebung U von ξ in A mit f (U ) ⊆ {y ∈ Rn : ||y|| ≥ ||f (ξ)||}. Wäre f (ξ) 6= 0, dann wäre also f (ξ) ∈ f (U ) kein innerer Punkt von f (U ). Also wäre f (U ) nicht offen, abermals ein Widerspruch zu Korollar 26.5. Das Offenheitsprinzip und das Maximum-/Minimumprinzip werden uns in der Funktionentheorie erneut begegnen; sie zählen zu den fundamentalen Eigenschaften komplex differenzierbarer Funktionen. Wie wir in Abschnitt 26.1 festgestellt haben, bieten die Polarkoordinaten in der Ebene ein Beispiel zum lokalen Umkehrsatz. Wir diskutieren jetzt Kugelkoordinaten in R3 . Beispiel 26.9 (Kugelkoordinaten) Auf der offenen Menge A = ]0, ∞[ ×R2 in R3 defi3 nieren wir die Funktion Φ : A −→ R durch Φ(r, ϕ, λ) = (r cos ϕ cos λ, r cos ϕ sin λ, r sin ϕ). Wir nennen (r, ϕ, λ) Kugelkoordinaten des Punktes (x, y, z) = Φ(r, ϕ, λ) ∈ R3 , falls Φ im Punkt (r, ϕ, λ) lokal umkehrbar ist. In diesem Fall heißt ϕ die geografische Breite und λ die geografische Länge von (x, y, z). Die anschauliche Bedeutung der Kugelkoordinaten geht aus der Abbildung 80 hervor. Für (x, y, z) = Φ(r, ϕ, λ) ergibt sich aus der Definition von Φ unmittelbar x2 + y 2 + z 2 = r 2 . Also ist r der Abstand des Punktes (x, y, z) ∈ R3 vom Nullpunkt. Anschaulich ist klar, dass jeder nicht auf der z-Achse gelegene Punkt Kugelkoordinaten besitzt. Analytisch ergibt sich 382 z P r z y ϕ x y λ x Abbildung 80: Kugelkoordinaten das folgendermaßen: Die Determinante der Jacobi-Matrix ist cos ϕ cos λ −r sin ϕ cos λ −r cos ϕ sin λ det JΦ (r, ϕ, λ) = det cos ϕ sin λ −r sin ϕ sin λ r cos ϕ cos λ sin ϕ r cos ϕ 0 cos ϕ cos λ − sin ϕ cos λ − sin λ = r2 cos ϕ · det cos ϕ sin λ − sin ϕ sin λ cos λ sin ϕ cos ϕ 0 = r2 cos ϕ · sin2 ϕ · (− cos2 λ − sin2 λ) − cos2 ϕ · (cos2 λ + sin2 λ) = −r2 cos ϕ . Nach Satz 26.4 ist Φ im Punkt (r, ϕ, λ) also genau dann lokal umkehrbar, wenn r2 cos ϕ 6= 0 ist. Das sind genau diejenigen Punkte, deren Bilder nicht auf der z-Achse liegen. Tatsächlich ist Φ auf der (ziemlich großen) offenen Teilmenge U = ]0, ∞[ × ] − π/2, π/2[ × ]0, 2π[ von A injektiv, und deren Bild ist Φ(U ) = {(x, y, z) ∈ R3 | y 6= 0 oder x < 0}. Polarkoordinaten in R2 und Kugelkoordinaten in R3 sind typische Beispiele für lokale Koordinaten. 383 26.3 Der Satz über implizite Funktionen Den Satz über die lokale Umkehrbarkeit (Satz 26.4) können wir als einen Satz über die Lösungen eines Systems von n Gleichungen f1 (x1 , . . . , xn ) = y1 , .. .. . . fn (x1 , . . . , xn ) = yn in n Unbekannten x1 , . . . , xn auffassen. Unter den Voraussetzungen im Satz sind die Lösungen als Funktionen von y1 , . . . , yn eindeutig bestimmt, sofern man nur Lösungen x1 , . . . , xn in kleinen“ Teilmengen des Rn in Betracht zieht und zudem die Werte y1 , . . . , yn nur in ” hinreichend kleinen Mengen variieren lässt; man sagt, dass man das Gleichungssystem lokal eindeutig nach den Variablen y1 , . . . , yn auflösen kann. Schreiben wir das obige Gleichungssystem in der Form f (x) − y = 0 (mit x, y ∈ Rn ), so wird einsichtig, dass darin die Variablen y1 , . . . , yn in einer sehr speziellen Weise auftreten. Stattdessen können wir auch allgemeinere Gleichungssysteme der Form f (x, y) = 0 untersuchen. Beispiel 26.10 Es sei f (x, y) := x2 + y 2 − 1. Die Menge der Lösungen von f (x, y) = 0 ist die Einheitskreislinie S 1 = ∂U1 (0). In jedem Punkt (a, b) ∈ S 1 \ {(±1, 0)} können wir diese Gleichung lokal nach y auflösen, nämlich durch √ √ oder y = − 1 − x2 . y = 1 − x2 In der Umgebung der Punkte (±1, 0) ist dies offensichtlich nicht möglich; y lässt sich hier nicht als Funktion von x schreiben. In diesen Punkten verläuft die Tangente an die Lösungsmenge in y-Richtung, d.h. es ist ∂f (±1, 0) = 0. ∂y Wir betrachten nun Systeme von n Gleichungen f1 (x1 , . . . , xm , y1 , . . . , yn ) = 0, .. .. . . fn (x1 , . . . , xm , y1 , . . . , yn ) = 0 in n Unbekannten y1 , . . . , yn mit den Parametern x1 , . . . , xm . Unter den Voraussetzungen des folgenden Satzes sagt man, dass die Variablen y durch die Gleichungen f (x, y) = 0 lokal als implizite Funktionen der Parameter x festgelegt sind. Notation: Es seien offene Mengen A ⊆ Rm , W ⊆ Rn und eine (total) differenzierbare Abbildung f : A × W −→ Rn gegeben. Die Variablen in A seien mit x = (x1 , . . . , xm ) und diejenigen in W mit y = (y1 , . . . , yn ) bezeichnet. Dann setzen wir ∂f1 ∂f1 ∂f1 ∂f1 . . . . . . ∂x ∂y ∂y ∂x1 n 1 m .. , .. . Dx f (x, y) := ... Dy f (x, y) := ... . . ∂fn ∂x1 ... ∂fn ∂xm ∂fn ∂y1 ... ∂fn ∂yn Es handelt sich dabei also um die Jacobi-Matrizen der Abbildungen x 7→ f (x, y) bzw. y 7→ f (x, y). Sie sind zu unterscheiden vom totalen Differential Df (x, y), welches ja eine lineare Abbildung und keine Matrix ist. 384 Satz 26.11 (Satz über implizite Funktionen) Es seien offene Mengen A ⊆ Rm , n n W ⊆ R und eine Abbildung f : A × W −→ R von der Klasse C r mit r ≥ 1 gegeben. Die Variablen in A seien mit x = (x1 , . . . , xm ) und diejenigen in W mit y = (y1 , . . . , yn ) bezeichnet. Es sei (a, b) ∈ A × W ein Punkt mit f (a, b) = 0 det Dy f (a, b) 6= 0. und Dann ist das Gleichungssystem f (x, y) = 0 lokal um (a, b) eindeutig durch C r -Funktionen nach y auflösbar: Es gibt eine offene Umgebung U von a in A, eine offene Umgebung V von b in W , und es gibt eine Funktion g : U −→ V von der Klasse C r , so dass f (x, g(x)) = 0 für alle x∈U gilt und so dass aus (x, y) ∈ U × V und f (x, y) = 0 stets y = g(x) folgt. Für alle x ∈ U gilt −1 Jg (x) = − Dy f (x, g(x)) · Dx f (x, g(x)). Bemerkung 26.12 (1) Der Satz garantiert also die Existenz einer Funktion g : U −→ V auf einer genügend kleinen Umgebung U von a mit zwei wichtigen Eigenschaften: Erstens sind die sämtlichen Punkte (x, y) des Graphen von g Lösungen der Gleichung f (x, y) = 0 und zweitens erhält man alle in der Umgebung U ×V von (a, b) gelegenen Lösungen dieser Gleichung als Punkte des Graphen von g. y v U ×V U ×f (U ×V ) y=g(x) F v=0 (a,b) (a,0) x x Abbildung 81: Zum Satz über implizite Funktionen Abbildung 81 verdeutlicht (für den Fall m = n = 1) diesen Sachverhalt: Alle in einer geeigneten Umgebung U × V der Lösung (a, b) gelegenen Lösungen der Gleichung f (x, y) = 0 sind die Punkte des Graphen einer Funktion g : U −→ V . Der Graph von g wird durch F : (x, y) 7→ (x, f (x, y)) auf eine Strecke abgebildet, die auf der x-Achse liegt. Die Betrachtung dieser Funktion F wird eine der wesentlichen Ideen im Beweis sein. 385 (2) Die Abbildung 82 zeigt für den Fall m = n = 1 einige der Möglichkeiten, die bei Lösungsmengen von Gleichungen f (x, y) = 0 auftreten können. • In der Nullstelle (a, b) von f mögen beide partiellen Ableitungen von f nicht verschwinden, so dass die Tangente an die Niveaulinie von f in (a, b) weder horizontal noch vertikal ist. In diesem Punkt kann die Gleichung f (x, y) = 0 lokal nach jeder der beiden Variablen aufgelöst werden. Die Figur zeigt eine Umgebung U × V von (a, b), auf der die Gleichung eine Auflösung y = g(x) nach der Variablen y besitzt. (Hingegen ist in U × V keine Auflösung nach x möglich; dies gelingt erst nach entsprechender Verkleinerung von U × V .) P5 P4 P6 P2 P3 P1 1111111111 0000000000 0000000000 1111111111 0000000000 1111111111 0000000000 1111111111 N 0000000000 1111111111 (a,b) U ×V Abbildung 82: Eine Nullstellenmenge • Auf dem schraffierten Gebiet N soll die Funktion f konstant 0 sein. Hier besteht keine Chance zur Auflösung der Gleichung nach einer Variablen; der Satz über implizite Funktionen ist nicht anwendbar. • Im Punkt P1 kann die Gleichung f (x, y) = 0 lokal nach y aufgelöst werden, nicht jedoch nach x. Im Punkt P2 ist es gerade umgekehrt. • In den Punkten P3 , P4 und P5 verzweigen sich die Lösungskurven. Hier ist der Satz über implizite Funktionen nicht anwendbar, die Gleichung kann nach keiner der Variablen lokal aufgelöst werden. Ein spezielles Beispiel hierzu bietet die Funktion f (x, y) := y 2 − x3 im Punkt (0, 0); ihre Nullstellenmenge ist in Abbildung 64 dargestellt. Hier sind die ersten partiellen Ableitungen von f im Nullpunkt nach beiden Variablen gleich 0. • Im Punkt P6 kreuzen sich zwei Lösungskurven transversal. Auch hier ist die Gleichung nach keiner der Variablen lokal auflösbar. Ein konkretes Beispiel hierzu ist die Funktion f (x, y) := y 2 − x2 (x + 1) im Punkt P = (0, 0); es ist ∂f (P ) = ∂f (P ) = 0. Die Nullstellenmenge ist in ∂x ∂y Abbildung 83 zu sehen. Sie ist die Spur des Weges γ(t) := (t2 − 1, t3 − t) aus Beispiel 22.7 (2). Wir kommen am Ende von Abschnitt 28.1 auf dieses Beispiel zurück. 386 Abbildung 83: Die Lösungen von y 2 = x2 (x + 1) (3) Der Satz über die lokale Umkehrbarkeit ist als Spezialfall im Satz über implizite Funktionen enthalten: Es sei F eine C r -Funktion in n Variablen, die die Voraussetzungen im Satz über lokale Umkehrbarkeit (Satz 26.4) erfüllt. Wir wollen die lokale Umkehrbarkeit von F in einem Punkt a nachweisen. Hierzu wenden wir Satz 26.11 mit m = n und f (x, y) := F (x) − y an. Setzt man b := F (a), so ist f (a, b) = 0. Wegen Dx f (x, y) = JF (x) besagt die Invertierbarkeitsvoraussetzung im Satz über lokale Umkehrbarkeit gerade, dass det Dx f (a, b) 6= 0 ist. Mit Satz 26.11 folgt, dass die Gleichung F (x) − y = 0 lokal um (a, b) durch eine C r -Funktion g nach x auflösbar ist (so dass g also die lokale Inverse von F ist) und −1 Jg (y) = − Dx f (g(y), y) · Dy f (g(y), y) = (JF (g(y)))−1 gilt. Dies ist gerade die Behauptung in Satz 26.4. Wir werden anschließend den Satz über lokale Umkehrbarkeit zum Beweis des Satzes über implizite Funktionen verwenden. Man kann (wie beispielsweise in [Heuser 2, S. 292]) auch den umgekehrten Weg gehen, also zuerst den Satz über implizite Funktionen beweisen und daraus den Satz über lokale Umkehrbarkeit als Korollar ableiten. Beweis von Satz 26.11. I. Wir definieren die Funktion F : A × W −→ Rm+n durch F (x, y) := (x, f (x, y)). Sie ist von der Klasse C r . Ihre Jacobi-Matrix ist JF (x, y) = Em 0 ! . Dx f (x, y) Dy f (x, y) Hierin steht 0 für die Nullmatrix aus m Zeilen und n Spalten. Die Determinante im Punkt (a, b) ist det JF (a, b) = det Dy f (a, b) 6= 0. 387 Somit ist Satz 26.4 anwendbar; er liefert die lokale Umkehrbarkeit von F im Punkt (a, b). Dieser Punkt besitzt also eine offene Umgebung, auf der F injektiv ist. Also gibt es auch eine offene Umgebung U von a in A und eine offene Umgebung V von b in W , so dass F auf U × V injektiv ist, F (U × V ) offen ist und so dass die Umkehrfunktion G := (F |U ×V )−1 : F (U × V ) −→ U × V von der Klasse C r ist. Es gilt F (U × V ) ⊆ U × f (U × V ), und wegen F (a, b) = (a, 0) kann man nach etwaiger Verkleinerung von U o.B.d.A. U × {0} ⊆ F (U × V ) annehmen.76 Wir haben folgendes Diagramm von Abbildungen: F U ×V F (U × V ) G @ f @ R @ π2 f (U × V ) Darin bezeichnet π2 : Rm × Rn −→ Rn die Projektionsabbildung π2 (x, y) = y auf die zweite Komponente y. Es gilt π2 ◦ F = f und f ◦ G = π2 ◦ F ◦ G = π2 |F (U ×V ) , d.h. das Abbildungsdiagramm ist kommutativ. Die Aufgabe, die Gleichung f (x, y) = 0 zu lösen, wird durch die Transformation F in die Aufgabe zur Lösung von π2 (x, y) = 0 umgewandelt. Diese Lösung ist offenbar y = 0. Wir definieren deshalb die Funktion g : U −→ V durch (F |U ×V )−1 (x, 0) = G(x, 0) = (x, g(x)) für alle x ∈ U. (Dies ist möglich, da (x, 0) ∈ F (U × V ) für alle x ∈ U und da F und damit auch G den x-Anteil festlassen.) Die Funktion g ist ebenso wie G von der Klasse C r . Für alle x ∈ U ist f (x, g(x)) = (f ◦ G)(x, 0) = π2 (x, 0) = 0. Damit ist die Behauptung f (x, g(x)) = 0 für alle x ∈ U nachgewiesen. Es sei (x, y) ∈ U × V irgendeine Lösung von f (x, y) = 0. Dann folgt F (x, y) = (x, f (x, y)) = (x, 0) und somit (x, y) = G(x, 0) = (x, g(x)), schließlich also y = g(x). Jede in U × V gelegene Lösung ist also ein Punkt des Graphen von g. II. Aus der Identität f (x, g(x)) = 0 folgt für die Jacobi-Matrizen mittels der Kettenregel ! Em 0 = (Dx f Dy f ) (x, g(x)) · = Dx f (x, g(x)) + Dy f (x, g(x)) · Jg (x). Jg (x) Dy f (x, y) ist in allen Punkten (x, y) ∈ U × V regulär. Man kann also nach Jg (x) auflösen. Das liefert die im Satz behauptete Formel. 76 Bei dieser Verkleinerung sollte man sich der Gefahr bewusst sein, dass die Offenheit von F (U × V ) verlorengehen könnte. Dies ist jedoch nicht der Fall, wie z.B. aus dem Offenheitsprinzip (Korollar 26.5) folgt. 388 26.4 Beispiele und Anwendungen Beispiel 26.13 Wir betrachten im Folgenden nur Beispiele mit m = n = 1. (1) Es sei f (x, y) := x − y 3 . (ξ) = 0. Daher ist Satz 26.11 nicht anwendbar. Die Gleichung Im Punkt ξ = (0, 0) ist ∂f ∂y f (x, y) = 0 ist dennoch überall eindeutig nach y auflösbar. Ihre Lösungsmenge ist der √ 3 Graph der Funktion g : x 7→ x; diese ist jedoch im Punkt 0 nicht differenzierbar. (2) Als nächstes betrachten wir die Funktion f (x, y) := (x − y)2 . Die Lösungsmenge von f (x, y) = 0 ist die Winkelhalbierende des ersten und dritten Quadranten; sie ist also der Graph einer Funktion von der Klasse C ∞ . Für alle Lösungen (a, a) gilt jedoch ∂f (a, a) = ∂f (a, a) = 0. Daher ist Satz 26.11 bezüglich keiner der ∂y ∂x beiden Variablen anwendbar. (3) Jetzt sei f (x, y) := x2 + y 2 . Die einzige Lösung der Gleichung f (x, y) = 0 in R2 ist ξ = (0, 0). Daher kann von lokaler Auflösbarkeit keine Rede sein. Passenderweise ist Satz 26.11 nicht anwendbar, (ξ) = ∂f (ξ) = 0. denn es ist ∂f ∂x ∂y (4) Die Gleichung f (x, y) := e2x−y + 3x − 2y − 1 = 0 kann nicht elementar nach x oder y aufgelöst werden. Es gilt jedoch f (0, 0) = 0, und man berechnet ∂f (x, y) = 2e2x−y + 3, ∂x ∂f (x, y) = −e2x−y − 2, ∂y also ∂f (0, 0) = −3 6= 0. ∂y Somit ist Satz 26.11 anwendbar, und die Gleichung lässt sich in einer Umgebung von x = 0 durch eine C ∞ -Funktion g nach y auflösen; genauer: Es existieren offene Intervalle I und J um den Nullpunkt und eine Funktion g : I −→ J von der Klasse C ∞ , so dass die Punkte (x, g(x)) mit x ∈ I die sämtlichen in I×J gelegenen Lösungen der Gleichung f (x, y) = 0 sind. Aus dem Satz folgt noch g 0 (0) = − 5 fx (0, 0) = . fy 3 In Anwendungen der Mathematik sind die Koeffizienten eines Polynoms p oftmals Ergebnisse von Messungen und daher nicht exakt bekannt. Wir können uns z.B. vorstellen, dass die Koeffizienten von einem Parameter s abhängen und stetig differenzierbare Funktionen dieses Parameters sind. Wir hoffen, dass dann auch die Nullstellen von p differenzierbare Funktionen des Parameters sind. Das ist für die Praxis sehr wichtig: Kleine Fehler in den Koeffizienten sollen nur kleine Änderungen der Nullstellen verursachen. Mit dem Satz über implizite Funktionen können wir dieses Prinzip leicht verifizieren. Wir müssen uns jedoch auf einfache Nullstellen beschränken. 389 Satz 26.14 (Polynome mit parameterabhängigen Koeffizienten) N p(s, x) = x + N −1 X Es sei ak (s) · xk , k=0 worin die ak : A −→ R Funktionen auf einer offenen Menge A in Rm von der Klasse C r mit einem r ≥ 1 seien. Für den Punkt s0 ∈ A sei x0 ∈ R eine einfache Nullstelle des Polynoms x 7→ p(s0 , x). Dann gibt es eine offene Umgebung U von s0 in A, ein offenes Intervall I um x0 und eine Funktion g : U −→ I von der Klasse C r mit g(s0 ) = x0 und p(s, g(s)) = 0 für alle s ∈ U. Beweis. Wir wenden Satz 26.11 mit n = 1, f = p, a = s0 , b = x0 und (s, x) anstelle von (x, y) an. Weil x0 eine einfache Nullstelle des Polynoms x 7→ p(s0 , x) ist, gilt ∂p (s0 , x0 ) 6= 0. ∂x Daher ist der Satz über implizite Funktionen tatsächlich anwendbar, und er liefert die Behauptung. Auch im Falle einer mehrfachen Nullstelle von p(s0 , x) hängen die Nullstellen von p(s, x) stetig, aber möglicherweise sehr empfindlich vom Parameter s ab. Zur Illustration möge das Beispiel p(s, x) = x2012 − s dienen: Beim Übergang von s0 = 0 zu s = 2−2012 macht die Nullstelle in x0 = 0 einen großen Sprung“ nach x = 21 . ” In allgemeinerem Rahmen kann man die stetige Abhängigkeit der Nullstellen eines Polynoms von den Koeffizienten in der Funktionentheorie mithilfe des Satzes von Rouché begründen. Abbildung 84: Zum Satz über lokale Umkehrbarkeit (Zeichnung: Jens Jordan) 390 27 Lokale Extrema unter Nebenbedingungen Bei vielen Optimierungsproblemen ist nicht einfach das Extremum einer Funktion gesucht, sondern das Extremum unter zusätzlichen Bedingungen. Beispiel 27.1 Es sei M := (x, y, x2 − y 2 ) | x, y ∈ R der Graph der Funktion (x, y) 7→ x2 − y 2 , welcher bekanntlich ein hyperbolisches Paraboloid ist. Die Frage nach dem Abstand eines Punktes (a, b, c) ∈ R3 \ M zu M läuft darauf hinaus, die Funktion f (x, y, z) := (x − a)2 + (y − b)2 + (z − c)2 unter der Nebenbedingung z = x2 − y 2 zu minimieren. Definition 27.2 Es sei f : A −→ R eine Funktion auf einer offenen Menge A ⊆ Rn , und M sei eine Teilmenge von A. Die Funktion f heißt im Punkt p ∈ M bedingt lokal maximal bezüglich M , falls es eine Umgebung U von p in A gibt, so dass f (x) ≤ f (p) für alle x ∈ M ∩ U gilt. Man sagt dann auch, dass f (x) im Punkt p lokal maximal unter der Nebenbedingung x ∈ M ist. Analog werden bedingte lokale Minima sowie strikte lokale Extremalstellen mit Nebenbedingungen definiert. Falls die Menge M als Lösungsmenge eines Gleichungssystems g(x) = 0 definiert ist, dann spricht man auch von lokalen Extremalstellen unter der Nebenbedingung g(x) = 0. Bei der Frage nach lokalen Extrema unter Nebenbedingungen untersucht man also die Einschränkung der zu maximierenden (bzw. zu minimierenden) Funktion auf die Niveaumenge einer anderen Funktion, welche die Nebenbedingung beschreibt. In manchen Fällen, so auch in Beispiel 27.1, kann man das Problem auf ein Extremalproblem ohne Nebenbedingungen reduzieren, indem man jede Nebenbedingung nach jeweils einer Variable auflöst und in die zu maximierende oder zu minimierende Funktion (die sog. Zielfunktion) einsetzt. Das resultierende Problem kann dann prinzipiell mit den Methoden aus Kapitel 25 angegangen werden. Dies ist freilich nicht immer praktikabel. Zudem versagt in anderen Fällen diese Methode auch grundsätzlich, wenn man nämlich die Nebenbedingungen nicht explizit nach einer Variablen auflösen kann. Eine Methode, auch solche Probleme anzugehen, stellt die Multiplikatorenregel von Lagrange bereit. Motivation: Die Grundidee hinter der Multiplikatorenregel von Lagrange versucht Abbildung 85 für den Fall von Funktionen zweier Variabler zu veranschaulichen: Für ein lokales Extremum von f im Punkt ξ unter der Nebenbedingung g(x, y) = 0 ist es erforderlich, dass die Niveaulinien von f und von g durch ξ die gleiche Richtung haben, dass ihre Tangentenrichtungen also parallel sind (wie in der Skizze im Punkt p). Im Punkt q der Skizze, in dem sich die Niveaulinien von f und von g kreuzen, kann f nicht bedingt lokal extremal sein; denn wenn man längs der Niveaulinie von g durch q hindurchwandert, erreicht man sowohl größere als auch kleinere Niveaus von f . Da gemäß Satz 24.23 unter geeigneten Voraussetzungen die Tangenten an die Niveaulinien jeweils orthogonal zu den Gradienten der betreffenden Funktionen sind, bedeutet dies, dass in einem bedingten lokalen Extremalpunkt ξ die Gradienten grad f und grad g ebenfalls parallel sein müssen. 391 q × p Abbildung 85: Mehrere Niveaulinien von f und (dick gezeichnet) die Niveaulinie von g, die der Nebenbedingung entspricht. Dieser Gedanke lässt sich auf Funktionen von mehr als zwei Variablen und auch auf mehrere Nebenbedingungen verallgemeinern. Satz 27.3 (Multiplikatorenregel von Lagrange) Es sei U ⊆ Rn offen, 1 ≤ m ≤ n−1, m und f : U −→ R und g : U −→ R seien stetig differenzierbare Funktionen. Es sei M = {x ∈ U | g(x) = 0}. Im Punkt p ∈ M habe Dg vollen Rang, es sei also rang Dg(p) = m, und f sei in p bedingt lokal extremal bezüglich M . Dann gibt es reelle Zahlen λ1 , . . . , λm , so dass die Funktion f + λ1 g1 + . . . + λm gm im Punkt p eine kritische Stelle hat, so dass also grad f (p) = − m X λj · grad gj (p). j=1 Die Zahlen λ1 , . . . , λm heißen Lagrange-Multiplikatoren. Beweis. Wir schreiben im Folgenden x = (v, w), p = (a, b) mit a, v ∈ Rm , b, w ∈ Rn−m . Wegen rang Dg(p) = m können wir nach eventueller Umnummerierung der Koordinaten det Dv g(p) 6= 0 annehmen. Deswegen und wegen g(a, b) = 0 gibt es dann nach dem Satz über implizite Funktionen (Satz 26.11) eine offene Umgebung W von b und eine stetig differenzierbare Abbildung ϕ : W −→ Rm , so dass (ϕ(w), w) ∈ U für alle w ∈ W , ϕ(b) = a und g(ϕ(w), w) = 0 392 für alle w ∈ W. Differenziert man diese Beziehung mithilfe der Kettenregel, so erhält man 0 = Dv g(ϕ(w), w) · Jϕ (w) + Dw g(ϕ(w), w) für alle w ∈ W, für w = b also insbesondere 0 = Dv g(p) · Jϕ (b) + Dw g(p). (27.1) Die reellwertige Funktion F : W −→ R, F (w) := f (ϕ(w), w) ist differenzierbar, und wiederum mit der Kettenregel folgt an der Stelle w = b grad F (b) = Dv f (p) · Jϕ (b) + Dw f (p). Aufgrund der Voraussetzung und der Wahl von g besitzt F in b ein lokales Extremum ohne Nebenbedingung. Nach Satz 25.8 ist also grad F (b) = 0, und es folgt 0 = Dv f (p) · Jϕ (b) + Dw f (p). (27.2) Es fällt auf, dass die Gleichungen (27.1) und (27.2) die gleiche Struktur haben. Für die (1 × m)-Matrix −1 L = (λ1 , . . . , λm ) := −Dv f (p) · Dv g(p) ergibt sich nun Dw f (p) + L · Dw g(p) (27.2) = = −1 −Dv f (p) · Jϕ (b) − Dv f (p) · Dv g(p) · Dw g(p) −1 (27.1) −Dv f (p) · Dv g(p) · (Dv g(p) · Jϕ (b) + Dw g(p)) = 0. Zudem gilt nach Definition von L Dv f (p) + L · Dv g(p) = 0. Wegen Jg = (Dv g Dw g) (und einer entsprechenden Beziehung für f ) können wir diese beiden Identitäten zusammenfassen zu Jf (p) + L · Jg (p) = 0. Dies bedeutet aber gerade grad f (p) = − m X λj · grad gj (p). j=1 393 Bei der Anwendung der Lagrange’schen Multiplikatorenregel muss man neben den n linearen Gleichungen für die m Multiplikatoren λj auch die m Gleichungen gj (x) = 0 heranziehen. Es ergibt sich somit folgendes Verfahren zur Bestimmung lokaler Extrema der Funktion f unter den Nebenbedingungen g1 (x) = · · · = gm (x) = 0: Man löse das Gleichungssystem m X ∂gj ∂f (x) + λj (x) = 0 ∂xk ∂xk j=1 (k = 1, . . . , n) g1 (x) = · · · = gm (x) = 0 aus n + m Gleichungen in den n + m Unbekannten x1 , . . . , xn , λ1 , . . . , λm . Die Lösungen sind freilich nur Kandidaten für bedingte lokale Extremalstellen. Ob es sich wirklich um Extremalstellen handelt und von welcher Art sie sind, muss (wie bei dem notwendigen Kriterium aus Satz 25.8) auf andere Weise überprüft werden. Die Lagrange’sche Multiplikatorenregel spielt insbesondere in der Ökonomie eine bedeutende Rolle. Die Multiplikatoren λj werden dort oft als Schattenpreise interpretiert. Beispiel 27.4 Wir suchen das Maximum der Funktion f (x, y, z) := x + y + z auf dem Ellipsoid 2 y2 z2 3 x M = (x, y, z) ∈ R 2 + 2 + 2 = 1 . a b c Darin sind a, b, c > 0 die Halbachsen des Ellipsoids. Weil M kompakt und f stetig ist, existiert das Maximum. Die Nebenbedingung lautet g(x, y, z) := x2 y 2 z 2 + 2 + 2 − 1 = 0. a2 b c In jedem Punkt p = (x, y, z) ∈ M gilt grad g(p) = 2x 2y 2z , , a2 b 2 c 2 6= 0. Die Regularitätsbedingung in der Multiplikatorenregel von Lagrange (Satz 27.3) ist also erfüllt. Aus ihr erhalten wir für eine bedingte lokale Extremalstelle p von f die notwendige Bedingung grad f (p) + λ grad g(p) = 0, also 2λy 2λz 2λx = 1 + = 1 + =0 a2 b2 c2 mit einer reellen Zahl λ. Es folgt λ 6= 0 und x y z 1 = 2 = 2 = α mit α = − , also p = α · (a2 , b2 , c2 ). 2 a b c 2λ Wir setzen p in die Gleichung für M ein und erhalten 1 α2 · (a2 + b2 + c2 ) = 1, also p = ±p0 mit p0 := √ · (a2 , b2 , c2 ). 2 2 2 a +b +c Im Punkt p0 nimmt f das Maximum auf M an. Der Maximalwert ist √ f (p0 ) = a2 + b2 + c2 . 1+ 394 Die Multiplikatorenregel von Lagrange ermöglicht es auch, die in Definition 23.24 eingeführte Operatornorm einer reellen Matrix exakt zu bestimmen: Satz 27.5 Die Operatornorm ||A|| einer reellen (m × n)-Matrix A ist gleich der Quadratwurzel aus dem größten Eigenwert der symmetrischen Matrix AT A. Beweis. Per definitionem ist ||A|| = sup {||Ax|| : x ∈ Rn , ||x|| = 1} . Aus Kompaktheitsgründen handelt es sich bei diesem Supremum sogar um ein Maximum. Das Quadrat ||A||2 der Operatornorm ist also gleich dem Maximum der Funktion f (x) := ||Ax||2 = hAx, Axi = (Ax)T (Ax) = xT AT Ax auf der Einheitssphäre S n−1 , d.h. unter der Nebenbedingung g(x) := ||x||2 − 1 = xT x − 1 = 0. Dieses Maximum werde im Punkt p ∈ S n−1 angenommen, d.h. f (p) = ||A||2 . Nach Aufgabe 5.5 ist grad f (x) = 2xT AT A, grad g(x) = 2xT . Für alle x ∈ S n−1 ist grad g(x) 6= 0, d.h. grad g(x) hat vollen Rang (nämlich 1). Daher ist die Multiplikatorenregel von Lagrange anwendbar. Ihr zufolge gibt es ein λ ∈ R, so dass 0 = grad f (p) − λ · grad g(p) = 2pT AT A − 2λpT . Es folgt pT AT A = λpT , also AT Ap = λp, d.h. λ ist ein Eigenwert von AT A und p(6= 0) ein zugehöriger Eigenvektor. Ist µ ein beliebiger Eigenwert von AT A und q ein zugehöriger Eigenvektor mit ||q|| = 1, so ist f (q) = q T AT Aq = µ · q T q = µ; insbesondere ist ||A||2 = f (p) = λ. Dies zeigt, dass λ der größte Eigenwert von AT A ist. Hieraus folgt die Behauptung. Dieses Resultat beruht darauf, dass wir die Vektorräume Rm und Rn mit der euklidischen Norm ausgestattet haben; es bleibt nicht gültig, wenn man andere Normen verwendet und die zu diesen gehörige Operatornorm betrachtet. Weitere Resultate zu Operatornormen findet man z.B. in [Huppert, § 3 und § 5]. 395 28 28.1 Untermannigfaltigkeiten und Tangentialräume Untermannigfaltigkeiten in Rn Untermannigfaltigkeiten sind die krummlinigen Analoga der affinen Unterräume der linearen Algebra. Sie treten in natürlicher Weise bei der Extremwertbestimmung von Funktionen unter Nebenbedingungen (siehe Kapitel 27) auf und spielen auch in der mehrdimensionalen Integrationstheorie eine wichtige Rolle. Ihre Einführung verdanken wir der Habilitationsschrift von Riemann (1854). Definition 28.1 Eine Abbildung f : U −→ V einer offenen Menge U ⊆ Rn auf eine offene Menge V ⊆ Rn heißt ein Diffeomorphismus, falls f bijektiv ist und sowohl f als auch die Umkehrabbildung f −1 stetig differenzierbar sind77 . Insbesondere ist jeder Diffeomorphismus ein Homöomorphismus. Es sei 1 ≤ k ≤ n − 1. Eine nicht-leere Teilmenge M ⊆ Rn heißt eine k-dimensionale differenzierbare Untermannigfaltigkeit des Rn , falls es zu jedem Punkt ξ ∈ M eine offene Umgebung U von ξ in Rn und einen Diffeomorphismus σ : U −→ σ(U ) auf eine offene Teilmenge σ(U ) ⊆ Rn gibt, so dass σ(U ∩ M ) = σ(U ) ∩ {(x, 0) ∈ Rn | x ∈ Rk } gilt. Jedes solche Paar (U, σ) heißt eine Karte für M , und σ heißt eine Kartenabbildung. Eine Familie (Uj , σj )j∈J von Karten von M heißt ein Atlas von M , falls [ M ⊆ Uj j∈J gilt. Im Fall k = n − 1 nennt man M eine Hyperfläche. Falls (U, σ) und (V, τ ) zwei Karten von M mit U ∩ V 6= ∅ sind, so bezeichnet man die Abbildung σ ◦ (τ |U ∩V )−1 : τ (U ∩ V ) −→ σ(U ∩ V ) als Kartenwechsel. Abbildung 86 veranschaulicht den Begriff der Untermannigfaltigkeit für n = 2, k = 1. In einprägsamer, aber nicht exakter Ausdrucksweise besagt die Definition, dass genügend kleine Teile von M in geeigneten krummlinigen Koordinaten überall wie ein Stück des Rk aussehen. Präziser: Eine Karte σ : U −→ V einer k-dimensionalen differenzierbaren Untermannigfaltigkeit M des Rn induziert einen Homöomorphismus der in M offenen78 Menge n−k M ∩ U auf die in Rk × {0}n−k ∼ . Nach eventueller = Rk offene Menge V ∩ Rk × {0} Verkleinerung von U ist daher M ∩ U homöomorph zu einer offenen Kugel in Rk . Insbesondere besitzt jeder Punkt einer solchen Untermannigfaltigkeit eine Umgebung, die dieselben topologischen Eigenschaften wie offene Kugeln in Rk hat. Mit diesen neuen Begrifflichkeiten können wir den Satz über implizite Funktionen (Satz 26.11) wie folgt umformulieren: 77 Aus Lemma 26.1 geht hervor, dass man sich hier von vornherein auf den Fall beschränken kann, in dem Definitionsbereich U und Zielbereich V die gleiche Dimension haben. 78 Man beachte, dass wir hier die Relativtopologie bzgl. M benutzen, siehe Bemerkung 13.38. In Rn ist M ∩ U i.Allg. nicht offen. 396 Rn−k σ(U ) U ⊆ Rn σ(U ∩M ) σ ξ Rk σ(ξ) M Abbildung 86: Eine eindimensionale Untermannigfaltigkeit des R2 mit Kartenabbildung Korollar 28.2 Es seien offene Mengen A ⊆ Rm , W ⊆ Rn und eine stetig differenzierbare Abbildung f : A × W −→ Rn gegeben. Die Variablen in A seien mit x = (x1 , . . . , xm ) und diejenigen in W mit y = (y1 , . . . , yn ) bezeichnet. Es sei (a, b) ∈ A × W ein Punkt mit f (a, b) = 0 det Dy f (a, b) 6= 0. und Dann gibt es offene Umgebungen U von a und V von b, so dass M = {(x, y) ∈ U × V | f (x, y) = 0} eine m-dimensionale differenzierbare Untermannigfaltigkeit in Rn+m ist. Beweis. Wir wählen U und V wie im Beweis von Satz 26.11, nämlich so, dass die stetig differenzierbare Abbildung F : U × V −→ U × Rn , F (x, y) = (x, f (x, y)) injektiv, F (U × V ) offen und die Umkehrabbildung wieder stetig differenzierbar ist. Es ist dann F ein Diffeomorphismus. Es gilt F (M ) = F (U × V ) ∩ {(x, 0) | x ∈ Rm }. Somit ist M eine m-dimensionale differenzierbare Untermannigfaltigkeit des Rn+m mit (U × V, F ) als alleiniger Karte. Beispiel 28.3 Es sei f (x, y) := y 2 − x2 (x + 1), M := (x, y) ∈ R2 | f (x, y) = 0 . Die Funktion f ist uns bereits am Ende von Bemerkung 26.12 (2) begegnet. Für eine Skizze von M siehe Abbildung 83. In jedem Punkt (a, b) 6= (0, 0) von M ist wenigstens eine der partiellen Ableitungen von f von 0 verschieden, und man kann die Gleichung f (x, y) = 0 lokal nach y oder nach x 397 f = M \ {(0, 0)} eine Umgebung auflösen. Nach Korollar 28.2 besitzt also jeder Punkt von M f ∩ U eine eindimensionale differenzierbare Untermannigfaltigkeit in R2 U ⊆ R2 , so dass M f eine solche Untermannigfaltigkeit. ist, und folglich ist auch M Jedoch ist M selbst keine Untermannigfaltigkeit in R2 , da sich in (0, 0) zwei Zweige“ von ” M kreuzen: Hier sieht M nicht aus wie ein Stück des R1 ! Andererseits ist M die Spur eines stetig differenzierbaren Weges, nämlich von t 7→ (t2 − 1, t(t2 − 1)); anhand dieses Weges hatten wir in Beispiel 22.7 (2) das Phänomen von Doppelpunkten illustriert. Auch wenn ein stetig differenzierbarer Weg im Rn sich nicht selbst überschneidet, braucht seine Spur keine Untermannigfaltigkeit zu sein; dies wird durch Wege wie die Neilsche Parabel γ(t) := (t2 , t3 ) (Beispiel 22.7 (1)) illustriert, die aufgrund mangelnder Regularität in einem Punkt eine Spitze“ haben. Aber selbst die Regularität und Injektivität (d.h. ” Selbstüberschneidungsfreiheit) eines Weges gewährleistet noch nicht, dass seine Spur eine Untermannigfaltigkeit ist: Beispiel 28.4 Der Weg γ : ]0; ∞[−→ R2 sei definiert durch 9π 2 4 für 0 < t ≤ 3π · t, sin 4t γ(t) := 3π 2 < t ≤ 3π (2 + 2 cos t, 1 + 2 sin t) für (0, 3π + 1 − t) für 3π < t • (2, 1) Abbildung 87: Der Weg γ aus Beispiel 28.4 398 3π 2 Man überlegt sich leicht“, dass γ ein injektiver regulärer Weg ist, dass also γ stetig diffe” renzierbar mit γ 0 (t) 6= 0 für alle t ist. Jedoch ist Spur (γ) keine Untermannigfaltigkeit des R2 ; dies wird einsichtig, wenn man kleine Umgebungen der Punkte (0, y) mit −1 ≤ y ≤ 1 betrachtet. 28.2 Der Satz vom regulären Wert und der Immersionssatz Wir sind in Abschnitt 24.6 auf die Frage gestoßen, unter welchen Voraussetzungen die Niveaumengen einer reellwertigen Funktion von zwei Variablen die Spur eines regulären Weges sind und berechtigterweise Niveaulinien“ genannt werden können. Der Satz über implizite ” Funktionen ermöglicht eine Antwort auf eine allgemeinere Frage: Es sei f : A −→ R eine differenzierbare Funktion auf einer offenen Menge A in Rn . Unter welchen Voraussetzungen sind die Niveaumengen f −1 ({c}) Untermannigfaltigkeiten, genauer Hyperflächen in Rn ? Satz 28.5 (Satz vom regulären Wert) Es sei m < n und f : A −→ Rm eine stetig differenzierbare Funktion auf einer offenen, nicht-leeren Teilmenge A des Rn . Es sei c ∈ Rm , und für alle ξ ∈ A mit f (ξ) = c habe Df (ξ) den maximalen Rang m. Dann ist die Niveaumenge f −1 ({c}) = {x ∈ A | f (x) = c} entweder leer oder eine differenzierbare Untermannigfaltigkeit des Rn der Dimension n − m. Beweis. Wir dürfen annehmen, dass f −1 ({c}) nicht leer ist. Es sei ein Punkt ξ ∈ f −1 ({c}) gegeben. Dann ist ξ eine Nullstelle der Funktion g := f − c. Nach Voraussetzung gilt rang Dg(ξ) = rang Df (ξ) = m. Die Jacobi-Matrix Jg (ξ) enthält also m linear unabhängige Spalten. Daher gibt es Indizes 1 ≤ j1 < · · · < jm ≤ n, so dass ∂g1 ∂g1 . . . ∂x ∂xj1 jm . .. .. det . (ξ) 6= 0. ∂gm ∂gm . . . ∂x ∂xj j m 1 Durch geeignete Nummerierung der Koordinaten x1 , . . . , xn in Rn können wir jν = ν, also ∂(g1 , . . . , gm ) det (ξ) 6= 0 ∂(x1 , . . . , xm ) erreichen. Damit ist Korollar 28.2 anwendbar; es folgt die Existenz einer Umgebung W von ξ, so dass M := {x ∈ W | g(x) = 0} = f −1 ({c}) ∩ W eine differenzierbare Untermannigfaltigkeit des Rn der Dimension n − m ist. Damit ist auch f −1 ({c}) selbst eine solche Untermannigfaltigkeit. 399 Ein Wert c wie in Satz 28.5, für den also Df (ξ) in allen Punkten ξ ∈ f −1 ({c}) maximalen Rang hat, bezeichnet man auch als regulären Wert. Dies erklärt den Namen des Satzes. Definition 28.6 Unter den Voraussetzungen in Satz 28.5 heißt die Mannigfaltigkeit f −1 ({c}) im Falle m = 1 eine Niveauhyperfläche und im Falle m = 1, n = 2 eine Niveaulinie der Funktion f . Beispiel 28.7 Wir betrachten die Funktionen f1 (x, y) := x2 + y 2 und f2 (x, y) := xy. Für beide Funktionen ist die Niveaumenge zum Niveau c = 0 keine Untermannigfaltigkeit in R2 , denn f1−1 ({0}) besteht nur aus einem Punkt, und f2−1 ({0}) besteht aus zwei sich schneidenden Geraden. Für c < 0 ist f1−1 ({c}) = ∅. Die Niveaumengen f1−1 ({c}) mit c > 0 und f2−1 ({c}) mit beliebigem c 6= 0 sind Untermannigfaltigkeiten in R2 , nämlich Kreise bzw. Hyperbeln. Diese Beobachtungen stehen im Einklang damit, dass die Gradienten grad f1 (x, y) = (2x, 2y), grad f2 (x, y) = (y, x) genau in den Punkten (x, y) 6= (0, 0) den maximalen Rang haben, der Wert f1 (0, 0) = f2 (0, 0) = 0 also der einzige nicht-reguläre Wert von f1 wie auch von f2 ist. Für differenzierbare Abbildungen f : Rn −→ Rm mit m < n sind die Urbilder f −1 ({c}) von Punkten c ∈ Rm gemäß Satz 28.5 also meistens“ Untermannigfaltigkeiten im Rn der ” Dimension n−m. Wir beweisen nun ein Gegenstück hierzu: Für differenzierbare Abbildungen f : Rk −→ Rn mit k < n sind die Bilder f (U ) von offenen Mengen U ⊆ Rk lokal meistens“ ” Untermannigfaltigkeiten in Rn der Dimension k. Satz 28.8 (Immersionssatz) Es sei k < n und f : A −→ Rn stetig differenzierbar auf einer offenen Menge A ⊆ Rk . Im Punkt ξ ∈ A habe Df (ξ) den vollen Rang k. Dann gibt es eine offene Umgebung U von ξ in A mit den folgenden Eigenschaften: (1) Die Funktion f bildet U homöomorph auf S = f (U ) ab. (2) Es gibt eine offene Menge V ⊆ Rk und eine stetig differenzierbare Funktion ϕ : V −→ Rn−k , so dass bei geeigneter Nummerierung der Koordinaten in Rn S = {(x, ϕ(x)) | x ∈ V } = {(x1 , . . . , xk , ϕk+1 (x), . . . , ϕn (x)) | x = (x1 , . . . , xk ) ∈ V } gilt. (3) Das Bild S = f (U ) ist eine k-dimensionale differenzierbare Untermannigfaltigkeit in Rn . Wir können den Immersionssatz einprägsam, aber etwas ungenau wie folgt aussprechen: Wenn Df (ξ) den Raum Rk bijektiv auf einen k-dimensionalen Teilraum des Rn abbildet, dann bildet f eine Umgebung U von ξ bijektiv auf eine k-dimensionale Untermannigfaltigkeit S in Rn ab. Die Menge U ⊆ A wird also mittels f als Untermannigfaltigkeit S in den Rn eingebettet“ ( immersiert“); das erklärt den Namen des Satzes. ” ” 400 Beweis von Satz 28.8. Wir bezeichnen die Variablen in Rk und Rn mit x = (x1 , . . . , xk ) beziehungsweise mit y = (y1 , . . . , yn ). Die Jacobi-Matrix Jf (ξ) aus n Zeilen und k Spalten hat nach Voraussetzung den Rang k. Sie hat also k linear unabhängige Zeilen, d.h. es gibt eine (k × k)-Untermatrix, deren Determinante nicht 0 ist. Indem wir die Koordinaten in Rn , also die Funktionen f1 , . . . , fn geeignet nummerieren, erreichen wir ∂(f1 , . . . , fk ) (ξ) 6= 0. det ∂(x1 , . . . , xk ) Wir setzen h(x) := (f1 (x), . . . , fk (x)) für x ∈ A. Es ist h = p ◦ f mit der Projektionsabbildung p : Rn −→ Rk , p(u1 , . . . , uk , uk+1 , . . . , un ) = (u1 , . . . , uk ). Die Funktion h ist ebenso wie f stetig differenzierbar. Es gilt ∂(f1 , . . . , fk ) (ξ) 6= 0. det Jh (ξ) = det ∂(x1 , . . . , xk ) Somit erfüllt h im Punkt ξ die Voraussetzungen des Satzes über lokale Umkehrbarkeit (Satz 26.4). Danach gibt es eine offene Umgebung U von ξ in A mit den folgenden Eigenschaften: Das Bild V = h(U ) ist offen in Rk , h ist injektiv auf U , Dh ist in jedem Punkt von U regulär, und die Umkehrabbildung g = (h|U )−1 : V −→ U ist stetig differenzierbar. Wir setzen S := f (U ) und erhalten das folgende Diagramm von Abbildungen: f |U U S = f (U ) - I g @@ @ h|U@@ R@ p|S V Nach Definition von h und g gilt p ◦ f ◦ g = h ◦ g = idV und g ◦ p ◦ f |U = g ◦ h|U = idU . Das Abbildungsdiagramm ist also kommutativ. Die zweite Formel zeigt, dass nicht nur h|U , sondern auch f |U injektiv ist, und dass (f |U )−1 = g ◦ p|S gilt. Demnach ist (f |U )−1 stetig, und damit ist (1) bewiesen. (Wegen k < n ist der Definitionsbereich S dieser Funktion nicht offen in Rn , und daher wäre es nicht sinnvoll, von Differenzierbarkeit zu reden.) Weil p die ersten k Koordinaten fest lässt und p ◦f ◦g = idV gilt, sind die ersten k Koordinaten von (f ◦ g)(x) identisch mit x. Für x = (x1 , . . . , xk ) ∈ V gilt also (f ◦ g)(x1 , . . . , xk ) = (x1 , . . . , xk , ϕk+1 (x1 , . . . , xk ), . . . , ϕn (x1 , . . . , xk )) 401 mit gewissen Funktionen ϕj : V −→ R. Diese Funktionen sind stetig differenzierbar, weil das für f und g zutrifft. Mit ϕ := (ϕk+1 , . . . , ϕn ) gilt also S = f (U ) = (f ◦ g ◦ h)(U ) = (f ◦ g)(V ) = {(x, ϕ(x)) | x ∈ V } . Dies zeigt die Behauptung (2). e := V × Rn−k definieren wir Auf der offenen Menge U e −→ Rn , σ:U σ(x, z) := (x, z − ϕ(x)) für x ∈ V, z ∈ Rn−k . Dann ist σ offensichtlich injektiv, und aus Jσ (x, z) = Ek 0 −Jϕ (x) En−k e . Gemäß Korollar 26.5 und Satz 26.4 folgt die Regularität von Dσ(x, z) für alle (x, z) ∈ U e ) offen und σ −1 stetig differenzierbar. Also ist σ ein Diffeomorphismus. Weiter ist daher σ(U e und folgt S ⊆ U e ∩ S) = σ(S) = {(x, 0) | x ∈ V }. σ(U e , σ) eine Karte für S. Damit ist (3) bewiesen. Demnach ist (U Beispiel 28.9 (1) Ist k = 1 und A = I ein offenes Intervall sowie f : I −→ Rn ein regulärer Weg in Rn im Sinne von Definition 22.6, d.h. f 0 (t) = (f10 (t), . . . , fn0 (t))T 6= (0, . . . , 0) für alle t ∈ I, so gibt es gemäß Satz 28.8 für alle t0 ∈ I ein δ > 0, so dass das Bild f ( ]t0 − δ, t0 + δ[ ) eine eindimensionale Untermannigfaltigkeit in Rn ist. Dennoch braucht f (I) selbst keine Untermannigfaltigkeit in Rn zu sein: Es können Selbstüberkreuzungen auftreten, siehe Beispiel 28.3. (2) Wir definieren f : R2 −→ R3 durch f (θ, λ) := (sin θ, cos θ sin λ, cos θ cos λ). Das Bild f (R2 ) = S 2 ist die Einheitssphäre. Offenbar ist f nicht injektiv. Im Punkt ξ = (0, 0) ist f (ξ) = (0, 0, 1). Man berechnet cos θ 0 1 0 Jf (θ, λ) = − sin θ sin λ cos θ cos λ , also Jf (ξ) = 0 1 . 0 0 − sin θ cos λ − cos θ sin λ Im Punkt ξ ist also die Rangbedingung von Satz 28.8 erfüllt. Für eine geeignete offene Umgebung U von ξ ist demnach das Bild S = f (U ) gleich dem Graphen einer Funktion ϕ : V −→ R. In diesem Beispiel können wir ϕ explizit angeben: Es ist p p und f (U ) = {(x, y, 1 − x2 − y 2 ) | (x, y) ∈ V } ϕ(x, y) = 1 − x2 − y 2 für geeignete Umgebungen U und V von (0, 0) in R2 . 402 z S = f (U ) λ U f θ y V x Abbildung 88: Die Einheitssphäre S 2 als Untermannigfaltigkeit (Beispiel 28.9 (2)) 28.3 Tangentialebenen an Untermannigfaltigkeiten Aus Definition 22.4 ist der Begriff des Tangentialvektors an einen Weg im Rn bekannt. Wir wollen jetzt erklären, was eine Tangentialebene in einem Punkt p einer Untermannigfaltigkeit M in Rn ist. Wir betrachten dazu Wege durch den Punkt p, die in M verlaufen. Diese besitzen Tangentialvektoren, welche die Tangentialebene aufspannen. γ2 v2 p γ1 v1 M Abbildung 89: Tangentialvektoren Definition 28.10 Es sei k < n, und M sei eine k-dimensionale differenzierbare Untermannigfaltigkeit in Rn . Ein Vektor v ∈ Rn heißt ein Tangentialvektor an M im Punkt p ∈ M , falls es einen stetig differenzierbaren Weg γ : ] − ε, ε[ −→ M mit γ(0) = p und γ 0 (0) = v gibt. Die Gesamtheit aller Tangentialvektoren an M in p heißt Tangentialraum von M im Punkt p; er wird mit Tp M bezeichnet. In Satz 28.11 wird gezeigt, dass Tp M ein k-dimensionaler Untervektorraum des Rn ist. Diesen denken wir uns im Punkt p angeheftet“; wir bilden also den k-dimensionalen affinen Raum ” Ep (M ) := p + Tp M = {p + v | v ∈ Tp M }. Wir nennen Ep (M ) die Tangentialebene an M im Punkt p. 403 Satz 28.11 Ist M eine k-dimensionale differenzierbare Untermannigfaltigkeit in Rn und p ∈ M , so ist der Tangentialraum Tp M ein k-dimensionaler Untervektorraum des Rn . Beweis. Wir betrachten zunächst den Prototypen einer k-dimensionalen Untermannigfaltigkeit des Rn , nämlich den Untervektorraum M = Rk × {0}n−k . Ist v ∈ Tp M , so ist v = γ 0 (0) für einen stetig differenzierbaren Weg γ : ] − ε, ε[ −→ M mit γ(0) = p. Wegen γk+1 (t) = · · · = γn (t) = 0 für alle t ist auch 0 γk+1 (0) = · · · = γn0 (0) = 0, d.h. v ∈ Rk × {0}n−k . Ist umgekehrt ein v ∈ Rk × {0}n−k gegeben, so ist v der Tangentialvektor des in M verlaufenden Weges γ(t) := p + tv an der Stelle t = 0. Dies zeigt Tp M = M im Falle M = Rk × {0}n−k . Der allgemeine Fall einer beliebigen Untermannigfaltigkeit M ergibt sich mithilfe einer Karte (U, ϕ) von M zum Punkt p; es sei also U eine offene Umgebung von p in Rn , ϕ : U −→ ϕ(U ) sei ein Diffeomorphismus, und es sei ϕ(U ∩ M ) = ϕ(U ) ∩ Rk × {0}n−k . Rn−k p γ ϕ Γ v X U ∩M ϕ(U ∩ M ) M Abbildung 90: Zum Beweis von Satz 28.11 Es sei v ∈ Tp M . Dann gibt es einen Weg γ : ] − ε, ε[ −→ M durch den Punkt γ(0) = p mit v = γ 0 (0). O.B.d.A. dürfen wir Spur (γ) ⊆ U annehmen. Dann ist die Komposition Γ := ϕ◦γ wohldefiniert; sie ist ein Weg in Rk × {0}n−k durch den Punkt Γ(0) = ϕ(p). Daher ist Γ0 (0) ∈ Tϕ(p) Rk × {0}n−k , und nach der Kettenregel ist Γ0 (0) = (ϕ ◦ γ)0 (0) = Jϕ (γ(0)) · γ 0 (0) = Jϕ (p) · v. n−k k Ist umgekehrt X ∈ Tϕ(p) R × {0} , also X = Γ0 (0) für einen Weg Γ : ] − ε, ε[ −→ Rk × {0}n−k durch Γ(0) = ϕ(p), so gibt es ein δ > 0, so dass Γ(t) ∈ ϕ(U ) für alle t ∈ ] − δ; δ[ gilt. Durch γ := ϕ−1 ◦ Γ|]−δ;δ[ 404 ist dann ein Weg in M durch γ(0) = p definiert, und es folgt γ 0 (0) ∈ Tp M und X = Γ0 (0) = Jϕ (p) · γ 0 (0) ∈ Jϕ (p) (Tp M ). Damit und mit dem eingangs Gezeigten ergibt sich n−k k Jϕ (p) (Tp M ) = Tϕ(p) R × {0} = Rk × {0}n−k . Da ϕ ein Diffeomorphismus ist, ist Jϕ (p) invertierbar (Satz über lokale Umkehrbarkeit!). Also ist Tp M = Jϕ (p)−1 Rk × {0}n−k . Als Bild von Rk × {0}n−k unter der injektiven linearen Abbildung (Dϕ(p))−1 ist damit auch Tp M ein k-dimensionaler Unterraum des Rn . Der Satz vom regulären Wert und der Immersionssatz stellen zwei wichtige Methoden zur Konstruktion von Untermannigfaltigkeiten dar. In beiden Fällen können wir die Tangentialräume mehr oder minder explizit bestimmen. Dies ist der Inhalt der beiden folgenden Sätze. Satz 28.12 Es sei k < n und f : A −→ Rn eine stetig differenzierbare Funktion auf einer offenen Menge A ⊆ Rk . Es sei ξ ∈ A, Df (ξ) habe den maximalen Rang k, und es sei eine Umgebung U ⊆ A von ξ so gewählt79 , dass S = f (U ) eine k-dimensionale Untermannigfaltigkeit im Rn ist. Dann wird der Tangentialraum an S im Punkt p = f (ξ) von den Spaltenvektoren der Jacobi-Matrix Jf (ξ) von f in ξ aufgespannt, d.h. es ist Tp S = Jf (ξ) (Rk ). Beweis. Es sei ein j ∈ {1, . . . , k} gegeben. Wegen der Offenheit von U gibt es ein ε > 0 mit {ξ + tej | − ε < t < ε} ⊆ U. Wir können also einen Weg ϕ : ] − ε; ε[−→ U durch ϕ(t) := ξ + tej für − ε < t < ε definieren. Es sei γ := f ◦ ϕ. Dann ist γ : ] − ε; ε[−→ S ein Weg in S mit γ(0) = f (ϕ(0)) = f (ξ) = p. Folglich ist γ 0 (0) = Jf (ϕ(0)) · ϕ0 (0) = Jf (ξ) · ej ein Tangentialvektor an S in p, d. h. Jf (ξ) · ej ∈ Tp S. Da dies für alle j = 1, . . . , k gilt und Tp S nach Satz 28.11 ein Vektorraum ist, ist damit Jf (ξ)(Rk ) = hh Jf (ξ) · e1 , . . . , Jf (ξ) · ek ii ⊆ Tp S gezeigt80 . Wiederum nach Satz 28.11 ist dim Tp S = k = rang Jf (ξ), Jf (ξ)(Rk ) und Tp S haben also gleiche Dimension. Daher ist sogar Jf (ξ)(Rk ) = Tp S. 79 Eine solche Umgebung existiert nach dem Immersionssatz. Hierbei bezeichnet hh M ii die lineare Hülle (das Erzeugnis) einer Teilmenge M eines Vektorraums V , d.h. die Menge aller (endlichen) Linearkombinationen von Elementen von M . Es handelt sich dabei um den kleinsten Untervektorraum von V , der M enthält. 80 405 Satz 28.13 Es sei m < n und f : A −→ Rm eine stetig differenzierbare Funktion auf einer offenen, nicht-leeren Teilmenge A des Rn . Es sei c ∈ Rm , und für alle ξ ∈ A mit f (ξ) = c habe Df (ξ) den maximalen Rang m. Es sei M = {x ∈ A | f (x) = c} = f −1 ({c}) und p ∈ M . Dann gilt Tp M = Kern Df (p) = {v ∈ Rn | hgrad fk (p) , vi = 0 für alle k = 1, . . . , m}. Der Tangentialraum Tp M besteht hier also aus sämtlichen Vektoren v, die zu allen Gradienten grad fk (p) orthogonal sind. Das verallgemeinert die Beobachtung aus Satz 24.23 über Tangentialvektoren an in Niveaumengen von Funktionen verlaufende Wege. Beweis. Aufgabe 9.1 Falls M eine Hyperfläche ist, gibt es durch jeden Punkt p ∈ M genau eine Gerade, die orthogonal zu M ist: Definition 28.14 Es sei M eine Hyperfläche in Rn . Nach Satz 28.11 ist dann für jedes p ∈ M der Tangentialraum Tp M ein (n − 1)-dimensionaler Teilvektorraum in Rn , und der dazu orthogonale Raum Np M = {X ∈ Rn | hX, vi = 0 für alle v ∈ Tp M } hat die Dimension 1. Die Gerade Np (M ) = p + Np M = {p + X | X ∈ Rn , hX, vi = 0 für alle v ∈ Tp M } heißt die Flächennormale von M im Punkt p. Np (M ) p Abbildung 91: Eine Flächennormale Wenn M wie im Satz vom regulären Wert lokal durch eine Gleichung f (x) = c definiert ist, dann können wir die Flächennormale leicht angeben: 406 Satz 28.15 Es sei M eine Hyperfläche in Rn . Im Punkt p ∈ M sei M lokal durch eine Gleichung f (x) = c definiert, wobei c ein regulärer Wert von f sei. Dann gibt der Vektor grad f (p) die Richtung der Flächennormalen von M im Punkt p an. Auch dieser Sachverhalt ist im Kern aus Satz 24.23 bekannt. Beweis. Die Voraussetzung besagt ausführlich, dass es eine offene Umgebung U von p in Rn und eine stetig differenzierbare Funktion f : U −→ R gibt, so dass M ∩ U = {x ∈ U | f (x) = c} ist und grad f (x) 6= 0 für alle x ∈ U ist. Aus Satz 28.13 folgt Tp M = Kern Df (p) = {X ∈ Rn | hX , grad f (p)i = 0}. Dies zeigt grad f (p) ∈ Np M . Weil der Vektorraum Np M eindimensional ist, wird er sogar von grad f (p) aufgespannt. Dies zeigt die Behauptung. Beispiel 28.16 Sphäre Wir bestimmen den Tangentialraum und die Flächennormale an die M := S n−1 = {x ∈ Rn | f (x) = 1} mit f (x) = x21 + . . . + x2n . Es ist grad f (x) = (2x1 , . . . , 2xn ) = 2x 6= 0 für alle x ∈ M. Für alle p ∈ M ist daher gemäß Satz 28.13 Tp M = {v ∈ Rn | hv, pi = 0} , und aus Satz 28.15 erhalten wir die Flächennormale Np (M ) = {t · p | t ∈ R}. Bemerkung 28.17 Licht: Die Multiplikatorenregel von Lagrange erscheint nun in einem neuen Wie in Satz 27.3 sei U ⊆ Rn offen, 1 ≤ m ≤ n − 1, und f : U −→ R und g : U −→ Rm seien stetig differenzierbare Funktionen. Es sei M = {x ∈ U | g(x) = 0}. Für ein p ∈ M habe Dg(p) den vollen Rang m und f sei in p bedingt lokal extremal bezüglich M. Nach etwaiger Verkleinerung von U (so dass Dg(q) für alle q ∈ U vollen Rang hat) können wir gemäß Satz 28.5 o.B.d.A. annehmen, dass M eine Untermannigfaltigkeit des Rn der Dimension n − m ist. Ist γ ein stetig differenzierbarer Weg in M durch γ(0) = p, so ist f ◦ γ lokal extremal in t = 0, es ist also 0 = (f ◦ γ)0 (0) = hgrad f (p), γ 0 (0)i. 407 Daher steht grad f (p) senkrecht auf dem Tangentialraum Tp M . Dieser ist nach Satz 28.13 das orthogonale Komplement des Unterraums W := hhgrad g1 (p), . . . , grad gm (p)ii. Es ist also grad f (p) ∈ Tp M ⊥ = W ⊥⊥ = W. (Für die Gleichheit von W und W ⊥⊥ ist die endliche Dimension des Rn wesentlich!) Also ist grad f (p) eine Linearkombination von grad g1 (p), . . . , grad gm (p). Dies ist gerade die Aussage der Lagrangeschen Multiplikatorenregel. 28.4 Ausblick: Der Begriff der Mannigfaltigkeit Der abstrakte Begriff der Mannigfaltigkeit ist für viele Anwendungen der Mathematik, namentlich in der neueren theoretischen Physik, unverzichtbar. Wir lösen uns von der Vorstellung, dass eine Mannigfaltigkeit M eine Teilmenge irgend eines Raumes Rn sein soll. Wir verzichten also auf eine Einbettung“ M ⊆ Rn . Vielmehr soll M nur überall lokal wie ein ” Stück des Rm aussehen. Diese Forderung wird folgendermaßen präzisiert: Definition 28.18 Es sei m ∈ N und r ∈ N0 oder r = ∞. Eine m-dimensionale Mannigfaltigkeit der Klasse C r ist ein Paar (M, A) mit den folgenden Eigenschaften: (M1) Die Menge M trägt die Struktur T eines topologischen Raumes mit der Hausdorffschen Trennungseigenschaft (d.h. für alle paarweise verschiedenen u, v ∈ M gibt es offene Mengen U, V ∈ T mit u ∈ U , v ∈ V und U ∩ V = ∅). (M2) Die Familie A = ((Uj , σj ))j∈I ist ein Atlas auf M . Damit ist gemeint, dass jedes Uj eine offene Teilmenge in M (also Uj ∈ T ) ist, dass [ M= Uj j∈I gilt, und dass σj : Uj −→ Rm ein Homöomorphismus von Uj auf eine offene Teilmenge σj (Uj ) in Rm ist. Die Paare (Uj , σj ) heißen Karten von M . (M3) Falls für zwei Indizes j, k ∈ I der Durchschnitt Uj ∩ Uk 6= ∅ ist, dann ist die Abbildung σk ◦ σj−1 : σj (Uj ∩ Uk ) −→ σk (Uj ∩ Uk ) zwischen offenen Teilmengen in Rm eine Abbildung von der Klasse C r . Die Abbildungen τkj = σk ◦ σj−1 heißen Kartenwechsel. Einige Erläuterungen zur Definition erscheinen nötig. Die Situation in der Forderung (M3) kann man sich wie in Abbildung 92 vorstellen. Gemäß (M2) und (M3) sind die Kartenabbildungen σj : Uj −→ σj (Uj ) Homöomorphismen und die Kartenwechsel sogar Diffeomorphismen. Im Falle r = 0 wird in (M3) nur verlangt, dass alle Kartenwechsel stetig sind. Das folgt aber bereits aus (M2). Für r = 0 kann also die Forderung (M3) weggelassen werden. 408 Uj 11111111 00000000 00000000 11111111 00000000 11111111 00000000 11111111 00000000 11111111 00000000 11111111 00000000 11111111 M σj Rm 111111 000000 000000 111111 000000 111111 000000 111111 000000 111111 Uk σk σk ◦ σj−1 1111111 0000000 0000000 1111111 0000000 1111111 0000000 1111111 0000000 1111111 Abbildung 92: Kartenwechsel Strenggenommen müsste man die Kartenwechsel eigentlich in der Form τkj = σk ◦(σj |Uj ∩Uk )−1 schreiben. In der Praxis vermeidet man derartig pedantische Schreibweisen jedoch. Bei vielen Untersuchungen ist es zweckmäßig und üblich, von einer Mannigfaltigkeit M zusätzlich zu verlangen, dass der topologische Raum M zusammenhängend ist, d.h. dass es keine nichttriviale disjunkte Zerlegung von M in zwei offene Teilmengen gibt. Ein berühmtes Problem im Zusammenhang mit Mannigfaltigkeiten (eines der MillenniumProbleme) war die Poincaré-Vermutung: Jede kompakte dreidimensionale Mannigfaltigkeit M mit der Eigenschaft, dass sich jeder geschlossene Weg in M stetig zu einem Punkt deformieren lässt, ist homöomorph zu S 3 . Sie wurde 2003 von dem russischen Mathematiker G. Perelman bewiesen. 409 Teil V Die Lebesguesche Integrationstheorie In den folgenden Abschnitten wird eine Integrationstheorie für reellwertige Funktionen von mehreren Variablen entwickelt. Die Theorie leistet auch im Falle einer Variablen deutlich mehr als die Riemannsche Integrationstheorie. Das Riemannsche Integral ist für die meisten praktischen Bedürfnisse völlig ausreichend, und es hat den unschätzbaren Vorzug einfacher Definitionen und leichter Verständlichkeit. Einige theoretische Nachteile führten aber zu Bemühungen, bessere Integrationstheorien zu entwickeln: 1. Der vielleicht gravierendste Nachteil des Riemannschen Integrals liegt in den eingeschränkten Möglichkeiten der Vertauschung mit Grenzübergängen. In Satz 19.2 wird die gleichmäßige Konvergenz der zu integrierenden Folge oder Reihe vorausgesetzt. Diese Voraussetzung ist oft nicht erfüllt, obwohl die Vertauschung sinnvoll und richtig erscheint. Die Lebesgue-Theorie stellt wesentlich leistungsfähigere Vertauschungssätze zur Verfügung; wir werden diese in Kapitel 30.4 behandeln. 2. Die Riemannsche Integrationstheorie erfasst zunächst nur beschränkte Funktionen auf kompakten Intervallen. Dieser Einschränkungen entledigt man sich erst nachträglich“ ” durch die Einführung von uneigentlichen Integralen. Hierfür haben wir jedoch keinen Satz über die Vertauschung mit Grenzübergängen kennengelernt. In der Lebesgueschen Theorie wird von vornherein auf die Beschränktheit der Funktionen und ihrer Definitionsbereiche verzichtet. Alle Vertauschungssätze in Kapitel 30.4 kommen ohne derartige Voraussetzungen aus. 3. Die Riemann-integrierbaren Funktionen auf einem Intervall [a, b] bilden einen Vektorraum, und auf diesem Vektorraum ist durch Z ||f ||1 = b |f (x)|dx a eine Norm gegeben. Das ist recht erfreulich. Weniger schön ist es, dass dieser Vektorraum nicht vollständig bezüglich der Norm ist. (Wir erinnern uns an die rationalen Zahlen, die nicht vollständig bezüglich der euklidischen Metrik sind.) Die Lebesguesche Integrationstheorie behebt auch diesen Nachteil. Wir werden in Kapitel 32 den Raum der integrierbaren Funktionen mit der Norm ||.||1 und einige andere normierte Räume von Funktionen behandeln und zeigen, dass diese vollständig sind. Henri Lebesgue (1875 – 1941) hat seine Integrationstheorie 1902 begründet. In den folgenden beiden Jahrzehnten wurde die Theorie von mehreren Mathematikern weiter ausgebaut, neben Lebesgue selber insbesondere von B. Levi (1875 – 1961) und G. Fubini (1879 – 1943). Die stärkere Integrationstheorie ist nicht umsonst zu erhalten. Man bezahlt“ mit einem ” höheren Aufwand bei den Definitionen und den Beweisen. Die Lehrbücher der Analysis bieten unterschiedliche Zugänge zur Lebesgueschen Integrationstheorie. Der im Folgenden gewählte Zugang entspricht weitgehend dem in [Köhler]; allerdings wird aus Zeitgründen statt allgemeiner Maße nur das gewöhnliche Volumenmaß betrachtet. 410 Ein wichtiges Problem im Hinblick auf den Hauptsatz der Differential- und Integralrechnung ist die Integration der Ableitung differenzierbarer Funktionen. Im Jahr 1881 fand V. Volterra (1860 – 1940) eine differenzierbare Funktion f : [0, 1] −→ R, deren Ableitung f 0 zwar beschränkt, aber auf keinem echten Teilintervall von [0, 1] Riemann-integrierbar ist. Dieses Beispiel war für Lebesgue eine der Triebfedern zur Entwicklung einer besseren Integrationstheorie. In seiner Theorie ist die Ableitung f 0 einer differenzierbaren Funktion f integrierbar, falls f 0 beschränkt ist, und es gilt dann die Formel Z b f 0 (x) dx = f (b) − f (a) a des Hauptsatzes (Satz 30.33). Dennoch erfüllt das Lebesguesche Integral nicht alle Wünsche, die man an eine Integrationstheorie stellen könnte. Zum Beispiel gibt es differenzierbare Funktionen f von einer Variablen, deren Ableitung f 0 nicht Lebesgue-integrierbar ist. Das aus Beispiel 21.7 bekannte konvergente uneigentliche Integral Z ∞ sin x dx x 0 existiert in der Lebesgueschen Theorie nicht, weil nach Satz 30.11 für jede integrierbare Funktion auch ihr Betrag integrierbar ist und weil der Betrag von sinx x auf [0, ∞[ nicht integrierbar ist. Wir betrachten im Folgenden stets Funktionen auf mehrdimensionalen Definitionsbereichen. Diese Erweiterung des Definitionsbereichs ist jedoch nicht der Grund für den Übergang vom Riemann- zum Lebesgue-Integral: Auch im Rahmen der Riemannschen Integrationstheorie ist es problemlos möglich, Integrale von Funktionen mehrerer Veränderlicher zu definieren, und umgekehrt hat das Lebesgue-Integral auch im eindimensionalen Fall die oben erläuterten wichtigen Vorzüge gegenüber dem Riemann-Integral. Freilich bringt die Ausweitung ins Mehrdimensionale einigen zusätzlichen Aufwand mit sich, und zwar erstaunlicherweise bereits auf der untersten Stufe des Aufbaus der Theorie: beim Umgang mit Treppenfunktionen. 411 29 Quader, Nullmengen und Treppenfunktionen Das Riemann-Integral hatten wir durch einen Grenzprozess aus den Integralen von approximierenden Treppenfunktionen gewonnen. Auch beim Aufbau der Lebesgue-Theorie spielen Treppenfunktionen eine wichtige Rolle. Wir beginnen mit der Betrachtung von Quadern als den mehrdimensionalen Analoga von Intervallen. 29.1 Quader Definition 29.1 Eine Teilmenge Q in Rn heißt ein Quader, falls Q = I1 × . . . × In mit beschränkten Intervallen I1 , . . . , In ist; ein Punkt x = (x1 , . . . , xn ) ∈ Rn soll also genau dann zu Q gehören, wenn xν ∈ Iν für alle ν = 1, . . . , n ist. Ein Quader Q = I1 × . . . × In heißt ein ausgearteter Quader, falls wenigstens eines der Intervalle Iν ausgeartet ist (d.h. leer ist oder nur aus einem einzigen Punkt besteht). Die Menge aller Quader in Rn bezeichnen wir mit Qn . Bemerkung 29.2 (1) Quader im Sinne der obigen Definition sind also stets achsenparallel. (2) Ein Quader Q = I1 × . . . × In ist genau dann eine abgeschlossene Teilmenge in Rn , wenn entweder Q = ∅ ist oder Q 6= ∅ und alle Iν abgeschlossen sind. Wegen der Beschränktheit ist dann Q sogar kompakt, und im zweiten Fall sind alle Iν = [aν , bν ] kompakte Intervalle (mit reellen Zahlen aν ≤ bν ). (3) Ein Quader Q = I1 ×. . .×In ist genau dann eine offene Teilmenge in Rn , wenn entweder Q = ∅ ist oder Q 6= ∅ und alle Iν beschränkte echte offene Intervalle, also von der Form Iν = ]aν , bν [ mit reellen Zahlen aν < bν sind. (4) Es seien Q = I1 × . . . × In und Q0 = I10 × . . . × In0 zwei Quader. Dann ist auch der Durchschnitt Q ∩ Q0 = (I1 ∩ I10 ) × . . . × (In ∩ In0 ) ein Quader (vgl. Abbildung 93). (Diese Feststellung wäre nicht ausnahmslos gültig, wenn ausgeartete Quader von der Betrachtung ausgeschlossen worden wären.) (5) Wenn Q ein Quader in Rn und Q0 ein Quader in Rm ist, dann ist Q × Q0 ein Quader in Rn+m . Die Beschränktheit von Quadern ermöglicht die Definition des gewöhnlichen Volumens: Definition 29.3 Es sei Q = I1 × . . . × In ein Quader mit Intervallen Iν 6= ∅. Es seien aν = inf Iν der Anfangspunkt und bν = sup Iν der Endpunkt von Iν . Dann heißt vn (Q) := (b1 − a1 ) · . . . · (bn − an ) das Volumen von Q. Ergänzend wird vn (∅) := 0 gesetzt. 412 111111 000000 000000 111111 000000 111111 000000 111111 Abbildung 93: Durchschnitt von Quadern Bemerkung 29.4 e Quader in Rn . Aus der Definition des Volumens folgt unmittelbar (1) Es seien Q und Q e vn (Q) ≤ vn (Q), falls e Q ⊆ Q. Das Volumen vn ist also monoton. (2) Der Quader Q = I1 × . . . × In ⊆ Rn sei disjunkt in zwei Teilquader Q0 und Q00 zerlegt, also Q = Q0 ∪ Q00 und Q0 ∩ Q00 = ∅. Eine solche Zerlegung von Q entsteht, wenn für ein k das Intervall Ik disjunkt in Teilintervalle Ik0 und Ik00 zerlegt und Iν0 = Iν00 = Iν für alle ν 6= k sowie Q0 = I10 × . . . × In0 , Q00 = I100 × . . . × In00 gesetzt wird. Das Distributivgesetz des Rechnens mit reellen Zahlen ergibt dann vn (Q) = vn (Q0 ) + vn (Q00 ) für Q = Q0 ∪ Q00 , Q0 ∩ Q00 = ∅. Das Volumen vn ist also additiv. (3) Für das Volumen eines Quaders Q = I1 × . . . × In spielt es keine Rolle, ob die Intervalle Iν offen, abgeschlossen oder halboffen sind. Es gilt vn (Q◦ ) = vn (Q) = vn (Q). (4) Zu jedem ε > 0 und zu jedem Quader Q ∈ Qn gibt es einen offenen Quader Q0 ∈ Qn mit Q ⊆ Q0 und vn (Q0 ) ≤ vn (Q) + ε. Dies folgt aus der Stetigkeit von vn (Q) als Funktion von 2n Variablen, den Anfangsund Endpunkten der Intervalle Ik in Q = I1 × · · · × In . Diese Eigenschaft des Volumens bezeichnet man auch als Regularität. Die Eigenschaften der Additivität, Monotonie und Regularität dienen als definierende Eigenschaften für sog. Quadermaße. Anstelle des Volumens kann man der Lebesgueschen Integrationstheorie auch allgemeine Quadermaße zugrundelegen, siehe z.B. [Köhler, § 29 ff.]. (5) Es gilt vn (Q) = 0 für alle ausgearteten Quader Q ⊆ Rn und vn (Q) > 0 für alle nicht ausgearteten Quader Q ⊆ Rn . 413 Selbstverständlich können wir uns nicht damit begnügen, das Volumen achsenparalleler Quader zu messen. In einem ersten bescheidenen Erweiterungsschritt betrachten wir Vereinigungen von endlich vielen Quadern. Definition 29.5 Eine Teilmenge P in Rn heißt ein Quadergebäude oder eine parkettierbare Menge, falls P = Q1 ∪ Q2 ∪ . . . ∪ Qr mit endlich vielen paarweise disjunkten Quadern Q1 , Q2 , . . . , Qr ∈ Qn ist. In diesem Fall heißt die Familie (Qj )1≤j≤r eine Parkettierung von P . Mit Pn bezeichnen wir die Menge aller parkettierbaren Teilmengen in Rn . Sind (Qj )1≤j≤r und (Q0k )1≤k≤s zwei Parkettierungen einer parkettierbaren Menge P , so nennen wir (Q0k )1≤k≤s feiner als (Qj )1≤j≤r oder eine Verfeinerung von (Qj )1≤j≤r , falls es zu jedem Index k ∈ {1, 2, . . . , s} einen Index j ∈ {1, 2, . . . , r} gibt mit Q0k ⊆ Qj , falls also jeder der Quader Q0k komplett in einem der Quader Qj liegt. Bemerkung 29.6 Offensichtlich gilt Qn ⊆ Pn . Insbesondere ist also die leere Menge parkettierbar. Eine parkettierbare Menge besitzt i.Allg. viele verschiedene Parkettierungen. Wie Abbildung 94 zeigt, braucht von zwei Parkettierungen einer Menge P keineswegs eine feiner als die andere zu sein. Abbildung 94: Parkettierungen einer Menge Problem: Das Volumen eines Quadergebäudes werden wir in naheliegender Weise als die Summe der Volumina der an dessen Aufbau beteiligten (disjunkten!) Quader definieren wollen. Wenn P ∈ Pn die Parkettierung P = Q1 ∪ . . . ∪ Qr hat, werden wir also vn (P ) := r X vn (Qj ) = vn (Q1 ) + . . . + vn (Qr ) j=1 setzen wollen. (Dies ist zwangsläufig, wenn man verlangt, dass das Volumenmaß additiv sein soll.) Ein nicht zu unterschätzendes Problem liegt hierbei in der Wohldefiniertheit von vn (P ): Da eine parkettierbare Menge auf viele verschiedene Weisen parkettiert werden kann, muss man nachweisen, dass alle denkbaren Parkettierungen zum selben Ergebnis führen. Bereits bei der disjunkten Zerlegung eines Quaders Q in Teilquader Q1 , . . . , Qr tritt ein Problem auf: Zum Nachweis von vn (Q) = vn (Q1 ) + . . . + vn (Qr ) kann man sich nicht ohne weiteres auf die in Bemerkung 29.4 (2) begründete Additivität von vn berufen, da nämlich die Vereinigung zweier Quader im Allgemeinen kein Quader ist (siehe Abbildung 95). Vielmehr 414 ist zur Begründung dieser Beziehung zunächst eine weitere Zerlegung der Teilquader Qj erforderlich. Dieses Wohldefiniertheitsproblem wird sich später in allgemeinerem Rahmen erneut stellen, nämlich bei der Definition des Elementarintegrals von Treppenfunktionen (Satz 30.1). Die Überwindung der Schwierigkeiten ist letztlich elementar, wenn auch recht lästig. Um Doppelarbeit zu vermeiden, verzichten wir daher vorerst auf eine Definition des Volumens von Quadergebäuden. Wir beweisen aber einige Hilfsresultate, die wir später beim Hantieren mit Treppenfunktionen wiederholt benötigen. Die Beweise vermitteln keine wichtigen Einsichten, müssen aber der Vollständigkeit wegen durchgeführt werden. Abbildung 95: Die Vereinigung von Quadern ist i.Allg. kein Quader Lemma 29.7 Parkettierung Es seien Quader Q, Q0 ∈ Qn mit Q ⊆ Q0 gegeben. Dann besitzt Q0 eine 0 Q = 2n [ Qj = Q0 ∪ Q1 ∪ . . . ∪ Q2n j=0 mit den folgenden Eigenschaften: Es ist Q0 = Q, und für jedes k = 0, 1, . . . , 2n ist die Vereinigung Q0 ∪ . . . ∪ Qk ein Quader. Die Differenzmenge Q0 \ Q ist parkettierbar. Beweis. Die Abbildung 96 zeigt, wie man für n = 1 und n = 2 vorgeht. Die Durchführung eines Induktionsschlusses ist etwas technisch, aber eigentlich eine Routinesache. Q0 Q4 Q1 InL In InR Q0 = Q Q2 Q3 Abbildung 96: Zum Beweis von Lemma 29.7 Es sei Q = I1 × . . . × In und Q0 = I10 × . . . × In0 . Wegen Q ⊆ Q0 ist insbesondere In ⊆ In0 . Daher gibt es eine disjunkte Intervallzerlegung In0 = InL ∪ In ∪ InR von In0 in drei Teilintervalle mit u < t < v für alle u ∈ InL , t ∈ In , v ∈ InR . (Dabei können InL und InR ggf. leer sein.) 415 Im Fall n = 1 erhält man die Behauptung, wenn man Q0 = Q = I1 , Q1 = I1L , Q2 = I1R wählt. Es sei n > 1, und die Aussage des Lemmas sei für n − 1 anstelle von n gültig. Wir betrachten dann die Quader b = I1 × . . . × In−1 Q 0 b0 = I10 × . . . × In−1 Q und b⊆Q b0 . Nach Induktionsannahme besitzt also Q b0 eine Parkettierung in Qn−1 . Es gilt Q b0 = Q b0 ∪ Q b1 ∪ . . . ∪ Q b2n−2 Q b0 = Q, b wobei die Vereinigung Q b0 ∪ . . . ∪ Q bk für jedes k = 0, 1, . . . , 2n − 2 ein Quader mit Q ist. Wir definieren nun bj × In Qj := Q j = 0, 1, . . . , 2n − 2, für b0 × InR . Q2n := Q b0 × InL , Q2n−1 := Q Dann ist b0 × In = Q b × In = Q, Q0 = Q die Qj sind offensichtlich paarweise disjunkt, und es ist b0 ∪ . . . ∪ Q b2n−2 × In ∪ Q2n−1 ∪ Q2n Q0 ∪ . . . ∪ Q2n = Q b0 × In ∪ Q b0 × I L ∪ Q b0 × I R = Q b0 × I 0 = Q0 . = Q n n n Aus b0 ∪ . . . ∪ Q bk × In , Q b0 × I L ∪ In , Q0 ∪ . . . ∪ Qk = Q n 0 Q, falls k ≤ 2n − 2 falls k = 2n − 1 falls k = 2n erkennt man ferner Q0 ∪ . . . ∪ Qk ∈ Qn für alle k = 0, 1, . . . , 2n. Damit ist (Qj )j=0,...,2n eine Parkettierung von Q0 mit den geforderten Eigenschaften. Der Induktionsschluss ist somit beendet. Zugleich folgt Q0 \ Q = Q1 ∪ . . . ∪ Q2n ∈ Pn . Satz 29.8 (1) Für beliebige parkettierbare Mengen P, P 0 ⊆ Rn ist auch P 0 \ P parkettierbar. (2) Für beliebige (endlich viele) parkettierbare Mengen P1 , . . . , Pr ⊆ Rn sind auch der Durchschnitt P1 ∩ . . . ∩ Pr und die Vereinigung P1 ∪ . . . ∪ Pr parkettierbar. Beweis. Dass die disjunkte Vereinigung parkettierbarer Mengen parkettierbar ist, ist klar nach Definition. Wir werden dies im Folgenden mehrfach benutzen. (1) Im ersten Schritt seien Quader Q, Q0 ∈ Qn gegeben. Dann ist Q ∩ Q0 ein in Q0 enthaltener Quader, und nach Lemma 29.7 ist Q0 \ Q = Q0 \ (Q ∩ Q0 ) parkettierbar. Im zweiten Schritt seien ein Q ∈ Qn und ein P 0 ∈ Pn mit einer Parkettierung P 0 = Q01 ∪ . . . ∪ Q0s gegeben. Dann erhalten wir eine disjunkte Zerlegung 0 P \Q= s [ j=1 416 (Q0j \ Q). Jede der Mengen Q0j \ Q ist nach dem ersten Beweisschritt parkettierbar. Folglich ist auch ihre disjunkte (!) Vereinigung P 0 \ Q parkettierbar. Im dritten Schritt seien beliebige P, P 0 ∈ Pn mit Parkettierungen P = Q1 ∪. . .∪Qr und P 0 = Q01 ∪. . . ∪Q0s gegeben. Aus dem zweiten Beweisschritt ergibt sich dann sukzessive, dass alle Mengen der Folge P1 = P 0 \ Q1 , P2 = P1 \ Q2 = P 0 \ (Q1 ∪ Q2 ), . . . , Pr = Pr−1 \ Qr = P 0 \ P parkettierbar sind. Damit ist (1) bewiesen. (2) Es genügt, die Behauptung für r = 2 zu beweisen. Denn induktiv folgt sie dann für beliebige r. Es seien Parkettierungen P1 = Q01 ∪ . . . ∪ Q0s und P2 = Q001 ∪ . . . ∪ Q00t gegeben. Dann ist s [ t [ P1 ∩ P2 = (Q0j ∩ Q00k ) j=1 k=1 eine Parkettierung des Durchschnitts, und damit ist P1 ∩ P2 ∈ Pn gezeigt. (Viele der Durchschnitte Q0j ∩ Q00k können leer sein.) Da P1 nach Voraussetzung und P2 \ P1 nach (1) parkettierbar ist, ist auch die disjunkte Vereinigung P1 ∪ (P2 \ P1 ) = P1 ∪ P2 parkettierbar. Dies zeigt die Behauptung über die Vereinigung parkettierbarer Mengen. 29.2 Nullmengen Für das Integral einer Funktion f spielen die Werte von f auf genügend kleinen Teilmengen des Definitionsbereiches von f keine Rolle. Zum Beispiel ändert sich das Riemannsche Integral nicht, wenn die Werte von f in endlich vielen Punkten beliebig abgeändert werden. Was genügend kleine“ Mengen in der Lebesgueschen Integrationstheorie sind, wird ” folgendermaßen festgelegt: Definition 29.9 Eine Menge N ⊆ Rn heißt eine Nullmenge, falls es zu jeder Zahl ε > 0 eine Folge (Qk )k∈N von Quadern Qk ∈ Qn gibt, so dass N⊆ ∞ [ Qk und k=1 ∞ X vn (Qk ) < ε. k=1 Nullmengen sind also dadurch gekennzeichnet, dass sie durch Folgen von Quadern überdeckt werden können, deren Gesamtvolumen beliebig klein ist. Es wird keineswegs verlangt, dass die überdeckenden Quader Qk paarweise disjunkt sind. Satz 29.10 (1) Zu jeder Nullmenge N ⊆ Rn und zu jeder Zahl ε > 0 gibt es eine Folge (Qk )k≥1 von offenen Quadern Qk ∈ Qn mit ∞ ∞ [ X N⊆ Qk und vn (Qk ) < ε. k=1 k=1 (2) Ist (Nk )k≥1 eine Folge von Nullmengen, dann ist auch ihre Vereinigung Nullmenge. 417 S∞ k=1 Nk eine Beweis. (1) Aufgabe 10.4 (2) Es seien eine Folge (Nk )k≥1 von Nullmengen Nk und eine Zahl ε > 0 gegeben. Zu jedem k gibt es nach Definition eine Folge (Qkj )j≥1 von Quadern Qkj ∈ Qn mit ∞ ∞ [ X Nk ⊆ Qkj und vn (Qkj ) < 2−k ε. j=1 j=1 Weil N2 abzählbar unendlich ist, gibt es eine Bijektion (k, j) 7→ l(k, j) von N2 auf N. Wir setzen Q0l(k,j) := Qkj . Damit erhalten wir eine Folge (Q0l )l≥1 von Quadern Q0l mit ∞ [ Nk ⊆ ∞ X vn (Q0l ) = Also ist k=1 ∞ X ∞ X vn (Qkj ) < k=1 j=1 l=1 S∞ Qkj = k=1 j=1 k=1 und ∞ [ ∞ [ ∞ [ Q0l l=1 ∞ X 2−k ε = ε. k=1 Nk eine Nullmenge. Damit ist (2) bewiesen. Beispiel 29.11 (1) Jeder ausgeartete Quader Q hat das Volumen vn (Q) = 0, ist also eine Nullmenge. Jede achsenparallele Hyperebene ist eine Vereinigung von abzählbar vielen ausgearteten Quadern. Nach Satz 29.10 ist also jede solche Hyperebene eine Nullmenge. Selbstverständlich werden wir später, jedoch erst in Kapitel 34 zeigen, dass nicht nur die achsenparallelen, sondern alle Hyperebenen Nullmengen sind. (2) Für jeden Punkt p ∈ Rn ist offenbar die Einermenge {p} eine Nullmenge. Nach Satz 29.10 (2) ist folglich jede abzählbare Teilmenge des Rn eine Nullmenge. Insbesondere ist also Qn eine Nullmenge. Dieses Beispiel ist insofern bemerkenswert, als Qn unbeschränkt und dicht in Rn ist. Andererseits müssen Nullmengen keineswegs abzählbar sein. Im Mehrdimensionalen ist es leicht, überabzählbare Nullmengen anzugeben - beispielsweise die Hyperebenen aus (1). Ein Beispiel einer überabzählbaren Nullmenge in R ist das Cantorsche Dis kontinuum (vgl. Aufgabe 11.4). Notation. Es sei A ⊆ Rn . Eine Funktion f heißt fast überall definiert auf A, falls es eine Nullmenge N ⊆ Rn gibt, so dass f auf A \ N definiert ist. Zwei Funktionen f und g heißen fast überall gleich auf A, und man schreibt vn f.ü. f = g oder f = g oder f = g fast überall, falls diese Funktionen fast überall auf A definiert sind und eine Nullmenge N existiert mit f (x) = g(x) für alle x ∈ A \ N . Analog werden die Relationen v v vn vn f ≤n g, f ≥n g, f < g, f > g erklärt. Wegen Satz 29.10 (2) sind alle diese Relationen transitiv. Analog wird auch definiert, wann eine Folge von Funktionen fast überall monoton bzw. fast überall konvergent ist usw. Wir sagen, dass eine Aussage P (x) für fast alle x ∈ A gilt, falls es eine Nullmenge N gibt, so dass P (x) für alle x ∈ A \ N gilt. 418 29.3 Treppenfunktionen Für eine beliebige Teilmenge A ⊆ Rn wird die charakteristische Definition 29.12 Funktion χA durch χA (x) = 1 0 für für x ∈ A, x ∈ Rn \ A definiert. Eine Funktion t : Rn −→ R heißt eine Treppenfunktion, falls es endlich viele paarweise disjunkte Quader Q1 , . . . , Qr ∈ Qn und reelle Zahlen c1 , . . . , cr gibt, so dass t = c1 · χQ1 + . . . + cr · χQr . ist. Wir bezeichnen mit Tn die Menge aller Treppenfunktionen auf Rn . Bemerkung 29.13 (1) Eine Funktion t : Rn −→ R ist genau dann eine Treppenfunktion, wenn die Wertemenge t(Rn ) endlich ist und wenn für jede reelle Zahl c 6= 0 das Urbild t−1 ({c}) = {x ∈ Rn | t(x) = c} eine parkettierbare Menge ist. (2) Die in der Definition auftauchende Darstellung t = c1 · χQ1 + . . . + cr · χQr der Treppenfunktion ist keinesfalls eindeutig; die nichtleeren Urbilder t−1 ({c}) besitzen nämlich i.Allg. viele verschiedene Parkettierungen. (3) Ist t : R −→ R eine Treppenfunktion im Sinne von Definition 29.12, so ist die Restriktion t|I auf ein geeignetes kompaktes Intervall I eine Treppenfunktion im Sinne von Definition 17.2. In diesem Sinne ist der Spezialfall n = 1 von Definition 29.12 konsistent mit Definition 17.2. Lemma 29.14 Die Menge Tn der Treppenfunktionen auf Rn ist ein reeller Vektorraum. Für beliebige t, T ∈ Tn sind auch t · T, |t|, min{t, T }, max{t, T }, t+ := max{t, 0}, t− := − min{t, 0} Treppenfunktionen. Beweis. Zunächst folgt direkt aus den Definitionen: Sind P1 , . . . , Pr ∈ Pn disjunkte parkettierbare Mengen und c1 , . . . , cr ∈ R, so ist c1 · χP1 + . . . + cr · χPr eine Treppenfunktion. Zum Nachweis der Abgeschlossenheit von Tn unter Addition genügt es zu zeigen, dass für jede Treppenfunktion t ∈ Tn , alle Quader Q ∈ Qn und alle c ∈ R auch t + c · χQ eine Treppenfunktion ist; induktiv folgt dann nämlich, dass auch die Summe beliebiger Treppenfunktionen in Tn eine Treppenfunktion ist. 419 Es seien also eine Treppenfunktion t ∈ Tn , ein Quader Q ∈ Qn und ein c ∈ R gegeben. Definitionsgemäß besitzt t eine Darstellung t = c1 · χQ1 + . . . + cr · χQr mit disjunkten Quadern Q1 , . . . , Qr ∈ Qn und reellen Zahlen c1 , . . . , cr . Es sei P := Q1 ∪ . . . ∪ Qr . Nach Satz 29.8 sind die Mengendifferenzen Q1 \ Q, . . . , Qr \ Q und Q \ P sowie die Durchschnitte Q1 ∩ Q, . . . , Qr ∩ Q parkettierbar, und alle diese Mengen sind paarweise disjunkt. Daher ist gemäß der Beobachtung zu Beginn des Beweises r r X X e t := (cj + c) · χQj ∩Q + cj · χQj \Q + c · χQ\P j=1 j=1 eine Treppenfunktion. Es ist e t = = r X j=1 r X cj · (χQj ∩Q + χQj \Q ) + c · χQ\P + r X ! χQj ∩Q j=1 cj · χQj + c · χQ = t + c · χQ . j=1 Damit ist die Abgeschlossenheit von Tn unter Addition gezeigt. Dass für alle t ∈ Tn und alle a ∈ R auch a · t ∈ Tn ist, ist klar. Also ist Tn ein R-Vektorraum. Es seien zwei Treppenfunktionen t = c1 · χQ1 + . . . + cr · χQr T = d1 · χQ01 + . . . + ds · χQ0s und mit paarweise disjunkten Quadern Q1 , . . . , Qr ∈ Qn und paarweise disjunkten Quadern Q01 , . . . , Q0s ∈ Qn gegeben. Dann gilt t·T = s r X X cj dk · χQj · χQ0k = s r X X cj dk · χQj ∩Q0k ; j=1 k=1 j=1 k=1 hierbei sind die Qj ∩ Q0k nach Bemerkung 29.2 (4) Quader in Qn , und sie sind paarweise disjunkt. Aus dieser Darstellung folgt t · T ∈ Tn . Weiter gilt wegen der Disjunktheit der Qj |t| = |c1 | · χQ1 + . . . + |cr | · χQr , so dass auch |t| eine Treppenfunktion ist. Es folgt nunmehr unter Verwendung des bereits Bewiesenen, dass auch max {t, T } = 1 · (t + T + |T − t|) , 2 min {t, T } = 1 · (t + T − |T − t|) 2 und insbesondere t− = − min{t, 0} t+ = max{t, 0}, Treppenfunktionen sind. Damit sind alle Behauptungen gezeigt. 420 30 Das Lebesgue-Integral 30.1 Integration von Treppenfunktionen Wie bei der Definition des Riemann-Integrals beginnen wir mit der Integration von Treppenfunktionen. Satz 30.1 (Elementarintegral) (1) Auf dem Vektorraum Tn der Treppenfunktionen auf Rn gibt es genau eine Linearform Z Z t(x) dvn (x), t 7→ t dvn = Rn die Z χQ dvn = vn (Q) für alle Q ∈ Qn erfüllt. Wir nennen R t dvn das Integral von t. (2) Die Linearform t 7→ R t dvn ist monoton: Für alle Treppenfunktionen t, T ∈ Tn gilt Z Z t dvn ≤ T dvn , falls t≤T ist. Für alle Treppenfunktionen t ∈ Tn gilt Z Z t dvn ≤ |t| dvn . Beweis. Es sei t 7→ R t dvn eine Linearform auf Tn mit den in (1) genannten Eigenschaften. Es sei t ∈ Tn eine Treppenfunktion. Diese besitzt eine Darstellung t = c1 · χQ1 + . . . + cr · χQr mit Quadern Q1 , . . . , Qr ∈ Qn und reellen Zahlen c1 , . . . , cr . (Man kann die Qj sogar disjunkt wählen; dies wird im FolgendenR allerdings irrelevant sein.) Aus der Forderung, dass das Elementarintegral linear ist mit χQ dvn = vn (Q) für alle Q ∈ Qn , folgt dann Z t dvn = c1 · vn (Q1 ) + · · · + cr · vn (Qr ). Somit existiert höchstens eine Linearform auf Tn mit den gewünschten Eigenschaften. Zum Beweis der Existenz definieren wir das Elementarintegral durch die soeben gefundene Formel Z r r X X t dvn := cj · vn (Qj ), falls t= cj · χQj mit Q1 , . . . , Qr ∈ Qn . (30.1) j=1 j=1 R Die Hauptschwierigkeit besteht im Nachweis, dass t dvn dadurch wohldefiniert ist, d.h. R dass der so definierte Wert t dvn unabhängig81 von der Wahl der Darstellung von t ist 81 Dies ist die bereits avisierte allgemeinere Fassung des auf S. 414 aufgeworfenen Problems der Wohldefiniertheit des Volumens von Quadergebäuden! 421 (und zwar auch dann, wenn die Qj nicht disjunkt sind). Sobald dieser Nachweis erbracht ist, ist aufgrund (30.1) klar, dass das Elementarintegral linear, also eine Linearform auf Tn ist. Die Wohldefiniertheit beweisen wir mittels Induktion nach der Raumdimension n. Für n = 1 ist sie unmittelbar einsichtig bzw. folgt leicht aus den Regeln in Abschnitt 17.1. Nun sei n ≥ 2, und die Wohldefiniertheit des Elementarintegrals sei für die Raumdimensionen 1, . . . , n − 1 bereits gezeigt. Jeder Quader Q ∈ Qn ist das kartesische Produkt Q = Q0 × I eines Quaders Q0 ∈ Qn−1 und eines reellen Intervalls I ⊆ R, und es gilt für alle x ∈ Rn−1 , y ∈ R. χQ (x, y) = χQ0 (x) · χI (y) Es sei eine Treppenfunktion t ∈ Tn mit der Darstellung aus (30.1) gegeben. Es ist Qj = Q0j ×Ij für j = 1, . . . , r mit Quadern Q0j ∈ Qn−1 und Intervallen Ij ⊆ R. Für jedes feste y ∈ R ist dann durch für alle x ∈ Rn−1 ty (x) := t(x, y) eine Treppenfunktion ty ∈ Tn−1 definiert; es ist ty = r X cj · χIj (y) · χQ0j . j=1 Deren Elementarintegral ist nach Induktionsannahme wohldefiniert mit Z r X ty (x) dvn−1 (x) = cj · χIj (y) · vn−1 (Q0j ) =: τ (y). Rn−1 j=1 Diese Darstellung für τ zeigt, dass τ eine Treppenfunktion auf R ist, d.h. τ ∈ T1 . Damit ist auch deren Elementarintegral wohldefiniert mit Z r r X X τ (y) dv1 (y) = cj · vn−1 (Q0j ) · v1 (Ij ) = cj · vn (Qj ). R j=1 j=1 Insgesamt erhalten wir r X j=1 Z Z Z cj · vn (Qj ) = ty (x) dvn−1 (x) dv1 (y). τ (y) dv1 (y) = R R Rn−1 P Hierbei hängt die rechte Seite nur von t ab, nicht von der Darstellung t = rj=1 cj · χQj . Also ist die linke Seite unabhängig von der speziellen Wahl der Qj und cj . Daher ist das Elementarintegral durch (30.1) wohldefiniert. Gleichzeitig ist aufgrund dieser Beziehung klar, dass das Elementarintegral linear ist, d.h. Z Z Z (at1 + bt2 ) dvn = a · t1 dvn + b · t2 dvn für alle t1 , t2 ∈ Tn und alle a, b ∈ R gilt. (Hierfür ist es entscheidend, dass wir in (30.1) auch den Fall nicht-disjunkter Qj zugelassen haben.) Auch die Eigenschaft Z χQ dvn = vn (Q) für alle Q ∈ Qn 422 ist klar. Damit sind alle Behauptungen in (1) bewiesen. RIst t ∈ Tn und t ≥ 0, dann folgt aus der Definition des Elementarintegrals unmittelbar t dvn ≥ 0. Hieraus und aus der Additivität ergibt sich die Monotonie des Elementarintegrals. Für eine beliebige Treppenfunktion t ∈ Tn gilt auch |t| ∈ Tn (Lemma 29.14), und es ist t ≤ |t| und −t ≤ |t|. Aus der Linearität und der Monotonie folgt somit Z Z Z Z Z t dvn ≤ |t| dvn und − t dvn = (−t) dvn ≤ |t| dvn , R R also t dvn ≤ |t| dvn . Damit sind auch die Behauptungen in (2) bewiesen. Satz 30.1 erlaubt es uns nunmehr auch, das Volumen von Quadergebäuden offiziell einzuführen; das auf S. 414 angesprochene Wohldefiniertheitsproblem ist durch den Nachweis der Wohldefiniertheit des Elementarintegrals gelöst: Definition 30.2 Es sei P ∈ Pn eine parkettierbare Menge. Dann ist χP eine Treppenfunktion. Wir setzen Z vn (P ) := χP dvn und nennen vn (P ) das Volumen von P . 30.2 Monotone Folgen von Treppenfunktionen Die Lebesgue-Integrierbarkeit von Funktionen wird mit Hilfe von monotonen und fast überall konvergenten Folgen von Treppenfunktionen definiert. Wir beginnen mit monotonen Nullfolgen. Im folgenden Satz ist das Ergebnis als solches weniger erstaunlich als die Tatsache seiner Nützlichkeit und die Länge des Beweises. Die Schwierigkeit ist durch die möglichen positiven Werte der Grenzfunktion auf einer Nullmenge bedingt. Lemma 30.3 Es sei (tk )k eine Folge von Treppenfunktionen tk : Rn −→ R, die monoton fallend fast überall gegen 0 konvergiert, das heißt es sei 0 ≤ tk+1 ≤ tk für alle k und lim tk (x) = 0 k→∞ für fast alle x ∈ Rn . Dann gilt Z lim k→∞ tk dvn = 0. R Beweis. I. Nach Satz 30.1 (2) ist die Folge der Integrale tk dvn monoton fallend und nach unten durch 0 beschränkt. Daher existiert der Grenzwert Z a = lim tk dvn , k→∞ und es gilt a ≥ 0. Zu beweisen istR nur“ a = 0. Es genügt zu zeigen, dass es zu jeder Zahl ” ε > 0 eine natürliche Zahl m mit tm dvn < ε gibt. 423 Weil t1 nur endlich viele Werte annimmt und die Folge (tk )k monoton fällt, gibt es eine Schranke C > 0 mit 0 ≤ tk (x) ≤ C k∈N für alle und alle x ∈ Rn . Nach Voraussetzung gibt es eine Nullmenge N mit lim tk (x) = 0 x ∈ Rn \ N. für alle k→∞ II. Es sei eine Zahl ε > 0 gegeben. Nach Satz 29.10 (1) wird N von einer Folge (Q0j )j≥1 von offenen Quadern Q0j überdeckt, für die ∞ X vn (Q0j ) < j=1 ε 3C gilt. Da t1 eine Treppenfunktion ist, ist das Urbild t−1 1 (R \ {0}) beschränkt. Es gibt daher einen kompakten Quader K ∈ Qn mit t−1 1 (R \ {0}) ⊆ K und vn (K) > 0. Außerhalb von K sind alle tk konstant 0. Für jedes k ist nach Satz 29.8 auch ) ( ε Pk := x ∈ K 0 ≤ tk (x) ≤ 3vn (K) parkettierbar. Hierzu gibt es offene parkettierbare Mengen Pk0 mit Pk ⊆ Pk0 vn (Pk0 ) ≤ vn (Pk ) + 2−k · und ε 3C für alle k. Es gilt also vn (Pk0 \ Pk ) = vn (Pk0 ) − vn (Pk ) ≤ 2−k · ε . 3C III. Wir zeigen nun K⊆ ∞ [ ! Q0j ∪ j=1 ∞ [ ! Pk0 . k=1 Zum Beweis sei ein Punkt x ∈ K gegeben, der in keinem der Quader Q0j liegt. Weil N von diesen Quadern überdeckt wird, folgt x 6∈ N . Das bedeutet aber limk→∞ tk (x) = 0. Nach Definition der Pk gibt es folglich ein k mit x ∈ Pk ⊆ Pk0 . Damit ist die Behauptung bewiesen. Es liegt somit eine Überdeckung von K durch (abzählbar unendlich viele) offene Mengen Q0j und Pk0 vor. Weil K (überdeckungs-)kompakt ist, gibt es hierzu eine endliche Teilüberdeckung. Es gibt also eine natürliche Zahl m mit K ⊆ Q01 ∪ . . . ∪ Q0m ∪ P10 ∪ . . . ∪ Pm0 . Folglich gilt auch K ⊆ P 0 ∪ P mit P = P1 ∪ . . . ∪ Pm , P 0 = Q01 ∪ . . . ∪ Q0m ∪ (P10 \ P1 ) ∪ . . . ∪ (Pm0 \ Pm ). 424 Die Mengen P und P 0 sind nach Satz 29.8 parkettierbar. Folglich sind t0 = C · χP 0 t00 = und ε · χP 3vn (K) Treppenfunktionen. Die erste ist nur auf der kleinen“ Menge P 0 von 0 verschieden, und die ” zweite hat kleine Werte. IV. Der letzte Beweisschritt beginnt mit dem Nachweis von tm ≤ t0 + t00 . Wenn x ∈ Rn und x 6∈ K ist, dann ist tm (x) = 0. Für x ∈ P 0 gilt tm (x) ≤ t1 (x) ≤ C = t0 (x) ≤ t0 (x) + t00 (x). Schließlich gibt es im Falle x ∈ P ein k ≤ m mit x ∈ Pk , und es folgt tm (x) ≤ tk (x) ≤ ε = t00 (x) ≤ t0 (x) + t00 (x). 3vn (K) Wegen K ⊆ P 0 ∪ P ist damit tm (x) ≤ (t0 + t00 )(x) für alle x ∈ Rn gezeigt. Jetzt verwenden wir die Linearität und Monotonie des Elementarintegrals (Satz 30.1) sowie unsere Abschätzungen für das Gesamtmaß der Q0j und die Maße der Mengen Pk0 \ Pk . Damit folgt Z Z Z 0 tm dvn ≤ t dvn + t00 dvn = C · vn (P 0 ) + ≤ C· m X ε · vn (P ) 3vn (K) vn (Q0j ) + j=1 < C· m X ! vn (Pk0 \ Pk ) k=1 ∞ ε X −k ε 2 + · 3C 3C k=1 ! + + ε · vn (K) 3vn (K) ε 3 = ε. Das war zu zeigen. Im nächsten Satz werden monoton steigende Folgen von Treppenfunktionen betrachtet, deren Integralfolge beschränkt ist, und es wird gezeigt, dass solche Folgen fast überall konvergieren. Lemma 30.4 Es sei (tk )k≥1 eine R monoton steigende Folge von Treppenfunktionen tk : n R −→ R. Die Folge der Integrale tk dvn dieser Funktionen sei beschränkt. Dann ist N = {x ∈ Rn | lim tk (x) = ∞} k→∞ eine Nullmenge. Es gibt eine Funktion f : Rn −→ R mit lim tk = f k→∞ 425 fast überall. Beweis. Wir dürfen tk ≥ 0 für alle k annehmen. (Andernfalls betrachten wir die Folge der Differenzen tk − t1 , wobei sich an den Voraussetzungen nichts ändert und auch die Menge N ungeändert bleibt.) Nach Voraussetzung gilt tk ≤ tk+1 für alle k, und es gibt ein a > 0 mit Z tk dvn < a für alle k ∈ N. Es sei eine Zahl ε > 0 gegeben. Für jedes k ist dann n ao n Pk := x ∈ R | tk (x) > ε eine parkettierbare Menge. Wegen tk ≤ tk+1 und nach Definition der Menge N bestehen die Inklusionen ∞ [ Pk ⊆ Pk+1 und N⊆ Pk . k=1 Aus tk ≥ 0 und der Definition von Pk folgt Z Z a a a also a> tk dvn ≥ · χPk dvn = · vn (Pk ) tk ≥ · χPk , ε ε ε und somit vn (Pk ) < ε für alle k. Die Quadergebäude Pk , auf denen tk groß“ ist, sind also klein“ bezüglich des Volumenma” ” ßes. Die Komplemente Pk+1 \Pk sind nach Satz 29.8 parkettierbar. Wegen Pk ⊆ Pk+1 gibt es daher eine Folge (Qj )j≥1 von paarweise disjunkten Quadern Qj und eine Folge (mj )j≥1 natürlicher Zahlen mj mit m1 < m2 < m3 < . . . und Pk = mk [ Qj für alle k ∈ N. j=1 Es folgt mk X vn (Qj ) = vn (Pk ) < ε für alle k, also auch j=1 ∞ X vn (Qj ) ≤ ε, j=1 und es ist N⊆ ∞ [ Pk = ∞ [ Qj . j=1 k=1 Da dies für jedes ε > 0 gilt, ist N eine Nullmenge. Wir definieren die Funktion f : Rn −→ R durch f (x) := limk→∞ tk (x), falls dieser Grenzwert in R existiert, und anderenfalls legen wir den Wert fest, indem wir willkürlich f (x) := 0 setzen. Dann gilt limk→∞ tk = f fast überall. 426 Satz 30.5 Es seien (tk )k≥1 und (e tk )k≥1 zwei monoton steigende Folgen von Treppenfunkn tionen auf R . Dann gelten die folgenden Aussagen: vn (1) Wenn limk→∞ tk ≤ limk→∞ e tk ist, dann ist Z Z e lim tk dvn ≤ lim tk dvn . k→∞ k→∞ vn (2) Wenn limk→∞ tk = limk→∞ e tk ist, dann ist Z Z e lim tk dvn = lim tk dvn . k→∞ k→∞ Beweis. Offenbar folgt (2) aus (1), denn tk und e tk können ihre Rollen tauschen. Es genügt also, die Behauptung (1) zu beweisen. Zunächst vergewissert man sich, dass die im Satz genannten Grenzwerte tatsächlich existieren (evtl. im uneigentlichen Sinne), da die auftretenden Integralfolgen monoton steigen. Es sei eine natürliche Zahl m gegeben. Wir setzen Tk := (tm − e tk )+ = max{tm − e tk , 0} für k ∈ N. Nach Lemma 29.14 erhalten wir auf diese Weise eine Folge (Tk )k von Treppenfunktionen Tk ∈ Tn . Weil die Folge der e tk monoton steigt, gilt 0 ≤ Tk+1 ≤ Tk für alle k. Aus der Voraussetzung in (1) erhalten wir v tm ≤ lim tk ≤n lim e tk . k→∞ k→∞ Hieraus folgt vn lim Tk = 0. k→∞ Somit ist Lemma 30.3 anwendbar, und danach ist Z lim Tk dvn = 0. k→∞ Aus Satz 30.1 folgt Z Z Z Z Z e e e tm dvn = tk dvn + (tm − tk ) dvn ≤ tk dvn + Tk dvn für alle k. Für k → ∞ ergibt sich daher Z Z e tm dvn ≤ lim tk dvn . k→∞ Das gilt für jedes m ∈ N. Für m → ∞ folgt daher die Behauptung in (1). 427 Aus Satz 30.5 ergibt sich die Möglichkeit zu einer vernünftigen Definition des Integrals von Funktionen f , die fast überall gleich der Grenzfunktion einer monotonen Folge von Treppenfunktionen mit beschränkter Integralfolge sind: Definition 30.6 Wir bezeichnen mit M(Rn ) die Menge aller Funktionen f : Rn −→ R, zu denen es eine monoton steigende Folge (tk )k≥1 von Treppenfunktionen tk : Rn −→ R mit beschränkter Integralfolge und f = lim tk k→∞ fast überall gibt. In dieser Situation setzen wir Z Z Z f dvn = f (x) dvn (x) = Rn Z f (x) dx := lim k→∞ Rn tk dvn , und wir nennen diese Zahl das (Lebesgue-)Integral von f . Die Wohldefiniertheit dieses Integrals ist durch Satz 30.5 (2) gesichert: Es ist unabhängig von der Wahl der Folge der Treppenfunktionen, die monoton steigend und fast überall gegen f konvergiert. Der Buchstabe M in der Bezeichnung M(Rn ) soll an das Wort monoton“ erinnern. ” Satz 30.7 Für beliebige Funktionen f, g ∈ M(Rn ) und reelle Zahlen a ≥ 0 gelten die folgenden Aussagen: (1) Die Funktionen f + g und af gehören zu M(Rn ), und es gilt Z Z Z Z Z (f + g) dvn = f dvn + g dvn und (af ) dvn = a · f dvn . vn (2) Wenn f ≤ g ist, dann ist R f dvn ≤ R g dvn . vn vn Beweis. Es gilt f = limk→∞ tk und g = limk→∞ Tk , worin (tk )k und (Tk )k gewisse monoton steigende Folgen von Treppenfunktionen mit beschränkten Integralfolgen sind. Da die Vereinigung zweier Nullmengen wieder eine Nullmenge ist, folgt vn f +g = lim (tk + Tk ) k→∞ und vn af = lim (atk ), k→∞ worin auch die Folgen (tk + Tk )k und (atk )k die erforderlichen Eigenschaften haben. Somit gehören f + g und af zu M(Rn ). (Wir benötigen die Voraussetzung a ≥ 0, denn für a < 0 ist die Folge (atk )k monoton fallend statt steigend.) Aus Satz 30.1 erhalten wir Z Z Z Z Z Z tk dvn + lim Tk dvn = f dvn + g dvn (f + g) dvn = lim (tk + Tk ) dvn = lim k→∞ R und ebenso (af ) dvn = a · k→∞ R k→∞ f dvn . vn Wenn wir f ≤ g voraussetzen, dann folgt aus Teil (1) in Satz 30.5 die Behauptung Z Z f dvn ≤ g dvn . 428 Beispiel 30.8 Es sei f (x) := √1 x für 0 < x ≤ 1 . für x ∈ R\]0; 1] 0 Bekanntlich ist f auf ]0, 1] uneigentlich Riemann-integrierbar. In Abschnitt 30.5 werden wir sehen, dass f auch Lebesgue-integrierbar auf R ist, und durch explizite Angabe einer approximierenden Folge von Treppenfunktionen kann man zeigen, dass sogar f ∈ M(Rn ) ist. Jedoch ist −f 6∈ M(Rn ), denn es gibt offensichtlich keine Treppenfunktion, die fast überall unterhalb von −f verläuft. Leider ist M(Rn ) also kein Vektorraum. Deshalb müssen wir diese Menge im folgenden Abschnitt noch etwas vergrößern. 30.3 Integrierbare Funktionen Die Menge M(Rn ) wird jetzt zu einem Vektorraum erweitert, und das Integral wird zu einem monotonen linearen Funktional auf diesem Vektorraum gemacht. Es liegt auf der Hand, wie das zu geschehen hat: Definition 30.9 Wir bezeichnen mit L(Rn ) die Menge aller Funktionen f : Rn −→ R, die als Differenzen f = g − h von Funktionen g, h ∈ M(Rn ) darstellbar sind, und setzen Z Z Z Z Z f (x) dx := g dvn − h dvn . f (x) dvn (x) = f dvn = Rn Rn n Die R Funktionen f ∈ L(R ) heißen integrierbar oder Lebesgue-integrierbar. Die Zahl f dvn heißt das (Lebesgue-)Integral von f . Der Buchstabe L in der Bezeichnung L(Rn ) erinnert an H. Lebesgue. R Bemerkung 30.10 Zum Nachweis der Wohldefiniertheit des Integrals f dvn müssen wir uns wiederum vergewissern, dass es unabhängig von der Wahl der Darstellung von f = g − h als Differenz zweier Funktionen aus M(Rn ) ist: Wenn neben f = g − h auch f = g1 − h1 eine solche Darstellung ist, dann ist g + h1 = g1 + h, und aus Satz 30.7 (1) folgt Z Z Z Z Z Z g dvn + h1 dvn = (g + h1 ) dvn = (g1 + h) dvn = g1 dvn + h dvn , also Z Z g1 dvn − Z h1 dvn = 429 Z g dvn − h dvn . Satz 30.11 (Integrierbare Funktionen) Die Menge L(Rn ) der integrierbaren FunkR tionen ist ein reeller Vektorraum. Das Integral f 7→ f dvn ist eine monotone Linearform auf diesem Vektorraum. Für beliebige f, g ∈ L(Rn ) gehören auch max{f, g} , min{f, g} , f + = max{f, 0} , f − = − min{f, 0} und |f | zu L(Rn ). Es gilt Z Z f dvn ≤ |f |dvn . Beweis. Aus Satz 30.7 und aus den Definitionen folgt unmittelbar, dass L(Rn ) ein reeller Vektorraum ist und dass das Integral eine Linearform auf diesem Vektorraum ist. Auch die Monotonie folgt leicht aus Satz 30.7. Es sei nämlich f ≤ g und f = f1 − f2 , g = g1 − g2R mit Funktionen f1 , fR2 , g1 , g2 in RM(Rn ). Dann ist f1 + g2 ≤ f2 + g1 , und aus Satz R 30.7 folgt f1 dvn + g2 dvn ≤ f2 dvn + g1 dvn , also Z Z Z Z Z Z f dvn = f1 dvn − f2 dvn ≤ g1 dvn − g2 dvn = g dvn . Die Behauptung über das Maximum beweisen wir zunächst nur für Funktionen f, g ∈ vn vn M(Rn ). Es ist dann f = limk→∞ tk und g = limk→∞ Tk , wobei (tk )k und (Tk )k monoton steigende Folgen von Treppenfunktionen mit beschränkten Integralfolgen sind. Nach Lemma 29.14 gilt auch max{tk , Tk } ∈ Tn . Die Folge dieser Treppenfunktionen ist monoton steigend, und wegen Z Z Z Z max{tk , Tk } dvn ≤ max{t1 , T1 } dvn + (tk − t1 ) dvn + (Tk − T1 ) dvn ist ihre Integralfolge beschränkt. Weil die Vereinigung zweier Nullmengen ebenfalls eine solche ist, gilt auch vn max{f, g} = lim max{tk , Tk }. k→∞ n Damit ist max{f, g} ∈ M(R ) nachgewiesen. Jetzt seien f, g beliebige Funktionen in L(Rn ). Es gilt f = f1 − f2 und g = g1 − g2 mit Funktionen f1 , f2 , g1 , g2 in M(Rn ). Ferner gilt f + = max{f1 − f2 , 0} = max{f1 , f2 } − f2 . Wie zuvor gezeigt wurde, ist max{f1 , f2 } ∈ M(Rn ). Die Formel für f + zeigt somit, dass f + ∈ L(Rn ) ist. In derselben Weise folgt f − = − min{f1 − f2 , 0} = max{f1 , f2 } − f1 ∈ L(Rn ). Folglich ist auch |f | = f + + f − in dem Vektorraum L(Rn ) enthalten. Aus R f ≤ |f |, −f ≤ |f | und aus der Monotonie und R Linearität des Integrals folgt | f dvn | ≤ |f | dvn . Schließlich folgt nun auch max{f, g} = min{f, g} = 1 2 1 2 (f + g + |f − g|) ∈ L(Rn ), (f + g − |f − g|) ∈ L(Rn ). 430 Satz 30.12 Es sei f ∈ L(Rn ), und es sei g : Rn −→ R eine Funktion mit f (x) = g(x) für fast alle x ∈ Rn . Dann ist auch g ∈ L(Rn ), und es ist Z Z f dvn = g dvn . Beweis. Zunächst sei f ∈ M(Rn ). Dann gibt es eine monoton steigende Folge (tk )k von Treppenfunktionen tk ∈ Tn mit beschränkter Integralfolge, die fast überall gegen f konvergiert. Da f und g fast überall übereinstimmen und die Vereinigung zweier Nullmengen wieder eine Nullmenge ist, konvergiert (tk )k dann auch fast überall gegen g. Dies bedeutet nach Definition g ∈ M(Rn ) und Z Z Z g dvn = lim tk dvn = f dvn . k→∞ Damit ist die Behauptung für den Fall f ∈ M(Rn ) gezeigt. Im allgemeinen Fall ist f = f1 − f2 mit f1 , f2 ∈ M(Rn ). Es sei g2 := f2 + (f − g). Dann stimmen f2 und g2 fast überall überein. Aus dem bereits Bewiesenen folgt daher g2 ∈ M(Rn ) und Z Z f2 dvn = g2 dvn . Hieraus und aus der Vektorraumeigenschaft von L(Rn ) folgt g = f + f2 − g2 = f1 − g2 ∈ L(Rn ) und Z Z Z f1 dvn − g dvn = Z g2 dvn = Z f1 dvn − Z f2 dvn = f dvn . In unseren bisherigen Definitionen haben wir nur Integrale über den gesamten Raum Rn gebildet. Häufig sind Funktionen nur auf einer Teilmenge des Rn definiert, oder man möchte sie nur über eine Teilmenge ihres Definitionsbereiches integrieren. Der hierzu nötige Formalismus ist leicht einzuführen: Definition 30.13 Es seien eine Menge A ⊆ Rn und eine Funktion f : A −→ R gegeben. Dann definieren wir die Funktion fA : Rn −→ R durch f (x) für x ∈ A, fA (x) := 0 für x ∈ Rn \ A. Die Funktion Rf heißt integrierbar auf der Menge A, falls die Funktion fA integrierbar ist. Das Integral fA dvn heißt das Integral von f über die Menge A. Wir schreiben es in der Form Z Z Z f dvn = f (x) dvn (x) = fA (x) dvn (x). A Rn A Wir bezeichnen mit L(A) die Menge aller integrierbaren Funktionen auf A. Die Aussagen in Satz 30.11 gelten analog für L(A). Insbesondere ist diese Menge ein reeller Vektorraum, und das Integral ist eine monotone Linearform auf diesem Vektorraum. 431 Beispiel 30.14 Es sei f : R −→ R die Dirichlet-Funktion. Es sei also f (x) = 1 für x ∈ Q und f (x) = 0 für irrationale x ∈ R. Bekanntlich ist f nicht Riemann-integrierbar, und zwar auch dann nicht, wenn die Funktion auf ein kompaktes Intervall eingeschränkt wird (Beispiel 17.9 (3)). Die Menge Q ist abzählbar, also nach Satz 29.10 eine Nullmenge. Wenn wir also tk konstant 0 setzen für alle k ∈ N, dann erhalten wir eine Folge von Treppenfunktionen, die fast überall auf R gegen f konvergiert und außerdem auch monoton steigt und eine R R beschränkte Integralfolge hat. Folglich ist f ∈ L(R) und f (x) dx = limk→∞ tk dx = 0. Dies folgt schneller auch aus Satz 30.12 und der Integrierbarkeit der Nullfunktion. Wie wir sehen, spielen die Funktionswerte 1 auf der Nullmenge Q überhaupt keine Rolle bei der Integration von f , und es ist auch unproblematisch, dass das Integrationsintervall ganz R ist. 30.4 Die Konvergenzsätze der Lebesgue-Theorie Es sei (fk )Rk eine monoton steigende Folge von integrierbaren Funktionen, und die Folge der Integrale fk dvn sei beschränkt. Wenn alle fk Treppenfunktionen sind, dann konvergiert die Folge nach Lemma 30.4 fast überall gegen eine Funktion, und unsere Definition 30.9 hat dafür gesorgt, dass die Grenzfunktion integrierbar ist. Der Satz von Levi besagt, dass in der allgemeineren Situation integrierbarer fk beide Aussagen – die Existenz und die Integrierbarkeit der Grenzfunktion – gültig bleiben. Der Vektorraum L(Rn ) ist demnach abgeschlossen gegenüber der beschriebenen Art von Grenzübergängen. Aus dem langen Beweis nehmen wir ein Stück heraus, indem wir ein Lemma voraus schicken: Lemma 30.15 Es seien eine Funktion f ∈ L(Rn ) und eine Zahl ε > 0 gegeben. Dann existieren Funktionen g, h ∈ M(Rn ) mit Z f = g − h, h≥0 und 0 ≤ h dvn ≤ ε. Beweis. Zunächst ist f = ge − e h mit Funktionen ge und e h in M(Rn ). Nach Definition der Menge M(Rn ) gibt es eine Treppenfunktion t mit Z vn e t≤ h und (e h − t) dvn ≤ ε. Auch −t ist eine Treppenfunktion. Nach Satz 30.7 gehören also die Funktionen g0 := ge − t und h0 := e h − t zu M(Rn ). Diese erfüllen Z vn f = g0 − h0 , h0 ≥ 0 und h0 dvn ≤ ε. vn vn Schließlich setzen wir h := h+ 0 = max{h0 , 0} und g := f + h. Dann gilt h = h0 und g = g0 , und deshalb gehören auch g und h zu M(Rn ) (Satz 30.12), und es ist Z f = g − h, h≥0 und h dvn ≤ ε. 432 Satz 30.16 (Satz von Levi von der monotonen Konvergenz, 1906) Es seiR(fk )k≥1 eine monoton steigende Folge von Funktionen fk ∈ L(Rn ). Die Folge der Integrale fk dvn sei beschränkt. Dann gibt es eine Funktion f ∈ L(Rn ) mit vn f = lim fk , k→∞ und es gilt Z Z lim fk dvn = k→∞ Z f dvn = lim k→∞ fk dvn . Beweis. Nach Voraussetzung ist das Supremum Z Z c := lim fk dvn = sup fk dvn k ∈ N k→∞ eine reelle Zahl. I. Im ersten Schritt beweisen wir die Behauptung unter der zusätzlichen Voraussetzung, dass fk ∈ M(Rn ) für alle k ∈ N ist. Zu jedem k gibt es dann eine monoton steigende Folge (tk,m )m von Treppenfunktionen tk,m mit (beschränkter Integralfolge und) vn fk = lim tk,m . m→∞ Wir setzen Tm = max{t1,m , t2,m , . . . , tm,m }. Nach Lemma 29.14 ist hierdurch eine Folge (Tm )m von Treppenfunktionen definiert. Wir können die Treppenfunktionen tk,m und Tm in dem folgenden Schema anordnen: vn t1,1 ≤ t1,2 ≤ t1,3 ≤ . . . t2,1 ≤ t2,2 ≤ t2,3 ≤ . . . t3,1 ≤ t3,2 ≤ t3,3 ≤ . . . .. .. .. .. .. .. . . . . . . ... T1 ≤ ≤ T2 T3 −→ vn −→ vn −→ .. . f1 f2 f3 .. . ≤ ... Die Funktion Tm ist das Supremum der ersten m Funktionen tk,m in der m-ten Spalte. Wegen tk,m ≤ tk,m+1 gilt Tm ≤ Tm+1 für alle m. Da (tk,m )m fast überall monoton steigend gegen fk strebt, ist außerdem v Tm = max{t1,m , t2,m , . . . , tm,m } ≤n max{f1 , f2 , . . . , fm } = fm Wegen der Monotonie des Integrals folgt daher Z Z Tm dvn ≤ fm dvn ≤ c 433 für alle m. für alle m. Somit ist (Tm )m eine monoton steigende Folge von Treppenfunktionen mit beschränkter Integralfolge. Nach Lemma 30.4 und der Definition des Lebesgue-Integrals gibt es daher eine Funktion f ∈ M(Rn ) mit Z Z vn f = lim Tm und f dvn = lim Tm dvn . (30.2) m→∞ m→∞ Es ist tk,m ≤ Tm für k ≤ m und daher vn vn f, lim tk,m ≤ lim Tm = fk = m→∞ m→∞ insgesamt also vn Z vn Tk ≤ fk ≤ f Z Tk dvn ≤ und somit Z fk dvn ≤ f dvn für alle k. Hieraus und aus (30.2) ergibt sich Z vn f = lim fk k→∞ Z f dvn = lim und fk dvn k→∞ (denn mit den MengenSNk := {x ∈ Rn | fk (x) < Tk (x) oder fk (x) > f (x)} ist auch die abzählbare Vereinigung ∞ k=1 Nk eine Nullmenge.) Unter der Voraussetzung fk ∈ M(Rn ) für alle k ist damit die Behauptung bewiesen. II. Jetzt sei (fk )k eine beliebige Folge, wie sie im Satz gegeben ist. Die Differenzen Fk := fk − fk−1 gehören nach Satz 30.11 zu L(Rn ). Es gilt m X F k = fm − f1 m ≥ 2. für alle k=2 Weil die Folge der fk monoton steigt, gilt Fk ≥ 0 für alle k ≥ 2. Nach Lemma 30.15 gibt es Funktionen Gk und Hk in M(Rn ) mit Z Fk = Gk − Hk , Hk ≥ 0 und Hk dvn ≤ 2−k für alle k ≥ 2. Wegen Fk ≥ 0 und Hk ≥ 0 ist auch Gk = Fk + Hk ≥ 0. Wir setzen gm := m X Gk und hm := k=2 m X Hk k=2 für m ≥ 2. Nach Satz 30.7 gehören diese Funktionen zu M(Rn ). Wegen Gk ≥ 0 und Hk ≥ 0 sind die Folgen (gm )m und (hm )m monoton steigend. Für alle m ≥ 2 ist Z hm dvn = m Z X Hk dvn ≤ k=2 m X k=2 434 2−k < 1 . 2 Die Folge der Integrale der Funktionen gm ist ebenfalls beschränkt, denn es ist m X gm = (Fk + Hk ) = fm − f1 + hm (30.3) k=2 und somit Z Z gm dvn = Z fm dvn − Z f1 dvn + Z hm dvn < c − f1 dvn + 1 . 2 Auf die Folgen (gm )m und (hm )m ist somit das Ergebnis aus Teil I des Beweises anwendbar. Danach gibt es Funktionen g und h in M(Rn ) mit vn g = lim gm , m→∞ vn h = lim hm , m→∞ Z Z g dvn = lim m→∞ Z gm dvn , Z h dvn = lim m→∞ hm dvn . Wir setzen nun f := g − h + f1 . Nach Satz 30.11 ist f ∈ L(Rn ). Gemäß (30.3) ist fm = gm − hm + f1 , und es folgt vn f = g − h + f1 = lim (gm − hm ) + f1 = lim fm . m→∞ m→∞ In derselben Weise erhält man Z Z Z Z Z f dvn = lim gm dvn − lim hm dvn + f1 dvn = lim fm dvn . m→∞ m→∞ m→∞ Damit ist die Behauptung auch im allgemeinen Fall bewiesen. Definition 30.17 Wie in Satz 30.16 sei (fk )k eine monoton steigende Folge von Funktionen in L(Rn ) mit beschränkter Integralfolge. Dann heißt (fk )k eine Levi-Folge. Ist f ∈ L(Rn ) und vn f = lim fk , k→∞ dann heißt (fk )k eine Levi-Folge zur Funktion f . Die Monotonie der Folge (fk )k ist eine ziemlich einschränkende Voraussetzung in Satz 30.16. Es ist wichtig zu wissen, dass auch einige andere Grenzübergänge nicht aus dem Vektorraum der integrierbaren Funktionen hinausführen. Das wird in den Sätzen von Lebesgue und Fatou gezeigt. Zur Vorbereitung dient das folgende Resultat: Lemma 30.18R Es sei f ∈ L(Rn ) und f ≥ 0. Genau dann gilt f (x) = 0 für fast alle x ∈ Rn , wenn f dvn = 0 ist. Beweis. Aufgabe 11.1 435 Satz 30.19 (Satz von Lebesgue über dominierte Konvergenz) Es sei (fk )k eine Folge von Funktionen in L(Rn ), die fast überall gegen eine Funktion f : Rn −→ R konvergiert, und es existiere eine Funktion g ∈ L(Rn ) mit |fk | ≤ g k ∈ N. für alle Dann gilt f ∈ L(Rn ) und Z Z f dvn = lim k→∞ fk dvn . Dieser und der folgende Satz von Lebesgue sind unter den Namen Satz über dominierte ” Konvergenz“, Satz über majorisierte Konvergenz“ und Satz über beschränkte Konvergenz“ ” ” bekannt. Alle Bezeichnungen sind durch die entscheidende Bedingung begründet, dass die Funktionen |fk | eine gemeinsame integrierbare obere Schranke g besitzen. Beweis. Für x ∈ Rn und natürliche Zahlen m setzen wir gm (x) := sup{fk (x) | k ≥ m} und hm (x) := inf{fk (x) | k ≥ m}. Die Einführung dieser Funktionen dient dazu, den Satz von Levi (Satz 30.16) zur Anwendung zu bringen. Offenbar bestehen die Ungleichungen hm ≤ fm ≤ gm , gm+1 ≤ gm , hm ≤ hm+1 . Ob die Funktionen gm und hm zu L(Rn ) gehören, geht aus Satz 30.11 nicht direkt hervor. Dieser Satz zeigt jedoch, dass für alle natürlichen Zahlen m und j die Funktionen Gm,j := max{fm , fm+1 , . . . , fm+j } in L(Rn ) liegen. Für jedes m ist die Folge (Gm,j )j monoton steigend und nach oben durch g beschränkt, und sie konvergiert gegen R die Grenzfunktion gm . Die Folge der Integrale der Funktionen Gm,j ist nach oben durch g dvn beschränkt. Also ist (Gm,j )j eine Levi-Folge. Nach Satz 30.16 konvergiert sie fast überall gegen eine integrierbare Funktion gem , die fast überall mit gm identisch ist. Analog erhalten wir für jedes m eine monoton fallende Folge (Hm,j )j von Funktionen Hm,j := min{fm , fm+1 , . . . , fm+j } R in L(Rn ), die gegen hm konvergieren und deren Integrale nach unten durch (−g) dvn beschränkt sind. Wir können den Satz von Levi (Satz 30.16) auf die Folge (−Hm,j )j anwenden; danach konvergiert (Hm,j )j fast überall gegen eine integrierbare Funktion e hm , die fast überall mit hm identisch ist. In Anbetracht von Satz 30.12 ist damit gm , hm ∈ L(Rn ) nachgewiesen. Die Folge (gm )m ist monoton fallend, und (hm )m ist monoton steigend. Gemäß Satz 11.19 gilt lim gm = lim sup fm , m→∞ lim hm = lim inf fm . m→∞ m→∞ m→∞ R R R Die Folgen der Integrale (−gm ) dvn und hm dvn sind nach oben durch g dvn beschränkt. Daher ist der Satz von Levi nochmals anwendbar. Er liefert eine Funktion fe ∈ L(Rn ) mit vn vn vn fe = lim hm = lim inf fk = f = lim sup fk = lim gm . m→∞ m→∞ k→∞ k→∞ 436 vn Es ist also fe = f . Aus Satz 30.12 folgt f ∈ L(Rn ). Der Satz von Levi liefert außerdem auch Z Z Z Z e hm dvn = lim gm dvn . f dvn = f dvn = lim m→∞ m→∞ Wegen hm ≤ fm ≤ gm folgt also Z Z f dvn = lim m→∞ Bemerkung 30.20 fm dvn . Die Formel in Satz 30.19 schreibt man gerne in der Gestalt Z Z lim fk (x) dvn (x) = lim fk (x) dvn (x). k→∞ k→∞ Das ist gut einprägsam, aber nicht ganz korrekt. Denn der Grenzwert limk→∞ fk (x) braucht vn nicht für alle x zu existieren. Es gilt vielmehr nur limk→∞ fk = f für eine integrierbare Funktion f . Ein einfaches Beispiel für n = 1 erhalten wir, wenn wir fk (x) := 0 für irrationale x und fk (x) := (−1)k für rationale x setzen. Es fragt sich, ob die Voraussetzung |fk | ≤ g ∈ L(Rn ) in Satz 30.19 durch eine andere und möglichst schwächere ersetzbar ist. Einfache Beispiele zeigen, dass man jedenfalls nicht völlig auf eine derartige Voraussetzung verzichten kann: Beispiel 30.21 Es sei n = 1. Wir definieren k · xk für 0 ≤ x ≤ 1, fk (x) := 0 für x < 0 und für x > 1. Dann gilt lim fk (x) = 0 k→∞ für alle x ∈ R \ {1}. Fast überall ist also limk→∞ fk = 0, und es ist Z lim fk dv1 = 0. k→∞ Andererseits erhalten wir, wenn wir das Ergebnis von Satz 30.11 über die Übereinstimmung von Riemann- und Lebesgue-Integral vorwegnehmen, Z Z 1 k = 1. lim fk dv1 = lim kxk dx = lim k→∞ k→∞ 0 k→∞ k + 1 Wir beweisen nun eine Variante des Satzes über dominierte Konvergenz. Darin wird die Existenz einer integrierbaren Schranke g nicht für die Folgenglieder fk , sondern für die Grenzfunktion f postuliert: Satz 30.22 (Satz von Lebesgue über dominierte Konvergenz) Es sei (fk )k eine n n Folge von Funktionen in L(R ), die fast überall gegen eine Funktion f : R −→ R konvergiert. Es existiere eine Funktion g ∈ L(Rn ) mit |f | ≤ g. Dann gilt f ∈ L(Rn ). 437 g fk gk fk −g Abbildung 97: Zum Beweis von Satz 30.22 Beweis. Wir führen das Problem auf Satz 30.19 zurück, indem wir fk (x) g(x) gk (x) := −g(x) für für für |fk (x)| ≤ g(x), fk (x) > g(x), fk (x) < −g(x) setzen. (In Abbildung 97 wird die Definition der Funktionen gk illustriert.) Es gilt gk = min{g, max{fk , −g}}. Nach Satz 30.11 ist also gk ∈ L(Rn ) für alle k. Offenbar ist |gk | ≤ g für alle k. Wegen vn vn f = limk→∞ fk und |f | ≤ g gilt auch f = limk→∞ gk . Daher ist die erste Version des Satzes von Lebesgue über dominierte Konvergenz (Satz 30.19) auf die Folge (gk )k anwendbar. Damit R R n folgt f ∈ L(R ) und f dvn = limk→∞ gk dvn . Beispiel 30.23 Im Gegensatz zu Satz 30.19 enthält Satz 30.22 das R keine Aussage über R Integral der Grenzfunktion f . Im Allgemeinen gilt hier keineswegs f dvn = limk→∞ fk dvn . Das wird durch das folgende Beispiel belegt. Wir definieren die Funktionen fk : R −→ R durch fk := χ[k;2k] . R R Jedes fk ist eine Treppenfunktion. Es ist fk (x) dx = k und limk→∞ fk (x) dx = ∞. Die einzige Stufe“ der Treppenfunktion fk verschiebt sich mit wachsenden k immer weiter nach ” rechts. Daher ist lim R k→∞ fk (x) = 0 für alle x. Folglich ist Satz 30.22 mit f = 0 und g = 0 anwendbar. Es ist limk→∞ fk (x) dx = 0. Das Integral der Grenzfunktion f hat nichts mit dem (uneigentlichen) Grenzwert der Integralfolge zu tun. Man kann in diesem Beispiel die Funktionen fk durch (−1)k fk ersetzen; dann bleibt die Grenzfunktion ungeändert, aber die Folge der Integrale wird sogar divergent. Wenn eine Folge von integrierbaren Funktionen nicht fast überall konvergiert, dann kann man unter gewissen Voraussetzungen immerhin zeigen, dass ihr Limes superior und Limes inferior integrierbar sind. Das folgende Resultat ist nach P. Fatou (1878 – 1929) benannt. 438 Satz 30.24 (Lemma von Fatou) Es sei (fk )k eine Folge von Funktionen in L(Rn ). Es n existiere eine Funktion g ∈ L(R ) und eine reelle Zahl c mit Z fk ≥ g und fk dvn ≤ c für alle k. Dann gibt es eine Funktion f ∈ L(Rn ) mit Z vn f = lim inf fk , k→∞ Z f dvn ≤ lim inf und es gilt k→∞ fk dvn . R Unter den Voraussetzungen fk ≤ g und fk dvn ≥ c für alle k gilt Z Z lim sup fk dvn ≥ lim sup fk dvn . k→∞ k→∞ Beweis. Wir gehen ähnlich vor wie im Beweis von Satz 30.19 und setzen hm (x) := inf{fk (x) | k ≥ m} und Hmj := min{fm , fm+1 , . . . , fm+j }. Dann gilt g ≤ hm−1 ≤ hm ≤ fm , und für jedes m ist (Hmj )j eine monoton fallende Folge von Funktionen mit lim Hmj = hm . j→∞ Nach Satz 30.11 gehören alle Hmj zu L(Rn ). Es gilt Z Z Hmj ≥ g, also Hmj dvn ≥ g dvn für alle j. Aus dem Satz von Levi (Satz 30.16) folgt daher hm ∈ L(Rn ). Dies gilt für jedes m. R Die Folge (hm )m ist monoton steigend. Wegen hm ≤ fm und der Voraussetzung fk dvn ≤ c ist die Folge der Integrale der Funktionen hm nach oben beschränkt. Daher ist Satz 30.16 nochmals anwendbar. Man erhält danach eine Funktion f ∈ L(Rn ) mit Z Z vn f = lim hm = lim inf fk f dvn = lim hm dvn . und m→∞ m→∞ k→∞ (Dass (hm )m gegen lim inf k→∞ fk konvergiert, folgt wieder aus Satz 11.19.) Wegen hm ≤ fm ist Z Z hm dvn ≤ fm dvn und folglich Z Z f dvn = lim m→∞ Z hm dvn ≤ lim inf k→∞ fk dvn . Damit sind die Aussagen über den Limes inferior bewiesen. Die analogen Aussagen über den Limes superior sind dann klar. 439 Bemerkung 30.25 R R (1) In Satz 30.24 sind lim inf k→∞ fk dvn und lim inf k→∞ fk dvn im Allgemeinen verschieden. Dies wird ebenfalls durch Beispiel 30.21 belegt. (2) Wenn in Satz 30.24 die Voraussetzungen zum Limes inferior und Limes superior beide erfüllt sind, dann erhält man (mit derselben kleinen Unkorrektheit wie in der Bemerkung zu Satz 30.19) die Ungleichungskette Z Z Z Z lim inf fk dvn ≤ lim inf fk dvn ≤ lim sup fk dvn ≤ lim sup fk dvn . k→∞ k→∞ k→∞ k→∞ So kann man insbesondere unter den Voraussetzungen in Satz 30.19 R schließen. Dann vn lim sup f , und es folgt limk→∞ fk dvn = gilt zusätzlich lim inf f k→∞ k = k→∞ k R limk→∞ fk dvn . Insofern ist Satz 30.19 als Spezialfall in Satz 30.24 enthalten. (3) Alle Konvergenzsätze dieses Abschnitts gelten auch für Integrale über Teilmengen A ⊆ Rn . Definition 30.13 macht klar, wie dies zu begründen ist. 30.5 Vergleich zwischen Riemann- und Lebesgue-Integral Definition 30.26 Für eine beliebige Funktion f : Rn −→ R setzt man Tr(f ) = supp(f ) := f −1 (R \ {0}) = {x ∈ Rn | f (x) 6= 0} und nennt Tr(f ) den Träger von f . (Die zweite Notation supp(f ) rührt vom englischen support“ her.) ” Beispiel 30.27 Für die Dirichlet-Funktion f = χQ : R −→ R gilt f −1 (R \ {0}) = Q. Weil Q dicht in R ist, ist hier Tr(f ) = R. Definition 30.28 Es sei f : Rn −→ R eine beschränkte Funktion mit beschränktem und folglich kompaktem Träger. Dann existieren Treppenfunktionen t und T mit t ≤ f ≤ T . Wie im eindimensionalen Fall sind daher das Riemannsche Unterintegral bzw. Oberintegral von f , nämlich (Z ) Z t dvn t ∈ Tn , t ≤ f , f dvn = sup ( ) Z Z f dvn = inf T dvn T ∈ Tn , T ≥ f R R wohldefinierte reelle Zahlen. Offenbar gilt f dvn ≤ f dvn . Falls hierin Gleichheit besteht, R dann heißt die Funktion f Riemann-integrierbar, und der gemeinsame Wert f dvn = R R f dvn = f dvn heißt das (Riemann-)Integral von f . R Die Schreibweise f dvn für das Riemann-Integral ist dieselbe wie für das Lebesgue-Integral. Dies wird durch den folgenden Satz legitimiert. 440 Satz 30.29 Es sei f : Rn −→ R eine beschränkte Funktion mit kompaktem Träger. Wenn f Riemann-integrierbar ist, dann ist f Lebesgue-integrierbar, und das Riemann-Integral von f ist gleich dem Lebesgue-Integral von f . Beweis. Die Funktion f sei Riemann-integrierbar. Zu jeder natürlichen Zahl k gibt es dann Treppenfunktionen tk und Tk mit Z 1 tk ≤ f ≤ Tk und (Tk − tk ) dvn < . k Diese Eigenschaften bleiben erhalten, wenn wir tk durch max{t1 , t2 , . . . , tk } und Tk durch min{T1 , T2 , . . . , Tk } ersetzen. Daher dürfen wir annehmen, dass (tk )k eine R monoton steigende R und (Tk )k eine monoton fallende Folge ist. Die Folgen Rder Integrale tk dvn und Tk dvn sind monoton und beschränkt, also konvergent. Wegen (Tk − tk ) dvn < k1 sind die beiden Grenzwerte identisch und gleich dem Riemannschen Integral von f . Die monotonen Folgen (tk )k und (Tk )k haben reellwertige Grenzfunktionen f1 = limk→∞ tk und f2 = limk→∞ Tk . Diese erfüllen f1 ≤ f ≤ f2 , und gemäß Definition 30.6 gehören f1 und −f2 beide zu M(Rn ). Es gilt Z Z Z Z f1 dvn = lim tk dvn = lim Tk dvn = f2 dvn k→∞ k→∞ vn vn vn und f2 − f1 ≥ 0. Hieraus und aus Lemma 30.18 folgt f1 = f2 und somit f = f1 = R f2 . Also n ist f Lebesgue-integrierbar, es ist sogar f ∈ M(R ), und das Lebesgue-Integral f dvn ist gleich dem Riemann-Integral von f . Die Stetigkeit bzw. die Monotonie sind hinreichend für die Riemannsche Integrierbarkeit einer Funktion von einer Variablen. Wir kennen aber bisher kein zugleich hinreichendes und notwendiges Kriterium für die Riemannsche Integrierbarkeit, das sich nur auf innere“ ” Eigenschaften der Funktionen beruft. Erstaunlicherweise liefert die Lebesguesche Integrationstheorie ein solches Kriterium: Die Funktion f muss fast überall stetig sein. Monotone Funktionen haben diese Eigenschaft, weil sie höchstens abzählbar unendlich viele Unstetigkeitsstellen haben (Aufgabe 3.3). Satz 30.30 (Kriterium von Lebesgue) Es sei f : Rn −→ R eine beschränkte Funktion mit kompaktem Träger. Die Funktion f ist genau dann Riemann-integrierbar, wenn sie fast überall stetig ist. Beweis. I. Die Funktion f sei Riemann-integrierbar. Wie im Beweis von Satz 30.29 erhalten wir dann Folgen (tk )k und (Tk )k von Treppenfunktionen tk und Tk , wobei (tk )k monoton steigt, (Tk )k monoton fällt, tk ≤ f ≤ Tk für alle k ist und lim tk = lim Tk = f k→∞ k→∞ fast überall gilt. Die Funktionen tk und Tk sind mit Ausnahme der Ränder gewisser Quader überall stetig. Diese Ränder sind Nullmengen (Beispiel 29.11 (1)). Deshalb sind tk und Tk fast überall stetig. 441 Aus Satz 29.10 (2) folgt somit die Existenz einer Nullmenge N , so dass alle Funktionen tk und Tk auf Rn \ N stetig sind und die Folgen (tk )k und (Tk )k auf dieser Menge gegen f konvergieren. Es seien ein Punkt ξ ∈ Rn \ N und eine Zahl ε > 0 gegeben. Dazu gibt es eine natürliche Zahl m mit f (ξ) − ε ≤ tm (ξ) ≤ f (ξ) ≤ Tm (ξ) ≤ f (ξ) + ε. Weil die Treppenfunktionen tm und Tm im Punkt ξ stetig sind, gibt es eine Umgebung U von ξ, auf der tm und Tm konstant sind. Für alle x ∈ U folgt daher f (ξ) − ε ≤ tm (ξ) = tm (x) ≤ f (x) ≤ Tm (x) = Tm (ξ) ≤ f (ξ) + ε und somit |f (x) − f (ξ)| ≤ ε. Also ist f im Punkt ξ stetig. Damit ist gezeigt, dass f in jedem Punkt außerhalb der Nullmenge N stetig ist. II. Jetzt wird vorausgesetzt, dass f fast überall stetig ist. Der Träger von f ist in einem gewissen Quader Q = I1 × . . . × In enthalten. Durch fortgesetzte Halbierung der Intervalle I1 , . . . , In gewinnen wir eine Folge von Parkettierungen Q = Qk1 ∪ Qk2 ∪ . . . ∪ Qk,N (k) des Quaders Q in N (k) = 2kn Teilquader gleichen Volumens, so dass die Parkettierung zum Index k + 1 eine Verfeinerung der Parkettierung zum Index k ist und so dass die gemeinsamen Durchmesser δk der Quader Qk1 , . . . , Qk,N (k) eine Nullfolge bilden. Wir definieren Treppenfunktionen tk und Tk , indem wir tk (x) = Tk (x) = 0 für x ∈ Rn \ Q und tk (x) = inf{f (y) | y ∈ Qkj }, Tk (x) = sup{f (y) | y ∈ Qkj } für x ∈ Qkj und j = 1, . . . , N (k) setzen. Offenbar gilt dann tk ≤ tk+1 ≤ f ≤ Tk+1 ≤ Tk für alle k. Daher sind die Folgen (tk )k und (Tk )k überall konvergent, und es gilt lim tk (x) ≤ f (x) ≤ lim Tk (x) k→∞ k→∞ für alle x ∈ Rn . Wir zeigen nun: Wenn f im Punkt ξ stetig ist, dann gilt lim tk (ξ) = f (ξ) = lim Tk (ξ). k→∞ k→∞ Beweis: Es sei eine Zahl ε > 0 gegeben. Wegen der Stetigkeit von f in ξ gibt es eine Umgebung U von ξ mit |f (x) − f (ξ)| < ε für alle x ∈ U . Weil die zuvor erklärten Durchmesser δk eine Nullfolge bilden, gibt es ein k0 , so dass für jedes k ≥ k0 der Teilquader Qkj mit ξ ∈ Qkj vollständig in U enthalten ist. Für jedes k ≥ k0 folgt daher nach Definition der Funktionen tk , Tk |tk (ξ) − f (ξ)| ≤ ε und Daraus folgt die Behauptung. 442 |Tk (ξ) − f (ξ)| ≤ ε. Weil f nach unserer Annahme fast überall stetig ist, erhalten wir aus dem letzten Ergebnis für fast alle x ∈ Rn . lim tk (x) = f (x) = lim Tk (x) k→∞ k→∞ Auf die Folgen (tk )k und (−Tk )k ist der Satz von Levi (Satz 30.16) anwendbar. Danach gibt es Funktionen g und h in L(Rn ) mit g = lim tk , k→∞ und es ist Z h = lim Tk k→∞ Z g dvn = lim k→∞ fast überall, Z tk dvn , Z h dvn = lim k→∞ Tk dvn . Folglich ist auch f = g und f = h fast überall. Daher ist f Lebesgue-integrierbar, und es ist sogar f ∈ M(Rn ). Weiter folgt Z Z Z Z Z Z f dvn ≥ lim tk dvn = g dvn = h dvn = lim Tk dvn ≥ f dvn . k→∞ k→∞ R R Es folgt f dvn = f dvn , und somit ist f Riemann-integrierbar. Die Stellung uneigentlicher Riemann-Integrale im Rahmen der Lebesgueschen Integrationstheorie wird durch den folgenden Satz geklärt: Satz 30.31 Für R die Funktion f : I −→ R auf dem reellen Intervall I sei das uneigentliche Riemann-Integral I f (x) dx konvergent. Dann gilt: Die Funktion R f ist genau dann Lebesgueintegrierbar, wenn auch das uneigentliche Riemann-Integral I |f (x)| dx konvergiert, und in diesem Fall ist das Lebesgue-Integral von f gleich dem uneigentlichen Riemann-Integral von f . Beweis. Aufgabe 12.1 R∞ Beispiel 30.32 Das uneigentliche Riemann-Integral −∞ sinx x dx konvergiert (Beispiel 21.7). Dennoch ist die Funktion x 7→ sinx x nicht Lebesgue-integrierbar, denn das uneigentliche Integral ihres Betrages divergiert. Nach dem zweiten Teil des Hauptsatzes der Differential- und Integralrechnung (Satz 18.3) lässt sich das Integral über die Ableitung f 0 einer differenzierbaren Funktion f : [a; b] −→ R als Differenz der Funktionswerte von f an den Integrationsgrenzen darstellen, sofern f 0 stetig ist. Es stellt sich die Frage, inwieweit man hierbei die Voraussetzung der Stetigkeit von f 0 abschwächen kann. Im Rahmen der Riemannschen Integrationstheorie kann man zeigen, dass der Satz gültig bleibt, wenn man von f 0 lediglich die Riemann-Integrierbarkeit voraussetzt. Diese Voraussetzung ist natürlich unverzichtbar, und sie folgt nicht automatisch aus der Tatsache, dass f 0 eine Ableitung ist. Offensichtliche Gegenbeispiele liefern differenzierbare Funktionen mit auf Kompakta unbeschränkter Ableitung wie f (x) := x2 · sin x12 (Beispiel 14.21 (2)). Aber auch die Beschränktheit der Ableitung sichert nicht deren RiemannIntegrierbarkeit, wie ein berühmtes Beispiel von Volterra zeigt (Aufgabe 12.2). Im Rahmen der Lebesgue-Theorie können solche Pathologien nicht auftreten: Hier genügt es, die Beschränktheit von f 0 vorauszusetzen, damit f 0 Lebesgue-integrierbar ist und die Aussage im zweiten Teil des Hauptsatzes für f 0 gilt. 443 Satz 30.33 Es sei f : [a; b] −→ R differenzierbar, und die Ableitung f 0 sei beschränkt. Dann ist f 0 Lebesgue-integrierbar, und es gilt Z f 0 (x) dv1 (x) = f (b) − f (a). [a,b] Beweis. O.B.d.A. dürfen wir annehmen, dass f auf ganz R definiert und differenzierbar ist mit |f 0 (x)| ≤ M für alle x ∈ R. Wir betrachten die Funktionen gk : R −→ R, die durch 1 − f (x) für alle x ∈ R gk (x) := k · f x + k erklärt sind. Die Riemann- und damit die Lebesgue-Integrierbarkeit von gk auf [a; b] ist klar, da gk stetig ist. Nach Definition der Ableitung konvergiert (gk )k punktweise gegen f 0 . Es seien ein x ∈ R und ein k ∈ N gegeben. Dann gibt es nach dem Mittelwertsatz der Differentialrechnung ein ξ zwischen x und x + k1 mit f x + k1 − f (x) gk (x) = = f 0 (ξ). 1/k Dies zeigt |gk (x)| ≤ M für alle x ∈ R und alle k. Aufgrund der Integrierbarkeit der konstanten Funktion x 7→ M auf dem beschränkten Intervall [a, b] folgt mit dem Satz von Lebesgue über dominierte Konvergenz (Satz 30.19) die Lebesgue-Integrierbarkeit von f 0 auf [a, b] und Z k→∞ k→∞ [a,b] Wegen der Stetigkeit von f ist Z b gk (x) dx. gk (x) dv1 (x) = lim f (x) dv1 (x) = lim [a,b] Z Z 0 a x f (t) dt F (x) := a nach dem Hauptsatz der Differential- und Integralrechnung differenzierbar mit F 0 = f . Damit folgt für alle k Z b Z b 1 gk (x) dx = k · f x+ − f (x) dx k a a 1 1 = k· F b+ − F (b) − F a + + F (a) k k −→ F 0 (b) − F 0 (a) = f (b) − f (a) (k → ∞). Dies zeigt die Behauptung. 444 31 31.1 Messbarkeit Messbare Mengen In den Definitionen 29.3 und 30.2 haben wir das Volumen zunächst von Quadern und dann von parkettierbaren Mengen erklärt. Wir wenden uns jetzt der Aufgabe zu, das Volumenmaß vn (M ) für eine möglichst große Menge von Teilmengen M ⊆ Rn zu definieren. Es liegt nahe, wieRin Definition 30.2 die charakteristische Funktion χM von M zu verwenden und vn (M ) = χM dvn zu setzen, falls χM Lebesgue-integrierbar ist. Auf diese Weise erhält man tatsächlich alle messbaren Mengen mit endlichem Volumen. Es ist jedoch sinnvoll, auch einige viel zu große“ Mengen M messbar zu nennen und ihnen das Volumenmaß vn (M ) = ∞ zu ” geben. Dies geschieht wie folgt: Definition 31.1 Zur Abkürzung setzen wir fortan Wn (j) := [−j; j]n ; Wn (j) soll also der n-dimensionale abgeschlossene Würfel der Kantenlänge 2j mit dem Nullpunkt als Mittelpunkt sein. Eine Menge A ⊆ Rn heißt messbar, falls die charakteristische Funktion χA für alle j ∈ N auf dem Würfel Wn (j) Lebesgue-integrierbar ist. Der (evtl. uneigentliche Grenzwert) Z vn (A) := lim χA dvn ∈ R ∪ {∞} j→∞ Wn (j) heißt das Volumenmaß oder das Volumen der Menge A. Bemerkung 31.2 (1) Die Existenz Rdes Grenzwerts in der Definition von vn (A) ergibt sich daraus, dass die Integralfolge Wn (j) χA dvn monoton steigt. Natürlich ist der Fall vn (A) = ∞ möglich. j (2) Ist A ⊆ Rn eine beschränkte messbare Menge, so ist A in einem geeigneten Würfel Wn (j) enthalten, und daher ist Z vn (A) = χA dvn . Allgemeiner gilt: Ist A ⊆ Rn eine messbare Menge mit vn (A) < ∞, so ist (χA · χWn (j) )j eine punktweise gegen χA konvergente, monoton steigende Folge Lebesgue-integrierbarer Funktionen mit durch vn (A) beschränkter Integralfolge; aus dem Satz von Levi (Satz 30.16) folgt daher die Lebesgue-Integrierbarkeit von χA auf ganz Rn und Z vn (A) = χA dvn . (3) Jede parkettierbare Menge P ist messbar, und ihr Volumen vn (P ) ist identisch mit dem in Definition 30.2 erklärten Volumen von P . 445 (4) Jede Nullmenge N ⊆ Rn ist messbar, und sie hat das Volumen vn (N ) = 0. Dies folgt aus Lemma 30.18. (5) Der Gesamtraum Rn ist messbar mit vn (Rn ) = ∞. (6) Aus der Monotonie des Integrals folgt die Monotonie des Maßes: Für messbare Mengen A, B im Rn mit A ⊆ B gilt vn (A) ≤ vn (B). Ist f ∈ L(Rn ) und ist A eine messbare Menge, dann existiert das Integral RLemma 31.3 R f dvn = f · χA dvn . A Beweis. Nach Definition von Lebesgue-Integrierbarkeit gibt es eine Folge (tk )k von Treppenfunktionen, die fast überall gegen f konvergiert. Es sei ein j ∈ N gegeben. Da χA · χWn (j) = χA∩Wn (j) wegen der Messbarkeit von A Lebesgueintegrierbar ist, gibt es auch eine Folge (Tk )k von Treppenfunktionen, die fast überall gegen χA∩Wn (j) konvergiert. Nach Lemma 29.14 sind auch tk · Tk Treppenfunktionen (insbesondere Lebesgue-integrierbar), die Folge (tk · Tk )k konvergiert fast überall gegen f · χA∩Wn (j) , und es ist |f · χA∩Wn (j) | ≤ |f | ∈ L(Rn ). Daher ist die zweite Variante des Satzes von Lebesgue über dominierte Konvergenz (Satz 30.22) anwendbar, und es folgt f · χA∩Wn (j) ∈ L(Rn ). Dies gilt für alle j ∈ N. Setzt man fj := f · χA∩Wn (j) , so ist (fj )j also eine Folge Lebesgue-integrierbarer Funktionen, die punktweise gegen f · χA konvergiert, und es gilt |fj | ≤ |f | ∈ L(Rn ) für alle j. Aus der ersten (oder wegen |f · χA | ≤ |f | ∈ L(Rn ) auch aus der zweiten) Variante des Satzes von Lebesgue über dominierte Konvergenz (Satz 30.19) folgt nunmehr auch f · χA ∈ L(Rn ), wie behauptet. Satz 31.4 Die Mengen A1 , A2 , A3 , . . . ⊆ Rn seien messbar. Dann gelten die folgenden Aussagen: (1) Die Differenz A1 \ A2 ist messbar. Für jedes k sind die Mengen A1 ∩ . . . ∩ Ak und A1 ∪ . . . ∪ Ak messbar. Wenn vn (A1 ∩ A2 ) 6= ∞ ist, dann ist vn (A1 \ A2 ) = vn (A1 ) − vn (A1 ∩ A2 ), vn (A1 ∪ A2 ) = vn (A1 ) + vn (A2 ) − vn (A1 ∩ A2 ). (2) Der Durchschnitt T∞ k=1 Ak und die Vereinigung S∞ k=1 Ak sind messbar. (3) Es gilt vn ∞ \ k=1 ! Ak = lim vn (Ak ), k→∞ falls A1 ⊇ A2 ⊇ A3 ⊇ . . . und die Volumenmaße vn (Ak ) von einem gewissen k an endlich sind, und ! ∞ [ vn Ak = lim vn (Ak ), falls A1 ⊆ A2 ⊆ A3 ⊆ . . . . k=1 k→∞ (4) Für alle k, l mit k 6= l sei Ak ∩ Al eine Nullmenge. Dann gilt ! ! m m ∞ ∞ [ X [ X vn Ak = vn (Ak ) für alle m und vn Ak = vn (Ak ). k=1 k=1 k=1 446 k=1 Beweis. (1) Die charakteristischen Funktionen χAk sind nach Voraussetzung auf allen Würfeln Wn (j) Lebesgue-integrierbar. Es gilt χA1 ∩A2 = χA1 · χA2 , χA1 \A2 = χA1 · (1 − χA2 ) = χA1 − χA1 · χA2 , χA1 ∪A2 = χA1 + χA2 − χA1 ∩A2 = max{χA1 , χA2 } und allgemeiner χA1 ∩...∩Ak = χA1 · . . . · χAk = min{χA1 , . . . , χAk }, χA1 ∪...∪Ak = 1 − (1 − χA1 ) · . . . · (1 − χAk ) = max{χA1 , . . . , χAk }. Aus Lemma 31.3, angewandt auf A1 statt A und auf die Funktion f := χA2 · χWn (j) ∈ L(Rn ), folgt die Lebesgue-Integrierbarkeit von χA1 ·χA2 auf Wn (j) für alle j ∈ N. Damit und mit Satz 30.11 ergibt sich aus obigen Formeln die Lebesgue-Integrierbarkeit von χA1 \A2 , χA1 ∩...∩Ak und χA1 ∪...∪Ak auf allen Wn (j). Dies zeigt die Messbarkeit aller in (1) genannten Mengen. Aus der Additivität des Integrals folgen die Formeln in (1), sofern vn (A1 ∩ A2 ) 6= ∞. (2) Die charakteristischen Funktionen der Vereinigung und des Durchschnitts aller Ak können als Grenzfunktionen lim max{χA1 , . . . , χAk } k→∞ und lim min{χA1 , . . . , χAk } k→∞ geschrieben werden; dabei sind die Funktionenfolgen (max{χA1 , . . . , χAk })k und (min{χA1 , . . . , χAk })k monoton steigend bzw. fallend, und die zugehörigen Integralfolgen sind auf jedem Würfel Wn (j) nach oben durch vn (Wn (j)) bzw. nach unten durch 0 beschränkt. Aus dem Satz von Levi folgt daher die Integrierbarkeit der o.g. Grenzfunktionen auf allen Würfeln Wn (j) und hieraus die Messbarkeit der Vereinigung und des Durchschnitts aller Ak . Dies zeigt (2). (3) Unter den Voraussetzungen in (3) sind die charakteristischen Funktionen der Vereinigung beziehungsweise des Durchschnitts der Ak einfach die Grenzfunktion lim χAk , k→∞ und die Folgen (χAk )k sind monoton steigend beziehungsweise fallend. Falls die Ak eine absteigende Folge bilden und vn (Ak ) < ∞ (also χAk ∈ L(Rn )) für hinreichend große k gilt, so folgt aus dem Satz von Levi (angewandt auf die Folge (−χAk )k , deren Integralfolge nach oben durch 0 beschränkt ist) ! Z Z ∞ \ vn Ak = lim χAk dvn = lim χAk dvn = lim vn (Ak ). k=1 k→∞ k→∞ k→∞ Nun sei die Folge (Ak )k Raufsteigend. Falls vn (Ak ) < ∞ für alle k und falls die Folge der Integrale vn (Ak ) = χAk dvn beschränkt ist, so folgt die Behauptung über das 447 Volumen der Vereinigung der Ak wiederum aus dem Satz von Levi. Anderenfalls ist limk→∞ vn (Ak ) = ∞, und aufgrund von ! ∞ [ vn Ak ≥ vn (Am ) für alle m k=1 ist auch das Volumen der Vereinigung gleich ∞. (4) Unter den Voraussetzungen in (4) ist vn χA1 ∪...∪Am = χA1 + . . . + χAm für alle m, und eine entsprechende Formel gilt für die charakteristische Funktion der Vereinigung aller Ak . Hieraus ergibt sich sofort die Formel für das Volumen der endlichen Vereinigung. Aus dem Satz von Levi (angewandt auf die Würfel Wn (j)) folgt auch die Formel für das Volumen der unendlichen Vereinigung. Beispiel 31.5 Wenn vn (Ak ) = ∞ für alle k ist, dann ist T die Formel in (3) für das Maß des Durchschnitts nicht allgemein richtig. Es könnte nämlich ∞ k=1 Ak = ∅ sein. Ein Beispiel hierfür liefern die Mengen Ak := [k; ∞[ mit k ∈ N. Alle topologisch gutartigen“ Mengen sind messbar: ” Satz 31.6 Alle offenen, alle abgeschlossenen und alle kompakten Teilmengen in Rn sind messbar. Beweis. Es sei eine offene Menge D ⊆ Rn gegeben. Für natürliche Zahlen k bezeichnen wir mit Qnk die Menge aller kompakten Quader Q = I1 × . . . × In , worin die Anfangs- und die Endpunkte aller Intervalle Ij rationale Zahlen der Gestalt a/2k mit a ∈ Z sind. (Die Nenner dieser Zahlen sollen also Teiler von 2k sein; es wird nicht verlangt, dass die Zähler a ungerade sind.) Die Menge Qnk ist abzählbar unendlich. Es bezeichne [ Pk = Q Q∈Qnk ,Q⊆D die Vereinigungsmenge aller in D enthaltenen Quader aus Qnk . Die Menge Pk ist nach Satz 31.4 (2) messbar, weil nur endlich oder abzählbar unendlich viele Quader Q vereinigt werden. Offenbar gilt ∞ [ P1 ⊆ P 2 ⊆ P3 ⊆ . . . und Pk ⊆ D, k=1 und nach Satz 31.4 (2) ist auch die Vereinigung aller Pk eine messbare Menge. Wir zeigen nun, dass D gleich dieser Vereinigungsmenge und somit messbar ist. Dazu sei ein beliebiger Punkt x ∈ D gegeben. Weil D offen ist, gibt es eine offene Kugel U mit x ∈ U ⊆ D. Also gibt es auch ein k und einen Quader Qk ∈ Qnk mit x ∈ Qk ⊆ U ⊆ D. Folglich ist x ∈ Pk . Damit ist ∞ [ D= Pk k=1 und die Messbarkeit von D nachgewiesen. Nun sei eine abgeschlossene Menge A ⊆ Rn gegeben. Das Komplement D = Rn \ A ist offen, also messbar, wie wir gerade gezeigt haben. Nach Satz 31.4 ist somit A = Rn \ D ebenfalls messbar. Das gilt insbesondere dann, wenn A kompakt ist. 448 31.2 Eine nicht-messbare Menge Jede offene und jede abgeschlossene Menge ist nach Satz 31.6 messbar. Alle vernünftigen“ ” mengentheoretischen Operationen mit messbaren Mengen liefern nach Satz 31.4 wiederum messbare Mengen. Gibt es überhaupt Mengen, die nicht messbar sind? Zur Klärung dieser Frage benötigt man das Auswahlaxiom aus der Mengenlehre. Eine einfache Formulierung lautet wie folgt: Auswahlaxiom. Es sei M eine nicht-leere Menge. Die Elemente von M seien nicht-leere und paarweise disjunkte Mengen. Dann gibt es eine Menge A mit den folgenden Eigenschaften: Jedes x ∈ A ist ein Element einer gewissen Menge M ∈ M, und für jede Menge M ∈ M gibt es genau ein Element x ∈ M mit x ∈ A. Bemerkung 31.7 Aus jeder Menge M ∈ M wird also ein Vertreter“ x ∈ M aus” gewählt, und es wird postuliert, dass man diese Vertreter in einem Vertretersystem“ zu ” einer Auswahlmenge“ A zusammenfassen kann. Diese Forderung mag beinahe wie eine ” Selbstverständlichkeit erscheinen. Das Auswahlaxiom hat jedoch Konsequenzen, die unserer Intuition zuwider laufen, wie zum Beispiel das Paradoxon von Banach, Hausdorff und Tarski: Eine Kugel in R3 ist in endlich viele (fünf) Teilmengen zerlegbar, die durch geeignete Bewegungen zu einer Kugel mit doppeltem Volumen zusammensetzbar sind. (Diese Teilmengen sind nicht messbar. Niemand kann die Teilmengen “herstellen” und die wundersame Kugelverdoppelung zustande bringen. Nähere Informationen zu diesem und ähnlichen Paradoxa finden sich in [Wagon] und [Kirsch].) Deshalb war es eine Weile umstritten, ob das Auswahlaxiom legitim ist oder ob seine Verwendung zu wirklichen Widersprüchen führen könnte. Die Rolle des Auswahlaxioms wurde von E. Zermelo (1871 – 1953) erkannt, und er hat es 1908 als Axiom in die Mengenlehre eingeführt. Ein Problem bei seiner Anwendung besteht darin, dass man in typischen Fällen keinerlei Möglichkeit zur tatsächlichen Angabe einer Auswahlmenge A hat. Man erhält daher nicht-konstruktive Resultate, also Beweise der Existenz von Objekten, die niemand wirklich vorzeigen“ kann. Was die befürchteten Widersprüche angeht, kann es nach Resultaten von ” Gödel keine Beweise geben, die Widersprüche in der Mathematik absolut ausschließen. Es gibt jedoch relative Widerspruchsfreiheitsbeweise. So bewies P. J. Cohen 1963: Wenn aus den Axiomen der Mengenlehre mit Einschluss des Auswahlaxioms ein Widerspruch herleitbar ist, dann gelangt man bereits ohne das Auswahlaxioms zu einem Widerspruch. Hierdurch wurde die Position der Mehrzahl der Mathematiker gestärkt, die schon längst für eine freie Verwendung des Auswahlaxioms eintraten. Das Auswahlaxiom ist logisch äquivalent zu zwei anderen Aussagen, nämlich zum sog. Wohlordnungssatz und zum Lemma von Zorn. Letzteres ist den Bedürfnissen in der Algebra gut angepasst. Zum Beispiel benutzt man es zum Beweis des Satzes, dass jeder (unendlichdimensionale) Vektorraum eine Basis besitzt. Wir wollen eine Teilmenge des Intervalls [0, 1[ konstruieren“, die nicht messbar ist. Die ” Methode kann auch zum Nachweis von nicht-messbaren Mengen in Rn verwendet werden. Sie beruht auf einer Eigenschaft des Volumenmaßes vn und speziell des Längenmaßes v1 , wodurch sich diese Maße vor anderen auszeichnen, nämlich auf ihrer Translationsinvarianz. Lemma 31.8 (Translationsinvarianz des Lebesgue-Integrals und des Volumens) Für jede Funktion f ∈ L(Rn ) und jeden Vektor p ∈ Rn ist auch die Funktion g(x) := f (x+p) 449 Lebesgue-integrierbar, und die Integrale von f und g stimmen überein. Insbesondere ist für jede messbare Menge M ⊆ Rn und jeden Vektor p ∈ Rn auch das Translat M + p := {x + p | x ∈ M } messbar, und es gilt vn (M + p) = vn (M ). Beweis. Für beliebige Quader Q ∈ Qn und Vektoren p ∈ Rn geht aus der Definition des Quadervolumens direkt vn (Q + p) = Rvn (Q) hervor. Aus Rder Definition des Elementarintegrals in Abschnitt 30.1 folgt dann sofort t(x + p) dvn (x) = t(x) dvn (x) für alle Treppenfunktionen t. Aus der Definition des Lebesgue-Integrals ergibt sich dann dessen Translationsinvarianz. Die Translationsinvarianz des Volumens ist nur ein Spezialfall hiervon. Beispiel 31.9 Wir gehen von der Menge X = [0, 1[ aus. Zwei Zahlen a, b ∈ X werden äquivalent genannt, falls a − b ∈ Q ist. Man sieht sofort, dass hierdurch tatsächlich eine Äquivalenzrelation auf X definiert ist. Die Äquivalenzklasse eines Punktes a ∈ X ist A(a) = {x ∈ X | a − x ∈ Q}. Die Menge X wird disjunkt in die Äquivalenzklassen zerlegt. Aus dem Auswahlaxiom folgt die Existenz einer Menge E, die aus jeder Äquivalenzklasse genau einen Repräsentanten enthält82 . Die Menge E ist nicht messbar. Beweis. Wir nehmen an, E wäre messbar. Dann bilden wir für q ∈ X ∩ Q die Menge Eq = {x + q + nq (x) | x ∈ E} mit nq (x) = 0 für x < 1 − q, −1 für x ≥ 1 − q. Die Menge Eq entsteht, indem man E mit den Intervallen [0, 1 − q[ und [1 − q, 1[ zum Durchschnitt bringt und den einen Durchschnitt um q und den anderen um q − 1 verschiebt. Insbesondere gilt Eq ⊆ X. Die Menge Eq ist die disjunkte Vereinigung der beiden solchermaßen verschobenen Durchschnitte. Aus der Messbarkeit von E und der Translationsinvarianz des Längenmaßes v1 folgt die Messbarkeit von Eq und v1 (Eq ) = v1 (E) für alle q ∈ X ∩ Q. Weil E ein Vertretersystem der Äquivalenzklassen ist, gilt [ Eq = X. q∈X∩Q 82 Formal schließt man dabei wie folgt: Die Axiome der Mengenlehre postulieren die Existenz der Potenzmenge P(X); das ist die Menge aller Teilmengen von X. Die Axiome erlauben die Bildung der Menge aller Äquivalenzklassen A(a) in der Form K = {K ∈ P(X) | es gibt ein a ∈ X mit K = A(a)}. Da die Äquivalenzklassen paarweise disjunkt sind, ist das Auswahlaxiom anwendbar. 450 Begründung: Die Inklusion ⊆“ ist klar. Es sei ein y ∈ X gegeben. Dann gibt es ein ” x ∈ E und ein q ∈ Q, so dass y = x + q. Wegen x = y − q < 1 − q ist nq (x) = 0, also y = x + q + nq (x) ∈ Eq . Dies zeigt auch die umgekehrte Inklusion. Die Mengen Eq sind paarweise disjunkt. Zum Beweis nehmen wir an, für Zahlen q, r ∈ X ∩ Q existiere ein Punkt y ∈ Eq ∩ Er . Dann gilt y = x1 + q + nq (x1 ) = x2 + r + nr (x2 ) mit gewissen x1 , x2 ∈ E. Hieraus folgt x1 − x2 ∈ Q, nach Definition von E also x1 = x2 . Daher ist q − r = nr (x2 ) − nq (x1 ) ∈ Z. Wegen q, r ∈ X folgt somit q = r. Die Darstellung von X als Vereinigung der Mengen Eq ist also tatsächlich disjunkt. Aus Satz 31.4 (4) folgt nun X X 1 = v1 (X) = v1 (Eq ) = v1 (E). q∈X∩Q q∈X∩Q Die rechte Seite hat den Wert 0 für v1 (E) = 0 und den Wert ∞ für v1 (E) > 0. Beides ergibt einen Widerspruch. Damit ist gezeigt, dass E nicht messbar ist. Die Verwendung des Auswahlaxioms zur Konstruktion“ einer nicht-messbaren Menge ist ” unvermeidbar, wie R. Solovay (geb. 1938) gezeigt hat [Solovay]. 31.3 Messbare Funktionen Definition 31.10 Eine Funktion f : Rn −→ R heißt messbar, falls es eine Folge von Treppenfunktionen gibt, die fast überall gegen f konvergiert. Wir bezeichnen mit M(Rn ) die Menge aller messbaren Funktionen. In einem ersten Resultat geben wir Beispiele von messbaren Funktionen an: Proposition 31.11 ist messbar. Jede integrierbare Funktion ist messbar, und jede konstante Funktion Beweis. Es sei f ∈ L(Rn ). Definitionsgemäß gilt dann f = g − h mit Funktionen g und h, die fast überall Grenzfunktionen monotoner Folgen von Treppenfunktionen sind. Also ist auch f selber fast überall die Grenzfunktion einer Folge von Treppenfunktionen. Nun sei f (x) = c eine konstante Funktion auf Rn . Dann definieren wir für natürliche Zahlen k die Treppenfunktion tk durch tk := c · χWn (k) . Offenbar ist f die Grenzfunktion der Folge (tk )k . Alle vernünftigen endlichen“ Operationen mit messbaren Funktionen ergeben wieder mess” bare Funktionen: Proposition 31.12 Für beliebige messbare Funktionen f und g und für beliebige reelle Zahlen c und d sind auch die Funktionen cf + dg, max{f, g}, min{f, g}, f + , f − , |f | und f · g messbar. Wenn f (x) 6= 0 für fast alle x ist, dann ist auch die Funktion 451 1 f messbar. Beweis. Es seien (tk )k und (Tk )k Folgen von Treppenfunktionen, die fast überall gegen f beziehungsweise gegen g konvergieren. Nach Lemma 29.14 sind auch tk · Tk Treppenfunkvn tionen, und es gilt f · g = limn→∞ (tk · Tk ). Also ist f · g messbar. Analog folgert man aus Lemma 29.14, dass die übrigen Funktionen in der Liste messbar sind. 1 Es sei f (x) 6= 0 für fast alle x. Wir definieren die Funktion h = f1 , indem wir h(x) = f (x) für f (x) 6= 0 setzen und im Falle f (x) = 0 willkürlich h(x) = 0 festlegen. Es gibt eine Folge (tk )k von Treppenfunktionen, die fast überall gegen f konvergiert. Wir setzen Tk (x) = 1/tk (x) für tk (x) 6= 0 und Tk (x) = 0 für tk (x) = 0. Dann ist (Tk )k eine Folge von Treppenfunktionen, die fast überall gegen h konvergiert. Also ist h = f1 messbar. Aus der Messbarkeit einer Funktion und verschiedenen anderen Voraussetzungen kann die Integrierbarkeit gefolgert werden: Satz 31.13 Es seien f, g : Rn −→ R Lebesgue-integrierbare und h : Rn −→ R eine messbare Funktion. Dann gelten die folgenden Aussagen: (1) Aus |h| ≤ f folgt h ∈ L(Rn ). Aus |h| ∈ L(Rn ) folgt h ∈ L(Rn ). (2) Wenn h beschränkt ist, dann ist f · h ∈ L(Rn ). Beweis. Nach Voraussetzung gibt es eine Folge von Treppenfunktionen, die fast überall gegen h konvergiert. Unter der Annahme |h| ≤ f ∈ L(Rn ) ist also die zweite Variante des Satzes von Lebesgue über dominierte Konvergenz (Satz 30.22) anwendbar, und es folgt h ∈ L(Rn ). Damit ist die erste Behauptung in (1) bewiesen. Die zweite ergibt sich als Spezialfall mit f = |h|. Die Zahl c sei eine obere Schranke für die Funktion |h|. Dann ist |f · h| ≤ c · |f |, und nach Satz 30.11 gilt c · |f | ∈ L(Rn ). Nach Proposition 31.12 gilt f · h ∈ M(Rn ). Somit ist die Aussage (1) anwendbar, und es folgt f · h ∈ L(Rn ). Damit ist (2) bewiesen. Grenzfunktionen beliebiger konvergenter Folgen messbarer Funktionen sind messbar. Satz 31.14 Es sei (fk )k eine Folge von messbaren Funktionen fk , und es existiere eine n Funktion f : R −→ R mit vn f = lim fk . k→∞ Dann ist f ebenfalls messbar. Beweis. Wie man sich leicht überlegt, gibt es eine integrierbare Funktion h auf Rn mit nur positiven Werten. (Diese muss für ||x|| → ∞ schnell genug“ gegen 0 abfallen.) Damit ” definieren wir h·f h · fk für k ∈ N, g= . gk = h + |fk | h + |f | vn Es folgt g = limk→∞ gk . Aus Proposition 31.12 folgt gk ∈ M(Rn ) für alle k. Die Definition zeigt |gk | < h für alle k sowie auch |g| < h. Aus Satz 31.13 (1) folgt also gk ∈ L(Rn ) für alle k. Auf die Folge (gk )k ist der Satz über dominierte Konvergenz (Satz 30.19 oder auch Satz 30.22) anwendbar, und damit folgt g ∈ L(Rn ). Nach Proposition 31.11 ist also auch g ∈ M(Rn ). Die Definitionsgleichung für g kann nach f aufgelöst werden, und das ergibt f= hg . h − |g| 452 Aus Proposition 31.12 folgt somit die Behauptung f ∈ M(Rn ). Jetzt lässt sich die Messbarkeit einer Menge auch durch die Messbarkeit ihrer charakteristischen Funktion ausdrücken: Lemma 31.15 Eine Menge A ⊆ Rn ist genau dann messbar, wenn die charakteristische Funktion χA messbar ist. Häufig benutzt man diese Charakterisierung zur Definition der Messbarkeit von Mengen, wie etwa in [Köhler, § 33]. Beweis. Es sei A messbar. Für jedes j ∈ N ist dann χA∩Wn (j) Lebesgue-integrierbar, also insbesondere messbar. Wegen χA = limj→∞ χA∩Wn (j) folgt aus Satz 31.14 die Messbarkeit von χA . Nun sei χA messbar. Es sei ein j ∈ N gegeben. Nach Proposition 31.12 ist auch das Produkt χA · χWn (j) = χA∩Wn (j) messbar. Hieraus und aus |χA · χWn (j) | ≤ χWn (j) ∈ L(Rn ) folgt mit Satz 31.13 (1) die Lebesgue-Integrierbarkeit von χA · χWn (j) . Also ist χA auf jedem Würfel Wn (j) Lebesgue-integrierbar. Dies bedeutet gerade, dass A messbar ist. Der folgende Satz zeigt, dass man die Messbarkeit von Funktionen f mit Hilfe der Messbarkeit gewisser Urbildmengen von f definieren kann. Deshalb ist es möglich, die LebesgueTheorie in anderer Reihenfolge aufzubauen, also zuerst die Messbarkeit von Mengen und danach die Integrierbarkeit von Funktionen zu behandeln. Satz 31.16 Für Funktionen f : Rn −→ R sind die folgenden Aussagen äquivalent: (a) Die Funktion f ist messbar. (b) Für jede reelle Zahl c ist f −1 (] − ∞, c]) = {x ∈ Rn | f (x) ≤ c} eine messbare Menge. (c) Für jede reelle Zahl c ist f −1 (] − ∞, c[) = {x ∈ Rn | f (x) < c} eine messbare Menge. (d) Für jede reelle Zahl c ist f −1 ([c, ∞[) = {x ∈ Rn | f (x) ≥ c} eine messbare Menge. (e) Für jede reelle Zahl c ist f −1 (]c, ∞[) = {x ∈ Rn | f (x) > c} eine messbare Menge. Beweis. I. Die Funktion f sei messbar, und es sei eine reelle Zahl c gegeben. Für reelle Zahlen h 6= 0 setzen wir dann Gh = 1 · (max{f, c + h} − max{f, c}) . h Nach Proposition 31.12 sind alle Funktionen Gh 0 1 Gh (x) = 1 · (c + h − f (x)) h messbar. Für h > 0 gilt für f (x) ≥ c + h, für f (x) ≤ c, für c < f (x) < c + h, und ähnliche Formeln gelten für h < 0. Es folgt 0 für f (x) > c, lim Gh (x) = h→0+ 1 für f (x) ≤ c. 453 Das ist die charakteristische Funktion von f −1 (] − ∞, c]). Analog ist limh→0− Gh (x) die charakteristische Funktion von f −1 (] − ∞, c[). Nach Satz 31.14 sind die Grenzfunktionen messbar. Aus Lemma 31.15 folgen somit die Aussagen (b) und (c). Indem man f und c durch −f und −c ersetzt, erhält man auch die Gültigkeit von (d) und (e). II. Jetzt setzen wir die Gültigkeit von (b) voraus. Für alle k ∈ N und alle j ∈ Z sind dann die Mengen j n j −1 Akj = x ∈ R < f (x) ≤ = f −1 (] − ∞, j/k]) \ f −1 (] − ∞, (j − 1)/k]) k k messbar. Ihre charakteristischen Funktionen sind also gemäß Lemma 31.15 messbar. Für jedes k ist der Raum Rn die disjunkte Vereinigung der Mengen Akj , und ∞ X j fk = · χAkj k j=−∞ ist nach Satz 31.14 eine messbare Funktion. Es gilt |f (x) − fk (x)| ≤ ist f = lim fk 1 k für alle x ∈ Rn . Daher k→∞ nach Satz 31.14 ebenfalls messbar. Damit ist die Gültigkeit von (a) nachgewiesen. Wenn (c) oder (d) oder (e) vorausgesetzt wird, dann folgt in derselben Weise die Gültigkeit von (a). Bemerkung 31.17 Der zweite Teil des Beweises von Satz 31.16 liefert für das Integral n einer Funktion f ∈ L(R ) Approximationen durch Ausdrücke der Gestalt ∞ X yk · vn (f −1 (]yk , yk+1 ])), k=−∞ worin die Punkte yk irgendeine Zerlegung des Wertebereiches R von f bilden, also yk < yk+1 und limk→−∞ yk = −∞ und limk→∞ yk = ∞ erfüllen. Im Unterschied hierzu beruht die Definition des Integrals in Abschnitt 30.3 und auch des Riemann-Integrals auf Zerlegungen des Definitionsbereiches. Aus Satz 31.6 folgt unter anderem die Integrierbarkeit von beschränkten messbaren Funktionen auf kompakten Mengen: Satz 31.18 Es sei A eine messbare Teilmenge in Rn mit endlichem Maß vn (A), und f : Rn −→ R sei eine messbare und beschränkte Funktion. Dann ist f auf A Lebesgueintegrierbar. Wenn c ≤ f (x) ≤ C für alle x ∈ Rn ist, dann gilt Z c · vn (A) ≤ f dvn ≤ C · vn (A). A Jede stetige Funktion g : K −→ R auf einer kompakten Menge K ⊆ Rn ist Lebesgueintegrierbar. 454 Beweis. Aus den Voraussetzungen folgt f ∈ M(Rn ) und χA ∈ L(Rn ). Wegen der Beschränktheit von f und Satz 31.13 (2) folgt also f ·χA ∈ L(Rn ). Also ist f auf A integrierbar. Die behaupteten Ungleichungen folgen aus der Monotonie des Integrals. Es sei g : K −→ R eine stetige Funktion auf einer kompakten Menge K ⊆ Rn . Für jede reelle Zahl c ist g −1 ([c, ∞[) als Urbild einer abgeschlossenen Menge unter einer stetigen Funktion eine abgeschlossene Menge in K, also auch abgeschlossen in Rn (Lemma 10.5). Nach Satz 31.6 ist diese Menge also messbar. Nach Satz 31.16 ist daher die Funktion g messbar. Als stetige Funktion ist g auf dem Kompaktum K zudem beschränkt. Nach Satz 31.6 ist K eine messbare Menge. Das Maß vn (K) ist endlich, weil K beschränkt ist. Aus der ersten Behauptung des Satzes folgt somit die Lebesgue-Integrierbarkeit von g auf K. 455 32 32.1 Die Lp-Räume∗ Die Räume Lp Die Lebesguetheorie ist jetzt so weit entwickelt, dass wir die normierten Vektorräume Lp (Rn ) einführen und ihre Vollständigkeit beweisen können. Diese Räume gaben den Anlass zur Einführung des Begriffs des Banachraumes. Mit ihrer Behandlung geben wir zugleich eine erste Einführung in ein Teilgebiet der Funktionalanalysis. Wir erinnern zunächst an den aus Definition 23.19 bekannten Begriff des normierten Vektorraums. Erinnerung: Ein normierter Vektorraum ist ein Paar (V, || . ||), wobei V ein Vektorraum über dem Körper K = R oder K = C und || . || : V −→ R eine Abbildung mit folgenden Eigenschaften ist: (N1) (Positive Definitheit) Es ist kv|| ≥ 0 für alle v ∈ V . Genau dann gilt kv|| = 0, wenn v = 0 ist. (N2) (Homogenität) Es ist kλv|| = |λ| · kv|| für alle v ∈ V und alle λ ∈ K. (N3) (Dreiecksungleichung) Es ist kv + w|| ≤ kv|| + kw|| für alle v, w ∈ V . Definition 32.1 Ein Banachraum ist ein normierter Vektorraum (V, ||.||) über dem Körper K = R oder K = C, welcher vollständig bezüglich der von der Norm induzierten Metrik d(v, w) := ||v − w|| ist. Die Banachräume Lp (Rn ), die wir hier diskutieren wollen, erhält man folgendermaßen: Definition 32.2 Wie in Abschnitt 31.3 bezeichne M(Rn ) den reellen Vektorraum aller messbaren Funktionen f : Rn −→ R. Für reelle Zahlen p > 0 sei dann Lp = Lp (Rn ) := {f ∈ M(Rn ) : |f |p ∈ L(Rn )} . Das ist die Menge aller derjenigen messbaren Funktionen f : Rn −→ R, wofür die Potenz |f |p integrierbar ist. Für f ∈ Lp (Rn ) wird Z 1/p p ||f ||p = |f | dvn gesetzt. Diese Zahl heißt die p-Norm von f . Es ist nicht von vornherein klar, ob und warum Lp ein normierter Vektorraum ist. Wir stellen zunächst ein paar Folgerungen zusammen, die leicht einzusehen sind: Proposition 32.3 Für jede reelle Zahl p > 0 ist Lp (Rn ) ein reeller Vektorraum. Es gilt L1 (Rn ) = L(Rn ). Die p-Norm auf Lp (Rn ) hat die Eigenschaft (N2) einer Norm. Für f ∈ Lp (Rn ) gilt ||f ||p = 0 genau dann, wenn ist. 456 vn f = 0 Beweis. Es seien Funktionen f, g ∈ Lp und eine reelle Zahl c gegeben. Offenbar ist dann auch c · f ∈ Lp . Die Summe f + g ist nach Proposition 31.12 messbar, und die Definition in Abschnitt 31.3 zeigt, dass |f + g|p ebenfalls messbar ist. Es besteht die Abschätzung |f + g|p ≤ (|f | + |g|)p ≤ (2 · max{|f |, |g|})p = 2p · max{|f |p , |g|p }. Weil |f |p und |g|p nach Voraussetzung integrierbar sind, ist nach Satz 30.11 auch die obere Schranke für |f +g|p integrierbar. Weil |f +g|p messbar ist, folgt aus Satz 31.13 (1) schließlich die Integrierbarkeit von |f + g|p , also f + g ∈ Lp . Damit ist gezeigt, dass Lp ein reeller Vektorraum ist. Von Funktionen f ∈ L1 wird |f | ∈ L(Rn ) verlangt. Mit Satz 31.13 und der Messbarkeit von f folgt hieraus f ∈ L(Rn ). Nach Satz 30.11 gilt auch die umgekehrte Implikation. Damit ist die Behauptung L1 (Rn ) = L(Rn ) bewiesen. Die Eigenschaft (N2) der p-Norm folgt direkt aus der Definition. Für f ∈ Lp ist die Bedingung vn ||f ||p = 0 nach Lemma 30.18 äquivalent mit |f |p = 0, und das ist gleichbedeutend mit vn f = 0. Die Proposition 32.3 zeigt, dass die p-Norm nicht die Eigenschaft (N1) einer Norm auf dem Vektorraum Lp hat. Dieser Mangel lässt sich leicht beheben, indem man zwei Funktionen nicht unterscheidet, wenn sie fast überall gleich sind. Definition 32.4 Es sei p > 0. Zwei Funktionen f, g ∈ Lp werden äquivalent genannt, vn wenn f = g ist. Hierdurch ist offenbar eine Äquivalenzrelation auf Lp gegeben. Es bezeichne Lp = Lp (Rn ) die Menge aller Äquivalenzklassen. Üblicherweise wird die Äquivalenzklasse einer Funktion f ∈ Lp ebenfalls mit f bezeichnet; damit ist beabsichtigt, den Unterschied zwischen einer Funktion und ihrer Äquivalenzklasse möglichst zu vergessen“. Für Funktionen f, g ∈ Lp und reelle Zahlen c sind die Äquiva” lenzklassen der Funktionen f + g und c · f nur von den Äquivalenzklassen von f und g abhängig. Somit sind f + g und c · f als Elemente von Lp wohldefiniert, und Lp ist ein reeller Vektorraum. Auch die p-Norm ||f ||p hängt nur von der Äquivalenzklasse von f ab. Daher ist auf dem Vektorraum Lp die p-Norm || ||p : Lp (Rn ) −→ R wohldefiniert. Offenbar hat sie die Eigenschaft (N2). Aus Proposition 32.3 folgt, dass sie auch die Bedingung (N1) erfüllt. Über die Dreiecksungleichung (N3) werden wir im folgenden Abschnitt 32.2 nachdenken. Mit einem Begriff aus der Linearen Algebra können die Vektorräume Lp auch folgendermaßen vn definiert werden: Die Menge N aller Funktionen f ∈ Lp mit f = 0 ist offenbar ein Teilvektorraum in Lp . Wir nennen ihn den Raum der Nullfunktionen. Damit wird Lp = Lp /N der Faktorraum. 32.2 Die Höldersche und die Minkowskische Ungleichung Die p-Norm auf Lp (Rn ) erfüllt die Dreiecksungleichung (N3) nicht für alle p > 0, sondern nur für p ≥ 1. Der Beweis erfordert einige Vorbereitungen. Wir beginnen mit einem Hilfsresultat, das im Spezialfall p = q = 2 die bekannte Ungleichung zwischen dem arithmetischen und dem geometrischen Mittel ist: 457 Lemma 32.5 Für alle reellen Zahlen a ≥ 0, b ≥ 0, p > 1 und q > 1 mit a·b ≤ 1 p + 1 q = 1 gilt83 ap b q + . p q Beweis. Es sei speziell b = ap−1 . Dann folgt ab = ap und ap b q ap a(p−1)q 1 1 p + = + =a · + = ap = a · b. p q p q p q In diesem Fall gilt also die behauptete Ungleichung mit dem Gleichheitszeichen. Im allgemeinen Fall bestimmen wir bei festem a ≥ 0 das Minimum der Funktion b 7→ ap b q + −a·b p q für b ≥ 0. Die Ableitung b 7→ bq−1 − a dieser Funktion hat nur eine einzige Nullstelle b0 . Sie = a, also b0 = ap−1 . Das Verhalten für b = 0 und für b → ∞ zeigt, dass bei b0 erfüllt bq−1 0 ein absolutes Minimum liegt. Der Wert an dieser Stelle ist mittels der Voraussetzung über p und q leicht zu berechnen; er ist 0. Somit gilt ap b q + > a·b p q für alle b ≥ 0 mit b 6= ap−1 . Satz 32.6 (Höldersche Ungleichung) Es seien p > 1 und q > 1 reelle Zahlen mit 1 1 p n q + = 1. Für beliebige f ∈ L (R ) und g ∈ L (Rn ) gilt dann f · g ∈ L1 (Rn ) und p q ||f · g||1 ≤ ||f ||p · ||g||q . Beweis. Wir arbeiten mit Funktionen f ∈ Lp (Rn ) und g ∈ Lq (Rn ) als Repräsentanten ihrer Äquivalenzklassen in Lp und Lq . Ihre Normen sind Z Z 1/p 1/q p q ||f ||p = |f | dvn und ||g||q = |g| dvn . vn Wenn ||f ||p = 0 oder ||g||q = 0 ist, dann folgt f ·g = 0. In diesem Fall sind die Behauptungen offenbar gültig. Wir können nun ||f ||p > 0 und ||g||q > 0 voraussetzen. Für beliebige x ∈ Rn erhalten wir dann aus Lemma 32.5 die Ungleichung 1 |f (x)|p 1 |g(x)|q |f (x)| |g(x)| · ≤ · + · . p ||f ||p ||g||q p ||f ||p q ||g||qq Die Funktion auf der rechten Seite ist nach Voraussetzung integrierbar. Nach Proposition 31.12 ist die Funktion auf der linken Seite messbar. Aus der Ungleichung und Satz 31.13 83 Oftmals ist es nützlich, die Voraussetzung über p und q äquivalent wie folgt auszudrücken: 1 1 + = 1 ⇐⇒ p + q = pq ⇐⇒ p(q − 1) = q ⇐⇒ q(p − 1) = p ⇐⇒ (p − 1)(q − 1) = 1. p q 458 folgt somit, dass die linke Seite sogar integrierbar ist. Folglich ist f · g ∈ L(Rn ) = L1 (Rn ). Aus der Ungleichung zwischen den Funktionen folgt nun durch Integrieren Z Z Z 1 1 1 1 1 p · |f · g| dvn ≤ · · |f | dvn + · · |g|q dvn ||f ||p · ||g||q p ||f ||pp q ||g||qq 1 1 = + = 1, p q also ||f · g||1 ≤ ||f ||p · ||g||q . Es seien f und g Funktionen in Lp (Rn ) Satz 32.7 (Minkowskische Ungleichung) mit einer Zahl p ≥ 1. Dann gilt ||f + g||p ≤ ||f ||p + ||g||p . Für p ≥ 1 ist Lp (Rn ) mit der Norm || ||p ein normierter Vektorraum. Beweis. Wir dürfen wieder annehmen, dass f und g Funktionen in L(Rn ) sind. Im Falle p = 1 folgt aus der gewöhnlichen Dreiecksungleichung Z Z ||f + g||1 = |f + g| dvn ≤ (|f | + |g|) dvn = ||f ||1 + ||g||1 . Wir setzen jetzt p > 1 voraus. Die Dreiecksungleichung ergibt |f + g|p = |f + g|p−1 · |f + g| ≤ |f + g|p−1 · |f | + |f + g|p−1 · |g|. p , so dass p1 + 1q = 1 ist. Nach Alle Funktionen hierin sind messbar. Wir setzen q = p−1 Proposition 32.3 ist (|f + g|p−1 )q = |f + g|p ∈ L(Rn ), und daher folgt |f + g|p−1 ∈ Lq (Rn ). Aus der Hölderschen Ungleichung (Satz 32.6) und aus der Ungleichung für |f + g|p folgt somit Z Z Z p p p−1 ||f + g||p = |f + g| dvn ≤ |f + g| · |f | dvn + |f + g|p−1 · |g| dvn Z |f + g| ≤ Z = (p−1)·q p |f + g| dvn 1/q · (||f ||p + ||g||p ) dvn 1/q · (||f ||p + ||g||p ) = ||f + g||p/q p · (||f ||p + ||g||p ) = ||f + g||p−1 · (||f ||p + ||g||p ) . p Im Falle ||f + g||p = 0 ist die behauptete Ungleichung trivialerweise gültig. Anderenfalls folgt sie jetzt, indem man durch ||f + g||p−1 dividiert. p Damit ist die Dreiecksungleichung (N3) für die Norm || ||p auf Lp (Rn ) bewiesen. Die übrigen Eigenschaften wurden bereits in Abschnitt 32.1 begründet. Also ist Lp (Rn ) ein normierter Vektorraum. 459 32.3 Der Raum L∞ Der Familie der normierten Vektorräume Lp mit reellen Zahlen p ≥ 1 wird noch ein Mitglied L∞ hinzugefügt: Definition 32.8 Es bezeichne L∞ = L∞ (Rn ) die Menge aller messbaren Funktionen f : Rn −→ R, die fast überall beschränkt sind. Zu den Funktionen f ∈ L∞ existieren also v reelle Zahlen c mit |f | <n c. Wir setzen v ||f ||∞ = inf c ∈ R |f | <n c . Die Zahl ||f ||∞ heißt die ∞-Norm oder das wesentliche Supremum der Funktion f . Die ∞-Norm auf L∞ hat offenbar die Eigenschaft (N2), und auch die Dreiecksungleichung (N3) für || ||∞ ist leicht zu begründen. Für alle f ∈ L∞ ist ||f ||∞ ≥ 0, und es gilt ||f ||∞ = 0 vn genau dann, wenn f = 0 ist. Wie in Abschnitt 32.1 nennen wir deshalb zwei Funktionen f vn ∞ n und g in L (R ) äquivalent, falls f = g ist, bezeichnen mit L∞ = L∞ (Rn ) die Menge aller Äquivalenzklassen und schreiben für die Äquivalenzklasse einer Funktion f ebenfalls wieder f . Die ∞-Norm ||f ||∞ ist unabhängig von der Wahl der Funktion f in ihrer Äquivalenzklasse. Daher ist die ∞-Norm auf L∞ wohldefiniert, und sie hat offenbar alle Eigenschaften (N1), (N2), (N3) einer Norm. Demnach ist L∞ ein normierter Vektorraum. Ein Analogon der Hölderschen Ungleichung ist leicht zu begründen: Proposition 32.9 Der Raum L∞ (Rn ) mit der Norm || ||∞ ein normierter Vektorraum. Für alle f ∈ L∞ (Rn ) und alle g ∈ L1 (Rn ) gilt f · g ∈ L1 (Rn ) und ||f · g||1 ≤ ||f ||∞ · ||g||1 . Beweis. Die erste Behauptung wurde bereits begründet. Für f ∈ L∞ und g ∈ L1 folgt 1 mittels einer leichten Verallgemeinerung der Aussage R R (2) in Satz 31.13, dass f · g ∈ L ist. vn Für jede Zahl c mit |f | < c gilt |f · g| dvn ≤ c · |g| dvn . Daraus folgt die Behauptung ||f · g||1 ≤ ||f ||∞ · ||g||1 . 32.4 Hilberträume In der Hölderschen Ungleichung (Satz 32.6) darf man p = q = 2 wählen. Dadurch wird es möglich, auf den Räumen L2 (Rn ) ein Skalarprodukt zu definieren, und deswegen sind diese Räume besonders wichtig. Wir erinnern zunächst an die aus der Linearen Algebra bekannte Definition des Skalarprodukts: 460 Definition 32.10 Es sei V ein R-Vektorraum. Ein Skalarprodukt auf V ist eine symmetrische, positiv definite Bilinearform h , i : V × V −→ K. Bekanntlich gilt die Cauchy-Schwarzsche Ungleichung |hf , gi|2 ≤ hf , f i · hg , gi für alle f, g in einem beliebigen R-Vektorraum V mit Skalarprodukt. Hieraus folgt die Dreiecksungleichung für die vom Skalarprodukt induzierte Norm p ||f || := hf , f i, und somit ist V in natürlicher Weise ein normierter Vektorraum. Definition 32.11 Es sei H ein Banachraum über dem Körper R mit der Norm || ||. Man nennt p H einen Hilbertraum, falls ein Skalarprodukt h , i auf H gegeben ist, so dass ||f || = hf, f i für alle f ∈ H ist. Von einem Hilbertraum wird wie von jedem Banachraum verlangt, dass er vollständig bezüglich der Norm ist. Wir erklären jetzt das Skalarprodukt auf L2 (Rn ), das diesen Raum zu einem Hilbertraum macht. Die Vollständigkeit wird jedoch erst in Abschnitt 32.5 im Satz von Riesz und Fischer bewiesen. Definition 32.12 Für beliebige f und g in L2 (Rn ) gilt f · g ∈ L1 (Rn ) auf Grund von Satz 32.6. Daher ist das Integral Z hf, gi := f · g dvn wohldefiniert. Wir nennen hf, gi das Skalarprodukt der Funktionen f und g. Es ist klar, dass hf, gi die Eigenschaften eines Skalarproduktes p auf dem reellen Vektorraum 2 n L (R ) hat. Die Norm auf diesem Vektorraum ist ||f ||2 = hf, f i. Zum Nachweis der Eigenschaften eines Hilbertraumes fehlt also nur noch der Beweis der Vollständigkeit. Die Cauchy-Schwarzsche Ungleichung |hf, gi| ≤ ||f ||2 · ||g||2 für f, g ∈ L2 (Rn ) ergibt sich in diesem Fall auch aus der Hölderschen Ungleichung (Satz 32.6) gemäß Z Z |hf, gi| = f · g dvn ≤ |f · g| dvn = ||f · g||1 ≤ ||f ||2 · ||g||2 . 32.5 Die Vollständigkeit der Räume Lp Als Höhepunkt dieses Kapitels wird nun die Vollständigkeit der Räume Lp bewiesen. Das Resultat ist nach F. Riesz (1880 – 1956) und E. Fischer (1875 – 1954) benannt, die den Satz im Jahr 1907 für die Räume L2 bewiesen. 461 Satz 32.13 (Satz von Riesz und Fischer) Für jede reelle Zahl p ≥ 1 und für p = ∞ ist Lp (Rn ) ein Banachraum, und L2 (Rn ) ist ein Hilbertraum. Ist (fn )n eine Cauchy-Folge in Lp (Rn ) und limn→∞ fn = f ∈ Lp (Rn ) bezüglich der p-Norm, dann gibt es eine Teilfolge dieser Folge, die fast überall punktweise gegen f konvergiert. Beweis. I. Zuerst wird der Fall p = ∞ diskutiert. Er ist am einfachsten, aber methodisch ganz verschieden von den übrigen Fällen. Es sei eine Cauchy-Folge (fk )k in L∞ (Rn ) gegeben. Zu jedem ε > 0 gibt es dann ein n0 , so dass für alle k, j ≥ n0 die Ungleichung ||fk − fj ||∞ < ε gilt. Diese Ungleichung besagt, dass |fk (x) − fj (x)| < ε für fast alle x ∈ Rn gilt. Die Folge (fk )k ist demnach fast überall gleichmäßig konvergent. (An dieser Stelle wird Satz 29.10 (2) benötigt, wonach die Vereinigungsmenge abzählbar vieler Nullmengen eine Nullmenge ist.) Folglich existiert der reelle Grenzwert f (x) = limk→∞ fk (x) für fast alle x. Setzt man willkürlich f (x) = 0 für die übrigen x ∈ Rn , dann konvergiert die Folge (fk )k bezüglich der Norm || ||∞ gegen f , und es ist f ∈ L∞ (Rn ). Damit ist die Vollständigkeit dieses Raumes bewiesen. II. Von nun an sei p eine reelle Zahl und p ≥ 1. Es sei eine Cauchy-Folge (fk )k in Lp gegeben. Wir dürfen annehmen, dass die fk Funktionen in Lp (Rn ) sind. Nach Voraussetzung gibt es zu jeder natürlichen Zahl m ein Nm mit ||fk − fNm ||p < 2−m für alle k > Nm . Hierbei dürfen wir N1 < N2 < N3 < . . . annehmen. Es sei Q ∈ Qn ein nicht-ausgearteter Quader und χ = χQ seine charakteristische Funktion. Für alle k und j ist |fk − fj | ∈ Lp , und für alle reellen Zahlen q > 0 ist χ ∈ Lq (Rn ). Das gilt insbesondere, wenn p1 + 1q = 1 ist. Aus der Hölderschen Ungleichung (Satz 32.6) folgt daher |fk − fj | · χ ∈ L1 (Rn ) für alle k und j. Speziell ist also fNm+1 − fNm · χ ∈ L1 (Rn ) für alle m ≥ 1. Die Partialsummen der Reihe ∞ X fNm+1 − fNm · χ m=1 bilden daher eine monoton steigende Folge von Funktionen in L1 (Rn ). Für die Integrale dieser Partialsummen erhalten wir mit Hilfe von Satz 32.6 die Schranke r Z r X X fNm+1 − fNm · χ dvn ≤ ||fNm+1 − fNm ||p · ||χ||q m=1 m=1 < ||χ||q · ∞ X 2−m = ||χ||q . m=1 Daher ist der Satz von Levi (Satz 30.16) anwendbar. Hiernach konvergiert die betrachtete Reihe fast überall gegen eine Funktion in L1 (Rn ). Wir können den Raum Rn als Vereinigungsmenge von abzählbar unendlich vielen nichtausgearteten Quadern darstellen. Wegen Satz 29.10 (2) ist daher die Reihe ∞ X fNm+1 − fNm m=1 462 P ebenfalls fast überall konvergent. Das gilt dann auch für die Reihe ∞ f − f . Es N N m m+1 m=1 sei ∞ X vn fNm+1 − fNm = lim fNm − fN1 g= m→∞ m=1 die Grenzfunktion, und es sei vn lim fNm . f = g + fN 1 = m→∞ Die Teilfolge (fNm )m der gegebenen Cauchy-Folge konvergiert also fast überall punktweise gegen eine Funktion f . III. Im dritten und letzten Teil des Beweises wird gezeigt, dass die soeben gefundene Grenzfunktion f zu Lp gehört und dass die Folge (fk )k bezüglich der Norm || ||p gegen f konvergiert. vn limk→∞ fk . Dies ist auch nicht immer gültig.) (Wir behaupten keineswegs f = Als Grenzfunktion messbarer Funktionen ist f nach Satz 31.14 eine messbare Funktion. Die Funktionenfolge (|fNm |p )m≥1 konvergiert fast überall gegen |f |p . Die Folge der Integrale Z |fNm |p dvn = ||fNm ||pp ist beschränkt, denn nach Voraussetzung ist (||fk ||p )k sogar eine Cauchy-Folge. Somit ist das Lemma von Fatou (Satz 30.24) anwendbar, und hiernach ist |f |p eine integrierbare Funktion. Somit gilt f ∈ Lp (Rn ). Es sei m > j, also auch Nm > Nj , und es sei k > Nj . Dann folgt ||fk − fNm ||p ≤ ||fk − fNj ||p + ||fNj − fNm ||p < 2−j + 2−j = 2−j+1 . Bei festem k > Nj betrachten wir die Folge (|fk − fNm |p )m≥1 . vn Sie konvergiert fast überall gegen |fk − f |p , weil f = limm→∞ fNm ist. Für die Folge der Integrale besteht für m > j die Abschätzung Z p |fk − fNm |p dvn = ||fk − fNm ||pp < 2−j+1 = 2−p(j−1) . Daher ist das Lemma von Fatou (Satz 30.24) nochmals anwendbar. Das ergibt ||fk − f ||pp = R |fk − f |p dvn ≤ 2−p(j−1) , also ||fk − f ||p ≤ 2−j+1 . Diese Ungleichung gilt für jedes j ∈ N und alle k > Nj . Somit konvergiert die Folge (fk )k bezüglich der Norm || ||p gegen f . Nun sei fe irgendeine Funktion in Lp (Rn ), so dass (fk )k bezüglich der p-Norm gegen fe konvergiert. Wegen Proposition 32.3 gibt es dann auch eine Teilfolge, die fast überall punktweise gegen fe konvergiert. 463 Im Beweis des Satzes von Riesz und Fischer wurden alle wichtigen Sätze der LebesgueTheorie aus den vorausgehenden Kapiteln als Hilfsmittel benötigt, und insofern stellt dieser Beweis einen kompositorischen Höhepunkt dar. Tatsächlich steht der Satz am Anfang einer umfangreichen Theorie, wie ein Blick in Lehrbücher der Funktionalanalysis zeigt. Beispiel 32.14 Eine Cauchy-Folge (fk )k in Lp (Rn ) hat bezüglich der Norm eine Grenzfunktion f in diesem Raum, aber sie konvergiert im Allgemeinen keineswegs fast überall punktweise gegen f . Wir zeigen das an einem Beispiel für n = 1 und p = 1. Für jede natürliche Zahl k sei m = mk ≥ 0 die ganze Zahl mit 2m ≤ k < 2m+1 , und es sei 1 für (k − 2m )/2m ≤ x ≤ (k + 1 − 2m )/2m , fk (x) = 0 sonst. R Dann ist (fk )k eine Folge von Treppenfunktionen. Für 2m ≤ k < 2m+1 ist fk (x) dx = R 2−m < k2 , und daher gilt limk→∞ fk (x) dx = 0. Also konvergiert die Folge (fk )k bezüglich der Norm in L1 (R) gegen 0. Die Folgen (fk (x))k sind jedoch in allen Punkten x des Intervalls [0, 1] divergent. Denn zu jedem solchen x und jeder natürlichen Zahl m existieren j, k ∈ {2m , . . . , 2m+1 − 1} mit fj (x) = 1 und fk (x) = 0. Die Menge der Punkte x, in denen die Folge (fk (x))k divergiert, ist also keine Nullmenge. 464 Teil VI Mehrfachintegrale, Transformationsformel, Integralsätze Die Integrationstheorie hat uns bislang keine Methoden zur effizienten Berechnung von Integralen in mehreren Variablen geliefert. Nur für das Längenmaß in der Dimension n = 1 ergibt der Hauptsatz der Differential- und Integralrechnung ein bequemes Rechenverfahren, sofern eine stetige Funktion zu integrieren und eine Stammfunktion bekannt ist. Im abschließenden Teil der Vorlesung stellen wir die wichtigsten Methoden vor, die bei der praktischen Berechnung von Integralen im Mehrdimensionalen zum Einsatz kommen: die Reduktion auf iterierte Integrale, die Transformationsformel und (einen Ausblick auf) die Integralsätze, die sich mit den Namen Green, Stokes und Gauß verbinden. Aus Zeitgründen können wir Beweise entweder gar nicht oder nur für relativ einfache Spezialfälle dieser Sätze geben und beschränken uns dabei zumeist auf stetige Funktionen und Riemann-Integrale. 33 Mehrfache Integrale Das Integral einer Funktion von n Variablen über ein Gebiet im Rn kann meist“ durch ” sukzessive Integrationen nach den einzelnen Variablen berechnet werden. Diese Tatsache ist im Prinzip seit Jahrhunderten bekannt, aber sie wurde in ihrer definitiven Form erst im Rahmen der Lebesgueschen Integrationstheorie 1915 von G. Fubini (1879 – 1943) bewiesen. Im Falle einer Treppenfunktion f von zwei Variablen besagt dieser Satz nichts weiter als die Unabhängigkeit einer Doppelsumme endlich vieler Zahlen von der Summationsreihenfolge. Wir beweisen im Folgenden eine sehr einfache Version des allgemeinen Resultats, nämlich für stetige Funktionen von zwei Variablen, die auf einem Rechteck definiert sind. Den allgemeinen Satz von Fubini formulieren wir nur ohne Beweis. 33.1 Der Satz von Fubini für stetige Funktionen zweier Variabler Wir benötigen ein aus den Übungen bekanntes Resultat über parameterabhängige Integrale sowie die auch für sich genommen sehr nützliche Leibnizsche Regel über das Differenzieren unter dem Integral. Satz 33.1 Es seien I = [a, b] und J = [α, β] echte kompakte Intervalle, und es sei A = I × J. Die Funktion f : A −→ R sei stetig. Es sei Z y ϕ(x, y) = f (x, t) dt α für (x, y) ∈ A. Dann ist ϕ stetig auf A. Beweis. Aufgabe 10.3 465 Satz 33.2 (Leibnizsche Regel, Ableitung von Integralen nach Parametern) Es sei A = I × J ein achsenparalleles Rechteck mit echten kompakten Intervallen I = [a, b] und J = [α, β]. Die Funktion f : A −→ R sei stetig und nach der zweiten Variablen stetig partiell differenzierbar. Man setze Z b f (x, t) dx . F (t) := a Dann ist F eine differenzierbare Funktion auf J, und für alle t ∈ J gilt Z b ∂f 0 F (t) = (x, t) dx . a ∂t Beweis. Es seien ein Punkt t0 ∈ J und eine Zahl ε > 0 gegeben. Auf dem Kompaktum A gleichmäßig stetig (Satz 13.31). Daher gibt es ein δ > 0, so dass für alle x ∈ I und alle ist ∂f ∂t t ∈ J mit |t − t0 | < δ die Ungleichung ∂f (x, t) − ∂f (x, t0 ) < ε ∂t b−a ∂t gilt. Für t 6= t0 setzen wir R(x, t) = f (x, t) − f (x, t0 ) ∂f (x, t0 ) . − t − t0 ∂t Für alle t ∈ J mit t 6= t0 gilt dann F (t) − F (t0 ) = t − t0 Z b a Z = a b f (x, t) − f (x, t0 ) dx t − t0 Z b ∂f (x, t0 )dx + R(x, t)dx . ∂t a Der erste Summand hängt nicht von t ab. Auf f als Funktion der zweiten Variablen t wenden wir den Mittelwertsatz an. Danach gibt es zu jedem t 6= t0 in J und zu jedem x ∈ I ein θ zwischen t0 und t mit ∂f ∂f R(x, t) = (x, θ) − (x, t0 ) . ∂t ∂t Für |t − t0 | < δ ist auch |θ − t0 | < δ, und es folgt ε |R(x, t)| < für alle x ∈ I und alle t ∈ J mit |t − t0 | < δ, t 6= t0 . b−a Damit ergibt sich Z b Z b ε ≤ R(x, t)dx |R(x, t)|dx < · (b − a) = ε b−a a a für alle t ∈ J mit |t − t0 | < δ, t 6= t0 . Hieraus folgt Z b lim R(x, t)dx = 0. t→t0 a Somit folgt auch die Existenz von F (t) − F (t0 ) F (t0 ) = lim = t→t0 t − t0 0 Das gilt für jedes t0 ∈ J. Z a b ∂f (x, t0 )dx . ∂t 466 Damit können wir den angekündigten Spezialfall des Satzes von Fubini beweisen: Satz 33.3 (Satz von Fubini für stetige Funktionen zweier Variabler) Es sei A = I × J ein achsenparalleles Rechteck mit kompakten Intervallen I = [a, b] und J = [α, β]. Die Funktion f : A −→ R sei stetig. Dann gilt Z b Z β Z β Z b f (x, t)dt dx . f (x, t)dx dt = α a a α Beweis. Wir dürfen a < b und α < β annehmen. Wir setzen Z Z b f (x, t) dx für t ∈ J und ϕ(x, y) := F (t) := y f (x, t) dt für (x, y) ∈ A. α a Nach Satz 33.1 ist ϕ stetig auf A. Als Spezialfall dieses Satzes (für feste Integrationsobergrenze) erhält man auch die Stetigkeit von F . Daher wird nach dem Hauptsatz der Differentialund Integralrechnung durch Z y g(y) := F (t)dt α eine differenzierbare Funktion g : J −→ R mit der Ableitung g 0 (y) = F (y) definiert. Die Definition von ϕ und der Hauptsatz ergeben, dass ϕ nach der Variablen y partiell differenzierbar ist und die partielle Ableitung ∂ϕ (x, y) = f (x, y) ∂y hat. Somit ist ∂ϕ stetig. Wir können also die Leibnizsche Regel (Satz 33.2) anwenden. Dem∂y nach wird durch Z b Z b Z y h(y) = ϕ(x, y)dx = f (x, t)dt dx a a α eine differenzierbare Funktion h : J −→ R definiert, und ihre Ableitung ist Z b Z b ∂ϕ 0 h (y) = (x, y)dx = f (x, y)dx = F (y) = g 0 (y). ∂y a a Daher ist h − g eine konstante Funktion. Wegen g(α) = 0 und h(α) = 0 folgt g = h. Insbesondere ist g(β) = h(β), also Z β Z b Z b Z β f (x, t)dx dt = f (x, t)dt dx . α a a α Das ist die Behauptung des Satzes. 33.2 Die Sätze von Fubini und Tonelli In der Situation Vermutung nahe, dass das iterierte Integral von Satz 33.3 liegt die Rβ Rb R f (x, t)dx dt gleich dem Integral [a,b]×[α,β] f dv2 ist. Darüber hinaus ist zu erwarα a ten, dass fürRjede stetige Funktion f : Q −→ R auf einem achsenparallelen Quader Q ⊆ Rn das Integral Q f dvn durch sukzessive Integrationen bezüglich jeder einzelnen Variablen, im 467 Prinzip also durch eine n-fache Anwendung des Hauptsatzes berechnet werden kann. Auch für Funktionen auf allgemeineren Definitionsbereichen als Quadern ist ein derartiges Resultat zu erwarten, und es ist die Frage, inwieweit man die Voraussetzung der Stetigkeit von f abschwächen kann. Eine allgemeine Antwort auf diese Fragen und Vermutungen liefert das bereits erwähnte Resultat, das G. Fubini 1915 im Rahmen der Lebesgue-Theorie bewiesen hat. In dieser Theorie ist die angemessene Voraussetzung an Funktionen f nicht die Stetigkeit, sondern f ∈ L(Rn ). Unter dieser relativ schwachen Voraussetzung kann es vorkommen, dass f auf vielen achsenparallelen Hyperebenen nicht integrierbar (bezüglich vn−1 ) ist. Man muss zunächst zeigen, dass dieses Unglück nur auf relativ wenigen“ Hyperebenen eintreten kann. Dieser ” Umstand macht es verständlich, warum der Beweis des Satzes von Fubini ziemlich schwierig ist. Wir müssen ihn aus Zeitgründen übergehen. Satz 33.4 (Satz von Fubini) Es sei n = r + s mit natürlichen Zahlen r und s. Es n sei f ∈ L(R ). Dann gibt es eine Nullmenge N 0 ⊆ Rr (bezüglich vr ) und eine Nullmenge N 00 ⊆ Rs (bezüglich vs ), so dass die folgenden Aussagen gelten: (1) Für alle x ∈ Rr \ N 0 ist y 7→ f (x, y) eine Lebesgue-integrierbare Funktion auf Rs , und die Funktion Z x 7→ f (x, y) dvs (y) ist Lebesgue-integrierbar auf Rr \ N 0 . (2) Für alle y ∈ Rs \ N 00 ist x 7→ f (x, y) eine Lebesgue-integrierbare Funktion auf Rr , und die Funktion Z y 7→ f (x, y) dvr (x) ist Lebesgue-integrierbar auf Rs \ N 00 . (3) Es gilt Z Z Z f dvn = Z Z f (x, y) dvs (y) dvr (x) = f (x, y) dvr (x) dvs (y). Beweis. [Köhler, S.507-511]. Es stellt sich die Frage nach einer Umkehrung“ des Satzes von Fubini: Folgt aus der Existenz ” der iterierten Integrale bereits die Integrierbarkeit von f , oder sind die iterierten Integrale zumindest stets unabhängig von der Reihenfolge der Integration? Das ist nicht immer der Fall, wie wir in Aufgabe 13.1 sehen werden. Falls die iterierten Integrale existieren, genügt jedoch eine milde zusätzliche Voraussetzung, um die (Lebesgue-)Integrierbarkeit von f sicherzustellen. Das folgende Resultat stammt von L. Tonelli (1885 – 1946): Satz 33.5 (Satz von Tonelli) Die Funktion f : Rn −→ R sei messbar, und wie in Satz 33.4 sei n = r + s. Für fast alle x ∈ Rr sei die Funktion f (x) : y → 7 f (x, y) Lebesgueintegrierbar. Die Funktion Z Z (x) x 7→ |f | dvs = |f (x, y)| dvs (y) 468 sei Lebesgue-integrierbar. Dann ist f ∈ L(Rn ), und es gelten die Formeln Z Z Z f dvn = Z Z f (x, y) dvs (y) dvr (x) = f (x, y) dvr (x) dvs (y). Beweis. [Köhler, S. 512] Für praktische Anwendungen des Satzes von Fubini benötigt man die Integrierbarkeit stetiger Funktionen auf Kompakta. Aus Satz 31.18 ist diese im Sinne von Lebesgue-Integrierbarkeit bekannt. Tatsächlich sind solche Funktionen sogar Riemann-integrierbar: Satz 33.6 Es sei K ⊆ Rn kompakt. Jede stetige Funktion f : K −→ R ist dann Riemannund Lebesgue-integrierbar. Beweis. Man kann den aus Satz 17.14 für den Fall n = 1, K = [a; b] bekannten Beweis der Riemann-Integrierbarkeit fast wörtlich übertragen. Wesentliches Hilfsmittel ist die gleichmäßige Stetigkeit von f auf dem Kompaktum K (Satz 13.31). Aus der Riemann-Integrierbarkeit folgt die Lebesgue-Integrierbarkeit gemäß Satz 30.29. Unabhängig davon ist die Lebesgue-Integrierbarkeit auch in Satz 31.18 gezeigt worden. 33.3 Das Cavalierische Prinzip Resultate von der Art des Satzes von Fubini haben eine lange Geschichte. Nach B. Cavalieri (1598 – 1647), einem Schüler von Galilei, ist das folgende Prinzip für das Volumen kompakter Mengen in R3 benannt: Cavalierisches Prinzip. Es seien zwei Körper und eine Schar von parallelen Ebenen gegeben. Wenn die beiden Körper von jeder Ebene der Schar in inhaltsgleichen Flächen geschnitten werden, dann haben die beiden Körper das gleiche Volumen. Es ist nicht schwierig, aus diesem Prinzip eine Formel für das Volumen vn (K) von kompakten Mengen K ⊆ Rn zu gewinnen. Wegen der Beschränktheit von K dürfen wir annehmen, dass mit einer Konstanten h > 0 die letzten Koordinaten aller Punkte x = (x1 , . . . , xn ) ∈ K die Ungleichungen 0 ≤ xn ≤ h erfüllen. Für 0 ≤ t ≤ h bezeichne dann Kt = {(x1 , . . . , xn−1 ) ∈ Rn−1 | (x1 , . . . , xn−1 , t) ∈ K} die Projektion des Durchschnitts von K und der Hyperebene mit der Gleichung xn = t in den Rn−1 . Schließlich sei vn−1 (Kt ) der Inhalt des Hyperebenenstückes Kt . Dann gilt Z vn (K) = h vn−1 (Kt ) dv1 (t). 0 Diese Formel - und damit das Cavalierische Prinzip - lässt sich nunmehr mithilfe des Satzes von Fubini exakt begründen: 469 Begründung: Als kompakte Menge ist K nach Satz 31.6 messbar. Wegen der Beschränktheit von K ist also χK Lebesgue-integrierbar (vgl. Bemerkung 31.2 (2)). Nach dem Satz von Fubini ist (x1 , . . . , xn−1 ) 7→ χK (x1 . . . , xn−1 , t) für fast alle t ∈ R Lebesgue-integrierbar, und es gilt Z vn (K) = Z hZ χK (x1 , . . . , xn−1 , t) dvn−1 (x1 , . . . , xn−1 ) dv1 (t) χK dvn = Rn−1 0 Z hZ = Rn−1 0 Z = χKt (x1 , . . . , xn−1 ) dvn−1 (x1 , . . . , xn−1 ) dv1 (t) h vn−1 (Kt ) dv1 (t). 0 Mit Hilfe dieses Prinzips hat Archimedes in der Dimension n = 3 das Volumen von Kegeln und Kugeln berechnen können. Das Cavalierische Prinzip war also lange vor Cavalieri bereits in der wissenschaftlichen Blütezeit des 3. Jahrhunderts v. Chr. bekannt. Wir erläutern die Schlussweise von Archimedes in den folgenden Beispielen. Beispiel 33.7 Ein gerader Kreiskegel mit einem Kreis vom Radius r > 0 als Grundfläche und einer Höhe h > 0 lässt sich darstellen in der Form z 2 2 3 2 2 ·r . K = (x, y, z) ∈ R | 0 ≤ z ≤ h, x + y ≤ 1 − h Für 0 ≤ t ≤ hist der Durchschnitt von K mit derEbene z = t eine Kreisscheibe mit dem 2 Radius 1 − ht · r und dem Flächeninhalt π 1 − ht · r2 . Die Volumenformel liefert also v3 (K) = πr 2 h Z 0 t 1− h 2 dt = πr 2 Z 0 1 1 hu2 du = πr2 h. 3 h t 0 Abbildung 98: Schiefer Kreiskegel Die Volumenformel bleibt für schiefe Kreiskegel wie in der Abbildung 98 gültig. Das war Archimedes aufgrund des Cavalierischen Prinzips“ klar. Man kann die Formel leicht auf ” Kegel verallgemeinern, deren Grundflächen keine Kreisscheiben sind. 470 Beispiel 33.8 Nach der Methode von Archimedes wollen wir das Volumen einer Kugel vom Radius r > 0 bestimmen. Dazu betrachten wir die kompakte Halbkugel B = {(x, y, z) ∈ R3 | x2 + y 2 + z 2 ≤ r2 , z ≥ 0} und vergleichen sie mit dem Kreiskegel K = {(x, y, z) ∈ R3 | x2 + y 2 ≤ z 2 , 0 ≤ z ≤ r}. Wir stellen uns K als Teilmenge des Zylinders Z = {(x, y, z) ∈ R3 | x2 + y 2 ≤ r2 , 0 ≤ z ≤ r} vor. Für 0 ≤ t ≤ r bezeichnen wir mit Bt und At die Durchschnittsmengen der horizontalen Ebene z = t mit der Halbkugel B und mit der Differenzmenge A = Z \ K. r t Bt At 0 r r Abbildung 99: Kugelvolumen nach Archimedes √ Dann ist Bt eine Kreisscheibe mit dem Radius r2 − t2 , und At ist ein Kreisring mit dem Außenradius r und dem Innenradius t. Die Flächeninhalte v2 (Bt ) = π(r2 − t2 ) und v2 (At ) = πr2 − πt2 sind gleich. Nach dem Cavalierischen Prinzip haben daher B und A das gleiche Volumen. Gemäß Beispiel 33.7 hat A das Volumen 1 2 v3 (A) = v3 (Z) − v3 (K) = πr2 · r − πr2 · r = πr3 . 3 3 Das Volumen einer Kugel vom Radius r ist das Doppelte des Volumens der Halbkugel B, also gleich 4 3 πr . 3 Beispiel 33.9 Eine Menge A ⊆ R3 heißt ein Rotationskörper mit der z-Achse als Rotationsachse, falls es ein kompaktes Intervall I = [a, b] und eine stetige Funktion r : I −→ [0, ∞[ gibt, so dass A = {(x, y, t) ∈ R3 | a ≤ t ≤ b, x2 + y 2 ≤ (r(t))2 } ist. besitzen also ein endliches Volumen v3 (A) = R Solche Rotationskörper sind kompakt, 2 2 dv3 . Setzt man Ft = {(x, y) ∈ R | x + y 2 ≤ (r(t))2 }, dann ist v2 (Ft ) = π · (r(t))2 , und A aus dem Cavalierischen Prinzip folgt Z b Z b v3 (A) = v2 (Ft ) dt = π · (r(t))2 dt. a a 471 34 Die Transformationsformel Die Substitutionsregel Z ϕ(b) Z b f (x) dx = ϕ(a) f (ϕ(t)) ϕ0 (t) dt a ergibt sich als leichte Folgerung aus dem Hauptsatz der Differential- und Integralrechnung. Hierin ist f eine stetige und ϕ eine stetig differenzierbare Funktion. Es wäre wünschenswert, ein Analogon dieser Regel für mehrdimensionale Integrale zur Verfügung zu haben, zum Beispiel aus dem folgenden Grund: Manche Probleme beschreibt und löst man zweckmäßigerweise nicht in kartesischen Koordinaten, sondern in krummlinigen“ Koordinaten, die ir” gendwelchen Symmetrien des Problems angepasst sind, etwa in Kugelkoordinaten. Deshalb muss man wissen, wie sich Integrale bei Koordinatentransformationen ändern. Eine Antwort hierauf liefert die sog. Transformationsformel. Deren Beweis ist viel schwieriger als der Beweis der Substitutionsregel. Einer der Gründe hierfür ist, dass uns für mehrere Variable kein Analogon des Hauptsatzes der Differential- und Integralrechnung zur Verfügung steht. Wir müssen aus Zeitgründen auf den (ca. 15 Seiten langen) Beweis verzichten und beschränken uns auf eine heuristische Überlegung, die zur Transformationsformel hinführt und ihre Richtigkeit plausibel macht. Heuristische Überlegung: Es sei A ⊆ U ⊆ Rn , A kompakt und U offen. Die Abbildung ϕ : U −→ Rn sei differenzierbar und auf A injektiv. Wir suchen eine Formel für das Volumen der Bildmenge ϕ(A). R P • Das Volumen vn (A) = A dvn wird durch die Summen Q vn (Q) approximiert, worin über ein System von endlich vielen disjunkten kleinen Quadern Q ∈ Qn summiert wird, deren Vereinigungsmenge ungefähr“ mit A übereinstimmt. ” • Dann sind die Summen Z X dvn . vn (ϕ(Q)) Approximationen für vn (ϕ(A)) = ϕ(A) Q • Weil die Quader Q klein“ gewählt werden und ϕ differenzierbar ist, kann ϕ auf Q ” näherungsweise durch die lineare Abbildung Dϕ(a) mit einem fest gewählten Punkt a ∈ Q ersetzt werden. Das Bild (Dϕ(a))(Q) ist ein Parallelotop, und das Bild ϕ(Q) ist ein etwas verzerrtes ” Parallelotop“, dessen Volumen näherungsweise gleich dem Volumen des Parallelotops (Dϕ(a))(Q) ist. • Für eine beliebige lineare Abbildung L : Rn −→ Rn ist L(Q) ein Parallelotop mit dem Volumen vn (L(Q)) = | det L| · vn (Q). Diese elementare Tatsache dürfte aus der Linearen Algebra bekannt sein. Somit kommt der Betrag | det Dϕ(a)| = | det Jϕ (a)| der Jacobi-Determinante von ϕ ins Spiel. • Wir gelangen so zu einer Approximation X X vn (ϕ(A)) ≈ vn (ϕ(Q)) ≈ | det Jϕ (aQ )| · vn (Q) Q Q 472 mit aQ ∈ Q. ϕ(Q) ϕ Q a Dϕ(a) (Dϕ(a))(Q) Abbildung 100: Bilder von Quadern und ihr Volumen • Wir hoffen und erwarten, dass diese Approximation beim Grenzübergang zu beliebig feinen Zerlegungen von A zu einer exakten Gleichheit wird. Wir gelangen so zu der Vermutung Z Z | det Jϕ | dvn dvn = vn (ϕ(A)) = ϕ(A) A für das Volumen des Bildes ϕ(A). An dieser Überlegung ändert sich nicht viel, wenn eine stetige Funktion f : ϕ(U ) −→ R über R die Menge ϕ(A) integriert werden soll. Approximationen für ϕ(A) f dvn sind die Summen P Q f (ϕ(aQ )) · vn (ϕ(Q)). Das führt uns zu der Vermutung Z Z f dvn = (f ◦ ϕ) · | det Jϕ | dvn . ϕ(A) A Diese heuristische Betrachtung zeigt auch bereits die Schwierigkeiten auf, die ein exakter Beweis mit sich bringt. Man muss Fehler von zweierlei Art unter Kontrolle halten und zeigen, dass sie für genügend feine Zerlegungen von A beliebig klein werden: Es entstehen Fehler bei der Ersetzung von A durch eine Vereinigungsmenge von Quadern, und es entstehen Fehler bei der lokalen Ersetzung von ϕ durch lineare Abbildungen Dϕ(a). Satz 34.1 (Transformationsformel für Integrale) Es sei ϕ : D −→ Rn eine stetig differenzierbare und injektive Funktion auf einer offenen Menge D ⊆ Rn , und in jedem Punkt a ∈ D sei die Ableitung Dϕ(a) regulär. Es sei A ⊆ D eine messbare Menge und f : Rn −→ R eine Lebesgue-integrierbare Funktion. Dann ist auch ϕ(A) messbar, (f ◦ ϕ) · | det Jϕ | ist Lebesgue-integrierbar auf A, und es gilt Z Z f dvn = (f ◦ ϕ) · | det Jϕ | dvn . ϕ(A) A Beweis. [Köhler, S. 520-537] 473 Beispiel 34.2 Ist A eine messbare Menge mit endlichem Inhalt vn (A) und erfüllt ϕ die Voraussetzungen in Satz 34.1, so ist das Bild ϕ(A) messbar, aber es braucht keineswegs einen endlichen Inhalt zu haben. Dies wird durch das Beispiel n = 1, A = D = ] − π/2, π/2 [ und ϕ(x) = tan x belegt. In diesem Fall ist ϕ(A) = R. Aus der Transformationsformel folgt insbesondere, dass Nullmengen von stetig differenzierbaren Abbildungen auf Nullmengen abgebildet werden. Satz 34.3 Für ϕ und D seien die Voraussetzungen in Satz 34.1 erfüllt. Dann ist für jede Nullmenge N ⊆ D das Bild ϕ(N ) eine Nullmenge. Beweis. Es sei eine Nullmenge N ⊆ D gegeben. Wir wenden Satz 34.1 mit ϕ(D) und ϕ−1 anstelle von D und ϕ an; dies ist möglich, da ϕ−1 nach dem Satz über lokale Umkehrbarkeit (Satz 26.4) stetig differenzierbar und ϕ(D) nach dem Offenheitsprinzip (Korollar 26.5) offen ist. R Die Funktion χN ist fast überall 0; also ist sie Lebesgue-integrierbar, und es gilt χN dvn = 0. Aus Satz 34.1 folgt daher die Integrierbarkeit von (χN ◦ ϕ−1 ) · |det Jϕ−1 | = χϕ(N ) · det Jϕ−1 ◦ ϕ−1 auf ϕ(D) sowie Z Z χϕ(N ) · | det Jϕ−1 ◦ ϕ−1 | dvn . χN dvn = 0= D ϕ(D) Hieraus und aus Lemma 30.18 folgt, dass χϕ(N ) · | det Jϕ−1 ◦ ϕ−1 | fast überall 0 ist. Der zweite Faktor ist nach Voraussetzung nirgends 0. Folglich ist χϕ(N ) fast überall 0. Also ist ϕ(N ) eine Nullmenge. Damit ist der Satz bewiesen. Bemerkung 34.4 Aus Satz 34.3 ergibt sich insbesondere, dass beliebige Hyperebenen im Rn Nullmengen sind (nicht nur achsenparallele Hyperebenen wie in Beispiel 29.11 (1) gezeigt). Denn jede Hyperebene ist das Bild einer achsenparallelen Hyperebene unter einer geeigneten Drehung, und diese erfüllt die Voraussetzungen der Transformationsformel. Allgemeiner hat Satz 34.3 zur Folge, dass m-dimensionale Flächen in Rn Nullmengen sind, falls m < n ist. Zum Beweis müssen wir auf einige Resultate aus Kapitel 28 zurückgreifen. Zunächst erklären wir, was wir unter einer Fläche im Rn verstehen. Definition 34.5 Es sei m < n, D ⊆ Rm sei offen und f : D −→ Rn stetig differenzierbar mit rang Df (a) = m für alle a ∈ D. Dann heißt das Bild f (D) eine m-dimensionale Fläche im Rn . Satz 34.6 Nullmenge. Es sei m < n, und S sei eine m-dimensionale Fläche in Rn . Dann ist S eine Beweis. Es sei S = f (D), wobei f und D die Bedingungen in der vorstehenden Definition erfüllen. Nach dem Immersionssatz (Satz 28.8) gibt es zu jedem Punkt a ∈ D eine offene Umgebung U von a in D, auf der f injektiv ist, und bei geeigneter Nummerierung der Koordinaten in Rn gilt f (U ) = {(x, ϕ(x)) | x ∈ V } 474 mit einer offenen Menge V ⊆ Rm und einer Funktion ϕ : V −→ Rn−m von der Klasse C 1 . Wir zeigen zunächst, dass f (U ) eine Nullmenge ist. Hierzu definieren wir die Funktionen g : V −→ Rn und ψ : V × Rn−m −→ Rn durch g(x) := (x, ϕ(x)) und ψ(x, y) := g(x) + (0, y) = (x, ϕ(x) + y). Beide Funktionen sind injektiv und von der Klasse C 1 , und es ist Em 0 Jψ (x, y) = . Jϕ (x) En−m Also ist Jψ überall regulär. Es gilt f (U ) = g(V ) = ψ(N ) mit N = {(x, 0) | x ∈ V }. Als Teilmenge einer Hyperebene ist N eine Nullmenge. Nach Satz 34.3 ist folglich auch f (U ) = ψ(N ) eine Nullmenge. Nun sei K eine kompakte Teilmenge von D. Jeder Punkt a ∈ K besitzt eine offene Umgebung Ua , wofür die Überlegungen im vorigen Absatz zutreffen. Die Mengen Ua überdecken die kompakte Menge K. Daher genügen endlich viele der Mengen Ua zur Überdeckung von K. Also wird f (K) von endlich vielen Bildern f (Ua ) überdeckt. Jedes ist nach dem vorigen Absatz eine Nullmenge, und folglich ist auch f (K) eine Nullmenge. Schließlich können wir D als Vereinigung von abzählbar unendlich vielen kompakten Teilmengen Kj darstellen. (Das folgt wie im Beweis von Satz 31.6.) Somit ist f (D) als Vereinigung von abzählbar vielen Nullmengen f (Kj ) nach Satz 29.10 (2) ebenfalls eine Nullmenge. Bemerkung 34.7 Die Transformationsformel gilt für beliebige integrierbare Funktionen, und insofern ist sie bestmöglich. Andererseits ist in typischen Anwendungen der Formel ϕ nur fast überall injektiv, und die Ableitung Dϕ(a) ist nur in fast allen Punkten a regulär. In diesen Fällen gibt es jedoch typischerweise jeweils eine Nullmenge N , so dass D \ N offen ist und für D \ N die Voraussetzungen der Transformationsformel erfüllt sind. Daher kann man D durch D \ N ersetzen. Auf der linken Seite der Transformationsformel erhält man den Integrationsbereich ϕ(D \ N ); dieser darf durch ϕ(D) ersetzt werden, weil ϕ(N ) nach Satz 34.3 eine Nullmenge ist. Beispiel 34.8 Es sei ϕ(r, θ) = (r · cos θ, r · sin θ) für r > 0, θ ∈ R. Dann sind r und θ Polarkoordinaten des Punktes ϕ(r, θ) = (x, y) in R2 . Eine Umkehrabbildung ϕ−1 heißt dort, wo sie existiert, eine Transformation auf Polarkoordinaten in der Ebene. Auf der offenen Menge D = ]0, ∞[ × ]0, 2π[ ist ϕ injektiv. Die Funktionaldeterminante det Jϕ (r, θ) = det cos θ −r sin θ sin θ r cos θ 475 =r e = ]0, ∞[ × R von ϕ. Nach Satz verschwindet in keinem Punkt des Definitionsbereiches D 34.1 gilt also Z Z f (x, y) dx dy = r · f (ϕ(r, θ)) dr dθ ϕ(D) D 2 für jede integrierbare Funktion f : R −→ R. Weil ϕ(D) = R2 \ N mit der Nullmenge N = {(x, 0) | x > 0} ist, gilt auch Z Z Z ∞Z ∞ r · f (ϕ(r, θ)) dr dθ. f (x, y) dx dy = f dv2 = D −∞ −∞ Beispiel 34.9 Das Integral Z ∞ 2 e−x dx Φ= −∞ bezeichnet man als das Gaußsche Fehlerintegral. Sein Wert lässt sich mit Hilfe der Transformationsformel (Satz 34.1) und des Satzes von Fubini (Satz 33.4) mühelos berechnen: Z ∞ Z ∞ Z 2 2 2 −x2 −y 2 Φ = e dx · e dy = e−(x +y ) dx dy −∞ R2 −∞ Z −r2 r·e = Z dr dθ = 2π · ]0,∞[×]0,2π[ ∞ −r2 r·e Z dr = π · 0 ∞ e−t dt 0 = π. Da offenbar Φ > 0 ist, ergibt sich Φ = √ π. e −→ R3 auf der offenen Menge D e = Beispiel 34.10 Wir definieren die Funktion ϕ : D {(r, θ, λ) | r > 0, θ ∈ R, λ ∈ R} durch ϕ(r, θ, λ) = (r · cos θ · cos λ, r · cos θ · sin λ, r · sin θ). Wie in Beispiel 26.9 sind r, θ, λ Kugelkoordinaten des Punktes ϕ(r, θ, λ) = (x, y, z) in R3 . Eine Umkehrabbildung ϕ−1 heißt dort, wo sie existiert, eine Transformation auf Kugelkoordinaten in R3 . Aus Beispiel 26.9 kennen wir auch die Funktionaldeterminante det Jϕ (r, θ, λ) = − r2 cos θ. e mit der Vereinigungsmenge Sie verschwindet nur in den Punkten des Durchschnitts von D 1 0 N aller Ebenen mit den Gleichungen θ = (k + 2 )π, k ∈ Z, und nach Beispiel 29.11 ist N 0 eine Nullmenge. Auf der offenen Menge D = ]0, ∞[ × ] − π/2, π/2[ × ]0, 2π[ ist ϕ injektiv, und es gilt ϕ(D) = R3 \ N mit der Nullmenge N = {(x, 0, z) | x ≥ 0, z ∈ R}. Wie in Beispiel 34.8 folgt daher aus Satz 34.1 die Formel Z Z Z f dv3 = f (x, y, z) dx dy dz = r2 · cos θ · f (ϕ(r, θ, λ)) dr dθ dλ R3 D für alle integrierbaren Funktionen f : R3 −→ R. 476 Zur Illustration berechnen wir hiermit nochmals das Volumen einer Kugel K vom Radius R > 0 um den Nullpunkt. Das Urbild ϕ−1 (K \ N ) ist ein Quader, und zu integrieren ist ein Produkt von Funktionen von jeweils nur einer Variablen; deshalb ergibt sich recht einfach Z Z v3 (K) = dv3 = r2 cos θ dr dθ dλ ϕ−1 (K\N ) K Z R 2 π/2 r dr · = Z cos θ dθ · −π/2 0 = Z 2π dλ 0 1 3 4 R · 2 · 2π = πR3 . 3 3 3 Beispiel 34.11 Es seien eine kompakte Menge p K ⊆ R und eine stetige Funktion % : K −→ [0, ∞[ gegeben. Es bezeichne r(x, y, z) = x2 + y 2 den Abstand des Punktes (x, y, z) von der z-Achse. In der Mechanik heißt das Integral Z T = (r2 · %)(x, y, z) d(x, y, z) K das Trägheitsmoment des Körpers K mit der Dichteverteilung % bezüglich der z-Achse. Es ist zweckmäßig, mittels ϕ(r, θ, z) = (r cos θ, r sin θ, z) für r > 0, 0 < θ < 2π, z ∈ R Zylinderkoordinaten r, θ, z bezüglich der z-Achse einzuführen. Aus Beispiel 34.8 ergibt sich det Jϕ (r, θ, z) = r. Aus Satz 34.1 folgt also Z r3 · %(ϕ(r, θ, z)) dr dθ dz. T = ϕ−1 (K) Wir nehmen an, dass K und % eine Symmetrie zur z-Achse aufweisen, dass also die Funktion % ◦ ϕ nicht von der Variablen θ abhängt. Dann reduziert sich das dreifache Integral für T auf ein zweifaches von der Gestalt Z T = 2π · r3 %(ϕ(r, θ, z)) dr dz. Es sei beispielsweise K eine Kugel vom Radius R um den Nullpunkt, und % sei konstant. Dann folgt ! Z R Z √R2 −z2 Z R 1 3 T = 2π% r dr dz = · π% (R2 − z 2 )2 dz 2 0 −R −R Z R 2 1 8 4 2 2 4 5 5 5 = π% (R − 2z R + z ) dz = π% R − · R + · R = π%R5 . 3 5 15 0 477 35 Die Integralsätze von Green, Stokes und Gauß In diesem abschließenden Kapitel stellen wir drei zentrale Integralsätze der Vektoranalysis für den R2 und R3 vor, die man allesamt als mehrdimensionale Verallgemeinerungen des Hauptsatzes der Differential- und Integralrechnung ansehen kann. Zu ihrer Formulierung müssen wir zunächst erklären, was wir unter Kurven- und Oberflächenintegralen verstehen. Dieses Kapitel hat reinen Berichtcharakter; aus Zeitgründen müssen wir für (fast) alle Beweise auf die Literatur verweisen. Ebensowenig können wir auf die Theorie der Differentialformen und den allgemeinen Satz von Stokes in beliebigen Dimensionen eingehen. 35.1 Vektorfelder und Kurvenintegrale Definition 35.1 Jede stetige Abbildung F : D −→ Rn auf einer offenen Menge D ⊆ Rn heißt ein Vektorfeld auf D. Mit einem Vektorfeld F auf D verbindet man die Vorstellung, dass im Punkt x ∈ D der Vektor F (x) angeheftet“ ist. ” Heuristische Überlegung: Die in der Physik auftretenden Vektorfelder üben irgendwelche Wirkungen aus. Zum Beispiel kann F (x) eine Kraft sein, die auf eine im Punkt x befindliche Masse einwirkt. Bewegt sich die Masse im Feld, dann kann Energie frei werden oder es muss Arbeit gegen die Kraft“ geleistet werden. Wir wollen eine Formel für diese ” Energie herleiten und auf diese Weise zum Begriff des Kurvenintegrals gelangen. Im einfachsten Fall ist F konstant (ein sog. homogenes Vektorfeld). Bewegt man eine Masse in diesem Feld geradlinig von einem Punkt a zu einem Punkt b, dann wird die Energie E = hF, b − ai frei; je nach dem Winkel zwischen den Vektoren F und b − a ist sie positiv, negativ oder 0, und im Falle E < 0 ist die Arbeit |E| aufzuwenden. Wie lautet die Formel für E in dem allgemeineren Fall, wenn eine Masse in einem beliebigen Feld F längs eines beliebigen Weges x : [0, 1] −→ D von x(0) = a nach x(1) = b bewegt wird? F (b) F F (a) F a a F F (x) F b x b Abbildung 101: Arbeit im Vektorfeld Wir denken uns den Weg x in kleine, annähernd gerade Stücke von x(tk ) bis x(tk+1 ) zerlegt, auf denen F annähernd konstant ist; hierbei ist (t, t − 1, . . . , tm ) eine Zerlegung des Intervalls [0, 1]. Dann ist die Summe X hF (x(tk )) , x(tk+1 ) − x(tk )i k 478 ein Näherungswert für E. Die Differenz x(tk+1 ) − x(tk ) ist ungefähr gleich x0 (tk ) · (tk+1 − tk ), und die Summe ist ein Näherungswert für ein Integral. Das macht die Formel Z 1 hF (x(t)) , x0 (t) idt E= 0 für die Energie plausibel. Wir zeigen, dass dieses Integral nur vom Feld F und der von x parametrisierten Kurve (sowie von deren Orientierung) abhängt, also unabhängig von der Wahl der Parameterdarstellung x ist. Dazu benötigen wir zunächst den Begriff der orientierten Kurve. Definition 35.2 In Abwandlung von Definition 22.19 seien zwei Wege α : I −→ Rn und β : J −→ Rn im Rn äquivalent, falls es eine orientierungserhaltende Parametertransformation ϕ : I −→ J gibt mit β ◦ ϕ = α. Die Äquivalenzklassen von Wegen bezüglich dieser Äquivalenzrelation bezeichnen wir als orientierte Kurven im Rn . Lemma 35.3 Es sei F : D −→ Rn ein Vektorfeld auf einer offenen Menge D ⊆ Rn , und γ sei eine orientierte Kurve in D mit einer stetig differenzierbaren Parameterdarstellung x : [α, β] −→ D. Dann ist das Integral Z β hF (x(t)) , x0 (t)i dt α nur von F und γ abhängig. Es ist invariant gegenüber orientierungserhaltenden, stetig differenzierbaren Parametertransformationen. Beweis. Das Integral ist ein Riemannsches Integral; die Existenz ist also klar. Es sei auch y : [a, b] −→ D eine Parameterdarstellung der Kurve γ, und es sei x = y ◦ ϕ mit einer orientierungserhaltenden, stetig differenzierbaren Parametertransformation ϕ : [α, β] −→ [a, b]. Dann ist ϕ(α) = a und ϕ(β) = b, und aus der Kettenregel und der Substitutionsregel folgt Z β Z β 0 hF (y(ϕ(t))) , y 0 (ϕ(t))i · ϕ0 (t) dt hF (x(t)) , x (t)i dt = α α b Z hF (y(u)) , y 0 (u)i du. = a Das war zu zeigen. Das Resultat rechtfertigt die folgende Definition. Definition 35.4 Es sei F : D −→ Rn ein Vektorfeld auf einer offenen Menge D ⊆ Rn , und γ sei eine orientierte Kurve in D mit einer stückweise stetig differenzierbaren Parameterdarstellung x : [α, β] −→ D. Dann heißt Z β hF (x(t)) , x0 (t)i dt α 479 das Kurvenintegral von F längs γ oder auch das Linienintegral von F längs γ. Es wird mit den Symbolen Z Z hF (x) , dxi oder (F1 dx1 + . . . + Fn dxn ) γ γ bezeichnet, worin F1 , . . . , Fn die Komponentenfunktionen von F sind. R Falls die Kurve γ geschlossen ist, so heißt das Kurvenintegral γ hF (x) , dxi auch die Zirkulation des Feldes F längs der Kurve γ. R In der Schreibweise γ hF (x), dxi wird die Unabhängigkeit des Kurvenintegrals von der Wahl der Parameterdarstellung zum Ausdruck gebracht. Das (undefinierte!) Symbol dx = x0 (t) dt wird das vektorielle Linienelement längs γ genannt. Seine Einführung kommt der infinitesimalen Denkweise zustatten. Der Begriff Zirkulation bekommt eine anschauliche Bedeutung, wenn zum Beispiel F (x) der Geschwindigkeitsvektor einer Flüssigkeitsströmung in der Ebene ist. Die Zirkulation von F längs γ ist besonders groß, wenn die Flüssigkeit um das von γ berandete Gebiet herum fließt; im Extremfall könnte F (x) überall parallel zum Tangentialvektor von γ sein. 35.2 Divergenz, Rotation und Kreuzprodukt Definition 35.5 Es sei F ein stetig differenzierbares Vektorfeld auf einer offenen Menge D in R3 . Dann heißt ∂F1 ∂F2 ∂F3 + + divF := ∂x1 ∂x2 ∂x3 die Divergenz oder auch die Quellstärke und ∂F ∂F2 3 − ∂x ∂x3 2 ∂F1 ∂F3 rot F := ∂x3 − ∂x1 ∂F2 ∂F1 − ∂x2 ∂x1 die Rotation des Feldes F . Die Divergenz und die Rotation eines Vektorfeldes spielen insbesondere in der Physik eine große Rolle, beispielsweise für die Formulierung der Maxwell-Gleichungen, der grundlegenden Gleichungen der Elektrodynamik. Lemma 35.6 (1) Es sei F ein Vektorfeld von der Klasse C 2 auf einer offenen Menge D ⊆ R3 . Dann gilt div rot F = 0. (2) Es sei f : D −→ R eine Funktion der Klasse C 2 auf einer offenen Menge D ⊆ R3 . Dann gilt rot grad f = 0. 480 Beweis. Aufgrund der zweimaligen stetigen Differenzierbarkeit kann man gemäß dem Satz von Schwarz (Satz 25.3) die Reihenfolge der partiellen Ableitungen von F1 , F2 , F3 und f vertauschen und erhält ∂ 2 F2 ∂ 2 F1 ∂ 2 F3 ∂ 2 F2 ∂ 2 F1 ∂ 2 F3 − + − + − =0 div rot F = ∂x1 ∂x2 ∂x1 ∂x3 ∂x2 ∂x3 ∂x2 ∂x1 ∂x3 ∂x1 ∂x3 ∂x2 und ∂2f ∂2f − ∂x ∂x ∂x3 ∂x2 0 2 3 ∂2f ∂2f rot grad f = ∂x3 ∂x1 − ∂x1 ∂x3 = 0 . 0 ∂2f ∂2f − ∂x2 ∂x1 ∂x1 ∂x2 Beide Ergebnisse dieses Lemmas sind Spezialfälle eines allgemeinen Satzes über Differentialformen [Köhler, Satz 43.5 (3)]. Ein zweidimensionales Analogon zur Rotation stellt die sog. Wirbeldichte dar. Definition 35.7 in R2 heißt Für ein stetig differenzierbares Vektorfeld F auf einer offenen Menge ∂F2 ∂F1 − ∂x1 ∂x2 die Wirbeldichte von F . Zur Definition des Integrals von Funktionen über Hyperflächen benötigen wir noch zwei Hilfsmittel aus der Linearen Algebra: Das Kreuzprodukt und die Gramsche Determinante. Erinnerung: definiert durch Das Kreuzprodukt oder Vektorprodukt zweier Vektoren a, b ∈ R3 ist a2 b 3 − a3 b 2 a × b = a3 b 1 − a1 b 3 , a1 b2 − a2 b1 falls a1 a = a2 , a3 b1 b = b2 . b3 Im folgenden Satz sind einige Eigenschaften des Kreuzprodukts zusammengestellt: Satz 35.8 (Kreuzprodukt) Für alle a, b, c ∈ R3 und alle λ ∈ R gilt (1) det(a, b, c) = ha × b , ci. (2) b × a = − a × b, a × (b + c) = a × b + a × c, (λa) × b = λ · (a × b). Das Kreuzprodukt ist also bilinear und alternierend auf R3 . (3) Genau dann ist a × b = 0, wenn a und b linear abhängig sind. (4) Bezeichnet γ den Winkel zwischen a und b in R3 , dann gilt ||a × b|| = ||a|| · ||b|| · | sin γ|. Die Länge von a × b ist gleich dem Flächeninhalt des von a und b aufgespannten Parallelogramms. (5) Der Vektor a × b ist orthogonal zu a und zu b. 481 Beweis. Lineare Algebra oder [Köhler, Satz 38.4] Definition 35.9 Es sei V ein euklidischer Vektorraum mit einem Skalarprodukt h . , . i, und es seien v1 , . . . , vm ∈ V . Dann heißt hv1 , v1 i . . . hv1 , vm i .. G(v1 , . . . , vm ) := det ... = det (hvj , vk i)j,k=1,...,m . hvm , v1 i . . . hvm , vm i die Gramsche Determinante von v1 , . . . , vm . p Im Falle V = Rn , m = n − 1 kann man G(v1 , . . . , vn−1 ) als die (n − 1)-dimensionale Oberfläche des von v1 , . . . , vn−1 aufgespannten (n − 1)-dimensionalen Parallelogramms interpretieren [Gantmacher, S. 258-266]. Angesichts von Satz 35.8 (4) ist insbesondere p für alle a, b ∈ R3 . ||a × b|| = G(a, b) Dies rechnet man leicht auch direkt nach. Die Interpretation der Norm des Kreuzprodukts bzw. der Quadratwurzel der Gramschen Determinante als Flächeninhalt macht es verständlich, weshalb diese Größen bei der Definition von Oberflächenintegralen eine Rolle spielen. 35.3 Der Satz von Green In dem nach G. Green (1793 – 1841) (oder auch nach C. F. Gauß) benannten Integralsatz wird die Zirkulation eines ebenen Vektorfeldes längs einer geschlossenen Kurve umgewandelt in das Integral der Wirbeldichte des Feldes über den von der Kurve berandeten Bereich. Definition 35.10 Ein geschlossener Weg x : [a, b] −→ R2 , der auf [a; b[ injektiv ist, heißt ein Jordan-Weg. Die Äquivalenzklasse eines Jordanweges (bezüglich der in Definition 22.19 bzw. in Definition 35.2 erklärten Äquivalenz von Wegen) bezeichnet man als Jordan-Kurve bzw. als orientierte Jordan-Kurve. In Anbetracht von Satz 13.28 können wir Jordan-Wege auch als homöomorphe Abbildungen der Einheitskreislinie S 1 definieren. Jeder Jordan-Weg zerlegt die Ebene R2 in zwei disjunkte Teilmengen, das Innere und das Äußere dieses Weges. Dieser Sachverhalt (der Jordansche Kurvensatz) erscheint unmittelbar einleuchtend und beinahe selbstverständlich. Der Beweis ist jedoch sehr schwierig und aufwändig; wir müssen für ihn auf Lehrbücher der Topologie verweisen. Bei den im Folgenden auftretenden Kurvenintegralen verwechseln“ wir zur Vereinfachung ” der Notation positiv orientierte Jordan-Kurven mit ihrer Spur (die wir uns also mit einer Orientierung versehen denken). Satz 35.11 (Satz von Green; Satz von Gauß in der Ebene) Es sei M ⊆ R2 kompakt, und ∂M sei die Spur eines stückweise stetig differenzierbaren, positiv orientierten Jordan-Weges. Es sei F : D −→ R2 ein stetig differenzierbares Vektorfeld auf einer offenen Umgebung D von M . Dann gilt Z Z ∂F2 ∂F1 − dx dy = (F1 dx + F2 dy). ∂x ∂y ∂M M Die Zirkulation von F längs ∂M ist gleich dem Integral der Wirbeldichte von F über M . 482 Beweis. [Apostol], [Köhler, § 40] Der Satz von Green liefert eine Formel für den Flächeninhalt von durch Jordan-Kurven berandete Gebiete. Sie ist gut anwendbar, wenn man eine günstige Parameterdarstellung für die Randkurve besitzt. Satz 35.12 Es sei M ⊆ R2 kompakt, und ∂M sei die Spur eines stückweise stetig differenzierbaren, positiv orientierten Jordan-Weges. Für den Flächeninhalt von M gilt dann Z Z Z 1 (x dy − y dx) = x dy = − y dx. v2 (M ) = · 2 ∂M ∂M ∂M Beweis. Für eine beliebige reelle Zahl α definieren wir das Vektorfeld F auf R2 durch F (x, y) = (−αy, (1 − α)x). Seine Wirbeldichte ist konstant 1: Es ist ∂F2 ∂F1 − (x, y) = (1 − α) − (−α) = 1. ∂x ∂y Das Integral der Wirbeldichte über M ist daher der Flächeninhalt von M , und aus Satz 35.11 folgt Z Z v2 (M ) = (F1 dx + F2 dy) = (1 − α)x dy − αy dx . ∂M Mit den Werten 1 , 2 ∂M 0 und 1 für α folgen die Behauptungen. t→−1+ t=1 M Z ~ Z −a @ I @ t=0,∞,−∞ −a @ R @ t→−1− Abbildung 102: Descartes’sches Blatt Beispiel 35.13 Es sei a eine positive Zahl. Die Lösungsmenge der Gleichung x3 + y 3 = 3axy heißt ein Descartes’sches Blatt. Eine Parameterdarstellung dieser Kurve ist 3at2 3at , für −∞≤t≤∞ f : t 7→ (x(t), y(t)) = 3 t + 1 t3 + 1 483 mit f (−∞) = f (∞) = (0, 0). Es genügt hier zu wissen, dass f (t) für jedes t die Kurvengleichung erfüllt, und das ist leicht nachzurechnen. Das Parameterintervall 0 ≤ t ≤ ∞ bestimmt eine Jordan-Kurve γ, die eine Menge M ⊆ R2 berandet. Man könnte ∂M auch der Vorschrift entsprechend mit einem kompakten Parameterintervall darstellen; die Verwendung von f ergibt jedoch eine bequemere Rechnung. Es ist nämlich (wenn wir aus Gründen der Übersichtlichkeit das Argument t jeweils unterdrücken) xy 0 − x0 y = x · (tx)0 − x0 · tx = x · (x + t · x0 ) − x0 · tx = x2 = 9a2 t2 . (t3 + 1)2 Aus Satz 35.12 folgt somit 9a2 v2 (M ) = · 2 Z 0 ∞ t2 3a2 · dt = (t3 + 1)2 2 Z 1 ∞ du 3a2 . = u2 2 35.4 Der Satz von Stokes im R3 Im Satz von Green (Satz 35.11) denken wir uns jetzt die Ebene R2 in den R3 eingebettet, und wir stellen uns den Integrationsbereich M verbeult“ vor. M soll jetzt also ein kompaktes ” Flächenstück in R3 sein. Wir müssen dann ein räumliches Vektorfeld F in einer Umgebung von M zugrunde legen. Es ist zu erwarten, dass der Satz von Green eine Verallgemeinerung besitzt, worin ein Integral über M in ein Integral längs des (bezüglich der Relativtopologie von M gebildeten) Randes von M umgewandelt wird. Zunächst benötigen wir eine Reihe neuer Begriffe. Definition 35.14 Es seien U und D offene Mengen in Rm . Die abgeschlossene Hülle A = U sei kompakt und in D enthalten. Es sei f : D −→ Rm+1 stetig differenzierbar und injektiv, und das Differential Df (q) habe überall vollen Rang m. Dann heißt M = f (A) ein kompaktes (Hyper-)Flächenstück in Rm+1 , und f : A −→ M heißt eine reguläre Parameterdarstellung von M . Das Hyperflächenstück M heißt orientierbar, falls es eine stetige Abbildung N : M −→ Rm+1 gibt, so dass N (p) für jedes p ∈ M ein Normaleneinheitsvektor (im Sinne von Definition 28.14) von M im Punkt p ist. e offene Mengen in Rm . Eine bijektive, stetig differenzierbare Abbildung ϕ : Es seien D und D e mit det Jϕ (q) 6= 0 für alle q ∈ D heißt eine reguläre Parametertransformation. D −→ D Gilt sogar det Jϕ (q) > 0 für alle q ∈ D, so heißt ϕ orientierungserhaltend. Ein bekanntes Beispiel eines nicht orientierbaren Flächenstücks ist das sog. Möbiusband (Abbildung 103). Definition 35.15 Es sei F ein Vektorfeld auf einer offenen Menge D ⊆ R3 . Es sei M ein kompaktes orientierbares Flächenstück in D mit einer regulären Parameterdarstellung f : A −→ M wie in Definition 35.14. Die Orientierung sei durch p 7→ N (p) = a×b ||a × b|| mit a= ∂f ∂f (q), b = (q) ∂x ∂y 484 für p = f (q), q ∈ A Abbildung 103: Möbiusband gegeben. Dann heißt Z Z ∂f ∂f × (q) dv2 (q) hF (p) , dω(p)i := F (f (q)) , ∂x ∂y M A der Fluss des Feldes F durch die Fläche M . Hierbei nennen wir das (strenggenommen undefinierte!) Symbol ∂f ∂f dω(f (q)) = × (q) dv2 (q) ∂x ∂y das vektorielle Oberflächenelement von M im Punkt q. Bemerkung 35.16 (1) Zum Nachweis der Wohldefiniertheit des Flusses ist zu zeigen, dass der Fluss invariant ist unter orientierungserhaltenden Parametertransformationen. Wir verweisen hierzu auf [Köhler, Proposition 41.1]. Unter beliebigen regulären Parametertransformationen ist der Fluss jedoch nicht invariant: Diese können die Orientierung von M umdrehen, und dabei ändert der Fluss sein Vorzeichen. (2) Unter Verwendung des Normaleneinheitsvektorfeldes N können wir das Integral für den Fluss auch in der Form Z ∂f ∂f (q) dv2 (q) × h F (f (q)) , N (f (q)) i · ∂x ∂y A schreiben, wobei f : A −→ M wie in Definition 35.15 eine reguläre Parametrisierung von M ist. Allgemeiner erklärt man das (Oberflächen-)Integral einer stetigen Funktion ϕ : M −→ R über M durch Z Z ∂f ∂f × ϕ dS := ϕ(f (q)) · (q) dv2 (q). ∂x ∂y M A Diese Definition kann man auch noch auf beliebige Raumdimensionen verallgemeinern: Ist M ⊆ Rn ein kompaktes Hyperflächenstück mit einer regulären Parametrisierung f : A −→ M (mit A ⊆ Rn−1 ), so setzt man Z Z p ϕ dS := ϕ(f (q)) · G(q) dvn−1 (q), M A 485 wobei G(q) := det ∂f ∂f (q), (q) ∂xj ∂xk j,k=1,...,n−1 die Gramsche Determinante von Df ist. Diese stimmt im Fall n = 3, wie im Anschluss ∂f ∂f 2 an Definition 35.9 erläutert, gerade mit ∂x × ∂y (q) überein. Natürlich muss man auch diese Definitionen rechtfertigen, indem man die Unabhängigkeit der definierten Integrale von der speziellen Wahl der Parametrisierung nachweist. Für Details verweisen wir auf [Forster 3, § 14] und [Königsberger 2, § 9.2/9.3]. Schließlich kann man auch noch Integrale über Untermannigfaltigkeiten erklären, die nur lokale Parametrisierungen im bisher besprochenen Sinne besitzen (vgl. Definition 28.1). Hierzu überdecken wir die Untermannigfaltigkeit M mit abzählbar vielen Kartengebieten Uj ; auf diesen können wir wie oben erklärt integrieren. Gemäß der auf J. Dieudonné (1906-1992) zurückgehenden Methode der Zerlegung der Eins konstruiert man nun stetige bzw. hinreichend glatte“ P∞ Funktionen εj : M −→ [0; 1], so ” dass εj außerhalb von Uj verschwindet und j=1 εj (x) = 1 für alle x ∈ M ist. Ist eine Funktion ϕ auf jedem Kartengebiet Uj integrierbar im oben definierten Sinne, so können wir das Integral von ϕ über M durch Z ∞ Z X ϕ dS := (ϕ · εj ) dS M j=1 Uj erklären. Genauer ist dies in [Forster 3, § 14] und [Königsberger 2, § 9.4/9.5] ausgeführt. Die in Abschnitt 35.5 auftretenden Oberflächenintegrale sind - sofern man keine glo” bale“ Parametrisierung hat - in dem soeben umrissenen Sinne zu verstehen. Definition 35.17 Es seien U und D offene Mengen in R2 . Die abgeschlossene Hülle A = U sei kompakt und in D enthalten, und ∂A sei die Spur eines stückweise stetig differenzierbaren, positiv orientierten Jordan-Weges γ. Es sei f : D −→ R3 eine reguläre Parameterdarstellung des orientierbaren kompakten Flächenstücks M = f (A). Dann wird die durch f ◦ γ parametrisierte Kurve der positiv orientierte Rand von M genannt und mit ∂M bezeichnet. Warnung: Die Notation ∂M ist strenggenommen problematisch. Es handelt sich dabei nicht um den Rand von M im Sinne der Topologie des R3 . (Dieser ist vielmehr i.Allg. ganz M , da M ein zweidimensionales“ Objekt ist, das keine dreidimensionalen Kugeln, ” also keine inneren Punkte enthält.) Die Notation ∂M ist dennoch gerechtfertigt, wenn man sich vorstellt, dass die zweidimensionale Topologie von A mittels f auf M übertragen wird. Etwas präziser ist die Spur der mit ∂M bezeichneten Kurve der Rand von M bezüglich der in Definition 13.38 erklärten Relativtopologie von M . Satz 35.18 (Satz von Stokes) Es sei M ⊆ R3 ein orientierbares kompaktes Flächenstück mit positiv orientiertem Rand ∂M wie in Definition 35.17. Es sei F ein stetig differenzierbares Vektorfeld auf einer offenen Umgebung von M . Dann gilt Z Z hF (p) , dpi = hrot F (p) , dω(p)i. ∂M M Die Zirkulation von F längs ∂M ist gleich dem Fluss der Rotation von F durch M . 486 Beweis. [Köhler, § 41] Den Satz von Stokes kann man auf die Greensche Formel zurückführen. Umgekehrt ist der Satz von Green als Spezialfall im Satz von Stokes enthalten, wie z.B. in [Köhler, S. 595] gezeigt wird. Beispiel 35.19 Es sei M = {(x, y, z) ∈ R3 | x2 + y 2 + z 2 = 1, z ≥ 0} die obere Hälfte der Einheitssphäre, und es sei F (x, y, z) = (−y 2 , x, z 2 )T . Wir wollen den Fluss Φ der Rotation des Feldes F durch die Fläche M berechnen. Hierzu wählen wir für M die Parameterdarstellung f : A −→ M mit f (λ, θ) = (cos θ cos λ, cos θ sin λ, sin θ), wobei A = [0, 2π] × [0, π2 ] ist. Eine Parametrisierung für den positiv orientierten Rand ∂M ist t 7→ (cos t, sin t, 0), 0 ≤ t ≤ 2π. Wir wenden den Satz von Stokes an und erhalten den Fluss Z Z hF (p) , dpi = (−y 2 dx + x dy + z 2 dz) Φ = ∂M ∂M 2π Z 3 = 2π Z 2 cos2 t dt = π . (sin t + cos t)dt = 0 0 Mit nur wenig größerem Aufwand kann man den Fluss auch direkt berechnen. Dazu benötigen wir das vektorielle Oberflächenelement dω(p). Die Reihenfolge der Koordinaten λ, θ ist so gewählt, dass der Normalenvektor − sin λ − sin θ cos λ ∂f ∂f × (λ, θ) = cos θ · cos λ × − sin θ sin λ = cos θ · f (λ, θ) ∂λ ∂θ 0 cos θ überall ins Äußere von M zeigt - sofern er nicht 0 ist, was jedoch nur für θ = einer für die Integration irrelevanten Nullmenge der Fall ist. Es ist also π , 2 also auf dω(p) = cos θ · f (λ, θ) dλ dθ für p = f (λ, θ), und wir benötigen die Rotation rot F (x, y, z) = (0, 0, 1 + 2y)T von F . Damit folgt Z Φ = hrot F (p) , dω(p)i M * 0 cos θ cos λ + , cos θ sin λ dλ dθ 0 = cos θ · A 1 + 2 cos θ sin λ sin θ Z π/2 Z 2π = cos θ · sin θ · (1 + 2 cos θ sin λ) dλ dθ Z 0 0 Z = 2π · π/2 Z cos θ · sin θ dθ = π · 0 = − π/2 sin(2θ) dθ 0 π θ=π/2 · cos(2θ)|θ=0 = π. 2 487 35.5 Der Integralsatz von Gauß Definition 35.20 Es sei A ⊆ Rn kompakt. Wir sagen, A habe glatten Rand, falls es zu jedem Randpunkt a ∈ ∂A eine offene Umgebung U ⊆ Rn und eine stetig differenzierbare Funktion ψ : U −→ R gibt, so dass A ∩ U = {x ∈ U | ψ(x) ≤ 0} grad ψ(x) 6= 0 für alle x ∈ U. und Bemerkung 35.21 (1) Man kann leicht zeigen, dass in der Situation der voranstehenden Definition stets ∂A ∩ U = {x ∈ U | ψ(x) = 0} gilt [Forster 3, § 15]. Der Rand eines Kompaktums A ⊆ Rn mit glattem Rand ist nach dem Satz vom regulären Wert (Satz 28.5) also eine (n − 1)-dimensionale Untermannigfaltigkeit des Rn im Sinne von Definition 28.1. Dies erlaubt es, in dem am Ende von Bemerkung 35.16 (2) nur angedeuteten Sinne über ∂A zu integrieren. (Dies ist natürlich dann unproblematisch, wenn man eine globale“ Parametrisierung von ∂A ” wie in Definition 35.14 zur Verfügung hat.) (2) Man kann weiter zeigen, dass es zu jedem Kompaktum A ⊆ Rn mit glattem Rand ein (stetiges!) äußeres Normaleneinheitsvektorfeld N : ∂A −→ Rn gibt (d.h. N (a) sei der äußere Normaleneinheitsvektor der Fläche ∂A im Punkt a). Damit kann man den in Definition 35.15 eingeführten Fluss eines Vektorfeldes durch ∂A bilden. Satz 35.22 (Integralsatz von Gauß) Es sei A ⊆ R3 ein Kompaktum mit glattem Rand. Es sei F ein stetig differenzierbares Vektorfeld auf einer offenen Umgebung D von A. Dann gilt Z Z hF (q) , dω(q)i. divF (q) dv3 (q) = ∂A A Beweis. [Forster 3, § 15] oder [Köhler, § 42] Bemerkung 35.23 (1) Der Integralsatz von Gauß gilt auch noch, wenn der Rand von A nicht glatt ist, sondern Kanten, Ecken o.ä. aufweist. Siehe hierzu z.B. [Köhler, § 42]. (2) Falls F = rot G die Rotation eines zweimal stetig differenzierbaren Feldes G ist, dann gilt div F = 0 nach Lemma 35.6, und der Satz von Gauß liefert Z hF (q), dω(q)i = 0. ∂A Das gleiche Ergebnis erhält man auch aus dem Satz von Stokes (Satz 35.18), denn für die geschlossene Fläche M = ∂A kann man sich die Randkurve ∂M aus zwei in gegenläufiger Richtung durchlaufenen Kurven mit gleicher Spur zusammengesetzt denken, so dass Integrale längs dieser Kurve stets verschwinden. Die in diesem Kapitel vorgestellten Integralsätze besitzen eine weitreichende Verallgemeinerung, den in der Terminologie von Differentialformen formulierten allgemeinen Satz von Stokes. Hierzu verweisen wir auf [Forster 3, § 19-21] und [Köhler, § 43-44]. 488 Literatur [Apostol] Apostol, T. M.: Mathematical Analysis. A modern approach to advanced calculus, Addison-Wesley, Massachusetts-London 1957 [Behrends] E. Behrends. Analysis 1. Vieweg Verlag, 2003. Analysis 2. Vieweg Verlag, 2004. [Blatter] C. Blatter. Analysis I. Springer Verlag, 1974. Analysis II. Springer Verlag, 1974. Analysis III. Springer Verlag, 1974. [Cohen/Ehrlich] L. W. Cohen and G. Ehrlich. The Structure of the Real Number System. R. E. Krieger Publ., 1977. [Ebbinghaus et al.] H.-D. Ebbinghaus, H. Hermes, F. Hirzebruch, M. Koecher, K. Mainzer, A. Prestel und R. Remmert. Zahlen. Springer Verlag, 1983. [Euler] L. Euler. Introductio in Analysin Infinitorum. Lausanne, 1748. Deutsche Übersetzung: Einleitung in die Analysis des Unendlichen. Springer Verlag, 1983. [Forster 3] Forster, O.: Analysis 3. Integralrechnung im Rn mit Anwendungen, 5. Aufl., Vieweg-Teubner, Wiebaden 2009 [Gantmacher] Gantmacher, F.: Matrizentheorie, Springer, Berlin 1986 [Gelbaum/Olmsted] B. R. Gelbaum und J. H. M. Olmsted. Theorems and Counterexamples in Mathematics. Problem Books in Math., Springer Verlag, 1990. [Grahl/Kümmel] J. Grahl und R. Kümmel: Das Loch im Fass - Energiesklaven, Arbeitsplätze und die Milderung des Wachstumszwangs, Nachhaltiges Wachstum: Wissenschaft und Umwelt Interdiziplinär 13 (2009), 195 – 212. [Heuser 1] Heuser, H.: Lehrbuch der Analysis. Teil 1. Teubner, Stuttgart 1980, 4. Aufl. 1986, 15. Aufl. 2003. [Heuser 2] Heuser, H.: Lehrbuch der Analysis. Teil 2. Teubner, Stuttgart 1981 [Heuser 3] Heuser, H.: Funktionalanalysis. Teubner, Stuttgart 1992 [Huppert] Huppert, B.: Angewandte Lineare Algebra. de Gruyter, Berlin 1990 [Kirsch] Kirsch, A.: Das Paradoxon von Hausdorff, Banach und Tarski: Kann man es ver” stehen“?, Math. Semesterber. 37 (1990), 216 – 239. [Köhler] Köhler, G.: Analysis. Heldermann, Lemgo 2006 [Königsberger 1] Königsberger, K.: Analysis 1, Springer, Berlin 1992 [Königsberger 2] Königsberger, K.: Analysis 2, Springer, Berlin 1993 [Remmert] Remmert, R.: Funktionentheorie 1. Springer Verlag, 4. Aufl., 1995. [Solovay] Solovay, R.: A model of set-theory in which every set of reals is Lebesgue measurable, Ann. Math. 92 (1970), 1-56 [Wagon] Wagon, S.: The Banach-Tarski Paradox. Cambridge Univ. Press, 1985. 489 Index ∞-Norm, 460 π, 286 n-Ableitung, 229 n-mal stetig differenzierbar, 230 p-Norm, 456 Äquivalenz von Wegen, 328 Äquivalenzklasse, 328 Äquivalenzrelation, 328 Überdeckung offene, 202 überabzählbar, 38 überdeckungskompakt, 202 Abbildung affine, 334 lineare, 333 offene, 381 Abel, N. H., 18, 162 abelsche Gruppe, 18 Abelscher Stetigkeitssatz, 163, 307 Abelsches Konvergenzkriterium, 105 abgeschlossen Intervall, 25 Kugel, 55 Menge, 55, 110 abgeschlossene Hülle, 197 Ableitung, 216, 345 n-te, 229 höhere partielle, r-te, 360 in einem Punkt, 215 linksseitige, 219 partielle, 342 rechtsseitige, 219 zweite, 229 absolut konvergent, 90 Absolutbetrag, 26, 46 Abstand, 53 euklidischer, 26, 48, 50 abzählbar, 38 abzählbar unendlich, 38 Addition, 19, 20 Additionstheorem der Exponentialfunktion, 103 der Hyperbelfunktionen, 173 der trigonometrischen Funktionen, 173 alternierende Reihe, 88 alternierende harmonische Reihe, 89, 306 alternierende Multilinearform, 337 Anordnungsaxiome, 23 Antisymmetrie, 24 Archimedes, 215, 272, 470, 471 Axiom des, 36 Arcuscosinus, 241 Arcussinus, 241 Arcustangens, 242, 306 Areacosinus hyperbolicus, 228 Areasinus hyperbolicus, 228 Argand, J. R., 187 Argument, 183 Hauptwert, 183 arithmetisches Mittel, 13 Atlas, 396, 408 ausgearteter Quader, 412 Auswahlaxiom, 449 Auswahlfolge, 74 Axiom des Archimedes, 36 Banach, S., 211 Banach-Tarski-Paradoxon, 449 Banachraum, 211, 456 Banachscher Fixpunktsatz, 211, 376 Basis, 169, 332 des Logarithmus, 170 bedingt konvergent, 91 bedingt lokal extremal, 391 Berkeley, G., 215 Bernoulli Jakob, 9 Johann, 251 Bernoullische Ungleichung, 9 beschränkt, 29 Folge, 64 Variation, 326 beschränkte Konvergenz, Satz, 436, 437 bestimmt divergent, 132 bestimmtes Integral, 270, 284 Betrag, 26, 46 bijektiv, 190 Bild, 190 einer linearen Abbildung, 333 Binomialkoeffizienten, 10 490 Binomischer Lehrsatz, 11 Bolzano, B., 73, 115, 137, 139, 219 Borel, E., 205 Breite geografische, 382 Cantor, G., 28, 37, 40, 41 Cantorsches Diskontinuum, 418 Carabinieri-Lemma, 66 Cauchy’scher Hauptwert, 309 Cauchy’sches Konvergenzkriterium, 79, 86, 149 Cauchy, A., 51, 78, 115, 146 Cauchy-Folge, 78 Cauchy-Produkt, 102 Cauchy-Schwarzsche Ungleichung, 51, 340, 461 Cavalieri, B., 469 Cavalierisches Prinzip, 469 charakteristische Funktion, 419 charakteristisches Polynom, 338 Codierungstheorie, 54 Cohen, P. J., 42, 449 Cosinus, 172, 179 Cosinus hyperbolicus, 172 Cotangens, 226, 243 Cramersche Regel, 377 Darboux, G., 249, 268 Darbouxsches Oberintegral, 268 Darbouxsches Unterintegral, 268 Darstellungsmatrix, 335 de l’Hospital, 251 Dedekind, R., 28, 139 dehnungsbeschränkt, 210 Dehnungsschranke, 210 Descartes, R., 28 Descartessches Blatt, 483 Determinante, 337 Gramsche, 482 Diagonalisierbarkeit, 337 Diagonalmatrix, 336 Diagonalverfahren Cantorsches, 40 dicht, 41, 201 Diffeomorphismus, 396 Differential, 345 Differential- und Integralrechnung Hauptsatz, 283 Differentialquotient, 216 Differenz, 21 differenzierbar, 216, 221, 345, 349 n-mal, 229 n-mal stetig, 230 Grenzfunktion, 293 in einer Richtung, 343 in einem Punkt, 215 in einem Randpunkt, 221 partiell, 342 stetig, 230, 351, 360 unendlich oft, 229, 360 zweimal, 229 Differenzieren unter dem Integral, 466 Dimension, 333 einer Mannigfaltigkeit, 396 Dirichlet, P. G. L., 126, 273, 432 Dirichlet-Funktion, 126 diskrete Menge, 109 Distanz, 26, 53 euklidische, 48, 50 Distributivgesetz, 20 divergent bestimmt, 132 Folge, 61, 63 Reihe, 81 Divergenz eines Vektorfeldes, 480 Division, 21 Divisionsalgorithmus für Polynome, 188 dominierte Konvergenz, Satz, 436, 437 Drehstreckung, 184 Dreiecksungleichung, 48, 53 eigentlicher Grenzwert, 132 Eigenvektor, 337 Eigenwert, 337 eineindeutig, 190 Einheitsball, 112 Einheitskugel, 112 Einheitsmatrix, 336 Einheitssphäre, 112 Einheitswurzel, 185 Eins, 20 elementare Funktion, 260 Ellipse, 316 Umfang, 324 Ellipsoid, 394 elliptisches Integral, 324 491 endliche Menge, 38 Endomorphismus, 336 Endpunkt, 25 Entwicklungspunkt, 152 Eudoxos, 28, 37 Euklid, 28 euklidische Metrik, 53 Euler, L., 43, 85, 126, 312 Eulersche Zahl, 84 Exponent, 169 Exponentialfunktion, 103, 166, 179, 229 Exponentialreihe, 85, 93 Extremum lokales, 233, 300, 366, 368 Faktor, 19 Fakultäten, 10 fallend, 140 Familie, 192 fast überall, 418 Fatou, P., 438 Fehlerfunktion, 286 Fehlerintegral, 286, 476 Feinheit einer Zerlegung, 266 Fermat, P. de, 28, 36 Fibonacci-Zahlen, 58 Fischer, E., 461 Fixpunkt, 140 Fixpunktsatz, 140 Banachscher, 211, 376 Fläche m-dimensionale, 474 Parameterdarstellung, 484 Flächeninhalt orientierter, 265 Flächennormale, 406 Fluss eines Vektorfeldes, 485 Folge, 57 Cauchy-, 78 konvergente, 61 monotone, 71 Folge von Funktionen, 145 Folgenglieder, 57 folgenkompakt, 112 Folgenkriterium, 119 Folgenstetigkeit, 119 Fubini, G., 410, 465 Fubinische Formel, 467 Fundamentalsatz der Algebra, 187 Funktion, 126 rationale, 122 Funktional, lineares, 268 Funktionalmatrix, 348 Funktionenfolge, 145 Gödel, K., 41, 449 ganze Zahlen, 34 Gauß, C. F., 9, 47, 167, 187 Gaußsche Zahlenebene, 47 Gaußsches Wahrscheinlichkeitsintegral, 286, 476 geografische Breite und Länge, 382 geometrische Reihe, 82 geometrisches Mittel, 13 gerade Funktion, 173 geschlossener Weg, 316 glatt, 319 glatter Rand, 488 gleich mächtig, 38 gleichmäßig konvergent, 147 gleichmäßig stetig, 208, 280, 322 Glieder, Reihe, 81 gliedweise Integration, 290 Grad eines Polynoms, 122 Gradient, 354 Gramsche Determinante, 482 Graph, 316 Green, G., 482 Grenzfunktion, 145 Differenzierbarkeit, 293 Stetigkeit, 148 Grenzwert eigentlicher, 132 einer Folge, 61, 63 einer Funktion, 128 linksseitiger, 133 rechtsseitiger, 133 uneigentlicher, 132 Gruppe, 18 abelsche, 18 symmetrische, 20 Gruppenaxiome, 18 Häufungspunkt einer Menge, 108 Häufungswert einer Folge, 73 Höldersche Ungleichung, 458 492 Hülle abgeschlossene, 197 Hadamard, J., 160 Hadamardsche Formel, 160 Halbachsen eines Ellipsoids, 394 halboffenes Intervall, 25 Halbraum, 112 Halbtangente, 220 Hamming, R. W., 54 Hamming-Distanz, 54 harmonische Reihe, 84 Hauptsatz der Differential- und Integralrechnung, 283 Hauptwert des Arguments, 183 eines uneigentlichen Integrals, 309 Heine, E., 205 Heine-Borelsche Überdeckungseigenschaft, 202 Hesse, L. O., 364 Hesse-Matrix, 364 Hilbert, D., 40 Hilbertraum, 461 Hilberts Hotel, 40 Homöomorphismus, 207, 408 Homogenität, 333 Hyperbelfunktionen, 173 Hyperfläche, 396 kompakte, 484 Imaginärteil, 46 Immersionssatz, 400, 474 implizite Funktion, 384 indefinit, 367 Indexmenge, 192 Induktionsprinzip, 8, 35 induktiv, 34 induktive Menge, 34 Infimum, 29 injektiv, 190 innerer Punkt, 197 Integral über eine Menge, 431 Ableitung nach einem Parameter, 466 bestimmtes, 270, 284 einer Treppenfunktion, 266 elliptisches, 324 Lebesgue-, 428, 429 Oberflächen-, 485 unbestimmtes, 255, 284 uneigentliches, 308 Integration gliedweise, 290 partielle, 257, 285 Integrationskonstante, 256 integrierbar auf einer Menge, 431 Lebesgue-, 428, 429 Riemann-, 270, 440 Intervall, 25 abgeschlossenes, 25 ausgeartetes, 412 echtes, 25 halboffenes, 25 kompakt, 25 offenes, 25 Intervallschachtelung, 31 Intervallschachtelungsprinzip, 32, 67 Intervallzerlegung, 265 inverse Funktion, 191 isolierter Punkt, 109 Jacobi, C. G., 348 Jacobi-Matrix, 348 Jet, 295, 301 Jordan, C., 326 Jordan-Kurve, 482 orientierte, 482 Jordanscher Kurvensatz, 482 Körper, 20 (an)geordneter, 23 Körperaxiome, 20 Kürzungsregel, 23 Karte, 396, 408 Kartenabbildung, 396 Kartenwechsel, 396, 408 kartesische Koordinaten, 47 Katenoide, 172 Kegel, 470 Kern, 333 Kettenlinie, 172 Kettenregel, 223, 258, 353 Klasse C r Funktion, 360 Mannigfaltigkeit, 408 Untermannigfaltigkeit, 396 Koeffizienten, 122, 152 493 Koeffizientenvergleich, 305 kommensurabel, 28 kommutativ -es Diagramm, 388 kompakt, 112 Intervall, 25 kompaktes Hyperflächenstück, 484 komplexe Zahlen, 44 Komposition, 121 konjugiert komplex, 46 konkav, 245 streng, 245 Kontinuum, 41 Kontinuumshypothese, 41 kontrahierend, 210 Kontraktionslemma), 211 konvergent, 61 absolut, 90 bedingt, 91 Folge, 63 gleichmäßig, 147 punktweise, 145 Reihe, 81 uneigentliches Integral, 308 Konvergenzkreis, 154 Konvergenzkriterium Abelsches, 105 Cauchy’sches, 79, 86, 149 Leibnizsches, 88, 106 Konvergenzradius, 154 konvex, 245 streng, 245 Konvexkombination, 245 Koordinaten kartesische, 47 Polar-, 47, 183 Kreisfunktionen, 173 Kreiskegel, 470 Kreisteilungsgleichung, 185 Kreiszahl, 286 Kreuzprodukt, 481 Kriterium von Lebesgue, 278, 441 kritischer Punkt, 234, 366 Kugel abgeschlossene, 55 offene, 55 Kugelkoordinaten, 382, 476 Kugelvolumen, 471, 477 Kurve, 330 Länge, 330 orientierte, 479 Parameterdarstellung, 316, 330 rektifizierbare, 330 Kurve, Spur, 330 Kurvenintegral eines Vektorfeldes, 480 l’Hospitalsche Regel, 251 Länge einer Kurve, 330 eines Weges, 321, 322 geografische, 382 Lagrange Restglied, 298 Lagrange, J. L., 298 Lagrange, Multiplikatorenregel, 392 Lagrangesche Multiplikatoren, 392 Landau-Symbole, 299 Lebesgue Kriterium von, 278, 441 Lebesgue, H., 271, 410, 429 Lebesgue-Integral, 428 Lebesgue-integrierbar, 428, 429 Leibniz, G. W., 88, 215, 216, 271 Leibnizsche Regel, 466 Leibnizsche Reihe, 89, 307 Leibnizsches Kriterium, 88, 106 Lemma von Fatou, 439, 463 Leonardo von Pisa, 58 Levi, B., 410 Levi, Satz von, 433 Levi-Folge, 435 Limes, 63 einer Folge, 61 Limes inferior, 156 Limes superior, 156 linear abhängig, 332 linear unabhängig, 332 lineare Abbildung, 333 lineare Gleichung, 22 lineare Hülle, 405 Linearform, 268, 333 Linearkombination, 332 Linienelement, 480 Linienintegral, 480 linksseitige Ableitung, 219 linksseitiger Grenzwert, 133 Lipschitz, R., 210 494 Lipschitz-Konstante, 210 Lipschitz-stetig, 210 Logarithmentafel, 167 Logarithmus, 166, 170, 227, 306 Logarithmus zur Basis a, 170 lokal invertierbar, 376 lokal umkehrbar, 376 lokales Extremum, 233, 300, 366, 368 mit Nebenbedingung, 391 lokales Maximum, 233 bedingtes, 391 lokales Minimum, 233 bedingtes, 391 Mächtigkeit, 38 Möbiusband, 484 Majorante, 91 Majorantenkriterium, 91 Weierstraßsches, 150 Mannigfaltigkeit, 408 Matrix, 334 diagonalisierbare, 337 inverse, 337 invertierbare, 337 quadratische, 336 reguläre, 337 symmetrische, 336 transponierte, 334 Matrixprodukt, 334 Maximum absolutes, 134 bedingtes lokales, 391 einer Funktion, 134 einer Menge, 29 lokales, 233 Satz vom, 134 Maximumprinzip, 382 Maximumsnorm, 339 Menge abgeschlossen, 110 diskrete, 109 endliche, 38 isolierte, 109 unendliche, 38 messbar Funktion, 451 Menge, 445 Metrik, 53 des französischen Eisenbahnsystems, 53 diskrete, 54 euklidische, 53 metrischer Raum, 53 vollständiger, 80, 211, 376 Minimum absolutes, 134 bedingtes lokales, 391 einer Funktion, 134 einer Menge, 29 lokales, 233 Minimumprinzip, 188, 382 Minkowskische Ungleichung, 459 Minorante, 91 Minorantenkriterium, 91 Mittel arithmetisches, 13 geometrisches, 13 Mittelwertsatz der Differentialrechnung, 236 der Differentialrechnung (verallgemeinerter), 239 der Integralrechnung, 282 Mittelwertsatz, verallgemeinerter, 356 Monom, 123 monoton Funktion, 140, 239 lineares Funktional, 268 monoton fallend Folge, 71 monoton steigend Folge, 71 Multiplikation, 20 Multiplikatoren, Lagrangesche, 392 Multiplikatorenregel von Lagrange, 392 natürliche Zahlen, 34 natürlicher Logarithmus, 166 Nebenbedingung lokales Extremum mit, 391 negativ definit, 367 negativ semidefinit, 367 negatives Element, 19 Neilsche Parabel, 319 Newton, I., 88, 215, 216 Niveauhyperfläche, 400 Niveaulinie, 400 Niveaumenge, 357, 399 Norm, 339, 456 euklidische, 50 495 Norm einer Funktion, 460 Norm einer linearen Abbildung, 395 Normale an eine Hyperfläche, 406 normierter Vektorraum, 339, 456 Null, 19, 20 Nullfolge, 67 Nullfunktion, 457 Nullmenge, 274, 417, 474 Nullpolynom, 122 Nullstellensatz für Polynome, 187 Nullstellensatz von Bolzano, 137 Oberflächenintegral, 485 Oberintegral Darbouxsches (Riemannsches), 268 Riemannsches, 440 Obersumme Riemannsche, 268 offen Intervall, 25 Kugel, 55 Menge, 213 offen, Menge, 55 offene Überdeckung, 202 offene Abbildung, 381 Offenheitsprinzip, 381 Operatornorm, 341 Ordinatenmenge, 265 ordnungsvollständig, 31 orientierbar, 484 orientierte Jordan-Kurve, 482 orientierte Kurve, 479 orientierter Flächeninhalt, 265 orientierungstreu, 329 orientierungsumkehrend, 329 Oszillationsstelle, 250 Parabel Neilsche, 319 Paradoxon von Banach, Hausdorff und Tarski, 449 Zenonsches, 83 Parameterdarstellung einer Fläche, 484 einer Kurve, 316 Parameterdarstellung einer Kurve, 330 Parametertransformation, 328 parkettierbar, 414 Parkettierung, 414 Partialbruchzerlegung, 261 Partialsumme, 81, 145 partiell differenzierbar, 342 partielle Ableitung, 342 r-te, 360 Reihenfolge, 362 partielle Funktion, 342 partielle Integration, 257, 285 partielle Summation, 105 Pascal, B., 10 Pascalsches Dreieck, 10 Peano, G., 317 Peano-Weg, 317 Periode, 178 periodisch, 178 Permutation, 20 Permutationsgruppe, 20 Poincaré-Vermutung, 409 Polarkoordinaten, 47, 183, 475 Polynom, 122 charakteristisches, 338 Nullstelle, 139, 187 Wachstum, 186 Polynomdivision, 188 Polynomfunktion, 122 positiv orientierter Rand, 486 positiv definit, 367 positiv semidefinit, 367 Potenz, 168, 169 Potenzen, 21 Potenzreihe, 152, 153, 304 Prinzip von Cavalieri, 469 Produkt, 19 Cauchy-, 102 von Matrizen, 334 Produktregel, 222, 256, 352 Proportionenlehre, 28 Punkt innerer, 197 kritischer, 234 punktierte Umgebung, 108 punktweise konvergent, 145 Pythagoras, 28 trigonometrischer, 173 Quader, 112, 412 Quader, ausgeartet, 412 496 Quadergebäude, 414 quasikontrahierend, 210 Quellstärke, 480 Quotient Polynomdivision, 189 Quotientenkriterium, 92, 162 Quotientenregel, 222 Rand eines Flächenstücks, 486 glatter, 488 Randpunkt (eines Inervalls), 25 Rang einer Matrix, 336 voller, 336 rationale Funktion, 122 rationale Zahlen, 22 Raum metrischer, 53 topologischer, 213 Realteil, 46 Rechenschieber, 167 rechtsseitige Ableitung, 219 rechtsseitiger Grenzwert, 133 reell-analytisch, 303 regulär, 319 regulärer Wert, 400 Reihe, 81 alternierende, 88 alternierende harmonische, 89 geometrische, 82 harmonische, 84 Leibnizsche, 89, 307 Umordnung, 97 von Funktionen, 145 rektifizierbar, 330 rektifizierbarer Weg, 321 Relation reflexive, 328 symmetrische, 328 transitive, 328 Relativtopologie, 214 Rest Polynomdivision, 189 Restglied, 295 Restglied von Lagrange, 298 Richtung, 343 Richtungsableitung, 343, 355 zweite, 366 Riemann, B., 98, 268, 312 Riemann, Umordnungssatz, 98 Riemann-integrierbar, 270, 440 Riemannsche Obersumme, 268 Riemannsche Untersumme, 268 Riemannsche Zetafunktion, 312 Riemannsches Oberintegral, 268, 440 Riemannsches Unterintegral, 268, 440 Riesz, F., 461 Robinson, A., 88 Rolle, M., 236 Rotationskörper, 471 Routh-Hirwitz-Kriterium, 368 Sandwich-Theorem, 66 Sattelpunkt, 369 Satz binomischer, 11 vom Maximum, 134 von Abel, 163, 307 von Bernoulli und de l’Hospital, 251 von Bolzano - Weierstraß, 76, 77 Satz über beschränkte Konvergenz, 436, 437 Satz über implizite Funktionen, 385, 397 Satz über lokale Umkehrbarkeit, 377 Satz über monotone Konvergenz, 433 Satz vom regulären Wert, 399 Satz von Green, 482 Satz von Darboux, 249 Satz von Eudoxos, 37 Satz von Fubini, 468 Satz von Gauß, 488 Satz von Lebesgue, 436, 437 Satz von Levi, 433 Satz von Riesz und Fischer, 462 Satz von Rolle, 236 Satz von Stokes, 486 Satz von Tonelli, 468 Satz, Polynome mit parameterabhängigen Koeffizienten, 390 Schranke größte untere, 29 kleinste obere, 29 obere, 29 Schraubenlinie, 316 Schubfachprinzip, 38 Schwarz, H. A., 51 Schwarzsche Ungleichung, 278 Sinus, 172, 179 497 Sinus hyperbolicus, 172 Skalarprodukt, 461 euklidisches, 49 von Funktionen, 461 Spaltenrang, 336 Sprungstelle, 124 Spur einer Kurve, 330 Spur eines Weges, 316 Stammfunktion, 255 Standardbasis, 333 stationäre Stelle, 234, 366 steigend, 140 stetig, 115, 117, 213, 381 Folgenkriterium, 119 gleichmäßig, 208, 280 Grenzfunktion, 148 stetig differenzierbar, 230, 351 stetig ergänzbar, 131 stetig, gleichmäßig, 322 Stolz, O., 164 streng konkav, 245 streng konvex, 245, 247, 248 streng monoton, 140 Folge, 71 Funktion, 140, 141, 239 striktes lokales Extremum mit Nebenbedingung, 391 Substitutionsregel, 258, 285 Subtraktion, 21 Summation partielle, 105 Summe, 19 Supremum, 29 wesentliches, 460 Supremumsnorm, 148 surjektiv, 190 Sym, 20 symmetrische Gruppe, 20 Tangens, 226, 242 Tangente, 217 Tangenten-Einheitsvektor, 318 Tangentialebene, 403 Tangentialhyperebene, 346 Tangentialraum, 403, 404 Tangentialvektor, 318, 403 Taylor, B., 295 Taylorpolynom, 295 Taylorreihe, 301 Taylorsche Formel, 299 mit Restglied, 297, 298 Teilüberdeckung endliche, 202 Teilfolge, 74 Teilkörper, 22 Teilraum eines metrischen Raumes, 118 Teilraum eines Vektorraums, 331 Teilraumtopologie, 214 Teleskopsumme, 15 Tonelli, L., 468 Topologie, 213 topologischer Raum, 213 total differenzierbar, 345 totale Variation, 326 totales Differential, 345 Träger einer Funktion, 440 Trägheitsmoment, 477 Transformationsformel für Integrale, 473, 474 transitiv, 24 Translationsinvarianz, 24 Transponierte, 334 Treppenfunktion, 266, 419 Integral, 266 Trichotomie, 23, 24 trigonometrischer Pythagoras, 173 Umgebung, 108 punktierte, 108 umgeordnete Reihe, 97 Umkehrabbildung, 191 Umkehrfunktion, 141, 191, 226 Umordnung, 97 Umordnungssatz, Riemannscher, 98 unbestimmtes Integral, 255, 284 uneigentlich -er Grenzwert, 132 -es Integral, 308 unendlich überabzählbar, 38 abzählbar, 38 Menge, 38 Symbol, 30 unendliche Reihe, 81, 145 ungerade Funktion, 173 Ungleichung Bernoullische, 9 Cauchy-Schwarzsche, 51, 278, 340, 461 498 Höldersche, 458 Minkowskische, 459 zwischen arithmetischem und geometrischem Mittel, 13, 457 Untergruppe, 18 Unterintegral Darbouxsches (Riemannsches), 268 Riemannsches, 440 Untermannigfaltigkeit in Rn , 396 Tangentialebene, 403 Tangentialraum, 403, 404 Unterraum eines Vektorraums, 331 Untersumme Riemannsche, 268 Urbild, 190 Variation beschränkte, 326 totale, 326 Vektorfeld, 478 vektorielles Linienelement, 480 vektorielles Oberflächenelement, 485 Vektorprodukt, 481 Vektorraum, 331 Verfeinerung einer Parkettierung, 414 einer Zerlegung, 266 Verkettung, 121 Vertauschung von Grenzübergängen, 289, 293, 433, 436 vollständig, 31, 80, 211, 376 vollständige Induktion, 8, 35 vollständiger metrischer Raum, 80, 211, 376 Vollständigkeitsaxiom, 31, 33 Volterra, V., 411, 443 Volumen einer parkettierbaren Menge, 423 einer messbaren Menge, 445 eines Quaders, 412 Volumenmaß, 445 Vorzeichen, 26 glatter, 319 Länge, 321, 322 regulärer, 319 rektifizierbarer, 321 Spur, 316 stetig differenzierbarer, 319 Weierstraß, K., 73, 88, 115, 215, 219 Majorantenkriterium für gleichmäßige Konvergenz, 150 Wendepunkt, 248, 300 Wert einer Reihe, 81 regulärer, 400 wesentliches Supremum, 460 Wirbeldichte, 481 Wurzel, 33, 72, 143 Wurzelkriterium, 92, 162 Zahlen ganze, 34 komplexe, 44 natürliche, 34 rationale, 22 Zeilenrang, 336 Zerlegung eines Intervalls, 265 Feinheit, 266 Teilpunkte, 266 Verfeinerung, 266 Zermelo, E., 449 Zetafunktion, Riemannsche, 312 Zinseszins, 229 zusammenhängend, 409 Zusammensetzung, 121 zweite Ableitung, 229 Zwischenwertsatz, 139, 282 für Ableitungen, 249 Zylinderkoordinaten, 477 Weg, 316 äquivalenter, 328 Anfangspunkt, 316 differenzierbarer, 318, 319 Endpunkt, 316 geschlossener, 316 499