Univ.Prof.Dr. Aicke Hinrichs TNF Institut für Analysis Version vom 20. Juni 2017 Analysis für Lehramt Vorlesungsnotizen – 2016/2017 JOHANNES KEPLER UNIVERSITÄT LINZ Altenbergerstraße 69 4040 Linz, Österreich www.jku.at DVR 0093696 i Inhaltsverzeichnis 1 Mengen, Logik, Funktionen – Die Sprache der Mathematik 1 1.1 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Relationen und Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2 Zahlen 14 2.1 Die Axiomatik der reellen Zahlen - Algebra . . . . . . . . . . . . . . . . . . . . 14 2.2 Die Axiomatik der reellen Zahlen - Ordnung . . . . . . . . . . . . . . . . . . . 17 2.3 Die natürlichen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4 Die Axiomatik der reellen Zahlen - Vollständigkeit . . . . . . . . . . . . . . . . 25 2.5 Die komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.6 Endlichkeit, Abzählbarkeit und Überabzählbarkeit . . . . . . . . . . . . . . . . 34 3 Folgen 36 3.1 Der Folgenbegriff und Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2 Monotone Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3 Teilfolgen, Satz von Bolzano-Weierstraß . . . . . . . . . . . . . . . . . . . . . . 45 3.4 Cauchyfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4 Reihen 49 4.1 Der Reihenbegriff, Konvergenz und Eigenschaften . . . . . . . . . . . . . . . . . 49 4.2 Absolute Konvergenz und Konvergenzkriterien . . . . . . . . . . . . . . . . . . 53 4.3 Alternierende Reihen und Leibniz-Kriterium . . . . . . . . . . . . . . . . . . . 56 5 Stetige Funktionen 57 5.1 Reelle Funktionen, algebraische Operationen, Ordnung . . . . . . . . . . . . . . 57 5.2 Stetigkeit - Definition, Charakterisierung, grundlegende Sätze . . . . . . . . . . 57 5.3 Grenzwerte von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.4 Zwischenwertsatz und Satz vom Maximum und Minimum . . . . . . . . . . . . 68 5.5 Elementare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.5.1 Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.5.2 Potenzfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.5.3 Logarithmusfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.5.4 Trigonometrische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.5.5 Umkehrfunktionen der trigonometrischen Funktionen . . . . . . . . . . . . . 76 5.5.6 Hyperbelfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6 Differentialrechnung 78 ii 6.1 Der Ableitungsbegriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 6.2 Differentiationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 6.3 Lokale Extrema und Mittelwertsatz . . . . . . . . . . . . . . . . . . . . . . . . 82 6.4 Höhere Ableitungen, Taylorsche Formel und Taylorreihen . . . . . . . . . . . . 84 6.5 Monotonie und Konvexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 6.6 Extrema und Wendepunkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 6.7 Die Regel von l’Hospital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 7 Integralrechnung 90 7.1 Stammfunktionen und unbestimmte Integrale . . . . . . . . . . . . . . . . . . . 90 7.2 Das Riemann-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 7.3 Der Hauptsatz der Differential- und Integralrechnung . . . . . . . . . . . . . . 99 7.4 Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 7.5 Anwendungen der Integralrechnung . . . . . . . . . . . . . . . . . . . . . . . . 105 8 Potenzreihen 106 8.1 Konvergenz von Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 8.2 Rechnen mit Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 8.3 Der Abelsche Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 9 Differentialrechnung multivariater Funktionen 114 9.1 Darstellung von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 9.2 Grenzwerte und Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 9.3 Partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 9.4 Kettenregeln für partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . 121 9.5 Richtungsableitungen, Gradient, Tangentialebene . . . . . . . . . . . . . . . . . 122 9.6 Mittelwertsatz und Satz von Taylor . . . . . . . . . . . . . . . . . . . . . . . . 127 9.7 Bestimmung lokaler Extremwerte . . . . . . . . . . . . . . . . . . . . . . . . . . 130 9.8 Lokale Extrema mit Nebenbedingungen - der Lagrange-Formalismus . . . . . . 135 10 Integralrechnung multivariater Funktionen 10.1 137 Wege, Kurven, Kurvenintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 10.1.1 Wege und Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 10.1.2 Kurvenintegrale 1. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 10.1.3 Kurvenintegrale 2. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 10.2 Das mehrdimensionale Riemann-Integral . . . . . . . . . . . . . . . . . . . . . . 149 10.2.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 10.2.2 Berechnung zweidimensionaler Riemann-Integrale - Satz von Fubini . . . . . 153 10.2.3 Substitutionsregel und Koordinatenwechsel . . . . . . . . . . . . . . . . . . . 156 1 1 Mengen, Logik, Funktionen – Die Sprache der Mathematik In diesem Abschnitt wollen wir uns mit der Sprache der Mathematik vertraut machen. Einiges davon werden Sie auch in anderen Grundvorlesungen ähnlich hören. Da dies aber die Grundlage für alle Mathematikvorlesungen sein wird, schadet ein wenig Wiederholung nicht. Zunächst werden wir uns mit den grundlegenden Objekten der Mathematik beschäftigen - mit Mengen und ihren Elementen. Anschließend schauen wir uns ein wenig Logik an - wie schließt man logisch korrekt, um mathematische Tatsachen nachzuweisen. Schließlich geht es um den allgemeinen Funktionsbegriff, der ebenfalls für die ganze Mathematik wichtig ist und funktionale Zusammenhänge zwischen verschiedenen Größen erfasst. 1.1 Mengen Naiver Mengenbegriff nach Georg Cantor (1845 – 1918, Begründer der Mengenlehre) Unter einer Menge verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens, welche die Elemente von M genannt werden, zu einem Ganzen. Wir benutzen also eine (letztlich undefinierte, aber intuitive) Beziehung zwischen zwei mathematischen Objekten x und M : x ist Element der Menge M, kurz x ∈ M. Ist x kein Element der Menge M , schreiben wir x ∈ / M. x∈M M x∈ /M M x x Mengen von Zahlen - Bezeichnungen: • N = {1, 2, 3, . . . } ist die Menge der natürlichen Zahlen • N0 = {0, 1, 2, 3, . . . } ist die Menge der natürlichen Zahlen inklusive 0 • Z = {0, 1, −1, 2, −2, 3, −3 . . . } ist die Menge der ganzen Zahlen • Q ist die Menge der rationalen Zahlen • R ist die Menge der reellen Zahlen Definition von Mengen durch ... ... Aufzählung aller Elemente: 2 • M := {0, 17, 42} • N := {Informatik, Mathematik, Mechatronik, Medizin} ... Pünktchen: • G := {2, 4, 6, . . . } ... Eigenschaft: • P := {n ∈ N : n ist Primzahl} • G := {n ∈ N : n ist gerade} • S := {u ∈ N : u ist Studienfach an der JKU} Eine besondere Menge ist die leere Menge ∅, die kein Element enthält. Diese Menge ist eindeutig bestimmt. Zwischen Mengen können Beziehungen bestehen. Eine Menge M heißt Teilmenge einer Menge N , wenn jedes Element von M auch Element von N ist. Man schreibt dafür M ⊆ N . Zum Beispiel gilt N ⊆ N0 ⊆ Z ⊆ Q ⊆ R und in den obigen Beispielen haben wir N ⊆ S. Für jede Menge M ist auch M ⊆ M und ∅ ⊆ M ! Eine Teilmenge N von M heißt echte Teilmenge, falls N 6= M ist. Man schreibt dann auch N ⊂ M oder N ( M . Zwei Mengen M und N heißen gleich oder identisch wenn sie dieselben Elemente enthalten, wenn also M ⊆ N und N ⊆ M gilt. Zum Beispiel ist {0, 17, 42} = {42, 0, 17} = {0, 17, 0, 42, 17}. Die Potenzmenge P(M ) einer Menge M ist die Menge aller Teilmengen von M . Ihre Elemente sind also selbst Mengen. Zum Beispiel ist P({0, 17, 42}) = ∅, {0}, {17}, {42}, {0, 17}, {0, 42}, {17, 42}, {0, 17, 42} . Aus Mengen M, N kann man durch Mengenoperationen neue Mengen bilden. Insbesondere sind das ... ... die Vereinigung M ∪ N , die alle Elemente aus M und alle Elemente aus N enthält. ... der Durchschnitt M ∩N , der alle Elemente enthält, die sowohl zu M als auch zu N gehören. M ∪N M N M ∩N M N 3 ... die Differenzmenge M \ N , die alle Elemente aus M enthält, die nicht Elemente von N sind. Oft hat man auch eine Grundmenge G, von der alle betrachteten Mengen Teilmengen sind. Ist diese Grundmenge fixiert und M eine solche Teilmenge, schreibt man auch M für G \ M und nennt M die Komplementärmenge oder das Komplement von M . Hier muss die Grundmenge aber immer klar sein! M \N M M N M Solche Mengendiagramme nennt man übrigens Venn-Diagramme nach John Venn (1834–1923). Die zweielementigen Mengen {x, y} und {y, x} sind nach dem oben gesagten identisch. Oft will man aber die Reihenfolge der Elemente unterscheiden. Deshalb bildet man das geordnete Paar (x, y) mit der Vereinbarung, dass (x1 , y1 ) = (x2 , y2 ) dann und nur dann gilt, wenn x1 = x2 und y1 = y2 . Dann sind also (x, y) und (y, x) verschiedene geordnete Paare, falls x 6= y ist. Sind nun M und N zwei Mengen, so ist die Produktmenge oder das kartesische Produkt M × N die Menge aller geordneten Paare (x, y) mit x ∈ M und y ∈ N . Beispiel 1.1. Ist M = {1, 2} und N = {1, 2, 3}, dann ist M × N = {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3)}. Die Menge R2 := R × R ist die Menge aller geordneten Paare (x, y) von reellen Zahlen x und y. 1.2 Logik Mathematik besteht im wesentlichen aus dem Beweisen von Aussagen aus anderen Aussagen, die man schon als richtig erkannt hat. Grundlage dafür ist ein System von Axiomen. Das sind Grundaussagen, die man nicht weiter hinterfragt und als gültig voraussetzt. Im nächsten Kapitel werden wir ein Axiomensystem für reelle Zahlen finden, aus dem dann alle Aussagen der Analysis durch logisches Folgern abgeleitet werden können. Zur axiomatischen Begründung der Mathematik geht man eigentlich noch einen Schritt weiter und benutzt ein Axiomensystem für die Mengenlehre, das System von Zermelo-Fraenkel mit dem Auswahlaxiom. Das ist für uns aber viel zu schwerfällig. Deshalb fangen wir ein Stockwerk höher an. Trotzdem wollen wir uns kurz mit dem logischen Folgern beschäftigen. Keine Angst, eigentlich ist das nur die konsequente Anwendung des gesunden Menschenverstands. In der Mathematik geht es nur um Aussagen, die entweder wahr oder falsch sein können. Sinnvolle Aussagen sind zum Beispiel √ 29 ist eine Primzahl oder jede gerade Zahl größer als 2 ist Summe zweier Primzahlen oder 2 ist eine rationale Zahl. Die erste Aussage ist wahr, die dritte ist falsch (was wir noch 4 beweisen werden). Die zweite Aussage ist die Goldbachsche Vermutung, ein berühmtes Problem der Zahlentheorie. Ob diese Aussage wahr oder falsch ist, ist trotz großer Bemühungen vieler Mathematiker seit fast 300 Jahren unbekannt. Aus sinnvollen Aussagen kann man mittels der Operationen und, oder, nicht und folgt neue Aussagen bilden. Sind p und q zwei Aussagen, so ist die Aussage p und q genau dann wahr, wenn sowohl p als auch q wahr sind. Mathematiker schreiben auch p∧q statt p und q. Ein Beispiel aus der Umgangssprache ist die Aussage Ich studiere Mathematik und Biologie, die genau dann wahr ist, wenn ich sowohl Mathematik als auch Biologie studiere. Die Aussage p oder q ist genau dann wahr, wenn p oder q (oder beide) wahr sind. Mathematiker schreiben auch p ∨ q statt p oder q. Ein Beispiel aus der Umgangssprache ist die Aussage Ich studiere Mathematik oder Biologie. Mathematiker verwenden also oder nicht in der Bedeutung des ausschließenden entweder oder, die Aussage aus dem letzten Satz ist auch wahr, wenn ich Mathematik und Biologie studiere. Die Aussage nicht p ist einfach das logische Gegenteil der Aussage p, ist also genau dann wahr, wenn p falsch ist. Abgekürzt schreibt man auch ¬p. Die Aussage aus p f olgt q kommt in der Mathematik sehr häufig vor. Sie ist immer dann wahr, wenn mit der Wahrheit von p auch die Wahrheit von q gilt. Achtung: Sie ist insbesondere auch wahr, wenn p falsch ist, dafür ist der Wahrheitsgehalt von q unerheblich! Zum Beispiel ist die Aussage Wenn der Mond ein gelber Käse ist, dann ist 27 eine Primzahl eine wahre Aussage. Statt aus p f olgt q schreibt man auch kurz p ⇒ q und sagt auch p impliziert q oder p ist hinreichend für q oder q ist notwendig für p. Die Aussagen p und q heißen äquivalent, kurz p ⇔ q, falls p genau dann wahr ist, wenn q wahr ist, also falls sowohl p ⇒ q als auch q ⇒ p gilt. Um die Äquivalenz zweier Aussagen zu beweisen, beweist man meist diese beiden Implikationen. Man kann sich diese Verknüpfungen von Aussagen gut an Wahrheitstabellen klarmachen. In eine solche Tabelle schreibt man zunächst alle möglichen Wahrheitswerte für die Grundaussagen. Dabei steht w für die Aussage ist wahr und f für Die Aussage ist falsch. Anschließend füllt man nach und nach die Spalten für die logischen Verknüpfungen mit den entsprechenden Wahrheitswerten. Hier ist die Wahrheitstabelle für die Negation: P w f ¬P f w Hier sind Konjunktion (und) und Disjunktion (oder): P Q w w w f f w f f P∨Q w w w f P Q w w w f f w f f P∧Q w f f f Hier sind Implikation p ⇒ q und die Aussage ¬p ∨ q. 5 P Q w w w f f w f f P⇒Q w f w w P Q w w w f f w f f ¬P ¬P ∨ Q f w f f w w w w Man sieht, dass die beiden letzten Spalten in diesen Tabellen die gleichen Wahrheitswerte enthalten. Deshalb finden wir: P Q w w w f f w f f ¬P ¬P ∨ Q P ⇒ Q (¬P ∨ Q) ⇔ (P ⇒ Q) f w w w f f f w w w w w w w w w Diese Aussage ist immer wahr. Man nennt so eine Aussage auch Tautologie. Mathematik besteht nun (zumindest formal) darin, mathematische Sätze zu beweisen. Ein mathematischer Satz ist gerade eine Implikation p ⇒ q, wobei man p Voraussetzung und q Behauptung des Satzes nennt. Ein Beispiel ist Satz 1.2. Ist n eine natürliche Zahl und ist n2 gerade, so ist auch n gerade. Hier ist die Voraussetzung p gerade die Aussage n ist eine natürliche Zahl und n2 ist gerade, also eine und-Verknüpfung von zwei Aussagen, die Behauptung q ist n ist gerade. Zu einem mathematischen Satz gehört ein Beweis, der die Wahrheit der Behauptung durch logisches Schließen aus der Wahrheit der Voraussetzung ableitet. Für Satz 1.2 kann man einen Beweis folgendermaßen führen, indem man aus der Schule bekannte einfache Teilbarkeitseigenschaften der natürlichen Zahlen benutzt. Außerdem zeigt dieser Beweis die Methode des Beweises durch Kontraposition, den indirekten Beweis: Man nimmt an, dass q falsch ist und zeigt dann, dass auch p falsch ist. Falls also p richtig ist, ist auch q richtig. Formal ist das die logische Äquivalenz (p ⇒ q) ⇔ (¬q ⇒ ¬p). Die Wahrheitstabelle zeigt, dass dies tatsächlich eine Tautologie ist. P Q w w w f f w f f ¬Q ¬P P ⇒ Q ¬Q ⇒ ¬P (P ⇒ Q) ⇔ (¬Q ⇒ ¬P) f f w w w w f f f w f w w w w w w w w w Beweis von Satz 1.2. Sei n ungerade, also in der Form n = 2m − 1 mit einer natürlichen Zahl m darstellbar. Dann ist n2 = (2m − 1)2 = 4m2 − 4m + 1 = 2(2m2 − 2m) + 1 ebenfalls ungerade. Ist also n2 gerade, so ist auch n gerade. 6 Es gilt auch die Umkehrung der Implikation in Satz 1.2, ist n gerade, so auch n2 (Beweis?!). Beide Implikationen liefern Satz 1.3. Ist n eine natürliche Zahl, so ist n2 gerade genau dann, wenn n gerade ist. Neben Sätzen und Beweisen braucht die mathematische Sprache noch Definitionen. Das sind sinnvolle Begriffsbildungen, die erst eine kompakte Darstellung von Mathematik ermöglichen. Wir haben schon eine Reihe von Definitionen kennengelernt, z.B. haben wir eine Abkürzung für die Menge der natürlichen Zahlen eingeführt durch N := {1, 2, 3, . . . }. Hier heißt der Doppelpunkt Definitionsdoppelpunkt. Definiert wird das Symbol oder der Begriff, der am Doppelpunkt steht, durch das, was auf der anderen Seite steht. Weitere Definitionen waren die Mengenoperationen und die logischen Operationen. Oft werden wir Definitionen abheben, z.B. so: Definition 1.4. Eine natürliche Zahl heißt gerade, wenn sie ohne Rest durch 2 teilbar ist. oder Definition 1.5. Die Menge Q der rationalen Zahlen ist gegeben durch p Q := : p ∈ Z und q ∈ N . q Wir wollen zu guter letzt auch noch den Gebrauch der sogenannten Quantoren für alle ∀ und es gibt ein ∃ erläutern, der insbesondere später in der Vorlesung viele Formulierungen von Aussagen verkürzt und übersichtlicher macht. Sei X eine Menge und A(x) eine Aussage, die für jedes Element x ∈ X sinnvoll ist. Man nennt A(x) auch eine Aussageform mit der Grundmenge oder Einsetzungsmenge X. Noch genauer spricht man von einer einstelligen Aussageform, da sie von einer Variablen x ∈ X abhängt. Für ein festes x ∈ X kann A(x) wahr oder falsch sein. Dann schreibt man ∀x ∈ X : A(x) für die Aussage Für alle x ∈ X gilt die Aussage A(x) und ∃ x ∈ X : A(x) für die Aussage Es gibt ein x ∈ X, für das die Aussage A(x) gilt. Zum Beispiel kann man die Aussage des Satzes 1.2 nun auch wie folgt formalisieren. Dazu sei für einen natürliche Zahl n die Aussage G(n) einfach n ist gerade: ∀n ∈ N : G(n2 ) ⇒ G(n). Die (falsche) Negation dieser Aussage ist offenbar ∃ n ∈ N : G(n2 ) ∧ ¬G(n). Man erhält also die Negation, indem man die Quantoren vertauscht und die Aussage negiert. Hat man eine zweistellige Aussageform A(x, y) mit Variablen x ∈ X und y ∈ Y , so kann man nun mit den Quantoren z.B. folgende Aussagen bilden: ∀x ∈ X ∃ y ∈ Y : A(x, y) und ∃ y ∈ Y ∀x ∈ X : A(x, y). Formulieren Sie diese Aussagen in einem (möglichst einfachen) Satz und machen Sie sich insbesondere klar, dass diese Aussagen nicht äquivalent sind. Wie lauten die Negationen dieser Aussagen? 7 1.3 Relationen und Funktionen Relationen beschreiben Beziehungen zwischen zwei Mengen. Die Definition ist einfach: Definition 1.6. Eine Relation R zwischen den Mengen M und N ist eine Teilmenge des kartesischen Produkts, also R ⊆ M × N . Man stellt sich das oft so vor, dass einem Element x ∈ M das Element y ∈ N zugeordnet ist, falls (x, y) ∈ R ist. Einem Element x können dabei auch mehrere y zugeordnet werden oder auch gar keines. eine Relation N M Beispiele sind die Ordnungsrelationen <, ≤, ≥, > der reellen Zahlen, die wir später betrachten werden. So schreibt man z.B. für die kleiner als-Relation statt (x, y) ∈ R einfach kurz x < y. Wichtiger für uns an dieser Stelle ist der Begriff der Funktion, die ebenfalls eine spezielle Relation ist. Dazu definieren wir zunächst die folgenden Eigenschaften einer Relation. Eine Relation R ⊆ M × N heißt linkstotal falls jedes x ∈ M mindestens einen Partner y ∈ N hat. rechtsstotal oder surjektiv falls jedes y ∈ N mindestens einen Partner x ∈ M hat. linkseindeutig oder injektiv falls kein Element y ∈ N mehr als einen Partner x ∈ M hat. rechtseindeutig oder funktional falls kein Element x ∈ M mehr als einen Partner y ∈ N hat. eineindeutig oder bijektiv falls jedes Element y ∈ N genau einen Partner x ∈ M hat. Hier sagen wir kurz: x ∈ M hat einen Partner y ∈ N , falls (x, y) ∈ R ist. 8 linkstotal N M rechtstotal - surjektiv N M 9 linkseindeutig - injektiv N M rechtseindeutig N M 10 eineindeutig - bijektiv N M Eine Funktion ist eine linkstotale und rechtseindeutige Relation. Eine Funktion f ordnet jedem Element x ∈ M genau ein Element y ∈ N zu. Man benutzt dann die suggestivere Schreibweise f : M → N und schreibt f (x) = y. Die Begriffe Abbildung und Funktion werden synonym verwendet. Zu einer Funktion gehört also immer auch die Angabe des Definitionsbereichs M und des Wertebereichs N ! eine Funktion N M Die Menge Gf = {(x, f (x)) : x ∈ M } ⊆ M × N, nennt man auch den Graph der Funktion f . Ist M = N = R, so kann man sich den Graph der Funktion wie üblich als Teilmenge des R2 , also der Ebene, veranschaulichen. 11 f (x) f (x) = x2 f (x) = x + 1 x Eine Funktion ist also per Definition immer (rechts)eindeutig. Sie heißt injektiv, falls aus der Gleichheit der Funktionswerte f (x1 ) = y und f (x2 ) = y schon die Gleichheit der Argumente x1 = x2 folgt. Sie ist surjektiv, falls es zu jedem y ∈ N ein x ∈ M gibt mit f (x) = y. Sie ist bijektiv, falls sie sowohl injektiv als auch surjektiv ist. Ist f : M → N bijektiv, so kann man die inverse Funktion oder Umkehrfunktion f −1 : N → M bilden, indem man setzt: f −1 (y) = x ⇐⇒ f (x) = y. Zum Beispiel ist die Umkehrfunktion der auf den nichtnegativen reellen Zahlen R≥0 := {x ∈ R : x ≥ 0} definierten Funktion f : R≥0 → R≥0 , x 7→ x2 die Quadratwurzelfunktion f −1 : R≥0 → R≥0 , y 7→ √ y. f (x) = x2 4 y 3 f (x) = 2 √ x 1 x 0.5 1 1.5 2 2.5 3 3.5 4 Auf jeder Menge M gibt es die identische Funktion IdM : M → M gegeben durch IdM (x) = x für x ∈ M . Jedes Element von M wird also einfach auf sich selbst abgebildet. Diese Funktion ist bijektiv und ihre Umkehrfunktion ist sie selbst: Id−1 M = IdM (tatsächlich?!). 12 IdM M Sind M und N beliebige nichtleere Mengen und ist y0 ∈ N ein festes Element, so heißt die Funktion f : M → N mit f (x) = y0 für alle x ∈ M konstante Funktion. konstante Funktion N M Sind X, Y, Z drei Mengen und f : X → Y, g : Y → Z zwei Funktionen, so kann man g und f hintereinander ausführen und erhält die Verknüpfung oder Komposition g ◦ f : X → Z gegeben durch g ◦ f (x) = g f (x) für x ∈ X. 13 Komposition X X f Y g◦f g Z Z So ist z.B. die Funktion h(x) = sin x2 auf R die Verknüpfung der Funktionen g, f : R → R mit g(y) = sin y und f (x) = x2 . Man erhält h = g ◦ f durch Einsetzen von y = f (x) = x2 in die Funtion g(y). 14 2 Zahlen In diesem Kapitel werden wir uns mit den für die Analysis interessanten Zahlbereichen der reellen Zahlen R und der komplexen Zahlen C beschäftigen. Die reellen Zahlen führen wir axiomatisch ein, das heißt wir geben ihnen Struktureigenschaften, die den Bereich der reellen Zahlen eindeutig charakterisieren. Diese Eindeutigkeit werden wir allerdings nicht beweisen. Aus den Axiomen für die reellen Zahlen leiten wir dann alle anderen Sätze der Vorlesung ab. Insbesondere können wir die natürlichen Zahlen innerhalb der reellen Zahlen als kleinste induktive Menge erhalten. Insofern unterscheidet sich unser Aufbau der Analysis von einem konstruktiven Aufbau, der von Axiomen der natürlichen Zahlen ausgehend nacheinander die rationalen Zahlen und dann die reellen Zahlen durch sukzessive Erweiterung liefert. Der letzte Zugang ist der für die Schulmathematik natürliche, auch wenn er dort nicht mathematisch stringent durchgeführt werden kann. Die Einführung der natürlichen Zahlen als induktive Menge gibt uns Gelegenheit, das Beweisverfahren der vollständigen Induktion kennenzulernen und zu üben. 2.1 Die Axiomatik der reellen Zahlen - Algebra Mit reellen Zahlen kann man rechnen, das wissen Sie aus der Schule. Dabei gibt es eine Reihe von Rechenregeln - Kommutativgesetze, Assoziativgesetze und das Distributivgesetz. Diese Rechenregeln werden wir natürlich auch als Axiome für unseren axiomatisch begründeten Bereich der reellen Zahlen fordern. Wir gelangen so zum Begriff eines Körpers, der die algebraische Struktur der reellen Zahlen fasst. Dazu betrachten wir zunächst den Begriff einer (inneren) Verknüpfung bzw. Operation auf einer Menge X, was nur eine andere Bezeichnung für eine Abbildung ◦ : X × X → X ist. Das ist also eine Zuordnung eines Elementes aus X zu jedem Paar von Elementen aus X, eine Rechenoperation. Statt ◦(x, y) schreibt man bei Operationen auch kurz x ◦ y. Das soll natürlich an die Addition x + y oder die Multiplikation xy = x · y erinnern. Wir nennen die Operation ◦ kommutativ, falls für alle x, y ∈ X die Gleichheit x ◦ y = y ◦ x gilt. Sowohl von der Addition als auch von der Multiplikation reeller Zahlen kennen wir diese Regel aus der Schule als Kommutativgesetz der Addition bzw. Multiplikation. Wir werden diese also als Axiom fordern. Wir nennen die Operation ◦ assoziativ, falls für alle x, y, z ∈ X die Gleichheit (x◦y)◦z = x◦(y◦z) gilt. Sowohl von der Addition als auch von der Multiplikation reeller Zahlen kennen wir diese Regel aus der Schule als Assoziativgesetz. Wir werden diese also ebenfalls als Axiom fordern. Hat man Assoziativität, so kann man Klammern also einfach weglassen und kurz x ◦ y ◦ z schreiben. Ein Element e ∈ X heißt neutrales Element oder Einselement, falls für alle x ∈ X die Gleichung x ◦ e = e ◦ x = x gilt. Das neutrale Element ist also universell in dem Sinn, dass diese Gleichung für alle x ∈ X gelten muss! Ein neutrales Element ist eindeutig bestimmt - es kann nur eines geben. Sind nämlich e und e0 beide neutral, so folgt aus der Neutralität von e die Gleichheit e0 = e ◦ e0 , aus der Neutralität von e0 folgt e ◦ e0 = e und beides zusammen liefert e = e0 . Hat ◦ ein neutrales Element e, so heißt ein y ∈ X inverses Element zu x ∈ X, falls x◦y = y◦x = e ist. Ist ◦ assoziativ, so sind auch inverse Elemente eindeutig bestimmt. Sind nämlich y und z inverse Elemente zu x, so folgt z = e ◦ z = (y ◦ x) ◦ z = y ◦ (x ◦ z) = y ◦ e = y. Hier haben wir nacheinander die Neutralität von e, die Inversität von y, die Assoziativität, die 15 Inversität von z und wieder die Neutralität von e verwendet. Man schreibt dann im allgemeinen y = x−1 , bei der Addition auch −x, für das zu x inverse Element. Das inverse Element zu x ist also individuell, für x 6= y ist im allgemeinen x−1 6= y −1 . Nun können wir die Axiome eines Körpers zusammenstellen und fordern für die reellen Zahlen R kategorisch: R ist ein Körper! Definition 2.1. Ein Körper (K, +, ·) ist eine Menge K mit zwei Operationen + (Addition) und · (Multiplikation) mit den folgenden Eigenschaften: (A1) Die Addition ist assoziativ, kommutativ und besitzt ein neutrales Element 0. (A2) Zu jedem x ∈ K gibt es ein bezüglich der Addition inverses Element −x. (M1) Die Multiplikation ist assoziativ, kommutativ und besitzt ein neutrales Element 1 6= 0. (M2) Zu jedem x ∈ K \ {0} gibt es ein bezüglich der Multiplikation inverses Element x−1 . (D) Es gilt das Distributivgesetz, d.h. (x + y) · z = x · z + y · z für alle x, y, z ∈ K. (Punkt- vor Strichrechnung) Wir überlegen uns zunächst ein paar Beispiele und Nichtbeispiele. Beispiel 2.2. Die aus der Schule „bekannten“ reellen Zahlen bilden einen Körper. Beispiel 2.3. Die aus der Schule bekannten rationalen Zahlen bilden einen Körper. Beispiel 2.4. Die ganzen Zahlen bilden keinen Körper (welche Eigenschaft ist verletzt?). Beispiel 2.5. Der kleinste Körper ist der Körper K = {0, 1} mit den üblichen Rechenoperationen (also 0 + 0 = 0, 0 + 1 = 1 + 0 = 1, 0 · 0 = 0 · 1 = 1 · 0 = 0 und 1 · 1 = 1) mit Ausnahme der Addition 1 + 1 = 0. Es gibt also einige verschiedene Körper, in der Übung werden wir weitere kennenlernen. Die später behandelten komplexen Zahlen bilden ebenfalls einen Körper. Die algebraische Struktur bestimmt die reellen Zahlen also noch lange nicht eindeutig. Beruhigend ist aber, dass sich alle algebraischen Rechenregeln, die wir kennen, aus obigen Körperaxiomen ableiten lassen. Damit gelten sie auch in jedem anderen Körper. Dies verdeutlicht die Stärke der axiomatischen Methode: man beweist Sätze aus den Axiomen, die man dann in jeder Struktur automatisch hat, sofern diese nur die Axiome erfüllt. Das können durchaus Strukturen sein, an die der Erfinder der Sätze keinesfalls gedacht hat! Es folgt ein Satz, der eine Reihe von Rechenregeln in einem Körper zusammenfasst. Einige davon werden wir anschließend beweisen, andere sollten Sie sich selbst überlegen. 16 Satz 2.6. Sei (K, +, ·) ein Körper. Dann gelten die folgenden Eigenschaften. (i) Einmal Null, immer Null: Sind x, y ∈ K mit x + y = x, so ist y = 0. (ii) Einmal Eins, immer Eins: Sind x, y ∈ K mit x · y = x und x 6= 0, so ist y = 1. (iii) Von Nichts kommt Nichts: Für jedes x ∈ K ist 0 · x = 0. (iv) Für alle x ∈ K ist (−1) · x = −x. (v) Für alle x ∈ K mit x 6= 0 ist auch x−1 6= 0. (vi) Doppelt bringt gar nichts: Für x ∈ K ist −(−x) = x. (vii) Doppelt bringt gar nichts: Für x ∈ K mit x 6= 0 ist (x−1 )−1 = x. Beweis. Wir zeigen exemplarisch die Eigenschaften (i) und (iv), die anderen Eigenschaften sollten Sie zur Übung selbst beweisen. Beim Beweis von (i) setzen wir also voraus, dass wir ein x und ein y in K haben mit x + y = x. Wir müssen aus den Axiomen ableiten, dass y = 0 ist. Die Idee ist klar, wir müssen auf beiden Seiten x abziehen. Dies müssen wir mit Hilfe der Axiome realisieren. Mit dem Axiom (A2) finden wir zunächst das zu x inverse Element −x und addieren es auf beiden Seiten der Voraussetzung x + y = x. Dann erhalten wir (−x) + (x + y) = (−x) + x. Nach Definition des inversen Elements ist nun die rechte Seite tatsächlich 0. Die linke Seite formen wir noch so um: (−x) + (x + y) = (−x) + x + y = 0 + y = y. Hier haben wir nacheinander angewendet: die Assoziativität der Addition, die Definition des inversen Elements −x, die Neutralität der 0 für die Addition. Wir haben diesen Beweis hier in aller Ausführlichkeit aufgeschrieben, um ganz deutlich zu machen, wie die Körperaxiome in jedem Körper eine Eigenschaft implizieren, die für Sie für die reellen Zahlen schon lange „klar“ ist. Kurz und ohne weitere Erklärungen kann man den Beweis auch so aufschreiben: x + y = x ⇒ y = 0 + y = (−x) + x + y = (−x) + (x + y) = (−x) + x = 0. Überlegen Sie sich nochmals, welche Axiome hier in jedem Schritt benutzt wurden! Wo geht die Voraussetzung der Implikation ein? Den Beweis von (iv) schreiben wir nun nur noch in Kurzform auf: Die Gleichungskette (was benutzen wir hier jeweils?!) x + (−1) · x = 1 · x + (−1) · x = 1 + (−1) · x = 0 · x = 0 zeigt, dass (−1) · x additives inverses Element zu x ist. Da −x per Definition das additive Inverse zu x ist und inverse Elemente eindeutig bestimmt sind, folgt die Behauptung (−1) · x = −x. Der obige Satz zeigt also, dass man in jedem Körper so rechnen und Gleichungen umstellen kann, wie Sie das von reellen Zahlen gewohnt sind. 17 2.2 Die Axiomatik der reellen Zahlen - Ordnung Wir haben schon eingesehen, dass es eine ganze Reihe von verschiedenen Körpern gibt. Die Körperaxiome reichen also nicht aus, um die reellen Zahlen eindeutig zu charakterisieren. Der nächste Schritt folgt durch die Forderung, dass man reelle Zahlen miteinander vergleichen kann, die reellen Zahlen bilden einen angeordneten Körper. Die Ordnung auf R führen wir ein, indem wir die bekannten Eigenschaften der positiven Zahlen R>0 = {x ∈ R : x > 0} bezüglich der Ordnung in Axiome fassen. Definition 2.7. Sei (K, +, ·) ein Körper und P ⊆ K. Dann heißt P ein Positivbereich, falls gilt: (O1) Für jedes x ∈ K gilt genau eine der drei Eigenschaften x∈P oder x=0 oder − x ∈ P. (O2) Sind x, y ∈ P , so sind auch x + y, x · y ∈ P . Wir schreiben dann kurz • x < y und y > x für y − x ∈ P . • x ≤ y und y ≥ x für x < y oder x = y. Ein Körper zusammen mit einem Positivbereich heißt angeordneter Körper. Ist x ∈ P , so nennt man x positiv, das ist also äquivalent zu x > 0. Ist −x ∈ P , so nennt man x negativ, das ist also äquivalent zu x < 0. Ist x ≥ 0, so sagt man auch x ist nichtnegativ, ist x ≤ 0, dann heißt x nichtpositiv. Wieder fordern wir für die reellen Zahlen R kategorisch: R ist ein angeordneter Körper! Allerdings charakterisiert diese Forderung die reellen Zahlen immer noch nicht eindeutig. Auch die rationalen Zahlen Q bilden einen angeordneten Körper mit dem Positivbereich Q>0 = {x ∈ Q : x > 0}. Es folgt ein Satz, der eine Reihe von Regeln in einem angeordneten Körper zusammenfasst. Einige davon werden wir anschließend beweisen, andere sollten Sie sich selbst überlegen. Wieder ist es so, dass Sie alle diese Regeln vom Rechnen mit Ungleichungen von reellen Zahlen aus der Schule kennen sollten. 18 Satz 2.8. Sei (K, +, ·, P ) ein angeordneter Körper. Dann gelten die folgenden Eigenschaften. (i) Ungleichungen kann man addieren: x1 < y1 und x2 ≤ y2 impliziert x1 + x2 < y1 + y2 . (ii) Ungleichungen kann man mit positiven Zahlen multiplizieren: x < y und z > 0 impliziert x · z < y · z. (iii) Achtung: x < y und z < 0 impliziert x · z > y · z. (iv) Quadrate sind nichtnegativ: x 6= 0 impliziert x2 > 0. Insbesondere ist 1 > 0. (v) Reziproke haben gleiches Vorzeichen: x > 0 impliziert x−1 > 0. Beweis. Wir wollen nur beispielhaft (i) zeigen, die anderen Beweise sollten Sie sich selbst überlegen. Die Voraussetzung x1 < y1 bedeutet laut Definition y1 − x1 ∈ P . Die Voraussetzung x2 ≤ y2 bedeutet laut Definition y2 − x2 ∈ P oder y2 = x2 . Mit Axiom (O2) und der Assoziativität der Addition folgt dann (y1 + y2 ) − (x1 + x2 ) = (y1 − x1 ) + (y2 − x2 ) ∈ P. Daraus folgt nun wieder per Definition y1 + y2 > x1 + x2 . Eine wichtige Folgerung ist Korollar 2.9. Sei (K, +, ·) ein Körper. Lässt sich −1 als Summe von Quadraten schreiben, so existiert in K kein Positivbereich, K kann also nicht angeordnet werden. Zum Beweis dieses Satzes führen wir einen Widerspruchsbeweis. Hier geht man zum Beweis einer Implikation p ⇒ q davon aus, dass p ∧ ¬q gilt und zeigt, dass dies nicht sein kann. Dann muss also ¬(p ∧ ¬q) gelten, was logisch äquivalent zu p ⇒ q ist. Beweis. Nehmen wir also im Gegenteil zur Behauptung an, dass der Körper K angeordnet werden kann. Da nach (iv) in obigem Satz Quadrate nichtnegativ sind, sind mit (i) auch Summen von Quadraten nichtnegativ. Damit ist also −1 nichtnegativ und wegen −1 6= 0 folgt −1 > 0. Nun ist aber nach (iv) auch 1 > 0. Mit (i) erhalten wir dann aus −1 > 0 und 1 > 0 durch Addition 0 = (−1) + 1 > 0, und damit einen Widerspruch. Also ist unsere Annahme, dass K angeordnet werden kann, falsch und die Behauptung des Korollars bewiesen. Beispiel 2.10. Im Körper mit zwei Elementen aus Beispiel 2.5 gilt −1 = 1 = 12 . Dieser Körper kann also nicht angeordnet werden. Wir wollen nun mit Hilfe der Ordnung der reellen Zahlen noch die Betrags- und Signumfunktion und Intervalle einführen. Das kann man wieder in einem beliebigen angeordneten Körper machen, wir benutzen gleich K = R, den für uns relevanten Fall. Für x ∈ R setzen wir |x| := x −x für x ≥ 0 für x < 0 und nennen |x| den Betrag von x. Die Betragsfunktion | · | : R → R ist dann die Funktion x 7→ |x|. Der Graph der Funktion sieht folgendermaßen aus: 19 f (x) = |x| 3 y 2.5 2 1.5 1 0.5 x −3 −2 −1 1 2 3 Die Eigenschaften des Absolutbetrags fasst der nächste Satz zusammen: Satz 2.11. Seien x, y ∈ R. Dann gilt (i) x ≤ |x|. (ii) |xy| = |x| |y|. (iii) |x + y| ≤ |x| + |y|. (iv) |x| − |y| ≤ |x − y|. Die Eigenschaft (iii) ist die Dreiecksungleichung für reelle Zahlen. Beweis. Die Eigenschaft (i) folgt direkt aus der Definition. Die Eigenschaft (ii) zeigt man mit Hilfe einer Fallunterscheidung der vier Fälle x, y ≥ 0; x ≥ 0, y < 0; x < 0, y ≥ 0 und x, y < 0. Die Eigenschaft (iii) ergibt sich dann aus den beiden Ungleichungen x + y ≤ |x| + |y| und − (x + y) = (−x) + (−y) ≤ |x| + |y|, die beide aus (i) folgen. Um (iv) zu zeigen, benutzen wir die Dreiecksungleichung (iii), um die Ungleichung |x| = |x − y + y| ≤ |x − y| + |y| zu erhalten, die dann durch Subtraktion von |y| zur Ungleichung |x| − |y| ≤ |x − y| führt. Durch Vertauschen der Rollen von x und y erhält man auch −(|x| − |y|) = |y| − |x| ≤ |y − x| = |x − y|. Beide Ungleichungen zusammen liefern die Behauptung (iv). 20 Für x ∈ R setzen wir +1 0 sgn(x) := −1 für x > 0 für x = 0 für x < 0 und nennen sgn(x) das Vorzeichen oder Signum von x. Dann hat man für x, y ∈ R • x = sgn(x) |x| und • sgn(xy) = sgn(x) sgn(y). 1 y 0.5 x −3 −2 −1 1 2 3 −0.5 −1 Schließlich benötigen wir noch für a, b ∈ R mit a < b die Begriffe des abgeschlossenen Intervalls offenen Intervalls halboffenen Intervalls halboffenen Intervalls [a, b] (a, b) (a, b] [a, b) := := := := {x ∈ R {x ∈ R {x ∈ R {x ∈ R : : : : a ≤ x ≤ b} a < x < b} a < x ≤ b} a ≤ x < b}. Wir werden auch die naheliegenden Bezeichnungen [a, ∞), (a, ∞), (−∞, b] und (−∞, b] für unendliche Intervalle benutzen. 2.3 Die natürlichen Zahlen Sowohl die rationalen Zahlen Q als auch die reellen Zahlen R sind angeordnete Körper. Also sind die reellen Zahlen noch immer nicht eindeutig charakterisiert. Bevor wir mit der Forderung der Vollständigkeit die Axiomatik der reellen Zahlen abschließen, wollen wir zunächst in einem beliebigen angeordneten Körper die natürlichen Zahlen finden. Sie kennen die natürlichen Zahlen schon sehr gut aus der Schule. Wir wollen im Folgenden einsehen, dass man die Menge der natürlichen Zahlen tatsächlich in unserem axiomatisch charakterisierten Körper der reellen Zahlen wiederfinden kann - als kleinste induktive Menge. Das wird uns Gelegenheit geben, das Verfahren der vollständigen Induktion kennenzulernen. 21 Man könnte einfach versuchen, die natürlichen Zahlen gerade als die Menge der Zahlen 1, 2 := 1 + 1, 3 := 2 + 1, . . . zu definieren. Was den Mathematiker hieran stört sind die Pünktchen, die nicht klar ausdrücken, was gemeint ist. Dieses Problem wollen wir jetzt beheben und eine auch mathematisch befriedigende Definition der natürlichen Zahlen geben. Dazu benötigen wir den Begriff des Durchschnitts von Mengensystemen. Ist eine Grundmenge M gegeben und ist M eine Teilmenge der Potenzmenge P(M ) von M , dann nennen wir M ein System von Teilmengen von M . Der Durchschnitt dieses Mengensystems M ist dann die Teilmenge von Elementen von M , die zu jeder der Mengen im Mengensystem M gehören: \ M = {x ∈ M : x ∈ N für jedes N ∈ M}. Analog bildet man die Vereinigung [ M = {x ∈ M : x ∈ N für ein N ∈ M}. Beispiel 2.12. Sei M = {0, 17, 42} und sei M = {0}, {0, 17}, {0, 42} . Dann ist \ M = {0} ∩ {0, 17} ∩ {0, 42} = {0} und [ M = {0} ∪ {0, 17} ∪ {0, 42} = {0, 17, 42}. Beispiel 2.13. Sei M das System aller Teilmengen der reellen Zahlen, die die Zahlen 0, 17, 42 als Elemente enthalten. Dann ist \ \ M = {N ⊆ R : 0, 17, 42 ∈ N } = {0, 17, 42}. Vielleicht halten Sie sich an dieses letzte Beispiel für die nächsten zwei Definitionen. Dazu sei K ein beliebiger angeordneter Körper. Definition 2.14. Eine Teilmenge M ⊆ K heißt induktiv, falls gilt: (I1) 1 ∈ M (I2) Ist x ∈ M , so ist auch x + 1 ∈ M . Ein triviales Beispiel ist: M = K ist induktiv. Definition 2.15. Den Durchschnitt des Mengensystems M aller induktiven Mengen bezeichnen wir mit N und nennen ihn die Menge der natürlichen Zahlen (in K). Offensichtlich ist die Menge N der natürlichen Zahlen selbst induktiv. Die Menge N ist die kleinste induktive Menge. Dies zeigt der folgende Satz, der uns auch das Beweisprinzip der vollständigen Induktion liefert. Satz 2.16. Ist A eine induktive Teilmenge von N, so gilt A = N. Beweis. Der Beweis ist fast trivial. Da nach Voraussetzung A induktiv ist, gilt nach Definition von N die Inklusion N ⊆ A. Nun ist aber nach Voraussetzung auch A ⊆ N. Damit muss A = N sein. 22 Mit dem Prinzip der vollständigen Induktion kann man sauber definieren, ohne Fortsetzungspünktchen zu verwenden. Beispiel 2.17 (Fakultät). Wir setzen 1! := 1 und (n + 1)! := (n + 1) · n!. Damit ist n! (sprich n-Fakultät) für jede natürliche Zahl n ∈ N per Induktion definiert. Die Pünktchenschreibweise wäre n! = 1 · 2 · · · (n − 1) · n. Man setzt auch noch 0! := 1. Beispiel 2.18 (Summen- und Produktzeichen). Für jedes n ∈ N sei xn ∈ K. Dann definieren wir 1 X xk := x1 k=1 und n+1 X n X xk := ! xk + xn+1 . k=1 k=1 Die Pünktchenschreibweise wäre n X xk = x1 + · · · + xn . k=1 Analog definiert man Produkte durch n Y xk = x1 · · · xn . k=1 Ein Spezialfall sind die Potenzen n x = n Y x. k=1 Man setzt x0 = 1 für x 6= 0. Mit dem Prinzip der vollständigen Induktion kann man Eigenschaften E(n) für alle natürlichen Zahlen n beweisen, indem man • E(1) für n = 1 beweist (Induktionsanfang) und • aus der Induktionsvoraussetzung E(n) die Induktionsbehauptung E(n + 1) zeigt, also die Implikation E(n) ⇒ E(n+1) beweist. Diesen Schritt nennt man auch den Induktionsschritt. Das klassische erste Beispiel für einen Induktionsbeweis ist die Summenformel für die ersten n natürlichen Zahlen: Satz 2.19. Für jede natürliche Zahl n gilt n X k=1 k = 1 + 2 + ··· + n = (n + 1)n . 2 Beweis. • Induktionsanfang: P1 Wir müssen2·1die Behauptung für n = 1 nachprüfen. Diese ist offensichtlich richtig: k=1 k = 1 und 2 = 1 sind gleich. 23 • Induktionschritt: Wir schreiben zunächst die Induktionsvoraussetzung auf: n X k= k=1 (n + 1)n . 2 Der Induktionsschritt besteht dann darin, mit Hilfe dieser Voraussetzung die Induktionsbehauptung n+1 X (n + 2)(n + 1) k= 2 k=1 zu beweisen. Das macht man sich klar durch die Rechnung ! n+1 n X X (n + 1)n + 2(n + 1) (n + 2)(n + 1) (n + 1)n + (n + 1) = = . k= k + (n + 1) = 2 2 2 k=1 k=1 Wo haben wir die Induktionsvoraussetzung benutzt? Als zweites Beispiel wollen wir die Bernoulli-Ungleichung beweisen. Sie gilt in jedem angeordneten Körper K, insbesondere in den reellen Zahlen. Satz 2.20. Sei x ≥ −1 und n ∈ N. Dann gilt (1 + x)n ≥ 1 + nx. Beweis. Für n = 1 gilt offensichtlich (1 + x)1 = 1 + x = 1 + 1 · x ≥ 1 + 1 · x, womit der Induktionsanfang erledigt ist. Der Induktionsschritt besteht nun im Beweis der Induktionsbehauptung (1 + x)n+1 ≥ 1 + (n + 1) · x, wobei wir die Gültigkeit der Induktionsvoraussetzung (1 + x)n ≥ 1 + nx annehmen dürfen. Dieser Beweis geht dann so: (1 + x)n+1 = (1 + x)n (1 + x) ≥ (1 + nx)(1 + x) = 1 + (n + 1)x + nx2 ≥ 1 + (n + 1)x. Hier haben wir neben der Induktionsvoraussetzung noch x2 ≥ 0 benutzt. Auch x ≥ −1 haben wir benutzt, wo eigentlich? Wir geben schließlich noch einen Satz an, der die Eigenschaften der natürlichen Zahlen zusammenfasst. Diese Eigenschaften sind Ihnen aus der Schule wohlbekannt, bewiesen werden sie jetzt mit dem Prinzip der vollständigen Induktion. Satz 2.21. Sei (K, +, ·, P ) ein angeordneter Körper und N die Menge der natürlichen Zahlen (in K). Dann gelten die folgenden Eigenschaften. (i) Summen und Produkte natürlicher Zahlen sind natürliche Zahlen. (ii) Jede natürliche Zahl n ∈ N mit n 6= 1 hat einen Vorgänger m ∈ N mit m + 1 = n (iii) Sind n ∈ N und x ∈ K mit x > 0 derart, dass n + x ∈ N ist, so ist x ∈ N. (iv) Sind m, n ∈ N mit m > n, so ist m − n ∈ N und damit m ≥ n + 1. (v) Jede nichtleere Menge A ⊆ N enthält ein Minimum n0 ∈ A, d.h. n ≥ n0 für alle n ∈ A. 24 Beweis. Wir beweisen wieder nur beispielhaft die Eigenschaft (iii) und (iv). Für die anderen Eigenschaften verweisen wir auf Übung und Literatur. Also zeigen wir zunächst (iii) durch Induktion. Der Induktionsanfang ist die Behauptung: Ist x + 1 ∈ N und x > 0, so ist x ∈ N. Dies folgt aus (ii), was man also vorher zeigen sollte. Für den Induktionsschluss müssen wir aus (n + 1) + x ∈ N die Folgerung x ∈ N ableiten. Dazu können wir die Induktionsvoraussetzung verwenden, die liefert nämlich aus n+(1+x) ∈ N wegen 1 + x > 0 zunächst 1 + x ∈ N. Wenden wir darauf wieder den Induktionsanfang an, erhalten wir x ∈ N. Die Eigenschaft (iv) erhält man nun direkt aus der Eigenschaft (iii) durch setzen von x = m − n. Dann ist n ∈ N, x > 0 und n + x = m ∈ N und (iii) liefert die Folgerung x = m − n ∈ N. Damit ist x = m − n ≥ 1 und folglich m ≥ n + 1. Wir wollen nun noch einen kleinen Ausflug in die Kombinatorik unternehmen und Binomialkoeffizienten, ihre kombinatorische Bedeutung und den binomischen Satz kennenlernen. Zunächst interpretieren wir die Zahl n! kombinatorisch als die Anzahl der möglichen Anordnungen einer Menge aus n Elementen. Dazu überlegt man sich, dass man als erstes Element ein beliebiges der n Elemente wählen kann, man hat also n Möglichkeiten für die Auswahl des ersten Elementes. Für das zweite Element hat man nur noch n − 1 Elemente zur Auswahl usw. Eine kombinatorische Grundaufgabe ist auch die Bestimmung der Anzahl von k-elementigen Teilmengen einer n-elementigen Menge. Hier geht ganz man analog vor und erhält zunächst n(n − 1) · · · (n − k + 1) Möglichkeiten für die Auswahl unter Beachtung der Reihenfolge. Nun gibt es aber für jede Auswahl von k Elementen k! Reihenfolgen, für die gesuchte Anzahl erhält man also n n(n − 1) · · · (n − k + 1) n! := = . k k! k!(n − k)! Diese Zahlen, die wir also für k, n ∈ N0 mit 0 ≤ k ≤ n gefunden haben, nennt man Binomialkoeffizienten. An der rechten Darstellung erkennt man sofort die Symmetrie n n = . k n−k Außerdem hat man die Randterme n n = = 1. 0 n Der binomische Satz ist dann für Elemente x, y in einem Körper K und n ∈ N0 die Formel n X n k n−k (x + y) = x y . k n k=0 Diese ergibt sich durch Ausmultiplizieren der rechten Seite und Zusammenfassen gleicher Terme. Beim Ausmultiplizieren erhält man nämlich eine Summe aus allen Produkten z1 z2 · · · zn , wobei jedes zi entweder x oder y ist. Zusammenfassen aller Summanden, in denen genau k mal x (und damit n − k mal y) auftritt, ergibt nk gleiche Summanden der Form xk y n−k und beweist die Formel. Für n = 0, 1 erhalten wir Trivialitäten, für n = 2 haben wir die aus der Schule bekannte erste binomische Formel (x + y)2 = x2 + 2xy + y 2 . 25 Durch Einsetzen von x = y = 1 erhält man die Summenformel n X n k=0 k = 2n . Durch Einsetzen von x = −1, y = 1 erhält man die alternierende Summe n X k=0 (−1)k n = 0. k Die folgende Anordnung der Binomialkoeffizienten nennt man Pascalsches Dreieck: 0 1 0 1 1 1 1 0 1 2 2 2 1 2 1 0 1 2 3 3 3 3 1 3 3 1 0 1 2 3 4 4 4 4 4 1 4 6 4 4 3 2 1 0 1 Auf der rechten Seite entdeckt man die Rekursionsformel n+1 n n = + . k+1 k k+1 Zum Beweis dieser Formel berechnet man n n(n − 1) · · · (n − k + 1) n(n − 1) · · · (n − k) n + = + k! (k + 1)! k+1 k n(n − 1) · · · (n − k + 1) = (k + 1) + (n − k) (k + 1)! n(n − 1) · · · (n − k + 1) = n+1 (k + 1)! (n + 1)n(n − 1) · · · (n − k + 1) = (k + 1)! n+1 = . k+1 Wir schließen diesen Abschnitt mit der Anmerkung, dass wir nun, nachdem wir in jedem angeordneten Körper K die natürlichen Zahlen N ⊆ K identifiziert haben, auch die ganzen Zahlen Z := {m − n : m, n ∈ N} ⊆ K und die rationalen Zahlen Q := { m n : m ∈ Z, n ∈ N} ⊆ K haben. 2.4 Die Axiomatik der reellen Zahlen - Vollständigkeit Zur eindeutigen Beschreibung der reellen Zahlen R fehlt uns noch die Vollständigkeit. Dass die rationalen Zahlen noch nicht „vollständig genug“ sind, um z. B. Wurzeln aus beliebigen positiven Zahlen ziehen zu können, zeigt der folgende Satz. Satz 2.22. Es gibt keine rationale Zahl x mit x2 = 2. 26 Beweis. Wir nehmen das Gegenteil der Behauptung an, d.h. es gibt ein x ∈ Q mit x2 = 2. Wegen (−x)2 = x2 können wir zusätzlich noch x > 0 annehmen und erhalten natürliche Zahlen m, n mit x = m n . Außerdem können wir fordern, dass m und n nicht beide gerade sind, sonst kürzen wir durch den gemeinsamen Faktor 2. Dann liefert x2 = 2 die Gleichung m2 = 2n2 , also ist m2 gerade. Aus dem Satz 1.3 folgt dann, dass auch m gerade ist, sich also in der Form m = 2k mit k ∈ N schreiben läßt. Dann erhalten wir 2n2 = m2 = 4k 2 , also n2 = 2k 2 . Wieder folgern wir, dass n2 und damit n gerade ist. Also sind sowohl m als auch n gerade im Widerspruch zur Annahme. Eine reelle Zahl x mit x2 = 2 soll es aber geben, und dazu benötigen wir den Begriff der Vollständigkeit, den wir mit Hilfe des Begriffs Supremum oder kleinste obere Schranke definieren wollen. Wir gehen wieder von einem angeordneten Körper K aus und schreiben für nichtleeres A ⊆ K und x ∈ K kurz A ≤ x, falls für alle a ∈ A die Ungleichung a ≤ x gilt. Dann nennen wir x eine obere Schranke der Menge A. Falls es eine obere Schranke der Menge A gibt, nennen wir A nach oben beschränkt. Entsprechend schreiben wir x ≤ A, falls für alle a ∈ A die Ungleichung x ≤ a gilt. Dann nennen wir x eine untere Schranke der Menge A. Falls es eine untere Schranke der Menge A gibt, nennen wir A nach unten beschränkt. Die Menge A heißt beschränkt, falls sie sowohl nach unten als auch nach oben beschränkt ist. Ist A ≤ x und x ∈ A, so heißt x Maximum der Menge A und wird mit max A bezeichnet. Ist x ≤ A und x ∈ A, so heißt x Minimum der Menge A und wird mit min A bezeichnet. Falls das Maximum (Minimum) einer Menge A existiert, ist es eindeutig bestimmt. Beispiel 2.23. Die Menge N der natürlichen Zahlen in K ist nach unten beschränkt. Außerdem ist min N = 1. Beispiel 2.24. Seinen a, b ∈ R mit a < b. Die Intervalle [a, b], [a, b), (a, b], (a, b) sind beschränkt. Welche der Intervalle haben ein Maximum, welche der Intervalle ein Minimum? Obwohl das Intervall (0, 1) beschränkt ist, hat es weder Maximum noch Minimum. Es gibt aber eine kleinste obere Schranke, nämlich 1. Das motiviert die wichtigste Definition in diesem Abschnitt: Definition 2.25. Sei A ⊆ K nichtleer und x ∈ K. Dann heißt x kleinste obere Schranke oder Supremum von A (bezeichnet mit x = sup A), falls gilt: • A ≤ x, also x ist obere Schranke von A und • Aus A ≤ y folgt x ≤ y. Entsprechend heißt x größte untere Schranke oder Infimum von A (bezeichnet mit x = inf A), falls gilt: • x ≤ A, also x ist untere Schranke von A und • Aus y ≤ A folgt y ≤ x. Infimum und Supremum sind eindeutig bestimmt. Sind z. B. x1 , x2 Suprema von A, so folgt aus der zweiten definierenden Eigenschaft für x1 die Ungleichung x1 ≤ x2 . Analog gilt aber auch x2 ≤ x1 , also x1 = x2 . 27 Beispiel 2.26. Seien a, b ∈ R mit a < b. Dann ist sup[a, b] = sup[a, b) = sup(a, b] = sup(a, b) = b und inf[a, b] = inf[a, b) = inf(a, b] = inf(a, b) = a. Beispiel 2.27. Sei A ⊆ K nichtleer und sei −A := {−x : x ∈ A}. Dann ist A nach oben beschränkt genau dann, wenn −A nach unten beschränkt ist. Also hat A ein Supremum genau dann, wenn −A ein Infimum hat und in diesem Fall gilt inf(−A) = − sup A. Supremum und Infimum kann man auch folgendermaßen charakterisieren, was für die Berechnung in gewissen Fällen vorteilhaft ist. Sei wieder A nach oben beschränkt. Dann ist x = sup A genau dann, wenn gilt • A ≤ x, also x ist obere Schranke von A und • Für jedes ε > 0 gibt es ein a ∈ A mit a > x − ε. Analog ist für A nach unten beschränkt x = inf A genau dann, wenn gilt • x ≤ A, also x ist untere Schranke von A und • Für jedes ε > 0 gibt es ein a ∈ A mit a < x + ε. Definition 2.28. Ein angeordneter Körper K heißt vollständig, falls jede nichtleere nach oben beschränkte Teilmenge von K ein Supremum in K hat. Ist K vollständig, dann hat auch jede nichtleere nach unten beschränkte Teilmenge von K ein Infimum in K. Man hätte alternativ also auch die Existenz von Infima fordern können. Wieder fordern wir für die reellen Zahlen R kategorisch: R ist ein vollständiger angeordneter Körper! Damit ist der Zahlenbereich R (bis auf Isomorphie = Strukturgleichheit) eindeutig bestimmt, d.h. hat man zwei Strukturen R und R mit obigen Eigenschaften, so gibt es eine bijektive Abbildung f : R −→ R mit den folgenden Eigenschaften: • f (a + b) = f (a)+f (b) und f (a · b) = f (a)·f (b) • f (0) = 0 und f (1) = 1 • f (−a) = −f (a) und f (a−1 ) = f (a)−1 • f (R>0 ) = R>0 • f (sup A) = supf (A) Den Beweis dieser Eindeutigkeitsaussage können wir hier nicht führen. Wir begnügen uns damit, ab jetzt das Axiomensystem für R als Grundlage für unsere weitere Arbeit zu nutzen. Wir wollen nun die Vollständigkeit der reellen Zahlen ausnutzen, um uns zwei Tatsachen klarzumachen. Das ist erstens die Unbeschränktheit der natürlichen Zahlen, die man auch archimedische 28 Eigenschaft von R nennt, und zweitens die Existenz von Wurzeln positiver Zahlen, die man in Q im allgemeinen nicht hat. Die archimedische Eigenschaft in verschiedenen Varianten enthält der folgende Satz. Die archimedische Eigenschaft im engeren Sinne ist die Eigenschaft (i). Die Eigenschaft (iv) besagt, dass die rationalen Zahlen überall in den reellen Zahlen dicht liegen. Satz 2.29. (i) N ist eine unbeschränkte Teilmenge von R, d.h. zu jedem x ∈ R gibt es ein n ∈ N mit x ≤ n. (ii) Zu jedem ε > 0 gibt es ein n ∈ N mit 1 n ≤ ε. (iii) Zu ε > 0 und M ∈ R gibt es ein n ∈ N mit nε ≥ M . (vi) Zu x, y ∈ R mit x < y gibt es eine rationale Zahl m n ∈ Q mit x ≤ m n ≤ y. Beweis. Wir starten mit dem Beweis von (i). Nehmen wir im Gegenteil zur Behauptung an, dass N beschränkt ist, also die kleinste obere Schranke x = sup N existiert. Hier nutzen wir also schon die Vollständigkeit von R aus. Da x die kleinste obere Schranke von N ist, ist x − 1 keine obere Schranke von N, es gibt also n ∈ N mit x − 1 < n. Dies impliziert aber durch Addition von 1 auch x < n + 1. Nun ist aber n + 1 ∈ N wegen n ∈ N, also ist x doch keine obere Schranke von N im Widerspruch zur Annahme. Nun ist (iii) leicht einzusehen, wir wählen ein n ∈ N mit n > Spezialfall von (iii) mit M = 1. M ε . Die Eigenschaft (ii) ist der Für den Beweis von (iv) genügt es, den Fall x, y > 0 zu betrachten (warum?). Dann suchen wir also m, n ∈ N mit nx ≤ m ≤ ny. Dazu wählen wir zunächst mit der Eigenschaft (i) ein n ∈ N mit n(y − x) ≥ 1. Nun gibt es wieder nach (i) natürliche Zahlen m mit m ≥ nx. Nach Eigenschaft (v) in Satz 2.21 gibt es eine kleinste Zahl m dieser Art. Dann ist also m ≥ nx und m − 1 < nx. Die letzte Bedingung impliziert nun m < nx + 1 ≤ ny, also haben wir nx ≤ m ≤ ny wie gesucht. Und nun kommen wir zur Existenz von Wurzeln. Satz 2.30. Sei x ∈ R mit x ≥ 0 und sei n ∈ N. Dann existiert genau eine reelle Zahl y ≥ 0 √ mit y n = x. Diese Zahl y heißt n-te Wurzel von x und wird mit n x oder x1/n bezeichnet. Beweis. Für x = 0 ist y = 0 die eindeutig bestimmte n-te Wurzel. Sei also ab jetzt x > 0. Die Eindeutigkeit ist auch klar, da aus 0 < y1 < y2 die Ungleichung y1n < y2n folgt. Wir definieren nun die Menge A := {z ∈ R : z > 0 und z n ≤ x}. Die Menge A ist nichtleer, für x ≤ 1 ist x ∈ A und für x > 1 ist 1 ∈ A. Die Menge A ist nach oben beschränkt durch 1 + x, da für z > 1 + x die Ungleichung z n > (1 + x)n ≥ xn gilt. Die Vollständigkeit von R liefert uns nun die Existenz von y = sup A. Wir zeigen nun y n = x, indem wir die Ungleichungen y n < x und y n > x beide zum Widerspruch führen. In beiden Fällen benutzen wir die oft nützliche Identität an − bn = (a − b) an−1 + an−2 b + an−3 b2 + · · · + bn−1 . 29 Nehmen wir also zunächst an, dass y n < x ist. Wir werden jetzt ein z ∈ A konstruieren mit z > y im Widerspruch dazu, dass y obere Schranke von A ist. Dazu setzen wir z = y + ε für ein 0 < ε < 1 und folgern aus der obigen Identität z n − y n = ε z n−1 + z n−2 y + z n−3 y 2 + · · · + y n−1 ≤ εn(y + 1)n−1 . Wählen wir nun ε > 0 so klein, dass die rechte Seite kleiner als x − y n > 0 ist, so erhalten wir wie gewünscht z n < x. Die Existenz so eines ε > 0 sichert uns die archimedische Eigenschaft von R! Der Fall y n > x wird analog behandelt. Wir werden jetzt ein t < y konstruieren mit tn > x. Dann folgt für alle z ∈ A die Ungleichung z < t im Widerspruch dazu, dass y die kleinste obere Schranke von A sein sollte. Jetzt benutzen wir die obige Identität, um für t = y − ε die Abschätzung y n − tn = ε y n−1 + y n−2 t + y n−3 t2 + · · · + tn−1 ≤ εny n−1 einzusehen. Nun wählen wir wieder ε > 0 klein genug, so dass die rechte Seite kleiner als y n −x > 0 ist, und erhalten wie gewünscht tn > x. Es gibt verschiedene äquivalente Möglichkeiten, die Vollständigkeit der reellen Zahlen axiomatisch zu fassen. Eine dieser Möglichkeiten sind Intervallschachtelungen. Eine Folge (In ) von abgeschlossenen Intervallen heißt Intervallschachtelung, falls I1 ⊃ I2 ⊃ . . . gilt. Wir wollen diese nützliche äquivalente Formulierung der Vollständigkeit aus unserem Axiom der Existenz von kleinsten oberen Schranken ableiten. Satz 2.31. Ist (In ) eine Intervallschachtelung, so ist der Durchschnitt T∞ n=1 In nichtleer. Beweis. Sei In = [an , bn ]. Die Intervallschachtelungsbedingung I1 ⊃ I2 ⊃ . . . bedeutet a1 ≤ a2 ≤ a3 ≤ · · · ≤ b3 ≤ b2 ≤ b1 . Die Vollständigkeit von R impliziert dann die Existenz von a = sup{a1 , a2 , a3 , . . . } und b = inf{b1 , b2 , b3 , . . . }, da die Menge {a1 , a2 , a3 , . . . } (z.B. durch b1 ) nach oben beschränkt und die Menge {b1 , b2 , b3 , . . . } (z.B. durch a1 ) nach unten beschränkt ist. Es folgt a1 ≤ a2 ≤ a3 ≤ · · · ≤ a ≤ b ≤ · · · ≤ b3 ≤ b2 ≤ b1 . Damit liegen a und b in jedem der Intervalle In , also auch in ihrem Durchschnitt. 2.5 Die komplexen Zahlen Im Bereich der reellen Zahlen kann man, wie wir gesehen haben, keine Lösung der Gleichung z 2 + 1 = 0 finden. Es ist aber wünschenswert, auch Nullstellen beliebiger Polynome p(z) = z n + an−1 z n−1 + · · · + a1 z + a0 mit reellen Koeffizienten a0 , a1 , . . . , an−1 zu haben. Die Existenz solcher Nullstellen liefert der Fundamentalsatz der Algebra, aber nur nach der Erweiterung des Zahlkörpers R der reellen Zahlen zum Körper C der komplexen Zahlen. Diese Erweiterung wollen wir jetzt durchführen. 30 Dazu schreiben wir i für eine Lösung der Gleichung z 2 + 1 = 0, also ist i2 = −1. Die Zahl i nennt man die imaginäre Einheit. Wir wollen nun den kleinsten Körper C konstruieren, der sowohl die reellen Zahlen als auch die Zahl i ∈ / R enthält. Da Addition und Multiplikation nicht aus dem Körper C hinausführen dürfen, sind dann auch alle Zahlen der Form z = x + iy mit x, y ∈ R in unserem Körper C. Da wir den kleinstmöglichen Zahlbereich suchen, der sowohl R als auch i enthält, wollen wir einsehen, dass diese Konstruktion (mit geeigneten Operationen) tatsächlich ein Körper ist. Wir führen gleich noch die Bezeichnungen Realteil Re z := x und Imaginärteil Im z := y der komplexen Zahl z = x + iy ein. Die Darstellung z = x + iy nennt man kanonische Darstellung oder algebraische Darstellung. Seien nun z = x + iy und w = u + iv zwei komplexe Zahlen in der kanonischen Darstellung. Dann erhält man die Summe z + w = (x + u) + i(y + v), also addiert man komplexe Zahlen, indem man die Realteile und die Imaginärteile addiert. Wie erhält man nun das Produkt? Dazu bemühen wir die Gleichung i2 = −1 und erhalten zw = (x + iy)(u + iv) = xu + ixv + iyu + i2 yv = (xu − yv) + i(xv + yu), kurz zw = (xu − yv) + i(xv + yu). Formal kann man also die komplexen Zahlen identifizieren mit den Paaren (x, y) reeller Zahlen, also mit dem R2 , wobei die Operationen dann gegeben sind durch (x, y) + (u, v) = (x + u, y + v) und (x, y) · (u, v) = (xu − yv, xv + yu). Damit kann man sich die komplexen Zahlen graphisch als Gaußsche Zahlenebene vorstellen. Die Addition entspricht dann der Addition von Vektoren. Gaußsche Zahlenebene Im z iy z = x + iy x Re z 31 Satz 2.32. Die komplexen Zahlen mit den definierten Operationen bilden einen Körper. Beweis. Kommutativität, Assoziativität und Distributivität rechnet man einfach nach. Die 0 in C ist natürlich die Zahl 0 = 0 + i · 0 = (0, 0) und die 1 in C ist die 1 = 1 + i · 0 = (1, 0). Weiter ist −z = −(x + iy) = −x − iy = (−x, −y) und z −1 = y x 1 −i 2 . = (x + iy)−1 = 2 2 x + iy x +y x + y2 Prüfen Sie das nach! Die reellen Zahlen R findet man als Teilkörper der komplexen Zahlen, für die der Imaginärteil verschwindet. In der Darstellung als Zahlenpaare sind das die Paare (x, 0), in der Gaußschen Zahlenebene ist das die x-Achse, die man deshalb auch reelle Achse nennt. Die komplexen Zahlen auf der y-Achse der Gaußschen Zahlenebene - der imaginären Achse, also die Zahlen iy mit y ∈ R, nennt man rein imaginär. Die zu z = x + iy konjugiert komplexe Zahl ist die Zahl z = x − iy. Die komplexe Konjugation spiegelt also die Gaußsche Zahlenebene an der reellen Achse. Es gelten die folgenden Rechenregeln: • z + w = z + w und zw = z · w • z + z = 2 Re z und z − z = 2 i Im z • z = z ⇐⇒ z ∈ R • zz = x2 + y 2 , also ist zz ∈ R>0 für z 6= 0. Die nichtnegative reelle Zahl |z| = √ zz = p x2 + y 2 nennt man den Betrag der komplexen Zahl z = x + iy. Für z ∈ R stimmt der Betrag mit dem vorher definierten Betrag für reelle Zahlen überein. In der Gaußschen Zahlenebene ist |z| der Abstand von z zum Ursprung 0. Man erhält für z, w ∈ C die Regeln: • |z| ≥ 0 • |z| = 0 ⇐⇒ z = 0 • |Re z| ≤ |z| und |Im z| ≤ |z| • |zw| = |z||w| • |z + w| ≤ |z| + |w| (Dreiecksungleichung) • |z| − |w| ≤ |z − w| Die ersten drei Eigenschaften sind hierbei offensichtlich. Die vierte erhält man aus |zw|2 = (zw) · zw = zz · ww = |z|2 |w|2 . Die Dreiecksungleichung folgt aus |z + w|2 = (z + w)(z + w) = zz + (zw + zw) + ww = |z|2 + 2 Re (zw) + |w|2 2 ≤ |z|2 + 2|z||w| + |w|2 = |z| + |w| . 32 Die letzte Ungleichung folgt wie im reellen Fall aus der Dreiecksungleichung (tatsächlich?!). Die Dreiecksungleichung kann man äquivalent formulieren als |z1 − z3 | ≤ |z1 − z2 | + |z2 − z3 | für z1 , z2 , z3 ∈ C indem man z = z1 − z2 und w = z2 − z3 setzt. In der Gaußschen Zahlenebene ist |z − w| der Abstand von z und w. Dies motiviert den Namen Dreiecksungleichung. Dreiecksungleichung Im z z2 |z1 − z2 | z1 |z2 − z3 | |z1 − z3 | z3 Re z Da wir in C die Zahl −1 als Quadrat darstellen können, kann man den Körper C nicht anordnen. Es gibt also keine Möglichkeit, die Ordnung der reellen Zahlen auf die komplexen Zahlen auszuweiten. Deshalb vereinbaren wir, dass Schreibweisen wie a ≥ b, a > b, a ≤ b oder a < b immer implizit die Forderung a, b ∈ R enthalten! Wir stellen noch eine Tabelle zusammen über die anschauliche Deutung des Rechnens mit komplexen Zahlen in der Gaußschen Zahlenebene. C z = x + iy Re z Im z reelle Zahlen rein imaginäre Zahlen −z z |z| |z1 − z2 | z1 + z 2 Dreiecksungleichung Gaußsche Zahlenebene Punkt mit den Koordinaten (x, y) x-Koordinate y-Koordinate Punkte auf der x-Achse Punkte auf der y-Achse z am Ursprung gespiegelt z an der x-Achse gespiegelt Abstand von z zum Ursprung Abstand von z1 und z2 „Vektoraddition“ Dreiecksungleichung Um das Rechnen mit komplexen Zahlen hier bereits vollständig abzuhandeln, setzen wir ab jetzt die Kenntnis der trigonometrischen Funktionen sin und cos aus der Schule voraus. In der 33 Vorlesung werden wir diese erst später behandeln. Sei nun z eine komplexe Zahl mit r = |z|. Dann erhält man aus der Darstellug von z in der Gaußschen Zahlenebene die Darstellung von z in Polarkoordinaten z = r(cos ϕ + i sin ϕ). Hierbei ist ϕ = arg z ∈ R das Argument von z. Die 2π-Periodizität der trigonometrischen Funktionen bewirkt, dass (für z 6= 0) ϕ nur bis auf additive Vielfache von 2π eindeutig bestimmt ist. Die Polarkoordinatendarstellung nennt man auch trigonometrische Darstellung. Diese trigonometrische Darstellung ist gut geeignet, um komplexe Zahlen multiplikativ zu verknüpfen. Dazu benötigen wir die Additionstheoreme cos(ϕ + ψ) = cos ϕ cos ψ − sin ϕ sin ψ sin(ϕ + ψ) = sin ϕ cos ψ + cos ϕ sin ψ für die wir an dieser Stelle auf Ihre Kenntnisse aus der Schule oder das Tafelwerk verweisen. Auch diese werden wir in der Vorlesung erst später beweisen. Hat man nun zwei komplexe Zahlen z = r(cos ϕ + i sin ϕ) w = s(cos ψ + i sin ψ) und in trigonometrischer Darstellung, so ergibt sich für das Produkt zw = rs(cos ϕ + i sin ϕ)(cos ψ + i sin ψ) = rs (cos ϕ cos ψ − sin ϕ sin ψ) + i(sin ϕ cos ψ + cos ϕ sin ψ) . Die Additionstheoreme liefern dann die Multiplikationsformel zw = rs cos(ϕ + ψ) + i sin(ϕ + ψ) . Beim Multiplizieren zweier komplexer Zahlen multiplizieren sich die Beträge (das wussten wir schon) und addieren sich die Argumente. In der Gaußschen Zahlenebene entspricht die Multiplikation also einer Drehstreckung. Eine bequeme Darstellung für eine komplexe Zahl ist die Eulersche Darstellung z = r(cos ϕ + i sin ϕ) =: reiϕ . An dieser Stelle soll das für uns nichts anderes als eine sinnvolle Kurzschreibweise für die trigonometrische Darstellung sein. Die Exponentialfunktion für komplexe Argumente werden wir dann später in der Vorlesung ausführlich behandeln. Mit den Werten der trigonometrischen Funktionen an den Stellen π2 , π, 3π 2 , 2π erhält man πi e2 =i eπi = −1 e 3πi 2 = −i e2πi = 1. Die Multiplikationsformel kann man dann mit z = reiϕ und w = seiψ schreiben als zw = reiϕ seiψ = rsei(ϕ+ψ) . Die bekannte Regel für das Multiplizieren von Potenzen wird also respektiert. Aus der Multiplikationsformel erhält man per Induktion die Formel von Moivre für Potenzen z n von z = r(cos ϕ + i sin ϕ) = reiϕ : z n = rn (cos nϕ + i sin nϕ) = rn einϕ . 34 Als Beispiel berechnen wir (1 + i)42 . Dazu bringen wir zunächst 1 + i in die trigonometrische Form √ 1 + i = 2 cos π4 + i sin π4 und erhalten anschließend mit der Formel von Moivre √ 42 42π (1 + i)42 = 2 cos 42π = 221 cos π2 + i sin π2 = 221 i. 4 + i sin 4 Vergleichen Sie dies mit einer Berechnung über die binomische Formel! Mit der Eulerschen Darstellung kann man dies noch kompakter schreiben als √ πi 42 42πi πi 2e 4 (1 + i)42 = = 221 e 4 = 221 e10πi e 2 = 221 i. Überlegen Sie sich an dieser Stelle als Übung, wie man aus der Standardform z = x + iy der komplexen Zahl die trigonometrische Form berechnen kann! 2.6 Endlichkeit, Abzählbarkeit und Überabzählbarkeit Im letzten Abschnitt dieses Kapitels wollen wir uns damit beschäftigen, wie man die Größe von (insbesondere unendlichen) Mengen miteinander vergleichen kann. Dabei werden wir einsehen, dass es (in gewissem Sinne) genauso viele rationale Zahlen wie natürliche Zahlen, aber mehr reelle Zahlen als rationale Zahlen gibt. Definition 2.33. Zwei Mengen A und B heißen gleichmächtig, falls es eine Bijektion von A auf B gibt. In diesem Fall schreiben wir A ∼ B. Eine Menge A mit n ∈ N Elementen ist gleichmächtig zur Menge {1, 2, . . . , n}. Solche Mengen nennen wir natürlich endliche Mengen und die Zahl n ist die Kardinalität der Menge A, die man oft mit #A oder |A| bezeichnet. Auch die leere Menge ist eine endliche Menge mit der Kardinalität 0. Die Gleichmächtigkeit ist eine Relation zwischen Mengen. Sie ist reflexiv, d.h. für jede Menge A gilt A ∼ A. Sie ist symmetrisch, d.h. für je zwei Mengen A und B folgt aus A ∼ B auch B ∼ A. Sie ist transitiv, d.h. für drei Mengen A, B, C folgt aus A ∼ B und B ∼ C auch A ∼ C. Eine reflexive, symmetrische und transitive Relation heißt Äquivalenzrelation. Die Gleichmächtigkeit ist also eine Äquivalenzrelation. Definition 2.34. Eine Menge heißt abzählbar, falls sie gleichmächtig zur Menge N der natürlichen Zahlen ist. Eine Menge, die weder endlich noch abzählbar ist, heißt überabzählbar. Abzählbare Mengen sind also (im Sinne gleicher Mächtigkeit) genauso groß wie die Menge der natürlichen Zahlen, überabzählbare Mengen sind größer. Eine Menge A ist also abzählbar, wenn es eine Bijektion f : N → A gibt, also jedem Element aus A genau eine Nummer n ∈ N zugeordnet wird. Man kann A also schreiben als A = {a1 , a2 , a3 , . . . }. Beispiele für abzählbare Mengen sind • die geraden Zahlen {2, 4, 6, 8, . . .} 35 • die ganzen Zahlen Z = {0, +1, −1, +2, −2, +3, −3, . . . } • die rationalen Zahlen Q (Bild!!!) Überlegen Sie sich (zumindest für die beiden ersten Beispiele) eine explizite Bijektion f ! Auch Vereinigungen endlich oder abzählbar vieler abzählbarer Mengen sich wieder abzählbar. Eine schöne Veranschaulichung dazu ist Hilberts Hotel. Kommen wir nun zur Mächtigkeit der reellen Zahlen. Satz 2.35. Die Menge R der reellen Zahlen ist überabzählbar. Beweis. Wir wollen für diesen Satz zwei Beweise geben. Beide sind Widerspruchsbeweise, wir nehmen also an, dass die reellen Zahlen abzählbar sind, wir also alle reellen Zahlen in eine Liste {x1 , x2 , x3 , . . . } schreiben können. Wir konstruieren dann im Widerspruch zur Annahme eine reelle Zahl x, die nicht in dieser Liste auftaucht. Das erste (und vielleicht anschaulichere) Argument benutzt die Dezimaldarstellung der reellen Zahlen. Das Argument heißt Cantorsches Diagonalargument. Die Zahl x hat die Dezimaldarstellung 0.a1 a2 a3 . . . , wobei wir die Ziffer an = 0 wählen, falls die n-te Ziffer von xn verschieden von 0 ist. Ist die n-te Ziffer von xn gleich 0, so wählen wir an = 1. Dann ist x eine reelle Zahl, die sich von xn in der n-ten Dezimalstelle unterscheidet. Folglich ist x 6= xn für alle n ∈ N, die Zahl x taucht also tatsächlich nicht in der Liste auf und der Beweis ist erbracht. Da wir die Dezimaldarstellung bei unserem axiomatischen Zugang zu den reellen Zahlen noch nicht zur Verfügung haben (das werden wir im Kapitel über Reihen nachholen), geben wir noch eine zweite Konstruktion für x an, die den Satz 2.31 benutzt. Die Intervallschachtelung konstruieren wir induktiv. Wir beginnen mit dem Intervall I1 = [x1 + 1, x1 + 2]. Dann ist sicher x1 ∈ / I1 . Haben wir das Intervall In−1 schon konstruiert, dann zerlegen wir es in drei abgeschlossene Teilintervalle und wählen als In eines der Teilintervalle, das xn nicht enthält. Ein solches Teilintervall gibt es sicher, da xn höchstens in zwei der Teilintervalle liegen kann. Also ist xn ∈ / In . Nach Konstruktion ist I1 ⊃ I2 ⊃ . . . eine Intervallschachtelung. Nach Satz 2.31 gibt es ein x ∈ R mit x ∈ In für alle n ∈ N. Damit muss aber x verschieden von allen xn sein, es taucht also nicht in der Liste auf und der Beweis ist wieder beendet. 36 3 Folgen In diesem Kapitel beginnen wir die Untersuchung von Grenzprozessen. Sie gehören zu den wichtigsten Prinzipien der Mathematik und bilden das Fundament der Analysis. Wir untersuchen hier zunächst den Begriff der Konvergenz einer Zahlenfolge. Als motivierendes Beispiel betrachten wir die Flächenberechnung des Kreises, wie sie Archimedes mit Hilfe der Exhaustionsmethode (d.h. Ausschöpfungsmethode) durchgeführt hat. Dazu beschrieb er in einen Kreis vom Radius 1 regelmäßige n-Ecke ein. Für den Flächeninhalt An dieser n-Ecke kann man elementargeometrisch eine Rekursionsformel herleiten, mit der man einfach A2n aus An berechnen kann. Archimedes startete mit dem regelmäßigen Sechseck: Die Zahlenfolge A6 = 2.5981, A12 = 3.0000, A24 = 3.1058, A48 = 3.1326, A96 = 3.1394, A192 = 3.1410 . . . konvergiert recht schnell gegen den Flächeninhalt π des Kreises. Auf diese Weise fand Archimedes die guten Schranken 3+ 3.1 10 1 <π <3+ . 71 7 Der Folgenbegriff und Konvergenz Definition 3.1. Sei X eine Menge. Eine Folge in X ist eine Funktion a : N → X. Mit der Bezeichnung an := a(n) schreibt man die Folge dann als (an )∞ n=1 oder (an )n∈N oder (an ) oder (a1 , a2 , . . . ). Wir werden in diesem Kapitel Zahlenfolgen betrachten, also Folgen in X = R und in X = C. Diese nennt man reelle Folgen bzw. komplexe Folgen. Jede reelle Folge ist natürlich auch eine komplexe Folge. Beispiel 3.2. Die Folge (1, 4, 9, 16, . . . ) = (n2 )n∈N ist die Folge der Quadratzahlen. Beispiel 3.3. Für jedes z ∈ C ist (z, z 2 , z 3 , . . . ) = (z n )n∈N die Folge der Potenzen von z. Veranschaulichen Sie sich diese Folge für z = 21 , 2i , i, 2i in der Gaußschen Zahlenebene! Beispiel 3.4. Sei fn für n ∈ N die Funktion fn : R → R, x 7→ xn . Dann ist (fn )n∈N eine Folge von Funktionen. Auch solche Folgen werden wir später betrachten. Komplexe Folgen kann man sich als das Durchlaufen der Punkte a1 , a2 , . . . in der Gaußschen Zahlenebene vorstellen. Reelle Folgen kann man sich auch durch ihren (diskreten) Graph veranschaulichen. 37 Die Folge (an ) = 1 + 1 n 2 1.75 1.5 1.25 1 n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Die Folge (an ) = 1 + (−1)n n 2 1.5 1 0.5 n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Der Konvergenzbegriff fasst die Eigenschaft gewisser Zahlenfolgen (an ), für wachsendes n beliebig nahe an einen Grenzwert a ∈ C zu streben. Die Nähe fassen wir dabei durch den Abstand |an −a|, beliebig nahe heißt kleiner als jedes vorgegebene ε > 0 und für wachsendes n meint für genügend großes n. Damit kommen wir zur wichtigen Definition der Konvergenz. Definition 3.5. Eine komplexe Folge (an ) heißt konvergent, falls es ein a ∈ C gibt mit folgender Eigenschaft: Zu jedem ε > 0 existiert ein n0 ∈ N, so dass |an − a| < ε ist für alle n ∈ N mit n ≥ n0 . In diesem Fall heißt a Grenzwert oder Limes der Folge (an ) und man schreibt a = limn→∞ an oder an → a für n → ∞ oder auch kurz a = lim an . Ist lim an = 0, so heißt die Folge (an ) Nullfolge. Eine Folge, die nicht konvergent ist, heißt divergent. 38 Formalisiert lautet die Konvergenzeigenschaft an → a also: ∀ε > 0 ∃ n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ |an − a| < ε. Hierbei hängt das n0 von ε ab, weshalb man manchmal der Deutlichkeit halber n0 (ε) schreibt. Wir wollen diesen wichtigen Begriff noch weiter erläutern. Dazu geben wir zunächst eine geometrische Deutung der Konvergenz einer Folge (an ) gegen a ∈ C in der Gaußschen Zahlenebene. Wir betrachten für gegebenes ε > 0 die offene Kreisscheibe Uε (a) = {z ∈ C : |z − a| < ε} mit Mittelpunkt a und Radius ε. Diese Kreisscheibe heißt ε-Umgebung von a. Die Konvergenzeigenschaft bedeutet dann, dass in jeder solchen Kreisscheibe bis auf endlich viele Ausnahmen alle Folgenglieder an liegen. Für bis auf endlich viele Ausnahmen alle n sagt man auch fast alle n ∈ N oder für genügend großes n ∈ N. Man kann die Konvergenzbedingung also auch so formulieren: In jeder ε-Umgebung von a liegen fast alle Folgenglieder an . Übrigens nennt man jede Obermenge U ⊇ Uε (a) eine Umgebung von a. Dann kann man auch formulieren: a = lim an ⇐⇒ Jede Umgebung von a enthält fast alle an . Offensichtlich gilt an → a ⇐⇒ (an − a) ist Nullfolge. Beispiel 3.6. Die Folge n1 n∈N ist eine Nullfolge. Dies ist eine Umformulierung der archimedischen Eigenschaft: Zu jedem ε > 0 gibt es ein n0 ∈ N mit n10 < ε. Damit gilt auch für alle n ≥ n0 die Ungleichung 0 < n1 < ε. Wir wollen uns zunächst überlegen, dass der Grenzwert einer konvergenten Folge eindeutig bestimmt ist. Dies ist eine Konsequenz der Dreiecksungleichung. Wir führen einen Widerspruchsbeweis, nehmen also an → a und an → b mit a 6= b an. Dann definieren wir ε > 0 durch 2ε = |a − b| und wählen n1 , n2 ∈ N mit |an − a| < ε für n ≥ n1 |an − b| < ε für n ≥ n2 . Wählen wir nun ein beliebiges n ≥ max{n1 , n2 }, so erhalten wir den Widerspruch 2ε = |a − b| = |(a − an ) + (an − b)| ≤ |a − an | + |an − b| < ε + ε = 2ε. Am folgenden Beispiel wollen wir uns überlegen, wie man einen Konvergenzbeweis findet und wie man ihn anschließend kurz aufschreibt. Beispiel 3.7. Die Folge √1n n∈N ist eine Nullfolge. Wir müssen zu vorgegebenem ε > 0 ein n0 finden, so dass die Ungleichung 1 √ ≤ ε für n ≥ n0 n 39 gilt. Diese Ungleichung ist aber äquivalent zu 1 ≤ ε2 für n ≥ n0 . n Ein n0 , dass diese Ungleichung erfüllt, können wir wieder mit der archimedischen Eigenschaft finden. Damit gilt die Ungleichung dann auch für alle n ≥ n0 . Nun dazu, wie man diesen Beweis kurz und elegant aufschreibt. Beweis. Sei ε > 0 gegeben. Die archimedische Eigenschaft liefert ein n0 ∈ N mit folgt √1n ≤ √1n0 < ε für n ≥ n0 . 1 n0 < ε2 . Dann Wir schließen einige Bemerkungen dazu an, die das Beweisen von Konvergenzaussagen für Folgen vereinfachen können. Bemerkung. Sei (an ) eine komplexe Folge und a ∈ C. (i) Falls man zeigen kann: Es gibt ein K > 0 mit der Eigenschaft: ∀ε > 0 ∃ n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ |an − a| < Kε, dann gilt an → a. (ii) Ist (bn ) eine Folge mit bn = an für genügend großes n, so gilt an → a ⇐⇒ bn → a. Das Konvergenzverhalten einer Folge hängt also nicht ab von endlich vielen Anfangsgliedern der Folge. (iii) Ist (an ) eine Nullfolge und (bn ) eine Folge mit |bn | ≤ K|an | für ein K > 0 und fast alle n, so ist auch (bn ) eine Nullfolge. Definition 3.8. Eine Teilmenge A ⊂ C heißt beschränkt, wenn es ein R > 0 gibt, so dass |a| ≤ R für alle a ∈ A gilt. Eine Folge (an ) heißt beschränkt, wenn die Menge A = {a1 , a2 , . . . } der Folgenglieder beschränkt ist. Satz 3.9. Konvergente Folgen sind beschränkt. Beweis. Sei (an ) eine konvergente Folge mit Grenzwert a. Wenden wir die Konvergenzdefinition für ε = 1 an, so finden wir ein n0 mit n ≥ n0 ⇒ |an − a| < 1 ⇒ |an | < |a| + 1 wobei die letzte Implikation aus der Dreiecksungleichung folgt. Setzen wir M = max{|a1 |, |a2 |, . . . , |an0 −1 |, |a| + 1} so erhalten wir |an | ≤ M für alle n ∈ N, die Folge (an ) ist also beschränkt. Kommen wir zur Berechnung einiger wichtiger Grenzwerte. 40 Beispiel 3.10. lim √ n n→∞ Wir setzen xn = √ n n = 1. n − 1 und müssen dann xn → 0 zeigen. Aus dem binomischen Satz folgt n 2 n(n − 1) 2 n n = (1 + xn ) ≥ 1 + xn = 1 + xn . 2 2 Umstellen nach xn liefert für n ≥ 2 die Abschätzung r |xn | = xn ≤ Da √1 n 2 . n eine Nullfolge ist, ist nach Bemerkung (iii) auch xn eine Nullfolge. Beispiel 3.11. Sei a > 0. Dann gilt lim √ n n→∞ a = 1. Sei zunächst a ≥ 1. Dann ist n > a für genügend großes n und somit √ √ √ √ n a − 1 = n a − 1 ≤ n n − 1 = n n − 1 √ für genügend großes n. Damit ist ( n a−1) nach Bemerkung (ii) und (iii) ebenfalls eine Nullfolge. Den Fall a < 1 kann man analog behandeln oder auf den Fall a > 1 mit den unten aufgeführten Rechenregeln für Grenzwerte zurückführen. Beispiel 3.12. Sei z ∈ C mit |z| < 1. Dann gilt lim z n = 0. n→∞ 1 Für z = 0 ist die Behauptung klar. Zum Beweis für z 6= 0 setzen wir x > 0 so, dass |z| = 1+x ist. n Dann erhalten wir aus der Bernoulli-Ungleichung oder der binomischen Formel (1 + x) ≥ 1 + nx und damit 1 1 1 1 ≤ ≤ . |z n | = n (1 + x) 1 + nx xn Da ( n1 ) eine Nullfolge ist, ist nach Bemerkung (iii) auch z n eine Nullfolge. Beispiel 3.13. Sei z ∈ C mit |z| > 1 und k ∈ N. Dann gilt nk = 0. n→∞ z n lim Wir setzen |z| = 1 + x mit x > 0. Ist n > 2k, so ergibt sich aus der binomischen Formel nk+1 n n(n − 1) . . . (n − k) k+1 n n |z| = (1 + x) > xk+1 = x > k+1 xk+1 . k+1 (k + 1)! 2 (k + 1)! Es folgt k k+1 k n = n < 2 (k + 1)! 1 =: K 1 . z n |z|n n n xk+1 k Da n1 eine Nullfolge ist, ist also auch nz n eine Nullfolge. Der folgende Satz beinhaltet wichtige Rechenregeln für konvergente komplexe Folgen. 41 Satz 3.14. Seien (an ), (bn ) komplexe Folgen mit an → a und bn → b. Dann gilt: (i) an → a (ii) |an | → |a| (iii) Re an → Re a und Im an → Im a (iv) an + bn → a + b (v) an bn → ab (vi) Falls b 6= 0 ist, ist bn 6= 0 für fast alle n ∈ N und an bn → ab . Die Regeln kann man auch einprägsamer schreiben. Zum Beispiel bedeutet (i) lim an = lim an . Das muss man aber korrekt lesen als: Falls lim an existiert, dann existiert auch lim an und es gilt lim an = lim an . Analog bedeutet (iii) lim(an + bn ) = lim an + lim bn . Was ist hier die Voraussetzung? Schreiben Sie auch die anderen Eigenschaften in dieser einprägsamen Schreibweise! Beweis. (i) Sei ε > 0 und sei n0 so gewählt, dass |an − a| < ε für n ≥ n0 gilt. Dann folgt für n ≥ n0 auch |an − a| = |an − a| = |an − a| < ε und damit die behauptete Konvergenz an → a. (ii) Sei ε > 0 und sei n0 so gewählt, dass |an − a| < ε für n ≥ n0 gilt. Dann folgt für n ≥ n0 mit der Dreiecksungleichung auch |an | − |a| ≤ |an − a| < ε und damit die behauptete Konvergenz |an | → |a|. (iii) Sei ε > 0 und sei n0 so gewählt, dass |an − a| < ε für n ≥ n0 gilt. Dann folgt für n ≥ n0 auch Re an − Re a = |Re (an − a)| ≤ |an − a| < ε und damit die behauptete Konvergenz Re an → Re a. Die Konvergenz der Imaginärteile beweist man analog. (iv) Sei ε > 0 und seien n1 und n2 so gewählt, dass |an − a| < ε für n ≥ n1 und |bn − b| < ε für n ≥ n2 gilt. Dann folgt für n ≥ n0 := max{n1 , n2 } mit der Dreiecksungleichung auch (an + bn ) − (a + b) = (an − a) + (bn − b) ≤ |an − a| + |bn − b| < 2ε und damit die behauptete Konvergenz an + bn → a + b. 42 (v) Wir benutzen die Abschätzung |an bn − ab| = |an bn − abn + abn − ab| ≤ |an bn − abn | + |abn − ab| = |bn ||an − a| + |a||bn − b|. Nun ist (bn ) als konvergente Folge beschränkt, sagen wir |bn | ≤ M für alle n ∈ N. Dann erhalten wir |an bn − ab| ≤ M |an − a| + |a||bn − b|. Da (an − a) und (bn − b) Nullfolgen sind, ist auch (M |an − a| + |a||bn − b|) eine Nullfolge, also auch (an bn − ab). Es folgt die behauptete Konvergenz an bn → ab. (vi) Nach (ii) gilt |bn | → |b| > 0, also gibt es zu ε = |b| 2 ein n0 ∈ N mit |bn | > |b| − ε = n ≥ n0 . Damit ist bn 6= 0 für n ≥ n0 . Weiter folgt für n ≥ n0 b − bn 1 1 ≤ 2 |b − bn |. − = bn b bn b |b|2 Wegen bn → b folgt also 1 bn → 1b . Mit (v) folgt dann auch an bn |b| 2 für → ab . Mittels dieser Regeln und den schon bekannten Grenzwerten lassen sich schon sehr viele Grenzwerte berechnen. Zum Beispiel ist √ 42 + 2 n + 23n 1 1 lim = 42 lim + 2 lim √ + lim 23 = 0 + 0 + 23 = 23. n→∞ n→∞ n n→∞ n n n→∞ Ein weiteres Beispiel folgt: √ n Beispiel 3.15. Sei k ∈ N. Dann gilt limn→∞ nk = 1. Für k = 1 haben wir das schon gezeigt. Der Rest folgt per vollständiger Induktion aus √ √ √ √ n n n lim nk+1 = lim nk n = lim nk lim n n = 1 · 1 = 1. n→∞ n→∞ n→∞ n→∞ Weiter zeigt Satz 3.14 auch: • Grenzwerte reeller Folgen sind reell. • Eine komplexe Folge konvergiert genau dann, wenn die Folgen der Realteile und der Imaginärteile konvergieren. In diesem Fall ist lim an = lim Re an + i lim Im an . Für reelle Folgen liefert die Ordnung der reellen Zahlen einige weitere nützliche Regeln für Grenzwerte, die wir im folgenden Satz zusammenfassen. Satz 3.16. Seien (an ), (bn ), (cn ) reelle Folgen. Dann gilt: (i) Aus an → a, bn → b und an ≤ bn für fast alle n folgt a ≤ b. (ii) Ist an → a und an ∈ [b, c] für fast alle n, so ist auch a ∈ [b, c]. (iii) Ist an → a und cn → a und an ≤ bn ≤ cn für fast alle n, dann ist die Folge bn konvergent mit bn → a. Diese Regel wollen wir in Zukunft Sandwichregel nennen. 43 Beweis. (i) Wegen an → a und bn → b und an ≤ bn für fast alle n gibt es zu jedem ε > 0 ein n0 ∈ N mit a − ε ≤ an ≤ bn ≤ b + ε für n ≥ n0 . Es folgt also a − b ≤ 2ε, und zwar für jedes ε > 0. Also ist a − b ≤ 0 und folglich a ≤ b. (ii) Hier betrachten wir neben der Folge (an ) noch die konstanten Folgen (bn ) mit bn = b und (cn ) mit cn = c. Nach Voraussetzung ist bn ≤ an ≤ cn für fast alle n. Ebenfalls nach Voraussetzung ist an → a. Außerdem ist offensichtlich bn → b und cn → c. Mit (i) folgt b ≤ a ≤ c. (iii) Sei ε > 0. Wegen an → a und an ≤ bn gilt a − bn ≤ a − an < ε für fast alle n. Wegen cn → a und bn ≤ cn gilt bn − a ≤ cn − a < ε für fast alle n. Zusammen folgt |bn − a| < ε für fast alle n und damit die behauptete Konvergenz bn → a. √ Beispiel 3.17. Für a, b ≥ 0 gilt lim n an + bn = max{a, b}. Sei ohne Beschränkung der Allgemeinheit b ≥ a. Dann folgt mit der Sandwichregel (iii) aus den Ungleichungen √ √ √ √ n n n n b = bn ≤ an + bn ≤ 2bn = 2b √ √ und n 2 → 1 sofort n an + bn = b = max{a, b}. 3.2 Monotone Folgen In diesem Abschnitt wollen wir uns weiter mit reellen Folgen beschäftigen und die Ordnungsstruktur ausnutzen. Wir wollen einsehen, dass man für monotone Folgen zeigen kann, dass sie konvergieren (unter der zusätzlichen Voraussetzung der Beschränktheit), ohne explizit den Grenzwert bestimmen zu können. Als Anwendung werden wir die Eulersche Zahl e als Grenzwert einer monotonen Folge finden. Definition 3.18. Eine reelle Folge (an ) heißt monoton wachsend, falls a1 ≤ a2 ≤ a3 ≤ . . . gilt. Sie heißt monoton fallend, falls a1 ≥ a2 ≥ a3 ≥ . . . gilt. Sie heißt monoton, falls sie monoton wachsend oder monoton fallend ist. Falls sogar a1 < a2 < a3 < . . . (bzw. a1 > a2 > a3 > . . . ) gilt, nennen wir die Folge (an ) strikt monoton wachsend (bzw. strikt monoton fallend). Im folgenden bezeichnen wir kurz mit sup an (inf an ) das Supremum (Infimum) der Menge der Folgenglieder einer beschränkten reellen Folge (an ). Beispiel 3.19. Die Folge ( n1 ) ist (strikt) monoton fallend. Sie konvergiert gegen 0 = inf n1 . Die Folge (− n1 ) ist (strikt) monoton wachsend. Sie konvergiert gegen 0 = sup − n1 . Ist (an ) (strikt) monoton wachsend, so ist (−an ) (strikt) monoton fallend. Satz 3.20 (Monotonieprinzip). Eine monotone Folge konvergiert genau dann, wenn sie beschränkt ist. Außerdem ist an → sup an (an → inf an ), falls (an ) monoton wachsend (fallend) und beschränkt ist. Beweis. Da konvergente Folgen beschränkt sind, genügt es zu zeigen, dass an → a := sup an für eine monoton wachsende und beschränkte Folge (an ) gilt. Sei dazu ε > 0 beliebig. Die Definition des Supremums liefert dann ein n0 ∈ N mit an0 > a − ε. Aus der Monotonie der Folge ergibt sich damit an > a − ε für n ≥ n0 . Nun ist aber stets an ≤ a, da a eine obere Schranke für die Folgenglieder an ist. Zusammen haben wir also a − ε < an ≤ a < a + ε, also |an − a| < ε für alle n ≥ n0 . Da ε > 0 beliebig war, ist an → a gezeigt. 44 Beispiel 3.21 (Eulersche Zahl). Wir betrachte die beiden Folgen (an ), (bn ) gegeben durch 1 n n+1 n an = 1 + = n n 1 n+1 n + 1 n+1 bn = 1 + = . n n und Wir zeigen die Monotonie beider Folgen. Zunächst zeigen wir, dass (an ) monoton wachsend ist. Dazu betrachten wir an+1 = an n+1 n+2 n+1 n+1 n n = (n + 2)n (n + 1)2 n+1 n+1 = n 1− 1 (n + 1)2 n+1 n+1 n 1 und benutzen die Bernoulli-Ungleichung (1 + x)n+1 ≥ 1 + (n + 1)x für x = − (n+1) 2 > −1, um an+1 ≥ an 1 1− n+1 n+1 =1 n zu erhalten. Analog zeigen wir, dass (bn ) monoton fallend ist. Dazu betrachten wir bn bn+1 = n+1 n+1 n n+2 n+2 n+1 = (n + 1)2 n(n + 2) n+2 n = n+1 1+ 1 n(n + 2) n+2 n ≥ n+1 1 1+ n n = 1, n+1 wobei wir in der Abschätzung wieder die Bernoulli-Ungleichung benutzt haben. Wir erhalten also 2 = a1 ≤ a2 ≤ · · · ≤ an ≤ · · · ≤ bn ≤ · · · ≤ b2 ≤ b1 = 4. Also sind (an ) und (bn ) monotone und beschränkte Folgen und damit konvergent mit an → a := sup an und bn → b := inf bn . Wir zeigen nun noch, dass die Grenzwerte übereinstimmen, also a = b ist. Dazu betrachten wir 1 n 1 an 4 bn − an = 1 + 1+ −1 = ≤ . n n n n Folglich ist an ≤ bn ≤ an + 4 n und die Sandwichregel liefert a = lim an = lim bn = b. Der gemeinsame Grenzwert der Folgen (an ) und (bn ) wird Eulersche Zahl genannt und mit e bezeichnet: 1 n 1 n 1 n+1 1 n+1 e = lim 1 + = sup 1 + = lim 1 + = inf 1 + . n n n n Wir bemerken noch, dass die Monotonie beider Folgen sogar strikt ist, da die Bernoulli-Ungleichung in unserer Anwendung eine strikte Ungleichung ist. 45 3.3 Teilfolgen, Satz von Bolzano-Weierstraß Ist (n1 , n2 , . . . ) eine strikt monoton wachsende Folge natürlicher Zahlen, so heißt die Folge ∞ ank k=1 = an1 , an2 , . . . Teilfolge ∞ der Folge (an ). Aus limn→∞ an = a folgt offensichtlich limk→∞ ank = a für jede Teilfolge ank k=1 . Jede Teilfolge einer konvergenten Folge konvergiert also ebenfalls, und zwar gegen den gleichen Grenzwert. Mit Hilfe des Teilfolgenbegriffs und des Monotonieprinzips kann man den wichtigen Auswahlsatz von Bolzano-Weierstraß einsehen. Satz 3.22. Jede beschränkte komplexe Folge besitzt eine konvergente Teilfolge. Beweis. Wir zeigen den Satz zunächst für eine beschränkte reelle Folge (an ). Dazu nennen wir m ∈ N einen Peak der Folge (an ), falls für n > m immer an < am gilt. Hat die Folge (an ) unendlich viele Peaks n1 < n2 < . . . , so ist die Teilfolge ank strikt monoton fallend und somit nach dem Monotonieprinzip konvergent. Hat die Folge (an ) nur endlich viele Peaks, so wählen wir n1 größer als den größten Peak. Falls es überhaupt keinen Peak gibt, wählen wir n1 beliebig, z.B. n1 = 1. Damit ist n1 kein Peak und wir finden n2 > n1 mit an1 ≤ an2 . Auch n2 ist kein Peak, also finden wir n3 > n2 mit an2 ≤ an3 . Setzen wir dies induktiv fort, erhalten wir eine monoton wachsende und damit konvergente Teilfolge. Damit ist der Satz für reelle Folgen richtig. Ist nun (an ) eine beschränkte komplexe Folge, so stellen wir an = xn + iyn mit Realteil und Imaginärteil dar. Dann sind die Folgen (xn ) und (yn ) reell und beschränkt. Nach dem gerade gezeigten finden wir eine konvergente Teilfolge von (xn ) und anschließend eine konvergente Teilfolge der entsprechenden Teilfolge von (yn ). Seien (n1 , n2 , . . . ) die Indizes dieser nach zwei Schritten entstandenen Teilfolgen, für die also xnk und ynk konvergieren. Dann konvergiert auch die Folge ank . Der Satz von Bolzano-Weierstraß wird oft in einer Version mit dem Begriff Häufungspunkt formuliert. Definition 3.23. Sei (an ) eine komplexe Folge und a ∈ C. Dann heißt a Häufungspunkt oder Häufungswert der Folge (an ), wenn jede ε-Umgebung von a unendlich viele Folgenglieder (an ) enthält, wenn es also unendlich viele n ∈ N gibt mit |an − a| < ε. Vergleichen Sie das mit der Konvergenz an → a: hier müssen fast alle Folgenglieder in jeder ε-Umgebung liegen. Insbesondere ist also der Grenzwert einer konvergenten Folge ein Häufungspunkt. Offenbar ist a genau dann Häufungspunkt von (an ), wenn es eine Teilfolge von (an ) gibt, die gegen a konvergiert. Die Menge der Häufungspunkte einer Folge ist gerade die Menge der Grenzwerte konvergenter Teilfolgen. Dies führt zu einer alternativen Formulierung des Satzes von Bolzano-Weierstraß: Satz 3.24. Jede beschränkte komplexe Folge besitzt einen Häufungspunkt. Eine komplexe Folge ist genau dann konvergent, wenn sie beschränkt ist und genau einen Häufungpunkt hat. Die Menge der Häufungspunkte einer beschränkten reellen Folge (an ) ist eine beschränkte Menge in R. Das Supremum dieser Menge heißt Limes Superior der Folge (an ) und wird mit lim sup an 46 bezeichnet. Das Infimum heißt Limes Inferior und wird mit lim inf an bezeichnet. Offensichtlich gelten die Ungleichungen inf an ≤ lim inf an ≤ lim sup an ≤ sup an . Limes Superior und Limes Inferior sind selbst Häufungspunkte von (an ). Wir überlegen uns das hier für a = lim sup an . Nehmen wir an, das a kein Häufungspunkt ist, dann existiert eine ε-Umgebung (a − ε, a + ε), die nur endlich viele an enthält. Es können aber auch nur endlich viele an die Ungleichung an ≥ a + ε erfüllen, ansonsten würde es wegend es Satzes von BolzanoWeierstrass einen Häufungspunkt größer als a geben. Also gibt es keinen Häufungspunkt h > a−ε und es folgt der Widerspruch a ≤ a − ε. Also ist lim sup an der größte Häufungspunkt von (an ) und lim inf an der kleinste. Wir zeigen noch die nützlichen Formeln lim inf an = lim inf an k→∞ n≥k und lim sup an = lim sup an . k→∞ n≥k Da (an ) beschränkt ist, existieren bk = inf n≥k an und ck = supn≥k an und es gilt bk ≤ ck . Außerdem ist die Folge (bk ) monoton wachsend und die Folge (ck ) monoton fallend, es existieren nach Satz 3.20 b = limk→∞ inf n≥k an und c = limk→∞ supn≥k cn . Wir setzen noch a = lim inf an und zeigen a = b. Die Gleichung für lim sup an folgt analog. Da a Häufungspunkt von (an ) ist, gibt es zu jedem ε > 0 und jedem k ∈ N ein n ≥ k mit an < a + ε. Also ist bk = inf n≥k an < a + ε für alle k. Es folgt b = lim bk ≤ a + ε, und da dies für jedes ε > 0 gilt auch b ≤ a. Weiter gibt es zu jedem ε > 0 nur endlich viele an < a − ε, woraus bk = inf n≥k an ≥ a − ε für genügend großes k und schließlich b = lim bk ≥ a − ε folgt. Wieder ist ε > 0 beliebig und damit b ≥ a. Zusammen erhalten wir wie behauptet b = a. Beispiel 3.25. Die Folge (an ) sei gegeben durch an = (−1)n + n1 . Für die Teilfolge (a2n ) 1 finden wir a2n = 1 + 2n → 1. Also ist 1 ein Häufungspunkt. Für die Teilfolge (a2n+1 ) ist 1 a2n+1 = −1 + 2n+1 → −1. Also ist -1 ein Häufungspunkt. Weitere Häufungspunkte gibt es nicht. Wir haben also lim inf an = −1 und lim sup an = 1. Beispiel 3.26. Sei (an ) eine Aufzählung aller rationalen Zahlen im Intervall [0, 1]. Da die rationalen Zahlen in [0, 1] dicht in [0, 1] liegen, finden wir zu jedem x ∈ [0, 1] eine Teilfolge von (an ), die gegen x konvergiert. Also ist die Menge der Häufungspunkte von (an ) das ganze Intervall [0, 1] und damit überabzählbar. Insbesondere haben wir für jede solche Folge lim inf an = 0 und lim sup an = 1. Wir werden diesen Begriffen beim Studium der Konvergenz von Potenzreihen wiederbegegnen. 3.4 Cauchyfolgen In diesem Abschnitt wollen wir ein weiteres Kriterium kennenlernen, mit dem man ohne die Kenntnis des Grenzwertes auf die Konvergenz einer Folge schließen kann. Dieses Kriterium hängt eng mit der Vollständigkeit der reellen Zahlen zusammen. Zentral ist der Begriff der Cauchyfolge. Definition 3.27. Eine komplexe Folge (an ) heißt Cauchyfolge, falls sie die folgende Eigenschaft hat: Zu jedem ε > 0 existiert ein n0 ∈ N, so dass |an − am | < ε ist für alle n, m ∈ N mit n, m ≥ n0 . 47 Vergleichen Sie diese Definition mit der Konvergenzdefinition! Formal liest sich die Cauchyfolgenbedingung so: ∀ε > 0 ∃ n0 ∈ N ∀n, m ∈ N : n, m ≥ n0 ⇒ |an − am | < ε. Für eine komplexe Folge (an ) mit an = xn + iyn und xn , yn ∈ R gilt: (an ) ist Cauchyfolge ⇐⇒ (xn ) und (yn ) sind Cauchyfolgen. Dies folgt aus |xn − xm |, |yn − ym | ≤ |an − am | = p (xn − xm )2 + (yn − ym )2 . Das zentrale Ergebnis dieses Abschnitts ist Satz 3.28. Sei (an ) eine komplexe Folge. Dann ist (an ) genau dann konvergent, wenn (an ) eine Cauchyfolge ist. Beweis. Wir überlegen uns zunächst die einfache Implikation: Ist (an ) konvergent, dann ist (an ) eine Cauchyfolge. Dazu sei an → a und ε > 0. Dann finden wir ein n0 so dass |an − a| < 2ε für alle n ≥ n0 gilt. Aus der Dreiecksungleichung folgt dann für n, m ≥ n0 |an − am | ≤ |an − a| + |a − am | < ε ε + =ε 2 2 und die Cauchyfolgeneigenschaft ist erwiesen. Für die andere Implikation ist zu zeigen: Ist (an ) eine Cauchyfolge, dann ist (an ) konvergent. Nach obiger Bemerkung genügt es, dies für reelle Folgen zu zeigen. Zunächst zeigen wir dazu, dass eine Cauchyfolge beschränkt ist. Dazu wählen wir zu ε = 1 ein n0 mit |an − am | < 1 für n, m ≥ n0 . Mit der Dreiecksungleichung folgt dann |an | ≤ |an − an0 | + |an0 | < 1 + |an0 | für n ≥ n0 . Damit ist max{|a1 |, . . . , |an0 −1 |, 1 + |an0 |} eine Schranke für |an | für alle n ∈ N, vergleiche den entsprechenden Beweis für Beschränktheit konvergenter Folgen. Aus dem Satz von Bolzano-Weierstraß folgt nun die Existenz einer konvergenten Teilfolge von (an ), deren Grenzwert wir a nennen. Wir zeigen schließlich, dass a sogar Grenzwert der gesamten Folge (an ) ist. Dazu fixieren wir ε > 0 und wählen n0 so, dass |an − am | < ε für n, m ≥ n0 ist. Dies ist die Cauchy-Folgen-Eigenschaft. Aus der gegen a konvergenten Teilfolge wählen wir nun ein am mit m ≥ n0 und |am − a| < ε. Die Dreiecksungleichung liefert dann für jedes n ≥ n0 |an − a| ≤ |an − am | + |am − a| < 2ε, was die Konvergenz an → a zeigt. Wir diskutieren jetzt noch einmal die Vollständigkeit der reellen Zahlen. Für diese Eigenschaft gibt es eine Reihe von äquivalenten Formulierungen, die im Zusammenhang mit zentralen Resultaten aus der Vorlesung stehen. Dazu sei K ein angeordneter Körper. Dann sind die folgenden Aussagen über K äquivalent: 1. K ist ordnungsvollständig, d.h. jede nichtleere nach oben beschränkte Teilmenge von K hat ein Supremum. (das war unser Axiom der Vollständigkeit!) 48 2. K ist archimedisch (d.h. die natürlichen Zahlen in K sind unbeschränkt) und jede Intervallschachtelung aus abgeschlossenen Intervallen hat einen nichtleeren Durchschnitt. 3. Jede monotone und beschränkte Folge in K besitzt einen Grenzwert. 4. Jede beschränkte Folge in K besitzt eine konvergente Teilfolge (Bolzano-Weierstraß). 5. K ist archimedisch und jede Cauchyfolge in K konvergiert. Dass die Eigenschaft 1. die Eigenschaften 2.-5. impliziert, haben wir in der Vorlesung gezeigt. Es ist eine gute Übungsaufgabe, auch die umgekehrten Implikationen zu zeigen. Wir schließen dieses Kapitel mit der Einführung des Begriffs der bestimmten Divergenz (in manchen Büchern uneigentliche Konvergenz) einer reellen Folge. Dazu benutzen wir die Symbole ∞ = +∞ und −∞. Sei also (an ) eine reelle Folge. Dann heißt (an ) bestimmt divergent gegen +∞, falls gilt ∀R > 0 ∃ n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ an > R. Dafür schreiben wir an → +∞ oder lim an = +∞. Weiter heißt (an ) bestimmt divergent gegen −∞, falls gilt ∀R > 0 ∃ n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ an < −R. Dafür schreiben wir an → −∞ oder lim an = −∞. Zum Beispiel gilt √ √ n = +∞, lim − n) = −∞. n→∞ √ Hingegen ist die Folge (an ) mit an = (−1)n n nicht bestimmt divergent. Viele der Rechenregeln für Grenzwerte reeller Folgen lassen sich auf uneigentliche Grenzwerte verallgemeinern. Ist zum Beispiel an → a ∈ R und bn → +∞, so gilt an + bn → +∞ und an − bn → −∞. Allerdings muss man vorsichtig sein, aus an → +∞ und bn → −∞ kann man nichts über die Konvergenz von an + bn schlussfolgern! Überlegen Sie sich an dieser Stelle, welche Rechenregeln gelten und finden Sie Gegenbeispiele für Regeln, die nicht gelten! lim n→∞ 49 4 Reihen Reihen sind spezielle Folgen (sn ), die mit Hilfe der Zuwächse an = sn − sn−1 beschrieben werden, also s 1 = a1 s 2 = a1 + a2 s 3 = a1 + a2 + a3 s 4 = a1 + a2 + a3 + a4 .. . Sie werden sich als wichtiges Hilfsmittel zur Konstruktion und Behandlung von Funktionen herausstellen. 4.1 Der Reihenbegriff, Konvergenz und Eigenschaften Sei also (an ) eine komplexe Folge und sn = n X ak k=1 für n ∈ N. Dann heißt die Folge (sn ) eine unendliche Reihe oder kurz Reihe, für die man auch ∞ X ak a1 + a2 + a3 + . . . oder oder kurz X ak k=1 schreibt. Die Zuwächse ak heißen Glieder der Reihe und die Summen sn heißen Partialsummen P der Reihe. Ist die Folge der Partialsummen (sn ) konvergent mit sn → s, so heißt die Reihe ak konvergent und wir schreiben auch für den Grenzwert s ∞ X ak := s = lim sn = lim n→∞ k=1 n→∞ n X ak . k=1 Reihen, die nicht konvergent sind, heißen divergent. Sind die Reihenglieder ak reell und gilt sn → ∞ oder sn → −∞, so schreibt man auch ∞ X ak = ∞ bzw. k=1 ∞ X ak = −∞ k=1 und nennt die Reihe bestimmt divergent oder uneigentlich konvergent. Natürlich kann man auch Reihen der Form ∞ X ak oder k=0 betrachten, die Definition sollte nun klar sein. Ein nicht sonderlich interessantes Beispiel ist ∞ X k=42 ak 50 Beispiel 4.1 (Endliche Reihen). P Ist (ak ) eine abbrechende Folge, also ak = 0 für k > k0 , so sind die Partialsummen sn der Reihe ∞ k=1 ak für n > k0 konstant und die Reihe somit konvergent mit k0 ∞ X X ak = ak . k=1 k=1 Ein wesentlich spannenderes Beispiel ist das folgende Beispiel 4.2 (Geometrische Reihen). Ist (ak ) eine geometrische Folge, d.h. ak = q k für eine komplexe Zahl q, so nennt man die resultierende Reihe ∞ X qk k=0 eine geometrische Reihe. Für q 6= 1 kennen Sie aus den Übungen bereits die Formel für die Partialsummen n X 1 − q n+1 sn = qk = , 1−q k=0 die man leicht einsieht, indem man (1 − q)sn = n X qk − k=0 n+1 X q k = 1 − q n+1 k=1 beobachtet. Da für |q| < 1 die Folge (q n+1 ) eine Nullfolge ist, gilt lim sn = P k die geometrische Reihe q also konvergent mit ∞ X qk = k=0 1 1−q . Für |q| < 1 ist 1 . 1−q Für q = 0 muss man für die Gültigkeit dieser Formel 00 := 1 setzen. Für |q| ≥ 1 ist die geometrische Reihe divergent. Ein weiteres wichtiges Beispiel ist Beispiel 4.3 (Harmonische Reihe). Die harmonische Reihe ist die Reihe ist bestimmt divergent ∞ X 1 = ∞. k P∞ 1 k=1 k . Diese Reihe k=1 Dies sieht man ein, indem man beobachtet, dass die Partialsummen monoton wachsend sind und die Abschätzung 1 1 1 1 1 1 1 1 1 1 s2n = 1 + + + + + + + + ··· + + + ··· + n 2 3 4 5 6 7 8 2n−1 + 1 2n−1 + 2 2 1 1 1 1 ≥ 1 + + 2 · + 4 · + · · · + 2n−1 · n 2 4 8 2 1 1 1 1 = 1 + + + + ··· + 2 2 2 2 n = 1+ 2 benutzt. 51 Aus der Definition der Reihenkonvergenz und den entsprechenden Regeln für konvergente Folgen leitet man leicht die beiden folgenden Rechenregeln ab (tatsächlich?!): • Sind P ak und P bk konvergent, so ist auch ∞ X (ak + bk ) = k=1 • Ist P P (ak + bk ) konvergent mit ∞ X ak + k=1 ak konvergent und c ∈ C, so ist auch ∞ X P ∞ X bk . k=1 cak konvergent mit cak = c k=1 ∞ X ak . k=1 Wir übersetzen jetzt das Cauchykriterium für die P Konvergenz der Partialsummenfolge (sn ) in das Cauchykriterium für die Konvergenz der Reihe ak . Dabei ist nichts zu beweisen, wir beobachten nur, dass für die Differenz sm − sn = m X ak − k=1 n X k=1 ak = m X ak k=n+1 gilt, falls m > n ist. P ak ist genau dann konvergent, wenn gilt m X ∀ε > 0 ∃ n0 ∈ N ∀n, m ∈ N : m > n ≥ n0 ⇒ ak < ε. Satz 4.4 (Cauchykriterium). Die Reihe k=n+1 Indem man nur den Fall m = n + 1 betrachtet, erhält man für eine konvergente Reihe dem Cauchykriterium die Aussage P ak aus ∀ε > 0 ∃ n0 ∈ N ∀m ∈ N : m > n0 ⇒ |am | < ε. Das ist aber nichts anderes als die Aussage, dass (an ) eine Nullfolge ist. Es gilt also das wichtige P Korollar 4.5. Ist ak konvergent, so ist die Folge der Reihenglieder (ak ) eine Nullfolge. Ist P (ak ) keine Nullfolge, so ist ak nicht konvergent. Auch das Monotoniekriterium liefert ein nützliches Konvergenzkriterium für Reihen mit nichtnegativen reellen Gliedern: P • Eine Reihe ak mit ak ≥ 0 für alle k ∈ N konvergiert genau dann, wenn ihre Partialsummen beschränkt sind. Dies liegt einfach daran, dass die Partialsummen einer solchen Reihe monoton wachsend sind. Beispiel 4.6. Mit Hilfe des Monotoniekriteriums erhält man zum Beispiel die Konvergenz der Reihe ∞ X 1 . k! k=0 52 Tatsächlich sieht man durch die Abschätzung sn = 1 + 1 1 1 1 1 1 + + ··· + ≤ 1 + 1 + + 2 + . . . n−1 < 3 1! 2! n! 2 2 2 die Beschränktheit der Partialsummen und damit die Konvergenz der Reihe. Es gilt ∞ X 1 n 1 = lim 1 + = e. k! n→∞ n k=0 Dies sieht man durch die folgenden Betrachtungen ein. Zunächst folgt aus dem binomischen Satz 1 n n 1 n 1 n 1 1+ = 1+ + + ··· + 2 n 1 n 2 n n nn 1 1 1 2 n−1 1 1− + ··· + 1− 1− ... 1 − . = 1+1+ 2! n n! n n n Daraus ergibt sich einerseits 1 n 1 1 1 1+ ≤ 1 + + + ··· + n 1! 2! n! und damit e = lim n→∞ 1 1+ n n ≤ ∞ X 1 . k! k=0 Andererseits folgt für festes ` ∈ N auch 1 n 1 1 1 1 2 `−1 lim 1 + ≥ lim 1 + 1 + 1− + ··· + 1− 1− ... 1 − n→∞ n→∞ n 2! n `! n n n ` X 1 = k! k=0 und damit ∞ X 1 . e≥ k! k=0 Beispiel 4.7. Das Monotoniekriterium benutzen wir jetzt, um die Dezimalbruchentwicklung und allgemeiner b-adische Entwicklungen von reellen Zahlen über den Reihenbegriff einzuführen. Sei dazu b ∈ N, b ≥ 2. Für die Dezimalbruchentwicklung ist b = 10. Auch der Fall b = 2 spielt eine gewisse Rolle, die entsprechende b-adische Entwicklung heißt Binärdarstellung oder Dualdarstellung. Die Zahlen 0, 1, . . . , b − 1 nennen wir jetzt Ziffern und schreiben für eine Folge z1 , z2 , z3 , . . . von Ziffern ∞ X zk 0.z1 z2 z3 · · · := . bk k=1 Die Glieder dieser Reihe sind nichtnegativ und die Partialsummen sind beschränkt durch ! ∞ ∞ X X 1 b−1 1 = (b − 1) = (b − 1) − 1 = 1, bk bk 1 − 1b k=1 k=1 53 die Reihensumme ist also eine reelle Zahl in [0, 1]. Um sich zu überlegen, dass auch jede reelle Zahl im Intervall [0, 1) in der Form 0.z1 z2 z3 . . . geschrieben werden kann, brauchen wir die Definition [x] := max{n ∈ Z : n ≤ x} des größten Ganzen einer reellen Zahl x. Setzt man dann nämlich z1 := [bx] und induktiv " !# n−1 X zk n zn = b x − , bk k=1 so erhält man n−1 X zk 1 zk ≤ x < + n−1 k k b b b k=1 k=1 P zk und damit induktiv 0 ≤ zn < b und x = ∞ k=1 bk . Will man die b-adische Darstellung eindeutig machen, so muss man wie üblich verbieten, dass die Folge (zk ) ab einer gewissen Stelle konstant gleich b − 1 ist. 4.2 n−1 X Absolute Konvergenz und Konvergenzkriterien Eine wichtige Klasse konvergenter Reihen sind die absolut konvergenten Reihen. Definition 4.8. Die Reihe beträge konvergent ist. P ak heißt absolut konvergent, falls die Reihe P |ak | ihrer Absolut- Beispiel 4.9 (Geometrische Reihen). Die geometrische Reihe ∞ X qk k=0 mit |q| < 1 ist absolut konvergent, da die Reihe ihrer Absolutbeträge die (konvergente) geometrische Reihe ∞ X |q|k k=0 ist. Beispiel 4.10 (Alternierende harmonische Reihe). Die alternierende harmonische Reihe ist die Reihe ∞ X 1 1 1 1 (−1)k−1 = 1 − + − ± . . . . k 2 3 4 k=1 Diese Reihe ist nicht absolut konvergent, da die Reihe ihrer Absolutbeträge die (divergente) harmonische Reihe ist. Wir werden bald einsehen, dass die alternierende harmonische Reihe trotzdem konvergent ist. Wir haben schon angekündigt: Satz 4.11. Absolut konvergente Reihen sind konvergent. 54 Beweis. Dies folgt aus der zweifachen Anwendung des Cauchykriteriums zusammen mit der P Dreiecksungleichung. Sei dazu a absolut konvergent und ε > 0. Dann existiert wegen der k P Konvergenz der Reihe |ak | ein n0 , so dass für m > n ≥ n0 m X |ak | < ε k=n+1 ist (Cauchykriterium). Die Dreiecksungleichung liefert m m X X ak ≤ |ak | < ε k=n+1 für m > n ≥ n0 , also ist P k=n+1 ak konvergent (Cauchykriterium). Das liefert die folgenden nützlichen Vergleichskriterien: P • Majorantenkriterium: Ist bk absolut konvergent und |ak | ≤ |bk | für (fast) alle k, so ist P auch ak absolut konvergent. P • Minorantenkriterium: Ist 0 ≤ bk ≤ ak für (fast) alle k und ist bk divergent, so ist auch P ak divergent. P So ist z.B. jede Reihe ak konvergent, für die es ein q ∈ (0, 1) gibt mit |ak | ≤ q k für fast alle k ∈ N. Hieraus ergeben sich zwei der wichtigsten Konvergenzkriterien für Reihen: • Wurzelkriterium: Gibt es ein k0 und ein q ∈ R mit 0 ≤ q < 1, so dass p k |ak | ≤ q für k ≥ k0 P gilt, so ist ak absolut konvergent (und damit konvergent). • Quotientenkriterium: Gibt es ein k0 und ein q ∈ R mit 0 ≤ q < 1, so dass ak+1 ak 6= 0 und für k ≥ k0 ak ≤ q P gilt, so ist ak absolut konvergent (und damit konvergent). Die Bedingung beim Wurzelkriterium ist nämlich äquivalent zu |ak | ≤ q k für k ≥ k0 . Beim Quotientenkriterium nehmen wir o.B.d.A. an, dass die Bedingung für alle k gilt und erhalten induktiv |ak | ≤ q|ak−1 | ≤ q 2 |ak−2 | ≤ · · · ≤ q k−1 |a1 |. Es ist wichtig, dass in den Bedingungen tatsächlich q gen zu p k |ak | < 1 oder < 1 ist. Eine Abschwächung der Bedingun ak+1 ak < 1 für alle k ∈ N reicht nicht aus, wie das Beispiel der harmonischen Reihe Oft kann man die folgenden Limes-Versionen der Kriterien anwenden: P1 k zeigt. 55 • Wurzelkriterium: Falls der Grenzwert lim k→∞ existiert, so ist P p k |ak | < 1 ak absolut konvergent (und damit konvergent). • Quotientenkriterium: Falls der Grenzwert ak+1 <1 lim k→∞ ak existiert, so ist P ak absolut konvergent (und damit konvergent). Beispiel 4.12. Für jedes z ∈ C konvergiert die Reihe ∞ X zk k=0 k! , denn es gilt z k+1 ak+1 (k+1)! |z| ak = z k = k + 1 , k! was mit k → ∞ gegen 0 konvergiert und damit sicher die Bedingung im Quotientenkriterium erfüllt. Beispiel 4.13. Die Reihe ∞ X 1 kk k=1 p konvergiert nach dem Wurzelkriterium, da k |ak | = 1 k ≤ 1 2 für k ≥ 2 gilt. Beispiel 4.14. Für jedes z ∈ C mit |z| < 1 und jedes m ∈ N konvergiert die Reihe ∞ X km z k , k=1 denn es gilt lim p k |ak | = lim √ k m k |z| = |z| < 1, womit die Bedingung im Wurzelkriterium erfüllt ist. Absolute Konvergenz ist sehr wichtig, wenn man Reihenglieder umordnen möchte, also in gewissem Sinne Kommutativität und Assoziativität der Addition bei Reihen anwenden möchte. Damit muss man im Allgemeinen sehr vorsichtig sein, wie der folgende „Beweis“ der Gleichung 0 = 1 zeigt: 0 = (1 − 1) + (1 − 1) + (1 − 1) + · · · = 1 + (−1 + 1) + (−1 + 1) + · · · = 1. Offensichtlich ist das Gleichheitszeichen in der Mitte nicht gültig. Hat man hingegen eine absolut konvergente Reihe, so kann man die Reihenglieder beliebig umordnen und zusammenfassen und P die entstehende Reihe ist wieder konvergent mit der gleichen Summe. Formal: Ist ∞ a absolut k k=1 konvergent und π : N → N eine Bijektion (also eine Permutation der natürlichen Zahlen), so ist P∞ auch k=1 aπ(k) konvergent und es gilt ∞ X k=1 aπ(k) = ∞ X ak . k=1 Reihen mit dieser Eigenschaft für beliebige Permutationen π nennt man übrigens unbedingt konvergent. Mit dieser Terminologie gilt dann 56 • Eine Reihe ist unbedingt konvergent genau dann, wenn sie absolut konvergent ist. Für einen Beweis dieses Satzes verweisen wir hier auf die Literatur. Übrigens kann man eine konvergente, aber nicht absolut konvergente Reihe mit reellen Gliedern so umordnen, dass jede beliebige vorgegebene reelle Zahl als Reihensumme herauskommt. Dieses Resultat ist als Riemannscher Umordnungssatz bekannt. 4.3 Alternierende Reihen und Leibniz-Kriterium Reihen mit reellen Gliedern, deren Vorzeichen alternieren, heißen alternierende Reihen. Ein Beispiel ist die bereits erwähnte alternierende harmonische Reihe ∞ X 1 1 1 1 (−1)k−1 = 1 − + − ± . . . . k 2 3 4 k=1 Für alternierende Reihen gilt das folgende wichtige Konvergenzkriterium: Satz 4.15 (Leibniz-Kriterium). Ist (ak ) eine monoton fallende Nullfolge reeller Zahlen (also insbesondere ak ≥ 0 für alle k ∈ N), so ist die alternierende Reihe a1 − a2 + a3 − a4 ± . . . konvergent. Beweis. Aus der Monotonie der Folge (ak ) folgt, dass a1 − a2 , a3 − a4 , . . . nichtnegativ sind. Damit bilden die Partialsummen der alternierenden Reihe a1 − a2 + a3 − a4 ± . . . mit geradem Index n eine monoton wachsende Folge: s2n+2 = s2n + (a2n+1 − a2n+2 ) ≥ s2n . Analog sieht man ein, dass die Partialsummen mit ungeradem Index eine monoton fallende Folge bilden. Außerdem ist s2n+1 − s2n = a2n+1 ≥ 0 für jedes n ∈ N, also s2n+1 ≥ s2n . Wir erhalten dann s2 ≤ s4 ≤ · · · ≤ s2n ≤ · · · ≤ s2n+1 ≤ · · · ≤ s3 ≤ s1 . Als monotone und beschränkte Folgen konvergieren die beiden Folgen (s2n ) und (s2n+1 ), und zwar wegen s2n+1 − s2n = a2n+1 → 0 gegen den gleichen Grenzwert s. Damit konvergiert aber die gesamte Partialsummenfolge (sn ) gegen s, die alternierende Reihe ist konvergent. Insbesondere konvergiert also die alternierende harmonische Reihe, obwohl sie nicht absolut konvergent ist. Übrigens ist 1 1 1 1 − + − ± · · · = ln 2, 2 3 4 was wir aber an dieser Stelle noch nicht zeigen können. 57 5 Stetige Funktionen In diesem Kapitel geht es um einen weiteren wichtigen Begriff der Analysis - die Stetigkeit. Auch dieser beruht auf der Betrachtung von Grenzübergängen. Eine Funktion soll stetig sein, wenn kleine Änderungen im Argument nur kleine Änderungen im Funktionswert zur Folge haben. Eng verbunden mit dem Begriff der stetigen Funktion ist der Begriff des Grenzwertes einer Funktion. Diesen werden wir im Anschluss an das Studium der Grundlagen der Stetigkeit untersuchen. Weiter behandelt das Kapitel zwei wichtige Sätzen über stetige Funktionen - den Zwischenwertsatz und den Satz vom Maximum und Minimum. Wir schließen mit einer Übersicht über elementare Funktionen. 5.1 Reelle Funktionen, algebraische Operationen, Ordnung Wiederholen Sie an dieser Stelle den allgemeinen Begriff der Funktion sowie die damit zusammenhängenden Begriffe Bild, Urbild, Graph, Injektivität, Surjektivität, Bijektivität, Umkehroder inverse Funktion, Komposition oder Hintereinanderausführung. Wir wollen nun noch kurz auf reellwertige Funktionen auf einer allgemeinen Menge D eingehen, also Funktionen f : D → R. Da man im Bildbereich algebraische Operationen hat, kann man diese punktweise auch für solche Funktionen definieren. Seinen dazu f, g : D → R zwei derartige Funktionen. Dann definieren wir die Summe f + g : D → R durch (f + g)(x) = f (x) + g(x) für x ∈ D. Das Produkt f g : D → R ist gegeben durch (f g)(x) = f (x)g(x) für x ∈ D. Ist a ∈ R, so definiert man die Funktion af : D → R ebenfalls punktweise durch (af )(x) = af (x) für x ∈ D. Ist z.B. D = R und f (x) = x, so ist g = f 2 = f · f die Funktion g(x) = x2 und h = 42g + 5f + 1 ist die Funktion h(x) = 42x2 + 5x + 1. Ebenso definiert man punktweise die Funktionen f − g, f g (falls g(x) 6= 0 für alle x ∈ D ist). Funktionen f, g : D → R kann man punktweise miteinander vergleichen. So schreibt man f ≤ g, falls f (x) ≤ g(x) für alle x ∈ D ist. Analog sind f < g, f ≥ g und f > g definiert. Ist D ⊆ R und f : D → R, so heißt f monoton wachsend, falls aus x1 , x2 ∈ X und x1 ≤ x2 die Ungleichung f (x1 ) ≤ f (x2 ) folgt. Gilt sogar f (x1 ) < f (x2 ) für x1 < x2 , so heißt f strikt monoton wachsend. Definieren Sie selbst monoton fallende und strikt monoton fallende Funktionen. Machen Sie sich klar, dass eine monoton wachsende Funktion a : N → R gerade eine monoton wachsende Folge reeller Zahlen ist. 5.2 Stetigkeit - Definition, Charakterisierung, grundlegende Sätze Die „Schuldefinition“ für Stetigkeit, die man manchmal lernt, ist: eine Funktion heißt stetig, wenn man sie ohne Absetzen durchzeichnen kann. Anschaulich soll diese Definition besagen, dass eine stetige Funktion „keine Sprünge macht“. Diese „Definition“ hat einige Nachteile. • Was soll das eigentlich genau heißen? • Sinn macht das nur für Funktionen f : [a, b] → R auf Intervallen [a, b]. Was ist mit Funktionen mit anderem Definitionsbereich? Was mit komplexen Funktionen? • Sind die Funktionen in den folgenden Beispielen nun stetig oder nicht? – f : [0, 1] → R gegeben durch f (x) = 0 für x ∈ Q 1 für x 6∈ Q. 58 – f : R → R mit sin x1 0 f (x) = – f : R → R mit f (x) = für x 6= 0 für x = 0 x sin x1 0 für x 6= 0 für x = 0 Für die intuitive Vorstellung, was Stetigkeit bedeutet, ist die Schuldefinition natürlich trotzdem gut geeignet. Um zu einer mathematisch sauberen und brauchbaren Definition zu kommen, orientieren wir uns an der Grenzwertdefinition für Folgen. Wir wollen sagen: falls die Argumente x und x0 dicht beieinander liegen (also mit einem δ > 0 die Ungleichung |x − x0 | < δ gilt), sollen sich auch die Funktionswerte nur wenig unterscheiden (also soll |f (x) − f (x0 )| < ε gelten). Wir brauchen also die Folgerung |x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε, und zwar für alle ε > 0, wobei wir das δ passend zu ε wählen müssen. Diese Wahl von δ in Abhängigkeit von ε > 0 entsprach bei der Definition der Folgenkonvergenz der Wahl des n0 . Damit gelangen wir zu folgender Definition, die sogenannte ε-δ-Definition der Stetigkeit. Definition 5.1. Sei D ⊆ R und sei f : D → R eine Funktion. Weiterhin sei x0 ∈ D. Dann heißt f stetig im Punkt x0 , falls es zu jedem ε > 0 ein δ > 0 gibt, so dass für alle x ∈ D die Implikation |x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε gilt. Mit Quantoren: f ist stetig im Punkt x0 , wenn gilt ∀ε > 0 ∃ δ > 0 ∀x ∈ D : |x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε. Die Stetigkeit nach dieser Definition ist also eine lokale Eigenschaft in einem Punkt x0 des Definitionsbereich der Funktion. In jedem Punkt x0 ∈ D können wir entscheiden, ob die Funktion stetig ist oder nicht. Zur Deutlichkeit schreiben wir die Eigenschaft von f , in einem Punkt x0 ∈ D nicht stetig zu sein, auf: ∃ ε0 > 0 ∀δ > 0 ∃ x ∈ D : |x − x0 | < δ und |f (x) − f (x0 )| ≥ ε0 . Um zu zeigen, dass eine Funktion in einem Punkt x0 nicht stetig ist, muss man also nur ein ε0 finden, so dass es in jeder δ-Umgebung des Punktes x0 einen Punkt x gibt, so dass sich die Funktionswerte f (x) und f (x0 ) um wenigstens ε0 unterscheiden. Verlangt man nun, dass f in jedem Punkt des Definitionsbereichs stetig ist, gelangt man zur globalen Definition einer stetigen Funktion. Definition 5.2. Sei D ⊆ R und sei f : D → R eine Funktion. Dann heißt f stetig (oder global stetig), wenn f in jedem Punkt x0 ∈ D stetig ist. Beispiel 5.3. Konstante Funktionen sind stetig. Beispiel 5.4. Die identische Funktion f : R → R ist stetig (auf ganz R), denn für diese Funktion gilt |f (x) − f (x0 )| = |x − x0 | 59 und man kann zu gegebenem ε > 0 das δ > 0 einfach als δ = ε wählen: |x − x0 | < δ =⇒ |f (x) − f (x0 )| = |x − x0 | < δ = ε. Analog folgt mit der Dreiecksungleichung |x| − |x0 | ≤ |x − x0 | die Stetigkeit der Betragsfunktion g(x) = |x| auf R. Beispiel 5.5. Die Funktion f : R → R gegeben durch f (x) = x2 ist stetig (auf ganz R). Wir werden bald einen einfacheren Weg sehen, um dies zu zeigen. An dieser Stelle beweisen wir die Stetigkeit von f (x) = x2 direkt mit der ε-δ-Definition. Sei also x0 ∈ R beliebig. Um die Stetigkeit von f im Punkt x0 zu zeigen, müssen wir zu gegebenem ε > 0 ein δ > 0 finden, so dass 2 x − x20 < ε für |x − x0 | < δ gilt. Dazu schätzen wir mit der Dreiecksungleichung folgendermaßen ab: 2 x − x20 = (x − x0 )(x + x0 ) = |x − x0 | |x + x0 | ≤ |x − x0 | |x − x0 | + 2|x0 | Ist nun |x − x0 | < 1, (1) so können wir den zweiten Faktor durch |x − x0 | + 2|x0 | ≤ 1 + 2|x0 | abschätzen. Ist außerdem |x − x0 | < ε , 1 + 2|x0 | (2) so erhalten wir insgesamt 2 x − x20 < Wählen wir also ε 1 + 2|x0 | = ε. 1 + 2|x0 | ε δ = min 1, 1 + 2|x0 | > 0, so sind für alle x mit |x − x0 | < δ beide Ungleichungen (1),(2) erfüllt und es folgt wie gewünscht 2 x − x20 < ε. Im letzten Beispiel hängt das gewählte δ nicht nur von ε, sondern auch vom Punkt x0 ∈ D ab. Das ist in der Definition der Stetigkeit natürlich zulässig. Der Punkt x0 wird ja festgehalten. Die stetigen Funktionen, für die man das δ unabhängig von x0 wählen kann, spielen aber ebenfalls eine wichtige Rolle. Dies führt uns zur nächsten Definition, bei der wir aus Symmetriegründen x, x0 durch x1 , x2 ersetzen. Definition 5.6. Sei D ⊆ R und sei f : D → R eine Funktion. Dann heißt f gleichmäßig stetig, falls es zu jedem ε > 0 ein δ > 0 gibt, so dass für alle x1 , x2 ∈ D die Implikation |x1 − x2 | < δ =⇒ |f (x1 ) − f (x2 )| < ε gilt. Mit Quantoren: f ist gleichmäßig stetig, wenn gilt ∀ε > 0 ∃ δ > 0 ∀x1 , x2 ∈ D : |x1 − x2 | < δ =⇒ |f (x1 ) − f (x2 )| < ε. 60 Gleichmäßige Stetigkeit ist also eine Verschärfung der Stetigkeit, es gilt: f gleichmäßig stetig =⇒ f stetig. Die Funktionen aus den Beispielen 5.3 und 5.4 sind gleichmäßig stetig, die Funktion aus 5.5 nicht (tatsächlich?). Betrachtet man aber die Funktion aus Beispiel 5.5 eingeschränkt auf ein Intervall [a, b], also f : [a, b] → R mit f (x) = x2 , so zeigt der Beweis oben, dass man dann δ unabhängig von x0 ∈ [a, b] wählen kann, also f gleichmäßig stetig ist. Die Funktionen aus den Beispielen 5.3 und 5.4 haben sogar noch eine stärkere Stetigkeitseigenschaft, die wir jetzt einführen - sie sind Lipschitz-stetig. Definition 5.7. Sei D ⊆ R und sei f : D → R eine Funktion. Dann heißt f Lipschitz-stetig, falls es eine Konstante L ≥ 0 gibt, so dass für alle x1 , x2 ∈ D die Ungleichung f (x1 ) − f (x2 ) ≤ L |x1 − x2 | gilt. Offenbar sind Lipschitz-stetige Funktionen gleichmäßig stetig, denn hier kann man δ = Lε wählen. Lipschitz-stetige Funktionen sind also gerade die stetigen Funktionen, für die man in der ursprünglichen Stetigkeitsdefinition δ linear in ε wählen kann (und unabhängig von x0 ). Wir haben dann die Implikationen f Lipschitz-stetig =⇒ f gleichmäßig stetig =⇒ f stetig. Beispiel 5.8. Lineare Funktionen sind Lipschitz-stetig. Eine lineare Funktion f : R → R ist eine Funktion der Form f (x) = ax + b mit Konstanten a, b ∈ R. Die Lipschitz-Stetigkeit folgt aus f (x1 ) − f (x2 ) = (ax1 + b) − (ax2 + b) = |a| |x1 − x2 |. Hier kann man also L = |a| wählen. Beispiel 5.9. Die Funktionen f : R → R gegeben durch f (x) = |x|, f (x) = Re x, f (x) = Im x, f (x) = x sind Lipschitz-stetig. Hier kann man L = 1 wählen. Wir kommen nun zum nützlichen Folgenkriterium für Stetigkeit, das in manchen Lehrbüchern auch als Ausgangsdefinition benutzt wird. Satz 5.10 (Folgenkriterium). Sei D ⊆ R, sei f : D → R eine Funktion und sei x0 ∈ D. Dann ist f im Punkt x0 stetig genau dann, wenn für jede Folge (xn ) ⊆ D aus der Konvergenz xn → x0 die Konvergenz f (xn ) → f (x0 ) folgt. Dieses Kriterium zeigt also, dass Stetigkeit eine Aussage über die Vertauschbarkeit von Folgengrenzwerten und Funktionswerten ist: lim f (xn ) = f lim xn . n→∞ n→∞ Beweis. Sei zunächst f stetig in x0 und sei (xn ) ⊆ D eine Folge mit xn → x0 . Wir haben die Konvergenz f (xn ) → f (x0 ) zu zeigen. Dazu wählen wir zunächst zu gegebenem ε > 0 mit Hilfe der Stetigkeitsdefinition ein δ > 0, so dass |x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε 61 für alle x ∈ D gilt. Anschließend wählen wir mit Hilfe der Definition der Konvergenz xn → x0 ein n0 ∈ N mit n ≥ n0 =⇒ |xn − x0 | < δ. Beide Implikationen zusammen liefern n ≥ n0 =⇒ |f (xn ) − f (x0 )| < ε. Da ε > 0 beliebig war, folgt die Konvergenz f (xn ) → f (x0 ). Für die andere Richtung setzen wir voraus, dass f in x0 nicht stetig ist und konstruieren eine Folge (xn ) ⊆ D mit xn → x0 , aber f (xn ) 6→ f (x0 ). Die Unstetigkeit von f in x0 liefert uns ein ε0 > 0, so dass für alle δ > 0 ein x ∈ D existiert mit den beiden Eigenschaften |x − x0 | < δ und |f (x) − f (x0 )| ≥ ε0 existiert. Für n ∈ N benutzen wir jetzt diese Aussage mit δ = n1 , um ein xn ∈ D mit den beiden Eigenschaften 1 |xn − x0 | < und |f (xn ) − f (x0 )| ≥ ε0 n zu finden. Wir erhalten also eine Folge (xn ) ⊆ D. Die Eigenschaft |xn − x0 | < 1 für n ∈ N n liefert xn → x0 , die zweite Eigenschaft |f (xn ) − f (x0 )| ≥ ε0 für n ∈ N liefert f (xn ) 6→ f (x0 ). Damit ist der Beweis vollständig. Aus dem Folgenkriterium für die Stetigkeit ergeben sich nun sofort folgende wichtige Rechengesetze für stetige Funktionen. Algebraische Operationen Seien f, g : D → R stetig im Punkt x0 ∈ D. Dann sind auch die Funktionen f + g, f − g, f g : D → R stetig in x0 . Ist g(x) 6= 0 für x ∈ D, so ist auch die Funktion f :D→R g stetig in x0 . Wir beweisen nur die Stetigkeit von f + g, die anderen Funktionen behandelt man komplett analog. Beweis. Sei (xn ) ⊆ D eine Folge mit xn → x0 . Aus der Stetigkeit von f und g im Punkt x0 folgt mit dem Folgenkriterium f (xn ) → f (x0 ) und g(xn ) → g(x0 ). Damit gilt auch (f + g)(xn ) = f (xn ) + g(xn ) → f (x0 ) + g(x0 ) = (f + g)(x0 ). Anwendung des Folgenkriteriums liefert die Stetigkeit von f + g in x0 . 62 Insbesondere sind also Summen, Differenzen und Produkte stetiger Funktionen wieder stetig. Ebenso sind Quotienten stetiger Funktionen stetig, wenn man den Definitionsbereich einschränkt auf die Punkte x ∈ D, in denen der Nenner nicht verschwindet. Beispiel 5.11. Polynome sind auf ganz R stetig. Ein Polynom ist eine Funktion p : R → R der Form p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0 . Damit ergibt sich die Stetigkeit aus der Stetigkeit der konstanten Funktionen, der identischen Funktion f (x) = x und der Stetigkeit von Summen und Produkten stetiger Funktionen. Beispiel 5.12. Rationale Funktionen sind stetig auf ihrem natürlichen Definitionsbereich. Eine rationale Funktion r ist ein Quotient r = pq zweier Polynome p und q. Ihr natürlicher Definitionsbereich ist D = {x ∈ R : q(x) 6= 0}. Die Stetigkeit von r : D → R ergibt sich aus der Stetigkeit von p, q und der Stetigkeit von p/q in allen Punkten, in denen der Nenner q nicht verschwindet. Kompositionen Auch die Komposition stetiger Funktionen ist wieder stetig. Seien D, E ⊆ R und seien f : D → E und g : E → R. Dann ist die Komposition g ◦ f : D → R definiert. Ist f stetig in x0 ∈ D und ist g stetig in y0 = f (x0 ), so ist g ◦ f stetig in x0 . Insbesondere folgt also aus der Stetigkeit von f und g die Stetigkeit von g ◦ f . Beweis. Für den Beweis nutzen wir wieder das Folgenkriterium. Sei also (xn ) ⊆ D eine Folge mit xn → x0 . Aus der Stetigkeit von f im Punkt x0 folgt mit dem Folgenkriterium yn := f (xn ) → f (x0 ) = y0 . Aus der Stetigkeit von g im Punkt y0 folgt nun mit dem Folgenkriterium g ◦ f (xn ) = g f (xn ) = g(yn ) → g(y0 ) = g f (x0 ) = g ◦ f (x0 ). Anwendung des Folgenkriteriums liefert die Stetigkeit von g ◦ f in x0 . Beispiel 5.13. Ist f : D → R stetig, so ist auch die Funktionen |f | stetig auf D. Diese ist nämlich Kompositionen von f mit den auf ganz R stetigen Funktion g(x) = |x|. Beispiel 5.14. Sind f, g : D → R stetig, so sind auch die Funktionen max{f, g} und min{f, g} stetig. Dies folgt aus den Gleichungen max{f, g} = 1 f + g + |f − g| 2 und min{f, g} = 1 f + g − |f − g| 2 und den obigen Beispielen und Rechengesetzen. Umkehrfunktionen Sei f : [a, b] → D ⊂ R eine stetige bijektive Funktion auf einem abgeschlossenen Intervall [a, b]. Dann ist die Umkehrfunktion f −1 : D → [a, b] stetig. Beweis. Hier müssen wir das Folgenkriterium gemeinsam mit dem Satz von Bolzano-Weierstraß verwenden. Sei also (yn ) ⊆ D eine Folge mit yn → y0 . Unser Ziel ist es, die Konvergenz f −1 (yn ) → f −1 (y0 ) zu zeigen. Dazu setzen wir xn = f −1 (yn ) und x0 = f −1 (y0 ). Es folgt f (xn ) = yn und f (x0 ) = y0 . Die Folge (xn ) ist im Intervall [a, b] enthalten, besitzt also nach dem Satz von Bolzano-Weierstraß eine konvergente Teilfolge (xnk ), sagen wir limk→∞ xnk = ξ ∈ [a, b]. Die Stetigkeit der Funktion f liefert nun mit dem Folgenkriterium die Konvergenz lim ynk = lim f xnk = f (ξ). k→∞ k→∞ 63 Aus der Voraussetzung yn → y0 folgt jetzt f (x0 ) = y0 = f (ξ). Die Bijektivität von f liefert ξ = x0 . Dieses Argument liefert auch, dass jeder Häufungspunkt der Folge (xn ) gleich x0 ist, die Folge hat also nur einen Häufungspunkt x0 und ist damit konvergent: f −1 (yn ) = xn → x0 = f −1 (y0 ). √ Beispiel 5.15. Da die Wurzelfunktion x 7→ k x die Umkehrfunktion der bijektiven stetigen Funktion f : R≥0 → R≥0 , f (x) = xk ist, folgt die Stetigkeit der Wurzelfunktionen. Ebenfalls aus dem Folgenkriterium für die Stetigkeit und dem Satz von Bolzano-Weierstraß erhält man den folgenden Satz. Satz 5.16. Eine stetige Funktion f : [a, b] → R auf einem abgeschlossenen Intervall ist gleichmäßig stetig. Beweis. Nehmen wir an, dass f stetig aber nicht gleichmäßig stetig ist. Dann existieren ε0 > 0 und Folgen (xn ), (x0n ) in [a, b] mit |xn − x0n | → 0 und |f (xn ) − f (x0n | ≥ ε0 . Der Satz von Bolzano-Weierstraß liefert dann eine konvergente Teilfolge (xnk ) von (xn ), sagen wir xnk → x0 . Wegen |x0nk − x0 | ≤ |x0nk − xnk | + |xnk − x0 | → 0 gilt auch x0nk → x0 . Da f stetig ist, impliziert dads Folgenkriterium nun f (xn ) − f (x0n ) → |f (x0 ) − f (x0 )| = 0, k k im Widerspruch zu |f (xnk ) − f (x0nk | ≥ ε0 . Also ist f gleichmäßig stetig, wenn f stetig ist. 5.3 Grenzwerte von Funktionen Der Begriff des Grenzwerts einer Funktion hängt sehr eng mit dem Stetigkeitsbegriff zusammen. Allerdings braucht der Punkt x0 , in dem man den Grenzwert limx→x0 f (x) bestimmen will, nicht zum Definitionsbereich der Funktion f gehören. Er sollte aber an D angrenzen. Dies fassen wir mit folgender Definition. Definition 5.17. Sei D ⊆ R und x0 ∈ R. Dann heißt x0 Häufungspunkt von D, falls es eine Folge (xn ) ⊆ D gibt mit xn 6= x0 für alle n ∈ N und xn → x0 . Beispiel 5.18. Häufungspunkte der Menge D = (0, 1) sind alle Punkte x0 ∈ [0, 1]. Beispiel 5.19. Die Menge Z der ganzen Zahlen hat keine Häufungspunkte. Beispiel 5.20. Die Menge { n1 : n ∈ N} hat genau einen Häufungspunkt x0 = 0. In manchen Büchern findet man die folgende äquivalente Definition: x0 ist Häufungspunkt von D ⊆ R genau dann, wenn es zu jedem ε > 0 ein x ∈ D gibt mit 0 < |x − x0 | < ε, wenn es also in jeder Umgebung von x0 einen von x0 verschiedenen Punkt aus D gibt. 64 Definition 5.21. Sei D ⊆ R und x0 ∈ R ein Häufungspunkt von D. Weiter sei f : D → R und a ∈ R. Dann ist a der Grenzwert von f für x → x0 , wenn für alle Folgen (xn ) ⊆ D mit xn 6= x0 für alle n ∈ N und xn → x0 f (xn ) → a gilt. Dann schreibt man lim f (x) = a. x→x0 Man beachte, dass im Fall x0 ∈ D der Funktionswert f (x0 ) für die Existenz des Grenzwerts keine Rolle spielt! Mit dem Folgenkriterium für Stetigkeit ergibt sich, dass limx→x0 f (x) = a genau dann gilt, wenn die Funktion g : D ∪ {x0 } → R definiert durch f (x) für x 6= x0 g(x) = a für x = x0 im Punkt x0 stetig ist. Insbesondere gilt für eine im Punkt x0 ∈ D stetige Funktion f : D → R lim f (x) = f (x0 ). x→x0 Beispiel 5.22. Sei D = R \ {1}, x0 = 1 und f (x) = x2 − 1 . x−1 Dann ist f im Punkt x0 = 1 nicht definiert, aber es gilt x2 − 1 (x + 1)(x − 1) = lim = lim (x + 1) = 2. x→1 x − 1 x→1 x→1 x−1 lim Dies ist äquivalent dazu, dass die fortgesetzte Funktion g : R → R gegeben durch ( 2 x −1 für x 6= 1 x−1 g(x) = 2 für x = 1 im Punkt x0 = 1 stetig ist. Dies ist offensichtlich, wenn man g(x) = x + 1 für alle x ∈ R beobachtet. Aus den Rechenregeln für stetige Funktionen ergeben sich sofort die folgenden Eigenschaften. • lim f (x) = a, lim g(x) = b =⇒ lim f (x) ± g(x) = a ± b x→x0 x→x0 x→x0 • lim f (x) = a, lim g(x) = b =⇒ lim f (x) g(x) = a b x→x0 x→x0 x→x0 • lim f (x) = a, lim g(x) = b =⇒ lim x→x0 x→x0 x→x0 f (x) a = , falls b 6= 0 ist. g(x) b • Ist f : D → E ⊆ R und existiert limx→x0 f (x) = a ∈ E, und ist g : E → R stetig in a ∈ E, so existiert limx→x0 g ◦ f (x) = g(a). • lim f (x) = lim f (x) x→x0 x→x0 65 Beispiel 5.23. r lim x→1 3 x2 − 1 = x−1 r 3 √ x2 − 1 q 3 = 3 lim (x + 1) = 2. x→1 x − 1 x→1 lim Zum Abschluß dieses Abschnitts führen wir noch zwei Modifikationen von Grenzwerten von Funktionen ein. Zunächst kann man wie bei reellen Folgen uneigentliche Grenzwerte betrachten. Dazu sei D ⊆ R und f : D → R. • Ist x0 Häufungspunkt von D und gilt limn→∞ f (xn ) = +∞ für jede Folge (xn ) ⊆ D mit xn 6= x0 für alle n ∈ N und xn → x0 , so schreiben wir lim f (x) = +∞. x→x0 • Ist x0 Häufungspunkt von D und gilt limn→∞ f (xn ) = −∞ für jede Folge (xn ) ⊆ D mit xn 6= x0 für alle n ∈ N und xn → x0 , so schreiben wir lim f (x) = −∞. x→x0 • Ist D nach oben unbeschränkt und gilt limn→∞ f (xn ) = a für jede Folge (xn ) ⊆ D mit xn → +∞, so schreiben wir lim f (x) = a. Hierbei kann a ∈ R oder a = ±∞ sein. x→+∞ • Ist D nach unten unbeschränkt und gilt limn→∞ f (xn ) = a für jede Folge (xn ) ⊆ D mit xn → −∞, so schreiben wir lim f (x) = a. Hierbei kann a ∈ R oder a = ±∞ sein. x→−∞ Beispiel 5.24. Sei f : R \ {0} → R gegeben durch f (x) = 1 . x2 Dann gilt 1 = +∞. x→0 x2 lim f (x) = lim x→0 Beispiel 5.25. Sei p : R → R ein Polynom n-ten Grades gegeben durch p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0 mit an 6= 0. Dann gilt limx→+∞ p(x) = +∞, falls an > 0 ist, und limx→+∞ p(x) = −∞, falls an < 0 ist (tatsächlich?). Überlegen Sie sich die verschiedenen Möglichkeiten für limx→−∞ p(x) (das hängt auch davon ab, ob n gerade oder ungerade ist!). Außerdem kann man bei reellem Definitionsbereich auch einseitige Grenzwerte betrachten. Dazu sei D ⊆ R und f : D → R. Weiter sei x0 ein Häufungspunkt der Menge D+ = {x ∈ D : x > x0 }. Dann heißt a rechtsseitiger Grenzwert von f für x → x0 (oder Grenzwert von oben/rechts), wenn für alle Folgen (xn ) ⊆ D+ mit xn → x0 die Konvergenz f (xn ) → a gilt. Dann schreibt man lim f (x) = x&x0 lim f (x) = a. x→(x0 )+ Ist x0 ein Häufungspunkt der Menge D− = {x ∈ D : x < x0 }, so heißt a linksseitiger Grenzwert von f für x → x0 (oder Grenzwert von unten/links), wenn für alle Folgen (xn ) ⊆ D− mit xn → x0 die Konvergenz f (xn ) → a gilt. Dann schreibt man lim f (x) = x%x0 lim f (x) = a. x→(x0 )− Ist x0 Häufungspunkt von D+ und von D− , so existiert limx→x0 f (x) genau dann, wenn limx&x0 f (x) und limx%x0 f (x) existieren und übereinstimmen. In diesem Fall ist lim f (x) = lim f (x) = lim f (x). x→x0 x&x0 x%x0 66 Beispiel 5.26. Die Heavyside-Funktion ist eine stückweise definierte Funktion f : R → R gegeben durch 0 für x < 0 f (x) = 1 für x ≥ 0 Sie ist zwar im Punkt x0 = 0 unstetig und macht dort einen Sprung, aber rechts- und linksseitige Grenzwerte existieren lim f (x) = lim f (x) = 1 und x→0+ x&0 lim f (x) = lim f (x) = 0. x→0− x%0 Der Grenzwert limx→0 f (x) existiert nicht. 1.2 y 1 0.8 0.6 0.4 0.2 x −3 −2 −1 1 2 3 −0.2 Beispiel 5.27. Wir betrachten die Funktion f (x) = 1 1 − x2 auf ihrem natürlichen Definitionsbereich D = R \ {±1}. Dann gilt 1 = −∞, x&1 1 − x2 lim 1 = ∞, x%1 1 − x2 lim 1 1 = lim = 0. 2 x→+∞ 1 − x x→−∞ 1 − x2 lim Die Funktion f hat bei x0 = −1 und bei x0 = 1 Polstellen. 67 y f (x) = 1 1−x2 4 2 x −3 −2 −1 1 2 3 −2 −4 Beispiel 5.28. Wir betrachten die Funktion x−2 x2 −4 f (x) = 0 für x 6= ±2 für x = ±2 auf dem Definitionsbereich D = R. Wegen f (x) = x−2 1 x−2 = = 2 x −4 (x − 2)(x + 2) x+2 für x 6= ±2 erhalten wir 1 1 = . x→2 x + 2 4 lim f (x) = lim x→2 Durch umdefinieren der Funktion an der Stelle x0 = 2 zu f (2) = 14 statt f (2) = 0 können wir die Funktion dort stetig machen, die Funktion hat dort eine hebbare Unstetigkeit. Bei x0 = −2 liegt wieder eine Polstelle vor. y 2 1 x −4 −3 −2 −1 1 −1 −2 −3 2 3 4 68 5.4 Zwischenwertsatz und Satz vom Maximum und Minimum In diesem Abschnitt wollen wir zwei wichtige Sätze über stetige Funktionen kennenlernen, den Zwischenwertsatz und den Satz vom Maximum und Minimum. Der Zwischenwertsatz ist die intuitiv einleuchtende Tatsache, dass eine stetige reelle Funktion auf einem abgeschlossenen Intervall jeden Wert zwischen den Funktionswerten an den Intervallenden annimmt. Satz 5.29. Sei f : [a, b] → R stetig und sei y ∈ R ein Wert zwischen f (a) und f (b) (d.h. f (a) ≤ y ≤ f (b) oder f (b) ≤ y ≤ f (a)). Dann gibt es ein x ∈ [a, b] mit f (x) = y. y 20 15 10 5 x 3 4 5 6 7 8 Beweis. Wir betrachten nur den Fall f (a) ≤ f (b). Der Fall f (b) ≤ f (a) kann analog behandelt werden oder durch den Übergang von f zu −f . Sei also f (a) ≤ y ≤ f (b). Wir konstruieren eine Intervallschachtelung, die schließlich das gesuchte x im Durchschnitt liefert. Dazu setzen wir a1 = a Ist nun f a1 + b1 2 a1 + b1 2 b1 = b. und ≥ y, setzen wir a2 = a1 und b2 = a1 + b1 . 2 Ist hingegen f < y, setzen wir a2 = a1 + b1 2 und b2 = b1 . In jedem Fall ist [a2 , b2 ] eine Hälfte des Intervalls [a1 , b1 ] und es gilt f (a2 ) ≤ y ≤ f (b2 ). Dieses Verfahren setzen wir induktiv fort. Sind an , bn mit f (an ) ≤ y ≤ f (bn ) bereits konstruiert und ist an + bn an + bn f ≥ y, setzen wir an+1 = an und bn+1 = . 2 2 69 Ist hingegen f an + bn 2 < y, setzen wir an+1 = an + bn 2 und bn+1 = bn . Wir erhalten zwei Folgen (an ) und (bn ) mit a = a1 ≤ a2 ≤ · · · ≤ an ≤ · · · ≤ bn ≤ · · · ≤ b2 ≤ b1 = b und |an − bn | → 0. Also sind (an ) und (bn ) monotone und beschränkte Folgen und damit konvergent mit dem gleichen Grenzwert x = lim an = lim bn . Die Stetigkeit von f und das Folgenkriterium liefern nun f (x) = lim f (an ) = lim f (bn ). Außerdem gilt für jedes n ∈ N nach Konstruktion f (an ) ≤ y ≤ f (bn ), was nun lim f (an ) ≤ y ≤ lim f (bn ) impliziert. Es folgt f (x) = lim f (an ) = lim f (bn ) = y. Wir betrachten drei Anwendungen des Zwischenwertsatzes, um seine Bedeutung zu demonstrieren. Beispiel 5.30. Der Zwischenwertsatz liefert sehr einfach die Existenz von Wurzeln, für die wir mit Hilfe der Vollständigkeit der reellen Zahlen früher ein komplizierteres Argument brauchten. Dazu sei a > 0, n ∈ N und f : R≥0 → R gegeben durch f (x) = xn − a. Als Polynom ist f stetig. Außerdem ist f (0) = −a < 0 und f (1 + a) = (1 + a)n − a > 0. Der Zwischenwertsatz liefert ein √ x ∈ [0, 1 + a] mit f (x) = 0, also xn = a bzw. x = n a. Beispiel 5.31. Der Zwischenwertsatz liefert ebenfalls die Existenz von reellen Nullstellen von Polynomen mit ungeradem Grad. Sei dazu n ∈ N ungerade und p : R → R ein Polynom n-ten Grades gegeben durch p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0 mit an 6= 0. Wir nehmen o.B.d.A. an > 0 an. Die Betrachtungen in Beispiel 5.25 haben limx→+∞ p(x) = +∞ und limx→−∞ p(x) = −∞ gezeigt. Es gibt also a, b ∈ R mit a < b und p(a) < 0, p(b) > 0. Der Zwischenwertsatz liefert ein x ∈ [a, b] mit p(x) = 0. Beispiel 5.32. Die nächste Anwendung ist ein einfacher Fixpunktsatz. Sei f : [0, 1] → [0, 1] stetig. Dann existiert ein x ∈ [0, 1] mit f (x) = x. Zum Beweis betrachten wir die stetige Funktion g(x) = f (x) − x. Dann ist g(0) = f (0) − 0 ≥ 0 und g(1) = f (1) − 1 ≤ 0. Der Zwischenwertsatz liefert ein x ∈ [0, 1] mit g(x) = 0, also f (x) = x. Wir kommen nun zum Satz vom Maximum und Minimum. Satz 5.33. Sei f : [a, b] → R stetig. Dann gibt es xm und xM in [a, b] mit f (xm ) ≤ f (x) ≤ f (xM ) für alle x ∈ [a, b]. 70 Eine stetige Funktion auf einem abgeschlossenen Intervall ist also beschränkt und nimmt ihr Maximum M = f (xM ) und ihr Minimum m = f (xm ) auf diesem Intervall an. Zusammen mit dem Zwischenwertsatz liefert dies, dass das Bild einer stetigen Funktion f : [a, b] → R ein abgeschlossenes Intervall ist, f [a, b] = [m, M ]. Die Abgeschlossenheit des Intervalls [a, b] in der Voraussetzung des Satzes ist wichtig. So ist die Funktion f (x) = x1 auf (0, 1] stetig, aber unbeschränkt. Beweis. Die wichtigsten Zutaten des Beweises sind der Satz von Bolzano-Weierstraß und das Folgenkriterium für Stetigkeit. Sei A = f [a, b] und sei S = sup A. Beachten Sie, dass im Moment der Fall S = +∞ noch nicht ausgeschlossen ist. In jedem Fall gibt es eine Folge (yn ) ⊆ A mit yn → S. Wir wählen zu jedem yn ein Urbild xn ∈ [a, b] mit f (xn ) = yn . Der Satz von Bolzano-Weierstraß liefert uns nun eine konvergente Teilfolge (xnk ) von (xn ) mit Grenzwert xM ∈ [a, b], lim xnk = xM . k→∞ Das Folgenkriterium für die Stetigkeit gibt dann S = lim ynk = lim f xnk = f (xM ). k→∞ k→∞ Es folgt die Endlichkeit von S und dass das Supremum tatsächlich angenommen wird, also ein Maximum ist. Die Existenz von xm erhält man analog oder durch Übergang von f zu −f . 5.5 Elementare Funktionen In diesem Abschnitt wollen wir kurz wichtige elementaren Funktionen einführen. Polynome und rationale Funktionen kennen wir bereits. Es folgen Exponentialfunktion, Potenzfunktion, Logarithmusfunktion, trigonometrische Funktionen und deren Umkehrfunktionen sowie Hyperbelfunktionen und deren Umkehrfunktionen. 5.5.1 Exponentialfunktion Sei a ∈ R mit a > 0 fixiert. Für rationales x = m n mit m ∈ Z und n ∈ N definieren wir dann ax = am/n := √ n am . Die Funktion x 7→ ax definiert auf Q ist dann streng monoton wachsend für a > 1 und streng monoton fallend für a < 1. Für a > 1 ergibt sich das aus der Monotonie der Wurzelfunktion durch Ziehen der (n1 n2 )-ten Wurzel aus am1 n2 < am2 n1 , was für m2 m1 < ⇐⇒ m1 n2 < m2 n1 n1 n2 aus a > 1 folgt. Den Beweis für 0 < a < 1 führt man analog. Für beliebiges x ∈ R kann man nun ax durch Grenzübergang gewinnen. Grundlage ist der folgende Satz. 71 Satz 5.34. Sei (xn ) ⊂ Q monoton wachsend und konvergent mit lim xn = x. Dann konvergiert die Folge (axn ). Der Grenzwert hängt nur von x ab, nicht von der konkreten Auswahl der Folge (xn ). Beweis. Wir nehmen ohne Beschränkung der Allgemeinheit a > 1 an. Dann ist die Folge (axn ) nach den vorhergehenden Bemerkungen monoton wachsend und außerdem nach oben beschränkt, z. B. durch ay für ein y ∈ Q mit y > x. Nach dem Monotoniekriterium konvergiert (axn ). Um die Unabhängigkeit des Grenzwerts von der Auswahl der Folge (xn ) einzusehen, sei (x0n ) eine beliebige Folge rationaler Zahlen mit x0n → x. Dann ist für fixiertes k ∈ N xn − x0n < 1 k √ k 0 a → 1 folgt axn −xn → 1 und damit 0 0 axn − axn = axn 1 − axn −xn → 0. für genügend großes n. Wegen Also existiert auch 0 lim axn = lim axn . Im Beweis haben wir sogar gezeigt, dass für jede (auch nicht monotone) Folgen (x0n ) rationaler Zahlen der Grenzwert existiert und nur von x abhängt. Wir können also definieren: Definition 5.35. Sei a > 0 und x ∈ R. Dann setzen wir ax := lim axn , n→∞ wobei (xn ) eine beliebige Folge rationaler Zahlen mit xn → x ist. Insbesondere ist hiermit die Exponentialfunktion exp(x) = ex definiert. Wie für x = 1 kann man zeigen, dass x e = lim n→∞ ∞ x n X x k 1+ = n k! k=0 gilt. Die letzte Darstellung heißt Exponentialreihe und kann zur Definition der Exponentialfunktion für komplexe x genutzt werden. Die Reihe ist nämlich für alle x ∈ C absolut konvergent. Wir fassen nun noch einige Eigenschaften der Exponentialfunktionen zusammen. • f (x) = ax , x ∈ R ist stetig. • f (x) = ax , x ∈ R ist für a > 1 streng monoton wachsend und für 0 < a < 1 streng monoton fallend. • Das Bild der Exponentialfunktion f (x) = ax für a 6= 1 ist (0, ∞. • Es gilt ax+y = ax ay . 72 6 y a>1 5 4 3 2 1 x a<1 −2 −1 1 2 Die folgenden Abschätzungen für die Exponentialfunktion sind oft nützlich: ex ≥ 1 + x für x ≥ −1 und ex ≤ 1 1−x für x < 1. n Hier folgt die Abschätzung nach unten aus der Bernoulli-Ungleichung 1 + nx ≥ 1+x für n ∈ N n und x ≥ −1, die Abschätzung nach oben aus der Bernoulli-Ungleichung 1 − nx ≥ 1 − x für n −n n ∈ N und x < 1 und der Ungleichung 1 + nx ≤ 1 − nx . Die Abschätzung nach unten gilt natürlich auch für x < −1, ist dort aber wegen ex > 0 trivial. 5.5.2 Potenzfunktion Unter Verwendung der Exponentialfunktion aus dem vorhergehenden Abschnitt definiert man sofort die Potenzfunktion y = f (x) = xa für a ∈ R. Im allgemeinen ist der Definitionsbereich von f dabei R>0 , natürlich kann man wie üblich für a ∈ N als Definitionsbereich ganz R verwenden, und für ganzzahliges a mit a < 0 kann man R \ {0} benutzen. Die Potenzfunktion ist stetig. 73 a>1 4 y 3 2 a=1 0<a<1 1 a<0 x 0.2 0.4 0.6 0.8 5.5.3 1 1.2 1.4 1.6 1.8 2 Logarithmusfunktion Für a > 0, a 6= 1 ist die Exponentialfunktion f : R → R>0 definiert durch f (x) = ax streng monoton, stetig und bijektiv. Also existiert die Umkehrfunktion f −1 : R>0 → R. Dies ist die Logarithmusfunktion mit Basis a. Man bezeichnet sie mit f −1 (x) = loga x. Sie ist für den angegebenen Definitions- und Wertebereich bijektiv und stetig, für a > 1 streng monoton wachsend und für a < 1 streng monoton fallend. Die Logarithmusfunktion zur Basis e wird natürlicher Logarithmus genannt und durch log x := ln x := loge x bezeichnet. 4 y a>1 2 x 2 4 6 −2 8 10 0<a<1 −4 Es ist also y = loga x ⇐⇒ x = ay 74 Damit ergeben sich aus den Rechengesetzen für die Exponentialfunktion die folgenden Regeln für die Logarithmusfunktion für jede Basis a und x, y > 0: loga xy = loga x + loga y x loga = loga x − loga y y loga xy = y loga x. Außerdem kann man mit der Formel logb x = loga x loga b Logarithmen zu verschiedenen Basen ineinander umrechnen. 5.5.4 Trigonometrische Funktionen Die trigonometrischen Funktionen wiederholen wir mit ihren Definitionen am Einheitskreis, die aus der Schule bekannt sind. Dazu brauchen wir die Bogenlänge eines Kreisbogens am Einheitskreis, die dem Winkels des entsprechenden Kreissektors im Bogenmaß entspricht. Da die Bogenlänge einer Kurve an dieser Stelle der Vorlesung mathematisch eigentlich noch nicht klar ist, ist dieser Zugang nicht ganz befriedigend. Man kann die trigonometrischen Funktionen auch alternativ und dann gleich für komplexe Argumente durch Potenzreihen einführen. Die Potenzreihen der trigonometrischen Funktionen behandeln wir hier aber erst später. 1 1 2 −1 sin x sin x x tan x = cos x cos x − 12 1 − 21 −1 Man findet also cos x (Kosinus) und sin x (Sinus) als Koordinaten des Endpunktes des Kreisbogens mit der Bogenlänge x, der im Punkt (1, 0) beginnt und im mathematisch positiven Sinn sin x verläuft. Ist cos x 6= 0, also x 6= π2 + kπ für alle k ∈ Z, dann definiert man noch tan x = cos x . Ist cos x sin x 6= 0, also x 6= kπ für alle k ∈ Z, dann definiert man entsprechend und cot x = sin x . 75 1 y 0.5 x π π 2 − π2 −π 3π 2 sin x −0.5 cos x −1 tan x 6 y 4 2 x −π π − π2 2 3π 2 2π −2 −4 −6 cot x Es folgen einige Eigenschaften dieser Funktionen, viele weitere finden Sie in Nachschlagewerken. • sin, cos, tan, cot sind auf ihren Definitionsbereichen stetig. • cos und sin sind periodisch mit Periode 2π: cos(x + 2π) = cos x, sin(x + 2π) = sin x • tan und cot sind periodisch mit Periode π: tan(x + π) = tan x, cot(x + π) = cot x • cos ist eine gerade Funktion: cos(−x) = cos x • sin ist eine ungerade Funktion: sin(−x) = − sin x • tan und cot sind ungerade Funktionen • Es gelten die Additionstheoreme sin(x + y) = sin x cos y + cos x sin y cos(x + y) = cos x cos y − sin x sin y 76 • Es gilt sin x = 1. x→0 x lim Wir überlegen uns nur die letzte Eigenschaft, die vorhergehenden setzen wir als bekannt voraus. Da sinx x eine gerade Funktion ist, genügt es lim x&0 sin x =1 x zu zeigen. Um diesen Grenzwert zu berechnen, beobachten wir, dass der Kreissektor mit Bogenlänge x für 0 < x < π2 das rechtwinklige Dreieck mit den Kathetenlängen sin x und cos x sin x enthält und andererseits im rechtwinkligen Dreieck mit den Kathetenlängen tan x = cos x und 1 enthalten ist. Vergleich der Flächen des Kreissektors mit diesen Dreiecken liefert sin x cos x ≤ x ≤ sin x , cos x also sin x 1 ≤ . x cos x Da cos stetig ist, ist limx→0 cos x = 1. Damit folgt aus dem Sandwichlemma cos x ≤ lim x&0 5.5.5 sin x = 1. x Umkehrfunktionen der trigonometrischen Funktionen Für die Definition der Umkehrfunktionen der trigonometrischen Funktionen, den Arcus-Funktionen, benötigen wir Intervalle, auf denen die trigonometrischen Funktionen streng monoton sind. Dazu benutzt man für • cos das Intervall [0, π], wo cos streng monoton fallend ist • sin das Intervall [−π/2, π/2], wo sin streng monoton wachsend ist • tan das Intervall (−π/2, π/2), wo tan streng monoton wachsend ist und erhält die inversen Funktionen • arccos : [−1, 1] → [0, π], die stetig und monoton fallend ist • arcsin : [−1, 1] → [−π/2, π/2], die stetig und monoton wachsend ist • arctan : R → (−π/2, π/2), die stetig und monoton wachsend ist. Man hat also y arccos x ⇐⇒ x = cos y und y ∈ [0, π] y arcsin x ⇐⇒ x = sin y und y ∈ [−π/2, π/2] y arctan x ⇐⇒ x = tan y und y ∈ (−π/2, π/2) 77 5.5.6 Hyperbelfunktionen Schließlich betrachten wir noch die beiden Hyperbelfunktionen oder hyperbolischen Funktionen • hyperbolischer Sinus, sinus hyperbolicus: sinh x = ex −e−x 2 • hyperbolischer Kosinus, cosinus hyperbolicus: cosh x = ex +e−x 2 Diese Funktionen haben die folgenden Eigenschaften: • sinh, cosh sind auf ganz R stetig. • sinh ist ungerade, cosh ist gerade. • sinh ist streng monoton wachsend. • cosh ist für x ≥ 0 streng monoton wachsend und für x ≤ 0 streng monoton fallend. Damit kann man auch die Umkehrfunktionen der hyperbolischen Funktionen definieren: • area sinus hyperbolicus: arsinh : R → R • area cosinus hyperbolicus: arcosh : [1, ∞) → [0, ∞) Direkt mittels Definitionen rechnet man folgende Formeln nach: • cosh(x + y) = cosh x cosh y + sinh x sinh y • sinh(x + y) = sinh x cosh y + cosh x sinh y • cosh2 x − sinh2 x = 1 √ • arsinh x = ln x + x2 + 1 √ • arcosh x = ln x + x2 − 1 78 6 Differentialrechnung In diesem Kapitel studieren wir den Begriff der Ableitung einer Funktion von einer Variablen. Wir wenden diesen an, um Extremwerte von Funktionen zu bestimmen. Außerdem beschäftigen wir uns mit höheren Ableitungen und der Approximation von Funktionen durch Taylorpolynome, mit Bedingungen für Monotonie, Konvexität, Extremal- und Wendepunkten. Abschließend studieren wir die l’Hospitalsche Regel zur Berechnung von Grenzwerten. 6.1 Der Ableitungsbegriff Definition 6.1. Sei I = (a, b) ein Intervall und f : I → R. Dann heißt f in einem Punkt x0 ∈ I differenzierbar, falls der Grenzwert f (x0 + h) − f (x0 ) f (x) − f (x0 ) = lim x→x0 h→0 h x − x0 lim existiert. In diesem Fall heißt dieser Grenzwert die Ableitung von f in x0 und wird mit f 0 (x0 ) df oder dx (x0 ) bezeichnet. Ist f in jedem Punkt von I differenzierbar, so heißt f differenzierbar und f 0 : I → R heißt Ableitung von f . Für festes h 6= 0 ist der Differenzenquotient f (x0 + h) − f (x0 ) h der Anstieg der Sekante durch die Punkte x0 , f (x0 ) und x0 + h, f (x0 + h) des Graphen von f . Die Ableitung f 0 (x0 ), auch Differentialquotient genannt, ist also der Grenzwert der Anstiege dieser Sekanten für h → 0, geometrisch also der Anstieg der Tangente an den Graph von f im Punkt x0 , f (x0 ) . Damit erhält man auch die Geradengleichung der Tangente in diesem Punkt als y = f (x0 ) + f 0 (x0 )(x − x0 ). Physikalisch kann man die Ableitung auch als Momentangeschwindigkeit deuten. Dazu sei s(t) der Ort eines sich auf einer Geraden bewegenden Massepunktes zur Zeit t. Dann ist der Differenzenquotient s(t + h) − s(t) h die Durchschnittsgeschwindigkeit des Punktes im Zeitintervall [t, t + h] und die Ableitung v(t) = ṡ(t) = s0 (t) ist die Geschwindigkeit zum Zeitpunkt t. Beispiel 6.2. Sei f (x) = xn mit n ∈ N. Dann ist f auf ganz R differenzierbar und es gilt f 0 (x) = nxn−1 . Dies folgt nach Anwendung der binomischen Formel aus n n−2 n n−3 2 n n−1 f (x + h) − f (x) (x + h)n − xn n−1 = = nx + x h++ x h + ··· + + h h h 2 3 n und Grenzwertbildung h → 0. 79 Beispiel 6.3. Sei f (x) = sin x. Dann ist f auf ganz R differenzierbar und es gilt f 0 (x) = cos x. Dies folgt nach Anwendung des Additionstheorems sin a − sin b = 2 cos a+b a−b sin 2 2 aus 2 cos x + f (x + h) − f (x) sin(x + h) − sin x = = h h h h 2 sin h2 h sin h2 = cos x + h 2 2 und Grenzwertbildung h → 0. Beispiel 6.4. Sei f (x) = ex . Dann ist f auf ganz R differenzierbar und es gilt f 0 (x) = f (x) = ex . Zum Beweis beobachten wir zunächst f (x + h) − f (x) ex+h − ex eh − 1 = = ex . h h h Es genügt also limh→0 eh −1 h = 1 zu zeigen. Dies folgt sofort aus den Ungleichungen 1 eh − 1 ≤ ≤1 1−h h für − 1 < h < 1, die wiederum direkt aus den schon bewiesenen Abschätzungen 1 1−h ≤ eh ≤ 1 + h folgen. Der folgende Satz zeigt, dass Differenzierbarkeit eine stärkere Forderung als Stetigkeit ist. Satz 6.5. Ist f in x0 differenzierbar, so ist f in x0 stetig. Beweis. Wir führen den Beweis mit dem Folgenkriterium für die Stetigkeit. Sei also (xn ) ⊂ I eine Folge mit xn 6= x0 für alle n ∈ N und xn → x0 . Die Differenzierbarkeit in x0 liefert die Existenz des Grenzwerts f (xn ) − f (x0 ) lim = f 0 (x0 ). n→∞ xn − x0 Folglich existiert auch lim f (xn ) − f (x0 ) = lim xn − x0 f 0 (x0 ) = 0 n→∞ n→∞ und damit ist lim f (xn ) = f (x0 ). n→∞ Die Umkehrung in diesem Satz gilt nicht, wie die stetige Betragsfunktion f (x) = |x| zeigt, die im Punkt x = 0 nicht differenzierbar ist. 80 6.2 Differentiationsregeln Aus den Rechenregeln für Grenzwerte ergeben sich wichtige Rechenregeln für Ableitungen. Dazu seien f, g : I → R im Punkt x ∈ I differenzierbare Funktionen. Dann gelten: • f + g ist in x differenzierbar und (f + g)0 (x) = f 0 (x) + g 0 (x). • Für jedes c ∈ R ist cf in x differenzierbar und (cf )0 (x) = cf 0 (x). Diese beiden Eigenschaften nennt man Linearität der Ableitung. Auch f g ist in x differenzierbar und es gilt die Produktregel • (f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x). Ist g 6= 0 zumindest in einer Umgebung von x, so gilt die Quotientenregel • 0 f g (x) = f 0 (x)g(x)−f (x)g 0 (x) . g(x)2 Die Linearität der Ableitung folgt direkt aus der Definition. Wir zeigen die Produktregel: f (x + h)g(x + h) − f (x)g(x) h→0 h g(x + h) − g(x) f (x + h) − f (x) = lim f (x + h) + lim g(x) h→0 h→0 h h = f (x)g 0 (x) + f 0 (x)g(x). (f g)0 (x) = lim 0 g 0 (x) Die Quotientenregel folgt aus der Produktregel, sobald die einfachere Variante g1 (x) = − g(x) 2 benutzt werden kann. Diese werden wir unten als einfache Anwendung der Kettenregel zeigen. Beispiel 6.6. Die Tangensfunktion ist auf ihrem gesamten Definitionsbereich differenzierbar mit Ableitung d sin x sin0 x cos x − sin x cos0 x cos2 x + sin2 x 1 d tan x = = = = = 1 + tan2 x. 2 2 dx dx cos x cos x cos x cos2 x Auch Umkehrfunktionen kann man bequem durch Zurückführung auf die Ausgangsfunktion differenzieren, wie der nächste Satz zeigt. Satz 6.7. Sei f : I → R auf dem Intervall I = (a, b) streng monoton und stetig. Ist f im Punkt x ∈ I differenzierbar und ist f 0 (x) 6= 0, dann ist die Umkehrfunktion f −1 im Punkt y = f (x) differenzierbar und es gilt 0 1 1 = 0 −1 . f −1 (y) = 0 f (x) f f (y) Sehr einprägsam ist diese Regel in der mathematisch nicht ganz exakten Formulierung dx 1 = dy . dy dx 81 Beweis. Sei (yn ) eine Folge im Intervall f (I) mit yn → y. Wir setzen xn = f −1 (yn ), also ist yn = f (xn ). Aus der im vorhergehenden Kapitel gezeigten Stetigkeit der Umkehrfunktion f −1 folgt xn = f −1 (yn ) → f −1 (y) = x. Dann folgt weiter xn − x f −1 (yn ) − f −1 (y) = lim = lim n→∞ f (xn ) − f (x) n→∞ n→∞ yn − y lim 1 f (xn )−f (x) xn −x = 1 f 0 (x) . Beispiel 6.8. Wir betrachten die Exponentialfunktion y = f (x) = ex mit der Ableitung y 0 = f 0 (x) = ex . Dann ergibt sich die Differenzierbarkeit der Umkehrfunktion x = f −1 (y) = ln y mit der Ableitung d 1 1 1 ln y = 0 = x = . dy f (x) e y π Beispiel 6.9. Sei jetzt y = f (x) = tan x mit −π 2 < x < 2 . Dann ergibt sich die Differenzierbarkeit der Umkehrfunktion x = f −1 (y) = arctan y mit der Ableitung d 1 1 1 arctan y = 0 = = . 2 dy f (x) 1 + y2 1 + tan x Schließlich zeigt der folgende Satz, wie man Kompositionen von Funktionen mittels der sogenannten Kettenregel differenziert. Satz 6.10. Seien f : I → J und g : J → R zwei Funktionen. Ist f im Punkt x ∈ I differenzierbar und g im Punkt y = f (x) differenzierbar, dann ist die Komposition g ◦ f in x differenzierbar und es gilt 0 d g ◦ f (x) = g f (x) = g 0 f (x) f 0 (x). dx Beweis. Wir zeigen Differenzierbarkeit im Punkt x0 und setzen y0 = f (x0 ). Dazu betrachten wir die Hilfsfunktion ( g(y)−g(y0 für y 6= y0 y−y0 h(y) = g 0 (y0 ) für y = y0 Nach Definition ist h stetig in y0 und es gilt g(y) − g(y0 ) = h(y)(y − y0 ). Wir erhalten h f (x) f (x) − f (x0 ) g f (x) − g f (x0 ) = lim lim x→x0 x→x0 x − x0 x − x0 f (x) − f (x0 ) = lim h f (x) lim x→x0 x→x0 x − x0 0 0 0 = h(y0 )f (x0 ) = g (y0 )f (x0 ). Beispiel 6.11. Wir wollen die allgemeine Potenzfunktion y = xa differenzieren und benutzen y = ea ln x = exp(a ln x). Damit ergibt sich a dy a a = exp0 (a ln x) = exp(a ln x) = xa = axa−1 dx x x x für beliebiges reelles a. 82 0 g 0 (x) Beispiel 6.12. Wir tragen den Beweis der Kehrwertregel g1 (x) = − g(x) 2 nach, die wir beim Beweis der Quotientenregel benutzt haben. Die Funktion 1/g ist Verkettung der Funktionen g(x) und der Potenzfunktion h(y) = 1/y = y −1 . Aus der Kettenregel und h0 (y) = − y12 ergibt sich dann sofort die Kehrwertregel. Beispiel 6.13. Die logarithmische Ableitung ist ein bequemes Mittel, um sehr multiplikativ aufgebaute Funktionen zu differenzieren. Diese ergibt sich mittels Anwendung der Kettenregel 0 auf die Funktion g = ln f . Aus g 0 = ff erhält man f 0 = f (ln f )0 . Ist zum Beispiel f (x) = xx , so ist ln f (x) = x ln x mittels Produktregel einfach zu differenzieren und man erhält f 0 (x) = f (x)(ln x + 1) = xx (ln x + 1). 6.3 Lokale Extrema und Mittelwertsatz In diesem Abschnitt wollen eine notwendige Bedingung für das Vorliegen einer lokalen Extremalstelle einer Funktion kennenlernen und daraus die Mittelwertsätze ableiten. Definition 6.14. Sei I = (a, b) und f : I → R. Ein Punkt x0 ∈ I heißt lokale Minimalstelle von f , falls es ein ε > 0 gibt mit f (x) ≥ f (x0 ) für x0 − ε < x < x0 + ε. Ein Punkt x0 ∈ I heißt lokale Maximalstelle von f , falls es ein ε > 0 gibt mit f (x) ≤ f (x0 ) für x0 − ε < x < x0 + ε. Der entsprechende Funktionswert f (x0 ) heißt lokales Minimum bzw. lokales Maximum. Eine lokale Extremalstelle ist eine lokale Minimalstelle oder Maximalstelle, ein lokales Extremum ist ein lokales Minimum oder ein lokales Maximum. Die folgende Bedingung für das Vorliegen einer lokalen Extremalstelle besagt anschaulich, dass in einem solchen Punkt die Tangente an den Graph der Funktion horizontal verlaufen muss. Satz 6.15 (notwendiges Kriterium für lokales Extremum). Ist x0 eine lokale Extremalstelle von f und ist f in x0 differenzierbar, dann gilt f 0 (x0 ) = 0. Beweis. Sei x0 eine lokale Minimalstelle und sei ε > 0 so gewählt wie in der Definition. Dann gilt für den Differenzenquotienten und für x0 < x < x0 + ε f (x) − f (x0 ) ≥ 0, x − x0 woraus durch Grenzübergang x & x0 sofort f 0 (x0 ) ≥ 0 folgt. Für x0 − ε < x < x0 folgt f (x) − f (x0 ) ≤ 0, x − x0 woraus durch Grenzübergang x % x0 sofort f 0 (x0 ) ≤ 0 folgt. Zusammen ergibt sich die behauptete Bedingung f 0 (x0 ) = 0. 83 Der folgende Satz ist ein erster Mittelwertsatz, aus dem wir dann allgemeinere Mittelwertsätze ableiten wollen. Er folgt direkt aus der gerade gezeigten notwendigen Bedingung für eine lokale Extremalstelle zusammen mit dem Satz vom Maximum und Minimum. Anschaulich besagt er, dass der Graph einer Funktion auf einem Intervall mit gleichen Randwerten eine horizontale Tangente besitzen muss. Satz 6.16 (Satz von Rolle). Sei f : [a, b] → R stetig und in (a, b) differenzierbar. Weiter sei f (a) = f (b). Dann gibt es eine Stelle ξ ∈ (a, b) mit f 0 (ξ) = 0. Beweis. Ist f konstant, dann ist nichts zu zeigen. Ist f nicht konstant, dann sind die nach dem Satz 5.33 existenten Extremalstellen von f verschieden voneinander und wegen f (a) = f (b) gibt es eine Extremalstelle ξ ∈ (a, b). Dann liefert Satz 6.15 die Behauptung. Es folgt der klassische Mittelwertsatz der Differentialrechnung. Er besagt anschaulich, dass der Graph einer Funktion auf einem Intervall eine Tangente besitzen muss, deren Anstieg gleich dem Anstieg der Sekante durch die Endpunkt ist. Satz 6.17 (Mittelwertsatz der Differentialrechnung). differenzierbar. Dann gibt es eine Stelle ξ ∈ (a, b) mit f 0 (ξ) = Sei f : [a, b] → R stetig und in (a, b) f (b) − f (a) . b−a Beweis. Betrachte die Funktion h(x) = f (x) − f (b) − f (a) (x − a) b−a und wende auf diese den Satz von Rolle an. Der letzte Satz in diesem Abschnitt ist eine weitere Verallgemeinerung. Den Mittelwertsatz erhält man als Spezialfall mit g(x) = x. Satz 6.18 (verallgemeinerter Mittelwertsatz). Sei f, g : [a, b] → R stetig und in (a, b) differenzierbar und sei g 0 6= 0. Dann gibt es eine Stelle ξ ∈ (a, b) mit f 0 (ξ) f (b) − f (a) = . 0 g (ξ g(b) − g(a) Beweis. Betrachte die Funktion h(x) = f (x) − f (b) − f (a) g(x) − g(a) g(b) − g(a) und wende auf diese den Satz von Rolle an. 84 6.4 Höhere Ableitungen, Taylorsche Formel und Taylorreihen Ist f : D → R differenzierbar und ist die Ableitung f 0 in x0 ∈ D differenzierbar, so heißt f in x0 zweimal differenzierbar. Die Ableitung von f 0 in x0 wird dann mit f 00 (x0 ) d2 f (x0 ) dx2 oder oder d2 f (x0 ) dx2 bezeichnet und heißt zweite Ableitung von f in x0 . Ist f 0 (in ganz D) differenzierbar, so heißt f zweimal differenzierbar. Induktiv definiert man dann analog die n-te Ableitung f (n) (x0 ) = dn f dn f (x0 ) (x ) = 0 dxn dxn sowie n-fache Differenzierbarkeit von f . Mittels der ersten Ableitung findet man die Tangente an den Graph der Funktion f , also eine gute lokale Approximation von f mittels einer linearen Funktion. Mit höheren Ableitungen wollen wir nun f durch Polynome noch besser lokal approximieren. Dies führt zu den Taylorpolynomen. Dazu schauen wir uns zunächst an, wie man ein Polynom mittels Ableitungen an einer Stelle x0 beschreiben kann. Satz 6.19. Sei n ∈ N und sei p ein Polynom vom Grad höchstens n. Weiter sei x0 ∈ R beliebig. Dann gilt p(x) = n X p(k) (x0 ) k=0 k! (x − x0 )k = p(x0 ) + p0 (x0 ) p00 (x0 ) p(n) (x0 ) (x − x0 ) + (x − x0 )2 + · · · + (x − x0 )n 1! 2! n! für alle x ∈ R. Beweis. Mittels der binomischen Formel k X k x = (x − x0 + x0 ) = (x − x0 )` xk−` 0 ` k k `=0 kann man das Polynom p aus der Standarddarstellung p(x) = a0 + a1 x + · · · + an xn in die Darstellung p(x) = b0 + b1 (x − x0 ) + · · · + bn (x − x0 )n bringen. Sukzessives Differenzieren liefert p(x) = b0 + b1 (x − x0 ) + · · · + bn (x − x0 )n p0 (x) = b1 + 2b2 (x − x0 ) + nbn (x − x0 )n−1 p00 (x) = 2b2 + 3 · 2b3 (x − x0 ) + n(n − 1)bn (x − x0 )n−2 .. . p(n) (x) = n! bn . Einsetzen von x = x0 in diese Gleichungen liefert schließlich die behaupteten Gleichungen p(k) (x0 ) = k! bk . 85 Dieser Satz motiviert die folgende Definition. Definition 6.20. Ist f : D → R in einer Umgebung von x0 ∈ D mindestens n-mal differenzierbar, so heißt das Polynom Tn (x) = n X f (k) (x0 ) k=0 k! (x−x0 )k = f (x0 )+ f 0 (x0 ) f 00 (x0 ) f (n) (x0 ) (x−x0 )+ (x−x0 )2 +· · ·+ (x−x0 )n 1! 2! n! das Taylorpolynom n-ten Grades (oder der Ordnung n) der Funktion f an der (Entwicklungs)Stelle x0 . Um die Güte der Approximation von f durch das Taylorpolynom abzuschätzen benutzt man den folgenden Satz. Satz 6.21 (Taylorsche Formel, Restglied nach Lagrange). Ist f : D → R in einer Umgebung von x0 ∈ D mindestens (n + 1)-mal differenzierbar, dann gilt für alle x in dieser Umgebung f (x) = Tn (x) + Rn (x) mit dem Restglied Rn (x) = f (n+1) (ξ) (x − x0 )n+1 , (n + 1)! wobei ξ eine (von x abhängige) Zahl zwischen x0 und x ist. Für n = 0 ist diese Aussage nichts anderes als der Mittelwertsatz. Beweis. Wir betrachten o.B.d.A. den Fall x > x0 und setzen g(t) = f (x) − n X f (k) (t) k=0 k! (x − t)k − m (x − t)n+1 , (n + 1)! wobei wir m so wählen, dass g(x0 ) = 0 ist. Offensichtlich ist auch g(x) = 0. Also erfüllt g die Voraussetzungen des Satzes von Rolle und wir finden ein ξ mit x0 < ξ < x und g 0 (ξ) = 0. Differentiation von g ergibt g 0 (t) = − n X f (k+1) (t) k=0 k! n X f (k) (t) m f (n+1) (t) (x − t)n (x−t)k + (x−t)k−1 + (x−t)n = − (x−t)n +m . (k − 1)! n! n! n! k=1 Es folgt 0 = g 0 (ξ) = − f (n+1) (ξ) (x − ξ)n (x − ξ)n + m n! n! und damit m = f (n+1) (ξ). Umstellen von 0 = g(x0 ) = f (x) − Tn (x) − die Behauptung. m (n+1)! (x − x0 )n+1 liefert Beispiel 6.22. Sei f (x) = ex und x0 = 0. Dann sind alle Ableitungen von f an der Stelle x0 = 0 gleich 1 und wir erhalten n X xk x e = + Rn (x) k! k=0 86 mit Rn (x) = f (n+1) (ξ) n+1 eξ x = xn+1 . (n + 1)! (n + 1)! Es folgt Rn (x) → 0 für jedes x ∈ R und somit die Konvergenz der Exponentialreihe ex = ∞ X xk k=0 k! . Beispiel 6.23. Sei f (x) = cos x und x0 = 0. Dann sind die Ableitungen von f an der Stelle x0 = 0 periodisch 1,0,-1,0 und wir erhalten cos x = 1 − x2 x4 + − + · · · + Rn (x). 2! 4! Wieder folgt Rn (x) → 0 für jedes x ∈ R und somit die Konvergenz der Kosinusreihe cos x = 1 − x2 x4 + − +.... 2! 4! Haben wir wie in den beiden Beispielen die Situation, dass f beliebig oft differenzierbar ist und dass in einer Umgebung von x0 für jedes x die Konvergenz Rn (x) → 0 gilt, dann besitzt f in dieser Umgebung die Reihendarstellung f (x) = ∞ X f (k) (x0 ) k=0 k! (x − x0 )k = f (x0 ) + f 0 (x0 ) f 00 (x0 ) (x − x0 ) + (x − x0 )2 + . . . . 1! 2! Diese Reihe heißt dann Taylorreihe oder Taylorentwicklung von f an der Stelle x0 . Wichtige Taylorreihen, die für alle x ∈ R konvergieren, sind x x2 + + ... 1! 2! x2 x4 1− + − +... 2! 4! x3 x5 x− + − +... 3! 5! x2 x4 1+ + + ... 2! 4! x3 x5 x+ + + ... 3! 5! ex = 1 + cos x = sin x = cosh x = sinh x = Diese Reihen konvergieren sogar (absolut) für alle komplexen Zahlen x ∈ C und ermöglichen so die Definition dieser Funktionen für komplexe Argumente. Dann liest man aus den Taylorreihen die Eulersche Formel eix = cos x + i sin x ab. 87 6.5 Monotonie und Konvexität In diesem Abschnitt wollen wir weitere Eigenschaften von Funktionen, nämlich Monotonie und Konvexität/Konkavität mittels Ableitungen charakterisieren. Dazu sei in diesem Abschnitt I = (a, b) ein offenes Intervall und f : I → R eine Funktion. Satz 6.24 (Charakterisierung der Monotonie). Sei f differenzierbar. Dann ist f in I genau dann monoton wachsend (fallend), wenn f 0 (x) ≥ 0 (f 0 (x) ≤ 0) für alle x ∈ I gilt. Beweis. Wir zeigen die Äquivalenz im Fall einer monoton wachsenden Funktion. Sei dazu zunächst f monoton wachsend und x0 ∈ I. Dann gilt f (x) ≤ f (x0 ) für x < x0 und f (x) ≥ f (x0 ) für x ≥ x0 . In jedem Fall ist der Differenzenquotient f (x) − f (x0 ) ≥0 x − x0 und folglich auch f 0 (x0 ) ≥ 0. Gilt umgekehrt f 0 (x) ≥ 0 für alle x ∈ I, so liefert der Mittelwertsatz für x1 , x2 ∈ I ein ξ ∈ I mit f (x2 ) − f (x1 ) = f 0 (ξ) ≥ 0, x2 − x1 woraus f (x1 ) ≤ f (x2 ) für x1 < x2 folgt. Eine konvexe Funktion ist eine Funktion, bei der die Sekanten des Graphen oberhalb des Graphen liegen. Eine konkave Funktion ist eine Funktion, bei der die Sekanten des Graphen unterhalb des Graphen liegen. Die formale Definition ist Definition 6.25. f heißt im Intervall I konvex, falls für alle x0 , x1 ∈ I und alle λ ∈ (0, 1) die Ungleichung f (1 − λ)x0 + λx1 ≤ (1 − λ)f (x0 ) + λf (x1 ) gilt. f heißt im Intervall I konkav, falls für alle x0 , x1 ∈ I und alle λ ∈ (0, 1) die Ungleichung f (1 − λ)x0 + λx1 ≥ (1 − λ)f (x0 ) + λf (x1 ) gilt. Also ist f konkav genau dann, wenn −f konvex ist. Satz 6.26 (Charakterisierung der Konvexität). Sei f zweimal differenzierbar. Dann ist f in I genau dann konvex (konkav), wenn f 00 (x) ≥ 0 (f 00 (x) ≤ 0) für alle x ∈ I gilt. Beweis. Wir zeigen die Äquivalenz im Fall einer konvexen Funktion. Gilt f 00 (x) ≥ 0 für alle x ∈ I = (a, b) und sind x0 , x1 derart, dass a < x0 < x1 < b ist, so definieren wir für λ ∈ (0, 1) x = (1 − λ)x0 + λx1 . Dann ist x0 < x < x1 und x − x0 = λ(x1 − x0 ), x1 − x = (1 − λ)(x1 − x0 ). Der Mittelwertsatz liefert ξ0 ∈ (x0 , x) und ξ1 ∈ (x, x1 ) mit f (x) − f (x0 ) = f 0 (ξ0 ) x − x0 und f (x1 ) − f (x) = f 0 (ξ1 ). x1 − x 88 Der vorhergehende Satz impliziert, dass f 0 monoton wachsend ist, also ist f 0 (ξ0 ) ≤ f 0 (ξ1 ) und es folgt f (x) − f (x0 ) f (x1 ) − f (x) f (x) − f (x0 ) f (x1 ) − f (x) ≤ = = . λ(x1 − x0 ) x − x0 x1 − x (1 − λ)(x1 − x0 ) Umstellen der Ungleichung zwischen den äußeren Termen führt dann zur Konvexitätsungleichung f (1 − λ)x0 + λx1 = f (x) ≤ (1 − λ)f (x0 ) + λf (x1 ). Ist andererseits f konvex, so rechnet man mit den vorhergehenden Bezeichnungen die Ungleichung f (x1 ) − f (x0 ) f (x1 ) − f (x) f (x) − f (x0 ) ≤ ≤ x − x0 x1 − x0 x1 − x für jeden Wert x mit x0 < x < x1 nach. Durch die Grenzübergänge x → x0 und x → x1 erhält man daraus f (x1 ) − f (x0 ) ≤ f 0 (x1 ), f 0 (x0 ) ≤ x1 − x0 also ist f 0 monoton wachsend und damit f 00 (x) ≥ 0 für x ∈ I. 6.6 Extrema und Wendepunkte In diesem Abschnitt wollen wir auch hinreichende Bedingungen für das Vorliegen einer lokalen Extremalstelle behandeln. Anschaulich passiert an lokalen Minimalstellen ein Übergang von Fallen zu Wachstum, die Ableitung sollte also ihr Vorzeichen von negativ zu positiv wechseln, die zweite Ableitung also positiv sein. Wir sagen, dass eine Funktion f : I → R n-mal stetig differenzierbar ist, wenn sie n-mal differenzierbar ist und f (n) stetig ist. Satz 6.27. Sei I = (a, b) und f : I → R sei zweimal stetig differenzierbar. Weiter sei x0 ∈ I mit f 0 (x0 ) = 0. Ist dann f 00 (x0 ) > 0, so ist x0 eine lokale Minimalstelle von f , ist f 00 (x0 ) < 0, so ist x0 eine lokale Maximalstelle von f . Beweis. Wir benutzen die Taylorsche Formel für n = 2 und erhalten f (x) = f (x0 ) + f 0 (x0 ) f 00 (ξ) f 00 (ξ) (x − x0 ) + (x − x0 )2 = f (x0 ) + (x − x0 )2 1! 2! 2! mit einem ξ zwischen x0 und x. Ist f 00 (x0 ) > 0, so folgt aus der Stetigkeit von f 00 auch f 00 (ξ) > 0 für alle x (und damit ξ) in einer Umgebung von x0 . Also ist f (x) ≥ f (x0 ) in dieser Umgebung, x0 ist eine lokale Minimalstelle. Im Fall f 00 (x0 ) = 0 kann keine Aussage getroffen werden, es kann eine Extremalstelle vorliegen oder auch nicht. Allerdings kann man ebenfalls mit der Taylorschen Formel und höheren Ableitungen die folgende Verallgemeinerung zeigen: Ist n ∈ N und ist f (n + 1)-mal stetig differenzierbar und gilt f 0 (x0 ) = f 00 (x0 ) = · · · = f (n) (x0 ) = 0 und f (n+1) (x0 ) 6= 0, so ist x0 für ungerades n eine lokale Extremalstelle, deren Art wieder durch das Vorzeichen von f (n+1) (x0 ) bestimmt ist. Dagegen liegt für gerades n keine lokale Extremalstelle, sondern ein Wendepunkt vor. 89 Definition 6.28. Sei I = (a, b) und f : I → R stetig und x0 ∈ I. Dann heißt x0 ein Wendepunkt von f , falls es ein ε > 0 gibt, so dass f in (x0 − ε, x0 ) konvex und in (x0 , x0 + ε) konkav ist oder umgekehrt. f wechselt also in x0 das Krümmungsverhalten. Ist f zweimal stetig differenzierbar, dann sind also die folgenden Eigenschaften äquivalent: • x0 ist Wendepunkt von f . • Für f 0 findet in x0 ein Wechsel fallend-wachsend oder umgekehrt statt. • f 00 (x) wechselt in x0 das Vorzeichen. Insbesondere ist ein Wendepunkt von f immer eine lokale Extremalstelle von f 0 . Falls f dreimal stetig differenzierbar ist und f 00 (x0 ) = 0 und f 000 (x0 ) 6= 0 ist, dann ist x0 ein Wendepunkt von f . 6.7 Die Regel von l’Hospital Wir schließen dieses Kapitel mit der Behandlung der Regel von l’Hospital, mit der Grenzwerte berechnet werden können, die auf unbestimmte Ausdrücke der Form 00 oder ∞ ∞ führen. Satz 6.29 (l’Hospitalsche Regel). Seien f, g reelle Funktionen, die in einer Umgebung von x0 (außer evtl. in x0 ) definiert sind, dort zumindest differenzierbar sind und in der g 0 6= 0 ist. Weiter gelte limx→x0 f (x) = limx→x0 g(x) = 0 oder limx→x0 f (x) = ±∞, limx→x0 g(x) = ±∞. Dann gilt lim x→x0 f 0 (x) f (x) = lim 0 , g(x) x→x0 g (x) falls der rechte Grenzwert existiert. Beweis. Wir betrachten nur den Fall limx→x0 f (x) = limx→x0 g(x) = 0 und setzen f, g in x0 durch f (x0 ) = g(x0 ) = 0 stetig fort. Der verallgemeinerte Mittelwertsatz liefert dann zu jedem x in der Umgebung von x0 ein ξ zwischen x0 und x mit f (x) − f (x0 ) f (x) f 0 (ξ) = = . g 0 (ξ) g(x) − g(x0 ) g(x) Betrachtet man nun den Grenzübergang x → x0 , so ist auch ξ → x0 und die Existenz des 0 (ξ) Grenzwerts limξ→x0 fg0 (ξ) liefert die Behauptung. Die l’Hospitalsche Regel gilt sinngemäß für einseitige Grenzwerte. Durch Umformungen kann man auch unbestimmte Ausdrücke wie ∞ − ∞, 0 · ∞, 00 , ∞0 , 1∞ behandeln. Beispiel 6.30. Beispiel 6.31. Beispiel 6.32. sin x cos x = lim =1 x→0 x x→0 1 lim cos x 1 − cos x sin x 1 = lim = lim = x→0 2x x→0 2 x2 2 ln x x−1 x lim x = exp lim x ln x = exp lim −1 = exp lim = e0 = 1 x&0 x&0 x&0 x x&0 −x−2 lim x→0 90 7 Integralrechnung In diesem Kapitel studieren wir zunächst die unbestimmte Integration als Umkehroperation des Differenzierens. Im Gegensatz zum Differenzieren, das mittels der Differentiationsregeln einen Algorithmus zum Berechnen der Ableitung einer explizit gegebenen Funktion liefert, ist das Integrieren, das Auffinden einer Stammfunktion, nicht generell möglich und benötigt oft gewisse Kunstgriffe. Wir werden einige Integrationsmethoden kennenlernen. Anschließend behandeln wir das bestimmte oder Riemannsche Integral, das anschaulich durch die Berechnung der Fläche unter einer Kurve motiviert wird. Den Zusammenhang zwischen unbestimmter und bestimmter Integration stellt dann der Hauptsatz der Differential- und Integralrechnung her. Mit seiner Hilfe können dann die Integrationsmethoden für die Bestimmung einer Stammfunktion zur Berechnung bestimmter Integrale nutzbar gemacht werden. 7.1 Stammfunktionen und unbestimmte Integrale Definition 7.1. Sei f : I → R eine auf einem Intervall I definierte Funktion. Eine differenzierbare Funktion F : I → R mit F 0 = f heißt Stammfunktion von f . Ist F eine Stammfunktion von f , so offenbar auch F + c für jede Konstante c ∈ R. Sind andererseits F1 , F2 zwei Stammfunktionen von f , so unterscheiden sich F1 und F2 nur um eine additive Konstante, also F1 − F2 = c. Tatsächlich ist dann nämlich g = F1 − F2 differenzierbar auf I und g 0 = 0, womit aus dem Mittelwertsatz der Differentialrechnung für x1 , x2 ∈ I mit x1 6= x2 die Existenz eines ξ ∈ I mit g(x1 ) − g(x2 ) = g 0 (ξ) = 0 x1 − x2 und damit folgt, dass g eine Konstante ist. R R Eine beliebige Stammfunktion von f bezeichnet man mit f = f (x) dx und nennt sie unbestimmtes Integral von f . Den Vorgang des Auffindens einer Stammfunktion nennt man unbestimmtes Integrieren. In Tafelwerken findet man mehr oder weniger umfangreiche Tabellen mit unbestimmten Integralen vieler Funktionen. Ein paar wichtige Integrale, die aus den bekannten Ableitungen elementarer Funktionen abgeleitet werden, folgen. 91 Z 1 xa+1 , a 6= −1 xa dx = a+1 Z dx = ln |x| x Z cos x dx = sin x Z sin x dx = − cos x Z dx cos2 x Z dx 2 sin x Z dx 1 + x2 Z dx √ 1 − x2 Z dx √ x2 − 1 Z dx √ 2 Zx + 1 = tan x = − cot x = arctan x = arcsin x = arcosh x = arsinh x ax dx = ax , a > 0, a 6= 1 ln a Mit diesen Grundintegralen und Integrationsregeln, die wir jetzt kennenlernen wollen, lassen sich viele weitere Integrale berechnen. Die Linearität des Integrals Z Z Z af (x) + bg(x) dx = a f (x) dx + b g(x) dx folgt direkt aus der Linearität der Ableitung. Beispiel 7.2. Z Z 2 √ x + x dx = 3/2 x + 2x +x 2 Z dx = Z x dx + 2 3/2 x Z dx + x2 dx = x2 2x5/2 x3 + + 2 5 3 Die Regel für die partielle Integration Z Z 0 f (x)g (x) dx = f (x)g(x) − f 0 (x)g(x) dx folgt direkt aus der Produktregel. Beispiel 7.3. Wir wollen mit partieller Integration eine Stammfunktion von ln x berechnen. Dazu setzen wir f (x) = ln x und g 0 (x) = 1. Das liefert f 0 (x) = x1 und g(x) = x. Partielle Integration ergibt Z Z Z 1 ln x dx = ln x · 1 dx = x ln x − · x dx = x ln x − x = x(ln x − 1) x 92 Beispiel 7.4. Z Z Z x sin x dx = x(− cos x) − (− cos x) dx = −x cos x + cos x dx = sin x − x cos x Beispiel 7.5. Wir wollen mit partieller Integration eine Rekursionsformel für Integrale der Form Z Z n Sn = x sin x dx und Cn = xn cos x dx herleiten. Dazu setzen wir f (x) = xn und g 0 (x) = sin x bzw. g 0 (x) = cos x und erhalten Z Z Sn = xn sin x dx = −xn cos x + n xn−1 cos x dx = −xn cos x + nCn−1 Z Z Cn = xn cos x dx = xn sin x − n xn−1 sin x dx = xn sin x − nSn−1 Auf diese R Weise führt R man die Berechnung der Integrale Sn und Cn rekursiv auf die Grundintegrale sin x dx und cos x dx zurück. Ist x = g(t) eine stetig differenzierbare und bijektive Funktion, so liefert die Anwendung der Kettenregel d F (g(t)) = f (g(t)) · g 0 (t) dt R für eine Stammfunktion F = f die Substitutionsregel Z Z f (x) dx = f g(t) · g 0 (t) dt wobei man t = g −1 (x) setzen muss. Beispiel 7.6. So erhält man mittels der Substitution t = g(x) = ax + b Z F (ax + b) f (ax + b) dx = a R mit einer Stammfunktion F = f (x) dx. Damit berechnet man zum Beispiel leicht Z Z dx 1 dx 1 3 = = arctan x − . 2 4x2 − 12x + 13 4 4 2 x − 32 + 1 Beispiel 7.7. Ebenfalls sehr nützlich ist die allgemeine Substitution t = f (x), die z.B. für Integrale der Form Z 0 f (x) dx = ln |f (x)| f (x) liefert. Damit berechnet man zum Beispiel leicht Z Z x 1 2x dx = dx = ln(1 + x2 ). 2 1+x 2 1 + x2 93 Wir wollen jetzt beschreiben, wie man mittels der bisher gefundenen Grundintegrale und Integrationsregeln und dem Verfahren der Partialbruchzerlegung Integrale rationaler Funktionen f (x) = p(x) q(x) mit Polynomen p, q berechnen kann. Zunächst spaltet man durch Polynomdivision den polynomialen Anteil von r(x) ab, so dass wir nur noch den Fall einer echt gebrochenen rationalen Funktion haben, bei der der Grad von p kleiner als der Grad von q ist. Außerdem benötigen wir den Fundamentalsatz der Algebra, der uns eine eindeutige Darstellung q(x) = an (x − x1 )k1 . . . (x − xr )kr liefert, wobei x1 , . . . , xr die verschiedenen komplexen Nullstellen und k1 , . . . , kr die entsprechenden Vielfachheiten sind. Da wir voraussetzen, dass die Koeffizienten aj , bj alle reell sind, können wir nun die Tatsache benutzen, dass komplexe nicht reelle Nullstellen als Paare auftreten: Ist z eine Nullstele der Vielfachheit k, so ist auch z eine Nullstelle der Vielfachheit k. Wir können also die Faktoren k (x − z)k (x − z)k = (x − a)2 + b2 zusammenfassen zu einer k-ten Potenz eines quadratischen Polynoms. Hierbei ist a der Realteil und b der Imaginärteil von z. Insgesamt erhalten wir die Faktorzerlegung eines reellen Polynoms in der Form q(x) = an (x − x1 )k1 . . . (x − xr )kr (x2 + p1 x + q1 )`1 . . . (x2 + ps x + qs )`s . Dabei sind x1 , . . . , xr die reellen Nullstellen und die Nullstellen der quadratischen Terme x2 + p1 x + q1 , . . . , x2 + ps x + qs sind die Paare konjugiert komplexer Nullstellen. Beispiel 7.8. Das Polynom q(x) = x4 + 1 vierten Grades besitzt die vier komplexen Nullstellen ±1 ± i √ . 2 Das liefert die komplexe Zerlegung in Linearfaktoren 1+i 1−i −1 + i −1 − i 4 q(x) = x + 1 = x − √ x− √ x− √ x− √ . 2 2 2 2 Fasst man hier konjugiert komplexe Nullstellen zusammen, so erhält man die reelle Zerlegung ! ! 1 2 1 2 1 2 1 2 4 q(x) = x + 1 = x− √ + √ x+ √ + √ 2 2 2 2 √ √ = x2 − 2x + 1 x2 + 2x + 1 . Mittels quadratischer Ergänzung kann man diese Zerlegung in diesem Fall auch einfacher so bestimmen: √ √ 2 √ 2 2 x4 + 1 = x4 + 2x2 + 1 − 2x2 = x2 + 1 − 2x = x + 1 + 2x x2 + 1 − 2x . 94 Mit Hilfe der reellen Faktorisierung kann man nun die echt gebrochene rationale Funktion r(x) = p(x) q(x) eindeutig darstellen als X s r X aj,kj bj,`j x + cj,`j bj1 x + cj1 aj1 + ··· + + + ··· + 2 (3) r(x) = x − xj x2 + pj x + qj (x − xj )kj (x + pj x + qj )`j j=1 j=1 Diese Darstellung heißt Partialbruchzerlegung von r, die einzelnen Summanden sind die Partialbrüche. Beispiel 7.9. Für die rationale Funktion r(x) = x+1 x3 − x2 + x − 1 besitzt der Nenner die Zerlegung x3 − x2 + x − 1 = x2 (x − 1) + (x − 1) = (x2 + 1)(x − 1), also lässt sich r(x) darstellen als r(x) = x3 x+1 a bx + c = + 2 . 2 −x +x−1 x−1 x +1 Beispiel 7.10. Die rationale Funktion r(x) = x2 − x + 1 (x − 1)(x + 1)3 (x2 + x + 1)2 besitzt die Partialbruchdarstellung r(x) = b1 b2 b3 c1 x + d1 c1 x + d1 a1 + + + + + . x − 1 x + 1 (x + 1)2 (x + 1)3 x2 + x + 1 (x2 + x + 1)2 Die Koeffizienten in der Partialbruchzerlegung bestimmt man durch Multiplikation des Ansatzes (3) mit dem Nenner q(x), was auf eine Gleichung zwischen einem bekannten Polynom auf der linken und einem Polynom mit den gesuchten Koeffizienten auf der rechten Seite führt. Dann wählt man eine von zwei Methoden: • Koeffizientenvergleich • Einsetzen n verschiedener Werte für x Beides führt zu einem linearen Gleichungssystem von n Gleichungen für n zu bestimmende Koeffizienten. Beispiel 7.11. Für die rationale Funktion r(x) = x3 x+1 − x2 + x − 1 besitzt der Nenner die Zerlegung x3 − x2 + x − 1 = x2 (x − 1) + (x − 1) = (x2 + 1)(x − 1), 95 also lässt sich r(x) darstellen als r(x) = x3 x+1 a bx + c = + 2 . 2 −x +x−1 x−1 x +1 Multiplikation mit x3 − x2 + x − 1 = (x2 + 1)(x − 1) liefert x + 1 = a(x2 + 1) + (bx + c)(x − 1). Durch Einsetzen von x = 1 erhält man 2 = 2a, also a = 1. Durch Einsetzen von x = 0 erhält man dann 1 = 1 − c, also c = 0. Durch Einsetzen von x = −1 erhält man dann 0 = 2 + 2b, also b = −1. Insgesamt ergibt sich x3 x+1 1 x = − 2 . 2 −x +x−1 x−1 x +1 Alternativ kann man ausmultiplizieren und erhält x + 1 = (a + b)x2 + (c − b)x + (a − c) und anschließend durch Koeffizientenvergleich die drei Gleichungen a + b = 0, c − b = 1, a − c = 1 und daraus die gleichen Werte für a, b, c. Nach der Zerlegung in Partialbrüche muss man also nur noch Terme der Form 1 (x − a)k mit q > und (x2 Bx + C + px + q)k p2 4 integrieren. Dies geschieht mit den Formeln Z dx = ln |x − a| x−a Z dx 1 = für k = 2, 3, . . . k (x − a) (1 − k)(x − a)k−1 Z Bx + C B C − Bp/2 x + p/2 dx = ln(x2 + px + q) + p arctan p 2 x2 + px + q 2 q − p /4 q − p2 /4 Z Z 1 Bx + C B dx dx = − + (C − Bp/2) 2(k − 1) (x2 + px + q)k−1 (x2 + px + q)k (x2 + px + q)k Z Z dx 1 2x + p 4k − 6 dx = + 2 2 2 k 2 k−1 2 (k − 1)(4q − p ) (x + px + q) (k − 1)(4q − p ) (x + px + q) (x + px + q)k−1 Die letzte Formel wird als Rekursionsformel benutzt. Beispiel 7.12. Wir wollen die rationale Funktion 2x4 + x − 1 x3 − x2 + x − 1 integrieren. Da der Zählergrad größer als der Nennergrad ist, müssen wir zunächst eine Polynomdivision und anschließend die Partialbruchzerlegung durchführen, was zu 2x4 + x − 1 x+1 1 x = 2x + 2 + 3 = 2x + 2 + − x3 − x2 + x − 1 x − x2 + x − 1 x − 1 x2 + 1 führt. Integration der einzelnen Summanden liefert dann Z 2x4 + x − 1 1 dx = x2 + 2x + ln |x − 1| − ln(x2 + 1). 3 2 x −x +x−1 2 96 7.2 Das Riemann-Integral Das Riemann-Integral einer Funktion f über einem Intervall [a, b] berechnet die Fläche unter dem Graphen von f zwischen a und b. Wir möchten das Integral für eine möglichst große Klasse von Funktionen berechnen. Das erreichen wir, indem wir zunächst das Integral für Treppenfunktionen definieren und anschließend andere Funktionen von oben und unten durch Treppenfunktionen approximieren. Definition 7.13. Eine Zerlegung Z eines Intervalls [a, b] ist gegeben durch Unterteilungspunkte a = x0 < x1 < · · · < xn−1 < xn = b. Die Feinheit dieser Zerlegung Z ist die maximale Länge eines Teilintervalls: |Z| = max (xi − xi−1 ). 1≤i≤n Eine Treppenfunktion ist eine Funktion f : [a, b] → R, die auf den offenen Teilintervallen (xi−1 , xi ) einer Zerlegung konstant ist. Zu zwei Treppenfunktionen f, g auf [a, b] kann man immer eine Zerlegung finden, so dass beide Funktionen f, g auf den Teilintervallen dieser Zerlegung konstant sind. Dies erreicht man, indem man alle Unterteilungspunkte der zu f und g gehörenden Zerlegungen als eine neue Zerlegung auffasst. Das ist eine gemeinsame Verfeinerung beider Zerlegungen. Die Treppenfunktionen auf einem Intervall [a, b] bilden einen linearen Raum, sind also f, g Treppenfunktionen und c, d ∈ R, so ist cf + dg ebenfalls eine Treppenfunktion. Definition 7.14. Sei f : [a, b] → R eine Treppenfunktion mit f (x) = ci auf dem Zerlegungsintervall (xi−1 , xi ), i = 1, . . . , n. Dann ist das Integral von f über [a, b] gegeben durch Z b f (x) dx = a n X ci (xi − xi−1 ). i=1 Das Integral einer Treppenfunktion ist unabhängig von der konkreten Wahl der Zerlegung Z. Daraus ergibt sich sofort die Linearität des Integrals für Treppenfunktionen. Sind f, g Treppenfunktionen auf [a, b] und c, d ∈ R, dann gilt Z b cf (x) + dg(x) dx = c a Z b Z f (x) dx + d a b g(x) dx. a Ebenfalls sofort aus der Definition folgt die Monotonie des Integrals für Treppenfunktionen Z f (x) ≤ g(x) für x ∈ [a, b] b Z f (x) dx ≤ =⇒ a b g(x) dx. a Ist nun f eine beschränkte Funktion, so kann man Treppenfunktionen (sogar konstante Funktionen) g, h finden mit g ≤ f ≤ h Das rechtfertigt die Existenz von Supremum und Infimum in der folgenden 97 Definition 7.15. Sei f : [a, b] → R beschränkt. Dann heißt Zb b Z g(x) dx f (x) dx = sup ∗ a a Unterintegral von f , wobei das Supremum über alle Treppenfunktionen g mit g ≤ f gebildet wird. Entsprechend heißt Zb ∗ Z b h(x) dx f (x) dx = inf a a Oberintegral von f , wobei das Infimum über alle Treppenfunktionen h mit f ≤ h gebildet wird. Sind g, h Treppenfunktionen mitR g ≤ f ≤ h, so folgt aus der Monotonie des Integrals für Rb b Treppenfunktionen a g(x) dx ≤ a h(x) dx. Also ist immer Zb Zb ∗ f (x) dx ≤ f (x) dx. ∗ a a Allerdings können sich Ober- und Unterintegral unterscheiden. Ein Beispiel dafür ist die Dirichletfunktion f : [0, 1] → R, die 1 ist für rationales x und 0 für irrationales x. Da in jedem Teilintervall einer Zerlegung von [0, 1] sowohl rationale als auch irrationale Zahlen liegen, gilt für Treppenfunktionen Rg, h mit g ≤ f ≤ h auf R 1 jedem Teilintervall (xi−1 , xi ), dass g(x) ≤ 0 und 1 h(x) ≥ 1 ist. Es folgt 0 g(x) dx ≤ 0 und 0 h(x) dx ≥ 1. Außerdem hat man für g = 0 und R1 R1 h = 1 auch g ≤ f ≤ h und 0 g(x) dx = 0 und 0 h(x) dx = 1. Damit ist Z1 Z Z1 1 f (x) dx = sup ∗ 0 g(x) dx = 0 ∗ Z 0 h(x) dx = 1. 0 0 Definition 7.16 (Riemann-Integral). 1 f (x) dx = inf und Sei f : [a, b] → R beschränkt. Gilt Zb Zb f (x) dx = ∗ a ∗ f (x) dx, a dann heißt f Riemann-integrierbar und der gemeinsame Wert Z Zb Zb b f (x) dx = a f (x) dx = ∗ a ∗ f (x) dx. a heißt Riemann-Integral von f über [a, b]. Die Bestimmung des Riemann-Integrals nennt man auch bestimmte Integration, um sie von der Bestimmung der Stammfunktion, also der unbestimmten Integration, zu unterscheiden. Unmittelbar aus den Definitionen der Integrierbarkeit und von Supremum und Infimum folgt die Charakterisierung in 98 Satz 7.17. Sei f : [a, b] → R beschränkt. Dann ist f Riemann-integrierbar genau dann, wenn es zu jedem ε > 0 Treppenfunktionen g, h : [a, b] → R gibt mit g ≤ f ≤ h und Z b b Z h(x) dx − a g(x) dx ≤ ε. a Mittels dieser Charakterisierung kann man für zwei große Klassen beschränkter Funktionen Integrierbarkeit zeigen. Satz 7.18. Sei f : [a, b] → R stetig oder monoton. Dann ist f Riemann-integrierbar. Beweis. Sei zunächst f monoton wachsend. Wir betrachten eine äquidistante Zerlegung in Interb−a valle der Länge b−a n , also xi = a + n i für i = 0, 1, . . . , n. Dann erfüllen die Treppenfunktionen g, h definiert durch g(x) = f (xi−1 ) und für x ∈ [xi−1 , xi ) h(x) = f (xi ) offenbar g ≤ f ≤ h. Außerdem ist Z b Z b n X b − a f (b) − f (a) (b − a) = . h(x) dx − g(x) dx = f (xi ) − f (xi−1 n n a a i=1 Da wir n beliebig groß machen können, liefert Satz 10.24, dass f Riemann-integrierbar ist. Für stetiges f benötigen wir die in Satz 5.16 gezeigte Tatsache, dass jede stetige Funktion auf einem abgeschlossenen Intervall sogar gleichmäßig stetig ist, d.h. dass es zu jedem ε > 0 ein δ > 0 gibt mit |x − x0 | < δ =⇒ f (x) − f (x0 ) < ε. Wir wählen nun wieder eine äquidistante Zerlegung wie oben und definieren die Treppenfunktionen g(x) = min f (ξ) und h(x) = max f (ξ) für x ∈ [xi−1 , xi ). ξ∈[xi−1 ,xi ] ξ∈[xi−1 ,xi ] Nach dem Satz von Maximum und Minimum existieren diese max und min. Dann ist wieder g ≤ f ≤ h klar. Ist n genügend groß, so ist außerdem die Länge der Teilintervalle b−a n < δ und damit h(x) − g(x) < ε für alle x ∈ [a, b]. Es folgt sofort Z b Z b Z b h(x) dx − g(x) dx = h(x) − g(x) dx ≤ ε(b − a) a a a und damit wieder mittels Satz 10.24 die Behauptung, dass f Riemann-integrierbar ist. Die grundlegenden Eigenschaften des Integrals für Treppenfunktionen übertragen sich auf das Riemann-Integral. Die Riemann-integrierbaren Funktionen auf [a, b] bilden also einen linearen Raum, sind f, g Riemann-integrierbar und c, d ∈ R, dann ist auch cf + dg Riemann-integrierbar. Wir haben wieder die Linearität des Integrals Z b Z b Z b cf (x) + dg(x) dx = c f (x) dx + d g(x) dx. a a a Ebenfalls gilt die Monotonie des Riemann-Integrals: Z f (x) ≤ g(x) für x ∈ [a, b] b Z f (x) dx ≤ =⇒ a b g(x) dx. a 99 Weiter kann man direkt die Riemann-Integrierbarkeit von f · g und von |f |p für 0 < p < ∞ folgern. Wir kommentieren noch kurz den klassischen Zugang von Riemann zum Riemann-Integral über Zwischensummen. Wieder liegt eine Zerlegung Z des Intervalls [a, b] zugrunde, also a = x0 < x1 < · · · < xn−1 < xn = b. In jedem Teilintervall sei zusätzlich ein Punkt ξi ∈ [xi−1 , xi ] gewählt. Dann heißt die Summe n X f (ξi )(xi − xi−1 ) i=1 Zwischensumme. Man kann nun zeigen, dass eine beschränkte Funktion auf dem Intervall [a, b] genau dann Riemann-integrierbar ist, wenn für jede Folge von Zerlegungen mit gegen 0 konvergierender Feinheit und für jede Wahl von Zwischenpunkten die Folge R b der zugehörigen Zwischensummen gegen eine Zahl I konvergiert. Dann ist außerdem I = a f (x) dx. Will man direkt mit der Definition oder mittels Zwischensummen das Integral berechnen, ist das sehr umständlich. Beispiel 7.19. Wir wollen mit der Definition das Integral Z a x2 dx 0 berechnen, das wegen der Stetigkeit oder auch der Monotonie des Integranden existiert. Dazu betrachten wir eine äquidistante Zerlegung xi = na i für i = 0, 1, . . . , n. Da f (x) = x2 monoton wachsend ist, erhalten wir mit den Treppenfunktionen g(x) = f (xi−1 ) = (i − 1)2 a2 n2 und h(x) = f (xi ) = i2 a2 n2 für x ∈ [xi−1 , xi ) die Ungleichungen g ≤ f ≤ h. Nun ist nach Definition des Integrals für Treppenfunktionen Z a n n X (i − 1)2 a2 a a3 X a3 (n − 1)n(2n − 1) a3 (n − 1)n(2n − 1) 2 g(x) dx = = (i − 1) = = n2 n n3 n3 6 3 2n3 0 i=1 i=1 und Z 0 a n n X a3 X 2 a3 n(n + 1)(2n + 1) a3 n(n + 1)(2n + 1) i2 a2 a h(x) dx = = i = = . n2 n n3 n3 6 3 2n3 i=1 i=1 Hier haben wir die Formel für Summen von Quadraten benutzt. Für n → ∞ konvergieren beide 3 Integrale gegen a3 , also ist Z a a3 x2 dx = . 3 0 7.3 Der Hauptsatz der Differential- und Integralrechnung Wir wollen nun bestimmte und unbestimmte Integration miteinander verknüpfen. Das leistet der Hauptsatz der Differential- und Integralrechnung, mit dem die Berechnung des Riemann-Integrals auf die Bestimmung einer Stammfunktion zurückgeführt wird. Dazu benötigen wir den ebenfalls wichtigen 100 Satz 7.20 (Mittelwertsatz der Integralrechnung). Seien f, g : [a, b] → R stetige Funktionen mit g ≥ 0. Dann existiert ein ξ ∈ [a, b] derart, dass b Z b Z f (x)g(x) dx = f (ξ) g(x) dx a a ist. Insbesondere (g = 1) gibt es ein ξ ∈ [a, b] derart, dass 1 b−a b Z f (x) dx = f (ξ) a ist. Beweis. Der Beweis beruht auf dem Zwischenwertsatz. Ist nämlich m = min f (x) M = max f (x), und x∈[a,b] x∈[a,b] so folgt mg(x) ≤ f (x)g(x) ≤ M g(x) und damit Z b Z g(x) dx ≤ m für x ∈ [a, b] b Z a a Also ist Z b f (x)g(x) dx ≤ M g(x) dx. a b Z f (x)g(x) dx = µ a b g(x) dx a mit einem µ ∈ [m, M ]. Nun liefert aber der Zwischenwertsatz ein ξ ∈ [a, b] mit f (ξ) = µ und die Behauptung ist bewiesen. Für eine Riemann-integrierbare Funktion f : I → R auf einem Intervall I und a ∈ I betrachten wir nun das Integral Z x F (x) = f (t) dt a mit variabler oberer Grenze x. Für x < a setzen wir dabei Z x Z a F (x) = f (t) dt = − f (t) dt. a x Die Funktion F 0 (x) beschreibt also die Änderungsrate der Fläche unter dem Graphen von f an der Stelle x. Für stetige Funktionen ist anschaulich klar, dass diese Rate gerade f (x) ist. Das ist die Aussage des folgenden Satzes. Satz 7.21. Sei f : I → R auf einem Intervall I stetig und sei a ∈ I. Dann ist die Funktion Z x F (x) = f (t) dt a eine Stammfunktion von f . 101 Beweis. Der Beweis beruht auf dem Mittelwertsatz der Integralrechnung. Dazu betrachten wir den Differenzenquotienten R x+h F (x + h) − F (x) = h a f (t) dt − h Rx a f (t) dt 1 = h Z x+h f (t) dt. x Der Mittelwertsatz 7.20 liefert dann ein ξ zwischen x und x + h mit F (x + h) − F (x) = f (ξ). h Für h → 0 haben wir ξ → x, womit die Stetigkeit von f die Behauptung F (x + h) − F (x) = lim f (ξ) = lim f (ξ) = f (x) h→0 ξ→x h F 0 (x) = lim h→0 liefert. Nun ist es nur noch ein kleiner Schritt zum Beweis des Satz 7.22 (Hauptsatz der Differential- und Integralrechnung). Ist f : I → R auf einem Intervall I stetig und ist F eine Stammfunktion von f , dann gilt für a, b ∈ I b Z b f (x) dx = F (x)a := F (b) − F (a). a Beweis. Da sich Stammfunktionen nur um eine Konstante unterscheiden, ist die Differenz F (b)− F (a) unabhängig von der konkreten Auswahl von F . Mit Satz 7.21 können wir also Z x F (x) = f (t) dt a wählen. Dann ist F (a) = 0 und somit Z b f (t) dt = F (b) = F (b) − F (a). a Nun ergeben sich aus den Differentiationsregeln für das unbestimmte Integral direkt entsprechende Rechenregeln und -methoden für das bestimmte Integral. Zunächst können wir nochmals die Linearität des Riemann-Integrals Z b cf (x) + dg(x) dx = c a Z b Z f (x) dx + d a b g(x) dx a für Riemann-integrierbare Funktionen f, g ableiten. Weiter erhält man die Regel für die partielle Integration Z a b b f (x)g (x) dx = f (x)g(x)a − 0 Z b 0 Z f (x)g(x) dx = f (b)g(b) − f (a)g(a) − a a b f 0 (x)g(x) dx. 102 Die Substitutionsregel für bestimmte Integrale kann man folgendermaßen formulieren. Sei f : I → R auf einem Intervall I stetig und sei g : [a, b] → I stetig differenzierbar und streng monoton und damit bijektiv als Abbildung von [a, b] auf [g(a), g(b)] (bzw. [g(b), g(a)]). Dann gilt Z g(b) Z b f (x) dx. f g(t) g 0 (t) dt = g(a) a Zum Beweis beobachten wir, dass aus der Kettenregel folgt,dass für eine Stammfunktion F von f die Komposition F g(t) eine Stammfunktion von f g(t) g 0 (t) ist. Mit Satz 7.21 erhalten wir also einerseits Z b f g(t) g 0 (t) dt = F g(b) − F g(a) . a Andererseits folgt aus Satz 7.21 ebenfalls Z g(b) f (x) dx = F g(b) − F g(a) . g(a) Beispiel 7.23. Mit der Substitution x = g(t) = t2 ergibt sich dx = 2t dt und damit Z 3 Z 9 1 − e−9 1 9 −x 1 2 te−t dt = e dx = − e−x = . 2 2 2 0 0 0 7.4 Uneigentliche Integrale Das Riemann-Integral ist definiert für beschränkte Funktionen auf einem endlichen Integrationsintervall [a, b]. Wir wollen diese beiden Einschränkungen jetzt fallen lassen und auch unbeschränkte Integranden und unendliche Integrationsintervalle zulassen. Dies gelingt durch Betrachtung geeigneter Grenzwerte. Betrachten wir zunächst unbeschränkte Integrationsintervalle. Dann definieren wir die uneigentlichen Integrale Z ∞ Z b f (x) dx = lim f (x) dx b→∞ a a Z b Z b f (x) dx = lim f (x) dx a→−∞ a 0 −∞ ∞ Z Z f (x) dx = −∞ Z f (x) dx + −∞ ∞ f (x) dx 0 für beschränktes f , falls die Integrale und Grenzwerte auf der rechten Seite existieren. Man sagt dann, dass die Integrale auf der linken Seite konvergieren, existieren die Grenzwerte nicht, spricht man von divergenten Integralen. Ist F eine Stammfunktion von f und existieren die Grenzwerte F (∞) = lim F (x) x→∞ und/oder F (−∞) = lim F (x), x→−∞ so kann man diese berechnen als Z ∞ ∞ f (x) dx = F (x)a = F (∞) − F (a) a Z b b f (x) dx = F (x)−∞ = F (b) − F (−∞) Z−∞ ∞ ∞ f (x) dx = F (x)−∞ = F (∞) − F (−∞). −∞ 103 Beispiel 7.24. Z ∞ −∞ ∞ dx π π = arctan x = − − = π. −∞ 1 + x2 2 2 1 Beispiel 7.25. Eine Stammfunktion der Funktion f (x) = x−α ist die Funktion F (x) = − 1−α x1−α für α 6= 1 und F (x) = ln x für α = 1. Damit ergibt sich 1 Z ∞ dx für α > 1 α−1 = F (∞) − F (1) = α ∞ für α ≤ 1. x 1 Aus dem letzten Beispiel und der Monotonie des Integrals ergibt sich das folgende nützliche Konvergenzkriterium für uneigentliche Integrale. • Gibt es ein α > 1 und c > 0, so dass für x R≥ a > 0 die Ungleichung 0 < f (x) < ∞ dann konvergiert das uneigentliche Integral a f (x) dx. • Gibt es ein α ≤ 1 und c > 0, so dassRfür x ≥ a > 0 die Ungleichung f (x) > ∞ divergiert das uneigentliche Integral a f (x) dx. c xα c xα gilt, gilt, dann Für einen unbeschränkten Integranden f betrachten wir die Fälle, dass f eine Polstelle an einer der Intervallgrenzen oder im Inneren des Integrationsintervalls hat. Hat f eine Polstelle in a, also ist limx&a = ±∞, so setzen wir b Z Z b f (x) dx = lim α&a α a f (x) dx, falls dieser Grenzwert existiert. Wieder nennt man in diesem Fall das uneigentliche Integral auf der linken Seite konvergent. Existiert der Grenzwert nicht spricht man von einem divergenten Integral. Hat f eine Polstelle in b, also ist limx%b = ±∞, so setzen wir entsprechend b Z Z f (x) dx = lim β%b a a β f (x) dx, falls dieser Grenzwert existiert. Wieder erhält man mit den entsprechenden Grenzwerten F (a) = limα&a F (x), F (b) = limβ%b F (b) einer Stammfunktion F von f Z b f (x) dx = F (b) − F (a). a Hat f eine Polstelle in c im Inneren des Intervalls [a, b], also ist limx&c = ±∞ und limx%c = ±∞, so setzen wir Z Z Z b c f (x) dx = a b f (x) dx + a f (x) dx c falls die beiden uneigentlichen Integrale auf der rechten Seite existieren. Dies ist äquivalent zur Existenz von limx→c F (x) für eine geeignete Stammfunktion F von f und man hat dann wieder die Formel Z b f (x) dx = F (b) − F (a). a 104 Beispiel 7.26. Eine Stammfunktion der Funktion f (x) = ln x auf (0, ∞) ist die Funktion F (x) = x(ln x − 1). Dann ist ln x − 1 1/x lim F (x) = lim = lim =0 x&0 x&0 x&0 −1/x2 1/x und es ergibt sich Z 1 ln x dx = F (1) − F (0) = −1. 0 Beispiel 7.27. Was ist an der Rechnung Z 1 −1 dx 1 1 = − = −2 x2 x −1 (positiver Integrand, negatives Integral) falsch? Man integriert über die Polstelle x = 0 des Integranden hinweg, ohne die Nichtexistenz von limx→0 F (x) zu beachten. Richtig ist die Rechnung ! ! Z 1 Z 0 Z 1 dx dx dx 1 0 1 1 = + = − + − = (∞ − 1) + (−1 + ∞) = ∞. 2 2 2 x −1 x 0 −1 x −1 x 0 x Beispiel 7.28. In diesem Beispiel wollen wir die wichtige Eulersche Gammafunktion Z ∞ Γ(t) = e−x xt−1 dx 0 kennenlernen. DiesesRIntegral konvergiert für alle t > 0. Dies sieht man ein, indem man einerseits ∞ die Konvergenz von 1 e−x xt−1 dx aus der Ungleichung 0 < e−x xt−1 = xt−1 xt−1 n! < n = 1−t+n x e x /n! x für n > t schlussfolgern kann. Andererseits konvergiert auch xt−1 und 1 Z 1 xt 1 t−1 x dt = = . t 0 t 0 R1 0 e−x xt−1 dx wegen 0 < e−x xt−1 ≤ Für t = 1 erhält man sofort Z Γ(1) = 0 ∞ ∞ e−x dx = −e−x 0 = 1. Außerdem ergibt sich durch partielle Integration die Funktionalgleichung Z ∞ Z ∞ −x t −x t ∞ Γ(t + 1) = e x dx = −e x 0 + t e−x xt−1 dx = tΓ(t). 0 0 Aus der Rekursionsformel erhält man induktiv Γ(n + 1) = n!, die Gammafunktion Γ(t + 1) ist also eine Fortsetzung der Fakultätsfunktion von den natürlichen Zahlen auf die nichtnegativen reellen Zahlen unter Erhaltung der Rekursionsformel (n + 1)! = (n + 1)n!. 105 7.5 Anwendungen der Integralrechnung In diesem Abschnitt wollen wir zwei Anwendungen der Integralrechnung für Funktionen einer Variablen betrachten: Das Integralkriterium für die Konvergenz von Reihen und die Berechnung von Volumina von Rotationskörpern. Mittels des Integralkriteriums lässt sich oft bequem entscheiden, ob eine Reihe konvergent oder divergent ist. Außerdem ergeben sich Abschätzungen für die Reihensumme. Sei dazu m ∈ N und sei f : [m, ∞) → R>0 eine monoton fallende Funktion. Aus der Monotonie von f folgt dann n+1 X Z n f (k) ≤ f (x) dx ≤ m k=m+1 n X f (k) k=m für jedes n > m und damit X Z R∞ Beispiel 7.30. Wegen R∞ 1 1 f (x) dx < ∞. m k Beispiel 7.29. Wegen ∞ f (k) ist konvergent ⇐⇒ dx x2 dx x ∞ P 1 = − x1 1 = 1 ist ∞ k=1 k2 konvergent. P∞ 1 = ln x|∞ k=1 k divergent. 1 = ∞ ist Ein Rotationskörper entsteht durch die Rotation der Fläche zwischen dem Graph einer stetigen Funktion f : [a, b] → [0, ∞) und der x-Achse um die x-Achse. Einfache Beispiele sind Kugel, Zylinder und Kegel. Zerlegt man den Rotationskörper mittels einer Zerlegung Z = {x0 , x1 , . . . , xn } des Intervalls [a, b] in Scheiben und approximiert die Funktionswerte von f im Intervall (xi−1 , xi ) durch eine Konstante ci , so erhält man einen aus zylindrischen Schichten mit Radius ci und Höhe xi − xi−1 aufgebauten Körper. Dieser hat dann Volumen n X πc2i (xi − xi−1 ). i=1 Durch Grenzübergang erhalten wir das Volumen des Rotationskörpers Z V =π b f (x)2 dx. a Beispiel 7.31. Die Kugel mit Radius r und Mittelpunkt√0 erhält man als Rotationskörper für die Funktion f : [−r, r] → [0, ∞) gegeben durch f (x) = r2 − x2 . Das Volumen der Kugel ist also r Z r x3 4πr3 V =π (r2 − x2 ) dx = π r2 x − = . 3 −r 3 −r 106 8 Potenzreihen P In diesem Kapitel wollen wir uns mit Reihen ∞ k=0 fk beschäftigen, deren Glieder Funktionen fk : D → R mit D ⊂ R sind. Dabei beschränken wir uns auf den mit Abstand wichtigsten Fall der Potenzreihen. Diesen sind wir bereits beim Studium von Taylorreihen begegnet. Ist f : (a, b) → R eine beliebig oft differenzierbare Funktion und ist x0 ∈ (a, b), dann ist die Taylorreihe von f gegeben durch ∞ X f (k) (x0 ) (x − x0 )k . k! k=0 Ein prominentes Beispiel ist die Reihe der Exponentialfunktion ex = ∞ X xk k=1 k! , P k die für alle x ∈ R, sogar für alle x ∈ C konvergiert. Allgemeine Reihen der Form ∞ k=0 ak x heißen Potenzreihen. Wir kennen bereits weitere Beispiele: die Reihen der trigonometrischen Funktionen sin P∞x, cosk x und die Reihen der Hyperbelfunktionen sinh x, cosh x. Auch die geometrische Reihe k=0 x , die für |x| < 1 konvergiert, ist eine Potenzreihe. 8.1 Konvergenz von Potenzreihen Wir beginnen mit der Definition einer formalen Potenzreihe. Definition 8.1. Ist (ak ) eine Folge reeller Zahlen, dann heißt die Reihe ∞ X ak xk k=0 eine Potenzreihe mit der Variablen x ∈ R. Die Zahlen ak heißen Koeffizienten der Potenzreihe. P k Bemerkung. Auch Reihen der Form ∞ k=0 ak (x−x0 ) für ein festes x0 ∈ R heißen Potenzreihen. Die folgenden Resultate lassen sich durch eine einfache Translation x → x − x0 auch für solche Reihen formulieren. Bemerkung. Man kann auch komplexe Potenzreihen betrachten. Dann sind die Koeffizienten ak komplexe Zahlen und mit einer komplexen Variablen z ∈ C hat eine Potenzreihe dann die P k Form ∞ a k=0 k z . Das Konvergenzgebiet einer Potenzreihe ist ein Intervall der Form (−R, R) (möglicherweise mit R = 0, wenn die Reihe nur für x = 0 konvergiert, oder R = ∞, wenn die Reihe für alle x ∈ R konvergiert wie bei der Exponentialreihe). Darüber, und wie man diesen Konvergenzradius R berechnet, gibt der folgende Satz Auskunft. Satz 8.2. Für eine Folge (ak ) reeller Zahlen setzen wir α = lim sup k→∞ Dann ist die Potenzreihe P∞ k=0 ak x k p k |ak | und R= 1 . α absolut konvergent für |x| < R und divergent für |x| > R. 107 Beweis. Setzen wir bk = ak xk , so erhalten wir die Aussage über die absolute Konvergenz für |x| < R und Divergenz für |x| > R aus dem Wurzelkriterium: lim sup k→∞ p p |x| k |bk | = |x| lim sup k |ak | = α|x| = . R k→∞ Bemerkung. Man kann den Konvergenzradius ebenfalls berechnen als ak 1 , p bzw. R = lim R= k→∞ ak+1 limk→∞ k |ak | falls diese Grenzwerte existieren. Die erste Formel ist dabei klar, die zweite folgt aus dem Quotientenkriterium. Bemerkung. Für komplexe Reihen liefert der gleiche Beweis die Konvergenz der Potenzreihe P∞ k k=0 ak z für |z| < R und Divergenz für |z| > R. P k k Beispiel 8.3. Die Potenzreihe k x hat den Konvergenzradius R = 0, da p lim k |ak | = lim k = ∞ k→∞ k→∞ ist. Beispiel 8.4. Die geometrische Reihe Konvergenzkreises, also für |x| < 1, ist P xk hat den Konvergenzradius R = 1. Im Inneren des ∞ X xk = k=0 1 . 1−x Beispiel 8.5. Wir erinnern an die Taylorreihen von Exponentialfunktion und trigonometrischen Funktionen: x x2 + + ... 1! 2! x2 x4 cos x = 1 − + − +... 2! 4! x3 x5 sin x = x − + − +... 3! 5! ex = 1 + Diese konvergieren für x ∈ R (sogar für x ∈ C) und haben deshalb den Konvergenzradius R = ∞. Bei allen Beispielen sieht man, dass die durch die jeweilige Potenzreihe im Konvergenzkreis gegebene Funktion eine stetige Funktion ist. Das ist kein Zufall. P k Satz 8.6. Sei f (x) = ∞ k=0 ak x eine Potenzreihe mit dem Konvergenzradius R > 0. Dann ist f im Konvergenzintervall (−R, R) eine stetige Funktion. 108 Beweis. Sei r ∈ R so, dass 0 < r < R gilt. Weiter seien x1 , x2 ∈ R mit |x1 |, |x2 | ≤ r. Wir erhalten nun aus der Identität k−3 2 k−1 xk1 − xk2 = (x1 − x2 )(x1k−1 + xk−2 1 x2 + x1 x2 + · · · + x2 ) für k ∈ N die Ungleichung |xk1 − xk2 | ≤ krk−1 |x1 − x2 |. Es folgt |f (x1 ) − f (x2 )| ≤ ∞ X |ak ||xk1 − xk2 | ≤ |x1 − x2 | k=1 ∞ X k|ak |rk−1 . k=1 Die letzte Reihe ist wegen lim sup q k k|ak |rk−1 = r lim sup k→∞ k→∞ p r k |ak | = <1 R nach dem Wurzelkriterium konvergent, sagen wir mit Summe M . Es folgt |f (x1 ) − f (x2 )| ≤ M |x1 − x2 | für beliebige x1 , x2 mit |x1 |, |x2 | ≤ r. Die Funktion f ist also in jedem Intervall [−r, r] ⊂ (−R, R) sogar Lipschitz-stetig. Über das Konvergenzverhalten einer Potenzreihe auf dem Rand des Konvergenzintervalls kann man keine einfache Aussage treffen, was die folgenden Beispiele zeigen. P k Beispiel 8.7. Die geometrische Reihe x konvergiert weder für x = 1 noch für x = −1, da die Glieder der Reihe keine Nullfolge bilden. P xk Beispiel 8.8. Die Reihe k hat ebenfalls den Konvergenzradius R = 1, sie divergiert für x = 1 (harmonische Reihe) und konvergiert für x = −1 (alternierende harmonische Reihe). P k Beispiel 8.9. Die Reihe P xk2 hat ebenfalls den Konvergenzradius R = 1 und konvergiert für 1 x = ±1 sogar absolut, da konvergiert. k2 Wir werden später den Abelschen Grenzwertsatz behandeln, der etwas über die Konvergenz auf dem Rand des Konvergenzintervalls aussagt. 8.2 Rechnen mit Potenzreihen Potenzreihen kann man im gemeinsamen Konvergenzgebiet addieren. Satz 8.10. Sind f (x) = ∞ X ak xk und k=0 g(x) = ∞ X bk xk k=0 zwei Potenzreihen mit Konvergenzradien R1 , R2 , so gilt für |x| < min(R1 , R2 ) f (x) + g(x) = ∞ X k=0 (ak + bk )xk . 109 Während dies sofort aus der absoluten Konvergenz der Potenzreihen folgt, benötigt man zum Beweis der entsprechenden Eigenschaft für die Multiplikation das sogenannte Cauchyprodukt, welches ebenfalls unter der Voraussetzung der absoluten Konvergenz der einzelnen Reihen konvergiert. Wir zeigen das hier nicht. Satz 8.11. Sind f (x) = ∞ X ak xk g(x) = und k=0 ∞ X bk xk k=0 zwei Potenzreihen mit Konvergenzradien R1 , R2 , so gilt für |x| < min(R1 , R2 ) f (x)g(x) = ∞ X ck xk k=0 mit ck = a0 bk + a1 bk−1 + a2 bk−2 + · · · + ak b0 . Praktisch bedeutet dies, dass man zwei Potenzreihen formal wie zwei Polynome multiplizieren kann. Man darf Potenzreihen im Inneren des Konvergenzkreises auch gliedweise differenzieren und integrieren. Das besagt der folgende Satz, den wir ebenfalls ohne vollständigen Beweis angeben. Die Gleichheit der Konvergenzradien der auftretenden Potenzreihen ist aber einfach nachzurechnen. Satz 8.12. Ist f (x) = Potenzreihen P∞ k=0 ak x g(x) = ∞ X k eine Potenzreihe mit Konvergenzradius R, so haben auch die ak kxk−1 h(x) = und k=1 ∞ X ak k+1 x k+1 k=0 den Konvergenzradius R und es gilt Z 0 f (x) = g(x) und f (x) dx = h(x). Insbesondere ist jede Potenzreihe in ihrem Konvergenzintervall eine beliebig oft differenzierbare Funktion. Die Aussagen in diesem Satz sind nicht selbstverständlich. Es sind für die Analysis typische Vertauschungssätze für Grenzwertprozesse. Im Fall der Ableitung werden hier der Grenzwert, der die Ableitung definiert, und der Grenzwert, den die Reihe darstellt, vertauscht. Dass solche Vertauschungen von Grenzwerten nicht immer harmlos sind, wollen wir uns an einem Beispiel einer Doppelfolge klarmachen. m Beispiel 8.13. Wir betrachten Doppelfolge am,n = m+n für m, n ∈ N. Für jedes feste n ist limm→∞ am,n = 1, für jedes feste m hingegen limn→∞ am,n = 0. Wir haben also lim lim am,n = 0 6= 1 = lim lim am,n . m→∞ n→∞ n→∞ m→∞ Man kann die beiden Grenzwerte nicht einfach vertauschen. Den Zusammenhang von Potenzreihen und Taylorreihen macht das folgende Beispiel klar. 110 Beispiel 8.14 (Potenzreihe ist ihre eigene Taylorreihe). Durch sukzessives Differenzieren erhalP k a ten wir die Ableitungen von f (x) = ∞ k=0 k x als f (n) (x) = ∞ X k(k − 1) . . . (k − n + 1)ak xk−n , k=n insbesondere gilt also als an = f (n) (0) n! f (n) (0) = n! an . Man kann also die Koeffizienten der Potenzreihe berechnen und erhält f (x) = ∞ X f (k) (0) k! k=0 xk . Dieses Beispiel zeigt, dass zwei Potenzreihen, die in einem beliebig kleinen Intervall um 0 die gleiche Funktion darstellen, übereinstimmen. Erstaunlicherweise gilt dies schon, wenn Gleichheit nur in einer Folge von Punkten gefordert wird, die gegen 0 konvergieren. P∞ P k k Satz 8.15 (Identitätssatz für Potenzreihen). Seien f (x) = ∞ k=0 bk x k=0 ak x und g(x) = zwei Potenzreihen mit Konvergenzradius mindestens R und sei (xm ) ⊂ (−R, R) \ {0} eine Folge mit xm → 0 und f (xm ) = g(xm ). Dann gilt ak = bk für alle k ∈ N0 und f (x) = g(x) für alle reellen (sogar komplexen) x mit |x| < R. Beweis. Wir zeigen induktiv ak = bk . Aus der Stetigkeit von f und g folgt a0 = f (0) = lim f (xm ) = lim g(xm ) = g(0) = b0 . m→∞ m→∞ Sei nun ai = bi für i = 0, 1, . . . , n − 1 schon gezeigt. Dann betrachten wir die Potenzreihen u(x) = ∞ X an+k xk v(x) = und ∞ X bn+k xk k=0 k=0 sowie das Polynom p(x) = n−1 X ak xk = k=0 n−1 X bk xk . k=0 Wegen xn u(x) = f (x) − p(x) xn v(x) = g(x) − p(x) und und xm 6= 0 folgt aus der Voraussetzung des Satzes u(xm ) = v(xm ). Aus der Stetigkeit von u und v folgt an = u(0) = lim u(xm ) = lim v(xm ) = v(0) = bn . m→∞ m→∞ Wir schließen diesen Abschnitt mit einigen weiteren Beispielen für wichtige Taylorreihen, die wir mit den nun bereitgestellten Mitteln untersuchen können. Beispiel 8.16 (Logarithmusreihe). Hier gehen wir von der geometrischen Reihe ∞ X 1 = (−t)k 1+t k=0 aus, die für |t| < 1 absolut konvergiert. Dann erhalten wir für für |x| < 1 Z x ∞ Z x ∞ X X dt xk+1 x2 x3 log(1 + x) = = (−1)k tk dt = (−1)k =x− + − +... k+1 2 3 0 1+t 0 k=0 k=0 111 Beispiel 8.17 (Arcustangensreihe). Hier gehen wir von der geometrischen Reihe ∞ X 1 = (−t2 )k 1 + t2 k=0 aus, die ebenfalls für |t| < 1 absolut konvergiert. Dann erhalten wir für für |x| < 1 Z arctan x = 0 x ∞ X dt = 2 1+t k=0 Z x (−1)k t2k dt = 0 ∞ X x3 x5 x2k+1 =x− + − +... (−1)k 2k + 1 3 5 k=0 Beispiel 8.18 (Binomialreihe). Wir wollen die binomische Formel n X n k (1 + x) = x k n k=0 auf f (x) = (1 + x)α für beliebige reelle Koeffizienten α verallgemeinern. Dazu leiten wir zunächst die Taylorreihe von f (x) her, die man mittels sukzessiven Ableitens als bα (x) = ∞ X α k x k k=0 mit den verallgemeinerten Binomialkoeffizienten α α(α − 1) · · · (α − k + 1) = k k! berechnet. Den Konvergenzradius erhalten wir für α ∈ / N0 durch α ak k+1 k+1 α+1 k = lim R = lim = lim = 1 − lim = 1. α = lim k→∞ ak+1 k→∞ |α − k| k→∞ k − α k→∞ k − α k→∞ k+1 Es bleibt noch zu zeigen, dass tatsächlich bα (x) = (1 + x)α für |x| < 1 gilt. Dazu differenzieren wir die Potenzreihe für bα und erhalten ∞ ∞ ∞ X X X α α α 0 k−1 k bα (x) = = kx (k + 1)x = (α − k)xk . k k+1 k k=1 k=0 k=0 Multiplikation mit 1 + x liefert ∞ ∞ ∞ X X X α α α 0 k k (1 + x)bα (x) = (α − k)x + kx = αxk = αbα (x). k k k k=0 k=1 k=0 Für die Funktion g(x) = (1 + x)−α bα (x) gilt dann g(0) = 1 und g 0 (x) = (−α)(1 + x)−α−1 bα (x) + (1 + x)−α b0α (x) = 0. Damit muss g(x) = 1 für alle x ∈ (−1, 1) sein, was die Behauptung war. Beispiel 8.19 (Arcussinus-Reihe). Wir beginnen mit der Binomialreihe für α = − 12 und erhalten für |x| < 1 ∞ 1 X 1 −2 k √ = x . k 1+x k=0 112 Substituieren wir hier x = −u2 mit |u| < 1, ergibt sich 1 ∞ X 1 − 2 2k √ = u . (−1)k 2 k 1−u k=0 Durch Integration erhalten wir 1 2k+1 Z x ∞ X du u 1 x3 1 · 3 x5 1 · 3 · 5 x7 k −2 √ arcsin x = = (−1) =x+ · + · + · + ... k 2k + 1 2 3 2·4 5 2·4·6 7 1 − u2 0 k=0 8.3 Der Abelsche Grenzwertsatz Wir kommen nun zum Abelschen Grenzwertsatz, der etwas über die Konvergenz auf dem Rand des Konvergenzintervalls aussagt. Genauer besagt er, dass im Falle der Konvergenz der Potenzreihe inPx = R oder x = −R die dann auch für x = R bzw. x = −R definierte Funktion k f (x) = ∞ k=0 ak x auch dort stetig ist. Wir formulieren den Satz nur für x = R = 1, da sich der allgemeine Fall leicht auf diesen zurückführen lässt. Satz 8.20 (Abelscher Grenzwertsatz). Sei Folge reeller Zahlen, für die die Reihe P P (ak ) eine k für x ∈ (−1, 1), so gilt a x ak konvergiert. Setzen wir dann f (x) = ∞ k=0 k lim f (x) = x%1 Beweis. Mit den Partialsummen sn = n X k ak x = k=0 n X ∞ X ak . k=0 Pn k=0 ak und s−1 = 0 erhalten wir k (sk − sk−1 )x = (1 − x) n−1 X sk xk + sn xn . k=0 k=0 Für |x| < 1 ergibt sich durch Grenzübergang n → ∞ f (x) = (1 − x) ∞ X sk xk . k=0 P∞ Sei nun s = lim sn = k=0 ak und P∞sei εk> 0 gegeben. Dann wählen wir n0 ∈ N, so dass |sn −s| < für n ≥ n0 gilt. Wegen (1 − x) k=0 x = 1 erhalten wir schließlich n0 ∞ X X ε k (sk − s)x ≤ (1 − x) |sk − s||x|k + < ε |f (x) − s| = (1 − x) 2 k=0 ε 2 k=0 für x > 1 − δ mit geeignet gewähltem δ > 0. Das liefert aber gerade die behauptete Grenzwertaussage limx%1 f (x) = s. Beispiel 8.21. Anwendung des Abelschen Grenzwertsatzes auf die Logarithmusreihe log(1 + x) = x − x2 x3 + − +... 2 3 für |x| < 1 liefert für x = 1 die Summe der alternierenden harmonischen Reihe log 2 = 1 − 1 1 1 + − + −... 2 3 4 113 Beispiel 8.22. Anwendung des Abelschen Grenzwertsatzes auf die Arcustangensreihe arctan x = x − x3 x5 + − +... 3 5 für |x| < 1 liefert für x = 1 die Identität π 1 1 1 = 1 − + − + −... 4 3 5 7 114 9 Differentialrechnung multivariater Funktionen Viele praktisch relevante Funktionen hängen von mehr als einem Parameter ab. So ist das Volumen eines Kreiszylinders V = πr2 h eine Funktion von Höhe h und Radius der Grundfläche r. Ein ideales Gas ist beschrieben durch die Gleichung p V = n R T mit Druck p, Volumen V , Stoffmenge n, Gaskonstante R und Temperatur T . Durch Umstellen erhält man z.B. den Druck als Funktion der restlichen Parameter. Die Temperatur in einem Raum ist eine Funktion T (x, y, z, t) von drei Ortsparametern x, y, z und einem Zeitparameter t. Ziel dieses Kapitels ist die Ausdehnung der Differentialrechnung samt ihrer Anwendungen auf solche Funktionen mit mehreren Variablen. Dabei werden wir uns teilweise der Übersichtlichkeit halber auf drei Tyypen von Funktionen beschränken. Dies sind zunächst Funktionen f : R2 → R oder z = f (x, y), die von zwei reellen Variablen Variablen x, y abhängen. Auf solche Funktionen wollen wir die Begriffe und Methoden aus der Differentialrechnung für Funktionen einer Variablen verallgemeinern. Dazu führen wir insbesondere partielle Ableitungen ein. Mit ihrer Hilfe lassen sich diese Funktionen qualitativ untersuchen, man kann lokale Extrema bestimmen und Krümmungen untersuchen. Weiterhin werden wir Kurven im R2 und im R3 betrachten. Diese sind gegeben durch Funktionen f : [a, b] → R2 oder f : [a, b] → R3 auf einem Intervall. Schließlich behandeln wir noch Vektorfelder, das sind Funktionen f : R2 → R2 oder f : R3 → R3 . Wir werden uns zunächst mit der Veranschaulichung solcher Funktionen beschäftigen. Danach wollen wir den Begriff der Stetigkeit auf solche Funktionen übertragen, wobei wir die Folgenstetigkeit als Grundlage nehmen. Anschließend lernen wir die Grundbegriffe der Differentialrechnung multivariater Funktionen kennen. Diese wenden wir dann an zur Untersuchung von Flächen und Kurven. 9.1 Darstellung von Funktionen Dieser Abschnitt dient hauptsächlich zur Erklärung, wie sich Funktionen f : R2 → R, f : R → Rd (mit d = 2, 3) und f : Rd → Rd (mit d = 2, 3) veranschaulichen lassen. Im ersten Fall erhalten wir als Funktionsgraphen (gekrümmte) Flächen im R3 , im zweiten Fall stellt man sich am besten die Bildmenge als Kurve im Rd vor, der letzte Fall beschreibt Vektorfelder. 2 1 0 -1 -2 -2 Abbildung 1: Der Paraboloid z = x2 + y 2 -1 0 1 2 115 Betrachten wir zunächst eine Funktion f : D → R auf einem Definitionsbereich D ⊆ R2 . Um ein konkretes Beispiel zu haben, sei f : R2 → R gegeben durch f (x, y) = x2 +y 2 . Der Funktionsgraph dieser Funktion in der (x, y, z)-Ebene ist dann also {(x, y, z) ∈ R3 : z = x2 + y 2 } und ist dargestellt in Abbildung 1. Diese Fläche heißt Paraboloid. Eine zweite Möglichkeit der Darstellung ergibt sich durch die zweidimensionale Abbildung der Höhenlinien {(x, y) ∈ R2 : f (x, y) = c} für verschiedene Werte der Konstanten c. Man erhält eine topographische Karte der Fläche. Für den Paraboloiden f (x, y) = x2 + y 2 sind die Höhenlinien Kreise. Dies ist ebenfalls in Abbildung 1 dargestellt, zusätzlich sind verschiedene Intervalle im Wertebereich farbig hinterlegt. In Abbildung 2 ist der Hyperboloid gegeben durch die Funktion f (x, y) = x2 − y 2 dargestellt, in Abbildung 3 ein komplexeres Beispiel. 2 1 0 -1 -2 -2 0 -1 1 2 Abbildung 2: Der Hyperboloid z = x2 − y 2 2 1 0 -1 -2 -3 -2 -1 0 1 2 3 Abbildung 3: Die Funktion z = sin(x + y 2 ) Betrachten wir nun Funktionen f : [a, b] → Rd , die auf einem Intervall definiert sind und deren Wertebereich der Rd ist. Hier ist oftmals die Vorstellung hilfreich, dass das Argument der 116 Funktion ein Zeitparameter t ∈ [a, b] ist und f (t) ∈ Rd den Ort darstellt, zu dem sich ein sich bewegender Punkt zum Zeitpunkt t befindet. Vernachlässigt man dann in der Darstellung den Zeitparameter, so erhält man eine Kurve im Rd , die vom sich bewegenden Punkt durchlaufen wird. So stellt zum Beispiel die Funktion f (t) = (cos t, sin t) für t ∈ R einen (mehrfach durchlaufenen) Einheitskreis dar. In den Abbildungen 4 und 5 sind als Beispiele die Funktionen f (t) = (t cos t, t sin t) und g(t) = (cos t, sin t, t) dargestellt, die Kurven heißen archimedische Spirale und Schraubenlinie. 100 50 -100 50 -50 100 -50 -100 Abbildung 4: Archimedische Spirale Abbildung 5: Schraubenlinie Eine Kurve f : [a, b] → R2 setzt sich also formal aus zwei Komponentenfunktionen x : [a, b] → R und y : [a, b] → R als f (t) = x(t), y(t) zusammen. Dies sind einfach Funktionen einer Variablen, die wir schon sehr gut kennen. Hierbei beschreiben x(t) und y(t) die jeweilige xbzw. y-Koordinate des Kurvenpunktes zur Zeit t. Entsprechend setzt sich eine räumliche Kurve f : [a, b] → R3 aus drei Komponentenfunktionen x, y, z : [a, b] → R als f (t) = x(t), y(t), z(t) zusammen. Betrachten wir schließlich Funktionen f : D → Rd , die auf einem Definitionsbereich D ⊆ Rd definiert sind. Hier sind also Dimension von Definitionsbereich und Wertebereich gleich. Solche Funktionen treten z.B. als Vektorfelder auf, stellen Sie sich das Gravitationsfeld der Erde oder das Geschwindigkeitsfeld einer strömenden Flüssigkeit vor. In jedem Punkt des Definitionsbereichs denkt man sich dazu einen Vektor angeheftet. Ist zum Beispiel d = 2, so zeichnen wir in gewissen Punkten (x, y) des Definitionsbereichs einen Vektor f (x, y) mit Anfangspunkt (x, y). Als Beispiel ist in Abbildung 6 das Vektorfeld f (x, y) = (x, −y) in zwei Varianten dargestellt. Auch ein Vektorfeld kann man sich als Zusammensetzung von Komponentenfunktionen vorstellen. Allerdings hängen hier die Komponentenfunktionen anders als bei Kurven schon von mehreren Variablen ab. Soist ein Vektorfeld f : D → R2 mit D ⊆ R2 eine Zusammensetzung f (x, y) = f1 (x, y), f2 (x, y) der Funktionen f1 , f2 : D → R, die die jeweilige x und y-Koordinate des Bildvektors f (x, y) beschreiben. 9.2 Grenzwerte und Stetigkeit Im folgenden sei f : D → R eine Funktion f (x, y) von zwei Variablen (x, y) ∈ D ⊆ R2 . Die Begriffe in diesem Abschnitt lassen sich ohne Schwierigkeiten auf Funktionen von mehr als zwei Variablen übertragen. 117 3 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 Abbildung 6: Das Vektorfeld (x, −y) Definition 9.1. Sei (xn , yn ) n∈N eine Folge von Punkten (xn , yn ) ∈ R2 . Dann heißt diese Folge konvergent, wenn es einen Punkt (x0 , y0 ) ∈ R2 gibt mit lim n→∞ xn = x0 und limn→∞ yn = y0 . In diesem Fall heißt (x0 , y0 ) Grenzwert der Folge (xn , yn ) n∈N und wird mit (x0 , y0 ) = lim (xn , yn ) n→∞ bezeichnet. Konvergenz einer Folge von Punkten im R2 ist also nichts anderes als die Konvergenz der jeweiligen Zahlenfolgen der Koordinaten. Der Grenzwert ist wieder eindeutig bestimmt. Damit lässt sich nun leicht der Begriff Grenzwert von Funktionen und damit der Begriff Stetigkeit auf multivariate Funktionen übertragen. Definition 9.2. Sei f : D → R eine Funktion f (x, y) von zwei Variablen (x, y) ∈ D ⊆ R2 und sei (x0 , y0) ∈ D. Dann heißt a ∈ R Grenzwert von f für (xn , yn ) → (x0 , y0 ), wenn für jede Folge (xn , yn ) n∈N in D \ {(x0 , y0 )} mit (x0 , y0 ) = limn→∞ (xn , yn ) a = lim f (xn , yn ) n→∞ gilt. Dann schreiben wir a = lim(x,y)→(x0 ,y0 ) f (x, y). Ist zusätzlich a = f (x0 , y0 ), dann heißt f stetig in (x0 , y0 ). Ist f in jedem (x0 , y0 ) ∈ D stetig, dann heißt f (global) stetig. Beispiel 9.3. lim (x,y)→(0,0) sin(x + y) sin t = lim =1 t→0 t x+y Beispiel 9.4. Der Grenzwert x2 − y 2 (x,y)→(0,0) x2 + y 2 lim existiert nicht. Für die Folge (xn , yn ) = ( n1 , n1 ) erhält man x2n − yn2 = 0, 2 n→∞ x2 n + yn lim 118 für die Folge (xn , yn ) = ( n2 , n1 ) hingegen x2n − yn2 = lim 2 n→∞ x2 n→∞ n + yn lim 4 n2 4 n2 − + 1 n2 1 n2 3 = . 5 Man kann auch eine ε − δ-Definition der Stetigkeit geben. Für unsere Zwecke ist diese Definition über die Folgenstetigkeit aber bequemer. Die Übertragung des Grenzwert- und Stetigkeitsbegriffs auf Funktionen f : D → Rd (wichtig für Kurven und Vektorfelder) erfolgt einfach durch die entsprechenden Begriffe für die einzelnen Komponentenfunktionen. Aus der Definition der Stetigkeit ergibt sich damit auch direkt die Stetigkeit von Kompositionen stetiger Funktionen und von Verknüpfungen mittels algebraischer Operationen. Beispiel 9.5 (Polynome in mehreren Variablen). Ist (x, y) ∈ R2 und (a, b) ∈ N20 , dann nennen wir die Funktion f : R2 → R gegeben durch f (x, y) = xa y b Monom, genauer eine Monom in den zwei Variablen x, y. Linearkombinationen von Monomen heißen Polynome in zwei Variablen oder bivariate Polynome. Als Produkte stetiger R-wertiger Funktionen sind Monome und damit auch Polynome in mehreren Variablen stetig. Ein Beispiel für ein Polynom in zwei Variablen ist f (x, y) = x42 + x2 y 3 + 27xy + 6, ein Beispiel für ein Polynom in drei Variablen in der üblichen Schreibweise ist f (x, y, z) = x4 + y 4 + z 4 + 2x3 y 2 z + 42x + 27. Abbildung 7: Eine separat stetige, nicht stetige Funktion Beispiel 9.6. Wir betrachten weiter Funktionen f : D → R mit D ⊆ R2 . Eine solche Funktion heißt separat stetig oder getrennt stetig, wenn für jedes fixierte y die Funktion x 7→ f (x, y) (als Funktion von R nach R) stetig ist und ebenso für jedes fixierte x die Funktion y 7→ f (x, y) (als Funktion von R nach R) stetig ist. Jede stetige Funktion ist natürlich separat stetig. Die Umkehrung gilt allerdings nicht, wie das folgende illuminierende Beispiel zeigt. Sei f : R2 → R gegeben durch ( 2xy für (x, y) 6= (0, 0) x2 +y 2 f (x, y) = 0 für (x, y) = (0, 0). 119 Offensichtlich ist f stetig in allen Punkten (x, y) 6= (0, 0). In (0, 0) ist f auch separat stetig, da x 7→ f (x, 0) = 0 und y 7→ f (0, y) = 0 stetig sind. Aber f ist nicht stetig, da für die gegen (0, 0) 1 1 konvergierende Folge (xn , yn ) = n , n die Funktionswerte f (xn , yn ) = 1 sind und nicht gegen f (0, 0) = 0 konvergieren. In Abbildung 7 ist die Funktion dargestellt. 9.3 Partielle Ableitungen Für Begriffe, die mit der Differenzierbarkeit von multivariaten Funktionen f : D → R zusammenhängen, benötigen wir, dass der Definitionsbereich D ⊆ R2 mit einem Punkt (x0 , y0 ) ∈ D auch eine ganze Umgebung des Punktes, also einen (evtl. sehr kleinen) Kreis um den Punkt (x0 , y0 ) enthält. Eine solche Menge D nennt man eine offene Menge. Definition 9.7 (Partielle Ableitung). Sie D ⊆ R2 offen, f : D → R und sei (x0 , y0 ) ∈ D. Ist die Funktion x 7→ f (x, y0 ), die nur von der einen Variablen y abhängt, in x0 differenzierbar, dann heißt f in (x0 , y0 ) partiell nach x differenzierbar und ihre Ableitung fx (x0 , y0 ) = ∂f f (x0 + h, y0 ) − f (x0 , y0 ) (x0 , y0 ) = lim h→0 ∂x h die partielle Ableitung von f nach x in (x0 , y0 ). Entsprechend ist die partielle Differenzierbarkeit nach y und die partielle Ableitung nach y fy (x0 , y0 ) = ∂f f (x0 , y0 + h) − f (x0 , y0 ) (x0 , y0 ) = lim h→0 ∂y h definiert. Man erhält also die partielle Ableitung von f (x, y) nach x, indem man y wie eine Konstante betrachtet und wie üblich nach der einen Variablen x ableitet. Bei der partiellen Ableitung nach y hingegen behandelt man x als Konstante. Man kann also alle Differentiationsregeln (Produktund Quotientenregel, Kettenregel) anwenden. 2 Beispiel 9.8. Sei f (x, y) = exy . Offensichtlich ist f überall nach x und y partiell differenzierbar mit 2 2 fx = y 2 exy und fy = 2xyexy . Beispiel 9.9. Sei f (x, y, z) = sin x+ln(y 2 +z 4 ). Offensichtlich ist f überall im Definitionsbereich (welcher ist das?) nach x, y, z partiell differenzierbar mit fx = cos x, fy = 2y 2 y + z4 und fz = 4z 3 . y2 + z4 Wir wollen nun auf die geometrische Interpretation der partiellen Ableitungen eingehen, siehe Abbildung 8. Dazu betrachten wir die partielle Ableitung fx (x0 , y0 ) nach der Variable x. Diese ist nach Definition wieder der Anstieg einer Tangente, und zwar einer Tangente an die durch den Graph von f dargestellten Fläche, die in der Ebene y = y0 liegt. Man betrachtet durch Festhalten der y-Koordinate y = y0 nur den Schnitt der Fläche mit dieser Ebene, die Funktion f (x, y0 ). Dies ist aber eine Kurve. Der Anstieg der Tangente an diese Kurve im Punkt (x0 , y0 ) ist die partielle Ableitung fx (x0 , y0 ). 120 Abbildung 8: Veranschaulichung Partielle Ableitung als Anstieg Sind die partiellen Ableitungen selbst wieder partiell differenzierbar, kann man die partiellen Ableitungen zweiter Ordnung ∂2f ∂2f = ∂x∂x ∂x2 2 ∂ f = ∂y∂x ∂2f ∂x∂y ∂2f ∂2f = = ∂y∂y ∂y 2 fxx = fxy = fyx fyy bilden. 2 Beispiel 9.10. Sei wieder f (x, y) = exy mit den partiellen Ableitungen fx = y 2 exy 2 und 2 fy = 2xyexy . Diese sind offensichtlich wieder partiell differenzierbar und wir erhalten fxx = y 4 exy 2 fyx = 2xy(y 2 + 1)exy fxy = 2xy(y 2 + 1)exy 2 2 2 fyy = 2x(2xy 2 + 1)exy . Die Übereinstimmung der gemischten Ableitungen in diesem Beispiel ist kein Zufall. Formal vertauscht man zwar beim Bilden der Ableitungen zwei Grenzwerte miteinander: f (x0 + h, y0 + k) − f (x0 + h, y0 ) − f (x0 , y0 + k) + f (x0 , y0 ) hk f (x0 + h, y0 + k) − f (x0 + h, y0 ) − f (x0 , y0 + k) + f (x0 , y0 ) fyx (x0 , y0 ) = lim lim , h→0 k→0 hk fxy (x0 , y0 ) = lim lim k→0 h→0 121 und diese Vertauschung führt nicht immer zum gleichen Ergebnis. Dass die Vertauschung aber erlaubt ist unter sehr allgemeinen Voraussetzungen ist der Inhalt des folgenden Satzes. Satz 9.11 (Vertauschungssatz von Schwarz). Sei D ⊆ R2 offen, f : D → R und (x0 , y0 ) ∈ D. Falls die partiellen Ableitungen fx , fy und fxy in einer Umgebung von (x0 , y0 ) existieren und dort stetig sind, dann existiert auch fyx in (x0 , y0 ) und es gilt fyx (x0 , y0 ) = fxy (x0 , y0 ). Unter den Voraussetzungen der Stetigkeit der benutzten partiellen Ableitungen spielt also die Reihenfolge des partiellen Differenzierens keine Rolle. Dies überträgt sich dann auch auf die höheren gemischten Ableitungen. Bei der Berechnung der Ableitung ∂ m+n f ∂xm ∂y n ist nur wichtig, dass man insgesamt m mal nach x und n mal nach y ableitet. Für einen Beweis des Schwarzschen Vertauschungssatzes verweisen wir auf die Literatur. 9.4 Kettenregeln für partielle Ableitungen Für das praktische Rechnen mit partiellen Ableitungen ist die Erweiterung der Kettenregel auf multivariate Funktionen notwendig. Eine einheitliche Kettenregel für alle Anwendungen ist dabei nur möglich, wenn man Verkettungen g ◦ f von Funktionen f : Rd → Rm und g : Rm → Rk mit allgemeinen d, m, g ∈ N benutzt. Dann kann man aus den partiellen Ableitungen der Komponentenfunktionen von f und g die sogenannten Jacobi-Matrizen Jf , Jg von f und g aufstellen und die Kettenregel besagt, dass die Jacobi-Matrix Jg◦f von g ◦ f das Matrixprodukt Jg ◦ Jf ist: Jg◦f = Jg ◦ Jf . Interpretiert man die Jacobi-Matrizen als Ableitungen, hat man also wieder die klassische Kettenregeln: Ableitung der Verkettung ist äußere Ableitung mal innere Ableitung. Da wir aber multivariate Funktionen nicht in dieser Allgemeinheit betrachten wollen, untersuchen wir die für uns wichtigen Fälle von Verkettungen f ϕ(x, y) , f ϕ(t), ψ(t) undf ϕ(s, t), ψ(s, t) direkt. Wir setzen dabei jeweils Stetigkeit der (partiellen) Ableitungen der betrachteten Funktionen voraus. (a) g(x, y) = f ϕ(x, y) mit einer Funktion f (t) von einer Variable und einer Funktion ϕ(x, y) von zwei Variablen. Hier kann man einfach die Kettenregel von Funktionen einer Variablen anwenden und erhält die partiellen Ableitungen von g als gx (x, y) = f 0 ϕ(x, y) ϕx (x, y) und gy (x, y) = f 0 ϕ(x, y) ϕy (x, y). Zum Beispiel finden wir für die Funktion g(x, y) = sin(x2 y 3 ) die partiellen Ableitungen gx = 2x cos(x2 y 3 ) und gy = 3y 2 cos(x2 y 3 ). 122 (b) g(t) = f ϕ(t), ψ(t) mit einer Funktion f (x, y) von zwei Variablen und zwei Funktionen ϕ(t), ψ(t) von einer Variablen. Hier ist g 0 (t) = fx ϕ(t), ψ(t) ϕ0 (t) + fy ϕ(t), ψ(t) ψ 0 (t). Leicht zu merken ist diese Regel auch in der alternativen Form dz ∂z dx ∂z dy = + , dt ∂x dt ∂y dt wobei man (nicht ganz sauber) z einerseits auffasst als Funktion z(x, y) und andererseits als Verkettung z x(t), y(t) . Als Beispiel wollen wir die Ableitung der Funktion g(t) = (cos t)1+sin t ) berechnen, die eine Verkettung der äußeren Funktion f (x, y) = xy und der inneren Funktionen x = ϕ(t) = cos t und y = ψ(t) = 1 + sin t ist. Die partiellen Ableitungen von f sind fx = yxy−1 und fy = (ln x) xy , die Ableitungen von ϕ und ψ sind ϕ0 (t) = − sin t und ψ 0 (t) = cos t. Mit der Kettenregel erhalten wir g 0 (t) = (1 + sin t)(cos t)sin t (− sin t) + ln(cos t)(cos t)1+sin t cos t. Fasst man die Ableitungen (fx , fy ) und (ϕ0 , ψ 0 ) als Vektoren auf, so ist dies das Skalarprodukt dieser Vektoren. Man hat also tatsächlich die Kettenregel in der Form äußere Ableitung mal innere Ableitung. (c) g(s, t) = f ϕ(s, t), ψ(s, t) mit einer Funktion f (x, y) von zwei Variablen und zwei Funktionen ϕ(s, t), ψ(s, t) von zwei Variablen. Hier hat die Kettenregel die Form ∂g ∂f ∂ϕ ∂f ∂ψ = · + · ∂s ∂x ∂s ∂y ∂s ∂g ∂f ∂ϕ ∂f ∂ψ = · + · . ∂t ∂x ∂t ∂y ∂t Einprägsamer ist die Formel, wenn man die inneren Funktionen schreibt als x(s, t) = ϕ(s, t) und y(s, t) = ψ(s, t). Dann ist die verkettete Funktion g(s, t) = f (x, y) und die Kettenregel hat die Form gs = fx xs + fy ys gt = fx xt + fy yt . Als Beispiel betrachten wir die Verkettung der Funktionen f (x, y) = x2 + y 2 mit den Funktionen x(s, t) = set und y(s, t) = tes und erhalten für die Funktion g(s, t) = (set )2 + (tes )2 die Ableitungen gs = fx xs + fy ys = 2xet + 2ytes = 2se2t + 2t2 e2s gt = fx xt + fy yt = 2xset + 2yes = 2s2 e2t + 2te2s . 9.5 Richtungsableitungen, Gradient, Tangentialebene Die partiellen Ableitungen einer Funktion f : R2 → R sind Ableitungen in Koordinatenrichtungen. Möchte man den Anstieg einer Fläche in andere Richtungen betrachten, benötigt man den allgemeinen Begriff der Richtungsableitung. 123 Definition 9.12 (Richtungsableitungen). Sei D ⊆ R2 offen und sei f : D → R. Weiter sei (x0 , y0 ) ∈ D und r = (g, h) ∈ R2 . Falls der Grenzwert f (x0 + tg, y0 + th) − f (x0 , y0 ) df d = lim (x0 , y0 ) := f (x0 + tg, y0 + th) , t→0 dr dt t t=0 so heißt df dr (x0 , y0 ) die Richtungsableitung von f in Richtung r. Die Richtungsableitung kann man also interpretieren als Anstieg des Funktionsgraphen in Richtung des Vektors r. Allerdings hängt die Richtungsableitung auch von der Länge des Vektors r ab. Dies diskutieren wir weiter unten. Beispiel 9.13. Die partielle Ableitung nach x ist die Richtungsableitung in Richtung des Einheitsvektors ex = (1, 0), die partielle Ableitung nach y ist die Richtungsableitung in Richtung des Einheitsvektors ey = (0, 1): fx (x0 , y0 ) = ∂f df (x0 , y0 ) = (x0 , y0 ) ∂x dex und fy (x0 , y0 ) = ∂f df (x0 , y0 ) = (x0 , y0 ). ∂y dey Beispiel 9.14. Sei f (x, y) = x2 + y 2 . Wir wollen die Richtungsableitungen von f berechnen. Seien dazu (x0 , y0 ) ∈ R2 und r = (g, h) ∈ R2 . Dann ist df d (x0 , y0 ) = (x0 + tg)2 + (y0 + th)2 t=0 = 2x0 g + 2y0 h. dr dt Für x0 = y0 = 0 sind z.B. alle Richtungsableitungen gleich 0. Bemerkung. Die Richtungsableitung in der Definition hängt nicht nur von der Richtung des Vektors r = (g, h), sondern auch von dessen Länge ab. So gilt offenbar für λ ∈ R df df (x0 , y0 ) = λ (x0 , y0 ). d(λr) dr Aus diesem Grund wird in manchen Büchern die Definition eingeschränkt auf normierte Richp tungsvektoren r mit Länge g 2 + h2 = 1. Das ist manchmal aber sehr unpraktisch. Will man allerdings die Interpretation der Richtungsableitung als Anstieg der Tangenten an die Funktionsfläche in Richtung r haben, dann gilt dies nur für normierte Richtungsvektoren r. Fasst man die partiellen Ableitungen einer Funktion f : D → R in einem Punkt (x0 , y0 ) ∈ D als Vektor auf, erhält man den Gradienten ∇f (x0 , y0 ) = fx (x0 , y0 ), fy (x0 , y0 ) . Formal ist es vorteilhaft, den Gradienten als Zeilenvektor aufzufassen, also als eine 1 × d-Matrix. Der folgende Satz stellt den Zusammenhang zwischen dem Gradienten, also den partiellen Ableitungen, und den Richtungsableitungen her. Satz 9.15. Sei D ⊆ R2 offen und sei f : D → R eine Funktion mit stetigen partiellen Ableitungen. Dann existieren in jedem Punkt (x0 , y0 ) alle Richtungsableitungen und es gilt für r = (g, h) ∈ R2 df (x0 , y0 ) = fx (x0 , y0 )g + fy (x0 , y0 )h. dr 124 Bemerkung. Kurz kann man diese Beziehung schreiben als df = ∇f · r, dr g wobei wir hier das Matrixprodukt der 1 × 2-Matrix ∇f mit dem Richtungsvektor r = , also h einem 2 × 1-Vektor, gebildet haben. Würde man stattdessen den Gradienten auch als Spaltenvektor auffassen, wäre dies das Skalarprodukt des Gradienten mit dem Richtungsvektor. Beweis. Dies folgt aus der Kettenregel angewendet auf die Funktion ϕ(t) = f (x0 +tg, y0 +th). Für die Länge eines Vektors r = (g, h) ∈ R2 , also seine euklidische Norm, werden wir ab jetzt die Bezeichnung |r| benutzen. Also ist p |r| = g 2 + h2 . Die Benutzung der Betragsstriche passt gut zur analogen Bezeichnung für den Betrag einer komplexen Zahl. Dann ist aus der linearen Algebra bekannt, dass das Skalarprodukt zweier Vektoren r1 = (g1 , h1 ) und r2 = (g2 , h2 ) gleich r1 · r2 = g1 g2 + h1 h2 = |r1 | |r2 | cos α ist, wobei α der Winkel zwischen den Vektoren r1 , r2 ist. Aus dieser Darstellung des Skalarprodukts erhält man sofort die wichtige Cauchy-Schwarz-Ungleichung |r1 · r2 | ≤ |r1 | |r2 |. Gleichheit gilt offensichtlich genau dann, wenn r1 , r2 in gleiche oder entgegengesetzte Richtung zeigen. Sind r1 und r2 orthogonal, ist das Skalarprodukt 0. Aus der Cauchy-Schwarz-Ungleichung folgt für normiertes r mit krk = 1 df dr ≤ |∇f | · |r| = |∇f |. Gleichheit gilt, wenn r in Richtung des Gradienten zeigt. Der Gradient zeigt also immer in die Richtung des steilsten Anstiegs. Das ist der Weg, den ein sehr motivierter Bergsteiger nehmen würde. Je steiler der Anstieg, desto länger ist der Gradient. Andererseits ist die Richtungsableitung 0 in Richtung orthogonal zu ∇f . Das ist gerade in Richtung der Höhenlinien, wo die Funktion konstant ist. Diesen Weg würde ein nicht sehr motivierter Wanderer wählen. Besitzt f : D → R in jedem Punkt partielle Ableitungen (und sind diese stetig), so liefert die Abbildung ∇ : D → Rd ein Vektorfeld, das sogenannte Gradientenfeld. Dieses kann man sich am Höhenlinienprofil von f leicht veranschaulichen: Der Gradient ist immer orthogonal zu den Höhenlinien, je enger die Höhenlinien beieinanderliegen liegen, desto steiler ist der Anstieg, also desto länger der Gradient. Beispiel 9.16. Wir betrachten nochmals die Funktion f (x, y) = x2 + y 2 . Die partiellen Ableitungen sind fx = 2x und fy = 2y und damit ist der Gradient ∇f = (2x, 2y). Die partiellen Ableitungen sind offensichtlich stetig. Also existieren alle Richtungsableitungen. Diese können wir für r = (g, h) ∈ R2 berechnen als df = ∇f · r = fx g + fy h = 2xg + 2yh. dr Veranschaulichen Sie sich das Gradientenfeld! 125 Die Analogie zur Tangente an den Graphen einer Funktion von einer Variablen für eine Funktion f (x, y) von zwei Variablen ist die Tangentialebene in einem Punkt (x0 , y0 ). Dies ist eine Ebene durch den Punkt (x0 , y0 , z0 ) mit z0 = f (x0 , y0 ), der auf der durch f dargestellten Fläche liegt. Die Tangentialeben ist die Ebene, die sich am besten an die Fläche anschmiegt. Wir wollen jetzt zeigen, wie die Gleichung der Tangentialebene aus den Ableitungen gefunden werden kann. Die Funktionsgleichung einer Ebene im R3 durch den Punkt (x0 , y0 , z0 ) hat die Form z = T (x, y) = z0 + a(x − x0 ) + b(y − y0 ). Dabei sind a, b reelle Parameter, die die Lage der Ebene beschreiben. Abbildung 9: Tangentialebenen an z = x2 + y 2 und z = x2 − y 2 Die Tangentialebene ist dadurch ausgezeichnet, dass alle Tangenten an die durch f dargestellten Fläche, die durch den Punkt (x0 , y0 , z0 ) gehen, in dieser Ebene liegen. Die Anstiege dieser Tangenten sind gerade die Richtungsableitungen von f in (x0 , y0 ). Also müssen die Richtungsableitungen von T mit den Richtungsableitungen von f übereinstimmen. Insbesondere gilt dies für die partiellen Ableitungen. Damit erhalten wir a = Tx (x0 , y0 ) = fx (x0 , y0 ) und b = Ty (x0 , y0 ) = fy (x0 , y0 ). Als Ergebnis erhalten wir die Gleichung der Tangentialebene als T (x, y) = f (x0 , y0 ) + fx (x0 , y0 )(x − x0 ) + fy (x0 , y0 )(y − y0 ). Beispiel 9.17. Wir betrachten wieder die Funktion f (x, y) = x2 +y 2 . Die partiellen Ableitungen im Punkt (x0 , y0 ) sind fx (x0 , y0 ) = 2x0 und fy (x0 , y0 ) = 2y0 . Die Tangentialebene im Punkt (x0 , y0 , z0 ) mit z0 = f (x0 , y0 ) = x20 + y02 lautet also T (x, y) = x20 + y02 + 2x0 (x − x0 ) + 2y0 (y − y0 ). Zum Beispiel ist die Tangentialebene für (x0 , y0 ) = ( 12 , 12 ) gegeben durch die Gleichung 1 1 1 1 T (x, y) = + x − + y− =x+y− 2 2 2 2 in Abbildung 9 dargestellt. 126 Bemerkung (Das totale Differential). Eine besonders in der älteren Literatur und der Ingenieursliteratur anzutreffender Begriff ist der des totalen Differentials für den Ausdruck df = fx dx + fy dy. Damit soll ausgedrückt werden, dass bei sehr kleinen (infinitesimalen) Änderungen der Variablen x und y um dx bzw. dy sich der Funktionswert in erster Näherung um gerade diesen Wert ändert. Abbildung 10: Veranschaulichung totales Differential Wir wollen schließlich noch die Problematik des Zusammenhangs zwischen Existenz der Richtungsableitungen und Existenz einer Tangentialebene beleuchten. Unter den Voraussetzungen des Satzes 9.15, also der Stetigkeit der partiellen Ableitungen, folgt die Gleichung df (x0 , y0 ) = fx (x0 , y0 )g + fy (x0 , y0 )h. dr (4) Die Richtungsableitungen setzen sich also linear aus den Komponenten g und h des Richtungsvektors zusammen. Dies zeigt die Existenz einer Tangentialebene. Es gibt allerdings Funktionen, die in einem Punkt sämtliche Richtungsableitungen besitzen, aber keine Tangentialebene in diesem Punkt haben, da die Gleichung (4) nicht gilt. Wir präsentieren ein allgemeines anschauliches Beispiel. Beispiel 9.18. Sei eine Stange im Mittelpunkt drehbar gelagert. Dieser Mittelpunkt sei der Koordinatenursprung. Bei Rotation der Stange um diesen Punkt um 180 Grad in der (x, y)Ebene überstreicht die Stange eine Kreisfläche in der (x, y)-Ebene. Stellen Sie sich nun vor, dass die Stange bei der Drehung auch vertikal wackelt, allerdings nach einer 180-Grad-Drehung wieder in Ausgangslage ist. Wenn sie dabei niemals senkrecht steht, überstreicht sie eine Fläche, die einem Funktionsgraph einer Funktion z = f (x, y) entspricht. Da die Stange nicht verbogen wird, existieren im Punkt 0 alle Richtungsableitungen, die Funktionen ϕ(t) = f (tr, ts) sind ja linear. Aber f hat im Punkt (0, 0) nur dann eine Tangentialebene, wenn die Stange sich in einer (evtl. geneigten) Ebene bewegt. 127 Abbildung 11: Gedrehte Stange Zur mathematischen Beschreibung benutzen wir am besten Polarkoordinaten, schreiben also p r = r(x, y) = x2 + y 2 für den Abstand des Punkts (x, y) vom Ursprung und ϕ = ϕ(x, y) für das Argument. Dann erhält man die durch die Stange beschriebene Funktion als f (x, y) = rw(ϕ) mit einer 2π-periodischen Funktion w : [0, 2π] → R, die die Symmetriebedingung w(x + π) = −w(x) erfüllt. Die Richtungsableitung in Richtung (r, s) ∈ R2 im Punkt 0 ist dann df f (tr, ts) − f (0, 0) (0, 0) = lim = f (r, s), t→0 d(r, s) t existiert also sogar für unstetiges w. Andererseits existiert die Tangentialebene im Punkt (0, 0) nur dann, wenn die Stange in einer Ebene rotiert. 9.6 Mittelwertsatz und Satz von Taylor In diesem Abschnitt wollen wir den Mittelwertsatz und den Satz von Taylor auf Funktionen von zwei Variablen verallgemeinern. Den klassischen Mittelwertsatz haben wir in Satz 6.17 kennengelernt. Setzen wir dort a = x0 und b = x0 + h, so können wir ihn auch folgendermaßen formulieren: Ist f : (a, b) → R differenzierbar und sind x0 , x0 + h ∈ (a, b), dann gibt es ein θ ∈ (0, 1) mit f (x0 + h) = f (x0 ) + f 0 (x0 + θh)h. In dieser Form wollen wir den Mittelwertsatz verallgemeinern. Dazu muss f (x, y) in einer konvexen Menge definiert sein. Eine konvexe Menge ist eine Menge, die mit zwei Punkten auch die gesamte Strecke zwischen den beiden Punkten enthält. 128 Satz 9.19 (Mittelwertsatz für Funktionen zweier Variabler). Sei f : D → R auf einer offenen konvexen Menge D definiert und habe dort stetige partielle Ableitungen. Weiter seinen (x0 , y0 ), (h, k) ∈ R2 derart, dass (x0 , y0 ) und (x0 + h, y0 + k) in D liegen. Dann gibt es ein θ ∈ (0, 1) mit f (x0 + h, y0 + k) = f (x0 , y0 ) + fx (x0 + θh, y0 + θk)h + fy (x0 + θh, y0 + θk)k. Beweis. Definieren wir ϕ(t) = f (x0 + th, y0 + tk), dann folgt mit der Kettenregel ϕ0 (t) = fx (x0 + th, y0 + tk)h + fy (x0 + th, y0 + tk)k. Der klassische Mittelwertsatz angewendet auf ϕ liefert ein θ ∈ (0, 1) mit ϕ(1) = ϕ(0) + ϕ0 (θ). Einsetzen von ϕ und ϕ0 gibt die Behauptung. Der klassische Mittelwertsatz ist gerade der Satz 6.21 von Taylor im Fall n = 0. Analog ist der obige multivariate Mittelwertsatz der multivariate Satz von Taylor für n = 0. Der Satz von Taylor liefert auch im multivariaten Fall die besten lokalen Approximationen der Funktion f (x, y) durch ein Polynom vom Grad n. Insbesondere hat das Taylorpolynom n-ten Grades im Punkt (x0 , y0 ) die gleichen partiellen Ableitungen bis zur n-ten Ordnung wie f . Um den multivariaten Satz von Taylor zu formulieren, benötigen wir eine geeignete Notation für die auftretenden höheren Ableitungen. Diese ist angelehnt an die binomische Formel. Wir schreiben n X ∂ ∂ n n ∂nf h +k f= hi k n−i . ∂x ∂y i ∂xi ∂y n−i i=0 Zum Beispiel haben die Fälle n = 0, 1, 2 die Form ∂ ∂ 0 h +k f =f ∂x ∂y ∂ ∂ 1 h +k f = fx h + fy k ∂x ∂y ∂ ∂ 2 h +k f = fxx h2 + 2fxy hk + fyy k 2 . ∂x ∂y In Analogie zur Definition Tn (x) = n X f (k) (x0 ) k=0 k! (x−x0 )k = f (x0 )+ f 0 (x0 ) f 00 (x0 ) f (n) (x0 ) (x−x0 )+ (x−x0 )2 +· · ·+ (x−x0 )n 1! 2! n! des Taylorpolynoms n-ten Grades einer Funktion f (x) von einer Variablen definieren wir nun das Taylorpolynom einer Funktion von zwei Variablen. Definition 9.20. Hat f : D → R mit einer offenen Menge D ⊂ R2 in einer Umgebung von (x0 , y0 ) ∈ D alle partiellen Ableitungen bis zur n-ten Ordnung, so heißt das Polynom n X ∂ n 1 ∂ Tn (x, y) = (x − x0 ) + (y − y0 ) f (x0 , y0 ) k! ∂x ∂y k=0 das Taylorpolynom n-ten Grades (oder der Ordnung n) der Funktion f an der (Entwicklungs)Stelle (x0 , y0 ). 129 Beispiel 9.21. Für n = 0, 1, 2 erhalten wir die Taylorpolynome T0 f (x, y) = f (x0 , y0 ) T1 f (x, y) = f (x0 , y0 ) + fx (x0 , y0 )(x − x0 ) + fy (x0 , y0 )(y − y0 ) T2 f (x, y) = f (x0 , y0 ) + fx (x0 , y0 )(x − x0 ) + fy (x0 , y0 )(y − y0 ) 1 1 + fxx (x0 , y0 )(x − x0 )2 + fxy (x0 , y0 )(x − x0 )(y − y0 ) + fyy (x0 , y0 )(y − y0 )2 2 2 Um die Güte der Approximation von f durch das Taylorpolynom abzuschätzen benutzt man den folgenden Satz. Satz 9.22 (Taylorsche Formel, Restglied nach Lagrange). Hat f : D → R in einer offenen konvexen Menge D ⊂ R2 alle partiellen Ableitungen bis zur (n + 1)-ten Ordnung und sind diese stetig, dann gilt für jedes (x, y) ∈ D f (x, y) = Tn (x, y) + Rn (x, y) mit dem Restglied 1 Rn (x, y) = (n + 1)! ∂ ∂ n+1 h +k f (x0 + θh, y0 + θk), ∂x ∂y wobei h = x − x0 , k = y − y0 und θ ∈ (0, 1) ist. Dies folgt aus der Anwendung des Taylorschen Satzes auf die Funktion ϕ(t) = f (x0 + th, y0 + tk) unter Anwendung der Kettenregel. Auf einen ausführlichen Beweis verzichten wir hier. Beispiel 9.23. Wir wollen die Taylorpolynome bis zur 2. Ordnung der Funktion f (x, y) = y x definiert für x ∈ R und y > 0 im Punkt (x0 , y0 ) = (1, 1) bestimmen. Dazu berechnen wir die partiellen Ableitungen 1. Ordnung fx = y x ln y, fy = xy x−1 und 2. Ordnung fxx = y x (ln y)2 , fxy = xy x−1 ln y + y x−1 , fyy = x(x − 1)y x−2 . Einsetzen von (x0 , y0 ) = (1, 1) ergibt fx (1, 1) = 0, fy (1, 1) = 1 und fxx (1, 1) = 0, fxy (1, 1) = 1, fyy (1, 1) = 0. Zusammen mit dem Funktionswert z0 = f (1, 1) = 1 erhalten wir für n = 0, 1, 2 die Taylorpolynome T0 f (x, y) = 1 T1 f (x, y) = 1 + (y − 1) = y T2 f (x, y) = 1 + (y − 1) + (x − 1)(y − 1) = xy − x + 1. 130 Die Matrix Hf (x0 , y0 ) = fxx (x0 , y0 ) fxy (x0 , y0 ) fyx (x0 , y0 ) fyy (x0 , y0 ) der zweiten Ableitungen heißt Hesse-Matrix von f in (x0 , y0 ). Nach dem Vertauschungssatz von Schwarz ist die Hesse-Matrix symmetrisch, wenn f stetige partielle Ableitungen 2. Ordnung besitzt. Ähnlich wie die zweite Ableitung einer Funktion einer Variablen die Krümmung des Graphen der Funktion beschreibt, beschreibt die Hesse-Matrix die Krümmung der durch die Funktion f (x, y) beschriebenen Fläche. Wir wollen darauf hier nicht genau eingehen, nutzen das aber im nächsten Abschnitt zur Bestimmung lokaler Extremwerte. Allerdings wollen wir nicht unerwähnt lassen, dass sich dann das Taylorpolynom 2. Ordnung durch den Gradienten und die Hesse-Matrix kurz schreiben lässt als T2 f (x, y) = f (x0 , y0 ) + ∇f (x0 , y0 ) · a + 1 T a Hf (x0 , y0 )a, 2 x − x0 wobei a der Vektor ist. y − y0 9.7 Bestimmung lokaler Extremwerte Die Definitonen von lokalen Extrema läßt sich einfach auf multivariate Funktionen ausdehnen. Definition 9.24. Sei D ⊆ R2 offen und sei f : D → R. Ein Punkt (x0 , y0 ) ∈ D heißt lokale Minimalstelle von f , falls es eine Umgebung U ⊆ D von (x0 , y0 ) gibt mit f (x, y) ≥ f (x0 , y0 ) für (x, y) ∈ U. Ein Punkt (x0 , y0 ) ∈ D heißt lokale Maximalstelle von f , falls es eine Umgebung U ⊆ D von (x0 , y0 ) gibt mit f (x, y) ≤ f (x0 , y0 ) für (x, y) ∈ U. Der entsprechende Funktionswert f (x0 , y0 ) heißt lokales Minimum bzw. lokales Maximum. Eine lokale Extremalstelle ist eine lokale Minimalstelle oder Maximalstelle, ein lokales Extremum ist ein lokales Minimum oder ein lokales Maximum. Aus der Analysis 1 wissen wir, dass für das Vorliegen einer lokalen Extremalstelle in x0 bei einer differenzierbaren Funktion f (x) die Bedingung f 0 (x0 ) = 0 notwendig ist. Daraus ergibt sich sofort Satz 9.25 (Lokale Extrema - notwendige Bedingung). Sei D ⊆ R2 offen und sei f : D → R partiell differenzierbar. Hat f in (x0 , y0 ) ∈ D eine lokale Extremalstelle, dann sind die partiellen Ableitungen von f in (x0 , y0 ) gleich 0, also ∇f (x0 , y0 ) = (0, 0). Diese notwendige Bedingung liefert also die zwei (im Allgemeinen nichtlinearen) Gleichungen fx (x0 , y0 ) = 0 und fy (x0 , y0 ) = 0 zur Bestimmung von Kandidaten (x0 , y0 ) für lokale Extremalstellen. Geometrisch bedeutet die Bedingung ∇f (x0 , y0 ) = 0 gerade, dass die Tangentialebene in x0 horizontal verläuft, also parallel zur (x, y)-Ebene ist, eine auch intuitiv einleuchtende notwendige Bedingung für eine lokale Extremalstelle. Die Punkte (x0 , y0 ) ∈ D mit ∇f (x0 , y0 ) = 0 nennt man auch kritische Punkte oder stationäre Punkte von f . 131 Beispiel 9.26. Für jede der Funktionen f1 (x, y) = x2 + y 2 , f2 (x, y) = x2 − y 2 und f3 (x, y) = −x2 − y 2 mit (x, y) ∈ R2 erhalten wir als einzigen Kandidaten für eine lokale Extremalstelle den Punkt (0, 0). Ebenfalls aus der Analysis 1 wissen wir, dass für eine zweimal stetig differenzierbare Funktion eine hinreichende Bedingung für eine Minimalstelle die Positivität der zweiten Ableitung, also f 00 (x0 ) > 0, ist. Im multivariaten Fall muss man für hinreichende Bedingungen die Hesse-Matrix untersuchen. Entscheidend ist die sogenannte Definitheit der Hesse-Matrix. Diese wird in der linearen Algebra studiert. Wir wollen hier die allgemeine Definition anführen. Allerdings gibt es im für uns relevanten Fall von 2×2-Matrizen sehr einfach nachprüfbare äquivalente Bedingungen, die wir anschließend anführen und für die Bestimmung der Art von lokalen Extrema benutzen wollen. Definition 9.27. Eine symmetrische d × d-Matrix A heißt • positiv definit, wenn aT Aa > 0 für alle a ∈ Rd mit a 6= 0 ist. • positiv semidefinit, wenn aT Aa ≥ 0 für alle a ∈ Rd ist. • negativ definit, wenn aT Aa < 0 für alle a ∈ Rd mit a 6= 0 ist. • negativ semidefinit, wenn aT Aa ≥ 0 für alle a ∈ Rd ist. • indefinit, wenn sie weder positiv noch negativ semidefinit ist. Die Definitheit lässt sich auch an den Eigenwerten der Matrix ablesen. Diese werden ebenfalls in der linearen Algebra studiert. Es gilt: A A A A A ist ist ist ist ist positiv definit positiv semidefinit negativ definit negativ semidefinit indefinit ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ alle Eigenwerte von A sind > 0 alle Eigenwerte von A sind ≥ 0 alle Eigenwerte von A sind < 0 alle Eigenwerte von A sind ≤ 0 A hat positive und negative Eigenwerte. Für eine symmetrische 2 × 2-Matrix a b A= b c ist es sehr einfach, positive oder negative Definitheit und Indefinitheit zu erkennen. Dazu benötigt man die Determinante D = ac − b2 von A. Dann gilt: A ist positiv definit A ist negativ definit A ist indefinit ⇐⇒ ⇐⇒ ⇐⇒ D > 0 und a > 0 D > 0 und a < 0 D < 0. 132 Beispiel 9.28. Für die Funktionen aus Beispiel 9.26 erhalten wir als Hesse-Matrix im kritischen Punkt (0, 0) das folgende: Funktion: f1 (x, y) = x2 + y 2 f2 (x, y) = x2 − y 2 Hesse-Matrix: 2 0 Hf1 (0, 0) = 0 2 Determinante 4 −4 4 positiv definit Minimum indefinit kein Extremum negativ definit Maximum Definitheit: Extremum: Hf2 (0, 0) = 2 0 0 −2 f3 (x, y) = −x2 − y 2 −2 0 Hf3 (0, 0) = 0 −2 Der aus dieser Zusammenstellung ersichtliche Zusammenhang gilt auch allgemein. Dies formulieren wir im folgenden Kriterium. Satz 9.29 (Lokale Extrema - hinreichende Bedingung). Sei D ⊆ R2 offen und sei f : D → R zweimal stetig differenzierbar mit ∇f (x0 , y0 ) = 0. Ist die Hesse-Matrix Hf (x0 , y0 ) positiv definit, so hat f in (x0 , y0 ) ein lokales Minimum. Ist Hf (x0 , y0 ) negativ definit, so hat f in (x0 , y0 ) ein lokales Maximum. Ist Hf (x0 , y0 ) indefinit, so hat f in (x0 , y0 ) weder ein lokales Minimum noch ein lokales Maximum, es liegt ein Sattelpunkt vor. Bemerkung. Dieses hinreichende Kriterium gilt in dieser Form entsprechend auch für Funktionen mit mehr als zwei Variablen. Beweisskizze. Wir wollen nur den Beweis im Fall der positiven Definitheit skizzieren. Die anderen beiden Fälle kann man ähnlich einsehen. Der Satz von Taylor für k = 1 liefert zusammen mit der Bedingung ∇f (x0 , y0 ) = 0 die Gleichung f (x0 + h, y0 + k) = f (x0 , y0 ) + 1 T a Hf (x0 + th, y0 + tk)a, 2 h . Ist Hf (x0 , y0 ) positiv definit, so ist wegen der Stetigkeit mit einem t ∈ [0, 1] und dem Vektor k der zweiten partiellen Ableitungen auch Hf (x0 + th, y0 + tk) für genügend kleine h, k positiv definit. Also ist f (x0 + h, y0 + tk) > f (x0 , y0 ) für (h, k) 6= (0, 0) und genügend kleine h, k. Also liegt in (x0 , y0 ) ein lokales Minimum von f vor. Beispiel 9.30. Wir wollen die lokalen Extrema der Funktion f (x, y) = x2 + 4y + y4 für x, y ∈ R mit y 6= 0 bestimmen. Der Definitionsbereich ist also D = {(x, y) ∈ R2 : y 6= 0}, eine offene Menge. Wir berechnen zunächst die partiellen Ableitungen fx = 2x und fy = 4 − y42 . Die kritischen Punkte (x, y) mit ∇f (x, y) = 0 sind also gerade die Punkte, die die Gleichungen fx = 2x = 0 und fy = 4 − 1 =0 y2 erfüllen. Wir erhalten die zwei kritischen Punkte (x1 , y1 ) = (0, 1) und (x2 , y2 ) = (0, −1). Zur Bestimmung, ob eine Extremalstelle vorliegt und welcher Art diese ist, betrachten wir die Hessematrix 2 0 fxx fxy Hf (x, y) = = . 0 y83 fyx fyy 133 In den kritischen Punkten ist diese 2 0 Hf (0, 1) = 0 8 und Hf (0, −1) = 2 0 . 0 −8 Im ersten Fall erhalten wir die Determinante 16, im zweiten Fall −16. Die Matrix Hf (0, 1) ist deshalb positiv definit, also liegt in (0, 1) ein lokales Minimum mit dem Funktionswert f (0, 1) = 8 vor. Die Matrix Hf (0, −1) ist offensichtlich indefinit, also liegt in (0, −1) kein lokales Extremum, sondern ein Sattelpunkt vor. Der Funktionswert ist hier f (0, −1) = −8. Lokale Maxima gibt es nicht. Die Funktion hat kein globales Maximum oder Minimum. Die Sätze zur Bestimmung lokaler Extrema verlangen als Definitionsbereich eine offene Menge. Ist dies nicht der Fall, so muss man zur Bestimmung von globalem Maximum und Minimum auch die Randpunkte des Definitionsbereichs anschauen. Anders als im Fall von Funktionen einer Variabel, die auf einem Intervall [a, b] definiert sind, besteht nun im Allgemeinen der Rand des Definitionsbereichs aus einer Kurve, also unendlich vielen Punkten. Die Existenz von globalem Maximum und Minimum sichert wieder ein Satz von Maximum und Minimum. Für Funktionen einer Variable galt dieser unter der Voraussetzung, dass f eine stetige Funktion auf einem abgeschlossenen Intervall ist. Um die Voraussetzung an den Definitionsbereich auf Funktionen mehrerer Variabler zu übertragen benötigt man den Begriff einer abgeschlossenen Menge. Eine Menge A ⊆ R2 heißt abgeschlossen, wenn sie mit einer konvergenten Folge auch deren Grenzwert enthält. Anschaulich bedeutet dies, dass der Rand zur Menge gehört. Diese Bedingung ist äquivalent dazu, dass das Komplement R2 \ A eine offene Menge ist. In Analogie zur Beschränktheit einer Teilmenge der komplexen Zahlen heißt eine Menge D ⊂ R2 beschränkt, wenn sie in einem genügend großen Kreis enthalten ist. Eine abgeschlossene und beschränkte Menge nennt man kompakt. Dann kann man den Satz von Maximum und Minimum, den wir hier ohne Beweis angeben, folgendermaßen formulieren. Satz 9.31 (Satz von Maximum und Minimum). Sei f : D → R eine stetige Funktion definiert auf einer kompakten Menge D. Dann nimmt f in D Maximum und Minimum an. Beispiel 9.32. Wir wollen das globale Maximum und Minimum der Funktion f (x, y) = sin x + sin y − sin(x + y) auf dem Definitionsbereich M = {(x, y) ∈ R2 : 0 ≤ x, y ≤ 2π, 0 ≤ x + y ≤ 2π} bestimmen. Diese Menge ist ein (abgeschlossenes) Dreieck. Um die Extremwerte der Funktion f zu finden, suchen wir zunächst die lokalen Extrema im offenen Dreieck D = {(x, y) ∈ R2 : 0 < x, y < 2π, 0 < x + y < 2π} und betrachten anschließend die Randpunkte. Nullsetzen der partiellen Ableitungen fx = cos x − cos(x + y) und fy = cos y − cos(x + y) und cos y = cos(x + y) liefert die Gleichungen cos x = cos(x + y) 134 Abbildung 12: Die Funktion aus Beispiel 9.32 für die kritischen Punkte. Also muss cos x = cos y sein, was wegen 0 < x, y < 2π entweder y = x oder y = 2π − x bedeutet. Einsetzen von y = 2π − x in die Gleichung cos x = cos(x + y) liefert cos x = cos 2π = 1, was für 0 < x < 2π nicht möglich ist. Einsetzen von y = x in die Gleichung cos x = cos(x + y) liefert cos x = cos 2x = 2 cos2 x − 1 und damit für t = cos x die quadratische Gleichung 1 1 t2 − t − = 0 2 2 mit den Lösungen t1 = − 12 und t2 = 1. Wieder ist cos x = t1 = 1 wegen 0 < x, y < 2π nicht 4π möglich. Für cos x = t1 = − 12 gibt es die beiden Lösungen x1 = 2π 3 und x2 = 3 . In diesen 2π 4π 2π 2π Fällen ist dann y1 = x1 = 3 und y2 = x2 = 3 . Der Punkt (x1 , y1 ) = 3 , 3 liegt im 4π Definitionsbereich von M , der Punkt (x2 , y2 ) = 4π wegen x2 + y2 > 2π nicht. Wir erhalten 3 , 3 also im Inneren des Definitionsbereichs nur eine kritische Stelle 2π 2π (x1 , y1 ) = , 3 3 135 mit dem Funktionswert √ 3 3 f (x1 , y1 ) = . 2 Um die globalen Extrema zu finden, müssen wir noch den Rand des Definitionsbereichs M betrachten. Dort ist x, y oder x + y gleich 0 oder 2π. In jedem dieser Fälle ist f (x, y) = 0. √ 2π angeAlso ist das globale Maximum von f gleich 3 2 3 und wird (nur) in (x1 , y1 ) = 2π 3 , 3 nommen, das globale Minimum von f ist gleich 0 und wird in jedem der Randpunkte von M angenommen. 9.8 Lokale Extrema mit Nebenbedingungen - der Lagrange-Formalismus Wir haben bereits gelernt, wie man lokale Extrema von Funktionen f : D → R definiert auf einem offenen Gebiet D ⊆ R2 durch Nullsetzen des Gradienten findet. In Anwendungen treten aber häufiger Extremwertprobleme unter Nebenbedingungen auf. Gesucht wird ein Extremum von f (x, y), wobei der Variablenbereich durch eine Gleichung g(x, y) = 0 mit einer Funktion g : D → R eingeschränkt ist. Dieses Problem und auch der Lösungsalgorithmus, den wir hier vorstellen, lassen sich auf Extremalprobleme für Funktionen f : D → R mit D ⊂ Rd für d ≥ 2 mit mehreren Nebenbedingungen erweitern. Wieder beschreiben wir der Übersichtlichkeit halber nur den einfachsten nichttrivialen Fall. Ein offensichtlicher Lösungsweg ist der folgende: Durch Auflösen der Nebenbedingungen bestimmt man eine der Variablen x oder y in Abhängigkeit der anderen, setzt diese in f ein und erhält ein Extremalproblem ohne Nebenbedingungen mit einer Variablen. Dieses kann man dann mit dem aus der Analysis 1 bekannten Verfahren lösen. Beispiel 9.33. Aus einem kreisrunden Blech vom Radius 1 soll ein Rechteck mit größtmöglichem Inhalt ausgeschnitten werden. Legen wir den Kreis in den Koordinatenursprung, das Rechteck achsenparallel, und bezeichnen den rechten oberen Eckpunkt des Rechtecks mit (x, y), so muss dieser im Extremalfall offenbar auf dem Kreis liegen, also die Nebenbedingung g(x, y) = x2 + y 2 − 1 = 0 erfüllen. Maximiert werden soll der Flächeninhalt des Rechtecks, also die Funktion f (x, y) √ = 4xy. Lösen wir die Nebenbedingung auf, so erhalten wir wegen y > 0 die Gleichung y = 1 − x2 mit 0 < x < 1. Setzen√wir diese Gleichung in die Zielfunktion ein, ergibt sich das Problem, die Funktion h(x) = x 1 − x2 für 0 < x < 1 zu maximieren. Einfacher ist es h(x)2 = x2 (1 − x2 ) zu maximieren, man erhält als Lösung nach dem üblichen Verfahren x2 = 12 , also x = y = √12 . Die Lösung ist ein Quadrat. Problematisch an diesem Verfahren ist, dass das explizite Auflösen der Gleichung g(x) = 0 im allgemeinen schwierig oder unmöglich ist. Um das Extremalproblem trotzdem zu behandeln, kann man die kritischen Punkte mit dem Multiplikatorverfahren von Lagrange, dem LagrangeFormalismus bestimmen. Wir beschreiben dieses hier nur. Zum Beweis benötigt man den Satz von der impliziten Funktion, den wir in dieser Vorlesung nicht behandeln können. Man betrachtet die Lagrange-Funktion F (x, y, λ) = f (x, y) + λg(x, y) mit der neuen Variable λ und bestimmt die kritischen Punkte dieser Funktion, also die (x, y, λ), 136 die die drei Gleichungen Fx (x, y, λ) = fx (x, y) + λgx (x, y) = 0 Fy (x, y, λ) = fy (x, y) + λgy (x, y) = 0 Fλ (x, y, λ) = g(x, y) = 0 erfüllen. Man sieht, dass die Ableitungen nach den Lagrange-Multiplikator λ gerade wieder die Nebenbedingung liefert. Diese ist also für die berechneten kritischen Punkte automatisch erfüllt. Eine wichtige Voraussetzung für das Vorliegen eines kritischen Punktes in (x0 , y0 ) ist, dass mindestens eine der Bedingungen gx (x0 , y0 ) 6= 0, oder gy (x0 , y0 ) 6= 0 erfüllt ist. Diese Voraussetzung muss man immer zusätzlich prüfen! Mit diesem Verfahren erhält man jede lokale Extremalstelle unter den gegebenen Nebendingungen, aber eventuell noch weitere kritische Punkte. Eine Aussage, ob tatsächlich ein Maximum oder Minimum vorliegt, ist mit diesem Verfahren direkt nicht möglich. Dazu muss man gesonderte Betrachtungen anstellen, die sich aber oft aus der Natur des konkreten Problems ergeben. Beispiel 9.34. Wir führen nun dieses Verfahren an obigem Beispiel durch: Maximiert werden soll die Funktion f (x, y) = 4xy für x, y ≥ 0 unter der Nebenbedingung g(x, y) = x2 + y 2 − 1 = 0. Wegen fx = 4y und fy = 4x ist die Voraussetzung gx (x0 , y0 ) 6= 0, oder gy (x0 , y0 ) 6= 0 für alle Punkte (x0 , y0 ), die die Nebenbedingung erfüllen, richtig. Die Lagrangefunktion lautet dann F (x, y, λ) = 4xy + λ(x2 + y 2 − 1). Ableiten nach den Variablen x, y, λ und Nullsetzen liefert das Gleichungssystem ∂F = 4y + 2λx = 0 ∂x ∂F = 4x + 2λy = 0 ∂y ∂F = x2 + y 2 − 1 = 0. ∂λ Multiplikation der ersten Gleichung mit y und der zweiten Gleichung mit x zeigt x2 = y 2 . Dann folgt aus der Nebenbedingung x2 = y 2 = 21 und wir erhalten unter der Voraussetzung x, y > 0 als einzigen kritischen Punkt wieder x = y = √12 . Aus anschaulichen Gründen (oder durch geeignete Anwendung des Satzes vom Maximum und Minimum) ist klar, dass es ein Maximum geben muss, welches wir damit gefunden haben. 137 10 Integralrechnung multivariater Funktionen In diesem Kapitel wollen wir uns mit der Integration von Funktionen mehrerer Variabler beschäftigen. Dieses Kapitel gliedert sich in mehrere Abschnitte, die unterschiedliche Typen von Integralen behandeln. Wie schon im Kapitel über Differentialrechnung geht es hauptsächlich um die Vermittlung eines anschaulichen Verständnisses der Begriffe und nicht so sehr um eine ausführliche mathematische Darstellung mit allen Details. Im ersten Abschnitt geht es um Integrale über Kurven. Im zweiten Abschnitt behandeln wir den Begriff des Riemann-Integrals über zweidimensionale Bereiche. 10.1 Wege, Kurven, Kurvenintegrale In diesem Abschnitt führen wir zunächst die Begriffe Kurve und Weg ein und ordnen Kurven eine Länge zu. Anschließend werden zwei Typen von Kurvenintegralen behandelt: Kurvenintegrale bezüglich Skalarfeldern, mit denen man zum Beispiel das Gewicht einer inhomogen mit Masse belegten Kurve berechnen kann, und Kurvenintegrale bezüglich Vektorfeldern, mit denen man zum Beispiel die Arbeit berechnen kann, die bei der Bewegung durch ein Kraftfeld verrichtet wird. Wir werden sogenannte konservative Felder kennenlernen, in denen die verrichtete Arbeit nur von Anfangs- und Endpunkt des Weges, nicht vom konkret durchlaufenen Weg, abhängt. 10.1.1 Wege und Kurven Definition 10.1 (Weg und Kurve). Ein Weg im Rd ist eine stetige Funktion γ : [a, b] → Rd definiert auf einem abgeschlossenen Intervall [a, b] mit a < b. Die Punkte γ(a) und γ(b) heißen Anfangspunkt bzw. Endpunkt des Weges. Eine Kurve im Rd ist das Bild C = γ([a, b]) eines Weges. In diesem Fall heißt γ auch Parameterdarstellung der Kurve C. Ist γ(a) = γ(b), so heißt γ geschlossener Weg und C geschlossene Kurve. Bemerkung. Wir erinnern daran, dass eine Funktion γ : [a, b] → Rd zusammengesetzt ist aus d Komponentenfunktionen γ1 , . . . , γd : [a, b] → R: γ(t) = γ1 (t), . . . , γd (t) ∈ Rd . In der Literatur sind die Begriffe Weg und Kurve nicht eindeutig festgelegt. Historisch wurde zwischen Weg und Kurve nicht genau unterschieden. Man findet ebenfalls die Begriffe Bogen und Spur. Bemerkung. Der Begriff Kurve in unserer Definition ist eigentlich zu allgemein. So kann man z.B. einen Weg im R2 finden, der das ganze Quadrat [0, 1]2 ausfüllt, eine Peanokurve. Der natürlichen Vorstellung einer Kurve als eindimensionales Objekt kommt man erst nahe, wenn man Kurven ohne Doppelpunkte betrachtet. Bemerkung. Zur dynamischen Betrachtung eines Weges stellt man sich den Parameter t als Zeitparameter vor. Zur Zeit t befindet man sich also im Punkt γ(t) des Weges. Wir wollen nun einem Weg auf natürliche Weise eine Länge zuordnen. Dazu betrachten wir alle Polygonzüge, die dem Weg einbeschrieben sind. Dazu benutzen wir für den Abstand zweier Punkte p, q ∈ Rd wie schon im vorhergehenden Kapitel die Bezeichnung |p − q|. Insbesondere ist also für Punkte p = (xp , yp ), q = (xq , yq ) ∈ R2 q |p − q| = (xp − xq )2 + (yp − yq )2 138 und für p = (xp , yp , zp ), q = (xq , yq , zq ) ∈ R3 q |p − q| = (xp − xq )2 + (yp − yq )2 + (zp − zq )2 . Definition 10.2 (Rektifizierbarkeit und Länge). Ein Weg γ : [a, b] → Rd heißt rektifizierbar, wenn n X L(γ) = sup |γ(ti ) − γ(ti−1 )| i=1 endlich ist, wobei das Supremum über alle Zerlegungen a = t0 < t1 < · · · < tn = b gebildet wird. Dann heißt L(γ) die Länge der Kurve γ. Beispiel 10.3. Wir wollen uns überlegen, dass nach dieser Definition die Länge der Strecke zwischen zwei Punkten p, q ∈ Rd gleich |q − p| ist. Dazu parametrisieren wir die Strecke durch γ : [0, 1] → Rd mit γ(t) = p + t(q − p). Für jede Zerlegung 0 = t0 < t1 < · · · < tn = 1 erhalten wir dann n X |γ(ti ) − γ(ti−1 )| = i=1 n X |(ti − ti−1 )|q − p| = (tn − t0 )|q − p| = |q − p|. i=1 Es folgt L(γ) = |q − p|. Hat man zwei Wege, die dieselbe Kurve parametrisieren, soll natürlich die Länge nicht von der konkreten Parametrisierung abhängen. Dies führt uns zur Definition der Äquivalenz von Wegen. Definition 10.4 (Äquivalenz von Wegen). Zwei Wege γ : [a, b] → Rd und γ e : [c, d] → Rd heißen äquivalent, wenn es eine stetige streng monoton wachsende bijektive Funktion h : [a, b] → [c, d] gibt mit γ = γ e ◦ h, also γ(t) = γ e h(t) für t ∈ [a, b]. Bemerkung. Offensichtlich ist die Äquivalenz von Wegen eine Äquivalenzrelation. Insbesondere ist für äquivalente Wege γ(a) = γ e(c) und γ(b) = γ e(d), also bleiben Anfangs- und Endpunkt bei Äquivalenz erhalten. Wichtige Eigenschaften von Kurven sollten unabhängig von der konkreten Parametrisierung sein, für äquivalente Wege also das gleiche ergeben. Das werden wir bei der Längendefinition nachweisen, bei weiteren Beispielen nur erwähnen. Im nächsten Satz zeigen wir, dass die Länge unabhängig von der Parametrisierung ist. Deshalb spricht man auch von der Länge einer Kurve. Satz 10.5 (Unabhängigkeit der Länge von der Parameterdarstellung). Sind die Wege γ : [a, b] → Rd und γ e : [c, d] → Rd äquivalent, dann ist γ e rektifizierbar genau dann, wenn γ rektifizierbar ist. In diesem Fall ist L(γ) = L(e γ ). Beweis. Sei h : [a, b] → [c, d] die zugehörige Parametertransformation mit γ = γ e ◦ h und sei a = t0 < t1 < · · · < tn = b eine Zerlegung von [a, b]. Dann ist c = h(t0 ) < h(t1 ) < · · · < h(tn ) = d eine Zerlegung von [c, d] und es gilt n X i=1 |γ(ti ) − γ(ti−1 )| = n X |e γ (h(ti )) − γ e(h(ti−1 )| ≤ L(e γ ). i=1 Mit der Definition von L(γ) folgt L(γ) ≤ L(e γ ). Analog gilt L(e γ ) ≤ L(γ) und damit L(γ) = L(e γ ). 139 Der Längenbegriff von Wegen erfüllt folgende elementare Eigenschaften: • Ist γ : [a, b] → Rd linear, also γ(t) = x0 + tx1 , dann ist γ rektifizierbar und es gilt L(γ) = |x1 |(b − a) = |γ(b) − γ(a)|. • Ist γ : [a, b] → Rd eine Lipschitzfunktion mit |γ(t1 ) − γ(t2 )| ≤ L|t1 − t2 | für t1 , t2 ∈ [a, b], dann ist γ rektifizierbar und es gilt L(γ) ≤ L(b − a). Ist insbesondere γ stetig differenzierbar mit |γ 0 (t)| ≤ L für t ∈ (a, b), dann gilt L(γ) ≤ L(b − a). • Sind γ, γ e : [a, b] → Rd rektifizierbare Wege, so sind γ + γ e und γ − γ e rektifizierbar mit e). γ ) ≤ L(γ − γ L(γ + γ e) ≤ L(γ) + L(e γ ) und L(γ) − L(e • Ist γ : [a, b] → Rd ein rektifizierbarer Weg, dann gilt L(γ) ≥ |γ(b) − γ(a)|. Sind γ : [a, b] → Rd und γ e : [b, c] → Rd zwei Wege mit γ(b) = γ e(b), dann definiert man den d zusammengesetzten Weg γ ⊕ γ e : [a, c] → R durch γ(t) = γ(t) für t ∈ [a, b] und γ ⊕ γ e(t) = γ e(t) für t ∈ [b, c]. Offenbar ist dann γ ⊕ γ e rektifizierbar, wenn γ und γ e rektifizierbar sind und es gilt L(γ) = L(γ1 ) + L(γ2 ). Um die Länge eines Weges einfach zu berechnen, schränken wir uns auf glatte Wege und Kurven ein. Definition 10.6. Der Weg γ : [a, b] → Rd heißt (stetig) differenzierbar, wenn γ (stetig) differenzierbar ist, also alle Komponentenfumnktionen (stetig) differenzierbar sind. Der Weg γ : [a, b] → Rd heißt stückweise stetig differenzierbar, wenn es eine Zerlegung von [a, b] gibt, so dass γ auf jedem Teilintervall stetig differenzierbar ist. Eine Kurve heißt (stückweise stetig) differenzierbar, wenn sie eine (stückweise stetig) differenzierbare Parameterdarstellung besitzt. Satz 10.7. Ist γ : [a, b] → Rd ein stückweise stetig differenzierbarer Weg mit den Komponentenfunktionen γ1 , . . . , γd : [a, b] → R, dann ist γ rektifizierbar und es gilt Z L(γ) = a b Z bp |γ̇(t)| dt = γ̇1 (t)2 + · · · + γ̇d (t)2 dt, a wobei γ̇(t) = γ̇1 (t), . . . , γ̇d (t) ist und γ̇i (t) = γi0 (t) die Ableitung von γi bezeichnet. Bemerkung. Die Bezeichnung γ̇ für die Ableitung nach dem Zeitparameter t ist aus der Physik entlehnt und gerade in physikalischen Zusammenhängen oft bequem. Die Ableitung γ̇(t) ist die Momentangeschwindigkeit. Diese ist ein Vektor, dessen Komponenten γ̇i (t) die Geschwindigkeit in Richtung der i-ten Koordinate zur Zeit t sind. Der Satz beschreibt also den intuitiv einsichtigen Zusammenhang zwischen Geschwindigkeit und Weglänge: Letztere ergibt sich als Integral der (Norm der) Geschwindigkeit über die Zeit. Wir verzichten hier auf einen Beweis. 140 Beispiel 10.8 (Länge von Funktionsgraphen). Ist f : [a, b] → R eine stetig differenzierbare Funktion, so parametrisiert γ : [a, b] → R2 mit γ(t) = t, f (t) den Funktionsgraphen. Dann ist p γ̇(t) = 1, f 0 (t) und |γ̇(t)| = 1 + |f 0 (t)|2 . Für die Länge des Funktionsgraphen ergibt sich also L= Z bp 1 + |f 0 (t)|2 dt. a Zum Beispiel ist die Länge eines Bogens der Sinusfunktion gegebenen durch Z πp L= 1 + cos2 t dt. 0 Beispiel 10.9 (Umfang einer Ellipse). Die Ellipse mit den Halbachsen a ≥ b > 0 ist parametrisiert durch γ(t) = (a cos t, b sin t) mit t ∈ [0, 2π]. Dann ist γ̇(t) = (−a sin t, b cos t) und p p |γ̇(t)| = a2 cos2 t + b2 sin2 t = a 1 − k 2 cos2 t √ 2 2 mit der sogenannten Exzentrizität k = a a−b der Ellipse. Für den Umfang L der Ellipse ergibt sich Z 2π p Z π/2 p 2 2 L=a 1 − k cos t dt = 4a 1 − k 2 cos2 t dt. 0 0 Das auftretende Integral ist ein elliptisches Integral, das sich nicht mittels elementarer Funktionen auflösen lässt. Der Spezialfall a = b = r und k = 0 ist der Kreis mit dem Radius r. Für den Kreisumfang erhalten wir mit L = 2πr die bekannte Formel für den Kreisumfang. Damit ist der Zusammenhang der früher definierten Kreiszahl π mit dem Umfang des Kreises hergestellt. Dies konnten wir erst an dieser Stelle machen, da wir eben dazu einen Begriff von der Länge einer Kurve benötigen. Beispiel 10.10 (Wege in Polarkoordinaten-Darstellung). Wege γ : [a, b] → R2 der Form γ(t) = r(t) cos t, r(t) sin t mit einer stetigen Funktion r : [a, b] → R heißen Wege in Polarkoordinaten-Darstellung. Hier ist r(t) der Abstand des Kurvenpunktes γ(t) zum Ursprung und t ist das Argument. Ist r stetig differenzierbar, dann finden wir γ̇(t) = (r0 (t) cos t − r(t) sin t, r0 (t) sin t + r(t) cos t) und damit p |γ̇(t)| = r0 (t)2 + r(t)2 . Wir erhalten L(γ) = Z bp r0 (t)2 + r(t)2 dt. a 1.0 2.0 0.5 1.5 1.0 -2 1 -1 2 0.5 -0.5 1 2 3 4 5 -1.0 Abbildung 14: Zykloide Abbildung 13: Ellipse 6 141 Beispiel 10.11 (Zykloide). Die durch γ(t) = (t − sin t, 1 − cos t) für t ∈ [0, 2π] definierte Kurve heißt Zykloide. Ihre Länge ist Z 2π q Z 2π Z π L= 1 − cos t)2 + sin2 t dt = 2 | sin(t/2)| dt = 4 sin u du = 8. 0 0 0 Um den Längenbegriff auf Kurven zu übertragen, ist es notwendig, sich auf Wege zu beschränken, die keine Doppelpunkte enthalten. Definition 10.12. Eine Kurve C ⊂ Rd heißt Jordan-Kurve, wenn es einen Weg γ : [a, b] → Rd gibt, so dass γ : [a, b] → C bijektiv ist. Der Weg γ heißt dann Jordan-Darstellung von C. Eine Kurve C ⊂ Rd heißt geschlossene Jordan-Kurve, wenn es einen geschlossenen Weg γ : [a, b] → Rd gibt, so dass γ : [a, b) → C bijektiv ist. Eine (geschlossene) Jordan-Kurve heißt glatt, wenn es eine stetig differenzierbare Jordan-Darstellung γ : [a, b] → C gibt mit γ̇(t) 6= 0 für alle t ∈ [a, b]. Zwei Jordan-Darstellungen einer Jordan-Kurve mit der gleichen Durchlaufrichtung sind äquivalent. Also können wir die Länge einer Jordankurve definieren als L(C) = L(γ), wobei γ irgendeine Jordan-Darstellung von C ist. Für glatte Jordankurven C ⊂ Rd gibt es eine ausgezeichnete Parametrisierung nach der Bogenlänge γ : [0, L(C)] → Rd , für die t die Länge des Weges γ|[0,t] ist. Ist γ e : [a, b] → C eine beliebige stetig differenzierbare Jordan-Darstellung mit γ e˙ (s) 6= 0 für alle s ∈ [a, b] und ist `(s) die Länge des Weges γ e|[a,s] , so erhält man mit Satz 10.7 Z s `(s) = |γ e˙ (σ)| dσ. a Da γ e˙ (s) 6= 0 für alle s ∈ [a, b] ist, ist ` : [a, b] → [0, L(C)] eine streng monoton wachsende ˙ = |γ Bijektion und `(s) e˙ (s)| für s ∈ [a, b]. Definieren wir dann γ : [0, L(C)] → Rd durch γ(t) = γ e `−1 (t) , so erhalten wir eine stetig differenzierbare Jordan-Darstellung γ von C mit γ̇(t) = γ e˙ (s) γ e˙ (s) = ˙ `(s) |γ e˙ (s)| für s = `−1 (t). Folglich ist |γ̇(t)| = 1 für t ∈ [0, L(C)] und damit ist die Länge von γ|[0,t] gerade t. 10.1.2 Kurvenintegrale 1. Art Mittels Kurvenintegralen bezüglich Skalarfeldern, sogenannten Kurvenintegralen 1. Art, kann man zum Beispiel das Gewicht einer inhomogen mit Masse belegten Kurve berechnen. An diesem Beispiel wollen wir die Definition motivieren. Dazu sei ein Weg γ : [a, b] → Rd und eine Dichtefunktion f : D → R gegeben, wobei die Kurve C = γ([a, b]) ganz in D liegt. Die Dichtefunktion f nennt man auch Skalarfeld. Zur Approximation des Gesamtgewichts betrachten wir wie bei der Berechnung der Weglänge eine Zerlegung a = t0 < t1 < · · · < tn = b des Intervalls [a, b] und Zwischenpunkte τi ∈ [ti−1 , ti ] für i = 1, . . . , n. Ist `(t) wieder die Länge des Weges γ|[a,t] , so stellt die Zwischensumme n X i=1 f γ(τi ) `(ti ) − `(ti−1 142 für stetiges f und genügend feine Zerlegungen eine gute Approximation für das Gesamtgewicht dar. Ist γ zusätzlich stetig differenzierbar, zeigt man ähnlich wie im Beweis von Satz 10.7, dass dies für eine Folge von Zerlegungen, deren Feinheit gegen 0 konvergiert, gegen das Integral Z b f γ(t) |γ̇(t)| dt a konvergiert. Allerdings ist der Beweis nicht ganz einfach, man arbeitet am besten mit sogenannten Riemann-Stieltjes-Integralen. Um diese Schwierigkeit zu vermeiden, definieren wir einfach das Kurvenintegral 1. Art nur für glatte Jordan-Kurven durch diese Formel. Definition 10.13 (Kurvenintegral 1. Art). Sei C ⊂ Rd eine glatte Jordan-Kurve und sei f : C → R stetig. Das Kurvenintegral 1. Art von f entlang C ist gegeben durch b Z Z f γ(t) |γ̇(t)| dt = f (x) ds := Z p f γ(t) γ̇1 (t)2 + · · · + γ̇d (t)2 dt, a a C b wobei γ : [a, b] → C eine stetig differenzierbarer Jordan-Darstellung und γ̇(t) 6= 0 für alle t ∈ [a, b] ist. Bemerkung. Für stückweise glatte Wege und Kurven definiert man das Kurvenintegral 1. Art als Summe der Kurvenintegrale über die glatten Teilstücke. R Bemerkung. Das ds in der Bezeichnung C f (x) ds soll darauf hinweisen, dass über die Bogenlänge integriert wird. Man nennt ds = |γ̇(t)| dt auch das Bogenelement. Bemerkung. Das Kurvenintegral 1. Art hängt nicht von der konkreten Jordan-Darstellung ab, ist also wohldefiniert. Zum Beweis seien γ : [a, b] → Rd und γ e : [c, d] → Rd äquivalente glatte Jordan-Darstellungen und sei h : [a, b] → [c, d] eine zugehörige Parametertransformation mit γ =γ e ◦ h. Wir können voraussetzen, dass h stetig differenzierbar ist, indem wir z.B. für γ e die Parametrisierung nach der Bogenlänge wählen. Mit der Kettenregel und der Substitutionsregel folgt dann Z d Z b Z b 0 ˙ f γ e(h(t)) |γ e(h(t))| h (t) dt = f γ e(τ ) |γ e˙ (τ )| dτ. f γ(t) |γ̇(t)| dt = a a c Das Kurvenintegral 1. Art hat offenbar die folgenden Eigenschaften: • Linearität: Z Z (αf (x) + βg(x)) ds = α C Z f (x) ds + β C • Additivität bezüglich Zusammensetzung: Z Z f (x) ds = C1 ⊕C2 g(x) ds. C Z f (x) ds + C1 f (x) ds. C2 Hierbei seien C1 und C2 zwei glatte Jordan-Kurven und γ1 : [a, b] → Rd und γ2 : [b, c] → Rd stetig differenzierbare Jordan-Darstellungen mit γ1 (b) = γ2 (b) und C1 ⊕ C2 = γ1 ⊕ γ2 ([a, c]) die zusammengesetzte Kurve. Außerdem gilt offensichtlich die Abschätzung Z f (x) ds ≤ max |f (x)| L(C). C x∈C 143 1.0 0.5 0.5 1.0 1.5 2.0 -0.5 -1.0 Abbildung 15: Kardioide Beispiel 10.14. Die in Polarkoordinatendarstellung gegebene Kurve r = 1 + cos t für t ∈ [0, 2π] heißt Kardioide. Dies ist eine glatte geschlossene Jordankurve C. Wir wollen das Kurvenintegral 1. Art Z p 4 x2 + y 2 ds C berechnen. Das Bogenelement ergibt sich als ds = |γ̇(t)| dt = p r0 (t)2 + r(t)2 dt = q p sin2 t + (1 + cos t)2 dt = 2(1 + cos t) dt In Polarkoordinaten ist x2 + y 2 = r2 und damit ist die zu integrierende Funktion auf der Kurve p √ √ f (x, y) = 4 x2 + y 2 = r = 1 + cos t. Zusammen ergibt sich Z p Z 4 2 2 x + y ds = C 10.1.3 2π √ p √ Z 1 + cos t 2(1 + cos t) dt = 2 0 2π √ (1 + cos t) dt = 2 2π. 0 Kurvenintegrale 2. Art Mittels Kurvenintegralen bezüglich Vektorfeldern, sogenannten Kurvenintegralen 2. Art, kann man zum Beispiel die Arbeit berechnen kann, die bei der Bewegung durch ein Kraftfeld verrichtet wird. In diesem Fall hängt das Resultat anders als bei Kurvenintegralen 1. Art im Allgemeinen von der Durchlaufrichtung der Kurve ab. Um dies zu formalisieren, betrachten wir zu einem Weg γ : [a, b] → Rd den inversen Weg γ̄ : [a, b] → Rd gegeben durch γ̄(t) = γ(a + b − t). Durchlaufen wird die gleiche Kurve C, aber in umgekehrtem Durchlaufsinn. Anfangs- und Endpunkt werden vertauscht. Wir bezeichnen eine Kurve mit gegebenem Durchlaufsinn als orientierte Kurve. Die orientierte Kurve C̄ ist (als Punktmenge) die gleiche Kurve wie C, aber mit umgekehrtem Durchlaufsinn. 144 Ist der Weg γ : [a, b] → Rd stetig differenzierbar, so stellt in der dynamischen Betrachtungsweise die Ableitung γ̇(t) den Geschwindigkeitsvektor zur Zeit t dar. Er zeigt in Richtung des Weges und ist tangential zur Kurve C = γ([a, b]). Ist nun F : D → Rd ein stetiges Vektorfeld gegeben auf D ⊆ Rd mit C ⊆ D, dann berechnet sich die Komponente des Kraftvektors F γ(t) , die in Richtung der Kurve im Punkt γ(t) wirkt, als Skalarprodukt mit dem normierten Tangentialvektor, also als γ̇(t) f (t) = F γ(t) , . |γ̇(t)| Die verrichtete Arbeit (Weg mal Zeit) ist dann das Kurvenintegral 1. Art von f über C, also Z b Z b F γ(t) , γ̇(t) dt. f γ(t) |γ̇(t)| dt = a a Damit ist die folgende Definition motiviert. Definition 10.15 (Kurvenintegral 2. Art). Sei C ⊂ Rd eine glatte orientierte Jordan-Kurve und sei F : C → Rd stetig. Das Kurvenintegral 2. Art von F entlang C ist gegeben durch Z b F γ(t) , γ̇(t) dt, a wobei γ : [a, b] → C eine stetig differenzierbarer Jordan-Darstellung und γ̇(t) 6= 0 für alle t ∈ [a, b] ist. Bemerkung. Für stückweise glatte Wege und Kurven definiert man das Kurvenintegral 2. Art als Summe der Kurvenintegrale über die glatten Teilstücke. Bemerkung. Wir wollen noch die üblichen Bezeichnungen für Kurvenintegrale 2. Art in den Fällen d = 2, 3 diskutieren. Sei zunächst d = 2. Dann besteht das Vektorfeld F : D → R2 mit D ⊆ R2 aus zwei Komponentenfunktionen P, Q : D → R2 , also F = (P, Q), genauer F (x, y) = P (x, y), Q(x, y) . Dann schreibt man für das Kurvenintegral 2. Art auch Z Z Z F (x, y) · d(x, y) = P (x, y) dx + Q(x, y) dy = P dx + Q dy. C C C Der Punkt in der ersten Schreibweise soll die Bildung des Skalarprodukts andeuten, in den anderen beiden Schreibweisen ist dieses Skalarprodukt ausgeschrieben. Ist γ wieder mit den Komponentenfunktionen γ = (γ1 , γ2 ) gegeben und schreibt man kurz x(t) = γ1 (t) und y(t) = γ2 (t), so erhält man formal dx = γ˙1 (t) dt und dy = γ˙2 (t) dt und damit Z Z Z P dx + Q dy = P x(t), y(t) γ˙1 (t) + Q x(t), y(t) γ˙2 (t) dt = F γ(t) , γ̇(t) dt, C was die Sinnhaftigkeit dieser Bezeichnung zeigt. Ist d = 3 und sind die Komponentenfunktionen von F nun P, Q, R, also F = (P, Q, R), dann schreibt man entsprechend Z Z Z F (x, y, z) · d(x, y, z) = P (x, y, z) dx + Q(x, y, z) dy + R(x, y, z) dz = P dx + Q dy + R dz C C C für das Kurvenintegral 2. Art. Bemerkung. Bei gleicher Orientierung hängt das Kurvenintegral 2. Art nicht von der konkreten Jordan-Darstellung ab, ist also wohldefiniert. Dies folgt wie bei Kurvenintegralen 1. Art mittels der Substitutionsregel. 145 Das Kurvenintegral 2. Art hat offenbar die folgenden Eigenschaften: • Linearität: Z Z Z G(x, y) · d(x, y) F (x, y) · d(x, y) + β (αF (x, y) + βG(x, y)) · d(x, y) = α C C C • Additivität bezüglich Zusammensetzung: Z Z Z F (x, y) · d(x, y) + F (x, y) · d(x, y) = C1 ⊕C2 F (x, y) · d(x, y) C2 C1 • Verhalten bei Umkehrung der Orientierung: Z Z F (x, y) · d(x, y) = − F (x, y) · d(x, y) C̄ C Außerdem folgt aus der Cauchy-Schwarz-Ungleichung die Abschätzung Z F (x, y) · d(x, y) ≤ max |F (x, y)| L(C). (x,y)∈C C Wir haben diese Eigenschaften hier nur für d = 2 aufgeschrieben, für d = 3 gelten sie natürlich entsprechend. Beispiel 10.16. Wir betrachten drei orientierte Kurven C1 , C2 , C3 , die vom Punkt (0, 0) zum Punkt (1, 1) führen und gegeben sind durch die folgenden Parameterdarstellungen: ( ( (t, 0), t ∈ [0, 1] (0, t), t ∈ [0, 1] γ1 (t) = (t, t) für t ∈ [0, 1], γ2 (t) = γ3 (t) = (1, t − 1), t ∈ [1, 2], (t − 1, 1), t ∈ [1, 2]. Die Ableitungen dieser Parameterdarstellungen sind dann ( (1, 0), t ∈ [0, 1] γ˙1 (t) = (1, 1) für t ∈ [0, 1], γ˙2 (t) = (0, 1), t ∈ [1, 2], ( (0, 1), t ∈ [0, 1] γ˙3 (t) = (1, 0), t ∈ [1, 2]. Wir betrachten die zwei Vektorfelder F (x, y) = (x, y) und G(x, y) = (y, 0). Zur Berechnung der Kurvenintegrale 2. Art bezüglich des Vektorfelds F bestimmen wir ( ( (t, 0), t ∈ [0, 1] (0, t), t ∈ [0, 1] F γ1 (t) = (t, t), F γ2 (t) = F γ3 (t ) = (1, t − 1), t ∈ [1, 2], (t − 1, 1), t ∈ [1, 2] und damit F γ2 (t) , γ˙2 (t) = F γ3 (t) , γ˙3 (t) = F γ1 (t) , γ˙1 (t) = 2t und Schließlich erhalten wir die Kurvenintegrale Z Z 1 Z F (x, y) · d(x, y) = F γ1 (t) , γ˙1 (t) dt = C1 0 Z Z F (x, y) · d(x, y) = C2 Z F (x, y) · d(x, y) = C3 0 1 2t dt = 1, 0 2 F γ2 (t) , γ˙2 (t) dt = 0 Z ( t, t ∈ [0, 1] t − 1, t ∈ [1, 2]. Z 1 Z 0 2 F γ3 (t) , γ˙3 (t) dt = 2 (t − 1) dt = 1, t dt + Z 1 1 Z 0 2 (t − 1) dt = 1. t dt + 1 146 In diesem Fall hängt das Kurvenintegral 2. Art offenbar nicht vom konkreten Weg, sondern nur von Anfangs- und Endpunkt ab. Zur Berechnung der Kurvenintegrale 2. Art bezüglich des Vektorfelds G bestimmen wir ( ( (t, 0), t ∈ [0, 1] (0, 0), t ∈ [0, 1] G γ1 (t) = (t, 0), G γ2 (t) = G γ3 (t ) = (1, 0), t ∈ [1, 2], (t − 1, 0), t ∈ [1, 2] und damit G γ1 (t) , γ˙1 (t) = t, G γ2 (t) , γ˙2 (t) = 0, G γ3 (t) , γ˙3 (t) = Schließlich erhalten wir die Kurvenintegrale Z Z Z 1 G γ1 (t) , γ˙1 (t) dt = G(x, y) · d(x, y) = C1 0 0 Z Z G(x, y) · d(x, y) = C2 1 2 ( 0, t ∈ [0, 1] 1, t ∈ [1, 2]. 1 t dt = , 2 G γ2 (t) , γ˙2 (t) dt = 0, 0 Z Z G(x, y) · d(x, y) = C3 0 2 Z G γ3 (t) , γ˙3 (t) dt = 1 Z 0 dt + 0 2 1 dt = 1. 1 In diesem Fall hängt das Kurvenintegral 2. Art offenbar vom konkreten Weg ab. In vielen physikalisch relevanten Fällen hängt die Arbeit, die bei der Bewegung entlang einer Kurve verrichtet wird, nicht von der konkreten Kurve, sondern nur von Anfangs- und Endpunkt der Kurve ab. Denken Sie zum Beispiel an die Arbeit, die beim Heben eines Körpers im Gravitationsfeld der Erde verrichtet werden muss. Dabei spielt für die verrichtete Arbeit nur eine Rolle, wie groß die Änderung der Höhe ist. Vektorfelder mit dieser Eigenschaft nennt man konservative Felder. Wir wollen solche konservativen Felder als Abschluss dieses Abschnitts diskutieren. Wir beschränken uns zunächst wieder auf den Fall d = 2 von zweidimensionalen Vektorfeldern. Alles geht ganz analog für d = 3. Dazu benötigen wir noch den Begriff des Potential- oder Gradientenfelds. Ein Potential ist ein Skalarfeld V : D → R. Bildet man den Gradienten ∇V = (Vx , Vy ) von V , so erhält man ein Vektorfeld. Vektorfelder dieser Art heißen Potential- oder Gradientenfelder. Umgekehrt heißt das Skalarfeld V dann Potential oder Stammfunktion des Vektorfelds F = (P, Q) = (Vx , Vy ). Es stellt sich nun heraus, dass konservative Felder gerade Potentialfelder sind. Dazu muss das Definitionsgebiet D zusammenhängend sein, d.h. zwei beliebige Punkte von D müssen durch einen (stückweise stetig differenzierbaren) Weg verbunden werden können. Für ein Potentialfeld kann man das Kurvenintegral 2. Art über jede Kurve C, die von einem Punkt p = (xp , yp ) zu einem Punkt q = (xq , yq ), einfach berechnen als Z F (x, y) · d(x, y) = V (p) − V (q). C Beobachten Sie die Analogie zum Hauptsatz der Differential- und Integralrechnung! Dieser stellt den entsprechenden Sachverhalt im Fall d = 1 dar. Wir wollen zunächst einsehen, dass ein Potentialfeld tatsächlich konservativ ist. Sei also F = (P, Q) ein Potentialfeld mit Potential V , d.h. P = Vx und Q = Vy . Weiter sei γ : [a, b] → D eine 147 stetig differenzierbare Jordan-Darstellung der Jordan-Kurve C. Dann folgt mit der Kettenregel und dem Hauptsatz der Differential- und Integralrechnung Z Z ∂V ∂V P dx + Q dy = dx + dy ∂x C ∂x C Z b = Vx γ1 (t), γ2 (t) γ̇1 (t) + Vy γ1 (t), γ2 (t) γ̇2 (t) dt a Z b d = V γ(t) dt a dt = V γ(b) − V γ(a) . Diese Gleichung gilt dann auch durch Zusammensetzen für stückweise glatte Jordan-Kurven. Also ist F konservativ und die Formel zur Berechnung des Kurvenintegrals 2. Art ist gezeigt. Ist umgekehrt F konservativ, dann definieren wir für beliebiges festes (x0 , y0 ) ∈ D und variables z = (u, v) ∈ D Z V (z) = F (x, y) · d(x, y), C wobei C eine beliebige stetig differenzierbare Kurve mit Anfangspunkt (x0 , y0 ) und Endpunkt z = (u, v) ist. Man zeigt dann, dass V stetig differenzierbar ist mit ∇V = F , also dass V eine Stammfunktion von F ist. Diesen Beweis führen wir hier nicht aus. Beispiel 10.17. Wir betrachten die beiden Vektorfelder F, G : R2 → R2 gegeben durch F (x, y) = (x, y) und G(x, y) = (0, y) aus Beispiel 10.16. In diesem Beispiel haben wir gesehen, dass G nicht konservativ ist, also existiert kein Potential zu G. Aus dem Beispiel vermuten wir, dass F konservativ ist. Falls dem so wäre, können wir eine Stammfunktion berechnen als Z (x0 ,y0 ) Z (x0 ,y0 ) V (x0 , y0 ) = F (x, y) · d(x, y) = x dx + y dy. (0,0) (0,0) Wählen wir als Kurve die Strecke von (0, 0) nach (x0 , y0 ) parametrisiert durch γ(t) = (tx0 , ty0 ) für t ∈ [0, 1], so erhalten wir Z 1 Z 1 x2 + y02 V (x0 , y0 ) = hF (tx0 , ty0 ), γ̇(t)i dt = t(x20 + y02 ) dt = 0 . 2 0 0 Tatsächlich ist für V (x, y) = x2 +y 2 2 ∇V = (x, y) = F (x, y), also ist F ein Potentialfeld und V ein Potential. Nun können wir einfach das Kurvenintegral 2. Art für eine beliebige Kurve C von (xa , ya ) nach (xb , yb ) berechnen als Z x2 − x2a + yb2 − ya2 x dx + y dy = V (xb , yb ) − V (xa , ya ) = b . 2 C Beispiel 10.18 (Gravitationsfeld einer punktförmigen Masse). Eine punktförmige Masse M im Punkt (0, 0, 0) erzeugt in D = R3 \{(0, 0, 0} ein Gravitationsfeld. Dabei ist die Gravitationskraft, die auf einen Körper im Abstand r zum Ursprung ausgeübt wird, nach dem Newtonschen Gesetz gleich G mM und in Richtung des Ursprugs gerichtet. Hierbei ist G die universelle Gravitationsr2 konstante. Das zugehörige Gravitationspotential ist V (x, y, z) = G M r 148 mit r = p x2 + y 2 + z 2 . Tatsächlich ist der Gradient von V gerade F (x, y, z) = ∇V (x, y, z) = −G mM (x, y, z), r3 . zeigt also in Richtung des Ursprungs und hat den Betrag |F | = G mM r2 Eine notwendige Bedingung für das Vorliegen eines Potentialfeldes sind die Integrabilitätsbedingungen, die sich sofort aus dem Vertauschungssatz von Schwarz ergeben. Im Fall d = 2 und F = (P, Q) ist dies die Bedingung P y = Qx , die sich aus Vx = P, Vy = Q ergibt. Im Fall d = 3 und F = (P, Q, R) sind dies die drei Bedingungen Py = Qx , Pz = Rx , Qz = Ry . Diese Bedingungen kann man leicht prüfen, ohne das Potential zu kennen. Im Fall, dass das Gebiet D sternförmig ist, sind diese Bedingungen auch hinreichend dafür, dass das Feld tatsächlich ein Potentialfeld ist. Beispiel 10.19. An folgendem Beispiel wollen wir erläutern, wie man nach Prüfung der Integrabilitätsbedingungen eine Stammfunktion finden kann. Dazu sei das Vektorfeld F (x, y, z) = (P, Q, R) = (y + z, x + z, x + y) gegeben. Offensichtlich sind die Integrabilitätsbedingungen Py = Qx = 1, Pz = Rx = 1, Qz = Ry = 1 im sternförmigen Gebiet D = R3 erfüllt, also ist F ein Potentialfeld mit einem Potential V = V (x, y, z). Dann folgt aus ∂V y + z = P (x, y, z) = ∂x durch unbestimmte Integration nach x, dass V die Gestalt V (x, y, z) = xy + xz + C(y, z) hat. Hierbei ist die Integrationskonstante C noch abhängig von y und z. Leiten wir diese Gleichung nach y ab, so erhalten wir x + z = Q(x, y, z) = ∂V ∂C =x+ , ∂y ∂y also ist ∂C . ∂y Durch unbestimmte Integration nach y folgt, dass C die Gestalt z= C(y, z) = yz + D(z) hat. Hierbei ist die Integrationskonstante D noch abhängig von z. Dann hat also V die Form V (x, y, z) = xy + xz + yz + D(z). Leiten wir diese Gleichung nach z ab, so erhalten wir ∂V = x + y + D0 (z), ∂z also ist D(z) eine Konstante, die wir auch 0 setzen können. Ein Potential von F ist also gegeben durch V (x, y, z) = xy + xz + yz. x + y = R(x, y, z) = 149 10.2 Das mehrdimensionale Riemann-Integral In diesem Abschnitt wollen wir die Verallgemeinerung des Riemann-Integrals für multivariate Funktionen kennenlernen. Dabei gehen wir zunächst ganz analog zur Einführung des RiemannIntegrals von Funktionen einer Variablen vor. Wir betrachten wieder nur den Fall von Funktionen f (x, y) zweier Variablen. 10.2.1 Definition und Eigenschaften Abbildung 16: Volumen unter einer Fläche Die Motivation für das Riemann-Integral war die Berechnung des Flächeninhalts unter dem Graphen einer Funktion f : [a, b] → R, wobei [a, b] ⊂ R ein eindimensionales abgeschlossenes Intervall war. Nun wollen wir den Inhalt unter dem Graphen einer Funktion f : [a, b] → R berechnen, wobei [a, b] ein abgeschlossenes achsenparalleles Rechteck ist. Hier sind a = (α1 , α2 ), b = (β1 , β2 ) ∈ R2 mit αi < βi und [a, b] ist nichts anderes als die Produktmenge [a, b] = [α1 , β1 ] × [α2 , β2 ]. Die Fläche des Rechtecks R = [a, b] ist |R| = (β1 − α1 )(β2 − α2 ). Haben wir nun für jedes der beiden Intervalle [αi , βi ] eine Zerlegung Zi in Teilintervalle gegeben, so bilden die Produkte dieser Teilintervalle eine Zerlegung Z = (Z1 , Z2 ) von [a, b] in achsenparallele Rechtecke. Die Menge dieser Teilrechtecke bezeichnen wir mit T R(Z). Die Feinheit von Z definieren wir als |Z| = max |Zi |, i=1,2 das ist also die maximale Länge, die unter allen Seiten der Teilrechtecke auftritt. Eine Treppenfunktion ist nun in Analogie zum Fall von Funktionen einer Variablen eine Funktion f : [a, b] → R, die auf den offenen Teilrechtecken einer Zerlegung konstant ist. Auch hier kann man zu zwei Treppenfunktionen f, g auf [a, b] immer eine Zerlegung finden, so dass beide Funktionen f, g auf den Teilrechtecken dieser Zerlegung konstant sind. Dies erreicht man, indem man alle Unterteilungspunkte der zu f und g gehörenden Zerlegungen als eine neue Zerlegung auffasst. Das ist eine gemeinsame Verfeinerung beider Zerlegungen. Die Treppenfunktionen auf einem Rechteck [a, b] bilden einen linearen Raum, sind also f, g Treppenfunktionen und c, d ∈ R, so ist cf + dg ebenfalls eine Treppenfunktion. 150 Abbildung 17: Eine Treppenfunktion Definition 10.20. Sei f : [a, b] → R eine Treppenfunktion mit f (x, y) = cR im Inneren des Zerlegungsrechtecks R ∈ T R(Z). Dann ist das Integral von f über [a, b] gegeben durch Z X f (x, y) d(x, y) = cR |R|. [a,b] R∈T R(Z) Das Integral einer Treppenfunktion ist unabhängig von der konkreten Wahl der Zerlegung Z. Daraus ergibt sich sofort die Linearität des Integrals für Treppenfunktionen. Sind f, g Treppenfunktionen auf [a, b] und c, d ∈ R, dann gilt Z Z Z cf (x, y) + dg(x, y) d(x, y) = c f (x, y) d(x, y) + d g(x, y) d(x, y). [a,b] [a,b] [a,b] Ebenfalls sofort aus der Definition folgt die Monotonie des Integrals für Treppenfunktionen Z Z f (x, y) ≤ g(x, y) für (x, y) ∈ [a, b] =⇒ f (x, y) d(x, y) ≤ g(x, y) d(x, y). [a,b] [a,b] Ist nun f eine beschränkte Funktion, so kann man Treppenfunktionen (sogar konstante Funktionen) g, h finden mit g ≤ f ≤ h Das rechtfertigt wieder die Existenz von Supremum und Infimum in der folgenden Definition 10.21. Sei f : [a, b] → R beschränkt. Dann heißt Z Z f (x, y) d(x, y) = sup g(x, y) d(x, y) ∗ [a,b] [a,b] Unterintegral von f , wobei das Supremum über alle Treppenfunktionen g mit g ≤ f gebildet wird. Entsprechend heißt Z ∗ Z f (x, y) d(x, y) = inf h(x, y) d(x, y) [a,b] [a,b] Oberintegral von f , wobei das Infimum über alle Treppenfunktionen h mit f ≤ h gebildet wird. 151 Sind g, h Treppenfunktionen mit g ≤ fR ≤ h, so folgt aus der Monotonie des Integrals für R Treppenfunktionen [a,b] g(x, y) d(x, y) ≤ [a,b] h(x, y) d(x, y). Also ist immer Z Z ∗ f (x, y) d(x, y) ≤ f (x, y) d(x, y). ∗ [a,b] [a,b] Definition 10.22 (Riemann-Integral). Sei f : [a, b] → R beschränkt. Gilt Z Z ∗ f (x, y) d(x, y), f (x, y) d(x, y) = ∗ [a,b] [a,b] dann heißt f Riemann-integrierbar und der gemeinsame Wert Z Z Z ∗ f (x, y) d(x, y). f (x, y) d(x, y) = f (x, y) d(x, y) = ∗ [a,b] [a,b] [a,b] heißt Riemann-Integral von f über [a, b]. R Beispiel 10.23. Wir wollen das Riemann-Integral [0,1]2 xy d(x, y) mittels der Definition berechnen. Dazu betrachten wir die Zerlegung n [ i−1 i j−1 j 2 , × , . [0, 1] = n n n n i,j=1 Das Minimum von f (x, y) = xy auf dem Zerlegungsrechteck i−1 n i h j , ni × j−1 , n n wird im lin- (i−1)(j−1) . n2 ken unteren Eckpunkt angenommen, ist also Das Maximum wird im rechten oberen ij Eckpunkt angenommen, ist also n2 . Die Flaäche jedes Zerlegungsrechtecks ist n12 . Wir erhalten also für das Integral der Treppenfunktion g ≤ f , die auf jedem Zerlegungsrechteck gleich dem Minimum von f ist, das Integral !2 Z n n X (i − 1)(j − 1) 1 1 X n2 (n − 1)2 (n − 1)2 g(x, y) d(x, y) = · = (i − 1) = = . n2 n2 n4 4n4 4n2 [a,b] i,j=1 i=1 Also gilt für das Unterintegral von f Z ∗ 1 (n − 1)2 xy d(x, y) ≥ sup = . 2 4n 4 n∈N [0,1]2 Für das Integral der Treppenfunktion h ≥ f , die auf jedem Zerlegungsrechteck gleich dem Maximum von f ist, haben wir !2 Z n n X ij 1 1 X n2 (n + 1)2 (n + 1)2 h(x, y) d(x, y) = · 2 = 4 i = = . 2 4 n n n 4n 4n2 [a,b] i,j=1 i=1 Also gilt für das Oberintegral von f Z (n + 1)2 1 xy d(x, y) ≤ inf = . 2 n∈N 4n 4 ∗ [0,1]2 152 Also sind Ober- und Unterintegral gleich, f ist Riemann-integrierbar und wir erhalten Z 1 xy d(x, y) = . 4 [0,1]2 Wieder erhält man direkt aus der Definition die folgende Charakterisierung. Satz 10.24. Sei f : [a, b] → R beschränkt. Dann ist f Riemann-integrierbar genau dann, wenn es zu jedem ε > 0 Treppenfunktionen g, h : [a, b] → R gibt mit g ≤ f ≤ h und Z Z h(x, y) d(x, y) − g(x, y) d(x, y) ≤ ε. [a,b] [a,b] Mittels dieser Charakterisierung kann man wieder ganz analog zur Analysis 1 die RiemannIntegrierbarkeit stetiger Funktionen zeigen. Satz 10.25. Sei f : [a, b] → R stetig. Dann ist f Riemann-integrierbar. Auch die grundlegenden Eigenschaften des Integrals für Treppenfunktionen übertragen sich auf das Riemann-Integral. Die Riemann-integrierbaren Funktionen auf [a, b] bilden also einen linearen Raum, sind f, g Riemann-integrierbar und c, d ∈ R, dann ist auch cf + dg Riemann-integrierbar. Wir haben wieder die Linearität des Integrals Z Z Z cf (x, y) + dg(x, y) d(x, y) = c f (x, y) d(x, y) + d g(x, y) d(x, y). [a,b] [a,b] [a,b] Ebenfalls gilt die Monotonie des Riemann-Integrals: Z f (x, y) ≤ g(x, y) für (x, y) ∈ [a, b] =⇒ Z f (x, y) d(x, y) ≤ [a,b] g(x, y) d(x, y). [a,b] Weiter kann man direkt die Riemann-Integrierbarkeit von f · g und von |f |p für 0 < p < ∞ folgern. Es gilt die Cauchy-Schwarz-Ungleichung für Riemann-Integrale Z f g d(x, y) ≤ [a,b] Z [a,b] !1/2 |f |2 d(x, y) Z !1/2 |g|2 d(x, y) , [a,b] die aus der Cauchy-Schwarz-Ungleichung für die Integrale von Treppenfunktionen folgt (dies sind ja endliche Summen). Bemerkung (Zwischensummen). Alternativ kann man ebenfalls den Zugang zum RiemannIntegral über Zwischensummen gehen. Um nun Integrale von Funktionen f : D → R zu definieren, die auf einem beschränkten Definitionsgebiet D ⊂ R2 gegeben sind, das kein achsenparalleles Rechteck ist, setzen wir die Funktion f außerhalb von D mit 0 fort. 153 Definition 10.26. Sei D ⊂ R2 beschränkt, sei [a, b] ein Intervall mit D ⊆ [a, b] und sei f : D → R eine beschränkte Funktion. Dann heißt f Riemann-integrierbar (über D), wenn die Funktion g : [a, b] → R gegeben durch ( f (x, y) (x, y) ∈ D g(x, y) = 0 (x, y) ∈ /D Riemann-integrierbar ist. Dann setzt man Z Z f (x, y) d(x, y) := g(x, y) d(x, y). [a,b] D Bemerkung. Man sieht leicht, dass die Definition unabhängig von der Wahl des Rechtecks [a, b] mit D ⊆ [a, b] ist. Problematisch an dieser Definition ist, dass nicht mehr klar ist, ob eine stetige Funktion f : D → R Riemann-integrierbar ist. Die fortgesetzte Funktion ist ja im allgemeinen am Rand von D nicht mehr stetig. Wir können auf diese Feinheiten im Rahmen dieser Vorlesung nicht eingehen. Die obige Definition ermöglicht es nun leicht, Gebieten D ⊂ R2 einen Flächeninhaltinhalt zuzuordnen. Definition 10.27. Eine beschränkte Menge D ⊂ R2 heißt Jordan-messbar, wenn die charakteristische Funktion χD von D Riemann-integrierbar ist. Dann heißt Z Z area(D) := χD (x, y) d(x, y) = 1 d(x, y) D D Jordan-Inhalt oder Flächeninhalt von D. Die Eigenschaften des Riemann-Integrals auf Intervallen übertragen sich direkt auf das RiemannIntegral über Jordan-messbare Mengen. insbesondere gelten also wieder Linearität und Monotonie Die Monotonie des Riemann-Integrals liefert auch die Monotonie des Jordan-Inhalts: Sind D, E ⊂ R2 Jordan-messbare Mengen mit D ⊆ E, dann gilt area(D) ≤ area(E). 10.2.2 Berechnung zweidimensionaler Riemann-Integrale - Satz von Fubini Im letzten Abschnitt haben wir die Theorie des Riemann-Integrals für Funktionen einer Variablen so weit auf Funktionen zweier Variabler übertragen, wie dies ohne große Änderungen möglich ist. Natürlich müssen wir nun aber auch noch untersuchen, wie man solche Integrale überhaupt in der Praxis berechnen kann, ohne jedes mal Grenzwerte von Unter- und Obersummen bestimmen zu müssen. Zur Motivation betrachten wir R eine Funktion f : [α1 , β1 ] × [α2 , β2 ] → R, von der wir das Volumen unter dem Graphen, also [α1 ,β1 ]×[α2 ,β2 ] f (x, y) d(x, y) berechnen wollen. Halten wir zunächst y ∈ [α2 , β2 ] fest, so liefert das eindimensionale Integral Z β1 F (y) = f (x, y) dx α1 gerade die Querschnittsfläche des betrachteten Volumens mit einer senkrechten Ebene beim festen Wert y. Anschaulich ist also F (y) dy das Volumen einer dünnen Scheibe des betrachteten 154 Volumens mit Querschnittsfläche F (y) und Dicke dy. Aufsummieren der Volumina dieser dünnen Scheiben liefert einerseits (im Grenzwert) Z β2 F (y) dy, α2 andererseits ist das das gesuchte Gesamtvolumen. Diese Betrachtung legt nahe, dass wir das zweidimensionale Integral als zwei iterierte eindimensionale Integrale nach der Formel Z Z β2 Z β1 f (x, y) d(x, y) = f (x, y) dx dy [α1 ,β1 ]×[α2 ,β2 ] α2 α1 berechnen können. Dies ist unter relativ allgemeinen Bedingungen richtig und stellt den Inhalt des Satzes von Fubini dar. Satz 10.28 (Fubini für Rechtecke). Sei f : [α1 , β1 ]×[α2 , β2 ] → R RRiemann-integrierbar. Weiter existiere für jedes feste y ∈ [α2 , β2 ] das Riemann-Integral F (y) := [α1 ,β1 ] f (x, y) dx. Dann ist F auf [α2 , β2 ] Riemann-integrierbar und es gilt Z Z β2 f (x, y) d(x, y) = [α1 ,β1 ]×[α2 ,β2 ] Z β2 Z β1 F (y) dy = α2 f (x, y) dx α2 dy. α1 Bemerkung. Die Voraussetzung des Satzes ist für stetige Funktionen f erfüllt. Man kann dann natürlich auch die Reihenfolge der Integrationen vertauschen. Die Klammern um das innere Integral lässt man meist weg und schreibt Z β2 Z β1 f (x, y) dx dy. α2 α1 R Beispiel 10.29. Wir wollen das Riemann-Integral [0,1]2 xy d(x, y) aus Beispiel 10.23 mittels des Satzes von Fubini berechnen. Da f (x, y) = xy stetig ist, erhalten wir Z Z 1 Z 1 Z 1 y 1 xy d(x, y) = xy dx dy = dy = . 4 [0,1]2 0 0 0 2 Wir wollen nun eine Version des Satzes von Fubini für Integrale über allgemeine Jordan-messbare Mengen ableiten. Dazu sei D ⊂ R2 zunächst eine beliebige Menge. Die Projektion von D auf den R ist dann die Menge P (D) := y ∈ R : ∃x ∈ R mit (x, y) ∈ D . Für y ∈ P (D) ist dann die Menge Dy := x ∈ R : (x, y) ∈ D ⊆ R der (nichtleere) Schnitt von D mit der Geraden parallel zur x-Achse durch y. Satz 10.30 (Fubini). Sei D ⊂ R2 Jordan-messbar und sei f : D → RR Riemann-integrierbar. Weiter existiere für jedes feste y ∈ P (D) das Riemann-Integral F (y) := Dy f (x, y) dx. Dann ist F auf P (D) Riemann-integrierbar und es gilt ! Z Z Z Z f (x, y) d(x, y) = D F (y) dy = P (D) f (x, y) dx P (D) Dy dy. 155 Beweis. Zum Beweis wählen wir einfach abgeschlossene Intervalle [α2 , β2 ] ⊂ R mit P (D) ⊆ [α2 , β2 ] und [α1 , β1 ] ⊂ R mit D ⊆ [α1 , β1 ] × [α2 , β2 ] und wenden den Satz 10.28 von Fubini für Rechtecke auf die mit 0 fortgesetzte Funktion an. Aus dem allgemeinen Satz von Fubini folgt sofort Korollar 10.31 (Prinzip von Cavalieri für Flächen). Sei D ⊂ R Jordan-messbar und sei das abgeschlossene Intervall [α1 , β1 ] so gewählt, dass x ∈ [α1 , β1 ] für alle (x, y) ∈ D gilt. Für alle x ∈ [a, b] habe die Menge Q(x) := y ∈ R : (x, y) ∈ D ⊂ R die Gesamtlänge q(x). Dann gilt Z β1 area(D) = q(x) dx. α1 Das eigentliche klassische Prinzip von Cavalieri ist die Verallgemeinerung zur Volumenberechnung mittels der Berechnung paralleler Schnittflächen, das wir hier nur informell diskutieren. Sei dazu D ⊆ R3 eine Jordan-messbare Menge und sei wieder [α1 , β1 ] ein Intervall, dass x ∈ [α1 , β1 ] für alle (x, y, z) ∈ D gilt. Für ein Für alle x ∈ [α1 , β1 ] habe die Menge Q(x) := (y, z) ∈ R2 : (x, y, z) ∈ D ⊂ R den Flächeninhalt q(x). Dann hat D das Volumen Z β1 V = q(x) dx. α1 Dieses Prinzip kannte eigentlich schon Archimedes, der damit das Volumen einer Kugel berechnen konnte. Beispiel 10.32 (Integration über ebene Normalbereiche). Eine Teilmenge des R2 der Form D := (x, y) ∈ R2 : a ≤ x ≤ b, ϕ(x) ≤ y ≤ ψ(x) mit stetigen Funktionen ϕ, ψ : [a, b] → R und ϕ ≤ ψ heißt Normalbereich (bezüglich der x-Achse) im R2 . Normalbereiche sind Jordan-messbar und das Integral einer stetigen Funktion f : D → R lässt sich mittels des Satzes von Fubini berechnen als Z Z b Z ψ(x) f (x, y) d(x, y) = f (x, y) dy dx. D a ϕ(x) Normalbereiche bezüglich der y-Achse sind symmetrisch definiert. Zum Beispiel kann man das Innere einer Ellipse n o x2 y 2 D = (x, y) ∈ R2 : 2 + 2 ≤ 1 a b mit den Halbachsen a, b > 0 als Normalbereich darstellen durch ( ) r r x2 x2 2 D = (x, y) ∈ R : −a ≤ x ≤ a, −b 1 − 2 ≤ y ≤ b 1 − 2 . a a Der Flächeninhalt von D ist dann q Z a Z b 1− x2 Z a2 1 dy dx = 2b q 2 −a −b 1− x2 a a −a r x2 1 − 2 dx = 2ab a Z 1 −1 p 1 − u2 du = πab. 156 10.2.3 Substitutionsregel und Koordinatenwechsel In diesem Abschnitt wollen wir das Analogon zur Substitutionsregel für Funktionen einer Variablen behandeln. Diese hatte die Form Z b Z g(b) f g(u) g 0 (u) du f (x) dx = a g(a) für eine streng monoton wachsende stetig differenzierbare (und damit bijektive) Funktion g : [a, b] → [g(a), g(b)]. Zur Motivation wollen wir zunächst eine Substitution betrachten, die durch eine invertierbare lineare Abbildung A : R2 → R2 , also eine 2 × 2-Matrix, beschrieben wird. Diese Abbildung bildet das Einheitsquadrat [0, 1]2 auf ein Parallelogramm mit dem Flächeninhalt | det A| ab. Da die Abbildung A linear ist, wird jede die Fläche jeder Jordan-messbaren Menge J unter der Abbildung A einfach mit diesem Faktor | det A| multipliziert: area A(J) = | det A| area(A). Nun ist eine allgemeine Substitution T : R2 → R2 nicht linear, kann aber lokal mittels der Ableitungen linearisiert werden. Betrachten wir die Komponentenfunktionen ϕ, ψ : R2 → R von T , also T = (ϕ, ψ), so ist die beste lineare Näherung von T im Punkt (x0 , y0 ) gegeben durch die Jacobi-Matrix ϕx (x0 , y0 ) ϕy (x0 , y0 ) . JT (x0 , y0 ) = ψx (x0 , y0 ) ψy (x0 , y0 ) In der Nähe von (x0 , y0 ) werden also Flächen bei Anwendung der Transformation T etwa mit dem Faktor det JT (x0 , y0 ) multipliziert. Satz 10.33 (Substitutionsregel, Transformationssatz). Sei T : G → R2 eine stetig differenzierbare Abbildung auf einer offenen Menge G ⊆ R2 und sei D ⊂ G kompakt und Jordan-messbar, so dass T auf G injektiv ist und det JT auf G entweder überall positiv oder überall negativ ist. Dann ist T (D) Jordan-messbar und für jede stetige Funktion f : T (D) → R gilt Z Z f (x, y) d(x, y) = f T (u, v) det JT (u, v) d(u, v). T (D) D Die Substitutionsregel wird meist angewendet, wenn das Integrationsgebiet D und eventuell auch die zu integrierende Funktion f am besten in einem anderen als dem kartesischen Koordinatensystem dargestellt wird. Beispiel 10.34 (Polarkoordinaten). Zu jedem Punkt (x, y) ∈ R2 \ {(0, 0} gibt es genau ein Paar (r, ϕ) ∈ (0, ∞) × [0, 2π) mit x = r cos ϕ, y = r sin ϕ. Dies sind die Polarkoordinaten von (x, y). Setzen wir nun T (r, ϕ) = (r cos ϕ, r sin ϕ) auf G = R2 , dann ist T stetig differenzierbar mit cos ϕ −r sin ϕ det(JT (r, ϕ)) = det = r. sin ϕ r cos ϕ Ist also D ⊆ [0, ∞) × [0, 2π] kompakt und Jordan-messbar, dann sind die Voraussetzungen der Substitutionsregel erfüllt. Also ist T (D) Jordan-messbar und für jede stetige Funktion f : g(D) → R gilt Z Z f (x, y) d(x, y) = T (D) f (r cos ϕ, r sin ϕ) r d(r, ϕ). D 157 Gebiete, die gut für die Behandlung mit Polarkoordinaten geeignet sind, sind Sektoren von Kreisringen T (K) mit K = (r, ϕ) ∈ [0, ∞) × [0, 2π] : r1 ≤ r ≤ r2 , ϕ1 ≤ ϕ ≤ ϕ2 für gegebene r1 , r2 , ϕ1 , ϕ2 . Dann liefert der Satz von Fubini Z ϕ2 Z r2 Z f (r cos ϕ, r sin ϕ) r dr dϕ). f (x, y) d(x, y) = T (K) ϕ1 r1 Zum Beispiel erhält man den Flächeninhalt des Kreissektors als Z Z ϕ 2 Z r2 1 area(T (K)) = 1 d(x, y) = r dr dϕ = (r22 − r12 )(ϕ2 − ϕ1 ) 2 T (K) ϕ1 r1 und das Integral über die Funktion f (x, y) = x2 + y 2 als Z Z ϕ2 Z r2 1 2 2 (x + y ) d(x, y) = r3 dr dϕ = (r24 − r14 )(ϕ2 − ϕ1 ) 4 T (K) ϕ1 r1