Skript zur Vorlesung Analysis 2 Sommersemester 2013 Prof. Dr. Benjamin Schlein Inhaltsverzeichnis 1 Riemann’sches Integral 1.1 Definition und elementare Eigenschaften . . . . . . . . . . . . 1.2 Hauptsatz der Integralrechnung . . . . . . . . . . . . . . . . . 1.3 Integrationsmethoden . . . . . . . . . . . . . . . . . . . . . . 1.4 Integration von rationalen Funktionen: Partialbruchzerlegung 1.5 Vertausch von Grenzübergang und Integral . . . . . . . . . . 1.6 Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 12 14 16 20 22 2 Gewöhnliche Differentialgleichungen 2.1 Differentialgleichungen erster Ordnung, elementare Lösungsmethoden . 2.2 Differentialgleichungen höherer Ordnung . . . . . . . . . . . . . . . . . 2.3 Lineare Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . 2.4 Lineare Differentialgleichungen mit konstanten Koeffizienten . . . . . . . . . . 26 26 30 31 35 . . . . . . . . . . . . . . . . . . . . . . . . 3 Differentialrechnung in mehreren Veränderlichen 3.1 Definition der Ableitung für Funktionen auf Rn . . . . . . 3.2 Mittelwertsatz . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Höhere Ableitungen, Taylor Entwicklung, lokale Extrema 3.4 Umkehrabbildung und Satz über implizite Funktionen . . 3.5 Mannigfaltigkeiten in Rn . . . . . . . . . . . . . . . . . . . 3.6 Extrema mit Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 42 53 55 63 71 77 4 Riemann’sche Integrale in Rn 4.1 Definition und allgemeine Eigenschaften . 4.2 Iterierte Integrale und der Satz von Fubini 4.3 Variablentransformationen . . . . . . . . . 4.4 Länge und Flächeninhalt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 82 92 95 100 . . . . . . . 103 103 104 107 111 114 118 123 5 Vektoranalysis 5.1 Vektorfelder und Feldlinien . . . . . 5.2 Linienintegrale . . . . . . . . . . . . 5.3 Konservative Vektorfelder . . . . . . 5.4 Rotation . . . . . . . . . . . . . . . . 5.5 Green’sche Formel in 2 Dimensionen 5.6 Fluss, Divergenz und Satz von Gauss 5.7 Satz von Stokes . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Riemann’sches Integral Definition und elementare Eigenschaften Ziel: für eine Funktion f : [a; b] → [0; ∞) möchten wir den Flächeninhalt von {(x, y) : a ≤ x ≤ b, 0 ≤ y ≤ f (x)} berechnen (und definieren). Intuitive Konstruktion. Wir wählen Punkte x0 , x1 , . . . , xn ∈ R, mit a = x0 < x1 < · · · < xn−1 < xn = b. Das zerlegt [a; b] in n Intervalle [x0 ; x1 ], [x1 ; x2 ], . . . , [xn−1 ; xn ]. Für jede j = 1, . . . , n, wählen wir einen Repräsentanten ξj ∈ [xj−1 ; xj ]. Die Fläche von {(x, y) : xj−1 ≤ x ≤ xj , 0 ≤ y ≤ f (ξj )} ist ungefähr f (ξj )(xj −xj−1 ). Die gesamte Fläche von {(x, y) : a ≤ x ≤ b, 0 ≤ y ≤ f (x)} ist ungefähr aus der Riemann’sche Summe n X f (ξj )(xj − xj−1 ) j=1 gegeben. Die Hoffnung ist dann, dass die Riemann’sche Summe konvergiert, als die Teilung unendlich fein wird. Das Integral ist dann als der Grenzwert der Riemann’sche Summe definiert. Genaue Konstruktion. Wir betrachten ein kompaktes Intervall I = [a; b] und eine beschränkte R-wertige Funktion f auf I. Eine Teilung von [a; b] ist eine endliche Teilmenge T = {x0 < x1 < · · · < xn−1 < xn } von [a; b], mit x0 = a und xn = b. Zu einer gegebenen Teilung T , definieren wir die Intervalle Ij = [xj−1 , xj ], für j = 1, 2, . . . , n. Es gilt I = I1 ∪ I2 ∪ · · · ∪ In Die Intervalle Ij sind fast disjunkt, mit Ij ∩ Ij+1 = {xj } und Ii ∩ Ij = ∅, falls i 6= j, j ± 1 Sei T eine Teilung von [a; b]. Eine zu T entsprechende Familie von Repräsentanten ist ein n-Tupel ξ = (ξ1 , ξ2 , . . . , ξn } mit ξj ∈ Ij für alle j = 1, . . . , n. Für gegebene Teilung T und Familie von Representanten ξ definieren wir die Riemann’sche Summe S(T, ξ) = n X f (ξj )(xj − xj−1 ) j=1 wobei (xj − xj−1 ) = |Ij | die Länge von Ij ist. Wir definieren nun die obere Riemann’sche Summe zur Teilung T : S(T ) = sup S(T, ξ) = ξ n X sup{f (x) : x ∈ Ij } |Ij | j=1 Die untere Riemann’sche Summe zur Teilung T ist S(T ) = inf S(T, ξ) = ξ n X inf{f (x) : x ∈ Ij }|Ij | j=1 Offenbar gilt S(T ) ≥ S(T ) für alle Teilungen T von [a; b]. Intuitiv sollte es gelten S(T ) ≤ Flächeninhalt ≤ S(T ). Wir sagen, eine Teilung T 0 ist eine Verfeinerung von T falls T 0 ⊃ T (eine feinere Teilung ist eine grössere Menge). 2 Lemma 1.1. Wir haben die folgenden Eigenschaften: a) Sei T 0 ⊃ T eine Verfeinerung von T . Dann gilt S(T 0 ) ≤ S(T ) und S(T 0 ) ≥ S(T ). b) Es gilt sup S(T ) ≤ inf S(T ) T T Beweis. a) Es genügt, den Fall |T 0 | = |T |+1 zu betrachten. Wir haben also T 0 = T ∪{x̂}, für ein x̂ ∈ [a; b]. Ist T = {x0 < x1 < · · · < xn−1 < xn }, dann gibt es ein k ∈ {1, 2, . . . , n} mit xk−1 < x̂ < xk . Also T 0 = {x0 < x1 < · · · < xk−1 < x̂ < xk < · · · < xn }. Es gilt 0 0 Ij0 = Ij für 1 ≤ j ≤ k − 1, Ij+1 = Ij für k + 1 ≤ j ≤ n, und Ik = Ik0 ∪ Ik+1 . Da sup f ≤ sup f sup f ≤ sup f, Ik0 0 Ik+1 Ik Ik finden wir 0 0 |Ik0 | sup f + |Ik+1 | sup f ≤ (|Ik0 | + |Ik+1 |) sup f = |Ik | sup f Ik0 0 Ik+1 Ik Ik Also S(T ) = |I1 | sup f + · · · + |Ik | sup f + · · · + |In | sup f I1 ≥ |I10 | Ik sup f + · · · + I10 |Ik0 | In sup f + Ik0 0 | |Ik+1 sup f + · · · + |In | sup f 0 Ik+1 In = S(T 0 ) Ähnlich kann man zeigen, dass S(T ) ≤ S(T 0 ). b) Seien T1 , T2 zwei Teilungen von [a; b]. Wir setzen T3 = T1 ∪ T2 . T3 ist eine Verfeinerung von T1 und von T2 . Aus a), und weil offenbar S(T ) ≤ S(T ) für jede Teilung T , bekommen wir S(T1 ) ≤ S(T3 ) ≤ S(T3 ) ≤ S(T2 ) Also S(T1 ) ≤ S(T2 ) für jede zwei Teilungen T1 , T2 . Das impliziert, dass supT S(T ) ≤ inf T S(T ). Definition 1.2. Die reelwertige beschränkte Funktion f auf [a; b] heisst Riemann integrierbar, falls sup S(T ) = inf S(T ) . T T In diesem Fall definieren wir das (Riemann’sche) Integral von f auf [a; b] durch Z b f (x)dx := sup S(T ) = inf S(T ) a T T Rb Rb Bemerkungen. Wir benutzen auch die Notation a f dx oder einfach a f für das Integral von f auf [a; b]. Das Differntial dx erinnert an der ∆x = xj − xj−1 in der Riemann’schen Summe; es hat aber keine Bedeutung im Integral. In Analysis 3 werden wir sehen, dass eine andere alternative Konstruktion des Integrals existiert, das Lebesgue-Integral. Der Hauptvorteil des Lebesgue-Integrals ist, dass es für allgemeinere Funktionen existiert (und dass es bessere Eigenschaften bezüglich Vertausch von Grenzwert und Integral hat). Wann das Riemann Integral existiert, stimmt es mit dem Lebesgue Integral überein. 3 Proposition 1.3. a) f ist genau dann integrierbar, wenn inf T S(T ) − S(T ) = 0. b) Sei Tn eine Familie von Teilungen mit S(Tn ) − S(Tn ) → 0, als n → ∞. Dann ist f integrierbar und Z b Z b f (x)dx, und S(Tn ) → f (x)dx S(Tn ) → a a Weiter, falls ξ (n) eine beliebige Familie von Representanten zur Teilung Tn ist, haben wir Z b (n) f (x)dx S(Tn , ξ ) → a Bemerkung: Da S(T ) ≥ S(T ) für alle T , die Bedingung inf S(T ) − S(T ) = 0 ist mit inf S(T ) − S(T ) ≤ 0 äquivalent. Beweis. a) Nehmen wir an, die Bedingung inf S(T ) − S(T ) = 0 ist erfüllt. Dann 0 = inf S(T ) − S(T ) ≥ inf S(T ) − sup S(T ) und sup S(T ) ≥ inf S(T ). Da die umgekehrte Ungleichung immer gilt, ist sup S(T ) = inf S(T ). Das bedeutet, dass f integrierbar ist. Nehmen wir nun an, f ist integrierbar. Sei nun ε > 0, T1 , T2 zwei Teilungen mit S(T1 ) − inf S(T ) ≤ ε/2 T und sup S(T ) − S(T2 ) ≤ ε/2 T Da f integriebar ist, ist inf S = sup S. Also S(T1 ) − S(T2 ) ≤ ε Sei nun T3 = T1 ∪ T2 . Da T3 eine Verfeinerung von T1 , T2 ist, gilt S(T3 ) ≤ S(T1 ) und S(T3 ) ≥ S(T2 ). Deswegen S(T3 ) − S(T3 ) ≤ S(T1 ) − S(T2 ) ≤ ε Da ε > 0 beliebig, gilt inf S(T ) − S(T ) ≤ 0 T b) Aus S(Tn ) − S(Tn ) → 0 folgt, dass inf(S(T ) − S(T )) = 0. Aus a) folgt, dass f integrierbar ist. Da Z b S(Tn ) ≤ f (x)dx ≤ S(Tn ) a wir finden, dass S(Tn ) → Rb a f (x)dx und auch S(Tn ) → Rb a S(Tn ) ≤ S(Tn , ξ (n) ) ≤ S(Tn ) muss auch S(Tn , ξ (n) ) → Rb a f (x)dx. 4 f (x)dx. Weiter, da Es folgt aus der Proposition, dass um Integrale zu berechnen (und Integrierbarkeit zu prüfen) es genügt, eine spezielle Folge von Teilungen zu betrachten, nämlich eine Folge mit der Eigenschaft S(Tn ) − S(Tn ) → 0. Ist die Funktion integrierbar, so konvergieren obere und untere Summe gegen das Integral von f , für beliebige Folgen von Teilungen Tn , falls die Länge jedes Intervalls von Tn gegen Null strebt. Für eine Teilung T von [a; b] setzen wir kT k = maxj=1,...,n |xj −xj−1 |. D.h. kT k ist die Länge des grössten Intervalls in der Teilung. Für eine beliebige Menge J und eine R-wertige Funktion f auf J definieren wir auch die Oszillation von f auf J durch σ(f, J) = sup{f (x) : x ∈ J} − inf{f (x) : x ∈ J} = sup{|f (x) − f (y)| : x, y ∈ J} Dann ist, für eine beliebige Teilung T , S(T ) − S(T ) = n X σ(f, Ij )|Ij | j=1 Proposition 1.4. Sei f auf [a; b] integrierbar, und Tn eine Folge von Teilungen, mit kTn k → 0. Dann gilt Z a b f dx = lim S(Tn ) = lim S(Tn ) = lim S(Tn , ξ (n) ) n→∞ n→∞ n→∞ wobei, für alle n ∈ N, ξ (n) eine Familie von Repräsentanten zur Teilung Tn ist. Beweis. Es genügt, die folgende Tatsache zu überprüfen: Ist T eine Teilung von [a; b], mit δ = minj=1,...,n |Ij |. Dann gilt S(T 0 ) − S(T 0 ) ≤ 3 S(T ) − S(T ) (1) für alle Teilungen T 0 von [a; b] mit kT 0 k = max |Ij | < δ. In der Tat, nehmen wir an (1) ist korrekt. Dann können wir wie folgt argumentieren. Da f integrierbar ist, finden wir, für alle ε > 0, eine Teilung Te mit S(Te) − S(Te) < ε 3 Wir setzen dann δ = min |Iej |, wobei Iej die zur Teilung Te entsprechenden Intervalle sind. Da kTn k → 0, für n → ∞, finden wir N mit kTn k ≤ δ, für alle n > N . Gleichung (1) impliziert dann, dass S(Tn ) − S(Tn ) < ε für alle n > N . Also S(Tn ) − S(Tn ) → 0, für n → ∞. Proposition 1.3 zeigt dann die Behauptung. Es bleibt (1) zu zeigen. Wir bezeichnen mit Ij und Ij0 die zu T und zu T 0 entsprechenden Intervalle. Es gilt maxj |Ij0 | < mink |Ik |. Deswegen schneidet jedes Intervall Ij0 höchstens zwei I-Intervalle. Wir definieren εij = 1 falls Ii Ij0 schneidet(für jedes j gibt es höchstens zwei Indizien i, mit εij 6= 0). Wir bemerken, dass X σ(f, Ij0 ) ≤ εij σ(f, Ii ) i 5 Deswegen finden wir ! S(T 0 ) − S(T 0 ) = X σ(f, Ij0 )|Ij0 | ≤ j X X j εij σ(f, Ii ) |Ij0 | i X X X = σ(f, Ii ) εij |Ij0 | ≤ 3 σ(f, Ii )|Ii | = 3(S(T ) − S(T )) i j i P weil j εij |Ij0 | die gesamte Länge aller I 0 -Intervalle ist, die Ii schneiden, was höchstens 3|Ii | sein kann (weil die I 0 -Intevalle alle kürzer als Ii sind). Um die letzte Proposition anzuwenden, und Integrale mit Hilfe beliebige Folge von Teilungen Tn , mit kTn k → 0 zu berechnen, müssen wir zunächst wissen, ob f auf [a; b] integrierbar ist. Die folgende Proposition gibt eine erste wichtige hinreichende Bedingung für Integrierbarkeit. Proposition 1.5. Ist f stetig auf [a; b], so ist f integrierbar auf [a; b]. Beweis. Eine stetige Funktion auf [a; b] ist gleichmässig stetig. Sei ε > 0 fest. Dann existiert δ > 0 mit ε |x − y| ≤ δ ⇒ |f (x) − f (y)| ≤ b−a Sei nun T = {x0 < x1 < · · · < xn } eine Teilung mit |xj+1 − xj | < δ für alle 1 ≤ j ≤ n. Dann gilt σ(f, Ij ) ≤ ε/(b − a) für alle j = 1, . . . , n und also S(T ) − S(T ) = n X j=1 n ε X σ(f, Ij )|Ij | ≤ |Ij | = ε b−a j=1 Das impliziert, dass inf S(T ) − S(T ) ≤ 0 und damit, dass f integrierbar ist. Beispiel: Die Funktion f (x) = 1/x ist stetig auf [1; a]. Wir möchten das Integral Z a 1 dx 1 x berechnen. Wir wählen die Teilung Tn = {aj/n : 0 ≤ j ≤ n}. Dann Ij = [a(j−1)/n , aj/n ], j = 1, . . . , n. Da 1/x monoton fallend ist, gilt sup{f (x) : x ∈ Ij } = a−(j−1)/n Also S(Tn ) = n X −j/n a j/n (a (j−1)/n −a n X )= (1 − a−1/n ) = n(1 − a−1/n ) j=1 und S(Tn ) = inf{f (x) : x ∈ Ij } = a−j/n und j=1 n X a−(j−1)/n aj/n − a(j−1)/n = a1/n S(Tn ) j=1 6 Sei f (t) = at . Dann gilt S(Tn ) = n(1 − a−1/n ) = f (0) − f (−1/n) → f 0 (0) = log a 1/n für n → ∞. Da S(Tn ) = a1/n S(Tn ) → log a, folgt, dass Z a 1 dx = log a 1 x Beispiel: Sei f (x) = falls x ∈ Q falls x ∈ R\Q 1 0 und [a; b] ⊂ R ein beliebiges Intervall. Es gilt σ(f, I) = 1 für jedes Intervall I ⊂ R. Also gilt, für eine beliebige Teilung T von [a; b], S(T ) − S(T ) = n X σ(f, Ij )|Ij | = j=1 n X |Ij | = (b − a) j=1 Die Funktion f ist deswegen nicht integrierbar. Proposition 1.6. Sei a < b < c, und f eine beschränkte Funktion auf [a; c]. Dann ist f integrierbar auf [a; c] g.d.w. f integrierbar auf [a; b] und auf [b; c] ist. In diesem Fall gilt Z b Z c Z c f dx = f dx + f dx a a b Beweis. Sei f integrierbar auf [a; b] und auf [b; c]. Wir finden Folgen T1,n und T2,n , Teilungen von [a; b] und, bzw. von [b; c], mit S [a;b] (T1,n ) − S [a;b] (T1,n ) → 0 und S [b;c] (T2,n ) − S [b;c] (T2,n ) → 0 für n → ∞. Wir setzen T3,n = T1,n ∪ T2,n . Tn ist dann eine Folge von Teilungen von [a; c] mit S [a;c] (T3,n ) = S [a;b] (T1,n ) + S [b;c] (T2,n ) S [a;c] (T3,n ) = S [a;b] (T1,n ) + S [b;c] (T2,n ) für alle n. Das impliziert, dass f auf [a; c] integrierbar ist, weil S [a;c] (T3,n ) − S [a;c] (T3,n ) = S [a;b] (T1,n ) − S [a;b] (T1,n ) + S [b;c] (T2,n ) − S [b;c] (T2,n ) → 0 für n → ∞, und, dass Z c f dx = lim S [a;c] (T3,n ) = lim S [a;b] (T1,n ) + lim S [b;c] (T2,n ) a n→∞ n→∞ n→∞ Übung: Zeige, dass f integrierbar auf [a; c] impliziert, dass f integrierbar auf [a; b] und auf [b; c] ist. 7 Als Anwendung der letzten Proposition zeigen wir, dass jede auf [a; b] beschränkte Funktion, mit endlich vielen Unstetigkeitstellen, integrierbar ist. Proposition 1.7. Sei f auf [a; b] beschränkt, mit endlich vielen Unstetigkeitstellen. Dann ist f auf [a; b] integrierbar. Beweis. Seien y1 < y2 < · · · < ym−1 die Unstetigkeitstellen von f in (a; b). Wir setzten auch y0 = a und ym = b. Ist f integrierbar auf [yj−1 ; yj ] für alle j = 1, . . . m, so ist f integrierbar auf [a; b] (aus Proposition 1.6). Es genügt also zu zeigen, dass f stetig auf (a; b) und beschränkt auf [a; b] impliziert, dass f integrierbar auf [a; b] ist. Sei dazu M > 0 s.d. |f (x)| ≤ M auf [a; b]. Für ein beliebiges ε > 0, ist f auf Iε := [a+(ε/8M ); b−(ε/8M )] integrierbar, weil f stetig auf diesem Intervall ist. Es existiert also eine Teilung T von Iε mit S Iε (T ) − S Iε (T ) ≤ ε/2 Wir betrachten nun die Teilung T 0 = T ∪ {a; b} von [a; b]. Es gilt S [a;b] (T 0 ) − S [a;b] (T 0 ) = (σ(f, [a; a + (ε/8M )]) + σ(f, [b − (ε/8M ); b])) ε + S Iε (T ) − S Iε (T ) ≤ ε 8M weil σ(J; f ) ≤ 2M für jede Menge J ⊂ [a; b]. Da ε > 0 beliebig ist, ist f auf [a; b] integrierbar. Bemerkung: Die Bedingung für Integrierbarkeit in der letzten Proposition ist hinreichend, aber nicht notwendig. Eine Menge N ⊂ R heisst eine Lebesgue Nullmenge, falls für alle ε > 0 eine endlich oder abzählbare Familie {Ji } von offenen Intervallen existiert, mit [ X N⊂ Ji und |Ji | ≤ ε i i Jede abzählbare Menge ist offenbar eine Lebesgue Nullmenge, aber es existieren auch überabzählbare Nullmengen. Tatsache: Eine beschränkte Funktion f auf [a; b] ist genau dann auf [a; b] integrierbar, falls {x ∈ [a; b]; f unstetig an der Stelle x} eine Lebesgue Nullmenge ist (Beweis: Analysis 3). Wir untersuchen nun elementare Eigenschaften vom Integral. Proposition 1.8. Seien f, g integrierbar über [a; b]. a) Für alle α, β ∈ R ist αf + βg integrierbar auf [a; b] und Z b Z b Z b (αf + βg) dx = α f dx + β gdx a a (Das Integral ist linear). b) Gilt f (x) ≥ g(x) für alle x ∈ [a; b], so ist Z b Z b f dx ≥ gdx a a (Das Integral ist monoton). 8 a c) |f | ist integrierbar auf [a; b] und Z b Z b |f |dx f dx ≤ a a (Dreiecksungleichung für Integrale). Es folgt, dass max(f, g), min(f, g) integrierbar auf [a; b] sind. Beweis: c) Aus der gewöhnlichen Dreiecksungleichung gilt ||f (x)| − |f (y)|| ≤ |f (x) − f (y)| D.h. die Oszillationen von |f | auf jedem Intervall J ⊂ R sind durch die Oszillationen von f beschränkt: σ(|f |, J) ≤ σ(f, J) for all J ⊂ R Also S(|f |, T ) − S(|f |, T ) ≤ S(f, T ) − S(f, T ) für alle Teilungen T . Das impliziert, dass inf S(|f |, T ) − S(|f |, T ) ≤ inf S(f, T ) − S(f, T ) = 0 T T und deswegen, dass |f | integrierbar ist. Die Dreiecksungleichung für Integrale folgt aus −|f (x)| ≤ f (x) ≤ |f (x)| und aus der Monotonie des Integrals (Teil b), Beweis unten). Die Integrierbarkeit von max(f, g) und min(f, g) folgt aus der Bemerkung, dass max(f, g) = (f + g)/2 + |f − g|/2 und min(f, g) = (f + g)/2 − |f − g|/2, aus der Linearität (Teil a), Beweis unten), und aus der Integrierbarkeit des Absolutbetrags. a) Es genügt zu zeigen, dass Z Z Z i) (f + g)dx = f dx + gdx Z Z ii) (αf )dx = α f dx für alle α > 0 Z Z iii) (−f )dx = − f dx Wir zeigen zunächst i). Für eine beliebige Teilung T von [a; b] gilt sup{f (x) + g(x) : x ∈ Ij } ≤ sup{f (x) : x ∈ Ij } + sup{g(x) : x ∈ Ij } Also S(f + g, T ) ≤ S(f, T ) + S(g, T ) Ähnlicherweise S(f + g, T ) ≥ S(f, T ) + S(g, T ) Seien nun Tnf und Tng Folgen von Teilungen mit der Eigenschaften S(f, Tnf ) − S(f, Tnf ) → 0 9 und S(g, Tng ) − S(g, Tng ) → 0 für n → ∞. Sei nun Tn = Tnf ∪ Tng . Dann gilt (da Tn eine Verfeinerung von Tnf ist) S(f, Tn ) − S(f, Tn ) ≤ S(f, Tnf ) − S(f, Tnf ) und also S(f, Tn ) − S(f, Tn ) → 0, für n → ∞. Ähnlicherweise S(g, Tn ) − S(g, Tn ) → 0, für n → ∞. Damit S(f + g, Tn ) − S(f + g, Tn ) ≤ S(f, Tn ) + S(g, Tn ) − S(f, Tn ) − S(g, Tn ) = S(f, Tn ) − S(f, Tn ) + S(g, Tn ) − S(g, Tn ) → 0 Das zeigt, dass f + g integrierbar ist. Es gilt Z b S(f, Tn ) + S(g, Tn ) ≤ S(f + g, Tn ) ≤ (f + g)dxS(f + g, Tn ) ≤ S(f, Tn ) + S(g, Tn ) a Da b Z b f dx + gdx und a a Z b Z b S(f, Tn ) + S(g, Tn ) → f dx + gdx Z S(f, Tn ) + S(g, Tn ) → a a für n → ∞, folgt, dass Z b Z b (f + g)dx = a Z f dx + a b gdx a Wir beweisen nun ii). Offenbar gilt S(αf, T ) = αS(f, T ), und S(αf, T ) = αS(f, T ) für jede Teilung T . Ist Tn eine Folge von Teilungen, mit S(f, Tn ) − S(f, Tn ) → 0, so gilt auch S(αf, Tn ) − S(αf, Tn ) = α S(f, Tn ) − S(f, Tn ) → 0 Damit ist αf integrierbar, und Z b Z b αf dx = lim S(αf, Tn ) = α lim S(f, Tn ) = α f dx a n→∞ n→∞ a Um iii) zu zeigen, bemerken wir, dass S(−f, T ) = −S(f, T ) und S(−f, T ) = −S(f, T ) für jede Teilung T , weil sup(−f ) = − inf f . Ist Tn eine Teilung mit S(f, Tn )−S(f, Tn ) → 0, so gilt auch S(−f, Tn ) − S(−f, Tn ) = −S(f, Tn ) + S(f, Tn ) → 0 10 für n → ∞. Damit ist −f integrierbar, und Z b Z b (−f )dx = lim S(−f, Tn ) = − lim S(f, Tn ) = − f dx n→∞ a n→∞ a Damit ist Teil a) bewiesen. b) Ist f ≥ g, so ist f − g ≥ 0 auf [a; b]. Da aus a) f − g integrierbar ist, muss Z b (f − g)dx ≥ 0 a (weil jede Riemannsche Summe positiv ist). Wieder aus a) folgt, dass Z b Z b Z b Z b Z b gdx f dx ≥ (f − g)dx ≥ 0 ⇒ gdx = f dx − a a a a a Damit ist auch Teil b) gezeigt. Die elementare Eigenschaften des Integrals aus der letzten Proposition haben einige einfache aber wichtige Folgerungen. Satz 1.9. a) Konstante Funktionen sind integrierbar, Z b cdx = c(b − a) a b) Sei f integrierbar auf [a; b], und m = inf{f (x) : x ∈ [a; b]}, M = sup{f (x) : x ∈ [a; b]} Dann gilt b Z f dx ≤ M (b − a) m(b − a) ≤ a c) (Mittelwertsatz für Integrale). Ist f stetig auf [a; b], dann existiert ξ ∈ (a; b) mit Z b f dx = f (ξ)(b − a) a Beweis. a) f (x) = c impliziert, dass S(f, T ) = S(f, T ) = c(b − a) für alle Teilungen T . Damit ist Z b cdx = c(b − a) a b) Es gilt m ≤ f (x) ≤ M für alle x ∈ [a; b]. Die Monotonie des Integrals impliziert, dass Z b Z b Z b m(b − a) = mdx ≤ f dx ≤ M dx = M (b − a) a a a c) Aus b) folgt, dass m≤ 1 b−a Z b f dx ≤ M a 11 Aus dem Satz von Maximum folgt, dass x0 , x1 ∈ [a; b] mit f (x0 ) = m und f (x1 ) = M existiert. Aus dem Zwischenwertsatz, existiert ξ zwischen x0 und x1 mit f (ξ) = 1.2 1 b−a b Z f dx a Hauptsatz der Integralrechnung Satz 1.10 (Hauptsatz). Sei f stetig auf [a; b], Z x F (x) = f (t)dt a für x ∈ (a; b]. a) F ist differenzierbar auf (a; b) mit F 0 (x) = f (x). b) Sei G stetig auf [a; b], differenzierbar auf (a; b) mit G0 (x) = f (x). Dann gilt F (x) = G(x) − G(a) für alle a < x ≤ b. Beweis. a) Sei x0 ∈ (a; b) fest. Wir berechnen F 0 (x0 ). Sei zunächst h > 0. Dann x0 +h Z F (x0 + h) = Z f dt = a x0 Z x0 +h f dt + a f dt = F (x0 ) + f (ξ)h x0 für ein ξ ∈ (x0 ; x0 + h). Also F (x0 + h) − F (x0 ) = f (ξ) → f (x0 ) h für h ↓ 0, aus Stetigkeit von f . Für h < 0 haben wir ähnlich Z x0 F (x0 + h) − F (x0 ) F (x0 ) − F (x0 − |h|) 1 = = f dt = f (ξ) h |h| |h| x0 −|h| für ein x0 − |h| < ξ < x0 . Die Stetigkeit von f zeigt, dass lim h↑0 F (x0 + h) − F (x0 ) = f (x0 ) h Damit ist F differenzierbar an der Stelle x0 , mit F 0 (x0 ) = f (x0 ). b) Es gilt G0 (x) = f (x) = F 0 (x). Also (F − G)0 = 0, und deswegen, G(x) = F (x) + c für eine Konstante c ∈ R, und alle x ∈ (a; b). Da limx↓a F (x) = 0, und (aus Stetigkeit von G), limx↓a G(x) = G(a), gilt c = G(a). Damit ist F (x) = G(x) − G(a), für alle x ∈ (a; b). 12 Man nennt eine Funktion G, stetig auf [a; b], differenzierbar auf (a; b), mit G0 (x) = f (x) für alle x ∈ (a; b), eine Stammfunktion von f auf [a; b]. Ist G eine Stammfunktion einer stetigen Funktion f , so gilt b Z f dt = G(b) − G(a) a Beachte: Nicht stetige integrierbare Funktionen brauchen keine Stammfunktion zu haben (z.B. hat die integrierbare Funktion f , definiert durch f (x) = 0 für x < 0 und f (x) = 1 für x ≥ 0, keine Stammfunktion auf [−1; 1]). Anderseits impliziert die Existenz einer Stammfunktion von f nicht, dass f integrierbar ist. Bemerkung: Ist G eine Stammfunktion von f , dann ist auch G + c, für irgendeine Konstante c ∈ R, eine Stammfunktion von f . Alle Stammfunktionen von f haben diese Form. Wir definieren das unbestimmtes Integral von f , als die Familie aller Stammfunktionen von f : Z f dx = G(x) + c falls G0 (x) = f (x). Manchmal ist es wichtig, das Intervall zu schreiben, wo die Relation Rb G0 = f gilt. Zusammenfassend: Das bestimmte Integral a Rf dx ist eine Zahl (Grenzwert von Riemann’schen Summen). Das unbestimmte Integral f dx ist dagegen die Familie aller Stammfunktionen von f . Gemäss Hauptsatz ist die Berechnung des unbestimmten Integrals von grosser Hilfe in der Berechnung des bestimmten Integrals. Notation: Für b < a setzen wir Z b Z a f dx := − f dx a b Für b = a, dagegen, Z a f dx := 0 a Damit gilt Z b f dx = G(b) − G(a) a falls f stetig ist, und falls G eine Stammfunktion von f ist, unabhängig von der Ordnung von a, b. Die Berechnung von unbestimmten Integralen ist nicht immer einfach. Unbestimmte Integrale sind nicht immer durch die bekannten Elementarfunktionen darstellbar (die Ableitung jeder durch Elementarfunktionen darstellbaren Funktion ist dagegen wieder durch elementare Funktionen darstellbar). Ein wichtiges Beispiel einer Funktion, deren 2 Stammfunktion (die “error-function”) nicht elementar darstellbar ist, ist f (x) = e−x . Hier sind dagegen einige einfache Beispiele, für welche die Stammfunktion elementar 13 darstellbar ist. • • • • • • • • • • 1.3 Z d α xα+1 α−1 x = αx ⇒ xα dx = + c, dx α+1 für alle α 6= −1 und, falls α < 0, für alle x 6= 0 Z d 1 1 log |x| = ⇒ dx = log |x| + c, für alle x 6= 0 dx x x Z d λx 1 e = λeλx ⇒ eλx dx = eλx + c dx λ Z d sin x = cos x ⇒ cos x dx = sin x + c dx Z d cos x = − sin x ⇒ sin xdx = − cos x + c dx Z d sinh x = cosh x ⇒ cosh x dx = sinh x + c dx Z d cosh x = sinh x ⇒ sinh x dx = cosh x + c dx Z d 1 1 arctan x = ⇒ dx = arctan x + c 2 2 dx 1+x x +1 Z 1 d 1 √ ⇒ dx = arcsin x + c, für x ∈ (−1; 1) arcsin x = √ 2 dx 1 − x2 1 − x Z d 1 1 √ arcsinh x = √ ⇒ dx = arcsinh x + c 2 dx 1+x 1 + x2 Integrationsmethoden Es gibt zwei allgemeine Bemerkungen, die bei der Berechnung von Integralen nützlich sein können; die Substitutionsformel und partielle Integration. Satz 1.11 (Substitutionsformel). Sei f stetig und g stetig differenzierbar auf geeigneten Intervallen. Ist Z f (x)dx = F (x) + c so ist Z f (g(t))g 0 (t)dt = F (g(t)) + c (2) Mit anderen Worten, falls f stetig auf [g(a); g(b)] ist, und g stetig differenzierbar auf [a; b], haben wir Z b Z g(b) 0 f (g(x))g (x)dx = f (t)dt a g(a) (Es ist hier nicht nötig, dass g(b) > g(a)). Beweis. Da F eine Stammfunktion von f ist, gilt F 0 (x) = f (x). Aus der Kettenregel folgt, dass d F (g(x)) = f (g(x))g 0 (x) dx 14 D.h., F (g(x)) ist eine Stammfunktion von f (g(x))g 0 (x). Also Z b Z g(b) f (g(x))g 0 (x)dx = F (g(b)) − F (g(a)) = f (t)dt a g(a) Man kann den Faktor g 0 (t) in der Substitutionsformel (2) als die Transformation des Differentials dt betrachten. Sei F eine Stammfunktion für f . Um das Integral Z f (g(t))g 0 (t)dt zu berechnen, setzen wir x = g(t). Dann ist f (g(t)) = f (x), und dx = g 0 (t)dt. Damit Z Z 0 f (g(t))g (t)dt = f (x)dx = F (x) + c = F (g(t)) + c Beispiele: Mit Hilfe der Substitutionsformel berechnen wir die folgenden unbestimmten Integrale. 1) Für a ∈ R fest, gilt Z 1 1 1 + (x/a)2 dx = x x2 + a2 a2 d Sei y = x/a. Dann ist dx = (1/a)dx, und Z Z 1 1 1 1 1 dx = dy = arctan y + c = arctan(x/a) + c 2 2 2 x +a a 1+y a a Z 2) Wir untersuchen nun Z Z tan x dx = sin x dx cos x Sei y = cos x. Dann ist dy = − sin xdx und Z Z 1 tan x dx = − dy = − log y + c = − log cos x + c y 3) Wir berechnen Z x p 1 + x2 dx indem wir t = 1 + x2 setzen. Dann ist dt = 2xdx und Z p Z 1 1 1 2 t1/2 dt = t3/2 + c = (1 + x2 )3/2 + c x 1 + x dx = 2 3 3 Proposition 1.12 (Partielle Integration). Seien u, v ∈ C 1 ([a; b]). Dann gilt auf diesem Intervall Z Z 0 u(x)v (x)dx = u(x)v(x) − u0 (x)v(x)dx Es folgt Z b Z 0 u(x)v (x)dx = u(b)v(b) − u(a)v(a) − a a 15 b u0 (x)v(x)dx Beweis. Wir bemerken, dass d (u(x)v(x)) = u0 (x)v(x) + u(x)v 0 (x) dx Damit Z u0 (x)v(x)dx + Z u(x)v 0 (x)dx = u(x)v(x) + c Beispiele: Wir untersuchen das Integral von xex . Wir setzen u = x und v 0 = ex . Dann ist u0 = 1 und v = ex . Damit Z Z x x xe dx = xe − ex dx = xex − ex + c = ex (x − 1) + c Ein anderes Beispiel ist das Integral von x2 sin x. Auch hier setzen wir u = x2 und v 0 = sin x. Dann ist u0 = 2x und v = − cos x, und Z Z 2 2 x sin xdx = −x cos x + 2 x cos xdx Wir wenden noch ein Mal die partielle Integration an. Sei nun u = x und v 0 = cos x. Dann gilt u0 = 1 und v = sin x, und Z Z x cos xdx = x sin x − sin xdx = x sin x + cos x + c Also Z x2 sin xdx = −x2 cos x + 2x sin x + 2 cos x + c = (2 − x2 ) cos x + 2x sin x + c . Auch mit Substitution und partieller Integration Stammfunktionen zu finden ist i.A. eine schwierige Aufgabe. Es gibt aber einige spezielle Methoden, die die Berechnung von Integralen von besonderen Klassen von Funktionen erlauben. Die wichtigste Klasse von Funktionen, für die man immer eine elementare Stammfunktion finden kann, besteht aus allen rationalen Funktionen. 1.4 Integration von rationalen Funktionen: Partialbruchzerlegung Das Integral einer rationalen Funktion kann immer mit der Methode der Partialbruchzerlegung berechnet werden. Eine rationale Funktion hat die Form p/q, wobei p, q Polynome sind. Es bezeichne degp und degq den Grad der Polynome p, q. Ist degp ≥ degq, so kann man p durch q teilen. Man findet Polynome r, s mit degs < degq und mit p = rq + s. Damit ist p/q = r +s/q. Das Integral von r kann sehr einfach berechnet werden; es bleibt das Integral von s/q zu berechnen. Mit anderen Worten, es genügt, rationale Funktionen p/q zu betrachten, mit deg p < deg q. Es lohnt sich, komplexe Zahlen zu benutzen, um die Polynome q und p zu faktorisieren. Es existieren immer paarweise unterschiedliche z1 , . . . , zn ∈ C, eine Konstante a und α1 , . . . , αn ∈ N, mit n Y q(x) = a (x − zj )αj j=1 16 Die Zahlen z1 , . . . , zn sind die Nullstellen von q; sie heissen die Pole der rationalen Funktion Pn p/q. Der Exponent αj ist die Vielfachkeit oder die Ordnung, der Pol zj . Es gilt j=1 αj = degq. O.B.d.A können wir annehmen, dass p und q keine gemeinsame Nullstelle haben (sonst kann man die zwei Faktoren kürzen). Unter dieser Annahme finden wir, dass p(x) lim (x − zj )αj =: A 6= 0 x→zj q(x) Dann hat p(x) A − q(x) (x − zj )αj höchstens einen Pol der Ordnung (m − 1) an der Stelle zj . In der Tat, sei das Polynom q̂ so definiert, dass q(x) = (x − zj )αj q̂(x). Es gilt q̂(zj ) 6= 0, und A = p(zj )/q̂(zj ). Damit A p(x) − Aq̂(x) p(x) − = q(x) (x − zj )αj q(x) Da der Numerator p(zj ) − Aq̂(zj ) = 0, hat p/q − A/(x − zj )αj höchstens einen Pol der Vielfachkeit αj − 1 in zj . Durch Wiederholung dieses Arguments, finden wir Konstanten A1 , . . . , Aαj , s.d. αj A` p(x) X − q(x) (x − zj )` `=1 keinen Pol an der Stelle zj hat. Wiederholen wir das Argument für alle Pole, erhalten wir: es existieren (eindeutig bestimmte) Konstanten A1,1 , . . . , A1,α1 , . . . , An,1 , An,αn mit n αj p(x) X X Aj,` = q(x) (x − zj )` j=1 `=1 Diese Darstellung der rationalen Funktion p/q heisst eine Partialbruchzerlegung. Integration einer beliebigen rationalen Funktion wird somit auf das Problem der Berechnung der Integralen 1/(x−zj )k reduziert. Bemerke, dass auch für reellen rationale Funktionen (d.h. rationale Funktionen mit reellen Keoffizienten), die Nullstellen zj des Polynoms q sind i.A. komplex. Nur auf C kann ein Polynom mit Sicherheit so einfach zerlegt werden. Wir müssen also komplex-wertige Funktionen integrieren. Wir definieren hier das (unbestimmte) Integral einer C-wertige Funktion f durch Z Z Z f dx = Re f dx + i Im f dx R R (mit dieser Definition ist der Realteil von f dx gleich zu Re f dx, und analog für den Imaginärteil). Für k > 1 gilt, ähnlich wie im Fall zj ∈ R, Z 1 −1 1 dx = +c (3) k − 1 (x − zj )k−1 (x − zj )k 17 Für k = 1 schreiben wir zj = aj + ibj und wir berechnen Z Z 1 1 dx = dx x − zj (x − aj ) − ibj Z (x − aj ) + ibj = dx (x − aj )2 + b2j Z Z (x − aj ) 1 dx + ib dx = j 2 2 (x − aj ) + bj (x − aj )2 + b2j x − aj 1 = log (x − aj )2 + b2j + i arctan 2 bj x − Re zj = log |x − zj | + i arctan Im zj (4) Damit können wir das Integral (bestimmt oder unbestimmt) jeder rationalen Funktion berechnen. Zusammenfassend ist die Strategie um das Integral einer rationale Funktion zu bestimmen die folgende: Zunächst wird durch geeignete Division und Kürzung, das Problem auf die Berechnung des Integrals von p/q reduziert, wobei deg p < deg q und p, q keine gemeinsamen Faktoren haben. Dann findet man alle PoleQz1 , . . . , zn von p/q, mit der entsprechenden Vielfachkeit αj . Angenommen q(x) = a nj=1 (x − zj )αj , wir berechnen dann die Partialbruchzerlegung α j n p(x) X X Aj,`j = . q(x) (x − zj )` j=1 `j =1 von p/q. Die Berechnung der Koeffizienten Aj,`j reduziert sich nach Koeffizientenvergleich zur Lösung eines linearen Systems. Schlussendlich benutzen wir (3) und (4), um das Integral jeder Term auszurechnen. Als Beispiel betrachten wir die rationale Funktion R(x) = (x2 1 + 1)2 Der Nenner hat die zwei Nullstellen x = ±i, beide mit Multiplizität zwei. Es existieren also Konstanten A, B, C, D ∈ C mit R(x) B C D A + + + 2 x + i (x + i) x − i (x − i)2 2 A(x + i)(x − i) + B(x − i)2 + C(x + i)2 (x − i) + D(x + i)2 = (x2 + 1)2 A(x3 − ix2 + x − i) + B(x2 − 2ix − 1) + C(x3 + ix2 + x + i) + D(x2 + 2ix − 1) = (x2 + 1)2 x3 (A + C) + x2 (−iA + B + iC + D) + x(A − 2iB + C + 2iD) − (iA + B − iC + D) = (x2 + 1)2 = Wir bekommen also die 4 Gleichungen A + C = 0, −iA + B + iC + D = 0, A − 2iB + C + 2iD = 0, −iA − B + iC − D = 1 18 für die vier Unbekannten A, B, C, D. Die erste Gleichung gibt C = −A, die dritte also B = D. Die zweite Gleichung wird iA = B, und die vierte A = −1/4i = i/4. Also: 1 1 1 i 1 1 i 1 1 = − − − (x2 + 1)2 4 x + i 4 (x + i)2 4 x − i 4 (x − i)2 und damit Z 1 1 i 1 1 = (log |x + i| + i arctan x − log |x − i| + i arctan x) + + (x2 + 1)2 4 4 x+i x−i 1 1 x = − arctan x + 2 2 x2 + 1 weil |x − i| = |x + i|. Wie erwartet, ist das Endresultat reell (alle imaginären Beiträge kürzen sich weg). Eine andere Klasse von Integralen, die man immer in geschlossene Form ausrechnen kann, sind Integrale der Form Z R(cos x; sin x)dx wobei R(s; t) eine rationale Funktion von den zwei Variablen s, t ist (d.h. R(s; t) = p(s; t)/q(s; t) für p, q Polynome in den Variablen s, t). Der Trick in diesem Fall ist die Substitution u = tan(x/2) durchzuführen. Dann ist x = 2 arctan(u), und dx = 2 du 1 + u2 Weiter gilt cos2 (x/2) = 1 1 = 2 1 + u2 1 + tan (x/2) und aus cos2 (x/2) = 1 − cos x 2 findet man cos x = 1 − 2 cos2 (x/2) = 1 − 2 u2 − 1 = 1 + u2 u2 + 1 und sin x = 2 sin(x/2) cos(x/2) = 2 tan(x/2) cos2 (x/2) = Also, nach Substitution, wird Z 2u 1 + u2 Z R(cos x; sin x)dx = e R(u)du e Das Integral von R e kann man dann durch die Mefür eine neue rationale Funktion R. thode der Partialbruchzerlegung berechnen. Beispiel: Wir möchten das Integral Z 1 dx cos x 19 berechnen. Wir setzen u = tan(x/2), und finden Z Z 2 Z 1 u +1 2 1 dx = du = 2 du 2 2 2 cos x u −11+u u −1 Z 1 1 du = − u−1 u+1 | tan2 (x/2) − 1| = log |u − 1| − log |u + 1| + c = log +c | tan2 (x/2) + 1| Bemerke, dass trigonometrische Funktionen oft einfacher integriert werden können, ohne den Trick mit u = tan(x/2) zu benutzen. Integrale der Form Z R(x; p 1 − x2 )dx, für eine rationale Funktion R, können mit der Substitution √ x = sin t berechnet werden. In der Tat, mit dieser Substitution finden wir dx = cos t dt, 1 − x2 = cos t, und damit Z Z p 2 e R(x; 1 − x )dx = R(sin t; cos t)dt e Das Integral auf der rechten Seite kann dann, wie für eine neue rationale Funktion R. oben erklärt, mit der Substitution u = tan(t/2) berechnet werden. Integrale der Form Z R(x; Z p p x2 − 1)dx, oder R(x; 1 + x2 )dx , für eine rationale Funktion R, können mit der Substitution x = cosh t, bzw. x = sinh t berechnet werden Mit dieser Substitution reduziert sich das Problem auf der Berechnung von Integralen der Form Z e R(cosh t; sinh t)dt e Die Substitution u = et , reduziert dann das Problem für eine neue rationale Funktion R. auf die Berechnung vom Integral von rationalen Funktionen in u. Da sich jeder quadratische Ausdruck ax2 + bx + c durch quadratische Ergänzung und lineare Substitution y in der Form 1 − y 2 , 1 + y 2 oder y 2 − 1 schreiben lässt, folgt, dass man jedes Integral der Form Z p R(x; ax2 + bx + c)dx explizit berechnen kann. 1.5 Vertausch von Grenzübergang und Integral In dieser Sektion untersuchen wir die folgende Frage: Sei fn eine Folge von auf [a; b] integrierbare Funktionen, mit fn → f . Ist dann f auf [a; b] integrierbar? Falls ja, ist das 20 Integral von f aus dem Grenzwert der Integrale von fn gegeben? Mit anderen Worten, unter welchen Bedingungen gilt b Z lim n→∞ a fn dx = Z b lim fn dx n→∞ a Beispiel: Sei fn die Folge von Funktionen auf [−1; 1], definiert durch n + n2 x für − 1/n ≤ x < 0 n − n2 x für 0 < x < 1/n fn (x) = 0 sonst Es gilt fn → 0 punktweise. Jede fn ist auf [−1; 1] integrierbar, mit Z fn dx = 1 für alle n (der Graph von f beschreibt ein Dreieck, mit Basis 2/n und Höhe n). Also, in diesem Fall Z 1 Z 1 1 = lim fn dx 6= lim fn dx = 0 n→∞ −1 n→∞ −1 Das Beispiel zeigt, dass punktweise Konvergenz von fn nach f nicht genügt, um Grenzwert mit Integral zu vertauschen. Der nächste Satz zeigt, dass gleichmässige Konvergenz hinreichend ist. Satz 1.13. Sei fn eine Folge von auf [a; b] integrierbaren Funktionen, mit fn → f gleichmässig auf [a; b]. Dann ist f auf [a; b] integrierbar und b Z Z b f dx = lim a n→∞ a fn dx Beweis. Sei ε > 0 fest. Wir finden dann n ∈ N mit |fn (x) − f (x)| < ε 4(b − a) für alle x ∈ [a; b]. Da fn integrierbar ist, finden wir auch eine Teilung T von [a; b] mit S(fn , T ) − S(fn , T ) < ε 2 Dann gilt S(f, T ) = ≤ m X j=1 = sup{f (x) : x ∈ Ij } |Ij | j=1 m X ε + sup{fn (x) : x ∈ Ij } |Ij | 4(b − a) ε + S(fn , T ) 4 21 Analog S(f, t) ≥ S(fn , T ) − und damit ε 4 ε + S(fn , T ) − S(fn , T ) ≤ ε 2 S(f, T ) − S(f, T ) ≤ Also, ist f integrierbar. Weiter gilt Z b Z b Z b |f − fn |dx ≤ (b − a) sup |f − fn | fn dx ≤ f dx − a x a a Da die rechte Seite gegen Null konvergiert, muss Z b Z fn dx → b f dx a a für n → ∞. Bemerkung: Gleichmässige Konvergenz ist zwar hinreichend, aber nicht notwendig für Konvergenz der Integrale. Mit der alternativen (und modernen) Definition des Integrals (das Lebesgue Integral, wird in der Vorlesung Analysis III diskutiert) ist es relativ einfach Bedingungen für Konvergenz von Integrale von Funktionenfolge die viel schwächer, und damit viel nützelicher sind, als gleichmässige Konvergenz der Folge. 1.6 Uneigentliche Integrale Bis jetzt haben wir Integrale von beschränkten Funktionen auf kompakte Intervalle untersucht. Die Definition mit Riemann’schen Summen funktioniert für Integrale der Form Z ∞ Z 1 1 1 √ dx dx oder 2 1+x x 0 0 nicht. Diese Integrale, die man als uneigentliche Integrale bezeichnet, kann man trotzdem als Grenzwerte von “eigentlichen Integrale” definieren. Für beliebige y > 0, gilt Z y 1 dx = arctan(y) − arctan(0) = arctan(y) 2 0 1+x Also können wir Z 0 ∞ 1 dx := lim y→∞ 1 + x2 Z 0 y 1 π dx = lim arctan(y) = 2 y→∞ 1+x 2 definieren. Ähnlich können wir Z 1 Z 1 1 1 √ √ dx = lim √ dx = lim (2 − 2 y) = 2 y↓0 y y↓0 x x 0 definieren. Die allgemeinere Definition ist die folgende. 22 Definition 1.14. Sei f auf [a; b) definiert (b = +∞ ist zugelassen), und auf [a; y] integrierbar, für alle y ∈ (a; b). Existiert der Limes Z y f dx lim y↑b a dann sagen wir, f sei auf [a; b) uneigentlich integrierbar, und wir definieren das uneigentliche Integral von f auf [a; b) durch b Z y Z f dx f dx := lim y↑b a a Ähnlich, falls f auf (a; b] (a = −∞ zugelassen) definiert ist, auf [y; b] integrierbar ist, für alle y ∈ (a; b), und falls der Limes b Z f dx lim y↓a y existiert, so definieren wir b Z Z b f dx := lim y↓a a f dx y Ist f auf (a; b) definiert (a = −∞ und/oder b = +∞ sind zugelassen) und falls die uneigentlichen Integrale Z c Z b f dx und f dx a c für ein c ∈ [a; b] existieren, so definieren wir b Z c Z f dx = Z f dx + a a b f dx c Bemerkung: Ist das Integral auf beiden Seiten uneigentlich, so müssen die zwei Grenzwerte y ↓ a und y ↑ b unabhängig voneinander genommen werden. Z.B. das Integral Z ∞ xdx −∞ existiert nicht, obwohl y Z xdx = 0 −y für alle y > 0. Beispiel: Es gilt Z ∞ 1 1 dx = lim y→∞ xα Z 1 y 1 −1 1 1 1 dx = lim + = α α−1 y→∞ α − 1 y x α−1 α−1 für alle α > 1. Das Integral Z 1 ∞ 1 dx xα 23 existiert dagegen nicht, für α < 1. Es gilt weiter Z 1 Z 1 1 1 y 1−α 1 1 dx = lim = lim − = α α y→0 y→0 x x 1 − α 1 − α 1 − α y 0 für alle α < 1. Das Integral 1 Z 0 1 dx xα existiert nicht, für α > 1. Die Integrale Z ∞ 1 dx = lim log y = +∞ y→∞ x 1 und Z 0 1 1 dx = lim − log y = +∞ y→0 x existieren nicht. Proposition 1.15 (Vergleichskriterium). Seien a ∈ R ∪ {−∞}, b ∈ R ∪ {+∞}, mit a < b. Seien f, g integrierbar auf (α; β), für alle a < α < β < b. Es gelte g(x) ≥ 0 und |f (x)| ≤ g(x) für alle x ∈ (a; b) und es existiere das (uneigentliche) Integral Z b gdx a Dann existiert auch das (uneigentliche) Integral Z b f dx a Beweis. Wir betrachten den Fall, dass f integrierbar auf [a; y], für alle y ∈ (a; b), ist. Wir möchten zeigen, dass Z y lim f dx y↑b a existiert. Sei yn eine beliebige Folge, mit yn < b für alle n ∈ N und yn → b als n → ∞. Wir zeigen, dass Z yn f dx a eine Cauchy-Folge ist. Dazu bemerken wir, dass (unter Annahme, dass, zB., ym < yn ) Z yn Z yn Z yn Z ym Z yn Z yn Z ym = ≤ f dx − f dx f dx |f |dx ≤ gdx ≤= gdx − gdx a a ym ym ym a R yn a Die Existenz des IntegralsR von g auf [a; b] impliziert, dass die Folge a gdx eine RCauchyy y Folge ist. Damit ist auch a n f dx eine Cauchy-Folge. Also konvergiert die Folge a n f dx. Es ist weiter einfach zu sehen, dass der Limes unabhängig von der Wahl der Folge yn ist; man nimmt dazu an, es existieren zwei Folgen y1,n → b und y2,n → b, so dass Z y1,n Z y2,n f dx 6= lim f dx lim n→∞ a n→∞ a 24 Dann man definiert die Folge y3,n , die, alternierend, Werte aus y1,n und y2,n annimmt. Die Folge Z y3,n f dx lim n→∞ a sollte dann zwei Häufungspunkten haben; da aber y3,n → b, muss die Folge konvergieren. Anwendung: das Integral ∞ Z 1 R y3,n a f dx (log x)m dx xα existiert, für alle α > 1, und alle m > 0. Das folgt aus der Tatsache, dass, für alle ε > 0 es existiert eine Konstante Cε mit (log x) ≤ Cε xε Für 0 < ε < α − 1 gilt also (log x)m 1 (log x)m Cε ≤ sup ≤ 1+ε xα x1+ε x≥1 xα−1−ε x Die Existenz des Integrals von 1/x1+ε auf [1; ∞) impliziert also die Existenz des Integrals von (log x)m /xα . Uneigentliche Integrale können auch benutzt werden, um die Konvergenz von Reihen zu prüfen. Proposition 1.16 (Integralkriterium für Reihen). Sei f positiv, monoton fallend auf R∞ P f dx existiert. f (n) konvergent, genau dann wenn [1; ∞). Dann ist die Reihe ∞ n=1 1 P Beweis. Da f positiv ist die Reihe n f (n) konvergent, genau dann wenn sie beschränkt R∞ ist. Aus dem selben Grund, das Integral 1 f dx existiert, genau dann wenn die Folge Rm 1 f dx beschränkt ist. Aus der Monotonie von f gilt Z n+1 Z n f dx ≤ f (n) ≤ n für alle n ∈ N. Also Z m+1 m Z X f dx = 2 n+1 n=2 n f dx n−1 f dx ≤ m X f (n) ≤ n=2 m Z X n n=2 n−1 Z f dx = m−1 f dx 1 für alle m ∈ N, m > 2. Also die Reihe ist beschränkt, genau dann wenn das Integral beschränkt ist. Beispiel: konvergiert die Reihe ∞ X n=2 1 ? n log n 25 Die Funktion f (x) = (x log x)−1 ist positiv und monoton fallend auf x > 1. D.h. die Reihe konvergiert g.d.w. das uneigentliche Integral von f auf [2; ∞) existiert. Da (mit der Substitution u = log x) Z 2 y Z 1 dx = x log x log y log 2 du = log log y − log log 2 u divergiert, als y → ∞, es folgt, dass X n≥2 1 =∞ n log n Ähnlicherweise kann man zeigen, dass X n≥2 1 n(log n)α konvergiert, g.d.w. α > 1. 2 Gewöhnliche Differentialgleichungen Differentialgleichungen sind Gleichungen, bei denen die Unbekannten Funktionen sind. Die Differentialgleichung definiert eine Beziehung zwischen den gesuchten Funktionen und ihren Ableitungen. Gewöhnliche Differentialgleichugen (auf Englisch “ordinary differential equations” oder einfach ODEs) sind Differentialgleichungen, wo die unbekannten Funktionen einer einzelnen reellen Variablen sind. Bei partiellen Differentialgleichungen sind dagegen die unbekannten Funktionen von mehreren Variablen. Differentialgleichungen haben sehr viele Anwendungen. Die ganze Physik wird z.B. durch Differentialgleichungen formuliert: Die Newtonsche Gleichung der klassischen Mechanik, die Maxwell Gleichungen der Elektrodynamik, die Schrödingergleichung der Quantenmechanik, die Einsteingleichung der allgemeinen Relativitätstheorie sind alle Beispiele von Differentialgleichungen. Dabei ist nur die Newtonsche Gleichung eine gewöhnliche Differentialgleichung, die anderen sind partielle Differentialgleichungen. In dieser Vorlesung werden wir nur eine kurze Einführung in der Analysis von gewöhnliche Differentialgleichungen geben. Eine vollständiger Diskussion von gewöhliche Differentialgleichungen wird dann in der Vorlesung Analysis 3 im nächsten Semester stattfinden (insbesondere das wichtige Kriterium für Existenz und Eindeutigkeit von Lösungen von gewöhnliche Differentialgleichungen, das sogenannte Picard-Lindelöf Theorem, wird erst in Analysis 3 bewiesen). 2.1 Differentialgleichungen erster Ordnung, elementare Lösungsmethoden Wir betrachten hier gewöhnliche Differentialgleichungen erster Ordnung. Definition 2.1. Sei n ≥ 1, U ⊂ Rn+1 , f ∈ C(U ; Rn ). Dann ist y 0 (x) = f (x, y(x)) 26 (5) eine gewöhnliche Differentialgleichung erster Ordnung. Eine Lösung dieser Differentialgleichung auf einem Intervall I ⊂ R ist eine Funktion y ∈ C 1 (I; Rn ) so, dass (x, y(x)) ∈ U und (5) erfüllt für alle x ∈ I ist. Für x0 ∈ R, y0 ∈ Rn mit (x0 , y0 ) ∈ U heisst 0 y (x) = f (x, y(x)) (6) y(x0 ) = y0 ein Anfangswertproblem oder ein Cauchy-Problem. Eine Lösung des Anfangswertproblems (6) ist eine Lösung der Differentialgleichung (5), die auch die Anfangsbedingung y(x0 ) = y0 erfüllt (insbesondere muss x0 ∈ I sein). Ist n = 1, so heisst die Differentialgleichung skalar (die gesuchte Funktion hat Werten in R). Ist dagegen n > 1, so heisst die Differentialgleichung vektoriell (man spricht in diesem Fall von einem System von Diferentialgleichungen). Wir betrachten ein paar Beispiele von Differentialgleichungen, wo die Lösungen explizit berechnet werden können (der Einfachheit halber betrachten wir hier Beispiele von skalaren Gleichungen; wir werden einige Beispiele von vektoriellen Gleichungen später betrachten, wenn wir lineare Differentialgleichungen untersuchen werden). Beispiele: • Sei n = 1, I ⊂ R ein offenes Intervall, U = I × R, und f (x, y) = g(x) (unabhängig von y), für ein g ∈ C(I). Wir betrachten die Differentialgleichung ϕ0 (x) = g(x) Sei G ∈ C 1 (I) eine Stammfunktion von g, mit G0 = g. Dann ist G eine Lösung der Differentialgleichung. Sei ϕ eine andere Lösung der Differentialgleichung. Dann gilt (ϕ−G)0 (x) = 0 für alle x ∈ I. Das zeigt, dass jede Lösung die Form ϕ(x) = G(x)+c hat, für eine Konstante c ∈ R. Betrachten wir nun das Anfangswertproblem 0 ϕ (x) = g(x) ϕ(x0 ) = y0 für ein x0 ∈ I und ein y0 ∈ R. Die Lösung des Anfangswertproblems ist insbesondere die Lösung der Differentialgleichung und hat deswegen die Form ϕ(x) = G(x) + c Die Bedingung y0 = ϕ(x0 ) = G(x0 ) + c ⇒ c = y0 − G(x0 ) bestimmt die Konstante c eindeutig. Die einzige Lösung des Anfangswertproblems ist aus ϕ(x) = G(x) − G(x0 ) + y0 gegeben. Bemerke, dass die eindeutige Lösung auch als Z x ϕ(x) = y0 + g(t)dt x0 geschrieben werden kann. 27 • Sei wieder n = 1, U = R2 , und f (x, y) = −y. Die Differentialgleichung (5) nimmt dann die Form ϕ0 (x) = −ϕ(x) (7) Die Funktion ϕ(x) = ce−x erfüllt diese Differentialgleichung auf R, für beliebige c ∈ R. Wir behaupten jede Lösung auf R hat diese Form. Sei in der Tat ϕ eine Lösung von (7) auf R. Dann gilt d x (e ϕ(x)) = ex (ϕ(x) + ϕ0 (x)) = 0 dx für alle x ∈ R. Es existiert also eine Konstante c ∈ R mit ex ϕ(x) = c für alle x ∈ R, d.h. mit ϕ(x) = ce−x für alle x ∈ R. Betrachten wir nun das Anfangswertproblem 0 ϕ (x) = −ϕ(x) ϕ(x0 ) = y0 für x0 , y0 ∈ R. Die Lösung des Anfangswertproblem hat die Form y(x) = ce−x . Die Anfangsbedingung y(x0 ) = y0 bestimmt die Konstante c ∈ R durch y0 = y(x0 ) = ce−x0 ⇒ c = y 0 e x0 Die eindeutige Lösung des Anfangswertproblems ist also y(x) = y0 exp(−(x − x0 )). • Wir betrachten das Anfangswertproblem 0 ϕ (x) = a(ϕ(x) − bϕ2 (x)) ϕ(0) = y0 (8) für a, b, y0 > 0. Die Differentialgleichung in (8) heisst die logistische Gleichung oder die Differentialgleichung des beschränkten exponentiellen Wachstums, und hat z.B. Anwendungen in der Biologie (die Lösung beschreibt das Wachstum einer idealen Bakterienpopulation). Um die Gleichung zu lösen bemerken wir, dass 1 ϕ0 (x) = a ϕ(x) − bϕ2 (x) Integration über x gibt Z x 0 1 ϕ0 (t)dt = a ϕ(t) − bϕ2 (t) Z x dt = ax 0 Wir substituieren y = ϕ(t) und bekommen Z ϕ(x) 1 dy = ax y − by 2 ϕ(0) Aus 1 1 b 1 = = + 2 y − by y(1 − by) y 1 − by finden wir log ϕ(x)(1 − by0 ) = ax y0 (1 − bϕ(x)) 28 Nach leichter algebraischer Manipulationen bekommen wir die eindeutige Lösung des Anfangswertsproblems ϕ(x) = y0 eax 1 + by0 (eax − 1) Im letzten Beispiel haben wir die Methode der Trennung der Variablen benutzt. Wir zeigen im nächsten Satz, dass diese Methode immer angewandt werden kann, falls die Funktion f (x, y) auf der rechten Seite von (5) das Produkt einer Funktion von x mit einer Funktion von y ist. Satz 2.2. Seien I, J ⊂ R offene Intervalle, g ∈ C(I), h ∈ C(J), mit 0 6∈ h(J). Sei (x0 , y0 ) ∈ I × J. Seien Z x Z y 1 G(x) = g(t)dt, und H(y) = dt x0 y0 h(t) Weiter, sei I 0 ⊂ I ein offenes Intervall mit G(I 0 ) ⊂ H(J) und x0 ∈ I 0 . Dann existiert genau eine Lösung ϕ ∈ C 1 (I 0 ) des Anfangswertproblems 0 ϕ (x) = g(x)h(ϕ(x)) (9) ϕ(x0 ) = y0 Ferner ist ϕ : I 0 → J die einzige Funktion mit H(ϕ(x)) = G(x) für alle x ∈ I 0 . (10) Bemerkung: Die Aussage impliziert, dass Differentialgleichungen der Form (9) durch Trennung der Variablen gelöst werden können. Das bedeutet, dass (9) zunächst als 1 ϕ0 (x) = g(x) h(ϕ(x)) umgeschrieben werden kann. Integration über x ergibt dann Z x Z x 1 ϕ0 (t)dt = g(t)dt x0 h(ϕ(t)) x0 und damit Z ϕ(x) ϕ(x0 ) 1 dy = h(y) Z x g(t)dt x0 und H(ϕ(x)) = G(x) Die eindeutige Lösung des Anfangswertproblems kann dann durch Umkehrung der Funktion H bestimmt werden. Beweis: Da H ∈ C 1 (J) mit H 0 (y) = 1/h(y) 6= 0 für alle y ∈ J ist H injektiv. Damit ist H : J → H(J) bijektiv und also invertierbar. Sei T : H(J) → J die Umkehrfunktion. Dann ist T ∈ C 1 (H(J)) mit T 0 (z) = 1/H 0 (T (z)) = h(T (z)), für alle z ∈ H(J). Die Gleichung (10) definiert eindeutig eine Funktion ϕ = T ◦ G ∈ C 1 (I 0 ). Diese Funktion 29 erfüllt ϕ0 (x) = h(T ◦ G(x))G0 (x) = h(ϕ(x))g(x) und ϕ(x0 ) = T ◦ G(x0 ) = T (0) = y0 . D.h. ϕ ist eine Lösung des Anfangswertsproblems. Das zeigt die Existenz der Lösung. Es bleibt die Eindeutigkeit zu zeigen. Sei dazu ϕ e ∈ C 1 (I 0 ) eine andere Lösung des 0 Anfangswertproblems. Es folgt, dass ϕ(I e ) ⊂ J. Sei ψ = H ◦ ϕ e − G. Dann gilt ψ 0 = (H 0 ◦ ϕ) eϕ e0 − G0 = 1 ϕ e0 − g = 0 h◦ϕ e auf I 0 , Damit muss ψ konstant auf I 0 sein. Da aber ψ(x0 ) = H(ϕ(x e 0 )) − G(x0 ) = 0, muss ψ(x) = 0 für alle x ∈ I 0 . D.h. H ◦ ϕ e = G auf I 0 , und deswegen, ϕ e = ϕ. Das zeigt die Eindeutigkeit der Lösung. Differentialgleichungen der Form (9) können durch Trennung der Variable gelöst werden. In diesem Fall kann die Lösung auf der Berechnung eines Integrales zurückgeführt werden. In allgemein ist das nicht möglich. Nur die wenigstens Differentialgleichungen können explizit gelöst werden. Numerische Methoden müssen dann angewandt werden, um Approximationen für die Lösung von Differentialgleichungen zu finden. Bevor man numerische Methoden benutzt ist aber wichtig zu wissen, ob eine Lösung existiert, und ob sie eindeutig ist. Der folgende Satz gibt ein hinreichendes Kriterium für die Existenz und die Eindeutigkeit der Lösung einer Differentialgleichung. Der Beweis wird in Analysis 3 kommen. Satz 2.3 (Picard-Lindelöf). Sei I = [a; b] ⊂ R ein nicht-leeres kompaktes Intervall, x0 ∈ I, f ∈ C(I × Rn , Rn ) Lipschitz-stetig in der zweiten Variablen. D.h. es existiere L > 0 mit kf (x, y) − f (x, y 0 )k ≤ Lky − y 0 k für alle x ∈ I, y, y 0 ∈ Rn . Dann hat für jede y0 ∈ Rn das Anfangswertproblem 0 ϕ (x) = f (x, ϕ(x)) ϕ(x0 ) = y0 (11) eine eindeutige Lösung ϕ ∈ C 1 (I; Rn ). 2.2 Differentialgleichungen höherer Ordnung Differentialgleichungen höherer Ordnung hängen auch von den höheren Ableitungen der gesuchten Funktion y(x) ab. Definition 2.4. Seien n, k ∈ N\{0} fest, Ω ⊂ R × Rn×k offen, f ∈ C(Ω, Rn ). Dann ist y (k) (x) = f (x, y(x), y 0 (x), . . . , y (k−1) (x)) (12) eine Differentialgleichung k-ter Ordnung. Eine Lösung von (12) auf einem Intervall I ⊂ R ist eine Funktion y ∈ C k (I; Rn ) so, dass x, y(x), y 0 (x), . . . , y (k) (x) ∈ Ω und (12) gilt, für alle x ∈ I. Für gegebene (x0 , y0 , y1 , . . . , yk ) ∈ Ω ist (k) y = f (x, y(x), . . . , y (k−1) (x)) y (j) (x0 ) = yj , für j = 0, 1, . . . , (k − 1) ein Anfangswertproblem oder ein Cauchy-Problem k-ter Ordnung. 30 (13) Man kann Resultate über die Existenz und Eindeutigkeit der Lösung von Anfangswertproblemen k-ter Ordnung aus den entsprechenden Resultaten für Gleichungen erster Ordnung herleiten, indem man bemerkt, dass eine Gleichung k-ter Ordnung zu einer Gleichung erster Ordnung in mehreren Variablen äquivalent ist. In der Tat, das Anfangswertproblem (13) kann wie folgt umgeschrieben werden. Wir definieren die neue Funktion ψ(x) = (y(x), y 0 (x), . . . , y (k−1) (x)). Dann ist ψ eine Funktion mit Werten in Rn×k . Wir definieren ferner fe(x, z0 , z1 , . . . , zk−1 ) := (z1 , z2 , . . . , zk−1 , f (x, z0 , z1 , . . . , zk−1 )) für alle (x, z0 , z1 , . . . , zk−1 ) ∈ Ω. Auch fe hat Werte in Rn×k . Es ist dann leicht zu sehen, dass (13) zu dem Anfangswertproblem ψ 0 (x) = fe(x, ψ(x)) mit der Anfangsbedingung ψ(x0 ) = (y0 , y1 , . . . , yk−1 ) ∈ Rn×k äquivalent ist. Damit haben wir ein Problem k-ter Ordnung in Dimension n in einem Problem erster Ordnung in Dimension nk umgeschrieben. Wir erhalten deswegen das folgende Existenz- und Eindeutigkeitsresultat. Satz 2.5. Seien n, k ∈ N\{0} fest, I = [a; b] ⊂ R ein nicht-leeres kompaktes Intervall, x0 ∈ I, f ∈ C(I × Rnk ) , Lipschitz-stetig in Lipschitz-stetig in alle Argumenten nach dem ersten. D.h. es existiere L > 0 mit f (x, z0 , z1 , . . . , zk−1 ) − f (x, z00 , z10 , . . . , z 0 ) ≤ Lkz − z 0 k k−1 0 ) ∈ Rnk . Dann existiert für für alle x ∈ I, z = (z0 , z1 , . . . , zk−1 ), z 0 = (z00 , z10 , . . . , zk−1 jede (y0 , y1 , . . . , yk−1 ) ∈ Rnk eine eindeutige Lösung des Anfangswertproblem (13). Beweis: Gemäss Satz 2.3, genügt es zu zeigen, dass die Funktion fe(x, z0 , z1 , . . . , zk−1 ) = (z1 , z2 , . . . , zk−1 , f (x, z0 , z1 , . . . , zk−1 )) Lipshitz-stetig in z = (z0 , z1 , . . . , zk−1 ) ist. Dazu bemerken wir, dass e 0 , f (x, z) − f (x, z 0 )) f (x, z) − fe(x, z 0 ) = (z1 − z10 , z2 − z20 , . . . , zk−1 − zk−1 ≤ kz − z 0 k + kf (x, z) − f (x, z 0 )k ≤ (L + 1)kz − z 0 k . 2.3 Lineare Differentialgleichungen Die Differentialgleichung erster Ordnung y 0 (x) = f (x, y(x)) (14) heisst linear, falls die Funktion f (x, y) affin in der Variable y ∈ Rn ist, d.h. falls eine offene Teilmenge A ⊂ R, eine matrixwertige Funktion a ∈ C(A; Rn×n ) und eine vektorwertige Funktion b ∈ C(A; Rn ) existieren mit f (x, y) = a(x)y + b(x) 31 (15) Für ein beliebiges x ∈ A bezeichnet hier a(x)y die Anwendung der n × n Matrix a(x) auf dem Vektor y ∈ Rn . Die Differentialgleichung (14) heisst linear und homogen, falls f (x, y) linear in y ist, d.h. falls f die Form (15) hat, mit b = 0. Skalare lineare Differentialgleichungen: Wir betrachten zunächst den skalaren Fall, mit n = 1. Sei I ⊂ R ein Intervall und a ∈ C(I). Für x0 ∈ I und y0 ∈ R beliebig, untersuchen wir das skalare, lineare und homogene Anfangswertproblem ( y 0 (x) = a(x)y(x) y(x0 ) = y0 Das Anfangswertproblem hat eine eindeutige Lösung (aus Satz 2.3). Durch Trennung der Variablen finden wir, dass die eindeutige Lösung aus Z x ϕ(x) = y0 exp a(t)dt x0 gegeben ist. Sei nun, wie vorher, I ⊂ R ein Intervall und a ∈ C(I). Weiter, sei b ∈ C(I). Für beliebige x0 ∈ I und y0 ∈ R, untersuchen wir das skalare, lineare (aber inhomogene) Anfangswertproblem ( y 0 (x) = a(x)y(x) + b(x) y(x0 ) = y0 Aus Sazt 2.3, hat dieses Anfangswertproblem eine eindeutige Lösung. Die Lösung kann durch die Methode der Variation der Konstante gefunden werden. Man findet zunächst die allgemeine Lösung der homogenen Differentialgleichung y 0 (x) = a(x)y(x), die aus Z x y(x) = c exp a(t)dt x0 für eine beliebige Konstante c ∈ R gegeben ist. Um die inhomogene Gleichung zu lösen, betrachtet man den Ansatz Z x y(x) = c(x) exp a(t)dt x0 bei welchem die Konstante c aus der Lösung der homogenen Gleichung nun von x abhängt. Dann ist Z x Z x 0 0 y (x) = c (x) exp a(t)dt + c(x)a(x) exp a(t)dt x0 x0 Z x 0 = c (x) exp a(t)dt + a(x)y(x) x0 Wir sehen also, dass y(x) eine Lösung des inhomogenen Anfangswertproblems ist, g.d.w. Z x Z x 0 0 c (x) exp a(t)dt = b(x) ⇐⇒ c (x) = b(x) exp − a(t)dt x0 x0 32 Wir finden also, dass die eindeutige Lösung des inhomogenen Anfangswertproblems aus Z x Z t Z x a(s)ds dt exp a(t)dt b(t) exp − ϕ(x) = y0 + x0 x0 x0 gegeben ist. Vektorielle lineare Differentialgleichungen: Wir kommen nun zum allgemeinen Fall n ≥ 1. Sei I ⊂ R ein Intervall, x0 ∈ I, a ∈ C(I, Rn×n ) eine matrix-wertige stetige Funktion auf I. Wir untersuchen das lineare, homogene Anfangswertproblem 0 y (x) = a(x)y(x) (16) y(x0 ) = y0 für ein beliebiges y0 ∈ Rn . Es lohnt sich in diesem Fall zunächst eine matrix-wertige Differentialgleichung zu lösen. Aus Satz 2.3 folgt nämlich, dass eine eindeutige Lösung ϕ ∈ C 1 (I, Rn×n ) des Anfangswertproblems 0 ϕ (x) = a(x)ϕ(x) (17) ϕ(x0 ) = 1 existiert, wobei 1 die Identitätsmatrix auf Rn ist. Bemerke, dass, für alle x ∈ I, ϕ(x) hier eine n × n Matrix bezeichnet. Die Ableitung ϕ0 (x) ist wieder eine Matrix, mit Einträgen (ϕ0 (x))ij = ϕ0ij (x), wobei ϕij (x) die Einträge von ϕ(x) sind (d.h. die Matrix wird Einträge-weise differenziert). Das Produkt a(x)ϕ(x) soll dann als Produkt von zwei Matrizen verstanden werden. Die Matrixgleichung (17) ist einfach ein System von n2 Differentialgleichungen, oder äquivalent, eine vektorielle Differentialgleichung für eine Unbekannte ϕ(x) mit n2 Komponenten (deswegen kann man Satz 2.3 anwenden). Analog existiert eine eindeutige Lösung ψ ∈ C 1 (I; Rn×n ) des Anfangswertproblems 0 ψ (x) = −ψ(x)a(x) (18) ψ(x0 ) = 1 Wir behaupten nun, dass ψ(x)ϕ(x) = 1 für alle x ∈ I. In der Tat, die Anfangsbedingung impliziert, dass ψ(x0 )ϕ(x0 ) = 1. Anderseits d [ψ(x)ϕ(x)] = ψ 0 (x)ϕ(x) + ψ(x)ϕ0 (x) = −ψ(x)a(x)ϕ(x) + ψ(x)a(x)ϕ(x) = 0 dx D.h. ψ(x)ϕ(x) ist konstant auf I und deswegen ψ(x)ϕ(x) = 1, für alle x ∈ I. Das impliziert insbesondere, dass die Lösungen ϕ(x) und ψ(x) invertierbar sind, für alle x ∈ I. Wir können nun die Lösung ϕ(x) des Anfangswertproblems (17) benutzen, um die Lösung von (16) zu konstruieren. Aus Satz 2.3 wissen wir nämlich schon, dass (16) eine eindeutige Lösung besitzt. Wir behaupten nun, dass die eindeutige Lösung von (16) aus y(x) = ϕ(x)y0 gegeben ist. In der Tat, y(x0 ) = ϕ(x0 )y0 = 1y0 = y0 und y 0 (x) = ϕ0 (x)y0 = a(x)ϕ(x)y0 = a(x)y(x) 33 (19) Mit anderen Worten, die eindeutige Lösung von (16) bekommt man einfach durch Anwendung der Matrix ϕ(x) auf die Anfangsbedingung y0 ∈ Rn . Aus der Darstellung der Lösung von (16) als y(x) = ϕ(x)y0 folgt einfach, dass der Lösungsraum der linearen Differentialgleichung in (16) eine lineare Struktur hat. Für gegebene a ∈ C(I; Rn×n ) definieren wir nämlich den Lösungsraum der Differentialgleichung y 0 (x) = a(x)y(x) als Lh := y ∈ C 1 (I; Rn ) : y 0 (x) = a(x)y(x) (d.h. Lh ist die Menge aller Lösungen der Differentialgleichung, unabhängig von der Anfangsbedingung). Wir haben schon bewiesen, dass ein beliebiges y ∈ L die Form y(x) = ϕ(x)y(x0 ) hat. Das impliziert offenbar, dass Lh ein Vektorraum ist. Da die Matrix ϕ(x) invertierbar ist, folgt auch, dass y (1) , . . . , y (m) ∈ Lh genau dann linear unabhängig sind, wenn y (1) (x0 ), . . . , y (m) (x0 ) ∈ Rn linear unabhängig sind. Das impliziert, dass dim Lh = dim Rn = n (mit anderen Worten, die Formel y(x) = ϕ(x)y(x0 ) erlaubt uns Lh mit Rn zu identifizieren). Die Lösung der Matrix-Gleichung (17) erlaubt uns auch inhomogene lineare Differentialgleichungen zu berechnen. Sei nämlich I ⊂ R ein Intervall, x0 ∈ I, y0 ∈ Rn , a ∈ C(I; Rn×n ) und b ∈ C(I; Rn ). Dann hat das Anfangswertproblem 0 y (x) = a(x)y(x) + b(x) (20) y(x0 ) = y0 die eindeutige Lösung Z y(x) = ϕ(x) y0 + x −1 ϕ (t)b(t)dt (21) x0 wobei ϕ ∈ C 1 (I; Rn×n ) die eindeutige Lösung von (17) ist. In der Tat, aus ϕ(x0 ) = 1 folgt sofort, dass (21) die Bedingung y(x0 ) = y0 erfüllt. Weiter gilt Z x 0 0 −1 y (x) = ϕ (x) y0 + ϕ (t)b(t) + ϕ(x)ϕ−1 (x)b(x) = a(x)y(x) + b(x) x0 Wir haben in (21) benutzt, dass ϕ(x) für alle x ∈ I invertierbar ist. Es folgt aus diesem Ausdruck für die Lösung des Anfangswertproblems (20), dass der Lösungsraum der inhomogenen linearen Differentialgleichung y 0 (x) = a(x)y(x) + b(x), definiert durch Li = y ∈ C 1 (I; Rn ) : y 0 (x) = a(x)y(x) + b(x), für alle x ∈ I aus Z x Li = Lh + ϕ(x) ϕ−1 (t)b(t) = Z x y(x) = yh (x) + ϕ(x) x0 ϕ−1 (t)b(t) : yh ∈ Lh x0 gegeben ist. Allgeiner, für eine beliebige Lösung z ∈ Li , gilt Li = z + Lh . D.h. Li ist ein affiner Raum. Bemerke, dass es im Gegensatz zum skalaren Fall n = 1, wo die Lösung von homogenen und inhomogenen Problemen mit Trennung der Variablen und Variationen der Konstanten immer gefunden werden kann, bei vektoriellen linearen Problemen (und also bei Probleme höheren Ordnung) kein allgemeines Rezept gibt, um Lösungen zu finden. Eine Ausnahme ist der Fall von linearen Gleichungen mit konstanten Koeffizienten, die durch Konstanten a ∈ Rn×n und b ∈ Rn charakterisiert ist. 34 2.4 Lineare Differentialgleichungen mit konstanten Koeffizienten Sei n ∈ N und A ∈ Rn×n eine festgewählte n × n Matrix. Wir betrachten die lineare homogene Differentialgleichung mit konstanten Koeffizienten y 0 (x) = Ay(x) (22) für eine unbekannte Funktion y ∈ C 1 (R; Rn ). Sei Lh = y ∈ C 1 (R; Rn ) : y 0 (x) = Ay(x) der Lösungsraum der Differentialgleichung (22). Wir wissen schon, dass Lh ein Vektorraum der Dimension n ist. Ist eine Basis y (1) , . . . , y (n) des Lösungsraums Lh gegeben, so kann man die eindeutige Lösung des Anfangswertproblems 0 y (x) = Ay(x) (23) y(x0 ) = y0 bestimmen, indem man den Vektor y0 als eine lineare Kombination der Basisvektoren ausdruckt: n X y0 = cj y (j) (x0 ) j=1 Das ist möglich, weil {y (j) (x0 )}nj=1 eine Basis von Rn ist. Dann ist die eindeutige Lösung von (23) aus n X y(x) = cj y (j) (x) j=1 gegeben. Wie können wir nun eine Basis von Lh finden? Sei v ∈ Rn ein Eigenvektor von A mit Eigenwert λ, d.h. Av = λv. Dann ist y(x) = veλx ∈ Lh , weil y 0 (x) = λveλx = Aveλx = Ay(x) . Nehmen wir nun an, dass die Matrix A n linear unabhängige Eigenvektoren v1 , . . . , vn ∈ Rn , mit Eigenwerten λ1 , . . . , λn ∈ R (nicht notwendigerweise verschiedenen), besitzt. Dann sind die Funktionen yj (x) = vj eλj x , für j = 1, . . . , n, linear unabhängig und damit eine Basis von Lh . Es passiert oft, dass eine Matrix A ∈ Rn×n auf C, aber nicht auf R diagonalisierbar ist. Sei λ = γ + iω ∈ C\R ein komplexer Eigenwert von A, mit Eigenvektor v ∈ Cn \{0}; wir zerlegen v = u + iw, mit u, w ∈ Rn . Da A reelle Einträge hat, ist auch λ = γ − iω ein Eigenwert von A, mit Eigenvektor v = u − iw. Die zwei Funktionen ye1 (x) = veλx = (u + iw)eiωx eγx = [(u cos ωx − w sin ωx) + i (u sin ωx + w cos ωx)] eγx ye2 (x) = (u − iw)e−iωx eγx = [(u cos ωx − w sin ωx) − i (u sin ωx + w cos ωx)] eγx 35 sind dann komplexe Lösungen der Differentialgleichung (22). Weil wir uns vor allem für reelle Lösungen interessieren, möchten wir ye1 und ye2 durch die reellen linearen Kombinationen ye1 (x) + ye2 (x) = (u cos ωx − w sin ωx) eγx 2 ye1 (x) − ye2 (x) y2 (x) = = (u sin ωx + w cos ωx) eγx 2i y1 (x) = (24) ersetzen. Seien also ve1 , . . . , ven ∈ Cn linear unabhängige Eigenvektoren von A, zu den Eigenwerten λ1 , . . . , λn ∈ C. Für jedes j = 1, . . . , n unterscheiden wir zwei Fälle. Sei zunächst λj ∈ R. Dann ist mit vej auch vej ein Eigenvektor von A zum Eigenwert λ. Mindestens einer der zwei Vektoren Re vej = (e vj + vej )/2 und Im vej = (e vj − vej )/2i ist nicht Null und deswegen ein reeller Eigenvektor v ∈ Rn von A zum Eigenwert λ. Wir setzen, dann yj (x) = veλx Sei nun λj ∈ C\R. Dann ist mit λj auch λj ein Eigenwert von A. D.h. es existiert i 6= j mit λi = λj . Dann setzen wir, gemäss (24), yj (x) = (Re vj cos(Im λj ) − Im vj sin(Im λj ) eRe λj yi (x) = (Re vj sin(Im λj ) − Im vj cos(Im λj ) eRe λj Damit konstruieren wir n linear unabhängige und reelle Lösungen yj der Differentialgleichung y 0 (x) = Ay(x); das gibt eine Basis vom Lösungsraum Lh . Es gibt natürlich auch den Fall, dass die Matrix A nicht diagonalisierbar ist. D.h., dass keine n linearen unabhängigen Eigenvektoren von a existieren. In diesem Fall ist die Suche nach einer Basis des Lösungsraums Lh komplizierter. Es hilft, die Lösung der Differentialgleichung y 0 (x) = Ay(x) durch Exponenzierung von A zu konstruieren. Lösung durch Exponentialabbildung: Die Matrix A = (aij ) ist ein Element von Rn×n . Auf diesem Raum ist die euklidische Norm aus kAk2 = N X |aij |2 = Tr A∗ A i,j=1 gegeben. Es gibt eine andere natürliche Norm für Matrixen, nämlich die Operator-Norm. Wir definieren die Operatornorm von A durch kAkop = sup v∈Rn kAvk kvk wobei kAvk und kvk die euklidischen Normen von Av und v, als Elemente von Rn , sind. Es ist einfach zu zeigen, dass k.kop wirklich eine Norm ist. Die Operatornorm hat die Eigenschaft, dass kAvk ≤ kAkop kvk, für einen beliebigen Vektor v ∈ Rn (das folgt direkt aus der Definition). Sind also A, B ∈ Rn×n zwei Matrizen, dann gilt (AB bezeichnet die Multiplikation der zwei Matrizen A und B; das entspricht der Verknüpfung der zwei Abbildungen) kABvk ≤ kAkkBvk ≤ kAkkBkkvk 36 für alle v ∈ Rn . Es folgt, dass kABkop ≤ kAkop kBkop Es gilt 1 √ kAk ≤ kAkop ≤ kAk n (25) für jede A ∈ Rn×n . D.h. die zwei Normen k.k und k.kop auf Rn×n sind äquivalent (das gilt übrigens für jede zwei Normen auf einem beliebigen endlich dimensionalen Vektorraum). Man kann (25) wie folgt beweisen. Es gilt n 2 n X n X n X n X X 2 kAvk = aji vi = aji1 aji2 vi1 v i2 ≤ j=1 i=1 n X n X 1 2 j=1 i1 =1 i2 =1 n X |aji1 |2 |vi2 |2 + |aji2 |2 |vj |2 = kvk2 kAk2 j=1 i1 =1 i2 =1 Das impliziert, dass kAvk/kvk ≤ kAk für alle v ∈ Rn , und damit, dass kAkop ≤ kAk. Anderseits, kAk2 = Tr A∗ A = n X hej , A∗ Aej i = j=1 n X kAej k2 ≤ j=1 n X kAk2op kej k2 ≤ nkAk2op j=1 wobei die Vektoren ej = (0, . . . , 0, 1, 0, . . . , 0) die Standardbasis von Rn sind. Wir betrachten nun für A ∈ Rn×n die Folge BN := N X Aj j=0 Wir bemerken, dass, für N > M , N X Aj kBN − BM kop = j=M +1 j! j! N N X X kAj kop kAkj ≤ ≤ j! j! j=M +1 op j=M +1 P j Aus der Konvergenz der Reihe ∞ j=0 kAk /j! auf R folgt, dass kBN − BM kop → 0, da N, M → ∞. Das impliziert auch, dass kBN − BM k → 0 bezüglich der euklidischen Norm auf Rn×n . Also ist BN eine Cauchy-Folge auf Rn×n , bzg. der euklidischen Norm, und damit konvergiert BN . Wir definieren exp(A) := lim N X Aj N →∞ j=0 j! ≡ ∞ X Aj j=0 Wir bemerken nun, dass die matrixwertige Funktion ϕ(x) = exp(A(x − x0 )) 37 j! definiert für beliebige x ∈ R, das Anfangswertproblem 0 ϕ (x) = Aϕ(x) ϕ(x0 ) = 1 (26) löst. Die Anfangsbedingung ϕ(x0 ) = 1 ist offenbar erfüllt. Wir zeigen nun, dass ϕ(x) die Differentialgleichung erfüllt. Sei dazu R > 0 fest. Auf x ∈ [x0 − R; x0 + R] konvergiert die matrixwertige Potenzreihe BN (x) = N X Aj j=0 j! (x − x0 )j gleichmässig gegen exp(A(x − x0 )). Die Ableitung 0 BN (x) = N X Aj j=0 j! j(x − x0 ) N N −1 j X X Aj−1 A j−1 =A (x − x0 ) =A (x − x0 )j (j − 1)! j! j−1 j=1 j=0 konvergiert auch gleichmässig gegen A exp(A(x−x0 )). Aus Analysis 1 (Proposition 8.29) folgt, dass ϕ ∈ C 1 ([−R; R]; Rn×n ), mit ϕ0 (x) = Aϕ(x) für alle x ∈ [−R; R] (bemerke, dass Proposition 8.29 in Analysis 1 nur für R-wertige Funktionenfolgen formuliert ist. Das Resultat lässt sich aber trivial auf matrixwertige Funktionen erweitern, indem man die n2 Komponenten der Matrix separat untersucht). Da R > 0 beliebig ist, folgt dass ϕ ∈ C 1 (R; Rn×n ) das Anfangswertproblem (26) auf ganz R löst. Die eindeutige Lösung des Anfangswertproblems (23) ist durch Anwendung der Matrix ϕ(x) auf die Anfangsbedingung, d.h. y(x) = ϕ(x)y0 = exp(A(x − x0 ))y0 gegeben. Ferner, das inhomogene Anfangswertpbroblem mit konstanten Koeffizienten y 0 (x) = ay(x) + b, mit der Anfangsbedingung y(x0 ) = y0 , hat die eindeutige Lösung Z x a(x−x0 ) −a(x−x0 ) y(x) = e y0 + e bdt . x0 Aus einem praktischen Sichtpunkt ist die Berechnung der Exponenitalabbildung exp(a(x − x0 )) durch die Diagonalisierung von A möglich. Ist nämlich A = U −1 DU , für eine diagonale Matrix D = diag(d1 , . . . , dn ), so gilt Am = (U −1 DU )m = U −1 Dm U . Es folgt exp(A(x − x0 )) = ∞ X m=0 = U −1 Am ∞ X (x − x0 )m (x − x0 )m = U −1 Dm U m! m! ∞ X m=0 Dm (x − x0 m! m=0 m ) U ∞ ∞ m m X X dm dm n (x − x0 ) 1 (x − x0 ) = U diag ,..., m! m! m=0 m=0 = U −1 diag e(x−x0 )d1 , . . . , e(x−x0 )dn U. −1 38 ! U Ist die Matrix a nicht diagonalisierbar, so ist die Berechnung von exp((x − x0 )a) schwieriger. In diesem Fall kann die jordansche Normalform der Matrix A verwendet werden. Für beliebige A ∈ Rn×n kann man nämlich eine invertierbare Matrix U und eine blockdiagonal Matrix J1 0 0 ... 0 0 J2 0 ... 0 J = ... ... ... ... ... 0 0 0 . . . Jk finden, so dass A = U −1 JU . J heisst die Jordan Normalform von A. Die Blöcke Ji haben die Form λi 1 0 ... 0 0 λi 1 ... 0 (27) Ji = ... ... ... ... ... 0 ... 0 λi 1 0 ... 0 0 λi Die Einträge λi auf der Diagonalen der Matrixen Ji sind die Eigenwerte von A. Die Anzahl der Blöcke mit Eigenwert λi ist aus der geometrischen Vielfachheit von λi gegeben (d.h. die Dimension des Eigenraumes mit Eigenwert λj ). Die Gesamtdimension der Jordanblöcke mit Eigenwert λi ist dagegen die algebraische Vielfachheit von λi (die Vielfachheit von λi als Nullstelle des charakteristischen Polynoms). Sind algebraische und geometrische Vielfachheit gleich, so ist jeder Jordanblock mit Eigenwert λi eine 1 × 1 Matrix mit Eintrag λi (ist das der Fall für alle Eigenwerte von A, dann ist J diagonal und A diagonalisierbar). Der Ausdruck A = U −1 JU erlaubt uns, die Exponentialabbildung exp(tA) zu berechnen, für ein beliebiges t ∈ R (t = x − x0 in unserer Anwendung). In der Tat exp(tA) = exp(U −1 tJU ) = U −1 exp(tJ)U Die Anwendung der Exponentialabbildung an der Blockdiagonale Matrix tJ ist wieder blockdiagonal, mit Blöcken exp(tJi ), wobei die Ji die Form (27) haben. Sei Ji eine ` × ` Matrix. Dann liefert die Berechnung von exp(tJi ) (Beweis: Übung) t2 t`−1 1 t . . . tλi t 0 ... 0 2! (`−1)! t`−2 0 tλ t . . . 0 i 0 1 t . . . (`−2)! = etλi . . . . . . . . . . . . . . . exp ... ... ... ... ... 0 ... 0 tλi t 0 ... 0 1 t 0 ... 0 0 tλi 0 ... 0 0 1 Damit kann man in Prinzip die Exponentialabbildung ϕ(x) = exp(A(x − x0 )) für jede Matrix A ∈ Rn×n berechnen. Mit dieser Methode kann man also immer die eindeutige Lösung des Anfangswertproblems (23) finden. Skalare, lineare, homogene Differentialgleichungen höherer Ordnung mit konstanten Koeffizienten: Eine skalare, lineare, homogene Differentialgleichung der Ordnung n ∈ N mit konstanten Koeffizienten hat die Form an ϕ(n) (x) + an−1 ϕ(n−1) (x) + · · · + a1 ϕ0 (x) + a0 ϕ(x) = 0 39 (28) für eine Funktion ϕ ∈ C n (R), und für Konstanten a0 , . . . , an ∈ R. Definieren wir y = (ϕ, ϕ0 , . . . , ϕ(n−1) ) ∈ C 1 (R; Rn ), dann nimmt (28) die Form 0 0 y 0 (x) = 0 − aan0 1 0 ... 0 − aan1 0 1 ... 0 − aan2 ... ... ... 0 ... 0 0 1 − an−1 an y(x) =: Ay(x) Es ist einfach zu sehen, dass die Matrix A genau dann (in C) diagonalisierbar ist, wenn sie n verschiedene Eigenwerten hat (Übung: Gilt Av1 = λv1 und Av2 = λv2 für ein λ ∈ C, dann existiert κ ∈ C mit v1 = κv2 ). Obwohl die Matrix A nicht immer diagonalisierbar ist, ist es hier trotzdem einfach, eine Basis für den n dimensionalen Lösungsraum n X Lh = y ∈ C n (R) : aj ϕ(j) (x) = 0 j=0 zu bestimmen, ohne explizit die jordansche Normalform von A zu berechnen. Wir definieren dazu das Polynom p(s) = an sn + an−1 sn−1 + · · · + a1 s + a0 Dann nimmt (28) die Form p d dx ϕ=0 (29) Aus dem Fundamentalsatz der Algebra (Satz 2.33 in Analysis 1) existieren k ∈ N, P λ1 , . . . , λk ∈ C voneinander unterschiedliche, n1 , . . . , nk ∈ N\{0} mit kj=1 nj = n so, dass k Y p(s) = an (30) (s − λj )nj j=1 Wir können also (29) als p d dx nj k Y d ϕ=0 ϕ = an − λj dx (31) j=1 schreiben. Bemerke hier, dass die Ordnung der Operatoren (d/dx − λj )nj keine Rolle spielt (die verschiedenen Monomen kommutieren miteinander). Wir bemerken ferner, dass k d − λ [f (x)eλx ] = f (k) (x)eλx (32) dx In der Tat d − λ [f (x)eλx ] = f 0 (x)eλx + λf (x)eλx − λf (x)eλx = f 0 (x)eλx dx 40 Wenden wir diese Formel k Mal an, so finden wir (32). Aus (29) erhalten wir also nj nm Yd d d ` λm x [x e ] = an [x` eλm x ] p − λj − λm dx dx dx j6=m nj nm Yd d = an − λj x ` e λm x = 0 dx dxnm j6=m für alle ` = 0, 1, 2, . . . , nm − 1. Die n Funktionen {ym,` (x) = x` eλm x : m = 1, . . . , k, und ` = 0, 1, . . . , nm − 1} sind also Lösungen der Differentialgleichung p(d/dx)ϕ = 0. Diese Funktionen sind linear unabhängig (Beweis: Übung), und definieren also eine Basis des Lösungsraums Lh , wenn wir Lh als einen Vektorraum über C betrachten. Mit anderen Worten, jede Lösung von (28) kann als eine endliche lineare Kombination der Funktionen ym,` geschrieben werden. Für gegebene Anfangsbedingungen y(x0 ) = y0 , y 0 (x0 ) = y1 , . . . , y (n−1) (x0 ) = yn−1 kann man also die eindeutige Lösung des Anfangswertproblems bestimmen, indem man Konstanten αm,` findet, so dass y(x) = k nX m −1 X αm,` x` eλm x (33) m=1 `=1 alle Anfangsbedingungen an der Stelle x = x0 erfüllt. Die resultierende Lösung (33) ist, für reelle Anfansbedingungen y0 , . . . , yn−1 ∈ R automatisch reell. Falls man aber eine Basis für Lh betrachtet als R-Vektorraum, sucht, so muss man wie oben die Lösungen x` eλj x , x` eλj x mit λj ∈ C\R durch die reellen linearen Kombinationen x` cos((Im λj )x)e(Re λj )x und x` sin((Im λj )x)e(Re λj )x ersetzen (das ist immer möglich, wenn die Koeffizienten a0 , . . . , an ∈ R, weil für jede Nullstelle λ von p auch λ eine Nullstelle ist). Skalare, lineare, inhomogene Differentialgleichungen höherer Ordnung mit konstanten Koeffizienten: Auch inhomogene, skalare, lineare Differentialgleichungen von höherer Ordnung mit konstanten Koeffizienten kann man mit dieser Methode lösen. Aus der Untersuchung von allgemeinen linearen Differentialgleichungen wissen wir schon, dass der Lösungsraum der inhomogenen Gleichung an y (n) (x) + an−1 y (n−1) (x) + · · · + a0 y(x) + b = 0 (34) aus Li = z + Lh gegeben ist, wobei z eine beliebige Lösung der inhomogenen Gleichung ist. Also braucht man, um den Lösungsraum von (34) zu finden, einfach eine einzige Lösung von (34) zu finden. Das ist aber einfach. Ist z.B. a0 6= 0, dann kann man einfach z als die konstante Funktion z(x) = −b/a0 wählen. Allgemeiner, sei j ∈ {0, 1, . . . , n} der kleinste Index mit aj 6= 0. Dann ist z(x) = −(b/aj )xj /j! eine Lösung von (34). Der Lösungsraum von (34) ist also aus Li = {−(b/aj )xj /j!} + Lh 41 gegeben. Die eindeutige Lösung von (34), unter den Anfangsbedingungen y(x0 ) = y0 , y 0 (x0 ) = y1 , . . . , y (n−1) (x0 ) = yn−1 , kann man also bestimmen, indem man Konstanten αm,` findet, so dass k nX m −1 X b xj y(x0 ) = − + αm,` x` eλm x aj j! m=1 `=0 die Anfangsbedingungen erfüllt. Beispiel: Sei y 00 + 2γy + ω02 y = 0 Die Gleichung kann als p(d/dx)y = 0 geschrieben werden, mit dem Polynom p(s) = s2 + 2γs + ω02 Das Polynom p hat die Nullstellen s = −γ ± q γ 2 − ω02 Ist |γ| > |ω|, dann sind die zwei Nullstellen verschiedenen und reell. Damit sind √ √ −γ+ γ 2 −ω02 x −γ− γ 2 −ω02 x y1 (x) = e und y2 (x) = e eine Basis für den Lösungsraum. Ist dagegen |γ| = |ω0 |, dann hat p die einzige reelle Nullstelle s0 = −γ. Damit sind y1 (x) = e−γx und y2 (x) = xe−γx eine Basis für den Lösungsraum. Ist dagegen |γ| < |ω0 |, dann sind die zwei Nullstellen von p komplex. In diesem Fall sind q q y1 (x) = cos( ω02 − γ 2 x)e−γx und y2 (x) = sin( ω02 − γ 2 x)e−γx eine Basis des Lösungsraums. 3 3.1 Differentialrechnung in mehreren Veränderlichen Definition der Ableitung für Funktionen auf Rn Wiederholung von Begriffen aus der linearen Algebra und Analysis 1. In Analysis 1 (siehe Definition 2.34) haben wir den Begriff vom Vektorraum definiert. Ein Vektorraum über R ist nämlich eine Menge V , versehen mit einer Addition + : V × V → V und einer skalaren Multiplikation · : R × V → V , die eine Reihe von Axiomen erfüllen. Ein normierter Vektorraum ist ein Vektorraum V , auf dem eine Abbildung k.k : V → R definiert ist, mit den Eigenschaften: i) kxk ≥ 0 für alle x ∈ V , kxk = 0 genau dann, wenn x = 0; ii) kαxk = |α|kxk für alle x ∈ V und α ∈ R; iii) kx + yk ≤ kxk + kyk. Eine Norm k.k auf einem Vektorraum V erzeugt immer eine Metrik auf V , die durch d(x, y) = kx − yk definiert wird. Also ist jeder normierte Vektorraum ein metrischer 42 Raum. Wir sagen der normierte Vektorraum V ist vollständig, falls V , versehen mit der aus der Norm induzierten Metrik, ein vollständiger metrischer Raum ist. Seien nun V und W zwei Vektorräume über R. Eine Abbildung L : V → W heisst linear, falls L(x + λy) = L(x) + λL(y) für alle x, y ∈ V und λ ∈ R. Wir bezeichnen die e W ). Seien L, M ∈ L(V, e W ) und Menge aller linearen Abbildungen L : V → W mit L(V, λ ∈ R. Wir definieren dann die Abbildungen L + M, λL : V → W durch (L + M )(x) = L(x) + M (x), und (λL)(x) = λL(x) e W ). Damit hat L(V, e W ) die Struktur für alle x ∈ V . Offenbar gilt L + M, λL ∈ L(V, eines Vektorraumes über R (es ist leicht zu überprüfen, dass Summe und skalare Multiplikation alle notwendigen Axiome erfüllen). Nehmen wir nun an, V, W seien normierte e W ) definieren wir dann Vektorräume. Für L ∈ L(V, kLkop := kLvk = sup kLvk = sup kLvk v∈V \{0} kvk v∈V,kvk≤1 v∈V,kvk=1 sup (35) e W ) heisst beschränkt, falls kLkop < ∞. Das ist leicht Eine lineare Abbildung L ∈ L(V, e W ) ist genau dann beschränkt, falls sie auf V stetig zu zeigen: Eine Abbildung L ∈ L(V, e W ) ist genau dann auf V stetig, falls sie in v = 0 ist. Ferner, eine Abbildung L ∈ L(V, stetig ist. Wir bezeichnen e W ) : L beschränkt ist} = {L ∈ L(V, e W ) : L stetig ist} L(V, W ) := {L ∈ L(V, e W ) die aus beschränkten Abbildungen besteht. Es ist einfach zu die Teilmenge von L(V, e W ) ist. Also ist L(V, W ) selbst ein zeigen, dass L(V, W ) ein linearer Unterraum von L(V, Vektorraum. Man kann dann leicht beweisen, dass (35) eine Norm auf L(V, W ) definiert. Man nennt kLkop die Operatornorm von L. L(V, W ), versehen mit der Norm k.kop ist also ein normierter Vektorraum. Tatsache: Ist W vollständig, so ist auch L(V, W ) ein vollständig normierter Vektorraum, unabhängig davon, ob V vollständig ist oder nicht (ein vollständiger normierter Vektorraum heisst ein Banach-Raum). e W ) und M ∈ L(W, e Sind V, W, X drei Vektorräume, und L ∈ L(V, X) zwei lineare Abbildungen, so können wir die Verknüpfung L ◦ M : V → X durch (L ◦ M )(v) := L(M (v)) definieren. Wir bezeichnen oft die Verknüpfung L ◦ M als L · M oder einfach e X) eine lineare Abbildung ist. Sind ferner als LM . Es ist leicht zu sehen, dass LM ∈ L(V, e W ) und M ∈ L(W, e V, W, X drei normierte Vektorräume und L ∈ L(V, X) beschränkt, dann ist auch LM beschränkt und kLM kop ≤ kLkop kM kop Also, für jede L ∈ L(V, W ) und M ∈ L(W, X), ist LM ∈ L(V, X). Insbesondere, für jede L, M ∈ L(V, V ) ist LM ∈ L(V, V ). Das definiert ein Produkt auf dem Vektorraum L(V, V ). e R) heisst ein lineares FunkSei V ein Vektorraum. Eine lineare Abbildung L ∈ L(V, tional auf V . Sei V ein normierter Vektorraum. Der Raum L(V, R) aller stetigen linearen 43 Funktionalen auf V heisst der Dualraum von V und wird oft mit V ∗ bezeichnet. Versehen mit der Operatornorm kLvk = sup |Lv| v∈V,kvk≤1 ist V ∗ ein normierter Vektorraum. Da R vollständig ist, ist V ∗ immer vollständig. Wir werden in dieser Vorlesung nur endlich dimensionale Vektorräume betrachten. Jeder Vektorraum V mit dim V = n < ∞ ist isomorph zu Rn (ein Isomorphismus ist nach Wahl einer Basis von V gegeben). Auf Rn ist die standard euklidische Norm durch 2 k(x1 , . . . , xn )k = n X |xj |2 j=1 definiert. Auf Rn ist auch ein Skalarprodukt definiert. Für x = (x1 , . . . , xn ) und y = (y1 , ,̇yn ) setzen wir n X x·y = x j yj j=1 Dann gilt kxk2 = x · x. Wir haben in Analysis 1 bewiesen, dass Rn , versehen mit der euklidischen Norm k.k, ein vollständiger normierter Vektorraum ist. Tatsache: Auf einem endlich dimensionalen Vektorraum sind alle zwei Normen äquivalent. D.h., falls k.k1 , k.k2 zwei Normen auf Rn sind, dann es gibt eine Konstante c > 0 mit 1 kxk1 ≤ kxk2 ≤ ckxk1 c für alle x ∈ Rn . Die Äquivalenz der zwei Normen impliziert, dass eine Folge xn auf Rn genau dann bzg. k.k1 konvergiert, wenn sie bzg. k.k2 konvergiert und dass eine Folge xn auf Rn genau dann bzg. k.k1 eine Cauchy-Folge ist, wenn sie bzg. k.k2 eine Cauchy-Folge ist. Da Rn versehen mit der Standardnorm vollständig ist, ist Rn bzg. einer beliebigen Norm ein vollständiger Vektorraum (es ist natürlich möglich, auf Rn eine Metrik d zu finden, so dass (Rn , d) nicht vollständig ist; eine solche Metrik d kann dann aber nicht von einer Norm induziert werden). e = (`ij ), Sei L : Rn → Rm eine lineare Abbildung. Dann existiert eine m × n Matrix L e e so dass L(x) = Lx, wobei das Produkt Lx durch e i= (Lx) n X `ij xj j=1 definiert ist. Wir identifizieren deswegen die lineare Abbildung L mit der entsprechenden e Jede lineare Abbildung L : Rn → Rm ist beschränkt. In der Tat, falls wir Matrix L. auch mit L = (`ij ) die Matrix bezeichnen, die der Abbildung L zugeordnet ist, so gilt kLkop ≤ kLk, wobei m X n X ∗ kLk = Tr L L = |`ij |2 < ∞ i=1 j=1 44 die Standardnorm von L ist, falls wir L als ein Element von Rm×n betrachten. Es folgt, dass jede lineare Abbildung zwischen Rn und Rm automatisch stetig ist, d.h. e n , Rm ) = L(Rn , Rm ). L(R Der Dualraum zu Rn ist der Vektorraum (Rn )∗ = L(Rn , R) aller linearen Funktionalen auf Rn (weil jedes lineare Funktional auf Rn stetig ist). Ein beliebiges lineares Funktional L auf Rn kann also mit einer 1 × n Matrix identifiziert werden. Mit anderen Worten, jedes lineare Funktional L auf Rn kann mit einem Vektor a ∈ Rn identifiziert werden, so dass n X L(x) = a · x = aj xj j=1 Rn wobei a·x das Skalarprodukt auf bezeichnet. Man kann sich leicht davon überzeugen, dass für ein solches lineares Funktional, kLkop = sup |L(x)| = x∈Rn ,kxk≤1 sup |a · x| = kak x∈Rn ,kxk≤1 wobei kak die Standardnorm auf Rn bezeichnet. Es folgt, dass (Rn )∗ ' Rn als normierte Vektorräume identifiziert werden können. Partielle Ableitungen. Nach dieser kurzen Wiederholung aus der linearen Algebra, sind wir bereit, den Begriff von Ableitung auf mehrdimensionale Vektorräume zu definieren. Wir werden der Einfachkeit halber Funktionen betrachten, die auf einer Teilmenge von Rn definiert sind, mit Werten auf Rm . Die Definitionen können aber einfach auf Funktionen zwischen zwei beliebigen (endlich dimensionalen) Vektorräumen verallgemeinert werden (weil jeder endlich dimensionale Vektorraum isomorph zu Rn ist). Auf Rn werden wir immer die euklidische Standardnorm betrachten. Es ist aber einfach, die Definitionen auf beliebige andere Normen zu erweitern (weil jede Norm zur Standardnorm äquivalent ist). Also, obwohl wir nur Funktionen f : Rn ⊃ U → Rm betrachten werden, kann man den Begriff von Ableitung für beliebige Funktionen zwischen zwei normierten endlich dimensionalen Vektorräumen definieren. Definition 3.1. Sei U ⊂ Rn offen, x0 ∈ U , i ∈ {1, . . . , n}. Eine Funktion f : U → R heisst im Punkt x0 partiell differenzierbar in der i-ten Koordinate, falls der Limes ∂f f (x0 + hei ) − f (x0 ) (x0 ) := lim h→0 ∂xi h existiert. Hier sind die Vektoren e1 , . . . , en die Standardbasis von Rn , d.h. wir haben ei = (0, . . . 0, 1, 0, . . . , 0). In diesem Fall heisst die Zahl ∂f /∂xi (x0 ) die i-te partielle Ableitung von f an der Stelle x0 . Die Funktion f heisst an der Stelle x0 ∈ U partiell differenzierbar, falls f in jeder Koordinate an der Stelle x partiell differenzierbar ist. Die Funktion f heisst auf U partiell differenzierbar, falls f an der Stelle x partiell differenezierbar ist, für jede x ∈ U . Bemerkung: Die partielle Ableitung in der i-ten Koordinate ist die gewöhnliche Ableitung bezüglich der i-ten Variablen von f , wenn die anderen (n−1) Koordinaten konstant gehalten werden. D.h. die i-te partielle Ableitung von f an der Stelle x∗ = (x∗1 , . . . , x∗n ) ∈ 45 Rn ist die Ableitung der Funktion einer Variablen t → f (x∗1 , x∗2 , . . . , x∗i + t, x∗i+1 , . . . , x∗n ) an der Stelle t = 0. Bemerkung: Analog kann man die partielle Ableitungen einer vektorwertigen Funktion definieren. Sei wie oben U ⊂ Rn offen und f : U → Rm . Für j = 1, . . . , m, sei fm : U → R die m-te Komponente von f ; d.h. es gelte f (x) = (f1 (x), . . . , fm (x)). Dann sagen wir, dass f im Punkt x0 in der i-ten Koordinate partiell differenzierbar ist, falls fj an der Stelle x0 in der i-ten Koordinate partiell differenzierbar ist, für alle j = 1, . . . , m. In diesem Fall ist die i-te partielle Ableitung von f aus dem Vektor ∂f1 ∂fm ∂f (x0 ) = (x0 ), . . . , (x0 ) ∈ Rm ∂xi ∂xi ∂xi gegeben. Es stellt sich heraus, dass der Begriff von partieller Differenzierbarkeit ein bisschen zu schwach ist. Viele Resultate, die wir für differenzierbare Funktionen auf R kennen, gelten für eine auf einer offenen Teilmenge U ⊂ Rn definierte, partiell differenzierbare Funktion f nicht. Z.B. zeigt das folgende Beispiel, dass partielle Differenzierbarkeit einer Funktion nicht ihre Stetigkeit impliziert. Beispiel: Auf R2 definieren wir die Funktion xy falls (x, y) 6= (0, 0) x2 +y 2 f (x, y) = 0 falls (x, y) = (0, 0) Wir behaupten, dass f auf R2 partiell differenzierbar ist. In der Tat ist f offenbar an der Stelle (x, y) in der ersten Koordinate partiell differenzierbar für alle (x, y) 6= (0, 0). Wir behaupten, f auch an der Stelle (0, 0) in der ersten Koordinate partiell differenzierbar ist. In der Tat f (h, 0) − f (0, 0) 0 lim = lim = 0 h→0 h→0 h h Analog kann man zeigen, dass f überall in der zweiten Koordinate partiell differenzierbar ist. Also ist f auf R2 partiell differenzierbar. Wir behaupten nun, dass f an der Stelle (0, 0) nicht stetig ist. In der Tat haben wir 1/k 2 1 = 6= 0 2 2 k→∞ 1/k + 1/k 2 lim f (1/k, 1/k) = lim k→∞ Also, obwohl die Folge (1/k, 1/k) → (0, 0) konvergiert, ist f (1/k, 1/k) 6→ f (0, 0). Ableitung auf Rn . Wir brauchen also einen stärkeren Begriff von Differenzierbarkeit für Funktionen, die auf Teilmengen von Rn definiert sind. Um den richtigen Begriff zu finden, möchten wir zunächst den Begriff von Differenzierbarkeit für Funktionen einer Variablen umschreiben. Sei U ⊂ R offen, und x0 ∈ U . Eine Funktion f : U → R ist an der Stelle x0 falls der Grenzwert f (x0 + h) − f (x0 ) lim h→0 h existiert. Es folgt: f ist in x0 differenzierbar, falls ein Zahl L ∈ R existiert s.d. |f (x0 + h) − f (x0 ) − Lh| = o(|h|) 46 im Limes h → 0. Das bedeutet, f ist an der Stelle x0 differenzierbar, falls sich f in der Nähe von x0 durch eine lineare Funktion approximieren lässt. Ist das der Fall, so ist L eindeutig bestimmt und aus L = f 0 (x0 ) gegeben. Dieser Begriff lässt sich nun auf Funktionen verallgemeinern, die auf einer offenen Teilmenge von Rn definiert sind. Definition 3.2. Sei U ⊂ Rn offen, f : U → Rm und x0 ∈ U . Die Funktion f heisst an der Stelle x0 differenzierbar, wenn eine lineare Abbildung L : Rn → Rm existiert, so dass f (x0 + h) − f (x0 ) − L(h) lim =0 h→0 khk In diesem Fall heisst die Abbildung L die Ableitung oder das Differential von f an der Stelle x0 und wird mit L = Df (x0 ) bezeichnet. f heisst auf U differenzierbar, falls f an der Stelle x differenzierbar ist, für alle x ∈ U . Bemerkung: Es folgt, dass eine Funktion f ist an der Stelle x0 differenzierbar, falls sie sich lokal durch eine lineare Abbildung approximieren lässt, d.h. falls L ∈ L(Rn , Rm ) existiert, s.d. kf (x0 + h) − f (x0 ) − Lhk = o(khk) Bemerkung: Ist f an der Stelle x0 differenzierbar, so ist die Ableitung Df (x0 ) eindeutig bestimmt. Gilt in der Tat f (x0 + h) − f (x0 ) − L(h) = 0, h→0 khk lim so muss f (x0 + h) − f (x0 ) − M (h) =0 h→0 khk und lim kL(h) − M (h)k =0 h→0 khk lim Da kL(x/K) − M (x/K)k kLx − M xk = kxk kx/Kk für alle K > 0, erhalten wir kLx − M xk kL(x/K) − M (x/K)k kL(h) − M (h)k = lim = lim =0 K→∞ h→0 kxk kx/Kk khk für alle x ∈ Rn . Das bedeutet kL − M kop = kLx − M xk =0 kxk x∈Rn \{0} sup und deswegen L = M . Bemerkung: Ist f an der Stelle x0 differenzierbar, so ist die Ableitung Df (x0 ) : Rn → Rm eine lineare Abbildung. Man kann also Df (x0 ) mit einer n × m Matrix identifizieren. Wie für jede lineare Abbildung zwischen endlich dimensionale Vektorräume, ist Df (x0 ) beschränkt, kDf (x0 )kop < ∞, und damit auch stetig. Bemerkung: Sei U ⊂ Rn offen. Sei f : U → Rm mit Komponenten f1 , . . . , fm : U → R. D.h. es gelte f (x1 , . . . , xn ) = (f1 (x1 , . . . , xn ), . . . , fm (x1 , . . . , xn )) für alle (x1 , . . . , xn ) ∈ U . Dann ist f an der Stelle x0 ∈ U genau dann differenzierbar, wenn fj an der Stelle 47 x0 differenzierbar ist, für alle j = 1, . . . , m. Das folgt aus der Tatsache, dass eine Folge (n) (n) x(n) = (x1 , . . . , xm ) ∈ Rm genau dann gegen x = (x1 , . . . , xm ) ∈ Rm konvergiert, wenn (n) xj → xj für alle j = 1, . . . , m. Satz 3.3. Sei U ⊂ Rn offen, x0 ∈ U , und f : U → Rm an der Stelle x0 differenzierbar. Dann ist f an der Stelle x0 stetig. Beweis: Sei L die Ableitung von f an der Stelle x0 . Wir schreiben f (x0 + h) − f (x0 ) = [f (x0 + h) − f (x0 ) − L(h)] + L(h) Da f differenzierbar an der Stelle x0 ist, gilt kf (x0 + h) − f (x0 ) − L(h)k → 0 für h → 0. Anderseits, kL(h)k ≤ kLkop khk → 0 für h → 0. Also kf (x0 + h) − f (x0 )k ≤ kf (x0 + h) − f (x0 ) − L(h)k + kL(h)k → 0 für h → 0. Das zeigt, dass f an der Stelle x0 stetig ist. Richtungsableitungen. Ist f an der Stelle x0 differenzierbar, so existieren alle partiellen Ableitungen von f an der Stelle x0 . Ferner existieren alle Richtungsableitungen. Proposition 3.4. Sei U ⊂ Rn offen, x0 ∈ U und f : U → Rm an der Stelle x0 differenzierbar. Dann f (x0 + tv) − f (x0 ) = Df (x0 )(v) t→0 t lim für alle v ∈ Rn (hier ist t ∈ R) und insbesondere existiert der Grenzwert auf der linken Seite. Man nennt den Grenzwert auf der linken Seite die Richtungsableitung von f in der Richtung v. Beweis: Aus Differenzierbarkeit folgt, dass kf (x0 + h) − f (x0 ) − L(h)k =0 h→0 khk lim Insbesondere, falls h = tv für ein festes v ∈ Rn und t ∈ R, gilt (weil, wegen Linearität, L(tv) = tL(v)) f (x0 + tv) − f (x0 ) kf (x0 + tv) − f (x0 ) − L(tv)k −1 0 = lim = kvk lim − L(v) t→0 t→0 ktvk t und damit f (x0 + tv) − f (x0 ) = L(v) t→0 t lim Wählen wir v = ej , dann impliziert Proposition 3.4, dass alle partiellen Ableitungen (∂f /∂xj )(x0 ) für j = 1, . . . , n existieren. Es folgt auch, dass die partielle Ableitung (∂f /∂xj )(x0 ) die j-te Kolumne der Matrix Df (x0 ) ist. Mit anderen Worten, sei f : U → Rm , mit Komponenten f1 , . . . , fm : U → R, so dass f (x) = (f1 (x), f2 (x), . . . , fm (x)) für 48 alle x ∈ U . Sei f an der Stelle x0 differenzierbar. Dann kann die lineare Abbildung Df (x0 ) : Rn → Rm durch die m × n Matrix mit Einträge (Df (x0 ))i,j = ∂fi (x0 ) ∂xj für i = 1, . . . , m und j = 1, . . . , n (36) dargestellt werden. Diese Matrix heisst die Funktionalmatrix, oder die Jacobi-Matrix von f an der Stelle x0 . Wie wir schon gemerkt haben, impliziert die Existenz der Jacobi-Matrix nicht, dass f an der Stelle x0 differenzierbar ist. Man findet aber, dass Existenz und Stetigkeit der partiellen Ableitungen die Differenzierbarkeit von f implizieren. Dieses Kriterium ist wichtig, weil es uns erlaubt, die Differenzierbarkeit von Funktionen, einfach durch Untersuchung der partiellen Ableitungen, zu beweisen. Proposition 3.5. Sei U ⊂ Rn offen, f : U → Rm . Ferner, nehmen wir an, dass die partiellen Ableitungen ∂f /∂xj (x) auf U existieren und stetig sind. Dann ist f auf U differenzierbar. Beweis: O.B.d.A. betrachten wir den Fall m = 1 (die Differenzierbarkeit von f (x) = (f1 (x), . . . , fm (x)) ist mit der Differenzierbarkeit von f1 , . . . , fm äquivalent). Der Einfachkeit halber untersuchen wir zunächst den Fall n = 2. Wir nehmen an 0 = (0, 0) ∈ U , und wir zeigen die Differenzierbarkeit in diesem Punkt. Sei h = (h1 , h2 ) so klein, dass Bkhk (0) ⊂ U . Wir schreiben f (h1 , h2 ) − f (0, 0) = f (h1 , h2 ) − f (h1 , 0) + f (h1 , 0) − f (0, 0) Da die Abbildung y → f (h1 , y) stetig differenzierbar ist (aus Existenz und Stetigkeit der partiellen Ableitung in der y-Richtung), können wir schreiben Z h2 ∂f (h1 , y) ∂y 0 Z h2 ∂f ∂f ∂f (0, 0)h2 + dy (h1 , y) − (0, 0) = ∂y ∂y ∂y 0 f (h1 , h2 ) − f (h1 , 0) = dy Analog ist x → f (x, 0) stetig differenzierbar. Deswegen Z h1 ∂f (x, 0) ∂x 0 Z h1 ∂f ∂f ∂f = (0, 0) + dx (x, 0) − (0, 0) ∂x ∂x ∂x 0 f (h1 , 0) − f (0, 0) = dx Also haben wir ∂f ∂f (0, 0)h1 − (0, 0)h2 ∂x ∂y Z h2 Z h1 ∂f ∂f ∂f ∂f = dx (x, 0) − (0, 0) + dy (h1 , y) − (0, 0) ∂x ∂x ∂y ∂y 0 0 f (h1 , h2 ) − f (0, 0)− 49 Die Differenzierbarkeit von f an der Stelle (0, 0) folgt, falls wir zeigen können, dass Z h2 Z h1 ∂f ∂f ∂f ∂f dy dx (x, 0) − (0, 0) + (h1 , y) − (h1 , y) = o(k(h1 , h2 )k) ∂x ∂x ∂y ∂y 0 0 als (h1 , h2 ) → 0. Sei also ε > 0 fest. Da die partiellen Ableitungen stetig sind, finden wir δ > 0 so dass ∂f (x, y) − ∂f (0, 0) ≤ ε und ∂x 2 ∂x ∂f (x, y) − ∂f (0, 0) ≤ ε ∂y 2 ∂y für alle (x, y) ∈ R2 mit k(x, y)k ≤ δ. Sei nun k(h1 , h2 )k ≤ δ. Dann gilt auch k(h1 , y)k ≤ δ, für alle 0 ≤ y ≤ h2 (angenommen h2 > 0, sonst ist die Aussage war für alle h2 ≤ y ≤ 0). Damit gilt ∂f ε ∂f (h1 , y) − (0, 0) ≤ ∂y ∂y 2 für alle 0 ≤ y ≤ h2 und also Z h2 ε|h2 | ∂f ∂f εkhk dy (h1 , y) − (0, 0) ≤ ≤ ∂y ∂y 2 2 0 Ähnlich gilt k(x, 0)k ≤ δ für alle 0 ≤ x ≤ h1 (oder h1 ≤ x ≤ 0, falls h1 < 0). Deswegen ∂f (x, 0) − ∂f (0, 0) ≤ ε 2 ∂x ∂x für alle 0 ≤ x ≤ h1 und also Z h1 ε|h1 | ∂f εkhk ∂f ≤ (x, 0) − (0, 0) ≤ dx ∂x ∂x 2 2 0 Es folgt, dass für alle ε > 0 ein δ > 0 existiert, so dass Z h1 Z h2 1 ∂f ∂f ∂f ∂f ≤ε dx (x, 0) − (0, 0) + dy (h , y) − (0, 0) 1 k(h1 , h2 )k 0 ∂x ∂x ∂y ∂y 0 für alle k(h1 , h2 )k ≤ δ. Das zeigt die Behauptung. Die Verallgemeinerung zu n ≥ 3 lassen wir als Übung. Der Gradient. Sei U ⊂ Rn , offen und f : U → R eine reel-wertige Abildung, differenzierbar an der Stelle a ∈ U . Das Differential von f an der Stelle a ist dann eine lineare Abbildung Df (a) : Rn → R und kann mit einer 1 × n Matrix identifiziert werden. Mit anderen Worten, Df (a) ist ein lineares Funktional auf Rn . Wie jedes lineare Funktional auf Rn kann Df (a) mit einem Vektor v = (v1 , . . . vn ) ∈ Rn , mit der Eigenschaft, dass Df (a)(y) = v · y = n X j=1 50 vj yj für alle y = (y1 , . . . , yn ) ∈ Rn identifiziert werden. Man nennt den Vektor v den Gradienten von f an der Stelle a und man benutzt die Notation v = ∇f (a). Nach (36) sind die Komponenten vom Gradient aus ∂f ∂f (a), . . . , (a) ∇f (a) = ∂x1 ∂xn gegeben. Für einen beliebigen Einheitsvektor e ∈ Rn gilt, nach Proposition 3.4, d f (a + te)|t=0 = Df (a)(e) = ∇f (a) · e dt D.h. die Zuwachsrate der Funktion f in der Richtung e ist aus dem Skalarprodukt ∇f (a)· e gegeben. Nehmen wir an ∇f (a) 6= 0. Das Skalarprodukt ∇f (a) · e ist dann maximal über allen möglichen Einheitsvektoren e ∈ Rn , mit kek = 1, falls e = ∇f (a)/k∇f (a)k. Für e = ∇f (a)/k∇f (a)k gilt dann d ∇f (a) f (a + te) = ∇f (a) · = k∇f (a)k dt k∇f (a)k Wir haben bewiesen, dass der Vektor ∇f (a) in die Richtung der grössten Zuwachsrate der Funktion f an der Stelle a zeigt. Die Länge von ∇f (a) ist dann genau die grösste Zuwachsrate von f an der Stelle a (das gilt auch, falls ∇f (a) = 0). Stetige Differenzierbarkeit. Sei U ⊂ Rn offen. Eine Funktion f : U → Rm heisst auf U stetig differenzierbar, falls die Ableitung Df (x) existiert, für alle x ∈ U , und falls die Abbildung Df : U → L(Rn ; Rm ) stetig ist. Aus Proposition 3.5 folgt, dass f auf U genau dann stetig differenzierbar ist, wenn die partielle Ableitung ∂fi /∂xj (x) für alle i = 1, . . . , m und alle j = 1, . . . , n auf U existiert und stetig ist. Wir setzen C 1 (U ; Rm ) := {f : U → Rm : f auf U stetig differenzierbar ist} . Rechenregeln. Wir sammeln in der nächsten Proposition ein paar nützliche elementare Regeln für die Berechnung von Ableitungen von Funktionen mit mehreren Veränderlichen. Proposition 3.6. Sei U ⊂ Rn offen, a ∈ U . a) Seien f, g : U → Rm differenzierbar an der Stelle a und λ ∈ R. Dann ist auch f + λg : U → Rm differenzierbar an der Stelle a und D(f + λg)(a) = Df (a) + λDg(a). b) Ist f konstant auf U , so gilt Df (x) = 0 für alle x ∈ U . c) Ist f : Rn → Rm linear, dann gilt Df (x) = f , für alle x ∈ Rn . Beweis: Teil (a) und (b) sind offenbar, nach Definition der Ableitung und linearität des Limes. Zu Teil (c) bemerken wir, dass f (x + h) = f (x) + f (h). Das impliziert, dass kf (x + h) − f (a) − f (h)k = 0 = o(khk) Damit ist die lineare Abbildung L = f die Ableitung von f an der Stelle x. 51 Kettenregel. Die Ableitung der Verknüpfung zweier Funktionen kann durch die Kettenregel berechnet werden. Satz 3.7. Sei U ⊂ Rn und G ⊂ Rp offen. f : U → Rp , g : G → Rm , mit f (U ) ⊂ G. Sei a ∈ U , f differenzierbar an der Stelle a, g differenzierbar an der Stelle f (a). Dann ist die Funktion g ◦ f : U → Rm differenzierbar an der Stelle a ∈ U , und D(g ◦ f )(a) = Dg(f (a)) · Df (a) wobei das Produkt auf der rechten Seite die Komposition der zwei linearen Abbildungen Df (a) : Rn → Rp und Dg(f (a)) : Rp → Rm ist. Mit anderen Worten, die m × n Matrix D(g ◦ f )(a) ist aus dem Produkt der m × p Matrix Dg(f (a)) mit der p × n Matrix Df (a) gegeben. Beweis: Sei b = f (a), L = Df (a), M = Dg(b). Für h ∈ Rn , e h ∈ Rp setzen wir η1 (h) = f (a + h) − f (a) − L(h), und η2 (e h) = g(b + e h) − g(b) − M (e h) Nach Differenzierbarkeit von f an der Stelle a und von g an der Stelle b, gilt kη1 (h)k = o(khk), und kη2 (e h)k = o(ke hk) für h, e h → 0. Sei nun h ∈ Rn beliebig und e h = L(h) + η1 (h). Dann gilt b+e h = f (a) + L(h) + η1 (h) = f (a + h) Also (g ◦ f )(a + h) = g(f (a + h)) = g(b + e h) = g(b) + M (e h) + η2 (e h) = g(f (a)) + M (L(h)) + M (η1 (h)) + η2 (e h) Die Behauptung folgt, falls wir zeigen können, dass i) kM (η1 (h))k = o(khk) und ii) kη2 (e h))k = o(khk) für h → 0. Um i) zu zeigen, bemerken wir einfach, dass kM (η1 (h))k kη1 (h)k ≤ kM kop →0 khk khk für h → 0, weil η1 (h) = o(khk). Anderseits, um ii) zu beweisen, benutzen wir, dass kη1 (h)k ≤ khk für khk klein genug (weil η1 (h) = o(khk)). Deswegen gilt ke hk = kL(h) + η1 (h)k ≤ kL(h)k + kη1 (h)k ≤ (kLk + 1)khk für khk klein genug. Da η2 (e h) = o(ke hk) existiert, für ein beliebiges ε > 0 ein δ > 0 mit kη2 (e h)k ≤ εke hk ≤ (kLk + 1)εkhk für alle h ∈ Rn mit khk ≤ δ. Das bedeutet, dass η2 (e h) = o(khk) und zeigt ii). 52 Beispiel. Sei q : R → R3 die Bahn eines Teilchens als Funktion der Zeit. Sei T : R×R3 → R die Temperatur als Funktion von der Zeit und von der Position im Raum. Die vom Teilchen zur Zeit t gespürte Temperatur ist aus der Funktion t → T (t, q(t)) gegeben. Sind q und T differenzierbar, so ist auch t → T (t, q(t)) differenzierbar, mit 3 X ∂T d ∂T (t, q(t))qj0 (t) T (t, q(t)) = (t, q(t)) + dt ∂t ∂xj j=1 Das Resultat folgt mit der Definition f : R → R4 durch f (t) = (t, q1 (t), q2 (t), q3 (t)). Nach Differenzierbarkeit von q ist auch f differenzierbar, mit f 0 (t) = (1, q10 (t), q20 (t), q30 (t)) Da T (t, q(t)) = (T ◦ f )(t) folgt, dass 3 (T ◦ f )0 (t) = DT (f (t)) · f 0 (t) = (∇T )(f (t)) · f 0 (t) = X ∂T ∂T (t, q(t))qj0 (t) (t, q(t)) + ∂t ∂xj j=1 3.2 Mittelwertsatz Für eine auf [a; b] stetige und auf (a; b) differenzierbare Funktion f : [a; b] → R besagt der Mittelwertsatz, dass ein ξ ∈ (a; b) existiert, mit f (b) − f (a) = f 0 (ξ)(b − a). Wir zeigen hier eine analoge Aussage für Funktionen mit mehreren Veränderlichen. Satz 3.8 (Mittelwertsatz). Sei U ⊂ Rn offen, f : U → R differenzierbar. Seien a, b ∈ U mit [a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} ⊂ U Dann gibt es ein ξ ∈ [a; b] (ξ 6= a, b) mit f (b) − f (a) = ∇f (ξ) · (b − a) Beweis: Sei φ : [0, 1] → Rn durch φ(t) = (1 − t)a + tb definiert. Sei ψ : [0; 1] → R durch ψ(t) = f (φ(t)) definiert. Nach der Kettenregel ist ψ ist dann auf [0; 1] stetig und auf (0; 1) differenzierbar, mit ψ 0 (t) = ∇f (φ(t)) · φ0 (t) = ∇f ((1 − t)a + tb) · (b − a) Aus dem Mittelwertsatz für Funktionen einer Variablen existiert t0 ∈ (0; 1) mit f (b) − f (a) = ψ(1) − ψ(0) = ψ 0 (t0 )(1 − 0) = ∇f ((1 − t0 )a + t0 b) · (b − a) Die Behauptung folgt, mit ξ = (1 − t0 )a + t0 b. Für Funktionen mit Werten auf Rm , m > 1, gilt i.A. der Mittelwertsatz nicht (unabhängig davon, ob die Funktion eine oder mehrere Veränderliche hat; siehe Bemerkung unter Satz 8.9 in Analysis 1). Man kann aber eine Mittelwertabschätzung zeigen (siehe Proposition 8.10 in Analysis 1 für die Mittelwertabschätzung für Funktionen einer Variablen). 53 Satz 3.9 (Mittelwertabschätzung). Sei U ⊂ Rn offen, f : U → Rm differenzierbar, a, b ∈ U mit [a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} ⊂ U Sei kDf (x)kop ≤ M für alle x ∈ [a; b]. Dann gilt kf (b) − f (a)k ≤ M kb − ak Beweis: O.B.d.A. können wir annehmen, dass f (b) 6= f (a). Wir setzen e= f (b) − f (a) ∈ Rm . kf (b) − f (a)k Wir definieren die lineare Funktion φ : Rm → R durch φ(x) = x · e. Wir bemerken, dass, wegen Linearität, φ auf Rm differenzierbar ist, mit Dφ = φ. Ferner, da kek = 1, gilt kφkop ≤ 1 (eigentlich kφkop = 1). Wir definieren auch die Funktion g : Rn → R durch g(x) = φ(f (x) − f (a)) Es gilt g(a) = 0 und g(b) = kf (b)−f (a)k. Aus der Kettenregel ist g auf U differenzierbar, mit Dg(x) = Dφ(f (x) − f (a)) · Df (x) = φ · Df (x) Für x ∈ [a; b] gilt also kDg(x)kop ≤ kφkop kDf (x)kop ≤ M Der Mittelwertsatz 3.8 für die Funktion g impliziert, dass ein ξ ∈ [a; b] mit kf (b) − f (a)k = g(b) − g(a) = Dg(ξ) · (b − a) ≤ kDg(ξ)kop kb − ak ≤ M kb − ak existiert. Eine Anwendung der Mittelwertabschätzung ist der Beweis der Tatsache, dass eine auf einem offenen und zusammenhängenden Gebiet U ⊂ Rn definierte Funktion f mit Df = 0 auf U konstant sein muss. Definition 3.10. Ein Streckenzug auf Rn ist eine Menge der Form [a1 ; a2 ] ∪ [a2 ; a3 ] ∪ · · · ∪ [ap−1 ; ap ] für ein p ∈ N, und für Punkten a1 , . . . , an ∈ Rn (hier bezeichnet [a; b] = {(1 − λ)a + λb : λ ∈ [0; 1]} der Segment zwischen a und b). a0 heisst Anfangspunkt und an heisst Endpunkt des Streckenzuges. Wir sagen dann der Streckenzug verbindet die Punkten a0 und ap . Eine offene Teilmenge U ⊂ Rn heisst zusammenhängend falls je zwei Punkten in U durch einen Streckenzug in U verbinden werden können. Proposition 3.11. Sei U ⊂ Rn offen und zusammenhängend, f : U → Rm differenzierbar, mit Df (x) = 0 für alle x ∈ U . Dann ist f konstant auf U . 54 Beweis: Ist [a; b] ⊂ U dann gilt, aus Satz 3.9 mit M = 0, f (b) = f (a). Seien nun x, y ∈ U beliebig. Da U zusammenhängend ist gibt es ein Streckenzug [a0 ; a1 ] ∪ · · · ∪ [ap−1 ; ap ] in U , mit a0 = x und ap = y. Also f (x) = f (a1 ) = f (a2 ) = · · · = f (ap−1 ) = f (y) . Bemerkung: die Annahme, dass U zusammenhängend ist, ist notwendig. Sei U = {x ∈ R2 : |x| < 1 oder |x − 3| < 1} und f : U → R durch f (x) = 0 falls |x| < 1 und f (x) = 1 falls |x − 3| < 1 definiert. Dann ist U offen, und Df (x) = 0 für alle x ∈ U , aber f ist auf U nicht konstant. 3.3 Höhere Ableitungen, Taylor Entwicklung, lokale Extrema Sei U ⊂ Rn offen, und f : U → Rm differenzierbar. Die Ableitung von f ist dann eine Funktion Df : U → L(Rn ; Rm ) mit Werten in den linearen Abbildungen zwischen Rn und Rm . Man kann L(Rn ; Rm ) mit dem Vektorraum Rmn identifizieren (weil jede lineare Abbildung in L(Rn ; Rm ) mit einer m × n Matrix identifiziert werden kann). Man kann sich also fragen, ob die Abbildung Df differenzierbar ist. Ist Df an der Stelle a ∈ U differenzierbar, dann heisst f an der Stelle a zweimal differenzierbar. Die zweite Ableitung ist eine lineare Abbildung D2 f (a) : Rn → Rmn , d.h. D2 f (a) ∈ 2 L(Rn ; Rn×m ) ' Rmn . Iterativ kann man höhere Ableitungen definieren. Ist f auf U k k-mal differenzierbar, und ist die k-te Ableitung Dk f : U → Rmn an der Stelle a differenzierbar, dann sagt man, dass f an der Stelle a (k + 1)-mal differenzierbar ist, k k+1 und man bezeichnet die (k + 1)-te Ableitung mit Dk+1 f (a) ∈ L(Rn ; Rmn ) ' Rmn . Man bemerke, dass die Abbildung D2 f (a) : Rn → L(Rn ; Rm ) ' Rn×m mit der bilinearen Abbildung D2 f (a) : Rn × Rn → Rm , definiert durch (D2 f (a))(v, v 0 ) = (D2 f (a)(v))(v 0 ) , identifiziert werden kann (wir benutzen die selbe Notation D2 f (a) für die lineare Abbildung Rn → L(Rn ; Rm ) und für die bilineare Abbildung Rn × Rn → Rm ). Wir erinnern hier, dass eine Abbildung b : Rn × Rn → Rm bilinear heisst, falls die zwei Bedingungen b(v1 + λv2 , v) = b(v1 , v) + λb(v2 , v) (Linearität im ersten Argument) b(v, v1 + λv2 ) = b(v, v1 ) + λb(v, v2 ) (Linearität im zweiten Argument) (37) für alle v, v1 , v2 ∈ Rn , λ ∈ R erfüllt sind. Analog kann D3 f (a) mit einer trilinearen Form identifiziert werden und Dk f (a) mit einer k-linearen Abbildung auf Rn , mit Werten in Rm . Höhere partielle Ableitungen. Sei nun f : U → R partiell differenzierbar. Dann ist ∂f /∂xj wieder eine Funktion auf U mit Werten in R. Ist diese neue Funktion partiell differenzierbar, so können wir die partiellen Ableitungen zweiter Ordnung ∂2f ∂ ∂f = ∂xj ∂xi ∂xj ∂xi 55 definieren. Iterativ kann man partielle Ableitungen höherer Ordnung definieren (die Ordnung einer partiellen Ableitung ist die gesamte Anzahl von partiellen Ableitungen). Um die Notation ein bisschen zu vereinfachen, schreiben wir, für eine partielle Ableitung der Ordnung k, ∂kf ∂ ∂f ∂ ∂ = . ... ∂i1 ∂i2 . . . ∂ik f = ∂xi1 ∂xi2 . . . ∂xik ∂xi1 ∂xi2 ∂xik−1 ∂xik Wir sagen, die Funktion f : U → R ist k-mal partiell differenzierbar, falls alle partiellen Ableitungen der Ordnung kleiner oder gleich k existieren. Wir sagen, dass eine Funktion f : U → Rm k-mal partiell differenzierbar ist, falls f (x) = (f1 (x), . . . , fm (x)) und jede Komponente f1 , . . . , fm : U → R k-mal partiell differenzierbar ist. Für k ∈ N, k ≥ 1, bezeichnen wir mit C k (U ; Rm ) die Menge der Funktionen f : U → Rm , die auf U k-mal differenzierbar sind, so dass Dk f stetig ist. Nach Proposition 3.5 ist C k (U ; Rm ) genau die Menge der Funktionen f : U → Rm , für die alle partiellen Ableitungen der Ordnung kleiner oder gleich k existieren und stetig sind. Zur Berechnung von höheren partiellen Ableitungen ist es sehr nützlich zu bemerken, dass (unter geeigneten Annahmen an f ) sich partielle Ableitungen miteinander vertauschen, d.h. ∂i ∂j f = ∂j ∂i f . Das wird in dem nächsten Satz bewiesen. Satz 3.12 (Schwarz). Sei U ⊂ R2 offen, (x0 , y0 ) ∈ U , und f : U → R in U partiell differenzierbar. Falls ∂y ∂x f auf U existiert und an der Stelle (x0 , y0 ) stetig ist, dann existiert auch ∂x ∂y f an der Stelle (x0 , y0 ) und ∂x ∂y f (x0 , y0 ) = ∂y ∂x f (x0 , y0 ) . Bemerkung. O.B.d.A. können wir (x0 , y0 ) = (0, 0) betrachten. Da ∂y f (x, 0) = lim y→0 f (x, y) − f (x, 0) y erhalten wir f (x,y)−f (x,0) ∂y f (x, 0) − ∂y f (0, 0) y ∂x ∂y f (0; 0) = lim = lim lim x→0 x→0 y→0 x f (x, y) − f (x, 0) − f (0, y) + f (0, 0) = lim lim x→0 y→0 xy − f (0,y)−f (0,0) y x (38) Analog gilt ∂y ∂x f (0; 0) = lim lim y→0 x→0 f (x, y) − f (0, y) − f (x, 0) + f (0, 0) xy Das Problem ist also zu zeigen, dass die zwei Grenzwerte vertauscht werden können. Beweis: O.B.d.A. nehmen wir an, dass (x0 , y0 ) = (0, 0) und dass ∂y ∂x f (0, 0) = 0 (sonst ersetze f (x, y) durch f (x, y) − ∂y ∂x f (0, 0)xy). Wir definieren die Funktion φ(x, y) = f (x, y) − f (x, 0). Gemäss (38) sind wir an f (x, y) − f (0, y) − f (x, 0) + f (0, 0) φ(x, y) − φ(0, y) = xy xy 56 interessiert. Für festgehaltene y ist φ differenzierbar nach x und es gilt ∂x φ(x, y) = ∂x f (x, y) − ∂x f (x, 0) Der Mittelwertsatz (für Funktionen einer Variablen) zeigt, es existiert 0 < θ < 1 mit φ(x, y) − φ(0, y) = x∂x φ(θx, y) = x[∂x f (θx, y) − ∂x f (θx, 0)] (39) Nun ist die Funktion y → ∂x f (θx, y), für festgehaltene x und θ nach y differenzierbar, mit Ableitung ∂y ∂x f (θx, y) (wir benutzen hier die Existenz der zweiten partiellen Ableitung ∂y ∂x f auf U ). Der Mittelwertsatz (für eine Variable) impliziert also, dass ein 0 < θ0 < 1 existiert, mit ∂x f (θx, y) − ∂x f (θx, 0) = y∂y ∂x f (θx, θ0 y) Aus (39) folgt, dass φ(x, y) − φ(0, y) = xy∂y ∂x f (θx, θ0 y) und damit f (x, y) − f (0, y) − f (x, 0) + f (0, 0) = ∂y ∂x f (θx, θ0 y) xy Sei nun ε > 0 beliebig fest gewählt. Da ∂y ∂x f an der Stelle (0, 0) stetig ist, und da ∂y ∂x f (0, 0) = 0, existiert ein δ > 0 mit |∂y ∂x f (w, z)| ≤ ε für alle (w, z) ∈ R2 mit k(w, z)k ≤ δ. Seien also (x, y) ∈ R2 , mit k(x, y)k ≤ δ. Dann gilt auch k(θx, θ0 y)k ≤ δ, für alle θ, θ0 ∈ (0, 1). Deswegen gilt |∂y ∂x f (θx, θ0 y)| ≤ ε und f (x,y)−f (x,0) − y x f (0,y)−f (0,0) y f (x, y) − f (0, y) − f (x, 0) + f (0, 0) ≤ε = xy Das gilt für alle k(x, y)k ≤ δ, und also insbesondere für feste x ∈ (−δ, δ) und y → 0. Da f (x, y) − f (x, 0) = ∂y f (x, 0), y→0 y lim erhalten wir und f (0, y) − f (0, 0) = ∂y f (0, 0) y→0 y lim ∂y f (x, 0) − ∂y f (0, 0) ≤ε x für alle x ∈ (−δ, δ). Da ε > 0 beliebig ist, es folgt, dass ∂y f (x, 0) − ∂y f (0, 0) =0 x→0 x lim (und insbesondere, dass der Grenzwert existiert). Das zeigt, dass ∂x ∂y f (0, 0) = 0. Durch wiederholte Anwendung von Satz 3.12 bekommen wir das folgende Korollar für partielle Ableitungen beliebiger Ordnung. 57 Korollar 3.13. Sei U ⊂ Rn offen. Sei k ∈ N und f ∈ C k (U ). Dann gilt für alle i1 , . . . , ik ∈ {1, . . . , n} und alle Permutationen π der Zahlen {1, . . . , k}, ∂i1 . . . ∂ik f = ∂iπ1 . . . ∂iπk f . Bespiel: Sei f ∈ C 4 (U ). Dann ∂x1 ∂x1 ∂x2 ∂x2 f = ∂x1 ∂x2 ∂x1 ∂x2 f = ∂x1 ∂x2 ∂x2 ∂x1 f = . . . . Bemerkung: Nicht nur die verschiedenen partiellen Ableitungen, sondern auch beliebige Richtungsableitungen vertauschen sich miteinander. Differentialoperatoren. Man kann partielle Ableitungen als Operatoren interpretieren, die auf differenzierbare Funktionen wirken. Sei X p(ξ1 , . . . , ξn ) = pi1 ,...,in ξ1i1 . . . ξnin i1 ,...,in ≥0:i1 +···+in ≤k ein Polynom in den n Variablen ξ1 , . . . , ξn . Dann definieren wir den entsprechenden Differentialoperator X p (∂1 , . . . , ∂n ) = pi1 ,...,in ∂1i1 . . . ∂nin i1 ,...,in ≥0:i1 +···+in ≤k Der Operator p(∂1 , . . . , ∂n ) ist linear und bildet Funktionen in C k (U ) nach Funktionen in C(U ). Der Operator ist wohldefiniert aus Satz 3.12, weil die verschiedenen partiellen Ableitungen sich miteinander vertauschen (wäre das nicht der Fall, so würden zwei verschiedene Operatoren dem selben Polynom entsprechen). Eine weitere Folgerung von Satz 3.12 ist die folgende Bemerkung: Seien p1 , p2 zwei Polynome in n Variablen der Ordnung k1 und k2 , sei p1 · p2 das Produkt der zwei Polynome (ein Polynom in n Variablen der Ordnung k1 + k2 ). Dann gilt p1 (∂1 , . . . , ∂n ) · p2 (∂1 , . . . , ∂n ) = (p1 · p2 )(∂1 , . . . , ∂n ) als Identität zweier Operatoren auf C (k1 +k2 ) (U ). Das Produkt auf der linken Seite ist die Komposition von zwei (linearen) Abbildungen. P Beispiel: Sei p(ξ1 , . . . , ξn ) = nj=1 ξj2 . Der Laplace-Operator auf Rn ist aus ∆ := p (∂1 , . . . , ∂n ) = n X ∂j2 = j=1 n X ∂2 ∂x2j j=1 gegeben. Der Laplace-Operator wirkt auf C 2 (Rn ). Taylor Entwicklung. Wir erinnern uns an den Begriff der Taylor-Entwicklung für Funktionen einer Variablen (siehe Kapitel 8.6 im Skript zu Analysis 1). Sei f ∈ C m+1 ([a; x]). Dann existiert ξ ∈ (a; x), so dass f (x) = f (a) + f 0 (a)(x − a) + · · · + f (m) (a) f (m+1) (ξ) (x − a)m + (x − a)m+1 . m! (m + 1)! 58 Sei nun U ⊂ Rn offen, a ∈ U und h ∈ Rn mit a + h ∈ U . Sei weiter f ∈ C m+1 (U ) R-wertig. Wir setzen φ(t) = f (a + th). Dann ist φ ∈ C m+1 ([0, 1]), mit φ(1) = f (a + h) und φ(0) = f (a). Das impliziert, dass f (a + h) = f (a) + m X φ(j) (0) j=1 j! + φ(m+1) (θ) (m + 1)! für ein θ ∈ (0; 1). Wir müssen die Ableitungen von φ berechnen. Es gilt φ0 (t) = Df (a + th)(h) = h · ∇f (a + th) und deswegen φ0 (0) = h · ∇f (a). Induktiv bekommen wir φ(j) (t) = (h · ∇)j f (a + th) Der Operator (h · ∇)j ist ein Differentialoperator der Ordnung j. Man findet !j n X X (h · ∇)j hi11 . . . hinn i1 = = ∂ . . . ∂nin hi ∂i j! i1 !i2 ! . . . in ! 1 i1 ,...,in ≥0:i1 +···+in =j i=1 und also die Taylor-Entwicklung f (a + h) = f (a) + + m X 1 ∂1i1 . . . ∂nin f (a) hi11 . . . hinn i !i ! . . . in ! j=1 i1 ,...,in ≥0:i1 +···+in =j 1 2 (40) X 1 i1 i1 in in ∂ . . . ∂n f (a + θh) h1 . . . hn i1 !i2 ! . . . in ! 1 X i1 ,...,in :i1 +···+in =m+1 Es ist nützlich, eine kompaktere Notation für die höheren partiellen Ableitungen einzuführen. Ein Multiindex ist eine n-Tupel i = (i1 , . . . , in ) mit ij ∈ N für alle j = 1, . . . , n. Der Betrag des Multiindexes i = (i1 , . . . , in ) wird als |i| = i1 + i2 + · · · + in definiert. Für den Multiindex i definieren wir weiter die partielle Ableitung der Ordnung |i| ∂ i := ∂1i1 ∂2i2 . . . ∂nin und hi := hi11 . . . hinn für alle h = (h1 , . . . , hn ) ∈ Rn . Wir setzen auch i! := i1 !i2 ! . . . in !. Dann lässt sich (40) als f (a + h) = m X X (∂ i f )(a) i h + i! j=0 i:|i|=j X i:|i|=m+1 (∂ i f )(a + θh) i h i! (41) schreiben, für ein beliebiges f ∈ C m+1 (U ), U ⊂ Rn offen, a ∈ U und h klein genug. In (41) bilden die ersten m Termen das m-te Taylor-Polynom von f an der Stelle a: m X X (∂ i f )(a) i pm (h) = h i! j=0 i:|i|=j 59 Der letzte Term auf der rechten Seite von (41) heisst das Restglied. Das Restglied ist offenbar O(khkm+1 ), für h → 0. In den Übungen wird ferner bewiesen, dass m+1 i X X (∂ f )(a) i 1 f (a + h) − h = 0. lim m+1 h→0 khk i! j=0 i:|i|=j Wir haben in (37) bemerkt, dass die r-te Ableitung Dr f (a) als die r-lineare Form Dr f (a) :Rn × · · · × Rn → R (v1 , v2 , . . . , vr ) → Dr f (a)(v1 , . . . , vr ) = (((Dr f (a)(v1 ))(v2 )) . . . )(vr ) interpretiert werden kann. Man kann dann überprüfen, dass X (∂ i f )(a) X 1 1 r D f (a)(h, h, . . . , h) = hi = (∂ i1 . . . ∂nin f )(a)hi11 . . . hinn r! i! i1 !i2 ! . . . in ! 1 i:|i|=r i:|i|=r Damit können wir die Taylor-Entwicklung (41) als f (a + h) = m X Dr f (a)(h, . . . , h) r=0 r! + Dm+1 f (a + θh)(h, . . . , h) (m + 1)! (42) umschreiben. Man bemerke, dass, für feste a, Dr f (a)(h, . . . , h) ein homogenes Polynom von Grad r in h ist. D.h. g(h) := Dr f (a)(h, . . . , h) ist ein Polynom in h, mit der Eigenschaft g(th) = tr g(h) für alle t ∈ R. Lokale Extrema und kritische Punkte. Sei U ⊂ Rn offen und f : U → R. Ein Punkt a ∈ U heisst ein lokales Minimum von f , falls eine offene Umgebung A ⊂ U von a existiert, mit f (a) = min{f (x) : x ∈ A}. a heisst ein lokales Maximum von f , falls eine offene Umgebung A ⊂ U von a existiert, so dass f (a) = max{f (x) : x ∈ A}. a ∈ U heisst ein lokales Extremum, falls a entweder ein lokales Minimum oder ein lokales Maximum ist. Für eine Funktion φ einer Variablen haben wir in Analysis 1 bewiesen, dass, falls φ an der Stelle t ∈ R differenzierbar ist, mit φ0 (t) 6= 0, t kein Extremum sein kann. Im nächsten Satz zeigen wir die analoge Aussage für Funktionen mehrerer Veränderlichen. Satz 3.14. Sei U ⊂ Rn offen, a ∈ U und f : U → R differenzierbar an der Stelle a. Es gelte ∇f (a) 6= 0. Dann ist a kein Extremum von f . Beweis: Sei e ∈ Rn ein Einheitsvektor mit e · ∇f (a) 6= 0. Wir setzen φ(t) = f (a + te) für t ∈ R, mit |t| klein genug (damit a+te ∈ U ). φ ist an der Stelle t = 0 differenzierbar, mit φ0 (0) = e · ∇f (a) 6= 0. Also ist 0 ∈ R keine Extremalstelle von φ. D.h. φ nimmt in jeder Umgebung von 0 Werten grösser als φ(0) = f (a) und Werten kleiner als φ(0) = f (a) an. Das zeigt, dass a keine Extremalstelle von f ist. Seien U , f wie oben. Wir sagen a ∈ U ist ein kritischer Punkt von f , falls f in a differenzierbar ist und ∇f (a) = 0. Ist a ∈ U ein Extremum von f , so muss entweder f an der Stelle a nicht differenzierbar sein, oder a muss ein kritischer Punkt sein. 60 Sei nun f ∈ C p (U ) und a eine kritische Stelle von f . Es existiere 1 < r < p mit 6= 0. Sei r die kleinste ganze Zahl mit dieser Eigenschaft. Dann gilt, aus (42), Dr f (a) f (a + h) = f (a) + 1 r D f (a)(h, . . . , h) + O(khkr+1 ) r! (43) für h → 0. Die Frage, ob a ein Maximum, ein Minimum oder keine Extremalstelle ist, wird vom Verhalten von Dr f (a)(h, . . . , h) bestimmt. Definition 3.15. Sei p : Rn → R ein homogenes Polynom. Wir sagen p ist positiv definit, wenn p(h) > 0 für alle h 6= 0 p ist positiv semidefinit, wenn p(h) ≥ 0 für alle h p ist negativ definit, wenn p(h) < 0 für alle h 6= 0 p ist negativ semidefinit, wenn p(h) ≤ 0 für alle h p ist indefinit, wenn p weder positiv noch negativ semidefinit ist Ist p indefinit, so nimmt p Werte mit beiden Vorzeichen. Bemerkung. Ist p : Rn → R ein homogenes Polynom von ungeradem Grad r, so ist entweder p ≡ 0 oder p indefinit. In der Tat p(−h) = (−1)r p(h) = −p(h) D.h. entweder ist p ≡ 0 oder p nimmt positive und negative Werte an. Beispiele: Sei n = 2, r = 2. Dann ist p(h1 , h2 ) = h21 + h22 positiv definit 2 p(h1 , h2 ) = (h1 + h2 ) positiv semidefinit p(h1 , h2 ) = −h21 − h22 negativ definit 2 p(h1 , h2 ) = −(h1 + h2 ) p(h1 , h2 ) = h1 h2 seminegativ definit indefinit Aus (43) folgt einfach, falls a ein lokales Minimum ist, so muss Dr f (a) positiv semidefinit sein, und falls a ein lokales Maximum ist, so muss Dr f (a) negativ semidefinit sein. Die umgekehrten Aussagen gelten i.A. nur, wenn Dr f (a) positiv bzw. negativ definit sind (statt nur semidefinit). Das ist der Inhalt der nächsten Proposition. Proposition 3.16. Sei U ⊂ Rn offen, f ∈ C p (U ), a ∈ U eine kritische Stelle von f , und r < p so, dass (wie in (43)) f (a + h) = f (a) + 1 r D f (a)(h, . . . , h) + O(khkr+1 ) r! für h → 0. Dann gilt a) Ist Dr f (a)(h, . . . , h) positiv definit, so ist a ein lokales Minimum. b) Ist Dr f (a)(h, . . . , h) negativ definit, so ist a ein lokales Maximum. 61 c) Ist Dr f (a)(h, . . . , h) indefinit, so ist a kein Extremum. Bemerkung: Ist Dr f (a)(h, . . . , h) positiv semidefinit (aber nicht positiv definit) oder negativ semidefinit (aber nicht negativ definit), so wird in Proposition 3.16 keine Aussage über die kritische Stelle a gemacht. In diesem Fall ist eine tiefere Untersuchung notwendig. Beweis: a) Das Polynom h → Dr f (a)(h, . . . , h) ist stetig und Dr f (a)(h, . . . , h) > 0 für alle h ∈ S = {h ∈ Rn : khk = 1} (S n−1 ist die Einheitssphäre in Rn ). Da S ⊂ Rn kompakt ist, folgt aus dem Sazt vom Maximum, dass α = inf h∈S Dr f (a)(h, . . . , h) > 0. Für ein beliebiges h ∈ Rn , h 6= 0 schreiben wir h = khke für ein e ∈ S. Dann gilt Dr f (a)(h, . . . , h) = khkr Dr f (a)(e, . . . , e) ≥ αkhkr . Das gibt 1 r α D f (a)(h, . . . , h) + O(khkr+1 ) ≥ f (a) + khkr + O(khkr+1 ) r! r! α r = f (a) + khk (1 + O(khk)) ≥ f (a) r! f (a + h) = f (a) + für alle h ∈ Rn klein genug. Das zeigt, dass a ein lokales Minimum ist. Analog zeigt man die Aussage b). Um c) zu zeigen, finden wir e1 , e2 ∈ S mit Dr f (a)(e1 , . . . , e1 ) > 0 und Dr f (a)(e2 , . . . , e2 ) < 0. Für λ > 0 beliebig finden wir f (a + λe1 ) = f (a) + λr r D f (a)(e1 , . . . , e1 )(1 + O(λ)) > f (a) r! und λr r D f (a)(e2 , . . . , e2 )(1 + O(λ)) < f (a) r! für alle λ > 0 klein genug. Damit ist a kein Extremum. f (a + λe2 ) = f (a) + Besonders wichtig ist der Fall, dass an einem kritischen Punkt a einer Funktion f ∈ C 3 (U ), die zweite Ableitung nicht verschwindet. In diesem Fall hängt die Frage, ob a ein Minimum, ein Maximum oder keine Extremalstelle ist, mit dem Verhalten der quadratischen Form D2 f (a)(h, h) zusammen. Wir bemerken, dass, falls h = (h1 , . . . , hn ), 2 D f (a)(h, h) = n X i,j=1 ∂2f (a)hi hj . ∂xi ∂xj Wir definieren die n × n Matrix Hij = ∂i ∂j f (a) = ∂2f (a) . ∂xi ∂xj Die Matrix Hij heisst P die Hesse’sche Matrix von f an der Stelle a, die quadratische n Form D2 f (a)(h, h) = i,j=1 Hij hi hj die Hesse’sche Form. Aus Satz 3.12 folgt, dass die Matrix Hij symmetrisch ist (d.h. Hij = Hji ). Die Hesse’sche Form heisst nicht entartet, falls det(Hij ) 6= 0. Tatsache: Ist die Hesse’sche Form nicht entartet, dann ist sie entweder positiv definit, negativ definit oder indefinit (der Fall, dass D2 f (a) positiv 62 semidefinit, aber nicht positiv definit, und der Fall, dass D2 f (a) negativ semidefinit, aber nicht negativ definit ist, sind ausgeschlossen). Diese Aussage folgt aus der Bemerkung, dass eine symmetrische n × n Matrix immer durch eine unitäre Matrix diagonalisierbar ist. Seien λ1 , . . . , λn die (nicht notwendigerweise verschiedenen) Eigenwerte von Hij . Ist D2 f (a) nicht entartet, so gilt λi 6= 0 für alle i = 1, . . . , n. Es gibt also nur drei Möglichkeiten: 1) alle Eigenwerte sind positiv, 2) alle Eigenwerte sind negativ, 3) es gibt positive und negative Eigenwerte. Im Fall 1) ist D2 f (a) positiv definit, im Fall 2) ist D2 f (a) negativ definit und im Fall 3) ist D2 f (a) indefinit. Es folgt aus dieser Bemerkung, dass, falls die Hesse’sche Form nicht entartet ist, man immer durch Untersuchung von D2 f (a) entscheiden kann, ob der kritische Punkt a ein Maximum, ein Minimum oder kein Extremum ist. 3.4 Umkehrabbildung und Satz über implizite Funktionen Für differenzierbare Funktionen einer Variablen f : R ⊃ Ω → R haben wir in Analysis 1 gezeigt, dass, unter der Bedingung f 0 (a) 6= 0, die Umkehrabbildung lokal wohldefiniert und an der Stelle f (a) differenzierbar, mit (f −1 )0 (f (a)) = 1/f 0 (a), ist. Wir möchten nun eine analoge Aussage für Funktionen mehrerer Variablen beweisen. Die Bedingung f 0 (a) 6= 0 wird hier durch die Bedingung ersetzt, dass Df (a) invertierbar ist. Satz 3.17 (Satz über die Umkehrabbildung). Sei U ⊂ Rn offen, f : U → Rn stetig differenzierbar, a ∈ U und Df (a) ∈ L(Rn ; Rn ) invertierbar. Dann existieren offene Umgebungen V von a und W von f (a) so, dass f : V → W bijektiv und f −1 : W → V stetig differenzierbar. Ferner gilt Df −1 (f (a)) = (Df (a))−1 . Bemerkung: Seien f1 , . . . , fn : U → R die Komponenten von f , d.h. es gelte f (x) = (f1 (x), . . . , fn (x)) für alle x ∈ U . Die Invertierbarkeit von Df (a) ist dann äquivalent zur Bedingung, dass ∂fi (a) det 6= 0 . ∂xj i,j≤n Für den Beweis von diesem Satz brauchen wir den Banach’sche Fixpunktsatz. Erinnere aus Analysis 1, dass ein metrischer Raum vollständig heisst, wenn jede CauchyFolge in M konvergiert. Wir haben in Analysis 1 gezeigt, dass Rn , versehen mit der Standardmetrik vollständig für alle n ∈ N ist. Satz 3.18 (Banachscher Fixpunktsatz). Sei M , versehen mit der Metrik d, ein vollständiger metrischer Raum. T : M → M eine Abbildung mit der Eigenschaft, dass es eine Konstante 0 < c < 1 existiert, mit d(T (x1 ), T (x2 )) ≤ c d(x1 , x2 ) für alle x1 , x2 ∈ M (eine solche Abbildung heisst eine Kontraktion; Kontraktionen sind insbesondere stetig). Dann gibt es genau ein x ∈ M mit T (x) = x (ein solches x heisst ein Fixpunkt der Abbildung T ; der Satz besagt, dass jede Kontraktion auf einem vollständigen metrischen Raum genau einen Fixpunkt besitzt). 63 Beweis: Wir zeigen zunächst die Eindeutigkeit. Nehme an, dass x1 , x2 zwei Fixpunkte der Abbildung T sind. Dann gilt d(x1 , x2 ) = d(T (x1 ), T (x2 )) ≤ c d(x1 , x2 ) Da aber c < 1 ist diese Ungleichung nur möglich, falls d(x1 , x2 ) = 0. Also x1 = x2 . Nun zeigen wir die Existenz eines Fixpunktes. Sei x0 ∈ M beliebig. Dann definieren wir rekursiv eine Folge xn in M durch x1 = T (x0 ) und xn+1 = T (xn ). Für n ≥ 1 gilt dann d(xn+1 , xn ) = d(T (xn ), T (xn−1 )) ≤ cd(xn , xn−1 ) ≤ · · · ≤ cn d(x1 , x0 ) Es folgt, dass, für beliebige n > m, d(xn , xm ) ≤ d(xn , xn−1 ) + d(xn−1 , xn−2 ) + · · · + d(xm+1 , xm ) n X = d(xj , xj−1 ) j=m+1 ≤ d(x1 , x0 ) ≤ d(x1 , x0 ) n X j=m+1 ∞ X cj cj = j=m+1 d(x1 , x0 ) m+1 c →0 1−c für m → ∞. D.h. xn ist eine Cauchy-Folge auf M . Da M vollständig ist, muss xn konvergieren. Sei x = limn→∞ xn . Da aber T stetig ist, muss T (x) = lim T (xn ) = lim xn+1 = x n→∞ n→∞ Also, x ist ein Fixpunkt von T . Bemerkung: Der Beweis besagt, dass für jede x0 ∈ M , die Folge T ◦ T ◦ · · · ◦ T (x0 ) gegen dem Fixpunkt konvergiert. In praktischen Situationen, ergibt dies ein Verfahren, um den Fixpunkt von T zu approximieren. Zum Beweis von Satz 3.17 (genauer gesagt, um die Stetigkeit der Ableitung von f −1 zu zeigen) werden wir auch die folgende Proposition benutzen. Proposition 3.19. Sei GL(Rn ) = {L ∈ L(Rn ; Rn ) : L ist invertierbar} Die Menge GL(Rn ) ist in L(Rn ; Rn ) offen (bezüglich der aus der Operatornorm (oder aus jeder anderen Norm) induzierten Topologie). Die Abbildung i : GL(Rn ) → GL(Rn ), definiert durch i(L) = L−1 ist stetig. Beweis: Sei L ∈ L(Rn ; Rn ) invertierbar. Dann gilt kL−1 kop = sup y6=0 kL−1 yk kxk 1 = sup = kyk kLxk x6=0 inf x6=0 64 kLxk kxk und deswegen kLxk 1 = −1 x6=0 kxk kL kop inf Das impliziert, dass kLxk ≥ 1 kxk kL−1 kop (44) für alle x ∈ Rn . −1 Sei nun L0 ∈ GL(Rn ) invertierbar und L ∈ L(Rn ; Rn ) mit kL − L0 kop < kL−1 0 k . Dann gilt, für ein beliebiges x ∈ Rn , −1 kLxk ≥ kL0 xk − k(L − L0 )xk ≥ kL−1 (45) 0 kop − kL − L0 kop kxk ≥ ckxk für ein c > 0. Das zeigt, dass L injektiv und deswegen auch invertierbar ist (eine lineare Abbildung L ∈ L(Rn ; Rn ) ist genau dann bijektiv, wenn sie injektiv ist). Das impliziert, dass −1 n {L ∈ L(Rn ; Rn ) : kL − L0 kop < kL−1 0 kop } ⊂ GL(R ) und also, dass GL(Rn ) offen ist. Aus (45) finden wir auch kL−1 kop = 1 inf x6=0 kLxk kxk ≤ 1 kL−1 0 kop kL−1 1 0 kop = −1 − kL − L0 kop 1 − kL0 kop kL − L0 kop −1 −1 Da L−1 − L−1 0 = L (L0 − L)L0 erhalten wir −1 −1 kL−1 − L−1 0 kop ≤ kL kop kL0 kop kL − L0 kop ≤ 2 kL−1 0 k kL − L0 kop 1 − kL−1 0 kop kL − L0 kop Das zeigt, dass die Abbildung i(L) = L−1 stetig an der Stelle L0 ist, für jede L0 ∈ GL(Rn ). Beweis von Satz 3.17. O.B.d.A können wir annehmen, dass a = 0 und f (0) = 0 (sonst ersetzen wir f durch die Funktion fe(x) = f (x + a) − f (a)). Wir definieren φ : U → Rn durch φ(x) = f (x)−Df (0)(x). Dann gilt f (x) = Df (0)(x)+φ(x) und Df (x) = Df (0)+ Dφ(x) für alle x ∈ U . Insbesondere gilt φ(0) = f (0) = 0 und Dφ(0) = 0. Da f stetig differenzierbar ist, ist die Abbildung x → Dφ(x) stetig. Also existiert r0 > 0 mit kDφ(x)kop ≤ 1 2kDf (0)−1 kop für alle x ∈ B r0 := {x ∈ Rn : kxk ≤ r0 }. Aus der Mittelwertabschätzung gilt dann kφ(x1 ) − φ(x2 )k ≤ 1 kx1 − x2 k 2kDf (0)−1 kop (46) für alle x1 , x2 ∈ B r0 . Insbesondere, mit x2 = 0, finden wir kφ(x)k ≤ (2kDf (0)−1 kop )−1 kxk für alle x ∈ B r0 (weil φ(0) = 0). 65 Schritt 1. Für alle r ≤ r0 gilt f (B r ) ⊃ B r/2kDf (0)−1 kop . D.h. für jede y ∈ Rn mit kyk ≤ r/(2kDf (0)−1 kop ) existiert ein x ∈ B r mit f (x) = y. Beweis. Für beliebige y ∈ B r/2kDf (0)−1 kop definieren wir ψy : B r → Rn durch ψy (x) = Df (0)−1 (y − φ(x)). Es gilt f (x) = y genau dann, wenn ψy (x) = x, d.h. wenn x ein Fixpunkt von ψy ist. Wir möchten den Banachschen Fixpunktsatz anwenden, um zu zeigen, dass ψy einen Fixpunkt in B r besitzt. Dazu bemerken wir zunächst, dass kψy (x)k = kDf (0)−1 kop ky − φ(x)k ≤ kDf (0)−1 kop (kyk + kφ(x)k) ≤ r für alle y ∈ B r/2kDf (0)−1 kop und x ∈ B r (wir haben hier (46) gebraucht). Das zeigt, dass für alle y ∈ B r/2kDf (0)−1 kop , ψy : B r → B r . Ferner haben wir ψy (x1 ) − ψy (x2 ) = Df (0)−1 (φ(x1 ) − φ(x2 )) und deswegen 1 kψy (x1 ) − ψy (x2 )k = kDf (0)−1 kop kφ(x1 ) − φ(x2 )k ≤ kx1 − x2 k 2 für alle x ∈ B r (wieder wegen (46)). Es folgt, dass für alle y ∈ B r/2kDf (0)−1 kop , ψy eine Kontraktion auf B r ist. Da B r ein vollständiger metrischer Raum ist, folgt aus Satz 3.18, dass für alle y ∈ B r/2kDf (0)−1 kop ein x ∈ B r mit f (x) = y existiert. Schritt 2. Es gilt 3kDf (0)kop 1 kx1 − x2 k kx1 − x2 k ≤ kf (x1 ) − f (x2 )k ≤ −1 2kDf (0) kop 2 für alle x1 , x2 ∈ B r0 . Insbesondere ist f auf B r0 injektiv. Beweis: Wir haben f (x) = φ(x) + Df (0)(x). Aus (46) gilt kf (x1 ) − f (x2 )k ≤ kDf (0)kkx1 − x2 k + kφ(x1 ) − φ(x2 )k 1 kx1 − x2 k ≤ kDf (0)kop + 2kDf (0)−1 kop Aus 1 = Df (0)Df (0)−1 folgt, dass 1 ≤ kDf (0)kop kDf (0)−1 kop und damit kDf (0)−1 k−1 op ≤ kDf (0)kop . Das ergibt kf (x1 ) − f (x2 )k ≤ 3kDf (0)kop kx1 − x2 k 2 für alle x1 , x2 ∈ B r0 . Anderseits gilt aus (44) und wieder aus (46), kf (x1 ) − f (x2 )k ≥ kDf (0)(x1 − x2 )k − kφ(x1 ) − φ(x2 )k 1 1 ≥ − kx1 − x2 k kDf (0)−1 kop 2kDf (0)−1 kop 1 = kx1 − x2 k . 2kDf (0)−1 kop 66 Sei nun r < r0 fest. Wir setzen W0 = Br/(2kDf (0)−1 kop ) = {x ∈ Rn : kxk < r/2kDf (0)−1 kop }, und V0 = f −1 (W0 ) ∩ Br0 = {x ∈ Br0 : kf (x)k < r}. W0 ist offen. Da f stetig, ist auch V0 offen. Es folgt aus Schritten 1 und 2, dass f : V0 → W0 bijektiv ist. Die Injektivität folgt aus Schritt 2, weil V0 ⊂ Br0 . Die Surjektivität folgt dagegen aus Schritt 1, weil für jede y ∈ Br/(2kDf (0)−1 kop , x ∈ B r ⊂ Br0 mit f (x) = y existiert. Wir bezeichnen die Inverse mit g : W0 → V0 . Für y1 , y2 ∈ W0 setze x1 = g(y1 ) und x2 = g(y2 ). Aus Schritt 2 haben wir kg(y1 ) − g(y2 )k = kx1 − x2 k ≤ 2kDf (0)−1 kop kf (x1 ) − f (x2 )k = 2kDf (0)−1 kop ky1 − y2 k Also ist g auf W0 stetig (sogar Lipschitz-stetig). Schritt 3. g ist an der Stelle 0 differenzierbar. Es gilt Dg(0) = Df (0)−1 . Beweis. Da g(0) = 0 müssen wir zeigen, dass g(y) − Df (0)−1 (y) = o(kyk) für y → 0. Sei 0 < ε < 1 festgewählt. Da x → φ(x) stetig, existiert δ > 0 so, dass kDφ(x)k ≤ ε/(2kDf (0)−1 kop ) für alle kxk ≤ δ. Nach Definition von r0 > 0 gilt δ ≤ r0 . Für y ∈ Rn mit kyk < δ/(2kDf (0)−1 kop , sei x = g(y). Dann gilt kxk ≤ δ. Ferner f (x) = y = Df (0)(x) + φ(x) Wir multiplizieren rechts und links mit der Matrix Df (0)−1 und erhalten g(y) − Df (0)−1 (y) = −Df (0)−1 (φ(x)) Aus der Mittelwertabschätzung für φ, kg(y) − Df (0)−1 (y)k = kDf (0)−1 φ(x)k = kDf (0)−1 (φ(x) − φ(0))k ε ≤ kDf (0)−1 kop kφ(x) − φ(0)k ≤ kxk 2 ε −1 ≤ kg(y)k ≤ εkDf (0) kop kyk 2 Da ε > 0 beliebig ist, folgt die Behauptung. Wir haben somit folgendes bewiesen: Für jede a ∈ U mit Df (a) invertierbar, existieren offene Umgebungen V0 von a und W0 von f (a), so dass f : V0 → W0 bijektiv ist, und so, dass f −1 : W0 → V0 stetig und an der Stelle a differenzierbar ist, mit Df −1 (f (a)) = (Df (a))−1 . Da x → Df (x) stetig, und da die Menge der invertierbaren linearen Abbildungen GL(Rn ) in L(Rn , Rn ) offen ist, finden wir eine offene Umgebung V ⊂ V0 von a so, dass Df (x) invertierbar ist, für alle x ∈ V . Wir setzen W = f (V ); da f −1 stetig ist, ist auch W offen. f −1 ist dann in jedem Punkt von W differenzierbar und Df −1 (f (x)) = (Df (x))−1 = Df (x)−1 . Da die Abbildung i : GL(Rn ) → GL(Rn ) stetig ist, ist Df (x)−1 = i(Df (x)) als Komposition zweier stetiger Abbildungen wieder stetig. Damit ist f −1 : W → V stetig differenzierbar. 67 Definition 3.20. Seien X, Y zwei metrische Räume. Ein Homöomorphismus von X nach Y ist eine Bijektion f : X → Y , so dass f und f −1 stetig sind. Ist f : X → Y ein Homöomorphismus, so ist auch f −1 ein Homöomorphismus. Eine stetige Bijektion f : X → Y ist genau dann ein Homöomorphismus, wenn f (U ) offen in Y für jede U offen in X ist (weil eine Abbildung genau dann stetig ist, wenn das Urbild jeder offenen Menge wieder offen ist; siehe Analysis 1, Prop. 6.18). Zwei metrische Räume X, Y heissen homöomorph, wenn ein Homöomorphismus f : X → Y existiert. Seien nun U ⊂ Rn und V ⊂ Rm offen. Ein Homöomorphismus f : U → V heisst ein Diffeomorphismus, falls f und f −1 stetig differenzierbar sind. Zwei offene Mengen U ⊂ Rn und V ⊂ Rm heissen diffeomorph, wenn ein Diffeomorphismus f : U → V existiert. Eine Bijektion f : U → V ist genau dann ein Diffeomorphismus, wenn f −1 ein Diffeomorphismus ist. Bemerkung: Ist U ⊂ Rn , V ⊂ Rm und f : U → V ein Diffeomorphismus, dann gilt f −1 ◦ f (x) = x für alle x ∈ U . Die Kettenregel impliziert, dass Df −1 (f (x)) ◦ Df (x) = 1, wobei Df −1 (f (x)) ∈ L(Rm ; Rn ) und Df (x) ∈ L(Rn ; Rm ). Das ist nur möglich, falls m ≥ n. Analog impliziert f ◦ f −1 (x) = x, dass Df (f −1 (x)) ◦ Df −1 (x) = 1 und also, dass n ≥ m. Es folgt, dass n = m. Mit anderen Worten können nur Mengen der gleichen Dimension zueinader diffeomorph sein. Tatsache: Sind U ⊂ Rn und V ⊂ Rm nicht leer und offen, und f : U → V ein Homöomorphismus, dann muss n = m sein. Bemerkung: Der Satz der Umkehrabbildung besagt, dass falls U ⊂ Rn offen ist, a ∈ U , f : U → Rn stetig differenzierbar, mit Df (a) invertierbar, dann ist f lokal in der Nähe von a ein Diffeomorphismus. D.h. es existieren offene Umgebungen V von a und W von f (a), so dass f : V → W ein Diffeomorphismus ist. Eine wichtige Anwendung des Satzes über die Umkehrabbildung ist der Satz über implizite Funktionen. Oft werden Teilmengen von Rn durch Gleichungen definiert. Z.B. ist {(x, y) ∈ R2 : y = x3 } eine Teilmenge von R2 . In diesem Fall ist die Teilmenge besonders einfach, weil sie als Graph einer Funktion geschrieben werden kann. Das ist i.A. nicht möglich. Z.B. für den Einheitskreis S = {(x, y) ∈ R2 : x2 + y 2 = 1} existiert keine Funktion g, definiert auf einer Teilmenge U ⊂ R, mit der Eigenschaft, dass S = {(x, g(x)) : x ∈ U }. Trotzdem ist es in diesem Fall möglich, S lokal als Graph zu schreiben. Betrachten wir z.B. den Punkt (0, 1) auf S. Es ist dann einfach zu sehen, dass offene Umgebungen U ⊂ R von 0 und V ⊂ R von 1 und eine differenzierbare Funktion g : U → V existiert, mit der Eigenschaft, dass S ∩ (U × V ) = {(x, g(x)) : x ∈ U } . √ In diesem Fall ist es sogar möglich, g(x) = 1 − x2 explizit zu schreiben. Ein anderes Beispiel ist das sogenannte kartesische Blatt T = {(x, y) ∈ R2 : x3 − 2xy + y 3 = 0} . 68 Wie S, kann auch T nicht global als Graph einer Funktion geschrieben werden. Ist es möglich, T lokal als Graph zu schreiben? Der Punkt (1, 1) ist z.B. in T . Es ist einfach zu sehen (vgl. Bild von T ), dass offene Umgebungen U, V ⊂ R von 1 und eine differenzierbare Funktion f : U → V existieren, so dass f (1) = 1 und T ∩ (U × V ) = {(x, f (x)) : x ∈ U } . Kann T in der Nähe von jedem seiner Punkte lokal als Graph einer Funktion geschrieben werden? Nein: Es ist einfach zu sehen, dass in der Nähe von (0, 0), T nicht als Graph geschrieben werden kann. Was unterscheidet also die Punkte (1, 1) und (0, 0) auf T ? Sei f (x, y) = x3 − 2xy + y 3 , so dass T Menge aller Nullstellen von f ist. Dann gilt ∂f (x, y) = −2x + 3y 2 ∂y Wir zeigen im nächsten Satz, dass der fundamentale Unterschied zwischen (1, 1) und (0, 0) die Tatsache ist, dass (∂f /∂y)(1, 1) = −2 6= 0 während (∂f /∂y)(0, 0) = 0. Satz 3.21 (Satz über implizite Funktionen). Seien m, n ∈ N\{0}, U ⊂ Rm × Rn offen und nicht leer. Sei f ∈ C 1 (U ; Rn ) und (x0 , y0 ) ∈ U mit f (x0 , y0 ) = 0. Es gelte ∂fi (x0 , y0 ) 6= 0 (47) det ∂yj 1≤i,j≤n Dann existieren offene Umgebungen V ⊂ Rm von x0 und W ⊂ Rn von y0 und eine stetig differenzierbare Funktion g : V → W , so dass {(x, y) ∈ V × W : f (x, y) = 0} = {(x, g(x)) : x ∈ V } Ferner gilt Dg(x0 ) = −(Dy f (x0 , y0 ))−1 · Dx f (x0 , y0 ) . (48) Bemerkung: Dy f (x0 , y0 ) und Dx f (x0 , y0 ) bezeichnen die Ableitung von f als Funktion von y bei festen x = x0 , bzw. die Ableitung von f als Funktion von x, bei festen y = y0 . Dy f (x0 , y0 ) ist eine n × n Matrix und Dx f (x0 , y0 ) eine n × m Matrix. Die Bedingung (47) bedeutet genau, dass die Matrix Dy f (x0 , y0 ) invertierbar ist. In diesem Fall ist die Inverse Dy f (x0 , y0 )−1 wieder eine n × n Matrix und Dy f (x0 , y0 )−1 · Dx f (x0 , y0 ) eine n × m Matrix. Damit ist (48) konsistent mit der Tatsache, dass g eine Teilmenge von Rm auf einer Teilmenge von Rn abbildet. Bemerkung: Seien f1 , . . . , fn : U → R die Komponenten von f , s.d. f (x, y) = (f1 (x, y), . . . , fn (x, y)) für alle (x, y) ∈ U gelte. Dann ist die vektorielle Gleichung f (x, y) = 0 das System von n Gleichungen f1 (x1 , . . . , xm , y1 , . . . , yn ) = 0 f2 (x1 , . . . , xm , y1 , . . . , yn ) = 0 ... fn (x1 , . . . , xm , y1 , . . . , yn ) = 0 Der Satz besagt, dass, falls Dy f (x0 , y0 ) invertierbar ist, kann man das Gleichungssystem lokal für (y1 , . . . , yn ) lösen. Sind die Funktionen f1 , . . . , fn linear oder affin, dann ist die Behauptung schon aus der linearen Algebra bekannt (in diesem Fall ist die Ableitung Dy f (x0 , y0 ) unabhängig von (x0 , y0 ) und die Behauptung gilt natürlich global). 69 Beweis: Wir definieren die Hilfsfunktion F : U → Rm × Rn durch F (x, y) = (x, f (x, y)). Da f ∈ C 1 (U ; Rn ), ist F stetig differenzierbar. Die Ableitung von F an der Stelle (x0 , y0 ) ist aus der Blockmatrix 0 1Rm DF (x0 , y0 ) = Dx f (x0 , y0 ) Dy f (x0 , y0 ) mit der n × m Matrix Dx f (x0 , y0 ) = ((∂fi /∂xj )(x0 , y0 )) und mit der n × n Matrix Dy f (x0 , y0 ) = ((∂fi /∂yj )(x0 , y0 )) gegeben (1Rm ist die Identität auf Rm ). Nach Annahme ist Dy f (x0 , y0 ) invertierbar; sei Dy f (x0 , y0 )−1 die Inverse. Wir behaupten, dass auch DF (x0 , y0 ) invertierbar ist. In der Tat, explizite Berechnung zeigt, dass 0 0 1Rm 1Rm · −Dy f (x0 , y0 )−1 Dx f (x0 , y0 ) Dy f (x0 , y0 )−1 Dx f (x0 , y0 ) Dy f (x0 , y0 ) 1Rm 0 . = 0 1Rn Deswegen ist DF (x0 , y0 ) invertierbar. Aus dem Satz über die Umkehrabbildung (Satz 3.17) folgt, dass offene Umgebungen U1 ⊂ Rm × Rn von (x0 , y0 ) und U2 ⊂ Rm × Rn von F (x0 , y0 ) = (x0 , 0) existieren, so dass F : U1 → U2 ein Diffeomorphismus ist. Da U1 eine offene Umgebung von (x0 , y0 ) ist, kann man offene Umgebungen Ve ⊂ Rm von x0 und W ⊂ Rn von y0 , mit Ve × W ⊂ U1 . Dann ist F (Ve × W ) ⊂ U2 eine offene Umgebung von (x0 , 0) (weil F ein Homöomorphismus ist), und F : Ve × W → F (Ve × W ) wieder ein Diffeomorphismus. Sei G : F (Ve × W ) → Ve × W die Inverse dieses e : F (Ve × W ) → Diffeomorphismus’. Da F (x, y) = (x, f (x, y)), existiert eine Funktion G e e W mit G(x, y) = (x, G(x, y)) für alle (x, y) ∈ F (V × W ). Da G differenzierbar ist, ist e differenzierbar. Da F (Ve × W ) eine offene Umgebung von (x0 , 0) ist, finden wir auch G eine offene Umgebung V ⊂ Ve von x0 mit {(x, 0) : x ∈ V } ⊂ F (Ve × W ). Dann können e 0) definieren (d.h. durch G(x, 0) = (x, φ(x)) für alle wir φ : V → W durch φ(x) = G(x, e x ∈ V ). Da G differenzierbar ist, ist auch φ differenzierbar. Für (x, y) ∈ V × W ⊂ Ve × W gilt dann f (x, y) = 0 ⇐⇒ F (x, y) = (x, 0) ⇐⇒ G(x, 0) = (x, y) e 0) ⇐⇒ y = φ(x) ⇐⇒ y = G(x, D.h. {(x, y) ∈ V × W : f (x, y) = 0} = {(x, φ(x)) : x ∈ V } Aus f (x, φ(x)) = 0 für alle x ∈ V folgt, mit der Kettenregel, dass 0 = Df (x0 , φ(x0 )) · Dg(x0 ) = Dx f (x0 , φ(x0 )) · 1Rm + Dy f (x0 , φ(x0 )) · Dφ(x0 ) Das gibt (48). Beispiel. Sei f (x, y) = x3 − 2xy + y 3 und, wie oben, T = {(x, y) ∈ R2 : f (x, y) = 0} das kartesische Blatt. Es gilt ∂f (x, y) = −2x + 3y 2 , ∂y und 70 ∂f (x, y) = 3x2 − 2y ∂x Ist (x0 , y0 ) ∈ T mit −2x0 + 3y02 6= 0, dann kann man, in der Nähe von (x0 , y0 ), T als Graph einer Funktion von x schreiben. Wir bemerken, (x0 , y0 ) ∈ T mit −2x0 + 3y02 = 0 impliziert, dass 27 6 3 3 27 3 y − 2y0 = 0 ⇒ 2y0 y −1 =0 8 0 16 0 √ Das ist nur bei y0 = 0 oder y0 = 2 2/3 möglich. Also existieren für jede (x0 , y0 ) ∈ T , √ mit der Ausnahmen (x0 , y0 ) = (0, 0) und (x0 , y0 ) = (4/3, 2 2/3), offene Umgebungen V ⊂ R von x0 und W ⊂ R von y0 und eine C 1 -Funktion φ : V → W , so dass T ∩ (V × W ) = {(x, y) ∈ V × W : f (x, y) = 0} = {(x, φ(x)) : x ∈ V } und φ0 (x0 ) = − (∂f /∂x)(x0 , y0 ) 3x2 − 2y0 . = − 20 (∂f /∂y)(x0 , y0 ) 3y0 − 2x0 Analog finden wir,√dass für alle (x0 , y0 ) ∈ T mit den Ausnahmen von (x0 , y0 ) = (0, 0) und (x0 , y0 ) = (2 2/3, 4/3) offene Umgebungen V von y0 und W von x0 und eine C 1 -Funktion ψ : V → W existieren, so dass T ∩ (W × V ) = {(x, y) ∈ W × V : f (x, y) = 0} = {(ψ(y), y) : y ∈ V } und ψ 0 (y0 ) = − 3.5 3x20 − 2x0 . 3y02 − 2y0 Mannigfaltigkeiten in Rn Wir untersuchen in diesem Abschnitt besondere Teilmengen von Rn , genannt Mannigfaltigkeiten oder Untermannigfaltigkeiten des Rn , die lokal wie Rk aussehen, für ein k ≤ n. Bevor wir zur genaueren Definition von Mannigfaltigkeit kommen, betrachten wir einige Beispiele von Teilmengen von Rn , die lokal wie Rk für k = 1 oder k = 2 aussehen. Im Fall k = 1 spricht man von Kurven. Das Begriff von Kurven kann verschiedene Bedeutungen haben. Eine parametrisierte Kurve ist eine Abbildung φ : I → Rn , für ein Intervall I ⊂ R. Eine parametrisierte Kurve kann zum Beispiel die Bewegung eines Teilchens im Raum beschreiben, als Funktion der Zeit t ∈ I. Eine parametrisierte Kurve ist also nicht nur durch die Bahn des Teilchens charakteriziert, sondern auch von dem Zeitplan (die parametriesierte Kurve bestimmt die Position des Teilchens zu jeder Zeit, nicht nur seine Trajektorie). Sind wir nur an der Bahn interessiert, und nicht am Zeitplan, so können wir die folgende Äquivalenzrelation im Raum der parametrisierten Kurven definieren. Wir sagen zwei parametrisierte Kurve ϕ1 : I1 → Rn , ϕ2 : I2 → Rn , für zwei Intervalle I1 , I2 ⊂ R sind äquivalent, falls eine monoton wachsende stetige und surjektive Funktion ψ : I1 → I2 existiert, so dass φ1 = φ2 ◦ ψ. In diesem Fall heisst ψ eine Parametertransformation. Man kann sich leicht davon überzeugen, dass das wirklich eine Äquivalenzrelation definiert. Man kann dann eine Kurve als eine Äquivalenzklasse von parametrisierten Kurven definieren. Mit anderen Worten, eine Kurve wird somit als die Bildmenge einer parametrisierten Kurve definiert. 71 Man könnte auch Kurven als Graph von Funktionen definieren. Das ist aber zu restriktiv; z.B. der Kreis S 1 = {(x, y) ∈ R2 : x2 + y 2 = 1} kann nicht als Graph {(x, y) ∈ R2 : y = f (x)} einer Funktion von x geschrieben werden. Es ist auch unmöglich, S 1 als Graph {(x, y) ∈ R2 : x = f (y)} einer Funktion von y zu schreiben. Immerhin, der Kreis S 1 ist die Vereinigung der Graphen von zwei Funktionen, nämlich f1 (x) = (1 − x2 )1/2 und f2 (x) = −(1 − x2 )1/2 . Wenn wir nur Funktionen auf offene Teilmengen von R betrachten möchten, so können √ wir S 1 als die Vereinigung der Graphen p von vier 2 Funktionen schreiben, nämlich y = ± 1 − x auf x ∈ (−1; 1) und x = ± 1 − y 2 auf y ∈ (−1; 1). Zwei dieser Abbildungen definieren y als Funktion von x, die anderen zwei geben x als Funktion von y. Ausgehend aus diesem Beispiel kann man also berlegen, Kurven als Vereinigungen von Graphen zu definieren. Gemäss dieser Definition kann man sich auch vorstellen, eine Kurve differenzierbar zu nennen, wenn sie als Vereinigung von Graphen von differenzierbaren Funktionen geschrieben werden kann (wir werden von C 1 Kurven sprechen, unter der Annahme, dass die Funktionen stetig differenzierbar sind). Man muss hier ein bisschen aufpassen. Es gibt einen Unterschied zwischen der gegebenen Definition von differenzierbarer Kurve und differenzierbarer parametrisierte Kurve. Z.B. die parametrisierte Kurve φ(t) = (t3 , t2 ) ∈ R2 ist differenzierbar. Die Bildmenge T = {φ(t) : t ∈ R} kann aber neben (0, 0) nicht als Graph einer differenzierbaren Funktion geschrieben werden. Deswegen ist T keine differenzierbare Kurve im obigen Sinne. Wir werden sehen, die Bildmenge der parametrisierten Kurve φ(t) ist keine differenzierbare Kurve, weil φ0 (0) = 0. Analog kann man Teilmengen von Rn , die lokal wie R2 aussehen, betrachten. In diesem Fall spricht man von Flächen. Auch hier muss man zwischen parametrisierten Flächen und Fläche als Bildmenge von parametrisierten Flächen unterscheiden. Wie für Kurven, kann man Flächen als Vereinigung von Graphen beschreiben. Die Sphäre S 2 = {(x, y, z) : x2 +y 2 +z 2 = 1} ⊂ R3 ist nicht der Graph einer einzelne Funktion, kann aber als Vereinigung der folgenden sechsp Graphen betrachtet werden, die auf offenen 2 definiert sind: z = ± 1 − x2 − y 2 , definiert auf k(x, y)k < 1, y = Teilmengen von R p √ ± 1 − x2 − z 2 auf k(x, z)k < 1 und x = ± 1 − y 2 − z 2 definiert auf k(y, z)k < 1. Weil die Funktionen, aus dessen Graphen S 2 besteht, stetig differenzierbar sind, sagt man S 2 ist eine differenzierbare Fläche, oder eine C 1 -Fläche. Wir erweitern diese Definitionen, um differenzierbare Mannigfaltigkeiten M ⊂ Rn der Dimensin k einzuführen. Definition 3.22. Seien n, k ∈ N, mit k < n. Ein C 1 -Mannigfaltigkeitstück der Dimension k in Rn ist eine Teilmenge von Rn die, nach allfälliger Unnumerierung der Koordinaten, die Form {(x1 , . . . , xn ) ∈ Rn : (xk+1 , . . . , xn ) = φ(x1 , . . . , xk ) und (x1 , . . . , xk ) ∈ G} hat, wobei G ⊂ Rk offen und zusammenhängend ist und φ ∈ C 1 (G; Rn−k ). Eine Menge M ⊂ Rn heisst eine C 1 -Mannigfaltigkeit der Dimension k, falls für jede a ∈ M eine offene Umgebung U ⊂ Rn von a existiert, so dass U ∩ M ein C 1 -Mannigfaltigkeitstück der Dimension k ist. Eine C 1 -Mannigfaltigkeit der Dimension k = 1 heisst eine C 1 Kurve. Eine C 1 -Mannigfaltigkeit der Dimension k = 2 heisst eine C 1 -Fläche. Eine C 1 -Mannigfaltigkeit M der Dimension n − 1 in Rn heisst eine Hyperfläche. 72 Bemerkung: Kurz gesagt, eine C 1 -Mannigfaltigkeit der Dimension k ist eine Teilmenge von Rn , die lokal aus dem Graph einer stetig differenzierbaren Abbildung φ : Rk ⊃ G → Rn−k gegeben ist. Beispiele: Der Kreis S 1 = {(x, y) ∈ R2 : x2 + y 2 = 1} ist eine C 1 -Kurve. Die Sphäre S n−1 = {(x1 , . . . , xn ) ∈ Rn : k(x1 , . . . , xn )k = 1} ⊂ Rn ist eine C 1 -Mannigfaltigkeit der Dimension (n−1) (d.h. S n−1 ist eine Hyperfláche). Die Bildmenge {(t3 , t2 ) ∈ R2 : t ∈ R} der parametrisierten Kurve φ(t) = (t3 , t2 ) ist keine C 1 -Mannigfaltigkeit, weil sie in der Nähe von (0, 0) nicht als Graph einer stetig differenzierbare Funktion geschrieben werden kann. Die Bildmenge der parametrisierten Kurve φ(t) = (cos t, sin(2t)) ist keine C 1 -Kurve, weil sie in der Nähe von φ(π/2) = (0, 0) nicht als Graph einer Funktion geschrieben werden kann (nach Definition dürfen Mannigfaltigkeiten keine “SelbstDurchschnitte” haben). Statt Teilmengen von Rn durch Vereinigung von Graphen zu definieren, kann man sie als Lösungsmengen von Gleichungen definieren. Z.B. definiert die Gleichung x2 + y 2 = 1 den Kreis S 1 , also eine Mannigfaltigkeit der Dimension eins. Man kann sich analog vorstellen, dass die Gleichung f (x1 , . . . , xn ) = 0, für eine Funktion f : Rn ⊃ U → R, eine Teilmenge von Rn definiert, die lokal wie Rn−1 aussieht. Im nächsten Satz zeigen wir, dass, falls a ∈ U die Gleichung f (a) = 0 erfüllt, und falls ∇f (a) 6= 0, dann ist die Menge {x ∈ U : f (x) = 0} in der Nähe von a ein Mannigfaltigkeitstück. Proposition 3.23. Sei U ⊂ Rn offen, f ∈ C 1 (U ), und a ∈ U mit f (a) = 0 und ∇f (a) 6= 0. Dann es existiert eine offene Umgebung G ⊂ Rn von a so, dass G∩{x ∈ U : f (x) = 0} ein C 1 -Mannigfaltigkeitstück der Dimension (n − 1) ist. D.h. die Lösungsmenge der Gleichung f (x) = 0 ist, in der Nähe von a eine Mannigfaltigkeit. Gilt ferner ∇f (x) 6= 0 für alle x ∈ U mit f (x) = 0, dann ist {x ∈ U : f (x) = 0} eine C 1 -Mannigfaltigkeit der Dimension n − 1. Beweis: Die Bedingung ∇f (a) 6= 0 impliziert, dass j ∈ {1, . . . , n} mit ∂f /∂xj (a) 6= 0 existiert. O.B.d.A nehmen wir an ∂f /∂xn (a) 6= 0. Nach dem Satz über implizite Funktionen, existieren eine Umgebung V ⊂ Rn−1 von (a1 , . . . , an−1 ), eine Umgebung W ⊂ R von an und eine Funktion φ ∈ C 1 (V ) mit Werten in W , so dass V × W ∩ {(x1 , . . . ,xn ) ∈ U : f (x1 , . . . , xn−1 , xn ) = 0} = {(x1 , . . . , xn−1 , φ(x1 , . . . , xn−1 )) ∈ Rn : (x1 , . . . , xn−1 ) ∈ V } . Die Behauptung folgt, mit G = V × W . Allgemeiner, sei f : Rn ⊂ U → Rm , für ein m < n. Die Gleichung f (x) = 0 ist dann ein System von m Gleichungen f1 (x1 , . . . , xn ) = 0 f2 (x1 , . . . , xn ) = 0 ... fm (x1 , . . . , xn ) = 0 Sind die m Gleichungen in geeignetem Sinne unabhängig, so kann man sich vorstellen, dass f (x) = 0 eine Mannigfaltigkeit der Dimension k = n − m definiert. Wir müssen verstehen, in welchen Sinne die Gleichungen unabhängig sein müssen. Dazu definieren wir den Begriff vom Rang einer linearen Abbildung. 73 Definition 3.24. Sei L ∈ L(Rn ; Rm ). Der Rang der Matrix L ist Rg L = dim Ran (L) = dim L(Rn ) = n − dim ker(L) . Mit anderen Worten, der Rang von L ist die maximale Anzahl von linear unabhängige Spalten in der Matrix L. Aus der linearen Algebra, RgL ist auch die maximale Anzahl von linear unabhängigen Zeilen in L. Definition 3.25. Sei U ⊂ Rn offen und f ∈ C 1 (U ; Rm ), mit m ≤ n. Wir sagen, f ist regulär an der Stelle a ∈ U , falls Df (a) Rang m hat. Ist m = n, so ist f genau dann an der Stelle a regulär, wenn Df (a) invertierbar ist. Satz 3.26. Sei U ⊂ Rn offen, f ∈ C 1 (U ; Rm ). Sei a ∈ U mit f (a) = 0 und so, dass f regulär an der Stelle a ist. Dann existiert eine offene Umgebung G ⊂ U von a in Rn , so dass G ∩ {x ∈ U : f (x) = 0} ein Mannigfaltigkeitstück in Rn der Dimension k = n − m ist. Ist f an der Stelle x regulär, für alle x ∈ U mit f (x) = 0, dann ist {x ∈ U : f (x) = 0} eine Mannigfaltigkeit in Rn der Dimension k = n − m. Beweis: Nach Unnumerierung der Koordinaten können wir annehmen, dass die m Spalten ∂f ∂f ∂f (a), (a), . . . , (a) (49) ∂xk+1 ∂xk+2 ∂xn linear unabhängig sind (wir haben hier k = n − m gesetzt). Wir schreiben Df (a) = (D1 f (a), D2 f (a)), wobei D1 f (a) die m × k Matrix ist, die aus allen partiellen Ableitungen nach x1 , . . . , xk besteht und D2 f (a) die m × m Matrix ist, die aus allen partielle Ableitungen nach xk+1 , . . . , xn besteht. Die Matrix D2 f (a) ist nach (49) invertierbar. Der Satz über implizite Funktionen impliziert, dass eine offene Umgebung V von (a1 , . . . , ak ) in Rk , eine offene Umgebung W von (ak+1 , . . . , an ) in Rm und eine stetig differenzierbare Funktion φ : V → W existieren, so dass V × W ∩ {x ∈ U : f (x) = 0} = {(x1 , . . . , xk , φ(x1 , . . . , xk )) : (x1 , . . . , xk ) ∈ V } Die Behauptung folgt, mit G = V × W . Bemerkung: Der Satz zeigt, dass die richtige Verallgemeinerung der Bedingung ∇f (a) 6= 0 in Proposition 3.23 aus der Bedingung RgDf (a) = m gegeben ist. Statt C 1 -Mannigfaltigkeiten durch Graphen von stetig differenzierbaren Funktionen zu definieren, kann man auch lokale reguläre Parametrisierungen (genannt Karten) benutzen. Wir geben hier die alternative Definition, obwohl wir im Folgenden weiter mit der ursprünglichen Definition arbeiten. Alternative Definition von Mannigfaltigkeiten: Seien n, k ∈ N,mit 1 ≤ k < n. Eine kdimensionale C 1 -Mannigfaltigkeit in Rn (oder eine C 1 -Untermannigfaltigkeit des Rn ) ist eine nicht-leere Menge M ⊂ Rn , so dass für alle a ∈ M eine offene Umgebung U ⊂ Rn von a, eine offene Menge G ⊂ Rk und eine reguläre Abbildung ϕ ∈ C 1 (G; Rn ) so, dass ϕ(G) = M ∩ U und ϕ : G → M ∩ U ein Homöomorphismus ist. Das Paar (G, ϕ) heisst eine Karte von M in der Nähe vom Punkt a. Übung: Zeigen Sie, dass diese Definition mit der ursprünglichen Definition übereinstimmt. 74 Bemerkung: Die alternative Definition von Mannigfaltigkeiten durch Karten lässt sich auch zum Fall k = n erweitern. Dann gilt: Eine Teilmenge M ⊂ Rn ist genau dann eine Mannigfaltigkeit der Dimension n, wenn M offen ist. Bemerkung: Statt von C 1 -Mannigfaltigkeit in Rn spricht man in der Literatur oft von C 1 -Untermannigfaltigkeit des Rn . Man benutzt das Wort Untermannigfaltigkeit, weil die Mengen, die wir betrachten, immer Teilmengen von Rn sind. Das Wort Mannigfaltigkeit der Dimension k wird dann für allgemeinere Mengen benutzt, die lokal das Bild einer regulären Funktion auf einer offenen Teilmenge von Rk sind. Ein wichtiges Resultat der Differentialgeometrie besagt dann, dass jede C 1 -Mannigfaltigkeit der Dimension n in R2n eingebettet werden kann (Einbettungsatz von Whitney). Bemerke, dass die Dimension (mindestens) 2n sein muss; die Klein’sche Flasche ist ein berühmtes Beispiel einer zwei dimensionale C 1 -Mannigfaltigkeit, die nicht in R3 eingebettet werden kann. In dieser Vorlesung werden wir immer C 1 -Untermannigfaltigkeiten des Rn betrachten; wir werden aber das Wort C 1 -Mannigfaltigkeiten in Rn benutzen. Sei nun M ⊂ Rn eine Mannigfaltigkeit der Dimension k < n und a ∈ M ein Punkt auf der Mannigfaltigkeit. Wir möchten den Begriff von Tangentialraum zu M an a ∈ M einführen. Dazu betrachten wir parametrisierte Kurven auf M , die durch a gehen. Sei I ein offenes Intervall in R. Eine differenzierbare parametrisierte Kurve auf M ist eine differenzierbare Abbildung ϕ : I → Rn , mit ϕ(t) ∈ M für alle t ∈ I. Es gelte ϕ(t0 ) = a. Der Vektor ϕ0 (t0 ) = (ϕ01 (t0 ), . . . , ϕ0n (t0 )) heisst der Tangentialvektor zu der Kurve ϕ im Punkt ϕ(t0 ) = a. Definition 3.27. Der Tangentialraum Ta (M ) zu M an der Stelle a ∈ M besteht aus allen Tangentialvektoren zu differenzierbaren Kurven auf M , die durch a gehen. Mit anderen Worten, ξ ∈ Rn ist genau dann Element von Ta (M ), wenn ein Intervall I ⊂ R, ein t0 ∈ I und eine Kurve ϕ ∈ C 1 (I; Rn ) mit ϕ(t) ∈ M für alle t ∈ I, ϕ(t0 ) = a und ϕ0 (t0 ) = ξ existieren. Proposition 3.28. Sei M eine Mannigfaltigkeit in Rn der Dimension k < n und a ∈ M . Ta (M ) ist ein linearer Unterraum von Rn , mit dim Ta (M ) = k. Beweis: Die Definition von Ta (M ) hängt nur von M in der Nähe von a ab. D.h. Ta (M ) = Ta (M ∩ U ) für jede, beliebig kleine Umgebung U ⊂ Rn von a. Aus diesem Grund können wir annehmen, dass eine offene Menge V ⊂ Rk und ein ψ ∈ C 1 (V ; Rn ) existieren, so dass M = {(x, ψ(x)) : x ∈ V } Wir führen die Notation x(1) = (x1 , . . . , xk ) und x(2) = (xk+1 , . . . , xn ) ein. Dann a = (a(1) , a(2) ), wobei a(2) = ψ(a(1) ). Sei nun t → ϕ(t) eine differenzierbare Kurve auf M , mit ϕ(t0 ) = a. Wir bezeichnen φ1 (t) = (ϕ1 (t), . . . , ϕk (t)) und φ2 (t) = (ϕk+1 (t), . . . , ϕn (t)), wobei ϕ1 , . . . , ϕn die Komponenten von ϕ sind. Da ϕ(t) ∈ M für alle t, muss gelten φ2 (t) = ψ(φ1 (t)) für alle t genügend nahe zu t0 . Also ϕ(t) = (φ1 (t), ψ(φ1 (t))) und ϕ0 (t0 ) = (φ01 (t0 ), Dψ(a(1) )(φ01 (t0 ))) Wir setzen v = φ01 (t0 ) ∈ Rk . Dann ist ϕ0 (t0 ) = (v, Dψ(a(1) )v) ∈ Rn . 75 Anderseits, für gegebene v ∈ Rk , können wir die Kurve ϕ(t) = (a(1) +tv, ψ(a(1) +tv)) definieren. Dann ist ϕ offenbar eine differenzierbare Kurve auf M , mit ϕ(0) = a und φ0 (0) = (v, Dψ(a(1) )(v)). Wir haben also gezeigt, dass Ta (M ) = {(v, Dψ(a(1) )v) : v ∈ Rk } Ta (M ) ist also ein linearer Raum, mit Dimension k (die Vektoren (ei , Dψ(a(1) )(ei )), für i = 1, . . . , k sind eine Basis von Ta (M ), falls ei , i = 1, . . . , k, die Standard-Basis von Rk bezeichnet). Falls die Mannigfaltigkeit M als Lösungsmenge einer Gleichung f (x) = 0 gegeben ist, so kann man eine andere Charakterisierung von Ta (M ) angeben. Sei zunächst U ⊂ Rn und f ∈ C 1 (U ) reelwertig. Es gelte ∇f (x) 6= 0 für alle x ∈ U mit f (x) = 0. Dann ist M = {x ∈ U : f (x) = 0} eine Mannigfaltigkeit der Dimenison n − 1. Wir sind im Tangentialraum Ta (M ) interessiert, für ein a ∈ M . Wir wissen schon Ta (M ) ist ein linearen Raum mit dim Ta (M ) = n − 1. Sei ϕ(t) eine parametrisierten Kurve auf M , mit ϕ(t0 ) = a. Dann gilt f (ϕ(t)) = 0 für alle t. Wir erhalten: 0= d f (ϕ(t))|t=t0 = ∇f (ϕ(t0 )) · ϕ0 (t0 ) dt und deswegen Ta (M ) ⊂ {ξ ∈ Rn : ξ · ∇f (a) = 0} Da der Raum {ξ ∈ Rn : ξ · ∇f (a) = 0} auch Dimension n − 1 hat, gilt Ta (M ) = {ξ ∈ Rn : ξ · ∇f (a) = 0} Wir haben bewiesen, dass der Gradient ∇f (a) senkrecht zum Tangentialraum Ta (M ) steht. Sei nun f ∈ C 1 (U ; Rm ) regulär an der Stelle x, für alle x ∈ U mit f (x) = 0. Dann ist M = {x ∈ U : f (x) = 0} eine C 1 -Mannigfaltigkeit der Dimension k = n − m. Seien f1 , . . . , fm die Komponenten von f . Ähnlich wie oben, gilt Ta (M ) = {ξ ∈ Rn : ∇f1 (a) · ξ = · · · = ∇fm (a) · ξ = 0} Da die m Zeilen ∇fj (a), j = 1, . . . , m, von Df (a) linear unabhängig sind (weil f regulär ist), ist es klar, dass der Raum {ξ ∈ Rn : ∇f1 (a) · ξ = · · · = ∇fm (a) · ξ = 0} die Dimension k = n − m hat. Es ist manchmal auch nützlich, neben dem Begriff vom Tangentialraum Ta (M ) auch den Begriff der Tangelntialebene einzuführen. Die Tangentialebene an der Mannigfaltigkeit M im Punkt a ist die Teilmenge von Rn , die aus allen Tangentialvektoren zu M in a besteht, die aber vom Punkt a ausgehen. Mit anderen Worten, Tangentialebene zu M in a = {a + ξ ∈ Rn : ξ ∈ Ta (M )} Falls M = {x ∈ U : f (x) = 0} für eine Funktion f ∈ C 1 (U ; Rm ) regulär im Punkt a, dann gilt Tangentialebene zu M in a = {a + ξ ∈ Rn : ξ · ∇fj (a) = 0 für alle j = 1, . . . , m} = {ξ ∈ Rn : (ξ − a) · ∇fj (a) = 0 für alle j = 1, . . . , m} Bemerke, dass im Gegensatz zum Tangentialraum Ta (M ), die Tangentialebene kein linearer Raum ist. 76 3.6 Extrema mit Nebenbedingungen Wir betrachten eine reelwertige Funktion f , definiert auf einer offenen Teilmenge Ω ⊂ Rn . In diesem Abschnitt möchten wir Extrema von f (x) finden, unter der zusätzlichen Nebenbedingung x ∈ M , wobei M ⊂ Rn eine Mannigfaltigkeit mit Dimension k < n, enthalten in Ω, ist. Wir sagen a ∈ Ω ist ein lokales bedingtes Minimum von f mit der Nebenbedingung x ∈ M , falls eine offene Umgebung A ⊂ Ω in Rn existiert, so dass f (a) = min{f (x) : x ∈ A ∩ M }. Analog definiert man den Begriff vom lokalen bedingten Maximum. a ∈ Ω heisst ein lokales bedingtes Extremum von f , falls a entweder ein lokales bedingtes Minimum oder ein lokales bedingtes Maximum ist. Nehmen wir an f ∈ C 1 (Ω). Wegen der Nebenbedinungen können bedingte Extrema a ∈ M existieren, für die ∇f (a) 6= 0. Wir suchen also andere Kriteria, um Extrema mit Nebenbedingungen zu charakterisieren. Manchmal kann man dieses Problem einfach lösen, indem man eine Parametrisierung von M benutzt. Sei z.B. f ∈ C 1 (R2 ) und nehmen wir an, wir suchen s := sup{f (x1 , x2 ) : x21 + x22 = 1} Dann können wir einen Parameter t ∈ [0, 2π) einführen und x1 = cos t, x2 = sin t schreiben. Damit ist das gesuchte Supremum s durch s = sup g(t) t∈[0,2π) , wobei g(t) = f (cos t, sin t), gegeben. Das Problem mit Nebenbedingungen wurde damit zu einem Problem (in einer Dimension, statt zwei) ohne Nebenbedingungen reduziert. Extrema sind nun durch g 0 (t) = 0 charakterisiert. Analog kann man die Nebenbedingung entfernen, falls M explizit als Graph einer differenzierbaren Funktion geschrieben werden kann. Nehmen wir an, wir suchen s := sup{x2 yz : x2 + y 2 + z 2 = 1, x, y, z ≥ 0} Das Maximum wird angenommen, weil die Funktion f (x, y, z) = x2 yz stetig und die Menge {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, x, y, z ≥ 0} kompakt ist. Das Maximum hat offenbar x, y, z > 0. Wir haben p {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1, x, y, z > 0} = {( 1 − y 2 − z 2 , y, z) : (y, z) ∈ G} mit der offenen Menge G = {(y, z) ∈ R2 : y 2 + z 2 < 1, y, z > 0}. Wir haben also s = sup{g(y, z) : (y, z) ∈ G}, wobei g(y, z) = f (1 − y 2 − z 2 , y, z) = (1 − y 2 − z 2 )yz. Um s zu finden, berechnen wir also ∇g(y, z) = (z − 3y 2 z − z 3 , y − 3z 2 y − y 3 ) Die Bedingung ∇g(y, z) = 0 gibt, nach kurzer Rechnung, y = z = 1/2. Das Maximum √ 2, 1/2, 1/2) angenommen und beträgt der Funktion f wird also im Punkt (x, y, z) = (1/ √ f (1/ 2, 1/2, 1/2) = 1/8. 77 Das letzte Beispiel war einfach, weil wir die Mannigfaltigkeit explizit als Graph schreiben konnten. Das ist natürlich nicht immer möglich. Deswegen ist der folgende Satz nützlich, um Extrema einer differenzierbaren Funktion f unter der Nebenbedingung g(x) = 0 zu finden. Proposition 3.29 (Lagrange-Multiplikatoren, eine Nebenbedingung). Sei U ⊂ Rn offen, g ∈ C 1 (U ) reelwertig, und M = {x ∈ U : g(x) = 0}. Sei a ∈ M , so dass ∇g(a) 6= 0. Dann ist M in der Nähe von a eine Mannigfaltigkeit der Dimension n − 1 (eine Hyperfläche). Sei nun f eine reelwertige Funktion, definiert und differenzierbar in der Nähe von a. Sei a eine bedingte lokale Extremalstelle von f auf M . Dann existiert λ ∈ R mit ∇f (a) = λ∇g(a) Der Parameter λ heisst ein Lagrange-Multiplikator. Proof. Nehmen wir an ∇f (a) ist nicht proportional zu ∇g(a). Dann existiert ξ ∈ Rn mit ξ · ∇g(a) = 0 aber ξ · ∇f (a) 6= 0. Die Bedingung ξ · ∇g(a) = 0 impliziert, dass ξ ∈ Ta (M ). Also existiert eine parametrisierte Kurve ϕ : I → M , mit ϕ(t0 ) = a und ϕ0 (t0 ) = ξ für ein t0 ∈ I. Betrachte nun die Funktion h(t) = f (ϕ(t)). Es gilt h0 (t0 ) = ∇f (ϕ(t0 )) · ϕ0 (t0 ) = ∇f (a) · ξ 6= 0 Das heisst, in jeder Umgebung von t0 nimmt h(t) Werte kleiner und grösser als h(t0 ) = f (a) an. Das zeigt, dass f auf U ∩ M Werte kleiner und grösser als f (a) annimmt, für jede offene Umgebung U von a. Deswegen ist a keine bedingte Extremalstelle von f . Die Proposition gibt uns eine Rezept, um Extrema einer differenzierbaren Funktion f mit der Nebenbedingung g(x) = 0 zu finden. Die Gleichungen ( ∇f (x) = λ∇g(x) g(x) = 0 bilden ein System von (n + 1)-Gleichungen für die (n + 1) Unbekannten x1 , . . . , xn , λ. Lösungen dieses Gleichungsystemes, zusammen mit Punkten x ∈ Rn mit g(x) = 0, wo f nicht differenzierbar ist, sind dann die einzigen möglichen Kandidaten für bedingte lokale Extremalstellen. Beispiel: Betrachten wir noch einmal das Beispiel von oben. Wir suchen s := sup{x2 yz : x2 + y 2 + z 2 = 1, x, y, z ≥ 0} Wir setzen f (x, y, z) = x2 yz und g(x, y, z) = x2 + y 2 + z 2 − 1. Bei bedingten Extrema muss gelten: ∇f (x, y, z) = λ∇g(x, y, z) für ein λ ∈ R. Das ergibt die vier Gleichungen 2xyz = 2λx 2 x z = 2λy 2y x = 2λz 2 2 2 x +y +z =1 78 Da x, y, z > 0 gelten muss, implizieren die zweite und dritte Gleichung, dass y = z. Die erste Gleichung gibt dann λ = y 2 , und damit liefert die dritte Gleichung x2 =√ 2y 2 . Einsetzen im letzten Gleichung ergibt 4y 2 = 1, und damit y = z = 1/2 und x = 1/ 2. Bis jetzt haben wir Probleme mit einer Nebenbedingung der Form g(x) = 0 untersucht, für eine reelwertige Funktion g. Im Folgenden untersuchen wir den Fall, dass g Werte in Rm hat, für ein m < n. In diesem Fall ist die vektorielle Gleichung g(x) = 0 eigentlich ein System mit m Gleichungen. Man spricht dann von m Nebenbedingungen. Auch in diesem Fall kann man Extrema finden, indem man Lagrange-Multiplikatoren einführt. Proposition 3.30 (Lagrange Multiplikatoren, m Nebenbedingungen). Sei U ⊂ Rn offen, g ∈ C 1 (U ; Rm ) für ein m < n. Sei M = {x ∈ U : g(x) = 0}. Sei a ∈ M , so dass g regulär an der Stelle a ist (d.h. Rg (Dg(a)) = m; in diesem Fall ist M in der Nähe von a ein Mannigfaltigkeitstück der Dimension k = n−m). Sei f eine reelwertige C 1 -Funktion, definiert in einer Umgebung von a in Rn . Sei a eine lokale bedingte Extremalstelle von f auf M . Dann ist ∇f (a) eine lineare Kombination von ∇g1 (a), . . . , ∇gm (a). D.h. es existieren λ1 , . . . , λm ∈ R mit ∇f (a) = m X λj ∇gj (a) j=1 wobei g1 , . . . , gm : U → R die Komponenten von g sind. Beweis: Nehmen wir an, dass ∇f (a) nicht eine lineare Kombination von ∇g1 (a), . . . , ∇gm (a) ist. Dann existiert ξ ∈ Rn , so dass ξ · ∇gi (a) = 0 für alle i = 1, . . . , m und ξ · ∇f (a) 6= 0. Das impliziert, dass ξ ∈ Ta (M ). Damit existiert eine differenzierbare parametrisierte Kurve ϕ : I → M , so dass ϕ(t0 ) = a und ϕ0 (t0 ) = ξ. Sei nun h(t) = f (ϕ(t)). Dann ist h0 (t0 ) = ∇f (a) · ξ 6= 0 Damit ist t0 keine Extremalstelle von f (ϕ(t)). Das zeigt, dass a keine bedingte lokale Extremalstelle von f sein kann. Um bedingte Extremalstellen einer Funktion f auf Rn mit m Nebenbedingungen g(x) = 0 zu finden, muss man also die n + m Gleichungen m X ∇f (x) = λj ∇gj (x) j=1 g(x) = 0 für die (n + m) Unbekannten x1 , . . . , xn , λ1 , . . . , λm lösen. Die einzigen Kandidaten für Extremalstellen sind Lösungen dieser Gleichungen und Punkte auf M , wo f nicht differenzierbar ist. Beispiel (aus der statistischen Mechanik): Ein Molekül habe n mögliche Zustände, mit Energien E1 , . . . , En . In der statistischen Mechanik wird ein System von vielen Molekülen durch die Wahrscheinlichkeiten p1 , . . . , pn ∈ [0; 1] beschrieben, dass ein Molekül im jten Zustand gefunden wird (die Wahrscheinlichkeit pj gibt die Fraktion zwischen den 79 Molekülen im j-ten Zustand und der gesamten Anzahl von Molekülen). Der Zustand des Vielteilchensystems wird durch Maximierung der Entropie H(p1 , . . . , pn ) = − n X pj log pj j=1 unter den Nebenbedingungen p1 + · · · + pn = 1 und Ē = n X pj Ej j=1 bestimmt (wir möchten also die Entropie bei feste mittlerer Energie Ē maximieren). P Sei p = (p1 , . . . , pn ). Wir setzen g1 (p) = p1 + · · · + pn − 1 und g2 (p) = nj=1 pj Ej . Es gilt ∇g1 (p) = (1, 1, . . . , 1) und ∇g2 (p) = (E1 , . . . , En ). Da ∇H(p) = (− log p1 − 1, . . . , − log pn − 1) finden wir aus der Gleichung ∇H(p) = λ1 ∇g1 (p) + λ2 ∇g2 (p), dass −1 − log pj = λ1 + λ2 Ej für alle j = 1, . . . , n. Das ergibt log pj = −1 − λ1 − λ2 Ej und also pj = e−(λ1 +1) · e−λ2 Ej =: ke−λ2 Ej Die Bedingung g1 (p) = 0 bestimmt die Konstante k. Wir finden e−λ2 Ej pj = Pn −λ2 Ej j=1 e Die Bedingung g2 (p) = 0 ergibt die Gleichung E= n X j=1 Ej e−λ2 Ej Pn −λ2 Ej j=1 e Diese Gleichung erlaubt uns im Prinzip, λ2 zu bestimmen. In der statistischen Mechanik setzte man λ2 = kB /T , wobei kB die sogenannte Boltzmann-Konstante ist, und T die absolute Temperatur des Systems ist. Die Temperatur wird von der mittleren Energie bestimmt. Der Zustand vom System zur Temperatur T (d.h. zur mittleren Energie E) ist der sogenannte Gibbs-Zustand, charakterisiert durch die Wahrscheinlichkeiten e−kB Ej /T pj = Pn −k E /T . B i i=1 e Lagrange-Multiplikatoren und die oben erklärten Strategien, um bedingte Extrema zu finden, sind auch nützlich, um (globale) Extrema von Funktionen auf Teilmengen von Rn zu suchen, die einen Rand haben. Wir betrachten ein Beispiel, um die Situation zu erklären. 80 Beispiel: Wir suchen das globale Maximum und das globale Minimum von f (x, y, z) = x2 + y + z 2 auf D := {(x, y, z) ∈ R3 : x2 + y 2 + z 2 ≤ 1 und x2 + y 2 ≤ 1/2}. Wir zerlegen D in verschiedenen Teile. Wir setzten: D1 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 < 1 und x2 + y 2 < 1/2}, √ D2 = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 = 1 und z > 1/ 2}, D3 = −D2 √ √ D4 = {(x, y, z) ∈ R3 : x2 + y 2 = 1/2, z ∈ (−1/ 2; 1/ 2)}, √ D5 = {(x, y, z) ∈ R3 : x2 + y 2 = 1/2, z = 1/ 2}, D6 = −D5 . Wir suchen separate lokale Extrema in den Mengen D1 , . . . , D5 . Das globale Maximum von f in D ist das grösste lokale Maximum, das wir in D1 , . . . , D6 finden werden, und analog für das globale Minimum von f . 1) Extrema auf D1 werden durch die Bedingung ∇f (x) = 0 charakterisiert. Da ∇f (x) = (2x, 1, 2z), existiert kein Punkt x ∈ D1 mit ∇f (x) = 0. Also gibt es kein lokales Extremum in D1 . 2) Lokale Extrema auf D2 werden durch die Nebenbedingung g(x, y, z) = x2 + y 2 + z 2 = 1 charakterisiert. Ist x ∈ D2 ein lokales bedingtes Extremum, dann muss λ ∈ R existieren mit ∇f (x) = λ∇g(x). Mit ∇g(x) = 2(x, y, z) wir finden 2x = 2λx 1 = 2λy 2z = 2λz 2 x + y2 + z2 = 1 Da z 6= 0 in D2 , folgt λ = 1. Das ergibt y = 1/2 und√x2 + z 2 = 3/4. Der Kreis {(x, 1/2, z) : x2 + z 2 = 3/4} schneidet D2 wenn z > 1/ 2. Auf diesem Kreis ist f konstant, gegeben aus f (x, 1/2, z) = 5/4, für alle (x, z) ∈ R2 mit x2 + z 2 = 3/4. 3) Aus Symmetrie, kann die Funktion f auf D3 nur auf dem Kreis {(x, 1/2, z) : x2 + z 2 = 3/4} extremal sein, wo f = 5/4 ist. 4) Wir betrachten nun die Teilmenge D4 , wo Extrema von f mit der Nebenbedingung g(x, y, z) = x2 +y 2 −1/2 = 0 gesucht werden sollen. Die Gleichung ∇f (x) = λ∇g(x) wird zu 2x = 2λx 1 = 2λy =0 2z 2 x + y 2 = 1/2 √ Wir finden die Lösungen (x, y, z) = (0, ±1/ 2, 0) und (x, y, z) = (±1/2, 1/2, 0). Es gilt √ √ f (0, ±1/ 2, 0) = ±1/ 2 f (±1/2, 1/2, 0) = 3/4. 81 5) Auf D5 haben wir√die Nebenbedingungen g1 (x, y, z) = x2 + y 2 − 1/2 = 0 und g2 (x, y, z) = z − 1/ 2 = 0. Die Gleichung ∇f (x) = λ1 ∇g1 (x) + λ2 ∇g2 (x) gibt 2x = 2λ1 x = 2λ1 y 1 2z = λ2 x2 + y 2 = 1/2 √ z = 1/ 2 √ √ √ Es gibt die Lösungen (±1/2, 1/2, 1/ 2) und (0, ±1/ 2, 1/ 2). Es gilt √ f (±1/2, 1/2, 1/ 2) = 5/4 √ √ √ f (0, ±1/ 2, 1/ 2) = ±1/ 2 + 1/2. √ 6) Aus Symmetrie können Extrema in D nur an den Stellen (±1/2, 1/2, −1/ 2) 6 √ √ √ und (0, ±1/ 2, −1/ 2) gefunden werden. Wie in D finden wir f (±1/2, 1/2, −1/ 2) = 5 √ √ √ 5/4 und f (0, ±1/ 2, −1/ 2) = ±1/ 2 + 1/2. Durch Vergleich der Werte von f in den gefundenen Kandidaten für Maxima und Minima, finden wir max f (x) = 5/4, x∈D und 1 min f (x) = − √ x∈D 2 √ Das Maximum wird auf dem Kreisbogen y√= 1/2, x2 + z 2 = 3/4, mit |z| ≥ 1/ 2 angenommen. Das Minimum wird in (0, −1/ 2, 0) angenommen. 4 4.1 Riemann’sche Integrale in Rn Definition und allgemeine Eigenschaften Die Definitionen und die allgemeine Eigenscahften vom Riemann’sche Integral in Rn , n > 1, sind hauptsächlich einfache Verallgemeinerungen von den entsprechenden Begriffe im Fall n = 1. Nur die Notation ist ein bisschen komplizierter. Die Rolle von Intervalle im 1-dimensionalen Fall wird allgemein durch Quader gespielt. Die Länge des Intervall entspricht nun zum Mass des Quader. Definition 4.1. Ein abgeschlossenen Quader in Rn ist eine Menge Q der Form Q = [a1 ; b1 ] × [a2 ; b2 ] × · · · × [an ; bn ] für reellen Zahlen a1 , . . . , an , b1 , . . . , bn mit aj < bj für alle j = 1, . . . , n. Das Mass vom Quader Q ist dann definiert als µ(Q) = (b1 − a1 ) · (b2 − a2 ) . . . (bn − an ) = n Y (bj − aj ) j=1 Für n = 1 sind Quader Intervalle, und das Mass eines Quader ist einfach die Länge des Intervalls. 82 Wir erinnern nun, dass eine Teilung vom Intervall [a; b] ⊂ R eine Menge T = {a = a(0) < a(1) < a(2) < · · · < a(m) = b} ist. Die Teilung definiert eine Zerlegung vom Intervall [a; b] in den Teilintervalle I1 = [a(0) ; a(1) ], I2 = [a(1) ; a(2) ], . . . , Im = [a(m−1) ; a(m) ]. Wir benutzten den Begriff von Teilung eines Intervall in R um den allgemeineren Begriff von Teilung eines Quaders. Definition 4.2. Eine Teilung vom Quader Q = [a1 ; b1 ] × [a2 ; b2 ] × · · · × [an ; bn ] (0) in Rn ist eine n-Tupel von 1-dimensionale Teilungen T1 , . . . , Tn , wobei Tj = {aj = aj (m −1) aj j (1) aj < (m ) aj j < ··· < < = bj } eine Teilung von [aj ; bj ] ist, für alle j = 1, . . . , n. Eine Teilung vom Quader Q definiert eine Zerlegung vom Quader in kleineren Teilquader, gemäss Q= m2 m1 [ [ j1 =1 j2 =1 ··· m [n (j −1) [a1 1 (j −1) (j ) ; a1 1 ] × [a2 2 (j ) n −1) n) ; a2 2 ] × · · · × [a(j ; a(j n n ] jn =1 Wir bezeichnen mit Qj (T ) irgendeine Numerierung von diesen Teilquader. Dann gilt Sn(T ) Q = j=1 Qj (T ), wobei n(T ) die gesamte Anzahl von Teilquadern ist, die zur Teilung T entsprechen. Bemerke, dass Qi (T ) ∩ Qj (T ) nicht immer leer ist; es ist aber immer ein Objekt mit kleinere Dimension, falls i 6= j (z.B. im Fall n = 1, berühren sich Teilintervalle in ein Punkt). Es ist deswegen leicht zu überprüfen, dass n(T ) µ(Q) = X µ(Qj (T )) j=1 Sei nun Q ein Quader, T eine Teilung von Q und f eine beschränkte R-wertige Funktion auf Q.Wir definieren die zur Teilung T entsprechenden obere und untere Summe von f auf Q durch n(T ) S(f, Q, T ) = X sup{f (x) : x ∈ Qj (T )}µ(Qj (T )) j=1 n(T ) S(f, Q, T ) = X inf{f (x) : xinQj (T )}µ(Qj (T )) j=1 Es gilt immer: S(f, Q, T ) ≤ S(f, Q, T ) Sei nun Q ein Quader und T eine Teilung von Q. Eine Verfeinerung von T ist eine Teilung T 0 von Q so, dass jede Teilquader Qj (T 0 ) in einem Teilquader Qi (T ) enthalten ist. Wie im Fall n = 1, es gilt: • Sind T1 , T2 zwei Teilungen vom Quader Q, so existiert eine Teilung T3 so, dass T3 eine Verfeinerung von T1 und eine Verfeinerung von T2 ist. 83 • Ist T 0 eine Verfeinerung von T , dann ist S(f, Q, T 0 ) ≤ S(f, Q, T ), und S(f, Q, T 0 ) ≥ S(f, Q, T ) • Für zwei beliebige Teilungen T1 , T2 gilt S(T1 ) ≤ S(T2 ). (50) Um diese Behauptung zu zeigen, wählen wir einfach eine Teilung T3 , die gleichzeitig eine Verfeinerung von T1 und von T2 ist. Dann bemerken wir einfach, dass S(T1 ) ≤ S(T3 ) ≤ S(T3 ) ≤ S(T2 ). Wir sind nun bereits, das Riemann’sche Integral zu definieren. Definition 4.3. Sei Q ⊂ Rn , und f eine beschränkte Funktion auf Q. Wir sagen, f ist auf Q Riemann integrierbar, falls sup S(f, Q, T ) = inf S(f, Q, T ) T T In diesem Fall definieren wir das Riemann’sche Integral von f auf Q durch Z f dx = sup S(f, Q, T ) = inf S(f, Q, T ) T T Q Bemerkungen: 1) Aus (50) folgt immer, dass supT S(f, Q, T ) ≤ inf T S(f, Q, T ). So, f ist genau dann integrierbar, wenn sup S(f, Q, T ) ≥ inf S(f, Q, T ) T T Das impliziert, wie im Fall n = 1, dass f genau dann integrierbar ist, wenn eine Folge von Teilungen Tk von Q existiert, mit S(f, Q, Tk ) − S(f, Q, Tk ) → 0 (51) 2) eine Vektorwertige Funktion f : Q → Rp , gegeben in Komponenten durch f (x) = (f1 (x), . . . , fp (x)) heisst auf Q integrierbar, falls jede Komponenten fj : Q → R Riemann integrierbar ist. Das Riemann’sche Integral von f ist, in diesem Fall, das Vektor Z Z Z f dx = f1 dx, . . . , fp dx Q Q Q 3) Gemäss Definition, eine integrierbare Funktion ist immer beschränkt. 4) Wie in Fall n = 1 man kann Riemann Integrale mit Hilfe von Familien von Representanten berechnen. Beispiel: die konstante Funktion f (x) = 1 für alle x ∈ Q, so ist f über Q integrierbar und Z 1dx = µ(Q) Q Die folgenden Grundeigenschaften vom Riemann’sche Integral auf Rn sind eine einfache Verallgemeinerung der entsprechenden Begriffe für den Fall n = 1. 84 Proposition 4.4. Sei Q ⊂ Rn ein Quader. Es gilt: a) Linearität: seien f, g integrierbar über Q, α, β ∈ R. Dann ist auch αf + βg über Q integrierbar, und Z Z Z gdx f dx + β (αf + βg)dx = α Q Q Q b) Monotonie: seien f, g integrierbar über Q, f (x) ≤ g(x) für all x ∈ Q. Dann gilt Z Z gdx f dx ≤ Q Q c) Dreiecksungleichung: sei f integrierbar über Q. Dann ist auch |f | integrierbar über Q und Z Z f dx ≤ |f |dx Q Q d) Sei f stetig auf Q. Dann ist f auch integrierbar über Q. Bemerkung: Wie im Fall n = 1, gilt das folgende Kriterium für die Integrierbarkeit eine beschränkte Funktion f : Q → R. A ⊂ Rn heisst eine Lebesgue Nullmenge, falls für alle ε > 0 eine höchstens abzählbare Familie (Qj ) von abgeschlossener Quader existiert, mit [ X A⊂ Qj und µ(Qj ) < ε j j Ein beschränkte Funktion f : Q → R ist genau dann auf Q integrierbar, wenn die Menge {x ∈ Q : f ist unstetig a.d.S. x} eine Lebesgue Nullmenge ist. Wir werden dieses Kriterium in dieser Vorlesung nicht beweisen (ein Beweis kommt nächstes Semester in der Vorlesung Analysis 3). Bemerkung: Mit dieser Definition kann man einfach zeigen, dass, wenn f und g integrierbar über ein Quader Q sind, so ist auch das Produkt f · g integrierbar über Q. Wie im Fall n = 1 ist das Integral des gleichmässigen Limes einer Folge integrierbarer Funktionen der Grenzwert der Integrale. Der Beweis der folgenden Proposition ist ähnlich wie im Fall n = 1. Proposition 4.5. Sei fn eine Folge von integrierbaren Funktionen über ein Quader Q ⊂ Rn . Die Folge fn konvergiere gleichmässig auf Q gegen eine Funktion f . Dann a) f ist über Q integrierbar. b) Es gilt Z lim Z n→∞ Q fn dx = f dx Q Neben dem Begriff von Lebesgue Nullmenge, es gibt einen zweiten Begriff von Nullmenge, der eine wichtige Rolle spielt. Das ist der Begriff von Jordan Nullmenge. 85 Definition 4.6. Eine Menge A ⊂ Rn heisst eine Jordan Nullmenge falls, für alle ε > 0 eine endliche Familie (Qj ) existiert, mit [ X A⊂ Qj , und µ(Qj ) < ε j j Bemerkungen: 1) Jede Jordan Nullmenge ist auch eine Lebesgue Nullemenge. Die Umkehrung gilt nicht, d.h. es existieren Lebesgue Nullmengen die nicht Jordan Nullmengen sind. Z.B. ist Q, die Menge der rationale Zahlen, gesehen als Teilmenge von R, eine Lebesgue Nullmenge, aber keine Jordan Nullmenge. 2) Jede Teilmenge einer Jordan Nullmenge ist eine Jordan Nullmenge. 3) Eine endliche Vereinigung von Jordan Nullmengen ist wieder eine Jordan Nullmenge. 4) Jede endliche Menge ist eine Jordan Nullmenge. 5) Eine kompakte Lebesgue Nullmenge ist auch eine Jordan Nullmenge. Beweis: Übung. Proposition 4.7. Sei Q ⊂ Rn ein Quader. a) Sei f : Q → R beschränkt, so dass {x ∈ Q : f (x) 6= 0} eine Jordan Nullmenge ist. Dann ist f Riemann integrierbar über Q und Z f dx = 0 Q b) Seien f1 : Q → R integrierbar über Q und f2 : Q → R beschränkt, mit {x ∈ Q : f1 (x) 6= f2 (x)} eine Jordan Nullmenge. Dann ist f2 auch integrierbar über Q und Z Z f1 dx = f2 dx Q Q Mit anderer Wörter, Veränderung einer integrierbare Funktion auf einem Jordan Nullmenge ändert weder die Integrierbarkeit der Funktion, noch den Wert des Integrals. Um Prop. 4.7 zu beweisen, werden wir das folgende Lemma brauchen. Lemma 4.8. Seien A, Q ⊂ Rn Quader, mit A ⊂ Q. Sei ϕA : Q → R, die charakteristische Funktion von A, definiert durch ϕA (x) = 1 falls x ∈ A und ϕA (x) = 0 sonst. Dann ist ϕA integrierbar über Q und Z ϕA dx = µ(A) Q Beweis. Betrachte den Fall n = 2, Q = [a1 ; b1 ] × [a2 ; b2 ], A = [c1 ; d1 ] × [c2 ; d2 ], mit a1 < c1 < d1 < b1 und a2 < c2 < d2 < b2 . Für ε > 0 klein genug, wir betrachten die Teilung Tε,1 = {a1 < c1 − ε < c1 < d1 < d1 + ε < b1 } von [a1 ; b1 ] und die Teilung Tε,2 = {a2 < c2 − ε < c2 < d2 < d2 + ε < b2 } von [a2 ; b2 ]. Tε,1 , Tε,2 induzieren eine Teilung Tε vom Quader Q. Es gibt 8 Teilquader Qi , nämlich [c1 − ε; c1 ] × [c2 − ε; c2 ], [c1 − 86 ε; c1 ] × [c2 ; d2 ], [c1 − ε; c1 ] × [d2 ; d2 + ε], [c1 ; d1 ] × [c2 − ε; c2 ], [c1 ; d1 ] × [d2 ; d2 + ε], [d1 ; d1 + ε] × [c2 − ε; c2 ], [d1 ; d1 + ε] × [c2 ; d2 ], [d1 ; d1 + ε] × [d2 ; d2 + ε], wo sup{ϕA (x) : x ∈ Qi } = 1, inf{ϕA (x) : x ∈ Qi } = 0 und Das gesamte Mass dieser 8 Teilquader ist 8 X µ(Qi ) = 2ε(d2 − c2 + 2ε) + 2ε(d1 − c1 ) = 2ε(d2 − c2 + d1 − c1 + 2ε) i=1 In alle andere Teilquader ist sup{ϕA (x) : x ∈ Qi } = inf{ϕA (x) : x ∈ Qi }. Also S(ϕA , Q, Tε ) − S(ϕA , Q, Tε ) = 2ε(d2 − c2 + 2ε) + 2ε(d1 − c1 ) = 2ε(d2 − c2 + d1 − c1 + 2ε) und also lim S(ϕA , Q, Tε ) − S(ϕA , Q, Tε ) = 0 ε→0 Das bedeutet, dass ϕA integrierbar ist, und, dass Z ϕA dx = lim S(ϕA , Q, Tε ) = µ(A) ε→0 A Beweis von Prop. 4.7. Wir nehmen zunächst an, dass 0 ≤ f (x) ≤ 1 for all x ∈ Q. Sei ε > 0 und R1 , . . . , Rk Quadern, mit k [ {x ∈ Q : f (x) 6= 0} ⊂ Rj , und j=1 k X µ(Rj ) < ε j=1 P Wir setzen g(x) = kj=1 ϕRj (x), wo ϕRj ist die charakteristische Funktion vom Quader Rj . Wir behaupten nun, dass 0 ≤ f (x) ≤ g(x) für alle x ∈ Q. Gilt f (x) = 0, dann ist die Ungleichung 0 ≤ f (x) ≤ g(x) klar. Ist dagegen f (x) 6= 0, dann existiert j ∈ {1, . . . , k} so, dass x ∈ Rj . Damit ist g(x) ≥ ϕRj (x) = 1 ≥ f (x). Anderseits, es folgt aus Lemma 4.8, dass g integrierbar ist, und, dass Z gdx = Q k Z X j=1 ϕRj dx = Q k X µ(Rj ) < ε j=1 Das bedeutet, es existiert eine Teilung T mit S(g, Q, T ) < ε. Aus 0 ≤ f (x) ≤ g(x), muss auch S(f, Q, T ) < ε. Da S(f, Q, T ) ≥ 0, und da ε > 0 beliebig ist, ist f integrierbar und Z f dx = 0 Q Nun, wir nehmen an, f ist eine beschränkte Funktion mit {x ∈ Q : f (x) 6= 0} eine Jordan Nullmenge und mit f (x) ≥ 0 für alle x ∈ Q. Dann existiert auch ein M > 0 mit 0 ≤ f (x) ≤ M , für ein M > 0. Dann 0 ≤ f (x)/M ≤ 1 und {x ∈ Q : f (x)/M 6= 0} ist 87 eine Jordan Nullmenge. Wir haben oben bewiesen, dass f (x)/M ist integrierbar und, dass Z f (x) dx = 0 Q M R Das impliziert auch, dass Q f dx = 0. Schlussendlich, nehmen wir an, f ist eine beschränkte Funktion auf Q mit {x ∈ Q : f (x) 6= 0} eine Jordan Nullmenge. Wir zerlegen dann f = f+ − f− , mit f (x), falls f (x) ≥ 0 f+ (x) = 0, sonst −f (x), falls f (x) ≤ 0 f− (x) = 0, sonst Dann gilt f+ , f− ≥ 0, {x ∈ Q : f+ (x) 6= 0}, {x ∈ Q : f− (x) 6= 0} sind beide Jordan Nullmenge. Wir haben oben gezeigt, dass f+ , f− integrierbar sind, mit Z Z f+ dx = f− dx = 0 Q Q Aus Linearität ist auch f = f+ − f− integrierbar und R Q f dx = 0. Proposition 4.9. Sei Q ⊂ Rn ein Quader, A ⊂ Q. Dann ist A eine Jordan Nullmenge genau dann, wenn die charakteristische Funktion ϕA von A integrierbar ist, mit R Q ϕA dx = 0. Beweis. Prop. R ist ϕA inteR 4.7 impliziert, dass, wenn A eine Jordan Nullmenge ist, so griebar und Q ϕA dx = 0. Nehmen wir nun an ϕA ist integrierbar, mit Q ϕA dx = 0. Wir möchten zeigen, dass A eine Jordan Nullmenge ist. Dazu wählen wir ε > 0 und wir finden eine Teilung T von Q mit Teilquader {Q1 , . . . , Qk } so, dass S(ϕA , Q, T ) = k X sup{ϕA (x) : x ∈ Qj }µ(Qj ) ≤ ε j=1 Wir bemerken, dass sup{ϕA (x) : x ∈ Qj } = 1, 0, falls A ∩ Qj = 6 ∅ falls A ∩ Qj = ∅ Also X µ(Qj ) ≤ ε j:A∩Qj 6=∅ Damit ist {Qj : A ∩ Qj 6= ∅} eine endliche Familie von Quader, die A überdeckt und mit gesamten Mass kleiner oder gleich zu ε. Da ε > 0 beliebig ist, ist A eine Jordan Nullmenge. 88 Im nächsten Satz zeigen wir, dass das Bild einer Nullmenge, bezüglich eine Lipschitz stetige Abbildung wieder eine Nullmenge ist. Wir erinnern hier, dass eine Funktion f : M1 → M2 zwischen zwei metrischen Räume M1 , M2 Lipschitz stetig heisst, falls eine Konstante λ > 0 existiert, mit dM1 (f (x), f (y)) ≤ λdM2 (x, y) für alle x, y ∈ M1 . Satz 4.10. a) Sei X ⊂ Rn eine Jordan Nullmenge und f : X → Rn Lipschitz stetig. Dann ist f (X) ebenfalls eine Jordan Nullmenge. b) Sei d < n, X ⊂ Rd beschränkt und f : X → Rn Lipschitz stetig. Dann ist f (X) ⊂ Rn eine Jordan Nullmenge. c) Sei d < n und G ⊂ Rd offen. f : G → Rn stetig differenzierbar, X ⊂ G kompakt. Dann ist f (X) eine Jordan Nullmenge. Um den Satz zu beweisen, brauchen wir das folgende Lemma. Lemma 4.11. Sei Q ⊂ Rn ein Quader, mit µ(Q) P< κ. Dann existiert eine endliche Überdeckung von Q durch Würfel W1 , . . . , Wk mit kj=1 µ(Wj ) < κ. Beweis. Sei ε > 0 fest. Wir teilen Rn in einem regelmässigen Gitter von kleinen Würfel mit Kantenlänge ε. Seien W1 , . . . , Wk die Würfel, die Q schneiden. Ist Q = [a1 ; b1 ] × [a2 ; b2 ] × · · · × [an ; bn ], dann gilt k X j=1 µ(Wj ) ≤ n Y (bj − aj + 2ε) < κ j=1 falls ε > 0 klein genug ist. Wir können nun Satz 4.10 beweisen. Beweis von Satz 4.10. a) Sei X ⊂ Rn eine Jordan Nullmenge und ε > 0 fest. Aus Lemma 4.11 folgt, Pk dass eine endliche Familie von Würfel W1 , . . . , Wk existiert, mit X ⊂ Sk W und j j=1 µ(Wj ) < ε. O.B.d.A. können wir annehmen, dass Wi ∩X 6= ∅ für alle j=1 i = 1, . . . , k; also für alle i = 1, . . . , k finden wir xi ∈ Wi ∩ X. Sei nun λ eine Lipschitz Konstante für f : X → Rn , d.h. es gelte kf (x) − f (y)k ≤ λkx − yk für alle x, y ∈ X. Wir behaupten nun, dass, für alle i = 1, . . . , k, f (Wi ∩X) ⊂ Ŵi , wobei Ŵi der Würfel √ mit Mittelpunkt f (xi ) und Kantenlänge 2λ n`i , mit `i die Kantenlänge von Wi . Um √ diese Behauptung zu zeigen, bemerken wir, dass für alle x ∈ Wi ist kx − xi k ≤ n`i . √ Ist x ∈ Wi ∩ X, dann impliziert die Lipschitz Bedingung, dass kf (x) − f (xi )k ≤ λ n`i . Das bedeutet, dass f (x) ∈ Ŵi . Nun abschätzen wir √ √ µ(Ŵi ) = (2λ n`i )n = (2λ n)n µ(Wi ) S S Da f (X) ⊂ kj=1 f (Wi ∩ X) ⊂ kj=1 Ŵj und da k X j=1 k X √ √ µ(Wj ) ≤ (2λ n)n ε µ(Ŵj ) = (2λ n)n j=1 89 Das zeigt, dass f (X) eine Jordan’sche Nullmenge ist. b) X ⊂ Rd beschränkt, mit d < m. O.B.d.A. können wir annehmen, dass X ⊂ [0; 1]d . Wir identifizieren [0; 1]d mit der Teilmenge [0; 1]d × {0, 0, . . . , 0} ⊂ Rn (die Abbildung ist aus (x1 , . . . , xd ) → (x1 , . . . , xd , 0, 0, . . . , 0) gegeben). Nach dieser Identifizierung ist X ⊂ Rn eine Nullmenge (weil {(x1 , . . . , xn ) : xd+1 = xd+2 = · · · = xn = 0} eine Jordan Nullmenge ist). Die Behauptung folgt also aus a). c) Sei G ⊂ Rd offen und Q ⊂ G ein Quader. Wir behaupten, dass f auf Q Lipschitz stetig ist. Das folgt weil x → kDf (x)k stetig ist und deswegen auf Q beschränkt, d.h. es existiert M > 0 mit kDf (x)k ≤ M für alle x ∈ Q. Die Mittelwertabschätzung (und die Tatsache, dass Q konvex ist) impliziert, dass kf (x) − f (y)k ≤ M kx − yk für alle x, y ∈ Q, wie behauptet. Für x ∈ X sei nun Qx ein Quader mit Mittelpunkt x und mit Qx ⊂ G. {Q◦x : x ∈ X} ist eine offene Überdeckung von X. Da X kompakt ist, existieren endlich viele Punkten x1 , . . . , xm ∈ X mit X ⊂ Q◦x1 ∪ Q◦x2 ∪ · · · ∪ Q◦xm Dann ist m [ X⊂ (X ∩ Qxj ) j=1 und f (X) ⊂ m [ f (X ∩ Qj ) j=1 Da f auf Qj Lipschitz stetig ist, folgt aus b), dass f (X ∩ Qj ) eine Nullmenge ist. Dann ist auch m [ f (X ∩ Qj ) j=1 als endliche Vereinigung von Jordan Nullmengen wieder eine Nullmenge. Also, f (X) ist auch eine Nullmenge. Sei f : Rn → R eine Funktion. Wir bezeichnen mit supp(f ) := {x ∈ Rn : f (x) 6= 0} der Träger von f (bemerke, der Träger ist der Abschluss von der Menge aller Punkten wo f nicht verschwindet; der Träger ist also immer eine abgeschlossene Menge). Proposition 4.12. Sei f : Rn → R eine beschränkte Funktion mit kompakten Träger (d.h. der Träger ist beschränkt). Seien Q1 , Q2 Quader mit supp f ⊂ Q1 ∩ Q2 . Dann ist f über Q1 integrierbar genau dann wenn f ist über Q2 integrierbar. Ist das der Fall, so gilt Z Z f dx = Q1 f dx Q2 Der Beweis lassen wir als Übung. Die letzte Proposition gibt uns die Möglichkeit das Integral einer beschränkten Funktion mit kompakten Träger unabhängig vom Quader zu definieren, wo integriert wird. Sei nämlich f : Rn → R eine beschränkte Funktion mit 90 kompakten Träger. Wir sagen f ist über Rn integrierbar, wenn f über Q integrierbar ist, für ein Quader Q mit supp f ⊂ Q. In diesem Fall definieren wir Z Z Z f dx f dx := f dx ≡ Rn Q Die Definition ist wegen Proposition 4.12 unabhängig von der Wahl vom Quader Q (natürlich unter der Annahme, dass supp f ⊂ Q). Dieser Definition kann auch benutzt werden, um das Integral von f auf einem beliebigen Gebiet in Rn zu definieren. Sei A ⊂ Rn und sei ϕA die charakteristische Funktion von A (d.h. ϕA (x) = 1, falls x ∈ A, und ϕA (x) = 0 sonst). Sei weiter f eine Funktion definiert mindestens auf A und mit kompakten Träger (die Annahme von kompakten Träger ist nicht notwendig, falls die Menge A beschränkt ist). Wir sagen, dass f über A integrierbar ist, falls ϕA · f auf Rn integrierbar ist. In diesem Fall setzen wir Z Z ϕA · f dx f dx := A Rn Definition 4.13. Eine Menge A ⊂ Rn heisst Jordan messbar, falls die charakteristische Funktion ϕA von der Menge A (definiert durch ϕA (x) = 1 falls x ∈ A und ϕA (x) = 0 sonst) auf Rn integrierbar ist. In diesem Fall definieren wir das Jordan Mass von A durch Z µ(A) = ϕA dx Das Jordan Mass µ, das ursprünglich nur für Quader definiert war, wird somit auf viel mehr Mengen verallgemeinert. In 2 und 3 Dimensionen, das Jordan Mass wird als Flächeninhalt, bzw. Volumen, interpretiert. Das Jordan Mass hat die folgende Eigenschaften. Proposition 4.14. Seien A1 , A2 Jordan messbar. a) Dann sind auch A1 ∪ A2 , A1 ∩ A2 , A1 \A2 Jordan messbar. b) Gilt µ(A1 ∩ A2 ) = 0 so gilt µ(A1 ∪ A2 ) = µ(A1 ) + µ(A2 ). c) Ist A1 ⊂ A2 so gilt µ(A1 ) ≤ µ(A2 ). d) Ist f integrierbar über B und A ⊂ B Jordan messbar, so ist f auch integrierbar über A. Die Beweise folgen aus einfache Eigenschaften der charakteristische Funktionen. Es gibt zwei Kriterien, die wichtig sind, um zu entscheiden, ob eine Menge A Jordan messbar ist oder nicht. Satz 4.15. Eine beschränkte Menge A ist Jordan messbar genau dann, wenn ∂A eine Jordan Nullmenge ist. Beweis. Die charakteristische Funktion ϕA ist unstetig genau auf ∂A. ϕA ist also genau dann integrierbar, falls ∂A eine Lebesgue Nullmenge ist. Da aber ∂A kompakt ist (nach Definition, ∂A = A\A◦ ist immer abgeschlossen; da wir angenommen haben, dass A beschränkt ist, ist ∂A auch kompakt), ist ∂A eine Lebesgue Nullmenge genau dann, wenn ∂A eine Jordan Nullmenge ist. 91 Das zweite Kriterium für Messbarkeit einer Menge A ⊂ Rn werden wir nicht beweisen. Das Kriterium ist oft nützlich, weil es erlaubt uns messbare Mengen durch Familien von fast disjunkten Quader zu approximieren. Proposition 4.16. Sei A ⊂ Rn beschränkt. Dann ist A genau dann Jordan messbar wenn für alle ε > 0 zwei endliche Familie von fast disjunkten Quader (d.h. disjunkt, bis auf Nullmengen) Q1 , . . . , Qk und Q01 , . . . , Q0` existieren, mit Q1 ∪ Q2 ∪ · · · ∪ Qk ⊂ A ⊂ Q01 ∪ Q02 ∪ · · · ∪ Q0` und mit ` X µ(Q0i ) − i=1 k X µ(Qj ) ≤ ε j=1 Ist A Jordan messbar, so gilt auch k X µ(A) = sup µ(Qj ) : Q1 ∪ · · · ∪ Qk ⊂ A und j=1 ( ` ) X µ(A) = inf µ(Q0i ) : Q01 ∪ · · · ∪ Q0` ⊃ A i=1 4.2 Iterierte Integrale und der Satz von Fubini Das Haupttheorem der Integralrechnung erlaubt uns Integrale von Funktionen einer Variablen zu berechnen. Im Fall mehrere Variablen, kann man oft Integrale berechnen, indem man sie als iterierte ein-dimensionale Integrale schreibt. Dazu braucht man den folgenden Satz. Satz 4.17 (Satz von Fubini). Seien p, q ∈ N, und m = p + q. Seien P ⊂ Rp und Q ⊂ Rq Quader. Sei M = P × Q das entsprechende Quader in Rm = Rp × Rq . Sei f integrierbar über M und sei f (x, y), als Funktion von y mit festgehaltene x, integrierbar über Q, für alle feste x ∈ P . Dann ist die Funktion Z F (x) = f (x, y)dy Q wohldefiniert, für alle x ∈ P , und es gilt: a) F ist auf P integrierbar. b) Z f (x, y)dxdy = M Z Z Z F (x)dx = P f (x, y)dy dx P Q Beweis. Eine Teilung TM vom Quader M = P × Q entspricht zu zwei Teilungen TP vom Quader P und TQ vom Quader Q. Wir bezeichnen mit P1 , . . . , Pnp die Teilquader von P und mit Q1 , . . . , Qnq die Teilquader von Q, definiert aus der Teilung TQ . Die Teilquader 92 von M , definiert aus der Teilung T , haben dann die Form Pi × Qj , mit i = 1, . . . , np , j = 1, . . . , nq . Wir setzen fij = sup{f (x, y) : x ∈ Pi , y ∈ Qj } Die zur Teilung TM entsprechende Obersumme ist S(f, M, TM ) = X fij µ(Pi × Qj ) = i,j X np nq X X fij µ(Pi )µ(Qj ) = fij µ(Qj ) µ(Pi ) i,j i=1 j=1 Nun bemerken wir, dass, für alle feste x ∈ Pi ist fij ≥ f (x, y) für alle y ∈ Qj Das impliziert, dass, für alle feste x ∈ Pi , fij ≥ sup{f (x, y) : y ∈ Qj } Deswegen nq X fij µ(Qj ) ≥ j=1 nq X Z sup{f (x, y) : y ∈ Qj }µ(Qj ) = S(f (x, .), Q, TQ ) ≥ f (x, y)dy = F (x) Q j=1 für alle x ∈ Pi . Also nq X fij µ(Qj ) ≥ sup{F (x) : x ∈ Pi } j=1 Damit gilt np nq np X X X fij µ(Qj ) µ(Pi ) ≥ sup{F (x) : x ∈ Pi }µ(Pi ) = S(F, P, TP ) i=1 j=1 i=1 Wir haben gezeigt, dass S(f, M, TM ) ≥ S(F, P, TP ) Analog gilt S(f, M, TM ) ≤ S(F, P, TP ) Also: S(f, M, TM ) ≤ S(F, P, TP ) ≤ S(F, P, TP ) ≤ S(f, M, TM ) Aus Annahme ist f auf M integrierbar. Deswegen muss Z sup S(f, M, TM ) = inf S(f, M, TM ) = TM TM f dxdy M Die Ungleichungen (52) implizieren also, dass sup S(F, P, TP ) = inf S(F, P, TP ) TP TP Das zeigt, dass F über P integrierbar ist, und, dass Z Z F dx = f dxdy P M 93 (52) Beispiel: zum Beispiel, falls g : P → R integrierbar über den Quader P ⊂ Rp , und h : Q → R integrierbar über den Quader Q ⊂ Rq , dann ist die Funktion P × Q → R, definiert durch (x, y) → g(x)h(y) integrierbar über M = P × Q (das Produkt von zwei Riemann integrierbare Funktionen ist integrierbar, siehe Bemerkung nach Prop. 4.4). Der Satz von Fubini impliziert dann, dass Z Z Z g(x)h(y)dxdy = gdx hdy P ×Q P Q Als Anwendung können wir das Volumen der drei-dimensionale Kugel berechnen. Sei B = Br = {(x, y, z) ∈ R3 : x2 + y 2 + z 2 ≤ r2 } Das Volume der Kugel Br ist gegeben aus Z Z r Z ϕB dxdydz = x2 +y 2 ≤r2 −z 2 "Z √ 2 2 "Z r r −z −r Z = √ − r2 −z 2 "Z √ 2 2 r r −z −r Z = √ − r2 −z 2 −r Z =π 1dxdy dz √ − r2 −z 2 −y 2 √ # # dx dy dz r2 −z 2 −y 2 # p 2 r2 − z 2 − y 2 dy dz r 4 (r2 − z 2 )dz = πr3 3 −r Als weitere Anwendung berechnen wir das Volumen von Rotationskörper. Sei B die Teilmenge von R3 erzeugt durch Rotation von {(0, y, z) : a ≤ z ≤ b, 0 ≤ y ≤ f (z)} um die z-Achse. Wir nehmen an, f sei stetig. Dann ist B sicher messbar. Das Volumen von B ist gegeben aus Z Z b Z µ(B) = ϕB dxdydz = ϕBz dxdy dz a wo wir Bz = {(x, y) : x2 + y 2 ≤ f (z)2 } gesetzt haben. Es gilt µ(Bz ) = πf 2 (z). Deswegen Z b µ(B) = πf 2 (z)dz a √ Mit f (z) = r2 − z 2 , a = −r und b = r finden wir wieder die Formel für das Volumen der Kugel mit Radius r. Als letzte Anwendung vom Satz von Fubini zeigen wir, wie man Integrale mit Hilfe von Polarkoordinaten berechnen kann. Wir betrachten eine Funktion g definiert auf R2 . Wir nehmen aber an, g sei rotationsinvariant, d.h. g(x, y) ist nur eine Funktion von x2 + y 2 . Mit anderer Wörter, wir nehmen p an es existiert eine Funktion f , definiert auf R+ = {x ∈ R : x ≥ 0}, mit g(x, y) = f ( x2 + y 2 ). Wir behaupten, dass, falls f stetig auf [0; a], dann Z Z a f (kxk)dx = 2π {x∈R2 :kxk≤a} rf (r)dr 0 94 (53) Um (53) zu zeigen, setzen wir Z f (kxk)dx F (r) = {x:kxk≤r} und wir beweisen, dass F 0 (r) = 2πrf (r). Da F (0) = 0, das impliziert (53). Sei h > 0 klein genug, dann haben wir Z f (kxk)dx = πf (r) (r + h)2 − r2 F (r + h) − F (r) = {r<kxk≤r+h} Z [f (kxk) − f (r)] = 2πrf (r)h + o(h) + {r<kxk≤r+h} Also lim h→0+ F (r + h) − F (r) = 2πrf (r) h Der Fall h < 0 kann analog behandelt werden. Damit gilt F 0 (r) = 2πrf (r). 4.3 Variablentransformationen Eine wichtige Hilfsmittel zur Berechnung von Integrale in einer Dimension ist die Substitutionsformel. Das Analog in höheren Dimensionen wird in diesem Abschnitt diskutiert. Die erste Bemerkung ist, dass das Riemann’sche Integral translationsinvariant ist. Proposition 4.18. a) Sei f Riemann integrierbar über Rn und a ∈ Rn . Dann ist die Funktion fa , definiert durch fa (x) := f (x − a) auch integrierbar und Z Z fa dx = f dx b) Sei A ⊂ Rn Jordan messbar, a ∈ Rn . Dann ist auch die Menge A + a = {x + a : x ∈ A} ⊂ Rn Jordan messbar und es gilt µ(A + a) = µ(A). Der Beweis dieser Proposition ist eine Folgerung der Tatsache, dass das Mass von Quader translationsinvariant ist. Wir lassen die Details als Übung. Proposition 4.18 besagt insbesondere, dass Volumen bei Translationen unverändert bleiben. Die nächste Frage ist was passiert zu Volumen, wenn man eine allgemeine lineare Transformation anwendet (eine Translation ist ein Beispiel). Satz 4.19. Sei L : Rn → Rn eine lineare Abbildung, A ⊂ Rn Jordan messbar. Dann ist L(A) = {L(x) : x ∈ A} Jordan messbar und µ(L(A)) = |det L| µ(A) (54) Beweis. Ist L nicht invertierbar, so gilt, einerseits, det L = 0. Anderseits ist L(Rn ) ein Unterraum von Rn mit Dimension kleiner als n; deswegen ist L(A) eine Nullmenge und µ(L(A)) = 0. Damit ist die Formel (54) sicher erfüllt, im Fall L nicht invertierbar. O.B.d.A. können wir also annehmen, dass L invertierbar ist. 95 Durch elementare Operationen auf Zeilen (Vertauschung von Zeilen oder Addition von Vielfachen von Zeilen) kann die Matrix L in der Form einer oberen Dreiecksmatrix gebracht werden. Durch elementare Spalten Operation kann die ober Dreiecksmatrix dann zu einer Diagonalmatrix gebracht werden. Mit anderen Wörter kann L = M1 M2 . . . Mk als endliches Produkt von Matrixen Mj geschrieben werden. Jede Mj ist entweder eine Permutationsmatrix der Form (diese Matrix vertauscht die i-te und die j-te Zeile oder Spalte) 1 0 ... 0 ... 0 ... 0 0 1 ... 0 ... 0 ... 0 ... ... ... ... 0 0 ... 0 ... 1 ... 0 Pij = . . . . . . . . . . . . 0 0 ... 1 ... 0 ... 0 ... ... ... ... 0 0 ... 0 ... 0 ... 1 oder die Matrix S(α) = 1 α 0 ... 0 0 0 1 0 0 1 ... 0 0 ... ... ... ... 0 0 0 ... 1 oder eine diagonale Matrix. Um den Satz zu beweisen, genügt es zu zeigen, dass µ(M (A)) = |det M |µ(A) (55) für M eine Permutationsmatrix, M = S(α) und für M eine Diagonalmatrix. A Jordan messbar impliziert, dass, für alle ε > 0 existieren Quader-gebäude, d.h. Vereinigungen von endlich viele paarweise fast disjunkten Quader, B− , B+ mit B− ⊂ A ⊂ B+ und µ(B+ ) − µ(B− ) ≤ ε. Aus diesem Grund, es genügt (55) für Quader zu zeigen. Sei also A ein Quader und d1 0 ... 0 0 d2 . . . 0 M = ... ... 0 0 . . . dn eine diagonale Matrix, mit d1 , d2 , . . . , dn ∈ R\{0} (wir haben angenommen, L sei invertierbar; der Eigenwert 0 ist also nicht erlaubt). Wenn A ein Quader mit Kantenlängen `1 , `2 , . . . , `n ist, so ist M (A) wieder ein Quader mit Kantenlänge |d1 |`1 , |d2 |`2 , . . . , |dn |`n . Das Volumen von M (A) ist also µ(M (A)) = n Y |dj |`j = |det M | µ(A) j=1 und (55) ist erfüllt. 96 Sei nun A ein Quader und M die Permutationsmatrix Pij . Einerseits ist det Pij = 1. Anderseits, falls A ein Quader mit Kantenlängen `1 , . . . , `i , . . . , `j , . . . , `n so ist M (A) ein Quader mit Kantenlängen `1 , . . . , `j , . . . , `i , . . . , `n . Also µ(M (A)) = µ(A) und (55) ist auch in diesem Fall erfüllt. Schlussendlich betrachten wir den Fall M = S(α). Da S(α) nur auf den ersten zwei Koordinaten wirkt, können wir o.B.d.A. annehmen, dass n = 2. Dann ist x x S(α) = y y + αx O.B.d.A. können wir auch annehmen, dass A = [0; a] × [0; b]. Dann ist Z µ(M (A)) = Z a Z αx+b dy dx = ab = µ(A) ϕM (A) dxdy = 0 αx Da det S(α) = 1, das Resultat ist, auch in diesem Fall, mit (55) kompatibel. Jetzt untersuchen wir, wie das Volumen ändert, bei einem allgemeinen Diffeomorphismus (lineare invertierbare Abbildung sind ein Beispiel). Proposition 4.20. Seien U, V ⊂ Rn offene Teilmengen, f : U → V ein C 1 Diffeomorphismus. W ein abgeschlossenen Würfel in U . Dann ist f (W ) ⊂ V Jordan messbar und Z µ(f (W )) = |det(Df (x))| dx W Die letzte Proposition ist ein speziall Fall vom nächsten wichtigen Satz. Satz 4.21 (Variablentransformation Formel). Seien U, V ⊂ Rn offen, f : U → V ein C 1 -Diffeomorphismus. Sei ψ : V → R Riemann integrierbar, mit supp(ψ) ⊂ V kompakt. Dann ist ψ ◦ f : U → R integrierbar über U und Z Z ψ(f (x))| det(Df (x))|dx = ψ(y)dy (56) U V Bemerkung: die Formel (56) besagt, dass bei Variablentransformationen, das Differential gemäss dy = | det(Df (x))|dx geändert werden muss. Die Funktion J(x) = | det(Df (x))| heisst das Jacobian der Variablentransformation f und beschreibt die lokale Änderung des Volumen bei der Transformation. Die Formel (56) ist das Analog vom Substitutionsformel im Fall n = 1 (in diesem Fall ist det(Df (x)) = f 0 (x)). Die Formel ist sehr nützlich falls die Funktion, die wir integrieren wollen, Symmetrien ausweist; dann ist oft einfacher das Integral in verschiedenen Koordinaten zu berechnen. Wir werden weder Satz 4.21 noch sein Spezialfall, Proposition 4.20, hier beweisen. Die Idee ist das Integrationvolumen in so kleinen Teilen zu zerlegen, dass in jedem kleinen Volumenteil, die Transformation f durch die lineare Transformation f (x) ' f (x0 ) + Df (x0 )(x − x0 ) approximiert werden kann. Dann kann man Satz 4.19 anwenden. Satz 4.19 erklärt die Erscheinung vom Determinant in (56). Die Details lassen wir weg (im nächsten Semester, in der Vorlesung Analysis 3, wird ein ähnliches Resultat bewiesen für das Lebesgue Integral, eine Verallgemeinerung des Riemann’sche Integral). 97 Als erste Anwendung von Variablentransformationsformel diskutieren wir Polarkoordinaten in R2 . Wir definieren f : (0; ∞) × (−π; π) → R2 \(−∞; 0] × {0} durch f (r, θ) = (r cos θ, r sin θ). Mit dieser Definition ist einfach zu sehen, dass f ein Diffeomorphismus ist (im Range von f wird die negative x-Achse weggelassen, die zur Wahl θ = π entsprechen würde; das ist notwendig damit f ein Diffeomorphismus ist). Wir berechnen das Jacobian dieser Variablentransformation. Wir haben cos θ −r sin θ Df (r, θ) = sin θ r cos θ Wir finden det(Df (r, θ)) = r Satz 4.21 impliziert, dass, falls ψ : R2 → R integrierbar ist, mit supp(ψ) ⊂ R2 \(−∞, 0]× {0}, dann gilt Z Z Z ψ(r cos θ, r sin θ)rdrdθ (57) ψ(f (r, θ))rdrdθ = ψdxdy = (0;∞)×(−π;π) (0;∞)×(−π;π) Tatsächlich kann man (57) auch anwenden, falls die Bedingung supp(ψ) ⊂ R2 \(−∞; 0] nicht erfüllt ist. Die Gleichung (57) gilt also für alle ψ integrierbar (der Beweis benutzt ein Approximationsargument). p Insbesondere, falls ψ(x, y) = ϕ( x2 + y 2 ) nur vom Abstanz vom Punkt (x, y) zur Ursprung abhängt, dann impliziert (57), dass Z Z Z ∞ ψdxdy = ϕ(r)rdrdθ = 2π ϕ(r)rdr (0;∞)×(−π;π) 0 Beispiel: Wir möchten berechnen Z ∞ I= e−x 2 /2 dx −∞ Wir bemerken, dass Z 2 I = ∞ e −x2 /2 Z dx −∞ ∞ −y 2 /2 e Z dy = e−(x 2 +y 2 )/2 dxdy R2 −∞ Mit Hilfe von Polarkoordinaten finden wir Z ∞ Z 2 I 2 = 2π e−r /2 rdr = 2π 0 ∞ e−z dz = 2π 0 √ Also I = 2π. In 3 Dimensionen kann man Zylinderkoordinaten einführen. Wir definieren hier f : (0; ∞) × (−π; π) × R → R3 \(−∞; 0] × {0} × R durch f (r, θ, z) = (r cos θ, r sin θ, z) Das Jacobian ist, wie bei Polarkoordinaten in zwei Dimensionen, det(Df (r, θ, z)) = r 98 Also, für eine integrierbare Funktion ψ, mit supp(ψ) ⊂ R3 \(−∞; 0] × {0} × R, es folgt aus (56), dass Z Z ψ(r cos θ, r sin θ, z)rdrdθdz (58) ψ(x, y, z)dxdydz = R3 (0;∞)×(−π;π)×R Wie im Fall von Polarkoordinaten, mit Hilfe eines Approximationsargument kann man auch hier zeigen, dass (58) für allgemeine integrierbare Funktionen ψ gilt; die Bedingung supp(ψ) ⊂ R3 \(−∞, 0] × {0} × R ist nicht notwendig. Andere wichtige Koordinaten in 3 Dimensionen sind Kugelkoordinaten, oder sphärische Koordinaten. Wir definieren f : (0∞) × (0; π) × (−π; π) → R3 \(−∞; 0] × {0} × R durch f (r, θ, ϕ) = (r sin θ cos ϕ, r sin θ sin ϕ, r cos θ) f ist dann ein Diffeomorphismus, und sin θ cos ϕ r cos θ cos ϕ −r sin θ sin ϕ Df (r, θ, ϕ) = sin θ sin ϕ r cos θ sin ϕ r sin θ cos ϕ cos θ −r sin θ 0 Damit ist det(Df (r, θ, ϕ)) = r2 sin θ Für eine integrierbare Funktion ψ, mit supp(ψ) ⊂ R3 \(−∞; 0] × {0} × R finden wir also Z ψ(x, y, z)dxdydz R3 Z = (ψ ◦ f )(r, θ, ϕ) r2 sin θ drdθdϕ (0;∞)×(0;π)×(−π;π) Z = ψ(r sin θ cos ϕ, r sin θ sin ϕ, r cos θ)r2 sin θdrdθdϕ (0;∞)×(0;π)×(−π;π) Beispiel: wir berechnen noch einmal das Volumen BR der drei-dimensionale Kugel von Radius R. Es gilt Z p Br = χ x2 + y 2 + z 2 dxdydz R3 wobei χ(s) = 1 falls s ≤ R und χ(s) = 0 falls s > R. Mit Kugelkoordinaten finden wir Z Br = Z 2 χ(r)r sin θdrdθdϕ = 2π (0;∞)×(0;π)×(−π;π) π Z sin θdθ 0 R 2 r dr = 4π 0 R3 3 Die Berechnung mit Kugelkoordinaten ist viel einfacher, weil wir die Symmetrien vom Problem ausnützen. 99 4.4 Länge und Flächeninhalt Betrachte eine parametrisierte Kurve γ : [a; b] → Rn , definiert auf einem Intervall [a; b]. Nehmen wir zunächst an, dass γ stetig differenzierbar ist. Um die Länge von der Kurve γ zu berechnen, kann man eine Teilung T = {a = t0 < t1 < · · · < tm = b} vom Intervall betrachten, und die Länge der gerade Strecke zwischen x(ti ) und x(ti+1 ) aufsummieren. D.h. eine Approximation der Länge ist durch n X kx(ti ) − x(ti−1 )k i=1 gegeben. Wenn man eine Verfeinerung von T betrachtet, die entsprechende Approximation für die Länge der Kurve wird, wegen der Dreiecksungleichung, immer grösser. Wir definieren also die Länge der Kurve als L = sup T n X kx(ti−1 ) − x(ti )k (59) i=1 Es ist dann einfach zu überprüfen, dass (unter den Annahmen, dass γ stetig differenzierbar ist), dass die Länge L immer endlich ist, und durch das Integral Z b L= kγ 0 (t)kdt (60) a dargestellt werden kann. Hier ist γ 0 (t) die Ableitung vom Vektor γ(t) (berechnet komponentenweise). Man bemerke, dass das Integral auf der rechten Seite von (60) ein eindimensionales Integral ist. Man bemerke auch, dass die Definition (60) unabhängig von der Parametrisierung der Kurve ist. Sei nämlich ψ : [c; d] → [a; b] eine monoton steigende injektive und differenzierbare Funktion. Wir definieren die parametrisierte Kurve γ e : [c; d] → Rn durch γ e(t) = γ(ψ(t)). Dann gilt γ e0 (t) = γ 0 (ψ(t))ψ 0 (t) Deswegen Z d 0 Z dt ke γ (t)k = L(e γ) = c d dt ψ 0 (t)kγ 0 (ψ(t))k c ψ 0 (t) wobei wir benutzt haben, dass ≥ 0 (aus der Monotonie). Mit der Variablentransformation s = ψ(t) finden wir L(e γ ) = L(γ). D.h., wie behauptet, die Länge ist von der Parametrisierung unabhängig. Es ist einfach die Definition (60) auf dem Fall zu verallgemeinern, dass γ nur stückweise stetig differenzierbar ist (das erlaubt zum Beispiel die Anwesenheit von Ecken in der Bahn von γ). Definition 4.22. Eine parametrisierte Kurve γ : [a; b] → Rn heisst stückweise stetig differenzierbar, falls sie stetig auf [a; b] ist, und falls eine endliche Teilung a = t0 < t1 < · · · < tn−1 < tn = b existiert mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) für alle j = 1, . . . , n (erinnere, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) genau dann, wenn γ ∈ C 1 ((tj−1 ; tj ); Rn ) und γ und γ 0 können auf dem abgeschlossenen Intervall [tj−1 ; tj ] stetig fortgesetzt werden). 100 Für eine stückweise stetig differenzierbare Kurve γ : [a; b] → Rn definieren wir die Länge durch n Z tj X L(γ) = dt kγ 0 (t)k (61) j=1 tj−1 wobei die Teilung a = t0 < t1 < · · · < tn = b so gewählt wird, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) für alle j = 1, . . . , n. Bemerkung: auch für stückweise stetig differenierbare Kurve gilt (59), und L < ∞. Man kann die Länge noch allgemeiner definieren, für alle Kurven mit der Eigenschaft, dass (59) endlich ist (in diesem Fall heisst die Kurve rektifizierbar; ein Beispiel einer nicht rektifizierbare Kurve ist aus γ(t) = (t; ϕ(t)) ∈ R gegeben, mit ϕ(0) = 0 und ϕ(t) = t sin(1/t) für t ∈ (0; 1]) gegeben. Die nächste Frage ist, wie berechnet man das Flächeninhalt einer parametrisierten Fläche. Für (s, t) ∈ B ⊂ R2 sei x(s, t) ∈ R3 eine parametrisierte Fläche. Wir nehmen an, die Abbildung x sei überall in B regulär, d.h. die zwei Ableitungen ∂x/∂s(s; t) und ∂x/∂t(s; t) sind für alle (s; t) ∈ B linear unabhängig (∂x/∂s und ∂x/∂t sind zwei Vektoren in R3 ). Wir suchen ein Formel für das Flächeninhalt von dieser parametrisierte Fläche. Dazu betrachten wir ein kleines Rechteck Q0 = {(s0 + h, t0 + k) : 0 ≤ h ≤ ∆s, 0 ≤ k ≤ ∆t} ⊂ B im Parameterbereich. Das Bild von Q0 ist ein kleines Flächenstück in R3 , der durch ein Parallelogramm approximiert werden kann. In linearen Näherung gilt x(s0 + h; t0 + k) = x0 + hvs + kvt mit x0 = x(s0 ; t0 ), vs = ∂x/∂s(s0 ; t0 ) und vt = ∂x/∂t(s0 ; t0 ). Also, das Bild von Q0 wird durch den Parallelogramm genähert, definiert durch die zwei Vektoren ∆svs und ∆tvt . Das Flächeninhalt von diesem Parallelogramm ist durch ∆s|vs |∆t|vt | sin θ = ∆s∆tkvs × vt k gegeben, wo θ der Winkel zwischen vs und vt und vs × vt das Vektorprodukt der zwei Vektoren ist. Damit finden wir für das Flächeninhalt der parametrisierte Fläche x : R2 ⊃ B → R3 die Formel Z ∂x ∂x dsdt F = × ∂t B ∂s Die slebe Formel kann auch umgeschrieben werden, mit Hilfe vom Gramm’sche Determinant. Das Gramm’sche Determinant der zwei Vektoren vs und vt ist durch vs · vs vs · vt kvs k2 kvs kkvt k cos θ gram(vs , vt ) = det = vt · vs vt · vt kvt kkvs k cos θ kvt k2 = kvs k2 kvt k2 (1 − cos2 θ) = kvs k2 kvt k2 sin2 θ = kvs × vt k2 definiert. Also, das Flächeninhalt der parametrisierte Fläche x : B → R3 kann auch durch Z s ∂x ∂x F = gram , dsdt (62) ∂s ∂t B 101 berechnet werden. Eine Fläche kann auch als Graphen einer Funktion ϕ definiert werden, z.B. als {(x, y, z) ∈ R3 : z = ϕ(x, y), (x, y) ∈ B}. Dieselbe Fläche kann man auch in parametrischen Form schreiben, als x : B 3 (s, t) → (s, t, ϕ(s, t)). Also ∂x ∂ϕ (s, t) = 1, 0, ∂s ∂s ∂x ∂ϕ (s, t) = 0, 1, ∂t ∂t Eine einfache Berechnung gibt gram ∂x ∂x , ∂s ∂t = 1 + k∇ϕ(s; t)k2 Das Flächeninhalt ist also aus Z p F = 1 + k∇ϕ(s, t)k2 dsdt B gegeben. Beispiel: wir berechnen das Flächeninhalt einer Hemisphäre mit Radius R > 0. Diese Fläche kann als Graphen geschrieben werden, i.e. als {(x, y, z) ∈ R3 : z = ϕ(x, y), x2 + p y 2 ≤ R2 }, mit der Funktion ϕ(x, y) = R2 − x2 − y 2 . Es gilt −x ∂ϕ =p , ∂x R 2 − x2 − y 2 Also k∇ϕk2 = und das Flächeninhalt ist s Z F = 1+ x2 +y 2 ≤1 −y ∂ϕ =p ∂y R 2 − x2 − y 2 x2 + y 2 R 2 − x2 − y 2 x2 + y 2 dxdy = R R 2 − x2 − y 2 Z x2 +y 2 ≤1 1 p dxdy R 2 − x2 − y 2 Mit Hilfe von Polarkoordinaten finden wir Z R Z R 1 √ F = 2πR rdr = 2πR dt = 2πR2 R2 − r 2 0 0 √ mit der Substitution t = R2 − r2 . Das Flächeninhalt der gesamte Sphäre mit Radius R ist also 4πR2 . Man kann die Formel (62) für das Flächeninhalt einer zwei-dimensionale Fläche in R3 auf allgemeineren Mannigfaltigkeit verallgemeinern. Sei d < n und, B ⊂ Rd , und für (t1 , . . . , td ) ∈ B sei x(t1 , . . . , td ) ∈ Rn eine parametrisierte Mannigfaltigkeit in Rn . Wir nehmen an, x sei eine reguläre Abbildung, d.h. die d Vektoren ∂x/∂t1 , . . . , ∂x/∂td in Rn seien linear unabhängig. Dann definieren wir das Volumen der parametrisierte Mannigfaltigkeit durch Z s ∂x ∂x gram ,..., dt1 . . . dtd ∂t1 ∂td B 102 wobei das Gramm’sche Determinant gram (∂x/∂t1 , . . . , ∂x/∂td ) das Determinante der d × d Matrix ist, mit Matrixelementen gegeben aus den Skalarprodukten ∂x/∂ti · ∂x/∂tj . Man kann zeigen, dass die Definition des Volumens einer parametrisierte Mannigfaltige→B keit unabhängig aus der Wahl der Parameter ist. Mit anderer Wörter, falls f : B n e ein Diffeomorphismus ist, dann hat die parametrisierte Fläche x e : B → R , definiert durch x e(s1 , . . . , sd ) = x(f (s1 , . . . , sd )) dasselbe Volumen wie die parametrisierte Fläche x : B → Rn (das gilt insbesondere für parametrisierten Flächen in R3 ). Beweis: Übung. 5 5.1 Vektoranalysis Vektorfelder und Feldlinien Wir führen den Begriff vom Vektorfeld ein. Definition 5.1. Ein Vektorfeld mit Definitionsbereich U ⊂ Rn ist eine Abbildung K : U → Rn . Ist U ⊂ Rn offen, so sagen wir die Abbildung K : U → Rn ist ein C k Vektorfeld, falls K ∈ C k (U ; Rn ). Wir haben schon oft Abbildungen betrachtet, die eine Teilmenge von Rn auf Rn abbilden (zB. Diffeomorphismen). Die Interpretation von Vektorfeldern ist aber anders. Ein Vektorfeld wird interpretiert als eine Abbildung, die zu jedem Punkt im Raum einen Vektor in Rn zuordnet. Typische Beispiele von Vektorfeldern sind Kraftfelder. Eine elektrische Ladung im Punkt x = 0 erzeugt an der Stelle x ∈ R3 die Kraft K(x) = −c x kxk3 für eine Konstante c ∈ R. K(x) ist ein Beispiel eines Vektorfelds. Ein anderes Beispiel von Vektorfeldern sind Geschwindigkeitsfelder. Die Strömung einer Flüssigkeit kann durch das Geschwindigkeitsfeld v(x) beschrieben werden, das die momentane Geschwindigkeit der Flüssigkeit an der Stelle x ∈ Rn spezifiziert. Aus diesen Beispielen ist klar, dass Vektorfelder eine sehr wichtige Rolle in der Physik spielen (natürlich spielen in der Physik auch skalare Felder, wie zum Beispiel die Temperatur T (x) als Funktion vom Ort, eine wichtige Rolle, und manchmal ist es auch nützlich, Matrix-wertige Felder zu betrachten; hier untersuchen wir aber nur Vektorfelder). Feldlinien. Sei nun K : U → Rn ein Vektorfeld. Eine parametrisierte Kurve γ : I → Rn (wobei I ⊂ R ein Intervall ist) heisst eine Feldlinie vom Vektorfeld K, falls der Tangentialvektor γ 0 (t) für alle t ∈ I proportional zum Vektor K(γ(t)) ist. Man bemerke, der Begriff von Feldlinie ist von der Parametrisierung der Kurve γ unabhängig. In der Tat, falls ψ : Ie → I eine monotone differenzierbare Funktion ist, so gilt d γ(ψ(t)) = γ 0 (ψ(t))ψ 0 (t) dt und deswegen ist (γ ◦ ψ)0 (t) immer proportional zu γ 0 (ψ(t)). Eine natürliche Parametrisierung einer Feldlinie ist also durch die Gleichung γ 0 (t) = K(γ(t)) 103 bestimmt. Diese Differentialgleichung für γ(t) gibt uns die Möglichkeit, Feldlinien eines Kraftfelds zu finden. Ist K ein C 1 -Vektorfeld auf U und ist x0 ∈ U , dann folgt aus der Theorie der gewöhnlichen Differentialgleichungen, dass man immer mindestens ein Stück Feldlinie von K durch x0 finden kann, und dass diese lokale Feldlinie eindeutig bestimmt ist (das folgt aus einem Theorem, das Existenz und Eindeutigkeit von Lösungen von Differentialgleichungen zeigt; das Theorem wird in der Vorlesung Analysis 3 bewiesen). Zentralfelder. Ein Vektorfeld K : U → Rn heisst ein Zentralfeld, falls K die Form K(x) = f (kxk)x hat, für eine Funktion f (kxk) die nur von der Länge kxk von x abhängt. Das elektrische Feld K(x) = −constx/kxk3 , erzeugt auf R3 \{0} aus einer Ladung im Ursprung, ist ein Beispiel eines Zentralfelds. Gradientenfelder. Ein Vektorfeld K : U → Rn definiert auf U ⊂ Rn heisst ein Gradientenfeld, falls eine reel-wertige Funktion ϕ ∈ C 1 (U ) existiert, mit K(x) = ∇ϕ(x). Gradientenfelder spielen eine besonder wichtige Rolle in der Physik. 5.2 Linienintegrale Sei γ : [a; b] → Rn eine stetig differenzierbare Kurve. Die Länge von γ ist dann durch die Formel Z b L(γ) = kγ 0 (t)k dt a gegeben. Sei nun K : U → Rn ein Vektorfeld, definiert mindestens auf einer Umgebung der Kurve γ, d.h. mit der Eigenschaft γ(I) ⊂ U . Wir interpretieren γ als die Bahn eines Teilchen und K(x) als die auf dem Teilchen im Punkt x wirkende Kraft. Ein wichtiger Begriff in der Physik ist die Arbeit, die das Teilchen leisten muss, um sich durch das Kraftfeld zu bewegen (oder die Arbeit, die das Kraftfeld auf dem Teilchen leistet). Ist γ eine Gerade und K(x) = K konstant auf der Geraden, so ist die Arbeit aus K · (γ(b) − γ(a)) gegeben. Allgemeiner können wir die Arbeit berechnen, indem wir das Intervall [a; b] in kleine Teilintervalle zerlegen. Seien a = t0 < t1 < · · · < tn = b. Dann können wir die Arbeit durch n X K(γ(tj−1 )) · (γ(tj ) − γ(tj−1) ) ' j=1 n X K(γ(tj−1 ))γ 0 (tj−1 )(tj − tj−1 ) j=1 approximieren. Nehmen wir das Limes n → ∞ (mit supj (tj − tj−1 ) → 0), so konvergiert die linke Seite (angenommen z.B. das Vektorfeld K ist stetig) zum Integral Z b K(γ(t)) · γ 0 (t) dt a Das motiviert die folgende Definition, wobei wir den allgemeineren Fall einer stückweise stetig differenzierbare Kurve betrachten. Definition 5.2. Sei U ⊂ Rn offen, K : U → Rn ein stetiges Vektorfeld. Sei γ : [a; b] → U eine stückweise stetig differenzierbare Kurve in U . Wir definieren dann das 104 Linienintegral (oder Wegintegral) von K entlang γ durch Z n Z tj X K · dx := K(γ(t)) · γ 0 (t) dt γ tj−1 j=1 wobei die Teilung a = t0 < t1 < · · · < tn = b so gewählt wurde, dass γ ∈ C 1 ([tj−1 ; tj ]; Rn ) für alle j = 1, . . . , n. In der folgenden Proposition sammeln wir einige wichtige Eigenschaften von Linienintegralen. Proposition 5.3. Sei U ⊂ Rn offen, K ein stetiges Vektorfeld in U , γ : [a; b] → U eine stückweise stetig differenzierbare Kurve in U . i) Sei M = sup{kK(x)k : x ∈ γ([a; b])} (bemerke, dass M < ∞ wegen Stetigkeit von K und Kompaktheit von γ([a; b]). Dann gilt Z K · dx ≤ M L(γ) γ wobei L(γ) die Länge von γ ist, wie in (61) definiert. ii) Sei ψ : [c; d] → [a0 b] monoton steigend, mit ψ(c) = a und ψ(d) = b, und stückweise stetig differenzierbar (ψ is eine Parametertransformation). Wir definieren γ e : [c; d] → U durch γ e(t) = γ(ψ(t)). Dann gilt Z Z K · dx = K · dx γ e γ D.h. der Wert des Linienintegrales ist von der Parametrisierung der Kurve unabhängig. Beweis: i) Sei a = t0 < t1 < · · · < tn = b eine Teilung, so dass γ ∈ C 1 ([tj−1 , tj ]; U ) für alle j = 1, . . . , n. Dann gilt Z Z tj tj 0 K(γ(t)) · γ 0 (t) dt K(γ(t)) · γ (t)dt ≤ tj−1 tj−1 Z tj Z tj 0 kγ 0 (t)k dt kK(γ(t))kkγ (t)k dt ≤ M ≤ tj−1 tj−1 Also Z X Z tj n Z tj X n 0 K · dx = kγ 0 (t)k dt = M L(γ) K(γ(t)) · γ (t)dtdt ≤ M γ j=1 tj−1 j=1 tj−1 ii) Sei c = t0 < t1 < · · · < tn = d eine Teilung von [c; d] mit der Eigenschaft, dass ψ ∈ C 1 ([tj−1 ; tj ]) und γ ∈ C 1 ([ψ(tj−1 ); ψ(tj )]; U ) für alle j = 1, . . . , n. Dann gilt Z tj Z tj K(e γ (t)) · γ e0 (t)dt = K(γ(ψ(t))) · γ 0 (ψ(t))ψ 0 (t)dt tj−1 tj−1 Z ψ(tj ) = ψ(tj−1 ) 105 K(γ(s)) · γ 0 (s)ds mit der Variablentransformation s = ψ(t). Also, da ψ monoton wachsend ist, finden wir Z K · dx = γ e = n Z X tj K(e γ (t))e γ 0 (t)dt j=1 tj−1 n Z ψ(tj ) X Z 0 K · dx K(γ(s)) · γ (s)ds = γ ψ(tj−1 ) j=1 Operationen mit Kurven. Für eine stückweise stetig differenzierbare Kurve γ : [a; b] → kann man die stückweise stetig differenzierbare Kurve −γ : [a; b] → Rn durch −γ(t) = γ(b + a − t) definieren. Es ist einfach zu sehen, dass −γ die selbe Kurve wie γ beschreibt, aber in umgekehrte Richtung parametriseirt. Sind γ1 : [a; b] → Rn und γ2 : [c; d] → Rn zwei stückweise stetig differenzierbare Kurven, so dass γ1 (b) = γ2 (c), so kann man die Kurve γ3 = γ1 + γ2 : [a; b + d − c] durch γ1 (t) falls t ∈ [a; b] γ3 (t) = γ2 (t + c − b) falls t ∈ [b; b + d − c] Rn , definieren. Anschaulich, γ3 ist die “Vereinigung” der zwei Kurven γ1 und γ2 . Es ist einfach zu sehen, dass L(−γ) = L(γ), und L(γ1 +γ2 ) = L(γ1 )+L(γ2 ). Für Linienintegrale finden wir Z Z K · dx = − K · dx (63) −γ und γ Z Z Z K · dx = γ1 +γ2 K · dx + γ1 K · dx . (64) γ2 Um Gleichung (63) zu zeigen, sei γ : [a; b] → Rn und a = t0 < t1 < · · · < tn = b eine Teilung mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Wir setzen e tj = a + b − tn−j . Dann ist a = e t0 < e t1 < · · · < e tn = b eine Teilung mit der Eigenschaft, 1 e e dass −γ ∈ C ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Erinnere hier, dass −γ(t) = γ(a + b − t). Wir finden Z n Z e tj X K · dx = K(−γ(t)) · (−γ)0 (t)dt −γ j=1 =− = e tj−1 n Z X a+b−tn−j K(γ(a + b − t)) · γ 0 (a + b − t)dt j=1 a+b−tn−j+1 n X Z tn−j K(γ(s)) · γ 0 (s)ds j=1 =− tn−j+1 n Z X j=1 tn−j+1 0 Z K · dx K(γ(s)) · γ (s)ds = − tn−j γ Die Gleichung (64) kann ähnlich bewiesen werden. 106 5.3 Konservative Vektorfelder Falls das Vektorfeld K ein Gradientenfeld ist, dann ist die Berechnung seiner Linienintegralen besonders einfach. Satz 5.4. Sei U ⊂ Rn offen, ϕ ∈ C 1 (U ) und K = ∇ϕ (dann ist K ein stetiges Vektorfeld auf U ). Sei γ ∈ C 1 ([a; b]; U ) eine stetig differenzierbare Kurve auf U . Dann gilt Z K · dx = ϕ(γ(b)) − ϕ(γ(a)) γ γ(a) heisst der Anfangspunkt der Kurve γ und γ(b) der Endpunkt. Beweis: Wir bemerken, dass d ϕ(γ(t)) = ∇ϕ(γ(t)) · γ 0 (t) dt Deswegen finden wir Z Z b K · dx = γ ∇ϕ(γ(t)) · γ 0 (t)dt a Z = a b d ϕ(γ(t))dt = ϕ(γ(a)) − ϕ(γ(b)) dt Bemerkung: Die Aussage von Satz 5.4 gilt auch, falls die Kurve γ stückweise stetig differenzierbar ist. In diesem Fall finden wir eine Teilung a = t0 < t1 < . . . tn = b mit der Eigenschaft, dass γ ∈ C 1 ([tj−1 ; tj ]; U ) für alle j = 1, . . . , n. Dann gilt, ähnlich wie im Beweis des Satzes, Z tj ∇ϕ(γ(t)) · γ 0 (t)dt = ϕ(γ(tj )) − ϕ(γ(tj−1 )) tj−1 für alle j = 1, . . . , n. Damit Z K · dx = γ n X (ϕ(γ(tj )) − ϕ(γ(tj−1 ))) = ϕ(γ(b)) − ϕ(γ(a)) j=1 Bemerkung: Es folgt aus dem Satz, dass Linienintegrale von Gradientenfeldern entlang einer Kurve γ nur vom Anfangspunkt und Endpunkt von γ abhängen, nicht von dem Weg dazwischen. Bemerkung: Eine parametrisierte Kurve γ : [a; b] → Rn heisst geschlossen, wenn γ(a) = γ(b), d.h. falls Anfangspunkt und Endpunkt der Kurve übereinstimmen. Es folgt aus Satz 5.4, dass das Linienintegral von einem Gradientenfeld entlang einer geschlossenen Kurve verschwindet. 107 Definition 5.5. Sei U ⊂ Rn . Ein Vektorfeld K : U → Rn heisst konservativ (oder manchmal exakt), falls das Linienintegral Z K · dx γ nur vom Anfangs- und Endpunkt von γ abhängt, für jede Kurve γ in U . Mit anderen Worten, K ist konservativ, falls für alle zwei stückweise stetig differenzierbaren Kurven γ1 , γ2 mit übereinstimmenden Anfangs- und Endpunkten, gilt Z Z K · dx = K · dx γ1 γ2 Es folgt aus Satz 5.4, dass Gradientenfelder konservativ sind. In der Physik spielen konservative Kraftfelder eine besonders wichtige Rolle. Ist K konservativ, dann ist die Arbeit, die ein Teilchen leistet, wenn es sich auf einer Bahn γ bewegt, nur vom Anfangsund Endpunkt der Bahn abhängig. Das impliziert, wie wir bald sehen werden, dass man für konservative Kraftfelder ein Potential einführen kann, so dass die geleistete Arbeit einfach die Differenz vom Potential im End- und im Anfangspunkt ist. D.h. man kann ein Potential einführen, so dass Energieerhaltung gilt. Proposition 5.6. Sei U ⊂ Rn offen und K : U → Rn ein stetiges Vektorfeld. Dann ist K genau dann konservativ, wenn Z K · dx = 0 γ für alle geschlossenen stückweise stetig differenzierbaren Kurve γ in U . Beweis: Sei zunächst K konservativ und γ : [a; b] → U eine geschlossene stückweise stetig differenzierbare Kurve mit γ(a) = γ(b) =: x0 . Es bezeichne γ e : [a; b] → Rn die konstante Kurve γ(t) = x0 für alle t ∈ [a; b]. Weil γ und γ e die selben Anfangs- und Endpunkte haben, finden wir (siehe Prop. 5.3) Z Z K · dx = K · dx = 0 . γ γ e Nehmen wir nun an, dass Z K · dx = 0 γ für alle geschlossenen stückweise stetig differenzierbaren Kurven γ auf U . Seien γ1 und γ2 zwei beliebige stückweise stetig differenzierbare Kurven auf U , mit übereinstimmenden Anfangs- und Endpunkten. Wie oben bezeichnen wir mit −γ2 die Kurve γ2 , mit umgekehrter Richtung. Der Anfangspunkt von −γ2 ist dann der Endpunkt von γ1 und analog der Anfangspunkt von γ1 ist der Endpunkt von −γ2 . Wir definieren auch die Kurve γ = γ1 + (−γ2 ), die parametrisierte Kurve gegeben aus der “Vereinigung” von γ1 und −γ2 . Genauer gesagt, falls γ1 : [a; b] → U und −γ2 : [c; d] → U , so definieren wir γ : [a; b + d − c] → U durch γ(t) = γ1 (t) falls t ∈ [a; b] und γ(t) = −γ2 (t − b + c) 108 falls t ∈ [b; b + d − c]. Die Kurve γ ist dann offenbar eine geschlossene stückweise stetig differenzierbare Kurve, und deswegen Z Z Z Z Z K · dx K · dx − K · dx = K · dx + 0 = K · dx = γ −γ2 γ1 γ1 γ2 Das zeigt, dass Z Z K · dx . K · dx = γ2 γ1 Also ist K konservativ. Wir haben schon bemerkt, dass jedes Gradientfeld konservativ ist. Wir zeigen nun die Umkehrung dieser Aussage: Jedes konservative Vektorfeld ist ein Gradientenfeld. Dazu werden wir das folgende Hilfslemma anwenden. Lemma 5.7. Jede offene Teilmenge U ⊂ Rn lässt sich als Vereinigung einer disjukten Familie offener zusammenhängender Mengen darstellen (die Vereinigung braucht nicht endlich zu sein). Bemerkung. Diese Zerlegung ist eigentlich eindeutig; die offenen zusammenhängenden Teilmengen werden als Zusammenhangskomponenten bezeichnet. Beweis: Wir definieren eine Relation zwischen Punkten in U . Für x, y ∈ U schreiben wir x ∼ y genau dann, wenn x und y sich durch einen Streckenzug in U verbinden lassen. Offenbar definiert ∼ eine Äquivalenzrelation. Die Äquivalenzklassen sind offen. Sei nämlich x ∈ U beliebig. Wir zeigen die Äquivalenzklasse [x] ist offen. Dazu finden wir r > 0, so dass die offene Kugel Br (x) von Radius r um x in U enthalten ist. Dann ist x ∼ y, für alle y ∈ Br (x). Damit ist Br (x) ⊂ [x], und [x] ist offen. Die Äquivalenzklassen sind offenbar zusammenhängend und paarweise disjukt. Wir können nun zeigen, dass jedes konservative Feld ein Gradientenfeld ist. Satz 5.8. Sei U ⊂ Rn offen, K ein konservatives stetiges Vektorfeld auf U . Dann existiert ϕ : U → R stetig differenzierbar, mit K = ∇ϕ. Beweis: Wir betrachten zunächst den Fall, dass U zusammenhängend ist. Wir wählen x0 ∈ U fest. Für ein beliebiges x ∈ U finden wir eine stückweise stetig differenzierbare Kurve γx in U mit Anfangspunkt x0 und Endpunkt x. Wir setzen Z ϕ(x) = K · dx γx Da K konservativ ist, ist die Definition unabhängig von der Wahl der Kurve γx , natürlich unter der Annahme, dass der Endpunkt von γx gerade x ist. Wir bemerken, dass ϕ(x0 ) = 0. Wir behaupten, dass ∇ϕ(x) = K(x). Das würde den Satz für den Fall U zusammenhängend beweisen, weil K aus Annahme stetig ist. Um die Behauptung zu zeigen, bemerken wir, dass ∂ϕ d (x) = ϕ(x + tei )|t=0 ∂xi dt 109 und dass Z Z K · dx K · dx = ϕ(x + tei ) = γx +[x;x+tei ] γx+tei Z Z K · dx K · dx + = [x;x+tei ] γx wobei [x; x + tei ] das Segment zwischen x und x + tei bezeichnet. Hier wählen wir t so klein, dass das Segment [x; x + tei ] in U enthalten ist (das ist natürlich möglich, weil U offen ist). Wir parametrisieren das Segment [x; x + tei ] durch die Kurve γ : [0; t] → U , definiert durch γ(s) = x + sei . Dann ist γ 0 (s) = ei , und damit Z t Z K · dx = [x;x+tei ] Z K(x + sei ) · ei ds = 0 t Ki (x + sei )ds 0 wobei Ki die i-te Komponente vom Vektorfeld K bezeichnet. Nach dem Hauptsatz der Integralrechnung, finden wir Z d d t Ki (x + sei )ds = Ki (x + tei )|t=0 = Ki (x) ϕ(x + tei )|t=0 = dt dt 0 t=0 Damit ist ∇ϕ(x) = K(x), wie behauptet. Sei nun U nicht zusammenhängend. Aus Lemma 5.7 finden wir eine Familie Ui von disjunkten zusammenhängenden offenen Mengen in Rn , mit U = ∪i Ui . Für jede i können wir dann wie oben eine stetig differenzierbare Funktion ϕi : Ui → R konstruieren, mit ∇ϕi (x) = K(x) für alle x ∈ Ui . Da die Teilmengen disjunkt sind, könenn wir ϕ : U → R durch ϕ(x) := ϕi (x) für alle x ∈ Ui definieren. Dann ist ϕ wohldefiniert, stetig differenzierbar, mit ∇ϕ(x) = K(x) für alle x ∈ U . Satz 5.8 zeigt, zusammen mit Satz 5.4, dass für jedes konservative Vektorfeld K : U → Rn , eine Potentialfunktion ϕ : U → R gefunden werden kann, mit K = ∇ϕ und deswegen, mit Z K · dx = ϕ(Endpunkt) − ϕ(Anfangspunkt) γ Das bedeutet, für jedes konservative Vektorfeld kann man ein Potential einführen, so dass geleistete Arbeit = Unterschied im Potential (die Energie ist erhalten). Bemerke, dass die Potentialfunktion immer nur bis auf eine additive Konstante bestimmt ist. Wie kann man eine Potentialfunktion finden? Zunächst bemerken wir, dass wenn eine Potentialfunktion ϕ existiert, dann muss K = ∇ϕ und deswegen ∂Kj ∂Ki ∂2ϕ ∂2ϕ (x) = (x) = (x) = (x) ∂xj ∂xi ∂xj ∂xj ∂xi ∂xi D.h. damit K ein Gradientenfeld ist, man braucht sicher die n(n − 1)/2 Bedingungen ∂Kj ∂Ki (x) = (x) ∂xj ∂xi 110 (65) für alle i, j = 1, . . . , n. Wenn diese Bedingungen erfüllt sind, kann man versuchen eine Potentialfunktion zu finden, durch iterative Integration der Gleichungen ∂ϕ/∂xi = Ki . Beispiel: wir suchen eine Potentialfunktion für den Vektorfeld K(x, y) = (y 2 , 2xy + y 2 ). Zunächst bemerken wir, dass ∂K1 ∂K2 = 2y = ∂y ∂x Damit ist mindestens möglich, dass ein Potential existiert. Aus der Gleichung ∂ϕ = y2 ∂x finden wir, dass ∂x (ϕ(x, y)−y 2 x) = 0, d.h. ϕ(x, y)−y 2 x = ψ(y) darf nur von y abhängen. Aus ϕ(x, y) = y 2 x + ψ(y) finden wir weiter, dass ∂ϕ (x, y) = 2yx + ψ 0 (y) ∂y Aus ∂y ϕ = 2xy + y 2 folgt, dass ψ 0 (y) = y 2 , und deswegen, dass ψ(y) = y 3 /3 + C. Das zeigt, dass die Potentialfunktion für das Vektorfeld K die Form ϕ(x, y) = y 2 x+y 3 /3+C, für eine Konstante C ∈ R hat. Jede solche Funktion ist eine Potentialfunktion für K. 5.4 Rotation Nehmen wir an, γ ist eine stetige und geschlossene Kurve in R2 . Was ist die Bedeutung vom Linienintegral Z K · dx? γ Es ist intutitv klar, dass wenn K dreht in der Richtung von γ, dann ist das Linienintegral positiv. Falls K dreht in der Gegenrichtung wird dagegen das Integral negativ. Wenn K keine Rotation aufweist (zB. falls γ ein Kreis ist, und K ein zentrales Vektorfeld), dann ist das Linienintegral 0. Das Linienintegral auf der geschlossenen Kurve misst wie das Vektorfeld K dreht, bezüglich die Kurve γ. Es ist also natürlich eine Wirbeldichte zu suchen so, dass das Linienintegral von K auf γ das Integral der Wirbeldichte im Inneren von γ gleicht. Lemma 5.9. Sei R eine Rechteck in R2 , und ∂R der positiv orientierte Rand von R. Sei K = (K1 , K2 ) ein C 1 -Vektorfeld auf R. Dann gilt Z Z ∂K2 ∂K1 K · dx = − dxdy ∂x ∂y ∂R R Beweis. Sei R = {(x, y) : a1 ≤ x ≤ a2 ; b1 ≤ y ≤ b2 } Der Rand ∂R besteht aus 4 Teilen. Wir bezeichnen mit v1 die gerade Strecke zwischen (a1 ; b1 ) und (a2 ; b1 ), mit v2 die Strecke zwischen (a2 ; b1 ) und (a2 ; b2 ), mit v3 die Strecke 111 zwischen (a2 ; b2 ) und (a1 ; b2 ) und mit v4 die Strecke zwischen (a1 ; b2 ) und (a1 ; b1 ). Es gilt Z a2 Z K1 (x, b1 )dx K · dx = a1 b2 v1 Z Z K · dx = K2 (a2 ; y)dy b1 v2 Z Z a2 K · dx = − v3 K1 (x; b2 )dx a1 Z b2 Z K · dx = − K2 (a1 ; y)dy b1 v4 Also Z Z Z b2 [K2 (a2 , y) − K2 (a1 , y)] dy K · dx = K · dx + b1 Z b2 v4 v2 a2 Z = b1 Analog Z Z K · dx + v1 Wir erhalten Z a2 K · dx = v3 a1 Z ∂K2 ∂K2 (x, y)dx dy = (x, y)dxdy ∂x R ∂x Z [K1 (x, b1 ) − K1 (x, b2 )] = − a1 R Z Z K · dx = ∂R R ∂K1 (x, y)dxdy ∂y ∂K2 ∂K1 − dxdy ∂x ∂y wie behauptet. Lemma 5.9 motiviert die folgende Definition. Definition 5.10. Sei n ≥ 2, U ⊂ Rn offen, und K : U → Rn ein differenzierbares Vektorfeld. Wir definieren die Rotation von K als die n × n antisymmetrische Matrix rot (K) mit Einträge [rot K(x, y)]ij = ∂Kj ∂Ki (x, y) − (x, y) ∂xj ∂xi Wegen antisymmetrie hat rot K tatsächlich nur n(n − 1)/2 unabhängige Einträge. Für n = 2 hat also die Matrix rot K nur einen unabhängigen Eintrag. In diesem Fall lohnt sich die Rotation des Vektorfelder K = (K1 , K2 ) als eine skalare Grösse durch rot K(x, y) = ∂K2 ∂K1 (x, y) − (x, y) ∂x ∂y zu definieren. 112 Bemerkung: es folgt von Lemma 5.9, dass Z Z rot Kdxdy K · dx = R ∂R für alle Rechtecke R ⊂ R2 . Im letzten Abschnitt haben wir bemerkt, dass ein Vektorfeld K definiert auf einer Teilmenge von Rn nur dann konservativ sein kann, falls die Bedingungen (65) erfüllt sind. Mit der Definition 5.10 folgt: ein Vektorfeld definiert auf einer Teilmenge von Rn kann nur dann konservativ sein, falls es wirbelfrei ist. Es ist dann natürlich zu fragen, ob wirbelfrei zu sein auch eine hinreichende Bedingung ist. Die Antwort hn̈agt vom Gebiet U , wo das Vektorfeld definiert ist. Im nächsten Satz zeigen wir, dass die Antwort positiv ist (d.h. rot K = 0 impliziert, dass K konservativ ist) für differenzierbare Vektorfelder, die auf konvexe Gebiete definiert sind. Satz 5.11. Sei U ⊂ Rn offen und konvex (d.h. es gelte λx + (1 − λ)y ∈ U , für alle x, y ∈ U und λ ∈ [0; 1]). Sei K ∈ C 1 (U ; Rn ). Dann existiert ϕ ∈ C 1 (U ) mit K = ∇ϕ genau dann, wenn ∂Kj ∂Ki (x) = (x) (66) ∂xj ∂xi für alle 1 ≤ i < j ≤ n und alle x ∈ U . Das impliziert, K ist genau dann konservativ, wenn (66) erfüllt ist. Beweis: O.B.d.A. nehmen wir an, 0 ∈ U . Für jede x ∈ U ist dann das Segment [0; x] = {tx : t ∈ [0; 1]} in U enthalten (weil U konvex ist). Deswegen können wir eine Funktion ϕ : U → R durch Z 1 K(tx) · xdt ϕ(x) = 0 definieren. Da K ∈ C 1 (U ; Rn ) kann man zeigen, dass auch ϕ ∈ C 1 (U ; R), mit ! ! Z 1 Z 1 n n X X ∂ϕ ∂ ∂Ki (x) = txi dt Ki (tx)xi dt = Kj (tx) + ∂xj ∂xj 0 ∂xj 0 i=1 (67) i=1 Um (67) zu beweisen, muss man die Ableitung mit dem Integral vertauschen. Das bedeutet, man muss ein Limes (der Limes, der die Ableitung definiert), mit dem Integral vertauschen. Das ist möglich mit Hilfe von Satz 1.13, weil (Ki (t(x + hej )) − Ki (tx))/h → ∂Ki /∂xj (tx) gleichmässig in t konvergiert. Anderseits, bemerken wir, dass n n i=1 i=1 X ∂Kj X ∂Ki d (tKj (tx)) = Kj (tx) + (tx)txi = Kj (tx) + (tx)txi dt ∂xi ∂xj In der letzten Gleichung haben wir die Bedingung ∂Kj /∂xi = ∂Ki /∂xj benutzt. Vergleich mit (67) gibt Z 1 ∂ϕ d (x) = (tKj (tx)) dt = Kj (x) . ∂xj 0 dt 113 Man bemerke, dass die Bedingung (66) nicht auf beliebigen Gebieten hinreichend ist (sie ist immer notwendig). Das zeigen wir mit dem folgenden Beispiel. Beispiel: Sei x1 −x2 ; K(x1 , x2 ) = x21 + x22 x21 + x22 definiert auf der offenen Menge R2 \{0}. Dann gilt ∂K1 −x2 + x2 ∂K2 (x) = 2 1 2 22 = (x) ∂x2 ∂x1 (x1 + x2 ) für alle x ∈ R2 \{0}. Sei aber γ : [0, 2π] → R2 definiert durch γ(t) = (cos t, sin t) der Einheitskreis (eine geschlossene Kurve auf R2 \{0}. Dann ist Z Z 2π K · dx = K(cos t, sin t) · (− sin t, cos t)dt = 2π 6= 0 γ 0 Also, K ist sicher nicht konservativ. Tatsächlich gilt die Äquivalenz K Gradientfeld ⇐⇒ ∂Kj ∂Ki = ∂xj ∂xi nicht nur auf konvexen, sondern allgemeiner auf sogenannten einfach zusammenhängenden Gebieten. Ein Gebiet G ⊂ Rn heisst einfach zusammenhängend, wenn jede geschlossene Kurve in G stetig zu einem Punkt deformiert werden kann (wir verzichten hier auf die genaue Definition dieses Begriffes). Das Gebiet R2 \{0} ist nicht einfach zusammenhängend, weil jede Kurve um den Ursprung nicht stetig innerhalb R2 \{0} zu einem Punkt deformiert werden kann (bemerke dagegen, dass R3 \{0} einfach zusammenhängend ist). 5.5 Green’sche Formel in 2 Dimensionen Die Rotation eines Vektorfeld ist nützlich weil, wie wir im letzten Abschnitt gezeigt haben, auf einfach zusammenhängenden Gebiete sie gibt eine notwendige und hinreichende Bedingung dafür, dass ein Vektorfeld konservativ ist (K ist konservativ g.d.w. rot K = 0). Im Fall d = 2 gibt aber Lemma 5.9 eine weitere Anwendung. rot K erlaubt uns das Linienintegral von K entlang beliebige Rechtecken zu berechnen, mit der Formel: Z Z K · dx = rot Kdxdy (68) ∂R R Die Green’sche Formel ist die Verallgemeinerung von (68) auf allgemeineren Gebiete. Wir betrachten hier glatt berandeten Gebieten, definiert wie folgt. Definition 5.12. Eine beschränkte offene Teilmenge B ⊂ R2 heisst ein glatt berandete Bereich, falls für jeden Punkt (x0 ; y0 ) ∈ ∂B mindestens eine der folgenden vier Bedingungen erfüllt ist. a) Es existieren a1 < x0 < a2 , b1 < y0 < b2 und eine C 1 -Funktion ϕ : [a1 ; a2 ] → [b1 ; b2 ] so, dass B ∩ [a1 ; a2 ] × [b1 ; b2 ] = (x, y) ∈ R2 : a1 ≤ x ≤ a2 , b1 ≤ y < ϕ(x) 114 b) Analog zu a), aber mit ϕ(x) < y ≤ b2 statt b1 ≤ y < ϕ(x) (in diesem Fall ist der Rand lokal unter der Menge B). c),d) Analog zu a),b) aber in diesem Fall ist ϕ : [b1 ; b2 ] → [a1 ; a2 ], und B ∩ [a1 ; a2 ] ∩ [b1 ; b2 ] ist die Menge der Punkten {(x, y) : b1 ≤ y ≤ b2 , a1 ≤ x < ϕ(x)} oder {(x, y) : b1 ≤ y ≤ b2 , ϕ(x) < x ≤ b2 }. Die Idee ist, dass der Rand lokal das Graphen einer C 1 Abbildung ist. Satz 5.13. Sei B ⊂ R2 ein glatt berandete Bereich, K ein C 1 -Vektorfeld definiert auf einer offenen Umgebung von B. Dann gilt Z Z rot Bdxdy (69) K · dx = B ∂B Hier ist die Orientierung des Randes so gewählt, dass das Inneres des Bereichs immer links vom Rand ist. Um Satz 5.13 zu beweisen, kann man versuchen, der Bereich B mit Rechtecken zu überdecken, und (68) auf jedem Rechteck zu benutzen. Eine bessere Strategie ist das Vektorfeld K in eine endliche Summe von Vektorfeldern zu zerlgen, so, dass jedem Vektorfeld auf einem Rechteck getragen wird. Dazu benutzen wir eine mathematische Konstruktion, die zunächst von Dieudonne in den 30’er Jahren benutzt wurde, und die als Zerlegung der Einheit bezeichnet wird. Satz 5.14. Sei V ⊂ Rn eine kompakte Menge. Sei (Ui )i∈I eine offene Überdeckung von V . Es existieren dann endlich viele C ∞ -Funktionen ϕ1 , . . . , ϕk mit den folgenden Eigenschaften. a) 0 ≤ ϕj (x) ≤ 1, für alle j = 1, . . . , n und alle x ∈ Rn . b) Für alle j = 1, . . . , n es existiert ein ij ∈ I mit supp ϕj ⊂ Uij . Pk c) j=1 ϕj (x) = 1 für alle x in einem offenen Umgebung von V . Beweis. Wir behaupten zunächst, dass es eine Funktion ϕ ∈ C ∞ (R) existiert, mit den drei Eigenschaften: ϕ monoton fallend, ϕ(t) = 1 für alle t ≤ 4/3, ϕ(t) = 0 für alle t ≥ 5/3. Um diese Behauptung zu beweisen, definieren wir zunächst eine monoton wachsende Funktion ϕ0 ∈ C ∞ (R) durch ϕ0 (t) = e−1/t für t > 0 und ϕ0 (t) = 0 für t ≤ 0. Wir setzen dann ϕ1 (t) = ϕ0 (ϕ0 (1) − ϕ0 (t)). Als Verknüpfung von C ∞ -Funktionen ist auch ϕ1 ∈ C ∞ (R). Da ϕ0 monoton wachsend ist, ist ϕ1 monoton fallend. Ferner, für t ≥ 1 haben wir ϕ0 (1) − ϕ0 (t) ≤ 0 und deswegen ϕ1 (t) = 0. Für t ≤ 0 haben wir ϕ0 (t) = 0; ϕ1 (t) = ϕ0 (ϕ0 (1)) > 0 ist also konstant. Mit ϕ(t) = ϕ1 (3(t − 4/3))/ϕ1 (0) finden wir: ϕ ∈ C ∞ (R), ϕ ist monoton fallend, ϕ(t) = 1 für t ≤ 4/3 und ϕ(t) = 0 für t ≥ 5/3. Also hat ϕ alle gewünschten Eigenschaften. Nun, für ein z ∈ K, wählen wir iz ∈ I mit z ∈ Uiz (möglich, weil Ui eine Überdeckung sind). Da Uiz offen ist, finden wir auch rz > 0 mit B2rz (z) ⊂ Uiz . Die Mengen {Brz (z)}z∈V definieren eine offene Überdeckung von V . Da V kompakt ist, existieren z1 , . . . , zn ∈ V mit n [ V ⊂ Brzj (zj ). j=1 115 Für j = 1, . . . , n definieren wir also ϕj (z) = ϕ(|z − zj |/rzj ), mit ϕ ∈ C ∞ (R) monoton fallend und so, dass ϕ(t) = 1 für alle t ≤ 4/3, ϕ(t) = 0 für alle t ≥ 5/3 (so eine Funktion ϕ wurde oben konstruiert). Die Funktionen ϕj haben die folgenden Eigenschaften. • ϕj ∈ C ∞ (Rn ). Klar, weil ϕ ∈ C ∞ (R). • 0 ≤ ϕj (z) ≤ 1 für alle z ∈ Rn . Klar, weil ϕ dieselbe Eigenschaft hat. • ϕj (z) = 1 für alle z ∈ Brzj (zj ) (weil |z − zj | ≤ rzj impliziert, dass |z − zj |/rzj ≤ 1 < 4/3 und ϕ(t) = 1 für alle t ≤ 4/3). • ϕj (z) = 0 für alle z ∈ Rn mit |z − zj | ≥ (5/3)rzj (weil |z − zj |/rzj ≥ 5/3 impliziert, dass ϕ(|z − zj |/rzj ) = 0). Das zeigt, dass supp ϕj ⊂ B2rzj (zj ) ⊂ Uizj . Wir müssen noch die ϕj ein bisschen modifizieren, damit die Summe gleich 1 auf V ist. Dazu definieren wir ϕ∗ (z) = (1 − ϕ1 (z))(1 − ϕ2 (z)) . . . (1 − ϕn (z)). Dann gilt ϕ∗ ∈ C ∞ (Rn ), mit 0 ≤ ϕ∗ (z) ≤ 1 für alle z ∈ Rn und mit ϕ∗ (z) = 0 auf ∪nj=1 Brzj (zj ) ⊃ V (weil auf Brzj (zj ) ist ϕj (z) = 1, und deswegen ϕ∗ (z) = 0). Ist ϕj (z) = 0 für alle P j = 1, . . . , n dann ist ϕ∗ (z) = 1. Deswegen ist nj=1 ϕj (z) + ϕ∗ (z) > 0 für alle z ∈ Rn . Für j = 1, . . . , n definieren wir also ϕj (z) ∗ i=1 ϕi (z) + ϕ (z) ψj (z) = Pn Dann gilt: ψj ∈ C ∞ (Rn ), 0 ≤ ψj (z) ≤ 1 für alle z ∈ Rn , supp ψj = supp ϕj ⊂ Uizj . P Ferner, für alle z ∈ ∪nj=1 Brzj (zj ) gilt ϕ∗ (z) = 0 und deswegen ψj (z) = ϕj (z)/ ni=1 ϕi (z). Das gibt n X ψj (z) = 1 j=1 für alle z ∈ ∪nj=1 Brzj (zj ). D.h. Pn j=1 ψ) j(z) = 1 in einer offenen Umgebung von V . Wir können nun Satz 5.14 benutzen, um die Formel (69) zu beweisen. Beweis von Satz 5.13. Wir wählen eine offene Überdeckung von B wie folgt. Für z ∈ B wir wählen Uz als ein offenes Rechteck (a1 ; a2 ) × (b1 ; b2 ) mit U z ⊂ B.Für z ∈ ∂B, wählen wir dagegen Uz als ein offenes Rechteck so, dass eine der vier Möglichkeiten bei der Definition von glatt berandeten Bereich erfüllt ist. Ferner muss das Rechteck Uz so klein gewählt werden, dass K stetig differenzierbar auf U z bleibt. ∞ Nun {Uz }z∈B ist eine offenen Überdeckung von B. Nach Satz 5.14 Pm finden wir C Funktionen ϕ1 , . . . , ϕm so, dass 0 ≤ ϕj (x) ≤ 1 für alle j = 1, . . . , m, j=1 ϕj (x) = 1 auf B und so, dass für alle j = 1, . . . , m ein zj ∈ B existiert, mit supp ϕj ⊂ Uzj . Für j = 1, . . . , m setzen wir K (j) (x) = ϕj (x)K(x) (bemerke, dass K (j) ist wieder ein Vektorfeld,Pmit zwei Komponenten). Dann ist K (j) stetig differenzierbar für alle (j) = K auf B und supp K (j) ⊂ U j = 1, . . . , m, m zj für alle j = 1, . . . , m. Wir j=1 K haben Z m Z X rot Kdxdy = rot K (j) dxdy B j=1 116 B und Z K · dx = ∂B m Z X K (j) · dx ∂B j=1 Also, um die Behauptung zu beweisen, es genügt zu zeigen, dass, für alle j = 1, . . . , m, Z Z (j) K (j) · dx K dxdy = ∂B B Mit andere Wörter, es genügt (69) unter der zusätzliche Annahme zu zeigen, dass supp K ⊂ Uz , für ein z ∈ B. Wir unterscheiden zwei Fällen. Nehmen wir zunächst an, z ∈ B. Dann ist Uz ein offenes Rechteck voll in der offene Menge B enthalten. Da supp K ⊂ Uz , verschwindet K auf ∂R und auf ∂B. Ferner, rot K verschwindet auf B\Uz . Mit Hilfe der Green’sche Formel für Rechtecken, bewiesen in Lemma 5.9, erhalten wir Z Z Z Z rot Kdxdy rot Kdxdy = K · dx = K · dx = 0 = B Uz ∂Uz ∂B Nehmen wir nun an, z ∈ ∂B. Dann ist Uz ein Rechteck so, dass eine der vier Möglichkeiten in der Definition von glatt berandeten Bereichen. Wir nehmen zum Beispiel an, Uz habe die Form eines Rechteckes, wie im Fall a) in der Definition von glatt berandeten Bereichen. Mit andere Wörter, wir nehmen an Uz = {(x, y) : a1 < x < a2 , b1 < y < b2 } und es existiert eine C 1 Funktion ϕ : (a1 ; a2 ) → (b1 ; b2 ) so, dass R := B ∩ [a1 ; a2 ] × [b1 ; b2 ] = {(x, y) ∈ R2 : a1 < x < a2 , b1 < y < ϕ(x)} Wir haben Z Z Z rot K dxdy = B rot K dxdy = R R ∂K2 ∂K1 (x, y) − (x, y) dxdy ∂x ∂y weil supp K ⊂ Uz , und B ∩ Uz = R. Anderseits Z Z K · dx = K · dx ∂B (70) (71) γ wobei γ der Graphen von ϕ ist (d.h. [0; a2 − a1 ] 3 t → γ(t) = (a2 − t, ϕ(a2 − t))). Hier haben wir die Tatsache benutzt, dass ∂B ∩ Uz = γ. Nun berechnen wir # Z Z a2 "Z ϕ(x) ∂K1 ∂K1 (x, y)dxdy = (x, y)dy dx ∂y R ∂y a1 b1 Z a2 (72) = [K1 (x, ϕ(x)) − K1 (x, b1 )] dx a1 Z a2 = K1 (x, ϕ(x)) a1 und, dass Z R ∂K2 (x, y)dxdy = ∂x Z a2 "Z a1 117 ϕ(x) b1 # ∂K2 (x, y)dy dx ∂x Wir bemerken, dass d dx Z ϕ(x) Z 0 ϕ(x) ∂K2 (x, y) ∂x K2 (x, y)dy = K2 (x, ϕ(x))ϕ (x) + b1 b1 Also, Z R ∂K2 (x, y)dxdy = ∂x Z a2 Z d dx ϕ(x) Z a1 ϕ(a2 ) b1 K2 (x, ϕ(x))ϕ0 (x)dx a1 Z Z ϕ(a1 ) Z Z a2 = − K2 (x, ϕ(x))ϕ0 (x)dx a1 b1 b1 a2 K2 (a1 , y) − K2 (a2 , y) − = a2 K2 (x, y)dy − K2 (x, ϕ(x))ϕ0 (x)dx a1 (73) weil K verschwindet auf dem Rand von Uz (d.h. für x = a1 und x = a2 ). Aus (70), (72) und (73) finden wir Z a2 Z Z Z a2 0 rot Kdxdy = − K1 (x, ϕ(x)) + K2 (x, ϕ(x))ϕ (x)dx = K · dx B a1 a1 γ Aus (71) folgt, dass Z Z K · dx rot Kdxdy = B ∂B Bemerkung: Die Formel von Green gilt tatsächlich auf allgemeineren Bereichen. Sie gilt insbesondere auf zulässige Bereichen. Ein zulässiger Bereich in R2 ist eine beschränkte offene Menge B ⊂ R2 so, dass ∂B eine endliche oder abzählbare Vereinigung von stetig differenzierbare Kurven ist und so, dass eine Folge B1 ⊂ B2 ⊂ B3 ⊂ · · · ⊂ B existiert, mit µ(B\Bn ) → 0 und so, dass die totale Länge der symmetrischen Differenz ∂B∆∂Bn gegen Null strebt (hier ist A∆B = (A\B) ∪ (B\A)). Gebiete mit endlich viele Ecken sid zB. nicht glatt berandete aber zulässig. 5.6 Fluss, Divergenz und Satz von Gauss Wir führen den Begriff von Fluss eines Vektorfeldes. Wir betrachten ein Vektorfeld K(x) in zwei Dimensionen. Wir interpretieren K(x) als das Geschwindigkeitsfeld einer Flüssigkeit. Der Fluss von K durch eine Kurve γ ist die Menge Flüssigkeit, die γ pro Zeiteinheit überquert. Ist K konstant und γ ein Geradenstück , so kann man sich leicht überzeugen, dass der Fluss von K durch γ durch (K · n)`(γ) gegeben ist. Hier ist n das normale Einheitsvektor zu γ und `(γ) die Länge von γ. In allgemein (also falls K nicht konstant ist und/oder γ keine Gerade ist) kann man versuchen den Fluss zu berechnen, indem man γ in kleinen Stücken zerlegt. Sei also [a; b] 3 t → γ(t) ∈ R2 eine Kurve. Für t ∈ [a; b] sei weiter n̂(t) den normale Einheitsvektor zu der Kurve γ im Punkt γ(t). Die Orientirung der normale Einheitsvektor wird so gewählt, dass n̂(t) nach rechts zeigt 118 (bezüglich der Orientierung der Kurve γ). Der Fluss von K durch γ ist dann definiert durch Z b Z K(γ(t)) · n̂(t)|γ̇(t)|dt (74) F = K · n̂ds = a γ Hier haben wir die Notation ds = |γ̇(t)|dt eingeführt. Insbesondere ist der Fall einer geschlossenen Kurve γ interessant. Nehmen wir nämlich an, dass γ = ∂B (mit mathematisch positive Orientierung), für eine Menge B ⊂ R2 . In diesem Fall misst der F die Menge Flüssigkeit produziert (falls F > 0) oder vernichtet (falls F < 0) in der Menge B pro Zeiteinheit. Ist γ = ∂B geschlossen, so kann man den e Fluss F wie folgt berechnen. Wir definieren ein neues Vektorfeld K(x) indem wir K(x) um π/2 nach links drehen. Mit andere Wörter, falls K = (K1 , K2 ), so definieren wir e e K(−K 2 , K1 ). Dann ist K · n̂ = K · t, mit t der Einheitsvektor tangential zu γ (t zeigt im Sinne der Orientierung der Kurve). Also Z b Z e e · dx F = K(γ(t)) · t(t)|γ̇(t)|dt = K a γ Aus der Satz von Green folgt, dass Z e F = rot Kdxdy B # Z " e e1 ∂ K2 ∂ K = − dxdy ∂x ∂y B Z ∂K1 ∂K2 = + dxdy ∂x ∂y B Diese Berechnung motiviert die folgende Definition. Definition 5.15. Sei U ⊂ Rn offen, und K : U → Rn ein C 1 -Vektorfeld. Wir bezeichnen mit K = (K1 , . . . , Kn ) die Komponenten von K. Wir definieren die Divergenz von K als n X ∂Kj div K(x) = (x) ∂xj j=1 Die Divergenz eines Vektorfeld ist eine skalare Grösse. Wir haben also bewiesen, dass für alle glatt berandeten Bereichen B ⊂ R2 und alle Vektorfelder K definiert mindestens auf einer Umgebung von B, es gilt Z Z K · n̂ds = div Kdxdy (75) C 1- ∂B B Diese Formel ist equivalent zur Green’sche Formel; die Interpretation ist aber verschieden. Bis hier haben wir den Fluss von 2-dimensionalen Vektorfelder untersucht. Jetzt möchten wir den Fluss von Vektorfelder in 3 Dimensionen betrachten. Analog zum zweidimensionalen Fall definieren wir den Fluss vom Vektorfeld K durch die Fläche Σ als Z F = K · n̂ dσ Σ 119 wobei n̂ ein normaler Einheitvektor zur Fläche Σ ist und dσ das Oberflächenelement ist. Um den Fluss von K durch Σ zu berechnen brauchen wir eine Parametrisierung von Σ. Sei U ⊂ R2 offen und U 3 (s, t) → x(s, t) ∈ R3 eine Parametrisierung einer Fläche Σ. Dann gilt s Z ∂x ∂x K(x(s, t)) · n̂(s, t) gram F = dsdt , ∂s ∂t U wobei n̂(s, t) den normale Einheitsvektor zur Fläche x im Punkt x(s, t) bezeichnet. Eine einfache Berechnung zeigt, dass ∂x ∂x × ∂s ∂t ein Vektor orthogonal zu der Fläche ist, mit der Länge s ∂x ∂x ∂x ∂x ∂s × ∂t = gram ∂s , ∂t Das bedeutet, dass Z K(x(s, t)) · F = U ∂x ∂x × (s, t) dsdt ∂s ∂t (76) (das definiert auch die Richtung vom normalen Einheitsvektor eindeutig). Man bemerke, die Formel auf der rechten Seite von (76) ist invariant bezüglich Änderungen der Parametrisierung (das gilt bis auf Wahl einer Orientierung der Fläche Σ). Insbesonderes wollen wir den Fluss von K durch Randflächen berechnen. Wie im zwei dimensionalen Fall lässt sich der Fluss durch die Oberfläche eines Bereiches B ⊂ R3 als das Integral der Divergenz von K über B ausdrucken. Das ist der Inhalt vom Satz von Gauss (auch Divergenzsatz genannt). Um die Aussage genau zu formulieren brauchen wir hier, ähnlich wie beim Satz von Green in zwei Dimensionen, den Begriff von glatt berandeten Bereichen in R3 zu definieren. Definition 5.16. Eine beschränkte, nicht-leere offene Teilmenge B ⊂ R3 heisst ein glatt berandeten Bereich falls, für alle Punkten (x0 , y0 , z0 ) ∈ ∂B mindestens eine der folgenden 6 Bedingungen erfüllt ist. a) Es existiert ein offenes Quader Q = (a1 ; a2 ) × (b1 ; b2 )×(c1 ; c2 ), mit (x0 , y0 , z0 ) ∈ Q und eine C 1 -Abbildung ϕ : [a1 ; a2 ]×[b1 ; b2 ] → [c1 ; c2 ] mit B ∩ Q = {(x, y, z) ∈ R3 : a1 ≤ x ≤ a2 , b1 ≤ y ≤ b2 und c1 ≤ z < ϕ(x, y)} Mit anderer Wörter, im Quader Q um den Punkt (x0 , y0 , z0 ) ist ∂B das Graphen von ϕ. b) Ähnlich wie a), aber B ∩ Q = {(x, y, z) ∈ R3 : a1 ≤ x ≤ a2 , b1 ≤ y ≤ b2 und ϕ(x, y) < z ≤ c2 } Die Fälle c),d),e),f ) sind alle ähnlich wie a),b), aber im kleinen Quader hat der Rand die Form {x = ϕ(y, z)} oder {y = ϕ(x, z)} statt {z = ϕ(x, y)}. 120 Satz 5.17 (Satz von Gauss, Divergenzsatz). Sei B ein glatt berandeten Bereich, K ein C 1 -Vektorfeld, definiert mindestens in einem Umgebung von B. Dann ist Z Z div K dxdydz (77) K · n̂ dσ = B ∂B Hier ist n̂ der nach aussen gerichteten normale Einheitsvektor zur Fläche ∂B. Beweis. Wie im Beweis vom Satz von Green genügt es, mit Hilfe einer Zerlegung der Einheit, (77) für den Fall zu zeigen, dass supp K ⊂ Q, wobei Q ist entweder ein offenes Quader, enthalten in B, oder sonst Q ist ein offenes Quader, wie in einer der 6 Möglickeiten bei der Definition von glatt berandeten Bereich. Nehmen wir zunächst an, Q = [a1 ; a2 ] × [b1 ; b2 ] × [c1 ; c2 ] ist ein Quader mit Q ⊂ B. Dann gilt offenbar Z K · n̂dσ = 0 ∂B (weil supp K ⊂ Q verschwindet auf ∂B). Anderseits Z Z ∂K ∂K ∂K div Kdxdydz = + + dxdydz ∂y ∂z B Q ∂x (78) Betrachte z.B. den Term Z a2 Z Z ∂K ∂K (x, y, z)dxdydz = (x, y, z)dx dydz Q ∂x [b1 ;b2 ]×[c1 ;c2 ] a1 ∂x Z = [K(a2 , y, z) − K2 (a1 , y, z)] dydz = 0 [b1 ;b2 ]×[c1 ;c2 ] weil K verschwindet auf dem Rand von Q. Analog verschwinden auch die andere zwei Termen in (78). Damit ist Z Z div Kdxdydz = 0 = K · n̂dσ . B ∂B Wir nehmen nun an, supp K ⊂ Q, mit Q = (a1 ; a2 ) × (b1 ; b2 ) × (c1 ; c2 ) so, dass es existiert eine C 1 -Funktion ϕ : [a1 ; a2 ] × [b1 ; b2 ] → [c1 ; c2 ] mit B ∩ Q = {(x, y, z) ∈ R3 : a1 ≤ x ≤ a2 , b1 ≤ y ≤ b2 , c1 ≤ y < ϕ(x, y)} Sei Σ die Fläche parametrisiert durch [a1 ; a2 ] × [b1 ; b2 ] 3 (x, y) → (x, y, ϕ(x, y)) =: p(x, y). Dann gilt Z Z Z ∂p ∂p K · n̂dσ = K · n̂dσ = K(p(x, y)) · × dxdy ∂x ∂y ∂B Σ [a1 ;a2 ]×[b1 ;b2 ] Wir berechnen Damit ist ∂p = (1, 0, ∂x ϕ), ∂x und ∂p = (0, 1, ∂y ϕ) ∂y ∂p ∂p × = (−∂x ϕ, −∂y ϕ, 1) ∂x ∂y 121 Man bemerke, dass die z-Komponente dieses Vektor positiv ist; d.h. der normale Vektor zeigt in der äussere Richtung, wie gewünscht. Also Z Z h K · n̂dσ = − K1 (x, y, ϕ(x, y))∂x ϕ(x, y) − K2 (x, y, ϕ(x, y))∂y ϕ(x, y) ∂B [a1 ;a2 ]×[b1 ;b2 ] i + K3 (x, y, ϕ(x, y)) dxdy (79) Betrachten wir zunächst den ersten Integrand auf der rechten Seite. Wir haben Z K1 (x, y, ϕ(x, y))∂x ϕ(x, y)dxdy − [a1 ;a2 ]×[b1 ;b2 ] Z b2 = Z − a2 (80) K1 (x, y, ϕ(x, y))∂x ϕ(x, y)dx dy a1 b1 Für y fest, wenden wir nun die Formel von Gauss in 2-Dimensionen mit dem Bereich e By = {(x, z) : a1 ≤ x ≤ a2 , c1 ≤ z ≤ ϕ(x, y)} und mit dem Vektorfeld K(x, z) = (K1 (x, y, z), 0). Wir finden # Z a2 "Z ϕ(x,y) Z Z ∂K1 e e · n̂ds K (x, y, z)dz dx = div kdxdz = ∂x a1 c1 By ∂By Z a2 =− K1 (x, y, ϕ(x, y))∂x ϕ(x, y)dx a1 Hier haben wir benutzt, dass K(x, y, z) verschwindet, falls x = a1 oder x = a2 (deswegen reduziert sich das Integral über ∂By zu einem Integral auf der parametrisierte Kurve [a1 ; a2 ] 3 x → (x, y, ϕ(x, y)), mit der Normale (−∂x ϕ(x, y), 0, 1)). Einsetzen in (80) ergibt Z − K1 (x, y, ϕ(x, y))∂x ϕ(x, y)dxdy [a1 ;a2 ]×[b1 ;b2 ] Z a2 Z b2 Z ϕ(x,y) = a1 b1 c1 ∂K1 (x, y, z)dxdydz = ∂x Z B ∂K1 (x, y, z)dxdydz ∂x Analog können wir die andere zwei Integranden auf der rechten Seite von (79) betrachten. Wir schliessen, dass Z Z K · n̂dσ = ∂B div K dxdydz B Alle andere Möglichkeiten, die wegen der Definition von glatt berandeten Bereichen eintreten können, lassen sich ähnlich behandeln. Bemerkung: wie im Fall der Satz von Green lässt sich der Satz von Gauss auf zulässiger Bereichen in R3 verallgemeinern. Ein zulässiger Bereich in R3 ist eine offene beschränkte Teilmenge B ⊂ R3 mit ∂B eine endliche Vereinigung von glatten Flächen so, dass eine Folge von glatt berandeten Teilbereiche B1 ⊂ B2 ⊂ B3 ⊂ . . . existiert, mit µ(B\Bn ) → 0 und so, dass die Oberfläche von der symmetrischen Differenz ∂B∆∂Bn gegen Null strebt (A∆B = (A\B) ∪ (B\A)). 122 5.7 Satz von Stokes Wir haben im Abschnitt 5.4 gesehen, dass die Rotation eines differenzierbaren Vektorfeldes K : U → Rn , definiert auf U ⊂ Rn eine schiefsymmetrische n × n Matrix ist, mit Einträgen ∂Ki ∂Kj [rot K(x)]ij = − ∂xj ∂xi Im Fall n = 3, rot K ist deswegen die schiefsymmetrische Matrix 0 a3 a2 a1 M = −a3 0 −a2 −a1 0 mit a1 = ∂Kz /∂y − ∂Ky /∂z , a2 = ∂Kx /∂z − ∂Kz /∂x und a3 = ∂Ky /∂x − ∂Kx /∂y. Die schiefsymmetrische Matrix M kann, in drei Dimensionen, in einer natürliche Weise mit dem Vektor a = (a1 , a2 , a3 ) identifiziert werden (natürlich in der Sinne, dass die zwei Objekten gleich transformieren, bezüglich Rotationen, d.h. falls R eine Rotation-Matrix ist, es gilt M (Ra) = RM (a)R−1 ). D.h. in drei Dimensionen können wir die Rotation von einem Vektorfeld K als das neue Vektorfeld ∂Ky ∂Kx ∂Kz ∂Ky ∂Kz ∂Kx rot K = − , − , − ∂y ∂z ∂z ∂x ∂x ∂y definieren. Wir schreiben auch rot K = ∇ × K, weil, wie für das Vektorprodukt zwei Vektoren, X [rot K]i = εij` ∂xj K` j,` mit dem antisymmetrischen Tensor εij` = 1 falls (i, j, `) = (1, 2, 3) oder eine zyklische Permutation, εij` = −1 falls (i, j, `) = (3, 2, 1) oder eine zyklische Permutation, und εij` = 0 sonst (man bemerke, dass wir wechseln zwischen den Notationen (x, y, z) und (x1 , x2 , x3 ) für die Koordinaten, und zwischen den Notationen (Kx , Ky , Kz ) und (K1 , K2 , K3 ) für die drei Komponenten des Vektorfeldes K). Ist K das Geschwindigkeitsfeld einer Flüssigkeit, so misst der Vektor rot K die rotationelle Komponente der Bewegung der Flüssigkeit, d.h. die Anwesenheit von Wirbeln. Ein Vektorfeld heisst wirbelfrei, falls rot K = 0. Wir haben schon bewiesen, dass rot ∇ϕ = 0, d.h. die Rotation von Gradientenfelder ist immer Null (wir haben auch bewiesen, dass rot K = 0 ist auf konvexe Bereiche eine hinreichende Bedingung dafür, dass K konservativ ist). Der Satz von Stokes besagt, dass der Fluss von rot K durch eine Fläche Σ in R3 dasselbe ist, wie das Linienintegral von K entlang der Randkurve von Σ. Diese Formel spiel eine sehr wichtige Rolle in der Elektrodynamik. Um die Aussage genau zu schreiben brauchen wir zunächst ein Paar Definitionen. Eine Fläche Σ ⊂ R3 heisst orientierbar, falls es eine stetige Wahl von einem normale Einheitsvektor n̂ in jedem Punkt von Σ existiert. Nicht alle Fläche sind orientierbar; zB. ist das Möbiusband eine nicht orientirbare Fläche. Im folgenden werden wir nur orientierbare Fläche betrachten (der Satz von Stokes gilt nur für solche Fläche). Man muss ein bisschen aufpassen, was wir mit Randkurve einer Fläche Σ meinen. Als Teilmenge von R3 ist ∂Σ = Σ (weil jede drei-dimensionale Umgebung eines Punktes auf 123 der Fläche Σ ein nicht leeres Durchschnitt mit Σ und mit Σc hat). Wir betrachten hier die Randkurve von Σ, definiert als Σ\Σ; wir werden hier die nicht so genaue Notation ∂Σ := Σ\Σ benutzten. Die Wahl einer Orientierung von Σ bestimmt auch eine Orientierung von der Randkurve ∂Σ. Die Regel ist hier, dass gesehen vom Rand her (mit Kopf in der Richtung der gewählte Normale n̂) die Fläche Σ sollte auf linke Seite sein. Wir sagen eine Fläche sei glatt berandete, falls für jedem Punkt (x0 , y0 , z0 ) ∈ Σ\Σ es existieren eine offene Umgebung U von (x0 , y0 , z0 ) und eine reguläre C 1 -Abbildung ψ : R2 ⊃ B1 (0) → R3 mit ψ(0, 0) = (x0 , y0 , z0 ) und Σ ∩ U = ψ {(s, t) : s2 + t2 < 1 und t > 0} Wir können hier annehmen, dass die lokale Parametrisierung ψ die gewählte Orientirung der Fläche Σ respektiert, in der Sinne, dass der Vektor ∂s ψ × ∂t ψ überall in der selben Richtung wie n̂ zeigt. Man bemerke, dass die lokale Parametrisierung ψ von der Fläche Σ auch eine Parametrisierung der Randkürve ∂Σ = Σ\Σ definiert, durch seine Einschränkung auf {(s, t) ∈ B1 (0) : t = 0}. Satz 5.18 (Satz von Stokes). Seien Σ eine glatt berandete orientierte Fläche, K ein C 1 -Vektorfeld definiert auf einer offenen Umgebung von Σ. Dann ist Z Z rot K · n̂ dσ = K · dx (81) Σ ∂Σ Bemerkung: 1) Insbesondere es folgt aus Satz 5.18, dass, wenn die Fläche Σ geschlossen ist (ohne Randkurve), so muss Z rot K · n̂ dσ = 0 Σ gelten. Das ist keine Überraschung, weil in diesem Fall ist Σ = ∂B, für ein offene beschränkter Bereich B ⊂ R3 . Deswegen kann man der Fluss von rot K mit dem Satz von Gauss berechnen. Eine einfache Rechnung zeigt aber, dass div rot K = 0 für alle (zwei Mal differenzierbare) Vektorfelder K gilt (mit rot K = ∇×K und div K = ∇ · K, finden wir, wie für Vektoren, ∇ · (∇ × K) = 0). Tatsächlich kann man zeigen, dass falls ein Vektorfeld K die Eigenschaft Z K · n̂ dσ = 0 Σ für alle geschlossenen Flächen Σ hat, so muss ein Vektorfeld v existieren, mit K = rot v (das ist ähnlich wie die Tatsache, dass nur Gradientenfelder haben verschwindenden Linienintegrale auf jeder geschlossenen Kurve). 2) In einem einfachen Fall, haben wir den Satz von Stokes schon bewiesen. Ist nämlich Σ flach, eine Teilmenge vom Ebene {(x, y, z) : z = 0}, dann ist n̂ = (0, 0, 1) und rotK · n̂ = ∂Ky ∂Kx − ∂x ∂y 124 In diesem Fall ist (81) völlig equivalent zur 2-dimensionale Formel von Green, bewiesen in Satz 69. Im Beweis von Satz 5.18 werden wir diese Bemekrung benutzen. Beweis von Satz 5.18. Mit Hilfe einer Zerlegung der Einheits, können wir annehmen, dass 1) Die Fläche Σ hat eine globale parametrisierung. D.h. es existieren eine offene Menge B ⊂ R2 und eine reguläre C 1 -Abbildung ψ : B → R3 mit Σ = ψ(B). Wir nehmen an, die Orientirung von Σ ist so, dass ∂t1 ψ × ∂t2 ψ in der selben Richtung wie n̂ zeigt. 2) Der Rand von B besteht aus einer einzigen glatten Kurve β : [0; 2π] 3 θ → t(θ) = (t1 (θ), t2 (θ)) ∈ R2 . Unter diesen Annahmen, berechnen wir Z Z ∂ψ ∂ψ rot K(ψ(t1 , t2 )) · rot K · n̂ dσ = × (t1 , t2 ) dt1 dt2 ∂t1 ∂t2 B Σ Eine einfache Berechnung zeigt, dass 3 X ∂Kj ∂ψ ∂ψ ∂Ki ∂ψi ∂ψj rot K · × = − ∂t1 ∂t2 ∂xi ∂xj ∂t1 ∂t2 (82) i,j=1 e 1 , t2 ) := K(ψ(t1 , t2 )). Dann ist Sei K(t 3 X ∂Kj ∂ψi ej ∂K = ∂t1 ∂xi ∂t1 3 und j=1 e i X ∂Ki ∂ψj ∂K = ∂t2 ∂xj ∂t2 (83) j=1 Aus (82) wir finden X 3 3 e j ∂ψj X e i ∂ψi ∂K ∂ψ ∂K ∂ψ × = − rot K · ∂t1 ∂t2 ∂t1 ∂t2 ∂t2 ∂t1 j=1 i=1 ∂ e ∂ψ ∂ e ∂ψ = K· − K· ∂t1 ∂t2 ∂t2 ∂t1 Hier haben wir die Tatsache benutzt, dass der Beitrag 2 e · ∂ ψ (t1 , t2 ) K ∂t1 ∂t2 von den zwei Summanden kürzt sich genau weg. Wir definieren nun auf B das zweidimensionale Vektorfeld ∂ψ ∂ψ e e ω(t1 , t2 ) = K · (t1 , t2 ), K · (t1 , t2 ) ∂t1 ∂t2 und wir bemerken, dass ∂ω2 ∂ω1 ∂ e ∂ψ ∂ e ∂ψ − = (t1 , t2 ) − (t1 , t2 ) rot ω = K· K· ∂t1 ∂t2 ∂t1 ∂t2 ∂t2 ∂t1 125 Aus (83) bekommen wir Z Z Z ω · dt rot ω dt1 dt2 = rot K · n̂ dσ = ∂B B Σ Z 2π ∂ψ dt1 (θ) dt2 (θ) ∂ψ e e = K(t(θ)) · (t(θ)) (t(θ)) dθ + K(t(θ)) · ∂t1 dθ ∂t2 dθ 0 Z 2π Z d K(ψ(t(θ))) ψ(t(θ)) = = K · dx dθ 0 ∂Σ 126