Kapitel 7 Mehrere reelle Veränderliche Einleitung Bisher wurden nur Funktionen betrachtet, bei denen sowohl das Argument x als auch der Funktionswert f (x) reelle Zahlen waren, die also von Teilmengen von R nach R gingen. Im Folgenden sollen jedoch Funktionen untersucht werden, die nicht nur von einer, sondern von mehreren reellen Veränderlichen abhängen, zum Beispiel I Funktionen, die nicht mehr auf einer Zahlengeraden, sondern auf einer Zahlenebene bzw. einem Stück davon definiert sind, oder I Funktionen, die in Abhängigkeit von Punkten des Raumes definiert sind, oder I Funktionen, die von noch mehr Variablen abhängen, weil diese als Parameter in ihrer Definition auftreten. Zudem sollen auch kompliziertere Werte angenommen werden dürfen als nur reelle Zahlen. Abschnitt 7.1 Der Rn und Operationen mit seinen Elementen Der Rn als Menge, 1 Sei n ∈ N× eine feste natürliche Zahl. Unter dem Rn als Menge wird das n-fache kartesische Produkt von R mit sich selbst verstanden, also Rn := |R × R × ·{z · · × R × R} . n Mal Speziell gilt I R2 = R × R, was man sich mittels Festlegung von Koordinatenachsen als kartesische Zahlenebene geometrisch veranschaulichen kann, I R3 = R × R × R, was man sich mittels Festlegung von Koordinatenachsen als Umgebungsraum geometrisch veranschaulichen kann, I R1 = R, was man geometrisch als Zahlengerade interpretieren kann. Der Rn als Menge, 2 Die Elemente des Rn werden in dieser Vorlesung in Form von Zeilen notiert: Rn = {(x1 , x2 , . . . , xn−1 , xn ) : x1 , x2 , . . . , xn−1 , xn ∈ R} . Im Prinzip gleichwertig ist die Schreibweise als Spalten: x1 x 2 .. R = . : x1 , x2 , . . . , xn−1 , xn ∈ R . xn−1 xn Der Rn als Menge, 3 Mittels des Transponierens – welches durch ein „τ “ als Exponent gekennzeichnet wird – kann man aus Zeilen Spalten machen und umgekehrt: x1 x2 τ (x1 , x2 , . . . , xn−1 , xn ) := ... xn−1 xn und x1 x2 .. . xn−1 xn τ := (x1 , x2 , . . . , xn−1 , xn ). Vorläufige Reduktion auf die Wertemenge R, 1 Letztlich sollen im Folgenden Funktionen F betrachtet werden, die auf einer Teilmenge D des Rn definiert sind und deren Funktionswerte in einem Rm liegen mit m ∈ N× , wobei die Zahlen n und m nicht in einer Beziehung zu einander stehen müssen. Einen Großteil der Überlegungen kann man sich jedoch wie folgt vereinfachen: Für eine Funktion F : D → Rm mit D ⊂ Rn ist für jedes x ∈ D der Wert F (x) ein Element des Rm , also von der Gestalt F (x) = (y1 , y2 , . . . , ym−1 , ym ) mit y1 , y2 , . . . , ym−1 , ym ∈ R. Für µ = 1, . . . , m definiere man nun eine Funktion fµ : D → R durch fµ (x) := yµ . Vorläufige Reduktion auf die Wertemenge R, 2 Dann gilt F (x) = (f1 (x), f2 (x), . . . , fm−1 (x), fm (x)) für x ∈ D, und die Funktion F : D → Rm (hier spricht man manchmal auch von einer Abbildung) wird beschrieben durch die m Funktionen fµ : D → R für µ = 1, . . . , m (hier spricht man manchmal auch von Funktionen im engeren Sinne). Daher werden im Folgenden zunächst nur Funktionen f : D → R betrachtet. Addition von n-Tupeln, 1 Definition. Für zwei n-Tupel x = (x1 , x2 , . . . , xn−1 , xn ) ∈ Rn und y = (y1 , y2 , . . . , yn−1 , yn ) ∈ Rn definiert man die Summe x + y von x und y durch x + y := (x1 + y1 , x2 + y2 , . . . , xn−1 + yn−1 , xn + yn ) (Addition zweier Elemente des Rn ). Interpretation dieser Addition in der Zahlenebene. Zwei Paare reeller Zahlen x = (x1 , x2 ) und y = (y1 , y2 ) reeller Zahlen werden addiert, indem man die gerichtete Strecke vom Koordinatenursprung nach y parallel so verschiebt, dass ihr Anfangspunkt in x zu liegen kommt. Der Endpunkt liegt dann an der Stelle x + y . Addition von n-Tupeln, 2 x + yr = (x1 + y1 , x2 + y2 ) Y H y = (y1 , y2 ) rH Y HH H HH Hr x = (x1 , x2 ) > Der Rn als additive Gruppe Definiert man 0 := (0, 0, . . . , 0, 0) und −x := (−x1 , −x2 , . . . , −xn−1 , −xn ), so erfüllt Rn mit der oben definierten Addition die Eigenschaften A 1 bis A 4 aus der Definition eines Körpers in Abschnitt 1.2. (Man fasst dies zusammen, indem man sagt, dass der Rn eine abelsche Gruppe bezüglich der Addition ist, vgl. die Veranstaltung „Lineare Algebra“.) Insbesondere wird die Subtraktion zweier n-Tupel x = (x1 , x2 , . . . , xn−1 , xn ) ∈ Rn und y = (y1 , y2 , . . . , yn−1 , yn ) ∈ Rn definiert durch x − y := (x1 − y1 , x2 − y2 , . . . , xn−1 − yn−1 , xn − yn ). Warnung Im Allgemeinen lässt sich keine Multiplikation auf dem Rn definieren, durch die dieser zu einem Körper wird. Ausnahmen sind die Fälle I n = 1: Dies ist der Körper R der reellen Zahlen selbst. I n = 2: Dies ist der Körper C der komplexen Zahlen (siehe später). Im Falle n = 4 gibt es noch den „Schiefkörper“ Q der Quaternionen, von dem man das Vektorprodukt ableiten kann und der in der Computervisualistik Verwendung findet bei der Parametrisierung von räumlichen Drehungen. Allerdings ist in Q die Multiplikation nicht mehr kommutativ. Skalare Multiplikation von n-Tupeln, 1 Definition. Für x = (x1 , x2 , . . . , xn−1 , xn ) ∈ Rn ein Element des Rn und r ∈ R eine reelle Zahl definiert man das skalare Vielfache von x mit r als rx := (rx1 , rx2 , . . . , rxn−1 , rxn ) (Multiplikation eines Elements des Rn mit einer reellen Zahl). Geometrisch wirkt eine skalare Multiplikation mit einem festen Faktor r auf den Rn als eine zentrische Streckung mit dem (orientierten!) Faktor r und dem Streckungszentrum 0 = (0, . . . , 0). Aufgrund der Definition der skalaren Multiplikation gelten offensichtlich folgende Skalare Multiplikation von n-Tupeln, 2 Rechenregeln für die skalare Multiplikation. Seien x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) ∈ Rn und r , s ∈ R beliebig. Dann gilt I (rs)x = r (sx), d. h. (rs)(x1 , . . . , xn ) = r (sx1 , . . . , sxn ) (Assoziativgesetz der skalaren Multiplikation), I 1x = x, d. h. 1(x1 , . . . , xn ) = (x1 , . . . , xn ), I (r + s)x = rx + sx, d. h. (r + s)(x1 , . . . , xn ) = r (x1 , . . . , xn ) + s(x1 , . . . , xn ) und r (x + y ) = rx + ry , d. h. r (x1 + y1 , . . . , xn + yn ) = r (x1 , . . . , xn ) + r (y1 , . . . , yn ) (Distributivgesetze). Skalare Multiplikation von n-Tupeln, 3 Diese Rechenregeln fasst man mit den Regeln A 1 bis A 4 für die Addition von n-Tupeln in der Veranstaltung „Lineare Algebra“ so zusammen, dass man sagt, dass der Rn mit der oben definierten Addition und der skalaren Multiplikation zu einem Vektorraum wird, genauer: zu einem R-Vektorraum. Definition / Sprachgebrauch. Die Elemente x = (x1 , . . . , xn ) des Rn werden auch als Vektoren bezeichnet, die Zahlen r aus R als Skalare. Die kanonische Basis des Rn , 1 Definition. Sei e1 := (1, 0, 0, . . . , 0, 0, 0), e2 := .. . (0, 1, 0, . . . , 0, 0, 0), .. . en−1 := (0, 0, 0, . . . , 0, 1, 0), en := (0, 0, 0, . . . , 0, 0, 1). Dann heißt e1 , e2 , . . . , en−1 , en die kanonische Basis des Rn . Die kanonische Basis des Rn , 2 Bemerkung. Jedes x = (x1 , x2 , . . . , xn−1 , xn ) ∈ Rn lässt sich schreiben als x = (x1 , x2 , . . . , xn−1 , xn ) = (x1 , 0, 0, . . . , 0, 0, 0) + (0, x2 , 0, . . . , 0, 0, 0) + · · · (0, 0, 0, . . . , 0, xn−1 , 0) + (0, 0, 0, . . . , 0, 0, xn ) = x1 (1, 0, 0, . . . , 0, 0, 0) + x2 (0, 1, 0, . . . , 0, 0, 0) + · · · xn−1 (0, 0, 0, . . . , 0, 1, 0) + xn (0, 0, 0, . . . , 0, 0, 1) = x1 e1 + x2 e2 + · · · + xn−1 en−1 + xn en . Die kanonische Basis des Rn , 3 Solch eine Darstellung ist eindeutig: Gilt für x = (x1 , x2 , . . . , xn−1 , xn ) ∈ Rn auch x = y1 e1 + y2 e2 + · · · + yn−1 en−1 + yn en mit y1 , y2 , . . . , yn−1 , yn ∈ R, so folgt wegen y1 e1 + y2 e2 + · · · + yn−1 en−1 + yn en = (y1 , y2 , . . . , yn−1 , yn ), dass gilt y1 = x1 , y2 = x2 , ..., yn−1 = xn−1 , yn = xn . Das Skalarprodukt, 1 Durch die skalare Multiplikation werden ein Skalar und ein Vektor mit einander verknüpft; das Ergebnis ist ein Vektor. Durch das Skalarprodukt hingegen werden zwei Vektoren mit einander verknüpft; das Ergebnis ist ein Skalar. Definition. Für x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) ∈ Rn definiert man das Skalarprodukt hx, y i von x und y durch hx, y i := x1 y1 + · · · + xn yn . Das Skalarprodukt, 2 Eigenschaften des Skalarproduktes. Für x = (x1 , . . . , xn ), y = (y1 , . . . , yn ), z = (z1 , . . . , zn ) ∈ Rn und r ∈ R gilt: I hx + z, y i = hx, y i + hz, y i, I hx, y + zi = hx, y i + hx, zi, I hrx, y i = r hx, y i = hx, ry i, I hx, y i = hy , xi, I hx, xi = 0. I Es ist hx, xi = 0 genau dann, wenn x = 0 gilt. Cauchy-Schwarz-Bunjakowskische Ungleichung, 1 Cauchy-Schwarz-Bunjakowskische Ungleichung. Seien x, y ∈ Rn . Dann gilt p p hx + y , x + y i 5 hx, xi + 2 hx, xi hy , y i + hy , y i. Beweis. Für y = 0 ist nichts zu zeigen. Sei also im Folgenden y 6= 0 und daher hy , y i = 6 0. Für jedes λ ∈ R gilt 0 5 hx − λy , x − λy i = hx − λy , xi − λhx − λy , y i = hx, xi − 2λhx, y i + λ2 hy , y i. Cauchy-Schwarz-Bunjakowskische Ungleichung, 2 Wählt man nun speziell λ := hx, y i , hy , y i so ergibt sich hx, y i 2 hx, y i 1 ·hy , y i = hx, xi−hx, y i2 · ·hx, y i+ , 0 5 hx, xi−2 hy , y i hy , y i hy , y i also hx, y i2 5 hx, xi · hy , y i. Damit folgt hx + y , x + y i = 5 hx, xi + 2hx, y i + hy , y i p p hx, xi + 2 hx, xi hy , y i + hy , y i. Lineare Abbildungen, 1 Definition. Eine Abbildung L : Rn → Rm heißt linear, genauer: R-linear, wenn für alle x, y ∈ Rn und alle r ∈ R gilt: L(x + y ) = L(x) + L(y ) und L(rx) = rL(x). Hilfssatz. Sei ` : Rn → R eine lineare Funktion. Dann gibt es ein a = (a1 , . . . , an ) ∈ Rn , so dass für alle x ∈ Rn gilt `(x) = ha, xi. Dieses a ist zudem eindeutig bestimmt. Insbesondere sind die linearen Funktionen ` : R → R genau die Funktionen der Gestalt x 7→ d · x mit d ∈ R beliebig, aber fest. Lineare Abbildungen, 2 Beweis. Bezeichnet e1 , . . . , en die kanonische Basis des Rn , so gilt für jedes x = (x1 , . . . , xn ) ∈ Rn , dass x = x1 e1 + · · · + xn en . Da ` linear ist, folgt daraus `(x) = `(x1 e1 + · · · + xn en ) = `(x1 e1 ) + · · · + `(xn en ) = x1 `(e1 ) + · · · + xn `(en ) = h((x1 , . . . , xn ), `(e1 ), . . . , `(en ))i = h(`(e1 ), . . . , `(en )) , xi. Setzt man a := (`(e1 ), . . . , `(en )) , so gilt also für alle x ∈ Rn , dass `(x) = ha, xi. Lineare Abbildungen, 3 Ist umgekehrt b = (b1 , . . . , bn ) ∈ Rn gegeben mit der Eigenschaft, dass für alle x ∈ Rn gilt `(x) = hb, xi, so gilt für alle ν ∈ {1, . . . , n} speziell `(eν ) = hb, eν i = b1 · 0 + · · · + bν−1 · 0 + bν · 1 + bν+1 · 0 + · · · + bn · 0 = bν , so dass folgt b = (`(e1 ), . . . , `(en )) = a. Abschnitt 7.2 Topologische Grundbegriffe für den Rn Folgen und Reihen von Vektoren und deren Konvergenz, 1 Um für Vektoren aus dem Rn über Konvergenz, . . . zu reden oder für Funktionen f : Rn ⊃ D → R oder gar Abbildungen F : Rn ⊃ D → Rm über Stetigkeit, . . . , definiert man so viel wie eben möglich genau so wie in der bereits behandelten Situation einer Veränderlichen oder führt die Definition auf diese Situation zurück: Definition. Eine Abbildung c : N0 → Rn mit j 7→ c (j) := c(j) für j ∈ N0 nennt man Folge mit Werten im Rn , entsprechend, wenn der Definitionsbereich von c gleich N× ist. Für j ∈ N0 gilt c (j) ∈ Rn ; dieses Folgenglied hat also die Gestalt (j) (j) (j) (j) c (j) = c1 , . . . , cn mit c1 , . . . , cn ∈ R. Folgen und Reihen von Vektoren und deren Konvergenz, 2 Die Folge c (j) j heißt konvergent gegen ein c = (c1 , . . . , cn ) ∈ Rn , wenn für jedes ν ∈ {1, . . . , n} die Folge reeller Zahlen cν(j) j gegen die reelle Zahl cν konvergiert. Wie in der Situation von Folgen reeller Zahlen schreibt man dann c = lim c (j) . j→∞ Folgen und Reihen von Vektoren und deren Konvergenz, 3 Definition. Sei c (j) j eine Folge mit Werten im Rn mit (j) (j) c (j) = c1 , . . . , cn für j ∈ N0 . Zu dieser Folge definiert man die zugehörige Reihe ∞ X c (j) j=0 als Folge der Partialsummen k X c (j) j=0 k mit dem k-te Folgenglied gleich k k X X (j) (j) c1 , . . . , cn . j=0 j=0 Folgen und Reihen von Vektoren und deren Konvergenz, 4 Demgemäß heißt die Reihe ∞ X c (j) j=0 konvergent gegen ein d = (d1 , . . . , dn ) ∈ Rn , wenn für jedes ν ∈ {1, . . . , n} die Reihe reeller Zahlen ∞ X cν(j) j=0 gegen die reelle Zahl dν konvergiert. Wie in der Situation von Reihen reeller Zahlen schreibt man dann d= ∞ X j=0 c (j) . Folgen und Reihen von Vektoren und deren Konvergenz, 5 Rechenregeln. Aufgrund der obigen Definition der Konvergenz für Folgen und Reihen von Elementen des Rn übertragen sich Rechenregeln wie: I Sind (aj )j und (bj )j konvergente Folgen, so ist auch die Folge (aj + bj )j konvergent, und es gilt lim (aj + bj ) = lim aj + lim bj . j→∞ I j→∞ j→∞ ... wörtlich von der Situation von Folgen von reellen Zahlen auf Folgen von Elementen des Rn . Stetigkeit von Funktionen von mehreren Veränderlichen, 1 Dadurch, dass man die Konvergenz von Folgen im Rn bzw. Rm definiert hat, kann man die gesamte in Abschnitt 4.1 für eine reelle Veränderliche entwickelte Theorie der Funktionsgrenzwerte auf die Situation mehrerer Veränderlicher übertragen, insbesondere den Begriff der Stetigkeit: Definition. Sei D ⊂ Rn und F : D → Rm eine Abbildung. Dann heißt F stetig im Punkt c ∈ D, wenn für jede Folge c (j) j von Elementen des Rn mit lim c (j) = c ∈ Rn j→∞ gilt lim F c (j) = F (c) ∈ Rm . j→∞ Die Abbildung F heißt stetig auf D, wenn sie in jedem c ∈ D stetig ist. Stetigkeit von Funktionen von mehreren Veränderlichen, 2 Aufgrund der Definition der Konvergenz von Folgen von Elementen des Rm ergibt sich folgender Hilfssatz. Sei D ⊂ Rn und F : D → Rm eine Abbildung. Man schreibe F in der Gestalt F (x) = (f1 (x), . . . , fm (x)) für x ∈ Rn mit Funktionen fµ : D → R für µ ∈ {1, . . . , m}. Dann ist F genau dann stetig im Punkt c ∈ D, wenn jede der Funktionen fµ mit µ ∈ {1, . . . , m} stetig in c ist. Stetigkeit von Funktionen von mehreren Veränderlichen, 3 Aus diesem Hilfssatz und dem Hilfssatz aus Abschnitt 7.1 ergibt sich folgendes Beispiel. Jede lineare Abbildung vom Rn zum Rm ist stetig auf ganz Rn . Warnung! Die Zurückführung auf den Fall einer reellen Veränderlichen funktioniert so einfach nur für die Werte der Funktion, nicht für deren Argumente: Man definiere die Funktion f : R2 → R durch x1 x2 falls (x1 , x2 ) 6= (0, 0) ist, 2 2 x + x 1 2 f (x1 , x2 ) := 0 falls (x1 , x2 ) = (0, 0) ist. Stetigkeit von Funktionen von mehreren Veränderlichen, 4 Beschränkt dann auf solche Folgen man sich (j) (j) (j) 6= (0, 0), die sich (0, 0) nur entlang der c j = c1 , c2 j (j) x1 -Achse nähern, für die also stets c2 = 0 ist, so gilt (j) c ·0 f c (j) = 12 = 0, (j) c1 + 02 also auch lim f c j→∞ (j) = 0 = f (0, 0). Entsprechendes gilt für Folgen, die sich (0, 0) nur entlang der x2 -Achse nähern. Stetigkeit von Funktionen von mehreren Veränderlichen, 5 Hingegen gilt zwar lim j→∞ 1 1 j+1 , j+1 aber f 1 1 j+1 , j+1 = 1 j+1 = (0, 0), 1 j+1 2 · + 1 j+1 1 j+1 2 = 1 2 für alle j ∈ N0 und daher lim f j→∞ 1 1 j+1 , j+1 = 1 6= 0 = f (0, 0). 2 Somit ist f doch nicht stetig in (0, 0) (wohl aber auf dem ganzen R2 − {(0, 0)}). Verallgemeinerung des Absolutbetrags, 1 Bei der Definition der Konvergenz von Folgen bzw. Reihen reeller Zahlen wird der Absolutbetrag |.| verwendet, um durch |cj − c| den Abstand von Folgenglied cj und (möglichem) Grenzwert c auszudrücken. Ebenso – und sogar doppelt – wird der Absolutbetrag beim ε-δ-Kriterium für die Stetigkeit verwendet. Angesichts der Definition der Konvergenz von Folgen von Elementen des Rn kann man auf die Idee kommen, den Absolutbetrag zu verallgemeinern zu k(x1 , . . . , xn )k∞ := max {|x1 |, . . . , |xn |} für (x1 , . . . , xn ) ∈ Rn . Verallgemeinerung des Absolutbetrags, 2 Eine weitere offensichtliche Möglichkeit ist, den von der Zeichenebene her bekannten üblichen (euklidischen) Abstand q k(x1 , . . . , xn )k2 := x12 + · · · + xn2 zu verwenden, der zudem mit dem Skalarprodukt zusammenhängt vermittels k(x1 , . . . , xn )k2 = h(x1 , . . . , xn ), (x1 , . . . , xn )i bzw. kxk2 = hx, xi. Gewissermaßen ein Kompromiss zwischen diesen beiden ist es, k(x1 , . . . , xn )k1 := |x1 | + · · · + |xn | zu setzen. Der Begriff der Norm, 1 In Übertragung der Eigenschaften des Absolutbetrags gibt man folgende Definition. Eine Abbildung k.k : Rn → R heißt Norm auf dem Rn , falls gilt: 1. Für alle x ∈ Rn gilt kxk = 0. Es gilt kxk = 0 genau dann, wenn x = 0 ist. 2. Für alle x, y ∈ Rn gilt kx + y k 5 kxk + ky k. (Dreiecksungleichung) 3. Für alle x ∈ Rn und alle r ∈ R gilt krxk = |r | kxk. Der Begriff der Norm, 2 Die Eigenschaften 1. und 2. sind wörtlich so vom Absolutbetrag übernommen; bei Eigenschaft 3. hat man die Produktregel auf die skalare Multiplikation übertragen, da im Allgemeinen kein sinnvolles Produkt von Vektoren zu definieren ist. Der Name „Dreiecksungleichung“ wird jetzt verständlich: Die Seite von 0 nach x + y des von 0, x und x + y gebildeten Dreiecks ist höchstens so lang wie die Summe der Längen der beiden anderen Seiten (von 0 nach x bzw. x nach x + y ). Beispiele für Normen, 1 Alle drei genannten Beispiele sind Normen im Sinne dieser Definition: Für k.k∞ und k.k1 sieht man dies sofort oder rechnet es einfach nach. Für k.k2 folgt dies aus den in Abschnitt 7.1 bewiesenen Eigenschaften des Skalarproduktes, insbesondere die Dreiecksungleichung 2. aus der Cauchy-Schwarz-Bunjiakowskischen Ungleichung p p hx + y , x + y i 5 hx, xi + 2 hx, xi hy , y i + hy , y i für x, y ∈ Rn beliebig, also kx + y k22 5 kxk22 + 2kxk2 ky k2 + ky k22 = (kxk2 + ky k2 )2 . Beispiele für Normen, 2 Im Konkreten unterscheiden sich die Normen aber erheblich: Betrachtet man nur die Situation im R2 , so liefern zwar alle drei Normen für die Punkte (1, 0), (−1, 0), (0, 1) und (0, −1) den Wert 1. Die Menge aller Punkte x ∈ R2 mit der Norm 1 ist aber I für k.k∞ der Rand des achsenparallelen Quadrats, welches die vier genannten Punkte als Seitenmittelpunkte hat, I für k.k2 die Kreislinie um 0 mit Radius 1 und I für k.k1 der Rand eines Quadrates mit den vier genannten Punkten als Ecken. Weiterhin gilt für (1, 1, . . . , 1, 1) ∈ Rn , dass: I k(1, 1, . . . , 1, 1)k∞ = 1, √ k(1, 1, . . . , 1, 1)k2 = n und I k(1, 1, . . . , 1, 1)k1 = n. I Beispiele für Normen, 3 Dabei handelt es sich aber sozusagen um den „schlimmstmöglichen Fall“: Lemma 1. Für alle x ∈ Rn gilt kxk∞ 5 kxk2 5 kxk1 5 n · kxk∞ . Beweis. Sei x = (x1 , . . . , xn ) ∈ Rn beliebig. Man setze M := max {|x1 |, . . . , |xn |} . Dann gilt kxk∞ = kxk2 = = kxk1 = 5 M, q x12 + · · · + xn2 p 0 + · · · + 0 + M 2 + 0 + · · · + 0 = M = kxk∞ , |x1 | + · · · + |xn | M + · · · + M = n · M = n · kxk∞ Beispiele für Normen, 4 und kxk21 = = (|x1 | + · · · + |xn |) · (|x1 | + · · · + |xn |) |x1 |2 + · · · + |xn |2 = kxk22 Konsequenz. Will man Grenzprozesse für mehrere Veränderliche definieren, sind alle drei Normen (in Wirklichkeit sogar: alle möglichen Normen auf dem Rn im Sinne der obigen Definition) gleich gut geeignet als Verallgemeinerung des Betrages aus der Situation einer Veränderlichen. Daher kann im Folgenden häufig k.k statt k.k∞ bzw. k.k2 bzw. k.k1 geschrieben werden. Topologische Grundbegriffe für den Rn , 1 Insbesondere gilt: Lemma 2. Eine Folge c (j) j von Elementen c (j) ∈ Rn ist konvergent gegen c ∈ Rn , wenn es zu jedem ε > 0 ein k = k(ε) ∈ N0 gibt, so dass für alle j = k gilt kc (j) − ck < ε. Diese Aussage ist dabei unabhängig von der Wahl der Norm. Lemma 3. Sei F : D → Rm eine Abbildung mit D ⊂ Rn . Dann ist f genau stetig in c ∈ D, wenn es zu jedem ε > 0 ein δ > 0 gibt, so dass für alle x ∈ D mit kx − ck < δ gilt kf (x) − f (c)k < ε. Diese Aussage ist dabei unabhängig von der Wahl der Norm. Topologische Grundbegriffe für den Rn , 2 Definition. Für c ∈ Rn und r > 0 heißt Ur (c) := {x ∈ Rn : kx − ck < r } die offene r -Umgebung von c bezüglich der Norm k.k. Diese Definition hängt von der Wahl der Norm k.k ab. Definition. Eine Teilmenge D des Rn heißt offen, wenn es zu jedem c ∈ D ein r = r (c) > 0 gibt mit Ur (c) ⊂ D. Diese Definition wiederum ist von der Wahl der Norm k.k unabhängig. Abschnitt 7.3 Partielle Differenzierbarkeit Partielle Differenzierbarkeit von Funktionen, 1 Bei der „partiellen Differenzierbarkeit“ handelt es sich um den ersten von zwei Ansätzen, wie man Differenzierbarkeit für mehrere Veränderliche definieren kann: Man betrachte zunächst Funktionen f : D → R, x = (x1 , . . . , xn ) 7→ f (x) = f (x1 , . . . , xn ) mit D ⊂ Rn offen. Die Idee bei der partiellen Differentiation ist, immer nur eine der Komponenten von x = (x1 , . . . , xn ) zu variieren und die anderen fest zu lassen: Definition. Sei D ⊂ Rn offen und f : D → R eine Funktion. Es sei c = (c1 , . . . , cn ) ∈ D und ν ∈ {1, . . . , n}. Partielle Differenzierbarkeit von Funktionen, 2 Dann heißt f partiell differenzierbar nach xν in c, wenn die Funktion t 7→ f (c1 , . . . , cν−1 , t, cν+1 , . . . , cn ) der einen reellen Veränderlichen t differenzierbar in cν ist. Im Falle der Existenz nennt man den Wert der Ableitung der genannten Funktion die partielle Ableitung von f nach xν an der Stelle c und bezeichnet ihn mit dem Symbol ∂f (c). ∂xν Partielle Differenzierbarkeit von Funktionen, 3 Falls die Funktion f an der Stelle c nach jedem xν , ν = 1, . . . , n partiell differenzierbar ist, nennt man sie (ohne Zusatz) partiell differenzierbar an der Stelle c. In dieser Situation fasst man die partiellen Ableitungen von f nach den n Veränderlichen zu einem Zeilenvektor zusammen ∂f ∂f (c), . . . , (c) ; ∂x1 ∂xn diesen bezeichnet man als den Gradienten von f an der Stelle c, Symbol: grad f (c). Bisweilen wird stattdessen auch ∇f (c) geschrieben (wobei das Symbol „∇“ als „Nabla“ gesprochen wird). Aufgrund der Definition ist unmittelbar klar, dass Summe, Differenz und skalare Vielfache partiell differenzierbarer Funktionen wieder partiell differenzierbar sind und dass sich die Werte der partiellen Ableitungen entsprechend aus denen der partiellen Ableitungen der Ausgangsfunktionen berechnen lassen. Beispiele, 1 Beispiel 1. Man betrachte b : Rn → R, x 7→ kxk2 . Sei ν ∈ {1, . . . , n} beliebig, im Folgenden aber fest. Um b auf partielle Differenzierbarkeit nach xν in einem Punkt c = (c1 , . . . , cn ) zu untersuchen, muss man definitionsgemäß überprüfen, ob die Funktion t 7→ = k(c1 , . . . , cν−1 , t, cν+1 , . . . , cn )k2 q 2 2 c12 + · · · + cν−1 + t 2 + cν+1 + · · · cn2 an der Stelle cν differenzierbar ist. Falls es (mindestens) ein µ ∈ {1, . . . , n} gibt mit µ 6= ν und cµ 6= 0, ist 2 2 + cν+1 + · · · cn2 6= 0 C := c12 + · · · + cν−1 Beispiele, 2 und daher nach den bekannten Regeln für das Differenzieren von Funktionen einer reellen Veränderlichen die Funktion q 2 2 c12 + · · · + cν−1 + t 2 + cν+1 + · · · cn2 t 7→ p 1 = t2 + C = t2 + C 2 differenzierbar auf ganz R mit der Ableitung − 1 t 1 , · t 2 + C 2 · 2t = √ 2 2 t +C deren Wert an der Stelle cν gleich c cν cν p ν = =q 2 kck2 2 2 cν + C + cν2 + cν+1 + · · · cn2 c12 + · · · + cν−1 ist. Beispiele, 3 Falls hingegen cµ = 0 für alle µ ∈ {1, . . . , n} mit µ 6= ν ist, gilt q √ 2 2 c12 + · · · + cν−1 + t 2 + cν+1 + · · · cn2 = t 2 = |t| für alle t ∈ R. Dann ist die Funktion q 2 2 t 7→ c12 + · · · + cν−1 + t 2 + cν+1 + · · · cn2 nicht differenzierbar an der Stelle cν = 0, aber differenzierbar an jeder Stelle cν 6= 0 mit der Ableitung t √ , t2 welche an der Stelle cν den Wert hat cν cν c pν = q = . 2 kck2 2 2 cν c12 + · · · + cν−1 + cν2 + cν+1 + · · · cn2 Beispiele, 4 Somit ist B im Punkt (0, . . . , 0) ∈ Rn nicht nach xν partiell differenzierbar, aber in allen Punkten c = (c1 , . . . , cn ) 6= (0, . . . , 0), wobei gilt cν ∂f (c) = . xν kck2 Für c ∈ Rn mit c 6= (0, . . . , 0) gilt daher gradb(c) = c . kck2 Beispiele, 5 Beispiel 2. Man betrachte die schon in Abschnitt 7.2 untersuchte Funktion x1 x2 x1 x2 = falls (x1 , x2 ) 6= (0, 0) ist, 2 2 x1 + x2 k(x1 , x2 )k22 f (x1 , x2 ) := 0 falls (x1 , x2 ) = (0, 0) ist. Diese ist zwar auf ganz R2 − {(0, 0)} stetig, aber in (0, 0) nicht stetig. Aufgrund von Beispiel 1, der Produktregel und der Quotientenregel für differenzierbare Funktionen einer Veränderlichen ist f dann partiell differenzierbar auf R2 − {(0, 0)}. Beispiele, 6 Diese Funktion ist aber sogar in (0, 0) partiell differenzierbar: Dazu muss man die Funktionen t 7→ f (t, 0) und t 7→ f (0, t) jeweils auf Differenzierbarkeit an der Stelle t = 0 untersuchen. Für t 6= 0 gilt aber f (t, 0) = t ·0 =0 + 02 t2 und f (t, 0) = t ·0 = 0; + 02 t2 ebenso ist f (0, 0) = 0. Somit sind beide Funktionen t 7→ f (t, 0) und t 7→ f (0, t) an der Stelle t = 0 differenzierbar, so dass f auch in (0, 0) partiell differenzierbar ist. Insgesamt ist die Funktion f also auf ganz R2 partiell differenzierbar – auch wenn sie in (0, 0) nicht stetig ist!!! Richtungsableitungen, 1 Bezeichnet eν den ν-ten kanonischen Einheitsvektor im Rn für ν ∈ {1, . . . , n}, so gilt nach der Definition der partiellen Ableitung einer Funktion f an einer Stelle c = (c1 , . . . , cn ), an der diese nach xν partiell differenzierbar ist: d ∂f f (c1 , . . . , cν−1 , t, cν+1 , . . . , cn )(cν ) (c) = dt ∂xi = = = lim t→cν t6=cν f (c1 ,...,cν−1 ,t,cν+1 ,...,cn )−f (c1 ,...,cν−1 ,cν ,cν+1 ,...,cn ) t−cν lim f (c1 ,...,cν−1 ,cν +h,cν+1 ,...,cn )−f (c1 ,...,cν−1 ,cν ,cν+1 ,...,cn ) h lim f (c + h · eν ) − f (c) . h h→0 h6=0 h→0 h6=0 Richtungsableitungen, 2 Allgemeiner kann man für jedes e ∈ Rn mit e 6= (0, . . . , 0) die Ableitung in Richtung e an der Stelle c definieren durch lim h→0 h6=0 ∂f f (c + h · e) − f (c) =: (c). h ∂e Stetige partielle Differenzierbarkeit von Funktionen Definition. Sei D ⊂ Rn offen, c ∈ D und f : D → R eine Funktion. Dann heißt die Funktion f stetig partiell differenzierbar in c, wenn es eine offene Menge U ⊂ D mit c ∈ U gibt, so dass f in jedem Punkt von U partiell differenzierbar ist und die partiellen Ableitungen ∂f ∂f (c), . . . , (c) ∂x1 ∂xn stetig in c sind. Die Funktion f heißt (stetig) partiell differenzierbar auf D, wenn sie in jedem Punkt c ∈ D diese Eigenschaft besitzt. Höhere Ableitungen von Funktionen Entsprechend werden die höheren partiellen Ableitungen ∂2f ∂ ∂f (c) := (c), ∂xµ ∂xν ∂xµ ∂xν ... definiert. Satz. (H. A. Schwarz) Sei D ⊂ Rn offen und f : D → R zweimal stetig partiell differenzierbar in c ∈ D. Dann gilt ∂2f ∂2f (c) = (c) ∂xµ ∂xν ∂xν ∂xµ für alle µ, ν ∈ {1, . . . , n}. Einen Beweis findet man in Otto Forster: Analysis 2, Kapitel 1, § 5, Satz 1. Er wird hier ausgelassen, obwohl die Aussage des Satzes von H. A. Scnwarz bei der Diskussion der lokalen Extrema von Funktionen von mehreren Veränderlichen benötigt wird. Übertragung der partiellen Differenzierbarkeit von Funktionen auf Abbildungen Sei D ⊂ Rn offen, jetzt aber F : D → Rm eine Abbildung der Form x 7→ F (x) = (f1 (x), . . . , fm (x)) mit Funktionen fµ : D → R, µ = 1, . . . , m, der n Veränderlichen x1 , . . . , xn . Man überträgt die eben eingeführten Begriffe auf die Situation eines solchen F , indem man sie für jede der Funktionen fµ verlangt, j = 1, . . . , m. So heißt F partiell differenzierbar in c ∈ D, wenn diese Eigenschaft auf jede der Funktionen fµ zutrifft, µ = 1, . . . , m. Abschnitt 7.4 Totale Differenzierbarkeit Totale Differenzierbarkeit von Funktionen, 1 Partielle Ableitungen haben den Vorteil, dass man sie mit Hilfe der Methoden berechnen kann, die man aus der Analysis einer reellen Veränderlichen her kennt. Allerdings ist es von Nachteil, dass der Begriff der partiellen Differenzierbarkeit so schwach ist, dass aus ihm nicht die Stetigkeit folgt. Daher ist noch ein weiterer Differenzierbarkeitsbegriff entwickelt worden, der der „totalen Differenzierbarkeit“. Dieser lässt sich interpretieren als eine Verallgemeinerung der äquivalenten Charakterisierung der Differenzierbarkeit in einer reellen Veränderlichen in Abschnitt 5.1 (aus welcher ja in dieser Situation die Stetigkeit differenzierbarer Funktionen folgt): Totale Differenzierbarkeit von Funktionen, 2 Eine Funktion f : ]a, b[→ R einer reellen Veränderlichen x ist genau dann differenzierbar in c ∈]a, b[, wenn es eine reelle Zahl d und eine Funktion ϕ : ]a, b[→ R gibt mit f (x) = f (c) + d · (x − c) + (x − c) · ϕ(x) für alle x ∈]a, b[ und lim ϕ(x) = 0. x→c In dieser Situation gilt f 0 (c) = d . Beide in der ersten Formel auftretenden Multiplikationspunkte „·“ machen Schwierigkeiten, falls x nicht mehr eine reelle Zahl, sondern ein Vektor aus dem Rn ist. Totale Differenzierbarkeit von Funktionen, 3 Dabei ist es noch am einfachsten, den Ausdruck (x − c) · ϕ(x) zu übertragen, da man bereits im Eindimensionalen stattdessen schreiben kann |x − c| · ψ(x) mit ψ(x) := x −c · ϕ(x) |x − c| für x ∈]a, b[ mit x 6= c. Ist also D ⊂ Rn offen, f : D → R eine Funktion und c ∈ D ⊂ Rn , so wird man verlangen, dass der Restterm die Gestalt kx − ck · Ψ(x) hat, wobei Ψ : D → R eine Funktion ist mit lim Ψ(x) = 0. x→c (Hierbei kann man für k.k jede beliebige Norm auf dem Rn wählen.) Totale Differenzierbarkeit von Funktionen, 4 Um jedoch den Ausdruck d · (x − c) in die Situation mehrerer Veränderlichen zu übertragen, muss man am besten auf den Hilfssatz in Abschnitt 7.1 zurückgreifen, der die linearen Funktionen ` : Rn → R charakterisiert: Die Funktionen h →d ·h mit d ∈ R fest sind genau die linearen Funktionen von R nach R. Soll das Argument h = x − c jetzt aus dem Rn stammen, so verlange man stattdessen, dass eine lineare Abbildung ` von Rn nach R vorliegt. Diese wird aber aufgrund des Hilfssatzes aus Abschnitt 7.1 dadurch gegeben, dass es einen festen Vektor a ∈ Rn gibt, so dass für alle h ∈ Rn gilt `(h) = ha, hi. Totale Differenzierbarkeit von Funktionen, 5 Definition. Sei f : D → R eine Funktion mit D ⊂ Rn offen und c ∈ D. Dann heißt f total differenzierbar in c, wenn es ein a ∈ Rn und eine Funktion ψ : D → R gibt mit f (x) = f (c) + ha, x − ci + kx − ck · ψ(x) für alle x ∈ D und lim ψ(x) = 0. x→c (Hierbei kann man für k.k jede beliebige Norm auf dem Rn wählen.) Totale Differenzierbarkeit von Funktionen, 6 Aus der Vorüberlegung, die zu der obigen Definition geführt hat, ergibt sich folgende Umformulierung dieser, die zwar abstrakter, aber gerade deshalb manchmal sehr hilfreich ist: Bemerkung 1. Sei f : D → R eine Funktion mit D ⊂ Rn offen und c ∈ D. Dann ist f total differenzierbar in c, wenn es eine lineare Abbildung ` : Rn → R und eine Funktion ψ : D → R gibt mit f (x) = f (c) + `(x − c) + kx − ck · ψ(x) für alle x ∈ D und lim ψ(x) = 0. x→c (Hierbei kann man für k.k jede beliebige Norm auf dem Rn wählen.) Totale Differenzierbarkeit von Funktionen, 7 Bemerkung 2. Ist die Funktion f total differenzierbar in c, so ist sie dort auch stetig. Dies sieht man genau so ein wie in Abschnitt 5.1 im Falle einer Veränderlichen. Totale Differenzierbarkeit von Funktionen, 8 Satz. Sei f : D → R mit D ⊂ Rn offen und c ∈ D. Dann folgt aus der Aussage a) f ist in c stetig partiell differenzierbar. die Aussage b) f ist in c total differenzierbar. und hieraus wiederum die Aussage c) f ist in c partiell differenzierbar. Im Falle der totalen Differenzierbarkeit gilt für den Vektor a ∈ Rn in der Definition, dass a = gradf (c). Totale Differenzierbarkeit von Funktionen, 9 Einen Beweis von „a) ⇒ b)“ findet man in Otto Forster: Analysis 2, Kapitel 1, § 6, Satz 2; er basiert auf der Anwendung des Mittelwertsatzes der Differentialrechnung für eine reelle Veränderliche. Beweis von „b) ⇒ c)“ und des Zusatzes. Da f in c total differenzierbar ist, gibt es ein a = (a1 , . . . , an ) ∈ Rn und eine Funktion ψ : D → R mit f (x) = f (c) + ha, x − ci + kx − ck · ψ(x) und lim ψ(x) = 0. x→c für alle x ∈ D Totale Differenzierbarkeit von Funktionen, 10 Sei ν ∈ {1, . . . , n} beliebig, im Folgenden aber fest. Dann gibt es ein r > 0, so dass für alle t ∈ R mit |t| < r gilt x(t) := c + teν ∈ D. Somit gilt f (x(t)) − f (c) t = = = 1 (ha, c + teν − ci + kc + teν − ck · ψ (c + teν )) t 1 (tha, eν i + |t|keν k · ψ (c + teν )) t aν + |t| t · ψ (c + teν ) für alle t ∈ R mit 0 < |t| < r . Totale Differenzierbarkeit von Funktionen, 11 Wegen lim x(t) = c und lim ψ(x) = 0 folgt daraus, dass t→0 x→c lim t→0 t6=0 f (x(t)) − f (c) t existiert, also ∂f (c) ∂xν und gleich aν ist. Da ν ∈ {1, . . . , n} beliebig war, ist damit sowohl c) als auch der Zusatz bewiesen. Totale Differenzierbarkeit von Funktionen, 12 Bemerkung 3. Aufgrund des Satzes sind die Begriffe „stetig partiell differenzierbar“ und „stetig total differenzierbar“ äquivalent. Definition. Man spricht daher zumeist einfach von stetig differenzierbaren Funktionen und setzt für D ⊂ Rn offen C k (D) := {D → R : f ist k-mal stetig differenzierbar.} für k ∈ N0 . Totale Differenzierbarkeit von Abbildungen, 1 Sei wieder D ⊂ Rn offen, jetzt aber F : D → Rm eine Abbildung der Form x 7→ F (x) = (f1 (x), . . . , fm (x)) mit Funktionen fµ : D → R, µ = 1, . . . , m, der n Veränderlichen x1 , . . . , xn . Wie bei der partiellen Differenzierbarkeit überträgt man die eben eingeführten Begriffe auf die Situation eines solchen F , indem man sie für jede der Funktionen fµ verlangt, µ = 1, . . . , m. So heißt F total differenzierbar in c ∈ D, wenn diese Eigenschaft auf jede der Funktionen fµ zutrifft, µ = 1, . . . , m. Totale Differenzierbarkeit von Abbildungen, 2 Wegen Bemerkung 1 kann man diese Definition wie folgt umformulieren: Bemerkung 4. Sei F : D → Rm eine Abbildung mit D ⊂ Rn offen und c ∈ D. Dann ist F total differenzierbar in c, wenn es eine lineare Abbildung L : Rn → Rm und eine Funktion Ψ : D → Rm gibt mit F (x) = F (c) + L(x − c) + kx − ck · Ψ(x) für alle x ∈ D und lim Ψ(x) = 0 ∈ Rm . x→c (Hierbei kann man für k.k jede beliebige Norm auf dem Rn wählen.) Totale Differenzierbarkeit von Abbildungen, 3 Die lineare Abbildung L in der obigen Definition erscheint recht abstrakt. In der Veranstaltung „Lineare Algebra“ erfährt man, wie sich derartige Abbildungen generell konkreter beschreiben lassen mittels Matrizen.In der hier vorliegenden Situation kann man dies direkt einsehen: Sei F = (f1 , . . . , fm ) : D → Rn eine in c ∈ D total differenzierbare Abbildung, wobei D ⊂ Rn offen ist. Für µ ∈ {1, . . . , m} beliebig gibt es dann nach Definition bzw. Bemerkung 1 eine lineare Abbildung `µ : Rn → R bzw. einen Vektor a(µ) ∈ Rn und eine Funktion ψµ : D → R mit fµ (x) = = f (c) + `µ (x − c) + kx − ck · ψµ (x) f (c) + ha(µ) , x − ci + kx − ck · ψµ (x) für alle x ∈ D und lim ψµ (x) = 0. x→c Totale Differenzierbarkeit von Abbildungen, 4 In den Bezeichunungen von Bemerkung 4 ist dabei L = (`1 , . . . , `m ) und Ψ = (ψ1 , . . . , ψm ). Weiterhin gilt aufgrund des Satzes ∂fµ ∂fµ (µ) (c), . . . , (c) . a = gradfµ (c) = ∂x1 ∂xn Somit ergibt sich für y ∈ D beliebig: L(y ) = = (`1 (y ), . . . , `m (y )) ha(1) , y i, . . . , ha(m) , y i = (hgradf1 (c), y i, . . . , hgradfm (c), y i) . Totale Differenzierbarkeit von Abbildungen, 5 Daher kann man L(y ) für y ∈ D beliebig berechnen, wenn man nur sämtliche Gradienten gradf1 (c), . . . , gradfm (c) kennt, also sämtliche partiellen Ableitungen ∂fµ (c) ∂xν für µ ∈ {1, . . . , m}, ν ∈ {1, . . . , n}. Diese fasst man zu einer Matrix zusammen, also einem rechteckigen Schema ∂f1 ∂f1 ∂x1 (c) . . . ∂xn (c) ∂fµ .. .. . (c) =: . . 15µ5m ∂xν ∂fm ∂fm 15ν5n ∂x1 (c) . . . ∂xn (c) Die Gradienten der einzelnen Komponenten fµ von F werden also zeilenweise übereinander gestapelt. Totale Differenzierbarkeit von Abbildungen, 6 Definition. Diese Matrix heißt die Jacobi-Matrix oder auch Funktionalmatrix von F in c, Formelsymbol: F 0 (c). Bemerkung 5. In der „Linearen Algebra“ wird definiert, wie man zwei Matrizen, welche das passende Format haben, mit einander multiplizieren kann. Dies kann man dazu nutzen, um den Ausdruck L(x − c) für x ∈ D explizit zu berechnen: I Man macht aus dem Zeilenvektor x − c der Länge n durch Transponieren einen Spaltenvektor (x − c)τ der Höhe n. I Man bildet das Produkt F 0 (c) · (x − c)τ und erhält so einen Spaltenvektor der Höhe m. I Aus diesem macht man durch Transponieren einen Zeilenvektor τ F 0 (c) · (x − c)τ = (x − c) · F 0 (c)τ der Länge m. Die Kettenregel Kettenregel für differenzierbare Abbildungen. Seien D ⊂ Rn und U ⊂ Rm offen, F : D → Rm in c ∈ D differenzierbar, F (D) ⊂ U und G : U → Rk in F (c) differenzierbar. Dann ist G ◦ F in c differenzierbar, und es gilt (G ◦ F )0 (c) = G 0 F (c) · F 0 (c), wobei · das Matrizenprodukt bezeichnet. Der Beweis erfolgt fast wörtlich wie in Abschnitt 5.2 für die Situation einer reellen Veränderlichen. Die zweite Ableitung einer Funktion, 1 Sei D ⊂ Rn offen und f : D → R eine auf ganz D partiell differenzierbare Funktion. Dann kann man die Abbildung ∂f ∂f (c), . . . , (c) ∈ Rn f 0 : D → Rn , c 7→ f 0 (c) = gradf (c) = ∂x1 ∂xn betrachten. Falls diese Abbildung in c partiell differenzierbar ist, erhält man den Wert von deren Ableitung, also die zweite Ableitung von f in c, als die Jacobi-Matrix ∂fµ (c) 15µ5n ∂xν 15ν5n mit fµ = ∂f ∂xµ und daher als Matrix ∂ ∂f (c) ∂xν ∂xµ = 15µ,ν5n ∂2f (c) . ∂xν ∂xµ 15µ,ν5n Die zweite Ableitung einer Funktion, 2 Definition. Sei D ⊂ Rn offen, c ∈ D und f : D → R eine in c zweimal partiell differenzierbare Funktion. Dann heißt die Matrix Hf (c) := ∂2f (c) ∂xν ∂xµ 15µ,ν5n die Hesse-Matrix von f in c. Bemerkung 6. Falls f sogar zweimal stetig (partiell) differenzierbar ist, so ist die Hesse-Matrix symmetrisch aufgrund des Satzes von H. A. Schwarz: Hf (c) = Hf (c)τ . Abschnitt 7.5 Taylor-Entwicklung der Ordnung 1 Taylor-Entwicklung der Ordnung 1, 1 Satz (Taylor-Entwicklung der Ordnung 1). Sei D ⊂ Rn offen und f : D → R eine 2-mal stetig differenzierbare Funktion. Es seien c, x ∈ D derart, dass auch die Verbindungsstrecke L := {(1 − t)c + tx : t ∈ [0, 1]} in D liegt. Dann gibt es ein y ∈ L, so dass gilt f (x) = f (c) + hgradf (c), x − ci + 21 (x − c)Hf (y )(x − c)τ . Taylor-Entwicklung der Ordnung 1, 2 Beweis. Für t ∈ [0, 1] setze man y (t) := (1 − t)c + tx ∈ L und definiere g : [0, 1] → R durch g (t) := f (y (t)) . Als Hintereinanderausführung differenzierbarer Abbildungen ist g dann aufgrund der Kettenregel wiederum differenzierbar, und für alle t ∈ [0, 1] gilt g 0 (t) = = f 0 (y (t)) · y 0 (t) = hgradf (y (t)) , y 0 (t)i hgradf (y (t)) , x − ci = gradf (y (t)) · (x − c)τ . Da f zweimal stetig differenzierbar ist, also gradf einmal stetig differenzierbar, liest man aus der letzten Formelzeile mittels der Kettenregel auch ab, dass g 0 (t) einmal stetig differenzierbar, g selbst also zweimal stetig differenzierbar ist. Taylor-Entwicklung der Ordnung 1, 3 Für t ∈ [0, 1] beliebig errechnet man aufgrund des weiter oben Gezeigten und der Kettenregel = d d hgradf (y (t)) , x − ci = h gradf (y (t)) , x − ci dt dt hHf (y (t)) · (x − c)τ , x − ci = (x − c)Hf (y (t)) (x − c)τ . g 00 (t) = Aufgrund des Satzes für die Taylor-Entwicklung der Ordnung 1 für eine Veränderliche aus Abschnitt 5.4 gibt es nun ein δ ∈ [0, 1] mit f (x) = g (1) = g (0) + g 0 (0) · 1 + 12 g 00 (δ) · 12 = g (c) + hgradf (y (0)) , x − ci + 12 (x − c)Hf (y (δ)) (x − c)τ = g (c) + hgradf (c), x − ci + 12 (x − c)Hf (y (δ)) (x − c)τ . Setzt man y := y (δ), so hat man damit die Behauptung bewiesen. Taylor-Entwicklung der Ordnung 1, 4 Korollar. Sei D ⊂ Rn offen und f : D → R eine 2-mal stetig differenzierbare Funktion und c ∈ D. Dann gibt es eine Funktion R : D → R mit lim R(x) = 0 und x→c f (x) = f (c) + hgradf (c), x − ci + 12 (x − c)Hf (c)(x − c)τ + ||x − c||2 · R(x). Beweis. Man setze R(c) := 0 und 1 R(x) := f (x) − f (c) + hgradf (c), x − ci ||x − c||2 + 12 (x − c)Hf (c)(x − c)τ für x ∈ D − {c}. Aufgrund des obigen Satzes über die Taylor-Entwicklung der Ordnung 1 und aufgrund der Stetigkeit der zweiten Ableitung von f , also von Hf (y ), folgt dann die Behauptung. Abschnitt 7.6 Lokale Extrema für mehrere reelle Veränderliche Definitionen Sei D ⊂ Rn , f : D → R und c ∈ D. Dann heißt c ein lokales (auch: relatives) Maximum bzw. Minimum von f , wenn es ein r > 0 gibt, so dass für alle x ∈ D mit kx − ck < r gilt f (x) 5 f (c) bzw. f (x) = f (c). Das lokale Maximum bzw. Minimum c heißt isoliert, wenn für alle x ∈ D mit kx − ck < r und x 6= c sogar gilt f (x) < f (c) bzw. f (x) > f (c). Die Stelle c heißt ein lokales Extremum von f , wenn sie ein lokales Maximum oder ein lokales Minimum von f ist. Die Stelle c heißt stationärer Punkt von f , wenn f in c partiell differenzierbar ist und gilt gradf (c) = 0. Notwendige Bedingungen für ein lokales Extremum, 1 Notwendige Bedingung für ein lokales Extremum. Sei D ⊂ Rn offen, f : D → Rn partiell differenzierbar und c ∈ D ein lokales Extremum von f . Dann gilt gradf (c) = 0, d. h., jedes lokale Extremum von f ist ein stationärer Punkt von f . Beweis. Falls c ein lokales Extremum von f ist, ist es auch ein lokales Extremum von f |G , wenn G eine Gerade ist, die durch c verläuft (genauer: die Teilstrecke von G innerhalb von D). Solch eine Gerade wird gegeben durch eine Abbildung des Typs R → Rn , mit v ∈ Rn − {0}. t 7→ c + t · v Notwendige Bedingungen für ein lokales Extremum, 2 Insbesondere ist c ein lokales Extremum von f |Gν , ν = 1, . . . , n, wenn Gν die Parallele zur ν-ten Koordinatenachse bezeichnet, die durch c verläuft. Diese erhält man, indem man v gleich dem ν-ten Einheitsvektor eν setzt. Wendet man auf die Funktion R ⊃ I → R, t 7→ f (c + t · eν ) (mit I ein geeignet kleines offenes Intervall mit 0 ∈ I ) die notwendige Bedingung für lokale Extrema für eine Veränderliche an, so erhält man d ∂f 0= f (c + t · eν ) (0) = (c) dt ∂xν für ν = 1, . . . , n. Insgesamt folgt damit gradf (c) = 0. Notwendige Bedingungen für ein lokales Extremum, 3 Notwendige Bedingung für ein lokales Extremum an die Hesse-Matrix. Sei D ⊂ Rn offen, f : D → Rn zweimal stetig differenzierbar und c ∈ D ein lokales Extremum von f . Es bezeichne Hf (c) die Hesse-Matrix von f an der Stelle c. Dann gilt gradf (c) = 0 und I vHf (c)v τ 5 0 für jedes v ∈ Rn , falls in c ein lokales Maximum von f vorliegt, bzw. I vHf (c)v τ = 0 für jedes v ∈ Rn , falls in c ein lokales Minimum von f vorliegt. Notwendige Bedingungen für ein lokales Extremum, 4 Beweis. Sei c ein lokales Extremum von f . Aufgrund des bereits Bewiesenen gilt dann gradf (c) = 0. Somit vereinfacht sich die Taylor-Entwicklung der Ordnung 1 von f an der Stelle c zu f (x) = f (c) + 12 (x − c)Hf (c)(x − c)τ + ||x − c||22 · R(x) mit einer Funktion R : D → R mit lim R(x) = 0. x→c Man betrachte nun den Fall, dass c ein lokales Maximum von f ist, und wähle v ∈ Rn beliebig. Notwendige Bedingungen für ein lokales Extremum, 5 Sei t ∈ R mit t 6= 0 so nahe an 0, dass x := c + tv ∈ D und f (x) 5 f (c) gilt. Dann gilt x − c = tv und daher f (x) = = also 0= f (c) + 12 (tv )Hf (c)(tv )τ + ||tv ||22 · R(x) f (c) + t 2 12 vHf (c)v τ + ||v ||22 · R(x) , f (x) − f (c) = 12 vHf (c)v τ + ||v ||22 · R(x). t2 Da für t → 0 gilt x = c + tv → c, also R(x) → 0, folgt hieraus 0 = 12 vHf (c)v τ und damit vHf (c)v τ 5 0. Der Fall, dass c ein lokales Minimum von f ist, wird analog behandelt. Definitionen aus der Linearen Algebra Definition. Sei A ∈ Rn×n symmetrisch (also Aτ = A). Dann heißt A I positiv semi-definit, wenn für jedes v ∈ Rn gilt vAv τ = 0, I negativ semi-definit, wenn für jedes v ∈ Rn gilt vAv τ 5 0, I positiv definit, wenn für jedes v ∈ Rn − {0} gilt vAv τ > 0, I negativ definit, wenn für jedes v ∈ Rn − {0} gilt vAv τ < 0, und I indefinit, wenn es ein v + ∈ Rn gibt mit v + A(v + )τ > 0 und ein v − ∈ Rn mit v − A(v − )τ < 0. Bemerkung. Eine Matrix ist genau dann indefinit, wenn sie weder positiv semi-definit ist noch negativ semi-definit. Notwendige Bedingungen für ein lokales Extremum, 6 Mit diesen Definitionen zur (Semi-)Definitheit lautet das notwendige Kriterium an die Hesse-Matrix wie folgt: Notwendige Bedingung für ein lokales Extremum an die Hesse-Matrix. Sei D ⊂ Rn offen, f : D → Rn zweimal stetig differenzierbar und c ∈ D ein lokales Extremum von f . Dann ist gradf (c) = 0, und es gilt: I Falls in c ein lokales Maximum von f vorliegt, ist die Hesse-Matrix Hf (c) negativ semi-definit. bzw. I Falls in c ein lokales Minimum von f vorliegt, ist die Hesse-Matrix Hf (c) positiv semi-definit. Hinreichende Bedingung für ein lokales Extremum Hinreichende Bedingung für ein isoliertes lokales Extremum an die Hesse-Matrix. Sei D ⊂ Rn offen, f : D → Rn zweimal stetig differenzierbar und gradf (c) = 0. Dann gilt: I Falls die Hesse-Matrix Hf (c) negativ definit ist, liegt in c ein isoliertes lokales Maximum von f vor. und I Falls die Hesse-Matrix Hf (c) positiv definit ist, liegt in c ein isoliertes lokales Minimum von f vor. Der Beweis verwendet wieder die Taylor-Entwicklung der Ordnung 1. Allerdings wird aus der Linearen Algebra auch noch der Satz über die Hauptachsentransformation benötigt. Der Fall einer indefiniten Hesse-Matrix Satz. Sei D ⊂ Rn offen, f : D → Rn zweimal stetig differenzierbar und gradf (c) = 0. Die Hesse-Matrix Hf (c) von f in c sei indefinit. Dann gibt es I eine Gerade G + durch c, so dass f |G + in c ein isoliertes lokales Minimum hat, und I eine Gerade G − durch c, so dass f |G − in c ein isoliertes lokales Maximum hat. Insbesondere hat f in c kein lokales Extremum. Der Beweis des Satzes erfolgt ähnlich wie der der hinreichenden Bedingung für ein isoliertes lokales Extremum. Definition. In der Situation dieses Satzes heißt c ein Sattelpunkt von f . Beispiele, 1 Folgende Funktionen f : R2 → R werden jeweils in (0, 0) untersucht, wo ihr Gradient verschwindet: I x12 + x22 I −x12 − x22 I x12 I −x12 I x12 − x22 Beispiele, 2 I Die Hesse-Matrix von x12 + x22 in (0, 0) ist gleich 2 0 0 2 , also positiv definit. In der Tat liegt in (0, 0) ein isoliertes lokales Minimum der Funktion vor: Für alle (x1 , x2 ) 6= (0, 0) ist der Funktionswert positiv, also größer als der an der Stelle (0, 0). Beispiele, 3 I Die Hesse-Matrix von −x12 − x22 in (0, 0) ist gleich −2 0 0 −2 , also negativ definit. In der Tat liegt in (0, 0) ein isoliertes lokales Maximum der Funktion vor: Für alle (x1 , x2 ) 6= (0, 0) ist der Funktionswert negativ, also kleiner als der an der Stelle (0, 0). Beispiele, 4 I Die Hesse-Matrix von x12 in (0, 0) ist gleich 2 0 0 0 , also positiv semi-definit. In (0, 0) ein lokales Minimum der Funktion vor: Für alle (x1 , x2 ) 6= (0, 0) ist der Funktionswert nichtnegativ, also größergleich dem an der Stelle (0, 0). Allerdings ist die Funktion auf der Geraden x1 = 0 konstant gleich 0. Beispiele, 5 I Die Hesse-Matrix von −x12 in (0, 0) ist gleich −2 0 0 0 , also negativ semi-definit. In (0, 0) ein lokales Maximum der Funktion vor: Für alle (x1 , x2 ) 6= (0, 0) ist der Funktionswert nichtpositiv, also kleinergleich dem an der Stelle (0, 0). Allerdings ist die Funktion auf der Geraden x1 = 0 konstant gleich 0. Beispiele, 6 I Die Hesse-Matrix von x12 − x22 in (0, 0) ist gleich 2 0 0 −2 , also indefinit. In der Tat liegt in (0, 0) ein isoliertes lokales Minimum der Funktion vor, wenn man sie auf die Gerade x2 = 0 beschränkt, und ein isoliertes lokales Maximum der Funktion vor, wenn man sie auf die Gerade x1 = 0 beschränkt. Insbesondere liegt in (0, 0) ein Sattelpunkt der Funktion vor.