Vorlesung von Prof. Dr. rer. nat. habil. Stefan Siegmund und Dr. rer. nat. habil. Norbert Koksch Mathematik für Wirtschaftswissenschaftler WS 2009/2010 (Modul WW-BA-01) Dresden, 30. Juni 2010 Literaturverzeichnis [1] Sydsaeter, K. und Hammond P.: Mathematik für Wirtschaftswissenschaftler – Basiswissen mit Praxisbezug. Pearson Studium, München, 3. Auflage 2009 [2] Böker, F.: Formelsammlung für Wirtschaftswissenschaftler. Pearson Studium, München, 1. Auflage 2009 [3] Luderer, B. und Würker, U.: Einstieg in die Wirtschaftsmathematik. Vieweg+Teubner, Leipzig, 7. Auflage 2009 [4] Luderer, B. und Würker, U.: Arbeits- und Übungsbuch Wirtschaftsmathematik. Vieweg+Teubner, Leipzig, 3. Auflage 2008 [5] Luderer, B.: Klausurtraining - Mathematik und Statistik für Wirtschaftswissenschaftler. Vieweg+Teubner, Leipzig, 6. Auflage 2008 [6] Luderer, B.; Nollau, V. und Vetters, K: Mathematische Formeln für Wirtschaftswissenschaftler. Vieweg+Teubner, Leipzig, 5. Auflage 2008 [7] Karmann, A.: Mathematik für Wirtschaftswissenschaftler. Oldenbourg, München – Wien, 6. Auflage 2008. [8] Schmidt, K. D.: Mathematik – Grundlagen für Wirtschaftswissenschaftler. Springer, Berlin–Heidelberg–New York, 2. Auflage 2000. [9] Schmidt, K. D.; Macht, W.; Hess, K. Th.: Arbeitsbuch Mathematik. Berlin–Heidelberg–New York: Springer 2. Auflage 2005. [10] Nollau, V.: Mathematik für Wirtschaftswissenschaftler. Teubner, Stuttgart - Leipzig, 4. Auflage 2003. [11] Opitz, O.: Mathematik – Lehrbuch für Ökonomen. Oldenbourg, München - Wien, 9. Auflage 2004. 3 Literaturverzeichnis 4 1 Mengen und Funktionen 1.1 Grundlagen 1.1.1 Logik Eine Aussage p ist ein sinnvolles sprachliches Gebilde, das die Eigenschaft hat, entweder wahr oder falsch zu sein. Man nennt „wahr“ bzw. „falsch“ den Wahrheitswert der Aussage p. Die Wahrheitswerte werden mit w (wahr) bzw. f (falsch) bezeichnet. Beispiel 1.1. 1) „5 ist eine Primzahl.“ (Aussage, wahr) 2) „3 ist Teiler von 7.“ (Aussage, falsch) 3) „Daniel ist krank.“ (keine Aussage, Daniel ist nicht festgelegt.) 4) „a2 + b2 = c2 “ (keine Aussage, was sind a, b, c?) Die letzten beiden Beispiele sind keine Aussagen, aber Aussageformen, die einen Wahrheitswert erhalten durch Belegung der Aussagevariablen Daniel, a, b, c. Sind p und q Aussagen, so lassen sich durch sprachliche Verbindung neue Aussagen gewinnen: Neue Aussage „nicht p“ „p und q“ „p oder q“ (im Sinne von „oder auch“) „wenn p so q“, „aus p folgt q“, „p ist hinreichend für q“, „p impliziert q“, „q ergibt sich aus p“ „p genau dann, wenn q“, „p gilt dann und nur dann, wenn q“, „p ist äquivalent zu q“ Symbol ¬p p∧q p∨q Name Negation Konjunktion Disjunktion p⇒q Implikation p⇔q Äquivalenz Die Wahrheitswerte sind wie folgt definiert: p w f ¬p f w und p w w f f q w f w f p∧q w f f f p∨q w w w f p⇒q w f w w p⇔q w f f w 5 1 Mengen und Funktionen Elementarausdrücke sind die Konstanten w und f . Durch Zusammensetzen lassen sich nach bestimmten Regeln weitere aussagenlogische Ausdrücke bilden. 1.1.2 Äquivalenz von aussagenlogischen Ausdrücken Zwei Ausdrücke p, q heißen äquivalent bzw. werteverlaufsgleich (in Zeichen p = q), wenn für jede Belegung der Variablen sich jeweils die gleichen Wahrheitswerte ergeben. Kommutativgesetz : Assoziativgesetz : p∧q = q∧p, (p ∧ q) ∧ r = p ∧ (q ∧ r) , p∨q = q∨p. (p ∨ q) ∨ r = p ∨ (q ∨ r) . Distributivgesetz : (p ∧ q) ∨ r = (p ∨ r) ∧ (q ∨ r) , (p ∨ q) ∧ r = (p ∧ r) ∨ (q ∧ r) . Konjunktion und Disjunktion verhalten sich also formal so wie Multiplikation und Addition in den natürlichen Zahlen. Ersetzung der Implikation und Äquivalenz: p ⇒ q = p ∨ q , p ⇔ q = (p ∨ q) ∧ (q ∨ p) . de Morgansche Regeln: p∧q = p∨q, p∨q = p∧q. 1.1.3 Prädikative Ausdrücke, Quantifikatoren Die in der Mathematik verwendeten Aussagen sind Aussagen über die Eigenschaften der betrachteten Objekte: „3 ist eine Primzahl“, „7 ist Teiler von 343“. „ist Teiler von 343“ ist ein einstufiges Prädikat, „ist Teiler von“ ein zweistufiges Prädikat. Ist P z.B. ein einstufiges Prädikat und ist x eine Variable, so ist xP ein (nullstufiger) prädikativer Ausdruck. xP wird auch als „x : P “ geschrieben uns als „x mit (der Eigenschaft) P “ gesprochen. Beispiel 1.2. „x > 3“ oder „x ist größer als 3“: Variable x, Prädikat P = „ist größer als 3“ „7|5“ oder „7 ist Teiler von 5“: Variable (Konstante) 7, Prädikat P = „ist Teiler von 5“ Die genannten Möglichkeiten zur Bildung neuer Aussageformen aus gegebenen reichen noch nicht aus, um z.B. die Aussage „Die Gleichung x + 3 = 8 besitzt eine Lösung“ zu bilden. Man betrachtet daher noch Quantifikatoren. Hier die beiden wichtigsten: 6 1.1 Grundlagen All-Quantor: Existenz-Quantor: ^ _ oder ∀ (für jedes . . .) , oder ∃ (es gibt ein . . .) . Bilden wir nun das einstufige Prädikat P = „ist Lösung von x+3 = 8“, so können wir obiges Problem als ∃xP schreiben (zu lesen: „es existiert ein x mit der Eigenschaft P ), oder in der mathematische Umgangssprache ∃x (x + 3 = 8) . Die Aussage ∀x (x2 ≥ 0) mit der Bedeutung „Für jedes x gilt x2 ≥ 0“ ist falsch (z.B. für x = i), wenn wir uns nicht auf spezielle x beschränken. Wahr wäre hingegen ∀x (x ∈ R ⇒ x2 ≥ 0) , wobei hier schon die Elementschreibweise aus der Mengenlehre verwendet wird. Um solche Ausdrücke kürzer schreiben zu können, definieren wir restringierte Quantifikatoren durch ∀x ∈ M P (x) := ∀x (x ∈ M ⇒ P (x)) , ∃x ∈ M P (x) := ∃x (x ∈ M ∧ P (x)) . Häufig muss man Negationen von Quantifikatoren bilden. Es gelten folgende Äquivalenzen: ∃xP = ∀xP , ∀xP = ∃xP . Manchmal wollen wir auch die Existenz genau eines bzw. höchstens eines Individuums beschreiben. Dazu nutzen wir ∃=1 bzw. ∃≤1 . Analog ist die Bildung weiterer Quantifikatoren. Bemerke: ∃ = ∃≥1 . 1.1.4 Mengen Eine exakte Definition ist hier noch nicht möglich, daher die von Georg Cantor: Definition 1.3. Unter einer Menge verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten m unserer Anschauung oder unseres Denkens (welche die »Elemente« von M genannt werden) zu einem Ganzen. 7 1 Mengen und Funktionen Eine Menge kann endlich oder unendlich viele Elemente enthalten. Mengen mit endlich vielen Elementen lassen sich durch die Angabe aller ihrer Elemente beschreiben, zum Beispiel A = {1, 2, 3}, B = {2, 4, 6, 8} . Die Reihenfolge der Elemente ist bei dieser Schreibweise nicht relevant. Normalerweise werden Mengen anhand ihrer Eigenschaften beschrieben, zum Beispiel B = {0, 2, 4, 6, 8} = {n | n ist eine gerade natürliche Zahl mit n < 10} . (1.1) Mit dem Symbol N bzw. R bezeichnet man die Menge der natürlichen Zahlen bzw. die der Menge der reellen Zahlen. Ist A eine Menge und x ein Element dieser Menge, so drückt man dies mit der Schreibweise x∈A aus. Beispiel 1.4. Für die Menge B in (1.1) gilt 4∈B. Beispiel 1.5. Für die Menge C := {n | es gilt n ∈ N und es gibt ein k ∈ N mit n = k 2 } := {n ∈ N | es gibt ein k ∈ N mit n = k 2 } (1.2) gelten 9 ∈ C und 36 ∈ C. Der Ausdruck „x ∈ A“ ist eine logische Aussageform, welche durch Festlegung von x und A zu einer logischen Aussage wird. Die Negation dieser Aussageform ist, dass x kein Element von A ist. Hierfür schreiben wir kurz x∈ / A. Beispiel 1.6. Es gilt 8 6∈ C für die Menge C aus (1.2). 8 1.1 Grundlagen 1.1.5 Teilmengen Definition 1.7. Die Menge A heißt Teilmenge der Menge B, geschrieben A ⊆ B, wenn jedes Element von A auch Element von B ist, A⊆B ∀x (x ∈ A ⇒ x ∈ B) . :⇐⇒ Gilt neben A ⊆ B auch A 6= B, dann heißt A echte Teilmenge von B und man schreibt A ⊂ B. Bemerkung 1.8. 1. Man unterscheide zwischen „enthalten (als Element) in“ und „enthalten (als Teilmenge) in“ und verwende besser „ist Element von“ bzw. „ist Teilmenge von“. 2. Ist A keine Teilmenge von B so schreibt man A 6⊆ B. Beispiel 1.9. Es seien A = {1, 2, 3, 4, C}, B = {1, 2}, C = {∅, 2, 5}. Dann gelten B ⊂A, C 6⊆ A , C ∈A, A 6⊆ C , ∅⊂A, ∅ 6∈ A , ∅⊂C, ∅∈C. Definition 1.10. Zwei Mengen A und B heißen gleich (oder identisch), A=B, wenn sie die gleichen Elemente besitzen. Satz 1.11. Es gilt A = B genau dann, wenn sowohl A ⊆ B als auch B ⊆ A gelten, A=B ⇐⇒ A⊆B∧B ⊆A. 1.1.6 Leere Menge Wir betrachten die Menge L = {x | x 6= x} (1.3) aller der Objekte, die nicht gleich zu sich selber sind. Angenommen, es gilt m ∈ L für irgendein Objekt m. Dann muss m 6= m für dieses Objekt gelten, was aber stets falsch ist und daher einen Widerspruch darstellt. Die Menge L nach (1.3) hat folglich keine Elemente, sie ist also leer. Sei nun M eine weitere Menge, die keine Elemente hat. Es gilt x∈L =⇒ x∈M, 9 1 Mengen und Funktionen da x ∈ L stets falsch ist und die Implikation =⇒ aus etwas Falschem stets etwas Wahres ergibt. Daher gilt L⊆M. Andersherum folgt aber auch M ⊆L. Nach Satz 1.11 folgt L = M . Folglich gibt es genau eine Menge, welche keine Elemente hat. Definition 1.12. Die Menge heißt leere Menge. ∅ := {x | x 6= x} Bemerkung 1.13. Für jede Menge B gilt ∅⊆B, d. h., die leere Menge ist Teilmenge jeder Menge. 1.1.7 Potenzmengen Definition 1.14. Ist M eine Menge, so nennt man die Menge aller Teilmengen von M , P(M ) oder 2M , die Potenzmenge von M . Beispiel 1.15. Für M = {1, 2, 3} gilt P(M ) = {∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}} . Bemerkung 1.16. In obigem Beispiel bemerken wir, dass M 3 Elemente hat, die Potenzmenge P(M ) = 2M hat 23 = 8 Elemente. Dies ist ein Hinweis für die Bezeichnung 2M . Bemerkung 1.17. Typischer Fehler bei der Bestimmung der Potenzmenge P(M ) einer Menge M ist, dass die leere Menge ∅ und die gesamte Menge M als Teilmengen von M vergessen werden. Es gilt stets ∅ ∈ P(M ), M ∈ P(M ) . 10 1.2 Mengenalgebra 1.2 Mengenalgebra Wir betrachten nun gewissen Grundoperationen beim Arbeiten mit Mengen. Definition 1.18. Die Vereinigung A ∪ B von A und B ist die Menge, die aus allen Elementen von A und allen Elementen von B besteht, A ∪ B := {x | x ∈ A ∨ x ∈ B} . A B Beispiel 1.19. Es seien A = {2, 3, 4}, B = {1, 3}, C = {1, 5}. Dann gelten A ∪ B = {1, 2, 3, 4} , B ∪ C = {1, 3, 5} , A ∪ C = {1, 2, 3, 4, 5} . Definition 1.20. Der Durchschnitt A ∩ B von A und B ist die Menge, die aus allen Elementen besteht, die sowohl zu A als auch zu B gehören: A ∩ B := {x | x ∈ A ∧ x ∈ B} . A B Beispiel 1.21. Es seien A = {1, 2, 3, 4}, B = {3, 4, 5}, C = {5}. Dann gelten A ∩ B = {3, 4} , B ∩ C = {5} , A∩C =∅. Definition 1.22. Die Differenz A \ B von A und B ist die Menge, die aus allen Elementen von A besteht, die nicht Element von B sind: A \ B := {x | x ∈ A ∧ x 6∈ B} . A B Beispiel 1.23. Es seien A = {1, 2, 3, 4}, B = {3, 4, 5}, C = {5}. Dann gelten A \ B = {1, 2} , A\C =A, C \B =∅. Definition 1.24. Die symmetrische Differenz A△B ist die Menge, aller der Elemente, die entweder zu A oder zu B gehören, A△B := {x | (x ∈ A ∧ x 6∈ B) ∨ (x ∈ B ∧ x 6∈ A)} = (A \ B) ∪ (B \ A) = (A ∪ B) \ (A ∩ B) . A B Beispiel 1.25. Es seien A = {1, 2, 3}, B = {3, 4, 5}, C = {4, 5, 6}. Dann gelten A△B = {1, 2, 4, 5} , A△C = {1, 2, 3, 4, 5, 6} , B△C = {3, 6} . Definition 1.26. Zwei Mengen heißen disjunkt oder durchschnittsfremd , wenn ihr Durchschnitt die leere Menge ∅ ist. 11 1 Mengen und Funktionen 1.2.1 Komplement Definition 1.27. Seien M und A Mengen mit A ⊆ M . Dann heißt CM A := M \ A Komplement von A bezüglich M . Es gilt: CM (CM A) = A , CM ∅ = M , CM M = ∅ . Beispiel 1.28. Es seien M = {1, 2, 3, 4, 5}, N = {0, 1, 2, 3, . . .} und B = {0, 1, 2}. Dann gelten CM B = {3, 4, 5} , CN B = {n ∈ N | n ≥ 3} . Bemerkung 1.29. Wenn M durch den Kontext fest gewählt ist, schreibt man auch CA oder Ac anstelle von CM A. 1.2.2 Regeln für das Rechnen mit Mengen Für Mengen A, B, C, M gelten u.a. folgende Eigenschaften: A∩B ⊆A⊆A∪B, A∪∅=A, A∩∅=∅, A∪A=A∩A=A. Kommutativgesetze: A∩B =B∩A, A∪B =B∪A. Assoziativgesetze: A ∩ (B ∩ C) = (A ∩ B) ∩ C , A ∪ (B ∪ C) = (A ∪ B) ∪ C . Distributivgesetze: A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) , A \ (B ∪ C) = (A \ B) ∩ (A \ C) , A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) . A \ (B ∩ C) = (A \ B) ∪ (A \ C) . Für A ⊆ M , B ⊆ M gelten die De Morgansche Regeln: CM (A ∩ B) = CM A ∪ CM B , CM (A ∪ B) = CM A ∩ CM B . Der Beweis dieser Eigenschaften erfolgt durch direktes Überprüfen der Teilmengenbeziehungen durch Umformung der Prädikate unter Verwendung der logischen Umformungsregeln, 12 1.2 Mengenalgebra z. B.: A ∪ B = {x : (x ∈ A ∨ x ∈ B)} = {x : (x ∈ B ∨ x ∈ A)} = B ∪ A . 1.2.3 Mengenfamilien Die Vereinigung (bzw. der Durchschnitt) von je zwei (und damit endlich vielen) Mengen lässt sich verallgemeinern: Definition 1.30. Es sei I eine Indexmenge und (Ai )i∈I eine Familie von Teilmengen von M . Dann definieren wir [ \ Ai := {x ∈ M | ∃i ∈ I : x ∈ Ai } . Ai := {x ∈ M | ∀i ∈ I : x ∈ Ai } , i∈I i∈I T Die Menge Mengen Ai . i∈I S Ai heißt der Durchschnitt und die Menge i∈I Ai die Vereinigung der Für Ai ⊆ M für i ∈ I und dem Komplementen bezüglich M gelten: [ i∈I Ai c = \ Aci , i∈I \ Ai )c = [ Aci . i∈I i∈I Beispiel 1.31. Es seien N = {0, 1, 2, . . .}, An := {k ∈ N : k ≥ n} = {n, n + 1, ...} für n ∈ N. Dann gelten A0 ⊇ A1 ⊇ A2 ⊇ ... ⊇ An und daher A0 ⊇ A1 ∩ A2 ∩ ... ∩ An = \ Ai =: i={0,1,...n} n \ Ai = An . i=0 Weiter gelten \ n∈N An = ∅ , [ An = N . n∈N 13 1 Mengen und Funktionen 1.3 Kartesisches Produkt und Relationen Definition 1.32. Es seien X und Y Mengen. Dann heißt (x, y) mit x ∈ X und y ∈ Y ein geordnetes Paar aus X und Y (in dieser Reihenfolge). Die Menge aller geordneten Paare X × Y := {(x, y) | x ∈ X ∧ y ∈ Y } von X und Y heißt kartesisches Produkt von X und Y . Beispiel 1.33. Es seien X = {a, b}, Y = {1, 2, 3}. Dann gilt X × Y = {(a, 1), (a, 2), (a, 3), (b, 1), (b, 2), (b, 3)} . Man beachte, dass X, Y und X × Y hier 2, 3 bzw. 2 · 3 = 6 Elemente besitzen. Definition 1.34. Ähnlich definiert man das kartesische Produkt von endlich vielen Mengen X1 , X2 , . . . , Xn durch X1 × X2 × · · · × Xn = n Y i=1 Xi := {(x1 , x2 , ..., xn ) | xi ∈ Xi für 1 ≤ i ≤ n} . Stimmen die Mengen Xi überein, d. h. gilt Xi = X für i = 1, ..., n, so schreibt man X n := n Y Xi . i=1 Beispiel 1.35. Es seien X = X1 = X2 = X3 = {a, b}. Dann gilt X 3 = {a, b}3 = {(a, a, a), (a, a, b), (a, b, a), (a, b, b), (b, a, a), (b, a, b), (b, b, a), (b, b, b)} . Definition 1.36. Es seien X, Y Mengen. Eine Teilmenge r von X × Y heißt Relation zwischen X und Y . Bemerkung 1.37. „Relation“ heißt „Beziehung“. Eine Relation zwischen X und Y gibt also eine Beziehung zwischen Elementen von X und Elementen von Y an. Bemerkung 1.38. Häufig betrachtete Relationen sind Ordnungsrelationen, Äquivalenzrelationen und Abbildungen (Funktionen). 14 1.4 Abbildungen und Funktionen Bemerkung 1.39. Es gibt viele Möglichkeiten, Relationen zu notieren, zum Beispiel: • Nennen aller Paare in der Relation in Mengenschreibweise, 16.10.09 • Nennen aller Paare in der Relation in tabellarischer Schreibweise, • Kennzeichnen aller Paare in der Relation durch Punkte in einem Koordinatensystem. 1.4 Abbildungen und Funktionen 1.4.1 Abbildungsbegriff Wir beginnen mit Begriffen zu Relationen, welche insbesondere für Abbildungen und Funktionen wichtig sind. Definition 1.40. Eine Relation r ⊆ X × Y heißt rechtseindeutig , wenn zu jedem x ∈ X höchstens ein y ∈ Y mit (x, y) ∈ r gehört, ∀x ∈ X∀y1 , y2 ∈ Y : (x, y1 ) ∈ r ∧ (x, y2 ) ∈ r =⇒ y1 = y2 . Sie heißt linkseindeutig , wenn zu jedem y ∈ Y höchstens ein x ∈ X mit (x, y) ∈ r gehört, ∀x1 , x2 ∈ X∀y ∈ Y : (x1 , y) ∈ r ∧ (x2 , y) ∈ r =⇒ x1 = x2 . Sie heißt linkstotal , wenn für jedes x ∈ X ein y ∈ Y existiert mit (x, y) ∈ r, ∀x ∈ X∃y ∈ Y : (x, y) ∈ r . Sie heißt rechtstotal , wenn für jedes y ∈ Y ein x ∈ X existiert mit (x, y) ∈ r, ∀y ∈ Y ∃x ∈ X : (x, y) ∈ r . Beispiel 1.41. Es seien X = {1, 2, 3} und Y = {1, 2, 3}. Die Relation r1 = {(1, 1), (1, 2), (1, 3), (2, 2), (2, 3), (3, 3)} mit den Darstellungen 3 b 2 b 1 b b b b (1, 3) (2, 3) (3, 3) b 3 b b 3 2 b b 2 1 b b 1 b (1, 2) (2, 2) x y b 1 1 1 2 1 3 2 2 2 3 3 3 (1, 1) b b b 1 2 3 15 1 Mengen und Funktionen ist weder rechts- noch linkseindeutig. Sie ist rechtstotal und linkstotal. Sie stellt die ≤Relation auf {1, 2, 3} dar. Beispiel 1.42. Es seien X = {1, 2, 3} und Y = {1, 2}. Die Relation r2 = {(1, 1), (1, 2), (2, 2)} mit den Darstellungen 2 b 1 b b b 3 (1, 2) (2, 2) x y b (1, 1) b b 1 1 1 1 2 2 2 2 b b 2 b 1 b 2 b 1 b 2 b 1 b b 2 1 3 b ist rechtstotal aber nicht linkstotal. Sie ist weder links- noch rechtseindeutig. Beispiel 1.43. Es seien X = {1, 2, 3} und Y = {1, 2}. Die Relationen r3 = {(1, 1), (2, 2), (3, 2)} , r4 = {(1, 1), (2, 2)} mit den Darstellungen 2 b 1 b b b 3 (2, 2) (3, 2) x y b (1, 1) b b 1 2 b 1 b 1 1 2 2 3 2 2 b b b 2 3 1 b 3 b b (2, 2) x y b (1, 1) b 1 b 2 1 1 2 2 2 b b 3 1 b sind beide rechtstotal und rechtseindeutig. Die Relation r3 ist linkstotal, aber nicht linkseindeutig. Die Relation r4 ist hingegen linkseindeutig, aber nicht linkstotal. Bemerkung 1.44. Wenn eine Relation r ⊆ X × Y rechtseindeutig ist und (x, y) ∈ r gilt, so stehen x und y nicht nur bezüglich dieser Relation r in Beziehung, sondern zu diesem x gehört nur dieser eine Wert y. Dies kann daher interpretiert werden als: „Durch die Relation r wird dem Wert x der Wert y zugeordnet.“ Definition 1.45. Es seien X, Y Mengen. Eine rechtseindeutige Relation f ⊆ X × Y heißt Abbildung oder Funktion aus X in Y . 16 1.4 Abbildungen und Funktionen Bemerkung 1.46. Wir haben hier den Begriff „Funktion“ oder „Abbildung“ ohne Rückgriff auf „Zuordnung“ definiert: „Zuordnung“ ist auch nur ein Synonym für „Abbildung“. Bemerkung 1.47. Mathematisch gesehen sind „Abbildung“ und „Funktion“ Synonyme. Andererseits wird „Abbildung“ auch im allgemeinerem Sinne (z. B. „geometrische Abbildungen“) und „Funktion“ im spezielleren Sinne für Abbildungen aus einem Zahlenbereich in einem Zahlenbereich verwendet. Beispiel 1.48. Von den Relationen r1 , r2 , r3 , r4 aus den Beispielen 1.41, 1.42 und 1.43 sind nur r3 und r4 Abbildungen, da nur diese rechtseindeutig sind. Bemerkung 1.49. 1. Bei Abbildungen schreibt man anstelle von (x, y) ∈ f kürzer y = f (x) mit der Interpretation, dass durch f dem Argument x ∈ X dieses y ∈ Y als Funktionswert zugeordnet wird oder x auf y abgebildet wird. 2. Unterscheide zwischen der Funktion f und einem Funktionswert f (x). Definition 1.50. Es sei f eine Abbildung aus X in Y . Dann heißen D(f ) = {x ∈ X | ∃y ∈ Y : y = f (x)} , W(f ) = {y ∈ Y | ∃x ∈ X : y = f (x)} Definitionsbereich bzw. Wertebereich von f . Die Menge graph(f ) = {(x, f (x)) | x ∈ D(f )} = f heißt Graph von f . Bemerkung 1.51. 1. Zur vollständigen Beschreibung einer Abbildung f aus X in Y müssen X, Y und die Relation f angegeben werden. Damit sind D(f ) und W(f ) schon festgelegt. Der Graph graph(f ) stimmt als Menge mit der Relation f überein, enthält aber nicht mehr die volle Information über X und Y . 2. Man schreibt f : X ⊇ D(f ) → Y für eine Abbildung aus X in Y mit dem Definitionsbereich D(f ). Definition 1.52. Zwei Funktionen f aus X in Y und g aus V in W heißen genau dann gleich, wenn X = V , Y = W und f = g gelten. Beispiel 1.53. Für die Funktionen r3 , r4 aus Beispiel 1.43 gelten D(r3 ) = {1, 2, 3} = X , D(r4 ) = {1, 2} ⊂ X , W(r3 ) = Y , W(r4 ) = Y . 17 1 Mengen und Funktionen Offenbar sind r3 und r4 verschieden. Beispiel 1.54. Die Funktionen f aus X = R in Y = R und g aus U = R≥0 in V = R≥0 mit f = {(x, y) | x ∈ R ∧ y = x2 } , g = {(x, y) | x ∈ R≥0 ∧ y = x2 } sind verschieden. Die Funktion f ist linkstotal aber weder rechtstotal noch linkseindeutig. Die Funktion g ist linkstotal und rechtstotal sowie linkseindeutig und, da sie eine Funktion ist, rechtseindeutig. Definition 1.55. Wenn f eine linkstotale Abbildung aus X in Y ist, so gilt D(f ) = X und man nennt f eine Abbildung von X in Y und schreibt f: X →Y . Wenn f eine rechtstotale Abbildung aus X in Y ist, so gilt W(f ) = Y und man nennt f eine Abbildung aus X auf Y oder eine surjektive Abbildung oder Funktion. Bemerkung 1.56. Häufig werden Funktionen nur als linkstotale, rechtseindeutige Relation definiert. Die Funktion f : R ⊇ D(f ) → R mit f (x) = ln x für x ∈ D(f ) = R>0 ist im üblichen Sprachgebrauch aber eine Funktion einer reellen Variablen, d. h. eine Funktion aus R in R, obwohl ihr Definitionsbereich nur die Menge der positiven reellen Zahlen ist. Würde man nur linkstotale Funktionen betrachten, müsste man sie eine Funktion einer positiven reellen Variablen nennen. Definition 1.57. Wenn f eine linkseindeutige Funktion aus X in Y ist, so man nennt f eineindeutig oder injektiv . Bemerkung 1.58. Eine linkseindeutige Funktion ist nach Definition von „Funktion“ stets auch rechtseindeutig. Dieses zweifache „ein“ in „rechts-ein-deutig“ und „links-ein-deutig“ führt zu „ein-ein-deutig“. 1.4.2 Verkettung von Funktionen Definition 1.59. Es sei f eine Funktion aus X in Y . Seien U und V Mengen. Dann heißen f (U ) = {f (x) | x ∈ U ∩ D(f )} , Bild von U bzw. Urbild von V unter f . 18 f −1 (V ) = {x | x ∈ D(f ) ∧ f (x) ∈ V } 1.4 Abbildungen und Funktionen Beispiel 1.60. Es seien X = {1, 2, 3, 4, 5, 6}, Y = {1, 2, 3, 4, 5} und f = {(1, 2), (2, 4), (3, 2), (4, 5)} . Dann gelten D(f ) = {1, 2, 3, 4}, W(f ) = {2, 4, 5}, f ({1, 2, 7}) = {2, 4}, f −1 ({2, 4, 6}) = {1, 2, 3}. Definition 1.61. Es seien f : X ⊇ D(f ) → Y und g : U ⊇ D(g) → V zwei Funktionen. Die durch (g ◦ f )(x) = g(f (x)) für x ∈ D(g ◦ f ) := f −1 (D(g)) definierte Funktion g ◦ f heißt Verkettung , Komposition oder Hintereinanderausführen von g und f . Bemerkung 1.62. 1. Der Definitionsbereich D(g ◦ f ) besteht somit aus den Elementen von D(f ), die durch f in den Definitionsbereich D(g) von g abgebildet werden. Wenn W(f ) und D(g) disjunkt sind, dann ist der Definitionsbereich D(g ◦ f ) von g ◦ f leer. 2. In der Regel sind g ◦ f und f ◦ g nicht gleich. 3. Die Verkettung ist assoziativ: Es gilt h ◦ (g ◦ f ) = (h ◦ g) ◦ f . 4. Die Verkettung von Funktionen darf nicht mit der Multiplikation von Funktionen verwechselt werden. Bemerkung 1.63. „g ◦ f “ wird als „g verkettet mit f “ oder „g Kringel f “ gelesen. Beispiel 1.64. Es seien f : R ⊇ D(f ) → R, g : R ⊇ D(g) → R mit f (x) = D(f ) = R≥0 und g(x) = sin x für x ∈ D(g) = R. Dann gelten √ x für x ∈ √ (g ◦ f )(x) = sin( x) für x ∈ D(g ◦ f ) = f −1 (D(g)) = f −1 (R) = D(f ) = R≥0 , [ √ (f ◦ g)(x) = sin x für x ∈ D(f ◦ g) = g −1 (D(f )) = g −1 (R≥0 ) = [2kπ, (2k + 1)π] . k∈Z Bemerkung 1.65. Wenn f : X ⊇ D(f ) → Y links- und rechtstotal ist, D(f ) = X und W(f ) = Y , und wenn g : Y ⊇ D(g) → Z linkstotal ist, D(g) = Y , dann gilt D(g ◦ f ) = X . 19 1 Mengen und Funktionen Beispiel 1.66. f : R → R sei gegeben durch f (x) = 2x − 1, g : R → R sei gegeben durch g(x) = x + 1. Dann gelten (g ◦ f )(x) = g(f (x)) = g(2x − 1) = (2x − 1) + 1 = 2x für x ∈ D(g ◦ f ) = R , (f ◦ g)(x) = f (g(x)) = f (x + 1) = 2(x + 1) − 1 = 2x + 1 für x ∈ D(f ◦ g) = R . 1.4.3 Umkehrabbildung Durch Abbildungen f : X ⊆ D(f ) → Y können verschiedenste Vorgänge modelliert werden. Eine Interpretation ist, dass aus den Eingangsgrößen aus X durch die Abbildung f Ausgangsgrößen aus Y erzeugt werden. Es entsteht dann die Frage, ob man zu einem gewünschtem Ausgang y0 einen entsprechenden Eingang x0 mit y0 = f (x0 ) bestimmen kann. Ein Idee dazu ist, die Wirkung von f umzukehren: Angenommen, es gäbe eine Umkehrabbildung f −1 zu f mit f −1 (f (x0 )) = x0 , dann ergäbe sich x0 = f −1 (y0 ) . Wir benötigen dazu, dass f −1 eine Abbildung ist, die mindestens auf W(f ) oder besser auf Y definiert ist. Definition 1.67. Die Abbildung idX : X → X mit idX (x) = x für x ∈ X heißt die Identität (oder auch: identische Abbildung ) auf X. Sei nun f : X ⊇ D(f ) → Y . Wir fragen uns, unter welchen Bedingungen an f eine Abbildung g von Y nach X existiert mit g ◦ f = idX . Eine solche Abbildung macht die Wirkung von f auf X rückgängig. Definition 1.68. Eine Abbildung f −1 : Y ⊇ D(f −1 ) → X mit f −1 ◦ f = idX und f ◦ f −1 = idY heißt Umkehrabbildung zu f . Betrachten wir f ⊆ X × Y als Relation, so ist die Umkehrelation f −1 ⊆ Y × X trivial definiert durch f −1 := {(y, x) | (x, y) ∈ f } , also durch einfaches Umkehren der Paare in f . Insbesondere kann es nur eine Umkehrabbildung geben. Wegen X = D(idX ) = D(f −1 ◦ f ) ⊆ D(f ) ⊆ X muss D(f ) = X gelten, f muss also linkstotal sein. Zu klären ist nur noch, wann die Relation f −1 eine Abbildung, also rechtseindeutig ist: Da f −1 durch Vertauschen der Reihenfolge in den Paaren aus f entsteht, ist f −1 genau dann rechtstotal, linkstotal, rechtseindeutig bzw. linkseindeutig, wenn f linkstotal, rechtstotal, linkseindeutig bzw. rechtseindeutig ist. 20 1.4 Abbildungen und Funktionen Die Abbildung f muss also linkseindeutig, also injektiv sein. Als Abbildung ist f auch rechtseindeutig. Wegen Y = D(idY ) = D(f ◦ f −1 ) ⊆ D(f ) ⊆ Y muss f auch rechtstotal, also surjektiv sein. Wir definieren daher: Definition 1.69. Eine Abbildung f aus X in Y heißt bijektiv oder Bijektion, wenn sie linkstotal, surjektiv und injektiv ist, d. h., wenn sie links- und rechtstotal, links- und rechtseindeutig ist. Bemerkung 1.70. Die identische Abbildung idX : X → X ist eine Bijektion und für jede Abbildung f : X ⊇ D(f ) → Y gilt f ◦ idX = f = idY ◦ f . Satz 1.71. Wenn f : X → Y bijektiv ist, so existiert die Umkehrabbildung f −1 : Y → X zu f. Ist f : X → Y nämlich bijektiv, so ist f links- und rechtstotal, links- und rechtseindeutig und die Relation f −1 ist entsprechend rechts- und linktstotal, rechts- und linkseindeutig, also eine Bijektion von Y auf X. Beispiel 1.72. Es seien X = Y = {1, 2, 3, 4} und f = {(1, 1), (2, 3), (3, 4), (4, 2)}. Dann ist f eine Bijektion von X auf Y und es gilt f −1 = {(1, 1), (3, 2), (4, 3), (2, 4)} = {(1, 1), (2, 4), (3, 2), (4, 3)} . Beispiel 1.73. Es sei f : R → R die durch f (x) = 2x+1 für x ∈ R definierte Funktion. Dann ist f linkstotal und rechtseindeutig. Für jedes y ∈ R gibt es genau ein x ∈ R mit f (x) = y: Aus y = 2x + 1 folgt 2x = y − 1 und weiter x = 12 (y − 1). Folglich ist f auch linkseindeutig (injektiv) und rechtstotal (surjektiv) und somit bijektiv. Die Umkehrabbildung f −1 : R → R ist gegeben durch f −1 (x) = 12 · (x − 1) für x ∈ R . 21 23.10.09 1 Mengen und Funktionen 5 4 3 2 1 1 0 1 2 3 4 5 6 7 1 Beispiel 1.74. Wieviel von einem Gut kaufen die Konsumenten, wenn ein bestimmter (Markt-) Preis gegeben ist? Die Nachfragemenge x eines Gutes ist abhängig vom Preis p. Wir betrachten eine lineare Nachfragefunktion D : [0, 4] → [0, 2] (D wie „demand“ = „Nachfrage“) mit D(p) = 2 − 0.5 · p für p ∈ R . In Abhängigkeit vom Preis p erhalten wir durch D die Nachfrage x des Gutes. 4 3 2 1 0 1 2 3 4 5 Wie hoch ist nun der Preis p, wenn eine bestimmte Nachfrage x vorliegt? Sei x ∈ [0, 2] beliebig. Aus x = 2 − 0.5 · p folgt 2 · (2 − x) = p ∈ [0, 4]. Die Abbildung D ist folglich bijektiv mit der Umkehrabbildung D−1 : [0, 2] → [0, 4] , 22 D−1 (x) = 4 − 2x . 1.4 Abbildungen und Funktionen 4 3 2 1 0 1 2 23 1 Mengen und Funktionen Bemerkung 1.75. Viele Probleme lassen sich auf die Form f (x) = y bringen, wobei die Abbildung f : X ⊇ D(f ) → Y und y ∈ Y vorgebenen sind und x ∈ X gesucht ist Wenn f umkehrbar ist, ergibt sich x = f −1 (y). Im Allgemeinen ist es keineswegs trivial, von einer Abbildung zu zeigen, dass sie bijektiv und daher umkehrbar ist. Noch problematischer ist, die Umkehrabbildung tatsächlich formelmäßig zu bestimmen. Vielfach versucht man daher mit Mitteln der Analysis die Existenz der Umkehrabbildung und Eigenschaften der Umkehrabbildung herzuleiten. Einige Hilfsmittel dazu werden wir in der Vorlesung kennenlernen. Das Berechnen geschieht dann meist nur numerisch. In anderen Fällen geht es darum, von einer Abbildung f : X ⊇ D(f ) → R Maximal- bzw. Minimalstellen zu finden und dies eventuell zusätzlich noch unter Nebenbedingungen. Im ersten Teil der Vorlesung beschäftigen wir uns vorrangig mit linearen Problemen, bei denen f im gewissen Sinne linear ist. Hierfür können Hilfsmittel der linearen Algebra genutzt werden. Im zweiten Teil der Vorlesung beschäftigen wir uns auch mit nichtlinearen Problemen. Dafür benötigen wir Hilfsmittel der Analysis, konkret der Differentialrechnung. 24 2 Zahlen 2.1 Natürliche Zahlen 2.1.1 Menge der natürlichen Zahlen Der Ausgangspunkt für den Aufbau der Zahlenbereiche ist die Menge N = {0, 1, 2, 3, ...} der natürlichen Zahlen 0, 1, 2, 3, 4, ... 2.1.2 Induktionsprinzip Unmittelbar verbunden mit den natürlichen Zahlen ist das Prinzip der vollständigen Induktion. Satz 2.1 (Prinzip der vollständigen Induktion). Für jedes n ∈ N≥n0 = {n0 , n0 +1, . . .} seien A(n) von n ∈ N≥n0 abhängende mathematische Aussage. Wenn • A(n0 ) wahr ist und • für jedes n ≥ n0 aus A(n) auch A(n + 1) folgt, dann gilt A(n) für alle n ∈ N≥n0 . Beispiel 2.2. Die Ungleichung n2 ≥ n + 5 gilt für alle natürlichen Zahlen n ≥ 3. (Beweis durch vollständige Induktion) 1. Induktionsanfang: Die Ungleichung gilt für n = n0 = 3, da 32 = 9 ≥ 8 = 3 + 5 . 2. Induktionsschritt: Die Ungleichung gelte für ein beliebiges n ≥ 3, d. h., es sei n2 ≥ n + 5 . (2.1) Zu zeigen ist, dass sie dann auch für n + 1 gilt. Nun, es gilt unter Verwendung von (2.1) (n + 1)2 = n2 + 2n + 1 ≥ n + 5 + 2n + 1 ≥ (n + 1) + 5 . 25 2 Zahlen 2.1.3 Prinzip der rekursiven Definition Ein Begriff B(n), der für alle natürlichen Zahlen n ≥ n0 definiert werden soll, kann folgendermaßen festgelegt werden: 1. Definiere B(n) für n = n0 . 2. Definiere B(n) für n ∈ N≥n0 unter Zuhilfenahme der (hypothetisch) bereits erfolgten Definition von B(n0 ), . . . , B(n − 1). Definition 2.3. Für n ∈ N und x ∈ N definieren wir die Potenzen mit natürlichem Exponenten rekursiv durch x0 := 1 , xn := x · xn−1 (n ∈ N≥1 ) . Bemerkung 2.4. Insbesondere wurde 00 := 1 definiert, was später z. B. beim binomischen Lehrsatz, Polynomen und Potenzreihen benutzt wird. 2.2 Kombinatorik 2.2.1 Permutationen 2.2.1.1 Anordnung ohne Wiederholung Aufgabe ist, n verschiedene Objekte auf n Plätze anzuordnen. Anordnen heißt insbesondere, die Reihenfolge zu beachten. Für den ersten Platz gibt es n Objekte zur Auswahl, für den zweiten Platz sind es noch n − 1 Objekte, . . . , für den vorletzten Platz noch zwei Objekte, auf den letzten Platz kommt das verbleibende Objekt. Es sind somit n · (n − 1) · · · · · 2 · 1 Möglichkeiten. Für n ∈ N definieren wir n! (sprich: n-Fakultät) rekursiv durch 0! := 1 , n! := n · (n − 1)! = n · (n − 1) · · · 2 · 1 für n ∈ N≥1 . Damit gilt zum Beispiel 0! = 1 , 1! = 1 · 0! = 1 , 2! = 2 · 1! = 2 , 3! = 3 · 2! = 6 , 4! = 4 · 3! = 24 , . . . . Definition 2.5. Sei M eine endliche Menge. Eine Anordnung aller Elemente von M unter Beachtung der Reihenfolge und ohne Wiederholung von Elementen heißt Permutation. 26 2.2 Kombinatorik Satz 2.6. Sei n ∈ N \ {0}. Dann besitzt eine n-elementige Menge genau n! Permutationen. Beispiel 2.7. Es werde die Menge {1, 2, 3} betrachtet. Deren Elemente kann man in folgenden Weisen anordnen: 1−2−3, 1−3−2, 2−1−3, 2−3−1, 3−1−2, 3−2−1. Dies sind 6 = 3! Anordnungen. Beispiel 2.8. Ein Firmenvertreter hat sich beim Besuch von 6 Kunden A, B, C, D, E, F zu überlegen, welche der 6! = 1 · 2 · 3 · 4 · 5 · 6 = 720 möglichen Reihenfolgen er wählt. Beispiel 2.9. Um 20 Studenten in einer Reihe antreten zu lassen, gibt es 20! = 2 432 902 008 176 640 000 Möglichkeiten. (Würde man pro Anordnung nur 1 Sekunden benötigen, bräuchte man wegen 2 432 902 008 176 640 000 ≈ 70 · 109 60 · 60 · 24 · 365 etwa 70 Milliarden Jahre. Das Weltall ist erst etwa 14 Milliarden Jahre alt. 2.2.1.2 Anordnung mit Wiederholung Aufgabe ist, insgesamt n Objekte aus k Klassen zu ℓ1 , ℓ2 , . . . , ℓk Mitgliedern, ℓ1 + ℓ2 + · · · + ℓk = n anzuordnen, wobei die Reihenfolge unter den Mitgliedern einer Klasse nicht beachtet werden soll. Unter Beachtung aller Reihenfolgen wären es n! Möglichkeiten. Nun soll die Reihenfolge der ℓ1 Mitgliedern der ersten Klasse nicht beachtet werden. Dies sind ℓ1 ! Möglichkeiten. Es verbleiben noch n!/ℓ1 ! Möglichkeiten. Führt man die Betrachtungen bis zu k-ten Klasse weiter, so erhält man die Zahl der gesuchten Möglichkeiten als n! . ℓ1 ! · ℓ2 ! · · · · · ℓk ! Eine andere Interpretation der Aufgabe ist, k Objekte unter Beachtung der Reihenfolge anzuordnen, wobei das erste Objekt ℓ1 -mal, das zweite ℓ2 -mal, . . . , das k-te ℓk -mal auftreten soll (und mehrmals wiederholte Objekte wegen ihrer Gleichheit auch in der Reihenfolge nicht unterscheiden werden können). Beispiel 2.10. Es soll die Anzahl aller Zeichenketten aus den Buchstaben a, b und c bestimmt werden, bei denen a viermal, b dreimal und c zweimal vorkommen. Hier haben wir ℓ1 = 4, ℓ2 = 3, ℓ3 = 2 und n = 4 + 3 + 2 = 9. Somit ist die gesuchte Anzahl 9! 9·8·7·6·5·4·3·2·1 9·8·7·6·5 9·8·7·5 = = = = 9 · 4 · 7 · 5 = 1260 . 4!3!2! (4 · 3 · 2 · 1) · (3 · 2 · 1) · (2 · 1) 3·2·2 2 27 2 Zahlen 2.2.2 Variationen 2.2.2.1 Auswahl mit Beachtung der Reihenfolge und ohne Wiederholung Es sind k ≤ n Objekte aus n Objekten mit Beachtung der Reihenfolge ohne Wiederholung auszuwählen: Für das erste Objekt haben wir n Möglichkeiten, für das zweite n − 1, . . . , für das k-te Objekt noch n − k + 1. Dies gesuchte Anzahl ist somit Vkn = n · (n − 1) · · · · · (n − k + 1) = n! n · (n − 1) · · · · · (n − k + 1)(n − k) · · · · · 2 · 1 = . (n − k) · · · · · 2 · 1 (n − k)! Diese Auswahl heißt auch „ohne Zurücklegen“ anstatt „ohne Wiederholung“. Definition 2.11. Eine Auswahl von k verschiedenen Elementen mit Berücksichtigung der Reihenfolge aus einer endlichen Menge heißt Variation k-ter Ordnung . Satz 2.12. Ist M eine n-elementige Menge, so gibt es Vkn = n! (n − k)! Variationen k-ter Ordnung von M . Beispiel 2.13. Es seien vier Zahlen aus {1, 2, ..., 6} vier Zahlen auszuwählen und in einer Reihe anzuordnen. Die Anzahl der möglichen Auswahlen ist V46 = 6·5·4·3·2·1 6! = = 6 · 5 · 4 · 3 = 360 . (6 − 4)! 2·1 Beispiel 2.14. Ein zehnköpfiges Leistungsgremium habe einen 1. und 2. Sprecher zu wählen. Die Anzahl der möglichen Auswahlen ist V210 = 10! 10 · 9 · 8 · 7 · 6 · 5 · 4 · 3 · 2 · 1 = = 10 · 9 = 90 . (10 − 2)! 8·7·6·5·4·3·2·1 Beispiel 2.15. Ein Firmenvertreter, der 3 seiner 6 Kunden an einem Tag besuchen kann, überlegt sich, in vielen verschieden Reihenfolgen er sie besuchen könnte. Die Anzahl der möglichen Auswahlen ist V36 = 6·5·4·3·2·1 6! = = 6 · 5 · 4 = 120 . (6 − 3)! 3·2·1 Beispiel 2.16. Aus den n = 3 Buchstaben a, b, c können V23 = 3!/(3 − 2)! = 3! = 6 zweibuchstabige Zeichenketten ohne Wiederholung und unter Beachtung der Reihenfolge erzeugt werden, nämlich ab , ac , ba , bc , ca , cb . 28 2.2 Kombinatorik 2.2.2.2 Auswahl mit Beachtung der Reihenfolge und mit Wiederholung Es sind k Objekte aus n Objekten mit Beachtung der Reihenfolge und mit zugelassener Wiederholung auszuwählen: Für jedes der k Objekte haben wir jeweils n Möglichkeiten. Dies gesuchte Anzahl ist somit W n V k = nk . Diese Auswahl heißt auch „mit Zurücklegen“ anstatt „mit Wiederholung“. Beispiel 2.17. Aus den n = 2 Ziffern 0 und 1 können so 23 = 8 dreiziffrige Zeichenketten mit Wiederholung und unter Beachtung der Reihenfolge erzeugt werden: 000 , 001 , 010 , 011 , 100 , 101 , 110 , 111 . 2.2.3 Kombinationen 2.2.3.1 Auswahl ohne Beachtung der Reihenfolge und ohne Wiederholung Es sind k ≤ n Objekte aus n Objekten ohne Beachtung der Reihenfolge und ohne Wiederholung auszuwählen: Wir haben Vkn Möglichkeiten für die Auswahl von k Objekten aus n unter Beachtung der Reihenfolge. Diese k ausgewählten Objekte lassen sich auf jeweils k! Arten anordnen. Die gesuchte Anzahl ist damit Ckn = Vkn /k! = n! . k!(n − k)! Diese Auswahl heißt auch „ohne Zurücklegen“ anstatt „ohne Wiederholung“. Definition 2.18. Für k, n ∈ N, n ≥ k setzen wir n! n := k k!(n − k)! und lesen „n über k“ oder „k aus n“. Definition 2.19. Sei M eine Menge. Die Auswahl von k Elementen von M ohne Beachtung der Reihenfolge und ohne Wiederholung von Elementen heißt Kombination zur k-ten Klasse. Satz 2.20. Seien n, k ∈ N, 0 < k ≤ n. Dann gibt es n n Ck = k Kombinationen einer n-elementigen Menge zur k-ten Klasse. 29 2 Zahlen Beispiel 2.21. Bei „6 aus 49“ sind sechs Zahlen aus 49 ohne Wiederholung (d. h. ohne Zurücklegen) zu ziehen. Die Anzahl ist C649 = 49! 49 · 48 · 47 · 46 · 45 · 44 = = 13 983 816 . 6!(49 − 6)! 6·5·4·3·2·1 Hier sehen wir auch einen Trick: Nicht 49! ausrechnen, sondern mit (49 − 6)! kürzen! Beispiel 2.22. Aus {1, 2, 3, 4, 5, 6} sind 4 Zahlen ohne Wiederholung und ohne Beachtung der Reihenfolge auszuwählen. Die Anzahl der möglichen Auswahlen ist 6 6·5·4·3 6 C4 = = = 15 , 4 1·2·3·4 und zwar gibt es folgende Auswahlen: {1, 2, 3, 4}, {1, 2, 3, 5}, {1, 2, 3, 6}, {1, 2, 4, 5}, {1, 2, 4, 6}, {1, 2, 5, 6}, {1, 3, 4, 5}, {1, 3, 4, 6}, {1, 3, 5, 6}, {1, 4, 5, 6}, {2, 3, 4, 5}, {2, 3, 4, 6}, {2, 3, 5, 6}, {2, 4, 5, 6}, {3, 4, 5, 6} . Beispiel 2.23. Ein zehnköpfiges Leistungsgremium habe zwei gleichberechtigte Sprecher zu wählen. Es gibt hierfür C210 Möglichkeiten für diese Wahl. = 10 10 · 9 = = 45 2 1·2 Rechenregeln für 1 ≤ k ≤ n: n n n n n n n+1 n n = = 1, = = n, = , = + . 0 n 1 n−1 k n−k k k−1 k Diese Formeln sind Grundlage für das Pascalsche 0 1 0 1 1 k 2 1 2 k 3 1 3 k 4 1 4 6 k 5 1 5 10 k .. .. . . Dreieck: 1 1 3 1 4 10 1 5 Folgerung 2.24. Seien n, k ∈ N, 0 < k ≤ n. Dann gibt es Teilmengen einer n-elementigen Menge. 30 1 n k verschiedene, k-elementige 2.3 Rationale und Reelle Zahlen 2.2.3.2 Auswahl ohne Beachtung der Reihenfolge und mit Wiederholung Es sind k ≤ n Objekte aus n Objekten ohne Beachtung der Reihenfolge aber mit zugelassener Wiederholung auszuwählen. Diese Anzahl ist komplizierter herzuleiten und sei nur der Vollständigkeit halber angegeben: n+k−1 W n Ck = . k 2.2.4 Zusammenfassung Permutation anordnen ohne Wiederh. mit Wiederh. n! = n · (n − 1) · · · · · 1 n! ℓ1 !·ℓ2 !·····ℓk ! Variation Kombination k aus n auswählen mit Reihenfolge ohne Reihenfolge n n! n! n = nk Vk = (n−k)! = k · k! Ckn = k!(n−k)! WV n = nk WC n = n+k−1 k k k 2.3 Rationale und Reelle Zahlen 2.3.1 Weitere Zahlenbereiche Der Aufbau weiterer Zahlenbereiche lässt sich in folgendem Schema darstellen: N = {0, 1, 2, ...} Menge der natürlichen Zahlen a, b ∈ N a+b∈N a·b∈N (Addition) (Multiplikation) ↓ Z = {..., −2, −1, 0, 1, 2, ...} Menge der ganzen Zahlen a, b ∈ Z a + b ∈ Z, a · b ∈ Z a−b∈Z (Subtraktion) ↓ Q = { pq | p ∈ Z ∨ q ∈ Z \ {0}} Menge der rationalen Zahlen a, b ∈ Q, a − b ∈ Q, a + b ∈ Q, a · b ∈ Q, a : b ∈ Q für b 6= 0 (Division) ↓ R Menge aller reellen Zahlen (Menge der Dezimalbrüche) a, b ∈ R, a − b ∈ R a + b ∈ R, a · b ∈ R a : b ∈ R (für b 6= 0) 31 30.10.09 2 Zahlen 2.3.2 Gemeinsame Eigenschaften der rationalen und reellen Zahlen Im Folgenden sei K ∈ {Q, R}, K sei also die Menge der rationalen bzw. der reellen Zahlen. 2.3.2.1 Algebraische Eigenschaften Die Addition „+“ und die Multiplikation „·“ besitzen folgende Eigenschaften: ∀x, y ∈ K : x + y = y + x ∀x, y ∈ K : x · y = y · x ∀x, y, z ∈ K : x + (y + z) = (x + y) + z ∀x, y, z ∈ K : x · (y · z) = (x · y) · z ∀x, y, z ∈ K : x · (y + z) = x · y + x · z ∀x ∈ K : x + 0 = x, 1 · x = x ∀x ∈ K : ∃=1 − x ∈ K : x + (−x) = 0 ∀x ∈ K \ {0}∃=1 x−1 ∈ K : x−1 · x = 1) (Kommutativgesetze) (Assoziativgesetze) (Distributivgesetz) (neutrale Elemente 0 bzw. 1 (additiv inverse Zahl) (multiplikativ inverse Zahl) Definition 2.25. Eine Menge K mit Operationen + und · und Elementen 0 6= 1 und obigen Gesetzen heißt (Zahlen-) Körper . Zahlenkörper sind also die Mengen, in denen wir „richtig“ rechnen können, in dem Sinne, dass alle aus der Schule bekannten Rechenregeln gelten. Wir werden später die komplexen Zahlen als einen weiteren Körper kennenlernen. In einem Körper sind Subtraktion und Division über Addition bzw. Multiplikation definiert: x − y := x + (−y) , x : y := x · y −1 , die Division aber nur für y 6= 0. Weitere Gesetze wie 0 · x = 0 und −1 · x = −x folgen aus den Körpergesetzen. Bemerkung 2.26. Wenn man unter Beihaltung der bisherigen Eigenschaften von Addition und Multiplikation eine Division durch 0 definieren will, so folgt 0 = 1 und weiter K = {0}, was nicht sehr nützlich wäre. 2.3.2.2 Ordnungseigenschaften In K ∈ {Q, R} gibt es eine Ordnungsrelation ≤ und eine Relation < definiert durch x<y mit folgenden Eigenschaften: 32 :⇔ x≤y und x 6= y 2.3 Rationale und Reelle Zahlen ∀x ∈ K : x ≤ x ∀x, y ∈ K : (x ≤ y ∧ y ≤ x) ⇒ x = y ∀x, y, z ∈ K : (x ≤ y ∧ y ≤ z) ⇒ x ≤ z ∀x, y ∈ K : x ≤ y ∨ y ≤ x ∀x, y ∈ K : x < y ⇒ ∃u ∈ K(x < u < y) ∀x, y, z ∈ K : x < y ⇔ x + z < y + z ∀x, y, z ∈ K : z > 0 ⇒ (x < y ⇔ x · z < y · z) (Reflexivität) (Antisymmetrie) (Transitivität) (totale Ordnung) (Dichtheit) (Verträglichkeit mit Addition) (Verträglichkeit mit Multipl.) Damit gilt die Trichotomie-Eigenschaft: Für je zwei Zahlen x, y ∈ K gilt genau eine der drei Beziehungen x<y, x=y, x>y. Eine Zahl x ∈ K heißt positiv , nichtnegativ , nichtpositiv bzw. negativ , wenn x > 0, x ≥ 0, x ≤ 0 bzw. x < 0. Definition 2.27. Ein Körper K mit einer Ordnungsrelation mit obigen Eigenschaften heißt total angeordneter Körper . Q und R sind also total angeordnete Körper. Der Körper C der komplexen Zahlen wird sich hingegen als nicht anordenbar erweisen. 2.3.3 Unterschiede der rationalen und reellen Zahlen Bezüglich der algebraischen und Ordnungseigenschaften gibt es keine Unterschiede zwischen den rationalen und den reellen Zahlen. Die Erweiterung der rationalen Zahlen zu den reellen Zahlen ist jedoch notwendig, da allein schon Rechtecke mit rationalen Seitenlängen keine rationale Diagonalenlänge haben müssen. Beispiel 2.28. Wir √ betrachten √ ein Quadrat mit der Seitenlänge 1. Dann ist nach dem Satz von Pythagoras 12 + 12 = 2 die Diagonalenlänge dieses Quadrates. √ √ Angenommen, 2 wäre rational. Dann gibt es ganze Zahlen p und q mit q 6= 0 und 2 = pq . Ohne Beschränkung der Allgemeinheit können wir annehmen, dass p und q teilerfremd sind: Anderfalls teilen wir p und q durch ihren größten gemeinsamen Teiler. Durch Quadrieren und Multiplikation mit q 2 folgt nun 2q 2 = p2 , (2.2) Wegen p2 eine gerade Zahl ist. Da das Quadrat ungerader Zahlen ungerade ist, muss p folglich eine gerade Zahl sein, d. h. es existiert eine ganze Zahl p0 mit p = 2 · p0 . Setzen wir dies in (2.2) ein und dividieren dann durch 2, so folgt q 2 = 2p20 , weswegen auch q gerade sein muss, im Widerspruch zur Teilerfremdheit von p und q. Folglich √ ist die Annahme, 2 wäre rational, falsch. Durch die Erweiterung der rationalen Zahlen zu den reellen Zahlen wird erst die Definition von Potenz- und Exponentialfunktion und weiterer Funktionen möglich. 33 2 Zahlen 2.4 Rechnen mit Gleichungen und Ungleichungen Ein Grundproblem der Mathematik ist die Ermittelung aller Lösungen von Systemen von Gleichungen und Ungleichungen. Am günstigsten ist immer eine äquivalente Umformung von Gleichungen und Ungleichungen. 2.4.1 Äquivalente Umformungen Äquivalente Umformungen sind Umformungen, welche die Lösungsmenge nicht verändern. Nichtäquivalente Umformungen führen zu einer Änderung der Lösungsmenge der Gleichungen oder Ungleichungen: Es können scheinbar Lösungen hinzukommen aber es können auch Lösungen verloren gehen. Folgende Regeln zur äquivalenten Umformung (für a, b, x, y, p, q ∈ R beliebig) ergeben sich aus den Eigenschaften der reellen Zahlen: x=y x≤y x≤y ⇔ ⇔ ⇔ x=y ⇔ x≤y ⇔ 0<x≤y ⇔ x+a=y+a x+a≤y+a x+a≤y+b, falls a ≤ b ax = ay , falls a 6= 0 ( ax ≤ ay , falls a > 0 ax ≥ ay , falls a < 0 1 1 0< ≤ . y x Folgende Regeln können zur Lösung von Gleichungen genutzt werden: xy = 0 x2 = a2 x2 + px + q = 0 ⇔ ⇔ ⇔ x = 0 oder y = 0 x = a oder x = −a r r p p p2 p2 − q oder x = − − −q, x=− + 2 4 2 4 wenn p2 ≥ 4q. Beispiel 2.29. Man bestimme die Lösungsmenge L der folgenden Gleichung (x − 2)2 + x = 2 . 34 2.4 Rechnen mit Gleichungen und Ungleichungen Es gibt mehrere Lösungsweg, einer davon ist der folgende: (x − 2)2 + x = 2 ⇔ x2 − 4x + 4 + x = 2 x2 − 3x + 2 = 0 ⇔ r −3 9 + −2=2 x= − 2 4 r −3 9 oder x = − − −2=1, 2 4 ⇒ und damit L = {1, 2}. 2.4.2 Rechnen mit Beträgen Das Rechnen mit Beträgen wird vom Anwender oft als unangenehm empfunden, da der Begriff "Betrag" zweigeteilt definiert ist. Man kann aber alle Schwierigkeiten ausräumen, wenn man sich stur an die Definition und die Rechenregeln hält. Diese seien im folgenden benannt. Definition 2.30. Für eine reelle Zahl a ∈ R wird der Betrag von a festgesetzt durch |a| := a, falls a ≥ 0 und |a| := −a, falls a < 0. Beispiel 2.31. Es gilt |3| = 3, aber auch | − 3| = 3 = −(−3). Rechenregeln (für a, b, x ∈ R beliebig): | − a| = |a| −|a| ≤ a ≤ |a| |a · b| = |a| · |b| 1 = 1 (a 6= 0) a |a| |a + b| ≤ |a| + |b| |a| ≤ |b| |x − a| ≤ b √ ⇔ ⇔ a2 = |a| (Dreiecksungleichung) −b ≤ a ≤ b oder b ≤ a ≤ −b a−b≤x≤a+b |a|2 = a2 Beispiel 2.32. Es sei A = {x | |x − 2| < 3}. Wegen ( ( x<5 für x ≥ 2 x−2<3 für x − 2 ≥ 0 ⇐⇒ |x − 2| < 3 ⇐⇒ x > −1 für x < 2 −x + 2 < 3 für x − 2 < 0 folgt A = {x | −1 < x < 5}. 35 2 Zahlen Beispiel 2.33. Ein Unternehmen legt fest, dass der Preis x einer Ware höchstens 20% (von x) gegenüber dem unverbindlichen Richtpreis von 48 e variieren darf. Für die Preisspanne gilt also |x − 48| ≤ 0.2 · x Für x ≥ 48 ergibt sich x − 48 ≤ 0.2 · x , 0.8x ≤ 48 , x ≤ 60 . Für x < 48 ergibt sich 48 − x ≤ 0.2 · x , 1.2 · x ≥ 48 , x ≥ 40 . Das heißt, für den Preis x ergibt sich die Spanne 40 ≤ x ≤ 60 . Eine Auflösung komplizierterer Betragsungleichungen geschieht in der Regel durch Fallunterscheidung oder durch Veranschaulichung auf der Zahlengeraden. Beispiel 2.34. Man bestimme die Lösungsmenge L von |x + 1| + |x − 1| ≤ 2 . Fallunterscheidung: 1. Fall: x < −1. Dann gilt |x + 1| + |x − 1| ≤ 2 ⇔ −(x + 1) − (x − 1) ≤ 2 ⇔ x ≥ −1 , (x + 1) − (x − 1) ≤ 2 ⇔ 2≤2, (x + 1) + (x − 1) ≤ 2 ⇔ x≤1, und daher L1 = ] − ∞, −1[ ∩ [−1, ∞[ = ∅. 2. Fall: −1 ≤ x < 1. Dann gilt |x + 1| + |x − 1| ≤ 2 ⇔ und daher L2 = [−1, 1[ ∩ R = [−1, 1[. 3. Fall: 1 ≤ x. Dann gilt |x + 1| + |x − 1| ≤ 2 ⇔ und daher L3 = [1, ∞[ ∩ ] − ∞, 1] = {1}. Zusammengefasst: L = L1 ∪ L2 ∪ L3 = [−1, 1]. 2.5 Weitere Definitionen und Aussagen 2.5.1 Summen und Produkte Für vorgegebene Zahlen ak , ak+1 , . . . , an , . . . ∈ R setzen wir rekursiv fest: 36 2.5 Weitere Definitionen und Aussagen n X i=k n Y n X ai := 0 für n < k , i=k n Y ai := 1 für n < k , i=k i=k ai := an + ai = an · n−1 X i=k n−1 Y ai = ak + · · · + an für n ≥ k , ai = ak · · · · · an für n ≥ k . i=k Aus der Dreiecksungleichung folgt mit vollständiger Induktion: n n X X |ai | . ai ≤ i=0 i=0 Beispiel 2.35. Für n ∈ N gilt n! = n Y i. i=1 Satz 2.36 (Binomischer Lehrsatz). Für a, b ∈ R und n ∈ N gilt n X n k n−k n (a + b) = a b . k k=0 Folgerungen: n n 2 = (1 + 1) = n X n k=0 k k n−k 1 1 = n X n k=0 k , n (1 + x) = n X n k=0 k xk . Folgerung 2.37. Sei n ∈ N>0 . Dann hat die Potenzmenge 2M einer n-elementigen Menge 2n Elemente. 2.5.2 Potenzen und Wurzeln Wir definieren hier die Potenzen mit reellen Exponenten. Definition 2.38. Für x ∈ R werden n-ten Potzenz xn rekursiv definiert durch x0 = 1 , xk+1 = x · xk . Definition 2.39. Für x ∈ R≥0 und n ∈ N≥1 ist die n-te Wurzel nichtnegative Lösung der Gleichung w der Gleichung wn = x. √ n x definiert als die 37 2 Zahlen Definition 2.40. Für x ∈ R>0 und r ∈ Q≥0 , r = pq mit p, q ∈ N≥1 , definieren wir die Potenzen mit rationalen Exponenten durch p √ p 1 xr := x q := q x und x−r := r . x Durch einen Grenzübergang kann die Definition von rationalen zu reellen Exponenten ausgedehnt werden. Die Definition kann zum Teil auch auf nichtpositive Basen fortgesetzt werden. Die Potenzen zu positiven Basen a, b genügen folgenden Potenzgesetzen: ar · as = ar+s , ar /as = ar−s , ar br = (ab)r , ar /br = (a/b)r , (ar )s = ars . Bemerkung 2.41. Die Potenzgesetze gelten nicht für negative Basen. Zum Beispiel gilt für x ∈ R und nicht √ √ x2 = |x| x2 = x (häufiger Fehler!), z.B. p (−1)2 = 1. 2.5.3 Logarithmen Definition 2.42. Es seien a > 0, a 6= 1, b > 0. Wir definieren den Logarithmus von b zur Basis a als die Lösung x der Gleichung ax = b. Bemerkung 2.43. Es gilt also nach Definition aloga b = b . (2.3) Aus den Potenzgesetzen ergeben sich folgende Logarithmengesetze für a, b > 0, 6= 1, x, y > 0, r ∈ R: loga b · logb a = 1 , r loga (x ) = r loga x , 06.11.09 loga (xy) = loga x + loga y , logb x = logb a · loga x . Übliche Basen sind 10, 2 (in der Informatik) und die irrationale Zahl e = 2.71828 . . .. 38 3 Matrizen und Determinanten 3.1 Matrizen 3.1.1 Matrizen und Gleichungssysteme Grundlegende Begriffe der „linearen Algebra“ und „linearen Optimierung“ sind die Begriffe Matrix, Vektor, Determinante und lineares Gleichungssystem. Beispiel 3.1. Ein volkswirtschaftlicher Bereich bestehe aus drei produzierenden Sektoren A1 , A2 und A3 , die durch Lieferströme untereinander verbunden sind und (nichtproduzierende) Endverbraucher E. xij sei die Lieferung, die Aj von Ai erhält, i, j = 1, 2, 3. yi sei die Lieferung, die E von Ai erhält, i = 1, 2, 3. Dies kann auch durch die folgende Tabelle dargestellt werden: Lieferung von A1 von A2 von A3 an A1 x11 x21 x31 an A2 x12 x22 x32 an A3 x13 x23 x33 an E y1 y2 y3 Für i = 1, 2, 3 sei nun xi die Gesamtproduktion (Output) von Ai , also x1 = x11 + x12 + x13 + y1 , x2 = x21 + x22 + x23 + y2 , (3.1) x3 = x31 + x32 + x33 + y3 . Definition 3.2. Ein rechteckiges Schema reeller Zahlen mit m Zeilen und n Spalten a11 a12 . . . a1n a21 a22 . . . a2n A= . .. .. .. . ... . am1 am2 . . . amn heißt m × n-Matrix oder Matrix vom Typ m × n. Die Menge aller reellen m × n-Matrizen wird mit Rm×n bezeichnet. 39 3 Matrizen und Determinanten Definition 3.3. Eine m × 1-Matrix heißt auch m-dimensionaler (Spalten-)Vektor. Eine 1 × n-Matrix heißt auch n-dimensionaler Zeilenvektor. Die n Spaltenvektoren a1n a11 a2n a21 , . . . , .. ∈ Rm×1 .. . . amn am1 bzw. die m Zeilenvektoren a11 a12 . . . a1n , . . . , am1 am2 . . . amn ∈ R1×n heißen Spalten bzw. Zeilen von A. Bemerkung 3.4. Wir betrachten die Menge Rn der reellen n-Tupel. Offenbar unterscheiden sich ein n-Tupel (a1 , . . . , an ) ∈ Rn und ein n-dimensionaler Zeilenvektor a1 a2 . . . an ∈ R1×n sowie ein n-dimensionaler Spaltenvektor a1 a2 .. ∈ Rn×1 . . an Es ist aber sinnvoll, die in der mehrdimensionalen Analysis verwendeten n-Tupel mit den in der Algebra verwendeten n-dimensionalen Spaltenvektoren zu identifizieren: a1 a2 n≥2 n≥2 (a1 , . . . , an ) = . 6= a1 a2 . . . an , Rn = Rn×1 6= R1×n . .. an Beispiel 3.5. (Fortsetzung von Beispiel 3.1). Das rechteckige Schema x11 x12 x13 x21 x22 x23 ∈ R3×3 x31 x23 x33 40 3.1 Matrizen ist eine 3 × 3-Matrix. Die dreizeilige Spalte y1 y = y2 ∈ R3×1 = R3 y3 ist ein 3-dimensionaler Spaltenvektor oder eine 3 × 1-Matrix. Die dreispaltige Zeile x11 x12 x13 y1 ∈ R1×4 ist ein 4-dimensionaler Zeilenvektor oder eine 1 × 4-Matrix. Beispiel 3.6. (Fortsetzung von Beispiel 3.1). Setzt man die Menge xij , die Ai an Aj liefert ins Verhältnis zur Gesamtmenge xj , die Aj produziert, so erhält man die Liefermenge von Ai an Aj , die zur Produktion einer Einheit von Aj erforderlich ist, zij = xij xj für i, j = 1, 2, 3 . Die Zahlen zij heißen Produktionskoeffizienten oder Input-Output-Koeffizienten und können in der Praxis oftmals bestimmt oder geschätzt werden. Hierbei ist zii der prozentualen Anteil der „Lieferung von Ai an sich selbst“, der nötig ist, um eine Einheit zu produzieren. Die Produktion macht natürlich nur Sinn, wenn zii < 1 gilt. Aus (3.1) und den Beziehungen xij = xj · zij erhalten wir die sogenannte Output-Bilanz x1 = z11 x1 + z12 x2 + z13 x3 + y1 x2 = z21 x1 + z22 x2 + z23 x3 + y2 (O) x3 = z31 x1 + z32 x2 + z33 x3 + y3 . Durch Umstellen erhält man das lineare Gleichungssystem (1 − z11 )x1 −z12 x2 −z21 x1 +(1 − z22 )x2 −z31 x1 −z13 x3 = y1 −z23 x3 = y2 (L) −z32 x2 +(1 − z33 )x3 = y3 , welches ein spezielles Leontief-Modell darstellt. 41 3 Matrizen und Determinanten Definition 3.7. Es seien aij und bj für i = 1, . . . , m, j = 1, . . . , n reelle Zahlen. Dann heißt a11 x1 + a12 x2 +· · ·+ a1n xn = b1 (G) a21 x1 + a22 x2 +· · ·+ a2n xn = b2 .. .. . . am1 x1 +am2 x2 +· · ·+amn xn = bm ein lineares Gleichungssystem mit m Gleichungen und n Unbekannten. Die m×n-Matrix A und die Spaltenvektoren b ∈ Rm und x ∈ Rn mit x1 b1 a11 a12 · · · a1n b2 x2 a21 a22 · · · a2n A = (aij )i=1,...,m;j=1...,n = . .. , b = .. , x = .. . .. . . am1 am2 · · · amn bm xn heißen Koeffizientenmatrix , rechte Seite oder Vektor der Absolutglieder bzw. Vektor der Unbekannten von (G). Jeder Vektor der Unbekannten x, welcher den Gleichungen (G) genügt, heißt Lösung des linearen Gleichungssystems (G). Bemerkung 3.8. Zu untersuchen ist nun: Unter welchen Voraussetzungen an A und b ist (G) lösbar? Welche Struktur besitzt die Lösungsmenge von (G)? Mit welchem Verfahren kann über die Lösbarkeit von (G) entschieden werden und wie kann die Lösungsmenge von (G) bestimmt werden? Definition 3.9. Es sei A = (aij )i=1,...,3;j=1...,3 eine 3 × 3-Matrix. Dann a11 det A = det a21 a31 heißt a11 a12 a13 = a21 a22 a23 a31 a32 a33 a11 a12 a13 a12 a13 a22 a23 = a21 a22 a23 a31 a32 a33 a32 a33 := a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a11 a23 a32 − a12 a21 a33 − a13 a22 a31 (dreireihige) Determinante von A. 42 3.1 Matrizen Bemerkung 3.10. Der Wert für det A ergibt sich in einfacher Weise nach der Sarrus-Regel als Differenz der Summe der Produkte parallel zur Hauptdiagonale (ցցց) und der Summe über die Produkte parallel zur Nebendiagonalen (ւււ), wenn man die ersten beiden Spalten nochmals anfügt. Beispiel 3.11. Wir setzen Beispiel 3.1 fort. Durch einfache, jedoch etwas aufwändige Rechnung ergibt sich, dass die Lösung von (L) für den jeweiligen Output x1 , x2 , x3 der Sektoren A1 , A2 , A3 bei vorgegebenen Lieferungen y1 , y2 , y3 an die Endverbraucher sich genau dann ergibt als 1 − z11 y1 −z13 y1 −z12 −z 13 −z21 y2 −z23 y2 1 − z22 −z23 −z31 y3 1 − z33 y3 −z32 1 − z33 , x2 = , x1 = 1 − z11 −z12 1 − z11 −z12 −z −z 13 13 −z21 1 − z22 −z23 −z21 1 − z22 −z23 −z31 −z31 −z32 1 − z33 −z32 1 − z33 1 − z11 −z12 y1 −z21 1 − z22 y2 1 − z11 −z12 −z13 −z31 −z32 y3 , falls −z21 1 − z22 −z23 6= 0 . x3 = 1 − z11 −z12 −z 13 −z31 −z32 1 − z33 −z21 1 − z22 −z23 −z31 −z32 1 − z33 3.1.2 Spezielle Matrizen Definition 3.12. Jede Matrix 0n×m ∈ Rm×n , deren Koeffizienten alle Null sind, heißt Nullmatrix, 0 ··· 0 .. . 0 = 0n×m = ... . 0 ··· 0 Definition 3.13. Es sei A eine m×n-Matrix. Die zu A transponierte Matrix A⊤ (sprich: A transponiert) ist diejenige n × m-Matrix, die durch Vertauschen der Zeilen von A mit den Spalten entsteht: a11 a12 · · · a1n a11 a21 · · · am1 a12 a22 · · · am2 a21 a22 · · · a2n A= . , A⊤ = . . . .. .. . . . . . . . . . . . am1 am2 · · · amn a1n a2n · · · amn 43 3 Matrizen und Determinanten Beispiel 3.14. 2 1 A = 3 2 , 0 6 ⊤ A = 2 3 0 . 1 2 6 Definition 3.15. Eine n × n-Matrix A heißt (n-reihige) quadratische Matrix. Eine quadratische Matrix mit A = A⊤ heißt A symmetrische Matrix. 3 2 1 Beispiel 3.16. Die Matrix A = 2 0 6 ist symmetrisch, da sie quadratisch ist und 1 6 −3 A = A⊤ gilt. Definition 3.17. Die symmetrische Matrix n × n-Matrix 1 0 ··· 0 ( .. 0 1 . mit eij = 1, E = En = (eij )i,j=1,...,n = .. . . . 0 0, . 0 ··· 0 1 heißt n-reihige Einheitsmatrix . 44 i=j i 6= j 3.1 Matrizen 3.1.3 Addition und Subtraktion von Matrizen Definition 3.18. Es seien a11 a12 a21 a22 A= . .. .. . am1 am2 a1n b11 b12 · · · b1n b21 b22 · · · b2n a2n und B = .. .. .. .. . . . . · · · amn bm1 bm2 · · · bmn ··· ··· m × n-Matrizen. Dann heißen die m × n-Matrizen a11 + b11 a12 + b12 a21 + b21 a22 + b22 A + B := .. .. . . ··· ··· a1n + b1n a2n + b2n .. . , am1 + bm1 am2 + bm2 · · · amn + bmn a11 − b11 a12 − b12 · · · a1n − b1n a21 − b21 a22 − b22 · · · a2n − b2n A − B := .. .. .. . . . am1 − bm1 am2 − bm2 · · · amn − bmn die Summe bzw. die Differenz von A und B. Beispiel 3.19. −1 3 2 0 + 4 2 8 2 −1 3 2 0 − 4 2 8 2 3 7 0 6 3 7 0 6 = = 2 5 7 , 6 8 8 4 −1 −7 . −2 8 −4 Bemerkung 3.20. Summe und Differenz von Matrizen sind nicht definiert, wenn die Matrizen verschiedenen Typ haben. Beispiel 3.21. Ein Unternehmen stellt vier Produkte E1 , E2 , E3 , E4 her und liefert sie an drei Verkäufer V1 , V2 , V3 . Die Stückzahlen der Lieferungen in zwei Quartalen eines 1. Halbjahres werden durch zwei 3 × 4-Matrizen A1 und A2 angegeben: Lief. 1. Qu. E1 E2 E3 E4 V1 17 23 45 58 A1 : 101 34 16 17 V2 13 51 53 42 V3 Lief. 2. Qu. E1 E2 E3 E4 V1 18 29 46 59 A2 : 120 37 18 19 V2 14 53 60 50 V3 Damit gibt A1 + A2 die Lieferungen für das Halbjahr und A2 − A1 gibt den Zuwachs im 2. 45 3 Matrizen und Determinanten Halbjahr gegenüber dem 1. Quartal an: Lief. 1. Halbj. E1 E2 E3 E4 V1 35 52 91 117 221 71 34 36 V2 V3 27 104 113 92 Zuwachs 2. Qu. E1 E2 E3 E4 V1 1 6 1 1 19 3 2 2 V2 V3 1 2 7 8 Satz 3.22. Sind A, B, C und die Nullmatrix 0 vom gleichen Typ, so gelten folgende Rechenregeln: • A + 0 = A (0 - Nullmatrix). • A + B = B + A (Kommutativgesetz). • (A + B) + C = A + (B + C) (Assoziativgesetz). • (A + B)⊤ = A⊤ + B ⊤ . 3.1.4 Multiplikation mit einer reellen Zahl (Skalar) Definition 3.23. Es seien λ eine reelle Zahl und A = (aij )i=1,...,m; Matrix. Dann heißt die Matrix λA := (λaij )i=1,...,m; j=1,...,n eine m × n- j=1,...,n λ-faches von A oder Produkt der Zahl λ mit der Matrix A. Beispiel 3.24. (Fortsetzung von Beispiel 3.21) Kann der Unternehmer den durch A2 − A1 gegebenen Zuwachs im dritten Quartal verdoppeln, d. h. gilt A3 − A2 = 2(A2 − A1 ) , wobei A3 die Lieferungen im dritten Quartal beinhaltet, so gilt für A3 − A2 und A3 = (A3 − A2 ) + A2 : Zuwachs 3. Qu. E1 E2 E3 E4 V1 2 12 2 2 A3 − A2 : 38 6 4 4 V2 2 4 14 16 V3 13.11.09 Lief. 3. Qu. E1 E2 E3 E4 V1 20 41 48 61 A3 : 158 43 22 23 V2 16 57 74 66 V3 Satz 3.25. Für die Multiplikation von reellen Zahlen λ, µ mit Matrizen A, B gleichen Typs gelten (λµ)A = λ(µA) , (λ + µ)A = λA + µA , λ(A + B) = λA + λB . 46 3.1 Matrizen 3.1.5 Multiplikation von Matrizen Definition 3.26. Es seien A eine m × p-Matrix und a11 a12 · · · a1p b11 a21 a22 · · · a2p b21 A·B = . .. .. · .. . . . . . am1 am2 · · · amp bp1 a11 b11 + · · · + a1p bp1 · · · .. := . B eine p × n-Matrix. Dann heißt b12 · · · b1n b22 · · · b2n .. .. . . bp2 · · · bpn a11 b1n + · · · + a1p bpn .. . am1 b11 + · · · + amp bp1 · · · am1 b1n + · · · + amp bpn das Produkt der Matrizen A und B (oder: Produktmatrix von A und B). Satz 3.27. Es gilt mit C = (cik )i=1,...,m; A·B =C und cik = p X l=1 ail · blk k=1,...,n für i = 1, ..., m und k = 1, ..., n . Bemerkung 3.28. Der Koeffizient cik der Produktmatrix C = A · B ist folglich das Skalar produkt des i-ten Zeilenvektors ai1 ai2 · · · aip von A und des k-ten Spaltenvektors ⊤ b1k b2k · · · bpk von B, d. h. es gilt ai1 ai2 b1k b2k · · · aip . = ai1 b1k + ai2 b2k + · · · + aip bpk = cik . .. bpk 4 7 6 0 3 . Dann gilt ,B= Beispiel 3.29. Es seien A = −2 3 1 4 2 −6 9 3 . A·B = 12 34 26 0 −1 1 −1 . Dann gilt ,B= Beispiel 3.30. Es seien A = 1 0 −1 1 1 −1 −1 −1 =B·A. 6= A·B = 1 −1 1 1 47 3 Matrizen und Determinanten Beispiel 3.31. Materialverflechtungsmatrizen: Aus vier Rohstoffen R1 , R2 , R3 , R4 werden über drei Zwischenprodukte Z1 , Z2 , Z3 zwei Endprodukte E1 und E2 hergestellt: Z A: 1 Z2 Z3 R1 R2 R3 R4 14 6 3 2 0 1 2 1 3 7 1 10 B : E1 E2 Z1 Z2 Z3 6 9 11 3 2 7 Der Betrieb benötigt z. B. 6 Einheiten des Rohstoffes R2 , um eine Einheit des Zwischenproduktes Z1 herzustellen; und z. B. 11 Einheiten des Zwischenproduktes Z3 um 1 Einheit des Endproduktes E1 herzustellen. Die Koeffizienten cik , i = 1, ..., 4; k = 1, 2, der 4 × 2-Produktmatrix 14 6 3 2 117 122 47 131 6 9 11 , · 0 1 2 1= C :=B·A= 63 69 20 78 3 2 7 3 7 1 10 C: R1 R2 R3 R4 E1 117 122 47 131 E2 63 69 20 78 geben die Einheiten des Rohstoffs Ri , i = 1, ..., 4, an, die zur Herstellung einer Einheit des Endproduktes Ek , k = 1, 2, erforderlich sind. So benötigt man z. B. für 1 Einheit von E1 6 Einheiten von Z1 und 11 Einheiten von Z3 , die zu ihrer Produktion wiederum 6 · 14 + 3 · 11 = 117 Einheiten von R1 erforderlich machen. Beispiel 3.32. Übergangsmatrizen in der Marktforschung: Es seien P1 , P2 , P3 Produkte mit den Marktanteilen von 0.6, 0.3 bzw. 0.1 zu einem Zeitpunkt T0 . Die Zahl aik mit 0 ≤ aik ≤ 1 sei der Anteil der Käufer von Produkt Pi zum Zeitpunkt T1 , der zum Zeitpunkt T0 das Produkt Pk gewählt hatten. Dann heißt die quadratische Matrix A = (aik )i,k=1,2,3 die Matrix der Käuferfluktuation. Dabei ist z. B. a22 ·100% die prozentuale Markentreue und (a12 + a32 ) · 100% ist der prozentuale Markenwechsel bzgl. P2 . Beschreibt beispielsweise 0.6 0.1 0.3 A = 0.1 0.9 0.0 0.4 0.4 0.2 jeweils die Matrix der Käuferfluktuation von T0 zu T1 und von Zeitpunkt T1 zum Zeitpunkt T2 , so beschreibt A · A =: A2 die Matrix der Kundenfluktuationen vom Zeitpunkt T0 zum Zeitpunkt T2 : 0.6 0.1 0.3 0.6 0.1 0.3 0.49 0.27 0.24 A2 = 0.1 0.9 0.0 0.1 0.9 0.0 = 0.15 0.82 0.03 0.4 0.4 0.2 0.4 0.4 0.2 0.36 0.48 0.16 48 3.1 Matrizen Die Marktanteile der Produkte P1 , P2 , P3 zum Zeitpunkt T0 haben sich im Zeitpunkt T2 folgendermaßen geändert: P1 : 0.6 → 0.375 , wie die Rechnung zeigt: P2 : 0.3 → 0.456 , P3 : 0.1 → 0.169 , 0.3774 0.6 0.49 0.15 0.24 0.27 0.82 0.03 · 0.3 = 0.4128 . 0.3856 0.1 0.36 0.48 0.16 Satz 3.33. Es seien A eine m × p-Matrix, B eine p × q-Matrix, C eine q × n-Matrix, D eine p × q Matrix und E die p- bzw. m-reihige Einheitsmatrix. Dann gelten (A · B) · C = A · (B · C) , A · (B + D) = A · B + A · D , (B + D) · C = B · C + D · C , A · E = A ,E · A = A , (A · B)⊤ = B ⊤ A⊤ . 3.1.6 Lineare Gleichungssysteme in Matrizen-Darstellung Wir kehren zum linearen Gleichungssystem (G) mit der Koeffizientenmatrix A ∈ Rm×n , der Seite b ∈ Rm = Rm×1 und dem Vektor der Unbekannten x ∈ Rn = Rn×1 zurück. Unter Verwendung der Matrizenmultiplikation lautet es nun A·x=b. (3.2) Betrachten wir das Leontief-Modell (L). Mit Z = (zij )i,j=1,2,3 , y = (y1 , y2 , y3 ), x = (x1 , x2 , x3 ) und der dreireihigen Einheitsmatrix E lautet es (E − Z) · x = y . Es ist also auch von der Form (3.2) mit A = E − Z und b = y. Zu klären wäre also, unter welchen Voraussetzungen an A und b das Gleichungssystem (3.2) lösbar ist und wie gegebenenfalls die Lösungsmenge bestimmt werden kann. Heuristik: Wenn es eine n × m-Matrix B derart gibt, dass B · A = En mit der n-reihige Einheitsmatrix En gilt, so folgt x = En · x = B · A · x = B · b , also x = B · b, d. h., wir hätten (G) gelöst. 49 3 Matrizen und Determinanten 3.1.7 Die inverse Matrix Für eine Zahl a ∈ R ist a−1 definiert als diejenige Zahl b ∈ R, mit der ab = 1 gilt. Ein solches b existiert genau dann, wenn a 6= 0 ist, und dann gilt auch ba = 1. Für eine quadratische m × m-Matrix A soll nun durch die analoge Gleichung (3.3) AB = E die inverse Matrix A−1 definiert werden. Definition 3.34. Die m × m-Matrix A heißt invertierbar, wenn es eine m × m-Matrix B gibt, so dass (3.3) gilt. Satz 3.35. Ist A invertierbar, so gibt es genau eine Matrix B mit (3.3). Definition 3.36. Ist A invertierbar, so heißt die Matrix B mit (3.3) die Inverse von A (oder zu A inverse Matrix) und wird mit A−1 bezeichnet. Bemerkung 3.37. 1. Neben (3.3) gilt dann auch B A = E; insgesamt gilt also A A−1 = A−1 A = E . (3.4) 2. Aus der Analogie zu den Zahlen darf man nicht schließen, dass jede quadratische Matrix A 6= 0 invertierbar sei. Beispiel 3.38. Gegeben sei eine 2-reihige Matrix a11 a12 A= . a21 a22 Die Matrix A ist genau dann invertierbar, wenn (3.5) a11 a22 − a12 a21 6= 0 , und es gilt dann −1 A 1 = a11 a22 − a12 a21 a22 −a12 −a21 a11 . Dies bestätigt man, indem man die Gültigkeit von (3.4) verifiziert. Bemerkung 3.39. Später werden wir sehen, dass die Bedingung (3.5) auch notwendig für die Existenz von A−1 bei einer 2 × 2 Matrix A ist. 50 3.2 Determinanten Hiermit ist z. B. die Matrix A = 1 0 1 0 nicht invertierbar. Satz 3.40. Für invertierbare m × m-Matrizen A, B gelten die folgenden Rechenregeln: (A−1 )−1 = A , (A−1 )⊤ = (A⊤ )−1 , (A B)−1 = B −1 A−1 . Bei der letzten Formel beachte man wieder die Änderung der Reihenfolge.Mittels der Inversen können wir nun gewisse Matrixgleichungen lösen. Beispiel 3.41. Gegeben seien eine invertierbare m × m-Matrix A und eine m × r-Matrix B. Gesucht ist eine m × r-Matrix X mit A X = B. Lösung. Es gilt (man beachte die jeweilige Rechenregel) AX =B ⇐⇒ ⇐⇒ A−1 (A X) = A−1 B X = A−1 B . ⇐⇒ (A−1 A)X = A−1 B ⇐⇒ E X = A−1 B 3.2 Determinanten 3.2.1 Der Begriff der Determinante Definition 3.42. Die Determinante det A einer n-reihigen (also quadratischen) Matrix A wird rekursiv definiert durch: • Für n = 1 gilt det A = a11 . • Für n ≥ 2 gilt a11 · · · a1n n X .. . . (−1)i+1 ai1 det Ai1 . det A = . . := i=1 an1 · · · ann Hierbei bezeichnet Ai1 , i = 1, . . . , n, die (n − 1)-reihige Matrix, die aus A durch Streichen der ersten Spalte und der i-ten Zeile entsteht. Bemerkung 3.43. 1. Für n = 2 erhalten wir die schon bekannte Formel det A = a11 a22 − a21 a12 . 2. Für n = 3 finden wir a22 a23 a12 a13 a12 a13 det A = a11 det − a21 det + a31 det a22 a23 a32 a33 a32 a33 20.11.09 = a11 (a22 a33 − a23 a32 ) − a21 (a12 a33 − a13 a32 ) + a31 (a12 a23 − a13 a22 ) , also ebenfalls die schon bekannte Formel. 51 3 Matrizen und Determinanten Beispiel 3.44. Es gilt 3 1 5 0 0 2 1 −1 det 0 4 −2 3 2 3 0 2 2 1 −1 1 5 0 = 3 · det 4 −2 3 − |{z} 0 · det 4 −2 3 |{z} 3 0 2 3 0 2 a11 a21 | | {z } {z } A11 A21 1 5 0 1 5 0 1 −1 2 · det 2 + |{z} 0 · det 2 1 −1 − |{z} 4 −2 3 3 0 2 a41 a31 | {z } {z } | A31 Weiter gilt det A11 = 2 · det −2 3 0 2 − 4 · det 1 −1 0 2 A41 + 3 · det 1 −1 −2 3 = 2 · [(−2) · 2 − 3 · 0] − 4 · [1 · 2 − (−1) · 0] + 3 · [1 · 3 − (−1) · (−2)] = −13 . det A21 und det A31 brauchen nicht berechnet zu werden, da sie mit Null multipliziert werden und somit keinen Beitrag liefern. Ferner gilt det A41 = −49 (nachrechnen!). Hiermit erhalten wir schließlich det A = 3 · (−13) − 2 · (−49) = 59 . Es sei nun A eine beliebige obere Dreiecksmatrix: a11 ∗ a22 A= (∗ : .. . 0 ann beliebige Elemente). Man erhält det A = a11 · det A11 − 0 · det A21 + · · · + (−1)n+1 · 0 · det An1 = a11 det A11 . Hierbei ist z. B. A11 = a22 0 .. . ∗ ann wieder eine obere Dreiecksmatrix. Daher ergibt sich hier: Satz 3.45. Für eine obere Dreiecksmatrix A ergibt sich die Determinante det A als Produkt der Hauptdiagonalelemente, det A = a11 a22 · · · ann . Die Determinante einer Dreiecksmatrix lässt sich also besonders einfach berechnen. 52 3.2 Determinanten 3.2.2 Das Rechnen mit Determinanten Definition 3.46. Sei A eine n × n-Matrix mit n ≥ 2. Mit Aik bezeichnen wir die (n − 1)reihige Matrix, die aus A durch Streichen der i-ten Zeile und der k-ten Spalte (also gerade der Zeile und Spalte, in der aik steht) entsteht. Satz 3.47 (Entwicklungssatz). Die Determinante det A einer n × n-Matrix A, n ≥ 2, kann durch Entwicklung nach einer beliebigen Spalte oder Zeile berechnet werden. Dabei bedeutet – Entwicklung nach der k-ten Spalte: n X det A = (−1)i+k aik det Aik , i=1 n – Entwicklung nach der i-ten Zeile: X det A = (−1)i+k aik det Aik . k=1 Bemerkung 3.48. 1. Die Vorzeichen (−1)i+k können nach dem „Schachbrettmuster“ ermittelt werden: + − + ··· − + − ··· + − + ··· . .. .. .. . . . . . . 2. Dieser Satz eignet sich zur Berechnung einer n-reihigen Determinante, falls n klein ist oder viele Elemente gleich 0 sind. Beispiel 3.49. Die Determinante der Matrix 1 3 4 A = 3 −2 2 0 2 0 berechnet man zweckmäßig durch Entwicklung nach der 3. Zeile und erhält: det A = 0 · det A31 − 2 · det | 1 4 +0 · det A33 = 20 . 3 2 {z } det A32 53 3 Matrizen und Determinanten Beispiel 3.50. Es gilt 1 2 0 0 0 0 3 0 0 0 0 4 3 0 0 0 0 3 7 −3 0 1 1 = 1 · 0 3 6 0 0 −1 3 = 1 · 3 0 0 0 0 7 −3 0 3 1 1 − 2 · 0 0 3 6 0 0 0 −1 1 1 3 3 6 = 1 · 3 · 3 0 0 −1 4 3 0 0 0 0 1 1 3 6 0 −1 6 = 1 · 3 · 3 · (−3) = −27 , −1 wobei stets nach der ersten Spalte entwickelt wurde. Es gilt aber auch 1 2 0 0 0 0 3 0 0 0 0 4 3 0 0 0 0 3 7 −3 0 1 1 = 1 · 0 3 6 0 0 −1 7 −3 3 1 1 1 1 = 1 · 3 · 0 3 6 3 6 0 0 −1 0 −1 3 1 = 1 · 3 · 3 · (−3) = −27 . = 1 · 3 · (−1) · 0 3 4 3 0 0 Wir betrachten eine n × n-Matrix A mit den Spalten s1 , . . . , sn , d. h., s1,1 · · · sn,1 ⊤ ··· ⊤ .. . A = (s1 , . . . , sn ) = s1 · · · sn = ... . ⊥ ··· ⊥ s1,n · · · sn,n Satz 3.51. 1. Vertauscht man zwei (verschiedene) Spalten si und sk , i 6= k, so wechselt die Determinante das Vorzeichen: det(s1 , . . . , si , . . . , sk , . . . , sn ) = − det(s1 , . . . , sk , . . . , si , . . . , sn ) . 2. Herausziehen eines gemeinsamen Faktors aus einer Spalte: det(s1 , . . . , α si , . . . , sn ) = α det(s1 , . . . , si , . . . , sn ) (α ∈ R) . 3. Addition zweier n-reihiger Determinanten, die sich nur in einer Spalte unterscheiden: det(s1 , . . . , si , . . . , sn ) + det(s1 , . . . , s′i , . . . , sn ) = det(s1 , . . . , si + s′i , . . . , sn ) . 4. Addition eines Vielfachen der k-ten Spalte zur i-ten Spalte, k 6= i, ändert die Determinanten nicht: det(s1 , . . . , si , . . . , sk , . . . , sn ) = det(s1 , . . . , si + αsk , . . . , sk , . . . , sn ) 54 (α ∈ R) . 3.2 Determinanten Satz 3.52. Eine Determinante ändert ihren Wert nicht, wenn man die Matrix transponiert, det A = det A⊤ . Bemerkung 3.53. Wegen Satz 3.52 gelten alle Eigenschaften aus Satz 3.51 daher auch für Zeilen. Satz 3.54. Für Matrizen n × n-Matrizen A, B gilt det(A B) = (det A)(det B) . Weiter haben wir: Satz 3.55 (Invertierbarkeitskriterium). Für n-reihige Matrizen A gilt A ist invertierbar Wenn det A 6= 0 gilt, so gilt ⇐⇒ det(A−1 ) = det A 6= 0 . 1 . det A Die zweite Aussage des Satzes folgt aus 1 = det E = det(A A−1 ) = (det A)(det A−1 ),wobei das dritte Gleichheitszeichen nach Satz 3.54 mit B := A−1 gilt. Beispiel 3.56. Für die Matrix A= a11 a12 a21 a22 gilt det A = a11 a22 − a12 a21 . Nach Satz 3.55 ist A also genau dann invertierbar, wenn a11 a22 − a12 a21 6= 0 gilt, vgl. Beispiel 3.38. 3.2.3 Anwendungen auf lineare Gleichungssysteme im Fall m = n Wir betrachten nun das lineare Gleichungssystem (3.2) mit m = n, d. h., Anzahl der Gleichungen (m) = Anzahl der Unbekannten (n), also ein lineares Gleichungssystem der Form a11 x1 .. . an1 x1 + · · · + a1n xn = b1 .. .. .. .. . . . . + · · · + ann xn = bn , (3.6) 55 3 Matrizen und Determinanten kurz Ax=b (3.7) mit einer Matrix A ∈ Rn×n und einem Spaltenvektor b ∈ Rn . Satz 3.57. Gegeben sei eine Matrix A ∈ Rn×n . Dann sind die folgenden Aussagen äquivalent: (a) Das homogene lineare Gleichungssystem A x = 0 hat nur die triviale Lösung x = 0. (b) Für jedes b ∈ Rn hat das inhomogene lineare Gleichungssystem A x = b genau eine Lösung x. (c) Die Matrix A ist invertierbar. (d) Es gilt det A 6= 0. Folgerung 3.58. Ist A invertierbar, so ist die Lösung x von (3.7) gegeben durch x = A−1 b . Satz 3.59. Für invertierbare n-reihige Matrizen A gilt ⊤ −1 i+k det Aik A = (−1) . det A i,k=1,...,n Beispiel 3.60. Die Lösung (x1 , x2 , x3 ) ∈ R3 des linearen Gleichungssystems x1 + 2x2 − x3 = b1 x2 + 2x3 = b2 −x1 + 3x2 + x3 = b3 ist für einen beliebigen Vektor (b1 , b2 , b3 ) ∈ R3 zu bestimmen. Lösung. Für 1 2 −1 2 A= 0 1 −1 3 1 56 (3.8) 3.2 Determinanten erhalten wir mit Satz 3.59 A−1 1 2 3 1 2 −1 1 − = 1 2 −1 3 1 0 1 2 2 −1 −1 3 1 1 2 1 1 ⊤ 1 1 2 5 − 10 2 1 1 1 = = 2 0 2 5 1 1 − 21 15 − 10 − 10 Nach (3.8) gilt folglich 1 x1 2 1 x2 = 5 1 x3 − 10 1 2 0 1 2 − 12 1 5 1 − 10 0 1 0 2 − −1 3 −1 1 1 −1 − 1 2 −1 3 −1 1 1 2 1 −1 − 0 1 0 2 1 − 21 2 1 0 . 5 1 1 2 − 10 1 b1 2 b1 + 1 b2 = 5 b1 1 b3 b1 + − 10 1 2 b2 1 2 b2 − + − ⊤ 1 2 b3 1 5 b3 1 10 b3 . Abschließend geben wir eine Lösungsdarstellung mittels Determinanten an. Satz 3.61 (Cramer-Regel). Ist A = (aik ) ∈ Rn×n invertierbar und das lineare Gleichungssystem (3.6) die Lösung x = (x1 , . . . , xn ) mit a11 . . . a1i−1 b1 a1i+1 . . . a1n 1 .. .. .. · det xi = . . . det A an1 . . . ani−1 bn ani+1 . . . ann gilt b ∈ Rn , dann hat , (3.9) d.h., zur Berechnung von xi wird die i-te Spalte von A durch b ersetzt, i = 1, . . . , n. Wegen des hohen Aufwandes bei der Determinantenberechnung hat diese Regel zur praktischen Lösung eines linearen Gleichungssystems nur für n ≤ 3 und in einigen Spezialfällen Bedeutung. Beispiel 3.62. Das lineare Gleichungssystem 2x1 + x2 − x3 = −6 x1 − 2x3 = −8 −x1 + 3x2 + 4x3 = 17 soll nach der Cramer-Regel gelöst werden. Lösung. Zunächst gilt 2 1 −1 det A = det 1 0 −2 = 7 . −1 3 4 57 3 Matrizen und Determinanten Wegen det A 6= 0 ist A invertierbar, also die Cramer-Regel anwendbar. Nach (3.9) gilt −6 1 −1 2 −6 −1 1 1 x1 = det −8 0 −2 = −2 , x2 = det 1 −8 −2 = 1 , 7 7 17 3 4 −1 17 4 2 1 −6 1 x3 = det 1 0 −8 = 3 . 7 −1 3 17 Das folgende Beispiel demonstriert, dass die Cramer-Regel aber auch für spezielle höherdimensionale Probleme sinnvoll eingesetzt werden kann: Beispiel 3.63. Betrachte das lineare Gleichungssystem 1 2 3 0 2 3 0 0 A x = b mit A = 3 0 2 1 , 0 1 0 2 Gesucht ist nur die zweite Komponente x2 der Lösung x. Lösung. Mit Entwicklung nach der vierten Zeile 1 2 1 3 0 det A = 1 det 2 0 0 + 2 det 2 3 3 0 3 2 1 Weiter folgt mit (3.9) und 1 2 2 0 det 3 1 0 0 und daher x2 = 1 16 . 2 0 b= 1 . 0 erhalten wir 3 0 = −6 + 2 · (6 − 8 − 27)) = −64 . 2 Entwicklung nach der 3 0 1 0 0 = 2 det 2 2 1 3 0 2 vierten Zeile 2 3 0 0 = 2 · (6 − 8) = −4 1 2 3.3 Zusammenfassung Wir haben gesehen, wie man lineare Gleichungssysteme mit Hilfe von Matrizen schreiben kann. Im Falle linearer Gleichungssysteme mit n Gleichungen und n Unbekannten haben wir die Determinanten einerseits als ein Hilfsmittel zur Lösbarkeitsentscheidung kennengelernt aber auch als ein Hilfsmittel zur Berechnung der Lösungen. Das Berechnen von Determinanten höherer Ordnung nach den uns bekannten Methoden ist aber sehr aufwändig. Für lineare Gleichungssysteme mit m Gleichungen und n Unebekannten, m 6= n, nützen und Determinanten nichts. 27.11.09 Wir benötigen als bessere Verfahren zur Berechnung von Determinanten und Lösungsverfahren für allgemeine lineare Gleichheitssysteme. 58 4 Das Austauschverfahren 4.1 Motivation Wir betrachten ein lineares Gleichungssystem a11 x1 + a12 x2 +· · ·+ a1n xn = b1 (4.1) a21 x1 + a22 x2 +· · ·+ a2n xn = b2 .. .. . . am1 x1 +am2 x2 +· · ·+amn xn = bm aus m Gleichungen mit n Unbekannten. Mit a11 a12 · · · a1n a21 a22 · · · a2n A= . .. , . . . am1 am2 · · · amn lautet es kurz b1 b2 b = . , .. bm x1 x2 x= . .. xn (4.2) Ax = b . Im Fall m = n könnte man probieren, (4.2) durch Inversion von A zu lösen, x = A−1 b , falls m = n, det A 6= 0 . Mit a = −b bringen wir (4.2) in die äquivalente sogenannte Normalform Ax + a = 0 . (4.3) Neben (4.3) betrachten wir das sogenannte allgemeine lineare Gleichungssystem y = Ax + a . (4.4) Interpretiert man x als Eingang und y aus Ausgang, so ist der Eingang x so zu bestimmen, dass der Ausgang y zum Nullvektor wird. Mit (4.4) ist die Abbildung f : Rn → Rm , f (x) = A x + a verbunden. Im Falle von a = 0 ist dies eine sogenannte lineare Abbildung , da dann f (λx + µy) = λf (x) + µf (y) für x, y ∈ Rn , λ, µ ∈ R 59 4 Das Austauschverfahren gilt. Im Allgemeinen ist f nicht mehr linear, ist aber eine affin-lineare Abbildung . Interpretiert man (4.4) zeilenweise, so ist mit (4.4) ein System von reell-wertigen affin-linearen Funktionen fi : Rn → R, fi (x) = ai1 x1 + ai2 x2 + · · · + ain xn + ai verbunden, weswegen (4.4) auch als System linearer Funktionen bezeichnet wird. Zur Lösung des linearen Gleichungssystems (4.3) versucht man nun x so zu bestimmen, dass (4.4) mit y = 0 gilt. Eine Idee dazu wäre, die affin-lineare Abbildung f insgesamt zu invertieren, d. h. f (x) = y nach x aufzulösen. Das wird im Allgemeinen nicht gelingen. Eine abgeschwächte Idee wäre, im Gleichungssystem f (x) = y eine Gleichung nach einer Komponente von x aufzulösen, also eine der Funktionen fi bezüglich xi zu invertieren, und dann die erhaltene Beziehung für xi in die anderen Gleichungen einzusetzen. Man probiert dann das Verfahren weiter anzuwenden, bis man möglichst nach allen xi aufgelöst hat. Beispiel 4.1. Wir betrachten y1 = a11 x1 +a12 x2 + a1 y2 = a21 x1 +a22 x2 + a2 . (4.5) Wir nehmen a11 6= 0 an. Dann können wir in der ersten Gleichung von (4.7) nach x1 auflösen und erhalten 1 a12 a1 x1 = y1 − x2 − . a11 a11 a11 Wegen a21 ( 1 a12 a1 a21 a11 a22 − a21 a12 a11 a2 − a21 a1 y1 − x2 − ) + a22 x2 + a2 = y1 + x2 + a11 a11 a11 a11 a11 a11 ergibt sich durch Einsetzen in (4.5) x1 = a′11 y1 +a′12 x2 + a′1 y2 = a′21 y1 +a′22 x2 + a′2 (4.6) mit 1 , a11 a21 = , a11 a12 , a11 a11 a22 − a21 a12 = , a11 a′11 = a′12 = − a′21 a′22 a1 , a11 a11 a2 − a21 a1 b′2 = . a11 a′1 = − Im Unterschied zu (4.5) haben wir in (4.6) die Variablen x1 und y1 ausgetauscht. Gilt nun a′22 = 60 a11 a22 − a21 a12 6= 0 , a11 4.2 Das Austauschverfahren als Algorithmus so können wir auch x2 gegen y2 austauschen. Analog zu oben erhalten wir x1 = a′′11 y1 +a′′12 y2 + a′′1 x2 = a′′21 y1 +a′′22 y2 + a′′2 (4.7) mit a′22 a′11 − a′21 a′12 a′ , a′′12 = ′12 , ′ a22 a22 ′ a 1 = − ′21 , a′′22 = ′ , a22 a22 a′′11 = a′′21 a′21 a′1 − a′11 a′2 , a′22 a′ a′′2 = − ′2 . a22 a′′1 = Mit y1 = y2 = 0 lesen wir aus (4.7) die eindeutige Lösung x1 = a′′1 , x2 = a′′2 ab. Ziel ist nun, dass im Beispiel beschriebene Verfahren so zu verallgemeinern und zu strukturieren, dass wir damit Gleichungssysteme mit m Gleichungen und n Unbekannten behandeln können. Dazu sollte eine Schreibweise gewählt werden, die auf weitgehend auf das Nötigste reduziert aber gut lesbar bleibt. Mit a10 = a1 ,a20 = a2 könnten wir zum Beispiel (4.5) durch folgendes Tableau ersetzen: x1 a11 a12 y1 y2 x2 a12 a22 1 a10 a20 4.2 Das Austauschverfahren als Algorithmus 4.2.1 Vorbereitung Wir schreiben das lineare Gleichungssystem (4.1) a11 x1 + a12 x2 +· · ·+ a1n xn = b1 a21 x1 + a22 x2 +· · ·+ a2n xn = b2 .. .. . . als Tableau am1 x1 +am2 x2 +· · ·+amn xn = bm y1 y2 .. . x1 a11 a21 .. . x2 a12 a22 .. . ··· ··· ··· xn a1n a2n .. . 1 a10 a20 ym am1 am2 ··· amn am0 mit ai0 = −bi für i = 1, . . . , m . 61 4 Das Austauschverfahren 4.2.2 Theoretische Durchführung des ersten Austauschschrittes Im Tableau (T) y1 .. . x1 a11 .. . ··· ··· xτ a1τ .. . ··· ··· xn a1n .. . 1 a10 .. . yσ .. . aσ1 .. . ··· aστ .. . ··· aσn .. . aσ0 ym am1 ··· amτ ··· amn am0 wollen wir xτ gegen yσ austauschen und setzen dazu aστ 6= 0 voraus. Die Zeile σ heißt Pivotzeile, die Spalte τ heißt Pivotspalte und aστ heißt Pivotelement oder Hauptstützelement. Der Zeile σ entspricht die Gleichung yσ = aσ1 x1 + · · · + aστ xτ + · · · + aσn xn + aσ0 . Lösen wir diese Gleichung nach xτ auf und ersetzen wie im Beispiel 4.1 in den anderen Gleichungen des Gleichungssystems xτ durch den entsprechenden Ausdruck, so erhalten wir das neue Tableau (T’) y1 .. . x1 a′11 .. . ··· ··· yσ a′1τ .. . ··· ··· xn a′1n .. . 1 a′10 .. . xτ .. . a′σ1 .. . ··· a′στ .. . ··· a′σn .. . a′σ0 ym a′m1 ··· a′mτ ··· a′mn a′m0 mit den Austauschregeln a′στ = (R2 ) a′σk (R3 ) a′iτ (R4 ) a′ik Wir erhalten: 62 1 , aστ aσk für k = 0, . . . , n mit k 6= τ , =− aστ aiτ = für i = 1, . . . , m mit i 6= σ , aστ aik aστ − aiτ aσk für i = 1, . . . , m, k = 0, . . . , n mit k 6= τ, i 6= σ . = aστ (R1 ) 4.2 Das Austauschverfahren als Algorithmus Satz 4.2. Falls aστ 6= 0 gilt, kann man das Tableau (T ) in ein neues Tableau (T ′ ) unter Anwendung der Regeln R1 , R2 , R3 , R4 so umwandeln, dass die (T) bzw. (T’) entsprechenden Gleichungssysteme äquivalent sind: Alle Werte x1 , x2 , ..., xn , y1 , y2 , ..., ym , die (T ) erfüllen, genügen auch (T ′ ) und umgekehrt. Beweis. Mit p = aστ lautet die Zeile σ von (T ) yσ = aσ1 x1 + aσ2 x2 + · · · + pxτ + · · · + aσn xn + aσ0 . Wegen p = aστ 6= 0 kann man diese Gleichung nach xτ auflösen und erhält: xτ = aσ2 1 aσn aσ0 aσ1 x1 + x2 + · · · + yσ + xn + −p −p p −p −p (4.8) Durch Vergleich von (4.8) mit der Zeile σ von (T ′ ) ′ xτ = a′σ1 x1 + a′σ2 x2 + · · · + a′στ yσ + · · · + ασn xn + aσ0 (4.9) ergeben sich die Austauschregeln R1 und R2 . Setzt man (4.9) in die i-te Zeile (für i 6= σ) yi = ai1 x1 + ai2 x2 + ... + aik xk + ... + aiτ xτ + ... + ain xn + ai0 von (T ) ein, so ergibt sich, wenn man nach x1 , x2 , ..., xk , ..., yσ , ..., xn ordnet, yi = (ai1 +aiτ a′σ1 )x1 +(ai2 +aiτ a′σ2 )x2 +· · ·+aiτ a′στ yσ +· · ·+(ain +aiτ a′σn )xn +(ai0 +aiτ a′σ0 ). Vergleicht man dies mit der Zeile i 6= σ von (T ′ ) yi = a′i1 x1 + a′i2 x2 + · · · + a′iτ yσ + · · · + a′in xn + a′i0 , so erhält man für k 6= τ die Austauschregel R4 und für k = τ unter Beachtung von a′στ = (Austauschregel R1 ) die Austauschregel R3 . 1 p Somit ist gezeigt, dass man aus (T ) mit Benutzung von R1 bis R4 das äquivalente Tableau (T ′ ) erhält. 4.2.3 Praktische Durchführung des ersten Austauschschrittes Ziel unseres Verfahrens ist auch, die Zahl der Rechenschritte zu minimieren. Aus Regel R4 erhalten wir durch Kürzen (R4′ ) a′ik = aik − aiτ aσk aστ für i = 1, . . . , m, k = 0, . . . , n mit k 6= τ, i 6= σ , was jeweils eine Multiplikation weniger als in R4 ist. Wenden wir nun noch Regel R2 an, so ergibt sich 63 4 Das Austauschverfahren (R4′′ ) a′ik = aik + aiτ a′σk für i = 1, . . . , m, k = 0, . . . , n mit k 6= τ, i 6= σ . Da die Zahlen a′σk somit zur Berechnung des neuen Tableaus mehrfach verwendet werden, sollten wir sie an passender Stelle notieren: Wir ergänzen (T ) nach Regel R2 durch die Kellerzeile K der Zahlen a′σk = − aσk aστ für k = 0, . . . , n mit k 6= τ , wobei wir in die Pivotspalte ein ∗ eintragen: ··· xk xn 1 ··· a1n .. . a10 p .. . ··· aσn .. . aσ0 ··· aiτ .. . ··· ain .. . ai0 ··· amτ ··· amn am0 a′σn a′σ0 ··· T x1 y1 .. . a11 .. . ··· a1k .. . ··· a1τ .. . yσ .. . aσ1 .. . ··· aσk .. . ··· yi .. . ai1 .. . ··· aik .. . ym am1 K ··· amk a′σ1 a′σk xτ ∗ ··· Das neue Tableau (T ′ ) erhalten wir nun durch folgende Austauschschritte: • (A1 ) Ersetze das Pivotelement aστ entsprechend R1 durch 1 aστ . • (A2 ) Ersetze anderen Elemente aσk in der Pivotzeile durch die Elemente in der Kellerzeile. • (A3 ) Ersetze anderen Elemente aiτ in der Pivotspalte entsprechend R3 durch aiτ aστ . • (A4 ) Ersetze schließlich alle übrigen Elemente aik durch ihre Summe mit dem Produkt aus dem entsprechenden Element der alten Pivotspalte aiτ und dem entsprechenden Element a′σk aus der Kellerzeile, also durch aik + aiτ a′σk . Beispiel 4.3. Wir betrachten 64 4.2 Das Austauschverfahren als Algorithmus y1 = 3x1 + 2x2 − x3 + x4 − 1 S1 x1 x2 x3 x4 1 y2 = 2x1 + x2 − 3x3 + x4 y1 3 2 1 y3 = x1 − x2 − x4 y2 2 1 −1 −1 y4 = x1 + 2x2 + 2x3 + 1 , y3 1 0 y4 1 −1 −1 d. h. das rechtsstehende Tableau 2 −3 2 1 0 0 0 1 K Wir wählen σ = 3 und τ = 4 und damit das Pivotelement aστ = −1 6= 0 . Weiter tragen wir die Kellerzeile der Zahσk len − aaστ ein. Wir wenden nun die Austauschschritte A1 , A2 , A3 und A4 an und erhalten S1 x1 x2 x3 x4 1 S2 x1 x2 x3 y3 1 y1 3 2 1 4 1 0 −1 0 3 −1 1 y2 −1 2 −1 y1 y2 −1 y3 1 0 x4 1 0 0 1 1 −1 0 y4 −1 1 −1 0 y4 −1 K 1 ∗ 0 K −3 2 2 −1 0 1 2 −3 2 −1 0 0 1 4.2.4 Fortsetzung des Austauschverfahrens Das Verfahren kann immer fortgesetzt werden, wenn es im entstandenem Tableau noch ein xτ in der Kopfzeile und ein yσ aus der linken Spalte gibt mit aστ 6= 0 . In dem Fall ist der Austausch von xτ gegen yσ durch Anwendung der entsprechenden Schritte durch Anwendung der Schritte A1 , A2 , A3 und A4 möglich. Beispiel 4.4. Wir setzen Beispiel 4.3 fort. Wir wollen x3 gegen y1 austauschen, σ = 1, τ = 3, was wegen aστ = −1 6= 0 möglich ist. 65 4 Das Austauschverfahren Wir ergänzen das Tableau durch die Kellerzeile und erhalten: Wir wenden nun die Austauschschritte A1 , A2 , A3 und A4 an: S2 x1 x2 x3 y3 1 S3 x1 x2 y1 y3 1 y1 4 1 y2 3 0 −1 −1 −1 −1 −1 −1 x4 1 0 1 −1 0 y4 −1 K 4 −3 0 2 2 1 ∗ x3 4 1 0 y2 0 x4 −9 −3 0 1 y4 9 4 −1 −1 K −1 −1 Hier wollen wir nun x2 gegen y2 austauschen und tragen die entsprechenden Kellerzeile ein. S3 x1 x2 y1 y3 1 x3 4 1 y2 −9 −3 −1 −1 −1 0 −1 0 x4 1 y4 9 K −3 −1 4 ∗ 3 −2 1 2 −2 2 3 3 −1 1 Es verbleibt, x1 gegen y4 auszutauschen, wozu die entsprechende Kellerzeile eingetragen wird. x1 y2 x3 1 x2 −3 − 31 − 13 1 3 − 43 − 94 S4 x4 y4 K 4 −3 ∗ y1 y3 1 0 − 31 2 3 − 35 2 3 2 9 0 1 −1 2 2 3 1 −1 3 1 1 −1 −2 2 −2 3 −1 Wir wenden die Austauschschritte A1 , A2 , A3 und A4 an: x1 y2 x3 1 x2 −3 − 13 − 31 1 3 − 34 S4 x4 y4 K 4 −3 y1 y3 1 0 − 31 2 3 − 35 2 3 0 1 −1 2 1 −1 3 Wir wenden die Austauschschritte A1 , A2 , A3 und A4 an und erhalten das gesuchte Tableau mit vollständigem Austausch: S5 y4 y2 y1 y3 1 x3 − 31 − 79 2 3 − 19 1 − 34 − 31 − 13 9 − 49 x2 x4 x1 1 1 Dieses entspricht nach Anordnung entsprechend wachsender Indizes 4 2 1 2 x1 = y1 − y2 + y3 − y4 + 1 3 9 9 3 x2 = −y1 + y2 + y4 − 2 2 7 1 1 x3 = y1 − y2 − y3 − y4 + 1 3 9 9 3 13 7 4 5 x4 = y1 − y2 − y3 − y4 + 3 , 3 9 9 3 66 3 −1 5 3 2 3 0 − 79 2 9 −2 3 1 4.2 Das Austauschverfahren als Algorithmus woraus wir mit y = (y1 , y2 , y3 , y4 ) = 0 nun die Lösung x = (1, −2, 1, 3) des Gleichungssystems leicht ablesen. Wie wir dem entstandenem System entnehmen, haben wir eigentlich mehr berechnet als nur die Lösung des Gleichungssystems. Die Frage wäre, was wir mehr berechnet haben und ob wir die Rechnung nicht noch weiter reduzieren können. Beispiel 4.5. Wir betrachten y1 = 2x1 + x2 + x3 − 2 S1 x1 x2 x3 x4 1 y1 2 1 1 0 y3 = x1 + 5x2 + 2x3 y2 1 0 0 y4 = 2x2 + x4 y3 1 −1 −2 5 2 0 0 y4 0 2 0 1 0 y2 = x1 − x2 + 2 bzw. nebenstehendes Tableau Wir wollen y4 gegen x4 austauschen und ergänzen um die entsprechende Kellerzeile: S1 x1 x2 x3 x4 1 y1 2 1 1 0 y2 1 0 0 y3 1 −1 −2 5 2 0 0 y4 0 2 0 1 0 K 0 −2 0 ∗ 0 2 Wir wollen x1 gegen y2 austauschen und ergänzen um die entsprechende Kellerzeile: S2 x1 x2 x3 y4 1 y1 2 1 1 0 y2 1 0 0 y3 1 −1 −2 5 2 0 0 x4 0 0 1 0 K ∗ −2 0 0 −2 1 2 2 Wir wenden die Austauschschritte A1 , A2 , A3 und A4 an: S2 x1 x2 x3 y4 1 y1 2 1 1 0 y2 1 0 0 y3 1 −1 −2 5 2 0 0 x4 0 −2 0 1 0 K 2 Wir wenden die Austauschschritte A1 , A2 , A3 und A4 an: S3 y2 x2 x3 y4 1 y1 2 3 1 0 x1 1 1 0 0 −6 y3 1 6 2 0 x4 0 −2 0 1 K −2 −2 0 67 04.12.09 4 Das Austauschverfahren Wir wollen y1 gegen x3 austauschen und ergänzen um die entsprechende Kellerzeile: S3 y2 x2 x3 y4 1 y1 2 3 1 0 x1 1 1 0 0 −6 y3 1 6 2 0 x4 0 0 1 K −2 −2 ∗ 0 −3 Wir wenden die Austauschschritte A1 , A2 , A3 und A4 an: S4 y2 x2 y1 y4 1 x3 −2 −3 1 0 6 1 0 0 −3 0 2 0 −2 −2 0 1 1 x1 −2 y3 −2 0 x4 0 K 10 0 6 Für einen vollständigen Austausch müsste noch y2 gegen das in der Kopfzeile verbliebene x2 ausgetauscht werden. Da das zugehörige Pivotelement 0 ist, geht dies jedoch nicht. Wir erhalten x1 = y2 + x2 − 2 x3 = y1 − 2y2 − 3x2 + 6 x4 = y4 − 2x2 y3 = 2y1 − 3y2 + 10 . Auch hieran erkennt man, dass y3 gegen kein xk mehr austauschbar ist, denn y3 kommt nur in der letzten Gleichung vor und diese enthält kein xk . Wir erkennen auch, dass x = (x1 , x2 , x3 , x4 ) nie so gewählt werden kann, dass das Gleichungssystem mit y = (y1 , y2 , y3 , y4 ) = 0 gelöst wird. Entstehende Fragen sind: Wäre ein vollständiger Austausch vielleicht möglich gewesen, wenn wir in einer anderen Ordnung getauscht hätten? Was besagt, dass der Austausch nicht vollständig durchgeführt werden konnte? 4.3 Anwendungen des Austauschverfahrens (AV) 4.3.1 Inversion von Matrizen Sei A = (aij )i,j=1,...,n eine n-reihige Matrix. Wir betrachten die Gleichung y = Ax und damit das Tableau 68 y1 y2 .. . x1 a11 a21 .. . x2 a12 a22 .. . ··· ··· ··· xn a1n a2n .. . 1 0 0 .. . yn an1 an2 ··· ann 0 4.3 Anwendungen des Austauschverfahrens (AV) Wir nehmen nun an, dass ein vollständiger Austausch der x1 , . . . , xn gegen die y1 , . . . , yn durchgeführt wurde, was (nach Sortieren der Spalten und Zeilen) zum Tableau x1 x2 .. . y1 c11 c21 .. . y2 c12 c22 .. . ··· ··· ··· yn c1n c2n .. . 1 0 0 xn cn1 cn2 ··· cnn 0 geführt habe. Dieses entspricht der Gleichung x=Cy mit der quadratischen Matrix C = (cij )i,j=1,...,n . Mit y = Ax folgt Ex = x = C A x für alle x ∈ Rn und damit CA=E, d. h., A−1 = C . Mit dem Austauschverfahren haben wir also ein weiteres Verfahren zur Bestimmung der Inversen von quadratischen Matrizen: Satz 4.6. Wenn das Austauschverfahren mit einer quadratischen Matrix A vollständig durchführbar ist, dann ist A invertierbar und man erhält die Inverse A−1 aus dem letzten Tableau. Es gilt auch die Umkehrung: Satz 4.7. Wenn die quadratische Matrix A invertierbar ist, dann ist das Austauschverfahren mit der quadratischen Matrix A vollständig durchführbar ist, dann ist A invertierbar und man erhält die Inverse A−1 aus dem letzten Tableau. Bemerkung 4.8. In den obigen Tableaus zur Berechnung von A−1 besteht die letzte Spalte stets nur aus Nullen. Da sie keinerlei Bedeutung für die Berechnung von A−1 hat, kann sie auch weggelassen werden. Wir bestimmen nun die Anzahl der nötigen Multiplikationen (inklusive Divisionen) und Additionen (inklusive Subtraktionen) für die Inversion einer n-reihigen Matrix nach obigem Verfahren: 69 4 Das Austauschverfahren Wir haben n Austauschschritte durchzuführen. Je Austausch benötigen wir eine Inversion in A1 , n − 1 Multiplikationen zur Erzeugung der Kellerzeile für A2 , n − 1 Multiplikationen zur Erzeugung der Elemente in der Pivotspalte und je eine Multiplikation und eine Addition für die verbleibenden Elemente gemäß A4 . Dies sind je Austausch (n − 1)2 Additionen und n2 Multiplikationen. Insgesamt sind höchsten (und im Allgemeinen tatsächlich) n(n − 1)2 n 3 Additionen Multiplikationen zur Berechnung der Inversen einer n-reihigen Matrix mit dem Austauschverfahren nötig. Wir vergleichen mit der Berechnung der Inversen über die Bestimmung von Determinanten gemäß Satz 3.59 durch det Aik A−1 = (−1)i+k . (4.10) det A Bezeichnen mn und an die Anzahl der Multiplikationen und Additionen zur Berechnung einer n-reihigen Determinante, so benötigen wir für die Berechnung einer n-reihigen Determinanten nach Entwicklungssatz die Berechnung von n (n − 1)-reihigen Unterdeterminanten und dann noch n Multiplikationen und n − 1 Additionen, es gilt also mn = n · mn−1 + n , an = n · an−1 + n − 1 . Mit m2 = 2 , a2 = 1 ergibt sich mn ≥ an = n! − 1 . Wir erhalten beispielsweise folgende Höchstzahlen, welche in ungünstigen Fällen auch erreicht werden: n 3 4 5 10 100 Austauschverfahren Additionen Multiplikationen 12 27 36 64 80 125 810 1000 9.801 · 105 106 allein für det A Additionen Multiplikationen 5 9 23 40 119 205 ≈ 3.6 · 106 ≈ 6.2 · 106 ≈ 9.3 · 10157 ≈ 1.6 · 10158 Das Austauschverfahren ist also mindestens ab n = 5 der Berechnung über Determinanten vorzuziehen. Beispiel 4.9. Zu bestimmen sei die Inverse von 70 4.3 Anwendungen des Austauschverfahrens (AV) 1 2 A= 3 0 2 3 0 1 0 0 . 1 2 3 0 2 0 Mit Austausch von y1 gegen x1 erhalten wir nebenstehendes Tableau mit entsprechender Kellerzeile. Wir erhalten mit den Regeln A1 , A2 , A3 und A4 S1 x1 x2 x3 x4 y1 1 2 3 0 y2 2 3 0 0 y3 3 0 2 1 y4 0 1 0 2 K ∗ −2 −3 0 Wir erhalten mit den Regeln A1 , A2 , A3 und A4 S2 y1 x2 x3 x4 S3 y1 y4 x3 x4 x1 1 x1 1 0 y2 2 −3 y3 3 y3 3 0 −7 1 y4 −6 −6 −2 4 2 −3 0 y2 −2 0 2 x2 0 −6 −7 K 0 0 −2 K −1 1 2 3 −1 1 ∗ −1 1 −6 0 2 13 −2 ∗ Wir tauschen nun y4 gegen x2 und ergänzen die Kellerzeile. Wir tauschen nun y2 gegen x4 und ergänzen die Kellerzeile. Wir erhalten mit den Regeln A1 , A2 , A3 und A4 Wir erhalten mit den Regeln A1 , A2 , A3 und A4 S4 y1 y4 x3 y2 S5 y1 y4 y3 y2 x1 −3 0 9 2 x1 −1 1 2 1 2 3 x4 9 − 64 32 1 2 13 2 12 − 64 2 0 20 64 1 − 64 −6 −1 18 64 6 64 2 64 − 12 64 11 64 7 − 64 13 − 64 14 64 x4 y3 x2 K −10 ∗ x3 x2 − 13 64 4 − 64 20 64 8 64 29 64 1 − 64 6 64 Wir tauschen nun y3 gegen x3 und ergänzen die Kellerzeile. Damit erhalten wir schließlich A−1 −12 11 18 −9 1 8 14 −12 6 . · = 20 −13 2 −1 64 −4 −7 6 29 71 4 Das Austauschverfahren 4.3.2 Lösung Linearer Gleichungssysteme Wir betrachten die Lösung eines linearen Gleichungssystem a11 x1 + a12 x2 + ... + a1n xn = b1 a12 x1 + a22 x2 + ... + a2n xn = b2 .. . (4.11) am1 x1 + am2 x2 + ... + amn xn = bm mit n Unbekannten x1 , . . . , xn und m Gleichungen. Hierbei kann m > n, m = n oder m < n gelten. Wir haben dem Gleichungssystem das allgemeine lineare Gleichungssystem y1 = a11 x1 + a12 x2 + ... + a1n xn − b1 y2 = a12 x1 + a22 x2 + ... + a2n xn − b2 .. . (4.12) ym = am1 x1 + am2 x2 + ... + amn xn − bm und diesem das Tableau T0 x1 x2 y1 a11 a12 y2 .. . a21 .. . a22 .. . ym am1 am2 xn 1 ··· a1n a10 ··· a2n .. . a20 ··· amn am0 ··· mit ai0 = −bi für i = 1, . . . , m zugeordnet. Dabei ist x = (x1 , x2 , . . . , xn ) genau dann eine Lösung von (4.11), wenn (4.12) für dieses x = (x1 , x2 , . . . , xn ) mit y = (y1 , y2 , . . . , ym ) = 0 erfüllt ist. Nach Satz 4.2 verwandelt jeder Austauschschritte eines xτ in der Kopfzeile gegen ein yσ in der linken Spalte das Tableau (T0 ) in ein äquivalentes Tableau (T1 ): Alle Werte x1 , x2 , . . . , xn , y1 , y2 , . . . , y m , die (T ) erfüllen, genügen auch (T ′ ) und umgekehrt. Um nun (4.11) zu lösen, tauscht man ausgehend von (T0 ) schrittweise und solange es möglich ist, Variable yk in der linken Spalte gegen geeignete xi in der Kopfzeile aus und erzeugt so eine Abfolge von Tableaus (Tℓ ). Diese Tableaus sind ebenfalls alle äquivalent. Das letzte Tableau (Te ) nach e Austauschschritten, bei dem kein weiterer Austausch mehr möglich sei, habe die Form 72 4.3 Anwendungen des Austauschverfahrens (AV) ··· Te yi1 xk1 .. . µ11 .. . xke µe1 yie+1 .. . µe+1,1 .. . yim µm1 yie xke+1 ··· µ1e .. . µ1,e+1 .. . ··· µee µe,e+1 ··· µe+1,e .. . µe+1,e+1 .. . ··· µme µm,e+1 xkn 1 ··· µ1n .. . µ10 .. . ··· µen µe0 ··· µe+1,n .. . µe+1,0 .. . ··· µmn µm0 ··· Hierbei seien schon die Zeilen im Tableau so sortiert, dass in den ersten e Zeilen die aus der Kopfzeile in die linke Spalte getauschten Variablen xk1 bis xke stehen, welche gegen die yi1 bis yie getauscht wurden. Danach kommen die Zeilen mit den m − e nichtausgetauchten Variablen yie+1 bis yim . Entsprechend seien auch die Spalten sortiert: Zuerst die e Spalten zu den eingetauschten yi1 bis yie und dann die n − e Spalten der in der Kopfzeile verbliebenen xk,e+1 bis xkn . Dabei können folgende Fälle eintreten: Fall 1 Der Austausch ist vollständig möglich. Es gilt m = e und man erhielt das Tableau Tm yi1 xk1 .. . µ11 .. . xkm µm1 ··· yim xkm+1 ··· µ1m .. . µ1,m+1 .. . ··· µmm µm,m+1 xkn 1 ··· µ1n .. . µ10 .. . ··· µmn µm0 ··· Mit yi1 = · · · = yim = 0 liest man xk1 = µ1,m+1 xkm+1 + · · · + µ1n xkn + µ10 , .. . xkm = µm,m+1 xkm+1 + · · · + µ1mn xkn + µm0 ab, wobei die n − m Zahlen xkm+1 bis xkn freie Parameter sind: Das Gleichungssystem (4.11) ist lösbar. Man erhält eine (n − m)-parametrische Lösungsschar zu (4.11). Fall 2 Der Austausch ist nicht vollständig möglich. Es gilt e < m und man erhielt das Tableau 73 4 Das Austauschverfahren Te yi1 xk1 .. . µ11 .. . xke µe1 yie+1 .. . µe+1,1 .. . yim µm1 ··· yie xke+1 ··· µ1e .. . µ1,e+1 .. . ··· µee µe,e+1 ··· µe+1,e .. . 0 .. . ··· µme 0 xkn 1 ··· µ1n .. . µ10 .. . ··· µen µe0 ··· 0 .. . µe+1,0 .. . ··· 0 µm0 ··· mit den 0-Einträgen unten rechts – andernfalls wäre eine weiterer Austausch möglich gewesen. Die letzten m − e Zeilen der nicht ausgetauschten yie+1 bis yim lauten nun yie+1 = µe+1,1 yi1 + · · · + µe+1,e yie + µe+1,0 , .. . yim = µm1 yi1 + · · · + µme yie + µm,0 . Fall 2a Es gilt µe+1,0 = · · · = µm0 = 0. In diesem Fall können alle yi als 0 gewählt werden, wie es für die Lösung des Gleichungssystem benötigt wird. Mit yi1 = · · · = yie = 0 liest man xk1 = µ1,e+1 xke+1 + · · · + µ1n xkn + µ10 , .. . xke = µe,e+1 xke+1 + · · · + µ1en xkn + µe0 aus dem Tableau ab, wobei die n − e Zahlen xke+1 bis xkn freie Parameter sind: Das Gleichungssystem (4.11) ist lösbar. Man erhält eine (n − e)-parametrische Lösungsschar zu 4.11. Fall 2b Mindestens eines der µe+1,0 bis µm0 ist nicht 0. In diesem Fall können nicht alle yi als 0 gewählt werden, wie es für die Lösung des Gleichungssystem benötigt wurde: Das Gleichungssystem (4.11) ist nicht lösbar. Obige Fallunterscheidung und die erhaltenen Lösungsdarstellung zeigen, dass die Werte der Koeffizienten µik , i = 1, . . . , m, k = 1, . . . , e in den ersten e Spalten der in die Kopfzeile eingetauschten yi1 bis yie weder für die Lösbarkeitsentscheidung noch für die Lösungsdarstellung benötigt werden: Sie brauchen daher gar nicht erst berechnet werden. Dies führt zum 74 4.3 Anwendungen des Austauschverfahrens (AV) Austauschverfahren mit Spaltentilgung (AVS): In jedem Austauschritt wird die aus der Pivotspalte eigentlich entstehende neue Spalte weggelassen, da in ihr auch in den weiteren Schritten nun nur noch Koeffizienten zu einem in die Kopfzeile eingetauschten yi stehen und diese Koeffizienten auch keinerlei Einfluss mehr auf die weitere Rechnung haben. Das letzte Tableau hat dann die Form xkn 1 ··· µ1n .. . µ10 .. . ··· µen µe0 ··· µe+1,n .. . µe+1,0 .. . ··· µmn µm0 ··· Te xke+1 xk1 .. . µ1,e+1 .. . xke µe,e+1 yie+1 .. . µe+1,e+1 .. . yim µm,e+1 Dieses ergibt xk1 = µ1,e+1 xke+1 + · · · + µ1n xkn + µ10 , .. . xke = µe,e+1 xke+1 + · · · + µ1en xkn + µe0 mit den n − e freien Parametern xke+1 bis xkn genau dann, wenn µe+1 , 0 = · · · = µm0 = 0 gilt. Beispiel 4.10. Für das lineare Gleichungssystem x1 − 2x2 + 4x3 − x4 = 2 −3x1 + 3x2 − 3x3 + 4x4 = 3 2x1 − 3x2 + 5x3 − 3x4 = −1 erhält man mit dem AVS T1 x1 x2 x3 x4 1 T2 x2 x3 x4 1 y1 1 4 −2 2 2 y2 9 1 −3 1 y3 −3 −4 1 −3 −1 x1 y2 −2 2 K −3 −1 −9 y3 K 2 ∗ 3 −3 2 T3 −3 5 −4 4 1 −3 x2 x3 1 x1 3 7 y2 −2 −7 x4 K 1 ∗ 6 −3 3 −4 5 −2 1 −3 1 T4 x3 1 x1 2 1 x2 3 x4 0 −2 ∗ 5 5 3 75 11.12.09 4 Das Austauschverfahren Der Austausch konnte vollständig durchgeführt werden (Fall 1). Wir lesen x1 = 2x3 + 1 , x2 = 3x3 − 2 , x4 = 3 mit dem freien Parameter x3 ab. Die Gesamtheit der Lösungen ist folglich durch x1 = 2t + 1 , x2 = 3t − 2 , x3 = t , für t ∈ R x4 = 3 gegeben. Eine weitere Verkürzung des Verfahrens kann man in der Weise durchführen, dass man in Ergänzung zu AVS sich jeweils die aus der Pivotzeile ergebende Gleichung notiert, diese Zeile aber nicht mit ins Tableau übernimmt. Man erhält das Austauschverfahren mit Spalten- und Zeilentilgung (AVSZ): In jedem Austauschschritt werden die aus Pivotspalte bzw. Pivotzeile eigentlich entstehende neue Spalte bzw. Zeile weggelassen, während der Inhalt der eigentlich aus der Pivotzeile entstehenden Zeile extra als Gleichung notiert wird. Beispiel 4.11. Ein Unternehmen stellt mit Hilfe der Produktionsfaktoren F1 , F2 , F3 , F4 vier Produkte P1 , P2 , P3 , P4 her. Zur Produktion für jede Mengeneinheit von Pj , j = 1, . . . , 4, werden aij Mengeneinheiten von Fi , i = 1, 2, 3, benötigt. Mit xj bezeichnen wir die herzustellenden Mengeneinheiten von Pj mit bj die benötigten Mengeneinheiten von Fi . Die entsprechende Koeffizientenmatrix sei 2 0 4 4 A = (aij )i=1,2,3 j=1,2,3,4 = 6 9 3 0 12 18 6 0 Man erhält das Gleichungssystem 2x1 + 4x3 + 4x4 = b1 6x1 + 9x2 + 3x3 = b2 12x1 + 18x2 + 6x3 = b3 für die Mengeneinheiten xj von Pj bei vorgegebenen Mengeneinheiten bi von Fi . Mittels AVSZ ergibt sich dann 76 T1 x1 x2 x3 x4 1 y1 2 0 4 4 y2 6 9 3 0 −b1 y3 12 18 6 0 K ∗ 0 −2 −2 −b2 −b3 b1 2 S2 x2 x3 x4 1 y2 9 y3 18 −9 −12 3b1 − b2 K ∗ −18 1 −24 4 3 6b1 − b3 1 (b 9 2 − 3b1 ) 4.3 Anwendungen des Austauschverfahrens (AV) mit x1 = −2x3 − 2x4 + b1 2 und schließlich S3 x3 x4 1 y3 0 0 2(b2 − 3b1 ) + 6b1 − b3 mit 1 4 x2 = x3 + x4 + (b2 − 3b1 ) . 3 9 Das Gleichungssystem ist also genau dann lösbar (Fall 2a), wenn 2(b2 − 3b1 ) + 6b1 − b3 = 0 gilt, d. h., wenn 2b2 = b3 gilt. In diesem Fall hat die allgemeine Lösung die Form x1 = −2t1 − 2t2 + b1 , 2 4 1 x2 = t1 + t2 + (b2 − 3b1 ) , 3 9 x3 = t1 , x4 = t2 . Dabei sind t1 und t2 beliebig reelle Zahlen, die natürlich so gewählt werden müssen, dass x1 ≥ 0 , . . . , x4 ≥ 0 gilt. Beispiel 4.12. Es wird nochmals die schon in Beispiel 3.32 behandelte Matrix der Käuferfluktuationen 0.6 0.1 0.3 A = 0.1 0.9 0.0 0.4 0.4 0.2 betrachtet. Eine Marktverteilung – beschrieben durch die Marktanteile x1 , x2 , x3 der Produkte P1 , P2 , P3 – heißt stationär, wenn sie bei einem Übergang von T0 zu T1 unverändert bleibt, d. h. x1 0.6 0.1 0.3 x1 x2 = 0.1 0.9 0.0 x2 x3 0.4 0.4 0.2 x3 oder in Matrizenschreibweise x = Ax mit x = (x1 , x2 , x3 ) . 77 4 Das Austauschverfahren Die stationären Markanteile x1 , x2 , x3 sind dann wegen x = Ex die Lösung des Gleichungssystems (E − A)x = 0 d. h. von 0.4x1 − 0.1x2 − 0.3x3 = 0 −0.1x1 + 0.1x2 = 0 −0.4x1 − 0.4x2 + 0.8x3 = 0 . Geht man davon aus, dass der Markt vollständig durch P1 , P2 , P3 abgesättigt wird, ergibt sich außerdem die zusätzliche Gleichung x1 + x2 + x3 = 1 . Das vollständige Gleichungssystem für die stationären Marktanteile x1 , x2 , x3 wird dann mittels AVSZ folgendermaßen gelöst: S1 x1 x2 x3 1 y1 0.4 −0.1 −0.3 0 y2 −0.1 0 0 −0.4 −0.4 0.8 0 1 1 ∗ −1 −1 −1 y3 y4 K 1 0.1 S3 y1 y3 S2 x2 x3 1 y1 −0.5 −0.7 0.4 y3 0 1.2 K ∗ −0.5 y2 1 0.2 x3 1 −0.45 0.15 S4 1 −0.4 y1 0 K 1.2 0.1 −0.4 0.5 1 3 ∗ mit x1 = −x2 − x3 + 1 , −0.1 x2 = −0.5x3 + 0.5 , x3 = 1 . 3 Wir erhalten x3 = 1 , 3 1 1 + 0.5 = , 3 3 1 1 1 x1 = − − + 1 = . 3 3 3 x2 = −0.5 · Wir schließen diesen Abschnitt wieder mit Überlegungen zur Anzahl der maximal benötigten Additionen und Multiplikationen bei AVMZ. Wir beschränken uns dabei auf den Fall m = 78 4.3 Anwendungen des Austauschverfahrens (AV) n, um mit der Cramer-schen Regel vergleichen zu können und gehen davon aus, dass der Austausch vollständig möglich ist: Im ersten Schritt sind n Multiplikationen zur Erzeugung der Kellerzeile (und der notierten Gleichung) erforderlich. Für die restlichen n · (n − 1) Einträge sind je eine Addition und eine Multiplikation erforderlich. Dies ergibt n(n − 1) Additionen, n2 Multiplikationen. Insgesamt sind dies n X k=2 n X k=2 1 k(k − 1) = (n3 − n) Additionen, 3 1 1 1 k 2 = n3 + n2 + n − 1 3 3 6 Multiplikationen. Noch nicht einberechnet wurden die Additionen und Multiplikationen zur Auswertung der notierten Gleichungen. Es wurden aber auch noch nicht die Additionen und Multiplikationen zur Berechnung der n weiteren Determinanten und die zugehörige Division einbezogen. Schlimmstenfalls, d. h. ohne effiziente Zwischenspeicherung, wären die Einträge für det A noch mit n + 1 zu multiplizieren, was die letzten Spalten ergibt. Wir erhalten beispielsweise folgende Höchstzahlen, welche in ungünstigen Fällen auch erreicht werden: n 3 4 5 10 100 AVSZ Add. Mult. 8 13 20 29 40 54 330 384 ≈ 3.3 · 105 ≈ 3.4 · 105 allein für det A Add. Mult. 5 9 23 40 119 205 ≈ 3.6 · 106 ≈ 6.2 · 106 157 ≈ 9.3 · 10 ≈ 1.6 · 10158 Add. 20 115 714 ≈ 4 · 108 ≈ 9.5 · 10159 Mult. 36 200 1230 ≈ 6.8 · 108 ≈ 1.6 · 10160 Das AV und erst recht das AVSZ ist also ziemlich effizient, während die Cramer-sche Regel für größere n in praktischen Rechnung unbrauchbar ist. 4.3.3 Berechnung von Determinanten Auch die Berechnung von Determinanten einer n-reihigen Matrix A kann mit dem Austauschverfahren sehr effizient durchgeführt werden: Man verwendet AVSZ für das zu A gehörige Tableau (ohne letzte Spalte), notiert sich anstelle der aus der Pivotzeile entstehenden Gleichung die Folge der Pivotelemente pℓ und die jeweiligen Indizes σℓ und τℓ der Zeilen bzw. Spalte des Pivotelements. Dann gilt det A = n Y (−1)σℓ +τℓ pℓ . ℓ=1 79 4 Das Austauschverfahren Beispiel 4.13. Zu bestimmen ist 1 0 3 4 0 −4 1 7 . det 8 4 0 1 2 2 0 1 Mit AVSZ erhalten wir die Folge von Tableaus S1 x1 x2 x3 x4 y1 1 0 3 4 y2 0 1 7 y3 8 −4 4 0 1 y4 2 2 0 1 K ∗ 0 −3 −4 S2 x2 x3 x4 y2 −4 1 7 −24 −31 ∗ −7 y3 4 y4 2 K 4 −6 −7 S3 x2 x4 y3 −92 137 S4 x2 35 y3 ∗ 35 22 − 206 22 y4 K −22 und damit 1 0 3 4 0 −4 1 7 1+1 · 1 · (−1)1+2 · 1 · (−1)2+1 (−22) · (−1)1+1 ( −206 det ) 8 4 0 1 = (−1) 22 2 2 0 1 = 206 . Offenbar erfolgte auch hier die Berechnung sehr effizient. 80 5 Lineare Optimierung 5.1 Lineare Optimierungsprobleme Eine lineare Zielfunktion f : Rn → R, f (x) = c0 + c1 x1 + · · · + cn xn , x = (x1 , . . . , xn ) , (Z) in n Variablen ist unter bestimmten linearen Nebenbedingungen a11 x1 + a12 x2 + · · · + a1n xn ≤ a1 .. . (NB) am1 x1 + am2 x2 + · · · + amn xn ≤ am und den Nichtnegativitätsbedingungen x1 ≥ 0, . . . , xn ≥ 0 (NN) zu maximieren bzw. zu minimieren. Eine solche Aufgabe heißt lineares Optimierungsproblem (LOP). Definition 5.1. Die Menge ZB aller Punkte x = (x1 , . . . , xn ) ∈ Rn , deren Koordinaten den Bedingungen (N ) und (N N ) genügen, ZB = {x ∈ Rn | x erfüllt (NB) und (NN)} heißt zulässiger Bereich (ZB) für das LOP. 81 5 Lineare Optimierung Definition 5.2. Ein Punkt (0) n x(0) = (x1 , . . . , x(0) n )∈R wird als optimale Lösung (oder Lösung) des LOP bezeichnet, falls (0) für alle x ∈ ZB (Max) (0) für alle x ∈ ZB (Min) (0) c0 + c1 x1 + · · · + cn x(0) n = f (x ) ≥ f (x) = c0 + c1 x1 + · · · + cn xn oder (0) c0 + c1 x1 + · · · + cn x(0) n = f (x ) ≤ f (x) = c0 + c1 x1 + · · · + cn xn gilt. Im Fall (Max) heißt x(0) maximale, im Fall (Min) minimale Lösung . Beispiel 5.3. Ein Erzeugnis E kann mittels zweier Verfahren V1 , V2 aus drei Zwischenprodukten Z1 , Z2 , Z3 hergestellt werden, die nur in bestimmten Umfang zur Verfügung stehen. Die Materialverbrauchsnormen (Bedarf an Mengeneinheiten von Z1 , Z2 , Z3 je Mengeneinheit von E) und die verfügbaren Mengeneinheiten von Z1 , Z2 , Z3 sind tabellarisch gegeben: Zwischenprodukt Z1 Z2 Z3 Materialverbrauchsnormen für V1 für V2 0.4 2.0 2.0 1.0 0.0 2.0 verfügbare Mengeneinheiten 26 40 24 Die Produktion von E bezüglich V1 und V2 ist so zu gestalten, dass die Gesamtproduktion maximal wird. Bezeichnet man mit x1 bzw. x2 die Mengeneinheiten (ME) von E, die nach V1 bzw. V2 produziert werden, so ergibt sich das LOP z = x1 + x2 −→ max (Z) mit den Nebenbedingungen (NB) 0.4x1 + 2.0x2 ≤ 26 2.0x1 + 1.0x2 ≤ 40 (N) 2.0x2 ≤ 24 und den Nichtnegativitätsbedingungen (NN) x1 ≥ 0 , x2 ≥ 0 . (NN) Diese Nichtnegativitätsbedingungen garantieren, dass die Lösung in einem praktisch sinnvollen Bereich gesucht wird. Die Menge aller Punkte (x1 , x2 ), die den Bedingungen (NN) und (NN) genügen, ist der zulässige Bereich ZB, siehe Bild: 82 5.1 Lineare Optimierungsprobleme 16 0.4x1 + 2x2 = 26 14 12 2.0x1 + 1.0x2 = 40 b 2.0x2 = 24 b bc 10 (15, 10) 8 x1 + x2 = 25 ZB 6 4 x1 + x2 = 5 2 b −6 −4 −2 b 2 4 6 8 10 12 14 16 18 20 22 Betrachten wir nun Niveaumengen NC = {x ∈ ZB | f (x) = C} ⊆ {x ∈ R2 | x1 + x2 = C} . Diese liegen auf parallelen Geraden x1 + x2 = C. Daher können wir hier die Lösung auf graphischem Wege (15, 10) einer der Niveaumengen mit dem Rand von ZB finden. Wir erhalten die eindeutige Maximalstelle (15, 10) mit dem Maximum zmax = 25. 18.12.09 Beispiel 5.4. Wir betrachten das LOP z = 2x1 + x2 → max 0.4x1 + 2.0x2 ≤ 26 , x1 ≥ 0 , x2 ≥ 0 . (Z) 2.0x1 + 1.0 ≤ 40 , 2.0x2 ≤ 24 , (N) (NN) 83 5 Lineare Optimierung 16 0.4x1 + 2x2 = 26 14 12 2.0x1 + 1.0x2 = 40 b 2.0x2 = 24 b (15, 10) 10 b 8 x1 + 2x2 = 25 ZB 6 4 x1 + 2x2 = 5 2 b −6 −4 b 2 −2 4 6 8 10 12 14 16 18 20 22 In diesem Fall ist das LOP mehrdeutig lösbar: Für x1 ∈ [15, 20] und x2 = 40 − 2x1 ist zmax = 40 das Maximum. Beispiel 5.5. Wir betrachten das LOP (Z) z = x1 + x2 → max (N) 2.0x2 ≤ 24 , x1 ≥ 0 , (NN) x2 ≥ 0 . 16 14 2.0x2 = 24 12 10 8 ZB 6 4 x1 + x2 = 5 2 −6 84 −4 −2 2 4 6 8 10 12 14 16 18 20 22 5.1 Lineare Optimierungsprobleme In diesem Fall existiert kein Maximum, z = x1 + x2 kann beliebig groß sein. Beispiel 5.6. Wir betrachten das LOP z = x1 + x2 → max 2.0x2 ≤ −24 , x1 ≥ 0 , x2 ≥ 0 . (Z) (N) (NN) In diesem Fall gilt ZB = ∅, da sich (N) und (NN) widersprechen. Bemerkung 5.7. Diese Beispiele zeigen bereits die charakteristischen Eigenschaften eines LOP: • Die optimalen Lösungen liegen außer im trivialen Fall f (x) = const immer auf dem Rand des zulässigen Bereichs ZB. Genauer: Optimale Lösungen liegen in den Eckpunkten des zulässigen Bereiches und auf Hyperflächen auf den Rand von ZB, deren Ecpkunkte optimal sind. • Ein LOP kann eindeutig lösbar, mehrdeutig lösbar (in diesem Fall gibt es unendlich viele Lösungen) oder nicht lösbar sein. Bemerkung 5.8. Eine graphische Lösung wie in den obigen Beispielen ist nur bei höchstens zwei Variablen möglich, wenn also ZB ein Bereich in der Ebene ist. Bemerkung 5.9. Allgemein sind die Eckpunkte von ZB zu bestimmen, in denen das Optimum vorliegt. Der zulässige Bereich ZB ist eine Teilmenge des Rn , dessen Rand durch Hyperflächen beschrieben wird. Eine solche Menge heißt auch Simplex . Zu untersuchen sind also die Ecken des Simplizes ZB. 85 5 Lineare Optimierung 5.2 Normalform der linearen Optimierung 5.2.1 Die Normalform Um zu einem allgemeinen Verfahren zur Lösung von linearen Optimierungsproblemen (LOP) zu gelangen, betrachtet man eine Normalform der linearen Optimierung (NLO): (Z) z = f (x) = c0 + c1 x1 + · · · + cn xn −→ min a11 x1 + · · · + a1n xn = a1 , .. . (G) am1 x1 + · · · + amn xn = am , x1 ≥ 0 , ... , (NN) xn ≥ 0 . Mit Hilfe des Matrixkalküls kann eine NLO in der folgenden Weise dargestellt werden: z = f (x) = c0 + c⊤ x → min (Z) (G) Ax = a , (NN) x≥0, wobei c1 .. c = . , cn x1 x = ... , xn a11 .. A= . ··· a1n .. , . am1 · · · amn a1 a = ... am gelten und x ≥ 0 genau dann gilt, wenn xi ≥ 0 für alle i = 1, . . . , n gilt. 5.2.2 Überführung in die Normalform Jedes LOP ist – falls es nicht bereits diese Form besitzt – in die Normalform der linearen Optimierung (NLO) überführbar mit folgenden Überführungsregeln: (Ü1 ) Überführung in Minimierungsproblem: Ist z → max als Aufgabenstellung gegeben, so verwendet man stets z ∗ = −z → min, d. h., c0 , c1 bis cn werden durch −c0 , −c1 bis −cn ersetzt. 86 5.2 Normalform der linearen Optimierung (Ü2 ) Beseitigung aller Ungleichungen in (N): Schrittweise werden alle Ungleichungen, die nicht in (N) enthalten sind, mittels Schlupfvariablen in die Form von Gleichungen überführt: 1. Ist α1 x1 + · · · + αn xn ≤ α die erste in (N) enthaltene Ungleichung, so wird sie durch die Einführung der Schlupfvariablen xn+1 ≥ 0 zur Gleichung α1 x1 + · · · + αn xn + xn+1 = α . Ist α1 x1 + · · · + αn xn ≥ α die erste in (NN) enthaltene Ungleichung, so wird sie durch die Einführung der Schlupfvariablen xn+1 ≥ 0 zur Gleichung α1 x1 + · · · + αn xn − xn+1 = α . 2. Die Zahl der Variablen wird von n auf n + 1 erhöht. 3. Die Ungleichung xn+1 ≥ 0 wird (NN) hinzugefügt. 4. Mit cn+1 = 0 wird die Zielfunktion erweitert zu f (x) = c0 + c1 x1 + · · · + cn+1 xn+1 −→ min . 5. Sind noch Ungleichungen in (NN) enthalten, beginne man wieder mit mit dem ersten Schritt. (Ü3 ) Beseitigung aller freien Variablen: Falls es im LOP freie Variablen xk gibt, d. h. die nicht der Restriktion xk ≥ 0 unterliegen, werden sie schrittweise entfernt: 1. Ist xk die erste freie Variable, so wird xk durch die Differenz der neuen Variablen xk − xn+1 ersetzt. 2. Die Zahl der Variablen wird von n auf n + 1 erhöht. 3. Die Ungleichungen xk ≥ 0, xn+1 ≥ 0 werden (NN) hinzugefügt. 4. Mit cn+1 = −ck wird die Zielfunktion erweitert zu c0 + c1 x1 + · · · + cn+1 xn+1 −→ min . 5. Sind noch freie Variable vorhanden, beginne man wieder mit dem ersten Schritt. Bemerkung 5.10. In (Ü3 ) kann man xk auch durch die Differenz xn+1 − xn+2 ersetzen. Es ergeben sich dann ck = 0, cn+1 = 1, cn+2 = −1 und entsprechende Änderungen und Ergänzungen in (G) und (NN). Im Unterschied zur obiger (Ü3 ) wird die Zahl der Variablen dadurch um 2 statt nur um 1 größer. 87 5 Lineare Optimierung Für die so gewonnene Normalform (NLO) eines LOP gelten folgende Äquivalenzaussagen: Satz 5.11. Entsteht ein NLO aus einem LOP nach den Regeln (Ü1 ), (Ü2 ), (Ü3 ), so ist das NLO genau dann lösbar, wenn das zugrundeliegende LOP lösbar ist. Satz 5.12. Entsteht ein NLO aus einem LOP nach den Regeln (Ü1 ), (Ü2 ), (Ü3 ), so ergibt jede Lösung der NLO genau eine Lösung der LOP, indem die eingeführten Schlupfvariablen unberücksichtigt bleiben und ursprünglich freie Variablen wieder als Differenz ihrer zugehörigen Variablen geschrieben werden. Beispiel 5.13. Wir betrachten das LOP (Z) z = 3x1 − x2 + 2x3 + 4 → max x1 + 2x2 ≤ 8 , x1 ≥ 0 , (N) −x3 ≤ 4 , (NN) x3 ≥ 0 . Durch Anwendung von (Ü1 ) ergibt sich (Z) z = −3x1 + x2 − 2x3 − 4 → min x1 + 2x2 ≤ 8 , x1 ≥ 0 , (N) −x3 ≤ 4 , (NN) x3 ≥ 0 . Durch zweimalige Anwendung von (Ü2 ) ergibt sich z = −3x1 + x2 − 2x3 + 0x4 + 0x5 − 4 → min −x3 + x5 = 4 , x1 + 2x2 + x4 = 8 , x1 ≥ 0 , x3 ≥ 0 , x4 ≥ 0 , (Z) (G) (NN) x5 ≥ 0 . Da x2 noch eine freie Variable ist, muss noch (Ü3 ) angewendet werden: (Z) z = −3x1 + x2 − 2x3 + 0x4 + 0x5 − x6 − 4 → min x1 + 2x2 + x4 − 2x6 = 8 , x1 ≥ 0 , x2 ≥ 0 , −x3 + x5 = 4 , x3 ≥ 0 , x4 ≥ 0 , x5 ≥ 0 , (G) x6 ≥ 0 . (NN) Das nun erhalten LOP ist eine NLO. 5.3 Lösung einer Normalform der linearen Optimierung 5.3.1 Bestimmung einer zulässigen Basisdarstellung von (G) Damit eine NLO lösbar ist, ist notwendig, dass ihr zulässiger Bereich ZB nichtleer ist. Hierfür ist notwendig, dass (G) lösbar ist. Wir nehmen daher nun die Lösbarkeit von (G) an, da andernfalls NLO nicht lösbar ist. 88 5.3 Lösung einer Normalform der linearen Optimierung Zur Ermittlung der Lösungen von (G) wird diesem, wie schon mehrfach durchgeführt, das Tableau (G) x1 y1 .. . a11 .. . ym am1 ··· ··· ··· xn 1 a1n .. . −a1 .. . amn −am oder kurz y x⊤ 1 A −a zugeordnet. Mittels des Austauschverfahrens mit Spaltentilgung (AVS) erhält man nach Durchführung aller möglichen Austauschschritte und Sortieren ein Tableau folgender Form: (T) xν1 xµ1 .. . b11 .. . xµp bp1 yτp+1 .. . bp+1.1 .. . yτm bm1 ··· xνq 1 ··· b1q .. . b1 .. . ··· bpq bp ··· bp+1,q .. . bp+1 .. . ··· bmq bm Da eine Fortführung des AVS nicht möglich ist, gilt bij = 0 für i = p + 1, . . . , m, j = 1, . . . q. Da (G) als lösbar vorausgesetzt wurde, muss auch bi = 0 für i = p + 1, . . . , m gelten. Wir können daher in (T) die Zeilen mit den nichtausgetauschten yi streichen und erhalten ein Tableau der Form (B) xµ1 .. . xνq b11 .. . ··· ··· xνq b1q .. . 1 b1 .. . xµp bp1 ··· bpq bp mit p + q = n. 89 5 Lineare Optimierung Definition 5.14. Das Tableau (B) wird als eine Basisdarstellung von (G) bezeichnet und B = (xµ1 , . . . , xµp ) heißt eine Basis von (G). Die Variablen xµ1 , ... , xµp bezeichnet man dann als Basisvariablen und xν1 , ... , xνq als Nichtbasisvariablen. Bemerkung 5.15. Die Basisdarstellung (B) ist nicht eindeutig. Sie hängt von der Wahl und Reihenfolge der Pivotelemente in AVS ab. Lemma 5.16. Die Lösungsmenge von (G) ist {x ∈ Rn | xµi = q X bij xνj + bi für i = 1, . . . , p, j=1 xνj ∈ R für j = 1, . . . , q} . Für den zulässigen Bereich der NLO gilt ZB = {x ∈ Rn | xµi = q X j=1 bij xνj + bi ≥ 0 für i = 1, . . . , p, xνj ≥ 0 für j = 1, . . . , q} . Definition 5.17. Eine spezielle Lösung von (G), bei der die Nichtbasisvariablen xν1 , . . . , xνq gleich Null gesetzt werden, heißt eine Basislösung (BL) von (G), xµ1 = b1 , xµ2 = b2 , ... , xµp = bp und xν1 = 0 , xν2 = 0 , ... , xνq = 0 . Bemerkung 5.18. Die Menge aller Basislösungen von (G), welche (NN) erfüllen, ist die Menge der Eckpunkte des zulässigen Bereiches ZB der NLO. Beispiel 5.19. Wir betrachten x1 − x2 − x3 = 0 2x1 + x2 + x3 = 9 x1 + x2 + x3 = 6 2x1 − 2x2 + 2x4 − 2x5 = 0 . 90 (G) 5.3 Lösung einer Normalform der linearen Optimierung Dann ergibt sich eine Basisdarstellung z. B. in folgender Weise mittels AVS: (G) x1 x2 x3 x4 x5 1 y1 1 0 0 2 −1 0 y2 −1 1 0 0 y3 1 1 1 0 0 y4 2 0 2 K 1 −2 ∗ 0 −2 x2 −1 x1 x2 x4 x5 1 x3 1 0 0 0 −9 y2 3 −1 0 0 0 y3 2 0 0 0 −9 0 y4 2 2 0 0 K ∗ −2 −2 x4 x5 1 0 0 3 0 0 0 0 x1 0 0 0 3 y4 −2 2 −2 6 1 −1 x3 y2 K −1 1 −6 x4 1 −1 0 3 0 0 0 x1 0 0 3 x5 −1 1 3 y2 3 (B) x3 x1 x5 x2 −1 0 −1 0 x2 x3 ∗ 0 0 −6 0 3 d. h., wir erhalten x4 0 0 1 1 3 3 3 als eine Basisdarstellung von (G). Daher ist x1 = 3 , x2 = 0 , x3 = 3 , x4 = 0 , x5 = 3 eine Basislösung von (G). Bemerkung 5.20. Fasst man die Basisvariablen (nach eventuellem Umsortieren) zu einem p-dimensionalen Vektor x̃ und die Nichtbasisvariablen zu einem q-dimensionalen Vektor x̂ zusammen, so hat die Basisdarstellung (B) die Form x̃ = B x̂ + b b11 .. mit B = . bp1 (B) x̃ · · · b1q b1 .. und b = .. . . . bp · · · bpq x̂⊤ B 1 b 91 5 Lineare Optimierung Satz 5.21. Eine Basisdarstellung (B) existiert genau dann, wenn (G) lösbar ist. 5.3.2 Simplextableau Nach den Bemerkungen 5.9 und 5.18 müssen wir die Basislösungen von (G) untersuchen, welche (NN) erfüllen, da gerade sie die Ecken des Simplizes ZB beschreiben. Definition 5.22. Eine Basisdarstellung (B) der NLO heißt zulässig, wenn b1 ≥ 0, . . . , bp ≥ 0 in (B) gilt. Lemma 5.23. Ist (B) eine zulässige Basisdarstellung der NLO, so gilt x = (x1 , . . . , xn ) ∈ ZB mit xµ1 = b1 , xµ2 = b2 , ... , xµp = bp und xν1 = 0 , xν2 = 0 , ... , xνq = 0 . Beweis. Nach Konstruktion ist x Basislösung, also insbesondere Lösung von (G). Da (B) zulässig ist, erfüllt x auch (NN) und liegt somit in ZB. Bemerkung 5.24. Durch die Menge aller zulässigen Basisdarstellungen der NLO wird folglich die Menge aller zulässigen Basislösungen der NLO und damit die Menge aller Eckpunkte des zulässigen Bereiches ZB der NLO beschrieben. Zu bestimmen sind nun die Ecken (d. h. zulässigen Basislösungen, d. h. zulässigen Basisdarstellungen) in denen das Minimum vorliegt. Definition 5.25. Ist (B) eine zulässige Basisdarstellung der NLO, so heißt (B) Simplextableau (ST). Den Wert d0 = f (x) der Zielfunktion f an der Stelle der Basislösung x erhält man auch dadurch, dass man unmittelbar von dem Tableau (B) y z x⊤ A c⊤ 1 −a c0 ausgeht und die z-Zeile in die Austauschschritte einbezieht, die zur Basisdarstellung führen. Die Basisdarstellung (B) hat in der um die z-Zeile erweiterten Form folgende (tabellarische) Darstellung 92 5.3 Lösung einer Normalform der linearen Optimierung (ST) xµ1 .. . xν1 b11 .. . ... ... xνq b1q .. . 1 b1 .. . xµp z bp1 d1 ... ... bpq dq bp d0 Satz 5.26. Es sei (ST) ein (erweitertes) Simplextableau. 1. Es gilt d0 = c0 + cµ1 b1 + · · · + cµp bp . 2. Wenn x eine zulässige Lösung ist, dann gilt f (x) = q X dj xνj + d0 . j=1 3. Wenn x eine zulässige Basislösung, dann gilt f (x) = d0 . Bemerkung 5.27. Nach Satz 5.21 wissen wir, dass die Menge der Basisdarstellungen zu (G) nichtleer ist. Offen ist aber noch, ob es auch zulässige Basisdarstellungen der NLO gibt und wie man gegebenenfalls eine zulässige Basisdarstellungen der NLO bestimmt. Diese Fragen werden später beantwortet. 5.3.3 Optimalität und Simplexkriterium Definition 5.28. Ein Simplextableau heißt optimal , wenn die zugehörige Basislösung x eine optimale Lösung des NLO ist, d. h., es gilt d0 = zmin := min f (x) = min (c0 + c⊤ x) . x∈ZB x∈ZB Wir betrachten nun die drei Fälle für ein um die z-Zeile erweitertes Simplextableau (ST) der NLO: (S1 ) = „Es gilt dj ≥ 0 für alle j = 1, . . . , q.“ (S2 ) = „Es gibt mindestens eine Spalte τ ∈ {1, ..., q} mit dτ < 0 und biτ ≥ 0 für alle i = 1, . . . , p.“ (S3 ) = „Es gilt weder (S1 ) noch (S2 ).“ 93 08.01.2010 5 Lineare Optimierung Satz 5.29 (Simplexkriterium). Sei (ST) ein um die z-Zeile erweitertes Simplextableau der NLO. 1. Wenn (S1 ) gilt, so ist (ST) ein optimales Simplextableau mit der zugehörigen optimalen Basislösung x mit xµ1 = b1 , xµ2 = b2 , ... , und xµp = bp xν1 = 0 , xν2 = 0 , ... , , xνq = 0 und dem Minimum f (x) = d0 . 2. Wenn (S2 ) gilt, so ist die NLO nicht lösbar. Beweis. 1. Nach Satz 5.26 gilt f (x) = q X dj xνj + d0 j=1 für alle x ∈ ZB. Wegen dj ≥ 0 für j = 1, . . . , q und da wegen (NN) auch xνj ≥ 0 für j = 1, . . . , q gilt, minimiert die zu (ST) gehörende Basislösung die Funktion f , sie ist also eine optimale Basislösung. 2. Sei ein solches τ fixiert. Es sei bi α0 := max 0, min − | j = 1, . . . , p mit biτ 6= 0 . biτ Für α ≥ α0 betrachten wir x(α) ∈ Rn mit xντ (α) = α , xνj (α) = 0 für j ∈ {1, . . . , q} \ {τ } , xµi (α) = biτ α + bi für i ∈ {1, . . . , p} . Dann erfüllt x(α) das Simplextableau (ST) und somit (G). Wegen α ≥ α0 erfüllt x(α) auch (NN). Somit ist x(α) für jedes α ≥ α0 eine zulässige Lösung. Wegen dτ < 0 und f (x(α)) = dτ α + d0 und kann f (x(α)) durch Wahl von α ≥ α0 beliebig klein gemacht werden. Folglich existiert kein Minimum von f auf ZB und NLO ist nicht lösbar. Aufgrund von Satz 5.29 definieren wir nun: Definition 5.30. Sei (ST) ein um die z-Zeile erweitertes Simplextableau der NLO. Es heißt entscheidbar im Fall (S1 ) oder (S2 ) und nicht-entscheidbar im Fall (S3 ). Weiter zu behandeln ist also nur noch der Fall (S3 ), in dem noch keine Entscheidung über Optimalität oder Nichtlösbarkeit getroffen werden konnte. 94 5.3 Lösung einer Normalform der linearen Optimierung 5.3.4 Bestimmung des Minimums Wir behandeln nun den Fall (S3 ) weiter. Da (S3 ) = (S1 ) ∨ (S2 ) = (S1 ) ∧ (S2 ) und (S1 ) = „Es gibt ein τ ∈ {1, . . . , q} mit dτ < 0.“ (S2 ) = „Für jedes j ∈ {1, ..., q} gilt dj ≥ 0 oder es gibt ein i ∈ {1, . . . , p} mit bij < 0.“ gilt (S3 ) = „Es gibt ein τ ∈ {1, . . . , q} und ein i ∈ {1, . . . , p} mit dτ < 0 und biτ < 0.“ Wegen (S3 ) sind folglich folgende Simplex-Regeln durchführbar: (SR1 ) Wahl der Pivotspalte: Wähle ein τ ∈ {1, . . . , q} mit dτ < 0 und J(τ ) := {i | i ∈ {1, . . . , p} und biτ < 0} = 6 ∅ als Pivotspalte. (SR2 ) Wahl der Pivotzeile: Berechne m(τ ) := min bi | i ∈ J(τ ) ≥ 0 |biτ | als den kleinsten Wert von |bbiτi | , wobei der Zeilenindex i innerhalb J(τ ) variiert wird, und wähle für die Pivotzeile σ ein σ ∈ J(τ ) mit bσ = m(τ ) . |bστ | (SR3 ) Austauschschritt: Man führe mit dem gemäß (SR1 ) und (SR2 ) gewähltem Pivotelement p = bστ den Austausch xµσ ↔ xντ der Basisvariablen xµσ gegen die Nichtbasisvariablen xντ mittels des Austauschverfahrens (AV) durch. Dieses Simplexverfahren besitzt folgende wichtige Eigenschaften, die mit Ausnahme des Entartungsfalls m(τ ) = 0 sichern, dass über die Lösbarkeit eines LOP entschieden wird und im Falle der Lösbarkeit eine Lösung xopt mit zopt = f (xopt ) = min f (x) x∈ZB gefunden wird: 95 5 Lineare Optimierung Satz 5.31. Die auf ein nichtentscheidbares Simplextableau (ST) stets anwendbaren Simplexregeln (SR1 ), (SR2 ), (SR3 ) überführen ein nichtentscheidbares Simplextableau (ST) in ein neues Simplextableau (ST’) mit d′0 ≤ d0 . Gilt dabei m(τ ) > 0, so gilt sogar d′0 < d0 . Beweis. Dass die Simplex-Regeln (SR1 ), (SR2 ), (SR3 ) stets auf ein nichtentscheidbares Simplextableau (ST) anwendbar sind, wurde oben schon gezeigt als Folgerung aus der Nichtentscheidbarkeit des Tableaus (Fall (S3 )). Wir betrachten das um die Kellerzeile erweiterte Tableau (ST) und das neue Tableau (ST’) (ST) xν1 ... xντ ... xνq 1 (ST’) xν1 ... xµσ ... xνq 1 xµ1 .. . b11 .. . ... b1τ ... b1q .. . b1 .. . xµ1 .. . b′11 .. . ... b′1τ ... b′1q .. . b′1 .. . xµσ .. . bσ1 .. . ... bστ ... bσq .. . bσ .. . xντ .. . b′σ1 .. . ... b′στ ... b′σq .. . b′σ .. . xµp bp1 ... bpτ ... bpq bp xµp b′p1 ... b′pτ ... b′pq b′p z d1 bσ1 − bστ ... dτ ... dq bσp − bστ d0 bσ − bστ z d′1 ... d′τ ... d′q d′0 K ∗ K Es gelten b′σ = − bσ = m(τ ) ≥ 0 bστ und b′i = bi − bσ biτ = bi + m(τ )biτ ≥ 0 bστ für i ∈ {1, . . . , p} \ {σ} . Folglich ist (ST’) wieder ein Simplextableau. Wegen dτ < 0 gilt ( = d0 , falls m(τ ) = 0 , bσ ′ d0 = d0 − · dτ = d0 + m(τ ) · dτ bστ < d0 , falls m(τ ) > 0 . Satz 5.32. Falls der Entartungsfall im Verlauf der Austausch-Schritte nicht auftritt, überführt das Simplexverfahren ein nicht-entscheidbares Simplextableau in endlich vielen Schritten in ein entscheidbares Simplextableau. Beweis. Der zulässige Bereich ZB hat nur endlich viele Ecken. Damit gibt es nur endlich viele Werte von f in den den Ecken zugehörigen Basislösungen. Da der Wert des Simplextableaus in jedem Schritt abnimmt, muss das Verfahren abbrechen. Da im Falle der Nicht-Entscheidbarkeit das Verfahren fortgesetzt werden könnte, muss einer der beiden Entscheidbarkeitsfälle vorliegen. 96 5.3 Lösung einer Normalform der linearen Optimierung Beispiel 5.33. Zwei Motoren M1 und M2 können an den Fließbändern A und B montiert werden. Am Fließband A können je Stunde n1 = 60 Motoren M1 oder n2 = 60 Motoren M2 hergestellt werden. Am Fließband B können je Stunde n3 = 90 Motoren M1 oder n4 = 60 Motoren M2 hergestellt werden. Die Montage ist so zu organisieren, dass einerseits innerhalb von 8 Stunden doppelt so viele Motoren M2 wie M1 hergestellt werden soll, und andererseits eine maximale Stückzahl bezüglich M1 (und damit auch bezüglich M2 ) erreicht wird. Lösung: 1. Aufstellung des LOP: Bezeichnet man mit x1 bzw. x2 die Montagestunden von A für M1 bzw. M2 und mit x3 bzw. x4 die Montagestunden von B für M1 bzw. M2 , so ergibt sich folgendes LOP: z = f (x) = 60x1 + 90x3 → max unter den Bedingungen x1 + x2 ≤ 8 x3 + x4 ≤ 8 2 · (60x1 + 90x3 ) = 60x2 + 60x4 x1 ≥ 0 , x2 ≥ 0 , x3 ≥ 0 , x4 ≥ 0 . Dieses LOP ist kein NLO. 2. Konstruktion einer zugehörigen NLO: Einführen der Schlupfvariablen x5 und x6 ergibt z ∗ = −60x1 − 90x3 → min (Z) x3 + x4 + x6 = 8 , (G) x1 + x2 + x5 = 8 , 2(60x1 + 90x3 ) = 60x2 + 60x4 , x1 ≥ 0 , x2 ≥ 0 , x3 ≥ 0 , x4 ≥ 0 , x5 ≥ 0 , x6 ≥ 0 . (NN) Die Schlupfvariablen x5 bzw. x6 sind dabei als Stillstandszeiten von A und B interpretierbar. 97 5 Lineare Optimierung 3. Ermittlung einer Basisdarstellung (B) von (G) mittels AVS: (G) x1 x2 x3 x4 x5 x6 1 y1 1 1 0 0 1 0 x5 y2 0 0 1 1 0 1 −8 y3 2 3 0 0 −60 −1 0 z −1 0 0 0 0 ∗ K −90 0 −1 −1 0 x1 x2 x3 x4 x6 1 −1 −1 0 0 0 8 0 1 1 1 y3 2 3 z 0 0 0 0 8 K −60 −1 0 0 −1 −8 −1 ∗ 8 −8 x1 x2 x3 x4 1 −1 −1 0 0 8 2 z −60 −1 −1 8 y3 −1 x5 x6 K 0 2 0 0 −1 3 −90 −1 0 0 0 ∗ 0 3 0 y2 0 −90 −1 0 0 (ST) x1 x2 x3 1 x5 −1 −1 0 8 8 2 -1 −4 3 0 −60 0 −90 0 −2 x6 x4 z 1 0 (ST) ist nun eine Basisdarstellung von (G) mit folgenden Eigenschaften: • xµ1 = x5 , xµ2 = x6 , xµ3 = x4 sind die Basisvariablen. • xν1 = x1 , xν2 = x2 , xν3 = x3 sind die Nichtbasisvariablen. • Die Basislösung x = (x1 , . . . , x6 ) lautet x1 = 0 , x2 = 0 , x3 = 0 , x4 = 0 , x5 = 8 , x6 = 8 , der zugehörige Wert des Tableaus ist d0 = f (x) = 0 . (Diese Basislösung ist natürlich die schlechteste: Wegen x5 = x6 = 8 findet keine Montage statt.) • (ST) ist eine zulässige Basisdarstellung, also ein Simplextableau, da mit b1 = 8 , b2 = 8 , b3 = 0 offensichtlich die Bedingung bi ≥ 0 erfüllt ist. 98 für i = 1, 2, 3 5.3 Lösung einer Normalform der linearen Optimierung 4. Prüfung des Simplexkriteriums: (ST) ist nicht entscheidbar, da weder (S1 ) (z. B. wegen d1 = −60 < 0) noch (S2 ) (z. B. wegen b11 = −1 < 0 und b23 = −4 < 0) erfüllt sind. 5. Simplexverfahren: Entsprechend (SR1 ) kommen die 1. oder 3. Spalte von (ST) als Pivotspalte in Frage. Wir wählen τ =3. Es gilt nun J(3) = {2}, m(3) = 8 4 und nach (SR2 ) ergibt sich σ =2. Entsprechend (SR3 ) ist der Austausch x6 ↔ x3 durchzuführen. Wir erhalten: (ST’) x1 x2 x6 1 x5 −1 −1 0 8 − 14 2 x3 x4 z 1 4 − 41 − 90 4 − 12 1 2 −15 − 34 90 4 6 −180 Das Simplextableau (ST’) ist nicht entscheidbar, da weder (S1 ) (z. B. wegen d1 = −15 < 0) noch (S2 ) (wegen z. B. b1 = −1 < 0 und b12 = −1 < 0) erfüllt sind. Das Simplexverfahren ist also fortzusetzen. Entsprechend (SR1 ) kommen die 1. oder 2. Spalte von (ST’) als Pivotspalte in Frage. Wir wählen τ =2. Wegen J(2) = {1, 3} und m(2) = min b3 b1 , |b12 | |b32 | = min ( 8 6 , 1 14 ) =8 ist nach (SR2 ) σ=1 zu wählen. Durchzuführen ist damit der Austausch x5 ↔ x2 in (SR3 ). Durch AVS erhalten wir (ST”) x1 x5 x6 1 x2 −1 −1 0 8 − 41 − 34 90 4 4 x3 x4 z − 34 3 4 30 4 − 14 1 4 90 4 4 −360 99 5 Lineare Optimierung Dieses Simplextableau (ST”) ist entscheidbar, da d1 = sind, also (S1 ) erfüllt ist. Die Basislösung x1 = 0 , x2 = 8 , x3 = 4 , 30 4 , x4 = 4 , d2 = x5 = 0 , 90 4 , d3 = 90 4 nicht negativ x6 = 0 ergibt eine optimale Lösung der NLO. Auf das ursprüngliche Problem übertragen heißt das: Es werden 360 Stück von M1 und 720 Stück von M2 hergestellt. Am Fließband A sind nur Motoren M2 , am Fließband B je 4 Stunden M1 bzw. M2 herzustellen. Die Stillstandszeiten x5 und x6 sind gleich Null. 5.4 Ermittlung eines ersten Simplextableaus pstWie bereits in Bemerkung 5.27 festgestellt wurde, führt die Ermittlung einer Basisdarstellung nicht notwendigerweise zu einer zulässigen Basisdarstellung, d. h. zu einem ersten Simplextableau. Dieses Ziel ist aber über ein Hilfproblem erreichbar, bei dem die Pivotelemente bei den Austauschschritten, die von (G) zu (B) führen, bereits entsprechend (SR1 ) und (SR2 ) auswählt. Wir gehen von einer originalen NLO z = f (x) = c0 + c⊤ x → min (Z) (G) Ax = a , (NN) x≥0. mit c1 .. c = . , cn x1 x = ... , xn a11 .. A= . ··· a1n .. , . am1 · · · amn a1 a = ... am aus. Zusätzlich fordern wir nun, dass ohne Beschränkung der Allgemeinheit auch a ≤ 0, d. h. ai ≤ 0 für i = 1, . . . , m gilt. Dies ist stets dadurch erreichbar, dass die Zeilen in (G) mit ai > 0 mit −1 durchmultipliziert werden, d. h., dass ai und die i-te Zeile von A mit −1 multipliziert werden, wenn ai > 0 gilt. Wir betrachten das Hilfsproblem (H) h= m X i=1 yi → min Ax − y = a , x≥0, 100 y ≥0. (ZH) (GH) (NNH) 5.4 Ermittlung eines ersten Simplextableaus Dieses ist eine NLO in den Variablen x und y. Wenn x und y (GH) erfüllen, gilt m X yi = i=1 m X i=1 ai1 xi − m X ai . i=1 Wir können also auch das äquivalente Problem h= m X ai1 xi + i=1 m X i=1 ai → min (GH) Ax − y − a = 0 , x≥0, (ZH) (NNH) y≥0 in den Variablen x und y betrachten. Wir ergänzen dieses Problem noch um die z-Zeile und erhalten folgendes Tableau: (H) x1 ... xn 1 y1 .. . a11 .. . ... a1n .. . −a1 .. . ym am1 m P ai1 ... amn m P ain −am m P ai − h ... i=1 i=1 z c1 ... cn i=1 c0 Offenbar hat dieses Tableau (ohne z-Zeile) die Basislösung (x, y) mit x = 0 und y = −a. Da nach Voraussetzung a ≤ 0 gilt, ist (H) ohne z-Zeile ein Simplextableau für das Hilfsproblem. Auf (H) wird nun das Simplexverfahren mit den Schritten (SR1 ), (SR2 ) und (SR3 ) angewandt bis (nach endliche vielen Schritten) ein entscheidbares Simplextableau entsteht. Satz 5.34. Das letzte Simplextableau für (H) ist stets optimal. Beweis. Das Simplexverfahren bricht ab, sobald ein P entscheidbares Tableau erreicht wird. Es gilt also (S1 ) oder (S2 ). Wegen y ≥ 0 und h = m i=1 yi ≥ 0, ist die Zielfunktion des Hilfsproblems nach unten durch 0 beschränkt. Der Fall (S2 ) kann somit nicht auftreten. 101 5 Lineare Optimierung Satz 5.35. Sei hmin das Minimum des Hilfsproblems und sei (x, y) optimale Lösung des letzten aus (H) entstehenden Tableaus. 1. Es gelte hmin = 0. Nach • Streichen der h-Zeile, • Streichen der yi -Zeilen, welche nur 0-Einträge haben, • Streichen der yj -Spalten • und nach Anwendung des AVS bis alle yi nach oben ausgetauscht worden sind, erhält man ein Simplextableau für die originale NLO. 2. Wenn hmin > 0 gilt, besitzt die originale NLO keine Lösung. Beweis. 1. Sei (x, y) optimale Lösung des letzten aus (H) entstehenden Tableaus. Als Lösung des Hilfsproblems ist Pm(x, y) eine zulässige Lösung von (GH), es gilt also Ax − y = a mit y ≥ 0. Aus hmin = i=1 yi > 0 und y ≥ 0 folgt y = 0 und somit Ax − a = 0, d. h. x ist eine Lösung von (G) und (NN). Durch AV können somit alle noch links verbleiben yi noch oben ausgetauscht werden, sofern sie in den xj -Spalten nicht nur 0-Einträge haben. Da (x, y) auch zulässige Basislösung des letzten aus (H) entstehenden Tableaus war, d. h., waren alle oben stehenden xi gleich 0. Stand nun noch ein yi links im Tableau, so war der entsprechende Eintrag in der 1-Spalte eine 0. Ein AV-Schritt zum Austausch eines solchen yi nach oben ändert die 1-Spalte also nicht, d. h. nach jedem AV-Schritt haben wir (x, y) wieder als eine optimale Lösung des Simplextableaus. Das Hochtauschen der yi bricht ab, wenn kein yi mehr links steht, oder die noch da stehenden nur 0 Zeilen haben. Streicht man diese Zeilen, die h-Zeile und die yj -Spalten, so ist x zulässige Lösung des entstandenen Tableaus ohne y-Variablen, das entstandene Tableau ist also ein Simplextableau für die originale NLO. Dasselbe Tableau erhalten wir auch, wenn man die yi -Zeilen, welche nur 0-Einträge haben, und die yj -Spalten gleich streicht und AVS abwendet. 15.01.2010 2. Wenn hmin > 0 gilt, dannPgilt nicht y = 0 und x ist keine Lösung von (G). Da (x, y) aber optimale Lösung ist, kann m i=1 yi nicht kleiner gemacht werden. Beispiel 5.36. Gegeben sei ein LOP mit z = f (x) = x1 + x2 + 3 → min x1 + x2 − 2x3 ≥ 1 , − x1 + x2 − x3 ≥ 2 , x3 ≥ x1 , x1 ≥ 0 , 102 x2 ≥ 0 . 5.4 Ermittlung eines ersten Simplextableaus Durch Einführen der Schlupfvariablen x4 , x5 , x6 und Multiplikation der ersten und zweiten Gleichung mit −1 ergibt sich die NLO z = x1 + x2 + 3 → min (Z) + x1 − x2 + x3 + x5 = −2 , (G) − x1 − x2 + 2x3 + x4 = −1 , − x1 + x3 − x6 = 0 , xi ≥ 0 für i = 1, . . . , 6 . (NN) Das Hilfsproblem lautet dann h = y1 + y2 + y3 → min (ZH) y2 = x1 − x2 + x3 + x5 + 2 , (GH) y1 = −x1 − x2 + 2x3 + x4 + 1 , y3 = −x1 + x3 − x6 , xi ≥ 0 für i = 1, . . . , 6 , yj ≥ 0 für i = 1, 2, 3 . (NNH) Das zugehörige Simplex-Tableau des Hilfsproblems hat dann – unter Einbeziehung der zZeile – die Form y1 y2 y3 h z x1 x2 x3 x4 x5 x6 1 −1 −1 2 1 0 0 1 1 0 1 0 2 −1 0 1 0 0 0 −2 4 1 1 −1 0 0 0 0 3 1 −1 1 −1 1 −1 3 Entsprechend (SR1 ) (bezüglich der h-Zeile) kann τ = 6 als Pivotspalte gewählt werden. Nach (SR2 ) ergibt sich σ = 3 und somit der Austausch y3 ↔ x6 . Ergänzen der Kellerzeile ergibt das Tableau: y1 y2 y3 h z K Durch AVS nach (SR3 ) folgt: x1 x2 x3 x4 x5 x6 1 −1 −1 2 1 0 0 1 y1 1 0 1 0 2 y2 0 1 0 0 0 x6 −2 4 1 1 −1 3 h 1 0 0 0 0 3 z 0 1 0 0 ∗ 0 1 −1 −1 1 −1 −1 −1 x1 x2 x3 x4 x5 1 −1 −1 2 1 0 1 1 0 1 2 0 1 0 0 0 −2 3 1 1 3 0 0 0 3 1 −1 0 1 −1 1 103 5 Lineare Optimierung Entsprechend (SR1 ) (bezüglich der h-Zeile) muss τ = 2 als Pivotspalte gewählt werden. Nach (SR2 ) ergibt sich σ = 1 und somit der Austausch y1 ↔ x2 . Ergänzen der Kellerzeile ergibt das Tableau: y1 y2 x1 x2 x3 x4 x5 1 −1 −1 2 1 0 1 x2 1 0 1 2 y2 0 1 0 0 0 x6 −2 3 1 1 3 h 1 0 0 0 3 z ∗ 2 1 0 1 −1 1 −1 x6 h Durch AVS nach (SR3 ) folgt: 0 z 1 K −1 x1 x3 x4 x5 1 −1 2 1 0 1 −1 −1 1 1 0 0 0 −1 −1 1 1 0 4 2 −1 1 2 0 2 1 Entsprechend (SR1 ) (bezüglich der h-Zeile) wird τ = 3 als Pivotspalte gewählt werden. Nach (SR2 ) ergibt sich σ = 2 und somit der Austausch y2 ↔ x4 . Ergänzen der Kellerzeile ergibt das Tableau: x2 y2 x6 h x1 x3 x4 x5 1 −1 2 1 0 1 −1 −1 1 0 −1 2 −1 2 z 0 K 2 1 −1 2 −1 Durch AVS nach (SR3 ) folgt: x1 x3 x5 1 x2 1 1 1 2 1 x4 2 1 1 0 0 x6 1 0 0 1 1 h −1 −1 0 0 0 0 1 0 4 z 2 1 1 5 ∗ 1 1 Das Verfahren bricht mit hmin = 0 ab. Durch Streichen der h-Zeile erhalten wir ein Simplextableau zur originalen NLO. Dieses Simplextableau ist sogar bereits entscheidbar: Es liegt ein optimales Simplextableau mit x1 = 0 , und zmin = 5 vor. 104 x2 = 2 , x3 = 0 , x4 = 1 , x5 = 0 , x6 = 0 6 Vektorräume und Komplexe Zahlen 6.1 Vektorräume Vektorräume sind in gewisser Weise Verallgemeinerungen der Zahlenmengen. So gibt es in einem Vektorraum eine Addition mit Eigenschaften analog der für die reellen Zahlen. Außerdem kann man Vektoren durch die Multiplikation mit reellen Zahlen stauchen oder dehnen. Eine Multiplikation mit den von den reellen Zahlen gewohnten Eigenschaften gibt es jedoch im allgemeinen nicht. Daher werden verschiedene Arten von Ersatz-Multiplikationen (Zahlen mit Vektoren oder Vektoren mit Vektoren) betrachtet. Vektoren erlauben vielfältige innermathematische Anwendungen wie in der Geometrie oder Analysis, sowie auch außermathematische Anwendungen z. B. in der Mechanik. Je nach Anwendung haben sie unterschiedliche Formen. Ziel dieses Abschnittes ist einerseits die Wiederholung von Begriffen, welche von der Schule her bekannt sein sollten, und eine allgemeinere Einordnung. 6.1.1 Zahlenkörper Seien K eine Menge mit einer Addition „+“ und die Multiplikation „·“ mit folgenden Eigenschaften: ∀x, y ∈ K : x + y = y + x ∀x, y ∈ K : x · y = y · x ∀x, y, z ∈ K : x + (y + z) = (x + y) + z ∀x, y, z ∈ K : x · (y · z) = (x · y) · z ∀x, y, z ∈ K : x · (y + z) = x · y + x · z ∀x ∈ K : x + 0 = x, 1 · x = x ∀x ∈ K : ∃=1 − x ∈ K : x + (−x) = 0 ∀x ∈ K \ {0}∃=1 x−1 ∈ K : x−1 · x = 1) (Kommutativgesetze) (Assoziativgesetze) (Distributivgesetz) (neutrale Elemente 0 bzw. 1 (additiv inverse Zahl) (multiplikativ inverse Zahl) Definition 6.1. Eine Menge K mit Operationen + und · und Elementen 0 6= 1 und obigen Gesetzen heißt (Zahlen-) Körper . Bemerkung 6.2. Die Menge N der natürlichen Zahlen und die Menge der ganzen Zahlen Z bilden mit der üblichen Addition und Multiplikation keinen Zahlenkörper, da Inverse Elemente zu Addition bzw. Multiplikation fehlen. 105 6 Vektorräume und Komplexe Zahlen Beispiel 6.3. Die Menge Q der rationalen Zahlen pq mit p, q ∈ Z, q 6= 0 ausgestatter mit der üblichen Addition und der üblichen Multiplikation bildet einen Zahlenkörper, wobei • rationale Zahlen p q und r s genau dann als gleich gelten, wenn ps = qr gilt, p r = q s ⇐⇒ ps = qr , • rationale Zahlen pq und rs addiert werden, indem beide Zahlen auf den gemeinsamen Hauptnenner gebarcht werden und dann die Zähler addiert werden, p r ps qr ps + qr + = + = , q s qs qs qs • rationale Zahlen den, p q und r s addiert werden, indem Zähler und Nenner multipliziert werp r pr · = . q s qs Beispiel 6.4. Die Menge R der reellen Zahlen ausgestattet mit der üblichen Addition und der üblichen Multiplikation bildet einen Zahlenkörper, wobei mir den uns hier in der Vorlesung zur Verfügung stehenden Mitteln weder definiert werden kann, was reelle Zahlen sind, noch wie sie addiert oder multipliziert werden. (Reelle Zahlen werden als Äquivalenzklassen von Intervallschachtelungen, als Dedekind-Schnitte, als Äquivalenzklassen von Cauchy-Folgen eingeführt. Die Einführung reeller Zahlen als Dezimalbrüche mangelt daran, dass Dezimalbrüche als formale Reihen betrachtet werden müssten und es sehr kompliziert ist, für diese Addition und Multiplikation zu definieren.) Beispiel 6.5. Sei M = {0, 1} mit folgender Addition und Multiplikation: 0+0=0, 0+1=1, 1+0=1, 1+1=0, 0·0=0, 0·1=0, 1·0=0, 1·1=1. Wir erhalten den zweielementigen Zahlenkörper F2 . Beispiel 6.6. Die Menge Rn der reellen n-Tupel bildet für n > 1 zusammen mit der üblichen komponentenweisen Addition keinen Zahlenkörper, da eine geeignete Multiplikation fehlt: Zum Skalarprodukt fehlen Inverse, das Vektorprodukt im R3 ist nicht kommutativ. Beispiel 6.7. Die Menge Rn×n der n-reihigen Matrizen bildet für n > 1 zusammen mit der üblichen Matrizenaddition und -multiplikation keinen Zahlenkörper: Die Muliplikation ist nicht kommutativ und es mangelt an der Existenz inverser Matrizen. 6.1.2 Vektorraum Rn Sei n ∈ N>0 . Wir betrachten die Menge Rn := Xni=1 R = |R × ·{z · · × R} = {(x1 , . . . , xn ) | xi ∈ R} n−mal 106 6.1 Vektorräume der reellen n-Tupel . In Rn definiert man die Addition von Elementen x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) und die Multiplikation mit einem Skalar (reeller Zahl) λ ∈ R durch x + y := (x1 + y1 , . . . , xn + yn ) und λ · x := (λx1 , . . . , λxn ) . x + y heißt Summe von x und y, λx heißt Vielfaches, konkret λ-Faches von x. Insbesondere betrachtet man die Räume R2 und R3 der Paare bzw. Tripel reeller Zahlen zur Beschreibung von Punkten in der Ebene oder im (drei-dimensionalen) Raum. Algebraische Eigenschaften: Seien 0 := (0, . . . , 0) (Null) , −x := (−x1 , . . . , −xn ) (entgegengesetztes Element) . Dann gelten (für x, y, z ∈ Rn ,λ, µ ∈ R): x+y =y+x, λ · (x + y) = λ · x + λ · y , x+0=x, (6.1) (x + y) + z = x + (y + z) , x + (−x) = 0 , (λ + µ) · x = λ · x + µ · x , 0·x=0, 1·x=x, λ(µ · x) = (λµ) · x , (−1) · x = −x . (6.2) (6.3) Wir setzen: x − y := x + (−y) = (x1 − y1 , . . . , xn − yn ) . Schreibweise: Wir schreiben ein n-Tupel (x1 , . . . , xn ) auch als so genannten Spaltenvektor . Beachte den Unterschied zum Zeilenvektor (ohne Kommas!): x1 für n>1 (x1 , . . . , xn ) = ... 6= (x1 xn ··· xn ) . Spezielle Vektoren sind der Nullvektor 0 = (0, . . . , 0) und die i-ten Einheitsvektoren ei := (0, . . . , 0, 1, 0, . . . , 0) , bei denen genau an der i-ten Stelle eine 1 steht. Ist dann x = (x1 , . . . , xn ) ein Vektor aus Rn , so kann man ihn als x = x1 e1 + x2 e2 + · · · + xn en = n X xi ei , i=1 107 6 Vektorräume und Komplexe Zahlen d. h., als eine Linearkombination der ei darstellen. Außerdem ist (e1 , . . . , en ) minimal in folgendem Sinne: keiner der Vektoren ei lässt sich als Linearkombination der übrigen Einheitsvektoren darstellen. (e1 , . . . , en ) heißt kanonische Basis und x1 , . . . ,xn heißen die Koordinaten von x bezüglich der kanonischen Basis. 6.1.3 Allgemeine Vektorräume Definition 6.8. Sei K ein Körper. Eine Menge V mit einer Addition + und einer Multiplikation · mit Zahlen aus K heißt Vektorraum, wenn genau ein Nullvektor 0 ∈ V und für jedes x ∈ V genau ein additives Inverses (entgegengesetzter Vektor ) −x ∈ V existieren, so dass (6.1), (6.2), (6.3) für alle x, y, z ∈ V , λ, µ ∈ K gelten. Die Elemente eines Vektorraumes heißen Vektoren. 22.01.10 Bemerkung 6.9. Ein Vektorraum ist also eine algebraische Struktur, in der Summe und Vielfaches mit „vernünftigen“ Eigenschaften definiert sind. Beispiele von Vektorräumen: 1. Der Raum Rn der reellen n-Tupel ist ein Vektorraum über dem Körper R, siehe oben. 2. Wir betrachten die Menge Rm×n der reellen m × n-Matrizen mit üblicher Summe und üblichen reellen Vielfachen. Dann ist auch Rm×n ein Vektorraum. 3. Wir betrachten die Lösungsmenge L ⊆ R eines linearen, homogenen Gleichungssystems mit reellen Koeffizienten. Dann ist L ein reeller Vektorraum. 4. Wir betrachten die Lösungsmenge L ⊆ Q eines linearen, homogenen Gleichungssystems mit rationalen Koeffizienten. Dann ist L ein rationaler Vektorraum. 5. Wir betrachten die Menge F aller Funktionen f : R → R. Für f, g ∈ F definieren wir Summe und Vielfaches durch (f + g)(x) := f (x) + g(x) , Damit bildet F einen Vektorraum über R. 108 (λf )(x) := λf (x) (x ∈ R) . 6.1 Vektorräume Definition 6.10. Seien n Vektoren b1 , . . . , bn in einem Vektorraum V über K gegeben. Das n-Tupel (b1 , . . . , bn ) heißt linear unabhängig , wenn der Nullvektor 0 nur trivial als Linearkombination der bi darstellbar ist: λ 1 b1 + · · · + λ n bn = 0 ⇒ λ1 = · · · = λn = 0 . Das n-Tupel (b1 , . . . , bn ) heißt vollständig , wenn jeder Vektor v ∈ V als Linearkombination der bi darstellbar ist: ∀v ∈ V ∃x1 , . . . , xn ∈ K : v = x1 b1 + x2 b2 + · · · + xn bn . (6.4) Ein linear unabhängiges und vollständiges n-Tupel (b1 , . . . , bn ) heißt Basis von V . Bemerkung 6.11. Die Darstellung (6.4) bezüglich (b1 , . . . , bn ) ist eindeutig. Definition 6.12. Ist (b1 , . . . , bn ) eine Basis, so heißt V ein n-dimensionaler Vektorraum. Die Zahlen x1 , . . . , xn (in dieser Reihenfolge) in (6.4) heißen die Koordinaten von v bezüglich der Basis (b1 , . . . , bn ). Der Vektor (x1 , . . . , xn ) ∈ Rn in (6.4) heißt Koordinatenvektor von v bezüglich dieser Basis. Existiert also eine Basis (b1 , . . . , bn ), so entspricht jedem Vektor v ∈ V genau ein Koordinatenvektor x ∈ Rn und umgekehrt, wobei V ∋ v = x1 b1 + x2 b2 + · · · + xn bn ←→ (x1 , . . . , xn ) = x ∈ Rn . Außerdem entsprechen sich Addition und Multiplikation mit Skalar in V und Rn . Bemerkung 6.13. Anstelle eines n-dimensionalen Vektorraumes V über R kann stets der isomorphe Vektorraum Rn der n-Tupel betrachtet werden. 6.1.4 Skalarprodukt und Norm Definition 6.14. Für Vektoren x, y ∈ Rn definieren wir das euklidische Skalarprodukt hx, yi := x1 y1 + · · · + xn yn = n X xi yi = x⊤ y . i=1 109 6 Vektorräume und Komplexe Zahlen Das Skalarprodukt ordnet Vektoren x, y ∈ Rn eine reelle Zahl zu und hat folgende Eigenschaften (α, β ∈ R, x, y, z ∈ Rn ): hx, yi = hy, xi hx, αy + βzi = αhx, yi + βhx, zi hx, xi ≥ 0 , hx, xi = 0 ⇔ x = 0 (Symmetrie) (Bilinearität) (positive Definitheit) . (6.5) Offensichtlich gilt xi = hx, ei i für i = 1, . . . , n . Definition 6.15. Eine Abbildung h·, ·i : V × V → R, (v, w) 7→ hv, wi heißt Skalarprodukt in V , wenn (6.5) für alle α, β ∈ R und alle x, y ∈ V gilt. Andere Bezeichnungen: v·w, (v | w) , (v, w) . Definition 6.16. Die Zahl q p kxk := hx, xi = x21 + · · · + x2n heißt (euklidischer) Betrag , Länge oder euklidische Norm von x. Die Länge hat folgende Eigenschaften (λ ∈ R, x, y ∈ Rn ): kxk ≥ 0 , kxk = 0 ⇔ x = 0 kλxk = |λ| · kxk kx + yk ≤ kxk + kyk (positive Definitheit) (Homogenität) (Dreiecksungleichung) (6.6) Definition 6.17. Der Vektorraum (Rn , +, ·) ausgestattet mit der Länge k · k heißt euklidischer Raum. Definition 6.18. Eine Abbildung k · k : V → R, v 7→ kvk heißt Norm in V , wenn (6.6) entsprechend für alle λ ∈ R und alle x, y ∈ V gilt. Definition 6.19. v ∈ V heißt normiert oder Einheitsvektor , wenn kvk = 1. Bemerkung 6.20. Wenn h·, ·i ein Skalarprodukt in V ist, dann ist durch kvk := v ∈ V eine Norm in V definiert. 110 p hv, vi für 6.1 Vektorräume Es gilt die Cauchy-Schwarz-Bunjakowski-Ungleichung für alle v, w ∈ V . |hv, wi| ≤ kvk · kwk Sei (b1 , . . . , bn ) eine Basis in V und seien v, w ∈ V mit v= n X xi bi , w= i=1 Dann gilt hv, wi = n X n X n X y i bi . i=1 mit gij xi yj i=1 j=1 gij := hbi , bj i . Definition 6.21. Zwei Vektoren a, b ∈ V heißen orthogonal zueinander , wenn ha, bi = 0 gilt. Wenn hbi , bi i = 1, hbi , bj i = 0 für i 6= j, dann sind die Vektoren b1 , . . . , bn normiert und paarweise orthogonal (d. h., orthonormal ) und es gilt gii = 1 und gij = 0 für i 6= j. Daher gilt dann n X hv, wi = xi yi . i=1 Bemerkung 6.22. Die Einheitsvektoren e1 , . . . , en in Rn sind orthonormal bezüglich des euklidischen Skalarproduktes. Definition 6.23. Für zwei Vektoren v, w ∈ V \ {0} eines euklidischen Raumes V wird der Winkel ∡(v, w) ∈ [0, π] definiert durch cos ∡(v, w) = hv, wi . kvk · kwk Bemerkung 6.24. Durch obige Defintion wird der Winkelbegriff vom Zweidimensionalen her verallgemeinert und ist nun auch allgemein in euklidischen Vektorräumen verfügbar. Bemerkung 6.25. Zwei Vektoren v, w ∈ V \{0} sind genau dann orthogonal zueinander (d. h. hv, wi = 0), wenn der Winkel zwischen ihnen π2 (also 90◦ ) ist. 111 6 Vektorräume und Komplexe Zahlen 6.1.5 Analytische Geometrie Aus der Schule sollte die Anwendung des R2 und des R3 für die analytische Geometrie, Grundaufgaben der analytischen Geometrie und deren Lösung bekannt sein: • Darstellungen von Geraden und Ebenen, • Orthogonalprojektion, • Schnittpunkte von Geraden und Ebenen, • Winkel zwischen Geraden und Ebenen, • Lotfußpunkte und Lotgeraden. Zum Skalarprodukt kommen im R3 noch Kreuzprodukt und Spatprodukt hinzu. Für eine ausführlichere Darstellung der analytischen Geometrie wird auf andere Vorlesungen bzw. Bücher verwiesen. 6.2 Komplexe Zahlen Ziel ist, die Menge R2 so mit einer Addition „+“ und einer Multiplikation „·“ auszustatten, dass ein Zahlenkörper entsteht. Wenn dies geht, so können wir mit Punkten in der Ebene R2 richtig rechnen – im Unterschied zur Vektorrechnung, bei der eine Division fehlt. 6.2.1 Körper der komplexen Zahlen Wir verwenden für den R2 die schon bekannte Addition (a, b) + (c, d) := (a + c, b + d) . (6.7) Sie erfüllt alle an sie forderten Eigenschaften für einen Zahlenkörper. Beispiel 6.26. Es seien z1 = (2, −1), z2 = (1, 3). Dann gelten z1 + z2 =(2, −1) + (1, 3) = (3, 2) , z1 − z2 =(2, −1) − (1, 3) = (1, −4) . Benötigt wird noch Multiplikation im R2 , d. h., wir haben (a, b) · (c, d) so zu definieren, dass wieder ein Element des R2 entsteht, und so, dass das Produkt vernünftige Eigenschaften hat (Kommutativgesetz, Assoziativgesetz, Distributivgesetz, Existenz von neutralem Element und von inversen Elementen). 112 6.2 Komplexe Zahlen Insbesondere wollen wir ein Paar (x, 0) ∈ R2 mit der reellen Zahl x ∈ R identifizieren: (x, 0) = x für x ∈ R . Außerdem soll die Multiplikation mit einer reellen Zahl die schon vom R2 bekannten Eigenschaften haben. Damit sind schon festgelegt: • 0 = (0, 0) als Null und 1 = (1, 0) als Eins, • (a, 0) · (c, d) = (ac, ad) und somit (a, b) · (c, d) = (a, 0) · (c, d) + (0, b) · (c, d) = (a, 0) · (c, 0) + (a, 0) · (0, d) + (0, b) · (c, 0) + (0, b) · (0, d) = ac(1, 0)2 + ad(1, 0)(0, 1) + bc(1, 0)(0, 1) + bd(0, 1)2 = ac(1, 0) + (bc + ad)(0, 1) + bd(0, 1)2 = (ac, ad + bc) + bd(0, 1)2 . Offen ist somit nur noch die geeignete Definition von (0, 1)2 . Potentielle (einfachste) Elemente wären (0, 0) , (1, 0) , (0, 1) , (−1, 0) , (0, −1) , (1, 1) , (−1, −1) , wovon aber nur (−1, 0) die gewünschten Eigenschaften hat: Setzen wir (0, 1)2 := (−1, 0) = −1 , so haben wir die Multiplikation vollständig definiert durch (a, b) · (c, d) := (ac − bd, ad + bc) . (6.8) Die so definierte Multiplikation hat vernünftige Eigenschaften: • Sie genügt dem Kommutativ- und dem Assoziativgesetz. • Gemeinsam mit der Addition genügt sie dem Distributivgesetz. • 0 = (0, 0) und 1 = (1, 0) sind die neutralen Elemente bezüglich Addition bzw. Multiplikation. 113 6 Vektorräume und Komplexe Zahlen • Für jedes (a, b) 6= (0, 0) gilt a −b (a, b) · = (1, 0) = 1 , , a2 + b2 a2 + b2 wenn (a, b) 6= 0 , genauer: Für (a, b) 6= (0, 0) gibt es genau ein (c, d) mit (a, b) · (c, d) = 1. Beispiel 6.27. Es seien z1 = (2, −1), z2 = (1, 3). Dann gelten z1 · z2 =(2 · 1 − (−1) · (3), 2 · 3 + (−1) · 1) = (5, 5) , 2 1 −(−1) 1 2 = = , , . z1 22 + (−1)2 22 + (−1)2 5 5 Satz 6.28. Die Menge R2 zusammen mit der Addition + und der Multiplikation · entsprechend (6.7) und (6.8) bildet einen Zahlenkörper. 29.01.2010 Definition 6.29. Die Menge R2 zusammen mit der Addition + und der Multiplikation · entsprechend (6.7) und (6.8) heißt Körper der komplexen Zahlen C. Die Elemente von C heißen komplexe Zahlen C. 6.2.2 Algebraische Darstellung komplexer Zahlen Bemerkung 6.30. C ist ein zweidimensionaler Vektorraum über R mit der Basis (e1 , e2 ) = ((1, 0), (0, 1)) , d. h., für jede komplexe Zahl (x, y) gilt (x, y) = x · (1, 0) + y · (0, 1) = x · e1 + y · e2 . (6.9) (x, y) = x · e1 + y · e2 y · e2 e2 e1 x · e1 Wir können uns daher die Elemente von C auch als Punkte in der Ebene vorstellen, nachdem wir einen Nullpunkt und zwei aufeinander senkrecht stehende Koordinatenachsen ausgewählt haben: Die waagerechte Achse gehört zum Basisvektor e1 = (1, 0), d. h., zu den reellen Zahlen, die vertikale Achse gehört zum Basisvektor e2 = (0, 1). Komplexe Zahlen können auch 114 6.2 Komplexe Zahlen als Zeiger (Ortsvektoren) in der Ebene, Gaußsche Zahlenebene genannt, interpretiert werden. Bemerkung 6.31. Addition der komplexen Zahlen (a, b) und (c, d) heißt Verschiebung des Punktes (a, b) um den Vektor (c, d) in den Punkt (a + c, b + d). Wir haben schon 1 = e1 = (1, 0) . Wir setzen i := e2 = (0, 1) . Wegen (6.9) haben wir damit (x, y) = x + iy . (x, y) = x + yi yi i 1 x Wir können uns daher nun die Elemente von C als Punkte in der Ebene vorstellen, nachdem wir einen Nullpunkt und zwei aufeinander senkrecht stehende Koordinatenachsen ausgewählt haben: Die waagerechte, reelle Achse gehört zum Basisvektor 1 = (1, 0), d. h., zu den reellen Zahlen, die vertikale, imaginäre Achse gehört zum Basisvektor i = (0, 1). Definition 6.32. Für eine komplexe Zahl z = x + yi nennen wir y := Re(z) den Realteil und x := Im(z) den Imaginärteil von z. Für die Multiplikation gilt nun (a + bi)(c + di) = ac − bd + (ad + bc)i . Beispiel 6.33. Es gelten (2 + 3i) · (3 − 4i) = 2 · 3 − 3 · (−4) + (2 · (−4) + 3 · 3)i = 18 + i , (0 + 1i) · (0 + 1i) = 0 · 0 − 1 · 1 + (0 · 1 + 1 · 0)i = −1 . Insbesondere haben wir 115 6 Vektorräume und Komplexe Zahlen i2 = i · i = −1 = (−i) · (−i) = (−i)2 . Damit hat die Gleichung x2 = −1 in C zwei Lösungen! Da C ein Zahlenkörper ist, kann man mit komplexen Zahlen im Sinne von Addition und Subtraktion, Multiplikation und Division genau so rechnen wie mit reellen Zahlen. Beachtet man i2 = −1, so wird einfach ausmultipliziert. Beispiel 6.34. Es gelten (2 + 3i) · (3 − 4i) = 2 · 3 + 2 · (−4i) + 3i3 + 3i · (−4i) = 6 − 8i + 9i − 12i2 = 18 + 1i , (3 + 4i)(2 − i) = 6 − 3i + 8i − 4i2 = 10 + 5i. Definition 6.35. Die komplexen Zahlen z = x + iy und z̄ := x − iy, die gleichen Realteil und zueinander negativen Imaginärteil haben, heißen komplex konjugiert zueinander. z = x + iy y z+z x z = x − iy Bemerkung 6.36. Das Konjugieren einer komplexen Zahl z = x + iy zu z̄ := x − iy ist das Spiegeln des Punktes (x, y) an der reellen Achse. Bemerkung 6.37. Das Produkt zweier zueinander konjugiert komplexer Zahlen ist eine reelle Zahl: z · z̄ = (x + iy) · (x − iy) = x2 + ixy − ixy − i2 y 2 = x2 + y 2 . Dies wird ausgenutzt zum Reellmachen des Nenners und zur Division komplexer Zahlen: a + ib c − id ac + bd + (bc − ad)i ac + bd bc − ad a + ib = · = = 2 + 2 i. 2 2 c + id c + id c − id c +d c + d2 c + d2 Beispiel 6.38. Es gilt 3 + 4i 2 + i 6 + 3i + 8i + 4i2 2 + 11i 2 11 3 + 4i = · = = = + i. 2 2−i 2−i 2+i 4 + 2i − 2i − i 4+1 5 5 116 6.2 Komplexe Zahlen Für Elemente des R2 kennen wir schon den Betrag. Definition 6.39. Für eine komplexe Zahl z = x + iy wird der Betrag einer komplexen Zahl |z| definiert durch p √ |z| := |x + iy| = x2 + y 2 = zz . Wir notieren noch die folgenden Rechenregeln: z1 · z 2 = z1 · z2 , |z| = |z| , z 1 + z2 = z 1 + z2 , |z1 z2 | = |z1 | · |z2 | , Re(z) = 1 2 (z + z) , z=z, z · z = |z|2 |z1 + z2 | ≤ |z1 | + |z2 | , Im(z) = 1 2i (z − z) . Beachte: Die letzten beiden Formeln lassen sich in der Gaußschen Zahlenebene gut verstehen. Zu einer komplexen Zahl z erhält man die komplex Konjugierte nämlich (nach Definition) einfach durch Spiegelung an der reellen Achse. Insbesondere gelten auch z −1 = z 1 = 2z , z·z |z| w · z̄ w , = z |z|2 Beispiel 6.40. Es seien z1 = 2 − i, z2 = 1 + 3i, vergleiche die Beispiele 6.26, 6.27. Dann gelten z1 + z2 = 3 + 2i , z̄1 = 2 + i , p √ |z1 | = 22 + (−1)2 = 5 , z1 · z2 = 2 + 6i − i + 3 = 5 + 5i z1 − z2 = 1 − 4i , z̄2 = 1 − 3i , p √ |z2 | = 12 + 32 = 10 , z1 (2 − i)(1 − 3i) 2 − 6i − i − 3 = = z2 10 10 1 7 −1 − 7i =− − i. = 10 10 10 Bemerkung 6.41. Im Unterschied zu den reellen Zahlen haben wir keine Ordnungsrelation mit den vom Reellen bekannten Eigenschaften. 6.2.3 Polardarstellung Betrachtet man eine komplexe Zahl z 6= 0 als Zeiger in der komplexen Zahlenebene, so kann z offenbar auch in folgender Form dargestellt werden: z = |z| cos ϕ + i|z| sin ϕ = |z|(cos ϕ + i sin ϕ) , wobei ϕ = arg(z) ein Winkel sei, den der Zeiger mit der reellen Achse bildet. 117 6 Vektorräume und Komplexe Zahlen (x, y) = x + yi yi r i ϕ 1 x Dieser Winkel wird Argument von z genannt. Üblicherweise wird für eine eindeutige Darstellung der Hauptwert des Winkels im Intervall ] − π, π] gesucht, d. h., Arg(z) ∈ ] − π, π] . Für z = x + iy setzen wir Arg(z) := ϕ x mit cos ϕ = |z| und 0 ≤ ϕ ≤ π, falls y ≥ 0 −π < ϕ < 0, falls y < 0 , wenn z 6= 0. Weiter sei Arg(0) := 0. Zusammengefasst haben wir die eindeutige trigonometrische Form oder Polardarstellung einer komplexen Zahl z mit z = |z| (cos Arg(z) + i sin Arg(z)) , wobei sich ein beliebiges Argument ϕ von z von Arg(z) nur durch Vielfache von 2π unterscheidet. 6.2.4 Komplexe Sinus-, Cosinus- und Exponential-Funktionen Ein Vorteil der komplexen Zahlen besteht darin, dass man bestimmte reelle Funktionen unter Erhaltung ihrer wichtigsten Eigenschaften auf C erweitern kann. Außer den (natürlichen) Potenzfunktionen und damit den Polynomen sind dies die Exponential- und Hyperbelfunktionen sowie die trigonometrischen Funktionen: exp : C → C , sin : C → C , sinh : C → C , exp z := ez := eRe(z) (cos Im(z) + i sin Im(z)) , 1 iz 1 iz e − e−iz , cos : C → C , cos z := e + e−iz , sin z := 2i 2 1 z 1 z −z sinh z := e −e , cosh : C → C , cosh z := e + e−z . 2 2 Diese Funktionen erfüllen die aus dem Reellen bekannten Additionstheoreme. Insbesondere gelten 118 6.2 Komplexe Zahlen ez1 +z2 = ez1 ez2 , e−z = 1 , ez enz = (ez )n . Für z = iy mit y ∈ R erhalten wir die Euler-Formel bzw. Moivre-Formel eiy = cos y + i sin y , einy = (cos y + i sin y)n = cos ny + i sin ny . Die Moivre-Formel ermöglicht zum Beispiel die Berechnung von cos 3ϕ: cos 3ϕ = Re (cos ϕ + i sin ϕ)3 = Re cos3 ϕ + 3 · cos2 ϕ · i sin ϕ + 3 · cos ϕ · i2 sin2 ϕ + i3 sin3 ϕ = cos3 ϕ − 3 cos ϕ sin2 ϕ . 6.2.5 Exponential-Darstellung Aus der Polardarstellung z = |z| (cos Arg(z) + i sin Arg(z)) und der Euler-Formel erhalten wir nun die Exponentialdarstellung z = |z|eiArg(z) . Die komplexen Zahlen z und w werden multipliziert, indem ihre Beträge multipliziert und ihre Argumente addiert werden: z · w = |z|eiArg(z) · |w|eiArg(w) = |z||w|ei(Arg(z)+Arg(w)) . Bemerkung 6.42. Multiplikation der komplexen Zahlen z und w heißt also Dehnen des Vektors z = (x, y) um den Betrag |w| und Drehen um den Nullpunkt um den Winkel Arg(w). Bemerkung 6.43. Die Multiplikation mit der komplexen Zahlen eiϕ ist das Drehen um den Nullpunkt mit dem Winkel ϕ. Zwei komplexe Zahlen z und w 6= 0 werden dividiert, indem ihre Beträge dividiert und ihre Argumente subtrahiert werden: |z|eiArg(z) z |z| i(Arg(z)−Arg(w)) = e . = iArg(w) w |w| |w|e 119 6 Vektorräume und Komplexe Zahlen Eine komplexe Zahl z wird potenziert, indem ihr Betrag potenziert und ihr Argument n vervielfacht wird: = |z|n einArg(z) . z n = |z|eiArg(z) √ √ 3π π 2ei 4 und i − 1 = 2ei 4 gilt √ π 5 √ 3 7 √ 12 π 3 · ei(5· 4 +7· 4 π) 2ei 4 · 2ei 4 π 2 (1 + i)5 · (i − 1)7 = = Beispiel 6.44. Wegen 1 + i = 1 26 = 26 · ei 4 π = 64 · ei(6π+ 2 π) = 64ei 2 = 64i . π Bemerkung 6.45. Während die algebraische Darstellung sehr gut geeignet ist für die Addition und Subtraktion, ist die Exponentialdarstellung besser geeignet für Multiplikation, Division und Potenzierung. 6.2.6 Komplexe Faktorisierung eines Polynoms Wir betrachten eine quadratische Gleichung x2 + px + q = 0 im Fall D = Seien p2 4 (6.10) − q < 0, d. h., in dem Fall, indem keine reelle Lösung existiert. √ p x1 := − − i −D , 2 √ p x2 := − + i −D . 2 Dann gilt √ √ p p (x − x1 )(x − x2 ) = [x + ] − i −D [x + ] + i −D 2 2 p 2 p2 p2 = (x + ) − i2 (−D) = x2 + px + − +q 2 4 4 = x2 + px + q . Damit sind obige x1 und x2 komplexe Lösungen der Gleichung (6.10) im Falle p2 4 − q < 0. Insbesondere hat also jede quadratische Gleichung (6.10) mit reellen Koeffizienten genau zwei Lösungen. Man kann zeigen: Satz 6.46 (Fundamentalsatz der Algebra). Lässt man auch komplexe Nullstellen zu, so besitzt jedes Polynom eine Faktorisierung nur in Linearfaktoren. Insbesondere hat jedes Polynom n-ten Grades, n ≥ 1, genau n komplexe Nullstellen, wenn mehrfache Nullstellen entsprechend oft gezählt werden. 05.02.2010 Beispiel 6.47. x2 + 1 = (x + i)(x − i) . 120 6.2 Komplexe Zahlen 6.2.7 n-te Wurzeln in C Wir suchen die (reellen und) komplexen Nullstellen des Polynoms f (x) = xn − 1, also die Wurzeln der Gleichung xn = 1. Nach dem Fundamentalsatz der Algebra wissen wir, dass f genau n komplexe Nullstellen besitzt (Vielfachheiten mitgezählt). Über die Exponentialdarstellung können wir unmittelbar n Lösungen der Gleichung angeben. Wegen eik·2π = 1 für beliebiges k ∈ Z sind (die voneinander verschiedenen komplexen Zahlen) k xk := ei n ·2π , k = 0, 1, 2, . . . , n − 1 genau n Lösungen der Gleichung, mithin die n komplexen Nullstellen von f (x) = xn − 1. Wir erweitern die Überlegung auf die Gleichung zn = a , mit a ∈ C vorgegeben. Sei etwa a = |a| · eiArg(a) . Dann sind die Zahlen p n |a| · ei Arg(a)+2kπ n , k = 0, 1, 2, . . . , n − 1 genau die n Wurzeln (Lösungen) der Gleichung z n = a. Damit können wir Gleichungen der Form (z − a)n + b = 0 a, b ∈ C, n ∈ N>0 in C lösen. Beispiel 6.48. Wir bestimmen alle Lösungen der Gleichung (z − 2i)3 − 64 = 0 in algebraischer Form: Mit w = z − 2i haben wir w3 = 64 und damit √ √ 2π 2π w1 = 4 , w2 = 4e 3 i = −2 + 2 3i , w3 = 4e− 3 i = −2 − 2 3i bzw. Somit sind 2kπ 2kπ + i sin , wk = 4 cos 3 3 z1 = 4 + 2i , √ z2 = −2 + 2( 3 + 1)i , k = 0, 1, 2 . √ z3 = −2 − 2( 3 − 1)i die gesuchten Lösungen. Beispiel 6.49. Wir bestimmen alle Lösungen der Gleichung (z − 2)3 + q√ √ algebraischer Form: Sei w = z − 2. Dann gilt |w| = 3 | 8| = 2 und √ 8 = 0 für z ∈ C in √ 1 π 2kπ 2kπ arg w = arg(− 8) + = + , 3 3 3 3 121 6 Vektorräume und Komplexe Zahlen woraus √ √ √ π π 2 6 z0 = 2 + 2 cos + i 2 sin = 2 + +i , 3 3 2 2 √ √ π 2π π 2π ) + i 2 sin( + )=2− z1 = 2 + 2 cos( + 3 3 3 3 √ √ π 4π π 4π ) + i 2 sin( + )=2+ z2 = 2 + 2 cos( + 3 3 3 3 √ √ 2 , √2 √ 2 6 −i 2 2 folgt. 6.2.8 Geometrische Anwendungen Da C bzw. R2 mit der geometrischen Ebene identifiziert werden kann, können wir die geometrischen Anwendungen der Vektoranalysis wie Projektion, Schnitt von Geraden, Lot auf eine Gerade und Winkel zwischen Geraden auch mit Hilfe der komplexen Zahlen durchführen. Wir müssen hierzu nur noch hz, wi = Re z · Re w + Im z · Im w = Re(zw) = Re(zw) für das (reelle) Skalarprodukt der Vektoren z, w und det(z, w) = Re z · Im w − Im z · Re w = Im(zw) für die Determinante der Vektoren z, w bemerken. Hinzu kommen aber zusätzliche Anwendungen, die sich aus der Anwendung der Multiplikation und des komplex Konjugiertem ergeben. Beispiel 6.50. Eine Gerade g durch die Punkte z0 und z1 gegeben durch g = {z0 + t · (z1 − z0 ) | t ∈ R} . Eine Gerade g durch den Punkt z0 in Richtung r ist gegeben durch g = {z0 + t · r | t ∈ R} = {z ∈ C | hz, rii = hz0 , rii} = {z ∈ C | Re(zr̄i) = Re(z0 r̄i)} = {z ∈ C | Im(zr̄) = Im(z0 r̄)} . Lemma 6.51. Es seien g und h zwei Geraden durch die Punkte a ∈ C und b ∈ C mit den Richtungen p ∈ C bzw. q ∈ C. 1. Wenn hp, qii = 0 gilt (d. h. wenn Im(pq̄) = 0 gilt), dann sind g und h parallel. 2. Wenn hp, qii = 6 0 gilt, dann sind g und h nicht parallel und ihr Schnittpunkt s ist gegeben durch Im(aq̄ip − Im(bp̄)q ha, qiip − hb, piiq = . s= hp, qii Im(pq̄i 122 6.2 Komplexe Zahlen Beispiel 6.52. Eine Kreislinie K mit Radius R und Mittelpunkt z0 ist gegeben durch K = {z ∈ C | |z − z0 | = R} . Mit z = x + iy, z0 = x0 + iy0 entspricht dies {(x, y) ∈ R2 : (x − x0 )2 + (y − y0 )2 = R2 } . Der Schnitt eines Kreises mit einer Geraden führt zu einer quadratischen Gleichung für eine reelle Unbekannte. Beispiel 6.53. Die obere Halbebene ist gegeben durch {z | Imz ≥ 0} . Die rechte Halbebene ist gegeben durch {z | Rez ≥ 0} . Beispiel 6.54. Die Menge {z | |z + 2 − i| > 2} stellt das Äußere eines Kreises um −2 + i mit dem Radius 2 dar. Multiplizieren wir eine komplexe Zahl z mit eiϕ , ϕ ∈ R, so wird ϕ zum Argument von z addiert, der Betrag ändert sich aber nicht: |zeiϕ | = |zeiArg(z) eiϕ | = |z||ei(Arg(z)+ϕ | = |z|| cos(Arg(z) + ϕ) + i sin(Arg(z) + ϕ)| q = |z| cos2 (Arg(z) + ϕ) + sin2 (Arg(z) + ϕ) = |z| . Die Multiplikation mit eiϕ bewirkt also eine Drehung um 0 mit dem Winkel ϕ. Die Multiplikation mit eiπ/2 = i ist also eine Drehung um 0 mit dem Winkel 90◦ .Betrachten wir nun die Spiegelung an der reellen Achse. Diese ist durch z = Rez + iImz 7→ Rez − iImz = z gegeben. Als dritte elementare Kongruenztransformation fehlt uns nur noch die Verschiebung um |a| in Richtung eiArg(a) : z 7→ z + a . Eine beliebige Kongruenztransformation in der Ebene setzt sich stets aus Drehung um 0, Spiegelung an der reellen Achse und Verschiebung zusammen. 123 6 Vektorräume und Komplexe Zahlen Beispiel 6.55. Eine Spiegelung an einer Geraden g = {a + teiα | t ∈ R} , α ∈ R durch den Punkt a erhält man in folgender Weise: Zuerst verschieben wir die Gerade g so, dass ihr Bild durch den Nullpunkt verläuft, z 7→ z − a , dann drehen wir um den Winkel −α, so dass das Bild der Gerade nun mit der reellen Achse zusammenfällt, z 7→ ze−iα , dann wird an der reellen Achse gespiegelt, z 7→ z , und schließlich wieder zurück gedreht und zurück verschoben: z 7→ zeiα , z 7→ z + a . Insgesamt erhalten wir durch Verkettung dieser fünf Abbildungen die Spiegelung an g durch z 7→ (z − a)e−iα eiα + a = (z − a) e−iα eiα + a = (z − a)e2iα + a . Bemerkung 6.56. Im Unterschied zur analytischen Geometrie haben wir hier zusätzliche Möglichkeiten z. B. durch Verwendung der Division, der Multiplikation mit eiϕ zur Drehung um ϕ, der Spiegelung an der reellen Achse (durch komplexes Konjugieren) und durch Verwendung n-ter Einheitswurzeln zur Konstruktion von regulären n-Ecken. Andererseits kann dies so nur auf ebene Geometrie angewandt werden. Bemerkung 6.57. Komplexe Zahlen finden außer in der ebenen Geometrie und bei Nullstellen von Polynomen weitere Anwendungen in Algebra und Analysis, die in vielen Fällen die Theorie durch Nutzung komplexer Zahlen einfacher wird. 124 Teil 2 125 7 Grenzwerte und Stetigkeit 7.1 Zahlenfolgen 7.1.1 Grundbegriffe Definition 7.1. Eine Funktion f : D(f ) ⊆ N → R heißt reelle Zahlenfolge. Wenn D(f ) endlich ist, heißt f endliche Zahlenfolge, andernfalls heißt f unendliche Zahlenfolge. Bemerkung 7.2. 1. Durch eine Folge f : D(f ) ⊆ N → R wird jeder natürlichen Zahl n ∈ D(f ) ein Folgenglied f (n) ∈ R zugeordnet. 2. Man kann auch komplexe Zahlenfolgen betrachten. 3. Anstelle von f (n) schreibt man auch fn , d. h. fn := f (n) . Das Argument n wird auch (Folgen)-Index genannt. 4. Typischerweise betrachten wir (unendliche) Folgen f mit D(f ) = N≥n0 und speziell D(f ) = N bei n0 = 0. Anstelle von f : N≥n0 → R und (fn )n∈D(f ) schreibt man dann auch (fn )n≥n0 . 5. Da Folgen Funktionen sind, können Folgen wie Funktionen beschrieben werden, z. B. durch explizite Angabe aller Paare (n, fn ), n ∈ N≥n0 . Hinzu kommt hier noch die rekursive Definition einer Folge. Beispiel 7.3. Beachte die unterschiedlichen Schreibweisen! (i) f : N → R oder (fn )n∈N mit fn = n + 1, . . . für n ≥ 0. (ii) f : N → R oder (fn )n∈N mit f0 = 1 und fn = n1 , . . . für n ≥ 1. für n ≥ 2. (iii) f : N≥2 → R oder (fn )n∈N≥2 mit fn = (−1)n n5−n 2 −1 (iv) Fibonacci-Folge f : N → R oder (fn )n∈N , welche rekursiv definiert wird durch f0 = 1, f1 = 1 und fn = fn−1 + fn−2 für n ≥ 2. 127 7 Grenzwerte und Stetigkeit Bemerkung 7.4. Ohne Beschränkung der Allgemeinheit kann man eine Folge (an )n∈N≥n0 stets auf eine Folge (bn )n∈N zurückführen: bn := an0 +n für n ≥ 0 . Viele Eigenschaften werden daher der Einfachheit halber nur für Folgen (an )n∈N formuliert. 7.1.2 Spezielle Folgen Arithmetische Folgen (fn )n∈N sind Folgen mit der Bildungsvorschrift fn = a + n · d für n ∈ N mit vorgegebenen Startwert a ∈ R und vorgegebenem Zuwachs d ∈ R. Rekursive Definition: f0 = a , fn+1 = fn + d für n ∈ N . Geometrische Folgen (fn )n∈N sind Folgen mit der Bildungsvorschrift fn = a · q n für n ∈ N mit vorgegebenen Startwert a ∈ R und vorgegebenem Faktor q ∈ R \ {0}. Rekursive Definition: f0 = a , fn+1 = qfn für n ∈ N . Beispiel 7.5. Sparschwein. Zum Anfangszeitpunkt sei das Kapital k0 vorhanden. Wöchentlich werde ein fester Geldbetrag g in das Sparschwein eingeworfen. Nach einer Woche Jahr hat man damit k1 = k0 + g , nach zwei Wochen k2 = k1 + g = k0 + 2g , allgemein beträgt das Kapital nach n Wochen kn = k0 + ng . Das Kapital in Abhängigkeit von der Sparzeit verhält sich hier wie eine arithmetische Folge. Beispiel 7.6. Verzinsung eines Kapitals. Zum Anfangszeitpunkt sei das Kapital k0 vorhanden. Jährlich werde mit dem Zinssatz p verzinst. Nach einem Jahr hat man damit k1 = k0 + k0 p = k0 (1 + p) , nach zwei Jahren k2 = k1 + k1 p = k1 (1 + p) = k0 (1 + p)2 , 128 7.1 Zahlenfolgen allgemein beträgt das Kapital nach n Jahren kn = k0 (1 + p)n . Das Kapital in Abhängigkeit von der Sparzeit verhält sich hier wie eine geometrische Folge. 7.1.3 Rekursive Definition und lineare Differenzengleichungen Beispiel 7.7. (Cobweb-Modell) Ein Gut werde zu diskreten Zeitpunkten n ∈ N zu möglicherweise verschiedenen Preisen pn gehandelt. Wir treffen folgende Annahmen: • Das Angebot ynA zum Zeitpunkt n ist abhängig vom alten Preis pn−1 und gegeben durch ynA = apn−1 − b , a, b > 0 . • Die Nachfrage ynN zum Zeitpunkt n ist abhängig vom aktuellen Preis pn und ist gegeben durch ynN = c − dpn , c, d > 0 . • Zu jedem Zeitpunkt n stellt sich ein Gleichgewicht zwischen Angebot und Nachfrage ein, d. h. es gilt ynA = ynN . Durch Einsetzen folgt apn−1 − b = c − dpn , also nach Umformen pn = b+c a − · pn−1 . d d (7.1) Wir erhalten so eine Rekursionsformel für die Folge (pn )n∈N der Preise. Offenbar benötigen wir zur Bestimmung der Preisfolge noch den Anfangspreis p0 . Gleichung (7.1) ist Spezialfall einer Gleichung der Form fn = αn fn−1 + βn (7.2) fn − fn−1 = γn fn−1 + βn (7.3) oder mit reellen Folgen (αn )n∈N , (βn )n∈N und γn = αn − 1. 129 7 Grenzwerte und Stetigkeit Definition 7.8. Die Gleichungen (7.2) bzw. 7.3 heißen lineare Rekursionsgleichung bzw. lineare Differenzengleichung erster Ordnung. Wenn βn = 0 für alle n, so heißen (7.2) bzw. (7.3) homogen, andernfalls inhomogen. Eine Folge (ϕn )n∈N heißt Lösung von (7.2) bzw. (7.3), wenn ϕn = αn ϕn−1 + βn für alle n ∈ N gilt. Sie genügt der Anfangsbedingung (7.4) f0 = a , wenn ϕ0 = a gilt. Satz 7.9 (Lösungsstruktur). a) Für jede Lösung ϕ der inhomogenen Gleichung (7.2) und jede Lösung ψ der homogenen Gleichung fn = αn fn−1 (7.5) ist ϕ + ψ = (ϕn + ψn )n∈N eine Lösung der inhomogenen Gleichung (7.2). b) Für je zwei Lösungen ϕ, ψ der inhomogenen Gleichung (7.2) ist ϕ − ψ = (ϕn − ψn )n∈N eine Lösung der homogenen Gleichung (7.5). c) Die Lösungen der homogenen Gleichung (7.5) bilden einen Vektorraum der Dimension 1. d) Die Lösung ϕ zur Gleichung (7.2) mit der Anfangsbedingung (7.4) ist gegeben durch n−1 k n−1 k n−1 Y Y Y X X βj ϕn = a · αi , wobei αi = 1, αi + δi = 0 für k < m . i=0 i=j+1 j=0 i=m i=m Beispiel 7.10. Wir setzen Beispiel 7.7 fort. Nach Satz 7.9 und mit a αn = − , d βn = b+c d folgen a n b + c 1 − (a/d)n a n b + c n−1 X a k + = p0 · − + · · − pn = p0 · − d d d d d 1 + (a/d) j=0 b+c b + c a n p0 − + − = a+d d a+d und weiter ynA = ynN a n ac − bd b+c = p0 − −d· − . a+d d a+d Wie verhält sich nun pn in Abhängigkeit vom Anfangswert p0 und den Parameterwerten a, b, c und d? 130 7.1 Zahlenfolgen b+c b+c gilt, dann ergibt sich pn = a+d für alle n ∈ N. • Wenn p0 = a+d Preise, Angebot und Nachfrage bleiben konstant. b+c b+c • Wenn p0 6= a+d und a = d gelten, dann gilt pn = p0 für gerades n und pn = p0 + 2 a+d für ungerades n. Der Preis (und damit auch Angebot und Nachfrage) wechselt zwischen zwei Werten periodisch hin und her. b+c und a > d gelten, dann werden die Preise mit geradem Index immer größer • Wenn p0 6= a+d und die mit ungeradem Index immer kleiner bis ein Preis negativ wird und spätestens damit unser Modell nicht mehr realistisch ist. • Was passiert bei p0 6= b+c a+d und a < d? Diese Frage werden wir später beantworten. Bemerkung 7.11. Viele weitere, einfache Modelle in der Wirtschaft führen auf lineare Differenzengleichungen erster Ordnung, welche mit Satz 7.9 vollständig behandelbar sind. Kompliziertere Modelle führen auf lineare Differenzengleichungen höherer Ordnung oder gar auf nichtlineare Differenzengleichungen. Dies werden wir hier nicht behandeln. Andere Modelle mit kontinuierlicher Zeit führen zu Differentialgleichungen, zu denen später einige Ausführungen kommen werden. 7.1.4 Konvergenz von Folgen Wir betrachten die Folge (an )n∈N≥1 mit an = n1 und den Abstand |an − 0| der Folgenglieder zu 0. Es gilt |an − 0| = |an | = n1 für n ≥ 1 . Damit wird dieser Abstand immer kleiner. Er wird auch kleiner als jede beliebige positive Zahl ε. Sei nämlich ε > 0 gegeben. Dann gilt |an | < ε ⇔ 1 n <ε ⇔ n > 1ε . Nun gibt es zu jeder reellen Zahl r stets eine natürliche Zahl n > r. Angewandt auf unser Problem gibt es eine Zahl N ∈ N mit N > 1ε und damit gilt hier auch n > 1ε für n ≥ N . Damit haben wir 1 <ε |an | = n1 ≤ N für n ≥ N . Offensichtlich hängt N von der Wahl von ε ab. Diese Tatsache, dass der Betrag |an | beliebig klein wird, wenn wir nur Indizes n ab einem bestimmten Index betrachten formulieren wir nun allgemein: Definition 7.12. Eine reelle Folge a = (an )n∈D(a) strebt gegen 0 oder konvergiert gegen 0 oder ist eine Nullfolge, wenn es zu beliebiger Genauigkeitsgrenze ε > 0 immer einen Folgenindex N (ε) gibt, so dass die Beträge der Folgenglieder kleiner als ε sind für alle Indizes größer oder gleich N (ε), ∀ε > 0∃N ∈ N∀n ∈ D(a) : n ≥ N =⇒ |an | < ε . 131 14.04.2010 7 Grenzwerte und Stetigkeit Beispiel 7.13. Die Folge (an )n≥1 mit an = 1 n ist also eine spezielle Nullfolge. Durch den folgenden Satz bekommt man weitere Beispiele für Nullfolgen. Satz 7.14 (Vergleichskriterium). Seien (an )n∈N , (bn )n∈N zwei Folgen. Ist b eine reelle Nullfolge und gibt es einen Index N mit 0 ≤ |an | ≤ bn für n ≥ N , so ist auch a eine Nullfolge. Beispiel 7.15. 2. Die Folge (an )n≥1 mit n ≥ 1. 1 für n ≥ 1 ist eine Nullfolge, da 0 ≤ n12 ≤ n1 für n ≥ 1. n2 n an = (−1) für n ≥ 1 ist eine Nullfolge, da 0 ≤ (−1)n n1 = n1 für n 1. Die Folge (an )n≥1 mit an = 3. Die Folge (an )n∈N mit an = über vollständige Induktion!) n 2n für n ≥ 0 ist eine Nullfolge wegen 0 ≤ 2nn ≤ 1 n für n ≥ 3 Es sind nicht nur Nullfolgen von Interesse. Definition 7.16. Sei a∞ eine reelle Zahl. Eine reelle Folge (an )n∈D(a) strebt gegen a∞ oder konvergiert gegen a∞ , wenn die Folge (bn )n∈D(a) mit bn := an − a∞ eine Nullfolge ist, ∀ε > 0∃N ∈ N∀n ∈ D(a) : n ≥ N =⇒ |an − a∞ | < ε . Die Zahl a∞ heißt dann Grenzwert der Folge a. Besitzt eine Folge einen Grenzwert so heißt sie konvergent, andernfalls divergent. Bemerkung 7.17. 1. Um die Konvergenz einer Folge entsprechend der Definition nachweisen zu können, braucht man zuerst eine Zahl a∞ , die Grenzwert sein könnte. 2. Eine Folge (an )n∈D(a) kann nur höchstens einen Grenzwert haben: Seien a∞ 6= ã∞ zwei Grenzwerte. Für ε = 12 |a∞ − ã∞ | gibt es nun N und Ñ mit |an − a∞ | < ε für n ≥ N und |an − ã∞ | < ε für n ≥ Ñ . Damit gilt mit Hilfe der Dreiecksungleichung |a∞ − ã∞ | ≤ |a∞ − an | + |an − ã∞ | < 2ε für n ≥ max{N, Ñ } . Wegen 2ε = |a∞ − ã∞ | ist dies aber ein Widerspruch zu a∞ 6= ã∞ . 3. Wenn ein Grenzwert a∞ einer Folge a = (an )n∈N existiert, ist er also eindeutig bestimmt. Wir schreiben daher auch a∞ = lim a = lim an n→∞ 132 oder an → a∞ für n → ∞ . 7.1 Zahlenfolgen Beispiel 7.18. 1. an = n−1 n (n ≥ 1) strebt gegen a∞ = 1: Es gilt 1 − 1 = n − 1 − n = −1 = 1 |an − 1| = n − n n n n für n ≥ 1 . Mit Satz 7.14 folgt die Behauptung. 2. an = 2n2 n2 +1 (n ≥ 1) strebt gegen a∞ = 2: Es gilt 2 2n − 2(n2 + 1) −2 2n2 1 = n2 + 1 ≤ n n 2 + 1 − 2 = n2 + 1 für n ≥ 1 . Mit Satz 7.14 folgt die Behauptung. Weitere Konvergenzkriterien von Folgen liefert der folgende Satz. Dafür brauchen wir noch einige Bezeichnungen. Definition 7.19. Eine Folge a = (an )n∈N heißt beschränkt, wenn ein K ∈ R existiert, so dass |an | ≤ K für alle n ∈ N gilt. Eine reelle Folge a = (an )n∈N heißt monoton, wenn a0 ≤ a1 ≤ a2 ≤ · · · ≤ an ≤ · · · (monoton wachsend) oder a0 ≥ a1 ≥ a2 ≥ · · · ≥ an ≥ · · · (monoton fallend) . Satz 7.20. (i) (Notwendiges Kriterium) Jede konvergente Folge ist beschränkt. (ii) Jede beschränkte, monotone reelle Folge konvergiert. (iii) Das Produkt einer beschränkten Folge mit einer Nullfolge ist eine Nullfolge. (iv) (Cauchy-Kriterium) Eine reelle Folge (an )n∈D(a) konvergiert genau dann, wenn ∀ε > 0∃N ∈ N∀n, m ∈ D(a) : n, m ≥ N =⇒ |an − am | < ε . Beispiel 7.21. Wir zeigen die Konvergenz der Folge (yn )n∈N≥1 mit n+1 yn = 1 + n1 . Wir zeigen dazu zuerst, dass y monoton fällt: n n 1 n−1+1 1 + n−1 n−1 n2n+1 yn−1 = = = n+1 n+1 n+1 yn (n − 1)n (n + 1)n+1 1 + n1 n n+1 n+1 n2 (n − 1)n2n+2 1 n − 1 n−1 1+ = = = 2 n n n −1 n2 − 1 n [(n − 1)(n + 1)]n+1 1 1 1 + (n + 1) 1 n n−1 1+ 1 > n− = n− = n n n−1 n n−1 n2 − 1 =1, 133 7 Grenzwerte und Stetigkeit das heißt yn < yn−1 für alle n ≥ 2. Da yn ≥ 1 für alle n ≥ 1, ist y beschränkt und damit konvergent gegen eine reelle Zahl y∞ . 7.1.5 Rechnen mit Grenzwerten Aus der Definition des Grenzwertes können nun folgende Rechengesetze abgeleitet werden, die das Rechnen mit Grenzwerten (bzw. mit konvergenten Folgen) enorm erleichtern. Satz 7.22. Seien (an )n∈D und (bn )n∈D konvergente Folgen und sei c ∈ R. Dann gilt: (i) (an + bn )n∈D konvergiert und lim (an ± bn ) = lim an ± lim bn . n→∞ n→∞ n→∞ (ii) (an bn )n∈D konvergiert und lim (an · bn ) = lim an · lim bn . n→∞ n→∞ (iii) (can )n∈D konvergiert und lim (c · an ) = c · lim an . n→∞ n→∞ n→∞ (iv) Wenn lim a 6= 0 und wenn an 6= 0 für n ≥ n0 , so konvergiert die Folge c = ( a1n )n∈D≥n0 und es gilt 1 lim cn = . n→∞ limn→∞ an Bemerkung 7.23. Es kann nicht rückwärts auf die Konvergenz von a oder b geschlossen werden: Zum Beispiel folgt aus der Konvergenz von (an + bn )n∈D nicht die Konvergenz von a oder b. (Betrachte zum Beispiel eine divergente Folge a und b = −a). Beispiel 7.24. Wir setzen Beispiel 7.10 fort und betrachten b+c b + c a n p0 − + − pn = a+d d a+d mit a, b, c, d > 0, p0 6= b+c a+d konstante Folgen und und a < d. Dann sind b+c a+d − ad n und n∈N n∈N b+c p0 − a+d n∈n∈N ist eine Nullfolge. Es gilt somit b+c b+c a n p0 − + lim − n→∞ a + d n→∞ d a+d b+c a n b+c · lim p0 − + lim − = lim n→∞ n→∞ n→∞ a + d d a+d b+c b+c b+c = + 0 · p0 − = . a+d a+d a+d lim pn = lim n→∞ Im Fall p0 6= 134 b+c a+d und a < d „stabilisiert“ sich der Preis im Coweb-Modell also auf b+c a+d . 7.2 Zahlenreihen Beispiel 7.25. 1. lim 1 + n→∞ 1 n 1 n = lim 1 + lim n→∞ n→∞ 2. Wir betrachten die Folge (xn )n∈N≥1 mit = 1 + 0 = 1. n xn = 1 + n1 . Offensichtlich gilt xn = yn · 1 1 1+ n mit yn = 1 + 1 n+1 . n Der erste Faktor konvergiert gegen ein y∞ ∈ R (Beispiel 7.21), der zweite gegen 1. Damit konvergiert auch x auch gegen y∞ ≈ 2.71828. Achtung: Es gilt lim n→∞ 1 + n1 n 6= lim n→∞ 1 + n1 n =1. n wird Eulersche Zahl genannt Definition 7.26. Der Grenzwert der Folge 1 + n1 n∈N≥1 und mit e bezeichnet: n . e := lim 1 + n1 n→∞ 7.2 Zahlenreihen 7.2.1 Bezeichnungen Eine wichtige Spezialform von Folgen sind (unendliche) (Zahlen-)Reihen. Definition 7.27. Sei (an )n∈N eine Zahlenfolge. Dann heißt sn mit sn = n X ai i=0 n-te Partialsumme der Folge a, und die Folge (sn )n∈N heißt Partialsummenfolge der Folge a. P Bezeichung: Die Partialsummenfolge ( ni=0 ai )n∈N zur Folge (an )n∈N wird auch als unendliche Reihe zur Folge (an )n∈N bezeichnet: ! ∞ n X X ai := ai . (7.6) i=0 Bemerkung 7.28. P∞ i=0 ai i=0 n∈N ist also eine Bezeichung für die Folge der Partialsummen sn . 135 7 Grenzwerte und Stetigkeit Bemerkung 7.29. Jede Zahlenfolge (sn )n∈N ist auch eine Partialsummenfolge zu einer Folge (an )n∈N : Setze a0 = s0 und an = sn − sn−1 für n ≥ 1. Wie bei Folgen kann man hier die Frage stellen, ob eine Partialsummenfolge konvergiert. P∞ Bemerkung 7.30. Eine unendliche Reihe i=0 an konvergiert also genau dann wenn die Folge Pn der Partialsummen ( i=0 ai )n∈N konvergiert (da beides die gleichen Objekte sind!). P∞ Bezeichung: Falls die unendliche Reihe i=0 ai konvergiert, so wird ihr Grenzwert auch P Summe genannt und mit ∞ a bezeichnet: i i=0 ∞ X ai := lim i=0 n→∞ n X (7.7) ai . i=0 P Bemerkung 7.31. Je nach Zusammenhang bezeichnet ∞ i=0 ai also die Folge der Partialsummen, wie in (7.6), oder ihren Grenzwert, wie in (7.7). P So bezieht sich die Aufgabe „UntersuchePdie Konvergenz von ∞ i=0 ai !“ auf die Folge der ∞ Partialsummen, die Aufgabe „Bestimme i=0 ai !“ auf den Grenzwert. 7.2.2 Allgemeine Konvergenzkriterien Da Reihen Folgen sind, kann man die Konvergenzkriterien von Folgen auf Reihen übertragen. Satz 7.32 (Cauchy-Konvergenzkriterium für Reihen). Die Reihe dann, wenn ∀ε > 0∃N ∈ N∀m, n ∈ N : m ≥ n ≥ N =⇒ | P∞ m X i=n i=0 ai konvergiert genau ai | < ε . (7.8) Beweis. Für die Partialsummen sn gilt |sn − sm | = | Folgerung 7.33 (Notwendige Bedingung). Ist . Beweis. Wähle m = n in (7.8). 136 m X i=n+1 P∞ ai | . i=0 ai konvergent, dann an → 0 für n → ∞ 7.2 Zahlenreihen Bemerkung 7.34. Die Konvergenz an → 0 für n → ∞ ist nicht hinreichend P∞ P∞ 1für die Kon1 √ vergenz! Betrachte z. B. i=0 ai mit a0 = 0, an = n für n > 0, d.h., i=1 √i . Dann gilt an → 0, aber auch √ 1 1 1 1 sn = √ + √ + · · · + √ > n · √ = n → ∞ . n n 1 2 Satz 7.35. Eine Reihe mit nichtnegativen Summanden konvergiert genau dann, wenn die Folge der Partialsummen beschränkt ist. P P∞ Satz 7.36. Seien ∞ i=0 ai und i=0 bi konvergente Reihen. Dann gelten: P∞ P∞ P∞ 1. i=0 (ai + bi ) = i=0 ai + i=0 bi . P∞ P∞ 2. i=0 (cai ) = c i=0 (ai ) für c ∈ R. Satz 7.37. Wenn man in einer Reihe eine beliebige endliche Anzahl von Gliedern weglässt, ersetzt oder beifügt, dann bleibt ihre Konvergenz (oder Divergenz) erhalten. 7.2.3 Spezielle Reihen Die folgenden Reihen treten häufig auf und sind von spezieller Bedeutung für Vergleichskriterien. Definition 7.38. Sei q ∈ R. Dann heißt P∞ n=0 q n geometrische Reihe. P n Lemma 7.39. Die geometrische Reihe ∞ n=0 q konvergiert genau dann, wenn |q| < 1 gilt. Für |q| < 1 gilt ∞ X 1 qn = . 1−q n=0 Beweis. a) Sei |q| < 1. Dann gilt für sn = Pn i=0 q i (1 − q)sn = (1 − q)(1 + q + q 2 + · · · + q n ) d. h., = 1 + q + q 2 + · · · + q n − q − q 2 − · · · − q n+1 = 1 − q n+1 , sn = 1 q n+1 1 1 − q n+1 = − → für n → ∞ . 1−q 1−q 1−q 1−q b) Sei |q| ≥ 1. Dann gilt |q i | = |q|i ≥ 1, d. h., (q i )∞ i=1 ist keine Nullfolge. Nach Folgerung 7.33 kann die Reihe also nicht konvergieren. 137 21.04.2010 7 Grenzwerte und Stetigkeit Definition 7.40. Sei α > 0. Dann heißt P∞ 1 n=1 nα Offenbar ist die notwendige Bedingung wegen Lemma 7.41. Die harmonische Reihe 1 nα P∞ 1 n=1 nα harmonische Reihe. → 0 stets erfüllt. konvergiert genau dann, wenn α > 1 gilt. Anstelle eines vollständigen Beweises betrachten wir nur die folgenden Beispiele: Beispiel 7.42. 1. Wir betrachten den Spezialfall α = 1, d. h., ∞ X 1 . n n=1 Dann gilt s2m = 1 + 1 2 1 4 1 3 + + | {z } | + >2· 14 = 21 1 5 > 12 m → ∞ für m → ∞ . + 1 6 + {z 1 7 >4· 18 = 21 + 1 8 1 +··· + + ··· + m 2m−1 + 1 2 } {z } | 1 >2m−1 21m = 12 Damit ist die Folge der Partialsummen (bestimmt) divergent. 2. Es gilt N ∞ X X 1 π2 1 = lim = . n2 N →∞ n2 6 n=1 n=1 Definition 7.43. Sei a : N → R≥0 eine Folge in R≥0 . Dann heißen ∞ X (−1)n an n=0 und ∞ X (−1)n+1 an n=0 alternierende Reihen. Satz 7.44 (Leibniz-Kriterium für alternierende Reihen). Wenn a : N → R≥0 eine monoton fallende Nullfolge in R≥0 ist, dann P P∞ n+1 a • konvergieren n=0 (−1)n an und ∞ n n=0 (−1) • und für ihre Summe s gilt 2n+1 X i=0 (−1)i ai = s2n+1 − a2n+1 ≤ s ≤ s2n = 2n X (−1)i ai i=0 beziehungsweise 2n X i=0 138 i+1 (−1) ai = s2n ≤ s ≤ s2n+1 = 2n+1 X i=0 (−1)i+1 ai . 7.2 Zahlenreihen Damit ist die Summe einer alternierenden Reihe durch die n-te Partialsumme bis auf einen Fehler von höchstens |an | bestimmt. Beispiel 7.45. Wir betrachten a0 = 0 und an = ∞ X (−1)n+1 n=1 1 n für n ∈ N>0 und damit die Reihe 1 . n Da an → 0, konvergiert die Reihe nach dem Leibnizkriterium. Weiter haben wir die Abschätzungen 7 ≤ 1 − 21 = 12 ≤ 1 − 21 + 31 − 41 = 12 Man kann zeigen: ∞ X ∞ X n=1 (−1)n+1 n1 ≤ 1 − 21 + 31 = 65 ≤ 1 . (−1)n+1 n1 = ln 2 . n=1 Bemerkung 7.46. Wichtig für die Konvergenz einer alternierenden Reihe ist, dass die Summanden eine monotone Nullfolge bilden! 7.2.4 Quotienten- und Wurzelkriterium Auf den Vergleich mit der geometrischen Reihe basieren die beiden folgenden Kriterien. Als Spezialfall enthalten sie Konvergenzaussagen für positive Reihen. Satz 7.47 (Cauchysches Wurzelkriterium). Sei a : N → R eine reelle Folge. 1. Wenn ein q < 1 und ein N ∈ N existieren mit p n |an | ≤ q für alle n ≥ N , P P∞ dann konvergieren die Reihen ∞ n=1 an und n=1 |an |. 2. Existiert ein N ∈ N mit p n |an | ≥ 1 für alle n ≥ N , P P∞ dann divergieren die Reihen ∞ n=1 an und n=1 |an | . 2 P 1 (n ) . Dann gilt Beispiel 7.48. Betrachte ∞ n=1 1 − n r (n2 ) n 1 1 n n → < 1 . 1 − n1 = 1 − n1 = 1 e 1 + n−1 Damit konvergiert die Reihe. 139 7 Grenzwerte und Stetigkeit Satz 7.49 (D’Alambertsches Quotientenkriterium). Sei a : N → R eine reelle Folge mit an 6= 0 für n ∈ N. Dann gilt: 1. Wenn ein q < 1 und ein N ∈ N existieren mit an+1 |≤q für alle n ≥ N , an P P∞ dann konvergieren die Reihen ∞ n=1 an und n=1 |an |. | 2. Existiert ein N ∈ N mit an+1 |≥1 für alle n ≥ N , an P P∞ dann divergieren die Reihen ∞ n=1 an und n=1 |an | . | Beispiel 7.50. Betrachte die Reihe P∞ xn n=0 n! für fixiertes x ∈ R. Mit an = xn n! und |x|n+1 |x| an+1 (n + 1)! = |= →0<1 | n |x| an n+1 n! folgt die Konvergenz. Bemerkung 7.51. 1. Man kann zeigen: Wenn eine Reihe nach dem Quotientenkriterium konvergiert, so konvergiert sie auch nach dem Wurzelkriterium. Umgekehrt gibt es Reihen, die nach dem Wurzelkriterium konvergieren, deren Konvergenz mit dem Quotientenkriterium aber nicht gezeigt werden kann. Man könnte daher meinen, dass das Wurzelkriterium ausreichend ist. 2. In der praktischen Rechnung erweist sich das Quotientenkriterium z. B. als günstig, wenn die Summanden Vielfache von Fakultäten des Indizes sind. Das Wurzelkriterium ist meist günstig, wenn die Summanden Potenzen bezüglich des Indizes enthalten. 7.3 Stetigkeit von Funktionen in einem Punkt 7.3.1 Definition und Grundeigenschaften Beispiel 7.52. Wir betrachten eine mechanische Uhr. Ziel ist eine möglichst hohe Ganggenauigkeit. An einem Rädchen kann die Schwingungsfrequenz variiert werden. Der Einstellwinkel des Rädchens ist die Eingangsgrößen, die Abweichung von 24 h nach 24 h ist die Ausgangsgröße. Diese Abweichung soll möglichst klein werden. Die Frage ist, ob die eingebaute Mechanik dies auch zulässt. 140 7.3 Stetigkeit von Funktionen in einem Punkt Wir haben hier eine Menge von Eingangsgrößen (Winkel) X ⊆ R, eine Menge von Ausgangsgrößen Y ⊆ R (Abweichung von Sollzeit) und eine Abbildung f : D(f ) ⊆ X → Y , welche Eingangsgrößen die entsprechende Ausgangsgröße zuordnet. Ziel ist die Ausgangsgröße y0 (hier mit y0 = 0), welche zur Eingangsgröße x0 gehört, y0 = f (x0 ). Leider lässt die Mechanik mit Stellrädern nicht zu, dass wir sicher den Solleingang x0 treffen. Wir können nur versuchen, den Eingang x möglichst nahe an x0 zu bringen, und hoffen, dass der Ausgang f (x) auch nahe am Soll f (x0 ) = y0 liegt. Wir können uns nun die Frage stellen, ob es zu einer vorgegebenen Genauigkeit ε im Ausgang eine Genauigkeit δ im Eingang gibt, mit der Eigenschaft, wenn der Eingang nicht mehr als δ vom Solleingang abweicht, dann weicht der Ausgang nicht mehr als um ε vom Sollausgang ab. Wir können uns dann fragen, ob dies mit verschieden großen Genauigkeiten für den Ausgang geht. Schließlich können wir uns fragen, ob dies mit jeder Genauigkeit für den Ausgang geht. Da uns dieser Begriff wichtig erscheint, geben wir ihm einen Namen. Definition 7.53. Sei f : D(f ) ⊆ R → R und sei x0 ∈ D(f ). Wir nennen f stetig in x0 , wenn ∀ε > 0 ∃δ > 0 ∀x ∈ D(f ) : |x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε. Andernfalls nennen wir f unstetig in x0 . y y f a x0 f b Funktion, die in x0 stetig ist x a x0 b x Funktion, die in x0 unstetig ist Die Stetigkeit oder Unstetigkeit wird also nur in Punkten des Definitionsbereiches betrachtet. Definition 7.54. Sei f : D(f ) ⊆ R → R und sei x0 ∈ D(f ). Wir nennen f linksseitig von f auf D(f )≤x0 = D(f ) ∩ ] − ∞, x0 ] stetig in x0 , wenn die Einschränkung f D(f ) ≤x0 stetig ist, nennen wir f rechtsseitig stetig in x0 . stetig ist. Wenn f D(f )≥x0 Satz 7.55. Eine Funktion f : D(f ) ⊆ R → R ist genau dann stetig in x0 ∈ D(f ), wenn f links- und rechtsseitig stetig in x0 ist. 141 7 Grenzwerte und Stetigkeit Beispiel 7.56. 1. Die Funktion f : R → R mit f (x) = x, ist in jedem Punkt x0 ∈ R stetig: Sei x0 ∈ R. Dann gilt |f (x) − f (x0 )| = |x − x0 | . Zu ε > 0 können wir also zum Beispiel δ = ε wählen. Beachte: Hier kann δ unabhängig von x0 gewählt werden. 2. Die Funktion f : R → R mit f (x) = x2 ist in jedem Punkt x0 ∈ R stetig: Sei x0 ∈ R. Dann gilt |f (x) − f (x0 )| = |x2 − x20 | = |x + x0 | · |x − x0 | = |x − x0 + 2x0 | · |x − x0 | < (2|x0 | + δ)δ , wenn |x − x0 | < δ. Wir können |f (x) − f (x0 )| kleiner als ε machen, indem wir δ mit (2|x0 | + δ)δ < ε wählen, z. B., δ < 1 mit δ < 2|x0ε|+1 . Beachte: Hier kann δ nicht unabhängig von x0 gewählt werden. 3. Die Vorzeichen-Funktion sgn : R → R mit sgn x = −1 für x < 0, sgn 0 = 0, sgn x = 1 für x > 0 ist stetig in jedem Punkt x0 6= 0. Sie ist in 0 weder links- noch rechtsseitig stetig und damit in 0 unstetig. 4. Die Heaviside-Funktion h : R → R mit h(x) = 0 für x ≤ 0 und h(x) = 1 für x > 0 ist stetig in jedem Punkt x0 6= 0. Sie ist in 0 links- aber nicht rechtsseitig stetig und damit in 0 unstetig. 1 1 b b -1 -1 Satz 7.57. Sei f : D(f ) ⊆ R → R und sei x0 ∈ D(f ). Dann ist f in x0 genau dann stetig, wenn für jede Folge (ξi )i∈N aus D(f ) mit x0 = limi→∞ ξi auch die Folge (f (ξi ))i∈N gegen f (x0 ) konvergiert: ∀ Folge ξ : N → D(f ) : lim ξi = x0 =⇒ lim f (ξi ) = f (x0 ). i→∞ i→∞ Bemerkung 7.58. Satz 7.57 stellt nur dann eine Forderung, wenn x0 Häufungspunkt von D(f ) ist. Dabei ist x0 ein Häufungspunkt von D(f ), wenn für jedes ε > 0 ein x ∈ (D(f ) ∩ ]x0 − ε, x0 + ε[) \ {x0 } existiert. Ein x0 ∈ D(f ), welches kein Häufungspunkt von D(f ) ist, heißt isolierter Punkt von D(f ) Ein isolierter Punkt ist dadurch charakterisiert, dass es ein ε > 0 gibt mit D(f ) ∩ ]x0 − ε, x0 + ε[ = ∅. In isolierten Punkten ist eine Funktion stets stetig. 142 7.4 Stetige Funktionen und ihre Eigenschaften Der folgende Satz vereinfacht die Untersuchung der Stetigkeit bei zusammengesetzten Funktionen. Satz 7.59. (i) Sind f : D(f ) ⊆ R → R und g : D(g) ⊆ R → R in einem Punkt x0 ∈ D(f ) ∩ D(g) stetig, so gilt dies auch für f + g, α · f (α ∈ R) und f · g. Ist g(x0 ) 6= 0, so ist auch fg stetig in x0 . (ii) Sei f : D(f ) ⊆ R → R stetig in x0 ∈ D(f ) und sei g : D(g) ⊆ R → R stetig in f (x0 ) ∈ D(g). Dann ist auch g ◦ f stetig in x0 . Bemerkung 7.60. Der Nachweis der Stetigkeit einer Funktion wird häufig so geführt, indem die Stetigkeit direkt anhand der Definition gezeigt wird, siehe Beispiel 7.56, oder mit Hilfe von Satz 7.59 von einfacheren Funktionen auf komplizierte „vererbt“ wird. Um die Unstetigkeit einer Funktion an einer Stelle zu zeigen, ist die Definition oder Satz 7.57 hilfreich. Bei Satz 7.57 genügt es nämlich beim Unstetigkeitsnachweis eine geeignete Folge zu finden. Beispiel 7.61. Wir betrachten die Funktion f : R → R mit f (0) = 0 und f (x) = sin x1 für x 6= 0. Dann ist (ξk )k∈N mit ξk = ( π2 + 2kπ)−1 für k ∈ N eine gegen 0 konvergente Folge. Es gilt f (ξk ) = sin( π2 + 2kπ) = 1, weswegen f (ξk ) 6→ f (0) für k → ∞ gilt. Die Funktion f ist also unstetig in 0. 7.4 Stetige Funktionen und ihre Eigenschaften 7.4.1 Stetige Funktionen Viele der bisher betrachteten Funktionen sind in jedem Punkt des Definitionsbereiches stetig. Da diese Klasse von Funktionen von besonderem Interesse ist, definieren wir: Definition 7.62. Sei f : D(f ) ⊆ R → R. Wir nennen f stetig oder stetige Funktion, wenn f in allen x0 ∈ D(f ) stetig ist. Für die Zusammensetzung stetiger Funktionen können wir als Folgerung aus Satz 7.59 den folgenden Satz formulieren: Satz 7.63. (i) Sind f : D(f ) ⊆ R → R und g : D(g) ⊆ R → R stetig, so gilt dies auch für f + g, α · f (α ∈ R) und f · g. Gilt zusätzlich g(x) 6= 0 für alle x ∈ D(f ) ∩ D(g) so ist auch fg stetig. (ii) Seien f : D(f ) ⊆ R → R und g : D(g) ⊆ R → R stetig. Dann ist auch g ◦ f stetig. 143 7 Grenzwerte und Stetigkeit 7.4.2 Natürliche Potenzfunktionen Definition 7.64. Die Potenzfunktion potn zum Exponenten n ∈ N ist definiert durch potn : D(potn ) = R → R , x 7→ xn . Offenbar ist die konstante Funktion pot0 stetig auf ganz R. Die Identität pot1 ist nach Beispiel 7.56 ebenfalls stetig auf ganz R. Somit sind pot0 und pot1 stetige Funktionen. Mit Satz 7.63 folgt: Satz 7.65. Die natürlichen Potenzfunktionen potn : R → R, potn x = xn , mit n ∈ N sind stetige Funktionen. 7.4.3 Polynome 7.4.3.1 Definition und Stetigkeit Definition 7.66. Seien n ∈ N, a0 , . . . , an ∈ R. Dann heißt p : R → R mit p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0 ein Polynom. Gilt an 6= 0 oder n = 0, so heißt n der Grad des Polynoms. Gilt p(x0 ) = 0, so heißt x0 eine Nullstelle von p. Beispiel 7.67. f : R → R mit f (x) = 2 ist ein Polynom nullten Grades, g : R → R mit g(x) = 3x2 + 5 ist ein Polynom zweiten Grades. Mit den Sätzen 7.65 und 7.63 folgt: Satz 7.68. Polynome sind stetige Funktionen. 7.4.3.2 Spezielle Eigenschaften von Polynomen Polynome sind in ihrer Darstellung eindeutig: 144 7.4 Stetige Funktionen und ihre Eigenschaften Satz 7.69 (Eindeutigkeit der Darstellung). Seien f, g : R → R Polynome mit f (x) = a0 + a1 x + · · · + an xn , g(x) = b0 + b1 x + · · · + bm xn . Dann sind die folgenden Aussagen äquivalent: • Beide Polynome sind gleich, f = g. • Beide Polynome stimmen in n + 1 paarweise verschiedenen Stellen überein. • Die entsprechenden Koeffizienten von f und g stimmen überein, d. h., es gilt ai = bi für alle i = 0, . . . , n. Die im Satz beschriebene Feststellung der Gleichheit der Koeffizienten beider Polynome nennt man Koeffizientenvergleich. Satz 7.70 (Faktorisierungssatz). Jedes Polynom n-ten Grades, n ≥ 1, besitzt eine Darstellung f (x) = (x − x1 )ℓ1 · (x − x2 )ℓ2 · · · · · (x − xs )ℓs · g(x) , wobei x1 , . . . , xs genau die Nullstellen von f sind, ℓ1 + · · · + ℓs ≤ n gilt und g ein nullstellenfreies Polynom vom Grad n − (ℓ1 + ℓ2 + · · · + ℓs ) ist. Diese Darstellung ist bis auf Vertauschung der Faktoren eindeutig. Bezeichnung: Wir nennen die Faktoren (x − xi ), i = 1, . . . , s, die Linearfaktoren des Polynoms. Ferner nennen wir ℓj die Vielfachheit der Nullstelle xj von f . Folgerung 7.71. Jedes Polynom n-ten Grades, n ≥ 1, hat höchstens n Nullstellen. Folgerung 7.72. Jedes Polynom ungeraden Grades besitzt mindestens eine Nullstelle. Lassen wir auch komplexe Nullstellen zu, so gilt jedoch: Satz 7.73 (Fundamentalsatz der Algebra). Jedes Polynom n-ten Grades mit n ∈ N>0 hat genau n komplexe Nullstellen, wenn diese entsprechend ihrer Vielfachheit gezählt werden. Satz 7.74 (Faktorisierungssatz). Jedes Polynom n-ten Grades, n ≥ 1, besitzt eine Darstellung r k r k Y Y X X f (x) = a · (x − xi )ri · (x2 + bi x + ci )ki , ri + 2 ki = n , i=1 i=1 i=1 i=1 wobei x1 , . . . , xs die reellen Nullstellen von f mit den Vielfachheiten ri sind, und die k quadratischen Polynome zu nichtreellen, konjugiert komplexen Paaren komplexer Nullstellen der Vielfachheiten ki gehören. 145 28.04.10 7 Grenzwerte und Stetigkeit 7.4.4 Rationale Funktionen Addiert, subtrahiert oder multipliziert man Polynome, so entstehen wieder Polynome. Anders ist dies bei der Division. Definition 7.75. Eine Funktion f : D(f ) ⊆ R → R heißt gebrochen-rationale Funktion, wenn Polynome p und q existieren, so dass f (x) = p(x) q(x) für x ∈ D(f ) = R \ {x : q(x) = 0} . f heißt echt-gebrochen, wenn der Grad von p kleiner als der Grad von q ist. Polynome sind spezielle rationale Funktionen, die mit q(x) = 1 entstehen. Beispiel 7.76. Die Produktionskosten für die Herstellung von x Einheiten eines Gutes seien gegeben durch die Kostenfunktion K : ]0, ∞[ → R mit K(x) = ax2 + bx + c mit a < 0 < b, c ∈ R. Dann sind die Stückkosten durch die rationale Funktion k : ]0, ∞[ → R mit ax2 + bx + c k(x) = x gegeben. Fragen, die wir hier nicht beantworten: • Vereinfachung des Bruches (Zerlegung in ganzen Anteil und echt gebrochenen Anteil, Kürzen) • Nullstellen, Polstellen • Zerlegung in Elementarbrüche (Partialbruchzerlegung) Mit den Sätzen 7.68 und 7.63 folgt: Satz 7.77. Rationale Funktionen sind stetige Funktionen. Beachte: In den Nullstellen des Nennerpolynoms q ist die rationale Funktion nicht definiert und somit dort weder stetig noch unstetig. 146 7.4 Stetige Funktionen und ihre Eigenschaften 7.4.5 Potenzreihen Definition 7.78. Seien an ∈ R, n ∈ N und x0 ∈ R. Dann heißt die Folge (pn )n∈N der Polynome pn : R → R mit n X pn (x) = ak (x − x0 )k k=0 eine Potenzreihe um x0 mit den Koeffizienten an (Beachte hier wieder 1 = 00 ). Die Grenzfunktion P : D(P ) ⊆ R → R mit P (x) = ∞ X n=0 n an (x − x0 ) für x ∈ D(P ) := {y ∈ R : ∞ X n=0 an (y − x0 )n konvergiert} heißt ebenfalls Potenzreihe oder auch Summe der Potenzreihe. Beispiel 7.79. Eine wichtige Potenzreihe ist z. B. ∞ X 1 n x . n! n=0 P n Satz 7.80. Für jede Potenzreihe ∞ n=0 an (x − x0 ) existiert genau ein ρ ∈ R≥0 ∪ {∞} mit den folgenden Eigenschaften: 1. Die Potenzreihe konvergiert für alle x ∈ R mit |x − x0 | < ρ. 2. Sie divergiert für alle x ∈ R mit |x| > ρ. Diese Zahl ρ heißt Konvergenzradius dieser Reihe. Er kann mit Hilfe des Quotientenbzw. Wurzelkriteriums berechnet werden. Definition 7.81. Eine Funktion R heißt in eine Potenzreihe entwickelP f : D(f ) ⊆ R → n mir Konvergenzradius ρ > 0 gibt mit bar , wenn es eine Potenzreihe ∞ a (x − x ) 0 n=0 n D(f ) ⊆ {x ∈ R : |x − x0 | < ρ} , f (x) = ∞ X n=0 an (x − x0 )n für x ∈ D(f ) . Satz 7.82. Jede in eine Potenzreihe entwickelbare Funktion ist stetig. 7.4.6 Exponentialfunktion 7.4.6.1 Definition und elementare Eigenschaften P 1 k Die Potenzreihe ∞ k=0 k! x konvergiert dem Quotientenkriterium für alle x ∈ R, hat also den Konvergenzradius ρ = ∞. 147 7 Grenzwerte und Stetigkeit Definition 7.83. Die durch exp x := ∞ X 1 k x k! für x ∈ R k=0 definierte Funktion exp : R → R heißt (natürliche) Exponentialfunktion. Nach Satz 7.82 gilt: Satz 7.84. Die Exponentialfunktion exp ist stetig. Man kann zeigen: Satz 7.85. 1. Für alle x, y ∈ R gilt exp(x + y) = exp x · exp y . 2. Für alle x ∈ R gilt exp x = lim n→∞ Insbesondere gilt also 1+ exp n = en x n >0. n für n ∈ N . 3. Die Exponentialfunktion ist streng monoton wachsend mit lim exp x = 0 , x→−∞ lim exp x = ∞ . x→∞ Auf Grundlage von Satz 7.85 definieren wir ex := exp x für x ∈ R . Bemerkung 7.86. Mit dem später definierten natürlichen Logarithmus ln kann man auch reelle Potenzen positiver Basen und damit Exponenentialfunktionen mit positiven Basen definieren: expb x = bx := exp(x ln b) = ex ln b für x ∈ R, b > 0 . 7.4.6.2 Wachstumsprozesse Heuristik: Zahlreiche Wachstums- oder Abnahmeprozesse für eine zeitabhängige Größe u(t) können innerhalb einer kurzen Zeitspanne ∆t näherungsweise nach dem Gesetz u(t + ∆t) − u(t) ≈ α · u(t) · ∆t , 148 u(t + ∆t) ≈ (1 + α∆t) · u(t) 7.4 Stetige Funktionen und ihre Eigenschaften („Die Änderung ist in etwa proportional zur Größe und zur Zeitdauer“) beschrieben werden. Der Änderungsprozess ist dabei um so genauer, je kleiner ∆t ist. Wir nehmen nun an, der Prozess u beginnt zum Zeitpunkt 0 mit dem Wert u0 . Gesucht ist der Wert zum Zeitpunkt T > 0. Um zu kurzen Zeitintervallen zu kommen, teilen wir das Intervall [0, T ] in n gleich lange Intervalle [ti−1 , ti ] der Länge Tn mit ti = ni T . Wir erhalten dann näherungsweise u(t1 ) ≈ αT 1+ n u0 , u(tk ) ≈ und damit u(T ) ≈ αT 1+ n αT 1+ n n u(tk−1 ) = αT 1+ n k u0 u0 . Die rechte Seite sollte nun den Wert u(T ) um so besser beschreiben, je kleiner die Zeitschritte T n sind, das heißt je größer n ist. Man kann nun vermuten, dass u(T ) = u0 lim n→∞ αT 1+ n n gilt, falls der Grenzwert auf der rechten Seite existiert. Analysis: Nach Satz Beispiel 7.85 gilt lim n→∞ αT 1+ n n = eαT . Damit erhalten wir u(T ) = u0 eαT für unseren Wachstumsprozess, wobei sich die so genannte natürliche Basis e in „natürlicher“ Weise ergeben hat. Anwendung: Wachstums- und Abnahmeprozesse kommen in vielfältiger Art vor. Einige einfache Prozesse können in obiger Weise beschrieben werden: • Alterungs- und Zerfallprozesse (z. B. Alterung von Farben, radioaktiver Zerfall) • Wachstum von Populationen ohne Ressourcenmangel (z. B. Wachstum von Pilzen) • Kapitalverzinsung nicht nur nach vollen Jahren: Ist p der Jahreszinssatz, so wähle α mit eα − 1 = p, d. h., α = ln(1 + p). Dann könnte das Kapital entsprechend k(t) = eαt k(0) kontinuierlich verzinst werden. 149 7 Grenzwerte und Stetigkeit 7.4.7 Trigonometrische Funktionen Die Potenzreihen ∞ X (−1)k x2k+1 k=0 (2k + 1)! , ∞ X (−1)k x2k k=0 (2k)! haben nach dem Quotientenkriterium den Konvergenzradius ρ = ∞ und definieren daher auf R definierte stetige Funktionen sin : R → R , sin x = ∞ X (−1)k x2k+1 k=0 (2k + 1)! , cos : R → R , cos x = ∞ X (−1)k x2k k=0 (2k)! , Bemerkung 7.87. Man kann zeigen, dass sin und cos 2π-periodisch sind, die bekannten Additionstheoreme erfüllen und auch die anderen aus der Geometrie bekannten Eigenschaften des Sinus und Cosinus haben. Mit den Satz7.63 folgt: Satz 7.88. Die Sinus-Funktion sin, die Cosinus-Funktion cos sowie die Tangens-Funktion sin und Cotangens-Funktion ctn = cos tan = cos sin sind stetige Funktionen. 7.4.8 Weitere stetige Funktionen Die Zusammensetzung (Verkettung) der elementaren Funktionen (Potenzfunktionen, rationale Funktionen, Exponentialfunktion, trigonometrische und hyperbolische Funktionen) durch Addition, Subtraktion, Multiplikation, Division und Komposition führt wieder zu stetigen Funktionen (mit dem sich natürlich ergebenden Definitionsbereich). 2 Beispiel 7.89. Die Funktion h : R → R mit h(x) = ex ist als Komposition stetiger Funktionen stetig, da h = g ◦ f mit g = exp und f = pot2 . Unstetige Funktionen erhalten wir also nur, wenn wir die Klasse der allein durch Kombination von elementaren Funktionen beschreibbaren Funktionen verlassen, in dem wir sie zum Beispiel, wie bei der Vorzeichenfunktion getan, nur stückweise (d. h., jeweils auf endlich vielen Teilintervallen des Definitionsbereiches) durch Kombination elementarer Funktionen beschreiben. Bemerkung 7.90. Es gibt viel mehr unstetige Funktionen als stetige Funktionen. Offen ist nun noch die Frage, ob es zu den obigen Funktion oder zumindest für geeignete Einschränkungen auch Umkehrfunktionen gibt und ob diese auch stetig sind. 150 7.4 Stetige Funktionen und ihre Eigenschaften 7.4.9 Wichtigste Eigenschaften stetiger Funktionen Satz 7.91. Sei f : D(f ) ⊆ R → R stetig und sei [a, b] ⊆ D(f ) ein abgeschlossenes, beschränktes Intervall. Dann gilt: (i) f ist auf [a, b] beschränkt, d. h. es gibt ein K ∈ R mit |f (x)| ≤ K für alle x ∈ [a, b]. (ii) (Existenz von Maximum und Minimum) Es gibt x1 , x2 ∈ [a, b] so, dass f (x1 ) ≤ f (x) ≤ f (x2 ) für alle x ∈ [a, b] , d. h., f nimmt auf [a, b] im Minimierer x1 ein Minimum, im Maximierer x2 ein Maximum an. Satz 7.92 (Zwischenwertsatz). Sei f : D(f ) ⊆ R → R stetig und [x1 , x2 ] ⊆ D(f ) mit x1 ≤ x2 . Dann gilt: Zu jedem Wert y zwischen f (x1 ) und f (x2 ) gibt es ein x ∈ [x1 , x2 ] mit f (x) = y. y x1 x x2 Folgerung 7.93 (Nullstellensatz). Sei f : [a, b] → R stetig und x1 , x2 ∈ [a, b] mit f (x1 ) < 0 < f (x2 ). Dann gibt es ein x zwischen x1 und x2 mit f (x) = 0. Bemerkung 7.94. Diese Folgerung ist u. a. Grundlage für das Intervallhalbierungsverfahren zur Nullstellenbestimmung. In Verallgemeinerung von Satz 7.92 gilt: Satz 7.95. Sei f : D(f ) ⊆ R → R stetig und sei M ⊆ D(f ). 1. Wenn M ein Intervall ist, dann ist das Bild f [M ] von M unter f wieder ein Intervall. 2. Wenn M ein abgeschlossenes, beschränktes Intervall ist, dann ist das Bild f [M ] von M unter f wieder ein abgeschlossenes, beschränktes Intervall. 151 7 Grenzwerte und Stetigkeit Satz 7.96 (Stetigkeit der inversen Funktion). Seien I, J ⊆ R Intervalle und sei f : I → J streng monoton mit f [I] = J. Dann existiert die inverse Funktion f −1 : J → I und 1. f −1 ist streng monoton (im gleichen Sinne wie f ); 2. f −1 ist stetig. Folgerung 7.97. Die natürliche Exponentialfunktion exp : R → R>0 ist invertierbar. Ihre Umkehrfunktion ln : R>0 → R (natürlicher Logarithmus genannt) ist stetig, streng monoton wachsend mit lim ln x = −∞ , x→0 lim ln x = ∞ , ln(x · y) = ln x + ln y x→∞ für x, y > 0 . Folgerung 7.98. Die trigonometrischen und hyperbolischen Funktionen sind auf Monotonie-Intervallen stetig invertierbar, d. h., die Arcus-Funktionen sind stetig. 7.5 Grenzwerte von Funktionen Wir betrachten nun einen Begriff, der dem Begriff der Stetigkeit ähnlich ist. 7.5.1 Der Begriff des Grenzwertes Definition 7.99. Eine Zahl c ∈ R heißt Grenzwert der Funktion f in x0 ∈ R, wenn ∀ε > 0 ∃δ > 0 ∀x ∈ D(f ) : |x − x0 | < δ =⇒ |f (x) − c| < ε. Bemerkung 7.100. 1. Der Grenzwert ist (wenn er existiert) eindeutig. 2. Wenn f in x0 definiert ist, müssen f (x0 ) und limx0 f übereinstimmen. 3. Die Stelle x0 muss nicht zum Definitionsbereich von f gehören. 4. Obige Definition entspricht der modernen Definition eines Grenzwertes. In älterer Literatur findet man noch die Definition des Grenzwertes, bei der Grenzwerte nur in Häufungspunkten x0 des Definitionsbereiches betrachtet werden, der Funktionswert f (x0 ), falls er existiert, bei der Grenzwertbildung jedoch nicht betrachtet wird. Bezeichnung: lim f x0 oder gesprochen: Grenzwert von f an der Stelle x0 . 152 lim f (x) , x→x0 7.5 Grenzwerte von Funktionen Satz 7.101 (Charakterisierung des Grenzwertes durch Folgen). Eine Funktion f : D(f ) ⊆ R → R besitzt in x0 ∈ R den Grenzwert c genau dann, wenn für jede beliebige Folge (ξn )n∈N in D(f ) mit ξn → x0 die Folge (f (ξn ))n∈N gegen c konvergiert, ∀ Folge ξ : N → D(f ) : lim ξi = x0 =⇒ lim f (ξi ) = c. i→∞ i→∞ Folgerung 7.102. Wenn f : D(f ) ⊆ R → R in x0 ∈ R einen Grenzwert besitzt, dann gehört x0 zu D(f ) oder x0 ist ein Häufungspunkt von D(f ). Durch Vergleich der Definitionen 7.53 und 7.99 ergibt sich: Satz 7.103. Die Funktion f : D(f ) ⊆ R → R ist stetig in x0 ∈ D(f ) genau dann, wenn der Grenzwert lim f von f in x0 existiert. x0 Insbesondere stimmen dann Funktionswert und Grenzwert in x0 überein, f (x0 ) = limf . x0 Grenzwerte an Stetigkeitsstellen zu bestimmen ist somit trivial, da es einfach die Funktionswerte sind. Ebenso trivial ist die Bestimmung an Unstetigkeitsstellen: Der Grenzwert existiert nicht. Nichttrivial ist hingegen die Bestimmung von Grenzwerten an Stellen, die nicht zum Definitionsbereich gehören. Definition 7.104. Wenn der Grenzwert der Einschränkung f D(f )∩[x0 ,∞[ von f auf D(f )>x0 := D(f ) ∩ [x0 , ∞[ existiert, so heißt dieser rechtsseitiger Grenzwert von f in x0 und wird mit lim f (x) oder lim f (x) bezeichnet, x→x0 +0 xցx0 lim f (x) = lim f (x) := lim f D(f )>x (x) . x→x0 +0 xցx0 x→x0 0 Entsprechend ist der linksseitige Grenzwert lim f (x) oder lim f (x) definiert als x→x0 −0 xրx0 lim f (x) = lim f (x) := lim f D(f )<x (x) . x→x0 −0 xրx0 x→x0 0 Satz 7.105. Sei f : D(f ) ⊆ R → R und sei x0 Häufungspunkt von D(f )<x0 und D(f )>x0 . Dann existiert der Grenzwert von f in x0 genau dann, wenn • linksseitiger und rechtsseitiger Grenzwert existieren und gleich sind • und mit dem Funktionswert von f (x0 ) übereinstimmen, falls f in x0 definiert ist. Wenn der Grenzwert existiert, dann gilt lim f (x) = lim f (x) = lim f (x) . x→x0 xրx0 xցx0 153 7 Grenzwerte und Stetigkeit 7.5.2 Rechnen mit Grenzwerten Zur bequemen Berechnung von Grenzwerten notieren wir wieder einige Rechenregeln, die aus der Definition und den entsprechenden Regeln für Folgen hergeleitet werden. Satz 7.106 (Rechenregeln für Grenzwerte von Funktionen). Seien f : D(f ) ⊆ R → R, g : D(g) ⊆ R → R und sei x0 ein Häufungspunkt von D(f ) ∩ D(g). Weiter nehmen wir an, dass lim f (x) und lim g(x) (als endliche Grenzwerte) existieren. x→x0 Dann gelten: x→x0 lim (f (x) + g(x)) = lim f (x) + lim g(x) , x→x0 x→x0 x→x0 lim (α · f (x)) = α · lim f (x) für alle α ∈ R , x→x0 lim (f (x) · g(x)) = lim f (x) · lim g(x) , x→x0 x→x0 x→x0 lim x→x0 f (x) g(x) x→x0 lim f (x) = x→x0 lim g(x) x→x0 , falls lim g(x) 6= 0 . x→x0 Satz 7.107 (Satz von den zwei Milizionären). Seien f : D(f ) ⊆ R → R, g : D(g) ⊆ R → R, h : D(h) ⊆ R → R mit D(h) ⊆ D(f ) ∩ D(g). Existiert ein ε > 0 mit 12.05.10 f (x) ≤ h(x) ≤ g(x) für alle x ∈ D(h) mit |x−x0 | < ε, und gilt lim f (x) = lim g(x) = c, so gilt auch lim h(x) = x→x0 x→x0 x→x0 c. 7.5.3 Beispiele Folgerung 7.108. Für jedes Polynom p und jede Stelle x0 ∈ R gilt: lim p(x) = p(x0 ) . x→x0 Beweis. Regeln (i)–(iii) von Satz 7.106. Beispiel 7.109. Es gilt lim x→2 x3 + 3x + 5 x2 − 2x + 1 limx→2 x3 + 3x + 5 19 = = . 2 limx→2 (x − 2x + 1) 1 Dies folgt Folgerung 7.108 und Regel (iv). 154 7.5 Grenzwerte von Funktionen Beispiel 7.110. Sei f : D(f ) ⊂ R → R mit D(f ) = R \ {2} und f (x) = x2 + x − 6 . x−2 Dann gilt wegen der Stetigkeit von Zähler und Nenner in x0 = 4 x2 + x − 6 limx→4 (x2 + x − 6) 14 = = =7. x→4 x−2 limx→4 (x − 2) 2 lim f (x) = lim x→4 Dagegen kann der Grenzwert limx→2 f (x) nicht in ähnlicher Weise berechnet werden, da limx→2 (x − 2) = 0. Sei dazu nun (ξn )n∈N eine beliebige Folge in R \ {2} mit limn→∞ ξn = 2. Wegen x2 + x − 6 = (x − 2)(x + 3) gilt dann (ξn − 2)(ξn + 3) = lim (ξn + 3) = 5 n→∞ ξn − 2 lim f (ξn ) = lim n→∞ n→∞ und daher lim f (x) = 5 . x→2 Beispiel 7.111. Die Funktion f : D(f ) ⊂ R → R mit D(f ) = R \ {0} und f (x) = sin x1 ist stetig. Der Grenzwert in 0 existiert aber nicht: Seien z. B. (ξn )n∈N und (ηn )n∈N mit ξn = (2n+1 1 )π und ηn = (2n−1 1 )π . Dann gilt f (ξn ) = 1 und f (ηn ) = −1 für n ∈ N und daher 2 2 1 = lim f (ξn ) 6= lim f (ηn ) = −1 . n→∞ Beispiel 7.112. Wir zeigen lim x→0 Es gilt nämlich √ Aus n→∞ √ 1 x+1−1 = . x 2 2 √ x + 1 − 12 1 x+1−1 =√ √ = . x x x+1+1 x+1+1 lim = √ x→0 1 1 = 2 x+1+1 folgt damit die Behauptung. Lemma 7.113. Es gilt lim x→0 sin x x = 1 = lim . x→0 x sin x Beweis. Gemäß der Skizze 155 sin x tan x 7 Grenzwerte und Stetigkeit x cos x 1 gilt bei Betrachtung der Flächeninhalte folgender Zusammenhang: x 1 1 sin x cos x ≤ π ≤ tan x 2 2π 2 ⇐⇒ cos x ≤ x 1 ≤ . sin x cos x Mit Satz 7.107 schließen wir aus lim cos x = 1 und x→0 auf lim x→0 Lemma 7.114. Es gilt 1 =1 x→0 cos x lim x sin x = 1 = lim . x→0 x sin x cos x − 1 =0. x→0 x lim Beweis. Es gilt cos2 x − 1 cos x − 1 (cos x − 1) (cos x + 1) = = x x (cos x + 1) x (cos x + 1) 2 sin x sin x 1 =− =− · · sin x . x (cos x + 1) x cos x + 1 cos x − 1 = 0. x→0 x Mit Lemma 7.113 und den Rechenregeln folgt lim 7.5.4 Stetige Fortsetzung Eine wichtige Anwendung von Grenzwerten ist die stetige Fortsetzung stetiger Funktionen auf Häufungspunkte des Definitionsbereiches: Satz 7.115 (Stetige Fortsetzung). Sei f : D(f ) ⊆ R → R und sei x0 6∈ D(f ) ein Häufungspunkt von D(f ). Existiert der (endliche) Grenzwert limx→x0 f (x), dann ist die Funktion g : D(g) → R mit D(g) = D(f ) ∪ {x0 } und g(x) = f (x) für x ∈ D(f ), g(x0 ) = limx→x0 f (x) stetig. 156 7.5 Grenzwerte von Funktionen Beispiel 7.116. In Beispiel 7.110 hatten wir f : D(f ) ⊂ R → R mit D(f ) = R \ {2} und f (x) = betrachtet und x2 + x − 6 x−2 lim f (x) = 5 x→2 gezeigt. Nach Satz 7.115 ist die Funktion g : R → R mit g(x) = f (x) für x 6= 2 und g(x) = 5 für x = 2 die stetige Fortsetzung von f auf R. Beachte, dass g(x) = x + 3 für x ∈ R. Beispiel 7.117. Wir betrachten f : R \ {0} → R mit f (x) = 7.113 gezeigt, gilt sin x lim =1. x→0 x Damit ist g : R → R mit g(x) = Fortsetzung von f auf R. sin x x sin x x für x 6= 0. Wie in Lemma für x 6= 0 und g(0) = 1 nach Satz 7.115 die stetige Beispiel 7.118. Wie in Beispiel 7.111 gezeigt, ist die Funktion f : D(f ) ⊂ R → R mit D(f ) = R \ {0} und f (x) = sin x1 zwar stetig, besitzt aber keinen Grenzwert in 0. Sie kann folglich nicht stetig in 0 fortgesetzt werden. 157 7 Grenzwerte und Stetigkeit 158 8 Eindimensionale Differentialrechnung 8.1 Differenzierbarkeit und lineare Approximation 8.1.1 Einführendes Beispiel Vorgegeben sei eine Funktion f : D(f ) ⊆ R → R. Gesucht ist eine Nullstelle von f . Eine Idee zur Bestimmung von Nullstellen besteht nun darin: Ausgehend von einer Näherung x0 ∈ D(f ) für eine Nullstelle von f bestimme man ein Polynom p möglichst niedrigen Grades, welches f nahe x0 in einem geeigneten Sinne gut beschreibt, und bestimme dann Nullstellen von p. Zu diesem „gut beschreiben“ gehört zumindest, dass f und p in x0 übereinstimmen, (8.1) p(x0 ) = f (x0 ) . Damit ist ein Polynom p nullten Grades denkbar ungeeignet: Wenn f (x0 ) 6= 0, dann hat p wegen (8.1) keine Nullstelle. Probieren wir ein Polynom p ersten Grades. Wegen (8.1) müsste es von der Form p(x) = f (x0 ) + a · (x − x0 ) sein. Wenn a 6= 0 gilt, dann ist x1 = x0 − f (x0 ) a die Nullstelle von p. Offenbar erhalten wir für verschiedene a i. A. auch verschiedene Nullstellen – bis auf x0 sind bei f (x0 ) 6= 0 alle anderen reellen Zahlen erzielbar. f (x0 ) f (x1 ) x1 x0 f p 159 8 Eindimensionale Differentialrechnung Polynome höheren Grades würden uns auch nicht weiterhelfen, da sie noch mehr Freiheitsgrade enthalten. Wir sollten also weiter nach einem Polynom ersten Grades suchen, benötigen aber eine sinnvolle Zusatzbedingung, welche uns möglichst das bestmögliche a liefern sollte. Eine Idee dazu wäre, neben (8.1) zu fordern, dass die Differenz f (x) − p(x) für x nahe x0 klein ist. Definition 8.1. Sei k ∈ N. Ein Polynom p mit lim x→x0 f (x) − p(x) =0 |x − x0 |k (8.2) heißt Approximation k-ten Grades von f in x0 . Satz 8.2. Eine Funktion f : D(f ) ⊆ R → R ist genau dann stetig in x0 ∈ D(f ), wenn p(x) = f (x0 ) eine Approximation nullten Grades an f in x0 ist. Für unseren Zweck reicht Approximation 0-ten Grades und daher Stetigkeit nicht aus. 8.1.2 Lineare Approximation Wir betrachten eine Funktion f : D(f ) ⊆ R → R. Sei x0 ∈ D(f ). Wir suchen nun ein Polynom p höchsten ersten Grades, was f in x0 ersten Grades approximiert. Ein solches Polynom heißt dann eine lineare Approximation an f in x0 . Als Polynom höchstens ersten Grades wäre p von der Form p(x) = b + a · (x − x0 ) mit zu bestimmenden a, b ∈ R. Die Bedingung lim x→x0 f (x) − b − a · (x − x0 ) f (x) − p(x) = lim =0, x→x0 x − x0 x − x0 (8.3) ist äquivalent mit a = lim x→x0 f (x) − b . x − x0 (8.4) Für die Existenz des Grenzwertes ist notwendig, dass lim f (x) = b x→x0 gilt, wegen x0 ∈ D(f ) muss also b = f (x0 ) gelten. Folglich muss f in x0 stetig sein. Da die Existenz des Grenzwertes (8.4) für die lineare Approximation von Bedeutung ist, geben wir dieser Eigenschaft von f eine Bezeichnung. 160 8.1 Differenzierbarkeit und lineare Approximation Definition 8.3. Sei f : D(f ) ⊆ R → R. Wenn x0 ∈ D(f ) ein Häufungspunkt von D(f ) ist und wenn der Grenzwert f ′ (x0 ) := lim x→x0 f (x) − f (x0 ) f (x0 + h) − f (x0 ) = lim h→0 x − x0 h existiert, so heißt f differenzierbar in x0 und wir nennen f ′ (x0 ) die Ableitung von f an der Stelle x0 . Bezeichnungen: f ′ (x0 ) = Df (x0 ) = df (x) df df (x0 ) = (x0 ) = . x=x 0 dx dx dx Bemerkung 8.4. 1. Die drei letzten Bezeichnungen sind missverständlich und sollten daher weitgehend vermieden werden: Wie das Argument der Funktion bezeichnet wird, ist unerheblich: df (x) df (y) = = f ′ (x0 ) . x=x 0 dx dy y=x0 2. Die Ableitung f ′ (x0 ) von f in x0 ist, falls sie existiert, eindeutig. 3. Es gibt höchstens eine lineare Approximation von f in x0 . 4. Die Ableitung f ′ (x0 ) beschreibt die Linearisierung von f in x0 . Wie zuvor bei den Grenzwerten kann man auch links- und rechtsseitige Ableitungen D− und D+ bilden. Die Existenz von links- und rechtsseitiger Ableitung und ihre Gleichheit sind äquivalent zur Existenz der Ableitung. Beispiel 8.5. Wir untersuchen f (x) = |x| an der Stelle x0 = 0: h |0 + h| − |0| = lim = 1 , hց0 h hց0 h −h |0 + h| − |0| = lim = −1 . D− f (x0 ) = lim hր0 h hր0 h D+ f (x0 ) = lim f hat im Punkte x0 linksseitig und rechtsseitig verschiedene „Ableitungen“ (Steigungen): y f (x) = |x| x Diese Funktion ist also in 0 stetig aber nicht differenzierbar. 161 8 Eindimensionale Differentialrechnung Zusammenfassend erhalten wir: Satz 8.6. Sei x0 ∈ D(f ) ein Häufungspunkt von D(f ). Dann gelten: 1. Die Stetigkeit von f in x0 ist notwendig aber nicht hinreichend für die Differenzierbarkeit von f in x0 . 2. f ist in x0 genau dann linear approximierbar, wenn f in x0 differenzierbar ist. 3. Wenn f in x0 differenzierbar ist mit der Ableitung f ′ (x0 ), dann ist das Polynom p höchstens ersten Grades mit p(x) = f (x0 ) + f ′ (x0 ) · (x − x0 ) für x ∈ R die lineare Approximation von f in x0 , d. h. es gilt die Weierstraßsche Zerlegungsformel r(x) f (x) = f (x0 ) + f ′ (x0 ) · (x − x0 ) + r(x) mit lim =0. (8.5) x→x0 x − x0 Definition 8.7. Sei f im Häufungspunkt x0 ∈ D(f ) von D(f ) differenzierbar. Dann heißt die Gerade tfx0 = {f ′ (x0 ) · (x − x0 ) + f (x0 ) : x ∈ R} die Tangente an den Graphen von f im Punkt (x0 , f (x0 )). (x0 ) (x0 ) = ∞ oder limh→0 f (x0 +h)−f = −∞, dann ist Bemerkung 8.8. Falls limh→0 f (x+h)−f h h f zwar in x0 nicht differenzierbar, wir haben aber in diesem Fall eine vertikale Tangente an den Graphen von f in x0 . 8.1.3 Das Newton-Verfahren zur Nullstellenbestimmung Gegeben sei ein Funktion f : I → R, welche auf einem Intervall I ⊆ R definiert ist. Gesucht ist eine Nullstelle von f , also ein x∗ ∈ I mit f (x∗ ) = 0. Es sei x0 ein gegebener Startwert als Näherung für die gesuchte Stelle. Dieser könnte z. B. mit dem Bisektionsverfahren gefunden worden sein. Unter der Voraussetzung, dass f in x0 differenzierbar sind, bestimmen wir die lineare Approximation an f in x0 , also das Polynom p mit p(x) = f (x0 ) + f ′ (x0 ) · (x − x0 ) für x ∈ R . Wenn f ′ (x0 ) 6= 0 gilt, dann hat p eine eindeutig bestimmte Nullstelle x1 , x1 = x0 − f (x0 ) . f ′ (x0 ) Dieses Verfahren führe man nun weiter fort: Newton-Verfahren: Unter der Voraussetzung, dass xk ∈ I, f in xk differenzierbar ist und f ′ (xk ) 6= 0 gilt, bestimme man xk+1 als Nullstelle der linearen Approximation an f in xk , also f (xk ) xk+1 := xk − ′ k = 0, 1, 2, 3 . . . . f (xk ) 162 8.1 Differenzierbarkeit und lineare Approximation Zu klären wäre, ob die Iteriertenfolge (xk )k∈N tatsächlich gegen eine Nullstelle von f konvergiert. Beispiel 8.9. Wir betrachten das Polynom f (x) = x3 + x2 + 2x + 1 . Dieses hat eine Nullstelle in [a, b] = [−1, 0], da f (−1) = −1 und f (0) = 1 gilt. Ein erster Schritt der Bisektion liefert x0 = −0.5 mit f (x0 ) = 0.125 > 0. Zu erwarten ist also eine Nullstelle im Intervall [−1, −0.5]. Mit den Schulkenntnissen zur Bestimmung von Ableitungen führen wir einen Schritt des Newton-Verfahrens durch. Es gilt x1 = x0 − f (x0 ) x30 + x20 + 2x0 + 1 = x − 0 f ′ (x0 ) 3x20 + 2x0 + 2 und mit x0 = −0.5 erhalten wir x1 = −0.5714 mit f (x1 ) = −0.0029 < 0 und |f (x1 )| < 0.9 |f (x0 )| , wodurch x1 als bessere Näherung (und x∗ ∈ [x1 , x0 ]) erkannt wird. Weitere Schritte über xk+1 = xk − x3k + x2k + 2xk + 1 f (xk ) = x − k f ′ (xk ) 3x2k + 2xk + 2 (k = 0, 1, 2, . . .) liefern x2 = −0.5698412, x3 = x4 = −0.569840291 auf vier Dezimalen und f (x3 ) = 3.5711 · 10−12 . Das Newton-Verfahren liefert hier also bereits nach drei Schritten eine sehr gute Näherung der Nullstelle x∗ . 8.1.4 Differenzierbarkeit und Wachstum Wir fragen uns hier, ob wir aus der Differenzierbarkeit einer Funktion f : D(f ) ⊆ R → R an einer Stelle x0 ∈ D(f ) und konkret aus der Ableitung f ′ (x0 ) schon etwas über das Verhalten von f in der Nähe von x0 ermitteln können. Sei f ′ (x0 ) 6= 0. Nach Satz 8.6 gilt f (x) = f (x0 ) + f ′ (x0 ) · (x − x0 ) + r(x) , lim x→x0 r(x) =0. x − x0 Zu ε = 21 |f ′ (x0 )| gibt es ein δ > 0 mit |r(x)| ≤ ε · |x − x0 | für x ∈ D(f ) mit |x − x0 | < δ. Für f ′ (x0 ) und x ∈ D(f ) mit |x − x0 | < δ gilt folglich 1 f (x) ≥ f (x0 ) + f ′ (x0 ) · (x − x0 ) − f ′ (x0 ) · (x − x0 ) > f (x0 ) für x > x0 . 2 163 8 Eindimensionale Differentialrechnung Mit den entsprechenden weiteren Beziehungen folgt: Satz 8.10. Sei f : D(f ) ⊆ R → R im inneren Punkt x0 von D(f ) differenzierbar. Dann existiert ein δ > 0 mit: a) Wenn f ′ (x0 ) > 0, dann gilt f (x1 ) < f (x0 ) < f (x2 ) für x1 , x2 ∈ D(f ) mit x0 − δ < x1 < x0 < x2 < x0 + δ . b) Wenn f ′ (x0 ) < 0, dann gilt f (x1 ) > f (x0 ) > f (x2 ) für x1 , x2 ∈ D(f ) mit x0 − δ < x1 < x0 < x2 < x0 + δ . 8.1.5 Notwendige Bedingung für Extrema Wir wissen bereits, dass stetige Funktionen auf abgeschlossenen, beschränkten Intervallen einen maximalen und einen minimalen Wert annehmen, d.h., dass sie ein globales Maximum oder Minimum besitzen. Definition 8.11. Die Funktion f : D(f ) ⊆ R → R hat in x0 ∈ D(f ) ein lokales Minimum (Maximum), wenn ein ε > 0 existiert mit f (x) ≥ f (x0 ) (f (x) ≤ f (x0 )) für alle x ∈ D(f ) mit |x − x0 | < ε. Ein lokales Extremum ist ein lokales Minimum oder Maximum. Beispiel 8.12. In der Skizze ist eine Funktion f : [a, b] → R dargestellt. x1 ist eine globale Minimalstelle. b ist eine globale Maximalstelle. a, x1 , x3 sind lokale Minimalstellen. x2 , b sind lokale Maximalstellen. a x1 x2 x3 b Der folgende Satz ist eine unmittelbare Folgerung aus Satz 8.10. Er liefert eine notwendige Bedingung für die Existenz von Extrema. Darüberhinaus ist er eine wesentliche Grundlage für viele weitere wichtige Aussagen. Satz 8.13 (Satz von Fermat, Notwendige Bedingung für Extrema). Sei f : D(f ) ⊆ R → R im inneren Punkt x0 von D(f ) differenzierbar. Dann gilt: f hat in x0 lokales Extremum ⇒ f ′ (x0 ) = 0 . Bemerkung 8.14. Wenn x0 nicht im Inneren von D(f ) liegt, muss die Behauptung nicht gelten! 164 8.2 Berechnung von Ableitungen Beispiel 8.15. Betrachte z. B. x 7→ x2 auf [−1, 1]. Es liegen lokale Maxima in −1 und 1 vor, aber die Ableitung verschwindet dort nicht. Siehe auch a, x1 und b in obigem Beispiel. Wir schließen daraus: Bei einer beliebigen Funktion f : D(f ) → R sind folgende Punkte Kandidaten für lokale Extremalstellen: • Punkte x0 ∈ D(f ) in offenen Teilintervallen von D(f ), in denen f differenzierbar ist und für die f ′ (x0 ) = 0 gilt, • Punkte x0 ∈ D(f ), welche nicht in offenen Teilintervallen von D(f ) liegen (insbesondere also die Randpunkte von D(f ), • Punkte x0 ∈ D(f ), in denen f nicht differenzierbar ist. 8.2 Berechnung von Ableitungen 8.2.1 Ableitungen spezieller Potenzfunktionen Durch vollständige Induktion in Verbindung mit dem direkten Berechnen des Differentialquotienten unter Verwendung des binomischen Satzes folgt d n x = nxn−1 dx (n ≥ 0, x ∈ R) . √ Wir betrachten f : R≥0 → R mit f (x) = x und x0 > 0. Es gilt √ √ x0 + ∆x − x0 1 1 ′ = lim √ f (x0 ) = lim √ = √ ∆x→0 ∆x→0 x0 + ∆x − x0 2 x0 x0 + ∆x + x0 und daher 1 d√ x= √ dx 2 x (x > 0) . Mit der gerade gewonnenen Ableitung für die Wurzelfunktion, zeigen wir nun an einem Beispiel, wie gut die Tangente (d. h. die lineare Approximation) die Funktion f in der Nähe der Stelle x0 annähert. √ Beispiel 8.16. Wir betrachten f (x) = x an der Stelle x0 = 1.96. Es gilt f ′ (x0 ) = 2√1x0 = 1 2·1.4 = 1 2.8 und daher f T1.96,1 (x) = 1.4 + 1 (x − 1.96) . 2.8 f Wir vergleichen für x = 2 die Werte von f (2) und T1.96,1 (2): √ f (2) = 2 = 1.41421356 . . . , 1 f (2 − 1.96) = 1.414286 . . . . T1.96,1 (2) = 1.4 + 2.8 165 19.05.10 8 Eindimensionale Differentialrechnung 8.2.2 Linearität, Produkt-, Quotienten und Kettenregel Versuchen wir jetzt, uns mit allgemeingültigen Rechenregeln die Berechnung von Ableitungen zu erleichtern. Die folgenden Aussagen folgen leicht aus der Weierstraß-Zerlegungsformel (8.5) Satz 8.17. Es seien f : D(f ) ⊆ R → R, g : D(g) ⊆ R → R und x ∈ D(f ) ∩ D(g) Häufungspunkt von D(f ) ∩ D(g). Wenn f und g in x differenzierbar sind, dann gelten: (αf + βg)′ (x) = αf ′ (x) + βg ′ (x) für alle α, β ∈ R, (Linearität) (f · g)′ (x) = f ′ (x)g(x) + f (x)g ′ (x) , ′ f f ′ (x)g(x) − f (x)g ′ (x) , (x) = g g(x)2 (Produktregel) falls g(x) 6= 0 . (Quotientenregel ) Beispiel 8.18. Für f (x) = 3x3 − 4x2 + 2x − 1 und x ∈ R gilt f ′ (x) = 3 · 3x2 − 4 · 2x + 2 · 1 = 9x2 − 8x + 2 . x3 − x und x ∈ R gilt 1 + x2 3x2 − 1 1 + x2 − x3 − x (0 + 2x) 3x2 + 3x4 − 1 − x2 − 2x4 + 2x2 ′ f (x) = = (1 + x2 )2 (1 + x2 )2 x4 + 4x2 − 1 = . (1 + x2 )2 Für f (x) = Satz 8.19. Es seien f : D(f ) ⊆ R → R, g : D(g) ⊆ R → R und x ∈ D(g ◦ f ) = f −1 (D(g)) Häufungspunkt von D(g ◦ f ). Wenn f in x und g in f (x) differenzierbar sind, dann gilt: (g ◦ f )′ (x) = g ′ (f (x))f ′ (x) . (Kettenregel) Die Ableitung einer verketteten Funktion ist also „äußere Ableitung am Wert der inneren Funktion mal innere Ableitung“. 2 Beispiel 8.20. Wir können f (x) = 3x2 − 4 auf drei verschiedene Arten ableiten. 2 1. Ausmultiplizieren: f (x) = 3x2 − 4 = 9x4 − 24x2 + 16 und damit f ′ (x) = 36x3 − 48x. 2. Produktregel: f (x) = 3x2 − 4 3x2 − 4 und damit f ′ (x) = 6x 3x2 − 4 + 3x2 − 4 6x = 12x 3x2 − 4 = 36x3 − 48x . 3. Kettenregel: f ′ (x) = 2 3x2 − 4 · (6x) = 12x 3x2 − 4 = 36x3 − 48x . 166 8.2 Berechnung von Ableitungen Die Kettenregel kann auch bei mehrfacher Schachtelung angewendet werden: q (x2 − 2x)3 für x > 2 gegeben. f ist Beispiel 8.21. Sei f : [2, ∞[ → R mit f (x) = Verkettung dreier Funktionen: f = f3 ◦ f2 ◦ f1 mit f1 , f2 : R → R, f3 : R≥0 → R und f1 (x) = x2 − 2x , f2 (x) = x3 , f3 (x) = √ x. Entsprechend gilt für die Ableitung 2 1 f ′ (x) = f3′ (f2 (f1 (x))) · f2′ (f1 (x)) · f1′ (x) = q · 3 x2 − 2x · (2x − 2) 2 (x2 − 2x)3 p x2 − 2x = 3 (x − 1) x2 − 2x . = 3 (x − 1) √ x2 − 2x 8.2.3 Ableitungen weiterer Funktionen Es gilt sin(x + h) − sin x sin x cos h + cos x sin h − sin x = lim h→0 h→0 h h cos h − 1 sin h = sin x lim + cos x lim = 0 · sin x + 1 · cos x . h→0 h→0 h h = cos x . sin′ x = lim Durch Anwendung von cos x = sin(x + π2 ), Ketten- und Quotientenregel folgen: sin′ x = cos x , (x ∈ R) ′ cos x = − sin x , 1 , tan′ x = cos2 x 1 cot′ x = − , sin2 x (x ∈ R) (x 6= kπ + π , k ∈ Z) , 2 (x 6= kπ, k ∈ Z) . Wegen ∞ ∞ ∞ ∞ X exp h − 1 1 X 1 k 1 X 1 k X 1 k−1 1 = ( h − 1) = h = h =1+h· hk h h k! h k! k! (k + 2)! k=0 k=1 und | ∞ X k=0 k=1 k=0 ∞ X 1 1 hk | < (k + 2)! (k + 2)! k=0 167 8 Eindimensionale Differentialrechnung für |h| < 1 folgt exp h − 1 =1 h→0 h lim und somit exp(x + h) − exp x exp x · exp h − exp x exp h − 1 = lim = exp x · lim , h→∞ h→∞ h→∞ h h h exp′ x = lim also exp′ x = exp x , (x ∈ R) . 8.3 Differenzierbare Funktionen 8.3.1 Differenzierbarkeit auf Mengen Definition 8.22. Wir nennen eine Funktion f : D(f ) ⊆ R → R differenzierbar auf der Menge M ⊆ D(f ), wenn f in allen Punkten x0 ∈ M differenzierbar ist. f heißt differenzierbar , wenn f auf D(f ) differenzierbar ist. Bemerkung 8.23. 1. Eine in einem Häufungspunkt x0 von D(f ) stetige Funktion muss dort nicht differenzierbar sein. (Betrachte zum Beispiel die Betragsfunktion in 0). 2. Es gibt stetige, auf einem Intervall definierte Funktionen, die nirgends differenzierbar sind. Sei f : D(f ) ⊆ R → R und sei D(f ′ ) := {x0 ∈ D(f ) : f ist differenzierbar in x0 } . Dann ist eine neue Funktion g : D(f ′ ) ⊆ R → R, die Ableitung(sfunktion) von f durch g(x) = f ′ (x) für x ∈ D(f ′ ) gegeben. Diese Funktion wird auch wieder durch f ′ bezeichnet. Im allgemeinen hat man nur D(f ′ ) ⊆ D(f ). In vielen Fällen ist man daran interessiert, dass D(f ′ ) = D(f ) gilt, also f differenzierbar ist. 8.3.2 Mittelwertsätze Die folgenden Sätze sind von grundlegender Bedeutung für die Untersuchung differenzierbarer Funktionen auf Intervallen. Satz 8.24 (Satz von Rolle). Sei f : [a, b] → R stetig und sei f ]a,b[ differenzierbar. Dann gilt f (a) = f (b) 168 ⇒ ∃ξ ∈ ]a, b[ : f ′ (ξ) = 0 . 8.3 Differenzierbare Funktionen Beweis. Da f stetig ist, existieren globales Minimum und Maximum von f auf [a, b]. Liegen beide in den Randpunkten vor, so ist f konstant auf [a, b] und damit f ′ (x) = 0 für alle x ∈ ]a, b[. Liegt wenigstens eines der beiden globalen Extrema in Innern von [a, b] vor, dann verschwindet nach Satz 8.13 dort die Ableitung. Satz 8.25 (Satz von Lagrange, Mittelwertsatz). Sei f : [a, b] → R stetig und auf ]a, b[ differenzierbar. Dann existiert ein ξ ∈ ]a, b[ mit f ′ (ξ) = d. h. der Anstieg f (b)−f (a) b−a f (b) − f (a) , b−a wird auch in einer Stelle ξ ∈ ]a, b[ als Ableitung angenommen. 8.3.3 Monotonie Definition 8.26. Eine Funktion f : D(f ) ⊆ R → R heißt a) ( streng ) monoton wachsend , wenn f (x1 ) ≤ f (x2 ) (f (x1 ) < f (x2 )) für alle x1 , x2 ∈ D(f ), x1 < x2 , gilt. b) ( streng ) monoton fallend , wenn f (x1 ) ≥ f (x2 ) (f (x1 ) > f (x2 )) für alle x1 , x2 ∈ D(f ), x1 < x2 , gilt. Für differenzierbare Funktionen f : ]a, b[ → R kann die Monotonie mit Hilfe der Ableitung charakterisiert werden: Satz 8.27. Sei f : D(f ) ⊆ R → R auf I ⊆ D(f ) mit I = [a, b] oder I = ]a, b[ stetig und auf ]a, b[ differenzierbar. Dann gilt: a) Wenn f ′ (x) > 0 für alle x ∈ ]a, b[ gilt, dann ist f streng monoton wachsend auf I, b) Wenn f ′ (x) < 0 für alle x ∈ ]a, b[ gilt, dann ist f streng monoton fallend auf I, c) Wenn f ′ (x) ≥ 0 für alle x ∈ ]a, b[ gilt, dann ist f monoton wachsend auf I, d) Wenn f ′ (x) ≤ 0 für alle x ∈ ]a, b[ gilt, dann ist f monoton fallend auf I, e) Wenn f ′ (x) = 0 für alle x ∈ ]a, b[ gilt, dann ist f konstant auf auf I ]a, b[. Beweis. Seien x1 , x2 ∈ I mit x1 < x2 . Nach dem Mittelwertsatz 8.25 gibt es ein ξ ∈ ]x1 , x2 [ mit f (x2 ) − f (x1 ) = f ′ (ξ)(x2 − x1 ) . Ist nun zum Beispiel f ′ (x) > 0 für alle x ∈ ]a, b[, dann ist die rechte Seite und damit auch die linke Seite positiv. 169 8 Eindimensionale Differentialrechnung Bemerkung 8.28. 1. Die Differenzierbarkeit ist wie auch die Stetigkeit nicht notwendig für die Monotonie. 2. Im allgemeinen zerlegt man den Definitionsbereich D(f ) einer Funktion in MonotonieIntervalle. 8.3.4 Differenzierbarkeit der Umkehrfunktion Es sei f : D(f ) ⊆ R → R streng monoton mit D(f ) = [a, b] und W(f ) = f ([a, b]). Dann existiert die Umkehrfunktion f −1 : W(f ) → D(f ) zu f mit f −1 (f (x)) = x für x ∈ D(f ) und f (f −1 (x)) = x für x ∈ W(f ). Ist f streng monoton und stetig, so ist f −1 auch stetig, siehe Satz 7.96. Unter Verwendung der Ableitung erhält man folgende Aussage: Satz 8.29. Sei f : D(f ) ⊆ R → R, D(f ) = ]a, b[ differenzierbar und sei entweder f ′ (x) > 0 für alle x ∈ ]a, b[ oder f ′ (x) < 0 für alle x ∈ ]a, b[. Dann existiert die Umkehrfunktion f −1 : f (]a, b[) → ]a, b[ zu f , sie ist differenzierbar, und es gilt ′ 1 für x ∈ f (]a, b[) . f −1 (x) = ′ −1 f (f (x)) Beispiel 8.30. Sei f : ] − π2 , π2 [ → R mit f (x) = sin x. Es gilt f ′ (x) = cos x > 0 für x ∈ ] − π2 , π2 [. Weiter haben wir f (] − π2 , π2 [) = ] − 1, 1[. Nach Satz 8.29 ist f somit invertierbar (wir wissen schon f −1 (x) = arcsin x für x ∈ ] − 1, 1[) und es gilt ′ f −1 (x) = 1 1 1 =√ =q cos(arcsin x) 1 − x2 1 − (sin(arcsin x))2 für x ∈ ] − 1, 1[ . Mit den entsprechenden Untersuchungen folgen: 1 , 1 − x2 1 arctan′ x = , 1 + x2 1 ln′ x = x 1 , log′a x = x ln a arcsin′ x = √ 1 1 − x2 1 arccot′ x = − 1 + x2 arccos′ x = − √ für x ∈ R , für x > 0 , exp′a x = expa x · ln a 8.3.5 Interpretationen der Ableitung Sei f : ]0, ∞[ → R differenzierbar in x ∈ ]0, ∞[. 170 für x ∈ ] − 1, 1[ , für x > 0, a > 1 , 8.3 Differenzierbare Funktionen • Ist y = f (x) der Konsum in Abhängigkeit vom Einkommen x, so bezeichnet man f ′ (x) als marginale Konsumrate beim Einkommen x. • Ist y = f (x) die Produktion in Abhängigkeit von einem Produktionsfaktor x, so bezeichnet man f ′ (x) als Grenzproduktivität des Produktionsfaktors beim Faktoreinsatz x. • Ist y = f (x) eine Kostenfunktion in Abhängigkeit von der Produktionsmenge x, so bezeichnet man f ′ (x) als Grenzkosten bei der Produktionsmenge x. Interpretationen, z. B. falls f monoton wachsend ist: Erhöht sich x auf x + 1, so ist f ′ (x) eine Näherung für • die Menge, die zusätzlich konsumiert wird, • die Menge, die zusätzlich produziert wird, • die Kosten, die zusätzlich entstehen. 8.3.6 Änderungsrate und Elastizität Sei f : ]0, ∞[ → R differenzierbar in x ∈ ]0, ∞[. Dann gilt nach der Kettenregel (ln ◦f )′ (x) = ln′ (f (x)) · f ′ (x) = 1 f ′ (x) · f ′ (x) = . f (x) f (x) Definition 8.31. Unter obigen Voraussetzungen heißt (ln ◦f )′ (x) = f ′ (x) f (x) logarithmische Ableitung oder Änderungsrate von f an der Stelle x. Die Zahl εf (x) := f ′ (x) f (x) x = x · f ′ (x) f (x) heißt Elastizität von f an der Stelle x. Die Funktion f heißt elastisch, proportionalelastisch bzw. unelastisch, wenn εf (x) > 1, εf (x) = 1 bzw. εf (x) < 1 gilt. Beispiel 8.32. Sei f eine Produktionsfunktion. Dann bedeutet Elastizität bzw. Unelastizität bei x, dass die Grenzproduktivität f ′ (x) größer bzw. kleiner als die Durchschnittsproduktivität f (x) x ist. 171 8 Eindimensionale Differentialrechnung Rechenregeln für die Elastizität ergeben sich aus denen der Ableitung: εαf +βg (x) = (αf + βg)′ (x) (αf +βg)(x) x = g(x) α f (x) αf ′ (x) + βg ′ (x) x εf (x) + β x εg (x) = 1 1 x (αf (x) + βg(x)) x (αf (x) + βg(x)) αf (x)εf (x) + βg(x)εg (x) , wenn αf (x) + βg(x) 6= 0 , αf (x) + βg(x) f ′ (x)g(x) + f (x)g ′ (x) f ′ (x) g ′ (x) (f · g)′ (x) = = + = εf (x) + εg (x) , εf ·g (x) = 1 1 1 1 x (f · g)(x) x f (x) · g(x) x f (x) x g(x) = f ′ (x)g(x)−f (x)g ′ (x) (f : g)′ (x) f ′ (x) g ′ (x) g(x)2 εf :g (x) = 1 = = 1 − 1 = εf (x) − εg (x) , 1 x (f : g)(x) x f (x) · g(x) x f (x) x g(x) f ′ (g(x)) · g ′ (x) f ′ (g(x)) g ′ (x) (f ◦ g)′ (x) = = 1 = εf (g(x)) · εg (x) . · 1 εf ◦g (x) = 1 1 x f ◦ g)(x) x f (g(x)) g(x) f (g(x)) x g(x) Beispiel 8.33. Maximierer der Durchschnittsproduktivität g : ]0, ∞[ → ]0, ∞[, g(x) = f (x)/x. Dann gilt f ′ (x0 )x0 − f (x0 ) , 0 = g ′ (x0 ) = x20 woraus f ′ (x0 )x0 − f (x0 ) = 0 und somit εf (x0 ) = x0 f ′ (x0 ) =1 1 x0 f (x0 ) folgt. Für einen lokalen Maximierer x0 stimmen also Durchschnittsproduktivität und Grenzproduktivität überein und die Produktivität ist proportional-elastisch im Maximierer x0 . 02.06.10 Analoges gilt für lokale Minimierer. Beispiel 8.34. Sei f : ]0, ∞[ → ]0, ∞[ eine differenzierbare Preis-Absatz-Funktion. Dann ist die preisabhängige Umsatzfunktion u : ]0, ∞[ → ]0, ∞[ mit u(p) = p · f (p) differenzierbar und für den Grenzumsatz u′ (p) gilt ! ′ (p) f = f (p) · (1 + εf (p)) . u′ (p) = f (p) + p · f ′ (p) = f (p) · 1 + 1 p f (p) Für die Preiselastizität εu (p) des Umsatzes ergibt sich εu (p) = f (p) · (1 + εf (p)) u′ (p) = = 1 + εf (p) , 1 1 p u(p) p · p · f (p) was wir auch durch obige Rechenregeln erhalten hätten. Wir nehmen nun an, dass f eine Umkehrfunktion f −1 ]0, ∞[ → ]0, ∞[ existiert. Dann ist die mengenabhängige Umsatzfunktion v : ]0, ∞[ → ]0, ∞[ mit v(x) = x · f −1 (x) differenzierbar 172 8.4 Mehrfach differenzierbare Abbildungen und für den Grenzumsatz v ′ (x) gilt 1 · f (f −1 (x)) + f −1 (x) v ′ (x) = (f −1 )′ (x) · x + f −1 (x) = ′ −1 f (f (x)) f (f −1 (x)) 1 −1 −1 = f (x) · 1 + −1 = f (x) · 1 + . f (x) · f ′ (f −1 (x)) εf (f −1 (x)) Für die Mengenelastizität εv (x) ergibt sich εv (x) = v ′ (x) x· v(x) Die Gleichung = x · f −1 (x) · 1 + x· 1 εf −1 f (x) v ′ (x) = f −1 (x) · 1 + (f −1 (x)) =1+ 1 εf (f −1 (x)) 1 εf (f −1 (x)) . heißt Amorso-Robinson-Gleichung . Bemerkenswert ist, dass nur die Elastizität von f und nicht die von f −1 benötigt wird. 8.4 Mehrfach differenzierbare Abbildungen 8.4.1 Höhere Ableitungen Wenn eine Funktion f differenzierbar ist, kann man wieder nach der Differenzierbarkeit von f ′ fragen, was zur rekursiven Definition von Ableitungen höherer Ordnung führt: Definition 8.35. Sei f : D(f ) ⊆ R → R. Wir setzen f (0) := f , f (1) := f ′ mit D(f (0) ) := D(f ) und D(f (1) ) = D(f ′ ). Sei nun f (k−1) : D(f (k−1) ) ⊆ R → R definiert mit k ≥ 2. Dann heiße f k-mal differenzierbar in x0 , wenn f (k−1) in x0 differenzierbar ist. Die Funktion f (k) : D(f (k) ) ⊆ R → R mit f und (k) (x) := f (k−1) ′ (x) für x ∈ D(f (k) ) D(f (k) ) := {x0 ∈ D(f (k−1) : f (k−1) ist in x0 differenzierbar} heißt k-te Ableitungsfunktion von f . f heißt k-mal (stetig) differenzierbar , wenn f k-mal differenzierbar ist mit D(f (k) ) = D(f ) (und f (k) stetig ist). Bemerkung 8.36. Anstelle f (2) , f (3) wird auch f ′′ , f ′′′ verwendet. 173 8 Eindimensionale Differentialrechnung Definition 8.37. Die Menge der stetigen Funktionen f : D ⊆ R → R wird mit C 0 (D) bezeichnet. Die Menge der k-mal stetig differenzierbaren Funktionen f : D ⊆ R → R wird mit C k (D) bezeichnet. Die Menge der beliebig oft stetig differenzierbaren Funktionen f : D ⊆ R → R wird mit C ∞ (D) bezeichnet. Beispiel 8.38. Polynome sind auf ganz R beliebig oft (stetig) differenzierbar. Zum Beispiel gilt für f (x) = 3x4 − 2x + 1: f ′ (x) = 12x3 − 2 , f ′′ (x) = 36x2 , f ′′′ (x) = 72x , f (4) (x) = 72 und f (k) (x) = 0 für k ≥ 5. Beispiel 8.39. Potenzreihen sind in ihrem Konvergenzbereich beliebig oft differenzierbar, ∞ ∞ ∞ n=0 n=0 n=1 X X d d X an xn = an xn = nan xn−1 . dx dx 8.4.2 Krümmungsverhalten und hinreichende Bedingung für Extrema Definition 8.40. Wir nennen f : ]a, b[ → R • linksgekrümmt oder konvex , wenn f ′′ (x) > 0 gilt auf ]a, b[, • rechtsgekrümmt oder konkav , wenn f ′′ (x) < 0 gilt auf ]a, b[. Ein Punkt x0 ∈ [a, b], in dem f das Krümmungsverhalten wechselt, heißt Wendepunkt von f. Kandidaten für Wendepunkte sind also Punkte aus [a, b], • an denen f ′′ (x) = 0 gilt, oder • an denen f ′ nicht differenzierbar ist. Satz 8.41. Sei f : ]a, b[ → R zweimal differenzierbar, x0 ∈ ]a, b[ und sei Txf0 ,1 : R → R mit Txf0 ,1 (x) = f (x0 ) + f ′ (x0 ) · (x − x0 ) die lineare Approximation von f an der Stelle x0 . a) ist f auf ]a, b[ linksgekrümmt, so gilt f (x) ≥ f (x0 ) + f ′ (x0 ) · (x − x0 ) für alle x ∈ ]a, b[. b) ist f auf ]a, b[ rechtsgekrümmt, so gilt f (x) ≤ f (x0 ) + f ′ (x0 ) · (x − x0 ) für alle x ∈ ]a, b[. Beweis. Untersuche die Hilfsfunktion h(x) = f (x) − f (x0 ) − f ′ (x0 ) · (x − x0 ), für die h(x0 ) = h′ (x0 ) = 0 gilt. Satz 8.42 (Hinreichende Bedingung für Extrema). Sei f : ]a, b[ → R zweimal differenzierbar in x0 ∈ ]a, b[ mit f ′ (x0 ) = 0. Wenn f ′′ (x0 ) > 0, so ist x0 lokale Minimalstelle von f , wenn f ′′ (x0 ) < 0, so ist x0 lokale Maximalstelle von f . 174 8.4 Mehrfach differenzierbare Abbildungen Beweis. Sei f ′′ (x0 ) > 0. Dann gilt f ′ (x) < 0 bzw. f ′ (x) > 0 für x nahe x0 mit x < x0 bzw. x > x0 . Dies heißt nun wieder, dass f in der Nähe von x0 links von x0 streng monoton fallend und rechts von x0 streng monoton wachsend ist. Ist f ′′ (x0 ) = 0, so kann man eventuell eine Entscheidung durch die Untersuchung höherer Ableitungen treffen. 8.4.3 Konvergenz des Newton-Verfahrens Das Newton-Verfahren, siehe Abschnitt 8.1.3, ist ein so genanntes lokal konvergentes Verfahren. Konvergenz der in der Newton-Iteration erzeugten Folge zu einer Nullstelle ist also i. A. nur garantiert, wenn der Startwert schon „ausreichend nahe“ an der Nullstelle liegt. Ist der Startwert zu weit weg, kann alles passieren: • Die Folge divergiert, der Abstand zur Nullstelle wächst über alle Grenzen. • Die Folge divergiert, bleibt aber beschränkt. Sie kann z. B. periodisch werden, d. h. endlich viele Punkte wechseln sich in immer derselben Reihenfolge ab. Man sagt auch, dass die Folge oszilliert. • Die Folge konvergiert, aber nicht gegen die gewünschte sondern eine andere Nullstelle. Satz 8.43. Sei f auf einem offenem Intervall I um die Nullstelle x∗ zweimal stetig differenzierbar. Wenn |f ′′ (x)f (x)| < |f ′ (x)|2 (8.6) für x ∈ I gilt und wenn der Startwert x0 in I liegt, so konvergiert die Newton-Iteration gegen x∗ . Ist f auf einem offenem Intervall J um x∗ zweimal stetig differenzierbar und gilt f ′ (x∗ ) 6= 0, so gilt (8.6) zumindest auf kleinen Intervallen I um x∗ . Bemerkung 8.44. Unter den Voraussetzungen des vorherigen Satzes konvergiert das NewtonVerfahren quadratisch, d.h., mit einer Konstanten M gilt |xk+1 − x∗ | ≤ M |xk − x∗ |2 für k ∈ N . Anschaulich bedeutet dies, dass sich die Anzahl der bereits richtig berechneten Dezimalstellen bei jeder Iteration ungefähr verdoppelt, wenn sich die Iterierten der Nullstelle x∗ genügend angenähert haben. 8.4.4 Kurvendiskussion Eine Kurvendiskussion einer Funktion f ist die Bestimmung aller Nullstellen, Polstellen, lokalen und globalen Extrema, damit der Monotonie-Intervalle, der Wendepunkte und der konkaven und konvexen Verhaltens sowie die Untersuchung des asymptotischen Verhaltens. 175 8 Eindimensionale Differentialrechnung Beispiel 8.45. Wir betrachten f : R \ {−1} → R mit f (x) = x−2 . (x + 1)2 Nullstellen: x0 = 2 ist die einzige Nullstelle von f , da x0 = 2 die einzige Nullstelle des Zählers ist und x0 ∈ D(f ) gilt. Polestellen: xp = −1 ist einziger Pol und von 2. Ordnung, da xp die einzige Nullstelle des Nenners ist, zweifache Nullstelle des Nenners aber keine Nullstelle des Zählers ist. Ableitungen: Es gelten 5−x (x + 1)2 − (x − 2) · 2 · (x + 1) = , (x + 1)4 (x + 1)3 −(x + 1)3 − (5 − x) · 3 · (x + 1)2 2x − 16 f ′′ (x) = = , 6 (x + 1) (x + 1)4 −6x + 66 f ′′′ (x) = . (x + 1)5 f ′ (x) = Extremalstellen: xE = 5 ist (die einzige) lokale Maximalstelle mit f (xE ) = und f ′′ (xE ) < 0 gilt. Eine lokale Minimalstelle existiert nicht. 1 12 , da f ′ (xE ) = 0 Monotoniebereiche: f ist monoton fallend auf ] − ∞, −1[ ∪ [5, ∞[ und monoton wachsend auf ] − 1, 5]. Wendepunkte: xW = 8 ist (der einzige) Wendepunkt, da f ′′ (xW ) = 0 und f ′′′ (xW ) 6= 0). Konvexitäts- und Konkavitätsbereiche: f ist konvex über [8, ∞[ und konkav über ] − ∞, 1[ und ]1, 8]. Asymptotisches Verhalten: Es gelten lim f (x) = 0 und x→∞ lim f (x) = 0 . x→−∞ Beispiel 8.46. Ein Unternehmen produziere ein Erzeugnis entsprechend der Produktionsfunktion f : [0, 36] → R mit f (x) = −0.2x3 + 12x2 + 24.6x , d. h. es werden y = f (x) Stück produziert in Abhängigkeit von Produktionsfaktor x. Es stehen pro Produktionsperiode maximal 36 Einheiten des Produktionsfaktors x zur Verfügung, woraus sich der Definitionsbereich ergibt. Nullstellen: Wegen f (x) = −0.2x(x2 − 60x − 123) = 0.2x(x − 61.98)(x + 1.98) ist x0 = 0 die einzige Nullstelle von f . Extrema und Monotoniebereiche: Es gilt f ′ (x) = −0.6x2 + 24x + 24.6. Da das quadratische Polynom p(x) = −0.6x2 + 24x + 24.6 nur die Nullstellen x1 = −1 und x2 = 41 hat, welche nicht in D(f ) = D(f ′ ) liegen, besitzt f keine kritischen Punkte. Wegen f ′ (x) > 0 für x ∈ [0, 36] ist f streng monoton wachsend. Daher ist x = 0 wegen f (0) = 0 eine Minimalstelle 176 8.4 Mehrfach differenzierbare Abbildungen mit globalen Minimalwert 0 und wegen f (36) = 7106.4 ist x = 36 eine Maximalstelle mit globalen Maximalwert 7106.4. Wendepunkte, Konvexität, Konkavität: Wegen f ′′ (x) = −1.2x + 24 und f ′′′ (x) = −1.2 ist xW = 20 ein Wendepunkt von f , d. h. die Grenzproduktivität f ′ ist für x = 20 maximal. Für kleinere Werte des Produktionsfaktors x (d. h. x < 20) ist die Produktion y = f (x) progressiv wachsend (d. h. f ′′ (x) > 0), für größere Werte von x (d. h. x > 20) ist die Produktion y = f (x) degressiv wachsend (d. h. f ′′ (x) < 0). Beispiel 8.47. Wir betrachten die logistische Funktion f : [0, ∞[ → R mit f (x) = a 1 + be−cx und a, b, c > 0. Nullstellen: Wegen f (x) > 0 für x ≥ 0 besitzt f keine Nullstelle. Polstellen: Wegen 1 + be−cx > 0 besitzt f keinen Pol. Es gelten f ′ (x) = abce−cx , (1 + be−cx )2 f ′′ (x) = abc2 e−cx be−cx − 1 . (1 + be−cx )3 Extrema: Wegen f ′ (x) > 0 für x ≥ 0 ist f streng monoton wachsend und besitzt keine a . Maximalstelle und nur eine Minimalstelle x = 0 mit Minimalwert f (0) = 1+b Wendepunkte: Für b > 1 ist xW = 1c ln b der (einzige) Wendepunkt von f . Für x < xW ist f (x) progressiv wachsend und für x > xW ist f (x) degressiv wachsend. Im Fall 0 < b ≤ 1 existiert kein Wendepunkt. Asymptotisches Verhalten: Es gilt lim f (x) = lim x→∞ x→−∞ a a = =a. 1 + be−cx 1 + b · lim e−cx x→∞ 177 8 Eindimensionale Differentialrechnung 178 9 Eindimensionale Integralrechnung 9.1 Flächeninhalt und Stammfunktionen 9.1.1 Flächeninhalt Beispiel 9.1. Wir betrachten eine Menge G(f, a, b) im R2 , die nach unten durch die Abszisse, nach oben durch den Graphen einer nichtnegativen, beschränkten Funktion f : [a, b] → R und nach links bzw. rechts durch die zur Ordinate parallelen Geraden durch (a, 0) bzw. (b, 0) begrenzt ist, also die Fläche unter dem Graphen einer Funktion f : [a, b] → R, G(f, a, b) := {(x, y) ∈ R2 : x ∈ [a, b], 0 ≤ y ≤ f (x)}. y f G(f, a, b) a b x Wir wollen z.B. dieser Menge G(f, a, b) einen Flächeninhalt zuordnen. Was wir kennen. • Der Flächeninhalt von Rechtecken mit den Seitenlängen a und b ist das Produkt a · b der Seitenlängen. Was wir wollen. 1. Der Flächeninhalt einer Menge sollte verschiebungsinvariant sein: Wird die Menge verschoben, sollte sich den Flächeninhalt nicht ändern. 2. Der Flächeninhalt einer Menge sollte, wenn er existiert, eine nichtnegative Zahl sein, d. h., „Flächeninhalt von“ sollte eine Abbildung sein, welche Teilmengen von R2 nichtnegative, reelle Zahlen zuordnet. 3. Wird die Menge M geeignet in Teilmengen Mi zerlegt, so sollte sich der Flächeninhalt von M als Summe der Flächeninhalte der Mi ergeben. Der Flächeninhalt sollte also in geeignetem Sinne additiv sein. 4. Der Flächeninhaltsbegriff sollte bei Rechtecken und allgemein bei Polygonen das ergeben, was wir schon kennen. 179 9 Eindimensionale Integralrechnung 9.1.2 Das Riemann-Integral Die Grundidee bei der Verallgemeinerung des Flächeninhaltsbegriffes wird nun sein, f durch Treppenfunktionen, d. h. stückweise konstanten Funktionen, anzunähern. Definition 9.2. Seien xi , i = 0, . . . , N , mit a = x0 < x1 < · · · < xN = b. Dann heißt Z = {x0 , x1 , . . . , xN } eine Zerlegung von [a, b]. Die Menge aller Zerlegungen von [a, b] bezeichnen wir mit Z(a, b). Definition 9.3. Sei M eine Menge. Eine Zahl s mit s ≤ m für alle m ∈ M heißt untere Schranke von M . Die größte untere Schranke von M heißt Infimum von M und wird mit inf M bezeichnet. Analog werden obere Schranken und das Supremum sup M von M definiert.Ist g eine Funktion auf M , so setzen wir inf g(x) := inf{g(x) : x ∈ M } , x∈M sup g(x) := sup{g(x) : x ∈ M } x∈M Sei f : D(f ) ⊆ R → R, [a, b] ⊆ D(f ) auf [a, b] beschränkt und sei Z = {x0 , x1 , . . . , xN } ∈ Z(a, b). Wir betrachten y y f f x x xi−1 xi a = x0 s(f, Z) := N P inf i=1 x∈[xi−1 ,xi ] b = xN {f (x) · (xi − xi−1 ) xi−1 xi a = x0 bzw. S(f, Z) := N P sup i=1 x∈[xi−1 ,xi ] b = xN f (x) · (xi − xi−1 ) Definition 9.4. Die Zahlen s(f, Z) und S(f, Z) heißen die zur Zerlegung Z gehörende Riemannsche Unter- bzw. Obersumme von f . Offenbar gilt s(f, Z) ≤ S(f, Z). Die Idee ist nun, durch Verfeinerung der Zerlegung, den „Inhalt“ der Flächen immer besser zu beschreiben. 180 9.1 Flächeninhalt und Stammfunktionen Lemma 9.5. Sei einen a, b ∈ R mit a < b. Für jede auf [a, b] beschränkte Funktion f : D(f ) ⊆ R → R, [a, b] ⊆ D(f ) existieren das Supremum bzw. das Infimum s(f, a, b) := sup s(f, Z) , S(f, a, b) := Z∈Z(a,b) inf Z∈Z(a,b) S(f, Z) der Riemannschen Unter- bzw. Obersummen von f auf [a, b]. Leider gilt nur s(f + g, a, b) ≥ s(f, a, b) + s(g, a, b) , S(f + g, a, b) ≤ S(f, a, b) + S(g, a, b) , während die eine Größe nur sub-additiv ist, ist die andere nur super-additiv. Weder s(f ) noch S(f ) sind daher als Flächeninhalt für allgemeine, beschränkte, nichtnegative f tatsächlich brauchbar. Eine Kombination von beiden ist aber geeignet: Definition 9.6. Sei f : D(f ) ⊆ R → R. Wir nennen f (Riemann-) integrierbar auf [a, b], wenn [a, b] ⊆ D(f ), f auf [a, b] beschränkt ist und wenn s(f, a, b) = S(f, a, b) gilt. Ist f auf [a, b] Riemann-integrierbar, so heißt Z b f := s(f, a, b) = S(f, a, b) a (Riemann-) Integral oder bestimmtes Integral von f über [a, b]. Rb Bemerkung 9.7. a f wird gelesen als „Integral von f von a bis b“. Rb 2. Anstelle von a f schreibt man auch Z b f (x) dx , a gelesen als „Integral von f (x) dx von a bis b“. Es gilt aber Z b Z b f (x) dx = f (y) dy . a a Die Bezeichnung R der Integrationsvariablen ist also irrelevant. 3. Das Symbol ist einerseits ein stilisiertes S (von Summe kommend) und andererseits ein stilisiertes I (von Integral kommend). Definition 9.8. Die Menge aller Riemann-integrierbaren Funktion f : [a, b] → R wird mit R(a, b) bezeichnet. 181 9 Eindimensionale Integralrechnung Satz 9.9. 1. Jede Treppenfunktion auf [a, b] ist Riemann-integrierbar auf [a, b]. 2. Jede auf [a, b] stetige Funktion ist Riemann-integrierbar auf [a, b]. 3. Jede auf [a, b] monotone Funktion ist Riemann-integrierbar auf [a, b]. Satz 9.10. Sei f ∈ R(a, b) und sei f˜: [a, b] → R mit f˜(x) = f (x) für alle x ∈ [a, b] mit Ausnahme von endlich vielen Punkten. Dann gilt auch f˜ ∈ R(a, b) und Z b Z b f= f˜ . a a Damit hängen Integrierbarkeit und auch der Wert des Integrals nicht davon ab, welche Werte die Funktion auf endlich vielen Punkten annimmt. Definition 9.11. Sei f : D(f ) ⊆ R → R und a ≤ b. Wenn a ∈ D(f ), dann setzen wir Za f := 0 , a Za f := − b Zb f. a Damit ist das Integral für beliebige Grenzen a, b mit [a, b] ⊆ D(f ) oder [b, a] ⊆ D(f ) festgelegt. Satz 9.12. Es gelten: 1. f ∈ R(a, b) ∧ [c, d] ⊆ [a, b] =⇒ f [c,d] ∈ R(c, d). 2. Sei c ∈ [a, b]. Dann f ∈ R(a, b) ⇐⇒ f [a,c] ∈ R(a, c) ∧ f [c,b] ∈ R(c, b). Rb Rc Rb 3. f ∈ R(a, b) ∧ c ∈ [a, b] =⇒ a f = a f + c f (Additivität bezüglich Integrationsbereiches). Definition 9.13. Für nichtnegatives, auf [a, b] Riemann-integrierbares f : D(f ) ⊆ R → R setzen wir den Flächeninhalt von G(f, a, b) als Z b |G(f, a, b)| := f. a 9.1.3 Anwendungen 9.1.3.1 Flächeninhalt allgemeiner Flächen Der Flächeninhaltsbegriff kann auf allgemeinere Flächen verallgemeinert werden. 182 9.1 Flächeninhalt und Stammfunktionen Definition 9.14. Sei f ∈ R(a, b). Der Flächeninhalt der durch den Graphen von f , der Abszissen und den zur Ordinate parallelen Geraden durch (a, 0) und (b, 0) begrenzten Menge G wird definiert als Z b |G| := |f | . f a b a Man erhält ihn durch Hochklappen der unterhalb der Abszisse liegenden Teile der Fläche, d.h., durch Betrachtung von |f | anstelle von f . Wir betrachten nun Mengen G(f, g, a, b), die nach unten und oben durch die Graphen von auf [a, b] Riemann-integrierbaren Funktionen f , g mit g(x) ≥ f (x) für x ∈ [a, b] und nach links bzw. rechts durch die zur Ordinate parallelen Geraden durch (a, 0) bzw. (b, 0) begrenzt sind, also die Fläche G(f, g, a, b) := {(x, y) ∈ R2 : x ∈ [a, b], g f (x) ≤ y ≤ g(x)} , siehe Bild. Man erhält |G(f, g, a, b)| = Z a b (g − f ) . a f b Oftmals kann eine gegebene Menge G durch achsenparallele Schnitte in mehrere Teilmengen zerlegt werden, deren Inhalt einzeln nach dieser Formel berechnet werden kann. Beachte, dass die berandeten Kurven Graphen von Funktionen sein müssen (keine Doppeldeutigkeit!). 9.1.3.2 Geometrischer Schwerpunkt Als eine Anwendung des Integrals kann der geometrische Schwerpunkt S = (x, y) einer Fläche G(f, g, a, b) mit f, g ∈ R(a, b) und g(x) ≥ f (x) für x ∈ [a, b] berechnet werden. Für diesen gelten die Formeln 1 x= |G(f, g, a, b)| Zb a x (g(x) − f (x)) dx , 1 y= |G(f, g, a, b)| Zb a 1 2 g(x)2 − f (x)2 dx . 183 9 Eindimensionale Integralrechnung Setzt sich die betrachtete Fläche G aus N solchen Teilbereichen Gi zusammen und berechnet man die Schwerpunkte (x̄i , ȳi ), i = 1, . . . , N , der Teilflächen, so gelten für den Gesamtschwerpunkt (x̄, ȳ) die Formeln x̄ = 09.06.10 1 (|G1 |x̄1 + |G2 |x̄2 + · · · + |GN |x̄N ) , |G| ȳ = 1 (|G1 |ȳ1 + |G2 |ȳ2 + · · · + |GN |ȳN ) . |G| Für weitere Formeln siehe Lehrbücher und Formelsammlungen. 9.1.4 Stammfunktionen und unbestimmtes Integral Häufig ist eine Funktion f : D(f ) ⊆ R → R gegeben und eine Funktion F : D(f ) ⊆ R → R ist gesucht, welche der Gleichung F ′ (x) = f (x) für x ∈ D(f ) genügt. Diese Gleichung ist eine sehr einfache Form einer Differentialgleichung, siehe später. Beispiel 9.15. Es seien I(t) die Netto-Investitionsgeschwindigkeit (Stromfunktion) einer Volkswirtschaft und K(t) der Kapitalstock der Volkswirtschaft zum Zeitpunkt t. Dann ist die zeitliche Änderung K ′ (t) des Kapitalstocks gleich der Netto-Investition I(t) zum Zeitpunkt t, d. h. es gilt K ′ (t) = I(t) . Definition 9.16. Sei I ein Intervall. Eine Funktion F : I → R heißt Stammfunktion von f : I → R, wenn F differenzierbar auf I ist und F ′ (x) = f (x) für alle x ∈ I gilt. Beispiel 9.17. 1. Wir betrachten f = sin mit I = R. Die Funktion F1 : R → R mit F1 (x) = − cos x ist eine Stammfunktion von sin. Die Funktion F2 : R → R mit F2 (x) = 2.3 − cos x ist auch eine Stammfunktion von sin. 2. Wir betrachten f : I → R mit f (x) = x1 für x ∈ I = ]0, ∞[. Eine Stammfunktion von f ist F1 : I → R mit F1 (x) = ln x. Eine weitere Stammfunktion von f ist F2 : I → R mit F2 (x) = ln x + 2. 3. Wir betrachten f : I → R mit f (x) = f ist F : I → R mit F (x) = ln |x|. 1 x für x ∈ I = ] − ∞, 0[. Eine Stammfunktion von Lemma 9.18. Sei I ein Intervall und sei f : I → R. 1. Wenn F1 , F2 : I → R Stammfunktionen von f sind dann ist F1 − F2 eine Konstante. 2. Wenn F eine Stammfunktion von f ist , dann ist F + C für jedes C ∈ R eine Stammfunktion von f . 184 9.1 Flächeninhalt und Stammfunktionen Beweis. 1. Es gilt (F1 − F2 )′ (x) = F1′ (x) − F2′ (x) = f (x) − f (x) = 0 für alle x ∈ I. Nach dem Mittelwertsatz (Satz 8.25) ist F1 − F2 konstant auf I. 2. Sei x0 ∈ I beliebig. Aus F ′ = f und C ∈ R folgt (F + C)′ (x0 ) = F ′ (x0 ) + C ′ = F ′ (x0 ) = f (x0 ). Definition 9.19. Sei I ein Intervall. Die Menge aller Stammfunktionen einer Funktion f : I → R heißt unbestimmtes Integral von f und wird bezeichnet mit Z Z f oder f (x) dx (auf I). Bei der zweiten Bezeichnung muss das Intervall I mindestens im Kontext angegeben werden. Beispiel 9.20. Es seien I = ]0, ∞[, f, F : I → R mit f (x) = x1 , F (x) = ln x für x ∈ I und J = ] − ∞, 0[ g, G : J → R mit g(x) = x1 , G(x) = ln |x| für x ∈ J. Dann sind f und g verschiedene Funktionen und es gelten Z Z Z Z F ∈ f, G∈ g bzw. F ∈ f (x)dx auf I , G ∈ g(x)dx auf J . Satz 9.21. Sei I ein Intervall und sei F eine Stammfunktion von f : I → R. Dann gilt Z f = {F + C : C ∈ R} . (9.1) Bemerkung 9.22. Anstelle (9.1) wird auch, verkürzt, Z f (x) dx = F (x) + C geschrieben. Dies ist aber nicht korrekt: Links steht eine Menge von Funktionen (wobei die Bezeichnung der Integrationsvariablen irrelevant ist, da sie gebunden ist), Z Z Z f (x) dx = f (y) dy = f , rechts steht aber der Wert einer Funktion an einer nicht genauer spezifizierten Stelle x: {F + C : C ∈ R} = 6 F (x) + C . Eine Tabelle von Stammfunktionen zu ausgewählten Funktionen erhält man, indem man eine Liste von differenzierbaren Funktionen erstellt und neben einer solchen Funktion die 185 9 Eindimensionale Integralrechnung Ableitung schreibt. Kehrt man eine solche Tabelle um, erhält man eine Zuordnung von Funktionen und Stammfunktionen: Ableitung auf I Funktion auf I x 7→ xα Funktion auf I Stammfunktion auf I x 7→ 1 α+1 α+1 x Intervall I I = R>0 für α ∈ R \ Z I = R \ {0} für α ∈ Z<−1 I = R für α ∈ N I = ] − ∞, 0[ oder I = ]0, ∞[ x 7→ x−1 x 7→ ln |x| exp exp I=R sin − cos I=R cos sin I=R x 7→ x 7→ √ 1 1−x2 arcsin I = ] − 1, 1[ 1 1+x2 arctan I=R 9.1.5 Hauptsatz der Differential- und Integralrechnung Satz 9.23. Sei f ∈ C(a, b) und Φ : [a, b] → R mit Z x Φ(x) = f für x ∈ [a, b] . (9.2) a Dann ist Φ differenzierbar und es gilt Φ′ (x) = f (x) für x ∈ [a, b], d. h., Φ ist eine Stammfunktion zu f . Beweis. Da f stetig ist, ist f für jedes x ∈ [a, b] auf [a, x] integrierbar, womit Φ korrekt definiert ist. Für x ∈ [a, b] und h 6= 0 mit x + h ∈ [a, b] gilt Z Z 1 1 x+h 1 x+h (Φ(x + h) − Φ(x)) = f= (f (x) + f − f (x)) h h x h x Z Z 1 x+h 1 x+h f (x) + (f − f (x)) = h x h x und daher Φ(x + h) − Φ(x) 1 = lim h→0 h→0 h h lim d. h. Φ′ (x) = f (x). 186 Z x x+h 1 h→0 h f (x) + lim Z x x+h (f − f (x)) = f (x) + 0 , 9.1 Flächeninhalt und Stammfunktionen Satz 9.24 (Hauptsatz der Differential- und Integralrechnung). Ist f eine stetige Funktion auf einem Intervall [a, b] und F eine beliebige Stammfunktion von f auf [a, b], dann gilt die Newton-Leibniz-Formel Z b b x=b f = F (b) − F (a) =: F a = F (x)x=a . (9.3) a Beweis. Sei F : [a, b] → R eine beliebige Stammfunktion einer Funktion f ∈ C([a, b]) und sei Φ : [a, b] → R definiert durch (9.2). Nach Lemma 9.18 existiert eine Konstante C mit F =Φ+C . Wegen F (a) = Φ(a) + C und Φ(a) = 0, folgt F (a) = C. Damit gilt Mit Φ(x) = Rx a Φ(x) = F (x) − C = F (x) − F (a) . f und x = b folgt (9.3). Bemerkung 9.25. Die Newton-Leibniz-Formel (9.3) stellt eine „Äquivalenz“ der Berechnung des bestimmten Integral und der Stammfunktionen für die Klasse der stetigen Funktionen auf einem Intervall [a, b], b > a, her: f ∈ C([a, b]) =⇒ f ∈ R(a, b) ↓ ↓ Rb f hat Stammfunktion F → a f = F (b) − F (a) . Eine Verallgemeinerung von Satz 9.24 ist der folgende Satz: Satz 9.26. Sei f ∈ R(a, b) und es existiere eine Stammfunktion F von f auf [a, b]. Dann gilt (9.3). Bemerkung 9.27. 1. Eine Funktion kann eine Stammfunktion haben, obwohl sie nicht Riemann-integrierbar ist. 2. Eine Riemann-integrierbare Funktion braucht keine Stammfunktion zu haben. Beispiel 9.28. a) Für n ∈ N gilt Z b 1 · xn+1 x=b = 1 · bn+1 − an+1 , xn dx = n + x=a 1 n+1 a da x 7→ 1 n+1 , n+1 x ′ x ∈ R, eine Stammfunktion zur stetigen Funktion x 7→ xn , x ∈ R, ist. b) Wegen sin = cos, cos′ = − sin, gilt (− cos −2 sin)′ = sin −2 cos und daher Z π (sin x − 2 cos x) dx = − cos π − 2 sin π − (− cos 0 − 2 sin 0) = 2 . 0 187 9 Eindimensionale Integralrechnung 9.2 Integrationsmethoden Im Allgemeinen treten schon in einfachen Fällen Schwierigkeiten bei der Bestimmung des unbestimmten Integrals auf: Die Integration ist schwieriger als die Differentiation. Kompliziertere Integrale versucht man, durch Umformung auf Grundintegrale zurückzuführen. Dazu werden die schon bekannten Differentiationsregel verwendet. Der Einfachheithalber werden wir im Folgenden von den Integranden immer Stetigkeit voraussetzen. Wenn der Integrand aus aus mehreren Funktionen zusammengesetzt ist, werden wir fordern, dass diese so glatt sind, dass der Integrand zumindest stetig wird. Weiter betrachten wir als Integrationsgebiete nur Intervalle positiver Länge. Damit sind stets die Existenz von Stammfunktionen und die Riemann-Integrierbarkeit gesichert. Gegebenenfalls sind also genauere Untersuchungen nötig, ob und wie die folgenden Aussagen unter schwächeren Voraussetzungen anwendbar sind. 9.2.1 Linearität Satz 9.29 (Linearkombination von Funktionen). Sei I ein Intervall positiver Länge. Seien f, g : I → R stetig und λ, µ ∈ R. 1. Es gilt Z Z Z (λf + µg) = λ f + µ g , d. h., sind F und G Stammfunktionen zu f bzw. g, so ist λF + µG eine Stammfunktion zu λf + µg, und umgekehrt. 2. Für a, b ∈ I gilt Z b Z b Z b (λf + µg) = λ f +µ g. a Beweis. 1. „⊇“: Seien F ∈ der Differentiation gilt R f und G ∈ a R a g und sei H = λF + µG. Wegen der Linearität H ′ = λF ′ + µG′ = λf + µg R Rb Rb Rb und somit H ∈ (λf + µg), also λ a f + µ a g ⊆ a (λf + µg). „⊆“: Die RAussage ist trivial, wenn λ = µ = 0. O. B. d. A. sei µ 6= 0.Seien H ∈ und F ∈ f beliebig. Wir setzen G = µ1 (H − λF ). Dann gilt R (λf + µg) G′ = ( µ1 (H − λF ))′ = µ1 (λf + µg − λf ) = g . R R R R Daraus folgen G ∈ g und H = λF + µG, also H ∈ λ f + µ g, d. h. (λf + µg) ⊆ R R λ f + µ g. 188 9.2 Integrationsmethoden 2. Nach 1. und Hauptsatz 9.24 gilt Z b a (λf + µg) = λF (b) + µG(b) − λF (a) − µG(a) = λF (b) − λF (a) + µG(b) − µG(a) = λ Z b f +µ a Z b g. a Beispiel 9.30. Mit Z b xn dx = a 1 bn+1 − an+1 n+1 für n ∈ N erhalten wir die Integrale von Polynomen. Speziell gilt Z1 0 3x − 2x + 5 d x = 3 2 Z1 0 2 x dx − 2 Z1 1 x dx + 5 0 Z1 x0 dx 0 1 1 1 = 3 13 − 03 − 2 12 − 02 + 5 (1 − 0) = 1 − 1 + 5 = 5 . 3 2 1 9.2.2 Partielle Integration Als Folgerung aus der Produktregel der Differentialrechnung ergibt sich: Satz 9.31. Sei I ein Intervall positiver Länge. Seien u, v : I → R stetig differenzierbar. 1. Ist F : D → R eine Stammfunktion von u′ v, so ist uv − F eine Stammfunktion von uv ′ ; ist G : D → R eine Stammfunktion Zvon uv ′ , so istZuv − G eine Stammfunktion von u′ v, d. h. uv ′ = uv − 2. Für a, b ∈ I gilt Z a Beweis. 1. Sei F ∈ R b b uv = (uv)a − ′ u′ v . Z b u′ v . (9.4) a u′ v. Dann ist uv − F ist differenzierbar mit (uv − F )′ = (uv)′ − F ′ = u′ v + uv ′ − u′ v = uv ′ . R R R R Somit gilt uv − u′ v ⊆ uv ′ , also uv ′ ⊇ uv − u′ v. R Sei G ∈ uv ′ . Dann ist −uv + G ist differenzierbar mit (−uv + G)′ = −(uv)′ + G′ = −u′ v − uv ′ + uv ′ = −u′ v . Somit gilt R R R R uv ′ − uv ⊆ − u′ v, also uv ′ ⊆ uv − u′ v und damit die erste Behauptung. 2. Die zweite Behauptung folgt mit 1. und dem Hauptsatz 9.24. 189 9 Eindimensionale Integralrechnung Bemerkung 9.32. Stammfunktionen bzw. Integrale können durch partielle Integration bestimmt werden für: x 7→ xn ex , x 7→ xα ln x , x 7→ xn sin x , x 7→ xn cos x , x 7→ xn arctan x , x 7→ xn arcsin x . Für die ersten drei Funktionen wird u(x) = xn verwendet. Nach n-maliger partieller Integration entsteht die Aufgabe der Bestimmung von Stammfunktion bzw. Integral von exp, sin bzw. cos. Für die letzten drei Typen verwendet man v ′ (x) = xα bzw. v ′ (x) = xn . Vereinfachung entsteht hier durch Differentiation der transzendenten Ausdrücke. Beispiel 9.33. Mit u(x) = x, v ′ (x) = cos x und damit u′ (x) = 1, v(x) = sin x gilt Z Z dx = (x → 7 x sin x ) − 1 · sin x dx . x · cos x | {z } |{z} |{z} |{z} | {z } u(x) v ′ (x) u(x)v(x) u′ (x) v(x) Mit u(x) = x, v ′ (x) = sin x und damit u′ (x) = 1, v(x) = − cos x gilt Z Z dx = (x → 7 −x cos x ) − 1 · (− cos x) dx . x · sin x |{z} |{z} |{z} | {z } | {z } u(x) v ′ (x) u(x)v(x) u′ (x) v(x) und daher: Funktion auf I Stammfunktion auf I x 7→ x · cos x x 7→ x sin x + cos x I=R x 7→ x · sin x x 7→ −x cos x + sin x I=R Beispiel 9.34. Mit u(x) = x2 und v ′ (x) = cos x und damit u′ (x) = 2x, v(x) = sin x gilt Z Z 2 2 sin x}) − |{z} 2x sin x dx . x cos |{z} |{z} | {zx} dx = (x 7→ |x {z u(x) v ′ (x) u(x)v(x) u′ (x) v(x) Mit u(x) = 2x und v ′ (x) = sin x und damit u′ (x) = 2, v(x) = − cos x gilt Z Z 2x sin x dx = (x 7→ |−2x{zcos x}) − |{z} 2 (− cos x) dx . |{z} |{z} | {z } u(x) v ′ (x) u(x)v(x) u′ (x) v(x) Damit folgt: Funktion auf I Stammfunktion auf I x 7→ x2 · cos x x 7→ x2 sin x + 2x cos x − 2 sin x x 7→ 190 x2 · sin x x 7→ −x2 cos x + 2x sin x + 2 cos x I=R I=R 9.2 Integrationsmethoden Speziell haben wir Z 0 π x=π x2 sin x dx = −x2 cos x + 2x sin x + 2 cos x x=0 = π2 + 0 − 2 − 0 − 0 − 2 = π2 − 4 . Beispiel 9.35. Mit u(x) = sin x, v ′ (x) = ex und damit u′ (x) = cos x, v(x) = ex gilt Z x x sin x |{z} e dx = (x 7→ sin e )− x |{z} |{z} |{z} u(x) v ′ (x) u(x) v(x) Z ex dx . cos | {zx} |{z} u′ (x) v(x) Wir wenden erneut partielle Integration an mit u(x) = cos x, v ′ (x) = ex und damit u′ (x) = − sin x, v(x) = ex und erhalten Z x x x e )+ sin x e dx = (x 7→ e sin x) − (x 7→ cos | {zx} |{z} u(x) v(x) Damit gilt x 7→ 1 ex (sin x − cos x) 2 Mit den entsprechenden Untersuchungen für R ∈ Z Z (− sin x) ex dx . | {z } |{z} u′ (x) ex sin x dx . ex cos x dx erhalten wir: Funktion auf I Stammfunktion auf I x 7→ ex · sin x x 7→ 21 ex (sin x − cos x) I=R x 7→ 21 ex (sin x + cos x) x 7→ ex · cos x v(x) I=R Speziell haben wir Z x=π ex sin x dx = 12 ex (sin x − cos x) x=−π = 21 eπ − e−π = sinh π . −π π Beispiel 9.36. Auf R>0 gilt Z ln x dx = Z ln x · |{z} 1 dx = (x 7→ |{z} ln x · |{z} x )− |{z} u(x) v ′ (x) u(x) v(x) Z und daher: Funktion auf I Stammfunktion auf I x 7→ ln x x 7→ x ln x − x 1 x dx |{z} x |{z} v(x) u′ (x) I = R>0 191 9 Eindimensionale Integralrechnung Beispiel 9.37. Mit u(x) = cos x und v ′ (x) = cos x und damit u′ (x) = − sin x, v(x) = sin x gilt Z Z Z 2 cos x dx = cos x dx x) − (− sin x) sin | {zx} cos | {zx} dx = (x 7→ cos | {zx} sin |{z} | {z } |{z} u(x) v ′ (x) u(x) v(x) = (x 7→ sin x cos x) + Z u′ (x) 2 v(x) (1 − cos x) dx = (x 7→ x + sin x cos x) − und damit (x 7→ 12 (x + sin x cos x)) ∈ Mit sin2 + cos2 = 1 folgt: Z Z cos2 x dx cos2 x dx . Funktion auf I Stammfunktion auf I x 7→ cos2 x x 7→ 21 (x + sin x cos x) I=R x 7→ sin2 x x 7→ 21 (x − sin x cos x) I=R 9.2.3 Die direkte Substitutionsmethode Die Kettenregel für die Differentiation von zusammengesetzten Funktionen führt zu einer Methode der Transformation bestimmter Integrale, der Substitutionsmethode. Satz 9.38 (Direkte Substitution). Seien I und J Intervalle positiver Länge. Sei ϕ : I → R stetig differenzierbar mit W(ϕ) ⊆ J und sei f : J → R stetig. Dann gilt Z Z ′ (f ◦ ϕ) · ϕ = f ◦ϕ, (9.5) d. h.,wenn F : J → R eine Stammfunktion zu f ist, so ist F ◦ ϕ : I → R eine Stammfunktion zu (f ◦ ϕ) · ϕ′ . 2. Wenn ϕ : [a, b] → R stetig differenzierbar mit ϕ([a, b]) ⊆ [c, d] ist und f : [c, d] → R stetig ist, dann gilt Z ϕ(b) Z b ′ f. (9.6) (f ◦ ϕ) · ϕ = a ϕ(a) R Sei F ∈ f . Nach der Kettenregel gilt (F ◦ ϕ)′ = (f ◦ ϕ) · ϕ′ und daher R RBeweis. 1. „⊇“: f ◦ ϕ. (f ◦ ϕ) · ϕ′ ⊇ R „⊆“: Sei F ∈ f . Dann ist F ◦ ϕ eine Stammfunktion zu (f ◦ ϕ) · ϕ′ . Sei G eine beliebige Stammfunktion zu (f ◦ ϕ) · ϕ′ . Nach Lemma 9.18 existiert ein C ∈ R mit G = F ◦ ϕ + C = (F + C) ◦ ϕ . 192 9.2 Integrationsmethoden R Wieder nach Lemma 9.18 ist auch F +C eine Stammfunktion zu f . Damit folgt G ∈ ( f )◦ϕ, R R f ◦ ϕ. also (f ◦ ϕ) · ϕ′ ⊆ 2. Sei F eine Stammfunktion zu f . Mit 1. und dem Hauptsatz 9.24 folgt Z ϕ(b) Z b b f = F (ϕ(b)) − F (ϕ(a)) = F ◦ ϕa = (f ◦ ϕ) · ϕ′ . ϕ(a) a Bemerkung 9.39. Beim unbestimmten Integral ist darauf zu achten, dass die Stammfunktion F von f noch mit der Substitution ϕ zu verknüpfen ist. Man beachte dies bei der Anwendung von Nachschlagewerken, bei denen dies meist nicht richtig vermerkt ist. Bemerkung 9.40. Formal kann man sich die direkte Substitution in folgender Weise merken: In Z b Z b ′ (f ◦ ϕ) · ϕ = f (ϕ(x)) · ϕ′ (x) dx a a führen wir die Substitution z = ϕ(x) durch, und dazu ersetzen wir ϕ(x) ϕ′ (x) dx a b und erhalten Z durch durch durch durch b a z, dz , (formal, da ϕ′ (x) = ϕ(a) , ϕ(b) ′ (f ◦ ϕ) · ϕ = Z ϕ(b) f (z) dz = ϕ(a) Z dz dx ) ϕ(b) f. ϕ(a) Folgerung 9.41 (Lineare Substitution). Seien c, d ∈ R mit c 6= 0 und sei f : D(f ) ⊆ R → R stetig.Sei I ein Intervall positiver Länge, ϕ : I → R mit ϕ(x) = cx + d ∈ D(f ) für x ∈ I. Dann gilt Z Z Z ′ 1 1 f (cx + d) dx = c f (ϕ(x))ϕ (x) dx = c f ◦ ϕ auf I. Wenn zusätzlich [a, b] ⊆ I gilt, so gilt Z b f (cx + d) dx = a 1 c Z ϕ(b) f= ϕ(a) 1 c Z cb+d f. ca+d Speziell gilt: Funktion auf I x 7→ cos(kx + ω) x 7→ sin(kx + ω) Stammfunktion auf I x 7→ 1 k sin(kx + ω) x 7→ − k1 cos(kx + ω) I = R, k 6= 0 16.06.10 I = R, k 6= 0 193 9 Eindimensionale Integralrechnung Weiter erhalten wir: Funktion auf I 1 x−a x 7→ x 7→ Stammfunktion auf I x 7→ ln |x − a| 1 (x−a)k x 7→ 1 1−k a 6∈ I (x − a)1−k a 6∈ I, k ∈ N>1 Wir erhalten: Für a 6∈ [A, B] gelten Z B x=B dx = ln |x − a|x=A = ln |B − a| − ln |A − a| , A x−a Z B 1 1 dx 1 1−k x=B (x − a) (B − a)1−k − (A − a)1−k = = x=A k 1 − k 1 − k 1 − k (x − a) A für k > 1 . Sei ϕ ∈ C 1 (I) mit 0 6∈ W(ϕ). Mit f : J → R mit f (x) = x1 für x ∈ J und J = ] − ∞, 0[ oder J = ]0, ∞[ gilt Z Z ′ Z ϕ (x) ′ f ◦ ϕ auf I dx = f (ϕ(x))ϕ (x) dx = ϕ(x) und daher Z Wir erhalten: Funktion auf I x 7→ Wegen tan x = ϕ′ (x) ϕ(x) sin x cos x ϕ′ (x) dx = ϕ(x) Z dx x ◦ϕ, auf I . Stammfunktion auf I x 7→ ln |ϕ(x)| I ⊆ R, ϕ ∈ C 1 (I), 0 6∈ W(ϕ) und cos′ = − sin, erhalten wir: Funktion auf I Stammfunktion auf I x 7→ tan x x 7→ − ln | cos(x)| (2k + 1)π 2 6∈ I, k ∈ Z Weiter haben wir mit ϕ(x) = x2 + 2ax + b: Funktion auf I x 7→ 194 2x+2a x2 +2ax+b Stammfunktion auf I x 7→ ln |x2 + 2ax + b| x2 + 2ax + b 6= 0 für x ∈ I 9.2 Integrationsmethoden Wir erhalten: Z B A wenn x2 2x + 2a dx = ln |B 2 + 2aB + b| − ln |A2 + 2aA + b| , x2 + 2ax + b + 2ax + b auf [A, B] keine Nullstelle hat. Sei α ∈ R \ {−1}, ϕ ∈ C 1 (D), W(ϕ) ⊆ R>0 . Mit f : R>0 → R mit f (x) = xα für x > 0 gilt Z Z Z α ′ ′ f ◦ϕ ϕ(x) ϕ (x) dx = f (ϕ(x))ϕ (x) dx = und daher: Funktion auf I Stammfunktion auf I x 7→ ϕα (x)ϕ′ (x) x 7→ 1 α+1 α+1 ϕ(x) I ⊆ R, ϕ ∈ C 1 (I), W(ϕ) ⊆ R>0 für α ∈ R \ Z, W(ϕ) ⊆ R \ {0} für α ∈ Z<−1 W(ϕ) ⊆ R für α ∈ N Speziell gilt: Funktion auf I x 7→ (ln x)α x Stammfunktion auf I x 7→ 1 α+1 α+1 (ln x) x 7→ (sinh x)α · cosh x x 7→ 1 α+1 α+1 (sinh x) x 7→ (cosh x)α · sinh x x 7→ 1 α+1 α+1 (cosh x) x 7→ 2x+2a (x2 +2ax+b)k x 7→ 1 2 1−k 1−k (x + 2ax + b) I = R>0 für α ∈ R \ Z, I = R>0 oder I = R<0 für α ∈ Z<−1 I = R für α ∈ N I = R>0 für α ∈ R \ Z, I = R>0 oder I = R<0 für α ∈ Z<−1 I = R für α ∈ N I = R für α ∈ R \ {−1} x2 + 2ax + b 6= 0 für x ∈ I, k ∈ N>1 Wir erhalten: Z B A (x2 1 2x + 2a 1 dx = (B 2 + 2aB + b)1−k − (A2 + 2aA + b)1−k k 1−k 1−k + 2ax + b) für k ∈ N>1 , wenn x2 + 2ax + b auf [A, B] keine Nullstelle hat. 195 9 Eindimensionale Integralrechnung 9.3 Integration rationaler Funktionen 9.3.1 Rationale Funktionen Vorgegeben sei eine gebrochen rationale Funktion f= p . q Als erstes können wir mit dem Hilfsmittel der Polynomdivision dafür sorgen, dass wir uns nur um den Fall der rationalen Funktionen kümmern müssen, bei dem Grad von p kleiner als Grad von q gilt. Ist nämlich der Grad von p nicht kleiner als der von q, so kann f in die Form f = h + qr gebracht werden kann, wobei h, r Polynome sind bei denen h kleineren Grad als p und r kleineren Grad als q hat. Folgerung 9.42. Soll die Funktion f integriert werden, so kann stattdessen h + qr integriert werden, wobei eine Stammfunktion von h leicht angegeben und eine solche von qr (auf geeigneten Intervallen) gegebenenfalls mit anderen Mitteln berechnet werden kann. Beispiel 9.43. Wir betrachten und daher Z x2 dx = x−1 Z R x2 x−1 dx auf I mit 1 6∈ I. Polynomdivision ergibt x2 1 =x+1+ x−1 x−1 (x + 1) dx + Z 1 dx ∋ x−1 1 2 x 7→ x + x + ln |x − 1| auf I. 2 Es habe nun p kleineren Grad als q. R Beispiel 9.44. Berechnet werden soll x21−1 dx auf I mit −1, 1 6∈ I. Wir wollen f (x) = umformen, um es leichter integrieren zu können. Es gilt 1 = 2 x −1 1 2 1 x2 −1 (x + 1) − 21 (x − 1) 1 1 1 1 = − . (x + 1) (x − 1) 2x−1 2x+1 In dieser Form ist eine Stammfunktion für f leicht ermittelt: Z Z Z 1 1 1 1 1 1 ln |x − 1| − 1 ln |x + 1| dx = dx − dx ∋ x → 7 2 2 2 2 x2 − 1 x−1 x+1 auf I . Im Beispiel konnte das Integral deswegen berechnet werden, weil es uns gelungen war, die zu integrierende rationale Funktion als Linearkombination einfacherer rationaler Bausteinfunktionen umzuschreiben. 196 9.3 Integration rationaler Funktionen 9.3.2 Partialbruchzerlegung Satz 9.45 (Reelle Partialbruchzerlegung). Es sei f : D(f ) ⊂ R → R eine rationale Funktion mit f = pq mit Polynomen p, q mit reellen Koeffizienten und Grad von p kleiner Grad von q. Sei weiter q in folgender Weise faktorisiert: q(x) = r c Y Y (x − xi )λi · (x2 + ai x + bi )µi i=1 i=1 mit r X i=1 λi + 2 c X µi = Grad von q i=1 und a2i < 4bi für i = 1, . . . , c, d.h., xi sei λi -fache reelle Nullstelle von q, und x2 + ai x + bi habe keine reelle Nullstelle. Dann existieren eindeutig bestimmte Zahlen Ai,k ∈ R für k = 1, . . . , λi , i = 1, . . . , r und eindeutig bestimmte Zahlen Bi,k , Ci,k ∈ R für k = 1, . . . , µi , i = 1, . . . , c mit µi λi r X c X X X Ai,k Bi,k x + Ci,k + für x ∈ D(f ) . (9.7) f (x) = k (x − xi ) (x2 + ai x + bi )k i=1 k=1 i=1 k=1 Beispiel 9.46. 1. Für q(x) = (x−1)3 (x−2) und Grad von p kleiner 4 ist 1 dreifache Nullstelle und 2 einfache Nullstelle. Wir haben daher A1,1 , A1,2 , A1,3 und A2,1 zu bestimmen mit A1,1 A1,2 A1,3 A2,1 p(x) = + + + . (x − 1)3 (x − 2) x − 1 (x − 1)2 (x − 1)3 x − 2 2. Für q(x) = (x − 1)2 (x2 + 1)2 und Grad von p kleiner 6 ist 1 zweifache Nullstelle und x2 + 1 ist (im Reellen) nullstellenfrei. Wir haben daher A1,1 , A1,2 , B1,1 , C1,1 , B1,2 und C1,2 zu bestimmen mit A1,1 A1,2 B1,1 x + C1,1 B1,2 x + C1,2 p(x) = + + + . 2 2 2 2 (x − 1) (x + 1) x − 1 (x − 1) x2 + 1 (x2 + 1)2 Berechnung der Koeffizienten: Nach entsprechendem Ansatz multipliziert man die Ansatzgleichungen mit dem Hauptnenner q und erhält eine Polynomgleichung. Anschließend können lineare Gleichungen zur Berechnung der Parameter durch Koeffizientenvergleich in der Polynomgleichung ermittelt werden. Das entstehende Gleichungssystem ist nach Satz 9.45 eindeutig lösbar. Wesentlich effektiver als der reine Koeffizientenvergleich zur Berechnung der Parameter ist, geeignete Zahlenwerte, insbesondere die reellen Nullstellen von q, einzusetzen. Dadurch gelingt es, durch Einsetzen der Nullstelle xi den Parameter Ai,λi direkt zu bestimmen. Beispiel 9.47. Für A1,1 A1,2 A1,3 A2,1 x+1 = + + + (x − 1)3 (x − 2) x − 1 (x − 1)2 (x − 1)3 x − 2 finden wir durch Multiplikation mit dem Nenner (x − 1)3 (x − 2) x + 1 = A1,1 · (x − 1)2 (x − 2) + A1,2 · (x − 1)(x − 2) + A1,3 · (x − 2) + A2,1 · (x − 1)3 . 197 9 Eindimensionale Integralrechnung Einsetzen von x = 1 liefert Einsetzen von x = 2 liefert 2 = A1,3 · (−1) , also A1,3 = −2 . A2,1 = 3 . Verbleiben noch A1,1 und A1,2 . Einsetzen von x = 0 liefert 1 = A1,1 · (−2) + A1,2 · (−1)(−2) + (−2)(−2) + 3(−1)3 , also A1,1 − A1,2 = 0 . Einsetzen von x = 3 liefert (9.8) 4 = A1,1 · 22 + A1,2 · 2 + (−2) + 3 · 23 , also −2A1,1 − A1,2 = 9 . (9.9) Die Gleichungen (9.8) und (9.9) ergeben A1,1 = A1,2 = −3 . Damit haben wir x+1 3 3 2 3 =− − − + . (x − 1)3 (x − 2) x − 1 (x − 1)2 (x − 1)3 x − 2 Man kann auch „Koeffizientenvergleich“ und „Einsetzen von Zahlenwerten“ mischen, wie das folgende Beispiel zeigt: Beispiel 9.48. Wir betrachten A1,1 B1,1 x + C1,1 x−1 = + . (x + 1)(x2 + 1) x+1 x2 + 1 Ausmultiplizieren mit dem Nenner liefert x − 1 = A1,1 (x2 + 1) + (B1,1 x + C1,1 )(x + 1) . Einsetzen von x = −1 liefert −2 = 2A1,1 und damit A1,1 = −1. Somit haben wir x − 1 = −x2 − 1 + B1,1 x2 + B1,1 x + C1,1 x + C1,1 . Durch Koeffizientenvergleich finden wir x0 : x1 : 2 x : − 1 = −1 + C1,1 , 1 = B1,1 + C1,1 , 0 = −1 + B1,1 . Die erste Gleichung liefert C1,1 = 0, die zweite B1,1 = 1 und die dritte (erneut) B1,1 = 1. Damit haben wir x−1 1 x =− + . (x + 1)(x2 + 1) x + 1 x2 + 1 198 9.3 Integration rationaler Funktionen Bemerkung 9.49. Das beim Koeffizientenvergleich entstehende Gleichungssystem ist im allgemeinen überbestimmt, muss aber eindeutig lösbar sein. Man sollte immer alle entstehenden Gleichungen betrachten (und nicht wie es hier möglich wäre nur die ersten beiden). Sollte das Gleichungssystem dann nämlich nicht eindeutig lösbar sein, dann muss irgendwo ein Fehler gemacht worden sein! Weitere Varianten zur Berechnung der Koeffizienten nutzen die Differentiation beider Seiten der Polynomgleichung. Hiermit können Koeffizienten zur Nullstellen höherer Ordnung ebenfalls durch Einsetzen der Nullstelle bestimmt werden. Man kann auch komplexe Nullstellen von q einsetzen. Wie oben erhält man dann je zwei Parameter durch Vergleich der Realund Imaginärteile. 9.3.3 Integration der Partialbrüche Für alle in einer Partialbruchzerlegung auftretenden Partialbrüche sollen nun Stammfunktionen angegeben werden. Die Formeln können (mehr oder weniger aufwendig) mit Hilfe von partieller Integration und Substitution nachgerechnet werden: Funktion auf I x 7→ x 7→ x 7→ x 7→ 1 x−a x 7→ ln |x − a| 1 (x−a)k x 7→ 2x+2a x2 +2ax+b a 6∈ I 1 1 1−k (x−a)k−1 a 6∈ I, k ∈ N>1 x 7→ ln |x2 + 2ax + b| 2x+2a (x2 +2ax+b)k x 7→ x 7→ Stammfunktion auf I x 7→ 1 x2 +2ax+b 1 2 1−k (x x 7→ x 7→ 1 (x2 +2ax+b)k √ 1 b−a2 I = R, a2 < b + 2ax + b)1−k I = R, a2 < b, k ∈ N>1 arctan √x+a b−a2 I = R, a2 < b x+a 2(k−1)(b−a2 )(x2 +2ax+b)k−1 R (2k−3) dx + 2(k−1)(b−a 2) (x2 +2ax+b)k−1 I = R, a2 < b, k ∈ N>1 Beispiel 9.50. Sei I ein Intervall positiver Länge, welches 1 nicht enthält. Auf I gilt dann Z Z Z Z 4x3 + 4x2 − 7x + 5 7 1 3 1 x + 11 dx = dx + dx + dx 2 2 2 (x − 1) (x + 1) 2x−1 (x − 1) 2 x2 + 1 Z Z Z Z 11 1 1 2x 1 1 7 dx +3 dx dx dx . + + = 2 2 2 2 x−1 (x − 1) 4 x +1 2 x +1 | | | {z } {z } {z } | {z } i1 i2 i3 i4 i1 hat die in der Tabelle in der ersten Zeile angegebene Form mit a = 1. Daher gilt (x 7→ ln |x − 1|) ∈ i1 . 199 9 Eindimensionale Integralrechnung i2 hat die in der Tabelle in der zweiten Zeile angegebene Form mit a = 1 und k = 2. Daher gilt 1 (x 7→ − ) ∈ i2 . x−1 i3 hat die in der Tabelle in der dritten Zeile angegebene Form mit a = 0 und b = 1. Damit erhalten wir (x 7→ ln |x2 + 1|) ∈ i3 . i4 hat die in der Tabelle in der fünften Zeile angegebene Form mit a = 0 und b = 1. Daher gilt (x 7→ arctan x) ∈ i4 . Zusammengefasst haben wir 7 3 1 11 (x 7→ ln |x − 1| − + ln |x2 + 1| + arctan x) ∈ 2 x−1 4 2 Z 4x3 + 4x2 − 7x + 5 dx auf I . (x − 1)2 (x2 + 1) 9.4 Anwendungen in den Wirtschaftswissenschaften 9.4.1 Gesamtgewinn Die Grenzkosten k(x) und der Grenzerlös e(x) für x Einheiten eines Produktes sind die ersten Ableitungen der Kostenfunktion K bzw. der Erlösfunktion E an der Stelle x, d. h. es gilt K ′ (x) = k(x) und E ′ (x) = e(x) . Der Gesamtgewinn G(x) ergibt sich als Integrals über die Differenz von e und k, Z x G(x) = (e(t) − k(t)) dt . 0 Wegen d G (x) = dx ′ Z 0 x (e(t) − k(t)) dt = e(x) − k(x) ist die Bedingung e(x) = k(x) (d. h. Grenzkosten und Grenzerlös sind gleich) eine notwendige Bedingung für ein Minimum der Gewinnfunktion. 9.4.2 Konsumentenrente Es sei p eine monoton fallende Nachfragefunktion, d.h. p(x) sei die Nachfrage nach der Stückmenge x. Stellt sich durch Marktmechanismen ein Gleichgewichtspunkt (x0 , p0 ) mit p0 = p(x0 ) ein, so ergibt sich: 200 9.4 Anwendungen in den Wirtschaftswissenschaften • Der tatsächliche Gesamterlös ist in diesem Fall E0 = x0 · p0 . • Diejenigen Nachfrager, die auch einen höheren Preis p > p0 für das Erzeugnis bezahlt hätten, sparen pro Einheit von x die Differenz p − p0 . • Der theoretisch mögliche Gesamterlös ist Z x0 ∗ E = p(x) dx . 0 E ∗ ergibt sich, wenn man annimmt, dass jeder Nachfrager den Preis zahlt, den er als den für sich höchstmöglichen Preis ansieht, bevor er also auf den Kauf des Erzeugnisses verzichtet. Die Zahl ∗ KR (x0 ) = E − E0 = Z 0 x0 p(x) dx − x0 · p0 heißt Konsumentenrente für den Gleichgewichtspunkt (x0 , p0 ). Die Konsumentenrente ist also die Differenz zwischen dem theoretisch möglichen und dem tatsächlichen Gesamterlös, d. h. – aus Sicht des Verbrauchers – die (eingesparte) Differenz zwischen theoretisch möglichen und tatsächlichen Gesamtausgaben. Die Konsumentenrente erweist sich als ein Maß für die „Vorteilhaftigkeit“ eines Kaufs im Gleichgewichtspunkt. 9.4.3 Produzentenrente Es seien PA eine monoton wachsenden Angebotsfunktion und PN eine monoton fallende Nachfragefunktion, d. h. PA (x) und PN (x) sind Angebot bzw. Nachfrage nach der Stückmenge x. Der Marktgleichgewichtspunkt (x0 , p0 ) ergibt sich dann durch die Bedingung PA (x0 ) = PN (x0 ) =: p0 . Daraus folgt: • Der tatsächlich erzielte Umsatz ist in diesem Fall E0 = x0 · p0 , da alle Anbieter mit Preis p0 auf dem Markt auftreten. • Diejenigen Anbieter, die das Erzeugnis auch für einen niedrigeren Preis p < p0 angeboten hätten, erzielen pro verkaufter Einheit von x die Differenz p0 − p als Zusatzgewinn. 201 9 Eindimensionale Integralrechnung • Der theoretisch mögliche Gesamterlös ist Z x0 ∗ E = PA (x) dx . 0 E ∗ ergibt sich, wenn man annimmt, dass jeder Anbieter zu dem Preis verkauft, den er als den für sich niedrigstmöglichen Preis ansieht, bevor er also (bei fallendem Preis) aus dem Markt austritt. Die Zahl ∗ PR (x0 ) = E0 − E = x0 · p0 − Z x0 PA (x) dx 0 heißt die Produzentenrente für den Gleichgewichtspunkt (x0 , p0 ). Die Produzentenrente ist also die Differenz zwischen dem tatsächlichen und de theoretischen Gesamterlös, d. h. – aus Sicht der Produzenten – ein Zusatzgewinn. Sie erweist sich als ein Maß für die „Vorteilhaftigkeit“ eines Verkaufs (erst) im Gleichgewichtspunkt. 9.5 Uneigentliche Integrale Definition 9.51. Es sei f : R → R eine stetige Funktion. Dann heißt der Grenzwert Z b Z b Z ∞ Z b f (x) dx , f (x) dx =: f (x) dx bzw. lim f (x) dx =: lim b→∞ a a→−∞ a a −∞ falls er existiert, das uneigentliche Integral von f über [a, ∞[ bzw. ] − ∞, b]. Existieren für ein a ∈ R die beiden uneigentlichen Integrale Z ∞ Z a f (x) dx f (x) dx und a −∞ so definiert man Z ∞ f (x) dx := Z a f (x) dx + −∞ −∞ Z ∞ f (x) dx . a Beispiel 9.52. Es gelten: Z ∞ Z b 1 dx 1 dx = lim = lim − + 1 = 1 , b→∞ 1 x2 b→∞ x2 b 1 Z 0 Z 0 2a e2x dx = lim 2e2x |x=0 4e2x dx = lim 4 x=a = lim (2 − 2e ) = 2 , Z −∞ ∞ −∞ 202 a→−∞ e −|x| dx = lim = Z a 0 e a→−∞ −|x| a→−∞ a lim ex |x=0 x=a a→−∞ + dx + lim Z a→−∞ b b→∞ 0 lim ex |x=0 x=b b→−∞ e −|x| = dx = lim Z a x e dx + lim Z b a→−∞ 0 b→∞ 0 a −b lim (1 − e ) + lim (−e + 1) = a→−∞ b→∞ e−x dx 2. 10 Mehrdimensionale Differentialrechnung 10.1 Grundlagen 10.1.1 Skalar- und Vektorfunktionen Eine Funktion f : D(f ) ⊆ R → R ordnet jeder reellen Zahl x ∈ D(f ) eine reelle Zahl f (x) zu. Nun betrachten wir Funktionen, bei denen die unabhängige Variable und eventuell auch die abhängige Variable n-Tupel sind. Definition 10.1. Seien n ∈ N>0 und m ∈ N>1 . Man nennt f : D(f ) ⊆ Rn → R f : D(f ) ⊆ Rn → Rm Skalarfunktion, Vektorfunktion. Abkürzend sagt man in beiden Fällen auch wieder Funktion. Die Funktion f : D(f ) ⊆ Rn → R ordnet also jedem n-dimensionalen Spaltenvektor oder n-Tupel x ∈ D(f ) die reelle Zahl f (x) = f ((x1 , . . . , xn )) =: f (x1 , . . . , xn ) zu. Man sagt daher auch, dass f : D(f ) ⊆ Rn → R , (x1 , . . . , xn ) 7→ f (x1 , . . . , xn ) eine Funktion der n unabhängigen Variablen x1 , . . . , xn ist. Eine Vektorfunktion f : D(f ) ⊆ Rn → Rm ist somit darstellbar als f1 (x1 , . . . , xn ) .. f (x) = , . fm (x1 , . . . , xn ) wobei fi : D(f ) ⊆ Rn → R die Koordinatenfunktionen von f sind. Bemerkung 10.2. Wir verzichten auf eine besondere Kennzeichnung von mehrdimensionalen Vektoren. Ob eine Funktion Vektorfunktion oder eine Funktion mehrerer Variabler ist, sieht man an der Definition der Funktion. 203 10 Mehrdimensionale Differentialrechnung Der Graph einer Skalarfunktion f : D(f ) ⊆ R2 → R, z graph(f ) graph(f ) = {(x, y, z) ∈ R3 : (x, y) ∈ D(f ), z = f (x, y)}, kann häufig als Fläche F im x, y, z-Raum interpretiert werden. Die Mengen Na = {(x, y) ∈ D(f ) : f (x, y) = a} stellen im regulären Fall Niveaulinien oder Höhenlinien zum Niveau a dar. y D(f ) x Beispiel 10.3. Für die Funktion f : D(f ) = R2 → R mit f (x, y) = x2 + 4y 2 gilt W(f ) = [0, +∞[. Die Niveaulinie zum Niveau a ist die Menge Na = {(x, y) ∈ R2 : x2 + 4y 2 = a} . 23.06.10 Wir haben N0 = {(0, 0)}, Na = ∅ für a < 0. Für a > 0 ist Na eine Ellipse mit den Halbachsen √ √ a und a/2. Ferner sind die Schnitte von graph(f ) mit (zur x, z-Ebene parallelen) Ebenen y = c die Parabeln z = x2 + 4c2 . Man nennt graph(f ) daher elliptisches Paraboloid. 10.1.2 Stetigkeit (m) (m) Definition 10.4. Eine Folge (xm )m∈N mit xm = x1 , . . . , xn ∈ Rn heißt konvergent (0) (0) mit dem Grenzwert x0 = x1 , ..., xn ∈ Rn falls lim kxm − x0 k = 0 . m→∞ Schreibweise: lim xm = x0 . m→∞ Definition 10.5. Eine Funktion f : D(f ) ⊆ R → R heißt stetig in einem Punkt x0 = (0) (0) (x1 , . . . , xn ) ∈ D(f ), falls limm→∞ f (xm ) = f (x0 ) für jede Folge von Punkten (xm )m∈N ⊂ D(f ) mit lim xm = x0 gilt. Die Funktionf heißt stetig, falls f in allen Punkten x ∈ D(f ) m→∞ stetig ist. 204 10.2 Differenzierbarkeit Beispiel 10.6. Wir untersuchen die Stetigkeit von f : R2 → R , f (x1 , x2 ) = x21 + x22 (m) (m) in x0 = (1, 2) stetig. Es sei (xm )m∈N mit xm = (x1 , x2 ) eine beliebige konvergente Folge mit lim xm = x0 . Wegen m→∞ (m) (m) lim ||xm − x0 || = 0 ⇐⇒ lim x1 m→∞ = 1 ∧ lim x2 m→∞ m→∞ =2 gilt dann (m) (m) lim f (x1 , x2 ) = lim m→∞ m→∞ (m) 2 x1 + lim m→∞ (m) 2 x2 = 1 + 4 = 5 = f (1, 2) , d. h. f ist im Punkt x0 = (1, 2) stetig. Man kann zeigen, dass f für alle x ∈ R2 stetig ist. Beispiel 10.7. Sei f : R2 → R mit f (x, y) = Wegen xy x2 +y 2 für (x, y) 6= (0, 0), und f (0, 0) = 0. lim f (ξ, ξ) = 12 6= lim f (ξ, −ξ) = − 21 ξ→0 ξ→0 ist f in (0, 0) nicht stetig. 10.2 Differenzierbarkeit 10.2.1 Ableitungsbegriff Wir wollen den Ableitungsbegriff auf Abbildungen f : D(f ) ⊆ Rn → Rm mit n ≥ 1 oder m ≥ 1 verallgemeinern, so dass möglichst viele der Eigenschaften der skalaren Ableitung dabei erhalten bleiben. Definition 10.8. Der Punkt x0 ∈ D ⊆ Rn heißt innerer Punkt von D, wenn es ein ε > 0 derart gibt, dass x ∈ D für alle x ∈ Rn mit kx − x0 k < ε gilt. Die Menge D ⊆ Rn heißt offen, wenn sie nur aus inneren Punkten besteht. Definition 10.9. Eine Abbildung L : Rn → Rm heißt linear , wenn L(αx+βy) = αLx+βLy für alle x, y ∈ Rn , α, β ∈ R gilt. Satz 10.10. Eine Abbildung L : Rn → Rm ist genau dann linear, wenn eine Matrix A ∈ Rm×n existiert mit Lx = A · x für alle x ∈ Rn . 205 10 Mehrdimensionale Differentialrechnung Definition 10.11. Die Abbildung f : D(f ) ⊆ Rn → Rm heißt differenzierbar in x0 ∈ D(f ), wenn x0 innerer Punkt von D(f ) ist und wenn eine lineare Abbildung L : Rn → Rm und eine Abbildung R : Rn → Rm existieren mit kR(h)k f (x0 + h) = f (x0 ) + L(h) + R(h) für x0 + h ∈ D(f ) , lim =0. h→0 khk Die von x0 abhängige lineare Abbildung L heißt (Fréchet-)Ableitung oder totale Ableitung von f in x0 und wird mit f ′ (x0 ) bezeichnet, d. h. f ′ (x0 ) = L. Definition 10.12. Die nach Satz 10.10 zu f ′ (x0 ) gehörende Matrix Jf (x0 ) heißt JacobiMatrix zu f an der Stelle x0 . Anstelle von f ′ (x0 ) können wir also auch Jf (x0 ) bestimmen. Definition 10.13. Die Abbildung f : D(f ) ⊆ Rn → Rm heißt differenzierbar auf M ⊆ D(f ), wenn f in jedem Punkt x0 ∈ M differenzierbar ist. f heißt differenzierbar , wenn f auf D(f ) differenzierbar ist. Satz 10.14. Sei f : D(f ) ⊆ Rn → Rm differenzierbar in x0 ∈ D(f ). Dann ist f in x0 stetig. 10.2.2 Partielle Ableitungen von Skalarfunktionen Sei f : D(f ) ⊆ Rn → R. In vielen Fällen interessiert uns nicht die volle lineare Approximierbarkeit von f bei einer Stelle x0 ∈ D(f ) sondern nur bei x0 in vorgegebenen Richtungen r ∈ Rn , krk = 1. Spezielle Richtungsableitungen sind die partiellen Ableitungen als Richtungsableitungen in Koordinatenrichtung: Definition 10.15. Existiert der Grenzwert ∂i f (x0 ) = 1 d i+1 n f (x10 , . . . , xi−1 [f (x0 + τ ei ) − f (x0 )] , 0 , τ, x0 , . . . , x0 ) τ =xi0 = τlim →0 dτ τ so heißt er partielle Ableitung von f in x0 nach der i-ten Variablen. Bemerkung 10.16. Sei f : D(f ) ⊆ Rn → R. Die partielle Ableitung ∂i f (x0 ) erhält man also dadurch, dass man die Koordinaten xk mit k 6= i fixiert, xk = xk0 , und nur xi variiert.Sie werden also unter Festhalten der anderen Koordinaten wie die skalare Ableitung berechnet. 206 10.2 Differenzierbarkeit Bemerkung 10.17. Für n = 2 schreibt man z. B. auch ∂1 f (x, y) = Analog wird in R3 verfahren. ∂ d f (x, y) = fx (x, y) = f (τ, y)τ =x , ∂x dτ Beispiel 10.18. Für f : R2 → R mit f (x, y) = x3 cos y gilt ∂1 f (x, y) = ∂ f (x, y) = 3x2 cos y , ∂x ∂2 f (x, y) = ∂ f (x, y) = −x3 sin y . ∂y Definition 10.19. Sei f : D(f ) ⊆ Rn → R in x0 ∈ D(f ) partiell nach allen Variablen differenzierbar. Dann heißt der aus den partiellen Ableitungen gebildete Vektor grad f (x0 ) := ∇f (x0 ) := (∂1 f (x0 ), . . . , ∂n f (x0 )) Gradient von f in x0 . Beispiel 10.20. Für f : R2 → R mit f (x, y) = sin x+cos y gilt grad f (x, y) = (cos x, − sin y). Satz 10.21. Sei die Vektorfunktion f : D(f ) ⊆ Rn → Rm in x0 ∈ D(f ) differenzierbar. Dann existieren die partiellen Ableitungen ∂i fk (x0 ) der Koordinatenfunktionen fk von f in x0 und für die Jacobi-Matrix gilt ∂1 f1 (x0 ) · · · ∂n f1 (x0 ) grad f1 (x0 )⊤ .. .. .. Jf (x0 ) := . = . . . ∂1 fm (x0 ) · · · ∂n fm (x0 ) grad fm (x0 )⊤ Beispiel 10.22. Sei f : R2 → R3 mit f (x, y) = (sin(xy), 2x2 + y, xy 2 ). Dann gilt y cos(xy) x cos(xy) . 4x 1 Jf (x, y) = 2 y 2xy Beispiel 10.23. Sei f : D(f ) ⊆ R2 → R2 mit D(f ) = ]0, ∞[ × ]0, 2π[ und f (r, ϕ) = (r cos ϕ, r sin ϕ). Dann gilt cos ϕ −r sin ϕ . Jf (r, ϕ) = sin ϕ r cos ϕ 10.2.3 Differenzierbarkeit und partielle Ableitungen Beispiel 10.24. Wir betrachten erneut f : R2 → R mit f (x, y) = x2xy für (x, y) 6= (0, 0), +y 2 und f (0, 0) = 0. Wie in Beispiel 10.7 bemerkt, ist f nicht stetig in (0, 0). Es gelten jedoch f (ξ, 0) = f (0, ξ) = f (0, 0) = 0 und daher existieren die partiellen Ableitungen ∂1 f (0, 0) = ∂2 f (0, 0) = 0 . 207 10 Mehrdimensionale Differentialrechnung Die Existenz aller partieller Ableitungen ∂i f (x0 ), i = 1, . . . , n, in einem Punkt x0 enthält nur geringe Information über das Verhalten von f in der Umgebung von x0 : Bemerkung 10.25. Aus der Existenz aller partieller Ableitungen (im Unterschied zur Differenzierbarkeit) folgt nicht die Stetigkeit in x0 und somit erst recht nicht die Differenzierbarkeit. Wir brauchen also mehr als nur partielle Differenzierbarkeit. Definition 10.26. Wir nennen f stetig partiell differenzierbar , wenn alle partiellen Ableitungen ∂1 f k (x), . . . , ∂n f k (x) der Koordinatenfunktionen für alle x ∈ D(f ) existieren und stetig von x abhängen. Wir nennen f stetig differenzierbar , wenn f differenzierbar ist und wenn die Ableitungsfunktion x 7→ f ′ (x) in folgendem Sinne stetig ist: Für jedes x ∈ D(f ) und jedes ε > 0 existiert ein δ > 0 mit kf ′ (x)(h) − f ′ (y)(h)k < ε für alle y ∈ D(f ) mit kx − yk < δ und alle h ∈ Rn mit khk ≤ 1. Satz 10.27. Sei f : D(f ) ⊆ Rn → Rm mit offenem D(f ). Ist f in x0 stetig partiell differenzierbar, so ist f in x0 differenzierbar. f ist stetig partiell differenzierbar genau dann, wenn f stetig differenzierbar ist. Bemerkung 10.28. Die äquivalenten Begriffe „stetig partiell differenzierbar“ oder „stetig differenzierbar“ sind also die für die mehrdimensionale Differentialrechnung angepassten Begriffe. Bezeichnung: Sei D ⊆ Rn offen. Die Menge aller stetig (partiell) differenzierbaren Funktionen f : D ⊆ Rn → Rm wird mit C 1 (D, Rm ) bezeichnet. 10.2.4 Algebraische Eigenschaften der Ableitung Ähnlich zum skalaren Fall gilt: Satz 10.29 (Rechenregeln). Seien f, g : D ⊆ Rn → Rm in x0 ∈ D differenzierbar. Dann gelten: 1. (αf + βg)′ (x0 ) = αf ′ (x0 ) + βg ′ (x0 ) für α, β ∈ R (Linearität); ′ ′ ′ 2. (f 0 ) = g(x0 )f (x0 ) + f (x0 )g (x0 ), wenn m = 1 (Produktregel); g)(x ′ ′ g(x0 )f (x0 ) − f (x0 )g ′ (x0 ) f , wenn m = 1 und g(x) 6= 0 in einer Umgebung (x0 ) = 3. g g(x0 )2 von x0 (Quotientenregel). 208 10.3 Geometrische Interpretationen Satz 10.30 (Kettenregel). Sei f : D ⊆ Rn → Rm differenzierbar im inneren Punkt x0 von D. Sei weiter g : E ⊆ Rm → Rk differenzierbar im inneren Punkt f (x0 ) von E. Dann ist g ◦ f in x0 differenzierbar und es gelten (g ◦ f )′ (x0 ) = g ′ (f (x0 )) ◦ f ′ (x0 ) , Jg◦f (x0 ) = Jg (f (x0 )) · Jf (x0 ). Beispiel 10.31. Seien f : R2 → R und g : D(g) ⊆ R2 → R2 mit D(g) = ]0, ∞[ × ]0, 2π[ und f (x, y) = exy , g(r, ϕ) = (r cos ϕ, r sin ϕ) . Gesucht ist die Jacobi-Matrix zu f ◦ g an einer Stelle (r, ϕ). Es gilt (siehe Beispiel 10.23) cos ϕ −r sin ϕ . Jf (x, y) = (yexy xexy ) und Jg (r, ϕ) = sin ϕ r cos ϕ Da f und g stetig differenzierbar sind, folgt damit Jf ◦g (r, ϕ) = Jf (g(r, ϕ)) · Jg (r, ϕ) = (r sin ϕe = r 2 er 2 r2 sin ϕ cos ϕ sin ϕ cos ϕ r cos ϕe (2 sin ϕ cos ϕ r2 sin ϕ cos ϕ ) cos ϕ −r sin ϕ sin ϕ r cos ϕ 1 2 cos2 ϕ − sin2 ϕ) = r2 e 2 r sin 2ϕ (sin 2ϕ Man kann hier das Ergebnis natürlich auch direkt durch (f ◦ g)(r, ϕ) = er 2 cos 2ϕ) . sin ϕ cos ϕ erhalten. Satz 10.32. Eine Funktion, die aus differenzierbaren Funktionen nur durch Addition, Subtraktion, Multiplikation, Division und Verkettung entsteht, ist in allen inneren Punkten ihres Definitionsbereich differenzierbar. 10.3 Geometrische Interpretationen 10.3.1 Tangentialhyperebene und Normalenvektor Sei f : D(f ) ⊆ Rn → R. Weiter sei f differenzierbar im inneren Punkt x0 von D(f ). Wir betrachten die Mengen n o Tf (x0 ) := x0 + h, f (x0 ) + grad f (x0 )⊤ h : h ∈ Rn und graph f = {(x, f (x)) : x ∈ D(f )} . Für n = 1 stellt Tf (x0 ) eine Gerade und graph f eine Kurve im R2 dar. Für n = 2 ist Tf (x0 ) eine Ebene und graph f eine Fläche im R3 . 209 10 Mehrdimensionale Differentialrechnung Satz 10.33. Die Mengen Tf (x0 ) und graph f berühren sich in (x0 , f (x0 )) mit der Ordnung 1, d. h. f (x0 + h) − f (x0 ) + grad f (x0 )⊤ h = R(h) für x ∈ D mit Für jedes h ∈ R(h) khk → Rn liegt 0 für h → 0. damit der Vektor h, grad f (x0 )⊤ h parallel zu Tf (x0 ). Beweis. Die erste Aussage folgt unmittelbar aus der Definition der Ableitung als lineare Approximation. Die zweite Aussage ist offensichtlich. Definition 10.34. Die Menge Tf (x0 ) heißt Tangentialhyperebene an die Hyperfläche ⊤ graph f im Punkt (x0 , f (x0 )). Jeder Vektor h, grad f (x0 ) h mit h ∈ Rn heißt Tangentialvektor an graph f im Punkt (x0 , f (x0 )). Bemerkung 10.35. Für n = 1 bzw. n = 2 heißt die Tangentialhyperfläche Tf (x0 ) auch Tangente bzw. Tangentialebene. Offensichtlich steht der Vektor n = (− grad f (x0 ), 1) senkrecht auf allen Tangentialvek toren h, grad f (x0 )⊤ h und damit auf der Tangentialebene und heißt Normalenvektor . Tf (x0 ) ⊤ f (x0 ) + grad f (x0 ) h graph f f (x0 ) (− grad f (x0 ), 1) 1 grad f (x0 ) x0 x0 + h Lemma 10.36. Der Vektor n = (− grad f (x0 ), 1) ist Normalenvektor an die Tangentialhyperebene in (x0 , f (x0 )). Beispiel 10.37. Wir betrachten f (x, y) = 4x2 − 3y 2 + 5 auf D = R2 in (−1, 3). Es gilt ∂1 f (−1, 3) = −8 , ∂2 f (−1, 3) = −18 , so dass n = (8, 18, 1) Normalenvektor an die Tangentialhyperebene in (−1, 3, f (−1, 3)) ist. Wegen √ √ knk = 64 + 324 + 1 = 389 , ist n0 = 210 √ 1 (8, 18, 1) 389 Normaleneinheitsvektor . 10.3 Geometrische Interpretationen 10.3.2 Richtung des steilsten Anstieges Satz 10.38. Sei f : D(f ) ⊆ Rn → R in x0 ∈ D(f ) differenzierbar. Der Gradient von f in x0 zeigt in Richtung des stärksten Anstieges von f in x0 . Beispiel 10.39. Man finde die Richtung, in der f (x, y) = 4x2 − 3y 2 + 5 am stärksten im Punkt (1, 1) wächst. Es gilt ∂1 f (1, 1) = 8, ∂2 f (1, 1) = −6 und daher grad f (1, 1) = (8, −6). In Richtung √ 1 (8, −6) 64+36 6 8 , − 10 ) tritt also der stärkste Anstieg von f in (1, 1) auf. = ( 10 10.3.3 Notwendige Bedingungen für lokale Extrema Definition 10.40. Die Abbildung f : D(f ) ⊆ Rn → R hat bei x0 ∈ D(f ) ein lokales Minimum ( Maximum), wenn eine Umgebung U von x0 existiert mit f (x) ≥ f (x0 ) (f (x) ≤ f (x0 )) für alle x ∈ U ∩ D(f ). Ein lokales Extremum ist ein lokales Minimum oder Maximum. f hat bei x0 ein strenges Minimum (Maximum), wenn f (x) > f (x0 ) (f (x) < f (x0 )) in einer Umgebung von x0 gilt. Satz 10.41 (Satz von Fermat). Sei f : D(f ) ⊆ Rn → R, x0 ∈ D(f ) innerer Punkt von D(f ), und sei f in x0 partiell differenzierbar. Dann gilt: f hat in x0 lokales Extremum ⇒ grad f (x0 ) = 0 . Bemerkung 10.42. Wenn x0 kein innerer Punkt ist, muss die Behauptung nicht gelten! Betrachte z. B. x 7→ x2 auf [−1, 1]. Es liegen lokale Maxima in −1 und 1 vor, aber die Ableitung verschwindet dort nicht. 211 30.06.10