J.W. Goethe Universität Frankfurt am Main Fachbereich Wirtschaftswissenschaften Volkswirtschaftslehre, insbesondere Mikroökonomie Prof. Dr. Matthias Blonski Mathematik I Vorlesungsbegleitendes Skriptum Update: 1. Februar 2004 Inhaltsverzeichnis 1 Mengenlehre 1.1 Grundbegriffe . . . . . . . . . . . . . 1.2 Mengenoperationen . . . . . . . . . . 1.3 Rechenregeln für Mengenoperationen 1.4 Tupel und kartesische Produkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 3 4 2 Logik 2.1 Aussagen und Aussageformen . . . . . . . . . . . . . 2.2 Verknüpfungen von Aussagen . . . . . . . . . . . . . 2.3 Quantifizierung von Aussageformen . . . . . . . . . . 2.4 Definitionen, Lemmata, Sätze, Theoreme und Beweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 8 9 3 Zahlen und Arithmetik 3.1 Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Potenzen und Wurzeln . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Logarithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 15 16 4 Gleichungen und Ungleichungen 4.1 Eindimensionale Gleichungen und Ungleichungen . . . . 4.2 Mehrdimensionale Gleichungs- und Ungleichungssysteme 4.3 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . 4.4 Zweidimensionale Ungleichungssysteme . . . . . . . . . . . . . . 18 18 22 23 24 . . . . . 26 26 28 32 34 40 6 Funktionen einer Variablen 6.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Graphische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . 43 43 44 5 Folgen und Grenzwerte 5.1 Folgen . . . . . . . . . . . . 5.2 Konvergenz und Grenzwert . 5.3 Grenzwerte im Unendlichen 5.4 Reihen . . . . . . . . . . . . 5.5 Mehrdimensionale Folgen . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inhaltsverzeichnis 6.3 6.4 6.5 Eigenschaften von Funktionen . . . . . . . . . . . . . . . . . . . . Grenzwerte und Stetigkeit . . . . . . . . . . . . . . . . . . . . . . Typen von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 44 46 48 7 Ableitung von Funktionen einer Variablen 7.1 Das Konzept der Ableitung . . . . . . . . . . . . . . . . . . . . . 7.2 Ableitungen ausgewählter Funktionen . . . . . . . . . . . . . . . . 7.3 Ableitungsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 50 52 52 8 Teilmengen des Rn 8.1 Grundbegriffe der Mengen-Topologie . . . . . . . . . . . . . . . . 8.2 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 54 58 9 Funktionen von Rm nach Rn 9.1 Grundbegriffe . . . . . . . . . . . . . . . . 9.2 Verknüpfungen von Funktionen . . . . . . 9.3 Graphische Darstellung von Funktionen . . 9.4 Umkehrfunktionen . . . . . . . . . . . . . 9.5 Grenzwerte von Funktionen und Stetigkeit 9.6 Monotonie und Homogenität . . . . . . . . 9.7 Konkavität und Quasikonkavität . . . . . . 9.8 Ausgewählte Typen von Funktionen . . . . 60 60 61 63 71 74 76 79 84 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Differentialrechnung 10.1 Partielle Ableitungen . . . . . . . . . . . . . . . . . 10.2 Richtungsableitung, Kettenregel, Satz von Euler . . 10.3 Gradient, totales Differential . . . . . . . . . . . . . 10.4 Höhere Ableitungen . . . . . . . . . . . . . . . . . . 10.5 Eigenschaften von Funktionen und ihre Ableitungen 10.6 Elastizitäten und deren ökonomische Interpretation 10.7 Der Satz über implizite Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 . 87 . 88 . 91 . 95 . 97 . 100 . 103 11 Optimierung von Funktionen einer Veränderlichen 106 11.1 Lokale und globale Extrema . . . . . . . . . . . . . . . . . . . . . 106 11.2 Optimierung mit Nebenbedingungen . . . . . . . . . . . . . . . . 108 11.3 Lagrangefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 12 Optimierungstheorie 12.1 Optimierung ohne Nebenbedingungen . . . . . . . . . . . . . . . . 12.2 Geometrische Lösung von Optimierungsproblemen . . . . . . . . . 12.3 Häufige Irrtümer . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.4 Lagrangefunktion, Kuhn-Tucker Bedingungen und Beschränkungsqualifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.5 Nebenbedingungen in Form von Gleichungen . . . . . . . . . . . . 3 115 115 117 118 120 124 1 Mengenlehre Dieses Kapitel behandelt Grundlagen der Mengenlehre, die in gewisser Weise am Anfang der Mathematik steht und eine Sprache bereitstellt, die zur weiteren Formulierung der Mathematik sehr hilfreich ist. 1.1 Grundbegriffe Eine Menge ist eine Zusammenfassung wohlunterschiedener Objekte, wobei von jedem Objekt eindeutig feststehen muß, ob es zur Menge gehört oder nicht. Gehört ein Objekt zu einer Menge, so bezeichnet man es auch als Element dieser Menge. Ist ein Objekt e Element einer Menge M, so schreibt man dafür e ∈ M (sprich: e Element M); ist e hingegen nicht Element von M, so schreibt man dafür e ∈ / M (sprich: e nicht Element M). Üblicherweise wird eine Menge auf eine von zwei Arten beschrieben: Die erste besteht darin, alle ihre Elemente in geschweifte Klammern eingefaßt und durch Kommata getrennt vollständig aufzuzählen. Beispielsweise beschreibt der Ausdruck {a, e, i, o, u} die Menge aller Vokale des lateinischen Alphabets. In unzweideutigen Fällen, insbesondere Bei unendlichen Mengen und bei unzweideutigen Fällen ist auch die Verwendung von Ellipsen (. . .) möglich. So wird jeder {a, b, c, d, e, . . . , z} unzweideutig als die Menge aller kleinen Buchstaben des lateinischen Alphabets und {2, 4, 6, 8, 10, . . .} als die Menge aller positiven und geraden Zahlen erkennen. Die zweite typische Art der Beschreibung ist die, eine allen Elementen einer Menge und nur diesen anhaftende und somit für Elemente dieser Menge charakteristische Eigenschaft anzugeben, z.B. {x | x ist Vokal des lateinischen Alphabets }. Eine spezielle Menge ist die sogenannte leere Menge und wird mit ∅ oder {} bezeichnet. Ein weiterer wichtiger Begriff der Mengenlehre ist die Mächtigkeit einer Menge. Sie ist für Mengen mit endlich vielen Elementen die Anzahl deren Elemente. Die Mächtigkeit von Mengen mit unendlich vielen Elementen wird mit dem Symbol ∞ (sprich: unendlich) bezeichnet.1 Üblicherweise wird die Mächtigkeit einer Menge M als |M| geschrieben. 1 Bei unendlichen Mengen wird außerdem zwischen abzählbar und überabzählbar unendlichen Mengen unterschieden, was an dieser Stelle nicht weiter vertieft werden soll. 1 1 Mengenlehre Beispiel 1.1: (i) Für M := {2, 3, 4} ist |M| = 3. (ii) | { {1}, {2}, {1, 3}} | = 3. (iii) |{ 1, 2, 3, . . .}| = ∞. Gilt für zwei Mengen A und B, daß jedes Element von A auch Element von B ist, so ist A Teilmenge von B. Man schreibt A ⊆ B. Existiert darüberhinaus ein Element von B, welches nicht Element von A ist, so heißt A echte Teilmenge von B, und man schreibt A ⊂ B. Gilt für zwei Mengen A und B sowohl A ⊆ B als auch B ⊆ A, haben also beide Mengen die gleichen Elemente, so heißen diese Mengen gleich, und man schreibt A = B.2 Falls zwei Mengen A und B ungleich sind bzw. A nicht Teilmenge bzw. nicht echte Teilmenge von B ist, wird durch die Ausdrücke A = B, A ⊆ B bzw. A ⊂ B beschrieben. Beispiel 1.2: Seien M := {2, 3, 4}, N := {2, 4}, P := {4, 3, 2} und Q := {{2}}. Dann gilt: (i) N ⊆ M ⊆ P (ii) N ⊂ M und M ⊂ P (iii) M = P (iv) Q ⊂ M In einigen Beispielen wurde bereits deutlich, daß Mengen wiederum Mengen als Elemente enthalten können. Die Menge aller möglichen Teilmengen einer Menge M ist oft von Interesse. Sie heißt Potenzmenge von M und wird durch das Symbol ℘(M) bezeichnet. Beispiel 1.3: (i) Für M := {1, 2, 3} ist ℘(M) = {∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}}. (ii) Gegeben sei die Menge der Vokale V := {a, e, i, o, u}. Es gilt ℘(V ) = {W | W ist eine Menge, deren Elemente Vokale sind }. (iii) Die Potenzmenge der leeren Menge ist nicht leer ℘(∅) = { ∅}. 1.2 Mengenoperationen Für Mengen sind verschiedene Operationen definiert, die jeweils zwei Mengen zu einer Ergebnismenge verknüpfen. Der Durchschnitt A ∩ B zweier Mengen A und B ist die Menge aller Elemente, die sowohl Element von A als auch Element 2 Man beachte, daß auch die beiden Mengen {a, b} und {a, b, b} aufgrund der Forderung, daß alle Elemente wohlunterschieden sein müssen, gleich sind. 2 1 Mengenlehre von B sind und Vereinigung A ∪ B zweier Mengen A und B ist die Menge der Elemente, die entweder Element von A oder Element von B oder Element von A und B sind. Ist der Durchschnitt zweier Mengen A und B leer, ist also A ∩ B = ∅, so heißen diese beiden Mengen disjunkt. Die Differenz A \ B ist die Menge aller Elemente, die zwar Element von A, aber nicht Element von B sind. Man beachte, daß die Bildung der Differenz zweier Mengen im Unterschied zur Bildung des Durchschnitts oder der Vereinigung nicht kommutativ oder vertauschbar ist, d.h. es gilt im Allgemeinen nicht A \ B = B \ A. Dagegen gilt immer sowohl A ∪ B = B ∪ A als auch A ∩ B = B ∩ A. Für zwei Mengen A und Ω mit A ⊆ Ω ist das Komplement von A bezüglich Ω definiert als Ω \ A; man schreibt dafür üblicherweise CΩ A. Oft ist bei der Bildung eines Komplements aus dem jeweiligen Kontext klar, bezüglich welcher Grundmenge Ω das Komplement gebildet wird. Verkürzend wird für das Komplement einer Menge A dann nur CA oder auch Ā geschrieben. Beispiel 1.4: (i) Seien M := {1, 2, 3} und N := {3, 4}. Dann gilt: M ∩N = {3} und M ∪N = {1, 2, 3, 4} (ii) Sei Ω := {Kreuz, Pik, Herz, Karo} und A := {Kreuz, Pik}. Dann ist CA = CΩ A = {Herz, Karo}. (iii) Seien N := {1, 2, 3, . . .}, G := {2, 4, 6, . . .} und U := {1, 3, . . .}, dann ist CN G = U und CN CN G = G. Mengenoperationen und Beziehungen zwischen Mengen werden häufig in sogenannten Venn-Diagrammen veranschaulicht. In derartigen Diagrammen werden Mengen als geeignete Flächen in der Ebene dargestellt. In Abbildung 1.1 sind beispielhaft die Bildung von Durchschnitt (a), Vereinigung (b), Differenz (c) und Komplement für zwei nicht disjunkte Mengen A und B und eine Grundmenge Ω in Venn-Diagrammen wiedergegeben. 1.3 Rechenregeln für Mengenoperationen Für beliebige Mengen A, B, C und Ω mit A, B, C ⊆ Ω gelten die folgenden Rechenregeln: Zunächst gelten für Vereinigung und Durchschnitt sowohl das Kommutativ- als auch das Assoziativgesetz, d.h. es gilt A ∪ B = B ∪ A und A ∩ B = B ∩ A, A ∪ (B ∪ C) = (A ∪ B) ∪ C und A ∩ (B ∩ C) = (A ∩ B) ∩ C. Es gelten die beiden Distributivgesetze A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C), A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C). 3 1 Mengenlehre Ω Ω A∩B A A∪B B A (a) B (b) Ω Ω A\B CΩ A A B A (c) (d) Abbildung 1.1: Venn-Diagramme Schließlich gelten noch folgende Regeln für die Bildung von Komplementen: A ∪ CA = Ω und A ∩ CA = ∅, C(A ∪ B) = CA ∩ CB und C(A ∩ B) = CA ∪ CB, C∅ = Ω und CΩ = ∅, CCA = A. 1.4 Tupel und kartesische Produkte Mengen sind nicht geordnete Zusammenfassungen von Objekten. Die Mengen {a, b} und {b, a} sind also gleich. Ist dagegen auch die Reihenfolge zweier Objekte von Bedeutung, kann dieses durch das Konzept des Tupels erfasst werden. Sollen beispielsweise die beiden Objekte a und b in der Weise geordnet zusammengefasst werden, daß b vor a kommt, so werden sie in dem Tupel (b, a) zusammengefasst. Dabei ist b die erste Komponente dieses Tupels und a die zweite. Ein Tupel mit zwei Komponenten heißt auch Zwei-Tupel. Eine offensichtliche Verallgemeinerung des Zwei-Tupels ist eine geordnete Zusammenfasung nicht nur von zwei, sondern von beliebig vielen Objekten. Endliche derartige Zusammenfassungen heißen nTupel. Dabei gibt n ∈ {1, 2, 3, . . .} die Anzahl der Komponenten des Tupels an. Mengen von n-Tupeln gleicher Art können über die Bildung n-facher kartesischer Produkte definiert werden. Aufgrund der ordnungsgebenden Eigenschaft des Tupels gilt (b, a) = (a, b) für a = b; zwei Tupel sind also nur dann gleich, wenn 4 1 Mengenlehre sie jeweils in allen Komponenten übereinstimmen. Das kartesische Produkt oder Kreuz-Produkt A × B zweier Mengen A und B ist die Menge aller Tupel (a, b) von Elementen a ∈ A und b ∈ B. Beispiel 1.5: (i) Die beiden Tupel (Karo, 7) und (Kreuz, Bube) kann man verwenden, um die beiden entsprechenden Spielkarten zu repräsentieren. Die Menge aller Spielkarten eines Skat-Blattes ist dann B = {(f, w)|f ∈ { Kreuz, Pik, Herz, Karo } und w ∈ {7, 8, 9, 10, Bube, Dame, König, Ass }}. Für jede Hand H zu Beginn eines Skatspiels gilt H ⊂ B und |H| = 10. (ii) Sei A := {1, 2} und B := {a, b}. Dann ist A×B = {(1, a), (1, b), (2, a), (2, b)}. (iii) Die Menge aller Felder eines Schachbretts ist {A, B, . . . , H} × {1, 2, . . . , 8}. (iv) Seien A := {u, v, w} und B := {x, y, z}. (u, v, z) ist ein 3-Tupel und Element von A × A × B. (u, w, w, v, v, u) ist ein 6-Tupel und Element von A × A × A × A × A × A = A6 (sprich: A hoch 6). 5 2 Logik Ein anderer Grundpfeiler der Mathematik neben der Mengenlehre ist die Logik, welche sich mit Aussagen, Verknüpfungen von Aussagen und deren Wahrheitsgehalt befaßt. 2.1 Aussagen und Aussageformen In der Umgangssprache existieren verschiedene Arten von Sätzen, beispielsweise Fragen, Meinungen, Befehls- und Aussagesätze. Eine Aussage A ist ein Satz, der entweder wahr oder falsch ist. Zu jeder Aussage A existiert eine gegenteilige Aussage, die Negation von A und wird mit den Symbolen ¬A oder Ā bezeichnet und ist genau dann wahr, wenn A falsch ist und umgekehrt. Beispiel 2.1: (i) Aussagen sind die Sätze: ’Der Mond kreist um die Erde’ oder ’Frankfurt liegt an der Wolga’. Keine Aussagen sind die Sätze: ’Schröder ist doof’ oder ’Küss mich’ oder ’Verstehst Du das’. (ii) Von den Aussagen (i) ’Der Mond kreist um die Erde’ (ii)’Frankfurt liegt an der Wolga’ (iii) ’Verdi komponierte mindestens ein Streichquartett’ (iv) ’Neun ist eine gerade Zahl’ sind (i) und (iii) wahr und (ii) und (iv) falsch. (iii) Die Negation der Aussage ’Frankfurt liegt an der Wolga’ ist ’Frankfurt liegt nicht an der Wolga’. Sei A := ’Der Mond kreist um die Erde’. Dann ist ¬A = ’Der Mond kreist nicht um die Erde’. Offenbar ist A wahr und ¬A falsch. Sätze, die Variablen enthalten und erst dann zu Aussagen werden, wenn man den Variablen einen bestimmten Wert zuordnet, heißen Aussageformen. Sie werden üblicherweise mit einem großen lateinischen Buchtstaben für die Aussageform selbst, gefolgt von einem oder mehreren in Klammern gesetzten kleinen lateinischen Buchstaben für die Variablen bezeichnet. Die Menge aller Objekte, die in eine Aussageform eingesetzt werden dürfen, heißt Grundmenge der Aussageform; die Menge derjenigen Elemente der Grundmenge, für die die Aussageform wahr ist, heißt Lösungsmenge der Aussageform. Beispiel 2.2: (i) Sei A(x) := ’x komponierte neun Symphonien’ und die dazugehörige Grund- 6 2 Logik menge {Beethoven, Mahler, Haydn}. Dann steht A(Mahler) für die Aussage ’Mahler komponierte neun Symphonien’. (ii) Sei G(x) := ’x > 2’ und die zu G(x) gehörige Grundmenge {1, 2, 3, 4, 5}. Dann ist {3, 4, 5} die Lösungsmenge von G(x). 2.2 Verknüpfungen von Aussagen Aussagen und Aussageformen können mit Hilfe sogenannter Boolscher Operatoren zu neuen, zusammengesetzen Aussagen bzw. Aussageformen verknüpft werden1 . Einer dieser Operatoren ist die sogenannte Konjunktion oder Und-Verknüpfung. Die Konjunktion zweier Aussagen A und B ist genau dann wahr, wenn sowohl A als auch B wahr sind. Formal wird die Konjunktion zweier Aussagen A und B durch den Ausdruck A ∧ B (sprich: A und B) beschrieben. Dagegen ist die Disjunktion A ∨ B (sprich: A oder B) zweier Aussagen A und B dann und nur dann wahr, wenn A, B oder A und B wahr sind. Sie wird daher auch als OderVerknüpfung bezeichnet. Es gilt ¬(A ∧ B) = ¬A ∨ ¬B, ¬(A ∨ B) = ¬A ∧ ¬B. Beispiel 2.3: Seien die Aussagen A und B wahr und die Aussage C falsch. (i) Dann ist A ∧ B wahr und B ∧ C falsch. Ferner ist A ∨ B wahr, B ∨ C wahr und C ∨ C falsch. (ii) Die Negation der Aussage ’Claudia ist schön und klug’ ist die Aussage ’Claudia ist nicht schön oder nicht klug’. (iii) Die Negation der Aussage ’Claudia ist schön oder klug’ ist die Aussage ’Claudia ist weder schön noch klug’. Ein weiterer Boolscher Operator ist die Implikation oder Folgerung. Sie wird für zwei Aussagen A und B durch den Ausdruck A ⇒ B (sprich: aus A folgt B) beschrieben und ist nur dann falsch, wenn A wahr und B falsch ist. In allen anderen Fällen ist sie wahr. Die Implikation A ⇒ B ist also identisch zur Aussage ¬A ∨ B. A heißt auch hinreichende Bedingung für B, da bei gültiger Implikation A ⇒ B die Aussage B wahr sein muß, wenn A wahr ist, und B notwendige Bedingung für A, da A nur dann wahr sein kann, wenn B wahr ist. Die Äquivalenz A ⇔ B zweier Aussagen A und B ist genau dann wahr, wenn entweder A und B beide wahr oder beide falsch sind. Sie ist äquivalent (!) zum Ausdruck (A ⇒ 1 benannt nach George Boole (1815-1864), britischer Mathematiker 7 2 Logik A B w w w f f w f f A∧B w f f f A∨B w w w f A⇒B w f w w A⇔B w f f w Tabelle 2.1: Wahrheitstafeln für Konjunktion, Disjunktion, Implikation und Äquivalenz B) ∧ (B ⇒ A). Wir benutzen häufig die Sprechweise ’dann und nur dann’ oder ’genau dann’ für die Äquivalenz. Man kann den Wahrheitsgehalt zusammengesetzer Aussagen in Abhängigkeit vom Wahrheitsgehalt der zugehörigen Einzelaussagen übersichtlich in sogenannten Wahrheitstafeln darstellen. In diesen werden als Tabelle alle Kombinationen von Wahrheitsgehalten der in die zusammengesetzte Aussage einfließenden einzelnen Aussagen dem sich ergebenden Wahrheitsgehalt der zusammengesetzten Aussage gegenübergestellt. In Tabelle 2.1 sind Wahrheitstafeln für die in diesem Abschnitt vorgestellten Verknüpfungen zusammengestellt. Beispiel 2.4: Die Wahrheitstafel zur Aussage A ∨ (B ∧ ¬C) ist: A B w w w w w f w f f w f w f f f f C w f w f w f w f A ∨ (B ∧ ¬C) w w w w f w f f 2.3 Quantifizierung von Aussageformen In Abschnitt 2.1 wurde gezeigt, wie Aussageformen zu Aussagen werden, indem man ein Element ihrer jeweiligen Grundmenge in sie einsetzt. Eine andere Art, Aussagen aus Aussageformen zu machen ist, diese zu quantifizieren. Sei im weiteren A(x) eine Aussageform mit der Grundmenge G und der Lösungsmenge L ⊆ G. Dann steht ∃x. A(x) (sprich: es existiert ein x mit A(x)) für die Aussage, daß mindestens ein x ∈ G existiert, für welches A(x) wahr ist. Das Symbol ∃ heißt Existenzquantor. Ferner bedeutet ∀x. A(x) (sprich: für alle x gilt A(x)), daß 8 2 Logik A(x) für alle x ∈ G wahr ist. Das Symbol ∀ heißt entsprechend Allquantor. Man beachte, daß ∃x. A(x) genau dann wahr ist, wenn L = ∅ gilt, und daß ∀x. A(x) genau dann wahr ist, wenn L = G gilt. Daraus folgt, daß ∃x. A(x) wahr ist, falls ∀x. A(x) wahr ist. In der Schreibweise der Logik ist das ∀x. A(x) ⇒ ∃x. A(x). Bezüglich der Negation quantifizierter Aussageformen gelten die Regeln: ¬∀x. A(x) ⇔ ∃x. ¬A(x) ¬∃x. A(x) ⇔ ∀x. ¬A(x) Beispiel 2.5: (i) Sei A(x) := ’x > 3’ eine Aussageform mit der Grundmenge G := {1, 2, 3, 4}. Dann ist ∃x. A(x) eine wahre Aussage, da 4 > 3 wahr ist, und ∀x. A(x) eine falsche Aussage, da beispielsweise 1 > 3 falsch ist. (ii) Die Verneinung der Aussage ’Alle Menschen sind sterblich’ ist ’Es gibt einen Menschen, der nicht sterblich ist’. Die Negation der Aussage ’Es gibt einen Studenten, der alles versteht’ ist ’Für jeden Studenten gibt es etwas, das er nicht versteht’. 2.4 Definitionen, Lemmata, Sätze, Theoreme und Beweise Die Mathematik ist ein logisch aufgebautes Gedankengbäude. Ihre Sprache verwendet Begriffe und Strukturen, die zunächst definiert werden müssen. Wir haben bis hier schon viele Begriffe definiert, zuletzt z.B. den Allquantor ∀. Kurze, einfache Definitionen werden in mathematischen Texten oft durch einfache Hervorhebungen im Text markiert. Längere und komplexere Definitionen werden meistens als solche hervorgehoben und fallen dadurch noch mehr auf. Mit Begriffen und Strukturen werden Aussagen gemacht. Unsere zuletzt gemachte Aussage mit zuvor definierten Begriffen war z.B. ¬∃x. A(x) ⇔ ∀x. ¬A(x). Mathematiker sortieren ihre Aussagen gerne nach ihrer Wichtigkeit. Dabei werden kleine, untergeordnete, oder Hilfsaussagen Lemma genannt, die meisten Aussagen nennt man Satz oder auf englisch proposition was gelegentlich fälschlich als Vorschlag übersetzt wird. Die wichtigsten Resultate in der Mathematik werden Theoreme genannt. Diese zu beweisen kann manchmal sehr schwierig und aufwendig sein. Großes Aufsehen in der mathematischen Fachwelt erregte z.B. der Beweis des letzten Schrittes von Fermat’s berühmtem ’letzten Theorem’, aufgestellt vom französischen Mathematiker Pierre de Fermat um das Jahr 1630 als Randnotiz in einem zahlentheoretischen Aufsatz mit dem Vermerk, daß ihm ein einfacher Beweis dafür 9 2 Logik bekannt sei. Fermats letztes Theorem sagt aus, daß für n = 3, 4, 5, . . . keine ganzzahligen Lösungen ungleich 0 der Gleichung xn + y n = z n existieren. Der britische Mathematiker Andrew Wiles versetzte am 23. Juni 1993 die Fachwelt in große Aufregung, als er per email verbreitete, diese berühmte Vermutung endgültig bewiesen zu haben2 . In der Tat war dies nur der letzte Schritt in einer über 350-jährigen Suche nach einem Beweis, an dem sich viele der bedeutensten Mathematiker unserer und auch früherer Zeiten beteiligten und die maßgeblich die moderne Geschichte der Mathematik mit geprägt hat. Auf dem Weg zum endgültigen Beweis wurden zahlreiche neue Gebiete der Mathematik entwickelt, von denen viele Mathematiker heute glauben, daß sie für sich genommen viel wichtiger sind, als Fermats ursprüngliche Behauptung selbst. Wirtschaftswissenschaftler im Gegensatz zu Mathematikern interessieren sich weniger für Beweise, also die internen Strukturen logischer Gedankengebäude, sondern mehr für die Anwendungen mathematischer Aussagen auf die reale Welt. Um dieses Ziel schneller erreichen zu können, werden auch in diesem Skriptum die meisten Beweise weggelassen. So sahen wir noch keinen Beweis bis hier. Auch Wirtschaftswissenschaftler sollten sich jedoch bewußt sein, daß das Weglassen und Ignorieren von mathematischen Beweisen verschiedene Gefahren in sich birgt. Zum Beispiel geht es auch dem Wirtschaftswissenschaftler oft um strukturelles Verständnis, wenn ökonomische Phänomene mit Hilfe von Modellen beschrieben und erklärt werden. Daher liegt ein Teil des Verständnisses des ökonomischen Phänomens in der verwendeten Struktur des mathematischen Modells. Der andere (ökonomische) Teil des Verständnisses drückt sich oft in der Wahl geeigneter Modell-Bestandteile und Annahmen aus. Beide Verständnisarten bedingen sich oft gegenseitig. Es ist kein Zufall, daß viele der berühmten Ökonomen unserer Zeit gleichzeitig hervorragende Mathematiker sind oder sogar von der Mathematik zur Ökonomie gekommen sind. Umgekehrt ist es schwierig, als angehender Ökonom an die Front aktueller Forschung in Ökonomie zu gelangen, ohne sich großzügig in der Welt der etablierten mathematischen Resultate zu bedienen. Es ist eine Kunst, sich für die relevanten mathematischen Strukturen zu interessieren und die weniger relevanten ökonomisch als ’black boxes’ zu benutzen auf dem Weg zu einem besseren ökonomischen Verständnis. Da wir im Folgenden gelegentlich exemplarisch Beweise vorführen, sei hier kurz auf einige der wichtigsten Beweis-Techniken des Mathematikers eingegangen. Als direkten Beweis bezeichnet man eine Kette von Implikationen, an deren Anfang die hineingesteckten Annahmen und an deren Ende die zu beweisende Behauptung steht. √ Beispiel 2.6: Seien a, b ∈ {0, 1, 2, . . .}, dann ist das geometrische Mittel a · b . stets kleiner oder gleich dem arithmetischen Mittel a+b 2 2 Der Beweis wurde schließlich publiziert als Andrew Wiles, Modular elliptic curves and Fermat’s Last Theorem, Ann. Math. 141 (1995), 443-551 10 2 Logik √ Beweis: a · b ≤ a+b ⇔ 4ab ≤ (a + b)2 ⇔ 0 ≤ (a − b)2 , was stets wahr ist. Da 2 für a, b ∈ {0, 1, 2, . . .} die Implikationen in beiden Richtungen gelten, gelten sie insbesondere alle rückwärts, also ist die am Anfang stehende Aussage wahr. Der indirekte Beweis beruht auf der logischen Äquivalenz ¬(A∧B) = ¬A∨¬B, die in Kap. 2.2 eingeführt wurde. Die Quantifizierung dieser logischen Äquivalenz ist ¬∀x. A(x) ⇔ ∃x. ¬A(x). Statt eines Beispiels hier, wird auf das folgende √ Kapitel verwiesen, wo wir indirekt oder durch Widerspruch beweisen werden, daß 2 eine irrationale Zahl ist. Falls die zu beweisende Behauptung für alle natürlichen Zahlen n ∈ N zu zeigen ist, so kann sie mit Hilfe vollständiger Induktion bewiesen werden. Diese Beweismethode wird dem französischen Mathematiker Blaise Pascal (16231662), einem Zeitgenossen von P. de Fermat, zugeschrieben. Die Aussage wird zunächst für eine Zahl n0 ∈ N gezeigt. Die Zahl n0 ist oft 0 oder 1. Man nennt sie den Induktionsanfang. Aus der Induktionsvoraussetzung, also der Annahme, die Behauptung gelte für n ∈ N, folgert man dann die Induktionsbehauptung, also die selbe Behauptung für n + 1 ∈ N. In dieser Folgerung, also diesem Teil des Beweises, liegt meistens die eigentliche Beweisidee, daher nennen wir ihn den Induktionsbeweis. Beispiel 2.7: (Gauss’sche Summenformel3 ) Es gilt ∀n ∈ N: 1+2+···+n = n(n + 1) 2 . . (i) Induktionsanfang: 1 = 1·2 2 (ii) Induktionsvoraussetzung: Es gelte für n = k: 1+2+···+k = k(k + 1) 2 . (iii) Induktionsbehauptung: Dann gilt für n = k + 1: 1 + 2 + · · · + k + (k + 1) = (k + 1)(k + 2) 2 . (iv) Induktionsbeweis: 1 + 2 + · · · + k + (k + 1) = 3 k(k + 1) + (k + 1) 2 benannt nach dem deutschen Mathematiker Carl Friedrich Gauss (1777-1855), vom dem die Legende sagt, daß er eine von seinem Lehrer gestellte Aufgabe, die Zahlen 1 bis 100 aufzuaddieren im Handumdrehen lösen konnte zu großen Verblüffung seines Lehrers und seiner Mitschüler. Gauss verwendete angeblich eine andere Idee. Statt die Zahlen sukzessive zu addieren rechnete er 1 + · · · + 100 = (1 + 100) + (2 + 99) + · · · + (50 + 51) = 50 · 101. 11 2 Logik k 2 + k + 2k + 2 2 (k + 1)(k + 2) = . 2 = 12 3 Zahlen und Arithmetik In diesem Kapitel werden Zahlen und einzelne Elemente aus dem Bereich der Arithmetik rekapituliert. Insbesondere werden die reellen Zahlen eingeführt und einige Rechenregeln wie Potenzrechnung und Logarithmieren wiederholt. 3.1 Zahlen Grundlegend für die Mathematik sind die Zahlen. Die Zahlen 1, 2, 3, . . ., die sich intuitiv aus dem Zählen (z.B. der Finger) ergeben, heißen natürliche Zahlen oder positive ganze Zahlen und werden mit dem Symbol N bezeichnet. Dazu gehören offenbar die geraden Zahlen 2, 4, 6, . . . und die ungeraden Zahlen 1, 3, 5, . . .. Natürliche Zahlen sind bezüglich der Addition und der Multiplikation abgeschlossen. Das heißt, daß die Summe und das Produkt zweier natürlicher Zahlen wieder natürliche Zahlen sind. Positive und negative ganze Zahlen zusammen mit der 0, also . . . , −2, −1, 0, 1, 2, . . . heißen ganze Zahlen und werden mit Z bezeichnet. Die ganzen Zahlen sind zusätzlich bezüglich der Subtraktion abgeschlossen. Brüche sind Zahlen wie 27 , die sich als Quotient ab zweier ganzer Zahlen a und b mit b = 0 darstellen lassen. Sie heißen rationale Zahlen und werden als Q bezeichnet. Verschiedene Brüche können die gleiche rationale Zahl darstellen, zum Beispiel ist 24 = 12 . Eine besondere Rolle spielen daher die gekürzten Brüche, deren Zähler und Nenner teilerfremd sind und der Nenner stets positiv ist. Wir können daher jede rationale Zahl durch viele Brüche aber nur mit genau einem gekürzten Bruch darstellen. Die rationalen Zahlen sind bezüglich aller vier Grundrechenarten +, −, ·, : abgeschlossen. Die ganzen und auch die rationalen Zahlen lassen sich auf der Zahlengeraden darstellen. Angenommen, wir würden alle rationalen Zahlen, also zuerst die 0, dann alle (positiven und negativen) Vielfachen von 1, dann alle (positiven und negativen) Vielfachen von 12 , dann alle (positiven und negativen) Vielfachen von 1 , usw. auf der Zahlengeraden markieren. Es ist verführerisch, zu denken, dann 3 gäbe es keine Löcher mehr auf der Zahlengeraden. Schon die Griechen der Antike bemerkten jedoch, daß dies nicht der Fall ist. Spätestens Euklid √ sah, daß keine p 2 ganzen Zahlen p und q existieren, so daß ( q ) = 2 ist. Also ist 2 keine rationale 13 3 Zahlen und Arithmetik Zahl. Um dies zu zeigen, verwenden wir einen indirekten Beweis. Statt also zu zeigen ” pq ist gekürzter Bruch aus ganzen Zahlen” ⇒ ”( pq )2 = 2” zeigen wir ”( pq )2 = 2” ⇒ ” pq ist nicht gekürzter Bruch aus ganzen Zahlen”. Dabei verwenden wir also die logische Äquivalenz (A ⇒ B) ⇔ (¬A ∨ B) ⇔ (B ∨ ¬A) ⇔ (¬B ⇒ ¬A). Nehmen wir also umgekehrt an, es gäbe einen gekürzten Bruch p2 q2 p2 q2 2 p q = √ 2. Also ist 2 ein gekürzter Bruch (warum?). Wegen = 2 ist also p = 2q . Da q und auch 2 daher q ganze Zahlen sind, ist 2q 2 und daher auch p2 eine gerade Zahl, denn wäre p ungerade so wäre auch p2 ungerade. Also ist p2 sogar durch 4 teilbar. Wegen p2 = 2q 2 muss dann aber auch q gerade sein. Dies widerspricht aber unserer Annahme, daß pq gekürzt ist. Da also ( pq )2 = 2 zu einem Widerspruch führt, ist √ 2 keine rationale Zahl. Eine für uns übliche Art, Zahlen zu schreiben, ist die so genannte Dezimalschreibweise. Jede natürliche Zahl kann mit Hilfe der zehn Symbole 0, 1, 2, . . . , 9 geschrieben werden. Die Anordnung der Ziffern als Zahl entspricht der Summe von Vielfachen der Potenzen von 10. Zum Beispiel bedeutet 2003 = 2 · 103 + 0 · 102 + 0 · 101 + 3 · 100 . Zusammen mit den Symbolen +, − können alle ganzen Zahlen im Dezimalsystem geschrieben werden. Mit Hilfe von Kommastellen und negativen Potenzen von 10 können wir auch rationale Zahlen, die keine ganzen Zahlen sind, in Dezimalschreibweise darstellen, zum Beispiel 3.14 = 3 · 100 + 1 · 10−1 + 4 · 10−2. Jeder Zahl, die auf diese Weise mit endlich vielen Ziffern in Dezimalschreibweise geschrieben werden kann, ist eine rationale Zahl zugeordnet. Umgekehrt kann nicht jede rationale Zahl mit endlich vielen Ziffern in Dezimalschreibweise dargestellt werden. Zum Beispiel ist 13 = 0.3̄ = 0.33 . . ., wobei der obere Balken die zu wiederholenden Ziffern beschreibt oder die Punkte dafür stehen, daß die Ziffer 3 unendlich oft wiederholt wird. Die Dezimalschreibweise jeder rationalen Zahl ist jedoch periodisch, d.h. ab einer gewissen Stelle der Dezimalschreibweise wiederholen sich die Ziffern unendlich oft in der gleichen Reihenfolge. Zum Beispiel ist 1 = 0.142857 = 0.142857142857 . . . . 7 Eine intuitive Erweiterung der rationalen Zahlen ist offenbar die Menge aller Zahlen in (unendlicher) Dezimalschreibweise, also auch die nichtperiodischen. Wir 14 3 Zahlen und Arithmetik nennen alle solchen Zahlen, die nicht schon rationale Zahlen sind, irrational. Dazu gehören zum Beispiel √ √ 1, 01001000100001 . . . , 2, − 11, π, e. Rationale und irrationale Zahlen zusammen, also alle Zahlen in Dezimalschreibweise, heißen reelle Zahlen und werden mit R bezeichnet. Dies ist die für Ökonomen wichtigste und am häufigsten verwendete Zahlenmenge und wird daher später weiter vertieft. Reelle Zahlen sind wie die rationalen Zahlen abgeschlossen bezüglich der vier Grundrechenarten, aber darüber hinaus auch bezüglich der Bildung von Grenzwerten, die in Kap.??? eingehender behandelt werden. Die reellen Zahlen sind dagegen nicht √ abgeschlossen bezüglich der Bildung von Wurzelausdrücken. Zum Beispiel ist −1 keine reelle Zahl. Der Abschluss der reellen Zahlen bezüglich Wurzelaudrücken heißt komplexe Zahlen und wird mit C bezeichnet. Die komplexen Zahlen sind für die Mathematik und auch für die Physik grundlegend. Da jedoch komplexe Zahlen selten in den Wirtschaftswissenschaften vorkommen, werden wir uns hier nicht weiter damit befassen. Offensichtlich gilt N ⊂ Z ⊂ Q ⊂ R ⊂ C. Die komplexen Zahlen sind also der allgemeinste der fünf hier aufgeführten Zahlenbegriffe. 3.2 Potenzen und Wurzeln Das n-fache Produkt a · a ·. . . · a n mal einer Zahl a ∈ R mit sich selbst wird als die n-te Potenz dieser Zahl bezeichnet. Dabei heißt a auch Basis oder Grundzahl und n Exponent oder Hochzahl der Potenz. Man schreibt dafür an . Der Potenzbegriff wird über die Definition a−n := a1n mit n ∈ N auf ganzzahlige Exponenten kleiner Null erweitert und mit der Festsetzung a0 := 1 für a = 0 schließlich auf alle ganzzahligen Exponenten ausgedehnt.1 Für das Rechnen mit Potenzen gilt für alle n, m ∈ Z: an am = an = am n n a b = an = bn (an )m = 1 an+m an−m n (ab) a n b nm a Der Ausdruck 00 ist nicht definiert. 15 ; a, b ∈ R ; a, b ∈ R, a = 0 ; a, b ∈ R ; a, b ∈ R, b = 0 ; a, b ∈ R 3 Zahlen und Arithmetik Beispiel 3.1: (i) 32 · 33 = 35 = 3 · 3 · 3 · 3 · 3 = 243. 2 1 1 = 25 . (ii) 554 = 5−2 = 512 = 5·5 2 2 2 2 (iii) 4 · 6 = (4 · 6) = 24 = 576. 3 (iv) (22 ) = 26 = 64. Für die Potenz an √ = b mit b ≥ 0 und n ∈ N heißt a auch √ n-te Wurzel aus b und n man schreibt a = b für n = 2 und einfach nur a = b für n = 2. Dabei wird b auch als Radikant bezeichnet. Das Wurzelziehen ist also die inverse Operation der Potenzierung. Wurzelausdrücke können auch als Potenzen mit nicht ganzzahligen Exponenten geschrieben werden, indem √ a1/n := n a. festgesetzt wird. Dies ist offenbar konsistent zu den oben angeführten PotenzRechenregeln, denn √ n an = (an )1/n = an/n = a. Also gelten entsprechende Rechenregeln für das Wurzelziehen, so daß für das Rechnen mit Wurzeln mit a, b ≥ 0 und n, m ∈ N folgt: √ √ √ n n n a √b = ab na √ = n ab n b √ √ n m = ( n a)m a √ √ m n a = nm a Beispiel √ 3.2: 1/2 16 = 16 = 4. (i) 1/4 1/4 1/4 4 x12 y 8 = (x12 y 8) = (x12 ) (y 8 ) = x12/4 y 8/4 = x3 y 2. (ii) √ 1/m (iii) m x n y = xy 1/n = x1/m y 1/mn . 3.3 Logarithmen Mit dem Wurzelziehen wurde im vorhergehenden Abschnitt die zur Potenzierung inverse Operation bezüglich der Basis oder Grundzahl gebildet. Die inverse Operation zur Potenzierung bezüglich des Exponenten oder der Hochzahl ist das so genannte Logarithmieren. Für die Potenz ay = x mit a > 0 und a = 1 heißt y auch Logarithmus von x zur Basis a. Man schreibt dafür y = loga x. Der Logarithmus einer Zahl x zur Basis 16 3 Zahlen und Arithmetik a ist also diejenige Zahl y, mit der a potenziert werden muß, um x zu erhalten. Besondere Basen sind in diesem Zusammenhang 10 und die Eulersche Zahl e ≈ 2, 718281828, die in vielen verschiedenen Zusammenhängen, insbesondere z.B. für Wachstumsprozesse bedeutsam ist. Der Logarithmus zur Basis 10 wird häufig nur mit log x, der Logarithmus zur Basis e mit ln x (für ’logarithmus naturalis’) bezeichnet. Beispiel 3.3: (i) log 100 = 2. (ii) log2 64 = 6. (iii) ln 1 = 0. Für das Rechnen mit Logarithmen gelten folgende Regeln. Für a, b > 0, a, b = 1 und x, y > 0 gilt: ax logb x = log loga b loga (xy) = loga x + loga y loga (x/y) = loga x − loga y loga (xy ) = y loga x Beispiel 3.4: (i) log(100 · 10002) = log 100 + log(10002 ) = log 100 + 2 log 1000 = 2 +2 · 3 = 8. x2 y 3 2 3 5 1 1 2 3 5 (ii) 7 log x + 7 log y − 7 log z = 7 (log(x ) + log(y ) − log(z )) = 7 log z 5 . Man beachte, daß der Logarithmus nur für Zahlen größer als Null gebildet werden kann; für alle Zahlen kleiner oder gleich Null ist er nicht definiert. 17 4 Gleichungen und Ungleichungen In diesem Kapitel werden Techniken zur Bestimmung der Lösungsmengen von Gleichungen und Ungleichungen rekapituliert. 4.1 Eindimensionale Gleichungen und Ungleichungen Eine Gleichung oder Ungleichung ohne Variablen ist eine Aussage, z.B. ist 1 = 1 wahr und 0 > 1 falsch. Gleichungen oder Ungleichungen, bzw. mehrdimensionale Systeme von Gleichungen und Ungleichungen mit Variablen heißen Bestimmungsgleichungen bzw. ungleichungenund sind Aussageformen. Der einzige Unterschied zwischen Bestimmungsgleichungen und -ungleichungen besteht darin, daß bei letzteren an der Stelle des Gleichheitszeichens eine der Relationen >, ≥, ≤, <, = steht. Für Gleichungen und Ungleichungen existieren Umformungen, die es ermöglichen, eine Aussageform in eine andere Aussageform mit derselben Lösungsmenge zu überführen, und die somit sehr nützlich dafür sind, die Lösungsmenge einer Ungleichung zu bestimmen, indem mit ihrer Hilfe die Aussageform nach der Unbekannten aufgelöst wird. Die wichtigsten dieser Umformungen sind nachfolgend für a, b, c ∈ R zusammengestellt: a < (≤) b a < (≤) b a < (≤) b ∧ c > 0 a < (≤) b ∧ c < 0 ⇒ ⇒ ⇒ ⇒ b > (≥) a a + c < (≤) b + c ca < (≤) cb ca > (≥) cb Man beachte, daß die Multiplikation einer Ungleichung mit einem Faktor c ∈ R, dessen Vorzeichen nicht bekannt ist, eine Fallunterscheidung für c > 0 und c < 0 erforderlich macht. Sei U eine Ungleichung der Form a = b mit a und b als beliebige Ausdrücke, die eine unbekannte Variable enthalten. Eine Möglichkeit, deren Lösungsmenge LU zu bestimmen, ist, zunnächst die Lösungsmenge LG der Gleichung a = b zu berechnen. Es gilt dann LU = CR LG . 18 4 Gleichungen und Ungleichungen Beispiel 4.1: (i) Die Lösungsmenge der Ungleichung 2x ≥ 8 mit x als Unbekannter ist die Menge aller reellen Zahlen, die größer oder gleich 4 sind, also das Intervall [4, ∞). (ii) Die Lösungsmenge der Ungleichung x + 1 < 0 mit x als Unbekannter ist die Menge aller reellen Zahlen, die kleiner als -1 sind, also das Intervall (−∞, −1). (iii) Die Lösungsmenge der Ungleichung 3x − 5 ≥ 6x − (2x + 3) mit x als Unbekannter ist, wie die Kette 3x − 5 ≥ 6x − (2x + 3) 3x − 5 ≥ 6x − 2x − 3 3x − 5 ≥ 4x − 3 3x − 2 ≥ 4x −2 ≥ x | Auflösen der Klammer | Zusammenfassen der x-Glieder | +3 | −3x | Ungleichung aufgelöst von Umformungen erbringt, das Intervall (−∞, −2]. (iv) Um die Lösungsmenge der Ungleichung x5 ≤ 1 mit x als Unbekannter, an welche zusätzlich die Forderung x = 0 erhoben wird, zu bestimmen, wird zunächst der Fall x > 0 betrachtet. Die Multiplikation der Ungleichung mit x führt dann auf die Ungleichung 5 ≤ x. Also ist die Lösungsmenge der urpsrünglichen Ungleichung für x > 0 das Intervall L1 = [5, ∞). Für den Fall x < 0 führt die Multiplikation der Ungleichung mit x hingegen auf die Ungleichung 5 ≥ x. Die Lösungsmenge der urpsrünglichen Ungleichung ist folglich für x < 0 das Intervall L2 = (−∞, 0), und die gesamte Lösungsmenge ist L = L1 ∪ L2 . Es existieren Arten von Ungleichungen, welche mit dem bisher behandelten Instrumentarium allein nicht gelöst werden können. Eine Ungleichung der Form |a| < b, |a| ≤ b, |a| > b |a| ≥ b oder |a| = b mit a und b als beliebige Ausdrücke, die eine unbekannte Variable enthalten, heißt Ungleichung mit Absolutbetrag. Ist die Lösungsmenge einer solchen Ungleichung zu bestimmen, sind die nachfolgenden Äquivalenzen sehr hilfreich: 1. 2. 3. 4. 5. |a| < b |a| ≤ b |a| > b |a| ≥ b |a| = b ⇔ ⇔ ⇔ ⇔ ⇔ a<b a≤b a>b a≥b a = b ∧ ∧ ∨ ∨ ∧ −a < b −a ≤ b −a > b −a ≥ b −a = b Um die Lösungsmenge L einer Ungleichung mit Absolutbetrag zu bestimmen, kann man gemäß dieser Äquivalenzen die Lösungsmengen L1 und L2 zweier dazu äquivalenter Ungleichungen ohne Absolutbetrag bestimmen. Im Falle der ∧−Verknüpfung, also in den Fällen 1, 2 und 5 bildet man dann L = L1 ∩ L2 und für die ∨−Verknüpfung, also in den Fällen 3 und 4, entsprechend L = L1 ∪ L2 . 19 4 Gleichungen und Ungleichungen Beispiel 4.2: (i) Die Ungleichung x ≤ |5 − x| ist (nach 4.) äquivalent zu x ≤ 5 − x ∨ x ≤ −(5 − x) . U1 := U2 := Die Lösungsmenge der Ungleichung U1 ist, wie die Kette x ≤ 5 − x | +x 2x ≤ 5 |: 2 x ≤ 5/2 | Ungleichung aufgelöst von Äquivalenzumformungen erbringt, L1 = (−∞, 5/2]. Die Lösungsmenge der Ungleichung U2 ist, wie die Kette x ≤ −(5 − x) | Klammer auflösen x ≤ −5 + x | −x 0 ≤ −5 | Falsche Aussage von Äquivalenzumformungen erbringt, L2 = ∅. Die Lösungsmenge der ursprünglichen Ungleichung ist also L = L1 ∪ L2 = (−∞, 5/2]. (ii) Die Ungleichung |6 − x| < 8 ist (nach 1.) äquivalent zu 6 − x < 8 ∧ −(6 − x) < 8 . U1 := U2 := Die Lösungsmenge der Ungleichung U1 ist das offene Intervall L1 = (−2, ∞), die Lösungsmenge der Ungleichung U2 das offene Intervall L2 = (−∞, 14). Die Lösungsmenge der Ungleichung |6 − x| < 8 ist also L = L1 ∩ L2 = (−2, 14). Eine Ungleichung der Form x2 + px + q B 0, wobei B für eine der Relationen =, >, ≥, ≤, < oder = steht, heißt quadratische Gleichung oder Ungleichung. Eine quadratische Gleichung hat entweder keine, eine oder zwei Lösungen in R, welche sich mit Hilfe der sogenannten pq-Formel p p 2 x1,2 = − ± −q 2 2 berechnen lassen. p 2Diese Formel besagt, daß die oben angegebene quadratische Gleichung für 2 − q > 0 zwei Lösungen hat, nämlich p p p 2 p 2 − q und x2 = − − − q, x1 = − + 2 2 2 2 20 4 Gleichungen und Ungleichungen B > ≥ ≤ < = Fall (a): Fall (b): 2 Lösungen 1 Lösung xu , xo xu,o (−∞, xu ) ∪ (xo , ∞) R \ {xu,o} (−∞, xu ] ∪ [xo , ∞) R [xu , xo ] {xu,o } (xu , xo ) ∅ R \ {xu , xo } R \ {xu,o} Fall (c): keine Lösung R R ∅ ∅ R Tabelle 4.1: Lösungsmengen quadratischer Ungleichungen für p 2 2 − q = 0 eine Lösung, nämlich x1 = x2 = − p 2 2 und für p2 − q < 0 keine Lösung, da die Wurzel einer negativen Zahl in R nicht definiert ist.1 Beispiel 4.3: (i) Die Gleichung x2 + 2x − 15 = 0 hat nach der pq-Formel x1,2 = −1 ± √ 1 + 15 = −1 ± 4 die Lösungsmenge {3, −5}. √ 2 + 4x+ 10 = 0 hat nach der pq-Formel x = −2 ± 4 − 10 (ii) Die Gleichung x 1,2 √ keine Lösung, da −6 nicht definiert ist. Um eine quadratische Ungleichung zu lösen, sind zunächst etwa alle Lösungen der von der quadratischen Ungleichung abgeleiteten Gleichung x2 + px + q = 0 zu bestimmen. Die Lösungsmenge der quadratischen Ungleichung ergibt sich nun in Abhängigkeit von den Lösungen der quadratischen Gleichung und der Relation B gemäß Tabelle 4.1. Die in Tabelle 4.1 zusammengestellten Ergebnisse werden in Abbildung 5.2 veranschaulicht, in welcher für die drei Fälle (a), (b) und (c) jeweils eine durch eine entsprechende quadratische Gleichung beschriebene Parabel dargestellt ist. Beispiel 4.4: (i) Die zur quadratischen Ungleichung x2 − x − 2 ≤ 0 gehörende Gleichung x2 − x − 2 = 0 hat nach der pq-Formel die beiden Lösungen xu = −1 und xo = 2 mit xu < xo . Dann ist die Lösungsmenge der betrachteten quadratischen Ungleichung das geschlossene Interval [−1, 2]. 1 Tatsächlich ist die Wurzel einer negativen reellen Zahl eine komplexe Zahl in C. 21 4 Gleichungen und Ungleichungen xu xo (a) x xu,o x (b) x (c) Abbildung 4.1: Die drei Fälle beim Lösen quadratischer Ungleichungen (ii) Die zur quadratischen Ungleichung x2 − 11x + 24 > 0 gehörende Gleichung x2 − 11x + 24 = 0 hat nach der pq-Formel die beiden Lösungen xu = 3 und xo = 8. Dann ist (−∞, 3) ∪ (8, ∞) die Lösungsmenge der betrachteten quadratischen Ungleichung. (iii) Die quadratische Ungleichung x2 + 1 ≤ 0 hat, wie man leicht erkennt, keine Lösung. Ihre Lösungsmenge ist daher ∅. 4.2 Mehrdimensionale Gleichungs- und Ungleichungssysteme Auch Bestimmungsgleichungen- oder ungleichungen mit n = 2, 3, . . . Unbekannten sind Aussageformen, deren Lösungsmenge eine Menge von n-Tupeln oder nVektoren aus Elementen der Grundmenge ist. Ein Gleichungs- bzw. Ungleichungssystem besteht aus mehreren Bestimmungsgleichungen und -ungleichungen, die dieselben Variablen enthalten. Offenbar können auch Systeme auftreten, die sowohl Gleichungen als auch Ungleichungen enthalten. Die Menge der n-Tupel von Zahlen, die gleichzeitig jede dieser Gleichungen und Ungleichungen erfüllen, heißt auch Lösungsmenge L des Gleichungs- bzw. Ungleichungssystems. Diese können wir für ein System von Gleichungen oder Ungleichungen A1 (x), . . . , Ak (x) mit x ∈ Rn bestimmen, indem wir zunächst deren jeweilige Lösungsmenge Li mit i = 1, . . . , k ermitteln. Es ist dann L = L1 ∩ L2 ∩ . . . ∩ Lk . Beispiel 4.5: (i) Die Bestimmungsgleichung 4x1 + 2x2 = 6 mit Variablen x1 und x2 hat die 22 4 Gleichungen und Ungleichungen Lösungsmenge {(x1 , x2 )|x1 ∈ R ∧ x2 = 3 − 2x1 }. (ii) Die Lösungsmenge der Bestimmungsungleichung x1 x2 > 0 mit Variablen x1 und x2 besteht aus den 2-Tupeln (x1 , x2 ), für die gilt, daß x1 und x2 beide ungleich Null sind und das gleiche Vorzeichen haben. (iii) Die beiden Gleichungen x1 + x2 = 0 und x1 − x2 = 0 bilden gemeinsam ein Gleichungssystem. Die Lösungsmenge der ersten Gleichung ist L1 = {(x1 , x2 )|x1 ∈ R ∧ x2 = −x1 }, die Lösungsmenge der zweiten Gleichung ist L2 = {(x1 , x2 )|x1 ∈ R ∧ x2 = x1 }. Folglich ist die Lösungsmenge des Gleichungssystems L = L1 ∩ L2 = {(0, 0)}. 4.3 Lineare Gleichungssysteme Gleichungssysteme, deren Einzelgleichungen alle in jeder Unbekannten linear sind, heißen lineare Gleichungssyteme. Sie kommen in den Wirtschaftswissenschaften häufig vor und sind wegen der Linearität leicht lösbar. Ein lineares Gleichungssystem hat entweder keine, genau eine oder unendlich viele Lösungen. Beispiel 4.6: (i) Um die Lösungsmenge des Gleichungssystems 2x + 3y = 14 und G1 := 4x − y = 0 G2 := mit den Variablen x und y zu bestimmen, kann man zunächst G2 nach y auflösen und erhält dann y = 4x. Ersetzt man nun in G1 die Variable y durch 4x, ergibt sich 2x + 3(4x) = 14. Die Lösung dieser Gleichung ist x = 1. Mit y = 4x folgt y = 4. Die Lösungsmenge des betrachteten Gleichungssystems ist also {(1, 4)}. (ii) Um die Lösungsmenge des Gleichungssystems x + 2y = 3 und G1 := 2x + 4y − 4 = 0 G2 := zu bestimmen, kann man zunächst G1 nach x auflösen und erhält dann x = 3−2y. Ersetzt man nun in G2 x durch 3 − 2y, folgt die Gleichung 2(3 − 2y) + 4y − 4 = 0, die wegen 2 = 0 keine Lösung hat. Die Lösungsmenge dieses Gleichungssystems ist also leer. Ein effizienteres Verfahren zur Bestimmung der Lösungsmenge linearer Gleichungssysteme, der sogenannte Gauss-Algorithmus, wird in der Vorlesung Mathematik II (Lineare Algebra) behandelt. 23 4 Gleichungen und Ungleichungen x2 4 x2 ≤ 2 + x1 3 x1 < 3 2 1 −2 −1 0 1 2 3 −1 4 5 x1 x2 ≥ 1 − ½ x1 Abbildung 4.2: Lösungsmenge zu Beispiel 4.7 (i) 4.4 Zweidimensionale Ungleichungssysteme Im Fall mit zwei Variablen ist oft eine graphische Analyse in der euklidischen Ebene hilfreich. Es ist üblich, den Rand von Flächen für die Relationen ≤ und ≥ mit durchgezogenen und für < und > mit gestrichelten Linien darzustellen. Beispiel 4.7: (i) Um die Lösungsmenge des Ungleichungssystems U1 : x2 ≤ 2 + x1 U2 : x2 ≥ 1 − 1/2x1 U3 : x1 < 3 mit den Variablen x1 und x2 graphisch zu bestimmen, zeichnen wir zunächst die zu jeder Ungleichung gehörende Gerade in die euklidische Ebene ein (Abbildung 4.2). Die Lösungsmenge zu den jeweiligen Ungleichungen U1 , U2 oder U3 entspricht jeweils der Halbebene rechts unterhalb, rechts oberhalb bzw. links dieser Geraden. Also ist die Lösungsmenge des Ungleichungssystems ist das grau markierte Dreieck ohne den rechten gestrichelten Rand (Abbildung 4.2). (ii) Die Lösungsmenge des Ungleichungssystems U1 : x21 + x22 ≤ 1 x2 ≥ −x1 U2 : 24 4 Gleichungen und Ungleichungen x2 1 x1 2 + x2 2 ≤ 1 −1 0 −1 1 x1 x2 ≥ − x1 Abbildung 4.3: Lösungsmenge zu Beispiel 4.7 (ii) mit Variablen x1 und x2 ist die grau dargestellte Schnittfläche der vom Einheitskreis2 umschlossenen Fläche, welche die Lösungsmenge von U1 darstellt, mit der Halbebene rechts oberhalb der Geraden x2 = −x1 , welche die Lösungsmenge von U2 darstellt (Abbildung 4.3). 2 Ein Kreis mit dem Radius r ∈ R um den Ursprung wird durch die Gleichung x21 + x22 = r2 beschrieben. 25 5 Folgen und Grenzwerte In diesem Kapitel werden Folgen und der für die Analysis grundlegende Begriff des Grenzwerts behandelt. 5.1 Folgen Definition 5.1 (Folge) Eine geordnete (unendliche) Liste von Zahlen (a1 , a2 , . . . , an , . . .) heißt Folge (engl.: sequence) und wird mit (an )n∈N bezeichnet. Dabei heißt n der Index und die an heißen Glieder der Folge. Falls klar ist, daß n ∈ N der Index ist wird meistens die verkürzte Schreibweise (an ) oder einfach an verwendet. Der erste Folgenindex ist oft auch 0 oder jede andere beliebige natürliche Zahl statt 1, also bedeutet oft auch (an ) = (a0 , a1 , . . . , an , . . .). Wir legen uns diesbezüglich nicht fest und verwenden verschiedene Notationen je nach Zusammenhang. Folgen können auf verschiedene Arten dargestellt werden. Falls für eine Folge an ein Folgenglied an durch eine Funktionsgleichung nur in n angegeben ist, heißt dies geschlossene Darstellung. Bei einer rekursiven Darstellung einer Folge wird der Wert der ersten Folgenglieder a1 , . . . , ak angegeben und alle weiteren Folgenglieder n = k + 1, k + 2, . . . durch frühere Folgenglieder ausgedrückt. Besonders einfach ist der Fall, bei dem für alle n ∈ N der Zusammenhang zwischen zwei aufeinander folgenden Folgengliedern an und an+1 über eine Funktionsgleichung beschrieben ist. Wenn klar ist, was mit damit gemeint ist, kann eine Folge auch durch Angabe einiger Folgenglieder und . . . beschrieben werden. Die rekursive Darstellung einer Folge ist oft unmittelbar aus der zu analysierenden Fragestellung heraus gegeben, während die geschlossene Darstellung einfacher zu analysieren ist. Daher ist es offenbar hilfreich, die rekursive Darstellung der betrachteten Folge in eine geschlossene Darstellung zu überführen. Dieses gelingt oftmals, indem man die ersten Folgenglieder notiert und darin eine strukturelle Gesetzmäßigkeit identifiziert, aus der sich eine geschlossene Darstellung der Folge ergibt. Der Beweis, daß die so gefundene geschlossene Darstellung tatsächlich die selbe Folge beschreibt wie die rekursive Darstellung, ist damit noch nicht erbracht, jedoch häufig mit Hilfe eines Induktionsbeweises leicht zu führen. 26 5 Folgen und Grenzwerte Beispiel 5.1: (i) Eine rekursive Darstellung der Folge an = (0, 0, 0, . . .) ist a1 = 0, an+1 = an . Die geschlossene Darstellung dieser Folge ist an = 0. (ii) Die rekursive Darstellung der Folge an = (1, 3, 5, . . .) ist a1 = 1, an+1 = an + 2. Die zugehörige geschlossene Darstellung ist an = 2n − 1. (iii) Bei der Folge (nt)t∈N steht n nicht für den Index der Folge sondern als Symbol für die Folgenglieder. Für eine eindeutige Bedeutung wäre in diesem Fall die weniger genaue Notation (nt) nicht ausreichend. Die ersten fünf Glieder dieser Folge sind n, 2n, 3n, 4n und 5n. (iv) Die Folge an = (1, 2, 3, 5, 8, 13, 21, . . .) besitzt die rekursive Darstellung a0 = 1, a1 = 2, an+2 = an + an+1 . (v) Sei (Kt ) eine Kapitalanlage mit Startkapital K1 = K, die mit einem Zinssatz i pro Periode verzinst wird. Die Folge (Kt )t∈N beschreibt die Wertentwicklung der Kapitalanlage im Zeitablauf. Falls keine Ein- oder Auszahlungen stattfinden, gilt zwischen Kt in Periode t ∈ N und Kt+1 in der Folgeperiode t + 1 die rekursive Beziehung Kt+1 = Kt (1 + i). Aus den ersten vier Gliedern dieser Folge, K1 = K, K2 = K(1 + i), K3 = K(1 + i)2 und K4 = K(1 + i)3 ist leicht erkennbar, daß die geschlossene Darstellung dieser Folge gegeben ist durch Kt = K(1 + i)t−1 . Existiert für eine Folge an ein reelle Zahl c ∈ R, so daß für alle n ∈ N die Beziehung an+1 − an = c gilt, so heißt sie arithmetische Folge. Falls dagegen für eine Folge an ein Konstante c ∈ R existiert, so daß für alle n ∈ N die Beziehung an+1 =c an gilt, so heißt sie geometrische Folge. Die geschlossenen Darstellungen der arithmetischen Folge und der geometrischen Folge (gn ) sind an ist an = c(n − 1) + d und gn = dcn−1 mit c, d ∈ R. Im vorhergehenden Beispiel sind (i),(ii) und (iii) arithmetische Folgen, (v) ist geometrische Folge und (iv) keines von beiden. 27 5 Folgen und Grenzwerte Eine Folge an heißt monoton steigend bzw. streng monoton steigend, (engl.: strictly increasing), wenn für alle n ∈ N gilt an+1 ≥ an (bzw.> für ’streng’). Entsprechend wird fallende Monotonie definiert. Monoton ist eine Folge also genau dann, wenn die Veränderung zwischen zwei aufeinander folgenden Gliedern immer das gleiche Vorzeichen hat bzw. in die gleiche Richtung geht. Die Folge an heißt nach unten bzw. nach oben beschränkt (engl.: bounded from below, above), wenn eine Konstante c ∈ R existiert, so daß für alle n ∈ N gilt an ≥ c (bzw. ≤). Sie heißt beschränkt (engl.: bounded), wenn ein c ∈ R existiert, so daß für alle n ∈ N die Beziehung |an | ≤ c gilt. Die Konstante c wird untere, obere bzw. einfach nur Schranke (engl.: lower bound, upper bound, bound) genannt. Eine Folge an heißt alternierend (engl.: alternating), wenn für alle n ∈ N gilt: an · an+1 < 0, also das Vorzeichen zwischen zwei aufeinander folgenden Folgengliedern alterniert, d.h. sich jeweils abwechselt. Beispiel 5.2: (i) Die Folge n + n1 ist streng monoton steigend. (ii) Die Folge (max{4 − n, 0}), deren erste fünf Glieder 3, 2, 1, 0 und 0 sind, ist monoton aber nicht streng monoton fallend.1 (iii) Die Folge ((−1)n ) ist alternierend und daher weder monoton steigend noch monoton fallend. (iv) Für die Folge an mit an = 3 + 7n existiert mit c = 3 wegen an ≥ c für alle n ∈ N offensichtlich eine untere Schranke. Die Folge ist somit nach unten beschränkt. (v) Die Folge n1 ist wegen 0 ≤ n1 ≤ 1 für alle n ∈ N beschränkt. (vi) Die Folge ((−2)n ) ist alternierend und weder nach unten noch nach oben beschränkt, da ihre Glieder beliebig groß und beliebig klein werden. 5.2 Konvergenz und Grenzwert Von besonderem Interesse im Zusammenhang mit Folgen an ist ihr Verhalten für sehr große n. Insbesondere gilt unser Interesse dem Fall, daß eine Zahl existiert, 1 der sich die Folgenglieder beliebig gut annähern wie die Folge n der Zahl 0. Die Begriffe Konvergenz und Grenzwert präzisieren dieses Verhalten. 1 Dabei nimmt max{x, y} für x ≥ y den Wert x und für x < y den Wert y an. Es ist also beispielsweise max{3, 4} = 4. 28 5 Folgen und Grenzwerte Definition 5.2 (Konvergenz und Grenzwert) Eine Folge (an )n∈N heißt konvergent (engl.: convergent) genau dann, wenn es ein a ∈ R gibt, so daß für alle ε > 0 ein n(ε) > 0 mit |an − a| ≤ ε für alle n ≥ n(ε) existiert. Man schreibt dann lim an = a n→∞ oder an −→ a und sagt, an konvergiere gegen den Grenzwert (engl.: limit) a. Zeichnet man ein Intervall mit Radius ε um a, so müssen alle Folgenglieder außer den ersten n(ε) − 1 in diesem Intervall liegen, gleichgültig wie klein der Radius ε um a gewählt wurde. Mit anderen Worten, eine Folge an konvergiert genau dann gegen a, wenn der Abstand zwischen den Folgengliedern und a ab einem bestimmten n(ε) jedes noch so kleine vorgegebene ε > 0 nicht überschreitet. Beispiel 5.3: (i) Es gilt n1 → 0, da für jedes vorgegebene ε > 0 die gesuchte Grenze durch n(ε) = 1ε gegeben ist, denn für alle n ≥ n(ε) gilt 1 − 0 = 1 ≤ 1 = ε 1 n n ε . (ii) Die konstante Folge (c) mit c ∈ R konvergiert offenbar gegen c. (iii) Die Folgen ((−1)n ) und (2n ) konvergieren nicht. Satz 5.1 Jede Folge besitzt höchstens einen Grenzwert. Beweis. Indirekt: Angenommen, eine Folge an habe mehr als einen Grenzwert also Grenzwerte a und a mit a = a . Sei 1 ε = |a − a| 4 (vgl. Abbildung 5.1). Dann existiert wegen an −→ a ein n(ε) mit |an − a| ≤ ε für alle n ≥ n(ε). Außerdem existiert wegen an −→ a auch ein n (ε) mit |an − a | ≤ ε für alle n ≥ n (ε). Sei nun m = max{n(ε), n (ε)}. Dann ist offenbar |am −a|+|am −a | < 2ε. Die sogenannte Dreiecksungleichung sagt aus, daß für alle x, y ∈ R gilt |x+y| ≤ |x|+|y|. Daher ist |am −a|+|am −a | = |am −a|+|a −am | ≥ |am − a + a − am | = |a − a|, so daß insgesamt folgt: |a − a| ≤ 2ε 29 5 Folgen und Grenzwerte 2ε 2ε a a’ |a’ − a| = 4εε Abbildung 5.1: Veranschaulichung des Beweises von Satz 5.1 Dieses widerspricht aber ε = 14 |a − a|. Satz 5.1 ist damit bewiesen. Während mit dem letzten Satz gezeigt wurde, daß eine Folge höchstens einen Grenzwert besitzt, werden in den folgenden beiden Sätzen ohne Beweis notwendige bzw. notwendige und hinreichende Bedingungen genannt, unter denen eine Folge konvergiert und also überhaupt einen Grenzwert hat. Satz 5.2 Für jede Folge an gilt: an konvergiert ⇒ an ist beschränkt. Satz 5.3 Für jede monoton steigende Folge an gilt: an konvergiert ⇔ an ist nach oben beschränkt. Für jede monoton fallende Folge bn gilt: bn konvergiert ⇔ bn ist nach unten beschränkt. Beispiel 5.4: 1 1 (i) Die Folge an mit an = n1+n 2 en + 1 = n2 en + nen + 1 fällt offenbar monoton. Sie ist wegen an ≥ 1 nach unten beschränkt und daher wegen Satz 5.3 konvergent. (ii) Die Folge (n) steigt monoton und ist nicht nach oben beschränkt. Nach Satz 5.3 konvergiert sie also nicht. Bei einer konvergenten Folge richtet sich das Interesse naturgemäß meistens auf ihren Grenzwert. Besonders für komplizierte Folgen kann es aber sehr aufwendig sein, ihre Konvergenz allein unter Verwendung von Definition 5.2 zu untersuchen. Der folgende Satz macht Aussagen über die Konvergenz und den Grenzwert von Folgen, die mittels der vier Grundrechenarten aus anderen konvergenten Folgen zusammengesetzt sind. 30 5 Folgen und Grenzwerte Satz 5.4 Seien an und bn zwei Folgen mit an −→ a und bn −→ b. Dann gilt i) an + bn −→ a + b, ii) an − bn −→ a − b, iii) an · bn −→ a · b und iv) an bn −→ ab , für b = 0. Nachfolgend ist nur der Beweis der Teilaussage i) von Satz 5.4 angegeben. Die Beweise der anderen Teilaussagen entsprechen diesem. Beweis. Betrachte ein vorgegebenes ε > 0. Wegen an −→ a existiert ein na (ε) mit ε |an − a| < 2 für alle n ≥ na (ε). Analog existiert wegen bn −→ b ein nb (ε) mit |bn − b| < ε 2 für alle n ≥ nb (ε). Sei n(ε) = max {na (ε), nb (ε)}. Dann gilt für alle n ≥ n(ε) |(an + bn ) − (a + b)| = |(an − a) + (bn − b)| ≤ |(an − a)| + |(bn − b)| (Dreiecksungleichung) < 2ε + 2ε = ε. Die Konvergenz von (an + bn ) gegen a + b ist damit bewiesen. Beispiel 5.5: 3 2 +1 (i) Die Folge an mit an = 2n3n−n konvergiert gemäß Satz 5.4 gegen 23 , wie 3 +n sich aus der Darstellung der Folgenglieder in der Form →0 →0 1 1 2 − + 3 n n an = 1 3 + 2 n →2 →3 →0 und den 1 angegebenen Grenzwerten der konvergenten Einzelfolgen (2), und n2 ergibt. 31 1 1 , n3 ,(3) n 5 Folgen und Grenzwerte 2 (ii) Die Folge an mit an = 6nn5−2 konvergiert gemäß Satz 5.4 gegen 0, wie aus der Darstellung der Folgenglieder in der Form →0 →0 6 2 − 5 3 n an = n 1 →1 zu sehen ist. Alternativ zur Dezimalschreibweise lassen sich reelle Zahlen mit Hilfe von Folgen und Konvergenz definieren indem man verschiedene konvergente Folgen von rationalen Zahlen miteinander identifiziert und einer reellen Zahl zuordnet, falls ihre Differenz gegen 0 konvergiert.2 Mit anderen Worten, zwei konvergente Folgen an und bn heißen äquivalent, falls an − bn −→ 0. Alle zueinander äquivalenten konvergenten Folgen bilden eine Äquivalenzklasse. Die Menge aller konvergenten Folgen rationaler Zahlen zerfällt also in – d.h. ist disjunkte Vereinigung von – Äquivalenzklassen von konvergenten Folgen, wobei jeweils zwei Repräsentanten der gleichen Äquivalenzklasse gegen den gleichen Grenzwert streben. Die reellen Zahlen sind also die Menge der Äquivalenzklassen konvergenter Folgen rationaler Zahlen. Die im Kapitel Zahlen eingeführte Dezimalschreibweise mit Zehnerpotenzen ist jeweils ein Repräsentant einer solchen Äquivalenzklasse, also nur eine von vielen Möglichkeiten, reelle Zahlen mit Hilfe von rationalen Zahlen zu approximieren. Satz 5.4 zeigt, daß die Rechenregeln der rationalen Zahlen sich auf die reellen Zahlen übertragen. 5.3 Grenzwerte im Unendlichen Folgen, die jede beliebig große Grenze m ab einem gewissen n(m) ∈ N nicht mehr unterschreiten oder aber jede beliebig kleine Grenze m ab einem gewissen n(m) ∈ N nicht mehr überschreiten streben offenbar gegen ∞ bzw. −∞. Da dieses keine reellen Zahlen sind, nennen wir sie uneigentliche Grenzwerte. Definition 5.3 (Uneigentlicher Grenzwert) Eine Folge an hat den uneigentlichen Grenzwert ∞, wenn für jedes m ∈ R ein n(m) mit an ≥ m für alle n ≥ n(m) existiert. Man schreibt limn→∞ an = ∞ oder an −→ ∞. 2 Um reelle Zahlen zu definieren, darf deren Definition nicht schon reelle Zahlen verwenden. Unsere bisherige Definition von Konvergenz beruht aber auf einem reellen Grenzwert. In diesem Zusammenhang verwendet man daher eine alternative Definition von Konvergenz, die sogenannte Cauchy-Konvergenz, bei der eine Folge an konvergiert falls für jedes ε > 0 ein n(ε) existiert, so daß für alle Folgenglieder an , am mit n, m ≥ n(ε) gilt |an − am | ≤ ε. 32 5 Folgen und Grenzwerte Der uneigentliche Grenzwert −∞ wird entsprechend definiert. Beispiel 5.6: (i) Die Folge (n) hat den uneigentlichen Grenzwert ∞. (ii) Die Folge 0, 2, 0, 4, 0, 6, 0, . . ., konvergiert nicht, auch nicht gegen einen uneigentlichen Grenzwert. Der folgende Satz zeigt, daß mit gewissen Einschränkungen die Rechenregeln der reellen Zahlen auf die uneigentlichen Zahlen ∞ bzw. −∞ erweiterbar sind. Satz 5.5 Seien an und bn Folgen. Dann gilt: i) an −→ ∞ ⇒ −an −→ −∞ ii) an −→ ∞ ∧ bn nach unten beschränkt ⇒ an + bn −→ ∞ iii) an −→ −∞ ∧ bn nach oben beschränkt ⇒ an + bn −→ −∞ iv) an −→ ∞ (−∞) ∧ bn mit unterer Schranke s > 0 ⇒ an bn −→ ∞ (−∞) v) an −→ ∞ (−∞) ∧ bn mit oberer Schranke s < 0 ⇒ an bn −→ −∞ (∞) vi) an −→ 0 ∧ ∀n ∈ N an > (<) 0 ⇒ 1 an −→ ∞ (−∞) vii) (an −→ ∞ ∨ an −→ −∞) ∧ bn beschränkt ⇒ bn an −→ 0 viii) an −→ ∞ ∧ bn beschränkt ∧ ∀n ∈ N bn > (<) 0 ⇒ an bn ix) an −→ −∞ ∧ bn beschränkt ∧ ∀n ∈ N bn > (<) 0 ⇒ −→ ∞ (−∞) an bn −→ −∞ (∞) Die Aussage an −→ ∞ ⇒ −an −→ −∞ kann man verkürzt schreiben als (−1)∞ = −∞. Beispiel (i) Die ∞ strebt (ii) Die 5.7: Folge (n(sin n + 2)) strebt gemäß Satz 5.5 iv) gegen ∞, da (n) gegen und (sin n+ 2) etwa durch 1 > 0 nach unten beschränkt ist. (−1)n Folge konvergiert gemäß Satz 5.5 vii) gegen 0. n Den Abschluß dieses Abschnitts bildet Satz 5.6, der das Konvergenzverhalten einiger häufig auftretender Folgen bzw. Klassen von Folgen zusammenfaßt. Satz 5.6 Es gilt: 33 5 Folgen und Grenzwerte i) nr −→ 0 für r < 0 und r ∈ Q ii) nr −→ ∞ für r > 0 und r ∈ Q iii) nr q n −→ 0 für r ∈ Q und |q| < 1 iv) nr q n −→ ∞ für r ∈ Q und q > 1 √ v) n c −→ 1 mit c > 0 √ vi) n n −→ 1 n vii) 1 + n1 −→ e (Eulersche Zahl) 5.4 Reihen Eine spezielle Klasse von Folgen sind die sogenannten Reihen. Ihre Glieder werden durch die Summen der Glieder einer anderen Folge gebildet. Definition 5.4 (Reihe) Sei an eine Folge. Dann heißt die Folge (sk )k∈N mit sk = k an n=1 für alle k ∈ N zur Folge an gehörige Reihe (engl.: series). Ihre Glieder sk = k n=1 an bezeichnet man auch als Partialsummen. Natürlich gelten alle Begriffe und Sätze ∞ aus den vorangegangenen Abschnitten auch für Reihen. eine Reihe n=1 an konvergent, wenn die Folge der Par So heißt k konvergiert. Der Grenzwert dieser Folge und häufig tialsummen n=1 an k∈N auch die Reihe selbst wird mit ∞ n=1 an bezeichnet. Eine wichtige notwendige Bedingung für die Konvergenz einer Reihe gibt der folgende Satz. Satz 5.7 Konvergiert die Reihe ∞ n=1 an , dann konvergiert die Folge an gegen 0. Er ist insbesondere dafür geeignet, die Nicht-Konvergenz oder Divergenz einer Reihe zu zeigen. Der Begriff Divergenz wird in der Literatur uneinheitlich benutzt, manchmal nur für Konvergenz gegen ∞ oder −∞, manchmal aber allgemeiner für Nicht-Konvergenz gegen eine reelle Zahl. Wir werden ihn ab hier nur in letzterem Sinne benutzen, also als Synonym für Nicht-Konvergenz gegen eine reelle Zahl. 34 5 Folgen und Grenzwerte Beispiel 5.8: 1 (i) Die Reihe ∞ n=1 (1 + n ) divergiert gemäß Satz 5.7. ∞ n (ii) Die Reihe n=1 (−1) , deren erste vier Partialsummen −1, 0, −1 und 0 sind, divergiert. ∞ 1 (iii) Die Reihe n=1 2n−1 konvergiert gegen 2, wie die Beobachtung deutlich 1 macht, daß für alle k ∈ N mit der Addition von 2k−1 der Abstand zwischen der k−1 1 k − 1-ten Partialsumme n=1 2n−1 und 2 halbiert wird. Wie bereits erwähnt, sind alle Sätze über Folgen auch für Reihen anwendbar, da Reihen spezielle Folgen sind. Der folgende Satz, der bei der Bestimmung des Grenzwerts von Reihen hilfreich ist, die linear aus anderen konvergenten Reihen gebildet werden, folgt aus Satz 5.4. ∞ a und Satz 5.8 Seien ∞ n n=1 n=1 bn zwei konvergente Reihen und α, β ∈ R. Dann konvergiert auch die Reihe ∞ n=1 (αan + βbn ) und es gilt: ∞ (αan + βbn ) = α n=1 ∞ an + β n=1 ∞ bn . n=1 In den Wirtschaftswissenschaften treten häufig geometrische Reihen auf, welche durch die Partialsummen der Glieder geometrischer Folgen definiert sind. Definition 5.5 (Geometrische Reihe) Sei an eine geometrische Folge. Dann a wird ∞ n=1 n geometrische Reihe (engl.: geometric series) genannt. n−1 mit c, d ∈ R \ {0} Die geometrische Reihe kann stets in der Form ∞ n=1 dc geschrieben werden. Ihr Konvergenzverhalten in Abhängigkeit von c und d beschreibt der folgende Satz. Satz 5.9 Die geometrische Reihe ∞ dcn−1 n=1 mit c, d ∈ R \ {0} konvergiert für |c| < 1 gegen d . 1−c Für |c| ≥ 1 konvergiert sie nicht gegen eine reelle Zahl. 35 5 Folgen und Grenzwerte Beweis. Sei sk = kn=1 dcn−1 die k-te Partialsumme der geometrischen Reihe ∞ n−1 . Dann gilt für alle k ∈ N n=1 dc sk − csk = k dc n−1 −c n=1 = k dcn−1 n=1 k dcn−1 − n=1 k+1 dcn−1 n=2 = d − dc . k Folglich hat die Folge (sk )k∈N die geschlossene Darstellung sk = Aus dieser folgt, daß divergiert. ∞ n=1 d − dck . 1−c dcn−1 für |c| < 1 gegen d 1−c konvergiert und für |c| ≥ 1 Das nachfolgende Beispiel ist eine Anwendung von Satz 5.9 auf in der Praxis häufig auftretende Fälle, in denen eine Umindizierung der zu untersuchenden Reihe hilfreich ist. Beispiel 5.9: ∞ 1 n−1 (i) konvergiert gegen 1−2 1 = 4. n=1 2 2 2 ∞ 8 n−1 divergiert. (ii) 7 1 n−1 n=1 ∞ 1 n = ∞ konvergiert gegen 1−4 1 = 6. (iii) n=0 4 3 n=1 4 3 3 ∞ 2 n−1 2 ∞ 2 n−1 2 1 = konvergiert gegen = 23 . (iv) n=2 5 n=1 5 5 5 1− 2 5 Als Anwendung geometrischer Reihen in den Wirtschaftswissenschaften betrachten wir sogenannte Multiplikatoreffekte in einem stilisierten Modell zu den Möglichkeiten der Konjunkturbelebung durch staatliche Ausgabenprogramme. Beispiel 5.10: Betrachtet wird eine Volkswirtschaft, in der das aggregierte Konsumverhalten aller Haushalte in einer Periode t > 1 durch die Gleichung Ct = c(1 − τ )Yt−1 mit Ct als Konsumausgaben in Periode t, mit c ∈ (0, 1) als Konsumquote, mit τ ∈ (0, 1) als Einkommenssteuersatz und Yt−1 als Gesamteinkommen vor Steuern aller Haushalte in Periode t − 1 beschrieben sei. Es werde also angenommen, die Haushalte würden in jeder Periode einen Anteil c ihres in der Vorperiode 36 5 Folgen und Grenzwerte erzielten Einkommens nach Steuern konsumieren und den Rest sparen. Dann sind ∆Ct = Ct − Ct−1 die Veränderung der Konsumausgaben und ∆Yt = Yt − Yt−1 die Veränderung des Einkommens zwischen zwei aufeinander folgenden Perioden. Also gilt ∆Ct = c(1 − τ )∆Yt−1 . Zur Vereinfachung nehmen wir an, daß zusätzliches Einkommen der Haushalte nur durch zusätzlichen Konsum erzeugt wird, also keine anderen einkommenswirksamen Effekte auftreten, etwa im Unternehmenssektor oder im Ausland. Dann ist ∆Yt = ∆Ct und es folgt insgesamt ∆Yt = c(1 − τ )∆Yt−1 . Angenommen, der Staat interveniere in diese Volkswirtschaft, indem er in Periode 1 einmalig den Betrag G etwa für Arbeitsbeschaffungsmaßnahmen einbringt, also ∆Y1 = G. Dann beschreibt die Folge (∆Yt )t∈N mit ∆Y1 = G ∆Y2 = c(1 − τ )∆Y1 ∆Y3 = c(1 − τ )∆Y2 .. . = c(1 − τ )G = (c(1 − τ ))2 G ∆Yt = c(1 − τ )∆Yt−1 = (c(1 − τ ))t−1 G die Einzeleffekte dieser Intervention in jeder Periode t und die Reihe ∞ t=1 ∆Yt = ∞ (c(1 − τ ))t−1 G t=1 ihren Gesamteffekt ∆Y . Da c ∈ (0, 1) und τ ∈ (0, 1) ist auch 0 < c(1 − τ ) < 1. Also konvergiert die betrachtete Reihe gemäß Satz 5.9 gegen ∆Y = G 1 . 1 − c(1 − τ ) Daraus koennte man den Schluss ziehen, daß die Einkommenswirkung einer solchen konjunkturbelebenden Maßnahme des Staates auf dem Wege der Ausgabenpolitik aufgrund des sogenannten Multiplikatoreffekts die Kosten dieser Staatsintervention wegen 1 >1 1 − c(1 − τ ) übersteigt. Außerdem folgt aus dieser Argumentation, daß die Wirkung einer solchen Maßnahme umso größer ausfällt, je größer die Konsumquote c und je kleiner der Einkommenssteuersatz τ ist. 37 5 Folgen und Grenzwerte Im abschließende Beispiel studieren wir eine einfachen Variante eines Gedankenexperiments, des sogenannten Cobb-Web-Modells, welches dynamische Anpassungsprozesse in Märkten beschreibt, deren Angebot mit Zeitverzögerung auf Preisänderungen reagiert. Beispiel 5.11: Betrachtet werde ein Markt, dessen Angebot S und Nachfrage D linear im Preis p seien, also S = a + bp mit a, b ∈ R und b > 0 und D = c − dp mit c, d ∈ R und d > 0. Sei dieser Markt zunächst ein sogenannter vollkommener Markt, der unter anderem durch eine unendlich hohe Reaktionsgeschwindigkeit aller Marktteilnehmer bezüglich Änderungen von Marktparametern charakterisiert ist. Unter diesen Voraussetzungen werden Angebot und Nachfrage über Preisanpassungen ohne Zeitverzögerung ausgeglichen. Also bildet sich unmittelbar ein Preis p̄, für den die gehandelte Menge x̄ gleich der angebotenen gleich der nachgefragten Menge ist, also x̄ = S = D (vgl. Abbildung 5.2 (a)). Dann ist p̄ = c−a b+d und x̄ = ad + bc . b+d Die so definierte Preis-Mengen-Kombination (p̄, x̄) wird als Marktgleichgewicht bezeichnet, da zu diesem Preis kein Marktteilnehmer einen Anreiz für Verhaltensänderungen hat. Wir nehmen nun an, die Angebotsseite reagiere etwa wegen zeitlich ausgedehnter Produktionsprozesse mit Verzögerung auf Preisänderungen. Seien St , Dt und pt Angebot, Nachfrage und Preis in Periode t ∈ N. Es sei St = a + bpt−1 und Dt = c − dpt , das Angebot richte sich also nach dem Marktpreis der Vorperiode, während die Nachfrage wie zuvor vom gegenwärtigen Preis abhänge. Der Marktmechanismus bringe in jeder Periode t ∈ N Angebot und Nachfrage über den Preis pt in Einklang, es gelte also also stets xt = St = Dt . Dann gilt für die Preise zweier aufeinander folgender Perioden pt = c−a b − pt−1 = α − βpt−1 , d d 38 5 Folgen und Grenzwerte p pt S = a + bp p0 p2 p p1 D = c − dp 0 St = a + bpt−11 x Dt = c − dpt 0 x x2 (a) x3 x1 xt (b) pt pt St = a + bpt−11 p2 St = a + bpt−11 p0 = p2 p0 p1 p1 Dt = c − dpt Dt = c − dpt 0 x2 x1 x3 0 xt (c) x2 x1 = x3 (d) Abbildung 5.2: Das Cobb-Web-Modell 39 xt 5 Folgen und Grenzwerte wobei α = c−a und β = d t = 0, dann gilt b d sind. Sei p0 der Marktpreis in der Ausgangsperiode p1 = α − βp0 p2 = α − βp1 = α − αβ + β 2 p0 p3 = α − βp2 = α − αβ + αβ 2 − β 3 p0 .. . pt = α − βpt−1 = α ti=1 (−β)i−1 + (−β)t p0 . Der Preispfad im Zeitablauf wird also durch die Folge t (pt )t∈N = α (−β)i−1 + (−β)t p0 i=1 t∈N beschrieben. Sie konvergiert gemäß Satz 5.9 für β < 1 gegen c−a = p̄ (vgl. Abbilb+d dung 5.2 (b)) und divergiert für β ≥ 1 (vgl. Abbildungen 5.2 (c) und (d)). Die Folge (xt )t∈N = (c − dpt )t∈N , die den zugehörigen Mengenpfad im Zeitablauf beschreibt, konvergiert bzw. divergiert unter der selben Bedingung. Die betrachtete Variante des Cobb-Web-Gedankenexperimentes erlaubt also die Beobachtung, daß ein Markt, in dem das Angebot mit zeitlicher Verzögerung auf den Preis reagiert, unter sonst gleichen Bedingungen sich langfristig genau dann auf dasselbe Gleichgewicht zu bewegt wie ein Markt mit unendlicher hoher Reaktionsgeschwindigkeit aller Marktteilnehmer, wenn β = db < 1 ist. Das bedeutet, daß die Steigung b der Angebotsfunktion dem Betrage nach kleiner als die Steigung d der Nachfragefunktion sein muß. Anderenfalls erwarten wir nicht, daß sich langfristig ein gleichgewichtiger Zustand einstellt. 5.5 Mehrdimensionale Folgen Im vorhergehenden Cobb-Web-Gedankenexperiment-Beispiel haben wir zwei Folgen, nämlich den Preis- und den Mengenpfad gleichzeitig betrachtet. Die Folge xt , pt kann daher als zweidimensionale Folge von Punkten oder Vektoren in R2 interpretiert werden. Eine naheliegende Verallgemeinerung von Definition 5.1 auf Folgen in Rk mit k ∈ N ist die folgende Definition. Definition 5.6 (Mehrdimensionale Folge) Eine geordnete unendliche Liste von reellen k-Vektoren (a1 , a2 , . . . , an , . . .) heißt mehrdimensionale (engl.: multi-dimensional) Folge und wird mit (an )n∈N bezeichnet. Die k-Vektoren an = (an1 , . . . , ank ) ∈ Rk heißen Glieder der Folge. 40 5 Folgen und Grenzwerte Eine mehrdimensionale Folge in Rk kann also als eine Zuordnung interpretiert werden, die jedem n ∈ N einen Vektor aus Rk zuordnet. Wir schreiben den Folgenindex hier als Oberindex um den Unterindex für die Indizierung der Komponenten freizugeben.3 2n Beispiel 5.12: ist eine Folge in R2 . Ihre ersten drei Glieder sind n + n1 6 2 4 und . , 3 + 13 2 2 + 12 Auch für mehrdimensionale Folgen (an ) ist ihr Verhalten für große n von Interesse. Um die in Definition 5.2 eingeführten Begriffe der Konvergenz und des Grenzwerts auf Vektoren übertragen zu können, brauchen wir zunächst ein Maß für den Abstand zweier Vektoren x und y mit x, y ∈ Rk . Ein solches Maß für den Abstand ist die Euklidische Metrik.4 Sie ist für alle k ∈ N und alle x, y ∈ Rk definiert als k ||x − y|| = (xi − yi )2 i=1 und somit wegen (x − y)2 = |x − y| für alle x, y ∈ R eine Verallgemeinerung des eindimensionalen Abstandes. Mit der Euklidischen Metrik lautet die Verallgemeinerung von Definition 5.2 folgendermaßen. Definition 5.7 (Konvergenz und Grenzwert) Eine Folge an in Rk mit k ∈ N heißt konvergent, wenn ein a ∈ Rk existiert, so daß für alle ε > 0 ein n(ε) ∈ N existiert mit ||an − a|| < ε für alle n ≥ n(ε). Man schreibt lim an = a n→∞ oder an −→ a. Der Vektor a heißt Grenzwert. Der nachfolgende, ohne Beweis angegebene Satz5 führt die Konvergenz einer mehrdimensionalen Folge bezüglich der Euklidischen Metrik auf die Konvergenz mehrerer eindimensionaler Folgen im Sinne der Definition 5.2 zurück. Er läßt daher die Verwendung aller bisher vorgestellten Sätze für die Untersuchung der Konvergenz auch für mehrdimensionale Folgen zu. 3 Es gibt verschiedene Möglichkeiten der Mehrfachindizierung. Die Euklidische Metrik ist nur eines unter vielen Abstandsmaßen. Ein anderes ist die sogenannte Manhatten-Metrik, bei der die einfache Summe der Abstände in allen Komponenten gebildet wird. Sie heißt Manhatten-Metrik, da man wie in Manhatten nicht diagonal geht, sondern nur entlang der Koordinatenachsen. 5 Der an einem Beweis interessierte Leser sei auf Blume und Simon (1994, S. 262) verwiesen. 4 41 5 Folgen und Grenzwerte Satz 5.10 Eine Folge (an ) in Rk mit k ∈ N konvergiert genau dann gegen a ∈ Rk , wenn (ani )n∈N gegen ai ∈ R konvergiert für alle i ∈ {1, . . . , k}. Beispiel 5.13: 2n divergiert gemäß Satz 5.10 wegen 2n −→ ∞. (i) Die Folge 1 n n 1+n1 e (ii) Die Folge konvergiert gemäß Satz 5.10 gegen . 1 n 0 2 42 6 Funktionen einer Variablen Die Wirtschaftswissenschaften sind voller Funktionen, z.B. Zielfunktionen, Nutzenfunktionen, Reaktionsfunktionen, Angebots- und Nachfragefunktionen und vielen anderen. Da Funktionen grundlegend für alles Weitere sind, studieren wir zunächst deren einfachste Art, Funktionen einer Variablen. Wirtschaftswissenschaftler benutzen diese einfachsten Funktionen alltäglich. Zusätzlich ist deren gründliches Verständnis eine hilfreiche Vorübung für die ebenfalls alltäglichen, aber allgemeineren und also abstrakteren Funktionen mehrerer Variablen und die daraus abgeleiteten Konzepte. 6.1 Grundbegriffe Definition 6.1 (Funktion) Seien X und Y zwei beliebige nichtleere Mengen. Eine Funktion ist eine Vorschrift f , die jedem x ∈ X genau ein y ∈ Y zuordnet. Wir schreiben f : X → Y oder f x −→ y oder y = f (x). Die Menge Def(f ) = {x ∈ X|∃y ∈ Y, y = f (x)} heißt Definitionsbereich (engl.: domain), die Menge Wert(f ) = f (X) = {y ∈ Y |∃x ∈ X, y = f (x)} ⊆ Y Wertebereich (engl.: range). Die Variable x wird auch Argument (engl.: argument) genannt und y Funktionswert (engl.: value). Falls X ⊆ R und Y ⊆ R Teilmengen der reellen Zahlen sind, heißt f reellwertige Funktion einer Variablen. Die eine Variable und die Reellwertigkeit in der Definition beziehe sich also in diesem Kapitel sowohl auf den Definitionsbereich als auch auf den Wertebereich. Für eine Funktion f : R → R heißen alle x ∈ R mit f (x) = 0 Nullstellen von f und f (0) y-Achsenabschnitt oder einfach Achsenabschnitt. Warum kann eine Funktion keine bzw. mehr als eine Nullstelle haben aber niemals mehr als einen Achsenabschnitt? Beispiel 6.1: (i) Die Funktion g : [−1, 1] → R mit g(x) = 5x + 1 hat den Definitionsbereich [−1, 1], den Wertebereich [−4, 6], die Nullstelle − 15 und den Achsenabschnitt 1. 43 6 Funktionen einer Variablen Ihr Funktionswert vom Argument x = 12 ist g( 12 ) = 72 . (ii) Es gibt keine Funktion, die jedem deutschen Staatsbürger die Postleitzahl seines ersten Wohnsitzes zuordnet, da nicht jeder deutsche Staatsbürger einen ersten Wohnsitz hat. (iii) Eine Vorschrift, die jedem AOL-Nutzer eine Email-Adresse zuordnet, unter welcher dieser Nutzer erreichbar ist, ist keine Funktion, da ein AOL-Nutzer mehrere Email-Adressen besitzen kann. (iv) Sei f (x) = 4x2 − 1 mit Definitionsbereich R. Dann ist der Wertebereich gegeben durch [−1, ∞). Die Nullstellen von f sind 12 und − 12 und der Achsenabschnitt ist −1. (v) Sei h : R → R mit h(x) = x1 , dann ist Def(h) = Wert(h) = R \ {0}. 6.2 Graphische Darstellung Funktionen mit R als Definitions- und Wertebereich kann man hervorragend in der Ebene, auf einem Papier oder an der Tafel darstellen. In einem Koordinatensystem wird meistens der Wert der unabhängigen Variablen horizontal entlang der x-Achse dieses Koordinatensystems und der Wert der abhängigen Variablen vertikal entlang der y-Achse aufgetragen.1 die Menge Graph(f ) = {(x, y)|x ∈ D ∧ y = f (x)} zur Funktion f : D → W heißt Graph von f . Beispiel 6.2: Abbildung 6.1 zeigt die Graphen der Funktionen y = 12 x + 1 und y = (x − 1)2 . 6.3 Eigenschaften von Funktionen Eine Funktion f : R → R heißt monoton steigend, wenn für alle x1 , x2 ∈ R mit x2 > x1 die Ungleichung f (x2 ) ≥ f (x1 ) gilt. Die Funktion monoton fallend, wenn für alle x1 , x2 ∈ R mit x2 > x1 die Ungleichung f (x2 ) ≤ f (x1 ) gilt. Ersetzt man in diesen beiden Ungleichungen die Relationen ≥ und ≤ durch > bzw. <, so erhält man die Definitionen für strenge Monotonie. Ferner heißt eine Funktion f : R → R konvex, wenn für alle x1 , x2 ∈ R und alle a ∈ (0, 1) 1 Die x-Achse wird oft auch als Abszisse und die y-Achse als Ordinate bezeichnet. In den Wirtschaftswissenschaften wird aus historischen Gründen oftmals, insbesondere bei Angebotsund Nachfragefunktionen entgegen der mathematischen Konvention die unabhängige Variable auf der y-Achse und die abhängige Variable auf der x-Achse aufgetragen. 44 6 Funktionen einer Variablen y y 3 −1 3 y =1/2 x + 1 y =(xx−1)2 2 2 1 1 0 1 2 3 x −1 −1 0 1 2 3 x −1 (a) (b) Abbildung 6.1: Graphen zu den Funktionen y = 12 x + 1 und y = (x − 1)2 die Ungleichung f (ax1 + (1 − a)x2 ) ≤ af (x1 ) + (1 − a)f (x2 ) gilt. Die Funktion heißt konkav, wenn für alle x1 , x2 ∈ R und alle a ∈ (0, 1) die Ungleichung f (ax1 + (1 − a)x2 ) ≥ af (x1 ) + (1 − a)f (x2 ) gilt. Ersetzt man wieder in den beiden Ungleichungen die Relationen ≤ und ≥ durch < bzw. >, so erhält man entsprechend die beiden Definitionen für strenge Konvexität bzw. Konkavität. Die beiden Begriffe Konvexität und Konkavität werden in Abbildung 6.2 veranschaulicht. Offenbar verläuft für konvexe Funktionen die Verbindungslinie zweier beliebiger Punkte des Graphen der Funktion stets oberhalb des Graphen (a), und für konkave Funktionen stets darunter (b). Beispiel 6.3:√ (i) f (x) = x mit [0, ∞) als Definitionsbereich ist streng monoton steigend und konkav. (ii) g(x) = −x + 2 ist streng monoton fallend, als lineare Funktion zugleich konkav und konvex, aber dadurch weder streng konkav noch streng konvex. In Abschnitt 6.1 wurde als charakteristisches Merkmal einer Funktion genannt, daß sie jedem Argument aus dem Definitionsbereich eindeutig einen Funktionswert aus dem Wertebereich zuordnet. Gilt außerdem, daß eine Funktion jedem Element des Definitionsbereichs einen Funktionswert zuordnet, den sie keinem anderen Element des Definitionsbereichs zuordnet, so heißt diese Funktion injektiv oder eineindeutig. Für jede injektive Funktion f ist die Umkehrfunktion f −1 gegeben als die Funktion, die jedem Element y = f (x) des Wertebereichs von f das Element x im Definitionsbereich von f zuordnet. Es gilt also für alle 45 6 Funktionen einer Variablen y y f(x) 3 −1 3 2 2 1 1 0 −1 x1 1 2 x2 xa = ax1+ (1−a))x2 3 x −1 0 −1 (a) f(x) x1 1 2 x2 xa = ax1+ (1−a))x2 3 x (b) Abbildung 6.2: Konvexität und Konkavität Elemente des Definitionsbereichs von f f −1 (f (x)) = x. Beispiel 6.4: (i) f (x) = 2x + 6 ist eineindeutig. (ii) g(x) = x2 ist nicht eineindeutig. (iii) Die Umkehrfunktion g −1 der Funktion g(x) = 3x − 9 erhält man durch Auflösen nach x. Sie ist x = g −1 (y) = 13 y + 3. (iv) Die Umkehrfunktion der Funktion h : R+ → R mit h(x) = x2 ist h−1 : R → √ R+ mit h−1 (y) = y. Graphisch entspricht die Umkehrfunktion einer Vertauschung der x- und y-Achsen und einer Spiegelung des Graphen an der 45 Linie. 1 (v) Achtung, die Umkehrung f −1 (y) und multiplikative Inversion f (x) werden bisweilen miteinander verwechselt, haben aber nichts miteinander zu tun. Man überprüfe das für die eben genannten Beispiele. 6.4 Grenzwerte und Stetigkeit Viele Definitionen und Aussagen in den Wirtschaftswissenschaften beziehen sich auf Funktionen ohne Sprünge, deren Graphen man zeichnen kann, ohne den Stift abzusetzen.2 Diese Eigenschaft heißt Stetigkeit und hängt eng mit dem Begriff der Konvergenz zusammen. 2 In Kapitel 9 werden wir lernen daß die mit dem Absetzen eines Stiftes verbundene Intuition nicht nur ihre Grenzen hat sondern sogar falsch sein kann. 46 6 Funktionen einer Variablen Definition 6.2 (Grenzwert einer Funktion) Der Grenzwert ŷ einer Funktion f : R → R an der Stelle x̂ existiert, falls für jede Folge (xn )n∈N mit xn −→ x̂ die Folge (f (xn ))n∈N stets gegen den selben Wert ŷ konvergiert. Man schreibt in diesem Fall lim f (x) = ŷ. x→x̂ Definition 6.3 (Stetigkeit) Die Funktion f heißt stetig an der Stelle x̂, falls limx→x̂ f (x) existiert und lim f (x) = f (x̂). x→x̂ Die Funktion f heißt stetig auf A ⊆ R, falls f stetig ist für alle x̂ ∈ A Beispiel 6.5: (i) Die Funktion f (x) = 1/x mit dem Definitionsbereich R\{0} ist nicht stetig, da man, um sie zu zeichnen, beim Überqueren der y-Achse den Stift absetzen muß. Um das gemäß unserer Definition formal zu erkennen, betrachte die Folge xn = (− n1 )n mit limn→∞ xn = 0. Dann ist (f (xn )) = (−n)n , was nicht konvergiert. (ii) Sei [x] für alle x ∈ R die größte ganze Zahl n ∈ Z, für die n ≤ x gilt. Der Graph der Funktion f (x) := [x] hat die Form einer Treppe (ohne vertikale Striche). f ist also nicht stetig. Man kann Definition 6.2 in der Art erweitern, daß für (xn )n∈N und (f (xn ))n∈N auch solche Folgen zugelassen werden, die gegen ∞ oder −∞ divergieren. Durch diese Erweiterung können zusätzliche Fälle auftreten, die in der folgenden Übersicht zusammengestellt sind. f (xn ) −→ a xn −→ x̄ lim f (x) = a xn −→ ∞ lim f (x) = a f (xn ) −→ ∞ lim f (x) = ∞ lim f (x) = ∞ f (xn ) −→ −∞ x→x̄ x→∞ xn −→ −∞ lim f (x) = a x→−∞ lim f (x) = ∞ x→x̄ x→∞ x→−∞ x→x̄ x→∞ x→−∞ lim f (x) = −∞ lim f (x) = −∞ lim f (x) = −∞ Beispiel 6.6: (i) Sei f : R \ {0} → R mit f (x) = x12 . Dann ist limx→0 f (x) = ∞, da zu jeder Folge (xn ) mit xn −→ 0 und xn = 0 die Folge (f (xn )) gegen ∞ divergiert. Außerdem ist limx→∞ f (x) = 0, da zu jeder Folge (xn ) mit xn −→ ∞ und xn = 0 die Folge (f (xn )) gegen 0 konvergiert. (ii) Sei f : R → R mit f (x) = −3x2 − x. Dann ist limx→∞ f (x) = −∞, da zu jeder Folge (xn ) mit xn −→ ∞ die Folge (f (xn )) gegen −∞ divergiert. 47 6 Funktionen einer Variablen 6.5 Typen von Funktionen In diesem Abschnitt werden einige von Wirtschaftswissenschaftlern besonders häufig benutzte Funktionstypen vorgestellt. Die Funktion f (x) = a0 + a1 x + · · · + an x = n n ai xi i=0 mit n ∈ N und a0 , a1 , . . . , an ∈ R heißt Polynom vom Grad n, falls an = 0 ist. Die a0 , a1 , . . . , an nennt man Koeffizienten der Polynomfunktion. Es gilt, daß ein Polynom n-ten Grades maximal n Nullstellen hat. Beispiel 6.7: Lineare Funktionen sind Polynome vom Grad 1. Der Koeffizient a1 ist die Steigung und der Koeffizient a0 der Achsenabschnitt der zugehörigen Geraden. Die Funktion f : R → R mit f (x) = xn , wobei n ∈ Z ist, heißt Potenzfunktion. Ihr Definitionsbereich ist Def(f ) = R für n ≥ 1, Def(f ) = R \ {0} für n ≤ −1, Def(f ) = R+ für n ∈ (0, 1) und Def(f ) = R++ für n ∈ (−1, 0). Der Graph einer Potenzfunktion ist für n > 1 eine Parabel, für n = 1 eine Gerade, für n ∈ (0, 1) eine gespiegelte Parabel (oder Wurzelfunktion), für n = 0 eine Gerade mit einer Unstetigkeitsstelle in x = 0 und für n < 0 eine Hyperbel. Die Funktion f (x) = cap(x) mit c ∈ R, a > 0 und p(x) ein Polynom heißt Exponentialfunktion. Sie kommt z.B. bei der Beschreibung von Wachstumsprozessen vor. Funktionen der Form f (x) = loga x heißen Logarithmusfunktionen zur Basis a. Schließlich sollen noch die zwei wichtigsten trigonometrischen Funktionen genannt werden, der Sinus und der Cosinus. Abbildung 6.3 zeigt cos α (sprich: Cosinus alpha) als x-Koordinate und sin α (sprich: Sinus alpha) als y-Koordinate eines Punktes auf dem Einheitskreis, der auf einem vom Ursprung ausgehenden Strahl im Winkel α relativ zur x-Achse liegt. Man beachte, daß die Argumente trigonometrischer Funktionen meistens nicht in Grad, sondern als Bogenmaß angegeben werden. In diesem Maß entsprechen 360 Grad dem Umfang des Einheitskreises 2π. Andere Winkel werden entsprechend α umgerechnet, d.h. ein Winkel von α Grad entspricht im Bogenmaß 360 2π. 48 6 Funktionen einer Variablen y 1 sin α α −1 0 cos α 1 x −1 Abbildung 6.3: Sinus und Cosinus am Einheitskreis 49 7 Ableitung von Funktionen einer Variablen In diesem Kapitel wird das Konzept der Ableitung von Funktionen behandelt. Es ist zentraler Bestandteil der klassischen Optimierungstheorie, welche wiederum insbesondere für die positive und normative Modellierung menschlichen Verhaltens in den Wirtschaftswissenschaften von großer Bedeutung ist. 7.1 Das Konzept der Ableitung Der Koeffizient a einer linearen Funktion f (x) := ax + b mit a, b ∈ R ist die Steigung der zugehörigen Geraden. Die Steigung gibt an, um wieviel Einheiten der Funktionswert von f (x) steigt, wenn das Argument x um eine Einheit erhöht wird. Bei einer nicht-linearen Funktion g(x) hängt die Steigung von der Stelle x ab, ist also nicht wie bei der Geraden konstant, sondern selbst eine von x abhängige Funktion, die Ableitung von g genannt wird. Sei im folgenden f (x) eine stetige, reellwertige Funktion. Man kann auch bei einer nicht-linearen Funktion die durchschnittliche Steigung bzw. die Steigung der Sekante von f (x) zwischen zwei Punkten x0 und x0 +∆x mit ∆x = 0 angeben mit ∆y f (x0 + ∆x) − f (x0 ) = . ∆x ∆x Dieser Ausdruck heißt Differenzenquotient und wird in Abbildung 7.1 veranschaulicht. Dort gibt der Differenzenquotient die Steigung der Sekante zwischen den Punkten P und Q an. Die Ableitung ist die Steigung der Tangente t, die den Graphen von f (x) im Punkt P berührt, aber nicht schneidet. Für einen festen Ausgangspunkt x konvergiert also die Steigung der Sekanten gegen die Steigung der Tangente an den Graphen von f im Punkte (x, f (x)), falls ∆x gegen 0 geht. Eine konvergente Folge von Sekantensteigungen gegen die Tangentensteigung ist genau die Idee der ersten Ableitung. Definition 7.1 Die erste Ableitung der Funktion f : R → R an der Stelle x ist definiert durch den Grenzwert f (x + ∆x) − f (x) . ∆x→0 ∆x lim 50 7 Ableitung von Funktionen einer Variablen y f(x0+ ∆x) f(x0) y = f((x) Q P ∆y ∆x t 0 x0 x0+ ∆x x Abbildung 7.1: Veranschaulichung des Differenzenquotienten (x) . Existiert der Grenzwert f (x) für alle x ∈ Man schreibt dafür f (x) oder dfdx A ⊆ Def(f ), so heißt die Funktion f auf A differenzierbar. Man beachte, daß nicht alle Funktionen in ihrem gesamten Definitionsbereich eine Ableitung besitzen, da der Grenzwert des Differenzenquotienten für ∆x → 0 nicht in jedem Fall existiert. Offenbar ist f (x) eine neue Funktion deren Definitionsbereich die Menge aller reellen Zahlen ist, für die f differenzierbar ist. Ihr Funktionswert ist die Ableitung von f (x) an eben dieser Stelle. Falls die Funktion f (x) ihrerseits differenzierbar ist heißt deren Ableitung zweite Ableitung von f (x) 2 f (x) bezeichnet. Analog und wird mit den Symbolen f (x), f (2) (x) oder auch d dx 2 sind bei entsprechend häufiger Differenzierbarkeit höhere Ableitungen definiert. Beispiel 7.1: (i) Der Differenzenquotient von f (x) = x2 an einer beliebigen Stelle x0 ∈ R ist (x0 + ∆x)2 − x20 = 2x0 + ∆x. ∆x Für ∆x → 0 konvergiert der Differenzenquotient also gegen den Wert 2x0 . Die Abbleitung von f (x) an der Stelle x0 ist also 2x0 . Die Ableitung f als Funktion von x ist also f (x) = 2x. (ii) Betrachtet man den Differenzenquotienten von f (x) aus dem vorherigen Beispiel an einer beliebigen Stelle x0 ∈ R, dann ist 2(x0 + ∆x) − 2x0 = 2, ∆x 51 7 Ableitung von Funktionen einer Variablen f (x) a x (a ∈ R) √ x 1 x x f (x) axa−1 1 √ 2 x − x12 x e e x a (a > 0) a ln a 1 ln x x 1 loga x (a > 0) x ln a sin x cos x cos x − sin x x Tabelle 7.1: Ableitungen ausgewählter Funktionen also ist die zweite Ableitung von f (x) gegeben als f (x) = 2. (iii) Sei g(x) = |x|. Der Differenzenquotient von g(x) an der Stelle x0 = 0 ist |0 + ∆x| − |0| |∆x| = . ∆x ∆x Für beliebig kleine |∆x| > 0 hat dieser Differenzenquotient für ∆x > 0 den Wert 1 und für ∆x < 0 den Wert −1. Es existiert also kein Grenzwert des Differenzenquotienten für ∆x → 0, und die Funktion g(x) ist an der Stelle 0 nicht differenzierbar. Der folgende Satz ohne Beweis zeigt, daß Differenzierbarkeit eine stärkere Eigenschaft als Stetigkeit ist, also Stetigkeit eine notwendige Bedingung für Differenzierbarkeit einer Funktion ist. Satz 7.1 Jede auf A ⊆ R differenzierbare Funktion ist stetig auf A. 7.2 Ableitungen ausgewählter Funktionen Da die analytische Bestimmung der Ableitung über ihre Definition, also dem Grenzwert des Differenzenquotienten, oft mühselig ist, ist es sinnvoll, die Ableitungen der in den Wirtschaftswissenschaften häufig vorkommenden Funktionen zu kennen. In Tabelle 7.1 sind die Ableitungen ausgewählter Funktionen zusammengestellt. 7.3 Ableitungsregeln Um Funktionen abzuleiten, die aus anderen Funktionen, deren Ableitungen bekannt sind, zusammengesetzt sind, sind die in diesem Abschnitt zusammenge- 52 7 Ableitung von Funktionen einer Variablen stellten Ableitungsregeln sehr nützlich. Seien nachfolgend f (x) und g(x) zwei reellwertige und differenzierbare Funktionen. Nach der Summenregel ist (f (x) + g(x)) = f (x) + g (x). Die Produktregel besagt (f (x) · g(x)) = f (x) · g(x) + f (x) · g (x). Die Quotientenregel sagt f (x) f (x) · g(x) − f (x) · g (x) = g(x) (g(x))2 falls g(x) = 0. Gemäß der Kettenregel ist (f (g(x))) = f (g(x)) · g (x). Es ist häufig nötig, diese Ableitungsregeln kombiniert anzuwenden, um die Ableitung einer zusammengesetzten Funktion zu bestimmen. Beispiel 7.2: (i) Die Faktorregel (af (x)) = af (x) folgt offenbar aus der Produktregel. (ii) Die Ableitung von f (x) = 3 sin x ist nach der Faktorregel f (x) = 3 cos x. (iii) Die Ableitung von f (x) = 4x2 + 5x + ln x ist nach der Summen- und der Faktorregel f (x) = 8x + 5 + 1/x. (iv) Die Ableitung von f (x) = 4x sin x ist nach der Produkt- und der Faktorregel f (x) = 4 sin x + 4x cos x. 2 x 2 ex = (v) Die Ableitung von f (x) = xex ist nach der Quotientenregel f (x) = 2xe e−x 2x 2x−x2 . ex (vi) Die Ableitung von f (x) = 2 sin (x3 ) ist nach der Ketten- und der Faktorregel f (x) = 6x2 cos (x3 ). 53 8 Teilmengen des Rn Die Menge der möglichen Handlungsalternativen eines Entscheidungsproblems wird Entscheidungsraum genannt. Die Entscheidungsräume vieler ökonomischer Entscheidungsprobleme sind Teilmengen des Rn . In diesem Kapitel werden einige wichtige Eigenschaften solcher Teilmengen betrachtet, die für die Lösbarkeit und die Bestimmung von Lösungen von Entscheidungsproblemen von Bedeutung sind. 8.1 Grundbegriffe der Mengen-Topologie Die Mengen-Topologie ist eine sehr allgemeine mathematische Methode, Mengen mit einer Struktur auszustatten, die es ermöglicht Nähe und Abstand qualitativ zu charakterisieren. Der Rn besitzt viele verschiedene topologische Strukturen, von denen wir hier nur eine, die Standardtopologie, benötigen. Diese wird durch die in Kapitel 5.5 eingeführte Euklidische Metrik aber auch durch andere Metriken wie die Manhatten-Metrik oder Maximum-Metrik induziert. Die Grundbegriffe der Mengen-Topologie sind offene und abgeschlossene Mengen. Um die Standardtopologie des Rn zu definieren, müssen offene und abgeschlossene Teilmengen beschrieben werden. Ein möglicher Weg dazu, den wir hier beschreiten wollen, geht über den Begriff der ε-Umgebung. Falls nicht anders hervorgehoben, sei in diesem Kapitel stets n ∈ N die Dimension des Rn . Definition 8.1 (Epsilon-Umgebung) Sei x ∈ Rn und ε > 0. Die Menge Bε (x) = {y | y ∈ Rn , ||x − y|| < ε} heißt ε-Kugel oder ε-Umgebung (engl.: ε-ball, neighborhood) um x. Die ε-Umgebung um x ∈ Rn ist also die Menge aller Punkte, die zu x einen strikt geringeren Abstand als ε bezüglich der Euklidischen Metrik haben. Sie ist also eine Kugel vom Radius ε um x ohne deren noch zu definierenden Rand. Diesen definieren wir nun zusammen mit anderen topologischen Grundbegriffen. Definition 8.2 (Innerer Punkt, Randpunkt, Rand) Der Punkt x ∈ M mit M ⊆ Rn heißt innerer Punkt (engl.: interior point) von M, wenn ε > 0 existiert, so daß Bε (x) ⊆ M. 54 8 Teilmengen des Rn ε x ε x M M (a) (b) Abbildung 8.1: Ein innerer Punkt und ein Randpunkt Umgekehrt heißt der Punkt y ∈ Rn Randpunkt (engl.: boundary point) der Menge M ⊆ Rn , falls für alle ε > 0 Bε (x) ∩ M = ∅ und Bε (x) \ M = ∅. Die Menge aller Randpunkte heißt Rand und wird geschrieben als ∂M. Ein Punkt ist also innerer Punkt einer Menge, wenn seine unmittelbare Nachbarschaft nur aus Punkten dieser Menge besteht (vgl. Abbildung 8.1 (a)). Dagegen ist ein Punkt Randpunkt einer Menge, wenn seine unmittelbare Nachbarschaft sowohl aus Punkten dieser Menge als auch deren Komplement besteht. Daraus folgt, daß ein Randpunkt einer Menge M nicht unbedingt zur Menge M gehören muß (vgl. Abbildung 8.1 (b)). Beispiel 8.1: (i) B 1 (3) = 52 , 72 . 2 (ii) Sei x = 0 ∈ R2 . Dann ist B1 (x) = {y | y ∈ R2 ∧ y12 + y22 < 1}. (iii) Der Punkt x = 12 ist wegen B 1 (x) ⊆ M innerer Punkt der Menge [0, 1). 4 Dagegen ist der Punkt x = 1 Randpunkt von [0, 1), da für alle ε > 0 einerseits / M ist. x − ε ∈ M und andererseits x + ε ∈ (iv) Der Rand der Einheitskugel K = {(x, y) ∈ R2 | x2 + y 2 ≤ 1} ist ∂M = {(x, y) ∈ R2 | x2 + y 2 = 1}. Die Menge der inneren Punkte von K ist die Menge M \ ∂M = {(x, y) | x ∈ R ∧ y ∈ R ∧ x2 + y 2 < 1}. 55 8 Teilmengen des Rn Auf den Begriffen des inneren und des Randpunkts bauen die der offenen und der abgeschlossenen Menge auf. Offene und abgeschlossene Mengen im Rn sind n-dimensionale Verallgemeinerungen von Vereinigungsmengen offener und abgeschlossener Intervalle in R. Definition 8.3 (Offene und abgeschlossene Menge) A ⊆ Rn heißt offen (engl.: open), wenn alle x ∈ M innere Punkte von M sind. B ⊆ Rn heißt abgeschlossen (engl.: closed), wenn die Menge B ihren Rand ∂B enthält, also ∂B ⊆ B. Die Menge M̄ := M ∪ ∂M heißt Abschluß von M. Entsprechend heißt die Menge Ṁ := M \ ∂M Inneres von M. Der Abschluß einer Menge ist stets abgeschlossen und das Innere ist stets offen. Komplemente abgeschlossener Mengen, beliebige Vereinigungen und endliche Durchschnitte offener Mengen sind stets offen, während Komplemente abgeschlossener Mengen und beliebige Durchschnitte und endliche Vereinigungen abgeschlossener Mengen stets abgeschlossen sind. Falls die Menge A ⊆ Rn sowohl offen als auch abgeschlossen ist, nennt man sie abgeschloffen (engl.: clopen). In der Standardtopologie gilt dies nur für A = Rn oder A = ∅. Ein System von offenen und abgschlossenen Teilmengen, das diese Eigenschaften besitzt heißt topologischer Raum. Neben der Standardtopologie auf dem Rn gibt es viele andere Topologien.1 Da sich Ökonomen meistens nur für die Standardtopologie interessieren, verfolgen wir den sehr allgemeinen Begriff des topologischen Raumes hier nicht weiter. Beispiel 8.2: (i) Die Einheitskugel K = {(x, y) ∈ R2 | x2 + y 2 ≤ 1} ist abgeschlossen. (ii) Die Menge {(x, y) ∈ R2 | |x| + |y| < 1} ist offen (wie sieht sie aus?) (iii) Die Menge [0, 1) ist weder offen noch abgeschlossen, da sie mit 0 einen ihrer Randpunkte, wegen 1 ∈ / [0, 1) aber nicht alle ihrer Randpunkte enthält. (iv) Die Menge [0, 1]2 ∪ {(x, y) ∈ R2 | x2 + y 2 < 1} ist weder offen noch abgeschlossen (warum?). Eine weitere wichtige Eigenschaft von Mengen ist die der Beschränkheit. 1 Seien zum Beispiel nur der ganze Rn und ∅ abgeschloffen und alle anderen Teilmengen weder offen noch abgeschlossen. Man überzeuge sich davon, daß dann alle hier angeführten Eigenschaften erfüllt sind. Diese Topologie heißt auch gröbste Topologie des Rn . Die sogenannte feinste Topologie definiert alle Mengen als offen und abgeschlossen und erfüllt ebenfalls alle Eigenschaften. 56 8 Teilmengen des Rn Definition 8.4 (Beschränkte Menge) Eine Menge M ⊆ Rn heißt beschränkt (engl.: bounded), wenn ein a ∈ R mit ||x|| ≤ a für alle x ∈ M existiert. Eine Menge heißt also beschränkt, wenn sie in einer Kugel mit endlichem Radius enthalten ist. Daß in unserer Definition die Kugel eine Ursprungskugel, also eine Kugel um den Ursprung als Mittelpunkt, ist, spielt offenbar für die Definition keine Rolle (warum?). In der Tat könnte man die Beschränktheit auch mit einem Quader oder beliebigen anderen Formen definieren. Entscheidend für eine beschränkte Menge ist, daß sie in keiner Richtung unendlich groß ist. Beispiel 8.3: (i) Die Menge [0, a] mit a ≥ 0 ist wegen ||x|| = |x| ≤ a für alle x ∈ R beschränkt. (ii) Die Menge M = {x | x ∈ R3 ∧ x1 + x2 + x3 ≥ 1} ist nicht beschränkt, da √ für alle h ≥ 1 der Punkt (h, h, h) Element von M ist, der Abstand ||(h, h, h)|| = h 3 zwischen diesem Punkt und dem Ursprung allerdings mit steigendem h jede Schranke überschreitet. Mit Hilfe der in diesem Abschnitt vorgestellten Begriffe können nun abschließend kompakte Mengen eingeführt werden. Diese spielen in der Optimierungstheorie, dem wichtigsten mathematischen Handwerkzeug des Ökonomen eine zentrale Rolle, da Kompaktheit der Auswahlmenge zusammen mit der Stetigkeit der Zielfunktion die Existenz einer Lösung eines Optimierungsproblems garantiert. Bezüglich Kompaktheit gibt es eine gute und eine schlechte Nachricht. Die schlechte Nachricht ist, daß Kompaktheit im Allgemeinen (in einem topologischen Raum) abstrakt und kompliziert zu definieren ist. Die gute Nachricht ist, daß wir uns vorläufig diese Mühe ersparen können, da im Spezialfall des Rn , auf den wir uns hier konzentrieren, Kompaktheit sehr einfach ist. Definition 8.5 (Kompakte Menge) Eine Teilmenge des Rn heißt genau dann kompakt (engl.: compact), wenn sie beschränkt und abgeschlossen ist. Beispiel 8.4: (i) Die Menge [0, 1] × (2, 3) ist beschränkt, aber nicht abgeschlossen und daher nicht kompakt. (ii) Die Menge [0, ∞)2 ist abgeschlossen, aber nicht beschränkt, also nicht kompakt. (iii) Die Menge ([0, 1] ∪ [2, 3]) × [1, 5] ist beschränkt und abgeschlossen, also kompakt. 57 8 Teilmengen des Rn 8.2 Konvexe Mengen Eine weitere bedeutsame Eigenschaft von Teilmengen des Rn im Zusammenhang mit wirtschaftswissenschaftlichen Fragestellungen ist die Konvexität, da diese unter geeigneten Annahmen die Eindeutigkeit der Lösung eines Optimirungsproblems garantiert. Definition 8.6 (Konvexe Menge) Die Menge M ∈ Rn heißt konvex (engl.: convex), wenn für alle x, y ∈ M und alle λ ∈ [0, 1] gilt λx + (1 − λ)y ∈ M. Die gerade Verbindungsstrecke zwischen zwei Punkten x, y ∈ M muß also stets ganz in M liegen, damit M eine konvexe Menge ist (vgl. Abbildung 8.2 (a)). Falls diese Eigenschaft für gewisse Punkte x, y ∈ M nicht gilt, so ist M nicht konvex (vgl. Abbildung 8.2 (b)). Obwohl die Konvexität einer Funktion mit der Konvexität einer Menge verbunden ist , gibt es den umgekehrten Begriff der Konkavität zwar fr Funktionen nicht im Zusammenhang mit Mengen.2 Beispiel 8.5: (i) Die Menge [0, 1] ist konvex, da für alle x, y ∈ [0, 1] und alle λ ∈ [0, 1] die Ungleichnungen λx+(1−λ)y ≤ λ max{x, y}+(1−λ) max{x, y} = max{x, y} ≤ 1 und λx + (1 − λ)y ≥ 0 gelten. (ii) Die Menge M = {x ∈ R2 | ||x|| ≥ 1 ∧ ||x|| ≤ 3} ist nicht konvex, da / M trotz x = (2, 0) ∈ beispielsweise die Konvexkombination 12 x + 12 x = (0, 0) ∈ M und y = (−2, 0) ∈ M ist. Die Konvexität einer Menge ergibt sich in den Wirtschaftswissenschaften oft ganz natürlich. Betrachtet man beispielsweise einen Haushalt, der sich mit seinem Budget entweder 20 Liter Bier oder 10 Liter Wein kaufen kann, so ist meistens sinnvoll anzunehmen, daß er mit seinen Mitteln auch 20λ Liter Bier und 10(1 − λ) Liter Wein mit λ ∈ [0, 1] erwerben kann. Die Budgetmenge, also die Menge aller Güterbündel, die der Haushalt mit einem gegebenen Budget kaufen kann, ist unter dieser Annahme konvex. Satz 8.1 Der Durchschnitt A ∩ B zweier konvexer Mengen A und B ist konvex. 2 Ein kleiner Vorgriff auf das folgende Kapitel mag dies illustrieren. Die untere Konturmenge einer Funktion f : Rn → R ist die Menge aller Punkte x ∈ Rn deren Funktionswert f (x) einen bestimmten Wert nicht überschreitet. Diese Menge ist stets konvex für eine konvexe Funktion. Zum Beispiel ist die Einheitskugel die untere Konturmenge zum Wert 1 für die konvexe Funktion f (x1 , x2 ) = x21 + x22 . Die untere Konturmenge einer konkaven Funktion ist nicht konvex, wird aber nicht konkav genannt. Das Komplement der Einheitskugel ist ein Beispiel für eine solche Menge. 58 8 Teilmengen des Rn y x y x y y x x (a) (b) Abbildung 8.2: Beispiele konvexer und nicht-konvexer Mengen Beweis. Seien x, y ∈ A ∩ B, also x, y ∈ A und x, y ∈ B. Da A konvex ist, gilt λx + (1 − λ)y ∈ A für alle λ ∈ [0, 1]. Da auch B konvex ist, gilt analog λx + (1 − λ)y ∈ B für alle λ ∈ [0, 1]. Folglich ist λx + (1 − λ)y ∈ A ∩ B für alle λ ∈ [0, 1]. 59 9 Funktionen von Rm nach Rn Die nachgefragte Menge an Weizenbier und Speiseeis am Sommeranfang im Jahr 2004 kann vom Weizenbierpreis, vom Speiseeispreis vom Preis anderer Produkte (Döner, Wein, Wohnungsmiete, Benzin,...), vom Einkommen, vom Wetter an diesem Tag (z.B. gemessen in Sonnenstunden oder Durchschnittstemperatur) und vielen anderen Variablen abhängen. Eine Zuordnung aller relevanter Variablen auf dieses 2-Tupel nachgefragter Mengen ist eine mehrdimensionale Funktion. Mehrdimensionale Funktionen sind Verallgemeinerungen von Funktionen einer Variablen. Viele darauf aufbauende Konzepte wie Ableitungen oder Konkavität bauen daher auf der Intuition eindimensionaler Funktionen auf. 9.1 Grundbegriffe Grundlage für dieses Kapitel ist der bereits durch Definition 6.1 in Kapitel 6 eingeführte allgemeine Begriff der Funktion. Gerade weil Funktionen so grundlegend für die Mathematik sind, besitzen sie verschiedene Interpretationen. So wird eine Funktion auch Abbildung genannt, ein Argument als Urbild oder als unabhängige Variable und ein Funktionswert als Bild oder als abhängige Variable. Definitionsbereich und Wertebereich wie in Kapitel 6 eingeführt heißen in dieser Terminologie Urbildmenge und Bildmenge. Die Menge f (A) = {y ∈ Y | ∃x ∈ A mit y = f (x)} bezeichnet man entsprechend als Bild einer Teilmenge A ⊆ X und umgekehrt die Menge f −1 (B) = {x ∈ X | ∃y ∈ B mit y = f (x)} als Urbild der Teilmenge B ⊆ Y . In diesem Kapitel betrachten wir stets Funktionen f : X → Y mit X ⊆ Rn und Y ⊆ Rm , wobei n, m ∈ N. Diese heißen reellwertige Funktionen. In einem solchen Fall schreibt man für den Funktionswert von f für ein Argument x ∈ X üblicherweise f (x1 , . . . , xn ). Man beachte, daß dieser Funktionswert Element des Rm ist. Daher schreibt man die m einzelnen Komponenten als f (x1 , . . . , xn ) = (f1 (x1 , . . . , xn ) , . . . , fm (x1 , . . . , xn )). Nachfolgend betrachten wir oft Fälle niedriger Dimensionen m = 1 oder n = 1, bei dem die Bilder oder Urbilder eindimensional sind. Beispiel 9.1: (i) Sei X = {a, b, c} und Y = {1, 2}. Dann ist f : X → Y mit f (a) = 1, f (b) = 60 9 Funktionen von Rm nach Rn y y f f V f(U) U x f−1(V) (a) x (b) Abbildung 9.1: Bild- und Urbildmenge 2 und f (c) = 1 eine Funktion mit Definitionsbereich {a, b, c} und Wertebereich {1, 2}. (ii) Der Funktionswert der reellwertigen Funktion g : R2 → R mit g(x1 , x2 ) = x31 + 2x22 für das Argument (x1 , x2 ) = (2, 3) ist g(2, 3) = 23 + 2 · 32 = 26. (iii) Sei f : R → R eine Funktion mit f (x) = 2x − 1. Dann ist f ([2, 3]) = [3, 5] und f −1 ([5, 7]) = [3, 4]. (iv) Sei g(x) = (2x, −x) eine Funktion R → R2 . Dann ist g({1, 2, 3}) = {(2, −1), (4, −2), (6, −3)}. (v) Sei f : R → R eine Funktion mit f (x) = x2 . Dann ist f ([0, 1]) = [0, 1] und f −1 ([1, 4]) = [1, 2] ∪ [−2, −1]. 9.2 Verknüpfungen von Funktionen Funktionen können mit Hilfe der auf den vier Grundrechenarten basierenden und auch anderen Verknüpfungen zu komplexeren Funktionen zusammengesetzt werden. In diesem Abschnitt werden die wichtigsten Möglichkeiten zur Verknüpfung von Funktionen vorgestellt. 61 9 Funktionen von Rm nach Rn Definition 9.1 (Addition, Subtraktion) Seien f : X → Rn und g : X → Rn Funktionen, wobei X eine beliebige Menge sein kann. Dann bezeichnen f + g bzw. f − g Funktionen von X nach Rn definiert durch (f + g)(x) = f (x) + g(x) bzw. (f − g)(x) = f (x) − g(x) für alle x ∈ X. Für die Addition oder Subtraktion ist also wichtig ein gemeinsamer Definitionsbereich und ein gemeinsamer Wertebereich mit einer additiven Struktur, die auf dem Rn in natürlicher Weise durch die komponentenweise Vektoraddition gegeben ist. Analoges gilt für die Differenz zweier Funktionen. Definition 9.2 (Multiplikation, Division) Seien f : X → Rn und g : X → R Funktionen mit X als beliebiger Menge. Dann bezeichnen f · g bzw. f /g Funktionen von X in Rn definiert durch f 1 (f · g)(x) = f (x) · g(x) bzw. (x) = f (x) · g g(x) für alle x ∈ X. Dabei muß im Fall der Division für alle x ∈ X die Bedingung g(x) = 0 erfüllt sein. Für das Produkt oder den Quotienten zweier Funktionen benötigt man außer einem gemeinsamen Definitionsbereich die Möglichkeit Funktionswerte miteinander multiplizieren oder durcheinander dividieren zu können. Falls ein Funktionswert ein Vektor reeller Zahlen und der andere eine (eindimensionale) reelle Zahl also ein sogenannter Skalar ist, sind diese Rechenoperationen komponentenweise wieder durch die entsprechenden Grundrechenarten auf den reellen Zahlen gegeben. Man beachte, daß die Multplikation eines Vektors aus Rn mit einem Skalar wieder ein Vektor des Rn ist. Analoges gilt für den Quotienten zweier Funktionen. Beispiel 9.2: (i) Sei f : R2 → R eine Funktion mit f (x1 , x2 ) = x1 + sin x2 und g : R2 → R eine Funktion mit g(x1 , x2 ) = 3x1 + 5x2 . Dann ist f + g : R → R eine Funktion mit (f + g)(x) = x1 + sin x2 + 3x1 + 5x2 = 4x1 + 5x2 + sin x2 . (ii) Seien f : R → R2 eine Funktion mit f (x) = (2x, 3) und g : R → R eine Funktion mit g(x) = x2 + 1. Wegen g(x) = 0 für alle x ∈ R ist die Funktion f /g definiert. Für sie ist (f /g)(x) = x21+1 (2x, 3). (iii) Sei f : X → Rn eine Funktion mit X als beliebiger Menge und α ∈ R. Da der Skalar α offebar als konstante Funktion g(x) = α interpretiert werden kann, ist die Multiplikation mit einem Skalar ein Beispiel für das Produkt zweier Funktionen, also αf die Funktion von X nach Rn mit (αf )(x) = αf (x) 62 9 Funktionen von Rm nach Rn f Y g X Z gof Abbildung 9.2: Verkettung von Funktionen für alle x ∈ X. Die wichtigste Verknüpfung, die nicht auf den vier Grundrechenarten basiert, ist die nachfolgend definierte Verkettung oder Verknüpfung. Definition 9.3 (Verkettung) Seien f : X → Y und g : Y → Z Funktionen mit X, Y und Z als beliebigen Mengen. Dann heißt die Funktion g ◦ f : X → Z mit (g ◦ f )(x) = g(f (x)) für alle x ∈ X Verkettung (engl.: composition) von f und g. Für die Verkettung g ◦ f zweier Funktionen f und g muß der Wertebereich von f dem Definitionsbereich von g entsprechen. In diesem Fall ist die Verkettung der beiden Funktionen eine andere Funktion, die jedes Element x des Definitionsbereichs von f in der Weise auf ein Element z des Wertebereichs von g abbildet, daß z = g(f (x)) gilt (vgl. Abbildung 9.2). Beispiel 9.3: (i) Sei f : R → R eine Funktion mit f (x) = x2 und g : R → R eine Funktion mit g(x) = sin x. Dann ist g ◦ f : R → R eine Funktion mit (g ◦ f )(x) = sin (x2 ) und f ◦ g : R → R eine Funktion mit (f ◦ g)(x) = (sin x)2 . (ii) Sei f : R → R2 eine Funktion mit f (x) = (x, 2x) und g : R2 → R eine Funktion mit g(x1 , x2 ) = 2x1 + 5x2 . Dann ist g ◦ f : R → R eine Funktion mit (g ◦ f )(x) = 2(x) + 5(2x) = 12x. 9.3 Graphische Darstellung von Funktionen Wie bei Funktionen einer Variablen ist zur Untersuchung reellwertiger Funktionen eine graphische Analyse oft sehr hilfreich. Der Graph einer höherdimensionalen 63 9 Funktionen von Rm nach Rn Funktion kann in der Ebene (Tafel, Papier) nur durch geeignete Projektionen dargestellt werden. In diesem Abschnitt werde verschiedene Möglichkeiten solcher Projektionen oder Schnitte eingeführt. Definition 9.4 (Graph) Sei f : X → Y eine Funktion mit X ⊆ Rn , Y ⊆ Rm . Dann heißt die Menge Graph(f ) = Gf = {(x, y) ∈ X × Y | y = f (x)} ⊆ Rn+m Graph (engl.: graph) von f . Der Graph ist also die Menge aller Paare bestehend aus einem Element des Definitionsbereichs von f und dessen Funktionswert im Wertebereich. Für die Darstellung bedienen wir uns des Umstandes, daß sich Teilmengen von R in intuitiver Weise auf der Zahlengeraden und Teilmengen des R2 und R3 , im Fall des R3 durch geeignete perspektivische Projektion, in der Ebene darstellen lassen. Wir werden ab hier beide Schreibweisen Graph(f ) und Gf verwenden. Beispiel 9.4: (i) Zu f : R → R mit f (x) = x sin x ist Gf = {(x, y) ∈ R2 | y = x sin x}. Ein Ausschnitt von Gf ist in Abbildung 9.3 dargestellt. (ii) Zu f : R2 → R mit f (x, y) = sin x · sin y ist Gf = {(x, y, z) ∈ R3 | z = sin x · sin y}. Ein Ausschnitt von Gf ist, nach geeigneter Projektion auf die Ebene, in Abbildung 9.4 dargestellt. Eine weitere Möglichkeit, einer reellwertigen Funktion eine Teilmenge des Rn zuzuordnen, besteht in der Betrachtung sogenannter Isohöhenlinien. Diese kommen in den Wirtschaftswissenschaften häufig als Isoquanten oder Indifferenzkurven vor. Definition 9.5 (Isohöhenlinie) Sei f : X → Y eine Funktion mit X ⊆ Rn , Y ⊆ Rm und n, m ∈ N. Für alle y ∈ Y wird die Menge f −1 ({y}) auch als Isohöhenlinie (engl.: level curve) zum Niveau y bezeichnet. 64 9 Funktionen von Rm nach Rn y 7.5 5 2.5 2 4 6 8 10 12 -2.5 -5 -7.5 -10 Abbildung 9.3: Teil des Graphen von f (x) = x sin x 65 x 9 Funktionen von Rm nach Rn 0.5 z 0 2 -0.5 0 -2 y 0 -2 x 2 Abbildung 9.4: Ausschnitt des Graphen von f (x, y) = sin x · sin y 66 9 Funktionen von Rm nach Rn 3 2 1 0 -1 -2 -3 -3 -2 -1 0 1 2 3 Abbildung 9.5: Isohöhenlinien von f (x, y) = sin x · sin y Die Isohöhenlinie zum Niveau y ∈ Y ist also ein Spezialfall des Urbildes einer Menge bestehend aus dem einen Element y ∈ Y in der Bildmenge, also ist f −1 ({y}) ⊆ Rn . Beispiel 9.5: (i) Die Isohöhenlinie der Funktion f : R2 → R mit f (x, y) = x+2y zum Niveau 4 ist f −1 ({4}) = {(x, y) ∈ R2 | x + 2y = 4} . Dies entpricht offenbar der Geraden in der x-y-Ebene mit der Gleichung y = 2 − 12 x. (ii) In Abbildung 9.5 sind einige Isohöhenlinien der Funktion f : R2 → R mit f (x, y) = sin x · sin y zu verschiedenen Niveaus ausschnittsweise dargestellt. Als letzte Möglichkeit der Darstellung reellwertiger Funktionen sollen noch die sogenannten projezierten Schnittlinien vorgestellt werden, die auf der im vorangegangenen Abschnitt eingeführten Verkettung von Funktionen basieren. Definition 9.6 (Projezierte Schnittlinie) Sei f : X → Y eine Funktion mit X ⊆ Rn , Y ⊆ Rm und g : Z → X eine Funktion mit Z ⊆ R. Dann heißt der Graph Gf ◦g 67 9 Funktionen von Rm nach Rn z 0.75 0.5 0.25 -3 -2 -1 1 2 3 y -0.25 -0.5 -0.75 Abbildung 9.6: Projezierte Schnittlinie von f (x, y) = sin x · sin y entlang g1 der Verkettung f ◦ g projezierte Schnittlinie entlang des von g beschriebenen Pfades. Eine projezierte Schnittlinie zu einer Funktion f entlang eines von einer anderen Funktion g beschriebenen Pfades ist also die Menge aller Paare bestehend aus einem Element des Definitionsbereichs von g als Parameter, der den Ort auf dem betrachteten Pfad beschreibt, und dem Funktionswert von f an diesem Ort. Intuitive entspricht dies einem Schnitt durch den Graphen von f entlang einer durch g beschriebenen Schnittlinie. Da die Schnittlinie durch einen Parameter beschrieben wird, ist offenbar Gf ◦g ⊆ Rm+1 . Beispiel 9.6: In den Abbildungen 9.6 bis 9.8 sind projezierte Schnittlinien zur Funktion f : R2 → R mit f (x, y) = sin x · sin y entlang der Pfade gi : R → R2 für i = 1, 2, 3 mit g1 (x) = (1, x), g2 (x) = (x, x) und g3 (x) = (x, x2 ) ausschnittsweise dargestellt. Alle vorgestellten Möglichkeiten zur graphischen Darstellung reellwertiger Funktionen haben spezifische Vor- und Nachteile. Graphen sind vollständige Darstellungen der Funktion und unter Umständen am anschaulichsten, falls die Funktion 68 9 Funktionen von Rm nach Rn z 1 0.8 0.6 0.4 0.2 -3 -2 -1 1 2 3 x Abbildung 9.7: Projezierte Schnittlinie von f (x, y) = sin x · sin y entlang g2 69 9 Funktionen von Rm nach Rn z 1 0.5 -1.5 -1 -0.5 0.5 1 1.5 x -0.5 -1 Abbildung 9.8: Projezierte Schnittlinie von f (x, y) = sin x · sin y entlang g3 70 9 Funktionen von Rm nach Rn niedrigdimensional, also n+m ≤ 3 ist. Isohöhenlinien und projezierte Schnittlinien lassen sich dagegen auch für Funktionen mit n ≤ 3 bzw. m + 1 ≤ 3 darstellen, sind dafür aber nur eine partielle Beschreibung der Funktion und daher oft weniger anschaulich als Graphen. 9.4 Umkehrfunktionen Funktionen sind gemäß Definition 6.1 dadurch charakterisiert, daß sie jedem Element ihres Definitionsbereichs genau ein Element ihres Wertebereichs zuordnen. Die Fragestellung, ob eine Funktion möglicherweise umgekehrt auch jedem Element ihres Wertebereichs genau ein Element ihres Definitionsbereichs zuordnet, führt zum Begriff der Umkehrfunktion: Definition 9.7 (Umkehrfunktion) Eine Funktion g : Y → X heißt Umkehrfunktion (engl.: inverse function) zu einer Funktion f : X → Y , wenn für alle x ∈ X gilt: g(f (x)) = x. Eine solche Funktion wird mit f −1 bezeichnet. Eine Umkehrfunktion f −1 einer Funktion f : X → Y hat also den Wertebereich Y von f als Definitions- und den Definitionsbereich X von f als Wertebereich und ordnet jedem Funktionswert f (x) ∈ Y das zugehörige Argument x ∈ X zu. Beispiel 9.7: (i) Zu der Funktion f : R → R mit y = f (x) = 2x + 4 ist eine Umkehrfunktion gegeben durch f −1 : R → R mit x = f −1 (y) = 12 y − 2 die Umkehrfunktion, da für alle x ∈ R gilt: f −1 (f (x)) = f −1 (2x + 4) = 12 (2x + 4) − 2 =x √ (ii) Sei g : R → R+ mit g(x) = x2 , dann sind sowohl g1−1 (y) = y als auch √ g2−1 (y) = − y Umkehrfunktionen zur Funktion g und gehen beide von R+ nach R. Wie das Beispiel zeigt, existiert allerdings nicht zu jeder Funktion eine eindeutige Umkehrfunktion. So kann zu g : R → R mit g(x) = x2 keine Umkehrfunktion angegeben werden, da einigen Funktionswerten zwei Argumente zugeordnet werden können und anderen als Elementen des Wertebereichs von f grundsätzlich möglichen Funktionswerten kein Argument zugeordnet werden kann. Beispielsweise 71 9 Funktionen von Rm nach Rn f f a 1 b a 2 c b 3 d 3 d 5 X 2 c 4 e 1 4 e Y 5 X (a) Y (b) Abbildung 9.9: Injektivität existieren mit 1 und −1 zwei mögliche Argumente zum Funktionswert 1 und kein Argument zum Element −5 des Wertebereichs. Nachfolgend werden Funktionseigenschaften vorgestellt, nämlich Injektivität, Surjektivität und Bijektivität, die zusammen die Existenz einer eindeutigen Umkehrfunktion garantieren. Definition 9.8 (Injektivität, Surjektivität, Bijektivität) Eine Funktion f : X → Y heißt injektiv (engl.: one-to-one), wenn für alle x1 , x2 ∈ X gilt f (x1 ) = f (x2 ) ⇒ x1 = x2 . Eine Funktion f : X → Y heißt surjektiv (engl.: onto), wenn gilt f (X) = Y. Ist eine Funktion injektiv und surjektiv, so heißt sie bijektiv (engl.: bijective). Eine Funktion ist also genau dann injektiv, wenn es möglich ist, vom Funktionswert f (x) eindeutig auf das Argument x zu schließen. In Abbildung 9.9 wird dieser Umstand an (a) einer injektiven und (b) einer nicht-injektiven Funktion veranschaulicht. Eine Funktion f ist surjektiv, wenn es möglich ist, zu jedem Element y ihres Wertebereichs mindestens ein Element x des Definitionsbereichs anzugeben, welches von f auf y abgebildet wird. In Abbildung 9.10 wird dieser Umstand an (a) einer surjektiven und (b) einer nicht-surjektiven Funktion veranschaulicht. Offenbar ist unter diesen Abbildungen nur die durch 9.9(a) dargestellte Funktion bijektiv. Beispiel 9.8: (i) f : R2 → R mit f (x, y) = 2(x − 1)y ist offenbar surjektiv, aber wegen 72 9 Funktionen von Rm nach Rn f f a a 1 b b 2 c 1 2 c 3 d 3 d 4 4 e e X Y X (a) Y (b) Abbildung 9.10: Surjektivität f (1, 0) = f (2, 0) nicht injektiv. (ii) g1 : R → R mit g1 (x) = x2 ist weder injektiv noch surjektiv. g2 : [0, ∞) → R mit g2 (x) = x2 ist injektiv, aber nicht surjektiv und g3 : [0, ∞) → [0, ∞) mit g3 (x) = x2 ist injektiv und surjektiv, also bijektiv. Der nachfolgende Satz gibt eine notewendige und hinreichende Voraussetzung für die Existenz einer Umkehrfunktion an. Satz 9.1 Zu jeder bijektiven Funktion existiert eine eindeutige Umkehrfunktion. Umgekehrt ist eine Funktion mit eindeutiger Umkehrfunktion bijektiv. Die Beweisidee ist, daß die Surjektivität garantiert, jedem Element des Wertebereiches einer Funktion f durch die Umkehrfunktion f −1 mindestens ein Element des Definitionsbereichs von f zuzuordnen, während Injektivität sicherstellt, daß durch die Umkehrfunktion jedem Element des Wertebereichs von f höchstens ein Element des Definitionsbereichs von f zugeordnet wird. Beispiel 9.9: (i) Die Funktion f : {1, 2, 3} → {a, b, c} mit f (1) = b, f (2) = a und f (3) = c ist bijektiv. Ihre Umkehrfunktion ist f −1 : {a, b, c} → {1, 2, 3} mit f −1 (a) = 2, f −1 (b) = 1 und f −1 (c) = 3. (ii) Die Funktion f : (−∞, 0] → [2, ∞) mit f (x) = x2 + 2 ist, wie an ihrem √ Gra−1 phen leicht erkennbar ist, bijektiv. Ihre Umkehrfunktion ist f (y) = − x − 2. 73 9 Funktionen von Rm nach Rn Häufig ist es nützlich und sinnvoll, auch zu injektiven aber nicht surjektiven Funktion f eine ’Umkehrfunktion’ anzugeben, indem man den Wertebereich von f auf die Bildmenge von f einschränkt und so eine bijektive Funktion f¯ konstruiert, die auf dem Definitionsbereich identisch zur Funktion f ist und zu der nach Satz 9.1 eine Umkehrfunktion existiert. Der nachfolgende Satz präzisiert dieses Vorgehen: Satz 9.2 Jede injektive Funktion f : X → Y induziert genau eine bijektive Funktion f¯ : X → f (X) mit f¯(x) = f (x), zu der eine Umkehrfunktion f¯−1 existiert. Beispiel 9.10: Die injektive Funktion f : R → R mit f (x) = ex induziert die bijektive Funktion f¯ : R → (0, ∞) mit f¯(x) = ex . Deren Umkehrfunktion ist f¯−1 : (0, ∞) → R mit f¯−1 (y) = ln y. 9.5 Grenzwerte von Funktionen und Stetigkeit In diesem Abschnitt werden die in den Definitionen 6.2 und 6.3 eingeführten Begriffe Grenzwert und Stetigkeit auf höhere Dimensionen verallgemeinert. Die entscheidende Vorarbeit ist bereits erledigt, da die diesen Konzepten zugrundeliegenden Ideen und Intuitionen direkt auf höhere Dimensionen übertragbar sind. Der Grenzwert einer Funktion ist wie zuvor durch die Konvergenz von zugehörigen Folgen von Funktionswerten gegen einen Funktionswert beliebiger gegen den selben Wert konvergierender Folgen im Definitionsbereich der Funktion definiert. Für die Existenz des Grenzwertes einer Funktion muß also die Konvergenz durch die Funktion – in eindeutiger Weise – vom Urbild in das Bild übertragen werden. Definition 9.9 (Grenzwert einer Funktion) Sei f : X → Y eine Funktion mit X ⊆ Rn , Y ⊆ Rm . Der Grenzwert ŷ der Funktion f an der Stelle x̂ ∈ X existiert, falls für jede Folge (xn )n∈N ∈ X mit xn −→ x̂ die Folge (f (xn ))n∈N stets gegen das selbe Element ŷ ∈ Y konvergiert. Man schreibt wie im eindimensionalen Fall lim f (x) = ŷ. x→x̂ Definition 9.10 (Stetigkeit) Die Funktion f : X → Y heißt stetig an der Stelle x̂ ∈ X, falls limx→x̂ f (x) existiert und lim f (x) = f (x̂). x→x̂ Die Funktion f heißt stetig auf A ⊆ X, falls f stetig ist für alle x̂ ∈ A 74 9 Funktionen von Rm nach Rn Für die Definition des Grenzwertes einer Funktion wollen wir außerdem zulassen, daß einer Funktion f an einem Randpunkt x̄ ∈ ∂X \ X ihres Definitionsbereichs, der nicht Element dieses Definitionsbereichs ist, ein Grenzwert a zugeordnet werden kann, wenn unabhängig davon, entlang welchen durch eine Folge (xn )n∈N beschriebenen Pfads man sich dem Randpunkt x̄ anähert, die sich entlang dieses Pfads ergebende Folge von Funktionswerten (f (xn ))n∈N immer gegen a konvergiert. Eine Funktion f : X → Y ist stetig an einer Stelle x̄ ∈ X, wenn bei der Konvergenz gegen x̄ entlang des durch eine solche konvergente Folge (xn ) vorgegebenen Pfads die Folge der Funktionswerte (f (xn )) gegen den Funktionswert f (x̄) konvergiert. Da der Grenzwertbegriff für Funktionen unmittelbar auf demjenigen für Folgen aufbaut, gelten alle Aussagen des Satzes 5.4 entsprechend für Grenzwerte von Funktionen. In den nachfolgenden Beispielen wird davon verschiedentlich Gebrauch gemacht. Beispiel 9.11: (i) Sei f : (0, 1) → R mit f (x) = 2x. Dann ist limx→1 f (x) = 2, da zu jeder Folge (xn ) mit xn −→ 1 und xn ∈ (0, 1) die Folge (f (xn )) = (2xn ) gegen 2 konvergiert. (ii) Die Funktion f : R → R mit f (x) = 1 0 für x ≥ 0 für x < 0 1 ist unstetig an der Stelle x̄ = 0, da etwa zur Folge − n mit − n1 −→ 0 die Folge 1 f − n = (0) gegen 0 konvergiert, obgleich f (0) = 1 ist. Dieses Beispiel korrespondiert mit unserer in Kapitel 6 gegebenen Intuition des abzusetzenden Stiftes bei Unstetigkeiten. Das folgende Beispiel demonstriert dagegen die Unzulänglichkeit dieser Intuition. 1 (iii) Sei f : (0, ∞) → R mit f (x) = sin x1 . Da zu der Folge 2πn die Fol 1 1 = (sin 2πn) = (0) gegen 0 und zu der Folge 2πn+ π die Folge ge f 2πn 2 1 π = sin 2πn + 2 ) = (1) gegen 1 konvergiert, existiert limx→0 f (x) f 2πn+ π 2 nicht. Dieses Beispiel lehrt uns also, daß die in Kapitel 6 gegebene Intuition des abzusetzenden Stiftes bei Unstetigkeiten hier nicht hilfreich ist, da der durch diese offenbar unstetige Funktion beschriebene Graph nicht in zwei unzusammenhängende Teilmengen zerfällt, wie das Absetzen des Stiftes suggerieren mag. (iv) Die Funktion f : R → R mit f (x) = 3x + 5 ist stetig an jeder Stelle x̄, da für alle Folgen (xn ) mit xn −→ x̄ gilt |f (xn ) − f (x̄)| = |3xn + 5 − 3x̄ − 5| = 3|xn − x̄| −→ 3 · 0 = 0, 75 9 Funktionen von Rm nach Rn also f (xn ) −→ f (x̄). (v) Die Funktion f : R → R mit f (x) = x2 ist überall stetig, da für alle Folgen (xn ) mit xn −→ x̄ gilt |f (xn ) − f (x̄)| = |x2n − x̄2 | = |(xn − x̄)(xn + x̄)| = |xn − x̄| · |xn + x̄| −→ 0 · 2x̄ = 0, daher f (xn ) −→ f (x̄). (vi) Die Funktion f : R2 → R mit f (x, y) = 2xy ist stetig an jeder Stelle (x̄, ȳ) ∈ R2 , da für alle Folgen (xn , yn ) mit (xn , yn ) −→ (x̄, ȳ) gilt |f (xn , yn ) − f (x̄, ȳ)| = |2xn yn − 2x̄ȳ| −→ 2(|x̄ȳ − x̄ȳ| = 0 und daher f (xn , yn ) −→ f (x̄, ȳ). (vii) Die Funktion f : R \ {0} → R mit f (x) = x1 ist stetig durch geeignete Einschränkung des Definitionsbereiches. (viii)Die Funktion f : R → R mit 1 fürx = n1 mit n ∈ N f (x) = x sonst ist an der Stelle x̄ = 0, da etwa zur Folge n1 mit n1 −→ 0 die Folge unstetig f n1 gegen 1 konvergiert, obgleich f (0) = 0 gilt. 9.6 Monotonie und Homogenität In den beiden folgenden Abschnitten werden Eigenschaften reellwertiger Funktionen von Rn nach R behandelt (also die Dimension der Bildmenge ist m = 1), die in den Wirtschaftswissenschaften von zentraler Bedeutung sind. Zunächst werden wir Monotonie allgemein definieren. Definition 9.11 (Monotonie) Eine Funktion f : X → Y mit X ⊆ Rn , Y ⊆ R und f (x1 , . . . , xn ) = f (x) ∈ R heißt i) monoton steigend (engl.: increasing) in der Komponente xi , wenn für alle x, x ∈ X mit xi > xi und xj = xj für alle j ∈ {1, . . . , n} \ {i} gilt f (x ) ≥ f (x). ii) monoton fallend (engl.: decreasing) in der Komponente xi , wenn für alle x, x ∈ X mit xi > xi und xj = xj für alle j ∈ {1, . . . , n} \ {i} gilt f (x ) ≤ f (x). 76 9 Funktionen von Rm nach Rn Ist f monoton steigend (fallend) in xi in allen Komponenten i = 1, . . . , n, so heißt f monoton steigend (fallend). Ersetzt man in i) und ii) die Relationszeichen ≥ und ≤ durch > bzw. <, so erhält man die entsprechenden Definitionen für strenge Monotonie (engl.: strict monotonicity). Unsere aus Kapitel 6 aufgebaute Intuition gilt weiter, und zwar unabhängig für jede einzelne Komponente. Eine reellwertige Funktion ist also genau dann monoton steigend in einer Komponente ihres Arguments, falls der Funktionswert für wachsende Werte dieser Komponente (schwach) mitwächst, wenn die anderen Komponenten konstant bleiben. Beispiel 9.12: (i) Die Funktion f : R → R mit f (x) = −x3 ist streng monoton fallend in x. (ii) Die Funktion f : R2 → R mit f (x, y) = 2x − 3y ist streng monoton steigend in x und steng monoton fallend in y (vgl. Abbildung 9.11). (iii) Die Funktion f : R2 → R mit f (x, y) = xy ist weder monoton steigend noch monoton fallend in x, da etwa für y = 1 die Funktionswerte mit steigendem x zu-, für y = −1 jedoch abnehmen. Das Gleiche gilt aus Symmetriegründen für y. Dagegen ist die Funktion g : [0, ∞)2 → R mit g(x, y) = xy aufgrund der Wahl des Definitionsbereichs monoton steigend in x und in y und also insgesamt monoton steigend. (iv) Die Funktion f : R2 → R mit f (x, y) = ex y ist streng monoton steigend in y, da für alle x ∈ R die Ungleichung ex > 0 erfüllt ist. Die Monotonie einer Funktion ergibt sich in den Wirtschaftswissenschaften oft ganz natürlich. So ist es etwa sinnvoll anzunehmen, daß Produktionsfunktionen, welche die durch einen Produktionsprozeß vorgegebene Beziehung zwischen Outputmenge und den Inputmengen eingesetzter Produktionsfaktoren, beispielsweise Kapital und Arbeit, beschreiben, monoton steigend sind, da eine Erhöhung der Inputmengen im relevanten Bereich eine Erhöhung der Outputmenge bewirkt. Eine weitere Eigenschaft von Funktionen ist die Homogenität, eine Art abgeschwächte Form der Symmetrie, die in den Wirtschaftswissenschaften häufig verwendet wird, da sie je nach Zusammenhang leicht ökonomisch interpretierbar ist und den Rechenaufwand deutlich reduzieren kann. Definition 9.12 (Homogenität) Eine Funktion f : X → Y mit X ⊆ Rn , Y ⊆ R und λx ∈ X für alle x ∈ X und alle λ > 0 heißt homogen (engl.: homogeneous) vom Grad r ∈ R, wenn für alle x ∈ X und alle λ > 0 gilt: f (λx) = λr f (x) 77 9 Funktionen von Rm nach Rn 10 z 5 0 -5 -10 -2 2 1 0 -1 -1 0 x 1 2 -2 Abbildung 9.11: Graph von f (x, y) = 2x − 3y 78 y 9 Funktionen von Rm nach Rn Eine Funktion ist also homogen vom Grad r, wenn eine Vervielfachung aller Komponenten ihres Arguments um einen Faktor λ > 0 eine Vervielfachung des Funktionswerts um den Faktor λr bewirkt. Beispiel 9.13: (i) Die Funktion f : R2 → R mit f (x, y) = 2x2 y 3 ist homogen vom Grad 5, da für alle λ > 0 und alle (x, y) ∈ R2 gilt: f (λx, λy) = 2(λx)2 (λy)3 = λ5 · 2x2 y 3 = λ5 f (x, y) (ii) Die Funktion f : R2 → R mit f (x, y) = 5x2 − y 2 ist homogen vom Grad 2, da für alle λ > 0 und alle (x, y) ∈ R2 gilt: f (λx, λy) = 5(λx)2 − (λy)2 = λ2 (5x2 − y 2) = λ2 f (x, y) (iii) Die Funktion f : R2 → R mit f (x, y) = x2 + xy − y ist inhomogen, da beispielsweise eine Verdopplung aller Argumente an der Stelle (1, 1) wegen f (1, 1) = 1 und f (2, 2) = 6 eine Versechsfachung des Funktionswerts bewirkt, während dieses bei einer Verdopplung aller Argumente an der Stelle (2, 2) wegen f (2, 2) = 6 und f (4, 4) = 28 nicht der Fall ist. (iv) Die Funktion f : Rn → R mit f (x) = min{x1 , . . . , xn } und n ∈ N ist homogen vom Grad 1. 9.7 Konkavität und Quasikonkavität Die folgenden Eigenschaften Konvexität, Konkavität und Quasikonkavität charakterisieren die Krümmungseigenschaften von Funktionen. Wir werden dabei sehen, daß die Konzepte Konvexität und Konkavität genau wie bei eidimensionalen Funktionen definiert werden. Das Konzept der Quasikonkavität hat eine lange Tradition, Verwirrung unter Anfängerstudenten der Wirtschaftswissenschaften zu stiften. Die Quelle der Verwirrung ist der enge Zusammenhang quasikonkaver Funktionen mit konvexen Mengen, der im Folgenden erläutert werden soll. Wie das Wort quasikonkav suggeriert, ist es aber eine Abschwächung der Konkavit2at einer Funktion, d.h. jede konkave Funktion ist auch quasikonkav. Unglücklicherweise ist genau dieser Begriff der Quasikonkavität häufig der für Wirtschaftswissenschaften entscheidende, da er in vielen relevanten Zusammenhängen die Eindeutigkeit von Lösungen garantiert. 79 9 Funktionen von Rm nach Rn Definition 9.13 (Konvexität und Konkavität) Eine Funktion f : X → Y mit X ⊆ Rn als konvexer Menge, Y ⊆ R heißt i) konvex (engl.: convex), wenn für alle x, x ∈ X mit x = x und alle λ ∈ (0, 1) gilt f (λx + (1 − λ)x ) ≤ λf (x) + (1 − λ)f (x ) und ii) konkav (engl.: concave), wenn für alle x, x ∈ X mit x = x und alle λ ∈ (0, 1) gilt f (λx + (1 − λ)x ) ≥ λf (x) + (1 − λ)f (x ). Ersetzt man in den beiden obigen Ungleichungen die Relationszeichen ≤ und ≥ durch < bzw. >, so erhält man die Definitionen strenger Konvexität und Konkavität. Eine Funktion ist also konvex, wenn die gerade Verbindungslinie zwischen zwei beliebigen Punkten auf dem Graphen der Funktion immer ausschließlich oberhalb des Graphen verläuft (vgl. Abbildung 9.12 (a)) und konkav, wenn diese ausschließlich unterhalb des Graphen verläuft (vgl. Abbildung 9.12 (b)). Der analytische Nachweis mit Hilfe von Definition 9.13, daß eine Funktion konvex bzw. konkav ist, ist oft umständlich oder nicht möglich. Da dies aber häufig mit Hilfe von später behandelten Ableitungseigenschaften gemacht wird und meistens nur die schwächere Eigenschaft Quasikonkavität nötig, ist verzichten wir an dieser Stelle auf eine Diskussion an Beispielen und gehen gleich zu Quasikonkavität weiter. Definition 9.14 (Quasikonkavität) Eine Funktion f : X → Y mit X ⊆ Rn als konvexer Menge und Y ⊆ R heißt quasikonkav (engl.: quasiconcave), wenn für alle x, x ∈ X mit x = x und alle λ ∈ (0, 1) gilt f (λx + (1 − λ)x ) ≥ min {f (x), f (x )} . Ersetzt man in dieser Ungleichung das Relationszeichen ≥ durch >, so erhält man die Definition strenger Quasikonkavität. Eine Funktion f : X → Y ist also genau dann quasikonkav, wenn die Funktionswerte beliebiger Konvexkombinationen zweier Punkte den kleineren der beiden Funktionswerte an diesen Punkten nicht unterschreitet. Entsprechend kann man Quasikonvexität definieren, die wir aber hier nicht weiter thematisiern, da sie in den Wirtschaftswissenschaften selten vorkommt. Der bereits erwähnte Umstand, daß Quasikonkavität gegenüber Konkavität eine schwächere Eigenschaft ist, wird präzisiert durch Satz 9.3. 80 9 Funktionen von Rm nach Rn y z λf(x)+(1−λ λ)f(x’)) f(λx+(1−λ λ)x’)) 0 y 0 x x λx+(1−λ λ)x’ x’ x x λx+(1−λ λ)x’ x’ x (a) y z f(λx+(1−λ λ)x’)) λ)f(x’)) λf(x)+(1−λ 0 y 0 x (b) Abbildung 9.12: Konvexität und Konkavität 81 9 Funktionen von Rm nach Rn Satz 9.3 Jede konkave Funktion ist quasikonkav. Beweis. Sei f : X → Y konkav mit X ⊆ Rn als konvexer Menge und Y ⊆ R. Dann gilt für alle x, x ∈ X und alle λ ∈ (0, 1) f (λx + (1 − λ)x ) ≥ λf (x) + (1 − λ)f (x ) ≥ λ min {f (x), f (x )} + (1 − λ) min {f (x), f (x )} = min {f (x), f (x )} Folglich ist f auch quasikonkav. Eine äquivalente Charakterisierung von Quasikonkavität gibt Satz 9.4. Er besagt, daß eine Funktion f : X → Y genau dann quasikonkav ist, wenn zu jedem Niveau a ∈ Y die sogenannte obere Konturmenge oder Bessermenge Ba , die alle x ∈ X mit f (x) ≥ a enthält, konvex ist. Aus Satz 9.4 folgt insbesondere, daß die Konvexität der oberen Konturmengen eine alternative Definition von Quasikonkavität darstellt. Dieser semantisch ungückliche Umstand ist häufige Quelle von Irrtümern bei unbedarften Benutzern. Satz 9.4 Eine Funktion f : X → Y mit X ⊆ Rn als konvexer Menge, Y ⊆ R und n ∈ N ist genau dann quasikonkav, wenn für alle a ∈ Y die Bessermenge (engl.: upper level set) Ba = {x | x ∈ X ∧ f (x) ≥ a} konvex ist (vgl. Abbildung 9.13). Beweis. Da Satz 9.4 eine Äquivalenzaussage macht, müssen Implikationen in beiden Richtungen gezeigt werden. Zeige also zunächst, daß aus der Quasikonkavität von f die Konvexität von Ba für alle a ∈ Y folgt. Seien x, x ∈ Ba für ein beliebiges a ∈ Y . Dann ist f (x) ≥ a und f ( x) ≥ a. Da f nach Voraussetzung quasikonkav ist, gilt dann für alle λ ∈ (0, 1) die Beziehung f (λx + (1 − λ)x ) ≥ min {f (x), f (x )} ≥ a. Also ist λx + (1 − λ)x ∈ Ba und daher Ba konvex. Zeige nun umgekehrt, daß aus der Konvexität von Ba für alle a ∈ Y die Quasikonkavität von f folgt. Seien x, x ∈ Ba mit a = min {f (x), f (x )}. Da Ba nach Voraussetzung konvex ist, gilt für alle λ ∈ (0, 1) die Beziehung λx + (1 − λ)x ∈ Ba . 82 9 Funktionen von Rm nach Rn y Ba f−1({a a}) 0 x Abbildung 9.13: Quasikonkavität 3 2 1 10 z 5 0 -5 0 2 -1 0 y -2 -2 0 x -2 -3 -3 2 -2 -1 0 1 2 3 Abbildung 9.14: Graph und Bessermengen von f (x, y) = 10 − (x2 + y 2 ) Also ist f (λx + (1 − λ)x ) ≥ min {f (x), f (x )} und daher f quasikonkav. Beispiel 9.14: (i) Die Funktion f : R2 → R mit f (x, y) = 10 − (x2 + y 2) ist quasikonkav (vgl. Abbildung 9.14). (ii) Die Funktion f : R → R mit f (x) = ex ist quasikonkav aber strikt konvex also nicht konkav. Warum? (iii) Jede stetige eingipflige Funktion R → R mit höchstens einem Maximum ist quasikonkav. So ist z.B. f1 : R → R mit f1 (x) = −x2 quasikonkav (und auch 2 konkav). Dagegen ist f2 : R → R mit f2 (x) = e−x quasikonkav aber nicht konkav. Warum? 83 9 Funktionen von Rm nach Rn Insbesondere Quasikonkavität ist oft ganz natürlich eine Eigenschaft von Funktionen, die wirtschaftliche Phänomene beschreiben. So ist es beispielweise oft sinnvoll anzunehmen, daß Nutzenfunktionen, die den Zusammenhang zwischen der ’Zufriedenheit’ eines Konsumenten und seinem Konsum beschreiben, quasikonkav sind. 9.8 Ausgewählte Typen von Funktionen In diesem Abschnitt werden zum Abschluß dieses Kapitels einige Typen von Funktionen vorgestellt, die bei der Beschreibung ökonomischer Phänomene besonders häufig benutzt werden, da sie rechnerisch leicht zu handhaben sind. Den Lesern wird als Übung and Herz gelegt, die aufgezählten Eigenschaften anhand der Definitionen dieses Kapitels zu verifizieren. Definition 9.15 (Cobb-Douglas-Funktion) Eine Funktion f : [0, ∞)n → R mit n f (x) = xai i i=1 mit festen ai > 0 für alle i = 1, . . . , n heißt Cobb-Douglas-Funktion. Cobb-Douglas-Funktionen sind monoton n steigend in x1 bis xn , homogen vom n Grad i=1 ai , quasikonkav und für i=1 ai ≤ 1 zusätzlich konkav. Definition 9.16 (Leontief- oder auch limitationale Funktion) Eine Funktion f : [0, ∞)n → R mit x1 xn f (x) = min ,..., a1 an und mit festen ai > 0 für alle i = 1, . . . , n heißt Leontief-Funktion. Leontief-Funktionen sind monoton steigend in x1 bis xn , homogen vom Grade 1, quasikonkav und konkav. Definition 9.17 (CES-Funktion) Eine Funktion f : [0, ∞)n → R mit f (x) = n 1q ai xqi i=1 und mit festen ai > 0 für alle i = 1, . . . , n, q ≤ 1 und q = 0 heißt CES-Funktion. 84 9 Funktionen von Rm nach Rn 2 1.5 z4 3 2 1 0 0 0.5 2 1.5 1y 0.5 1 x 1.5 1 0.5 20 0 0 0.5 1 1.5 2 6 Abbildung 9.15: Graph und Isohöhenlinien zu f (x, y) = x 5 y 2 1.5 1 0.75 z 0.5 0.25 0 0 0.5 1 x 1.5 2 1.5 1y 0.5 1 0.5 20 0 0 0.5 1 1.5 2 Abbildung 9.16: Graph und Isohöhenlinien zu f (x, y) = min x, y2 CES-Funktionen1 sind monoton steigend in x1 bis xn , homogen vom Grad 1, quasikonkav und für q > −1 zusätzlich konkav. Beispiel 9.15: 6 (i) f : [0, ∞)2 → R mit f (x, y) = x 5 y ist eine Cobb-Douglas-Funktion. Ihr Graph und einige Isohöhenlinien sind inAbbildung 9.15 dargestellt. (ii) f : [0, ∞)2 → R mit f (x, y) = min x, y2 ist eine Leontief-Funktion. Dabei ist f (8, 4) = min{8, 2} = 2, f (8, 8) = min{8, 4} = 4 und f (8, 20) = min{8, 10} = 8. Ihr Graph und einige Isohöhenlinien 9.16 dargestellt. √sind in√Abbildung 2 2 (iii) f : [0, ∞) → R mit f (x, y) = 2 x + 2 y ist eine CES-Funktion. Eine CES-Funktion f (x) = n 1q ai xqi i=1 1 Die Abkürzung CES steht für ’constant elasticity of substitution’. 85 9 Funktionen von Rm nach Rn approximiert für q −→ −∞ eine Leontief-Funktion und für q −→ 0 eine CobbDouglas-Funktion. Insofern können CES-Funktionen als die allgemeinsten der drei hier vorgestellten Funktionstypen aufgefaßt werden. 86 10 Differentialrechnung In diesem Kapitel wird das zentrale Instrument der Analysis auf Funktionen mehrerer Veränderlicher erweitert. Die Differentialrechnung (engl.: calculus) ist auch das wichtigste Handwerkzeug der Wirtschaftswissenschaften. 10.1 Partielle Ableitungen In diesem Abschnitt wird die Ableitung reellwertiger Funktionen mit mehreren Veränderlichen behandelt. Eine Funktion mehrerer Veränderlicher kann wie wir bei den graphischen Darstellungen von Funktionen gelernt haben auf verschiedene Art und Weise als Funktion einer Variablen interpretiert werden. Die einfachste Art ist, alle Variablen außer einer konstant zu halten. Die Ableitung jeder dieser so gebildeten Funktionen einer Variablen (deren Graphen die projezierten Schnittlinien sind) heißen partielle Ableitungen. Definition 10.1 (Partielle Differenzierbarkeit und Ableitung) Eine Funktion f : X → Y mit X ⊆ Rn , Y ⊆ R heißt für i ∈ {1, . . . , n} partiell differenzierbar (engl.: partially differentiable) nach xi an der Stelle x̄ ∈ X, wenn der Grenzwert lim xi →x̄i f (x̄1 , . . . , xi , . . . , x̄n ) − f (x̄) f (x̄1 , . . . , x̄i + ∆xi , . . . , x̄n ) − f (x̄) = lim ∆xi →0 xi − x̄i ∆xi existiert. Dieser Grenzwert heißt dann erste partielle Ableitung (engl.: first-order partial derivative) von f nach xi an der Stelle x̄ und wird geschrieben als ∂f (x̄) ∂xi oder Di f (x̄) oder verkürzt fi (x̄). Ist f an jeder Stelle x ∈ X partiell differenzierbar nach xi , so heißt f partiell differenzierbar nach xi . Die Funktion, die jedem x ∈ X die partielle Ableitung von f nach xi an der Stelle x zuordnet, heißt dann partielle Ableitung von f nach xi und wird bezeichnet mit ∂f ∂xi oder Di f oder verkürzt als fi . 87 10 Differentialrechnung Ist f partiell differenzierbar nach xi für alle i ∈ {1, . . . , n}, so heißt f partiell differenzierbar. Sind außerdem alle partiellen Ableitungen von f stetig, so nennt man f C 1 -Funktion. Beispiel 10.1: (i) Sei f (x1 , x2 ) = a1 x1 + a2 x2 + b eine lineare Funktion von R2 nach R. Dann sind sind die partiellen Ableitungen konstant, also ∂f (x1 , x2 ) = a1 ∂x1 und ∂f (x1 , x2 ) = a2 . ∂x2 (ii) Sei fy : R → R eine parametrisierte Funktionenschar mit fy (x) = 2x2 y und y ∈ R als Parameter. Dann ist für alle x, y ∈ R die Ableitung dfdxy (x) = 4xy. ∂g (x̄, ȳ) = 4x̄ȳ Sei nun g : R2 → R eine Funktion mit g(x, y) = 2x2 y. Dann ist ∂x die partielle Ableitung von g nach x an einer Stelle (x̄, ȳ) ∈ R2 , wie die folgende Grenzwertbetrachtung erbringt: 2 2 ȳ−2x̄ ȳ = lim∆x→0 2(x̄+∆x) lim∆x→0 g(x̄+∆x,ȳ)−g(x̄,ȳ) ∆x ∆x 2 = lim∆x→0 4x̄ȳ∆x+2ȳ(∆x) ∆x = 4x̄ȳ ∂f Graphisch kann man die partielle Ableitung ∂x (x̄) einer Funktion f : X → Y mit i X ⊆ Rn , Y ⊆ R darstellen als Steigung derjenigen Tangente an den Graphen von f im Punkt (x, f (x)), die parallel zur (xi , f (x))-Ebene verläuft (vgl. Abbildung 10.1). 10.2 Richtungsableitung, Kettenregel, Satz von Euler Mit Hilfe der partiellen Ableitungen definieren wir allgemeiner die Richtungsableitung, die die lokale Veränderung des Funktionswertes in einer beliebigen Richtung (also nicht unbedingt entlang einer der Koordinatenachsen) beschreibt. Definition 10.2 (Richtungsableitung) Die Richtungsableitung der Funktion f : X → Y mit X ⊆ Rn , Y ⊆ R an der Stelle x̄ in Richtung r̄ ∈ Rn mit r̄ = 1 ist definiert durch f (x̄ + hr̄) − f (x̄) . Df (x̄; r̄) = lim h→0 h 88 10 Differentialrechnung f(x1,x2) t Gf x1 x2 x1 x2 Abbildung 10.1: Geometrische Interpretation der partiellen Ableitung In dieser Definition wird die Richtung, in der die Funktion f abgeleitet wird, auf die Länge 1 normiert, da in diesem Fall die Richtungsableitung in Richtung des i-ten Einheitsvektors ei = (0, . . . , 0, 1, 0, . . . , 0) (nur 1 bei der i-ten Koordinate, sonst 0) mit der jeweiligen partiellen Ableitung übereinstimmt, also Df (x̄; ei ) = ∂f (x̄) . ∂xi Es gilt die Rechenregel n ∂f (x̄) · r̄i . Df (x̄; r̄) = ∂xi i=1 3 Beispiel 10.2: Die Richtungsableitung der Funktion f (x1 , x2 ) = 2x1 x2 an der Stelle x̄ = (2, 1) in Richtung r̄ = √12 , √12 ist 1 1 1 1 = 2 · √ + 12 √ . Df (2, 1); √ , √ 2 2 2 2 Die Kettenregel für Funktionen mehrerer Veränderlicher ist eine unmittelbare Verallgemeinerung der uns bekannten Kettenregel für Funktionen einer Veränderlicher. Da bei der Hintereinanderausführung von Funktionen gleichzeitig alle Zwischenvariablen verändert werden können durch Veränderung einer Variablen in 89 10 Differentialrechnung der Urbildmenge ergibt sich die Veränderung der zusammengesetzten Funktion wie bei der Richtungsableitung durch die Summe der Veränderungen der Zwischenvariablen. Satz 10.1 (Kettenregel) Sei f : X1 × . . . × Xn → Y mit X1 , . . . , Xn ⊆ R, Y ⊆ R eine partiell differenzierbare Funktion. Seien außerdem gi : T → Xi mit T ⊆ Rk und k ∈ N für alle i ∈ {1, . . . , n} partiell differenzierbare Funktionen. Dann ist die zusammengesetzte Funktion h : T → Y mit h(t) = f (g1 (t), . . . , gn (t)) differenzierbar für alle j ∈ {1, . . . , k} und es gilt ∂f ∂gi ∂h (t) = (g1 (t), . . . , gn (t)) · (t). ∂tj ∂xi ∂tj i=1 n Beispiel 10.3: (i) Seien insbesondere gi : T → Xi mit T ⊆ R differenzierbare Funktionen einer Variablen. Dann ist die zusammengesetzte Funktion h : T → Y eine differenzierbare Funktion einer Variablen mit h(t) = f (g1 (t), . . . , gn (t)) für alle t ∈ T : ∂f dgi dh (g1 (t), . . . , gn (t)) · (t) = (t). dt ∂xi dt i=1 n (ii) Sei f : R2 → R mit f (x1 , x2 ) = x21 (x2 + 1), g1 : R → R mit g1 (t) = sin t und g2 : R → R mit g2 (t) = t2 . Dann ist die Ableitung der Funktion h : R → R mit h(t) = f (g1 (t), g2 (t)) gemäß des vorhergehenden Beispiels ∂f · dgdt1 (t) + ∂x (g1 (t), g2 (t)) · 2 = 2(sin t)(t + 1) · cos t + (sin t)2 · 2t. ∂f dh (t) = ∂x (g1 (t), g2 (t)) dt 1 2 dg2 (t) dt (iii) Sei f : R2 → R mit f (x1 , x2 ) = x2 sin x1 , g1 : R2 → R mit g1 (t) = t1 t2 und g2 : R2 → R mit g2 (t) = t2 . Dann ist die partielle Ableitung der Funktion h : R2 → R mit h(t) = f (g1 (t), g2 (t)) 90 10 Differentialrechnung nach t2 gemäß Satz 10.1 ∂f 1 · ∂g (t) + ∂x (g1 (t), g2 (t)) · ∂t2 2 = t2 (cos t1 t2 ) · t1 + (sin t1 t2 ) · 1. ∂f ∂h (t) = ∂x (g1 (t), g2 (t)) ∂t2 1 ∂g2 (t) ∂t2 Wir erinnern uns, daß Wirtschaftswissenschaftler gerne homogene Funktionen benutzen. Daher wird hier ein wichtiger Satz über homogene Funktionen angeführt. Der Beweis und die weitere Vertiefung wird als Übungsaufgabe behandelt. Satz 10.2 (Satz von Euler) Sei f : [0, ∞)n → R eine vom Grad r ∈ R homogene C 1 -Funktion. Dann gilt für alle x̄ ∈ [0, ∞)n : n ∂f (x̄)x̄i = rf (x̄). ∂x i i=1 10.3 Gradient, totales Differential Die partiellen Ableitungen einer C 1 -Funktion werden häufig zu einem Vektor, dem sogenannten Gradient, zusammengefaßt: Definition 10.3 (Gradient) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine C 1 Funktion. Dann heißt der Vektor ∂f ∂f gradf (x̄) = ∇f (x̄) = (x̄), . . . , (x̄) ∂x1 ∂xn Gradient (engl.: gradient vector) von f an der Stelle x̄ ∈ X.1 Beispiel 10.4: Sei f : R2 → R mit f (x, y) = 3x2 y − x. Dann ist ∇f (x, y) = 6xy − 1, 3x2 . Der Gradient ∇f (x) besitzt Eigenschaften, die ihn sehr anschaulich und leicht interpretierbar machen: • ∇f (x) zeigt an jeder Stelle x ∈ X in die Richtung des steilsten Anstiegs des Funktionswerts. 1 Das Symbol ∇ wird Nabla genannt. 91 10 Differentialrechnung y 3 ∇f(0.5, 2) = (2, 0.5)T 2 ∇f(1, 1) = (1, 1)T 1 f−1({1}) 0 0 0.5 1 2 3 4 x Abbildung 10.2: Eigenschaften des Gradienten am Beispiel von f (x, y) = xy • ∇f (x) steht für alle x ∈ X senkrecht auf der Isohöhenlinie von f zum Niveau f (x). Man erinnere sich in diesem Zusammenhang, daß die Isohöhenlinie in derjenigen Richtung verläuft, in der die Funktion einen konstanten Funktionswert besitzt, sich also gar nicht verändert. Beispiel 10.5: Abbildung 10.2 veranschaulicht diese Eigenschaften des Gradienten an der Funktion f : [0, ∞)2 → R mit f (x, y) = xy. Abgebildet sind die Isohöhenlinie von f zum Niveau 1 1 und die Gradienten ∇f (x, y) = (y, x) von f für (x, y) = (1, 1) und (x, y) = 2 , 2 . Die Ableitung einer Funktion f : X → Y mit X, Y ⊆ R an einer Stelle x̄ ∈ X kann, wie wir wissen, als Steigung der Tangente t an den Graphen von f im Punkt (x̄, f (x̄)) interpretiert werden (vgl. Abbildung 10.3 (a)). Die Geradengleichung dieser Tangente in x ∈ R und y ∈ R ist y = f (x̄)(x − x̄) + f (x̄). Mit ȳ = f (x̄), dx = x − x̄ und dy = y − ȳ ergibt sich daraus formal dy = f (x̄)dx. Die Tangente ist der Graph der linearen Funktion, die die Funktion f im Punkt x̄ am besten approximiert. 92 10 Differentialrechnung y z Et t Gf Gf x x x y (a) (b) Abbildung 10.3: Geometrische Interpretation des totalen Differentials Entsprechend kann mit Hilfe der partiellen Ableitungen einer C 1 -Funktion f : X → Y mit X ⊆ R2 und Y ⊆ R an einer Stelle (x̄, ȳ) ∈ X die Gleichung einer Tangentialebene Et an den Graphen von f in einem Punkt (x̄, ȳ, f (x̄, ȳ)) angegeben werden (vgl. Abbildung 10.3 (b)). Sie lautet in x ∈ R, y ∈ R und z ∈ R: ∂f ∂f z= (x̄, ȳ)(x − x̄) + (x̄, ȳ)(y − ȳ) + f (x̄, ȳ). ∂x ∂y Mit z̄ = f (x̄, ȳ), dx = x − x̄, dy = y − ȳ und dz = z − z̄ ergibt sich daraus dz = ∂f ∂f (x̄, ȳ)dx + (x̄, ȳ)dy. ∂x ∂y Wie zuvor ist die Tangentialebene der Graph der linearen Funktion von R2 nach R, die die Funktion f im Punkt (x̄, ȳ) am besten approximiert. Die Erweiterung dieses Konzeptes auf den allgemeinen Fall von Funktionen mit n ∈ N Veränderlichen führt zum Begriff des totalen Differentials. Definition 10.4 (Totales Differential) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine C 1 -Funktion. Das totale Differential Df (x̄) an der Stelle x̄ ist die lineare Funktion Df (x̄) : Rn −→ R mit dx −→ Df (x̄)(dx) = Df (x̄; dx) = 93 n ∂f (x̄) · dxi = ∇f (x̄) · dx, ∂x i i=1 10 Differentialrechnung wobei ∇f (x̄) · dx für das Vektorprodukt des Gradienten mit dx = (dx1 , . . . , dxn ) ∈ Rn , einem beliebiger Vektor des Rn steht. Eine andere verkürzte Schreibweise dafür ist n ∂f (x̄)dxi . df = ∂xi i=1 Die Schreibweise Df (x̄; dx) verdeutlicht, daß das totale Differential als verallgemeinerte Richtungsableitung aufgefaßt werden kann. Im Gegensatz zur Richtungsableitung wird die Länge des Vektors dx aber nicht normiert, kann also beliebig sein. Der Graph des totalen Differentials ist, wie wir in den Dimensionen n = 1, 2 gesehen haben, der Tangentialraum oder die Tangetialhyperebene 2 an den Graphen der Funktion f . Beispiel 10.6: Sei f : R2 → R mit f (x, y) = x2 + y 2. Dann ist das totale Differential von f an einer Stelle (x̄, ȳ) ∈ R2 df = 2x̄ · dx + 2ȳ · dy und für (x̄, ȳ) = (1, 1) df = 2dx + 2dy. Der Vergleich zwischen dem totalen Differential von f an der Stelle (x̄, ȳ) = (1, 1) und der tatsächlichen Veränderung des Funktionswerts ∆f = ∆f ((x̄, ȳ), (dx, dy)) = f (x̄ + dx, ȳ + dy) − f (x̄, ȳ) bei einer Änderung der Komponenten des Arguments um dx und dy ausgehend von (x̄, ȳ) = (1, 1) für verschiedene Werte von dx und dy ergibt die folgende Tabelle: (dx, dy) ∆f df (0.01, 0.01) 0.0402 0.04 (0.1, 0.01) 0.2301 0.22 (1, 1) 6 4 (10, 10) 240 40 2 Das ’hyper’ im Wort Tangentialhyperebene bezieht sich auf den Umstand daß deren Dimension nicht unbedingt 2 sein muß wie das Wort ’Ebene’ suggerieren mag. 94 10 Differentialrechnung 10.4 Höhere Ableitungen Wir verallgemeinern nun den Begriff der höheren Ableitung auf Funktionen mit mehreren Veränderlichen. Definition 10.5 (Ableitungen höherer Ordnung) Ist für i ∈ {1, . . . , n} die ∂f einer nach xi partiell differenzierbaren Funktion f : erste partielle Ableitung ∂x i n X → Y mit X ⊆ R , Y ⊆ R für ein j ∈ {1, . . . , n} partiell differenzierbar ∂f nach xj , dann heißt die erste partielle Ableitung von ∂x nach xj zweite partielle i Ableitung (engl.: second-order partial derivative) von f nach xi und xj . Diese Ableitung wird bezeichnet mit ∂2f ∂xj ∂xi oder verkürzt fji bzw. für i = j mit ∂2f . ∂x2i Die Fortschreibung dieser Definition führt zur partiellen Ableitung k-ter Ordnung mit k ∈ N, die mit ∂k f ∂xik . . . ∂xi1 für i1 , . . . , ik ∈ {1, . . . , n} bezeichnet wird. Beispiel 10.7: Sei f : R2 → R mit f (x, y) = x2 y + xy 3 . Die ersten partiellen Ableitungen sind Dann sind und ∂f (x, y) = 2xy + y 3 ∂x und ∂f (x, y) = x2 + 3xy 2 . ∂y ∂2f (x, y) = 2y ∂x2 und ∂2f (x, y) = 6xy ∂y 2 ∂2f (x, y) = 2x + 3y 2 ∂x∂y und ∂2f (x, y) = 2x + 3y 2 . ∂y∂x 2 2 ∂ f ∂ f In diesem Beispiel fällt auf, daß die beiden gemischten Ableitungen ∂x∂y und ∂y∂x übereinstimmen. Diese Aussage gilt allgemein für zweimal stetig differenzierbare Funktionen, so genannte C 2 -Funktionen. Definition 10.6 (C 2 -Funktion) Existieren zu einer Funktion f : X → Y mit X ⊆ Rn , Y ⊆ R alle zweiten partiellen Ableitungen und sind diese Ableitungen stetig, so heißt f C 2 -Funktion. 95 10 Differentialrechnung Satz 10.3 Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine C 2 -Funktion. Dann gilt für alle i, j ∈ {1, . . . , n} und für alle x ∈ X ∂2f ∂2f (x) = (x). ∂xi ∂xj ∂xj ∂xi Alle zweiten partiellen Ableitungen einer C 2 -Funktion werden zur sogenannten Hesse-Matrix, deren Definition nachfolgend angegeben ist, zusammengefasst. Wie die zweite Ableitung bei Funktionen von R nach R enthält die Hesse-Matrix an einer Stelle x̄ Informationen über die lokalen Krümmungseigenschaften wie z.B. Konkavität oder Konvexität einer Funktion an dieser Stelle. Definition 10.7 (Hesse-Matrix) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine zweimal partiell differenzierbare Funktion. Dann heißt die Matrix ∂2f ∂2f ∂2f (x̄) (x̄) · · · (x̄) 2 ∂x ∂x ∂x ∂x ∂x n 2 1 1 ∂ 2 f1 ∂2f ∂2f (x̄) (x̄) · · · (x̄) 2 ∂x ∂x ∂x ∂x ∂x 2 n 1 2 2 2 D f (x̄) = .. .. .. .. . . . . ∂2f ∂2f ∂2f (x̄) ∂x2 ∂xn (x̄) · · · (x̄) ∂x1 ∂xn ∂x2 n Hesse-Matrix (engl.: Hessian) von f an der Stelle x̄ ∈ X. Offensichtlich ist die Hesse-Matrix einer C 2 -Funktion nach Satz 10.3 symmetrisch.3 Beispiel 10.8: (i) Sei f : R2 → R mit f (x, y) = 3x2 y − 5y 3. Dann ist 2 ∂ f ∂2f (x, y) (x, y) 6y 6x 2 2 ∂x ∂y∂x D f (x, y) = = . 2 ∂2f 6x −30y (x, y) ∂∂yf2 (x, y) ∂x∂y (ii) Sei f : R3 → R mit f (x, y, z) = x2 yz − y 3 z 2 . Dann ist ∂2f ∂2f ∂2f (x, y, z) ∂y∂x (x, y, z) ∂z∂x (x, y, z) ∂x2 2 ∂2f ∂2f D 2 f (x, y, z) = ∂x∂y (x, y, z) ∂∂yf2 (x, y, z) ∂z∂y (x, y, z) 2 ∂2f ∂2f (x, y, z) ∂y∂z (x, y, z) ∂∂zf2 (x, y, z) ∂x∂z 2yz 2xz 2xy x2 − 6y 2z . = 2xz −6yz 2 −2y 3 2xy x2 − 6y 2z 3 Eine Matrix A = (aij )n×n mit n ∈ N heißt symmetrisch, falls aij = aji für alle i, j ∈ {1, . . . , n}. 96 10 Differentialrechnung 10.5 Eigenschaften von Funktionen und ihre Ableitungen In diesem Abschnitt werden Zusammenhänge zwischen den in den Abschnitten 9.6 und 9.7 vorgestellten Monotonie-, Konkavitäts- und Quasikonkavitätseigenschaften von Funktionen und ihren ersten und zweiten Ableitungen behandelt. Der nachfolgend angegebene Satz beschreibt den Zusammenhang zwischen den Monotonieeigenschaften einer Funktion und ihren ersten partiellen Ableitungen. Satz 10.4 Sei f : X → Y mit X ⊆ Rn , Y ⊆ R und f : (x1 , . . . , xn ) −→ f (x) eine C 1 -Funktion. Dann gilt: i) f steigt genau dann monoton in xi , wenn für alle x ∈ X gilt: ∂f (x) ≥ 0. ∂xi ii) f steigt streng monoton in xi , wenn für alle x ∈ X gilt: ∂f (x) > 0. ∂xi Ersetzt man in i) und ii) die beiden Relationszeichen ≥ und > durch ≤ bzw. <, so erhält man die entsprechenden Aussagen für monoton fallende Funktionen. Man beachte, daß der Satz für strenge Monotonie nur eine hinreichende Bedingung nennt, während er für (schwache) Monotonie eine notwendige und hinreichende Bedingung angibt. Beispiel 10.9: (x, y) = 3 > (i) Die Funktion f : R2 → R mit f (x, y) = 3x+5y 3 steigt wegen ∂f ∂x 2 0 für alle (x, y) ∈ R streng monoton in x. Außerdem steigt f wegen ∂f (x, y) = ∂y 2 2 15y ≥ 0 für alle (x, y) ∈ R monoton in y. f steigt sogar streng monoton in y. (0, 0) = 0 die Dies kann aber nicht aus Satz 10.4 geschlossen werden, da wegen ∂f ∂y hinreichende Bedingung nicht erfüllt ist. (ii) Die Funktion f : [0, ∞)n → R mit f (x) = n xai i i=1 und a1 , . . . , an > 0 ist für alle i = 1, . . . n monoton steigend in xi wegen a ∂f (x) = ai xiai −1 · xj j ≥ 0. ∂xi j=1 n j=i 97 10 Differentialrechnung Während die ersten Ableitungen einer Funktion Auskunft über deren Monotonieeigenschaften geben, stehen die zweiten Ableitungen in engem Zusammenhang mit den Konvexitäts- und Konkavitätseigenschaften der Funktion. Allgemein kann aus den Vorzeichen der Determinanten geeignet gewählter Teilmatrizen der Hesse-Matrix einer Funktion auf deren Krümmung geschlossen werden. Wir beschränken uns im Rahmen diese Skriptums auf die entsprechenden Zusammenhänge für Funktionen mit einer oder zwei reellen Veränderlichen mit den Sätzen 10.5 bis 10.7 ohne Beweise. 4 Satz 10.5 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R eine offene und konvexe Menge reeller Zahlen ist und Y ⊆ R . Dann gilt: i) f ist genau dann konvex, wenn für alle x ∈ X gilt: d2 f (x) ≥ 0 dx2 ii) f ist streng konvex, wenn für alle x ∈ X gilt: d2 f (x) > 0 dx2 Ersetzt man in i) und ii) die beiden Relationszeichen ≥ und > durch ≤ bzw. <, so erhält man zwei analoge Aussagen für konkave Funktionen. Satz 10.6 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R2 offen und konvex ist und Y ⊆ R . Dann gilt: i) f ist genau dann konvex, wenn für alle x ∈ X gilt: ∂2f (x) ≥ 0 ∂x21 2 ∂ f (x) ≥ 0 ∂x22 2 det (D f (x)) ≥ 0 ii) f ist streng konvex, wenn für alle x ∈ X gilt: ∂2f (x) > 0 ∂x21 2 det (D f (x)) > 0 4 Für weiterführende Aussagen zu diesem Thema sei der interessierte Leser auf Sydsæter et al. (1999, S. 79ff) verwiesen. 98 10 Differentialrechnung Satz 10.7 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R2 offen und konvex ist und Y ⊆ R . Dann gilt: i) f ist genau dann konkav, wenn für alle x ∈ X gilt: ∂2f (x) ≤ 0 ∂x21 2 ∂ f (x) ≤ 0 ∂x22 2 det (D f (x)) ≥ 0 ii) f ist streng konkav, wenn für alle x ∈ X gilt: ∂2f (x) < 0 ∂x21 2 det (D f (x)) > 0 Wiederum beachte man, daß diese Sätze für strenge Konvexität und Konkavität nur hinreichende Bedingungen angeben, während sie für (schwache) Konvexität und Konkavität notwendige und hinreichende Bedingungen angeben. Beispiel 10.10: 2 (i) Die Funktion f : R → R mit f (x) = x4 ist wegen ddxf2 (x) = 12x2 ≥ 0 für alle x ∈ R nach Satz 10.5 i) konvex. Ob f streng konvex ist, kann mit Satz 10.5 hingegen nicht entschieden werden, da die hinreichende Bedingung wegen d2 f (0) = 0 nicht erfüllt ist. dx2 2 (ii) Die Funktion f : R2 → R mit f (x, y) = x2 + y 2 + xy ist wegen ∂∂xf2 (x, y) = 2 > 0 und 2 2 1 =3>0 det D f (x, y) = det 1 2 für alle (x, y) ∈ R2 nach Satz 10.6 ii) streng konvex. (iii) Die Funktion f : R2 → R mit f (x, y) = −x − 3y 2 ist wegen 2 0, ∂∂yf2 (x, y) = −6 ≤ 0 und 2 det D f (x, y) = det 0 0 0 −6 ∂2f (x, y) ∂x2 =0≤ =0≥0 für alle (x, y) ∈ R2 nach Satz 10.7 i) konkav. Ob f streng konkav ist, kann mit Satz 10.7 wegen det (D 2 f (x, y)) = 0 wieder nicht entschieden werden. Der folgende Satz 10.8 gibt jeweils eine notwendige und eine hinreichende Bedingung für die Quasikonkavität einer Funktion mit zwei reellen Veränderlichen. 99 10 Differentialrechnung Satz 10.8 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R2 eine offene und konvexe Menge reeller Zahlen ist und Y ⊆ R . Sei ferner 2 2 2 2 ∂f ∂f ∂f ∂ f ∂ f ∂f ∂2f D̃(x) = 2 (x) (x) (x) − (x) (x) − (x) (x) 2 ∂x1 ∂x2 ∂x1 ∂x2 ∂x1 ∂x2 ∂x2 ∂x21 Dann gilt: i) Wenn f quasikonkav ist, gilt für alle x ∈ X: D̃(x) ≥ 0 ii) f ist quasikonkav, wenn für alle x ∈ X gilt: 2 ∂f (x) >0 ∂x1 D̃(x) > 0 Beispiel 10.11: Die Funktion f : (0, ∞)2 → R mit f (x, y) = x2 y 3 ist nach Satz 10.8 ii) wegen 2 2 ∂f (x, y) = 2xy 3 > 0 ∂x und 2 2 D̃(x, y) = 2 (2xy 3 · 3x2 y 2 · 6xy 2) − (2xy 3 ) · 6x2 y − (3x2 y 2 ) · 2y 3 = 30x4 y 7 >0 für alle (x, y) ∈ (0, ∞)2 quasikonkav. 10.6 Elastizitäten und deren ökonomische Interpretation Der Begriff der Elastizität, der seinen Ursrung den Wirtschaftswissenschaften verdankt, baut unmittelbar auf den Begriff der Ableitung auf. Definition 10.8 (Elastizität) Sei f : X → Y mit X, Y ⊆ R eine differenzierbare Funktion. Dann heißt für ein x̄ ∈ X mit f (x̄) = 0 ηf (x̄) = df x̄ (x̄) · dx f (x̄) Elastizität von f an der Stelle x̄. Außerdem heißt f unelastisch an der Stelle x̄ falls |ηf (x̄)| < 1 elastisch falls |ηf (x̄)| > 1. 100 10 Differentialrechnung df Während die Ableitung dx (x̄) der Funktion f ein Maß für die absolute Veränderung des Funktionswerts von f im Verhältnis zu einer infinitesimal kleinen absoluten Veränderung des Argument an einer Stelle x̄ ist, ist ihre Elastizität ηf (x̄) ein Maß für das Verhältnis der relativen Veränderungen von Funktionswert und Argument. Die folgende Überlegung verdeutlicht diese Interpretation der Elastizität. Sei f : X → Y mit X, Y ⊆ R eine differenzierbare Funktion und x̄ ∈ X. Dann gibt der Quotient f (x̄+∆x)−f (x̄) f (x̄) ∆x x̄ (x̄) das Verhältnis der relativen Veränderung des Funktionswerts f (x̄+∆x)−f und f (x̄) ∆x der relativen Veränderung des Arguments x̄ an der Stelle x̄ bei einer absoluten Veränderung des Arguments um ∆x = 0 an. Für ∆x −→ 0 konvergiert dieser Quotient wegen f (x̄+∆x)−f (x̄) f (x̄) ∆x x̄ = f (x̄ + ∆x) − f (x̄) x̄ · ∆x f (x̄) wegen der Differenzierbarkeit von f gegen df x̄ (x̄) · . dx f (x̄) Elastizitäten unterscheiden sich von Ableitungen dadurch, daß sie keine Einheit haben. Sie machen also den Grad der der Abhängigkeit des Funktionswerts vom Argument für unterschiedlichste Funktionalzusammenhänge vergleichbar. Beispiel 10.12: Sei die Nachfrage nach einem Gut A in einem Markt in Abhängigkeit vom Preis des Gutes pA ∈ R beschrieben durch die Nachfragefunktion xA : R → R mit xA (pA ) = 30 · 106 − 30pA . Dann ist die Preiselastizität der Nachfrage an einer Stelle p̄A = 106 ηxA (p̄A ) = −30 · p̄A . 30 · 106 − 30p̄A Beträgt der aktuelle Marktpreis für Gut A p̃A = 105 , dann ist die Preiselastizität gegeben durch 1 ηxA (p̃A ) = − . 9 Sei außerdem die Nachfrage nach einem Gut B in diesem Markt in Abhängigkeit vom Preis des Gutes pB ∈ R beschrieben durch die Nachfragefunktion xB : R → R mit xB (pB ) = 30 · 106 − 106 pB . 101 10 Differentialrechnung Dann ist die Preiselastizität der Nachfrage an einer Stelle p̄B = 30 ηxB (p̄B ) = −106 · 30 · p̄B . − 106 p̄B 106 Beträgt der aktuelle Marktpreis für Gut B p̃B = 10−1 , dann ist die Preiselastizität gegeben durch 1 ηxB (p̃B ) = − . 299 Wegen 1 1 > = |ηxB (p̃B )| 9 299 ist es sinnvoll zu sagen, die Nachfrage nach Gut A sei preissensitiver als die nach Gut B, auch wenn der Vergleich der Ableitungen dxA dxB 6 dpA (p̃A ) = 30 < 10 = dpB (p̃B ) |ηxA (p̃A )| = und damit des Verhältnisses der absoluten Veränderungen umgekehrt ist. Die Übertragung von Definition 10.8 auf reellwertige Funktionen mit mehreren Veränderlichen mit Hilfe partieller Ableitungen führt zum Begriff der partiellen Elastizität, die entsprechend interpretiert wird. Definition 10.9 (Partielle Elastizität) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine in xi partiell differenzierbare Funktion. Dann heißt ηf,xi (x̄) = ∂f x̄i (x̄) · ∂xi f (x̄) für ein x̄ ∈ X mit f (x̄) = 0 partielle Elastizität von f an der Stelle x̄ bezüglich xi . Beispiel 10.13: Sei die Nachfrage eines Haushaltes nach einem Gut gegeben durch die Funktion x(p, Y, q1 , . . . , qn ), wobei p ≥ 0 der Preis des Gutes sei, Y ≥ 0 das Haushaltseinkommen und q1 , . . . , qn die Preise anderer für den Haushalt relevanter Güter. ηx,p heißt Preiselastizität, ηx,Y Einkommenselastizität und ηx,qi für i = 1, . . . , n Kreuzpreiselastizität der Nachfrage. Ihre Anwendung finden diese Elastizitäten unter anderem bei der Charakterisierung ökonomischer Phänomene, die im Zusammenhang mit dem Nachfrageverhalten von Haushalten zu beobachten sind. Die nachfolgende Tabelle gibt hierzu eine Übersicht: 102 10 Differentialrechnung Elastizität Preiselastizität Einkommenselastizität Kreuzpreiselastizität Vorzeichen ηx,p < 0 ηx,p > 0 ηx,Y < 0 ηx,Y ∈ [0, 1] ηx,Y > 1 ηx,qi < 0 ηx,qi > 0 Phänomen normales Gut Giffen-Gut, Veblen-Effekt inferiores Gut normales Gut superiores Gut Komplementarität Substitution 10.7 Der Satz über implizite Funktionen Der in diesem Abschnitt behandelte Satz über implizite Funktionen ist nicht nur innerhalb der Mathematik sehr bedeutsam. Er kommt auch innerhalb der Wirtschaftswissenschaften oft vor, insbesondere im Zusammenhang mit komparativer Statik von Gleichgewichtsmodellen, also bei der Frage, wie eine gefundene Lösung zu einem Optimirungsproblem von den das Problem charakterisierenden Parametern abhängt (in der Makrotheorie z.B. im so genannten IS-LM-Modell).5 Im Rahmen dieses Skriptums wird nur die einfachste zweidimensionale Variante behandelt. Schon ganz am Anfang des typischen Curriculums des Wirtschaftswissenschaftlers, nämlich bei der Bestimmung der Steigung einer Isohöhenlinie, tritt das folgende Problem auf. Ein Zusammenhang zwischen zwei Größen x und y sei gegeben in der Form F (x, y) = c mit F : X −→ R, X ⊆ R2 und c ∈ R. Wir interessieren uns nun für folgende Fragen. 1.) Definiert F (x, y) = c implizit eine Funktion φ : D −→ R mit geeignet gewähltem Definitionsbereich D ⊆ R, so daß für alle x ∈ D F (x, φ(x)) = c gilt? 2.) Kann eine Aussage über die Ableitung der impliziten Funktion φ getroffen werden, falls sie existiert? 5 Eine anwendungsbezogene Darstellung der allgemeineren Variante findet sich etwa bei Chiang (1984, S. 210ff) oder bei Sydsæter et al. (1999, S. 35). 103 10 Differentialrechnung Beispiel 10.14: (i) Gegeben sei F (x, y) = x2 − 5y = c = 10. 2 2 Auflösen dieser Gleichung nach y ergibt y = x5 − 2. Dann gilt F (x, x5 − 2) = 2 2 x2 − 5( x5 − 2) = 10, also existiert eine Funktion φ(x) = x5 − 2 mit der geforderten = 25 x. Eigenschaft. Ihr Definitionsbereich ist D = R und ihre Ableitung dφ(x) dx (ii) Gegeben sei F (x, y) = x2 + y 2 = c = 1. Auflösung dieser Gleichung nach y ergibt offenbar keine Funktion. Es gilt √ y = ± 1 − x2 mit x ∈ [−1, 1]. Das heißt, (i) nicht zu jedem x existiert ein y mit F (x, y) = x2 + y 2 = 1 und (ii) zu einigen x existiert mehr als ein y mit F (x, y) = x2 + y 2 = 1. Wir stellen uns nun die Frage, ob man trotzdem sinnvolle Antworten auf die oben gestellten Fragen geben kann. Dazu wollen wir eine lokale Betrachtung anstellen. Sei Bε (x̄, ȳ) eine ε-Umgebung um den Punkt (x̄, ȳ) mit F (x̄, ȳ) = c. Wir stellen erneut die nun lokale Frage, ob Gleichung F (x, y) = c wenigstens innerhalb dieser ε-Umgebung (für hinreichend kleines ε > 0) eine Funktion mit der geforderten Eigenschaft eindeutig definiert. Dazu betrachte in Beispiel 10.14 (ii) ε-Umgebungen um die Punkte A = √12 , √12 und B = (1, 0). In einer hinreichend kleinen ε-Umgebung um den Punkt A definiert die Gleichung x2 + y 2 = 1√offenbar eine Funktion φ(x) mit der geforderten Eigenschaft. Sie lautet φ(x) = 1 − x2 . Um den Punkt B dagegen existiert auch in einer beliebig kleinen ε-Umgebung keine eindeutige Funktion mit der geforderten Eigenschaft. Die Frage, unter welchen Bedingungen die Gleichung F (x, y) = c um einen Punkt (x̄, ȳ) mit F (x̄, ȳ) = c innerhalb einer hinreichend kleinen εUmgebung Bε (x̄, ȳ) eine Funktion φ mit F (x, φ(x)) = c für alle (x, y) ∈ Bε (x̄, ȳ) definiert, beantwortet allgemein der nachfolgend angegebene Satz. Satz 10.9 (Satz über implizite Funktionen) Gegeben sei eine C 1 -Funktion F : X −→ R mit X ⊆ R2 . Sei (x̄, ȳ) innerer Punkt von X mit F (x̄, ȳ) = c und c ∈ R. Dann definiert die Gleichung F (x̄, ȳ) = c in einer hinreichend kleinen εUmgebung Bε (x̄, ȳ) um (x̄, ȳ) eine Funktion φ mit F (x, φ(x)) = c für alle (x, y) ∈ Bε (x̄, ȳ), wenn gilt ∂F (x̄, ȳ) = 0. ∂y Die Ableitung von φ für (x, y) ∈ Bε (x̄, ȳ) lautet dann ∂F (x,y) dφ(x) = − ∂F∂x φ (x) = . (x,y) dx ∂y 104 10 Differentialrechnung (x̄,ȳ) Der Satz gibt also mit ∂F∂y = 0 eine Bedingung für die Existenz einer Funktion φ mit F (x, φ(x)) = c für alle x nahe x̄. Ihre Ableitung ergibt sich direkt aus der Kettenregel dF (x,φ(x)) = ∂F (x,φ(x)) · 1 + ∂F (x,φ(x)) · dφ(x) =0 dx ∂x ∂y dx ⇒ dφ(x) dx ∂F (x,φ(x)) ∂F (x,y) ∂y ∂y ∂x = − ∂F (x,φ(x)) = − ∂F∂x (x,y) . Beispiel 10.15: Gegeben sei F (x, y) = y 2 − x3 − x2 √= 0. Daraus ergibt sich 2 3 2 2 y = x + x = x (x + 1), also y = ± x2 (x + 1) = ±|x| x + 1 mit x ≥ −1. Eine Funktion φ wird offenbar nicht definiert um die beiden Punkte (0, 0) und (−1, 0). In der Tat sind diese auch die einzigen Punkte mit F (x, y) = 0 und ∂F (x, y) = 2y = 0. ∂y 105 11 Optimierung von Funktionen einer Veränderlichen In diesem Kapitel werden die bis hier behandelten Grundlagen der Analysis genutzt, um Methoden aus der Optimierungstheorie für eindimensionale Entscheidungsmengen einzuführen. Die zentrale Problemstellung der Optimierung besteht darin, den Wert einer Funktion durch die geeignete Wahl ihres Arguments zu maximieren oder zu minimieren. Kann das Argument aus dem Definitionsbereich der Funktion beliebig gewählt werden, so spricht man von unbeschränkter Optimierung oder auch der Optimierung ohne Nebenbedingungen; falls dagegen das Argument zusätzliche Bedingungen erfüllen muß, so spricht man von beschränkter Optimierung oder auch Optimierung unter Nebenbedingungen. Insbesondere die beschränkte Optimierung steht in sehr enger Beziehung zu zentralen Fragestellungen der Wirtschaftswissenschaften, insbesondere im Zusammenhang der bestmöglichen Verwendung knapper Ressourcen. 11.1 Lokale und globale Extrema Wichtigstes Grundkonzept der Optimierungstheorie sind Extremwerte von Funktionen, also Maxima und Minima. Wir unterscheiden zwischen lokalen und globalen Extremwerten. Die Formulierung lokal bezieht sich auf die unmittelbare Nachbarschaft (genügend kleine ε-Kugel) um den Extremwert, während global sich auf eine in Frage kommende oder betrachtete Zahlenmenge bezieht. Durch die in der folgenden Definition vorgenommene Präzisierung kann ein lokales als ein relatives (relativ zur Nachbarschaft) Extremum aufgefaßt werden und ein globales als ein absolutes. Definition 11.1 (Lokale und globale Extrema) Sei f : R −→ R. Das Element x̂ ∈ A ⊆ Def(f ) heißt lokales Maximum (Minimum) auf A genau dann wenn ∃ε > 0 : ∀x ∈ Bε = {x ||x − x̂| ≤ ε } ∩ A gilt: f (x) ≤ (≥)f (x̂) . x̂ ∈ A ⊆ Def(f ) heißt dagegen globales Maximum (Minimum) auf A genau dann wenn ∀x ∈ A gilt: f (x) ≤ (≥)f (x̂) . 106 11 Optimierung von Funktionen einer Veränderlichen insert picture here Im Bild sind a und c lokale Maxima, b lokales Minimum und c globales Maximum, während kein globales Minimum existiert. Für differenzierbare Funktionen stehen erste und zweite Ableitung in engem Zusammenhang mit der Extremwert Satz 11.1 (Notwendige und hinreichende Bedingungen für lokale Extremwerte) Sei f : R −→ R eine C 2 -Funktion mit Def(f ) = R. Dann gilt: 1.) Falls x̂ lokales Maximum ist, gilt Df (x̂) = 0 und D 2 f (x̂) ≤ 0. 2.) Falls x̂ lokales Minimum ist, gilt Df (x̂) = 0 und D 2 f (x̂) ≥ 0. 3.) Falls und D 2 f (x̂) < 0 Df (x̂) = 0 ist, dann ist x̂ lokales Maximum. 4.) Falls und D 2 f (x̂) > 0 Df (x̂) = 0 ist, dann ist x̂ lokales Minimum. Man beachte die feinen Unterschiede zwischen den notwendigen und hinreichenden Bedingungen in den schwachen und starken Ungleichheitszeichen. Daraus ergibt sich ein einfaches Rezept für den nach einem globalen Maximum suchenden Protagonisten. 1.) Zunächst bestimme man diejenigen Punkte x̂ mit der Eigenschaft, daß deren erste Ableitung gleich null ist, also Df (x̂) = 0. 2.) Unter diesen bestimme man diejenigen, für die zusätzlich gilt D 2 f (x̂) < 0. Nach Satz 11.1 ist sichergestellt, daß alle Punkte die beiden Kriterien genügen lokale Maxima sind. 3.) Man bestimme deren Funktionswerte und wähle denjenigen (oder falls es mehr als einen gibt, diejenigen) mit dem höchsten Funktionswert aus. 107 11 Optimierung von Funktionen einer Veränderlichen 4.) Achtung jetzt sind wir noch nicht fertig, denn es kann noch passieren, daß die Funktion f am Rand des Definitionsbereiches also für x → ∞ oder x → −∞ nach ∞ strebt und daher kein globales Maximum existiert. Letzter Schritt ist also die Untersuchung des Randverhaltens. Beispiel 11.1: Sei f (x) = −x4 + 2x2 + 4. Dann ist Df (x) = −4x3 + 4x und D 2 f (x) = −12x2 + 4. Erster Schritt: Erste Ableitung gleich null ergibt x1 = 0, x2 = −1 und x3 = 1. Zweiter Schritt: Zweite Ableitung strikt negativ gilt für x2 und x3 aber nicht für x1 . Dritter Schritt: Da f (x2 ) = f (x3 ) ist, sind sowohl x2 als auch x3 mögliche Kandidaten für globale Maxima. Vierter Schritt: Für das Randverhalten gilt lim f (x) = lim x2 (−x2 + 2) + 4 = −∞ x→∞ x→∞ und lim f (x) = lim x2 (−x2 + 2) + 4 = −∞. x→∞ x→−∞ Eine Analyse der (strengen) Monotoniebereiche Mon++ (f ) = {x | Df (x) > 0} und Mon−− (f ) = {x | Df (x) < 0} ist eine alternative Methode zur Bestimmung der lokalen Extrema, die gleich die Analyse des Randverhaltens mit einschließt. 11.2 Optimierung mit Nebenbedingungen Wir betrachten in den folgenden beiden Abschnitten stets Optimierungsprobleme der Form max f (x), x∈A wobei A = [a, ∞) oder A = (−∞, b] oder A = [a, b] mit a, b ∈ R. Das heißt, der zulässige Bereich A, über dem maximiert wird, ist ein abgeschlossenes Intervall. In diesem Zusammenhang sei daran erinnert, daß z.B. [a, ∞) eine abgeschlossene aber nicht kompakte da nicht beschränkte Teilmenge der reellen Zahlen ist. Beispiel 11.2: (i) insert picture (ii) insert picture 108 11 Optimierung von Funktionen einer Veränderlichen Wir erkennen am zweiten Beispiel, daß im Gegensatz zur Optimierung ohne Nebenbedingungen Df (x̂) = 0 keine notwendige Bedingung für eine Lösung des Optimierungsproblems maxx∈A f (x) ist. Offenbar braucht diese Bedingung erster Ordnung genau dann nicht erfüllt zu sein, wenn eine Lösung x̂ am Rand ∂A des Intervalls A liegt, also x̂ = a oder x̂ = b ist. Satz 11.2 Sei f : A −→ R zweimal differenzierbar und konkav auf seinem Definitionsbereich Def(f ) = A, also D 2 f (x) ≤ 0 ∀x ∈ A. Dann gilt: Df (x̂) = 0 ⇒ x̂ ist globales Maximum auf A. Df (x̂) = 0 ist also hinreichend dafür, daß x̂ das Optimierungsproblem maxx∈A f (x) löst, falls f konkav auf A ist. Beispiel 11.3: Sei f (x) = x3 − 6x2 + 7, A = [−5, 1], B = [−1, 3] und C = [3, ∞]. Dann ist Df (x) = 3x2 − 12x und D 2 f (x) = 6x − 12, also D 2 f (x) ≤ 0 für x ∈ A. Aus Satz 11.2 folgt also, daß x̂ = 0 das Maximierungsproblem max f (x) x∈A löst. Man beachte, daß Satz 11.2 keine notwendige Bedingung angibt, denn x̂ = 0 löst maxx∈B f (x), obwohl f nicht konkav auf B ist. Das Maximierungsproblem maxx∈C f (x) besitzt keine Lösung, während auf das Minimierungsproblem min f (x) x∈C wieder Satz 11.2 anwendbar ist durch die Umformung in das entsprechende Maximierungsproblem maxx∈C −f (x). Da Df (4) = 0 und D 2 f (x) ≥ 0 für x ∈ C löst x̂ = 4 das Minimierungsproblem minx∈C f (x). Beispiel 11.2 lehrt uns, daß es in der Optimierungstheorie genügt, Maximierungsprobleme zu studieren, da Minimierungsprobleme durch Umkehrung des Vorzeichens der Zielfunktion stets in analoge Maximierungsprobleme umgewandelt werden können. 11.3 Lagrangefunktion und Kuhn-Tucker Bedingungen Beispiel 11.2 zeigt, daß Satz 11.2 nicht befriedigt, denn selbst für konkave Funktionen ist offenbar die Bedingung erster Ordnung Df (x̂) = 0 nicht notwendig für die Lösung eines Problems vom Typ maxx∈A f (x). Die inzwischen 250 Jahre alte Idee 109 11 Optimierung von Funktionen einer Veränderlichen des 18-jährigen autodidaktischen Joseph-Louis Lagrange (1736-1813) war es, stattdessen eine andere Funktion einer höheren Dimensionalität zu definieren, deren Ableitung stets 0 ist für die Lösung des betrachteten Optimierungsproblems.1 insert picture Sei für den Moment A = (−∞, b]. Wir betrachten nun das Optimierungsproblem maxx∈A f (x), das wir häufig auch schreiben als max f (x) u.d.N. b − x ≥ 0, x wobei u.d.N. die Abkürzung für unter der Nebenbedingung ist. Definition 11.2 Die Funktion L(x, λ) = f (x) + λ(b − x) heißt Lagrangefunktion zum Problem max f (x) u.d.N. x b − x ≥ 0. Die Variable λ heißt die zur Nebenbedingung b − x ≥ 0 gehörige Lagrangevariable oder Lagrangemultiplikator. Die Lagrangevariable λ wird so bestimmt, daß für eine Lösung x̂ des Optimie∂ rungsproblems stets ∂x L(x, λ) = 0 gilt. Definition 11.3 (Kuhn-Tucker Bedingungen) Die Bedingungen ∂ L(x, λ) = 0 (1) ∂x (2) b − x ≥ 0 (3) λ ≥ 0 (4) λ(b − x) = 0 heißen Kuhn-Tucker Bedingungen (KT) zum Optimierungsproblem max f (x) u.d.N. x b − x ≥ 0. Falls x̂ die Kuhn-Tucker Bedingungen erfüllt, werden wir abkürzend sagen, x̂ erfüllt KT. 1 Diese Methode des jungen italienischen Mathematikers wurde von seinem berühmten Zeitgenossen Leonard Euler als so bedeutsam eingestuft, daß Lagrange auf dessen Empfehlung kurz darauf als 19-jähriger zum Professor an der Universität Turin ernannt wurde. Später soll Lagrange einmal geäußert haben ’Wenn ich reich gewesen wäre, hätte ich mich wahrscheinlich nicht der Mathematik gewidmet’. 110 11 Optimierung von Funktionen einer Veränderlichen 2 Fälle: insert picture Die Mathematiker Harold Kuhn und Albert Tucker haben ca. 200 Jahre später die Idee von Lagrange verallgemeinert und notwendige und hinreichende Bedingungen für die Lösung von Optimierungsproblemen mit Nebenbedingungen in Form von Ungleichungen formuliert.2 Da rationales ökonomisches Verhalten meistens auf genau diese Art von Problem reduzierbar ist, spielen diese Bedingungen ein zentrale Rolle für Wirtschaftswissenschaftler. Bemerkenswerterweise sind vereinfachte und dadurch falsche Versionen dieser für Wirtschaftswissenschaftler so zentralen Theorie hartnäckig bis heute Bestandteil des üblichen ökonomischen Curriculums und der entsprechenden Literatur. In diesem Abschnitt werden diese Bedingungen für Funktionen einer Veränderlichen studiert. Da dies eine gute Vorbereitung für die allgemeine Formulierung darstellt, behandeln wir hier den eindimensionalen Fall aus didaktischen Gründen getrennt von der allgemeineren mehrdimensionalen Formulierung.3 Satz 11.3 (Notwendige Bedingungen) Sei x∗ eine Lösung des Optimierungsproblems max f (x) u.d.N. b − x ≥ 0. x Dann existiert ein λ∗ , so daß (x∗ , λ∗ ) die KT ∂ L(x, λ) = 0 (1) ∂x (2) b − x ≥ 0 (3) λ ≥ 0 (4) λ(b − x) = 0 erfüllt. Die Umkehrung benötigt wie im Fall ohne Nebenbedingungen mehr Voraussetzungen. Das folgende Bild zeigt, daß auch ein lokales Minimum die KT erfüllen kann. insert picture 2 Man beachte, daß Nebenbedingungen in Form von Gleichungen stets durch die doppelte Anzahl von Nebenbedingungen in Form von Ungleichungen ersetzbar ist. Z.B. gilt g(x) = 0 ⇔ g(x) ≥ 0 ∧ g(x) ≤ 0. Da umgekehrt Ungleichungsnebenbedingungen nicht durch Gleichungen repräsentierbar sind, ist die Formulierung auf Basis von Ungleichungen allgemeiner. 3 Es ist häufig nicht schwierig, oder sogar einfacher, im eindimensionalen Fall Lösungen zu bestimmen, ohne auf KT zurückzugreifen. Da der Rand des Optimierungsbereiches A nur aus höchstens zwei Elementen besteht, ist durch Bestimmung der lokalen Maxima in A und der Funktionswerte an den Rändern ein direkter Vergleich sehr einfach. 111 11 Optimierung von Funktionen einer Veränderlichen Satz 11.4 (Hinreichende Bedingungen) Sei f konkav auf A = (−∞, b] und (x∗ , λ∗ ) erfülle die KT ∂ L(x, λ) = 0 (1) ∂x (2) b − x ≥ 0 (3) λ ≥ 0 (4) λ(b − x) = 0. Dann löst x∗ das Optimierungsproblem max f (x) u.d.N. x b − x ≥ 0. Statt der 4.) KT Bedingung λ(b − x∗ ) = 0 kann man auch schreiben L(x∗ , λ∗ ) = f (x∗ ). Analoge Aussagen zu den Sätzen 11.3 und 11.4 gelten offenbar für A = [a, ∞) oder A = [a, b]. Die Lagrangefunktion für A = [a, ∞) ist L(x, λ) = f (x) + λ(x − a) und die KT sind ∂ L(x, λ) = 0 (1) ∂x (2) x − a ≥ 0 (3) λ ≥ 0 (4) λ(x − a) = 0. Für A = [a, b] ist die Lagrangefunktion L(x, λ1 , λ2 ) = f (x) + λ1 (b − x) + λ2 (x − a) und es müssen zwei Ungleichungen erfüllt sein. Die Zahl der KT erhöht sich entsprechend: ∂ (1) ∂x L(x, λ1 , λ2 ) = 0 (2) b − x ≥ 0 und x − a ≥ 0 (3) λ1 ≥ 0 und λ2 ≥ 0 (4) λ1 (b − x) = 0 und λ2 (x − a) = 0. Beispiel 11.4: Betrachte das Optimierungsproblem max f (x) u.d.N. b − x ≥ 0 x für f (x) = 2 − x2 . (i) Sei zunächst b = 1. Die Lagrangefunktion ist dann L(x, λ) = 2 − x2 + λ(1 − x) 112 11 Optimierung von Funktionen einer Veränderlichen und die KT sind ∂ (1) ∂x L(x, λ) = −2x − λ = 0 (2) b − x = 1 − x ≥ 0 (3) λ ≥ 0 (4) λ(b − x) = λ(1 − x) = 0. Da f konkav ist, löst wegen Satz 11.4 eine Lösung x∗ der KT auch das Optimierungsproblem. Betrachte dazu zwei Fälle: (i) λ > 0 ⇒ x = 1 führt zu einem Widerspruch, denn es muß gelten −2 − 1 − λ = 0. Daher kann nur gelten (ii) λ = 0 ⇒ x = 0. Lösung des Optimierungsproblems ist also x∗ = 0. (ii) Sei nun b = −1. Also L(x, λ) = 2 − x2 + λ(−1 − x), und die KT (1) (2) (3) (4) −2x − λ = 0 1−x≥0 λ≥0 λ(−1 − x) = 0. Hier führt (ii) λ = 0 zum Widerspruch denn dies impliziert x = 0 ⇒ −1 ≥ 0. Umgekehrt ist (i) λ > 0 ⇒ x = −1 ⇒ −2 · (−1) = λ = 2. Lösung des Optimierungsproblems ist also x∗ = −1. (iii) Betrachte zuletzt b = 0. Also L(x, λ) = 2 − x2 − λx, und die KT sind (1) (2) (3) (4) −2x − λ = 0 −x ≥ 0 λ≥0 λx = 0. (i) λ > 0 ⇒ x = 0 ⇒ λ = 0 Widerspruch, also (ii) λ = 0 ⇒ x = 0. Lösung des Optimierungsproblems ist also x∗ = 0. Für das Verständnis allgemeiner mehrdimensionaler Optimierungstheorie ist es hilfreich, sich folgende Zusammenfassung zu globalen Maxima von Funktionen einer Variablen einzuprägen. 1.) Ohne Nebenbedingungen x∗ löst max f (x) f ist konkav x∈R 113 Df (x∗ ) = 0. 11 Optimierung von Funktionen einer Veränderlichen 2.) Mit Nebenbedingungen x∗ löst max f (x) f ist konkav x∈A (x∗ , λ∗ ) löst KT. Offenbar ist 1.) in 2.) enthalten. Statt Konkavität genügt auch Quasikonkavität als schwächere Annahme für die hinreichenden Bedingungen. 114 12 Optimierungstheorie In diesem Kapitel wird die im vorherigen Kapitel eingeführte Methode verallgemeinert auf Zielfunktionen mehrerer Veränderlicher. Sehr viele reale Entscheidungsprobleme sind reduzierbar auf die Gestalt max f (x), x∈A wobei A die Menge der zulässigen Entscheidungsalternativen ist, und f eine die Wünsche oder die Präferenzen des Protagonisten repräsentierende Zielfunktion. In der mathematischen Entscheidungstheorie, die nicht Gegenstand der Vorlesung und dieses Skriptums ist, wird genau analysiert, welche Auswahlentscheidungen konsistent sind mit der Maximierung einer Zielfunktion. Grob vereinfacht lässt sich sagen, daß die Existenz einer Zielfunktion aus nur wenigen Konsistenzannahmen hervorgeht, die häufig mit zielgerichteter rationaler Verhaltensweise identifiziert werden und das methodische Rückgrad der modernen ökonomischen Analyse darstellt. Obwohl Experimentatoren und Verhaltensökonomen sich in jüngerer Zeit zunehmend für Abweichungen von diesem Paradigma des homo oeconomicus interessieren, wird die Standard-Entscheidungstheorie noch für lange Zeit die wichtigste Methode bleiben für die Analyse ökonomischer Phänomene. Diese Methode wird allein deshalb vermutlich nie aus dem Wergzeugkasten des Ökonomen verschwinden, da sie für normative Theorie, also Handlungsempfehlungen an Akteure, gebraucht wird, auch wenn wir mit deskriptiven Methoden häufig beobachten, daß reale Menschen von rationalem Verhalten abweichen. 12.1 Optimierung ohne Nebenbedingungen Lokale und globale Extremwerte für Funktionen mehrerer Veränderlicher sind auf die gleiche Art und Weise definiert wie im vorhergehenden Kapitel. Definition 12.1 (Lokale und globale Extrema) Sei f : Rn −→ R. Das Element x̂ ∈ A ⊆ Def(f ) heißt lokales Maximum (Minimum) auf A genau dann wenn ∃ε > 0 : ∀x ∈ Bε = {x ||x − x̂| ≤ ε } ∩ A gilt: f (x) ≤ (≥)f (x̂) . 115 12 Optimierungstheorie x̂ ∈ A ⊆ Def(f ) heißt dagegen globales Maximum (Minimum) auf A genau dann wenn ∀x ∈ A gilt: f (x) ≤ (≥)f (x̂) . Optimierung ohne Nebenbedingungen, bedeute im Folgenden, daß die Menge der Handlungsalternativen A nicht eingeschränkt ist, also A = Rn . Wie zuvor stehen für differenzierbare Funktionen erste und zweite Ableitung, also hier der Gradient und die Hesse-Matrix, in engem Zusammenhang mit der Extremwerteigenschaft. In einem lokalen (und daher auch globalen) Optimum x̂ ∈ Rn ohne Nebenbedingungen muß die Ableitung der Funktion in allen Richtungen gleich 0 sein, also ∇f (x̂) = 0 (wobei hier mit 0 der Nullvektor im Rn gemeint ist), da sonst der Funktionswert bereits in Richtung des Gradienten erhöht werden könnte. Die folgenden beiden Sätze folgen ebenfalls dem Aufbau des vorhergehenden Kapitels. Satz 12.1 (Notw. und hinr. Bedingungen für lokale Extremwerte) Sei f : Rn −→ R eine C 2 -Funktion mit Def(f ) = Rn . Dann gilt: 1.) Falls x̂ lokales Maximum ist, gilt ∇f (x̂) = 0 und Hf (x̂) ist negativ semidefinit. 2.) Falls x̂ lokales Minimum ist, gilt ∇f (x̂) = 0 und Hf (x̂) ist positiv semidefinit. 3.) Falls ∇f (x̂) = 0 und Hf (x̂) negativ definit ist, dann ist x̂ lokales Maximum. 4.) Falls ∇f (x̂) = 0 und Hf (x̂) positiv definit ist, dann ist x̂ lokales Minimum. Satz 12.2 (Hinreichende Bedingung für globalen Extremwert) Sei f : Rn −→ R zweimal differenzierbar und konkav. Dann gilt: ∇f (x̂) = 0 ⇔ x̂ ist globales Maximum. 116 12 Optimierungstheorie Beispiel 12.1: (i) Sei f (x1 , x2 ) = x21 + x22 . Dann ist ∇f (x1 , x2 ) = (2x1 , 2x2 ) mit einziger Nullstelle (x01 , x02 ) = (0, 0). Die Hesse-Matrix ist 2 0 , Hf (x1 , x2 ) = 0 2 also ist f wegen Satz 10.6 streng konvex. Daher ist −f streng konkav und (x01 , x02 ) = (0, 0) ist globales Minimum von f . (ii) Sei f (x1 , x2 ) = x21 − x22 . Dann ist ∇f (x1 , x2 ) = (2x1 , −2x2 ) wieder mit einziger Nullstelle (x01 , x02 ) = (0, 0). Die Hesse-Matrix ist 2 0 Hf (0, 0) = Hf (x1 , x2 ) = . 0 −2 Da diese Hesse-Matrix indefinit ist, ist (0, 0) ein Sattelpunkt und es existiert kein globales Maximum oder Minimum. (iii) Die Funktion f (x1 , x2 ) = x31 −3x22 −6x1 x2 +4 hat den Gradienten ∇f (x1 , x2 ) = (3x21 −6x2 , −6x1 −6x2 ) mit den Nullstellen (x01 , x02 ) = (0, 0) und (x11 , x12 ) = (−2, 2) und die Hesse-Matrix 6x1 6 Hf (x1 , x2 ) = . −6 −6 Also ist ∂2f (0, 0) ∂x21 ∂2f (0, 0) ∂x22 = −6 und 0 6 det Hf (0, 0) = det = 36. −6 −6 = 0, Wegen der Sätze 10.6 und 10.7 ist Hf (0, 0) indefinit und daher (0, 0) kein lokaler 2 2 Extremwert. Weiter ist ∂∂xf2 (−2, 2) = −12, ∂∂xf2 (−2, 2) = −6 und 1 2 −12 6 det Hf (−2, 2) = det = 108. −6 −6 Wegen Satz 10.7 ist Hf (−2, 2) negativ definit und daher ist (−2, 2) lokales Maximum (aber nicht globales, warum?). 12.2 Geometrische Lösung von Optimierungsproblemen Seien f, g : R2 −→ R zwei Funktionen zweier Veränderlicher. Wir betrachten das Optimierungsproblem max f (x) u.d.N. g(x) ≥ 0. x 117 12 Optimierungstheorie Das heißt, wir suchen ein globales Maximum von f auf der Menge A = x ∈ R2 |g(x) ≥ 0 . Offenbar ist die Niveaulinie g −1 (0) der Funktion g zum Niveau 0 die Begrenzungslinie der Menge A. Um festzustellen, nach welcher Seite die Niveaulinie g −1(0) die Menge A begrenzt, betrachte den Gradienten ∇g(x). Für ein x ∈ g −1 (0) zeigt ∇g(x) in die Menge A hinein. insert picture here Betrachte nun Niveaulinien f −1 (y) von f , die durch die Menge A gehen, für die also f −1 (y) ∩ A = ∅. Gesucht sind Niveaulinien mit möglichst hohem Niveau y die gerade noch durch A gehen. ”Verschiebe” also Niveaulinie f −1 (y) (verschieben durch Veränderung von y) in Richtung von ∇f (x) für x auf der Niveaulinie f −1 (y) so weit wie möglich, so daß gerade noch ein nicht leerer Durchschnitt f −1 (y) ∩ A = ∅ bleibt. Der oder die verbleibenden Elemente dieser Durchschnittsmenge f −1 (y) ∩ A lösen das betrachtete Optimierungsproblem max f (x) u.d.N. g(x) ≥ 0. x Entsprechend kann man verfahren, falls die Menge A der Entscheidungsalternativen durch k > 1 Nebenbedingungen Xj = {x ∈ R2 |gj (x) ≥ 0} mit A= k ! Xj j=1 gegeben ist. insert picture Ein wichtiges Kriterium wird im Folgenden die Konvexität der Menge A der Entscheidungsalternativen sein. In diesem Zusammenhang ist folgende hinreichende Bedingung hilfreich. Satz 12.3 Seien gj : Rn −→ R konkave Funktionen für j = 1, . . . , k. Sei ferner " A = kj=1 Xj mit Xj = {x ∈ Rn |gj (x) ≥ 0}. Dann ist A konvexe Menge. Der Beweis folgt aus der Kombination der bereits bewiesenen Sätze 8.1,9.4 und 9.3. 12.3 Häufige Irrtümer In diesem Abschnitt gehen wir einen ungewöhnlichen didaktischen Weg. Wir nähern uns der allgemeinen Theorie durch eine Sequenz von gebräuchlichen Irrtümern, 118 12 Optimierungstheorie denen nicht nur der unbefangene Optimierer sondern in unterschiedlichem Grade auch eine nicht unerhebliche Zahl von Lehrbüchern unterliegen. Dazu kehren wir vorläufig zum Fall n = 1 zurück. Betrachte eine differenzierbare Funktion f : R −→ R und das Optimierungsproblem max f (x) u.d.N. g(x) ≥ 0. x Wir erinnern uns daß in den Abschnitten 11.2 und 11.3 die Nebenbedingung als lineare Funktion g(x) = b−x gegeben war. Diese Annahme wird nun aufgehoben. Beispiel 12.2: Sei f (x) = −x und g(x) = (x − 1)3 . Offenbar löst x̂ = 1 das Optimierungsproblem max f (x) u.d.N. g(x) ≥ 0. x Die erste der Kuhn-Tucker-Bedingungen lautet hier ∂ L(x, λ) = −1 + λ3(x − 1)2 = 0. ∂x Einsetzen von x̂ = 1 zeigt, daß diese Bedingung offenbar nicht erfüllt, also weder notwendig noch hinreichend ist für eine Lösung. Beispiel 12.3 lehrt uns, daß die bisherige Theorie im Falle nichtlinearer Nebenbedingungen bereits für die Dimension n = 1 unvollständig ist. Eine genauere Betrachtung ergibt, daß das Problem dieses Beispiels dadurch entsteht, daß für die Lösung x̂ des Optimierungsproblems g (x̂) = 0 und gleichzeitig f (x̂) = 0 ist. Falls dies der Fall ist, kann kein λ̂ ∈ R existieren, so daß die erste der Kuhn∂ Tucker-Bedingungen ∂x L(x̂, λ̂) = −f (x̂) + λ̂g (x̂) = 0 erfüllt ist. Ein möglicher Ausweg wäre zu fordern, daß bei einer Randlösung, also im Fall g(x) = 0, zusätzlich gilt g (x) = 0, damit KT notwendig ist. Die Verallgemeinerung dieser zusätzlichen Forderung heißt, wie wir sehen werden, Beschränkungsqualifikation. Beispiel 12.3: Sei f (x) = x und g(x) = x2 −1. Offenbar ist f linear, also konkav. Wir erkennen, daß x̂ = −1 nicht das Optimierungsproblem max f (x) u.d.N. g(x) ≥ 0 x löst, denn es gilt z.B. f (3) = 3 > −1 = f (−1). Jedoch erfüllt (x̂, λ̂) = (−1, 12 ) ∂ L(−1, 12 ) = 1 − 1 = 0, (2) g(−1) = 1 − 1 ≥ 0, (3) 12 ≥ 0 und (4) die KT (1) ∂x 1 g(−1) = 0. 2 119 12 Optimierungstheorie Beispiel 12.3 lehrt uns, daß Konkavität der Zielfunktion f und KT schon für n = 1 keine hinreichenden Bedingungen für die Lösung eines Optimierungsproblems sind, falls die Nebenbedingung nicht linear ist. Es ist nicht schwer zu erkennen, daß in diesem Fall die Ursache des Problems in der Nichtkonvexität der Menge A = {x ∈ R|g(x) ≥ 0} zu suchen ist, die im Beispiel 12.3 ein ”Loch” hat, d.h. nicht ein Intervall ist sondern aus zwei (halboffenen) Intervallen besteht. Aus Satz 12.3, folgt, daß diese Schwierigkeit entfällt, falls die Entscheidungsmenge durch konkave Funktionen begrenzt wird. Wir werden sehen, daß diese zusätzliche Forderung zu hinreichenden Bedingungen führt. Insbesondere impliziert für λ ≥ 0 die Konkavität der Zielfunktion und die Konkavität der Nebenbedinung(en) die Konkavität der Lagrangefunktion L(x, λ). 12.4 Lagrangefunktion, Kuhn-Tucker Bedingungen und Beschränkungsqualifikation Wir kommen zur allgemeinen Formulierung eines Optimierungsproblems mit m Nebenbedingungen in Form von Ungleichungen. Zu jeder Nebenbedingung j = 1 . . . , m gehört eine Lagrangevariable λj . Zur Unterscheidung von Zahlen und Vektoren werden wir ab hier Vektoren stets mit unterstrichenen Variablen bezeichnen, also z.B. bezeichne λ = (λ1 , . . . , λm ) den Vektor der m Lagrangevariablen. Betrachte m + 1 differenzierbare Funktionen f, gj : Rn −→ R mit x = (x1 , . . . , xn ) und das Optimierungsproblem max f (x) u.d.N. gj (x) ≥ 0 für j = 1, . . . , m. x Definition 12.2 (Lagrange-Funktion und Kuhn-Tucker Bedingungen) Die Funktion m L(x, λ) = f (x) + λj gj (x) j=1 heißt Lagrangefunktion zum Problem max f (x) x u.d.N. gj (x) ≥ 0 für j = 1, . . . , m. Die Variablen λj heißen die zu den Nebenbedingungen gj (x) ≥ 0 gehörigen Lagrangevariablen oder Lagrangemultiplikatoren. Die Bedingungen (1) ∇f (x) + m j=1 λj ∇gj (x) = 0 (2) gj (x) ≥ 0 für j = 1, . . . , m für j = 1, . . . , m (3) λj ≥ 0 für j = 1, . . . , m. (4) λj gj (x) = 0 120 12 Optimierungstheorie heißen Kuhn-Tucker Bedingungen (KT) zum Optimierungsproblem max f (x) x u.d.N. gj (x) ≥ 0 für j = 1, . . . , m. Falls x∗ die Kuhn-Tucker Bedingungen erfüllt, werden wir abkürzend sagen, x∗ erfüllt KT. Die im vorhergehenden Abschnitt bereits erwähnte Beschränkungsqualifikation verlangte für eine Lösung des Optimierungsproblems von der Nebenbedingung, daß deren Ableitung ungeich 0 ist, damit die KT für die Lösung erfüllt sind. Eine naheliegende Verallgemeinerung für m Nebenbedingungen könnte lauten, daß die Gradienten aller Nebenbedingungen ausgewertet an der Lösung eines Optimierungsproblems ungleich 0 sind, damit KT notwendige Bedingungen für die Lösung sind. Das folgende graphische Besipiel zeigt, daß eine Verallgemeinerung im eben beschriebenen Sinne nicht ausreicht. Beispiel 12.4: insert picture here Im Bild ist es offenbar nicht möglich, die Gleichung ∇f (x) = α1 ∇g1 (x) + α2 ∇g2 (x) zu erfüllen, da die Gradientenvektoren ∇g1 (x) und ∇g2 (x) auf einer Geraden liegen, die in einer anderen Richtung verläuft als der Gradientenvektor ∇f (x). Für α1 = −λ1 und α2 = −λ2 ist dies aber gerade die erste der KT. Zur Erfüllung der KT bereitet offenbar die lineare Abhängigkeit der Gradientenvektoren der Nebenbedingungen in der Lösung des Optimierungsproblems Schwierigkeiten. Daraus ergibt sich die korrekte Verallgemeinerung der Beschränkungsqualifikation. Definition 12.3 (Beschränkungsqualifikation) Der Punkt x̂ erfüllt die Beschränkungsqualifikation (BQ) genau dann, wenn die Gradientenvektoren ∇gj (x̂) linear unabhängig sind für diejenigen j ∈ {1, . . . , m}, für die die zugehörigen Nebenbedingungen bindend sind, also gj (x̂) = 0. Beispiel 12.5: (i) Seien f (x) = x1 + x2 , g1 (x) = 4 − 2x1 − x2 und g2 (x) = 1 − 12 x1 − x2 . Dann erfüllt x̂ = (2, 0) die BQ, da ∇g1 (x̂) = (−2, −1) = t(− 12 , −1) = t∇g2 (x̂), also ∇g1 (x̂) und ∇g2 (x̂) linear unabhängige Vektoren sind. (ii) Seien nun f (x) = x1 + x2 , g1 (x) = 4 − 2x1 − x2 , g2 (x) = 1 − 12 x1 − x2 und g3 (x) = 3 − 12 x1 − x2 . Zwar sind nun ∇g2 (x̂) und ∇g3 (x̂) linear abhängig. Trotzdem erfüllt x̂ = (2, 0) die BQ, da die dritte Nebenbedingung nicht bindend 121 12 Optimierungstheorie ist, denn g3 (2, 0) = 2 > 0 und für die beiden anderen Nebenbedingungen ∇g1 (x̂) und ∇g2 (x̂) linear unabhängige Vektoren sind. Wir kommen nun zu den entscheidenden Sätzen, die mit Hilfe der Lagrangefunktion und der Kuhn-Tucker-Bedingungen notwendige und hinreichende Bedingungen zur Lösung von Optimierungsproblemen mit Nebenbedingungen in Form von Ungleichungen formulieren. Satz 12.4 (Notwendige Bedingungen) Seien f, gj für j = 1, . . . , m an den relevanten Stellen differenzierbare Funktionen von Rn nach R. Sei x̂ eine Lösung des Optimierungsproblems max f (x) x u.d.N. gj (x) ≥ 0 für j = 1, . . . , m, und x̂ erfülle die Beschränkungsqualifikation, dann existieren Lagrangevariablen λ̂ = (λ̂1 , . . . , λ̂m ), so daß (x̂, λ̂) die Kuhn-Tucker-Bedingungen (1) ∇f (x) + m j=1 λj ∇gj (x) = 0 (2) gj (x) ≥ 0 (3) λj ≥ 0 (4) λj gj (x) = 0 für j = 1, . . . , m für j = 1, . . . , m für j = 1, . . . , m erfüllt. Für die hinreichende Bedingung sei nun gleich die allgemeinere Formuliereung basierend auf Quasikonkavität der Zielfunktion und ihrer Nebenbedingungen genannt. Satz 12.5 (Hinreichende Bedingungen) Seien f, gj für j = 1, . . . , m quasikonkave, an den relevanten Stellen differenzierbare Funktionen von Rn nach R. Ferner erfülle (x̂, λ̂) die Kuhn-Tucker-Bedingungen (1) ∇f (x) + m j=1 λj ∇gj (x) = 0 (2) gj (x) ≥ 0 (3) λj ≥ 0 (4) λj gj (x) = 0 für j = 1, . . . , m für j = 1, . . . , m für j = 1, . . . , m. Dann ist x̂ eine Lösung des Optimierungsproblems max f (x) x u.d.N. gj (x) ≥ 0 für j = 1, . . . , m. 122 12 Optimierungstheorie Beispiel 12.6: (i) Seien f (x) = −x21 − x22 und g(x) = 4 − x1 − x2 . Die zugehörige Lagrangefunktion ist L(x, λ) = f (x) + λg(x) = −x21 − x22 + λ(4 − x1 − x2 ) und die KT sind (1) ∇L(x) = (−2x1 − λ, −2x2 − λ) = 0, (2) 4 − x1 − x2 ≥ 0, (3) λ ≥ 0 und (4) λ(4 − x1 − x2 ) = 0. Offenbar erfüllt nur (x, λ) = (0, 0, 0) die KT, da λ > 0 zum Widerspruch zwischen der 1. und 2. Bedingung führt. Da f und g konkav sind, löst (x) = (0, 0) das Optimierungsproblem maxgj (x)≥0 f (x). (ii) Seien nun f (x) = −(x1 − 3)2 − (x2 − 3)2 und g(x) = 4 − x1 − x2 mit Lagrangefunktion L(x, λ) = f (x) + λg(x) = −(x1 − 3)2 − (x2 − 3)2 + λ(4 − x1 − x2 ). Die KT sind (1) ∇L(x) = (−2(x1 −3)−λ, −2(x2 −3)−λ) = 0, (2) 4−x1 −x2 ≥ 0, (3) λ ≥ 0 und (4) λ(4 − x1 − x2 ) = 0. Offenbar erfüllt jetzt nur (x, λ) = (2, 2, 2) die KT, da hier λ = 0 zum Widerspruch zwischen der 1. und 2. Bedingung führt. Da f und g konkav sind, löst also (x) = (2, 2) das Optimierungsproblem maxgj (x)≥0 f (x). (iii) Betrachte f (x) = x1 und die beiden Nebenbedingungen g1 (x) = 4 − x1 − x2 und g2 (x) = 2 − (x1 − 3)2 − (x2 − 3)2 mit Lagrangefunktion L(x, λ) = x1 + λ1 (4 − x1 − x2 ) + λ2 (2 − (x1 − 3)2 − (x2 − 3)2 ). Offenbar löst x = (2, 2) das Optimierungsproblem, denn dies ist der einzige Punkt der beide Nebenbedingungen erfüllt. Im Punkt x = (2, 2) ist die BQ nicht erfüllt, da hier beide Nebenbedingungen g1 (x) ≥ 0 und g2 (x) ≥ 0 bindend sind und ∇g1 (2, 2) = (−1, −1) = − 12 ∇g2 (2, 2) = (2, 2) ist, also die beiden Gradientenvektoren ∇g1 (2, 2) und ∇g2 (2, 2) linear abhängig sind. Die erste KT-Bedingung ∇L(x) = (1 − λ1 − 2λ2 (x1 − 3), −λ1 − 2λ2 (x2 − 3)) = 0, ist für x = (2, 2) nicht erfüllbar, da der Gradientenvektor ∇f = (1, 0) nicht im von den Vektoren ∇g1 (2, 2) und ∇g2 (2, 2) aufgespannten linearen Unterraum liegt. (iv) Gegeben sei f (x) = x21 + x22 und g(x) = 4 − x1 − x2 mit Lagrangefunktion L(x, λ) = f (x) + λg(x) = x21 + x22 + λ(4 − x1 − x2 ). Die KT sind (1) ∇L(x) = (2x1 − λ, 2x2 − λ) = 0, (2) 4 − x1 − x2 ≥ 0, (3) λ ≥ 0 und (4) λ(4 − x1 − x2 ) = 0. Sie werden erfüllt von den beiden Tupeln (x, λ) = (0, 0, 0) und (x, λ) = (2, 2, 4). Aus Beispiel (i) wissen wir, daß (x, λ) = (0, 0, 0) das zugehörige Minimierungsproblem löst. x = (2, 2) ist ebenfalls keine Lösung, denn z.B. ist f (−3, −3) = 18 > f (2, 2). In diesem Beispiel ist die Zielfunktion f 123 12 Optimierungstheorie nicht konkav. Daher sind die KT-Bedingungen nicht hinreichend für eine Lösung des Optimierungsproblems maxx1 +x2 ≤4 x21 + x22 . Da sie aber notwendig sind und die beiden Punkte x = (0, 0) und x = (2, 2) nicht als Lösung in Frage kommen, existiert keine Lösung zu maxx1 +x2 ≤4 x21 + x22 . 12.5 Nebenbedingungen in Form von Gleichungen Betrachte in diesem Abschnitt eine differenzierbare Funktion f : Rn −→ R und das Optimierungsproblem max f (x) u.d.N. g(x) = 0. x Dieses Optimierungsproblem ist offenbar äquivalent zu max f (x) u.d.N. g(x) ≥ 0 und − g(x) ≥ 0. x Die zugehörige Lagrangefunktion kann geschrieben werden als L(x, λ1 , λ2 ) = f (x) + (λ1 − λ2 )g(x) oder mit λ = λ1 − λ2 vereinfacht als L(x, λ) = f (x) + λg(x). Die KT-Bedingungen vereinfachen sich dann zu (I) ∇f (x) + λ∇g(x) = (II) g(x) = ∂ L(x, λ), ∂x∂ 2 L(x, λ) ∂x1 ∂ L(x, λ) = 0. ∂λ =0 Die ”alten” Bedingungen (3) λ1 ≥ 0 und λ2 ≥ 0 implizieren kein Vorzeichen für λ = λ1 − λ2 , während (4) λg(x) = 0 bereits aus (2) folgt. Also sind die Bedingungen (3) und (4) redundant. Die beiden folgenden Sätze sind die Anwendungen der Sätze 12.4 und 12.5 auf Optimierungsprobleme mit m Nebenbedingungen in Form von Gleichungen. Sie folgen unmittelbar mit Hilfe der vorgenommenen Notationskonvention. Satz 12.6 (Notwendige Bedingungen) Seien f, gj : Rn −→ R für j = 1, . . . , m an den relevanten Stellen differenzierbare Funktionen. Seien ferner f eine quasikonkave und gj lineare Funktionen. Falls x̂ eine Lösung des Optimierungsproblems max f (x) u.d.N. x gj (x) = 0 für j = 1, . . . , m, 124 12 Optimierungstheorie ist und die Beschränkungsqualifikation erfüllt, dann existieren Lagrangevariablen λ̂ = (λ̂1 , . . . , λ̂m ), so daß (x̂, λ̂) die vereinfachten Kuhn-Tucker-Bedingungen, ab hier abgekürzt mit KT’ (I) ∇f (x̂) + m j=1 λ̂j ∇gj (x̂) = 0 (II) gj (x̂) = 0 für j = 1, . . . , m erfüllt. Satz 12.7 (Hinreichende Bedingungen) Seien f, gj : Rn −→ R für j = 1, . . . , m an den relevanten Stellen differenzierbare Funktionen. Seien ferner f eine quasikonkave und gj lineare Funktionen. Außerdem erfülle (x̂, λ̂) die vereinfachten Kuhn-Tucker-Bedingungen KT’ (I) ∇f (x̂) + m j=1 λ̂j ∇gj (x̂) = 0 (II) gj (x̂) = 0 für j = 1, . . . , m. Dann ist x̂ eine Lösung des Optimierungsproblems max f (x) u.d.N. x gj (x) = 0 für j = 1, . . . , m. Man beachte, daß diese Formulierung wegen der einfachen Form der KT’ zwar eine Vereinfachung der allgemeineren Form KT mit Nebenbedingungen als Ungleichungen darstellt aber gleichzeitig verschiedene Nachteile mit sich bringt. Zunächst sind die Handlungsalternativen in den meisten ökonomischen Kontexten durch Ungleichungen in Form von Budget- oder Resourcenrestriktionen, also obere oder untere Schranken gegeben. Ferner enthalten die KT’ keine Information zum Vorzeichen der Lagrangevariablen. Da außerdem die hinreichende Forderung der Quasikonkavität aller Funktionen bei Nebenbedingungen in Form von Gleichungen in die Forderung der Linearität der Nebenbedingungen übergeht, bleiben nur wenige einfache Anwendungen übrig, bei denen die KT’ (I) und (II) der Sätze 12.6 und 12.7 die maßgeblichen Kriterien zum Lösen von Optimierungsproblemen darstellen. Beispiel 12.7: Ein typisches solches Problem ist das Nutzenmaximierungsproblem eines Haushaltes dessen Präferenzen erstens strikt monoton sind, der also stets sein Budget voll ausschöpft und dessen Budgetrestriktion daher als Gleichung statt als Ungleichung angenommen werden kann. Wenn man zweitens annimmt, daß der Haushalt jedes Gut in strikt positiver Menge konsumieren möchte, also Indifferenzkurven nicht die Achsen schneiden, dann folgt, daß in vielen relevanten Fällen die Untergrenzen an die konsumierten Gütermengen nicht bindend sind und daher das betrachtete Nutzenmaximierungsproblem zum Nutzenmaximierungsproblem mit Budgetgleichung als Nebenbedingung äquivalent ist. Daraus folgt, daß die Lösung des Problems, also die Bestimmung der Nachfrage mit 125 12 Optimierungstheorie Hilfe der beiden KT’ der Sätze 12.6 und 12.7 das ursprüngliche Problem nicht vereinfacht, denn zuvor muß sichergestellt sein, daß erstens die Budgetrestriktion bindend und zweitens keine andere Nebenbedingung bindend ist, was im Prinzip genau der Analyse der KT-Bedingungen (3) und (4) entspricht, die – wie wir uns erinnern – genau der Fallunterscheidung dient, ob Nebenbedingungen bindend sind oder nicht. Da dieser Stoff Gegenstand der Mikro-Veranstaltungen ist, seien hier nur wenige Beispiele genannt. Betrachte stets zweidimensionale Güterräume mit Güterbündel x = (x1 , x2 ), Preisvektor p = (p1 , p2 ), exogenem Einkommen I und das Optimierungsproblem max u(x) u.d.N. I − p · x ≥ 0 und xi ≥ 0 für j = 1, 2. (MAX) x Die zugehörige Lagrangefunktion ist L(x, λ, α1 , α2 ) = u(x) + λ(I − p1 x1 − p2 x2 ) + α1 x1 + α2 x2 und die ”normalen” KT sind (1) (2) (3) (4) ∇L(x) = ∇u(x) − λp + (α1 , α2 ) = 0 I − p1 x1 − p2 x2 ≥ 0, x1 ≥ 0 und x2 ≥ 0 λ ≥ 0, α1 ≥ 0 und α2 ≥ 0 λ(I − p1 x1 − p2 x2 ) = 0, α1 x1 = 0 und α2 x2 = 0. Wir sehen, daß unter diesen Bedingungen alle Nebenbedingungen linear sind. Dadurch sind gute Chancen gegeben, daß die vereinfachten KT’ gemäß der Sätze 12.6 und 12.7 zur Lösung von (MAX) genügen. Sie lauten (I) ∇u(x) − λp = 0 (II) p1 x1 + p2 x2 = I. 1 1 (i) Für die konkave Cobb-Douglas-Nutzenfunktion u(x) = x12 x22 , strikt positives Einkommen und Preise I > 0, p1 > 0 und p2 > 0 gelten alle Voraussetzungen, um Satz 12.7 mit den vereinfachten KT’ anzuwenden, da die Nutzenfunktion strikt monoton ist, die Indifferenzkurven nicht die Achsen schneiden und alle Nebenbedingungen linear sind. Eine Lösung der KT’ (I) und (II) löst also (MAX). (ii) Die Cobb-Douglas-Nutzenfunktion u(x) = x21 x22 ist nicht konkav. Daher können wir mit Hilfe von Satz 12.7 nicht schließen, das die vereinfachten KT’ und zu einer Lösung von (MAX) führen. In diesem Fall ist u(x) = x21 x22 aber quasikonkav, was als hinreichende Bedingung ausreicht. (iii) Die quasilineare Nutzenfunktion u(x) = x1 + ln x2 ist zwar strikt monoton und konkav, aber deren Indifferenzkurven schneiden die x1 −Achse. Damit sind die Voraussetzungen zur Anwendung der vereinfachten KT’ nicht erfüllt. Die KT 126 12 Optimierungstheorie können aber angewendet werden und führen zu stetigen aber nicht differenzierbaren Nachfragefunktionen.1 (iv) Die Nutzenfunktion u(x) = x21 + x22 ist nicht konkav und auch nicht quasikonkav. Da die BQ für p1 > 0, p2 > 0 auf dem ganzen R2+ erfüllt ist, muß eine Lösung von (MAX) die KT (1) bis (4) erfüllen. Es kann also Satz 12.4 angewendet werden, hingegen nicht Satz 12.5. Die Lagrangefunktion ist L(x, λ, α1 , α2 ) = x21 + x22 + λ(I − p1 x1 − p2 x2 ) + α1 x1 + α2 x2 und die KT für diese Nutzenfunktion lauten (1) ∂x∂ 1 L(x) = 2x1 − λp1 + α1 = 0 und ∂x∂ 2 L(x) = 2x2 − λp2 + α2 = 0 (2) I − p1 x1 − p2 x2 ≥ 0, x1 ≥ 0 und x2 ≥ 0 (3) λ ≥ 0, α1 ≥ 0 und α2 ≥ 0 (4) λ(I − p1 x1 − p2 x2 ) = 0, α1 x1 = 0 und α2 x2 = 0. Da u strikt monoton ist, gilt stets λ > 0 und p1 x1 + p2 x2 = I. Aus der Bedingung (4) ergeben sich also 3 mögliche Fälle. Ecklösung (e1) mit α1 > 0 impliziert x1 = 0 und x2 = pI2 . Ecklösung (e2) mit α2 > 0 impliziert x2 = 0 und x1 = pI1 . Tangentiallösung (t) mit α1 = α2 = 0 impliziert mit KT (1) Grenzrate der Substitution gleich Preisverhältnis oder xx12 = pp12 . Unter diesen drei Fällen kommen nur (e1) und (e2) als Lösung von (MAX) in Frage2 , da das durch (t) charakterisierte Güterbündel das Nutzenminimum aller Güterbündel auf der Budgetgeraden ist. Man beachte, daß die vereinfachten KT’ uns nur zum Nutzenminimum (t) auf der Budgetgeraden hinführen aber im Gegensatz zu KT nicht zur Lösung des Nutzenoptimierungsproblems. Damit zeigt dieses letzte Beispiel insbesondere, daß KT’ im Gegensatz zu KT keine notwendigen Bedingungen sind, falls die Zielfunktion nicht konkav ist, also zur Bestimmung einer Lösung von (MAX) nicht helfen können. 12.6 Existenz und Eindeutigkeit von Lösungen Wir haben Beispiele gesehen, bei denen keine Lösung zu einem Optimierungsproblem existiert. Der folgende Satz gibt hinreichende Bedingungen für die Existenz von Lösungen zu Optimierungsproblemen. Satz 12.8 (Satz von Weierstrass) Sei f : Rn −→ R stetig und die Auswahlmenge A ⊆ Def(f ) ⊆ Rn nicht leer und kompakt. Dann existiert eine Lösung zum Optimierungsproblem maxx∈A f (x). 1 Die Berechnungen der Nachfragen sind Gegenstand der entsprechenden MikroVeranstaltungen. 2 Beides sind lokale Maxima, das globale ergibt sich durch den Nutzenvergleich dieser beiden. 127 12 Optimierungstheorie Beispiel 12.8: Als Fortsetzung des Beispiels 12.5 aus der Mikroökonomie betrachte das Nutzenmaximierungsproblem MAX gegeben durch max2 u(x) u.d.N. p1 x1 + p2 x2 ≤ I, x1 ≥ 0, x2 ≥ 0 x∈R mit stetiger Nutzenfunktion u(x1 , x2 ) auf dem 2-dimensionalen Güterraum Preisen p1 , p2 und exogenem Einkommen I ≥ 0. (i) Betrachte zunächst den Fall strikt positiver Güterpreise p1 , p2 > 0. Wir wollen zeigen, daß aus dem Satz von Weierstrass folgt, daß MAX eine Lösung besitzt. Dafür muß die Budgetmenge A = x ∈ R2 |p1 x1 + p2 x2 ≤ I, x1 ≥ 0, x2 ≥ 0 nicht leer und kompakt sein. A ist nicht leer, denn sie enthält stets das Element (0, 0). Außerdem ist die Auswahlmenge beschränkt. Als obere Schranke wähle 2 z.B. a = max{ pI1 , pI2 }. Sei z.B. p1 ≤ p2 . Dann gilt ||x|| = x21 + x22 ≤ a = pI1 2 für alle x ∈ A, denn gäbe es umgekehrt ein x ∈ A mit x21 + x22 > a2 = pI1 , dann gälte wegen 0 < p1 ≤ p2 auch (p1 x1 + p2 x2 )2 = ≥ ≥ ≥ p1 x1 + p2 x2 > (p1 x1 )2 + 2p1 x1 p2 x2 + (p2 x2 )2 (p1 x1 )2 + (p2 x2 )2 (p1 x1 )2 + (p1 x2 )2 I 2 also I, was x ∈ A widerspricht. Eine entsprechende Abschätzung gilt offenbar auch für p1 ≤ p2 . Also ist A beschränkt. Die obere Schranke a = max{ pI1 , pI2 } ist tatsächlich die kleinste obere Schranke der Budgetmenge, denn # # # # # # # I # I # , # 0, # = a. , 0 max # # # # p1 p2 # Es bleibt zu prüfen, ob A abgeschlossen ist. Da A seinen Rand ∂A enthält, denn die A begrenzenden Ungleichungen sind alle schwach, ist A auch abgeschlossen und also kompakt. Gemäß des Satzes von Weierstrass existiert daher eine Lösung von MAX. (ii) Falls einer der Preise, z.B. p1 = 0 ist, ist die Budgetmenge A = x ∈ R2 |p1 x1 + p2 x2 ≤ I, x1 ≥ 0, x2 ≥ 0 nicht mehr beschränkt, also nicht kompakt. Dies erkennt man daran, daß für die eben definierte kleinste obere Schranke a gilt I I , = ∞. lim a = lim max p1 →0 p1 →0 p1 p2 128 12 Optimierungstheorie In der Tat besitzt MAX für keine der in Beispiel 12.5 untersuchten Nutzenfunktionen eine Lösung, da der Haushalt unersättlich bezüglich eines Gutes mit dem Preis 0 ist. (iii) Sei nun die Auswahlmenge gegeben durch A = x ∈ R2 |p1 x1 + p2 x2 ≤ I, x1 > 0, x2 ≥ 0 , d.h. vom Gut 1 darf nicht die Menge x1 = 0 konsumiert werden. Dann kann der Satz von Weierstrass nicht mehr angewendet werden, auch wenn die Preise p1 , p2 > 0 strikt positiv sind und die Auswahlmenge daher beschränkt ist, denn für I > 0 ist A nicht abgeschlossen und für I = 0 ist A leer. Auch in diesem Fall lassen sich einfach Nutzenfunktionen angeben, so daß MAX tatsächlich keine Lösung besitzt, z.B. für u(x) = x2 würde der Haushalt gerne nur das Gut 2 konsumieren. Da nicht die Menge 0 vom Gut 1 konsumiert werden kann, existiert zu jedem Güterbündel x ∈ A ein gegenüber diesem präferiertes. Der Satz von Weierstrass zeigt uns, daß Stetigkeit eine wichtige Voraussetzung für die Existenz von Lösungen ist. Der folgende Satz zeigt entsprechend, daß Konvexität bzw. strikte Quasikonkavität eine wichtige Voraussetzung für die Eindeutigkeit von Lösungen ist. Satz 12.9 Sei A ⊆ Def(f ) ⊆ Rn eine konvexe Auswahlmenge und f : Rn −→ R strikt quasikonkav auf der Auswahlmenge A. Dann existiert nicht mehr als eine Lösung zum Optimierungsproblem maxx∈A f (x). Die Beweisidee ist, daß konvexe Kombinationen λx̂+(1−λ)x̄ zweier verschiedener Lösungen x̂, x̄ stets ebenfalls Lösungen sein müssen wegen der Konvexität der Auswahlmenge und der Quasikonkavität. Wegen der strikten Quasikonkavität gilt aber, daß strikte konvexe Kombinationen λx̂ + (1 − λ)x̄ für 0 < λ < 1 sogar strikt bevorzugt werden, was ein Widerspruch dazu ist, daß x̂, x̄ Lösungen sind. Beispiel 12.9: (i) Sei A = {0, 1} und f (x) = x − x2 . Dann ist f strikt konkav, also auch strikt quasikonkav. Dennoch besitzt maxx∈A f (x) die beiden Lösungen 0 und 1. Das liegt daran, daß A keine konvexe Menge ist. Würde man die Auswahlmenge konvexifizieren, d.h. in diesem Fall zum Optimierungsproblem maxx∈[0,1] f (x) übergehen, dann kommt Satz 12.9 zur Anwendung und es kann höchstens eine Lösung existieren. In diesem Fall wäre die eindeutige Lösung x = 12 . (ii) Sei A = (0, 1) und f (x) = −x2 , dann ist A konvex und f strikt quasikonkav, also gilt Satz 12.9 und es existiert nicht mehr als eine Lösung. In diesen Beispiel existiert keine Lösung, da A nicht kompakt ist, also die Voraussetzungen des Satzes von Weierstrass nicht erfüllt sind. 129 12 Optimierungstheorie Satz 12.8 nennt Bedingungen, die mindestens eine Lösung garantieren, während Satz 12.9 Bedingungen nennt, die die Zahl der Lösungen auf höchstens eine beschränkt. Daraus folgt zusammen: Satz 12.10 Sei A ⊆ Def(f ) ⊆ Rn eine nicht-leere, kompakte und konvexe Auswahlmenge und f : Rn −→ R stetig und strikt quasikonkav auf der Auswahlmenge A. Dann existiert genau eine Lösung zum Optimierungsproblem maxx∈A f (x). Beispiel 12.10: Die Beispiele 12.7,(i) bis (iii) erfüllen alle Voraussetzungen des Satzes 12.10 und garantieren daher eindeutige Lösungen des Nutzenmaximierungsproblems. Daraus ergibt sich die Existenz einer Nachfragefunktion, die jedem Tupel (p1 , p2 , I) ein eindeutiges am meisten präferiertes Güterbündel zuordnet. In Beispiel 12.5.(iv) dagegen ist die Nutzenfunktion nicht strikt quasikonkav. Die Nachfrage existiert wegen des Satzes von Weierstrass zwar, ist aber nicht mehr eindeutig und daher keine Funktion3 . 3 Sie ist eine Korrespondenz, die nicht eindeutig zu sein braucht. Es ist nicht schwierig aber nicht Gegenstand dieses Skriptums, die meisten zentralen Aussagen der Mikrotheorie von Funktionen auf Korrespondenzen zu verallgemeinern. 130 Literaturverzeichnis [1] K. Binmore (1983). Calculus. Cambridge, London, New York: Cambridge University Press. [2] L. Blume und C. Simon (1994). Mathematics for Economists. New York, London: W. W. Norton. [3] I. Bronstein, K. Semendjajew und G. Musiol (1999). Taschenbuch der Mathematik. Erweiterte und überarbeitete Auflage. Thun, Frankfurt/Main: Harri Deutsch. [4] A. Chiang (1984). Fundamental Methods of Mathematical Economics. 3. Auflage. Auckland, London, Tokio: McGraw-Hill. [5] A. Dixit (1990). Optimization in Economic Theory. 2. Auflage. New York, Oxford: Oxford University Press. [6] A. Mas-Colell, M. Whinston und J. Green (1995). Microeconomic Theory. New York, Oxford: Oxford University Press. [7] D. Ohse (2002). Mathematik für Wirtschaftswissenschaftler I - Analysis. 5. Auflage. München: Vahlen. [8] H. Rommelfanger (2001). Mathematik für Wirtschaftswissenschaftler I 5. Auflage. Heidelberg, Berlin: Spektrum: Akademischer Verlag. [9] K. Sydsæter, und P. Hammond (2002).Essential Mathematics for Economic Analysis. 3. Auflage. Prentice Hall. 128