1 Mengenlehre - Wiwi Uni-Frankfurt - Goethe

J.W. Goethe Universität Frankfurt am Main
Fachbereich Wirtschaftswissenschaften
Volkswirtschaftslehre, insbesondere Mikroökonomie
Prof. Dr. Matthias Blonski
Mathematik I
Vorlesungsbegleitendes Skriptum
Update: 1. Februar 2004
Inhaltsverzeichnis
1 Mengenlehre
1.1 Grundbegriﬀe . . . . . . . . . . . . .
1.2 Mengenoperationen . . . . . . . . . .
1.3 Rechenregeln für Mengenoperationen
1.4 Tupel und kartesische Produkte . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
4
2 Logik
2.1 Aussagen und Aussageformen . . . . . . . . . . . . .
2.2 Verknüpfungen von Aussagen . . . . . . . . . . . . .
2.3 Quantiﬁzierung von Aussageformen . . . . . . . . . .
2.4 Deﬁnitionen, Lemmata, Sätze, Theoreme und Beweise
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
8
9
3 Zahlen und Arithmetik
3.1 Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Potenzen und Wurzeln . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Logarithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13
15
16
4 Gleichungen und Ungleichungen
4.1 Eindimensionale Gleichungen und Ungleichungen . . . .
4.2 Mehrdimensionale Gleichungs- und Ungleichungssysteme
4.3 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . .
4.4 Zweidimensionale Ungleichungssysteme . . . . . . . . . .
.
.
.
.
18
18
22
23
24
.
.
.
.
.
26
26
28
32
34
40
6 Funktionen einer Variablen
6.1 Grundbegriﬀe . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Graphische Darstellung . . . . . . . . . . . . . . . . . . . . . . . .
43
43
44
5 Folgen und Grenzwerte
5.1 Folgen . . . . . . . . . . . .
5.2 Konvergenz und Grenzwert .
5.3 Grenzwerte im Unendlichen
5.4 Reihen . . . . . . . . . . . .
5.5 Mehrdimensionale Folgen . .
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Inhaltsverzeichnis
6.3
6.4
6.5
Eigenschaften von Funktionen . . . . . . . . . . . . . . . . . . . .
Grenzwerte und Stetigkeit . . . . . . . . . . . . . . . . . . . . . .
Typen von Funktionen . . . . . . . . . . . . . . . . . . . . . . . .
44
46
48
7 Ableitung von Funktionen einer Variablen
7.1 Das Konzept der Ableitung . . . . . . . . . . . . . . . . . . . . .
7.2 Ableitungen ausgewählter Funktionen . . . . . . . . . . . . . . . .
7.3 Ableitungsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
50
52
52
8 Teilmengen des Rn
8.1 Grundbegriﬀe der Mengen-Topologie . . . . . . . . . . . . . . . .
8.2 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
54
58
9 Funktionen von Rm nach Rn
9.1 Grundbegriﬀe . . . . . . . . . . . . . . . .
9.2 Verknüpfungen von Funktionen . . . . . .
9.3 Graphische Darstellung von Funktionen . .
9.4 Umkehrfunktionen . . . . . . . . . . . . .
9.5 Grenzwerte von Funktionen und Stetigkeit
9.6 Monotonie und Homogenität . . . . . . . .
9.7 Konkavität und Quasikonkavität . . . . . .
9.8 Ausgewählte Typen von Funktionen . . . .
60
60
61
63
71
74
76
79
84
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10 Diﬀerentialrechnung
10.1 Partielle Ableitungen . . . . . . . . . . . . . . . . .
10.2 Richtungsableitung, Kettenregel, Satz von Euler . .
10.3 Gradient, totales Diﬀerential . . . . . . . . . . . . .
10.4 Höhere Ableitungen . . . . . . . . . . . . . . . . . .
10.5 Eigenschaften von Funktionen und ihre Ableitungen
10.6 Elastizitäten und deren ökonomische Interpretation
10.7 Der Satz über implizite Funktionen . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
87
. 87
. 88
. 91
. 95
. 97
. 100
. 103
11 Optimierung von Funktionen einer Veränderlichen
106
11.1 Lokale und globale Extrema . . . . . . . . . . . . . . . . . . . . . 106
11.2 Optimierung mit Nebenbedingungen . . . . . . . . . . . . . . . . 108
11.3 Lagrangefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
12 Optimierungstheorie
12.1 Optimierung ohne Nebenbedingungen . . . . . . . . . . . . . . . .
12.2 Geometrische Lösung von Optimierungsproblemen . . . . . . . . .
12.3 Häuﬁge Irrtümer . . . . . . . . . . . . . . . . . . . . . . . . . . .
12.4 Lagrangefunktion, Kuhn-Tucker Bedingungen und Beschränkungsqualiﬁkation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12.5 Nebenbedingungen in Form von Gleichungen . . . . . . . . . . . .
3
115
115
117
118
120
124
1 Mengenlehre
Dieses Kapitel behandelt Grundlagen der Mengenlehre, die in gewisser Weise
am Anfang der Mathematik steht und eine Sprache bereitstellt, die zur weiteren
Formulierung der Mathematik sehr hilfreich ist.
1.1 Grundbegriﬀe
Eine Menge ist eine Zusammenfassung wohlunterschiedener Objekte, wobei von
jedem Objekt eindeutig feststehen muß, ob es zur Menge gehört oder nicht.
Gehört ein Objekt zu einer Menge, so bezeichnet man es auch als Element dieser
Menge. Ist ein Objekt e Element einer Menge M, so schreibt man dafür e ∈ M
(sprich: e Element M); ist e hingegen nicht Element von M, so schreibt man
dafür e ∈
/ M (sprich: e nicht Element M).
Üblicherweise wird eine Menge auf eine von zwei Arten beschrieben: Die erste
besteht darin, alle ihre Elemente in geschweifte Klammern eingefaßt und durch
Kommata getrennt vollständig aufzuzählen. Beispielsweise beschreibt der Ausdruck {a, e, i, o, u} die Menge aller Vokale des lateinischen Alphabets. In unzweideutigen Fällen, insbesondere Bei unendlichen Mengen und bei unzweideutigen Fällen ist auch die Verwendung von Ellipsen (. . .) möglich. So wird jeder
{a, b, c, d, e, . . . , z} unzweideutig als die Menge aller kleinen Buchstaben des lateinischen Alphabets und {2, 4, 6, 8, 10, . . .} als die Menge aller positiven und
geraden Zahlen erkennen.
Die zweite typische Art der Beschreibung ist die, eine allen Elementen einer Menge
und nur diesen anhaftende und somit für Elemente dieser Menge charakteristische
Eigenschaft anzugeben, z.B. {x | x ist Vokal des lateinischen Alphabets }.
Eine spezielle Menge ist die sogenannte leere Menge und wird mit ∅ oder {}
bezeichnet.
Ein weiterer wichtiger Begriﬀ der Mengenlehre ist die Mächtigkeit einer Menge.
Sie ist für Mengen mit endlich vielen Elementen die Anzahl deren Elemente. Die
Mächtigkeit von Mengen mit unendlich vielen Elementen wird mit dem Symbol ∞
(sprich: unendlich) bezeichnet.1 Üblicherweise wird die Mächtigkeit einer Menge
M als |M| geschrieben.
1
Bei unendlichen Mengen wird außerdem zwischen abzählbar und überabzählbar unendlichen
Mengen unterschieden, was an dieser Stelle nicht weiter vertieft werden soll.
1
1 Mengenlehre
Beispiel 1.1:
(i) Für M := {2, 3, 4} ist |M| = 3.
(ii) | { {1}, {2}, {1, 3}} | = 3.
(iii) |{ 1, 2, 3, . . .}| = ∞.
Gilt für zwei Mengen A und B, daß jedes Element von A auch Element von B
ist, so ist A Teilmenge von B. Man schreibt A ⊆ B. Existiert darüberhinaus ein
Element von B, welches nicht Element von A ist, so heißt A echte Teilmenge von
B, und man schreibt A ⊂ B. Gilt für zwei Mengen A und B sowohl A ⊆ B als
auch B ⊆ A, haben also beide Mengen die gleichen Elemente, so heißen diese
Mengen gleich, und man schreibt A = B.2 Falls zwei Mengen A und B ungleich
sind bzw. A nicht Teilmenge bzw. nicht echte Teilmenge von B ist, wird durch
die Ausdrücke A = B, A ⊆ B bzw. A ⊂ B beschrieben.
Beispiel 1.2: Seien M := {2, 3, 4}, N := {2, 4}, P := {4, 3, 2} und Q := {{2}}.
Dann gilt:
(i) N ⊆ M ⊆ P
(ii) N ⊂ M und M ⊂ P
(iii) M = P
(iv) Q ⊂ M
In einigen Beispielen wurde bereits deutlich, daß Mengen wiederum Mengen als
Elemente enthalten können. Die Menge aller möglichen Teilmengen einer Menge
M ist oft von Interesse. Sie heißt Potenzmenge von M und wird durch das Symbol
℘(M) bezeichnet.
Beispiel 1.3:
(i) Für M := {1, 2, 3} ist ℘(M) = {∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}}.
(ii) Gegeben sei die Menge der Vokale V := {a, e, i, o, u}. Es gilt ℘(V ) = {W | W
ist eine Menge, deren Elemente Vokale sind }.
(iii) Die Potenzmenge der leeren Menge ist nicht leer ℘(∅) = { ∅}.
1.2 Mengenoperationen
Für Mengen sind verschiedene Operationen deﬁniert, die jeweils zwei Mengen zu
einer Ergebnismenge verknüpfen. Der Durchschnitt A ∩ B zweier Mengen A und
B ist die Menge aller Elemente, die sowohl Element von A als auch Element
2
Man beachte, daß auch die beiden Mengen {a, b} und {a, b, b} aufgrund der Forderung, daß
alle Elemente wohlunterschieden sein müssen, gleich sind.
2
1 Mengenlehre
von B sind und Vereinigung A ∪ B zweier Mengen A und B ist die Menge der
Elemente, die entweder Element von A oder Element von B oder Element von A
und B sind. Ist der Durchschnitt zweier Mengen A und B leer, ist also A ∩ B =
∅, so heißen diese beiden Mengen disjunkt. Die Diﬀerenz A \ B ist die Menge
aller Elemente, die zwar Element von A, aber nicht Element von B sind. Man
beachte, daß die Bildung der Diﬀerenz zweier Mengen im Unterschied zur Bildung
des Durchschnitts oder der Vereinigung nicht kommutativ oder vertauschbar ist,
d.h. es gilt im Allgemeinen nicht A \ B = B \ A. Dagegen gilt immer sowohl
A ∪ B = B ∪ A als auch A ∩ B = B ∩ A. Für zwei Mengen A und Ω mit A ⊆ Ω
ist das Komplement von A bezüglich Ω deﬁniert als Ω \ A; man schreibt dafür
üblicherweise CΩ A. Oft ist bei der Bildung eines Komplements aus dem jeweiligen
Kontext klar, bezüglich welcher Grundmenge Ω das Komplement gebildet wird.
Verkürzend wird für das Komplement einer Menge A dann nur CA oder auch Ā
geschrieben.
Beispiel 1.4:
(i) Seien M := {1, 2, 3} und N := {3, 4}. Dann gilt: M ∩N = {3} und M ∪N =
{1, 2, 3, 4}
(ii) Sei Ω := {Kreuz, Pik, Herz, Karo} und A := {Kreuz, Pik}. Dann ist CA =
CΩ A = {Herz, Karo}.
(iii) Seien N := {1, 2, 3, . . .}, G := {2, 4, 6, . . .} und U := {1, 3, . . .}, dann ist
CN G = U und CN CN G = G.
Mengenoperationen und Beziehungen zwischen Mengen werden häuﬁg in sogenannten Venn-Diagrammen veranschaulicht. In derartigen Diagrammen werden
Mengen als geeignete Flächen in der Ebene dargestellt. In Abbildung 1.1 sind
beispielhaft die Bildung von Durchschnitt (a), Vereinigung (b), Diﬀerenz (c) und
Komplement für zwei nicht disjunkte Mengen A und B und eine Grundmenge Ω
in Venn-Diagrammen wiedergegeben.
1.3 Rechenregeln für Mengenoperationen
Für beliebige Mengen A, B, C und Ω mit A, B, C ⊆ Ω gelten die folgenden
Rechenregeln:
Zunächst gelten für Vereinigung und Durchschnitt sowohl das Kommutativ- als
auch das Assoziativgesetz, d.h. es gilt
A ∪ B = B ∪ A und A ∩ B = B ∩ A,
A ∪ (B ∪ C) = (A ∪ B) ∪ C und A ∩ (B ∩ C) = (A ∩ B) ∩ C.
Es gelten die beiden Distributivgesetze
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C),
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C).
3
1 Mengenlehre
Ω
Ω
A∩B
A
A∪B
B
A
(a)
B
(b)
Ω
Ω
A\B
CΩ A
A
B
A
(c)
(d)
Abbildung 1.1: Venn-Diagramme
Schließlich gelten noch folgende Regeln für die Bildung von Komplementen:
A ∪ CA = Ω und A ∩ CA = ∅,
C(A ∪ B) = CA ∩ CB und C(A ∩ B) = CA ∪ CB,
C∅ = Ω und CΩ = ∅,
CCA = A.
1.4 Tupel und kartesische Produkte
Mengen sind nicht geordnete Zusammenfassungen von Objekten. Die Mengen
{a, b} und {b, a} sind also gleich. Ist dagegen auch die Reihenfolge zweier Objekte
von Bedeutung, kann dieses durch das Konzept des Tupels erfasst werden. Sollen
beispielsweise die beiden Objekte a und b in der Weise geordnet zusammengefasst
werden, daß b vor a kommt, so werden sie in dem Tupel (b, a) zusammengefasst.
Dabei ist b die erste Komponente dieses Tupels und a die zweite. Ein Tupel mit
zwei Komponenten heißt auch Zwei-Tupel. Eine oﬀensichtliche Verallgemeinerung
des Zwei-Tupels ist eine geordnete Zusammenfasung nicht nur von zwei, sondern
von beliebig vielen Objekten. Endliche derartige Zusammenfassungen heißen nTupel. Dabei gibt n ∈ {1, 2, 3, . . .} die Anzahl der Komponenten des Tupels an.
Mengen von n-Tupeln gleicher Art können über die Bildung n-facher kartesischer
Produkte deﬁniert werden. Aufgrund der ordnungsgebenden Eigenschaft des Tupels gilt (b, a) = (a, b) für a = b; zwei Tupel sind also nur dann gleich, wenn
4
1 Mengenlehre
sie jeweils in allen Komponenten übereinstimmen. Das kartesische Produkt oder
Kreuz-Produkt A × B zweier Mengen A und B ist die Menge aller Tupel (a, b)
von Elementen a ∈ A und b ∈ B.
Beispiel 1.5:
(i) Die beiden Tupel (Karo, 7) und (Kreuz, Bube) kann man verwenden, um
die beiden entsprechenden Spielkarten zu repräsentieren. Die Menge aller Spielkarten eines Skat-Blattes ist dann B = {(f, w)|f ∈ { Kreuz, Pik, Herz, Karo }
und w ∈ {7, 8, 9, 10, Bube, Dame, König, Ass }}. Für jede Hand H zu Beginn
eines Skatspiels gilt H ⊂ B und |H| = 10.
(ii) Sei A := {1, 2} und B := {a, b}. Dann ist A×B = {(1, a), (1, b), (2, a), (2, b)}.
(iii) Die Menge aller Felder eines Schachbretts ist {A, B, . . . , H} × {1, 2, . . . , 8}.
(iv) Seien A := {u, v, w} und B := {x, y, z}. (u, v, z) ist ein 3-Tupel und Element von A × A × B. (u, w, w, v, v, u) ist ein 6-Tupel und Element von A × A ×
A × A × A × A = A6 (sprich: A hoch 6).
5
2 Logik
Ein anderer Grundpfeiler der Mathematik neben der Mengenlehre ist die Logik,
welche sich mit Aussagen, Verknüpfungen von Aussagen und deren Wahrheitsgehalt befaßt.
2.1 Aussagen und Aussageformen
In der Umgangssprache existieren verschiedene Arten von Sätzen, beispielsweise
Fragen, Meinungen, Befehls- und Aussagesätze. Eine Aussage A ist ein Satz,
der entweder wahr oder falsch ist. Zu jeder Aussage A existiert eine gegenteilige
Aussage, die Negation von A und wird mit den Symbolen ¬A oder Ā bezeichnet
und ist genau dann wahr, wenn A falsch ist und umgekehrt.
Beispiel 2.1:
(i) Aussagen sind die Sätze: ’Der Mond kreist um die Erde’ oder ’Frankfurt
liegt an der Wolga’. Keine Aussagen sind die Sätze: ’Schröder ist doof’ oder
’Küss mich’ oder ’Verstehst Du das’.
(ii) Von den Aussagen (i) ’Der Mond kreist um die Erde’ (ii)’Frankfurt liegt an
der Wolga’ (iii) ’Verdi komponierte mindestens ein Streichquartett’ (iv) ’Neun ist
eine gerade Zahl’ sind (i) und (iii) wahr und (ii) und (iv) falsch.
(iii) Die Negation der Aussage ’Frankfurt liegt an der Wolga’ ist ’Frankfurt liegt
nicht an der Wolga’. Sei A := ’Der Mond kreist um die Erde’. Dann ist ¬A =
’Der Mond kreist nicht um die Erde’. Oﬀenbar ist A wahr und ¬A falsch.
Sätze, die Variablen enthalten und erst dann zu Aussagen werden, wenn man den
Variablen einen bestimmten Wert zuordnet, heißen Aussageformen. Sie werden
üblicherweise mit einem großen lateinischen Buchtstaben für die Aussageform
selbst, gefolgt von einem oder mehreren in Klammern gesetzten kleinen lateinischen Buchstaben für die Variablen bezeichnet. Die Menge aller Objekte, die in
eine Aussageform eingesetzt werden dürfen, heißt Grundmenge der Aussageform;
die Menge derjenigen Elemente der Grundmenge, für die die Aussageform wahr
ist, heißt Lösungsmenge der Aussageform.
Beispiel 2.2:
(i) Sei A(x) := ’x komponierte neun Symphonien’ und die dazugehörige Grund-
6
2 Logik
menge {Beethoven, Mahler, Haydn}. Dann steht A(Mahler) für die Aussage ’Mahler komponierte neun Symphonien’.
(ii) Sei G(x) := ’x > 2’ und die zu G(x) gehörige Grundmenge {1, 2, 3, 4, 5}.
Dann ist {3, 4, 5} die Lösungsmenge von G(x).
2.2 Verknüpfungen von Aussagen
Aussagen und Aussageformen können mit Hilfe sogenannter Boolscher Operatoren
zu neuen, zusammengesetzen Aussagen bzw. Aussageformen verknüpft werden1 .
Einer dieser Operatoren ist die sogenannte Konjunktion oder Und-Verknüpfung.
Die Konjunktion zweier Aussagen A und B ist genau dann wahr, wenn sowohl
A als auch B wahr sind. Formal wird die Konjunktion zweier Aussagen A und
B durch den Ausdruck A ∧ B (sprich: A und B) beschrieben. Dagegen ist die
Disjunktion A ∨ B (sprich: A oder B) zweier Aussagen A und B dann und nur
dann wahr, wenn A, B oder A und B wahr sind. Sie wird daher auch als OderVerknüpfung bezeichnet. Es gilt
¬(A ∧ B) = ¬A ∨ ¬B,
¬(A ∨ B) = ¬A ∧ ¬B.
Beispiel 2.3: Seien die Aussagen A und B wahr und die Aussage C falsch.
(i) Dann ist A ∧ B wahr und B ∧ C falsch. Ferner ist A ∨ B wahr, B ∨ C wahr
und C ∨ C falsch.
(ii) Die Negation der Aussage ’Claudia ist schön und klug’ ist die Aussage
’Claudia ist nicht schön oder nicht klug’.
(iii) Die Negation der Aussage ’Claudia ist schön oder klug’ ist die Aussage
’Claudia ist weder schön noch klug’.
Ein weiterer Boolscher Operator ist die Implikation oder Folgerung. Sie wird
für zwei Aussagen A und B durch den Ausdruck A ⇒ B (sprich: aus A folgt
B) beschrieben und ist nur dann falsch, wenn A wahr und B falsch ist. In allen
anderen Fällen ist sie wahr. Die Implikation A ⇒ B ist also identisch zur Aussage
¬A ∨ B. A heißt auch hinreichende Bedingung für B, da bei gültiger Implikation
A ⇒ B die Aussage B wahr sein muß, wenn A wahr ist, und B notwendige
Bedingung für A, da A nur dann wahr sein kann, wenn B wahr ist. Die Äquivalenz
A ⇔ B zweier Aussagen A und B ist genau dann wahr, wenn entweder A und
B beide wahr oder beide falsch sind. Sie ist äquivalent (!) zum Ausdruck (A ⇒
1
benannt nach George Boole (1815-1864), britischer Mathematiker
7
2 Logik
A B
w w
w f
f w
f f
A∧B
w
f
f
f
A∨B
w
w
w
f
A⇒B
w
f
w
w
A⇔B
w
f
f
w
Tabelle 2.1: Wahrheitstafeln für Konjunktion, Disjunktion, Implikation und
Äquivalenz
B) ∧ (B ⇒ A). Wir benutzen häuﬁg die Sprechweise ’dann und nur dann’ oder
’genau dann’ für die Äquivalenz.
Man kann den Wahrheitsgehalt zusammengesetzer Aussagen in Abhängigkeit
vom Wahrheitsgehalt der zugehörigen Einzelaussagen übersichtlich in sogenannten Wahrheitstafeln darstellen. In diesen werden als Tabelle alle Kombinationen
von Wahrheitsgehalten der in die zusammengesetzte Aussage einﬂießenden einzelnen Aussagen dem sich ergebenden Wahrheitsgehalt der zusammengesetzten
Aussage gegenübergestellt. In Tabelle 2.1 sind Wahrheitstafeln für die in diesem
Abschnitt vorgestellten Verknüpfungen zusammengestellt.
Beispiel 2.4: Die Wahrheitstafel zur Aussage A ∨ (B ∧ ¬C) ist:
A B
w w
w w
w f
w f
f w
f w
f f
f f
C
w
f
w
f
w
f
w
f
A ∨ (B ∧ ¬C)
w
w
w
w
f
w
f
f
2.3 Quantiﬁzierung von Aussageformen
In Abschnitt 2.1 wurde gezeigt, wie Aussageformen zu Aussagen werden, indem
man ein Element ihrer jeweiligen Grundmenge in sie einsetzt. Eine andere Art,
Aussagen aus Aussageformen zu machen ist, diese zu quantiﬁzieren. Sei im weiteren A(x) eine Aussageform mit der Grundmenge G und der Lösungsmenge
L ⊆ G. Dann steht ∃x. A(x) (sprich: es existiert ein x mit A(x)) für die Aussage,
daß mindestens ein x ∈ G existiert, für welches A(x) wahr ist. Das Symbol ∃
heißt Existenzquantor. Ferner bedeutet ∀x. A(x) (sprich: für alle x gilt A(x)), daß
8
2 Logik
A(x) für alle x ∈ G wahr ist. Das Symbol ∀ heißt entsprechend Allquantor. Man
beachte, daß ∃x. A(x) genau dann wahr ist, wenn L = ∅ gilt, und daß ∀x. A(x)
genau dann wahr ist, wenn L = G gilt. Daraus folgt, daß ∃x. A(x) wahr ist, falls
∀x. A(x) wahr ist. In der Schreibweise der Logik ist das ∀x. A(x) ⇒ ∃x. A(x).
Bezüglich der Negation quantiﬁzierter Aussageformen gelten die Regeln:
¬∀x. A(x) ⇔ ∃x. ¬A(x)
¬∃x. A(x) ⇔ ∀x. ¬A(x)
Beispiel 2.5:
(i) Sei A(x) := ’x > 3’ eine Aussageform mit der Grundmenge G := {1, 2, 3, 4}.
Dann ist ∃x. A(x) eine wahre Aussage, da 4 > 3 wahr ist, und ∀x. A(x) eine falsche
Aussage, da beispielsweise 1 > 3 falsch ist.
(ii) Die Verneinung der Aussage ’Alle Menschen sind sterblich’ ist ’Es gibt einen
Menschen, der nicht sterblich ist’. Die Negation der Aussage ’Es gibt einen Studenten, der alles versteht’ ist ’Für jeden Studenten gibt es etwas, das er nicht
versteht’.
2.4 Deﬁnitionen, Lemmata, Sätze, Theoreme und
Beweise
Die Mathematik ist ein logisch aufgebautes Gedankengbäude. Ihre Sprache verwendet Begriﬀe und Strukturen, die zunächst deﬁniert werden müssen. Wir haben bis hier schon viele Begriﬀe deﬁniert, zuletzt z.B. den Allquantor ∀. Kurze, einfache Deﬁnitionen werden in mathematischen Texten oft durch einfache
Hervorhebungen im Text markiert. Längere und komplexere Deﬁnitionen werden
meistens als solche hervorgehoben und fallen dadurch noch mehr auf. Mit Begriffen und Strukturen werden Aussagen gemacht. Unsere zuletzt gemachte Aussage
mit zuvor deﬁnierten Begriﬀen war z.B. ¬∃x. A(x) ⇔ ∀x. ¬A(x). Mathematiker
sortieren ihre Aussagen gerne nach ihrer Wichtigkeit. Dabei werden kleine, untergeordnete, oder Hilfsaussagen Lemma genannt, die meisten Aussagen nennt
man Satz oder auf englisch proposition was gelegentlich fälschlich als Vorschlag
übersetzt wird.
Die wichtigsten Resultate in der Mathematik werden Theoreme genannt. Diese
zu beweisen kann manchmal sehr schwierig und aufwendig sein. Großes Aufsehen in der mathematischen Fachwelt erregte z.B. der Beweis des letzten Schrittes
von Fermat’s berühmtem ’letzten Theorem’, aufgestellt vom französischen Mathematiker Pierre de Fermat um das Jahr 1630 als Randnotiz in einem zahlentheoretischen Aufsatz mit dem Vermerk, daß ihm ein einfacher Beweis dafür
9
2 Logik
bekannt sei. Fermats letztes Theorem sagt aus, daß für n = 3, 4, 5, . . . keine
ganzzahligen Lösungen ungleich 0 der Gleichung xn + y n = z n existieren. Der
britische Mathematiker Andrew Wiles versetzte am 23. Juni 1993 die Fachwelt in große Aufregung, als er per email verbreitete, diese berühmte Vermutung
endgültig bewiesen zu haben2 . In der Tat war dies nur der letzte Schritt in einer
über 350-jährigen Suche nach einem Beweis, an dem sich viele der bedeutensten
Mathematiker unserer und auch früherer Zeiten beteiligten und die maßgeblich
die moderne Geschichte der Mathematik mit geprägt hat. Auf dem Weg zum
endgültigen Beweis wurden zahlreiche neue Gebiete der Mathematik entwickelt,
von denen viele Mathematiker heute glauben, daß sie für sich genommen viel
wichtiger sind, als Fermats ursprüngliche Behauptung selbst.
Wirtschaftswissenschaftler im Gegensatz zu Mathematikern interessieren sich weniger für Beweise, also die internen Strukturen logischer Gedankengebäude, sondern mehr für die Anwendungen mathematischer Aussagen auf die reale Welt.
Um dieses Ziel schneller erreichen zu können, werden auch in diesem Skriptum
die meisten Beweise weggelassen. So sahen wir noch keinen Beweis bis hier. Auch
Wirtschaftswissenschaftler sollten sich jedoch bewußt sein, daß das Weglassen
und Ignorieren von mathematischen Beweisen verschiedene Gefahren in sich birgt.
Zum Beispiel geht es auch dem Wirtschaftswissenschaftler oft um strukturelles
Verständnis, wenn ökonomische Phänomene mit Hilfe von Modellen beschrieben
und erklärt werden. Daher liegt ein Teil des Verständnisses des ökonomischen
Phänomens in der verwendeten Struktur des mathematischen Modells. Der andere (ökonomische) Teil des Verständnisses drückt sich oft in der Wahl geeigneter
Modell-Bestandteile und Annahmen aus. Beide Verständnisarten bedingen sich
oft gegenseitig. Es ist kein Zufall, daß viele der berühmten Ökonomen unserer Zeit
gleichzeitig hervorragende Mathematiker sind oder sogar von der Mathematik zur
Ökonomie gekommen sind. Umgekehrt ist es schwierig, als angehender Ökonom
an die Front aktueller Forschung in Ökonomie zu gelangen, ohne sich großzügig
in der Welt der etablierten mathematischen Resultate zu bedienen. Es ist eine
Kunst, sich für die relevanten mathematischen Strukturen zu interessieren und
die weniger relevanten ökonomisch als ’black boxes’ zu benutzen auf dem Weg zu
einem besseren ökonomischen Verständnis.
Da wir im Folgenden gelegentlich exemplarisch Beweise vorführen, sei hier kurz
auf einige der wichtigsten Beweis-Techniken des Mathematikers eingegangen.
Als direkten Beweis bezeichnet man eine Kette von Implikationen, an deren Anfang die hineingesteckten Annahmen und an deren Ende die zu beweisende Behauptung steht.
√
Beispiel 2.6: Seien a, b ∈ {0, 1, 2, . . .}, dann ist das geometrische Mittel a · b
.
stets kleiner oder gleich dem arithmetischen Mittel a+b
2
2
Der Beweis wurde schließlich publiziert als Andrew Wiles, Modular elliptic curves and
Fermat’s Last Theorem, Ann. Math. 141 (1995), 443-551
10
2 Logik
√
Beweis: a · b ≤ a+b
⇔ 4ab ≤ (a + b)2 ⇔ 0 ≤ (a − b)2 , was stets wahr ist. Da
2
für a, b ∈ {0, 1, 2, . . .} die Implikationen in beiden Richtungen gelten, gelten sie
insbesondere alle rückwärts, also ist die am Anfang stehende Aussage wahr.
Der indirekte Beweis beruht auf der logischen Äquivalenz ¬(A∧B) = ¬A∨¬B, die
in Kap. 2.2 eingeführt wurde. Die Quantiﬁzierung dieser logischen Äquivalenz ist
¬∀x. A(x) ⇔ ∃x. ¬A(x). Statt eines Beispiels hier, wird auf das folgende √
Kapitel
verwiesen, wo wir indirekt oder durch Widerspruch beweisen werden, daß 2 eine
irrationale Zahl ist.
Falls die zu beweisende Behauptung für alle natürlichen Zahlen n ∈ N zu zeigen ist, so kann sie mit Hilfe vollständiger Induktion bewiesen werden. Diese
Beweismethode wird dem französischen Mathematiker Blaise Pascal (16231662), einem Zeitgenossen von P. de Fermat, zugeschrieben. Die Aussage wird
zunächst für eine Zahl n0 ∈ N gezeigt. Die Zahl n0 ist oft 0 oder 1. Man nennt
sie den Induktionsanfang. Aus der Induktionsvoraussetzung, also der Annahme,
die Behauptung gelte für n ∈ N, folgert man dann die Induktionsbehauptung,
also die selbe Behauptung für n + 1 ∈ N. In dieser Folgerung, also diesem Teil
des Beweises, liegt meistens die eigentliche Beweisidee, daher nennen wir ihn den
Induktionsbeweis.
Beispiel 2.7: (Gauss’sche Summenformel3 ) Es gilt ∀n ∈ N:
1+2+···+n =
n(n + 1)
2
.
.
(i) Induktionsanfang: 1 = 1·2
2
(ii) Induktionsvoraussetzung: Es gelte für n = k:
1+2+···+k =
k(k + 1)
2
.
(iii) Induktionsbehauptung: Dann gilt für n = k + 1:
1 + 2 + · · · + k + (k + 1) =
(k + 1)(k + 2)
2
.
(iv) Induktionsbeweis:
1 + 2 + · · · + k + (k + 1) =
3
k(k + 1)
+ (k + 1)
2
benannt nach dem deutschen Mathematiker Carl Friedrich Gauss (1777-1855), vom dem
die Legende sagt, daß er eine von seinem Lehrer gestellte Aufgabe, die Zahlen 1 bis 100
aufzuaddieren im Handumdrehen lösen konnte zu großen Verblüﬀung seines Lehrers und
seiner Mitschüler. Gauss verwendete angeblich eine andere Idee. Statt die Zahlen sukzessive
zu addieren rechnete er 1 + · · · + 100 = (1 + 100) + (2 + 99) + · · · + (50 + 51) = 50 · 101.
11
2 Logik
k 2 + k + 2k + 2
2
(k + 1)(k + 2)
=
.
2
=
12
3 Zahlen und Arithmetik
In diesem Kapitel werden Zahlen und einzelne Elemente aus dem Bereich der
Arithmetik rekapituliert. Insbesondere werden die reellen Zahlen eingeführt und
einige Rechenregeln wie Potenzrechnung und Logarithmieren wiederholt.
3.1 Zahlen
Grundlegend für die Mathematik sind die Zahlen. Die Zahlen 1, 2, 3, . . ., die sich
intuitiv aus dem Zählen (z.B. der Finger) ergeben, heißen natürliche Zahlen oder
positive ganze Zahlen und werden mit dem Symbol N bezeichnet. Dazu gehören offenbar die geraden Zahlen 2, 4, 6, . . . und die ungeraden Zahlen 1, 3, 5, . . .. Natürliche Zahlen sind bezüglich der Addition und der Multiplikation abgeschlossen. Das
heißt, daß die Summe und das Produkt zweier natürlicher Zahlen wieder natürliche Zahlen sind.
Positive und negative ganze Zahlen zusammen mit der 0, also . . . , −2, −1, 0, 1, 2, . . .
heißen ganze Zahlen und werden mit Z bezeichnet. Die ganzen Zahlen sind zusätzlich bezüglich der Subtraktion abgeschlossen.
Brüche sind Zahlen wie 27 , die sich als Quotient ab zweier ganzer Zahlen a und
b mit b = 0 darstellen lassen. Sie heißen rationale Zahlen und werden als Q bezeichnet. Verschiedene Brüche können die gleiche rationale Zahl darstellen, zum
Beispiel ist 24 = 12 . Eine besondere Rolle spielen daher die gekürzten Brüche, deren
Zähler und Nenner teilerfremd sind und der Nenner stets positiv ist. Wir können
daher jede rationale Zahl durch viele Brüche aber nur mit genau einem gekürzten
Bruch darstellen. Die rationalen Zahlen sind bezüglich aller vier Grundrechenarten +, −, ·, : abgeschlossen.
Die ganzen und auch die rationalen Zahlen lassen sich auf der Zahlengeraden
darstellen. Angenommen, wir würden alle rationalen Zahlen, also zuerst die 0,
dann alle (positiven und negativen) Vielfachen von 1, dann alle (positiven und
negativen) Vielfachen von 12 , dann alle (positiven und negativen) Vielfachen von
1
, usw. auf der Zahlengeraden markieren. Es ist verführerisch, zu denken, dann
3
gäbe es keine Löcher mehr auf der Zahlengeraden. Schon die Griechen der Antike
bemerkten jedoch, daß dies nicht der Fall ist. Spätestens Euklid
√ sah, daß keine
p 2
ganzen Zahlen p und q existieren, so daß ( q ) = 2 ist. Also ist 2 keine rationale
13
3 Zahlen und Arithmetik
Zahl. Um dies zu zeigen, verwenden wir einen indirekten Beweis. Statt also zu
zeigen ” pq ist gekürzter Bruch aus ganzen Zahlen” ⇒ ”( pq )2 = 2” zeigen wir
”( pq )2 = 2” ⇒ ” pq ist nicht gekürzter Bruch aus ganzen Zahlen”. Dabei verwenden
wir also die logische Äquivalenz
(A ⇒ B) ⇔ (¬A ∨ B) ⇔ (B ∨ ¬A) ⇔ (¬B ⇒ ¬A).
Nehmen wir also umgekehrt an, es gäbe einen gekürzten Bruch
p2
q2
p2
q2
2
p
q
=
√
2. Also ist
2
ein gekürzter Bruch (warum?). Wegen = 2 ist also p = 2q . Da q und
auch
2
daher q ganze Zahlen sind, ist 2q 2 und daher auch p2 eine gerade Zahl, denn wäre
p ungerade so wäre auch p2 ungerade. Also ist p2 sogar durch 4 teilbar. Wegen
p2 = 2q 2 muss dann aber auch q gerade sein. Dies widerspricht aber unserer
Annahme, daß pq gekürzt ist. Da also ( pq )2 = 2 zu einem Widerspruch führt, ist
√
2 keine rationale Zahl.
Eine für uns übliche Art, Zahlen zu schreiben, ist die so genannte Dezimalschreibweise. Jede natürliche Zahl kann mit Hilfe der zehn Symbole 0, 1, 2, . . . , 9 geschrieben werden. Die Anordnung der Ziﬀern als Zahl entspricht der Summe von
Vielfachen der Potenzen von 10. Zum Beispiel bedeutet
2003 = 2 · 103 + 0 · 102 + 0 · 101 + 3 · 100 .
Zusammen mit den Symbolen +, − können alle ganzen Zahlen im Dezimalsystem
geschrieben werden. Mit Hilfe von Kommastellen und negativen Potenzen von
10 können wir auch rationale Zahlen, die keine ganzen Zahlen sind, in Dezimalschreibweise darstellen, zum Beispiel
3.14 = 3 · 100 + 1 · 10−1 + 4 · 10−2.
Jeder Zahl, die auf diese Weise mit endlich vielen Ziﬀern in Dezimalschreibweise
geschrieben werden kann, ist eine rationale Zahl zugeordnet. Umgekehrt kann
nicht jede rationale Zahl mit endlich vielen Ziﬀern in Dezimalschreibweise dargestellt werden. Zum Beispiel ist 13 = 0.3̄ = 0.33 . . ., wobei der obere Balken die
zu wiederholenden Ziﬀern beschreibt oder die Punkte dafür stehen, daß die Ziﬀer
3 unendlich oft wiederholt wird. Die Dezimalschreibweise jeder rationalen Zahl
ist jedoch periodisch, d.h. ab einer gewissen Stelle der Dezimalschreibweise wiederholen sich die Ziﬀern unendlich oft in der gleichen Reihenfolge. Zum Beispiel
ist
1
= 0.142857 = 0.142857142857 . . . .
7
Eine intuitive Erweiterung der rationalen Zahlen ist oﬀenbar die Menge aller
Zahlen in (unendlicher) Dezimalschreibweise, also auch die nichtperiodischen. Wir
14
3 Zahlen und Arithmetik
nennen alle solchen Zahlen, die nicht schon rationale Zahlen sind, irrational. Dazu
gehören zum Beispiel
√
√
1, 01001000100001 . . . , 2, − 11, π, e.
Rationale und irrationale Zahlen zusammen, also alle Zahlen in Dezimalschreibweise, heißen reelle Zahlen und werden mit R bezeichnet. Dies ist die für Ökonomen wichtigste und am häuﬁgsten verwendete Zahlenmenge und wird daher
später weiter vertieft. Reelle Zahlen sind wie die rationalen Zahlen abgeschlossen bezüglich der vier Grundrechenarten, aber darüber hinaus auch bezüglich
der Bildung von Grenzwerten, die in Kap.??? eingehender behandelt werden. Die
reellen Zahlen sind dagegen nicht
√ abgeschlossen bezüglich der Bildung von Wurzelausdrücken. Zum Beispiel ist −1 keine reelle Zahl. Der Abschluss der reellen
Zahlen bezüglich Wurzelaudrücken heißt komplexe Zahlen und wird mit C bezeichnet. Die komplexen Zahlen sind für die Mathematik und auch für die Physik
grundlegend. Da jedoch komplexe Zahlen selten in den Wirtschaftswissenschaften
vorkommen, werden wir uns hier nicht weiter damit befassen.
Oﬀensichtlich gilt N ⊂ Z ⊂ Q ⊂ R ⊂ C. Die komplexen Zahlen sind also der
allgemeinste der fünf hier aufgeführten Zahlenbegriﬀe.
3.2 Potenzen und Wurzeln
Das n-fache Produkt
a
· a ·. . . · a
n mal
einer Zahl a ∈ R mit sich selbst wird als die n-te Potenz dieser Zahl bezeichnet.
Dabei heißt a auch Basis oder Grundzahl und n Exponent oder Hochzahl der
Potenz. Man schreibt dafür an .
Der Potenzbegriﬀ wird über die Deﬁnition a−n := a1n mit n ∈ N auf ganzzahlige
Exponenten kleiner Null erweitert und mit der Festsetzung a0 := 1 für a = 0
schließlich auf alle ganzzahligen Exponenten ausgedehnt.1 Für das Rechnen mit
Potenzen gilt für alle n, m ∈ Z:
an am =
an
=
am
n n
a b =
an
=
bn
(an )m =
1
an+m
an−m
n
(ab)
a n
b
nm
a
Der Ausdruck 00 ist nicht deﬁniert.
15
; a, b ∈ R
; a, b ∈ R, a = 0
; a, b ∈ R
; a, b ∈ R, b = 0
; a, b ∈ R
3 Zahlen und Arithmetik
Beispiel 3.1:
(i) 32 · 33 = 35 = 3 · 3 · 3 · 3 · 3 = 243.
2
1
1
= 25
.
(ii) 554 = 5−2 = 512 = 5·5
2
2
2
2
(iii) 4 · 6 = (4 · 6) = 24 = 576.
3
(iv) (22 ) = 26 = 64.
Für die Potenz an √
= b mit b ≥ 0 und n ∈ N heißt a auch
√ n-te Wurzel aus b und
n
man schreibt a = b für n = 2 und einfach nur a = b für n = 2. Dabei wird b
auch als Radikant bezeichnet. Das Wurzelziehen ist also die inverse Operation der
Potenzierung. Wurzelausdrücke können auch als Potenzen mit nicht ganzzahligen
Exponenten geschrieben werden, indem
√
a1/n := n a.
festgesetzt wird. Dies ist oﬀenbar konsistent zu den oben angeführten PotenzRechenregeln, denn
√
n
an = (an )1/n = an/n = a.
Also gelten entsprechende Rechenregeln für das Wurzelziehen, so daß für das
Rechnen mit Wurzeln mit a, b ≥ 0 und n, m ∈ N folgt:
√
√
√
n
n
n
a √b =
ab
na
√
= n ab
n
b
√
√
n
m = ( n a)m
a
√
√
m n
a = nm a
Beispiel
√ 3.2: 1/2
16 = 16 = 4.
(i)
1/4
1/4
1/4
4
x12 y 8 = (x12 y 8) = (x12 ) (y 8 ) = x12/4 y 8/4 = x3 y 2.
(ii)
√
1/m
(iii) m x n y = xy 1/n
= x1/m y 1/mn .
3.3 Logarithmen
Mit dem Wurzelziehen wurde im vorhergehenden Abschnitt die zur Potenzierung
inverse Operation bezüglich der Basis oder Grundzahl gebildet. Die inverse Operation zur Potenzierung bezüglich des Exponenten oder der Hochzahl ist das so
genannte Logarithmieren.
Für die Potenz ay = x mit a > 0 und a = 1 heißt y auch Logarithmus von x zur
Basis a. Man schreibt dafür y = loga x. Der Logarithmus einer Zahl x zur Basis
16
3 Zahlen und Arithmetik
a ist also diejenige Zahl y, mit der a potenziert werden muß, um x zu erhalten.
Besondere Basen sind in diesem Zusammenhang 10 und die Eulersche Zahl e ≈
2, 718281828, die in vielen verschiedenen Zusammenhängen, insbesondere z.B.
für Wachstumsprozesse bedeutsam ist. Der Logarithmus zur Basis 10 wird häuﬁg
nur mit log x, der Logarithmus zur Basis e mit ln x (für ’logarithmus naturalis’)
bezeichnet.
Beispiel 3.3:
(i) log 100 = 2.
(ii) log2 64 = 6.
(iii) ln 1 = 0.
Für das Rechnen mit Logarithmen gelten folgende Regeln. Für a, b > 0, a, b = 1
und x, y > 0 gilt:
ax
logb x = log
loga b
loga (xy) = loga x + loga y
loga (x/y) = loga x − loga y
loga (xy ) = y loga x
Beispiel 3.4:
(i) log(100 · 10002) = log 100 + log(10002 ) = log 100 + 2 log 1000 = 2 +2 · 3 =
8.
x2 y 3
2
3
5
1
1
2
3
5
(ii) 7 log x + 7 log y − 7 log z = 7 (log(x ) + log(y ) − log(z )) = 7 log z 5 .
Man beachte, daß der Logarithmus nur für Zahlen größer als Null gebildet werden
kann; für alle Zahlen kleiner oder gleich Null ist er nicht deﬁniert.
17
4 Gleichungen und Ungleichungen
In diesem Kapitel werden Techniken zur Bestimmung der Lösungsmengen von
Gleichungen und Ungleichungen rekapituliert.
4.1 Eindimensionale Gleichungen und
Ungleichungen
Eine Gleichung oder Ungleichung ohne Variablen ist eine Aussage, z.B. ist 1 = 1
wahr und 0 > 1 falsch. Gleichungen oder Ungleichungen, bzw. mehrdimensionale
Systeme von Gleichungen und Ungleichungen mit Variablen heißen Bestimmungsgleichungen bzw. ungleichungenund sind Aussageformen. Der einzige Unterschied
zwischen Bestimmungsgleichungen und -ungleichungen besteht darin, daß bei
letzteren an der Stelle des Gleichheitszeichens eine der Relationen >, ≥, ≤, <, =
steht.
Für Gleichungen und Ungleichungen existieren Umformungen, die es ermöglichen, eine Aussageform in eine andere Aussageform mit derselben Lösungsmenge
zu überführen, und die somit sehr nützlich dafür sind, die Lösungsmenge einer
Ungleichung zu bestimmen, indem mit ihrer Hilfe die Aussageform nach der Unbekannten aufgelöst wird. Die wichtigsten dieser Umformungen sind nachfolgend
für a, b, c ∈ R zusammengestellt:
a < (≤) b
a < (≤) b
a < (≤) b ∧ c > 0
a < (≤) b ∧ c < 0
⇒
⇒
⇒
⇒
b > (≥) a
a + c < (≤) b + c
ca < (≤) cb
ca > (≥) cb
Man beachte, daß die Multiplikation einer Ungleichung mit einem Faktor c ∈ R,
dessen Vorzeichen nicht bekannt ist, eine Fallunterscheidung für c > 0 und c < 0
erforderlich macht.
Sei U eine Ungleichung der Form a = b mit a und b als beliebige Ausdrücke,
die eine unbekannte Variable enthalten. Eine Möglichkeit, deren Lösungsmenge
LU zu bestimmen, ist, zunnächst die Lösungsmenge LG der Gleichung a = b zu
berechnen. Es gilt dann LU = CR LG .
18
4 Gleichungen und Ungleichungen
Beispiel 4.1:
(i) Die Lösungsmenge der Ungleichung 2x ≥ 8 mit x als Unbekannter ist die
Menge aller reellen Zahlen, die größer oder gleich 4 sind, also das Intervall [4, ∞).
(ii) Die Lösungsmenge der Ungleichung x + 1 < 0 mit x als Unbekannter ist die
Menge aller reellen Zahlen, die kleiner als -1 sind, also das Intervall (−∞, −1).
(iii) Die Lösungsmenge der Ungleichung 3x − 5 ≥ 6x − (2x + 3) mit x als Unbekannter ist, wie die Kette
3x − 5 ≥ 6x − (2x + 3)
3x − 5 ≥ 6x − 2x − 3
3x − 5 ≥ 4x − 3
3x − 2 ≥ 4x
−2 ≥ x
| Auﬂösen der Klammer
| Zusammenfassen der x-Glieder
| +3
| −3x
| Ungleichung aufgelöst
von Umformungen erbringt, das Intervall (−∞, −2].
(iv) Um die Lösungsmenge der Ungleichung x5 ≤ 1 mit x als Unbekannter, an
welche zusätzlich die Forderung x = 0 erhoben wird, zu bestimmen, wird zunächst
der Fall x > 0 betrachtet. Die Multiplikation der Ungleichung mit x führt dann
auf die Ungleichung 5 ≤ x. Also ist die Lösungsmenge der urpsrünglichen Ungleichung für x > 0 das Intervall L1 = [5, ∞). Für den Fall x < 0 führt die
Multiplikation der Ungleichung mit x hingegen auf die Ungleichung 5 ≥ x. Die
Lösungsmenge der urpsrünglichen Ungleichung ist folglich für x < 0 das Intervall
L2 = (−∞, 0), und die gesamte Lösungsmenge ist L = L1 ∪ L2 .
Es existieren Arten von Ungleichungen, welche mit dem bisher behandelten Instrumentarium allein nicht gelöst werden können. Eine Ungleichung der Form
|a| < b,
|a| ≤ b,
|a| > b |a| ≥ b oder |a| = b
mit a und b als beliebige Ausdrücke, die eine unbekannte Variable enthalten, heißt
Ungleichung mit Absolutbetrag. Ist die Lösungsmenge einer solchen Ungleichung
zu bestimmen, sind die nachfolgenden Äquivalenzen sehr hilfreich:
1.
2.
3.
4.
5.
|a| < b
|a| ≤ b
|a| > b
|a| ≥ b
|a| = b
⇔
⇔
⇔
⇔
⇔
a<b
a≤b
a>b
a≥b
a = b
∧
∧
∨
∨
∧
−a < b
−a ≤ b
−a > b
−a ≥ b
−a = b
Um die Lösungsmenge L einer Ungleichung mit Absolutbetrag zu bestimmen,
kann man gemäß dieser Äquivalenzen die Lösungsmengen L1 und L2 zweier
dazu äquivalenter Ungleichungen ohne Absolutbetrag bestimmen. Im Falle der
∧−Verknüpfung, also in den Fällen 1, 2 und 5 bildet man dann L = L1 ∩ L2 und
für die ∨−Verknüpfung, also in den Fällen 3 und 4, entsprechend L = L1 ∪ L2 .
19
4 Gleichungen und Ungleichungen
Beispiel 4.2:
(i) Die Ungleichung x ≤ |5 − x| ist (nach 4.) äquivalent zu
x ≤ 5 − x ∨ x ≤ −(5 − x) .
U1 :=
U2 :=
Die Lösungsmenge der Ungleichung U1 ist, wie die Kette
x ≤ 5 − x | +x
2x ≤ 5
|: 2
x ≤ 5/2
| Ungleichung aufgelöst
von Äquivalenzumformungen erbringt, L1 = (−∞, 5/2]. Die Lösungsmenge der
Ungleichung U2 ist, wie die Kette
x ≤ −(5 − x) | Klammer auﬂösen
x ≤ −5 + x
| −x
0 ≤ −5
| Falsche Aussage
von Äquivalenzumformungen erbringt, L2 = ∅. Die Lösungsmenge der ursprünglichen Ungleichung ist also L = L1 ∪ L2 = (−∞, 5/2].
(ii) Die Ungleichung |6 − x| < 8 ist (nach 1.) äquivalent zu
6 − x < 8 ∧ −(6 − x) < 8 .
U1 :=
U2 :=
Die Lösungsmenge der Ungleichung U1 ist das oﬀene Intervall L1 = (−2, ∞),
die Lösungsmenge der Ungleichung U2 das oﬀene Intervall L2 = (−∞, 14). Die
Lösungsmenge der Ungleichung |6 − x| < 8 ist also L = L1 ∩ L2 = (−2, 14).
Eine Ungleichung der Form
x2 + px + q B 0,
wobei B für eine der Relationen =, >, ≥, ≤, < oder = steht, heißt quadratische
Gleichung oder Ungleichung.
Eine quadratische Gleichung hat entweder keine, eine oder zwei Lösungen in R,
welche sich mit Hilfe der sogenannten pq-Formel
p
p 2
x1,2 = − ±
−q
2
2
berechnen lassen.
p 2Diese Formel besagt, daß die oben angegebene quadratische
Gleichung für 2 − q > 0 zwei Lösungen hat, nämlich
p
p
p 2
p 2
− q und x2 = − −
− q,
x1 = − +
2
2
2
2
20
4 Gleichungen und Ungleichungen
B
>
≥
≤
<
=
Fall (a):
Fall (b):
2 Lösungen
1 Lösung
xu , xo
xu,o
(−∞, xu ) ∪ (xo , ∞) R \ {xu,o}
(−∞, xu ] ∪ [xo , ∞)
R
[xu , xo ]
{xu,o }
(xu , xo )
∅
R \ {xu , xo }
R \ {xu,o}
Fall (c):
keine
Lösung
R
R
∅
∅
R
Tabelle 4.1: Lösungsmengen quadratischer Ungleichungen
für
p 2
2
− q = 0 eine Lösung, nämlich
x1 = x2 = −
p
2
2
und für p2 − q < 0 keine Lösung, da die Wurzel einer negativen Zahl in R nicht
deﬁniert ist.1
Beispiel 4.3:
(i) Die Gleichung x2 + 2x − 15 = 0 hat nach der pq-Formel x1,2 = −1 ±
√
1 + 15 = −1 ± 4 die Lösungsmenge {3, −5}.
√
2
+
4x+
10
=
0
hat
nach
der
pq-Formel
x
=
−2
±
4 − 10
(ii) Die Gleichung
x
1,2
√
keine Lösung, da −6 nicht deﬁniert ist.
Um eine quadratische Ungleichung zu lösen, sind zunächst etwa alle Lösungen
der von der quadratischen Ungleichung abgeleiteten Gleichung
x2 + px + q = 0
zu bestimmen. Die Lösungsmenge der quadratischen Ungleichung ergibt sich nun
in Abhängigkeit von den Lösungen der quadratischen Gleichung und der Relation
B gemäß Tabelle 4.1.
Die in Tabelle 4.1 zusammengestellten Ergebnisse werden in Abbildung 5.2 veranschaulicht, in welcher für die drei Fälle (a), (b) und (c) jeweils eine durch eine
entsprechende quadratische Gleichung beschriebene Parabel dargestellt ist.
Beispiel 4.4:
(i) Die zur quadratischen Ungleichung x2 − x − 2 ≤ 0 gehörende Gleichung
x2 − x − 2 = 0 hat nach der pq-Formel die beiden Lösungen xu = −1 und xo = 2
mit xu < xo . Dann ist die Lösungsmenge der betrachteten quadratischen Ungleichung das geschlossene Interval [−1, 2].
1
Tatsächlich ist die Wurzel einer negativen reellen Zahl eine komplexe Zahl in C.
21
4 Gleichungen und Ungleichungen
xu
xo
(a)
x
xu,o
x
(b)
x
(c)
Abbildung 4.1: Die drei Fälle beim Lösen quadratischer Ungleichungen
(ii) Die zur quadratischen Ungleichung x2 − 11x + 24 > 0 gehörende Gleichung
x2 − 11x + 24 = 0 hat nach der pq-Formel die beiden Lösungen xu = 3 und
xo = 8. Dann ist (−∞, 3) ∪ (8, ∞) die Lösungsmenge der betrachteten quadratischen Ungleichung.
(iii) Die quadratische Ungleichung x2 + 1 ≤ 0 hat, wie man leicht erkennt, keine
Lösung. Ihre Lösungsmenge ist daher ∅.
4.2 Mehrdimensionale Gleichungs- und
Ungleichungssysteme
Auch Bestimmungsgleichungen- oder ungleichungen mit n = 2, 3, . . . Unbekannten sind Aussageformen, deren Lösungsmenge eine Menge von n-Tupeln oder nVektoren aus Elementen der Grundmenge ist. Ein Gleichungs- bzw. Ungleichungssystem besteht aus mehreren Bestimmungsgleichungen und -ungleichungen, die
dieselben Variablen enthalten. Oﬀenbar können auch Systeme auftreten, die sowohl Gleichungen als auch Ungleichungen enthalten. Die Menge der n-Tupel von
Zahlen, die gleichzeitig jede dieser Gleichungen und Ungleichungen erfüllen, heißt
auch Lösungsmenge L des Gleichungs- bzw. Ungleichungssystems. Diese können
wir für ein System von Gleichungen oder Ungleichungen A1 (x), . . . , Ak (x) mit
x ∈ Rn bestimmen, indem wir zunächst deren jeweilige Lösungsmenge Li mit
i = 1, . . . , k ermitteln. Es ist dann
L = L1 ∩ L2 ∩ . . . ∩ Lk .
Beispiel 4.5:
(i) Die Bestimmungsgleichung 4x1 + 2x2 = 6 mit Variablen x1 und x2 hat die
22
4 Gleichungen und Ungleichungen
Lösungsmenge {(x1 , x2 )|x1 ∈ R ∧ x2 = 3 − 2x1 }.
(ii) Die Lösungsmenge der Bestimmungsungleichung x1 x2 > 0 mit Variablen
x1 und x2 besteht aus den 2-Tupeln (x1 , x2 ), für die gilt, daß x1 und x2 beide
ungleich Null sind und das gleiche Vorzeichen haben.
(iii) Die beiden Gleichungen x1 + x2 = 0 und x1 − x2 = 0 bilden gemeinsam ein Gleichungssystem. Die Lösungsmenge der ersten Gleichung ist L1 =
{(x1 , x2 )|x1 ∈ R ∧ x2 = −x1 }, die Lösungsmenge der zweiten Gleichung ist
L2 = {(x1 , x2 )|x1 ∈ R ∧ x2 = x1 }. Folglich ist die Lösungsmenge des Gleichungssystems L = L1 ∩ L2 = {(0, 0)}.
4.3 Lineare Gleichungssysteme
Gleichungssysteme, deren Einzelgleichungen alle in jeder Unbekannten linear sind,
heißen lineare Gleichungssyteme. Sie kommen in den Wirtschaftswissenschaften
häuﬁg vor und sind wegen der Linearität leicht lösbar. Ein lineares Gleichungssystem hat entweder keine, genau eine oder unendlich viele Lösungen.
Beispiel 4.6:
(i) Um die Lösungsmenge des Gleichungssystems
2x + 3y = 14
und
G1 :=
4x − y = 0
G2 :=
mit den Variablen x und y zu bestimmen, kann man zunächst G2 nach y auﬂösen
und erhält dann y = 4x. Ersetzt man nun in G1 die Variable y durch 4x, ergibt
sich 2x + 3(4x) = 14. Die Lösung dieser Gleichung ist x = 1. Mit y = 4x folgt
y = 4. Die Lösungsmenge des betrachteten Gleichungssystems ist also {(1, 4)}.
(ii) Um die Lösungsmenge des Gleichungssystems
x + 2y = 3
und
G1 :=
2x + 4y − 4 = 0
G2 :=
zu bestimmen, kann man zunächst G1 nach x auﬂösen und erhält dann x = 3−2y.
Ersetzt man nun in G2 x durch 3 − 2y, folgt die Gleichung 2(3 − 2y) + 4y − 4 = 0,
die wegen 2 = 0 keine Lösung hat. Die Lösungsmenge dieses Gleichungssystems
ist also leer.
Ein eﬃzienteres Verfahren zur Bestimmung der Lösungsmenge linearer Gleichungssysteme, der sogenannte Gauss-Algorithmus, wird in der Vorlesung Mathematik II (Lineare Algebra) behandelt.
23
4 Gleichungen und Ungleichungen
x2
4
x2 ≤ 2 + x1
3
x1 < 3
2
1
−2
−1
0
1
2
3
−1
4
5
x1
x2 ≥ 1 − ½ x1
Abbildung 4.2: Lösungsmenge zu Beispiel 4.7 (i)
4.4 Zweidimensionale Ungleichungssysteme
Im Fall mit zwei Variablen ist oft eine graphische Analyse in der euklidischen
Ebene hilfreich. Es ist üblich, den Rand von Flächen für die Relationen ≤ und ≥
mit durchgezogenen und für < und > mit gestrichelten Linien darzustellen.
Beispiel 4.7:
(i) Um die Lösungsmenge des Ungleichungssystems
U1 : x2 ≤ 2 + x1
U2 : x2 ≥ 1 − 1/2x1
U3 : x1 < 3
mit den Variablen x1 und x2 graphisch zu bestimmen, zeichnen wir zunächst die
zu jeder Ungleichung gehörende Gerade in die euklidische Ebene ein (Abbildung
4.2). Die Lösungsmenge zu den jeweiligen Ungleichungen U1 , U2 oder U3 entspricht jeweils der Halbebene rechts unterhalb, rechts oberhalb bzw. links dieser
Geraden. Also ist die Lösungsmenge des Ungleichungssystems ist das grau markierte Dreieck ohne den rechten gestrichelten Rand (Abbildung 4.2).
(ii) Die Lösungsmenge des Ungleichungssystems
U1 : x21 + x22 ≤ 1
x2 ≥ −x1
U2 :
24
4 Gleichungen und Ungleichungen
x2
1
x1 2 + x2 2 ≤ 1
−1
0
−1
1
x1
x2 ≥ − x1
Abbildung 4.3: Lösungsmenge zu Beispiel 4.7 (ii)
mit Variablen x1 und x2 ist die grau dargestellte Schnittﬂäche der vom Einheitskreis2 umschlossenen Fläche, welche die Lösungsmenge von U1 darstellt, mit der
Halbebene rechts oberhalb der Geraden x2 = −x1 , welche die Lösungsmenge von
U2 darstellt (Abbildung 4.3).
2
Ein Kreis mit dem Radius r ∈ R um den Ursprung wird durch die Gleichung x21 + x22 = r2
beschrieben.
25
5 Folgen und Grenzwerte
In diesem Kapitel werden Folgen und der für die Analysis grundlegende Begriﬀ
des Grenzwerts behandelt.
5.1 Folgen
Deﬁnition 5.1 (Folge) Eine geordnete (unendliche) Liste von Zahlen
(a1 , a2 , . . . , an , . . .)
heißt Folge (engl.: sequence) und wird mit (an )n∈N bezeichnet. Dabei heißt n der
Index und die an heißen Glieder der Folge. Falls klar ist, daß n ∈ N der Index ist
wird meistens die verkürzte Schreibweise (an ) oder einfach an verwendet.
Der erste Folgenindex ist oft auch 0 oder jede andere beliebige natürliche Zahl
statt 1, also bedeutet oft auch (an ) = (a0 , a1 , . . . , an , . . .). Wir legen uns diesbezüglich nicht fest und verwenden verschiedene Notationen je nach Zusammenhang. Folgen können auf verschiedene Arten dargestellt werden. Falls für eine
Folge an ein Folgenglied an durch eine Funktionsgleichung nur in n angegeben
ist, heißt dies geschlossene Darstellung. Bei einer rekursiven Darstellung einer
Folge wird der Wert der ersten Folgenglieder a1 , . . . , ak angegeben und alle weiteren Folgenglieder n = k + 1, k + 2, . . . durch frühere Folgenglieder ausgedrückt.
Besonders einfach ist der Fall, bei dem für alle n ∈ N der Zusammenhang zwischen zwei aufeinander folgenden Folgengliedern an und an+1 über eine Funktionsgleichung beschrieben ist. Wenn klar ist, was mit damit gemeint ist, kann eine
Folge auch durch Angabe einiger Folgenglieder und . . . beschrieben werden. Die
rekursive Darstellung einer Folge ist oft unmittelbar aus der zu analysierenden
Fragestellung heraus gegeben, während die geschlossene Darstellung einfacher zu
analysieren ist. Daher ist es oﬀenbar hilfreich, die rekursive Darstellung der betrachteten Folge in eine geschlossene Darstellung zu überführen. Dieses gelingt
oftmals, indem man die ersten Folgenglieder notiert und darin eine strukturelle
Gesetzmäßigkeit identiﬁziert, aus der sich eine geschlossene Darstellung der Folge ergibt. Der Beweis, daß die so gefundene geschlossene Darstellung tatsächlich
die selbe Folge beschreibt wie die rekursive Darstellung, ist damit noch nicht
erbracht, jedoch häuﬁg mit Hilfe eines Induktionsbeweises leicht zu führen.
26
5 Folgen und Grenzwerte
Beispiel 5.1:
(i) Eine rekursive Darstellung der Folge an = (0, 0, 0, . . .) ist a1 = 0, an+1 = an .
Die geschlossene Darstellung dieser Folge ist an = 0.
(ii) Die rekursive Darstellung der Folge an = (1, 3, 5, . . .) ist a1 = 1, an+1 =
an + 2. Die zugehörige geschlossene Darstellung ist an = 2n − 1.
(iii) Bei der Folge (nt)t∈N steht n nicht für den Index der Folge sondern als
Symbol für die Folgenglieder. Für eine eindeutige Bedeutung wäre in diesem Fall
die weniger genaue Notation (nt) nicht ausreichend. Die ersten fünf Glieder dieser
Folge sind n, 2n, 3n, 4n und 5n.
(iv) Die Folge an = (1, 2, 3, 5, 8, 13, 21, . . .) besitzt die rekursive Darstellung a0 =
1, a1 = 2, an+2 = an + an+1 .
(v) Sei (Kt ) eine Kapitalanlage mit Startkapital K1 = K, die mit einem Zinssatz
i pro Periode verzinst wird. Die Folge (Kt )t∈N beschreibt die Wertentwicklung der
Kapitalanlage im Zeitablauf. Falls keine Ein- oder Auszahlungen stattﬁnden, gilt
zwischen Kt in Periode t ∈ N und Kt+1 in der Folgeperiode t + 1 die rekursive
Beziehung
Kt+1 = Kt (1 + i).
Aus den ersten vier Gliedern dieser Folge,
K1 = K,
K2 = K(1 + i),
K3 = K(1 + i)2 und
K4 = K(1 + i)3
ist leicht erkennbar, daß die geschlossene Darstellung dieser Folge gegeben ist
durch
Kt = K(1 + i)t−1 .
Existiert für eine Folge an ein reelle Zahl c ∈ R, so daß für alle n ∈ N die
Beziehung
an+1 − an = c
gilt, so heißt sie arithmetische Folge. Falls dagegen für eine Folge an ein Konstante
c ∈ R existiert, so daß für alle n ∈ N die Beziehung
an+1
=c
an
gilt, so heißt sie geometrische Folge. Die geschlossenen Darstellungen der arithmetischen Folge und der geometrischen Folge (gn ) sind an ist an = c(n − 1) + d
und gn = dcn−1 mit c, d ∈ R. Im vorhergehenden Beispiel sind (i),(ii) und (iii)
arithmetische Folgen, (v) ist geometrische Folge und (iv) keines von beiden.
27
5 Folgen und Grenzwerte
Eine Folge an heißt monoton steigend bzw. streng monoton steigend, (engl.: strictly increasing), wenn für alle n ∈ N gilt an+1 ≥ an (bzw.> für ’streng’). Entsprechend wird fallende Monotonie deﬁniert. Monoton ist eine Folge also genau dann,
wenn die Veränderung zwischen zwei aufeinander folgenden Gliedern immer das
gleiche Vorzeichen hat bzw. in die gleiche Richtung geht. Die Folge an heißt nach
unten bzw. nach oben beschränkt (engl.: bounded from below, above), wenn eine
Konstante c ∈ R existiert, so daß für alle n ∈ N gilt an ≥ c (bzw. ≤). Sie heißt
beschränkt (engl.: bounded), wenn ein c ∈ R existiert, so daß für alle n ∈ N
die Beziehung |an | ≤ c gilt. Die Konstante c wird untere, obere bzw. einfach nur
Schranke (engl.: lower bound, upper bound, bound) genannt. Eine Folge an heißt
alternierend (engl.: alternating), wenn für alle n ∈ N gilt:
an · an+1 < 0,
also das Vorzeichen zwischen zwei aufeinander folgenden Folgengliedern alterniert, d.h. sich jeweils abwechselt.
Beispiel 5.2: (i) Die Folge n + n1 ist streng monoton steigend.
(ii) Die Folge (max{4 − n, 0}), deren erste fünf Glieder 3, 2, 1, 0 und 0 sind, ist
monoton aber nicht streng monoton fallend.1
(iii) Die Folge ((−1)n ) ist alternierend und daher weder monoton steigend noch
monoton fallend.
(iv) Für die Folge an mit an = 3 + 7n existiert mit c = 3 wegen an ≥ c für
alle n ∈ N oﬀensichtlich eine untere Schranke. Die Folge ist somit nach unten
beschränkt.
(v) Die Folge n1 ist wegen 0 ≤ n1 ≤ 1 für alle n ∈ N beschränkt.
(vi) Die Folge ((−2)n ) ist alternierend und weder nach unten noch nach oben
beschränkt, da ihre Glieder beliebig groß und beliebig klein werden.
5.2 Konvergenz und Grenzwert
Von besonderem Interesse im Zusammenhang mit Folgen an ist ihr Verhalten für
sehr große n. Insbesondere gilt unser Interesse dem Fall, daß eine
Zahl existiert,
1
der sich die Folgenglieder beliebig gut annähern wie die Folge n der Zahl 0. Die
Begriﬀe Konvergenz und Grenzwert präzisieren dieses Verhalten.
1
Dabei nimmt max{x, y} für x ≥ y den Wert x und für x < y den Wert y an. Es ist also
beispielsweise max{3, 4} = 4.
28
5 Folgen und Grenzwerte
Deﬁnition 5.2 (Konvergenz und Grenzwert) Eine Folge (an )n∈N heißt konvergent (engl.: convergent) genau dann, wenn es ein a ∈ R gibt, so daß für alle
ε > 0 ein n(ε) > 0 mit
|an − a| ≤ ε
für alle n ≥ n(ε) existiert. Man schreibt dann
lim an = a
n→∞
oder an −→ a
und sagt, an konvergiere gegen den Grenzwert (engl.: limit) a.
Zeichnet man ein Intervall mit Radius ε um a, so müssen alle Folgenglieder außer
den ersten n(ε) − 1 in diesem Intervall liegen, gleichgültig wie klein der Radius
ε um a gewählt wurde. Mit anderen Worten, eine Folge an konvergiert genau
dann gegen a, wenn der Abstand zwischen den Folgengliedern und a ab einem
bestimmten n(ε) jedes noch so kleine vorgegebene ε > 0 nicht überschreitet.
Beispiel 5.3:
(i) Es gilt n1 → 0, da für jedes vorgegebene ε > 0 die gesuchte Grenze durch
n(ε) = 1ε gegeben ist, denn für alle n ≥ n(ε) gilt
1
− 0 = 1 ≤ 1 = ε
1
n
n
ε
.
(ii) Die konstante Folge (c) mit c ∈ R konvergiert oﬀenbar gegen c.
(iii) Die Folgen ((−1)n ) und (2n ) konvergieren nicht.
Satz 5.1 Jede Folge besitzt höchstens einen Grenzwert.
Beweis. Indirekt: Angenommen, eine Folge an habe mehr als einen Grenzwert
also Grenzwerte a und a mit a = a . Sei
1
ε = |a − a|
4
(vgl. Abbildung 5.1). Dann existiert wegen an −→ a ein n(ε) mit |an − a| ≤
ε für alle n ≥ n(ε). Außerdem existiert wegen an −→ a auch ein n (ε) mit
|an − a | ≤ ε für alle n ≥ n (ε). Sei nun m = max{n(ε), n (ε)}. Dann ist oﬀenbar
|am −a|+|am −a | < 2ε. Die sogenannte Dreiecksungleichung sagt aus, daß für alle
x, y ∈ R gilt |x+y| ≤ |x|+|y|. Daher ist |am −a|+|am −a | = |am −a|+|a −am | ≥
|am − a + a − am | = |a − a|, so daß insgesamt folgt:
|a − a| ≤ 2ε
29
5 Folgen und Grenzwerte
2ε
2ε
a
a’
|a’ − a| = 4εε
Abbildung 5.1: Veranschaulichung des Beweises von Satz 5.1
Dieses widerspricht aber ε = 14 |a − a|. Satz 5.1 ist damit bewiesen.
Während mit dem letzten Satz gezeigt wurde, daß eine Folge höchstens einen
Grenzwert besitzt, werden in den folgenden beiden Sätzen ohne Beweis notwendige bzw. notwendige und hinreichende Bedingungen genannt, unter denen eine
Folge konvergiert und also überhaupt einen Grenzwert hat.
Satz 5.2 Für jede Folge an gilt:
an konvergiert ⇒ an ist beschränkt.
Satz 5.3 Für jede monoton steigende Folge an gilt:
an konvergiert ⇔ an ist nach oben beschränkt.
Für jede monoton fallende Folge bn gilt:
bn konvergiert ⇔ bn ist nach unten beschränkt.
Beispiel 5.4:
1
1
(i) Die Folge an mit an = n1+n
2 en + 1 = n2 en + nen + 1 fällt oﬀenbar monoton. Sie
ist wegen an ≥ 1 nach unten beschränkt und daher wegen Satz 5.3 konvergent.
(ii) Die Folge (n) steigt monoton und ist nicht nach oben beschränkt. Nach Satz
5.3 konvergiert sie also nicht.
Bei einer konvergenten Folge richtet sich das Interesse naturgemäß meistens auf
ihren Grenzwert. Besonders für komplizierte Folgen kann es aber sehr aufwendig
sein, ihre Konvergenz allein unter Verwendung von Deﬁnition 5.2 zu untersuchen.
Der folgende Satz macht Aussagen über die Konvergenz und den Grenzwert von
Folgen, die mittels der vier Grundrechenarten aus anderen konvergenten Folgen
zusammengesetzt sind.
30
5 Folgen und Grenzwerte
Satz 5.4 Seien an und bn zwei Folgen mit an −→ a und bn −→ b. Dann gilt
i) an + bn −→ a + b,
ii) an − bn −→ a − b,
iii) an · bn −→ a · b und
iv)
an
bn
−→ ab , für b = 0.
Nachfolgend ist nur der Beweis der Teilaussage i) von Satz 5.4 angegeben. Die
Beweise der anderen Teilaussagen entsprechen diesem.
Beweis. Betrachte ein vorgegebenes ε > 0. Wegen an −→ a existiert ein na (ε)
mit
ε
|an − a| <
2
für alle n ≥ na (ε). Analog existiert wegen bn −→ b ein nb (ε) mit
|bn − b| <
ε
2
für alle n ≥ nb (ε). Sei n(ε) = max {na (ε), nb (ε)}. Dann gilt für alle n ≥ n(ε)
|(an + bn ) − (a + b)| = |(an − a) + (bn − b)|
≤ |(an − a)| + |(bn − b)| (Dreiecksungleichung)
< 2ε + 2ε
= ε.
Die Konvergenz von (an + bn ) gegen a + b ist damit bewiesen.
Beispiel 5.5:
3
2 +1
(i) Die Folge an mit an = 2n3n−n
konvergiert gemäß Satz 5.4 gegen 23 , wie
3 +n
sich aus der Darstellung der Folgenglieder in der Form
→0
→0
1
1
2 −
+ 3
n
n
an =
1
3 + 2
n
→2
→3
→0
und den
1 angegebenen Grenzwerten der konvergenten Einzelfolgen (2),
und n2 ergibt.
31
1 1 , n3 ,(3)
n
5 Folgen und Grenzwerte
2
(ii) Die Folge an mit an = 6nn5−2 konvergiert gemäß Satz 5.4 gegen 0, wie aus
der Darstellung der Folgenglieder in der Form
→0
→0
6
2
− 5
3
n
an = n
1
→1
zu sehen ist.
Alternativ zur Dezimalschreibweise lassen sich reelle Zahlen mit Hilfe von Folgen und Konvergenz deﬁnieren indem man verschiedene konvergente Folgen von
rationalen Zahlen miteinander identiﬁziert und einer reellen Zahl zuordnet, falls
ihre Diﬀerenz gegen 0 konvergiert.2 Mit anderen Worten, zwei konvergente Folgen an und bn heißen äquivalent, falls an − bn −→ 0. Alle zueinander äquivalenten
konvergenten Folgen bilden eine Äquivalenzklasse. Die Menge aller konvergenten
Folgen rationaler Zahlen zerfällt also in – d.h. ist disjunkte Vereinigung von –
Äquivalenzklassen von konvergenten Folgen, wobei jeweils zwei Repräsentanten
der gleichen Äquivalenzklasse gegen den gleichen Grenzwert streben. Die reellen
Zahlen sind also die Menge der Äquivalenzklassen konvergenter Folgen rationaler
Zahlen. Die im Kapitel Zahlen eingeführte Dezimalschreibweise mit Zehnerpotenzen ist jeweils ein Repräsentant einer solchen Äquivalenzklasse, also nur eine
von vielen Möglichkeiten, reelle Zahlen mit Hilfe von rationalen Zahlen zu approximieren. Satz 5.4 zeigt, daß die Rechenregeln der rationalen Zahlen sich auf die
reellen Zahlen übertragen.
5.3 Grenzwerte im Unendlichen
Folgen, die jede beliebig große Grenze m ab einem gewissen n(m) ∈ N nicht
mehr unterschreiten oder aber jede beliebig kleine Grenze m ab einem gewissen
n(m) ∈ N nicht mehr überschreiten streben oﬀenbar gegen ∞ bzw. −∞. Da
dieses keine reellen Zahlen sind, nennen wir sie uneigentliche Grenzwerte.
Deﬁnition 5.3 (Uneigentlicher Grenzwert) Eine Folge an hat den uneigentlichen Grenzwert ∞, wenn für jedes m ∈ R ein n(m) mit
an ≥ m
für alle n ≥ n(m) existiert. Man schreibt limn→∞ an = ∞ oder an −→ ∞.
2
Um reelle Zahlen zu deﬁnieren, darf deren Deﬁnition nicht schon reelle Zahlen verwenden.
Unsere bisherige Deﬁnition von Konvergenz beruht aber auf einem reellen Grenzwert. In
diesem Zusammenhang verwendet man daher eine alternative Deﬁnition von Konvergenz,
die sogenannte Cauchy-Konvergenz, bei der eine Folge an konvergiert falls für jedes ε > 0
ein n(ε) existiert, so daß für alle Folgenglieder an , am mit n, m ≥ n(ε) gilt |an − am | ≤ ε.
32
5 Folgen und Grenzwerte
Der uneigentliche Grenzwert −∞ wird entsprechend deﬁniert.
Beispiel 5.6:
(i) Die Folge (n) hat den uneigentlichen Grenzwert ∞.
(ii) Die Folge 0, 2, 0, 4, 0, 6, 0, . . ., konvergiert nicht, auch nicht gegen einen uneigentlichen Grenzwert.
Der folgende Satz zeigt, daß mit gewissen Einschränkungen die Rechenregeln der
reellen Zahlen auf die uneigentlichen Zahlen ∞ bzw. −∞ erweiterbar sind.
Satz 5.5 Seien an und bn Folgen. Dann gilt:
i) an −→ ∞ ⇒ −an −→ −∞
ii) an −→ ∞ ∧ bn nach unten beschränkt ⇒ an + bn −→ ∞
iii) an −→ −∞ ∧ bn nach oben beschränkt ⇒ an + bn −→ −∞
iv) an −→ ∞ (−∞) ∧ bn mit unterer Schranke s > 0 ⇒ an bn −→ ∞ (−∞)
v) an −→ ∞ (−∞) ∧ bn mit oberer Schranke s < 0 ⇒ an bn −→ −∞ (∞)
vi) an −→ 0 ∧ ∀n ∈ N an > (<) 0 ⇒
1
an
−→ ∞ (−∞)
vii) (an −→ ∞ ∨ an −→ −∞) ∧ bn beschränkt ⇒
bn
an
−→ 0
viii) an −→ ∞ ∧ bn beschränkt ∧ ∀n ∈ N bn > (<) 0 ⇒
an
bn
ix) an −→ −∞ ∧ bn beschränkt ∧ ∀n ∈ N bn > (<) 0 ⇒
−→ ∞ (−∞)
an
bn
−→ −∞ (∞)
Die Aussage an −→ ∞ ⇒ −an −→ −∞ kann man verkürzt schreiben als
(−1)∞ = −∞.
Beispiel
(i) Die
∞ strebt
(ii) Die
5.7:
Folge (n(sin n + 2)) strebt gemäß Satz 5.5 iv) gegen ∞, da (n) gegen
und (sin
n+
2) etwa durch 1 > 0 nach unten beschränkt ist.
(−1)n
Folge
konvergiert gemäß Satz 5.5 vii) gegen 0.
n
Den Abschluß dieses Abschnitts bildet Satz 5.6, der das Konvergenzverhalten
einiger häuﬁg auftretender Folgen bzw. Klassen von Folgen zusammenfaßt.
Satz 5.6 Es gilt:
33
5 Folgen und Grenzwerte
i) nr −→ 0 für r < 0 und r ∈ Q
ii) nr −→ ∞ für r > 0 und r ∈ Q
iii) nr q n −→ 0 für r ∈ Q und |q| < 1
iv) nr q n −→ ∞ für r ∈ Q und q > 1
√
v) n c −→ 1 mit c > 0
√
vi) n n −→ 1
n
vii) 1 + n1 −→ e (Eulersche Zahl)
5.4 Reihen
Eine spezielle Klasse von Folgen sind die sogenannten Reihen. Ihre Glieder werden
durch die Summen der Glieder einer anderen Folge gebildet.
Deﬁnition 5.4 (Reihe) Sei an eine Folge. Dann heißt die Folge (sk )k∈N mit
sk =
k
an
n=1
für alle k ∈ N zur Folge an gehörige Reihe (engl.: series). Ihre Glieder sk =
k
n=1 an bezeichnet man auch als Partialsummen.
Natürlich gelten alle Begriﬀe und Sätze
∞ aus den vorangegangenen Abschnitten
auch für Reihen.
eine Reihe n=1 an konvergent, wenn die Folge der Par So heißt
k
konvergiert. Der Grenzwert dieser Folge und häuﬁg
tialsummen
n=1 an
k∈N
auch die Reihe selbst wird mit ∞
n=1 an bezeichnet. Eine wichtige notwendige
Bedingung für die Konvergenz einer Reihe gibt der folgende Satz.
Satz 5.7 Konvergiert die Reihe
∞
n=1 an ,
dann konvergiert die Folge an gegen 0.
Er ist insbesondere dafür geeignet, die Nicht-Konvergenz oder Divergenz einer
Reihe zu zeigen. Der Begriﬀ Divergenz wird in der Literatur uneinheitlich benutzt,
manchmal nur für Konvergenz gegen ∞ oder −∞, manchmal aber allgemeiner für
Nicht-Konvergenz gegen eine reelle Zahl. Wir werden ihn ab hier nur in letzterem
Sinne benutzen, also als Synonym für Nicht-Konvergenz gegen eine reelle Zahl.
34
5 Folgen und Grenzwerte
Beispiel 5.8: 1
(i) Die Reihe ∞
n=1 (1 + n ) divergiert gemäß Satz 5.7.
∞
n
(ii) Die Reihe
n=1 (−1) , deren erste vier Partialsummen −1, 0, −1 und 0
sind, divergiert. ∞
1
(iii) Die Reihe
n=1 2n−1 konvergiert gegen 2, wie die Beobachtung deutlich
1
macht, daß für alle k ∈ N mit der Addition von 2k−1
der Abstand zwischen der
k−1 1
k − 1-ten Partialsumme n=1 2n−1 und 2 halbiert wird.
Wie bereits erwähnt, sind alle Sätze über Folgen auch für Reihen anwendbar,
da Reihen spezielle Folgen sind. Der folgende Satz, der bei der Bestimmung des
Grenzwerts von Reihen hilfreich ist, die linear aus anderen konvergenten Reihen
gebildet werden, folgt aus Satz 5.4.
∞
a
und
Satz 5.8 Seien ∞
n
n=1
n=1
bn zwei konvergente Reihen und α, β ∈ R.
Dann konvergiert auch die Reihe ∞
n=1 (αan + βbn ) und es gilt:
∞
(αan + βbn ) = α
n=1
∞
an + β
n=1
∞
bn .
n=1
In den Wirtschaftswissenschaften treten häuﬁg geometrische Reihen auf, welche
durch die Partialsummen der Glieder geometrischer Folgen deﬁniert sind.
Deﬁnition
5.5 (Geometrische Reihe) Sei an eine geometrische Folge. Dann
a
wird ∞
n=1 n geometrische Reihe (engl.: geometric series) genannt.
n−1
mit c, d ∈ R \ {0}
Die geometrische Reihe kann stets in der Form ∞
n=1 dc
geschrieben werden. Ihr Konvergenzverhalten in Abhängigkeit von c und d beschreibt der folgende Satz.
Satz 5.9 Die geometrische Reihe
∞
dcn−1
n=1
mit c, d ∈ R \ {0} konvergiert für |c| < 1 gegen
d
.
1−c
Für |c| ≥ 1 konvergiert sie nicht gegen eine reelle Zahl.
35
5 Folgen und Grenzwerte
Beweis. Sei sk = kn=1 dcn−1 die k-te Partialsumme der geometrischen Reihe
∞
n−1
. Dann gilt für alle k ∈ N
n=1 dc
sk − csk =
k
dc
n−1
−c
n=1
=
k
dcn−1
n=1
k
dcn−1 −
n=1
k+1
dcn−1
n=2
= d − dc .
k
Folglich hat die Folge (sk )k∈N die geschlossene Darstellung
sk =
Aus dieser folgt, daß
divergiert.
∞
n=1
d − dck
.
1−c
dcn−1 für |c| < 1 gegen
d
1−c
konvergiert und für |c| ≥ 1
Das nachfolgende Beispiel ist eine Anwendung von Satz 5.9 auf in der Praxis
häuﬁg auftretende Fälle, in denen eine Umindizierung der zu untersuchenden
Reihe hilfreich ist.
Beispiel 5.9: ∞
1 n−1
(i)
konvergiert gegen 1−2 1 = 4.
n=1 2 2
2
∞ 8 n−1
divergiert.
(ii)
7 1 n−1
n=1
∞
1 n
= ∞
konvergiert gegen 1−4 1 = 6.
(iii)
n=0 4 3
n=1 4 3
3
∞ 2 n−1 2 ∞ 2 n−1
2 1
=
konvergiert
gegen
= 23 .
(iv)
n=2 5
n=1 5
5
5 1− 2
5
Als Anwendung geometrischer Reihen in den Wirtschaftswissenschaften betrachten wir sogenannte Multiplikatoreﬀekte in einem stilisierten Modell zu den Möglichkeiten der Konjunkturbelebung durch staatliche Ausgabenprogramme.
Beispiel 5.10: Betrachtet wird eine Volkswirtschaft, in der das aggregierte Konsumverhalten aller Haushalte in einer Periode t > 1 durch die Gleichung
Ct = c(1 − τ )Yt−1
mit Ct als Konsumausgaben in Periode t, mit c ∈ (0, 1) als Konsumquote, mit
τ ∈ (0, 1) als Einkommenssteuersatz und Yt−1 als Gesamteinkommen vor Steuern
aller Haushalte in Periode t − 1 beschrieben sei. Es werde also angenommen,
die Haushalte würden in jeder Periode einen Anteil c ihres in der Vorperiode
36
5 Folgen und Grenzwerte
erzielten Einkommens nach Steuern konsumieren und den Rest sparen. Dann sind
∆Ct = Ct − Ct−1 die Veränderung der Konsumausgaben und ∆Yt = Yt − Yt−1
die Veränderung des Einkommens zwischen zwei aufeinander folgenden Perioden.
Also gilt
∆Ct = c(1 − τ )∆Yt−1 .
Zur Vereinfachung nehmen wir an, daß zusätzliches Einkommen der Haushalte
nur durch zusätzlichen Konsum erzeugt wird, also keine anderen einkommenswirksamen Eﬀekte auftreten, etwa im Unternehmenssektor oder im Ausland.
Dann ist ∆Yt = ∆Ct und es folgt insgesamt
∆Yt = c(1 − τ )∆Yt−1 .
Angenommen, der Staat interveniere in diese Volkswirtschaft, indem er in Periode
1 einmalig den Betrag G etwa für Arbeitsbeschaﬀungsmaßnahmen einbringt, also
∆Y1 = G. Dann beschreibt die Folge (∆Yt )t∈N mit
∆Y1 = G
∆Y2 = c(1 − τ )∆Y1
∆Y3 = c(1 − τ )∆Y2
..
.
= c(1 − τ )G
= (c(1 − τ ))2 G
∆Yt = c(1 − τ )∆Yt−1 = (c(1 − τ ))t−1 G
die Einzeleﬀekte dieser Intervention in jeder Periode t und die Reihe
∞
t=1
∆Yt =
∞
(c(1 − τ ))t−1 G
t=1
ihren Gesamteﬀekt ∆Y . Da c ∈ (0, 1) und τ ∈ (0, 1) ist auch 0 < c(1 − τ ) < 1.
Also konvergiert die betrachtete Reihe gemäß Satz 5.9 gegen
∆Y = G
1
.
1 − c(1 − τ )
Daraus koennte man den Schluss ziehen, daß die Einkommenswirkung einer solchen konjunkturbelebenden Maßnahme des Staates auf dem Wege der Ausgabenpolitik aufgrund des sogenannten Multiplikatoreﬀekts die Kosten dieser Staatsintervention wegen
1
>1
1 − c(1 − τ )
übersteigt. Außerdem folgt aus dieser Argumentation, daß die Wirkung einer
solchen Maßnahme umso größer ausfällt, je größer die Konsumquote c und je
kleiner der Einkommenssteuersatz τ ist.
37
5 Folgen und Grenzwerte
Im abschließende Beispiel studieren wir eine einfachen Variante eines Gedankenexperiments, des sogenannten Cobb-Web-Modells, welches dynamische Anpassungsprozesse in Märkten beschreibt, deren Angebot mit Zeitverzögerung auf
Preisänderungen reagiert.
Beispiel 5.11: Betrachtet werde ein Markt, dessen Angebot S und Nachfrage D
linear im Preis p seien, also
S = a + bp
mit a, b ∈ R und b > 0 und
D = c − dp
mit c, d ∈ R und d > 0. Sei dieser Markt zunächst ein sogenannter vollkommener Markt, der unter anderem durch eine unendlich hohe Reaktionsgeschwindigkeit aller Marktteilnehmer bezüglich Änderungen von Marktparametern charakterisiert ist. Unter diesen Voraussetzungen werden Angebot und Nachfrage über
Preisanpassungen ohne Zeitverzögerung ausgeglichen. Also bildet sich unmittelbar ein Preis p̄, für den die gehandelte Menge x̄ gleich der angebotenen gleich der
nachgefragten Menge ist, also
x̄ = S = D
(vgl. Abbildung 5.2 (a)). Dann ist
p̄ =
c−a
b+d
und x̄ =
ad + bc
.
b+d
Die so deﬁnierte Preis-Mengen-Kombination (p̄, x̄) wird als Marktgleichgewicht
bezeichnet, da zu diesem Preis kein Marktteilnehmer einen Anreiz für Verhaltensänderungen hat.
Wir nehmen nun an, die Angebotsseite reagiere etwa wegen zeitlich ausgedehnter
Produktionsprozesse mit Verzögerung auf Preisänderungen. Seien St , Dt und pt
Angebot, Nachfrage und Preis in Periode t ∈ N. Es sei
St = a + bpt−1
und Dt = c − dpt ,
das Angebot richte sich also nach dem Marktpreis der Vorperiode, während die
Nachfrage wie zuvor vom gegenwärtigen Preis abhänge. Der Marktmechanismus
bringe in jeder Periode t ∈ N Angebot und Nachfrage über den Preis pt in Einklang, es gelte also also stets
xt = St = Dt .
Dann gilt für die Preise zweier aufeinander folgender Perioden
pt =
c−a b
− pt−1 = α − βpt−1 ,
d
d
38
5 Folgen und Grenzwerte
p
pt
S = a + bp
p0
p2
p
p1
D = c − dp
0
St = a + bpt−11
x
Dt = c − dpt
0
x
x2
(a)
x3 x1
xt
(b)
pt
pt
St = a + bpt−11
p2
St = a + bpt−11
p0 = p2
p0
p1
p1
Dt = c − dpt
Dt = c − dpt
0
x2
x1
x3
0
xt
(c)
x2
x1 = x3
(d)
Abbildung 5.2: Das Cobb-Web-Modell
39
xt
5 Folgen und Grenzwerte
wobei α = c−a
und β =
d
t = 0, dann gilt
b
d
sind. Sei p0 der Marktpreis in der Ausgangsperiode
p1 = α − βp0
p2 = α − βp1 = α − αβ + β 2 p0
p3 = α − βp2 = α − αβ + αβ 2 − β 3 p0
..
.
pt = α − βpt−1 = α ti=1 (−β)i−1 + (−β)t p0 .
Der Preispfad im Zeitablauf wird also durch die Folge
t
(pt )t∈N = α
(−β)i−1 + (−β)t p0
i=1
t∈N
beschrieben. Sie konvergiert gemäß Satz 5.9 für β < 1 gegen c−a
= p̄ (vgl. Abbilb+d
dung 5.2 (b)) und divergiert für β ≥ 1 (vgl. Abbildungen 5.2 (c) und (d)). Die
Folge
(xt )t∈N = (c − dpt )t∈N ,
die den zugehörigen Mengenpfad im Zeitablauf beschreibt, konvergiert bzw. divergiert unter der selben Bedingung.
Die betrachtete Variante des Cobb-Web-Gedankenexperimentes erlaubt also die
Beobachtung, daß ein Markt, in dem das Angebot mit zeitlicher Verzögerung auf
den Preis reagiert, unter sonst gleichen Bedingungen sich langfristig genau dann
auf dasselbe Gleichgewicht zu bewegt wie ein Markt mit unendlicher hoher Reaktionsgeschwindigkeit aller Marktteilnehmer, wenn β = db < 1 ist. Das bedeutet,
daß die Steigung b der Angebotsfunktion dem Betrage nach kleiner als die Steigung d der Nachfragefunktion sein muß. Anderenfalls erwarten wir nicht, daß sich
langfristig ein gleichgewichtiger Zustand einstellt.
5.5 Mehrdimensionale Folgen
Im vorhergehenden Cobb-Web-Gedankenexperiment-Beispiel haben wir zwei Folgen, nämlich den Preis- und den Mengenpfad gleichzeitig betrachtet. Die Folge
xt , pt kann daher als zweidimensionale Folge von Punkten oder Vektoren in R2
interpretiert werden. Eine naheliegende Verallgemeinerung von Deﬁnition 5.1 auf
Folgen in Rk mit k ∈ N ist die folgende Deﬁnition.
Deﬁnition 5.6 (Mehrdimensionale Folge) Eine geordnete unendliche Liste
von reellen k-Vektoren
(a1 , a2 , . . . , an , . . .)
heißt mehrdimensionale (engl.: multi-dimensional) Folge und wird mit (an )n∈N
bezeichnet. Die k-Vektoren an = (an1 , . . . , ank ) ∈ Rk heißen Glieder der Folge.
40
5 Folgen und Grenzwerte
Eine mehrdimensionale Folge in Rk kann also als eine Zuordnung interpretiert
werden, die jedem n ∈ N einen Vektor aus Rk zuordnet. Wir schreiben den
Folgenindex hier als Oberindex um den Unterindex für die Indizierung der Komponenten freizugeben.3
2n
Beispiel 5.12:
ist eine Folge in R2 . Ihre ersten drei Glieder sind
n + n1
6
2
4
und
.
,
3 + 13
2
2 + 12
Auch für mehrdimensionale Folgen (an ) ist ihr Verhalten für große n von Interesse.
Um die in Deﬁnition 5.2 eingeführten Begriﬀe der Konvergenz und des Grenzwerts
auf Vektoren übertragen zu können, brauchen wir zunächst ein Maß für den
Abstand zweier Vektoren x und y mit x, y ∈ Rk . Ein solches Maß für den Abstand
ist die Euklidische Metrik.4 Sie ist für alle k ∈ N und alle x, y ∈ Rk deﬁniert als
k
||x − y|| = (xi − yi )2
i=1
und somit wegen (x − y)2 = |x − y| für alle x, y ∈ R eine Verallgemeinerung
des eindimensionalen Abstandes. Mit der Euklidischen Metrik lautet die Verallgemeinerung von Deﬁnition 5.2 folgendermaßen.
Deﬁnition 5.7 (Konvergenz und Grenzwert) Eine Folge an in Rk mit k ∈
N heißt konvergent, wenn ein a ∈ Rk existiert, so daß für alle ε > 0 ein n(ε) ∈ N
existiert mit
||an − a|| < ε
für alle n ≥ n(ε). Man schreibt
lim an = a
n→∞
oder an −→ a.
Der Vektor a heißt Grenzwert.
Der nachfolgende, ohne Beweis angegebene Satz5 führt die Konvergenz einer
mehrdimensionalen Folge bezüglich der Euklidischen Metrik auf die Konvergenz
mehrerer eindimensionaler Folgen im Sinne der Deﬁnition 5.2 zurück. Er läßt
daher die Verwendung aller bisher vorgestellten Sätze für die Untersuchung der
Konvergenz auch für mehrdimensionale Folgen zu.
3
Es gibt verschiedene Möglichkeiten der Mehrfachindizierung.
Die Euklidische Metrik ist nur eines unter vielen Abstandsmaßen. Ein anderes ist die sogenannte Manhatten-Metrik, bei der die einfache Summe der Abstände in allen Komponenten
gebildet wird. Sie heißt Manhatten-Metrik, da man wie in Manhatten nicht diagonal geht,
sondern nur entlang der Koordinatenachsen.
5
Der an einem Beweis interessierte Leser sei auf Blume und Simon (1994, S. 262) verwiesen.
4
41
5 Folgen und Grenzwerte
Satz 5.10 Eine Folge (an ) in Rk mit k ∈ N konvergiert genau dann gegen a ∈ Rk ,
wenn (ani )n∈N gegen ai ∈ R konvergiert für alle i ∈ {1, . . . , k}.
Beispiel 5.13: 2n
divergiert gemäß Satz 5.10 wegen 2n −→ ∞.
(i) Die Folge
1
n n
1+n1
e
(ii) Die Folge
konvergiert gemäß Satz 5.10 gegen
.
1 n
0
2
42
6 Funktionen einer Variablen
Die Wirtschaftswissenschaften sind voller Funktionen, z.B. Zielfunktionen, Nutzenfunktionen, Reaktionsfunktionen, Angebots- und Nachfragefunktionen und
vielen anderen. Da Funktionen grundlegend für alles Weitere sind, studieren wir
zunächst deren einfachste Art, Funktionen einer Variablen. Wirtschaftswissenschaftler benutzen diese einfachsten Funktionen alltäglich. Zusätzlich ist deren
gründliches Verständnis eine hilfreiche Vorübung für die ebenfalls alltäglichen,
aber allgemeineren und also abstrakteren Funktionen mehrerer Variablen und
die daraus abgeleiteten Konzepte.
6.1 Grundbegriﬀe
Deﬁnition 6.1 (Funktion) Seien X und Y zwei beliebige nichtleere Mengen.
Eine Funktion ist eine Vorschrift f , die jedem x ∈ X genau ein y ∈ Y zuordnet.
Wir schreiben f : X → Y oder
f
x −→ y
oder y = f (x). Die Menge Def(f ) = {x ∈ X|∃y ∈ Y, y = f (x)} heißt Deﬁnitionsbereich (engl.: domain), die Menge Wert(f ) = f (X) = {y ∈ Y |∃x ∈
X, y = f (x)} ⊆ Y Wertebereich (engl.: range). Die Variable x wird auch Argument (engl.: argument) genannt und y Funktionswert (engl.: value). Falls X ⊆ R
und Y ⊆ R Teilmengen der reellen Zahlen sind, heißt f reellwertige Funktion
einer Variablen.
Die eine Variable und die Reellwertigkeit in der Deﬁnition beziehe sich also in
diesem Kapitel sowohl auf den Deﬁnitionsbereich als auch auf den Wertebereich.
Für eine Funktion f : R → R heißen alle x ∈ R mit f (x) = 0 Nullstellen von
f und f (0) y-Achsenabschnitt oder einfach Achsenabschnitt. Warum kann eine
Funktion keine bzw. mehr als eine Nullstelle haben aber niemals mehr als einen
Achsenabschnitt?
Beispiel 6.1:
(i) Die Funktion g : [−1, 1] → R mit g(x) = 5x + 1 hat den Deﬁnitionsbereich
[−1, 1], den Wertebereich [−4, 6], die Nullstelle − 15 und den Achsenabschnitt 1.
43
6 Funktionen einer Variablen
Ihr Funktionswert vom Argument x = 12 ist g( 12 ) = 72 .
(ii) Es gibt keine Funktion, die jedem deutschen Staatsbürger die Postleitzahl
seines ersten Wohnsitzes zuordnet, da nicht jeder deutsche Staatsbürger einen
ersten Wohnsitz hat.
(iii) Eine Vorschrift, die jedem AOL-Nutzer eine Email-Adresse zuordnet, unter
welcher dieser Nutzer erreichbar ist, ist keine Funktion, da ein AOL-Nutzer mehrere Email-Adressen besitzen kann.
(iv) Sei f (x) = 4x2 − 1 mit Deﬁnitionsbereich R. Dann ist der Wertebereich
gegeben durch [−1, ∞). Die Nullstellen von f sind 12 und − 12 und der Achsenabschnitt ist −1.
(v) Sei h : R → R mit h(x) = x1 , dann ist Def(h) = Wert(h) = R \ {0}.
6.2 Graphische Darstellung
Funktionen mit R als Deﬁnitions- und Wertebereich kann man hervorragend in
der Ebene, auf einem Papier oder an der Tafel darstellen. In einem Koordinatensystem wird meistens der Wert der unabhängigen Variablen horizontal entlang
der x-Achse dieses Koordinatensystems und der Wert der abhängigen Variablen
vertikal entlang der y-Achse aufgetragen.1 die Menge
Graph(f ) = {(x, y)|x ∈ D ∧ y = f (x)}
zur Funktion f : D → W heißt Graph von f .
Beispiel 6.2: Abbildung 6.1 zeigt die Graphen der Funktionen y = 12 x + 1 und
y = (x − 1)2 .
6.3 Eigenschaften von Funktionen
Eine Funktion f : R → R heißt monoton steigend, wenn für alle x1 , x2 ∈ R
mit x2 > x1 die Ungleichung f (x2 ) ≥ f (x1 ) gilt. Die Funktion monoton fallend, wenn für alle x1 , x2 ∈ R mit x2 > x1 die Ungleichung f (x2 ) ≤ f (x1 ) gilt.
Ersetzt man in diesen beiden Ungleichungen die Relationen ≥ und ≤ durch >
bzw. <, so erhält man die Deﬁnitionen für strenge Monotonie. Ferner heißt eine Funktion f : R → R konvex, wenn für alle x1 , x2 ∈ R und alle a ∈ (0, 1)
1
Die x-Achse wird oft auch als Abszisse und die y-Achse als Ordinate bezeichnet. In den Wirtschaftswissenschaften wird aus historischen Gründen oftmals, insbesondere bei Angebotsund Nachfragefunktionen entgegen der mathematischen Konvention die unabhängige Variable auf der y-Achse und die abhängige Variable auf der x-Achse aufgetragen.
44
6 Funktionen einer Variablen
y
y
3
−1
3
y =1/2 x + 1
y =(xx−1)2
2
2
1
1
0
1
2
3
x
−1
−1
0
1
2
3
x
−1
(a)
(b)
Abbildung 6.1: Graphen zu den Funktionen y = 12 x + 1 und y = (x − 1)2
die Ungleichung f (ax1 + (1 − a)x2 ) ≤ af (x1 ) + (1 − a)f (x2 ) gilt. Die Funktion heißt konkav, wenn für alle x1 , x2 ∈ R und alle a ∈ (0, 1) die Ungleichung
f (ax1 + (1 − a)x2 ) ≥ af (x1 ) + (1 − a)f (x2 ) gilt. Ersetzt man wieder in den
beiden Ungleichungen die Relationen ≤ und ≥ durch < bzw. >, so erhält man
entsprechend die beiden Deﬁnitionen für strenge Konvexität bzw. Konkavität.
Die beiden Begriﬀe Konvexität und Konkavität werden in Abbildung 6.2 veranschaulicht. Oﬀenbar verläuft für konvexe Funktionen die Verbindungslinie zweier
beliebiger Punkte des Graphen der Funktion stets oberhalb des Graphen (a), und
für konkave Funktionen stets darunter (b).
Beispiel 6.3:√
(i) f (x) = x mit [0, ∞) als Deﬁnitionsbereich ist streng monoton steigend
und konkav.
(ii) g(x) = −x + 2 ist streng monoton fallend, als lineare Funktion zugleich
konkav und konvex, aber dadurch weder streng konkav noch streng konvex.
In Abschnitt 6.1 wurde als charakteristisches Merkmal einer Funktion genannt,
daß sie jedem Argument aus dem Deﬁnitionsbereich eindeutig einen Funktionswert aus dem Wertebereich zuordnet. Gilt außerdem, daß eine Funktion jedem
Element des Deﬁnitionsbereichs einen Funktionswert zuordnet, den sie keinem
anderen Element des Deﬁnitionsbereichs zuordnet, so heißt diese Funktion injektiv oder eineindeutig. Für jede injektive Funktion f ist die Umkehrfunktion
f −1 gegeben als die Funktion, die jedem Element y = f (x) des Wertebereichs
von f das Element x im Deﬁnitionsbereich von f zuordnet. Es gilt also für alle
45
6 Funktionen einer Variablen
y
y
f(x)
3
−1
3
2
2
1
1
0
−1
x1 1
2 x2
xa = ax1+ (1−a))x2
3
x
−1
0
−1
(a)
f(x)
x1 1
2 x2
xa = ax1+ (1−a))x2
3
x
(b)
Abbildung 6.2: Konvexität und Konkavität
Elemente des Deﬁnitionsbereichs von f
f −1 (f (x)) = x.
Beispiel 6.4:
(i) f (x) = 2x + 6 ist eineindeutig.
(ii) g(x) = x2 ist nicht eineindeutig.
(iii) Die Umkehrfunktion g −1 der Funktion g(x) = 3x − 9 erhält man durch
Auﬂösen nach x. Sie ist x = g −1 (y) = 13 y + 3.
(iv) Die Umkehrfunktion der Funktion h : R+ → R mit h(x) = x2 ist h−1 : R →
√
R+ mit h−1 (y) = y. Graphisch entspricht die Umkehrfunktion einer Vertauschung der x- und y-Achsen und einer Spiegelung des Graphen an der 45 Linie.
1
(v) Achtung, die Umkehrung f −1 (y) und multiplikative Inversion f (x)
werden
bisweilen miteinander verwechselt, haben aber nichts miteinander zu tun. Man
überprüfe das für die eben genannten Beispiele.
6.4 Grenzwerte und Stetigkeit
Viele Deﬁnitionen und Aussagen in den Wirtschaftswissenschaften beziehen sich
auf Funktionen ohne Sprünge, deren Graphen man zeichnen kann, ohne den Stift
abzusetzen.2 Diese Eigenschaft heißt Stetigkeit und hängt eng mit dem Begriﬀ
der Konvergenz zusammen.
2
In Kapitel 9 werden wir lernen daß die mit dem Absetzen eines Stiftes verbundene Intuition
nicht nur ihre Grenzen hat sondern sogar falsch sein kann.
46
6 Funktionen einer Variablen
Deﬁnition 6.2 (Grenzwert einer Funktion) Der Grenzwert ŷ einer Funktion f : R → R an der Stelle x̂ existiert, falls für jede Folge (xn )n∈N mit xn −→ x̂
die Folge
(f (xn ))n∈N
stets gegen den selben Wert ŷ konvergiert. Man schreibt in diesem Fall
lim f (x) = ŷ.
x→x̂
Deﬁnition 6.3 (Stetigkeit) Die Funktion f heißt stetig an der Stelle x̂, falls
limx→x̂ f (x) existiert und
lim f (x) = f (x̂).
x→x̂
Die Funktion f heißt stetig auf A ⊆ R, falls f stetig ist für alle x̂ ∈ A
Beispiel 6.5:
(i) Die Funktion f (x) = 1/x mit dem Deﬁnitionsbereich R\{0} ist nicht stetig,
da man, um sie zu zeichnen, beim Überqueren der y-Achse den Stift absetzen
muß. Um das gemäß unserer Deﬁnition formal zu erkennen, betrachte die Folge
xn = (− n1 )n mit limn→∞ xn = 0. Dann ist (f (xn )) = (−n)n , was nicht konvergiert.
(ii) Sei [x] für alle x ∈ R die größte ganze Zahl n ∈ Z, für die n ≤ x gilt.
Der Graph der Funktion f (x) := [x] hat die Form einer Treppe (ohne vertikale
Striche). f ist also nicht stetig.
Man kann Deﬁnition 6.2 in der Art erweitern, daß für (xn )n∈N und (f (xn ))n∈N auch
solche Folgen zugelassen werden, die gegen ∞ oder −∞ divergieren. Durch diese
Erweiterung können zusätzliche Fälle auftreten, die in der folgenden Übersicht
zusammengestellt sind.
f (xn ) −→ a
xn −→ x̄
lim f (x) = a
xn −→ ∞
lim f (x) = a
f (xn ) −→ ∞
lim f (x) = ∞
lim f (x) = ∞
f (xn ) −→ −∞
x→x̄
x→∞
xn −→ −∞
lim f (x) = a
x→−∞
lim f (x) = ∞
x→x̄
x→∞
x→−∞
x→x̄
x→∞
x→−∞
lim f (x) = −∞
lim f (x) = −∞
lim f (x) = −∞
Beispiel 6.6:
(i) Sei f : R \ {0} → R mit f (x) = x12 . Dann ist limx→0 f (x) = ∞, da zu
jeder Folge (xn ) mit xn −→ 0 und xn = 0 die Folge (f (xn )) gegen ∞ divergiert.
Außerdem ist limx→∞ f (x) = 0, da zu jeder Folge (xn ) mit xn −→ ∞ und xn = 0
die Folge (f (xn )) gegen 0 konvergiert.
(ii) Sei f : R → R mit f (x) = −3x2 − x. Dann ist limx→∞ f (x) = −∞, da zu
jeder Folge (xn ) mit xn −→ ∞ die Folge (f (xn )) gegen −∞ divergiert.
47
6 Funktionen einer Variablen
6.5 Typen von Funktionen
In diesem Abschnitt werden einige von Wirtschaftswissenschaftlern besonders
häuﬁg benutzte Funktionstypen vorgestellt.
Die Funktion
f (x) = a0 + a1 x + · · · + an x =
n
n
ai xi
i=0
mit n ∈ N und a0 , a1 , . . . , an ∈ R heißt Polynom vom Grad n, falls an = 0 ist.
Die a0 , a1 , . . . , an nennt man Koeﬃzienten der Polynomfunktion. Es gilt, daß ein
Polynom n-ten Grades maximal n Nullstellen hat.
Beispiel 6.7: Lineare Funktionen sind Polynome vom Grad 1. Der Koeﬃzient
a1 ist die Steigung und der Koeﬃzient a0 der Achsenabschnitt der zugehörigen
Geraden.
Die Funktion f : R → R mit
f (x) = xn ,
wobei n ∈ Z ist, heißt Potenzfunktion. Ihr Deﬁnitionsbereich ist Def(f ) = R
für n ≥ 1, Def(f ) = R \ {0} für n ≤ −1, Def(f ) = R+ für n ∈ (0, 1) und
Def(f ) = R++ für n ∈ (−1, 0). Der Graph einer Potenzfunktion ist für n > 1
eine Parabel, für n = 1 eine Gerade, für n ∈ (0, 1) eine gespiegelte Parabel (oder
Wurzelfunktion), für n = 0 eine Gerade mit einer Unstetigkeitsstelle in x = 0
und für n < 0 eine Hyperbel. Die Funktion
f (x) = cap(x)
mit c ∈ R, a > 0 und p(x) ein Polynom heißt Exponentialfunktion. Sie kommt
z.B. bei der Beschreibung von Wachstumsprozessen vor. Funktionen der Form
f (x) = loga x
heißen Logarithmusfunktionen zur Basis a. Schließlich sollen noch die zwei wichtigsten trigonometrischen Funktionen genannt werden, der Sinus und der Cosinus. Abbildung 6.3 zeigt cos α (sprich: Cosinus alpha) als x-Koordinate und sin α
(sprich: Sinus alpha) als y-Koordinate eines Punktes auf dem Einheitskreis, der
auf einem vom Ursprung ausgehenden Strahl im Winkel α relativ zur x-Achse
liegt.
Man beachte, daß die Argumente trigonometrischer Funktionen meistens nicht in
Grad, sondern als Bogenmaß angegeben werden. In diesem Maß entsprechen 360
Grad dem Umfang des Einheitskreises 2π. Andere Winkel werden entsprechend
α
umgerechnet, d.h. ein Winkel von α Grad entspricht im Bogenmaß 360
2π.
48
6 Funktionen einer Variablen
y
1
sin α
α
−1
0
cos α
1
x
−1
Abbildung 6.3: Sinus und Cosinus am Einheitskreis
49
7 Ableitung von Funktionen einer
Variablen
In diesem Kapitel wird das Konzept der Ableitung von Funktionen behandelt. Es
ist zentraler Bestandteil der klassischen Optimierungstheorie, welche wiederum
insbesondere für die positive und normative Modellierung menschlichen Verhaltens in den Wirtschaftswissenschaften von großer Bedeutung ist.
7.1 Das Konzept der Ableitung
Der Koeﬃzient a einer linearen Funktion f (x) := ax + b mit a, b ∈ R ist die
Steigung der zugehörigen Geraden. Die Steigung gibt an, um wieviel Einheiten
der Funktionswert von f (x) steigt, wenn das Argument x um eine Einheit erhöht
wird. Bei einer nicht-linearen Funktion g(x) hängt die Steigung von der Stelle
x ab, ist also nicht wie bei der Geraden konstant, sondern selbst eine von x
abhängige Funktion, die Ableitung von g genannt wird.
Sei im folgenden f (x) eine stetige, reellwertige Funktion. Man kann auch bei
einer nicht-linearen Funktion die durchschnittliche Steigung bzw. die Steigung
der Sekante von f (x) zwischen zwei Punkten x0 und x0 +∆x mit ∆x = 0 angeben
mit
∆y
f (x0 + ∆x) − f (x0 )
=
.
∆x
∆x
Dieser Ausdruck heißt Diﬀerenzenquotient und wird in Abbildung 7.1 veranschaulicht. Dort gibt der Diﬀerenzenquotient die Steigung der Sekante zwischen
den Punkten P und Q an. Die Ableitung ist die Steigung der Tangente t, die den
Graphen von f (x) im Punkt P berührt, aber nicht schneidet.
Für einen festen Ausgangspunkt x konvergiert also die Steigung der Sekanten
gegen die Steigung der Tangente an den Graphen von f im Punkte (x, f (x)),
falls ∆x gegen 0 geht. Eine konvergente Folge von Sekantensteigungen gegen die
Tangentensteigung ist genau die Idee der ersten Ableitung.
Deﬁnition 7.1 Die erste Ableitung der Funktion f : R → R an der Stelle x ist
deﬁniert durch den Grenzwert
f (x + ∆x) − f (x)
.
∆x→0
∆x
lim
50
7 Ableitung von Funktionen einer Variablen
y
f(x0+ ∆x)
f(x0)
y = f((x)
Q
P
∆y
∆x
t
0
x0
x0+ ∆x
x
Abbildung 7.1: Veranschaulichung des Diﬀerenzenquotienten
(x)
. Existiert der Grenzwert f (x) für alle x ∈
Man schreibt dafür f (x) oder dfdx
A ⊆ Def(f ), so heißt die Funktion f auf A diﬀerenzierbar.
Man beachte, daß nicht alle Funktionen in ihrem gesamten Deﬁnitionsbereich eine Ableitung besitzen, da der Grenzwert des Diﬀerenzenquotienten für ∆x → 0
nicht in jedem Fall existiert. Oﬀenbar ist f (x) eine neue Funktion deren Deﬁnitionsbereich die Menge aller reellen Zahlen ist, für die f diﬀerenzierbar ist. Ihr
Funktionswert ist die Ableitung von f (x) an eben dieser Stelle. Falls die Funktion
f (x) ihrerseits diﬀerenzierbar ist heißt deren Ableitung zweite Ableitung von f (x)
2 f (x)
bezeichnet. Analog
und wird mit den Symbolen f (x), f (2) (x) oder auch d dx
2
sind bei entsprechend häuﬁger Diﬀerenzierbarkeit höhere Ableitungen deﬁniert.
Beispiel 7.1:
(i) Der Diﬀerenzenquotient von f (x) = x2 an einer beliebigen Stelle x0 ∈ R ist
(x0 + ∆x)2 − x20
= 2x0 + ∆x.
∆x
Für ∆x → 0 konvergiert der Diﬀerenzenquotient also gegen den Wert 2x0 . Die
Abbleitung von f (x) an der Stelle x0 ist also 2x0 . Die Ableitung f als Funktion
von x ist also f (x) = 2x.
(ii) Betrachtet man den Diﬀerenzenquotienten von f (x) aus dem vorherigen
Beispiel an einer beliebigen Stelle x0 ∈ R, dann ist
2(x0 + ∆x) − 2x0
= 2,
∆x
51
7 Ableitung von Funktionen einer Variablen
f (x)
a
x (a ∈ R)
√
x
1
x
x
f (x)
axa−1
1
√
2 x
− x12
x
e
e
x
a (a > 0)
a ln a
1
ln x
x
1
loga x (a > 0)
x ln a
sin x
cos x
cos x
− sin x
x
Tabelle 7.1: Ableitungen ausgewählter Funktionen
also ist die zweite Ableitung von f (x) gegeben als f (x) = 2.
(iii) Sei g(x) = |x|. Der Diﬀerenzenquotient von g(x) an der Stelle x0 = 0 ist
|0 + ∆x| − |0|
|∆x|
=
.
∆x
∆x
Für beliebig kleine |∆x| > 0 hat dieser Diﬀerenzenquotient für ∆x > 0 den
Wert 1 und für ∆x < 0 den Wert −1. Es existiert also kein Grenzwert des
Diﬀerenzenquotienten für ∆x → 0, und die Funktion g(x) ist an der Stelle 0
nicht diﬀerenzierbar.
Der folgende Satz ohne Beweis zeigt, daß Diﬀerenzierbarkeit eine stärkere Eigenschaft als Stetigkeit ist, also Stetigkeit eine notwendige Bedingung für Diﬀerenzierbarkeit einer Funktion ist.
Satz 7.1 Jede auf A ⊆ R diﬀerenzierbare Funktion ist stetig auf A.
7.2 Ableitungen ausgewählter Funktionen
Da die analytische Bestimmung der Ableitung über ihre Deﬁnition, also dem
Grenzwert des Diﬀerenzenquotienten, oft mühselig ist, ist es sinnvoll, die Ableitungen der in den Wirtschaftswissenschaften häuﬁg vorkommenden Funktionen
zu kennen. In Tabelle 7.1 sind die Ableitungen ausgewählter Funktionen zusammengestellt.
7.3 Ableitungsregeln
Um Funktionen abzuleiten, die aus anderen Funktionen, deren Ableitungen bekannt sind, zusammengesetzt sind, sind die in diesem Abschnitt zusammenge-
52
7 Ableitung von Funktionen einer Variablen
stellten Ableitungsregeln sehr nützlich. Seien nachfolgend f (x) und g(x) zwei
reellwertige und diﬀerenzierbare Funktionen. Nach der Summenregel ist
(f (x) + g(x)) = f (x) + g (x).
Die Produktregel besagt
(f (x) · g(x)) = f (x) · g(x) + f (x) · g (x).
Die Quotientenregel sagt
f (x)
f (x) · g(x) − f (x) · g (x)
=
g(x)
(g(x))2
falls g(x) = 0. Gemäß der Kettenregel ist
(f (g(x))) = f (g(x)) · g (x).
Es ist häuﬁg nötig, diese Ableitungsregeln kombiniert anzuwenden, um die Ableitung einer zusammengesetzten Funktion zu bestimmen.
Beispiel 7.2:
(i) Die Faktorregel
(af (x)) = af (x)
folgt oﬀenbar aus der Produktregel.
(ii) Die Ableitung von f (x) = 3 sin x ist nach der Faktorregel f (x) = 3 cos x.
(iii) Die Ableitung von f (x) = 4x2 + 5x + ln x ist nach der Summen- und der
Faktorregel f (x) = 8x + 5 + 1/x.
(iv) Die Ableitung von f (x) = 4x sin x ist nach der Produkt- und der Faktorregel f (x) = 4 sin x + 4x cos x.
2
x
2 ex
=
(v) Die Ableitung von f (x) = xex ist nach der Quotientenregel f (x) = 2xe e−x
2x
2x−x2
.
ex
(vi) Die Ableitung von f (x) = 2 sin (x3 ) ist nach der Ketten- und der Faktorregel
f (x) = 6x2 cos (x3 ).
53
8 Teilmengen des Rn
Die Menge der möglichen Handlungsalternativen eines Entscheidungsproblems
wird Entscheidungsraum genannt. Die Entscheidungsräume vieler ökonomischer
Entscheidungsprobleme sind Teilmengen des Rn . In diesem Kapitel werden einige
wichtige Eigenschaften solcher Teilmengen betrachtet, die für die Lösbarkeit und
die Bestimmung von Lösungen von Entscheidungsproblemen von Bedeutung sind.
8.1 Grundbegriﬀe der Mengen-Topologie
Die Mengen-Topologie ist eine sehr allgemeine mathematische Methode, Mengen
mit einer Struktur auszustatten, die es ermöglicht Nähe und Abstand qualitativ
zu charakterisieren. Der Rn besitzt viele verschiedene topologische Strukturen,
von denen wir hier nur eine, die Standardtopologie, benötigen. Diese wird durch
die in Kapitel 5.5 eingeführte Euklidische Metrik aber auch durch andere Metriken wie die Manhatten-Metrik oder Maximum-Metrik induziert. Die Grundbegriﬀe der Mengen-Topologie sind oﬀene und abgeschlossene Mengen. Um die
Standardtopologie des Rn zu deﬁnieren, müssen oﬀene und abgeschlossene Teilmengen beschrieben werden. Ein möglicher Weg dazu, den wir hier beschreiten
wollen, geht über den Begriﬀ der ε-Umgebung. Falls nicht anders hervorgehoben,
sei in diesem Kapitel stets n ∈ N die Dimension des Rn .
Deﬁnition 8.1 (Epsilon-Umgebung) Sei x ∈ Rn und ε > 0. Die Menge
Bε (x) = {y | y ∈ Rn , ||x − y|| < ε}
heißt ε-Kugel oder ε-Umgebung (engl.: ε-ball, neighborhood) um x.
Die ε-Umgebung um x ∈ Rn ist also die Menge aller Punkte, die zu x einen strikt
geringeren Abstand als ε bezüglich der Euklidischen Metrik haben. Sie ist also
eine Kugel vom Radius ε um x ohne deren noch zu deﬁnierenden Rand. Diesen
deﬁnieren wir nun zusammen mit anderen topologischen Grundbegriﬀen.
Deﬁnition 8.2 (Innerer Punkt, Randpunkt, Rand) Der Punkt x ∈ M mit
M ⊆ Rn heißt innerer Punkt (engl.: interior point) von M, wenn ε > 0 existiert,
so daß
Bε (x) ⊆ M.
54
8 Teilmengen des Rn
ε
x
ε
x
M
M
(a)
(b)
Abbildung 8.1: Ein innerer Punkt und ein Randpunkt
Umgekehrt heißt der Punkt y ∈ Rn Randpunkt (engl.: boundary point) der Menge
M ⊆ Rn , falls für alle ε > 0
Bε (x) ∩ M = ∅ und
Bε (x) \ M = ∅.
Die Menge aller Randpunkte heißt Rand und wird geschrieben als ∂M.
Ein Punkt ist also innerer Punkt einer Menge, wenn seine unmittelbare Nachbarschaft nur aus Punkten dieser Menge besteht (vgl. Abbildung 8.1 (a)). Dagegen
ist ein Punkt Randpunkt einer Menge, wenn seine unmittelbare Nachbarschaft
sowohl aus Punkten dieser Menge als auch deren Komplement besteht. Daraus
folgt, daß ein Randpunkt einer Menge M nicht unbedingt zur Menge M gehören
muß (vgl. Abbildung 8.1 (b)).
Beispiel 8.1: (i) B 1 (3) = 52 , 72 .
2
(ii) Sei x = 0 ∈ R2 . Dann ist B1 (x) = {y | y ∈ R2 ∧ y12 + y22 < 1}.
(iii) Der Punkt x = 12 ist wegen B 1 (x) ⊆ M innerer Punkt der Menge [0, 1).
4
Dagegen ist der Punkt x = 1 Randpunkt von [0, 1), da für alle ε > 0 einerseits
/ M ist.
x − ε ∈ M und andererseits x + ε ∈
(iv) Der Rand der Einheitskugel
K = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}
ist ∂M = {(x, y) ∈ R2 | x2 + y 2 = 1}. Die Menge der inneren Punkte von K ist
die Menge M \ ∂M = {(x, y) | x ∈ R ∧ y ∈ R ∧ x2 + y 2 < 1}.
55
8 Teilmengen des Rn
Auf den Begriﬀen des inneren und des Randpunkts bauen die der oﬀenen und
der abgeschlossenen Menge auf. Oﬀene und abgeschlossene Mengen im Rn sind
n-dimensionale Verallgemeinerungen von Vereinigungsmengen oﬀener und abgeschlossener Intervalle in R.
Deﬁnition 8.3 (Oﬀene und abgeschlossene Menge) A ⊆ Rn heißt oﬀen (engl.: open),
wenn alle x ∈ M innere Punkte von M sind. B ⊆ Rn heißt abgeschlossen
(engl.: closed), wenn die Menge B ihren Rand ∂B enthält, also ∂B ⊆ B. Die
Menge
M̄ := M ∪ ∂M
heißt Abschluß von M. Entsprechend heißt die Menge
Ṁ := M \ ∂M
Inneres von M.
Der Abschluß einer Menge ist stets abgeschlossen und das Innere ist stets offen. Komplemente abgeschlossener Mengen, beliebige Vereinigungen und endliche Durchschnitte oﬀener Mengen sind stets oﬀen, während Komplemente abgeschlossener Mengen und beliebige Durchschnitte und endliche Vereinigungen
abgeschlossener Mengen stets abgeschlossen sind. Falls die Menge A ⊆ Rn sowohl oﬀen als auch abgeschlossen ist, nennt man sie abgeschloﬀen (engl.: clopen).
In der Standardtopologie gilt dies nur für A = Rn oder A = ∅. Ein System von
oﬀenen und abgschlossenen Teilmengen, das diese Eigenschaften besitzt heißt topologischer Raum. Neben der Standardtopologie auf dem Rn gibt es viele andere
Topologien.1 Da sich Ökonomen meistens nur für die Standardtopologie interessieren, verfolgen wir den sehr allgemeinen Begriﬀ des topologischen Raumes hier
nicht weiter.
Beispiel 8.2:
(i) Die Einheitskugel K = {(x, y) ∈ R2 | x2 + y 2 ≤ 1} ist abgeschlossen.
(ii) Die Menge {(x, y) ∈ R2 | |x| + |y| < 1} ist oﬀen (wie sieht sie aus?)
(iii) Die Menge [0, 1) ist weder oﬀen noch abgeschlossen, da sie mit 0 einen ihrer
Randpunkte, wegen 1 ∈
/ [0, 1) aber nicht alle ihrer Randpunkte enthält.
(iv) Die Menge [0, 1]2 ∪ {(x, y) ∈ R2 | x2 + y 2 < 1} ist weder oﬀen noch abgeschlossen (warum?).
Eine weitere wichtige Eigenschaft von Mengen ist die der Beschränkheit.
1
Seien zum Beispiel nur der ganze Rn und ∅ abgeschloﬀen und alle anderen Teilmengen weder
oﬀen noch abgeschlossen. Man überzeuge sich davon, daß dann alle hier angeführten Eigenschaften erfüllt sind. Diese Topologie heißt auch gröbste Topologie des Rn . Die sogenannte
feinste Topologie deﬁniert alle Mengen als oﬀen und abgeschlossen und erfüllt ebenfalls alle
Eigenschaften.
56
8 Teilmengen des Rn
Deﬁnition 8.4 (Beschränkte Menge) Eine Menge M ⊆ Rn heißt beschränkt
(engl.: bounded), wenn ein a ∈ R mit
||x|| ≤ a
für alle x ∈ M existiert.
Eine Menge heißt also beschränkt, wenn sie in einer Kugel mit endlichem Radius
enthalten ist. Daß in unserer Deﬁnition die Kugel eine Ursprungskugel, also eine
Kugel um den Ursprung als Mittelpunkt, ist, spielt oﬀenbar für die Deﬁnition
keine Rolle (warum?). In der Tat könnte man die Beschränktheit auch mit einem Quader oder beliebigen anderen Formen deﬁnieren. Entscheidend für eine
beschränkte Menge ist, daß sie in keiner Richtung unendlich groß ist.
Beispiel 8.3:
(i) Die Menge [0, a] mit a ≥ 0 ist wegen ||x|| = |x| ≤ a für alle x ∈ R beschränkt.
(ii) Die Menge M = {x | x ∈ R3 ∧ x1 + x2 + x3 ≥ 1} ist nicht beschränkt, da √
für
alle h ≥ 1 der Punkt (h, h, h) Element von M ist, der Abstand ||(h, h, h)|| = h 3
zwischen diesem Punkt und dem Ursprung allerdings mit steigendem h jede
Schranke überschreitet.
Mit Hilfe der in diesem Abschnitt vorgestellten Begriﬀe können nun abschließend
kompakte Mengen eingeführt werden. Diese spielen in der Optimierungstheorie,
dem wichtigsten mathematischen Handwerkzeug des Ökonomen eine zentrale Rolle, da Kompaktheit der Auswahlmenge zusammen mit der Stetigkeit der Zielfunktion die Existenz einer Lösung eines Optimierungsproblems garantiert. Bezüglich
Kompaktheit gibt es eine gute und eine schlechte Nachricht. Die schlechte Nachricht ist, daß Kompaktheit im Allgemeinen (in einem topologischen Raum) abstrakt und kompliziert zu deﬁnieren ist. Die gute Nachricht ist, daß wir uns
vorläuﬁg diese Mühe ersparen können, da im Spezialfall des Rn , auf den wir uns
hier konzentrieren, Kompaktheit sehr einfach ist.
Deﬁnition 8.5 (Kompakte Menge) Eine Teilmenge des Rn heißt genau dann
kompakt (engl.: compact), wenn sie beschränkt und abgeschlossen ist.
Beispiel 8.4:
(i) Die Menge [0, 1] × (2, 3) ist beschränkt, aber nicht abgeschlossen und daher
nicht kompakt.
(ii) Die Menge [0, ∞)2 ist abgeschlossen, aber nicht beschränkt, also nicht kompakt.
(iii) Die Menge ([0, 1] ∪ [2, 3]) × [1, 5] ist beschränkt und abgeschlossen, also
kompakt.
57
8 Teilmengen des Rn
8.2 Konvexe Mengen
Eine weitere bedeutsame Eigenschaft von Teilmengen des Rn im Zusammenhang
mit wirtschaftswissenschaftlichen Fragestellungen ist die Konvexität, da diese unter geeigneten Annahmen die Eindeutigkeit der Lösung eines Optimirungsproblems garantiert.
Deﬁnition 8.6 (Konvexe Menge) Die Menge M ∈ Rn heißt konvex (engl.: convex), wenn für alle x, y ∈ M und alle λ ∈ [0, 1] gilt
λx + (1 − λ)y ∈ M.
Die gerade Verbindungsstrecke zwischen zwei Punkten x, y ∈ M muß also stets
ganz in M liegen, damit M eine konvexe Menge ist (vgl. Abbildung 8.2 (a)).
Falls diese Eigenschaft für gewisse Punkte x, y ∈ M nicht gilt, so ist M nicht
konvex (vgl. Abbildung 8.2 (b)). Obwohl die Konvexität einer Funktion mit der
Konvexität einer Menge verbunden ist , gibt es den umgekehrten Begriﬀ der
Konkavität zwar fr Funktionen nicht im Zusammenhang mit Mengen.2
Beispiel 8.5:
(i) Die Menge [0, 1] ist konvex, da für alle x, y ∈ [0, 1] und alle λ ∈ [0, 1] die
Ungleichnungen λx+(1−λ)y ≤ λ max{x, y}+(1−λ) max{x, y} = max{x, y} ≤ 1
und λx + (1 − λ)y ≥ 0 gelten.
(ii) Die Menge M = {x ∈ R2 | ||x|| ≥ 1 ∧ ||x|| ≤ 3} ist nicht konvex, da
/ M trotz x = (2, 0) ∈
beispielsweise die Konvexkombination 12 x + 12 x = (0, 0) ∈
M und y = (−2, 0) ∈ M ist.
Die Konvexität einer Menge ergibt sich in den Wirtschaftswissenschaften oft ganz
natürlich. Betrachtet man beispielsweise einen Haushalt, der sich mit seinem Budget entweder 20 Liter Bier oder 10 Liter Wein kaufen kann, so ist meistens sinnvoll
anzunehmen, daß er mit seinen Mitteln auch 20λ Liter Bier und 10(1 − λ) Liter Wein mit λ ∈ [0, 1] erwerben kann. Die Budgetmenge, also die Menge aller
Güterbündel, die der Haushalt mit einem gegebenen Budget kaufen kann, ist
unter dieser Annahme konvex.
Satz 8.1 Der Durchschnitt A ∩ B zweier konvexer Mengen A und B ist konvex.
2
Ein kleiner Vorgriﬀ auf das folgende Kapitel mag dies illustrieren. Die untere Konturmenge
einer Funktion f : Rn → R ist die Menge aller Punkte x ∈ Rn deren Funktionswert f (x)
einen bestimmten Wert nicht überschreitet. Diese Menge ist stets konvex für eine konvexe
Funktion. Zum Beispiel ist die Einheitskugel die untere Konturmenge zum Wert 1 für die
konvexe Funktion f (x1 , x2 ) = x21 + x22 . Die untere Konturmenge einer konkaven Funktion
ist nicht konvex, wird aber nicht konkav genannt. Das Komplement der Einheitskugel ist
ein Beispiel für eine solche Menge.
58
8 Teilmengen des Rn
y
x
y
x
y
y
x
x
(a)
(b)
Abbildung 8.2: Beispiele konvexer und nicht-konvexer Mengen
Beweis. Seien x, y ∈ A ∩ B, also x, y ∈ A und x, y ∈ B. Da A konvex ist,
gilt λx + (1 − λ)y ∈ A für alle λ ∈ [0, 1]. Da auch B konvex ist, gilt analog
λx + (1 − λ)y ∈ B für alle λ ∈ [0, 1]. Folglich ist λx + (1 − λ)y ∈ A ∩ B für alle
λ ∈ [0, 1].
59
9 Funktionen von Rm nach Rn
Die nachgefragte Menge an Weizenbier und Speiseeis am Sommeranfang im Jahr
2004 kann vom Weizenbierpreis, vom Speiseeispreis vom Preis anderer Produkte
(Döner, Wein, Wohnungsmiete, Benzin,...), vom Einkommen, vom Wetter an diesem Tag (z.B. gemessen in Sonnenstunden oder Durchschnittstemperatur) und
vielen anderen Variablen abhängen. Eine Zuordnung aller relevanter Variablen
auf dieses 2-Tupel nachgefragter Mengen ist eine mehrdimensionale Funktion.
Mehrdimensionale Funktionen sind Verallgemeinerungen von Funktionen einer
Variablen. Viele darauf aufbauende Konzepte wie Ableitungen oder Konkavität
bauen daher auf der Intuition eindimensionaler Funktionen auf.
9.1 Grundbegriﬀe
Grundlage für dieses Kapitel ist der bereits durch Deﬁnition 6.1 in Kapitel 6
eingeführte allgemeine Begriﬀ der Funktion. Gerade weil Funktionen so grundlegend für die Mathematik sind, besitzen sie verschiedene Interpretationen. So
wird eine Funktion auch Abbildung genannt, ein Argument als Urbild oder als
unabhängige Variable und ein Funktionswert als Bild oder als abhängige Variable.
Deﬁnitionsbereich und Wertebereich wie in Kapitel 6 eingeführt heißen in dieser
Terminologie Urbildmenge und Bildmenge. Die Menge f (A) = {y ∈ Y | ∃x ∈
A mit y = f (x)} bezeichnet man entsprechend als Bild einer Teilmenge A ⊆ X
und umgekehrt die Menge f −1 (B) = {x ∈ X | ∃y ∈ B mit y = f (x)} als Urbild
der Teilmenge B ⊆ Y .
In diesem Kapitel betrachten wir stets Funktionen f : X → Y mit X ⊆ Rn
und Y ⊆ Rm , wobei n, m ∈ N. Diese heißen reellwertige Funktionen. In einem
solchen Fall schreibt man für den Funktionswert von f für ein Argument x ∈ X
üblicherweise f (x1 , . . . , xn ). Man beachte, daß dieser Funktionswert Element des
Rm ist. Daher schreibt man die m einzelnen Komponenten als
f (x1 , . . . , xn ) = (f1 (x1 , . . . , xn ) , . . . , fm (x1 , . . . , xn )).
Nachfolgend betrachten wir oft Fälle niedriger Dimensionen m = 1 oder n = 1,
bei dem die Bilder oder Urbilder eindimensional sind.
Beispiel 9.1:
(i) Sei X = {a, b, c} und Y = {1, 2}. Dann ist f : X → Y mit f (a) = 1, f (b) =
60
9 Funktionen von Rm nach Rn
y
y
f
f
V
f(U)
U
x
f−1(V)
(a)
x
(b)
Abbildung 9.1: Bild- und Urbildmenge
2 und f (c) = 1 eine Funktion mit Deﬁnitionsbereich {a, b, c} und Wertebereich
{1, 2}.
(ii) Der Funktionswert der reellwertigen Funktion g : R2 → R mit
g(x1 , x2 ) = x31 + 2x22
für das Argument (x1 , x2 ) = (2, 3) ist g(2, 3) = 23 + 2 · 32 = 26.
(iii) Sei f : R → R eine Funktion mit f (x) = 2x − 1. Dann ist f ([2, 3]) = [3, 5]
und f −1 ([5, 7]) = [3, 4].
(iv) Sei g(x) = (2x, −x) eine Funktion R → R2 . Dann ist
g({1, 2, 3}) = {(2, −1), (4, −2), (6, −3)}.
(v) Sei f : R → R eine Funktion mit f (x) = x2 . Dann ist f ([0, 1]) = [0, 1] und
f −1 ([1, 4]) = [1, 2] ∪ [−2, −1].
9.2 Verknüpfungen von Funktionen
Funktionen können mit Hilfe der auf den vier Grundrechenarten basierenden und
auch anderen Verknüpfungen zu komplexeren Funktionen zusammengesetzt werden. In diesem Abschnitt werden die wichtigsten Möglichkeiten zur Verknüpfung
von Funktionen vorgestellt.
61
9 Funktionen von Rm nach Rn
Deﬁnition 9.1 (Addition, Subtraktion) Seien f : X → Rn und g : X → Rn
Funktionen, wobei X eine beliebige Menge sein kann. Dann bezeichnen f + g
bzw. f − g Funktionen von X nach Rn deﬁniert durch
(f + g)(x) = f (x) + g(x)
bzw. (f − g)(x) = f (x) − g(x)
für alle x ∈ X.
Für die Addition oder Subtraktion ist also wichtig ein gemeinsamer Deﬁnitionsbereich und ein gemeinsamer Wertebereich mit einer additiven Struktur, die auf
dem Rn in natürlicher Weise durch die komponentenweise Vektoraddition gegeben
ist. Analoges gilt für die Diﬀerenz zweier Funktionen.
Deﬁnition 9.2 (Multiplikation, Division) Seien f : X → Rn und g : X →
R Funktionen mit X als beliebiger Menge. Dann bezeichnen f · g bzw. f /g Funktionen von X in Rn deﬁniert durch
f
1
(f · g)(x) = f (x) · g(x) bzw.
(x) = f (x) ·
g
g(x)
für alle x ∈ X. Dabei muß im Fall der Division für alle x ∈ X die Bedingung
g(x) = 0 erfüllt sein.
Für das Produkt oder den Quotienten zweier Funktionen benötigt man außer einem gemeinsamen Deﬁnitionsbereich die Möglichkeit Funktionswerte miteinander
multiplizieren oder durcheinander dividieren zu können. Falls ein Funktionswert
ein Vektor reeller Zahlen und der andere eine (eindimensionale) reelle Zahl also
ein sogenannter Skalar ist, sind diese Rechenoperationen komponentenweise wieder durch die entsprechenden Grundrechenarten auf den reellen Zahlen gegeben.
Man beachte, daß die Multplikation eines Vektors aus Rn mit einem Skalar wieder
ein Vektor des Rn ist. Analoges gilt für den Quotienten zweier Funktionen.
Beispiel 9.2:
(i) Sei f : R2 → R eine Funktion mit f (x1 , x2 ) = x1 + sin x2 und g : R2 → R
eine Funktion mit g(x1 , x2 ) = 3x1 + 5x2 . Dann ist f + g : R → R eine Funktion
mit (f + g)(x) = x1 + sin x2 + 3x1 + 5x2 = 4x1 + 5x2 + sin x2 .
(ii) Seien f : R → R2 eine Funktion mit f (x) = (2x, 3) und g : R → R eine
Funktion mit g(x) = x2 + 1. Wegen g(x) = 0 für alle x ∈ R ist die Funktion f /g
deﬁniert. Für sie ist (f /g)(x) = x21+1 (2x, 3).
(iii) Sei f : X → Rn eine Funktion mit X als beliebiger Menge und α ∈ R.
Da der Skalar α oﬀebar als konstante Funktion g(x) = α interpretiert werden
kann, ist die Multiplikation mit einem Skalar ein Beispiel für das Produkt zweier
Funktionen, also αf die Funktion von X nach Rn mit
(αf )(x) = αf (x)
62
9 Funktionen von Rm nach Rn
f
Y
g
X
Z
gof
Abbildung 9.2: Verkettung von Funktionen
für alle x ∈ X.
Die wichtigste Verknüpfung, die nicht auf den vier Grundrechenarten basiert, ist
die nachfolgend deﬁnierte Verkettung oder Verknüpfung.
Deﬁnition 9.3 (Verkettung) Seien f : X → Y und g : Y → Z Funktionen
mit X, Y und Z als beliebigen Mengen. Dann heißt die Funktion g ◦ f : X → Z
mit
(g ◦ f )(x) = g(f (x))
für alle x ∈ X Verkettung (engl.: composition) von f und g.
Für die Verkettung g ◦ f zweier Funktionen f und g muß der Wertebereich von f
dem Deﬁnitionsbereich von g entsprechen. In diesem Fall ist die Verkettung der
beiden Funktionen eine andere Funktion, die jedes Element x des Deﬁnitionsbereichs von f in der Weise auf ein Element z des Wertebereichs von g abbildet,
daß z = g(f (x)) gilt (vgl. Abbildung 9.2).
Beispiel 9.3:
(i) Sei f : R → R eine Funktion mit f (x) = x2 und g : R → R eine Funktion
mit g(x) = sin x. Dann ist g ◦ f : R → R eine Funktion mit (g ◦ f )(x) = sin (x2 )
und f ◦ g : R → R eine Funktion mit (f ◦ g)(x) = (sin x)2 .
(ii) Sei f : R → R2 eine Funktion mit f (x) = (x, 2x) und g : R2 → R eine
Funktion mit g(x1 , x2 ) = 2x1 + 5x2 . Dann ist g ◦ f : R → R eine Funktion mit
(g ◦ f )(x) = 2(x) + 5(2x) = 12x.
9.3 Graphische Darstellung von Funktionen
Wie bei Funktionen einer Variablen ist zur Untersuchung reellwertiger Funktionen
eine graphische Analyse oft sehr hilfreich. Der Graph einer höherdimensionalen
63
9 Funktionen von Rm nach Rn
Funktion kann in der Ebene (Tafel, Papier) nur durch geeignete Projektionen
dargestellt werden. In diesem Abschnitt werde verschiedene Möglichkeiten solcher
Projektionen oder Schnitte eingeführt.
Deﬁnition 9.4 (Graph) Sei f : X → Y eine Funktion mit X ⊆ Rn , Y ⊆ Rm .
Dann heißt die Menge
Graph(f ) = Gf = {(x, y) ∈ X × Y | y = f (x)} ⊆ Rn+m
Graph (engl.: graph) von f .
Der Graph ist also die Menge aller Paare bestehend aus einem Element des Deﬁnitionsbereichs von f und dessen Funktionswert im Wertebereich. Für die Darstellung bedienen wir uns des Umstandes, daß sich Teilmengen von R in intuitiver
Weise auf der Zahlengeraden und Teilmengen des R2 und R3 , im Fall des R3 durch
geeignete perspektivische Projektion, in der Ebene darstellen lassen. Wir werden
ab hier beide Schreibweisen Graph(f ) und Gf verwenden.
Beispiel 9.4:
(i) Zu f : R → R mit f (x) = x sin x ist
Gf = {(x, y) ∈ R2 | y = x sin x}.
Ein Ausschnitt von Gf ist in Abbildung 9.3 dargestellt.
(ii) Zu f : R2 → R mit f (x, y) = sin x · sin y ist
Gf = {(x, y, z) ∈ R3 | z = sin x · sin y}.
Ein Ausschnitt von Gf ist, nach geeigneter Projektion auf die Ebene, in Abbildung 9.4 dargestellt.
Eine weitere Möglichkeit, einer reellwertigen Funktion eine Teilmenge des Rn zuzuordnen, besteht in der Betrachtung sogenannter Isohöhenlinien. Diese kommen
in den Wirtschaftswissenschaften häuﬁg als Isoquanten oder Indiﬀerenzkurven
vor.
Deﬁnition 9.5 (Isohöhenlinie) Sei f : X → Y eine Funktion mit X ⊆ Rn ,
Y ⊆ Rm und n, m ∈ N. Für alle y ∈ Y wird die Menge
f −1 ({y})
auch als Isohöhenlinie (engl.: level curve) zum Niveau y bezeichnet.
64
9 Funktionen von Rm nach Rn
y
7.5
5
2.5
2
4
6
8
10
12
-2.5
-5
-7.5
-10
Abbildung 9.3: Teil des Graphen von f (x) = x sin x
65
x
9 Funktionen von Rm nach Rn
0.5
z
0
2
-0.5
0
-2
y
0
-2
x
2
Abbildung 9.4: Ausschnitt des Graphen von f (x, y) = sin x · sin y
66
9 Funktionen von Rm nach Rn
3
2
1
0
-1
-2
-3
-3
-2
-1
0
1
2
3
Abbildung 9.5: Isohöhenlinien von f (x, y) = sin x · sin y
Die Isohöhenlinie zum Niveau y ∈ Y ist also ein Spezialfall des Urbildes einer Menge bestehend aus dem einen Element y ∈ Y in der Bildmenge, also ist
f −1 ({y}) ⊆ Rn .
Beispiel 9.5:
(i) Die Isohöhenlinie der Funktion f : R2 → R mit f (x, y) = x+2y zum Niveau
4 ist f −1 ({4}) = {(x, y) ∈ R2 | x + 2y = 4} . Dies entpricht oﬀenbar der Geraden
in der x-y-Ebene mit der Gleichung y = 2 − 12 x.
(ii) In Abbildung 9.5 sind einige Isohöhenlinien der Funktion f : R2 → R mit
f (x, y) = sin x · sin y zu verschiedenen Niveaus ausschnittsweise dargestellt.
Als letzte Möglichkeit der Darstellung reellwertiger Funktionen sollen noch die
sogenannten projezierten Schnittlinien vorgestellt werden, die auf der im vorangegangenen Abschnitt eingeführten Verkettung von Funktionen basieren.
Deﬁnition 9.6 (Projezierte Schnittlinie) Sei f : X → Y eine Funktion mit
X ⊆ Rn , Y ⊆ Rm und g : Z → X eine Funktion mit Z ⊆ R. Dann heißt der
Graph
Gf ◦g
67
9 Funktionen von Rm nach Rn
z
0.75
0.5
0.25
-3
-2
-1
1
2
3
y
-0.25
-0.5
-0.75
Abbildung 9.6: Projezierte Schnittlinie von f (x, y) = sin x · sin y entlang g1
der Verkettung f ◦ g projezierte Schnittlinie entlang des von g beschriebenen Pfades.
Eine projezierte Schnittlinie zu einer Funktion f entlang eines von einer anderen
Funktion g beschriebenen Pfades ist also die Menge aller Paare bestehend aus
einem Element des Deﬁnitionsbereichs von g als Parameter, der den Ort auf
dem betrachteten Pfad beschreibt, und dem Funktionswert von f an diesem Ort.
Intuitive entspricht dies einem Schnitt durch den Graphen von f entlang einer
durch g beschriebenen Schnittlinie. Da die Schnittlinie durch einen Parameter
beschrieben wird, ist oﬀenbar Gf ◦g ⊆ Rm+1 .
Beispiel 9.6: In den Abbildungen 9.6 bis 9.8 sind projezierte Schnittlinien zur
Funktion f : R2 → R mit f (x, y) = sin x · sin y entlang der Pfade gi : R → R2 für
i = 1, 2, 3 mit g1 (x) = (1, x), g2 (x) = (x, x) und g3 (x) = (x, x2 ) ausschnittsweise
dargestellt.
Alle vorgestellten Möglichkeiten zur graphischen Darstellung reellwertiger Funktionen haben speziﬁsche Vor- und Nachteile. Graphen sind vollständige Darstellungen der Funktion und unter Umständen am anschaulichsten, falls die Funktion
68
9 Funktionen von Rm nach Rn
z
1
0.8
0.6
0.4
0.2
-3
-2
-1
1
2
3
x
Abbildung 9.7: Projezierte Schnittlinie von f (x, y) = sin x · sin y entlang g2
69
9 Funktionen von Rm nach Rn
z
1
0.5
-1.5
-1
-0.5
0.5
1
1.5
x
-0.5
-1
Abbildung 9.8: Projezierte Schnittlinie von f (x, y) = sin x · sin y entlang g3
70
9 Funktionen von Rm nach Rn
niedrigdimensional, also n+m ≤ 3 ist. Isohöhenlinien und projezierte Schnittlinien lassen sich dagegen auch für Funktionen mit n ≤ 3 bzw. m + 1 ≤ 3 darstellen,
sind dafür aber nur eine partielle Beschreibung der Funktion und daher oft weniger anschaulich als Graphen.
9.4 Umkehrfunktionen
Funktionen sind gemäß Deﬁnition 6.1 dadurch charakterisiert, daß sie jedem Element ihres Deﬁnitionsbereichs genau ein Element ihres Wertebereichs zuordnen.
Die Fragestellung, ob eine Funktion möglicherweise umgekehrt auch jedem Element ihres Wertebereichs genau ein Element ihres Deﬁnitionsbereichs zuordnet,
führt zum Begriﬀ der Umkehrfunktion:
Deﬁnition 9.7 (Umkehrfunktion) Eine Funktion g : Y → X heißt Umkehrfunktion (engl.: inverse function) zu einer Funktion f : X → Y , wenn für alle
x ∈ X gilt:
g(f (x)) = x.
Eine solche Funktion wird mit f −1 bezeichnet.
Eine Umkehrfunktion f −1 einer Funktion f : X → Y hat also den Wertebereich
Y von f als Deﬁnitions- und den Deﬁnitionsbereich X von f als Wertebereich
und ordnet jedem Funktionswert f (x) ∈ Y das zugehörige Argument x ∈ X zu.
Beispiel 9.7:
(i) Zu der Funktion f : R → R mit y = f (x) = 2x + 4 ist eine Umkehrfunktion
gegeben durch f −1 : R → R mit x = f −1 (y) = 12 y − 2 die Umkehrfunktion, da
für alle x ∈ R gilt:
f −1 (f (x)) = f −1 (2x + 4)
= 12 (2x + 4) − 2
=x
√
(ii) Sei g : R → R+ mit g(x) = x2 , dann sind sowohl g1−1 (y) = y als auch
√
g2−1 (y) = − y Umkehrfunktionen zur Funktion g und gehen beide von R+ nach
R.
Wie das Beispiel zeigt, existiert allerdings nicht zu jeder Funktion eine eindeutige
Umkehrfunktion. So kann zu g : R → R mit g(x) = x2 keine Umkehrfunktion angegeben werden, da einigen Funktionswerten zwei Argumente zugeordnet werden
können und anderen als Elementen des Wertebereichs von f grundsätzlich möglichen Funktionswerten kein Argument zugeordnet werden kann. Beispielsweise
71
9 Funktionen von Rm nach Rn
f
f
a
1
b
a
2
c
b
3
d
3
d
5
X
2
c
4
e
1
4
e
Y
5
X
(a)
Y
(b)
Abbildung 9.9: Injektivität
existieren mit 1 und −1 zwei mögliche Argumente zum Funktionswert 1 und kein
Argument zum Element −5 des Wertebereichs. Nachfolgend werden Funktionseigenschaften vorgestellt, nämlich Injektivität, Surjektivität und Bijektivität, die
zusammen die Existenz einer eindeutigen Umkehrfunktion garantieren.
Deﬁnition 9.8 (Injektivität, Surjektivität, Bijektivität) Eine Funktion f :
X → Y heißt injektiv (engl.: one-to-one), wenn für alle x1 , x2 ∈ X gilt
f (x1 ) = f (x2 ) ⇒ x1 = x2 .
Eine Funktion f : X → Y heißt surjektiv (engl.: onto), wenn gilt
f (X) = Y.
Ist eine Funktion injektiv und surjektiv, so heißt sie bijektiv (engl.: bijective).
Eine Funktion ist also genau dann injektiv, wenn es möglich ist, vom Funktionswert f (x) eindeutig auf das Argument x zu schließen. In Abbildung 9.9 wird dieser
Umstand an (a) einer injektiven und (b) einer nicht-injektiven Funktion veranschaulicht. Eine Funktion f ist surjektiv, wenn es möglich ist, zu jedem Element
y ihres Wertebereichs mindestens ein Element x des Deﬁnitionsbereichs anzugeben, welches von f auf y abgebildet wird. In Abbildung 9.10 wird dieser Umstand
an (a) einer surjektiven und (b) einer nicht-surjektiven Funktion veranschaulicht.
Oﬀenbar ist unter diesen Abbildungen nur die durch 9.9(a) dargestellte Funktion
bijektiv.
Beispiel 9.8:
(i) f : R2 → R mit f (x, y) = 2(x − 1)y ist oﬀenbar surjektiv, aber wegen
72
9 Funktionen von Rm nach Rn
f
f
a
a
1
b
b
2
c
1
2
c
3
d
3
d
4
4
e
e
X
Y
X
(a)
Y
(b)
Abbildung 9.10: Surjektivität
f (1, 0) = f (2, 0) nicht injektiv.
(ii) g1 : R → R mit g1 (x) = x2 ist weder injektiv noch surjektiv. g2 : [0, ∞) → R
mit g2 (x) = x2 ist injektiv, aber nicht surjektiv und g3 : [0, ∞) → [0, ∞) mit
g3 (x) = x2 ist injektiv und surjektiv, also bijektiv.
Der nachfolgende Satz gibt eine notewendige und hinreichende Voraussetzung für
die Existenz einer Umkehrfunktion an.
Satz 9.1 Zu jeder bijektiven Funktion existiert eine eindeutige Umkehrfunktion.
Umgekehrt ist eine Funktion mit eindeutiger Umkehrfunktion bijektiv.
Die Beweisidee ist, daß die Surjektivität garantiert, jedem Element des Wertebereiches einer Funktion f durch die Umkehrfunktion f −1 mindestens ein Element
des Deﬁnitionsbereichs von f zuzuordnen, während Injektivität sicherstellt, daß
durch die Umkehrfunktion jedem Element des Wertebereichs von f höchstens ein
Element des Deﬁnitionsbereichs von f zugeordnet wird.
Beispiel 9.9:
(i) Die Funktion f : {1, 2, 3} → {a, b, c} mit f (1) = b, f (2) = a und f (3) = c
ist bijektiv. Ihre Umkehrfunktion ist f −1 : {a, b, c} → {1, 2, 3} mit f −1 (a) = 2,
f −1 (b) = 1 und f −1 (c) = 3.
(ii) Die Funktion f : (−∞, 0] → [2, ∞) mit f (x) = x2 + 2 ist, wie an ihrem
√ Gra−1
phen leicht erkennbar ist, bijektiv. Ihre Umkehrfunktion ist f (y) = − x − 2.
73
9 Funktionen von Rm nach Rn
Häuﬁg ist es nützlich und sinnvoll, auch zu injektiven aber nicht surjektiven
Funktion f eine ’Umkehrfunktion’ anzugeben, indem man den Wertebereich von f
auf die Bildmenge von f einschränkt und so eine bijektive Funktion f¯ konstruiert,
die auf dem Deﬁnitionsbereich identisch zur Funktion f ist und zu der nach
Satz 9.1 eine Umkehrfunktion existiert. Der nachfolgende Satz präzisiert dieses
Vorgehen:
Satz 9.2 Jede injektive Funktion f : X → Y induziert genau eine bijektive
Funktion f¯ : X → f (X) mit f¯(x) = f (x), zu der eine Umkehrfunktion f¯−1
existiert.
Beispiel 9.10: Die injektive Funktion f : R → R mit f (x) = ex induziert die
bijektive Funktion f¯ : R → (0, ∞) mit f¯(x) = ex . Deren Umkehrfunktion ist
f¯−1 : (0, ∞) → R mit f¯−1 (y) = ln y.
9.5 Grenzwerte von Funktionen und Stetigkeit
In diesem Abschnitt werden die in den Deﬁnitionen 6.2 und 6.3 eingeführten
Begriﬀe Grenzwert und Stetigkeit auf höhere Dimensionen verallgemeinert. Die
entscheidende Vorarbeit ist bereits erledigt, da die diesen Konzepten zugrundeliegenden Ideen und Intuitionen direkt auf höhere Dimensionen übertragbar sind.
Der Grenzwert einer Funktion ist wie zuvor durch die Konvergenz von zugehörigen Folgen von Funktionswerten gegen einen Funktionswert beliebiger gegen den
selben Wert konvergierender Folgen im Deﬁnitionsbereich der Funktion deﬁniert.
Für die Existenz des Grenzwertes einer Funktion muß also die Konvergenz durch
die Funktion – in eindeutiger Weise – vom Urbild in das Bild übertragen werden.
Deﬁnition 9.9 (Grenzwert einer Funktion) Sei f : X → Y eine Funktion
mit X ⊆ Rn , Y ⊆ Rm . Der Grenzwert ŷ der Funktion f an der Stelle x̂ ∈ X
existiert, falls für jede Folge (xn )n∈N ∈ X mit xn −→ x̂ die Folge
(f (xn ))n∈N
stets gegen das selbe Element ŷ ∈ Y konvergiert. Man schreibt wie im eindimensionalen Fall
lim f (x) = ŷ.
x→x̂
Deﬁnition 9.10 (Stetigkeit) Die Funktion f : X → Y heißt stetig an der
Stelle x̂ ∈ X, falls limx→x̂ f (x) existiert und
lim f (x) = f (x̂).
x→x̂
Die Funktion f heißt stetig auf A ⊆ X, falls f stetig ist für alle x̂ ∈ A
74
9 Funktionen von Rm nach Rn
Für die Deﬁnition des Grenzwertes einer Funktion wollen wir außerdem zulassen,
daß einer Funktion f an einem Randpunkt x̄ ∈ ∂X \ X ihres Deﬁnitionsbereichs,
der nicht Element dieses Deﬁnitionsbereichs ist, ein Grenzwert a zugeordnet werden kann, wenn unabhängig davon, entlang welchen durch eine Folge (xn )n∈N
beschriebenen Pfads man sich dem Randpunkt x̄ anähert, die sich entlang dieses
Pfads ergebende Folge von Funktionswerten (f (xn ))n∈N immer gegen a konvergiert. Eine Funktion f : X → Y ist stetig an einer Stelle x̄ ∈ X, wenn bei der
Konvergenz gegen x̄ entlang des durch eine solche konvergente Folge (xn ) vorgegebenen Pfads die Folge der Funktionswerte (f (xn )) gegen den Funktionswert
f (x̄) konvergiert.
Da der Grenzwertbegriﬀ für Funktionen unmittelbar auf demjenigen für Folgen
aufbaut, gelten alle Aussagen des Satzes 5.4 entsprechend für Grenzwerte von
Funktionen. In den nachfolgenden Beispielen wird davon verschiedentlich Gebrauch gemacht.
Beispiel 9.11:
(i) Sei f : (0, 1) → R mit f (x) = 2x. Dann ist limx→1 f (x) = 2, da zu jeder
Folge (xn ) mit xn −→ 1 und xn ∈ (0, 1) die Folge (f (xn )) = (2xn ) gegen 2
konvergiert.
(ii) Die Funktion f : R → R mit
f (x) =
1
0
für x ≥ 0
für x < 0
1
ist
unstetig
an
der
Stelle
x̄
=
0,
da
etwa
zur
Folge
− n mit − n1 −→ 0 die Folge
1 f − n = (0) gegen 0 konvergiert, obgleich f (0) = 1 ist. Dieses Beispiel korrespondiert mit unserer in Kapitel 6 gegebenen Intuition des abzusetzenden Stiftes
bei Unstetigkeiten. Das folgende Beispiel demonstriert dagegen die Unzulänglichkeit dieser Intuition.
1 (iii) Sei f : (0, ∞) → R mit f (x) = sin x1 . Da zu der Folge
2πn
die Fol 1 1
= (sin 2πn) = (0) gegen 0 und zu der Folge 2πn+ π die Folge
ge f 2πn
2
1
π
= sin 2πn + 2 ) = (1) gegen 1 konvergiert, existiert limx→0 f (x)
f 2πn+ π
2
nicht. Dieses Beispiel lehrt uns also, daß die in Kapitel 6 gegebene Intuition des
abzusetzenden Stiftes bei Unstetigkeiten hier nicht hilfreich ist, da der durch
diese oﬀenbar unstetige Funktion beschriebene Graph nicht in zwei unzusammenhängende Teilmengen zerfällt, wie das Absetzen des Stiftes suggerieren mag.
(iv) Die Funktion f : R → R mit f (x) = 3x + 5 ist stetig an jeder Stelle x̄, da
für alle Folgen (xn ) mit xn −→ x̄ gilt
|f (xn ) − f (x̄)| = |3xn + 5 − 3x̄ − 5|
= 3|xn − x̄| −→ 3 · 0 = 0,
75
9 Funktionen von Rm nach Rn
also f (xn ) −→ f (x̄).
(v) Die Funktion f : R → R mit f (x) = x2 ist überall stetig, da für alle Folgen
(xn ) mit xn −→ x̄ gilt
|f (xn ) − f (x̄)| = |x2n − x̄2 |
= |(xn − x̄)(xn + x̄)|
= |xn − x̄| · |xn + x̄| −→ 0 · 2x̄ = 0,
daher f (xn ) −→ f (x̄).
(vi) Die Funktion f : R2 → R mit f (x, y) = 2xy ist stetig an jeder Stelle
(x̄, ȳ) ∈ R2 , da für alle Folgen (xn , yn ) mit (xn , yn ) −→ (x̄, ȳ) gilt
|f (xn , yn ) − f (x̄, ȳ)| = |2xn yn − 2x̄ȳ| −→ 2(|x̄ȳ − x̄ȳ| = 0
und daher f (xn , yn ) −→ f (x̄, ȳ).
(vii) Die Funktion f : R \ {0} → R mit f (x) = x1 ist stetig durch geeignete
Einschränkung des Deﬁnitionsbereiches.
(viii)Die Funktion f : R → R mit
1 fürx = n1 mit n ∈ N
f (x) =
x sonst
ist
an der Stelle x̄ = 0, da etwa zur Folge n1 mit n1 −→ 0 die Folge
unstetig
f n1 gegen 1 konvergiert, obgleich f (0) = 0 gilt.
9.6 Monotonie und Homogenität
In den beiden folgenden Abschnitten werden Eigenschaften reellwertiger Funktionen von Rn nach R behandelt (also die Dimension der Bildmenge ist m = 1), die
in den Wirtschaftswissenschaften von zentraler Bedeutung sind. Zunächst werden
wir Monotonie allgemein deﬁnieren.
Deﬁnition 9.11 (Monotonie) Eine Funktion f : X → Y mit X ⊆ Rn , Y ⊆ R
und f (x1 , . . . , xn ) = f (x) ∈ R heißt
i) monoton steigend (engl.: increasing) in der Komponente xi , wenn für alle
x, x ∈ X mit xi > xi und xj = xj für alle j ∈ {1, . . . , n} \ {i} gilt
f (x ) ≥ f (x).
ii) monoton fallend (engl.: decreasing) in der Komponente xi , wenn für alle
x, x ∈ X mit xi > xi und xj = xj für alle j ∈ {1, . . . , n} \ {i} gilt
f (x ) ≤ f (x).
76
9 Funktionen von Rm nach Rn
Ist f monoton steigend (fallend) in xi in allen Komponenten i = 1, . . . , n, so
heißt f monoton steigend (fallend).
Ersetzt man in i) und ii) die Relationszeichen ≥ und ≤ durch > bzw. <, so
erhält man die entsprechenden Deﬁnitionen für strenge Monotonie (engl.: strict
monotonicity).
Unsere aus Kapitel 6 aufgebaute Intuition gilt weiter, und zwar unabhängig für
jede einzelne Komponente. Eine reellwertige Funktion ist also genau dann monoton steigend in einer Komponente ihres Arguments, falls der Funktionswert
für wachsende Werte dieser Komponente (schwach) mitwächst, wenn die anderen
Komponenten konstant bleiben.
Beispiel 9.12:
(i) Die Funktion f : R → R mit f (x) = −x3 ist streng monoton fallend in x.
(ii) Die Funktion f : R2 → R mit f (x, y) = 2x − 3y ist streng monoton steigend
in x und steng monoton fallend in y (vgl. Abbildung 9.11).
(iii) Die Funktion f : R2 → R mit f (x, y) = xy ist weder monoton steigend noch
monoton fallend in x, da etwa für y = 1 die Funktionswerte mit steigendem x
zu-, für y = −1 jedoch abnehmen. Das Gleiche gilt aus Symmetriegründen für y.
Dagegen ist die Funktion g : [0, ∞)2 → R mit g(x, y) = xy aufgrund der Wahl des
Deﬁnitionsbereichs monoton steigend in x und in y und also insgesamt monoton
steigend.
(iv) Die Funktion f : R2 → R mit f (x, y) = ex y ist streng monoton steigend in
y, da für alle x ∈ R die Ungleichung ex > 0 erfüllt ist.
Die Monotonie einer Funktion ergibt sich in den Wirtschaftswissenschaften oft
ganz natürlich. So ist es etwa sinnvoll anzunehmen, daß Produktionsfunktionen,
welche die durch einen Produktionsprozeß vorgegebene Beziehung zwischen Outputmenge und den Inputmengen eingesetzter Produktionsfaktoren, beispielsweise
Kapital und Arbeit, beschreiben, monoton steigend sind, da eine Erhöhung der
Inputmengen im relevanten Bereich eine Erhöhung der Outputmenge bewirkt.
Eine weitere Eigenschaft von Funktionen ist die Homogenität, eine Art abgeschwächte Form der Symmetrie, die in den Wirtschaftswissenschaften häuﬁg verwendet wird, da sie je nach Zusammenhang leicht ökonomisch interpretierbar ist
und den Rechenaufwand deutlich reduzieren kann.
Deﬁnition 9.12 (Homogenität) Eine Funktion f : X → Y mit X ⊆ Rn , Y ⊆
R und λx ∈ X für alle x ∈ X und alle λ > 0 heißt homogen (engl.: homogeneous)
vom Grad r ∈ R, wenn für alle x ∈ X und alle λ > 0 gilt:
f (λx) = λr f (x)
77
9 Funktionen von Rm nach Rn
10
z
5
0
-5
-10
-2
2
1
0
-1
-1
0
x
1
2 -2
Abbildung 9.11: Graph von f (x, y) = 2x − 3y
78
y
9 Funktionen von Rm nach Rn
Eine Funktion ist also homogen vom Grad r, wenn eine Vervielfachung aller
Komponenten ihres Arguments um einen Faktor λ > 0 eine Vervielfachung des
Funktionswerts um den Faktor λr bewirkt.
Beispiel 9.13:
(i) Die Funktion f : R2 → R mit f (x, y) = 2x2 y 3 ist homogen vom Grad 5, da
für alle λ > 0 und alle (x, y) ∈ R2 gilt:
f (λx, λy) = 2(λx)2 (λy)3
= λ5 · 2x2 y 3
= λ5 f (x, y)
(ii) Die Funktion f : R2 → R mit f (x, y) = 5x2 − y 2 ist homogen vom Grad 2,
da für alle λ > 0 und alle (x, y) ∈ R2 gilt:
f (λx, λy) = 5(λx)2 − (λy)2
= λ2 (5x2 − y 2)
= λ2 f (x, y)
(iii) Die Funktion f : R2 → R mit f (x, y) = x2 + xy − y ist inhomogen,
da beispielsweise eine Verdopplung aller Argumente an der Stelle (1, 1) wegen
f (1, 1) = 1 und f (2, 2) = 6 eine Versechsfachung des Funktionswerts bewirkt,
während dieses bei einer Verdopplung aller Argumente an der Stelle (2, 2) wegen
f (2, 2) = 6 und f (4, 4) = 28 nicht der Fall ist.
(iv) Die Funktion f : Rn → R mit f (x) = min{x1 , . . . , xn } und n ∈ N ist
homogen vom Grad 1.
9.7 Konkavität und Quasikonkavität
Die folgenden Eigenschaften Konvexität, Konkavität und Quasikonkavität charakterisieren die Krümmungseigenschaften von Funktionen. Wir werden dabei
sehen, daß die Konzepte Konvexität und Konkavität genau wie bei eidimensionalen Funktionen deﬁniert werden. Das Konzept der Quasikonkavität hat eine lange Tradition, Verwirrung unter Anfängerstudenten der Wirtschaftswissenschaften
zu stiften. Die Quelle der Verwirrung ist der enge Zusammenhang quasikonkaver
Funktionen mit konvexen Mengen, der im Folgenden erläutert werden soll. Wie
das Wort quasikonkav suggeriert, ist es aber eine Abschwächung der Konkavit2at
einer Funktion, d.h. jede konkave Funktion ist auch quasikonkav. Unglücklicherweise ist genau dieser Begriﬀ der Quasikonkavität häuﬁg der für Wirtschaftswissenschaften entscheidende, da er in vielen relevanten Zusammenhängen die
Eindeutigkeit von Lösungen garantiert.
79
9 Funktionen von Rm nach Rn
Deﬁnition 9.13 (Konvexität und Konkavität) Eine Funktion f : X → Y
mit X ⊆ Rn als konvexer Menge, Y ⊆ R heißt
i) konvex (engl.: convex), wenn für alle x, x ∈ X mit x = x und alle λ ∈ (0, 1)
gilt
f (λx + (1 − λ)x ) ≤ λf (x) + (1 − λ)f (x )
und
ii) konkav (engl.: concave), wenn für alle x, x ∈ X mit x = x und alle λ ∈
(0, 1) gilt
f (λx + (1 − λ)x ) ≥ λf (x) + (1 − λ)f (x ).
Ersetzt man in den beiden obigen Ungleichungen die Relationszeichen ≤ und ≥
durch < bzw. >, so erhält man die Deﬁnitionen strenger Konvexität und Konkavität.
Eine Funktion ist also konvex, wenn die gerade Verbindungslinie zwischen zwei
beliebigen Punkten auf dem Graphen der Funktion immer ausschließlich oberhalb des Graphen verläuft (vgl. Abbildung 9.12 (a)) und konkav, wenn diese
ausschließlich unterhalb des Graphen verläuft (vgl. Abbildung 9.12 (b)).
Der analytische Nachweis mit Hilfe von Deﬁnition 9.13, daß eine Funktion konvex
bzw. konkav ist, ist oft umständlich oder nicht möglich. Da dies aber häuﬁg mit
Hilfe von später behandelten Ableitungseigenschaften gemacht wird und meistens
nur die schwächere Eigenschaft Quasikonkavität nötig, ist verzichten wir an dieser
Stelle auf eine Diskussion an Beispielen und gehen gleich zu Quasikonkavität
weiter.
Deﬁnition 9.14 (Quasikonkavität) Eine Funktion f : X → Y mit X ⊆ Rn
als konvexer Menge und Y ⊆ R heißt quasikonkav (engl.: quasiconcave), wenn
für alle x, x ∈ X mit x = x und alle λ ∈ (0, 1) gilt
f (λx + (1 − λ)x ) ≥ min {f (x), f (x )} .
Ersetzt man in dieser Ungleichung das Relationszeichen ≥ durch >, so erhält
man die Deﬁnition strenger Quasikonkavität.
Eine Funktion f : X → Y ist also genau dann quasikonkav, wenn die Funktionswerte beliebiger Konvexkombinationen zweier Punkte den kleineren der beiden
Funktionswerte an diesen Punkten nicht unterschreitet. Entsprechend kann man
Quasikonvexität deﬁnieren, die wir aber hier nicht weiter thematisiern, da sie in
den Wirtschaftswissenschaften selten vorkommt. Der bereits erwähnte Umstand,
daß Quasikonkavität gegenüber Konkavität eine schwächere Eigenschaft ist, wird
präzisiert durch Satz 9.3.
80
9 Funktionen von Rm nach Rn
y
z
λf(x)+(1−λ
λ)f(x’))
f(λx+(1−λ
λ)x’))
0
y
0
x
x
λx+(1−λ
λ)x’
x’
x
x
λx+(1−λ
λ)x’
x’
x
(a)
y
z
f(λx+(1−λ
λ)x’))
λ)f(x’))
λf(x)+(1−λ
0
y
0
x
(b)
Abbildung 9.12: Konvexität und Konkavität
81
9 Funktionen von Rm nach Rn
Satz 9.3 Jede konkave Funktion ist quasikonkav.
Beweis. Sei f : X → Y konkav mit X ⊆ Rn als konvexer Menge und Y ⊆ R.
Dann gilt für alle x, x ∈ X und alle λ ∈ (0, 1)
f (λx + (1 − λ)x ) ≥ λf (x) + (1 − λ)f (x )
≥ λ min {f (x), f (x )} + (1 − λ) min {f (x), f (x )}
= min {f (x), f (x )}
Folglich ist f auch quasikonkav.
Eine äquivalente Charakterisierung von Quasikonkavität gibt Satz 9.4. Er besagt,
daß eine Funktion f : X → Y genau dann quasikonkav ist, wenn zu jedem
Niveau a ∈ Y die sogenannte obere Konturmenge oder Bessermenge Ba , die
alle x ∈ X mit f (x) ≥ a enthält, konvex ist. Aus Satz 9.4 folgt insbesondere,
daß die Konvexität der oberen Konturmengen eine alternative Deﬁnition von
Quasikonkavität darstellt. Dieser semantisch ungückliche Umstand ist häuﬁge
Quelle von Irrtümern bei unbedarften Benutzern.
Satz 9.4 Eine Funktion f : X → Y mit X ⊆ Rn als konvexer Menge, Y ⊆ R
und n ∈ N ist genau dann quasikonkav, wenn für alle a ∈ Y die Bessermenge
(engl.: upper level set)
Ba = {x | x ∈ X ∧ f (x) ≥ a}
konvex ist (vgl. Abbildung 9.13).
Beweis. Da Satz 9.4 eine Äquivalenzaussage macht, müssen Implikationen in
beiden Richtungen gezeigt werden. Zeige also zunächst, daß aus der Quasikonkavität von f die Konvexität von Ba für alle a ∈ Y folgt. Seien x, x ∈ Ba für ein
beliebiges a ∈ Y . Dann ist f (x) ≥ a und f ( x) ≥ a. Da f nach Voraussetzung
quasikonkav ist, gilt dann für alle λ ∈ (0, 1) die Beziehung
f (λx + (1 − λ)x ) ≥ min {f (x), f (x )} ≥ a.
Also ist λx + (1 − λ)x ∈ Ba und daher Ba konvex. Zeige nun umgekehrt, daß
aus der Konvexität von Ba für alle a ∈ Y die Quasikonkavität von f folgt. Seien
x, x ∈ Ba mit a = min {f (x), f (x )}. Da Ba nach Voraussetzung konvex ist, gilt
für alle λ ∈ (0, 1) die Beziehung
λx + (1 − λ)x ∈ Ba .
82
9 Funktionen von Rm nach Rn
y
Ba
f−1({a
a})
0
x
Abbildung 9.13: Quasikonkavität
3
2
1
10
z 5
0
-5
0
2
-1
0 y
-2
-2
0
x
-2
-3
-3
2
-2
-1
0
1
2
3
Abbildung 9.14: Graph und Bessermengen von f (x, y) = 10 − (x2 + y 2 )
Also ist f (λx + (1 − λ)x ) ≥ min {f (x), f (x )} und daher f quasikonkav.
Beispiel 9.14:
(i) Die Funktion f : R2 → R mit f (x, y) = 10 − (x2 + y 2) ist quasikonkav
(vgl. Abbildung 9.14).
(ii) Die Funktion f : R → R mit f (x) = ex ist quasikonkav aber strikt konvex
also nicht konkav. Warum?
(iii) Jede stetige eingipﬂige Funktion R → R mit höchstens einem Maximum
ist quasikonkav. So ist z.B. f1 : R → R mit f1 (x) = −x2 quasikonkav (und auch
2
konkav). Dagegen ist f2 : R → R mit f2 (x) = e−x quasikonkav aber nicht konkav.
Warum?
83
9 Funktionen von Rm nach Rn
Insbesondere Quasikonkavität ist oft ganz natürlich eine Eigenschaft von Funktionen, die wirtschaftliche Phänomene beschreiben. So ist es beispielweise oft
sinnvoll anzunehmen, daß Nutzenfunktionen, die den Zusammenhang zwischen
der ’Zufriedenheit’ eines Konsumenten und seinem Konsum beschreiben, quasikonkav sind.
9.8 Ausgewählte Typen von Funktionen
In diesem Abschnitt werden zum Abschluß dieses Kapitels einige Typen von
Funktionen vorgestellt, die bei der Beschreibung ökonomischer Phänomene besonders häuﬁg benutzt werden, da sie rechnerisch leicht zu handhaben sind. Den
Lesern wird als Übung and Herz gelegt, die aufgezählten Eigenschaften anhand
der Deﬁnitionen dieses Kapitels zu veriﬁzieren.
Deﬁnition 9.15 (Cobb-Douglas-Funktion) Eine Funktion f : [0, ∞)n → R
mit
n
f (x) =
xai i
i=1
mit festen ai > 0 für alle i = 1, . . . , n heißt Cobb-Douglas-Funktion.
Cobb-Douglas-Funktionen
sind monoton
n steigend in x1 bis xn , homogen vom
n
Grad i=1 ai , quasikonkav und für i=1 ai ≤ 1 zusätzlich konkav.
Deﬁnition 9.16 (Leontief- oder auch limitationale Funktion) Eine Funktion f : [0, ∞)n → R mit
x1
xn
f (x) = min
,...,
a1
an
und mit festen ai > 0 für alle i = 1, . . . , n heißt Leontief-Funktion.
Leontief-Funktionen sind monoton steigend in x1 bis xn , homogen vom Grade 1,
quasikonkav und konkav.
Deﬁnition 9.17 (CES-Funktion) Eine Funktion f : [0, ∞)n → R mit
f (x) =
n
1q
ai xqi
i=1
und mit festen ai > 0 für alle i = 1, . . . , n, q ≤ 1 und q = 0 heißt CES-Funktion.
84
9 Funktionen von Rm nach Rn
2
1.5
z4
3
2
1
0
0
0.5
2
1.5
1y
0.5
1
x 1.5
1
0.5
20
0
0
0.5
1
1.5
2
6
Abbildung 9.15: Graph und Isohöhenlinien zu f (x, y) = x 5 y
2
1.5
1
0.75
z
0.5
0.25
0
0
0.5
1
x 1.5
2
1.5
1y
0.5
1
0.5
20
0
0
0.5
1
1.5
2
Abbildung 9.16: Graph und Isohöhenlinien zu f (x, y) = min x, y2
CES-Funktionen1 sind monoton steigend in x1 bis xn , homogen vom Grad 1,
quasikonkav und für q > −1 zusätzlich konkav.
Beispiel 9.15:
6
(i) f : [0, ∞)2 → R mit f (x, y) = x 5 y ist eine Cobb-Douglas-Funktion. Ihr
Graph und einige Isohöhenlinien sind inAbbildung
9.15 dargestellt.
(ii) f : [0, ∞)2 → R mit f (x, y) = min x, y2 ist eine Leontief-Funktion. Dabei
ist f (8, 4) = min{8, 2} = 2, f (8, 8) = min{8, 4} = 4 und f (8, 20) = min{8, 10} =
8. Ihr Graph und einige Isohöhenlinien
9.16 dargestellt.
√sind in√Abbildung
2
2
(iii) f : [0, ∞) → R mit f (x, y) = 2 x + 2 y ist eine CES-Funktion.
Eine CES-Funktion
f (x) =
n
1q
ai xqi
i=1
1
Die Abkürzung CES steht für ’constant elasticity of substitution’.
85
9 Funktionen von Rm nach Rn
approximiert für q −→ −∞ eine Leontief-Funktion und für q −→ 0 eine CobbDouglas-Funktion. Insofern können CES-Funktionen als die allgemeinsten der
drei hier vorgestellten Funktionstypen aufgefaßt werden.
86
10 Diﬀerentialrechnung
In diesem Kapitel wird das zentrale Instrument der Analysis auf Funktionen
mehrerer Veränderlicher erweitert. Die Diﬀerentialrechnung (engl.: calculus) ist
auch das wichtigste Handwerkzeug der Wirtschaftswissenschaften.
10.1 Partielle Ableitungen
In diesem Abschnitt wird die Ableitung reellwertiger Funktionen mit mehreren
Veränderlichen behandelt. Eine Funktion mehrerer Veränderlicher kann wie wir
bei den graphischen Darstellungen von Funktionen gelernt haben auf verschiedene
Art und Weise als Funktion einer Variablen interpretiert werden. Die einfachste
Art ist, alle Variablen außer einer konstant zu halten. Die Ableitung jeder dieser so gebildeten Funktionen einer Variablen (deren Graphen die projezierten
Schnittlinien sind) heißen partielle Ableitungen.
Deﬁnition 10.1 (Partielle Diﬀerenzierbarkeit und Ableitung) Eine Funktion f : X → Y mit X ⊆ Rn , Y ⊆ R heißt für i ∈ {1, . . . , n} partiell diﬀerenzierbar (engl.: partially diﬀerentiable) nach xi an der Stelle x̄ ∈ X, wenn der
Grenzwert
lim
xi →x̄i
f (x̄1 , . . . , xi , . . . , x̄n ) − f (x̄)
f (x̄1 , . . . , x̄i + ∆xi , . . . , x̄n ) − f (x̄)
= lim
∆xi →0
xi − x̄i
∆xi
existiert. Dieser Grenzwert heißt dann erste partielle Ableitung (engl.: ﬁrst-order
partial derivative) von f nach xi an der Stelle x̄ und wird geschrieben als
∂f
(x̄)
∂xi
oder Di f (x̄)
oder verkürzt fi (x̄).
Ist f an jeder Stelle x ∈ X partiell diﬀerenzierbar nach xi , so heißt f partiell
diﬀerenzierbar nach xi . Die Funktion, die jedem x ∈ X die partielle Ableitung
von f nach xi an der Stelle x zuordnet, heißt dann partielle Ableitung von f nach
xi und wird bezeichnet mit
∂f
∂xi
oder Di f
oder verkürzt als fi .
87
10 Diﬀerentialrechnung
Ist f partiell diﬀerenzierbar nach xi für alle i ∈ {1, . . . , n}, so heißt f partiell
diﬀerenzierbar. Sind außerdem alle partiellen Ableitungen von f stetig, so nennt
man f C 1 -Funktion.
Beispiel 10.1:
(i) Sei f (x1 , x2 ) = a1 x1 + a2 x2 + b eine lineare Funktion von R2 nach R. Dann
sind sind die partiellen Ableitungen konstant, also
∂f
(x1 , x2 ) = a1
∂x1
und
∂f
(x1 , x2 ) = a2 .
∂x2
(ii) Sei fy : R → R eine parametrisierte Funktionenschar mit fy (x) = 2x2 y und
y ∈ R als Parameter. Dann ist für alle x, y ∈ R die Ableitung dfdxy (x) = 4xy.
∂g
(x̄, ȳ) = 4x̄ȳ
Sei nun g : R2 → R eine Funktion mit g(x, y) = 2x2 y. Dann ist ∂x
die partielle Ableitung von g nach x an einer Stelle (x̄, ȳ) ∈ R2 , wie die folgende
Grenzwertbetrachtung erbringt:
2
2
ȳ−2x̄ ȳ
= lim∆x→0 2(x̄+∆x)
lim∆x→0 g(x̄+∆x,ȳ)−g(x̄,ȳ)
∆x
∆x
2
= lim∆x→0 4x̄ȳ∆x+2ȳ(∆x)
∆x
= 4x̄ȳ
∂f
Graphisch kann man die partielle Ableitung ∂x
(x̄) einer Funktion f : X → Y mit
i
X ⊆ Rn , Y ⊆ R darstellen als Steigung derjenigen Tangente an den Graphen von
f im Punkt (x, f (x)), die parallel zur (xi , f (x))-Ebene verläuft (vgl. Abbildung
10.1).
10.2 Richtungsableitung, Kettenregel, Satz von
Euler
Mit Hilfe der partiellen Ableitungen deﬁnieren wir allgemeiner die Richtungsableitung, die die lokale Veränderung des Funktionswertes in einer beliebigen
Richtung (also nicht unbedingt entlang einer der Koordinatenachsen) beschreibt.
Deﬁnition 10.2 (Richtungsableitung) Die Richtungsableitung der Funktion
f : X → Y mit X ⊆ Rn , Y ⊆ R an der Stelle x̄ in Richtung r̄ ∈ Rn mit r̄ = 1
ist deﬁniert durch
f (x̄ + hr̄) − f (x̄)
.
Df (x̄; r̄) = lim
h→0
h
88
10 Diﬀerentialrechnung
f(x1,x2)
t
Gf
x1
x2
x1
x2
Abbildung 10.1: Geometrische Interpretation der partiellen Ableitung
In dieser Deﬁnition wird die Richtung, in der die Funktion f abgeleitet wird, auf
die Länge 1 normiert, da in diesem Fall die Richtungsableitung in Richtung des
i-ten Einheitsvektors ei = (0, . . . , 0, 1, 0, . . . , 0) (nur 1 bei der i-ten Koordinate,
sonst 0) mit der jeweiligen partiellen Ableitung übereinstimmt, also
Df (x̄; ei ) =
∂f (x̄)
.
∂xi
Es gilt die Rechenregel
n
∂f
(x̄) · r̄i .
Df (x̄; r̄) =
∂xi
i=1
3
Beispiel 10.2: Die Richtungsableitung
der
Funktion f (x1 , x2 ) = 2x1 x2 an der
Stelle x̄ = (2, 1) in Richtung r̄ = √12 , √12 ist
1
1
1 1
= 2 · √ + 12 √ .
Df (2, 1); √ , √
2 2
2
2
Die Kettenregel für Funktionen mehrerer Veränderlicher ist eine unmittelbare
Verallgemeinerung der uns bekannten Kettenregel für Funktionen einer Veränderlicher. Da bei der Hintereinanderausführung von Funktionen gleichzeitig alle Zwischenvariablen verändert werden können durch Veränderung einer Variablen in
89
10 Diﬀerentialrechnung
der Urbildmenge ergibt sich die Veränderung der zusammengesetzten Funktion
wie bei der Richtungsableitung durch die Summe der Veränderungen der Zwischenvariablen.
Satz 10.1 (Kettenregel) Sei f : X1 × . . . × Xn → Y mit X1 , . . . , Xn ⊆ R,
Y ⊆ R eine partiell diﬀerenzierbare Funktion. Seien außerdem gi : T → Xi mit
T ⊆ Rk und k ∈ N für alle i ∈ {1, . . . , n} partiell diﬀerenzierbare Funktionen.
Dann ist die zusammengesetzte Funktion h : T → Y mit
h(t) = f (g1 (t), . . . , gn (t))
diﬀerenzierbar für alle j ∈ {1, . . . , k} und es gilt
∂f
∂gi
∂h
(t) =
(g1 (t), . . . , gn (t)) ·
(t).
∂tj
∂xi
∂tj
i=1
n
Beispiel 10.3:
(i) Seien insbesondere gi : T → Xi mit T ⊆ R diﬀerenzierbare Funktionen
einer Variablen. Dann ist die zusammengesetzte Funktion h : T → Y eine diﬀerenzierbare Funktion einer Variablen mit
h(t) = f (g1 (t), . . . , gn (t))
für alle t ∈ T :
∂f
dgi
dh
(g1 (t), . . . , gn (t)) ·
(t) =
(t).
dt
∂xi
dt
i=1
n
(ii) Sei f : R2 → R mit f (x1 , x2 ) = x21 (x2 + 1), g1 : R → R mit g1 (t) = sin t und
g2 : R → R mit g2 (t) = t2 . Dann ist die Ableitung der Funktion h : R → R mit
h(t) = f (g1 (t), g2 (t))
gemäß des vorhergehenden Beispiels
∂f
· dgdt1 (t) + ∂x
(g1 (t), g2 (t)) ·
2
= 2(sin t)(t + 1) · cos t + (sin t)2 · 2t.
∂f
dh
(t) = ∂x
(g1 (t), g2 (t))
dt
1
2
dg2
(t)
dt
(iii) Sei f : R2 → R mit f (x1 , x2 ) = x2 sin x1 , g1 : R2 → R mit g1 (t) = t1 t2
und g2 : R2 → R mit g2 (t) = t2 . Dann ist die partielle Ableitung der Funktion
h : R2 → R mit
h(t) = f (g1 (t), g2 (t))
90
10 Diﬀerentialrechnung
nach t2 gemäß Satz 10.1
∂f
1
· ∂g
(t) + ∂x
(g1 (t), g2 (t)) ·
∂t2
2
= t2 (cos t1 t2 ) · t1 + (sin t1 t2 ) · 1.
∂f
∂h
(t) = ∂x
(g1 (t), g2 (t))
∂t2
1
∂g2
(t)
∂t2
Wir erinnern uns, daß Wirtschaftswissenschaftler gerne homogene Funktionen benutzen. Daher wird hier ein wichtiger Satz über homogene Funktionen angeführt.
Der Beweis und die weitere Vertiefung wird als Übungsaufgabe behandelt.
Satz 10.2 (Satz von Euler) Sei f : [0, ∞)n → R eine vom Grad r ∈ R homogene C 1 -Funktion. Dann gilt für alle x̄ ∈ [0, ∞)n :
n
∂f
(x̄)x̄i = rf (x̄).
∂x
i
i=1
10.3 Gradient, totales Diﬀerential
Die partiellen Ableitungen einer C 1 -Funktion werden häuﬁg zu einem Vektor,
dem sogenannten Gradient, zusammengefaßt:
Deﬁnition 10.3 (Gradient) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine C 1 Funktion. Dann heißt der Vektor
∂f
∂f
gradf (x̄) = ∇f (x̄) =
(x̄), . . . ,
(x̄)
∂x1
∂xn
Gradient (engl.: gradient vector) von f an der Stelle x̄ ∈ X.1
Beispiel 10.4: Sei f : R2 → R mit f (x, y) = 3x2 y − x. Dann ist
∇f (x, y) = 6xy − 1, 3x2 .
Der Gradient ∇f (x) besitzt Eigenschaften, die ihn sehr anschaulich und leicht
interpretierbar machen:
• ∇f (x) zeigt an jeder Stelle x ∈ X in die Richtung des steilsten Anstiegs
des Funktionswerts.
1
Das Symbol ∇ wird Nabla genannt.
91
10 Diﬀerentialrechnung
y
3
∇f(0.5, 2) = (2, 0.5)T
2
∇f(1, 1) = (1, 1)T
1
f−1({1})
0
0
0.5
1
2
3
4
x
Abbildung 10.2: Eigenschaften des Gradienten am Beispiel von f (x, y) = xy
• ∇f (x) steht für alle x ∈ X senkrecht auf der Isohöhenlinie von f zum
Niveau f (x).
Man erinnere sich in diesem Zusammenhang, daß die Isohöhenlinie in derjenigen
Richtung verläuft, in der die Funktion einen konstanten Funktionswert besitzt,
sich also gar nicht verändert.
Beispiel 10.5: Abbildung 10.2 veranschaulicht diese Eigenschaften des Gradienten an der Funktion f : [0, ∞)2 → R mit f (x, y) = xy. Abgebildet sind die
Isohöhenlinie von f zum Niveau
1 1 und die Gradienten ∇f (x, y) = (y, x) von f
für (x, y) = (1, 1) und (x, y) = 2 , 2 .
Die Ableitung einer Funktion f : X → Y mit X, Y ⊆ R an einer Stelle x̄ ∈ X
kann, wie wir wissen, als Steigung der Tangente t an den Graphen von f im Punkt
(x̄, f (x̄)) interpretiert werden (vgl. Abbildung 10.3 (a)). Die Geradengleichung
dieser Tangente in x ∈ R und y ∈ R ist
y = f (x̄)(x − x̄) + f (x̄).
Mit ȳ = f (x̄), dx = x − x̄ und dy = y − ȳ ergibt sich daraus formal
dy = f (x̄)dx.
Die Tangente ist der Graph der linearen Funktion, die die Funktion f im Punkt
x̄ am besten approximiert.
92
10 Diﬀerentialrechnung
y
z
Et
t
Gf
Gf
x
x
x
y
(a)
(b)
Abbildung 10.3: Geometrische Interpretation des totalen Diﬀerentials
Entsprechend kann mit Hilfe der partiellen Ableitungen einer C 1 -Funktion f :
X → Y mit X ⊆ R2 und Y ⊆ R an einer Stelle (x̄, ȳ) ∈ X die Gleichung
einer Tangentialebene Et an den Graphen von f in einem Punkt (x̄, ȳ, f (x̄, ȳ))
angegeben werden (vgl. Abbildung 10.3 (b)). Sie lautet in x ∈ R, y ∈ R und
z ∈ R:
∂f
∂f
z=
(x̄, ȳ)(x − x̄) +
(x̄, ȳ)(y − ȳ) + f (x̄, ȳ).
∂x
∂y
Mit z̄ = f (x̄, ȳ), dx = x − x̄, dy = y − ȳ und dz = z − z̄ ergibt sich daraus
dz =
∂f
∂f
(x̄, ȳ)dx +
(x̄, ȳ)dy.
∂x
∂y
Wie zuvor ist die Tangentialebene der Graph der linearen Funktion von R2 nach
R, die die Funktion f im Punkt (x̄, ȳ) am besten approximiert.
Die Erweiterung dieses Konzeptes auf den allgemeinen Fall von Funktionen mit
n ∈ N Veränderlichen führt zum Begriﬀ des totalen Diﬀerentials.
Deﬁnition 10.4 (Totales Diﬀerential) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R
eine C 1 -Funktion. Das totale Diﬀerential Df (x̄) an der Stelle x̄ ist die lineare
Funktion
Df (x̄) : Rn −→ R
mit
dx −→ Df (x̄)(dx) = Df (x̄; dx) =
93
n
∂f
(x̄) · dxi = ∇f (x̄) · dx,
∂x
i
i=1
10 Diﬀerentialrechnung
wobei ∇f (x̄) · dx für das Vektorprodukt des Gradienten mit dx = (dx1 , . . . , dxn ) ∈
Rn , einem beliebiger Vektor des Rn steht. Eine andere verkürzte Schreibweise
dafür ist
n
∂f
(x̄)dxi .
df =
∂xi
i=1
Die Schreibweise Df (x̄; dx) verdeutlicht, daß das totale Diﬀerential als verallgemeinerte Richtungsableitung aufgefaßt werden kann. Im Gegensatz zur Richtungsableitung wird die Länge des Vektors dx aber nicht normiert, kann also
beliebig sein. Der Graph des totalen Diﬀerentials ist, wie wir in den Dimensionen
n = 1, 2 gesehen haben, der Tangentialraum oder die Tangetialhyperebene 2 an
den Graphen der Funktion f .
Beispiel 10.6: Sei f : R2 → R mit f (x, y) = x2 + y 2. Dann ist das totale
Diﬀerential von f an einer Stelle (x̄, ȳ) ∈ R2
df = 2x̄ · dx + 2ȳ · dy
und für (x̄, ȳ) = (1, 1)
df = 2dx + 2dy.
Der Vergleich zwischen dem totalen Diﬀerential von f an der Stelle (x̄, ȳ) = (1, 1)
und der tatsächlichen Veränderung des Funktionswerts
∆f = ∆f ((x̄, ȳ), (dx, dy)) = f (x̄ + dx, ȳ + dy) − f (x̄, ȳ)
bei einer Änderung der Komponenten des Arguments um dx und dy ausgehend
von (x̄, ȳ) = (1, 1) für verschiedene Werte von dx und dy ergibt die folgende
Tabelle:
(dx, dy)
∆f
df
(0.01, 0.01) 0.0402 0.04
(0.1, 0.01) 0.2301 0.22
(1, 1)
6
4
(10, 10)
240
40
2
Das ’hyper’ im Wort Tangentialhyperebene bezieht sich auf den Umstand daß deren Dimension nicht unbedingt 2 sein muß wie das Wort ’Ebene’ suggerieren mag.
94
10 Diﬀerentialrechnung
10.4 Höhere Ableitungen
Wir verallgemeinern nun den Begriﬀ der höheren Ableitung auf Funktionen mit
mehreren Veränderlichen.
Deﬁnition 10.5 (Ableitungen höherer Ordnung) Ist für i ∈ {1, . . . , n} die
∂f
einer nach xi partiell diﬀerenzierbaren Funktion f :
erste partielle Ableitung ∂x
i
n
X → Y mit X ⊆ R , Y ⊆ R für ein j ∈ {1, . . . , n} partiell diﬀerenzierbar
∂f
nach xj , dann heißt die erste partielle Ableitung von ∂x
nach xj zweite partielle
i
Ableitung (engl.: second-order partial derivative) von f nach xi und xj . Diese
Ableitung wird bezeichnet mit
∂2f
∂xj ∂xi
oder verkürzt fji
bzw. für i = j mit
∂2f
.
∂x2i
Die Fortschreibung dieser Deﬁnition führt zur partiellen Ableitung k-ter Ordnung
mit k ∈ N, die mit
∂k f
∂xik . . . ∂xi1
für i1 , . . . , ik ∈ {1, . . . , n} bezeichnet wird.
Beispiel 10.7: Sei f : R2 → R mit f (x, y) = x2 y + xy 3 . Die ersten partiellen
Ableitungen sind
Dann sind
und
∂f
(x, y) = 2xy + y 3
∂x
und
∂f
(x, y) = x2 + 3xy 2 .
∂y
∂2f
(x, y) = 2y
∂x2
und
∂2f
(x, y) = 6xy
∂y 2
∂2f
(x, y) = 2x + 3y 2
∂x∂y
und
∂2f
(x, y) = 2x + 3y 2 .
∂y∂x
2
2
∂ f
∂ f
In diesem Beispiel fällt auf, daß die beiden gemischten Ableitungen ∂x∂y
und ∂y∂x
übereinstimmen. Diese Aussage gilt allgemein für zweimal stetig diﬀerenzierbare
Funktionen, so genannte C 2 -Funktionen.
Deﬁnition 10.6 (C 2 -Funktion) Existieren zu einer Funktion f : X → Y mit
X ⊆ Rn , Y ⊆ R alle zweiten partiellen Ableitungen und sind diese Ableitungen
stetig, so heißt f C 2 -Funktion.
95
10 Diﬀerentialrechnung
Satz 10.3 Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine C 2 -Funktion. Dann gilt für
alle i, j ∈ {1, . . . , n} und für alle x ∈ X
∂2f
∂2f
(x) =
(x).
∂xi ∂xj
∂xj ∂xi
Alle zweiten partiellen Ableitungen einer C 2 -Funktion werden zur sogenannten
Hesse-Matrix, deren Deﬁnition nachfolgend angegeben ist, zusammengefasst. Wie
die zweite Ableitung bei Funktionen von R nach R enthält die Hesse-Matrix an
einer Stelle x̄ Informationen über die lokalen Krümmungseigenschaften wie z.B.
Konkavität oder Konvexität einer Funktion an dieser Stelle.
Deﬁnition 10.7 (Hesse-Matrix) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine
zweimal partiell diﬀerenzierbare Funktion. Dann heißt die Matrix

 ∂2f
∂2f
∂2f
(x̄)
(x̄)
·
·
·
(x̄)
2
∂x
∂x
∂x
∂x
∂x
n
2
1
1

 ∂ 2 f1
∂2f
∂2f

(x̄)
(x̄)
·
·
·
(x̄) 
2
∂x
∂x
∂x
∂x
∂x
2
n
1
2
2

2
D f (x̄) = 
..


..
..
..
.


.
.
.
∂2f
∂2f
∂2f
(x̄) ∂x2 ∂xn (x̄) · · ·
(x̄)
∂x1 ∂xn
∂x2
n
Hesse-Matrix (engl.: Hessian) von f an der Stelle x̄ ∈ X.
Oﬀensichtlich ist die Hesse-Matrix einer C 2 -Funktion nach Satz 10.3 symmetrisch.3
Beispiel 10.8:
(i) Sei f : R2 → R mit f (x, y) = 3x2 y − 5y 3. Dann ist
2
∂ f
∂2f
(x,
y)
(x,
y)
6y
6x
2
2
∂x
∂y∂x
D f (x, y) =
=
.
2
∂2f
6x −30y
(x, y) ∂∂yf2 (x, y)
∂x∂y
(ii) Sei f : R3 → R mit f (x, y, z) = x2 yz − y 3 z 2 . Dann ist

 ∂2f
∂2f
∂2f
(x, y, z) ∂y∂x
(x, y, z) ∂z∂x
(x, y, z)
∂x2
2

 ∂2f
∂2f
D 2 f (x, y, z) =  ∂x∂y
(x, y, z) ∂∂yf2 (x, y, z) ∂z∂y
(x, y, z) 
2
∂2f
∂2f
(x, y, z) ∂y∂z
(x, y, z) ∂∂zf2 (x, y, z)

 ∂x∂z
2yz
2xz
2xy
x2 − 6y 2z  .
=  2xz
−6yz 2
−2y 3
2xy x2 − 6y 2z
3
Eine Matrix A = (aij )n×n mit n ∈ N heißt symmetrisch, falls aij = aji für alle i, j ∈
{1, . . . , n}.
96
10 Diﬀerentialrechnung
10.5 Eigenschaften von Funktionen und ihre
Ableitungen
In diesem Abschnitt werden Zusammenhänge zwischen den in den Abschnitten
9.6 und 9.7 vorgestellten Monotonie-, Konkavitäts- und Quasikonkavitätseigenschaften von Funktionen und ihren ersten und zweiten Ableitungen behandelt.
Der nachfolgend angegebene Satz beschreibt den Zusammenhang zwischen den
Monotonieeigenschaften einer Funktion und ihren ersten partiellen Ableitungen.
Satz 10.4 Sei f : X → Y mit X ⊆ Rn , Y ⊆ R und f : (x1 , . . . , xn ) −→ f (x)
eine C 1 -Funktion. Dann gilt:
i) f steigt genau dann monoton in xi , wenn für alle x ∈ X gilt:
∂f
(x) ≥ 0.
∂xi
ii) f steigt streng monoton in xi , wenn für alle x ∈ X gilt:
∂f
(x) > 0.
∂xi
Ersetzt man in i) und ii) die beiden Relationszeichen ≥ und > durch ≤ bzw. <,
so erhält man die entsprechenden Aussagen für monoton fallende Funktionen.
Man beachte, daß der Satz für strenge Monotonie nur eine hinreichende Bedingung nennt, während er für (schwache) Monotonie eine notwendige und hinreichende Bedingung angibt.
Beispiel 10.9:
(x, y) = 3 >
(i) Die Funktion f : R2 → R mit f (x, y) = 3x+5y 3 steigt wegen ∂f
∂x
2
0 für alle (x, y) ∈ R streng monoton in x. Außerdem steigt f wegen ∂f
(x, y) =
∂y
2
2
15y ≥ 0 für alle (x, y) ∈ R monoton in y. f steigt sogar streng monoton in y.
(0, 0) = 0 die
Dies kann aber nicht aus Satz 10.4 geschlossen werden, da wegen ∂f
∂y
hinreichende Bedingung nicht erfüllt ist.
(ii) Die Funktion f : [0, ∞)n → R mit
f (x) =
n
xai i
i=1
und a1 , . . . , an > 0 ist für alle i = 1, . . . n monoton steigend in xi wegen
a
∂f
(x) = ai xiai −1 ·
xj j ≥ 0.
∂xi
j=1
n
j=i
97
10 Diﬀerentialrechnung
Während die ersten Ableitungen einer Funktion Auskunft über deren Monotonieeigenschaften geben, stehen die zweiten Ableitungen in engem Zusammenhang mit den Konvexitäts- und Konkavitätseigenschaften der Funktion. Allgemein kann aus den Vorzeichen der Determinanten geeignet gewählter Teilmatrizen der Hesse-Matrix einer Funktion auf deren Krümmung geschlossen werden.
Wir beschränken uns im Rahmen diese Skriptums auf die entsprechenden Zusammenhänge für Funktionen mit einer oder zwei reellen Veränderlichen mit den
Sätzen 10.5 bis 10.7 ohne Beweise. 4
Satz 10.5 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R eine oﬀene und
konvexe Menge reeller Zahlen ist und Y ⊆ R . Dann gilt:
i) f ist genau dann konvex, wenn für alle x ∈ X gilt:
d2 f
(x) ≥ 0
dx2
ii) f ist streng konvex, wenn für alle x ∈ X gilt:
d2 f
(x) > 0
dx2
Ersetzt man in i) und ii) die beiden Relationszeichen ≥ und > durch ≤ bzw. <,
so erhält man zwei analoge Aussagen für konkave Funktionen.
Satz 10.6 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R2 oﬀen und konvex ist
und Y ⊆ R . Dann gilt:
i) f ist genau dann konvex, wenn für alle x ∈ X gilt:
∂2f
(x) ≥ 0
∂x21
2
∂ f
(x) ≥ 0
∂x22
2
det (D f (x)) ≥ 0
ii) f ist streng konvex, wenn für alle x ∈ X gilt:
∂2f
(x) > 0
∂x21
2
det (D f (x)) > 0
4
Für weiterführende Aussagen zu diesem Thema sei der interessierte Leser auf Sydsæter et
al. (1999, S. 79ﬀ) verwiesen.
98
10 Diﬀerentialrechnung
Satz 10.7 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R2 oﬀen und konvex ist
und Y ⊆ R . Dann gilt:
i) f ist genau dann konkav, wenn für alle x ∈ X gilt:
∂2f
(x) ≤ 0
∂x21
2
∂ f
(x) ≤ 0
∂x22
2
det (D f (x)) ≥ 0
ii) f ist streng konkav, wenn für alle x ∈ X gilt:
∂2f
(x) < 0
∂x21
2
det (D f (x)) > 0
Wiederum beachte man, daß diese Sätze für strenge Konvexität und Konkavität
nur hinreichende Bedingungen angeben, während sie für (schwache) Konvexität
und Konkavität notwendige und hinreichende Bedingungen angeben.
Beispiel 10.10:
2
(i) Die Funktion f : R → R mit f (x) = x4 ist wegen ddxf2 (x) = 12x2 ≥ 0
für alle x ∈ R nach Satz 10.5 i) konvex. Ob f streng konvex ist, kann mit Satz
10.5 hingegen nicht entschieden werden, da die hinreichende Bedingung wegen
d2 f
(0) = 0 nicht erfüllt ist.
dx2
2
(ii) Die Funktion f : R2 → R mit f (x, y) = x2 + y 2 + xy ist wegen ∂∂xf2 (x, y) =
2 > 0 und
2
2 1
=3>0
det D f (x, y) = det
1 2
für alle (x, y) ∈ R2 nach Satz 10.6 ii) streng konvex.
(iii) Die Funktion f : R2 → R mit f (x, y) = −x − 3y 2 ist wegen
2
0, ∂∂yf2 (x, y) = −6 ≤ 0 und
2
det D f (x, y) = det
0 0
0 −6
∂2f
(x, y)
∂x2
=0≤
=0≥0
für alle (x, y) ∈ R2 nach Satz 10.7 i) konkav. Ob f streng konkav ist, kann mit
Satz 10.7 wegen det (D 2 f (x, y)) = 0 wieder nicht entschieden werden.
Der folgende Satz 10.8 gibt jeweils eine notwendige und eine hinreichende Bedingung für die Quasikonkavität einer Funktion mit zwei reellen Veränderlichen.
99
10 Diﬀerentialrechnung
Satz 10.8 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R2 eine oﬀene und
konvexe Menge reeller Zahlen ist und Y ⊆ R . Sei ferner
2 2
2 2
∂f
∂f
∂f
∂ f
∂ f
∂f
∂2f
D̃(x) = 2
(x)
(x)
(x) −
(x)
(x) −
(x)
(x)
2
∂x1
∂x2
∂x1 ∂x2
∂x1
∂x2
∂x2
∂x21
Dann gilt:
i) Wenn f quasikonkav ist, gilt für alle x ∈ X:
D̃(x) ≥ 0
ii) f ist quasikonkav, wenn für alle x ∈ X gilt:
2
∂f
(x)
>0
∂x1
D̃(x) > 0
Beispiel 10.11: Die Funktion f : (0, ∞)2 → R mit f (x, y) = x2 y 3 ist nach Satz
10.8 ii) wegen
2
2
∂f
(x, y) = 2xy 3 > 0
∂x
und
2
2
D̃(x, y) = 2 (2xy 3 · 3x2 y 2 · 6xy 2) − (2xy 3 ) · 6x2 y − (3x2 y 2 ) · 2y 3
= 30x4 y 7
>0
für alle (x, y) ∈ (0, ∞)2 quasikonkav.
10.6 Elastizitäten und deren ökonomische
Interpretation
Der Begriﬀ der Elastizität, der seinen Ursrung den Wirtschaftswissenschaften
verdankt, baut unmittelbar auf den Begriﬀ der Ableitung auf.
Deﬁnition 10.8 (Elastizität) Sei f : X → Y mit X, Y ⊆ R eine diﬀerenzierbare Funktion. Dann heißt für ein x̄ ∈ X mit f (x̄) = 0
ηf (x̄) =
df
x̄
(x̄) ·
dx
f (x̄)
Elastizität von f an der Stelle x̄. Außerdem heißt f unelastisch an der Stelle x̄
falls |ηf (x̄)| < 1 elastisch falls |ηf (x̄)| > 1.
100
10 Diﬀerentialrechnung
df
Während die Ableitung dx
(x̄) der Funktion f ein Maß für die absolute Veränderung des Funktionswerts von f im Verhältnis zu einer inﬁnitesimal kleinen absoluten Veränderung des Argument an einer Stelle x̄ ist, ist ihre Elastizität ηf (x̄)
ein Maß für das Verhältnis der relativen Veränderungen von Funktionswert und
Argument. Die folgende Überlegung verdeutlicht diese Interpretation der Elastizität. Sei f : X → Y mit X, Y ⊆ R eine diﬀerenzierbare Funktion und x̄ ∈ X.
Dann gibt der Quotient
f (x̄+∆x)−f (x̄)
f (x̄)
∆x
x̄
(x̄)
das Verhältnis der relativen Veränderung des Funktionswerts f (x̄+∆x)−f
und
f (x̄)
∆x
der relativen Veränderung des Arguments x̄ an der Stelle x̄ bei einer absoluten
Veränderung des Arguments um ∆x = 0 an. Für ∆x −→ 0 konvergiert dieser
Quotient wegen
f (x̄+∆x)−f (x̄)
f (x̄)
∆x
x̄
=
f (x̄ + ∆x) − f (x̄)
x̄
·
∆x
f (x̄)
wegen der Diﬀerenzierbarkeit von f gegen
df
x̄
(x̄) ·
.
dx
f (x̄)
Elastizitäten unterscheiden sich von Ableitungen dadurch, daß sie keine Einheit
haben. Sie machen also den Grad der der Abhängigkeit des Funktionswerts vom
Argument für unterschiedlichste Funktionalzusammenhänge vergleichbar.
Beispiel 10.12: Sei die Nachfrage nach einem Gut A in einem Markt in Abhängigkeit vom Preis des Gutes pA ∈ R beschrieben durch die Nachfragefunktion
xA : R → R mit
xA (pA ) = 30 · 106 − 30pA .
Dann ist die Preiselastizität der Nachfrage an einer Stelle p̄A = 106
ηxA (p̄A ) = −30 ·
p̄A
.
30 · 106 − 30p̄A
Beträgt der aktuelle Marktpreis für Gut A p̃A = 105 , dann ist die Preiselastizität
gegeben durch
1
ηxA (p̃A ) = − .
9
Sei außerdem die Nachfrage nach einem Gut B in diesem Markt in Abhängigkeit
vom Preis des Gutes pB ∈ R beschrieben durch die Nachfragefunktion xB : R → R
mit
xB (pB ) = 30 · 106 − 106 pB .
101
10 Diﬀerentialrechnung
Dann ist die Preiselastizität der Nachfrage an einer Stelle p̄B = 30
ηxB (p̄B ) = −106 ·
30 ·
p̄B
.
− 106 p̄B
106
Beträgt der aktuelle Marktpreis für Gut B p̃B = 10−1 , dann ist die Preiselastizität
gegeben durch
1
ηxB (p̃B ) = −
.
299
Wegen
1
1
>
= |ηxB (p̃B )|
9
299
ist es sinnvoll zu sagen, die Nachfrage nach Gut A sei preissensitiver als die nach
Gut B, auch wenn der Vergleich der Ableitungen
dxA
dxB
6
dpA (p̃A ) = 30 < 10 = dpB (p̃B )
|ηxA (p̃A )| =
und damit des Verhältnisses der absoluten Veränderungen umgekehrt ist.
Die Übertragung von Deﬁnition 10.8 auf reellwertige Funktionen mit mehreren
Veränderlichen mit Hilfe partieller Ableitungen führt zum Begriﬀ der partiellen
Elastizität, die entsprechend interpretiert wird.
Deﬁnition 10.9 (Partielle Elastizität) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R
eine in xi partiell diﬀerenzierbare Funktion. Dann heißt
ηf,xi (x̄) =
∂f
x̄i
(x̄) ·
∂xi
f (x̄)
für ein x̄ ∈ X mit f (x̄) = 0 partielle Elastizität von f an der Stelle x̄ bezüglich
xi .
Beispiel 10.13: Sei die Nachfrage eines Haushaltes nach einem Gut gegeben
durch die Funktion
x(p, Y, q1 , . . . , qn ),
wobei p ≥ 0 der Preis des Gutes sei, Y ≥ 0 das Haushaltseinkommen und
q1 , . . . , qn die Preise anderer für den Haushalt relevanter Güter. ηx,p heißt Preiselastizität, ηx,Y Einkommenselastizität und ηx,qi für i = 1, . . . , n Kreuzpreiselastizität der Nachfrage.
Ihre Anwendung ﬁnden diese Elastizitäten unter anderem bei der Charakterisierung ökonomischer Phänomene, die im Zusammenhang mit dem Nachfrageverhalten von Haushalten zu beobachten sind. Die nachfolgende Tabelle gibt hierzu
eine Übersicht:
102
10 Diﬀerentialrechnung
Elastizität
Preiselastizität
Einkommenselastizität
Kreuzpreiselastizität
Vorzeichen
ηx,p < 0
ηx,p > 0
ηx,Y < 0
ηx,Y ∈ [0, 1]
ηx,Y > 1
ηx,qi < 0
ηx,qi > 0
Phänomen
normales Gut
Giﬀen-Gut, Veblen-Eﬀekt
inferiores Gut
normales Gut
superiores Gut
Komplementarität
Substitution
10.7 Der Satz über implizite Funktionen
Der in diesem Abschnitt behandelte Satz über implizite Funktionen ist nicht nur
innerhalb der Mathematik sehr bedeutsam. Er kommt auch innerhalb der Wirtschaftswissenschaften oft vor, insbesondere im Zusammenhang mit komparativer Statik von Gleichgewichtsmodellen, also bei der Frage, wie eine gefundene
Lösung zu einem Optimirungsproblem von den das Problem charakterisierenden
Parametern abhängt (in der Makrotheorie z.B. im so genannten IS-LM-Modell).5
Im Rahmen dieses Skriptums wird nur die einfachste zweidimensionale Variante
behandelt. Schon ganz am Anfang des typischen Curriculums des Wirtschaftswissenschaftlers, nämlich bei der Bestimmung der Steigung einer Isohöhenlinie,
tritt das folgende Problem auf.
Ein Zusammenhang zwischen zwei Größen x und y sei gegeben in der Form
F (x, y) = c
mit F : X −→ R, X ⊆ R2 und c ∈ R. Wir interessieren uns nun für folgende
Fragen.
1.) Deﬁniert F (x, y) = c implizit eine Funktion φ : D −→ R mit geeignet
gewähltem Deﬁnitionsbereich D ⊆ R, so daß für alle x ∈ D
F (x, φ(x)) = c
gilt?
2.) Kann eine Aussage über die Ableitung der impliziten Funktion φ getroﬀen
werden, falls sie existiert?
5
Eine anwendungsbezogene Darstellung der allgemeineren Variante ﬁndet sich etwa bei Chiang
(1984, S. 210ﬀ) oder bei Sydsæter et al. (1999, S. 35).
103
10 Diﬀerentialrechnung
Beispiel 10.14:
(i) Gegeben sei
F (x, y) = x2 − 5y = c = 10.
2
2
Auﬂösen dieser Gleichung nach y ergibt y = x5 − 2. Dann gilt F (x, x5 − 2) =
2
2
x2 − 5( x5 − 2) = 10, also existiert eine Funktion φ(x) = x5 − 2 mit der geforderten
= 25 x.
Eigenschaft. Ihr Deﬁnitionsbereich ist D = R und ihre Ableitung dφ(x)
dx
(ii) Gegeben sei
F (x, y) = x2 + y 2 = c = 1.
Auﬂösung dieser Gleichung nach y ergibt oﬀenbar keine Funktion. Es gilt
√
y = ± 1 − x2 mit x ∈ [−1, 1].
Das heißt, (i) nicht zu jedem x existiert ein y mit F (x, y) = x2 + y 2 = 1 und (ii)
zu einigen x existiert mehr als ein y mit F (x, y) = x2 + y 2 = 1.
Wir stellen uns nun die Frage, ob man trotzdem sinnvolle Antworten auf die oben
gestellten Fragen geben kann. Dazu wollen wir eine lokale Betrachtung anstellen.
Sei Bε (x̄, ȳ) eine ε-Umgebung um den Punkt (x̄, ȳ) mit F (x̄, ȳ) = c. Wir stellen
erneut die nun lokale Frage, ob Gleichung F (x, y) = c wenigstens innerhalb dieser
ε-Umgebung (für hinreichend kleines ε > 0) eine Funktion mit der geforderten
Eigenschaft eindeutig deﬁniert.
Dazu betrachte in Beispiel 10.14 (ii) ε-Umgebungen um die Punkte A = √12 , √12
und B = (1, 0). In einer hinreichend kleinen ε-Umgebung um den Punkt A deﬁniert die Gleichung x2 + y 2 = 1√oﬀenbar eine Funktion φ(x) mit der geforderten
Eigenschaft. Sie lautet φ(x) = 1 − x2 . Um den Punkt B dagegen existiert auch
in einer beliebig kleinen ε-Umgebung keine eindeutige Funktion mit der geforderten Eigenschaft. Die Frage, unter welchen Bedingungen die Gleichung F (x, y) = c
um einen Punkt (x̄, ȳ) mit F (x̄, ȳ) = c innerhalb einer hinreichend kleinen εUmgebung Bε (x̄, ȳ) eine Funktion φ mit F (x, φ(x)) = c für alle (x, y) ∈ Bε (x̄, ȳ)
deﬁniert, beantwortet allgemein der nachfolgend angegebene Satz.
Satz 10.9 (Satz über implizite Funktionen) Gegeben sei eine C 1 -Funktion
F : X −→ R mit X ⊆ R2 . Sei (x̄, ȳ) innerer Punkt von X mit F (x̄, ȳ) = c und
c ∈ R. Dann deﬁniert die Gleichung F (x̄, ȳ) = c in einer hinreichend kleinen εUmgebung Bε (x̄, ȳ) um (x̄, ȳ) eine Funktion φ mit F (x, φ(x)) = c für alle (x, y) ∈
Bε (x̄, ȳ), wenn gilt
∂F (x̄, ȳ)
= 0.
∂y
Die Ableitung von φ für (x, y) ∈ Bε (x̄, ȳ) lautet dann
∂F (x,y)
dφ(x)
= − ∂F∂x
φ (x) =
.
(x,y)
dx
∂y
104
10 Diﬀerentialrechnung
(x̄,ȳ)
Der Satz gibt also mit ∂F∂y
= 0 eine Bedingung für die Existenz einer Funktion
φ mit F (x, φ(x)) = c für alle x nahe x̄. Ihre Ableitung ergibt sich direkt aus der
Kettenregel
dF (x,φ(x))
= ∂F (x,φ(x))
· 1 + ∂F (x,φ(x))
· dφ(x)
=0
dx
∂x
∂y
dx
⇒
dφ(x)
dx
∂F (x,φ(x))
∂F (x,y)
∂y
∂y
∂x
= − ∂F (x,φ(x))
= − ∂F∂x
(x,y) .
Beispiel 10.15: Gegeben sei F (x, y) = y 2 − x3 − x2 √= 0. Daraus ergibt sich
2
3
2
2
y = x + x = x (x + 1), also y = ± x2 (x + 1) = ±|x| x + 1 mit x ≥ −1. Eine
Funktion φ wird oﬀenbar nicht deﬁniert um die beiden Punkte (0, 0) und (−1, 0).
In der Tat sind diese auch die einzigen Punkte mit F (x, y) = 0 und
∂F (x, y)
= 2y = 0.
∂y
105
11 Optimierung von Funktionen
einer Veränderlichen
In diesem Kapitel werden die bis hier behandelten Grundlagen der Analysis genutzt, um Methoden aus der Optimierungstheorie für eindimensionale Entscheidungsmengen einzuführen. Die zentrale Problemstellung der Optimierung besteht
darin, den Wert einer Funktion durch die geeignete Wahl ihres Arguments zu maximieren oder zu minimieren. Kann das Argument aus dem Deﬁnitionsbereich der
Funktion beliebig gewählt werden, so spricht man von unbeschränkter Optimierung oder auch der Optimierung ohne Nebenbedingungen; falls dagegen das Argument zusätzliche Bedingungen erfüllen muß, so spricht man von beschränkter
Optimierung oder auch Optimierung unter Nebenbedingungen.
Insbesondere die beschränkte Optimierung steht in sehr enger Beziehung zu zentralen Fragestellungen der Wirtschaftswissenschaften, insbesondere im Zusammenhang der bestmöglichen Verwendung knapper Ressourcen.
11.1 Lokale und globale Extrema
Wichtigstes Grundkonzept der Optimierungstheorie sind Extremwerte von Funktionen, also Maxima und Minima. Wir unterscheiden zwischen lokalen und globalen Extremwerten. Die Formulierung lokal bezieht sich auf die unmittelbare
Nachbarschaft (genügend kleine ε-Kugel) um den Extremwert, während global
sich auf eine in Frage kommende oder betrachtete Zahlenmenge bezieht. Durch
die in der folgenden Deﬁnition vorgenommene Präzisierung kann ein lokales als
ein relatives (relativ zur Nachbarschaft) Extremum aufgefaßt werden und ein
globales als ein absolutes.
Deﬁnition 11.1 (Lokale und globale Extrema) Sei f : R −→ R. Das Element x̂ ∈ A ⊆ Def(f ) heißt lokales Maximum (Minimum) auf A genau dann
wenn
∃ε > 0 :
∀x ∈ Bε = {x ||x − x̂| ≤ ε } ∩ A gilt: f (x) ≤ (≥)f (x̂) .
x̂ ∈ A ⊆ Def(f ) heißt dagegen globales Maximum (Minimum) auf A genau dann
wenn
∀x ∈ A gilt: f (x) ≤ (≥)f (x̂) .
106
11 Optimierung von Funktionen einer Veränderlichen
insert picture here
Im Bild sind a und c lokale Maxima, b lokales Minimum und c globales Maximum,
während kein globales Minimum existiert.
Für diﬀerenzierbare Funktionen stehen erste und zweite Ableitung in engem Zusammenhang mit der Extremwert
Satz 11.1 (Notwendige und hinreichende Bedingungen für lokale Extremwerte)
Sei f : R −→ R eine C 2 -Funktion mit Def(f ) = R. Dann gilt:
1.) Falls x̂ lokales Maximum ist, gilt
Df (x̂) = 0 und
D 2 f (x̂) ≤ 0.
2.) Falls x̂ lokales Minimum ist, gilt
Df (x̂) = 0 und
D 2 f (x̂) ≥ 0.
3.) Falls
und D 2 f (x̂) < 0
Df (x̂) = 0
ist, dann ist x̂ lokales Maximum.
4.) Falls
und D 2 f (x̂) > 0
Df (x̂) = 0
ist, dann ist x̂ lokales Minimum.
Man beachte die feinen Unterschiede zwischen den notwendigen und hinreichenden Bedingungen in den schwachen und starken Ungleichheitszeichen. Daraus
ergibt sich ein einfaches Rezept für den nach einem globalen Maximum suchenden Protagonisten.
1.) Zunächst bestimme man diejenigen Punkte x̂ mit der Eigenschaft, daß deren
erste Ableitung gleich null ist, also Df (x̂) = 0.
2.) Unter diesen bestimme man diejenigen, für die zusätzlich gilt D 2 f (x̂) <
0. Nach Satz 11.1 ist sichergestellt, daß alle Punkte die beiden Kriterien
genügen lokale Maxima sind.
3.) Man bestimme deren Funktionswerte und wähle denjenigen (oder falls es
mehr als einen gibt, diejenigen) mit dem höchsten Funktionswert aus.
107
11 Optimierung von Funktionen einer Veränderlichen
4.) Achtung jetzt sind wir noch nicht fertig, denn es kann noch passieren, daß
die Funktion f am Rand des Deﬁnitionsbereiches also für x → ∞ oder
x → −∞ nach ∞ strebt und daher kein globales Maximum existiert. Letzter
Schritt ist also die Untersuchung des Randverhaltens.
Beispiel 11.1: Sei f (x) = −x4 + 2x2 + 4. Dann ist Df (x) = −4x3 + 4x und
D 2 f (x) = −12x2 + 4. Erster Schritt: Erste Ableitung gleich null ergibt x1 =
0, x2 = −1 und x3 = 1. Zweiter Schritt: Zweite Ableitung strikt negativ gilt für
x2 und x3 aber nicht für x1 . Dritter Schritt: Da f (x2 ) = f (x3 ) ist, sind sowohl
x2 als auch x3 mögliche Kandidaten für globale Maxima. Vierter Schritt: Für das
Randverhalten gilt
lim f (x) = lim x2 (−x2 + 2) + 4 = −∞
x→∞
x→∞
und
lim f (x) = lim x2 (−x2 + 2) + 4 = −∞.
x→∞
x→−∞
Eine Analyse der (strengen) Monotoniebereiche Mon++ (f ) = {x | Df (x) > 0}
und Mon−− (f ) = {x | Df (x) < 0} ist eine alternative Methode zur Bestimmung
der lokalen Extrema, die gleich die Analyse des Randverhaltens mit einschließt.
11.2 Optimierung mit Nebenbedingungen
Wir betrachten in den folgenden beiden Abschnitten stets Optimierungsprobleme
der Form
max f (x),
x∈A
wobei
A = [a, ∞) oder A = (−∞, b] oder A = [a, b] mit a, b ∈ R.
Das heißt, der zulässige Bereich A, über dem maximiert wird, ist ein abgeschlossenes Intervall. In diesem Zusammenhang sei daran erinnert, daß z.B. [a, ∞) eine
abgeschlossene aber nicht kompakte da nicht beschränkte Teilmenge der reellen
Zahlen ist.
Beispiel 11.2:
(i) insert picture
(ii) insert picture
108
11 Optimierung von Funktionen einer Veränderlichen
Wir erkennen am zweiten Beispiel, daß im Gegensatz zur Optimierung ohne Nebenbedingungen Df (x̂) = 0 keine notwendige Bedingung für eine Lösung des
Optimierungsproblems maxx∈A f (x) ist. Oﬀenbar braucht diese Bedingung erster
Ordnung genau dann nicht erfüllt zu sein, wenn eine Lösung x̂ am Rand ∂A des
Intervalls A liegt, also x̂ = a oder x̂ = b ist.
Satz 11.2 Sei f : A −→ R zweimal diﬀerenzierbar und konkav auf seinem Deﬁnitionsbereich Def(f ) = A, also D 2 f (x) ≤ 0 ∀x ∈ A. Dann gilt: Df (x̂) = 0 ⇒ x̂
ist globales Maximum auf A.
Df (x̂) = 0 ist also hinreichend dafür, daß x̂ das Optimierungsproblem maxx∈A f (x)
löst, falls f konkav auf A ist.
Beispiel 11.3: Sei f (x) = x3 − 6x2 + 7, A = [−5, 1], B = [−1, 3] und C = [3, ∞].
Dann ist Df (x) = 3x2 − 12x und D 2 f (x) = 6x − 12, also D 2 f (x) ≤ 0 für x ∈ A.
Aus Satz 11.2 folgt also, daß x̂ = 0 das Maximierungsproblem
max f (x)
x∈A
löst. Man beachte, daß Satz 11.2 keine notwendige Bedingung angibt, denn x̂ = 0
löst maxx∈B f (x), obwohl f nicht konkav auf B ist. Das Maximierungsproblem
maxx∈C f (x) besitzt keine Lösung, während auf das Minimierungsproblem
min f (x)
x∈C
wieder Satz 11.2 anwendbar ist durch die Umformung in das entsprechende Maximierungsproblem maxx∈C −f (x). Da Df (4) = 0 und D 2 f (x) ≥ 0 für x ∈ C
löst x̂ = 4 das Minimierungsproblem minx∈C f (x).
Beispiel 11.2 lehrt uns, daß es in der Optimierungstheorie genügt, Maximierungsprobleme zu studieren, da Minimierungsprobleme durch Umkehrung des Vorzeichens der Zielfunktion stets in analoge Maximierungsprobleme umgewandelt
werden können.
11.3 Lagrangefunktion und Kuhn-Tucker
Bedingungen
Beispiel 11.2 zeigt, daß Satz 11.2 nicht befriedigt, denn selbst für konkave Funktionen ist oﬀenbar die Bedingung erster Ordnung Df (x̂) = 0 nicht notwendig für die
Lösung eines Problems vom Typ maxx∈A f (x). Die inzwischen 250 Jahre alte Idee
109
11 Optimierung von Funktionen einer Veränderlichen
des 18-jährigen autodidaktischen Joseph-Louis Lagrange (1736-1813) war es,
stattdessen eine andere Funktion einer höheren Dimensionalität zu deﬁnieren, deren Ableitung stets 0 ist für die Lösung des betrachteten Optimierungsproblems.1
insert picture
Sei für den Moment A = (−∞, b]. Wir betrachten nun das Optimierungsproblem
maxx∈A f (x), das wir häuﬁg auch schreiben als
max f (x) u.d.N. b − x ≥ 0,
x
wobei u.d.N. die Abkürzung für unter der Nebenbedingung ist.
Deﬁnition 11.2 Die Funktion
L(x, λ) = f (x) + λ(b − x)
heißt Lagrangefunktion zum Problem
max f (x) u.d.N.
x
b − x ≥ 0.
Die Variable λ heißt die zur Nebenbedingung b − x ≥ 0 gehörige Lagrangevariable
oder Lagrangemultiplikator.
Die Lagrangevariable λ wird so bestimmt, daß für eine Lösung x̂ des Optimie∂
rungsproblems stets ∂x
L(x, λ) = 0 gilt.
Deﬁnition 11.3 (Kuhn-Tucker Bedingungen) Die Bedingungen
∂
L(x, λ) = 0
(1) ∂x
(2) b − x ≥ 0
(3) λ ≥ 0
(4) λ(b − x) = 0
heißen Kuhn-Tucker Bedingungen (KT) zum Optimierungsproblem
max f (x) u.d.N.
x
b − x ≥ 0.
Falls x̂ die Kuhn-Tucker Bedingungen erfüllt, werden wir abkürzend sagen, x̂
erfüllt KT.
1
Diese Methode des jungen italienischen Mathematikers wurde von seinem berühmten Zeitgenossen Leonard Euler als so bedeutsam eingestuft, daß Lagrange auf dessen Empfehlung
kurz darauf als 19-jähriger zum Professor an der Universität Turin ernannt wurde. Später
soll Lagrange einmal geäußert haben ’Wenn ich reich gewesen wäre, hätte ich mich wahrscheinlich nicht der Mathematik gewidmet’.
110
11 Optimierung von Funktionen einer Veränderlichen
2 Fälle: insert picture
Die Mathematiker Harold Kuhn und Albert Tucker haben ca. 200 Jahre
später die Idee von Lagrange verallgemeinert und notwendige und hinreichende
Bedingungen für die Lösung von Optimierungsproblemen mit Nebenbedingungen
in Form von Ungleichungen formuliert.2 Da rationales ökonomisches Verhalten
meistens auf genau diese Art von Problem reduzierbar ist, spielen diese Bedingungen ein zentrale Rolle für Wirtschaftswissenschaftler. Bemerkenswerterweise sind
vereinfachte und dadurch falsche Versionen dieser für Wirtschaftswissenschaftler
so zentralen Theorie hartnäckig bis heute Bestandteil des üblichen ökonomischen
Curriculums und der entsprechenden Literatur. In diesem Abschnitt werden diese Bedingungen für Funktionen einer Veränderlichen studiert. Da dies eine gute
Vorbereitung für die allgemeine Formulierung darstellt, behandeln wir hier den
eindimensionalen Fall aus didaktischen Gründen getrennt von der allgemeineren
mehrdimensionalen Formulierung.3
Satz 11.3 (Notwendige Bedingungen) Sei x∗ eine Lösung des Optimierungsproblems
max f (x) u.d.N. b − x ≥ 0.
x
Dann existiert ein λ∗ , so daß (x∗ , λ∗ ) die KT
∂
L(x, λ) = 0
(1) ∂x
(2) b − x ≥ 0
(3) λ ≥ 0
(4) λ(b − x) = 0
erfüllt.
Die Umkehrung benötigt wie im Fall ohne Nebenbedingungen mehr Voraussetzungen. Das folgende Bild zeigt, daß auch ein lokales Minimum die KT erfüllen
kann.
insert picture
2
Man beachte, daß Nebenbedingungen in Form von Gleichungen stets durch die doppelte Anzahl von Nebenbedingungen in Form von Ungleichungen ersetzbar ist. Z.B. gilt
g(x) = 0 ⇔ g(x) ≥ 0 ∧ g(x) ≤ 0. Da umgekehrt Ungleichungsnebenbedingungen nicht
durch Gleichungen repräsentierbar sind, ist die Formulierung auf Basis von Ungleichungen
allgemeiner.
3
Es ist häuﬁg nicht schwierig, oder sogar einfacher, im eindimensionalen Fall Lösungen zu
bestimmen, ohne auf KT zurückzugreifen. Da der Rand des Optimierungsbereiches A nur
aus höchstens zwei Elementen besteht, ist durch Bestimmung der lokalen Maxima in A und
der Funktionswerte an den Rändern ein direkter Vergleich sehr einfach.
111
11 Optimierung von Funktionen einer Veränderlichen
Satz 11.4 (Hinreichende Bedingungen) Sei f konkav auf A = (−∞, b] und
(x∗ , λ∗ ) erfülle die KT
∂
L(x, λ) = 0
(1) ∂x
(2) b − x ≥ 0
(3) λ ≥ 0
(4) λ(b − x) = 0.
Dann löst x∗ das Optimierungsproblem
max f (x) u.d.N.
x
b − x ≥ 0.
Statt der 4.) KT Bedingung λ(b − x∗ ) = 0 kann man auch schreiben L(x∗ , λ∗ ) =
f (x∗ ). Analoge Aussagen zu den Sätzen 11.3 und 11.4 gelten oﬀenbar für A =
[a, ∞) oder A = [a, b]. Die Lagrangefunktion für A = [a, ∞) ist
L(x, λ) = f (x) + λ(x − a)
und die KT sind
∂
L(x, λ) = 0
(1) ∂x
(2) x − a ≥ 0
(3) λ ≥ 0
(4) λ(x − a) = 0.
Für A = [a, b] ist die Lagrangefunktion
L(x, λ1 , λ2 ) = f (x) + λ1 (b − x) + λ2 (x − a)
und es müssen zwei Ungleichungen erfüllt sein. Die Zahl der KT erhöht sich
entsprechend:
∂
(1) ∂x
L(x, λ1 , λ2 ) = 0
(2) b − x ≥ 0 und x − a ≥ 0
(3) λ1 ≥ 0 und λ2 ≥ 0
(4) λ1 (b − x) = 0 und λ2 (x − a) = 0.
Beispiel 11.4: Betrachte das Optimierungsproblem
max f (x) u.d.N. b − x ≥ 0
x
für f (x) = 2 − x2 .
(i) Sei zunächst b = 1. Die Lagrangefunktion ist dann
L(x, λ) = 2 − x2 + λ(1 − x)
112
11 Optimierung von Funktionen einer Veränderlichen
und die KT sind
∂
(1) ∂x
L(x, λ) = −2x − λ = 0
(2) b − x = 1 − x ≥ 0
(3) λ ≥ 0
(4) λ(b − x) = λ(1 − x) = 0.
Da f konkav ist, löst wegen Satz 11.4 eine Lösung x∗ der KT auch das Optimierungsproblem. Betrachte dazu zwei Fälle: (i) λ > 0 ⇒ x = 1 führt zu einem
Widerspruch, denn es muß gelten −2 − 1 − λ = 0. Daher kann nur gelten (ii)
λ = 0 ⇒ x = 0. Lösung des Optimierungsproblems ist also x∗ = 0.
(ii) Sei nun b = −1. Also
L(x, λ) = 2 − x2 + λ(−1 − x),
und die KT
(1)
(2)
(3)
(4)
−2x − λ = 0
1−x≥0
λ≥0
λ(−1 − x) = 0.
Hier führt (ii) λ = 0 zum Widerspruch denn dies impliziert x = 0 ⇒ −1 ≥
0. Umgekehrt ist (i) λ > 0 ⇒ x = −1 ⇒ −2 · (−1) = λ = 2. Lösung des
Optimierungsproblems ist also x∗ = −1.
(iii) Betrachte zuletzt b = 0. Also
L(x, λ) = 2 − x2 − λx,
und die KT sind
(1)
(2)
(3)
(4)
−2x − λ = 0
−x ≥ 0
λ≥0
λx = 0.
(i) λ > 0 ⇒ x = 0 ⇒ λ = 0 Widerspruch, also (ii) λ = 0 ⇒ x = 0. Lösung des
Optimierungsproblems ist also x∗ = 0.
Für das Verständnis allgemeiner mehrdimensionaler Optimierungstheorie ist es
hilfreich, sich folgende Zusammenfassung zu globalen Maxima von Funktionen
einer Variablen einzuprägen.
1.) Ohne Nebenbedingungen
x∗ löst max f (x)
f ist konkav
x∈R
113
Df (x∗ ) = 0.
11 Optimierung von Funktionen einer Veränderlichen
2.) Mit Nebenbedingungen
x∗ löst max f (x)
f ist konkav
x∈A
(x∗ , λ∗ ) löst KT.
Oﬀenbar ist 1.) in 2.) enthalten. Statt Konkavität genügt auch Quasikonkavität
als schwächere Annahme für die hinreichenden Bedingungen.
114
12 Optimierungstheorie
In diesem Kapitel wird die im vorherigen Kapitel eingeführte Methode verallgemeinert auf Zielfunktionen mehrerer Veränderlicher. Sehr viele reale Entscheidungsprobleme sind reduzierbar auf die Gestalt
max f (x),
x∈A
wobei A die Menge der zulässigen Entscheidungsalternativen ist, und f eine die
Wünsche oder die Präferenzen des Protagonisten repräsentierende Zielfunktion.
In der mathematischen Entscheidungstheorie, die nicht Gegenstand der Vorlesung und dieses Skriptums ist, wird genau analysiert, welche Auswahlentscheidungen konsistent sind mit der Maximierung einer Zielfunktion. Grob vereinfacht
lässt sich sagen, daß die Existenz einer Zielfunktion aus nur wenigen Konsistenzannahmen hervorgeht, die häuﬁg mit zielgerichteter rationaler Verhaltensweise
identiﬁziert werden und das methodische Rückgrad der modernen ökonomischen
Analyse darstellt. Obwohl Experimentatoren und Verhaltensökonomen sich in
jüngerer Zeit zunehmend für Abweichungen von diesem Paradigma des homo oeconomicus interessieren, wird die Standard-Entscheidungstheorie noch für lange
Zeit die wichtigste Methode bleiben für die Analyse ökonomischer Phänomene.
Diese Methode wird allein deshalb vermutlich nie aus dem Wergzeugkasten des
Ökonomen verschwinden, da sie für normative Theorie, also Handlungsempfehlungen an Akteure, gebraucht wird, auch wenn wir mit deskriptiven Methoden
häuﬁg beobachten, daß reale Menschen von rationalem Verhalten abweichen.
12.1 Optimierung ohne Nebenbedingungen
Lokale und globale Extremwerte für Funktionen mehrerer Veränderlicher sind auf
die gleiche Art und Weise deﬁniert wie im vorhergehenden Kapitel.
Deﬁnition 12.1 (Lokale und globale Extrema) Sei f : Rn −→ R. Das Element x̂ ∈ A ⊆ Def(f ) heißt lokales Maximum (Minimum) auf A genau dann
wenn
∃ε > 0 :
∀x ∈ Bε = {x ||x − x̂| ≤ ε } ∩ A gilt: f (x) ≤ (≥)f (x̂) .
115
12 Optimierungstheorie
x̂ ∈ A ⊆ Def(f ) heißt dagegen globales Maximum (Minimum) auf A genau dann
wenn
∀x ∈ A gilt: f (x) ≤ (≥)f (x̂) .
Optimierung ohne Nebenbedingungen, bedeute im Folgenden, daß die Menge der
Handlungsalternativen A nicht eingeschränkt ist, also A = Rn . Wie zuvor stehen
für diﬀerenzierbare Funktionen erste und zweite Ableitung, also hier der Gradient
und die Hesse-Matrix, in engem Zusammenhang mit der Extremwerteigenschaft.
In einem lokalen (und daher auch globalen) Optimum x̂ ∈ Rn ohne Nebenbedingungen muß die Ableitung der Funktion in allen Richtungen gleich 0 sein,
also ∇f (x̂) = 0 (wobei hier mit 0 der Nullvektor im Rn gemeint ist), da sonst
der Funktionswert bereits in Richtung des Gradienten erhöht werden könnte. Die
folgenden beiden Sätze folgen ebenfalls dem Aufbau des vorhergehenden Kapitels.
Satz 12.1 (Notw. und hinr. Bedingungen für lokale Extremwerte) Sei
f : Rn −→ R
eine C 2 -Funktion mit Def(f ) = Rn . Dann gilt:
1.) Falls x̂ lokales Maximum ist, gilt
∇f (x̂) = 0
und Hf (x̂)
ist negativ semideﬁnit.
2.) Falls x̂ lokales Minimum ist, gilt
∇f (x̂) = 0 und
Hf (x̂)
ist positiv semideﬁnit.
3.) Falls
∇f (x̂) = 0
und Hf (x̂)
negativ deﬁnit
ist, dann ist x̂ lokales Maximum.
4.) Falls
∇f (x̂) = 0 und
Hf (x̂)
positiv deﬁnit
ist, dann ist x̂ lokales Minimum.
Satz 12.2 (Hinreichende Bedingung für globalen Extremwert) Sei
f : Rn −→ R
zweimal diﬀerenzierbar und konkav. Dann gilt: ∇f (x̂) = 0 ⇔ x̂ ist globales Maximum.
116
12 Optimierungstheorie
Beispiel 12.1:
(i) Sei f (x1 , x2 ) = x21 + x22 . Dann ist ∇f (x1 , x2 ) = (2x1 , 2x2 ) mit einziger Nullstelle (x01 , x02 ) = (0, 0). Die Hesse-Matrix ist
2 0
,
Hf (x1 , x2 ) =
0 2
also ist f wegen Satz 10.6 streng konvex. Daher ist −f streng konkav und
(x01 , x02 ) = (0, 0) ist globales Minimum von f .
(ii) Sei f (x1 , x2 ) = x21 − x22 . Dann ist ∇f (x1 , x2 ) = (2x1 , −2x2 ) wieder mit
einziger Nullstelle (x01 , x02 ) = (0, 0). Die Hesse-Matrix ist
2 0
Hf (0, 0) = Hf (x1 , x2 ) =
.
0 −2
Da diese Hesse-Matrix indeﬁnit ist, ist (0, 0) ein Sattelpunkt und es existiert kein
globales Maximum oder Minimum.
(iii) Die Funktion f (x1 , x2 ) = x31 −3x22 −6x1 x2 +4 hat den Gradienten ∇f (x1 , x2 ) =
(3x21 −6x2 , −6x1 −6x2 ) mit den Nullstellen (x01 , x02 ) = (0, 0) und (x11 , x12 ) = (−2, 2)
und die Hesse-Matrix
6x1 6
Hf (x1 , x2 ) =
.
−6 −6
Also ist
∂2f
(0, 0)
∂x21
∂2f
(0, 0)
∂x22
= −6 und
0
6
det Hf (0, 0) = det
= 36.
−6 −6
= 0,
Wegen der Sätze 10.6 und 10.7 ist Hf (0, 0) indeﬁnit und daher (0, 0) kein lokaler
2
2
Extremwert. Weiter ist ∂∂xf2 (−2, 2) = −12, ∂∂xf2 (−2, 2) = −6 und
1
2
−12 6
det Hf (−2, 2) = det
= 108.
−6 −6
Wegen Satz 10.7 ist Hf (−2, 2) negativ deﬁnit und daher ist (−2, 2) lokales Maximum (aber nicht globales, warum?).
12.2 Geometrische Lösung von
Optimierungsproblemen
Seien f, g : R2 −→ R zwei Funktionen zweier Veränderlicher. Wir betrachten das
Optimierungsproblem
max f (x) u.d.N. g(x) ≥ 0.
x
117
12 Optimierungstheorie
Das heißt, wir suchen ein globales Maximum von f auf der Menge
A = x ∈ R2 |g(x) ≥ 0 .
Oﬀenbar ist die Niveaulinie g −1 (0) der Funktion g zum Niveau 0 die Begrenzungslinie der Menge A. Um festzustellen, nach welcher Seite die Niveaulinie g −1(0)
die Menge A begrenzt, betrachte den Gradienten ∇g(x). Für ein x ∈ g −1 (0) zeigt
∇g(x) in die Menge A hinein.
insert picture here
Betrachte nun Niveaulinien f −1 (y) von f , die durch die Menge A gehen, für die
also f −1 (y) ∩ A = ∅. Gesucht sind Niveaulinien mit möglichst hohem Niveau y
die gerade noch durch A gehen. ”Verschiebe” also Niveaulinie f −1 (y) (verschieben
durch Veränderung von y) in Richtung von ∇f (x) für x auf der Niveaulinie f −1 (y)
so weit wie möglich, so daß gerade noch ein nicht leerer Durchschnitt f −1 (y) ∩
A = ∅ bleibt. Der oder die verbleibenden Elemente dieser Durchschnittsmenge
f −1 (y) ∩ A lösen das betrachtete Optimierungsproblem
max f (x) u.d.N. g(x) ≥ 0.
x
Entsprechend kann man verfahren, falls die Menge A der Entscheidungsalternativen durch k > 1 Nebenbedingungen Xj = {x ∈ R2 |gj (x) ≥ 0} mit
A=
k
!
Xj
j=1
gegeben ist.
insert picture
Ein wichtiges Kriterium wird im Folgenden die Konvexität der Menge A der Entscheidungsalternativen sein. In diesem Zusammenhang ist folgende hinreichende
Bedingung hilfreich.
Satz 12.3 Seien gj : Rn −→ R konkave Funktionen für j = 1, . . . , k. Sei ferner
"
A = kj=1 Xj mit Xj = {x ∈ Rn |gj (x) ≥ 0}. Dann ist A konvexe Menge.
Der Beweis folgt aus der Kombination der bereits bewiesenen Sätze 8.1,9.4 und
9.3.
12.3 Häuﬁge Irrtümer
In diesem Abschnitt gehen wir einen ungewöhnlichen didaktischen Weg. Wir
nähern uns der allgemeinen Theorie durch eine Sequenz von gebräuchlichen Irrtümern,
118
12 Optimierungstheorie
denen nicht nur der unbefangene Optimierer sondern in unterschiedlichem Grade
auch eine nicht unerhebliche Zahl von Lehrbüchern unterliegen. Dazu kehren wir
vorläuﬁg zum Fall n = 1 zurück.
Betrachte eine diﬀerenzierbare Funktion f : R −→ R und das Optimierungsproblem
max f (x) u.d.N. g(x) ≥ 0.
x
Wir erinnern uns daß in den Abschnitten 11.2 und 11.3 die Nebenbedingung als
lineare Funktion g(x) = b−x gegeben war. Diese Annahme wird nun aufgehoben.
Beispiel 12.2: Sei f (x) = −x und g(x) = (x − 1)3 . Oﬀenbar löst x̂ = 1 das
Optimierungsproblem
max f (x) u.d.N. g(x) ≥ 0.
x
Die erste der Kuhn-Tucker-Bedingungen lautet hier
∂
L(x, λ) = −1 + λ3(x − 1)2 = 0.
∂x
Einsetzen von x̂ = 1 zeigt, daß diese Bedingung oﬀenbar nicht erfüllt, also weder
notwendig noch hinreichend ist für eine Lösung.
Beispiel 12.3 lehrt uns, daß die bisherige Theorie im Falle nichtlinearer Nebenbedingungen bereits für die Dimension n = 1 unvollständig ist. Eine genauere
Betrachtung ergibt, daß das Problem dieses Beispiels dadurch entsteht, daß für
die Lösung x̂ des Optimierungsproblems g (x̂) = 0 und gleichzeitig f (x̂) = 0 ist.
Falls dies der Fall ist, kann kein λ̂ ∈ R existieren, so daß die erste der Kuhn∂
Tucker-Bedingungen ∂x
L(x̂, λ̂) = −f (x̂) + λ̂g (x̂) = 0 erfüllt ist.
Ein möglicher Ausweg wäre zu fordern, daß bei einer Randlösung, also im Fall
g(x) = 0, zusätzlich gilt g (x) = 0, damit KT notwendig ist. Die Verallgemeinerung dieser zusätzlichen Forderung heißt, wie wir sehen werden, Beschränkungsqualiﬁkation.
Beispiel 12.3: Sei f (x) = x und g(x) = x2 −1. Oﬀenbar ist f linear, also konkav.
Wir erkennen, daß x̂ = −1 nicht das Optimierungsproblem
max f (x) u.d.N. g(x) ≥ 0
x
löst, denn es gilt z.B. f (3) = 3 > −1 = f (−1). Jedoch erfüllt (x̂, λ̂) = (−1, 12 )
∂
L(−1, 12 ) = 1 − 1 = 0, (2) g(−1) = 1 − 1 ≥ 0, (3) 12 ≥ 0 und (4)
die KT (1) ∂x
1
g(−1) = 0.
2
119
12 Optimierungstheorie
Beispiel 12.3 lehrt uns, daß Konkavität der Zielfunktion f und KT schon für n = 1
keine hinreichenden Bedingungen für die Lösung eines Optimierungsproblems
sind, falls die Nebenbedingung nicht linear ist. Es ist nicht schwer zu erkennen,
daß in diesem Fall die Ursache des Problems in der Nichtkonvexität der Menge
A = {x ∈ R|g(x) ≥ 0}
zu suchen ist, die im Beispiel 12.3 ein ”Loch” hat, d.h. nicht ein Intervall ist sondern aus zwei (halboﬀenen) Intervallen besteht. Aus Satz 12.3, folgt, daß diese
Schwierigkeit entfällt, falls die Entscheidungsmenge durch konkave Funktionen
begrenzt wird. Wir werden sehen, daß diese zusätzliche Forderung zu hinreichenden Bedingungen führt. Insbesondere impliziert für λ ≥ 0 die Konkavität der
Zielfunktion und die Konkavität der Nebenbedinung(en) die Konkavität der Lagrangefunktion L(x, λ).
12.4 Lagrangefunktion, Kuhn-Tucker Bedingungen
und Beschränkungsqualiﬁkation
Wir kommen zur allgemeinen Formulierung eines Optimierungsproblems mit m
Nebenbedingungen in Form von Ungleichungen. Zu jeder Nebenbedingung j =
1 . . . , m gehört eine Lagrangevariable λj . Zur Unterscheidung von Zahlen und
Vektoren werden wir ab hier Vektoren stets mit unterstrichenen Variablen bezeichnen, also z.B. bezeichne λ = (λ1 , . . . , λm ) den Vektor der m Lagrangevariablen. Betrachte m + 1 diﬀerenzierbare Funktionen f, gj : Rn −→ R mit
x = (x1 , . . . , xn ) und das Optimierungsproblem
max f (x) u.d.N. gj (x) ≥ 0 für j = 1, . . . , m.
x
Deﬁnition 12.2 (Lagrange-Funktion und Kuhn-Tucker Bedingungen) Die
Funktion
m
L(x, λ) = f (x) +
λj gj (x)
j=1
heißt Lagrangefunktion zum Problem
max f (x)
x
u.d.N. gj (x) ≥ 0 für j = 1, . . . , m.
Die Variablen λj heißen die zu den Nebenbedingungen gj (x) ≥ 0 gehörigen Lagrangevariablen oder Lagrangemultiplikatoren. Die Bedingungen
(1) ∇f (x) + m
j=1 λj ∇gj (x) = 0
(2)
gj (x) ≥ 0
für j = 1, . . . , m
für j = 1, . . . , m
(3)
λj ≥ 0
für j = 1, . . . , m.
(4)
λj gj (x) = 0
120
12 Optimierungstheorie
heißen Kuhn-Tucker Bedingungen (KT) zum Optimierungsproblem
max f (x)
x
u.d.N. gj (x) ≥ 0 für j = 1, . . . , m.
Falls x∗ die Kuhn-Tucker Bedingungen erfüllt, werden wir abkürzend sagen, x∗
erfüllt KT.
Die im vorhergehenden Abschnitt bereits erwähnte Beschränkungsqualiﬁkation
verlangte für eine Lösung des Optimierungsproblems von der Nebenbedingung,
daß deren Ableitung ungeich 0 ist, damit die KT für die Lösung erfüllt sind. Eine naheliegende Verallgemeinerung für m Nebenbedingungen könnte lauten, daß
die Gradienten aller Nebenbedingungen ausgewertet an der Lösung eines Optimierungsproblems ungleich 0 sind, damit KT notwendige Bedingungen für die
Lösung sind. Das folgende graphische Besipiel zeigt, daß eine Verallgemeinerung
im eben beschriebenen Sinne nicht ausreicht.
Beispiel 12.4: insert picture here
Im Bild ist es oﬀenbar nicht möglich, die Gleichung
∇f (x) = α1 ∇g1 (x) + α2 ∇g2 (x)
zu erfüllen, da die Gradientenvektoren ∇g1 (x) und ∇g2 (x) auf einer Geraden liegen, die in einer anderen Richtung verläuft als der Gradientenvektor ∇f (x). Für
α1 = −λ1 und α2 = −λ2 ist dies aber gerade die erste der KT. Zur Erfüllung der
KT bereitet oﬀenbar die lineare Abhängigkeit der Gradientenvektoren der Nebenbedingungen in der Lösung des Optimierungsproblems Schwierigkeiten. Daraus
ergibt sich die korrekte Verallgemeinerung der Beschränkungsqualiﬁkation.
Deﬁnition 12.3 (Beschränkungsqualiﬁkation) Der Punkt x̂ erfüllt die Beschränkungsqualiﬁkation (BQ) genau dann, wenn die Gradientenvektoren ∇gj (x̂)
linear unabhängig sind für diejenigen j ∈ {1, . . . , m}, für die die zugehörigen
Nebenbedingungen bindend sind, also gj (x̂) = 0.
Beispiel 12.5:
(i) Seien f (x) = x1 + x2 , g1 (x) = 4 − 2x1 − x2 und g2 (x) = 1 − 12 x1 − x2 . Dann
erfüllt x̂ = (2, 0) die BQ, da ∇g1 (x̂) = (−2, −1) = t(− 12 , −1) = t∇g2 (x̂), also
∇g1 (x̂) und ∇g2 (x̂) linear unabhängige Vektoren sind.
(ii) Seien nun f (x) = x1 + x2 , g1 (x) = 4 − 2x1 − x2 , g2 (x) = 1 − 12 x1 − x2
und g3 (x) = 3 − 12 x1 − x2 . Zwar sind nun ∇g2 (x̂) und ∇g3 (x̂) linear abhängig.
Trotzdem erfüllt x̂ = (2, 0) die BQ, da die dritte Nebenbedingung nicht bindend
121
12 Optimierungstheorie
ist, denn g3 (2, 0) = 2 > 0 und für die beiden anderen Nebenbedingungen ∇g1 (x̂)
und ∇g2 (x̂) linear unabhängige Vektoren sind.
Wir kommen nun zu den entscheidenden Sätzen, die mit Hilfe der Lagrangefunktion und der Kuhn-Tucker-Bedingungen notwendige und hinreichende Bedingungen zur Lösung von Optimierungsproblemen mit Nebenbedingungen in Form von
Ungleichungen formulieren.
Satz 12.4 (Notwendige Bedingungen) Seien f, gj für j = 1, . . . , m an den
relevanten Stellen diﬀerenzierbare Funktionen von Rn nach R. Sei x̂ eine Lösung
des Optimierungsproblems
max f (x)
x
u.d.N. gj (x) ≥ 0 für j = 1, . . . , m,
und x̂ erfülle die Beschränkungsqualiﬁkation, dann existieren Lagrangevariablen
λ̂ = (λ̂1 , . . . , λ̂m ), so daß (x̂, λ̂) die Kuhn-Tucker-Bedingungen
(1) ∇f (x) + m
j=1 λj ∇gj (x) = 0
(2)
gj (x) ≥ 0
(3)
λj ≥ 0
(4)
λj gj (x) = 0
für j = 1, . . . , m
für j = 1, . . . , m
für j = 1, . . . , m
erfüllt.
Für die hinreichende Bedingung sei nun gleich die allgemeinere Formuliereung
basierend auf Quasikonkavität der Zielfunktion und ihrer Nebenbedingungen genannt.
Satz 12.5 (Hinreichende Bedingungen) Seien f, gj für j = 1, . . . , m quasikonkave, an den relevanten Stellen diﬀerenzierbare Funktionen von Rn nach R.
Ferner erfülle (x̂, λ̂) die Kuhn-Tucker-Bedingungen
(1) ∇f (x) + m
j=1 λj ∇gj (x) = 0
(2)
gj (x) ≥ 0
(3)
λj ≥ 0
(4)
λj gj (x) = 0
für j = 1, . . . , m
für j = 1, . . . , m
für j = 1, . . . , m.
Dann ist x̂ eine Lösung des Optimierungsproblems
max f (x)
x
u.d.N. gj (x) ≥ 0 für j = 1, . . . , m.
122
12 Optimierungstheorie
Beispiel 12.6:
(i) Seien f (x) = −x21 − x22 und g(x) = 4 − x1 − x2 . Die zugehörige Lagrangefunktion ist
L(x, λ) = f (x) + λg(x) = −x21 − x22 + λ(4 − x1 − x2 )
und die KT sind (1) ∇L(x) = (−2x1 − λ, −2x2 − λ) = 0, (2) 4 − x1 − x2 ≥ 0, (3)
λ ≥ 0 und (4) λ(4 − x1 − x2 ) = 0. Oﬀenbar erfüllt nur (x, λ) = (0, 0, 0) die KT,
da λ > 0 zum Widerspruch zwischen der 1. und 2. Bedingung führt. Da f und g
konkav sind, löst (x) = (0, 0) das Optimierungsproblem maxgj (x)≥0 f (x).
(ii) Seien nun f (x) = −(x1 − 3)2 − (x2 − 3)2 und g(x) = 4 − x1 − x2 mit
Lagrangefunktion
L(x, λ) = f (x) + λg(x) = −(x1 − 3)2 − (x2 − 3)2 + λ(4 − x1 − x2 ).
Die KT sind (1) ∇L(x) = (−2(x1 −3)−λ, −2(x2 −3)−λ) = 0, (2) 4−x1 −x2 ≥ 0,
(3) λ ≥ 0 und (4) λ(4 − x1 − x2 ) = 0. Oﬀenbar erfüllt jetzt nur (x, λ) = (2, 2, 2)
die KT, da hier λ = 0 zum Widerspruch zwischen der 1. und 2. Bedingung
führt. Da f und g konkav sind, löst also (x) = (2, 2) das Optimierungsproblem
maxgj (x)≥0 f (x).
(iii) Betrachte f (x) = x1 und die beiden Nebenbedingungen g1 (x) = 4 − x1 − x2
und g2 (x) = 2 − (x1 − 3)2 − (x2 − 3)2 mit Lagrangefunktion
L(x, λ) = x1 + λ1 (4 − x1 − x2 ) + λ2 (2 − (x1 − 3)2 − (x2 − 3)2 ).
Oﬀenbar löst x = (2, 2) das Optimierungsproblem, denn dies ist der einzige Punkt
der beide Nebenbedingungen erfüllt. Im Punkt x = (2, 2) ist die BQ nicht erfüllt,
da hier beide Nebenbedingungen g1 (x) ≥ 0 und g2 (x) ≥ 0 bindend sind und
∇g1 (2, 2) = (−1, −1) = − 12 ∇g2 (2, 2) = (2, 2) ist, also die beiden Gradientenvektoren ∇g1 (2, 2) und ∇g2 (2, 2) linear abhängig sind. Die erste KT-Bedingung
∇L(x) = (1 − λ1 − 2λ2 (x1 − 3), −λ1 − 2λ2 (x2 − 3)) = 0,
ist für x = (2, 2) nicht erfüllbar, da der Gradientenvektor ∇f = (1, 0) nicht
im von den Vektoren ∇g1 (2, 2) und ∇g2 (2, 2) aufgespannten linearen Unterraum
liegt.
(iv) Gegeben sei f (x) = x21 + x22 und g(x) = 4 − x1 − x2 mit Lagrangefunktion
L(x, λ) = f (x) + λg(x) = x21 + x22 + λ(4 − x1 − x2 ).
Die KT sind (1) ∇L(x) = (2x1 − λ, 2x2 − λ) = 0, (2) 4 − x1 − x2 ≥ 0, (3) λ ≥ 0
und (4) λ(4 − x1 − x2 ) = 0. Sie werden erfüllt von den beiden Tupeln (x, λ) =
(0, 0, 0) und (x, λ) = (2, 2, 4). Aus Beispiel (i) wissen wir, daß (x, λ) = (0, 0, 0)
das zugehörige Minimierungsproblem löst. x = (2, 2) ist ebenfalls keine Lösung,
denn z.B. ist f (−3, −3) = 18 > f (2, 2). In diesem Beispiel ist die Zielfunktion f
123
12 Optimierungstheorie
nicht konkav. Daher sind die KT-Bedingungen nicht hinreichend für eine Lösung
des Optimierungsproblems maxx1 +x2 ≤4 x21 + x22 . Da sie aber notwendig sind und
die beiden Punkte x = (0, 0) und x = (2, 2) nicht als Lösung in Frage kommen,
existiert keine Lösung zu maxx1 +x2 ≤4 x21 + x22 .
12.5 Nebenbedingungen in Form von Gleichungen
Betrachte in diesem Abschnitt eine diﬀerenzierbare Funktion f : Rn −→ R und
das Optimierungsproblem
max f (x) u.d.N. g(x) = 0.
x
Dieses Optimierungsproblem ist oﬀenbar äquivalent zu
max f (x) u.d.N. g(x) ≥ 0 und − g(x) ≥ 0.
x
Die zugehörige Lagrangefunktion kann geschrieben werden als
L(x, λ1 , λ2 ) = f (x) + (λ1 − λ2 )g(x)
oder mit λ = λ1 − λ2 vereinfacht als
L(x, λ) = f (x) + λg(x).
Die KT-Bedingungen vereinfachen sich dann zu
(I)
∇f (x) + λ∇g(x) =
(II)
g(x) =
∂
L(x, λ), ∂x∂ 2 L(x, λ)
∂x1
∂
L(x, λ) = 0.
∂λ
=0
Die ”alten” Bedingungen (3) λ1 ≥ 0 und λ2 ≥ 0 implizieren kein Vorzeichen
für λ = λ1 − λ2 , während (4) λg(x) = 0 bereits aus (2) folgt. Also sind die
Bedingungen (3) und (4) redundant.
Die beiden folgenden Sätze sind die Anwendungen der Sätze 12.4 und 12.5 auf
Optimierungsprobleme mit m Nebenbedingungen in Form von Gleichungen. Sie
folgen unmittelbar mit Hilfe der vorgenommenen Notationskonvention.
Satz 12.6 (Notwendige Bedingungen) Seien f, gj : Rn −→ R für j = 1, . . . , m
an den relevanten Stellen diﬀerenzierbare Funktionen. Seien ferner f eine quasikonkave und gj lineare Funktionen. Falls x̂ eine Lösung des Optimierungsproblems
max f (x) u.d.N.
x
gj (x) = 0 für j = 1, . . . , m,
124
12 Optimierungstheorie
ist und die Beschränkungsqualiﬁkation erfüllt, dann existieren Lagrangevariablen
λ̂ = (λ̂1 , . . . , λ̂m ), so daß (x̂, λ̂) die vereinfachten Kuhn-Tucker-Bedingungen, ab
hier abgekürzt mit KT’
(I) ∇f (x̂) + m
j=1 λ̂j ∇gj (x̂) = 0
(II)
gj (x̂) = 0
für j = 1, . . . , m
erfüllt.
Satz 12.7 (Hinreichende Bedingungen) Seien f, gj : Rn −→ R für j =
1, . . . , m an den relevanten Stellen diﬀerenzierbare Funktionen. Seien ferner f
eine quasikonkave und gj lineare Funktionen. Außerdem erfülle (x̂, λ̂) die vereinfachten Kuhn-Tucker-Bedingungen KT’
(I) ∇f (x̂) + m
j=1 λ̂j ∇gj (x̂) = 0
(II)
gj (x̂) = 0
für j = 1, . . . , m.
Dann ist x̂ eine Lösung des Optimierungsproblems
max f (x) u.d.N.
x
gj (x) = 0 für j = 1, . . . , m.
Man beachte, daß diese Formulierung wegen der einfachen Form der KT’ zwar
eine Vereinfachung der allgemeineren Form KT mit Nebenbedingungen als Ungleichungen darstellt aber gleichzeitig verschiedene Nachteile mit sich bringt.
Zunächst sind die Handlungsalternativen in den meisten ökonomischen Kontexten durch Ungleichungen in Form von Budget- oder Resourcenrestriktionen, also
obere oder untere Schranken gegeben. Ferner enthalten die KT’ keine Information
zum Vorzeichen der Lagrangevariablen. Da außerdem die hinreichende Forderung
der Quasikonkavität aller Funktionen bei Nebenbedingungen in Form von Gleichungen in die Forderung der Linearität der Nebenbedingungen übergeht, bleiben
nur wenige einfache Anwendungen übrig, bei denen die KT’ (I) und (II) der Sätze
12.6 und 12.7 die maßgeblichen Kriterien zum Lösen von Optimierungsproblemen
darstellen.
Beispiel 12.7: Ein typisches solches Problem ist das Nutzenmaximierungsproblem eines Haushaltes dessen Präferenzen erstens strikt monoton sind, der also
stets sein Budget voll ausschöpft und dessen Budgetrestriktion daher als Gleichung statt als Ungleichung angenommen werden kann. Wenn man zweitens annimmt, daß der Haushalt jedes Gut in strikt positiver Menge konsumieren möchte,
also Indiﬀerenzkurven nicht die Achsen schneiden, dann folgt, daß in vielen relevanten Fällen die Untergrenzen an die konsumierten Gütermengen nicht bindend
sind und daher das betrachtete Nutzenmaximierungsproblem zum Nutzenmaximierungsproblem mit Budgetgleichung als Nebenbedingung äquivalent ist. Daraus folgt, daß die Lösung des Problems, also die Bestimmung der Nachfrage mit
125
12 Optimierungstheorie
Hilfe der beiden KT’ der Sätze 12.6 und 12.7 das ursprüngliche Problem nicht
vereinfacht, denn zuvor muß sichergestellt sein, daß erstens die Budgetrestriktion
bindend und zweitens keine andere Nebenbedingung bindend ist, was im Prinzip
genau der Analyse der KT-Bedingungen (3) und (4) entspricht, die – wie wir uns
erinnern – genau der Fallunterscheidung dient, ob Nebenbedingungen bindend
sind oder nicht. Da dieser Stoﬀ Gegenstand der Mikro-Veranstaltungen ist, seien
hier nur wenige Beispiele genannt. Betrachte stets zweidimensionale Güterräume
mit Güterbündel x = (x1 , x2 ), Preisvektor p = (p1 , p2 ), exogenem Einkommen I
und das Optimierungsproblem
max u(x) u.d.N. I − p · x ≥ 0 und xi ≥ 0 für j = 1, 2. (MAX)
x
Die zugehörige Lagrangefunktion ist
L(x, λ, α1 , α2 ) = u(x) + λ(I − p1 x1 − p2 x2 ) + α1 x1 + α2 x2
und die ”normalen” KT sind
(1)
(2)
(3)
(4)
∇L(x) = ∇u(x) − λp + (α1 , α2 ) = 0
I − p1 x1 − p2 x2 ≥ 0, x1 ≥ 0 und x2 ≥ 0
λ ≥ 0, α1 ≥ 0 und α2 ≥ 0
λ(I − p1 x1 − p2 x2 ) = 0, α1 x1 = 0 und α2 x2 = 0.
Wir sehen, daß unter diesen Bedingungen alle Nebenbedingungen linear sind.
Dadurch sind gute Chancen gegeben, daß die vereinfachten KT’ gemäß der Sätze
12.6 und 12.7 zur Lösung von (MAX) genügen. Sie lauten
(I) ∇u(x) − λp = 0
(II) p1 x1 + p2 x2 = I.
1
1
(i) Für die konkave Cobb-Douglas-Nutzenfunktion u(x) = x12 x22 , strikt positives
Einkommen und Preise I > 0, p1 > 0 und p2 > 0 gelten alle Voraussetzungen, um
Satz 12.7 mit den vereinfachten KT’ anzuwenden, da die Nutzenfunktion strikt
monoton ist, die Indiﬀerenzkurven nicht die Achsen schneiden und alle Nebenbedingungen linear sind. Eine Lösung der KT’ (I) und (II) löst also (MAX).
(ii) Die Cobb-Douglas-Nutzenfunktion u(x) = x21 x22 ist nicht konkav. Daher
können wir mit Hilfe von Satz 12.7 nicht schließen, das die vereinfachten KT’
und zu einer Lösung von (MAX) führen. In diesem Fall ist u(x) = x21 x22 aber
quasikonkav, was als hinreichende Bedingung ausreicht.
(iii) Die quasilineare Nutzenfunktion u(x) = x1 + ln x2 ist zwar strikt monoton
und konkav, aber deren Indiﬀerenzkurven schneiden die x1 −Achse. Damit sind
die Voraussetzungen zur Anwendung der vereinfachten KT’ nicht erfüllt. Die KT
126
12 Optimierungstheorie
können aber angewendet werden und führen zu stetigen aber nicht diﬀerenzierbaren Nachfragefunktionen.1
(iv) Die Nutzenfunktion u(x) = x21 + x22 ist nicht konkav und auch nicht quasikonkav. Da die BQ für p1 > 0, p2 > 0 auf dem ganzen R2+ erfüllt ist, muß eine
Lösung von (MAX) die KT (1) bis (4) erfüllen. Es kann also Satz 12.4 angewendet
werden, hingegen nicht Satz 12.5. Die Lagrangefunktion ist
L(x, λ, α1 , α2 ) = x21 + x22 + λ(I − p1 x1 − p2 x2 ) + α1 x1 + α2 x2
und die KT für diese Nutzenfunktion lauten
(1) ∂x∂ 1 L(x) = 2x1 − λp1 + α1 = 0 und ∂x∂ 2 L(x) = 2x2 − λp2 + α2 = 0
(2) I − p1 x1 − p2 x2 ≥ 0, x1 ≥ 0 und x2 ≥ 0
(3) λ ≥ 0, α1 ≥ 0 und α2 ≥ 0
(4) λ(I − p1 x1 − p2 x2 ) = 0, α1 x1 = 0 und α2 x2 = 0.
Da u strikt monoton ist, gilt stets λ > 0 und p1 x1 + p2 x2 = I. Aus der Bedingung (4) ergeben sich also 3 mögliche Fälle. Ecklösung (e1) mit α1 > 0 impliziert
x1 = 0 und x2 = pI2 . Ecklösung (e2) mit α2 > 0 impliziert x2 = 0 und x1 = pI1 .
Tangentiallösung (t) mit α1 = α2 = 0 impliziert mit KT (1) Grenzrate der Substitution gleich Preisverhältnis oder xx12 = pp12 . Unter diesen drei Fällen kommen nur
(e1) und (e2) als Lösung von (MAX) in Frage2 , da das durch (t) charakterisierte
Güterbündel das Nutzenminimum aller Güterbündel auf der Budgetgeraden ist.
Man beachte, daß die vereinfachten KT’ uns nur zum Nutzenminimum (t) auf der
Budgetgeraden hinführen aber im Gegensatz zu KT nicht zur Lösung des Nutzenoptimierungsproblems. Damit zeigt dieses letzte Beispiel insbesondere, daß KT’
im Gegensatz zu KT keine notwendigen Bedingungen sind, falls die Zielfunktion nicht konkav ist, also zur Bestimmung einer Lösung von (MAX) nicht helfen
können.
12.6 Existenz und Eindeutigkeit von Lösungen
Wir haben Beispiele gesehen, bei denen keine Lösung zu einem Optimierungsproblem existiert. Der folgende Satz gibt hinreichende Bedingungen für die Existenz
von Lösungen zu Optimierungsproblemen.
Satz 12.8 (Satz von Weierstrass) Sei f : Rn −→ R stetig und die Auswahlmenge A ⊆ Def(f ) ⊆ Rn nicht leer und kompakt. Dann existiert eine Lösung zum
Optimierungsproblem maxx∈A f (x).
1
Die Berechnungen der Nachfragen sind Gegenstand der entsprechenden MikroVeranstaltungen.
2
Beides sind lokale Maxima, das globale ergibt sich durch den Nutzenvergleich dieser beiden.
127
12 Optimierungstheorie
Beispiel 12.8: Als Fortsetzung des Beispiels 12.5 aus der Mikroökonomie betrachte das Nutzenmaximierungsproblem MAX gegeben durch
max2 u(x) u.d.N. p1 x1 + p2 x2 ≤ I, x1 ≥ 0, x2 ≥ 0
x∈R
mit stetiger Nutzenfunktion u(x1 , x2 ) auf dem 2-dimensionalen Güterraum Preisen p1 , p2 und exogenem Einkommen I ≥ 0.
(i) Betrachte zunächst den Fall strikt positiver Güterpreise p1 , p2 > 0. Wir
wollen zeigen, daß aus dem Satz von Weierstrass folgt, daß MAX eine Lösung
besitzt. Dafür muß die Budgetmenge
A = x ∈ R2 |p1 x1 + p2 x2 ≤ I, x1 ≥ 0, x2 ≥ 0
nicht leer und kompakt sein. A ist nicht leer, denn sie enthält stets das Element
(0, 0). Außerdem ist die Auswahlmenge beschränkt. Als obere Schranke wähle
2
z.B. a = max{ pI1 , pI2 }. Sei z.B. p1 ≤ p2 . Dann gilt ||x|| = x21 + x22 ≤ a = pI1
2
für alle x ∈ A, denn gäbe es umgekehrt ein x ∈ A mit x21 + x22 > a2 = pI1 ,
dann gälte wegen 0 < p1 ≤ p2 auch
(p1 x1 + p2 x2 )2 =
≥
≥
≥
p1 x1 + p2 x2 >
(p1 x1 )2 + 2p1 x1 p2 x2 + (p2 x2 )2
(p1 x1 )2 + (p2 x2 )2
(p1 x1 )2 + (p1 x2 )2
I 2 also
I,
was x ∈ A widerspricht. Eine entsprechende Abschätzung gilt oﬀenbar auch für
p1 ≤ p2 . Also ist A beschränkt. Die obere Schranke a = max{ pI1 , pI2 } ist tatsächlich
die kleinste obere Schranke der Budgetmenge, denn
# #
#
#
# #
# I
#
I
# , # 0,
# = a.
,
0
max #
# #
# p1
p2 #
Es bleibt zu prüfen, ob A abgeschlossen ist. Da A seinen Rand ∂A enthält, denn
die A begrenzenden Ungleichungen sind alle schwach, ist A auch abgeschlossen
und also kompakt. Gemäß des Satzes von Weierstrass existiert daher eine Lösung
von MAX.
(ii) Falls einer der Preise, z.B. p1 = 0 ist, ist die Budgetmenge
A = x ∈ R2 |p1 x1 + p2 x2 ≤ I, x1 ≥ 0, x2 ≥ 0
nicht mehr beschränkt, also nicht kompakt. Dies erkennt man daran, daß für die
eben deﬁnierte kleinste obere Schranke a gilt
I I
,
= ∞.
lim a = lim max
p1 →0
p1 →0
p1 p2
128
12 Optimierungstheorie
In der Tat besitzt MAX für keine der in Beispiel 12.5 untersuchten Nutzenfunktionen eine Lösung, da der Haushalt unersättlich bezüglich eines Gutes mit dem
Preis 0 ist.
(iii) Sei nun die Auswahlmenge gegeben durch
A = x ∈ R2 |p1 x1 + p2 x2 ≤ I, x1 > 0, x2 ≥ 0 ,
d.h. vom Gut 1 darf nicht die Menge x1 = 0 konsumiert werden. Dann kann
der Satz von Weierstrass nicht mehr angewendet werden, auch wenn die Preise
p1 , p2 > 0 strikt positiv sind und die Auswahlmenge daher beschränkt ist, denn
für I > 0 ist A nicht abgeschlossen und für I = 0 ist A leer. Auch in diesem Fall
lassen sich einfach Nutzenfunktionen angeben, so daß MAX tatsächlich keine
Lösung besitzt, z.B. für u(x) = x2 würde der Haushalt gerne nur das Gut 2
konsumieren. Da nicht die Menge 0 vom Gut 1 konsumiert werden kann, existiert
zu jedem Güterbündel x ∈ A ein gegenüber diesem präferiertes.
Der Satz von Weierstrass zeigt uns, daß Stetigkeit eine wichtige Voraussetzung
für die Existenz von Lösungen ist. Der folgende Satz zeigt entsprechend, daß
Konvexität bzw. strikte Quasikonkavität eine wichtige Voraussetzung für die Eindeutigkeit von Lösungen ist.
Satz 12.9 Sei A ⊆ Def(f ) ⊆ Rn eine konvexe Auswahlmenge und f : Rn −→ R
strikt quasikonkav auf der Auswahlmenge A. Dann existiert nicht mehr als eine
Lösung zum Optimierungsproblem maxx∈A f (x).
Die Beweisidee ist, daß konvexe Kombinationen λx̂+(1−λ)x̄ zweier verschiedener
Lösungen x̂, x̄ stets ebenfalls Lösungen sein müssen wegen der Konvexität der
Auswahlmenge und der Quasikonkavität. Wegen der strikten Quasikonkavität
gilt aber, daß strikte konvexe Kombinationen λx̂ + (1 − λ)x̄ für 0 < λ < 1 sogar
strikt bevorzugt werden, was ein Widerspruch dazu ist, daß x̂, x̄ Lösungen sind.
Beispiel 12.9:
(i) Sei A = {0, 1} und f (x) = x − x2 . Dann ist f strikt konkav, also auch
strikt quasikonkav. Dennoch besitzt maxx∈A f (x) die beiden Lösungen 0 und 1.
Das liegt daran, daß A keine konvexe Menge ist. Würde man die Auswahlmenge konvexiﬁzieren, d.h. in diesem Fall zum Optimierungsproblem maxx∈[0,1] f (x)
übergehen, dann kommt Satz 12.9 zur Anwendung und es kann höchstens eine
Lösung existieren. In diesem Fall wäre die eindeutige Lösung x = 12 .
(ii) Sei A = (0, 1) und f (x) = −x2 , dann ist A konvex und f strikt quasikonkav, also gilt Satz 12.9 und es existiert nicht mehr als eine Lösung. In diesen
Beispiel existiert keine Lösung, da A nicht kompakt ist, also die Voraussetzungen
des Satzes von Weierstrass nicht erfüllt sind.
129
12 Optimierungstheorie
Satz 12.8 nennt Bedingungen, die mindestens eine Lösung garantieren, während
Satz 12.9 Bedingungen nennt, die die Zahl der Lösungen auf höchstens eine beschränkt. Daraus folgt zusammen:
Satz 12.10 Sei A ⊆ Def(f ) ⊆ Rn eine nicht-leere, kompakte und konvexe Auswahlmenge und f : Rn −→ R stetig und strikt quasikonkav auf der Auswahlmenge
A. Dann existiert genau eine Lösung zum Optimierungsproblem maxx∈A f (x).
Beispiel 12.10: Die Beispiele 12.7,(i) bis (iii) erfüllen alle Voraussetzungen des
Satzes 12.10 und garantieren daher eindeutige Lösungen des Nutzenmaximierungsproblems. Daraus ergibt sich die Existenz einer Nachfragefunktion, die jedem Tupel (p1 , p2 , I) ein eindeutiges am meisten präferiertes Güterbündel zuordnet. In Beispiel 12.5.(iv) dagegen ist die Nutzenfunktion nicht strikt quasikonkav.
Die Nachfrage existiert wegen des Satzes von Weierstrass zwar, ist aber nicht mehr
eindeutig und daher keine Funktion3 .
3
Sie ist eine Korrespondenz, die nicht eindeutig zu sein braucht. Es ist nicht schwierig aber
nicht Gegenstand dieses Skriptums, die meisten zentralen Aussagen der Mikrotheorie von
Funktionen auf Korrespondenzen zu verallgemeinern.
130
Literaturverzeichnis
[1] K. Binmore (1983). Calculus. Cambridge, London, New York: Cambridge
University Press.
[2] L. Blume und C. Simon (1994). Mathematics for Economists. New York,
London: W. W. Norton.
[3] I. Bronstein, K. Semendjajew und G. Musiol (1999). Taschenbuch der Mathematik. Erweiterte und überarbeitete Auﬂage. Thun, Frankfurt/Main: Harri Deutsch.
[4] A. Chiang (1984). Fundamental Methods of Mathematical Economics. 3.
Auflage. Auckland, London, Tokio: McGraw-Hill.
[5] A. Dixit (1990). Optimization in Economic Theory. 2. Auflage. New York,
Oxford: Oxford University Press.
[6] A. Mas-Colell, M. Whinston und J. Green (1995). Microeconomic
Theory. New York, Oxford: Oxford University Press.
[7] D. Ohse (2002). Mathematik für Wirtschaftswissenschaftler I - Analysis. 5.
Auflage. München: Vahlen.
[8] H. Rommelfanger (2001). Mathematik für Wirtschaftswissenschaftler I
5. Auflage. Heidelberg, Berlin: Spektrum: Akademischer Verlag.
[9] K. Sydsæter, und P. Hammond (2002).Essential Mathematics for Economic Analysis. 3. Auflage. Prentice Hall.
128

1 Mengenlehre - Wiwi Uni-Frankfurt - Goethe

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können