1 Mengenlehre - Wiwi Uni-Frankfurt - Goethe

Werbung
J.W. Goethe Universität Frankfurt am Main
Fachbereich Wirtschaftswissenschaften
Volkswirtschaftslehre, insbesondere Mikroökonomie
Prof. Dr. Matthias Blonski
Mathematik I
Vorlesungsbegleitendes Skriptum
Update: 1. Februar 2004
Inhaltsverzeichnis
1 Mengenlehre
1.1 Grundbegriffe . . . . . . . . . . . . .
1.2 Mengenoperationen . . . . . . . . . .
1.3 Rechenregeln für Mengenoperationen
1.4 Tupel und kartesische Produkte . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
4
2 Logik
2.1 Aussagen und Aussageformen . . . . . . . . . . . . .
2.2 Verknüpfungen von Aussagen . . . . . . . . . . . . .
2.3 Quantifizierung von Aussageformen . . . . . . . . . .
2.4 Definitionen, Lemmata, Sätze, Theoreme und Beweise
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
8
9
3 Zahlen und Arithmetik
3.1 Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Potenzen und Wurzeln . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Logarithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13
15
16
4 Gleichungen und Ungleichungen
4.1 Eindimensionale Gleichungen und Ungleichungen . . . .
4.2 Mehrdimensionale Gleichungs- und Ungleichungssysteme
4.3 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . .
4.4 Zweidimensionale Ungleichungssysteme . . . . . . . . . .
.
.
.
.
18
18
22
23
24
.
.
.
.
.
26
26
28
32
34
40
6 Funktionen einer Variablen
6.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Graphische Darstellung . . . . . . . . . . . . . . . . . . . . . . . .
43
43
44
5 Folgen und Grenzwerte
5.1 Folgen . . . . . . . . . . . .
5.2 Konvergenz und Grenzwert .
5.3 Grenzwerte im Unendlichen
5.4 Reihen . . . . . . . . . . . .
5.5 Mehrdimensionale Folgen . .
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Inhaltsverzeichnis
6.3
6.4
6.5
Eigenschaften von Funktionen . . . . . . . . . . . . . . . . . . . .
Grenzwerte und Stetigkeit . . . . . . . . . . . . . . . . . . . . . .
Typen von Funktionen . . . . . . . . . . . . . . . . . . . . . . . .
44
46
48
7 Ableitung von Funktionen einer Variablen
7.1 Das Konzept der Ableitung . . . . . . . . . . . . . . . . . . . . .
7.2 Ableitungen ausgewählter Funktionen . . . . . . . . . . . . . . . .
7.3 Ableitungsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
50
52
52
8 Teilmengen des Rn
8.1 Grundbegriffe der Mengen-Topologie . . . . . . . . . . . . . . . .
8.2 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
54
58
9 Funktionen von Rm nach Rn
9.1 Grundbegriffe . . . . . . . . . . . . . . . .
9.2 Verknüpfungen von Funktionen . . . . . .
9.3 Graphische Darstellung von Funktionen . .
9.4 Umkehrfunktionen . . . . . . . . . . . . .
9.5 Grenzwerte von Funktionen und Stetigkeit
9.6 Monotonie und Homogenität . . . . . . . .
9.7 Konkavität und Quasikonkavität . . . . . .
9.8 Ausgewählte Typen von Funktionen . . . .
60
60
61
63
71
74
76
79
84
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10 Differentialrechnung
10.1 Partielle Ableitungen . . . . . . . . . . . . . . . . .
10.2 Richtungsableitung, Kettenregel, Satz von Euler . .
10.3 Gradient, totales Differential . . . . . . . . . . . . .
10.4 Höhere Ableitungen . . . . . . . . . . . . . . . . . .
10.5 Eigenschaften von Funktionen und ihre Ableitungen
10.6 Elastizitäten und deren ökonomische Interpretation
10.7 Der Satz über implizite Funktionen . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
87
. 87
. 88
. 91
. 95
. 97
. 100
. 103
11 Optimierung von Funktionen einer Veränderlichen
106
11.1 Lokale und globale Extrema . . . . . . . . . . . . . . . . . . . . . 106
11.2 Optimierung mit Nebenbedingungen . . . . . . . . . . . . . . . . 108
11.3 Lagrangefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
12 Optimierungstheorie
12.1 Optimierung ohne Nebenbedingungen . . . . . . . . . . . . . . . .
12.2 Geometrische Lösung von Optimierungsproblemen . . . . . . . . .
12.3 Häufige Irrtümer . . . . . . . . . . . . . . . . . . . . . . . . . . .
12.4 Lagrangefunktion, Kuhn-Tucker Bedingungen und Beschränkungsqualifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12.5 Nebenbedingungen in Form von Gleichungen . . . . . . . . . . . .
3
115
115
117
118
120
124
1 Mengenlehre
Dieses Kapitel behandelt Grundlagen der Mengenlehre, die in gewisser Weise
am Anfang der Mathematik steht und eine Sprache bereitstellt, die zur weiteren
Formulierung der Mathematik sehr hilfreich ist.
1.1 Grundbegriffe
Eine Menge ist eine Zusammenfassung wohlunterschiedener Objekte, wobei von
jedem Objekt eindeutig feststehen muß, ob es zur Menge gehört oder nicht.
Gehört ein Objekt zu einer Menge, so bezeichnet man es auch als Element dieser
Menge. Ist ein Objekt e Element einer Menge M, so schreibt man dafür e ∈ M
(sprich: e Element M); ist e hingegen nicht Element von M, so schreibt man
dafür e ∈
/ M (sprich: e nicht Element M).
Üblicherweise wird eine Menge auf eine von zwei Arten beschrieben: Die erste
besteht darin, alle ihre Elemente in geschweifte Klammern eingefaßt und durch
Kommata getrennt vollständig aufzuzählen. Beispielsweise beschreibt der Ausdruck {a, e, i, o, u} die Menge aller Vokale des lateinischen Alphabets. In unzweideutigen Fällen, insbesondere Bei unendlichen Mengen und bei unzweideutigen Fällen ist auch die Verwendung von Ellipsen (. . .) möglich. So wird jeder
{a, b, c, d, e, . . . , z} unzweideutig als die Menge aller kleinen Buchstaben des lateinischen Alphabets und {2, 4, 6, 8, 10, . . .} als die Menge aller positiven und
geraden Zahlen erkennen.
Die zweite typische Art der Beschreibung ist die, eine allen Elementen einer Menge
und nur diesen anhaftende und somit für Elemente dieser Menge charakteristische
Eigenschaft anzugeben, z.B. {x | x ist Vokal des lateinischen Alphabets }.
Eine spezielle Menge ist die sogenannte leere Menge und wird mit ∅ oder {}
bezeichnet.
Ein weiterer wichtiger Begriff der Mengenlehre ist die Mächtigkeit einer Menge.
Sie ist für Mengen mit endlich vielen Elementen die Anzahl deren Elemente. Die
Mächtigkeit von Mengen mit unendlich vielen Elementen wird mit dem Symbol ∞
(sprich: unendlich) bezeichnet.1 Üblicherweise wird die Mächtigkeit einer Menge
M als |M| geschrieben.
1
Bei unendlichen Mengen wird außerdem zwischen abzählbar und überabzählbar unendlichen
Mengen unterschieden, was an dieser Stelle nicht weiter vertieft werden soll.
1
1 Mengenlehre
Beispiel 1.1:
(i) Für M := {2, 3, 4} ist |M| = 3.
(ii) | { {1}, {2}, {1, 3}} | = 3.
(iii) |{ 1, 2, 3, . . .}| = ∞.
Gilt für zwei Mengen A und B, daß jedes Element von A auch Element von B
ist, so ist A Teilmenge von B. Man schreibt A ⊆ B. Existiert darüberhinaus ein
Element von B, welches nicht Element von A ist, so heißt A echte Teilmenge von
B, und man schreibt A ⊂ B. Gilt für zwei Mengen A und B sowohl A ⊆ B als
auch B ⊆ A, haben also beide Mengen die gleichen Elemente, so heißen diese
Mengen gleich, und man schreibt A = B.2 Falls zwei Mengen A und B ungleich
sind bzw. A nicht Teilmenge bzw. nicht echte Teilmenge von B ist, wird durch
die Ausdrücke A = B, A ⊆ B bzw. A ⊂ B beschrieben.
Beispiel 1.2: Seien M := {2, 3, 4}, N := {2, 4}, P := {4, 3, 2} und Q := {{2}}.
Dann gilt:
(i) N ⊆ M ⊆ P
(ii) N ⊂ M und M ⊂ P
(iii) M = P
(iv) Q ⊂ M
In einigen Beispielen wurde bereits deutlich, daß Mengen wiederum Mengen als
Elemente enthalten können. Die Menge aller möglichen Teilmengen einer Menge
M ist oft von Interesse. Sie heißt Potenzmenge von M und wird durch das Symbol
℘(M) bezeichnet.
Beispiel 1.3:
(i) Für M := {1, 2, 3} ist ℘(M) = {∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}}.
(ii) Gegeben sei die Menge der Vokale V := {a, e, i, o, u}. Es gilt ℘(V ) = {W | W
ist eine Menge, deren Elemente Vokale sind }.
(iii) Die Potenzmenge der leeren Menge ist nicht leer ℘(∅) = { ∅}.
1.2 Mengenoperationen
Für Mengen sind verschiedene Operationen definiert, die jeweils zwei Mengen zu
einer Ergebnismenge verknüpfen. Der Durchschnitt A ∩ B zweier Mengen A und
B ist die Menge aller Elemente, die sowohl Element von A als auch Element
2
Man beachte, daß auch die beiden Mengen {a, b} und {a, b, b} aufgrund der Forderung, daß
alle Elemente wohlunterschieden sein müssen, gleich sind.
2
1 Mengenlehre
von B sind und Vereinigung A ∪ B zweier Mengen A und B ist die Menge der
Elemente, die entweder Element von A oder Element von B oder Element von A
und B sind. Ist der Durchschnitt zweier Mengen A und B leer, ist also A ∩ B =
∅, so heißen diese beiden Mengen disjunkt. Die Differenz A \ B ist die Menge
aller Elemente, die zwar Element von A, aber nicht Element von B sind. Man
beachte, daß die Bildung der Differenz zweier Mengen im Unterschied zur Bildung
des Durchschnitts oder der Vereinigung nicht kommutativ oder vertauschbar ist,
d.h. es gilt im Allgemeinen nicht A \ B = B \ A. Dagegen gilt immer sowohl
A ∪ B = B ∪ A als auch A ∩ B = B ∩ A. Für zwei Mengen A und Ω mit A ⊆ Ω
ist das Komplement von A bezüglich Ω definiert als Ω \ A; man schreibt dafür
üblicherweise CΩ A. Oft ist bei der Bildung eines Komplements aus dem jeweiligen
Kontext klar, bezüglich welcher Grundmenge Ω das Komplement gebildet wird.
Verkürzend wird für das Komplement einer Menge A dann nur CA oder auch Ā
geschrieben.
Beispiel 1.4:
(i) Seien M := {1, 2, 3} und N := {3, 4}. Dann gilt: M ∩N = {3} und M ∪N =
{1, 2, 3, 4}
(ii) Sei Ω := {Kreuz, Pik, Herz, Karo} und A := {Kreuz, Pik}. Dann ist CA =
CΩ A = {Herz, Karo}.
(iii) Seien N := {1, 2, 3, . . .}, G := {2, 4, 6, . . .} und U := {1, 3, . . .}, dann ist
CN G = U und CN CN G = G.
Mengenoperationen und Beziehungen zwischen Mengen werden häufig in sogenannten Venn-Diagrammen veranschaulicht. In derartigen Diagrammen werden
Mengen als geeignete Flächen in der Ebene dargestellt. In Abbildung 1.1 sind
beispielhaft die Bildung von Durchschnitt (a), Vereinigung (b), Differenz (c) und
Komplement für zwei nicht disjunkte Mengen A und B und eine Grundmenge Ω
in Venn-Diagrammen wiedergegeben.
1.3 Rechenregeln für Mengenoperationen
Für beliebige Mengen A, B, C und Ω mit A, B, C ⊆ Ω gelten die folgenden
Rechenregeln:
Zunächst gelten für Vereinigung und Durchschnitt sowohl das Kommutativ- als
auch das Assoziativgesetz, d.h. es gilt
A ∪ B = B ∪ A und A ∩ B = B ∩ A,
A ∪ (B ∪ C) = (A ∪ B) ∪ C und A ∩ (B ∩ C) = (A ∩ B) ∩ C.
Es gelten die beiden Distributivgesetze
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C),
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C).
3
1 Mengenlehre
Ω
Ω
A∩B
A
A∪B
B
A
(a)
B
(b)
Ω
Ω
A\B
CΩ A
A
B
A
(c)
(d)
Abbildung 1.1: Venn-Diagramme
Schließlich gelten noch folgende Regeln für die Bildung von Komplementen:
A ∪ CA = Ω und A ∩ CA = ∅,
C(A ∪ B) = CA ∩ CB und C(A ∩ B) = CA ∪ CB,
C∅ = Ω und CΩ = ∅,
CCA = A.
1.4 Tupel und kartesische Produkte
Mengen sind nicht geordnete Zusammenfassungen von Objekten. Die Mengen
{a, b} und {b, a} sind also gleich. Ist dagegen auch die Reihenfolge zweier Objekte
von Bedeutung, kann dieses durch das Konzept des Tupels erfasst werden. Sollen
beispielsweise die beiden Objekte a und b in der Weise geordnet zusammengefasst
werden, daß b vor a kommt, so werden sie in dem Tupel (b, a) zusammengefasst.
Dabei ist b die erste Komponente dieses Tupels und a die zweite. Ein Tupel mit
zwei Komponenten heißt auch Zwei-Tupel. Eine offensichtliche Verallgemeinerung
des Zwei-Tupels ist eine geordnete Zusammenfasung nicht nur von zwei, sondern
von beliebig vielen Objekten. Endliche derartige Zusammenfassungen heißen nTupel. Dabei gibt n ∈ {1, 2, 3, . . .} die Anzahl der Komponenten des Tupels an.
Mengen von n-Tupeln gleicher Art können über die Bildung n-facher kartesischer
Produkte definiert werden. Aufgrund der ordnungsgebenden Eigenschaft des Tupels gilt (b, a) = (a, b) für a = b; zwei Tupel sind also nur dann gleich, wenn
4
1 Mengenlehre
sie jeweils in allen Komponenten übereinstimmen. Das kartesische Produkt oder
Kreuz-Produkt A × B zweier Mengen A und B ist die Menge aller Tupel (a, b)
von Elementen a ∈ A und b ∈ B.
Beispiel 1.5:
(i) Die beiden Tupel (Karo, 7) und (Kreuz, Bube) kann man verwenden, um
die beiden entsprechenden Spielkarten zu repräsentieren. Die Menge aller Spielkarten eines Skat-Blattes ist dann B = {(f, w)|f ∈ { Kreuz, Pik, Herz, Karo }
und w ∈ {7, 8, 9, 10, Bube, Dame, König, Ass }}. Für jede Hand H zu Beginn
eines Skatspiels gilt H ⊂ B und |H| = 10.
(ii) Sei A := {1, 2} und B := {a, b}. Dann ist A×B = {(1, a), (1, b), (2, a), (2, b)}.
(iii) Die Menge aller Felder eines Schachbretts ist {A, B, . . . , H} × {1, 2, . . . , 8}.
(iv) Seien A := {u, v, w} und B := {x, y, z}. (u, v, z) ist ein 3-Tupel und Element von A × A × B. (u, w, w, v, v, u) ist ein 6-Tupel und Element von A × A ×
A × A × A × A = A6 (sprich: A hoch 6).
5
2 Logik
Ein anderer Grundpfeiler der Mathematik neben der Mengenlehre ist die Logik,
welche sich mit Aussagen, Verknüpfungen von Aussagen und deren Wahrheitsgehalt befaßt.
2.1 Aussagen und Aussageformen
In der Umgangssprache existieren verschiedene Arten von Sätzen, beispielsweise
Fragen, Meinungen, Befehls- und Aussagesätze. Eine Aussage A ist ein Satz,
der entweder wahr oder falsch ist. Zu jeder Aussage A existiert eine gegenteilige
Aussage, die Negation von A und wird mit den Symbolen ¬A oder Ā bezeichnet
und ist genau dann wahr, wenn A falsch ist und umgekehrt.
Beispiel 2.1:
(i) Aussagen sind die Sätze: ’Der Mond kreist um die Erde’ oder ’Frankfurt
liegt an der Wolga’. Keine Aussagen sind die Sätze: ’Schröder ist doof’ oder
’Küss mich’ oder ’Verstehst Du das’.
(ii) Von den Aussagen (i) ’Der Mond kreist um die Erde’ (ii)’Frankfurt liegt an
der Wolga’ (iii) ’Verdi komponierte mindestens ein Streichquartett’ (iv) ’Neun ist
eine gerade Zahl’ sind (i) und (iii) wahr und (ii) und (iv) falsch.
(iii) Die Negation der Aussage ’Frankfurt liegt an der Wolga’ ist ’Frankfurt liegt
nicht an der Wolga’. Sei A := ’Der Mond kreist um die Erde’. Dann ist ¬A =
’Der Mond kreist nicht um die Erde’. Offenbar ist A wahr und ¬A falsch.
Sätze, die Variablen enthalten und erst dann zu Aussagen werden, wenn man den
Variablen einen bestimmten Wert zuordnet, heißen Aussageformen. Sie werden
üblicherweise mit einem großen lateinischen Buchtstaben für die Aussageform
selbst, gefolgt von einem oder mehreren in Klammern gesetzten kleinen lateinischen Buchstaben für die Variablen bezeichnet. Die Menge aller Objekte, die in
eine Aussageform eingesetzt werden dürfen, heißt Grundmenge der Aussageform;
die Menge derjenigen Elemente der Grundmenge, für die die Aussageform wahr
ist, heißt Lösungsmenge der Aussageform.
Beispiel 2.2:
(i) Sei A(x) := ’x komponierte neun Symphonien’ und die dazugehörige Grund-
6
2 Logik
menge {Beethoven, Mahler, Haydn}. Dann steht A(Mahler) für die Aussage ’Mahler komponierte neun Symphonien’.
(ii) Sei G(x) := ’x > 2’ und die zu G(x) gehörige Grundmenge {1, 2, 3, 4, 5}.
Dann ist {3, 4, 5} die Lösungsmenge von G(x).
2.2 Verknüpfungen von Aussagen
Aussagen und Aussageformen können mit Hilfe sogenannter Boolscher Operatoren
zu neuen, zusammengesetzen Aussagen bzw. Aussageformen verknüpft werden1 .
Einer dieser Operatoren ist die sogenannte Konjunktion oder Und-Verknüpfung.
Die Konjunktion zweier Aussagen A und B ist genau dann wahr, wenn sowohl
A als auch B wahr sind. Formal wird die Konjunktion zweier Aussagen A und
B durch den Ausdruck A ∧ B (sprich: A und B) beschrieben. Dagegen ist die
Disjunktion A ∨ B (sprich: A oder B) zweier Aussagen A und B dann und nur
dann wahr, wenn A, B oder A und B wahr sind. Sie wird daher auch als OderVerknüpfung bezeichnet. Es gilt
¬(A ∧ B) = ¬A ∨ ¬B,
¬(A ∨ B) = ¬A ∧ ¬B.
Beispiel 2.3: Seien die Aussagen A und B wahr und die Aussage C falsch.
(i) Dann ist A ∧ B wahr und B ∧ C falsch. Ferner ist A ∨ B wahr, B ∨ C wahr
und C ∨ C falsch.
(ii) Die Negation der Aussage ’Claudia ist schön und klug’ ist die Aussage
’Claudia ist nicht schön oder nicht klug’.
(iii) Die Negation der Aussage ’Claudia ist schön oder klug’ ist die Aussage
’Claudia ist weder schön noch klug’.
Ein weiterer Boolscher Operator ist die Implikation oder Folgerung. Sie wird
für zwei Aussagen A und B durch den Ausdruck A ⇒ B (sprich: aus A folgt
B) beschrieben und ist nur dann falsch, wenn A wahr und B falsch ist. In allen
anderen Fällen ist sie wahr. Die Implikation A ⇒ B ist also identisch zur Aussage
¬A ∨ B. A heißt auch hinreichende Bedingung für B, da bei gültiger Implikation
A ⇒ B die Aussage B wahr sein muß, wenn A wahr ist, und B notwendige
Bedingung für A, da A nur dann wahr sein kann, wenn B wahr ist. Die Äquivalenz
A ⇔ B zweier Aussagen A und B ist genau dann wahr, wenn entweder A und
B beide wahr oder beide falsch sind. Sie ist äquivalent (!) zum Ausdruck (A ⇒
1
benannt nach George Boole (1815-1864), britischer Mathematiker
7
2 Logik
A B
w w
w f
f w
f f
A∧B
w
f
f
f
A∨B
w
w
w
f
A⇒B
w
f
w
w
A⇔B
w
f
f
w
Tabelle 2.1: Wahrheitstafeln für Konjunktion, Disjunktion, Implikation und
Äquivalenz
B) ∧ (B ⇒ A). Wir benutzen häufig die Sprechweise ’dann und nur dann’ oder
’genau dann’ für die Äquivalenz.
Man kann den Wahrheitsgehalt zusammengesetzer Aussagen in Abhängigkeit
vom Wahrheitsgehalt der zugehörigen Einzelaussagen übersichtlich in sogenannten Wahrheitstafeln darstellen. In diesen werden als Tabelle alle Kombinationen
von Wahrheitsgehalten der in die zusammengesetzte Aussage einfließenden einzelnen Aussagen dem sich ergebenden Wahrheitsgehalt der zusammengesetzten
Aussage gegenübergestellt. In Tabelle 2.1 sind Wahrheitstafeln für die in diesem
Abschnitt vorgestellten Verknüpfungen zusammengestellt.
Beispiel 2.4: Die Wahrheitstafel zur Aussage A ∨ (B ∧ ¬C) ist:
A B
w w
w w
w f
w f
f w
f w
f f
f f
C
w
f
w
f
w
f
w
f
A ∨ (B ∧ ¬C)
w
w
w
w
f
w
f
f
2.3 Quantifizierung von Aussageformen
In Abschnitt 2.1 wurde gezeigt, wie Aussageformen zu Aussagen werden, indem
man ein Element ihrer jeweiligen Grundmenge in sie einsetzt. Eine andere Art,
Aussagen aus Aussageformen zu machen ist, diese zu quantifizieren. Sei im weiteren A(x) eine Aussageform mit der Grundmenge G und der Lösungsmenge
L ⊆ G. Dann steht ∃x. A(x) (sprich: es existiert ein x mit A(x)) für die Aussage,
daß mindestens ein x ∈ G existiert, für welches A(x) wahr ist. Das Symbol ∃
heißt Existenzquantor. Ferner bedeutet ∀x. A(x) (sprich: für alle x gilt A(x)), daß
8
2 Logik
A(x) für alle x ∈ G wahr ist. Das Symbol ∀ heißt entsprechend Allquantor. Man
beachte, daß ∃x. A(x) genau dann wahr ist, wenn L = ∅ gilt, und daß ∀x. A(x)
genau dann wahr ist, wenn L = G gilt. Daraus folgt, daß ∃x. A(x) wahr ist, falls
∀x. A(x) wahr ist. In der Schreibweise der Logik ist das ∀x. A(x) ⇒ ∃x. A(x).
Bezüglich der Negation quantifizierter Aussageformen gelten die Regeln:
¬∀x. A(x) ⇔ ∃x. ¬A(x)
¬∃x. A(x) ⇔ ∀x. ¬A(x)
Beispiel 2.5:
(i) Sei A(x) := ’x > 3’ eine Aussageform mit der Grundmenge G := {1, 2, 3, 4}.
Dann ist ∃x. A(x) eine wahre Aussage, da 4 > 3 wahr ist, und ∀x. A(x) eine falsche
Aussage, da beispielsweise 1 > 3 falsch ist.
(ii) Die Verneinung der Aussage ’Alle Menschen sind sterblich’ ist ’Es gibt einen
Menschen, der nicht sterblich ist’. Die Negation der Aussage ’Es gibt einen Studenten, der alles versteht’ ist ’Für jeden Studenten gibt es etwas, das er nicht
versteht’.
2.4 Definitionen, Lemmata, Sätze, Theoreme und
Beweise
Die Mathematik ist ein logisch aufgebautes Gedankengbäude. Ihre Sprache verwendet Begriffe und Strukturen, die zunächst definiert werden müssen. Wir haben bis hier schon viele Begriffe definiert, zuletzt z.B. den Allquantor ∀. Kurze, einfache Definitionen werden in mathematischen Texten oft durch einfache
Hervorhebungen im Text markiert. Längere und komplexere Definitionen werden
meistens als solche hervorgehoben und fallen dadurch noch mehr auf. Mit Begriffen und Strukturen werden Aussagen gemacht. Unsere zuletzt gemachte Aussage
mit zuvor definierten Begriffen war z.B. ¬∃x. A(x) ⇔ ∀x. ¬A(x). Mathematiker
sortieren ihre Aussagen gerne nach ihrer Wichtigkeit. Dabei werden kleine, untergeordnete, oder Hilfsaussagen Lemma genannt, die meisten Aussagen nennt
man Satz oder auf englisch proposition was gelegentlich fälschlich als Vorschlag
übersetzt wird.
Die wichtigsten Resultate in der Mathematik werden Theoreme genannt. Diese
zu beweisen kann manchmal sehr schwierig und aufwendig sein. Großes Aufsehen in der mathematischen Fachwelt erregte z.B. der Beweis des letzten Schrittes
von Fermat’s berühmtem ’letzten Theorem’, aufgestellt vom französischen Mathematiker Pierre de Fermat um das Jahr 1630 als Randnotiz in einem zahlentheoretischen Aufsatz mit dem Vermerk, daß ihm ein einfacher Beweis dafür
9
2 Logik
bekannt sei. Fermats letztes Theorem sagt aus, daß für n = 3, 4, 5, . . . keine
ganzzahligen Lösungen ungleich 0 der Gleichung xn + y n = z n existieren. Der
britische Mathematiker Andrew Wiles versetzte am 23. Juni 1993 die Fachwelt in große Aufregung, als er per email verbreitete, diese berühmte Vermutung
endgültig bewiesen zu haben2 . In der Tat war dies nur der letzte Schritt in einer
über 350-jährigen Suche nach einem Beweis, an dem sich viele der bedeutensten
Mathematiker unserer und auch früherer Zeiten beteiligten und die maßgeblich
die moderne Geschichte der Mathematik mit geprägt hat. Auf dem Weg zum
endgültigen Beweis wurden zahlreiche neue Gebiete der Mathematik entwickelt,
von denen viele Mathematiker heute glauben, daß sie für sich genommen viel
wichtiger sind, als Fermats ursprüngliche Behauptung selbst.
Wirtschaftswissenschaftler im Gegensatz zu Mathematikern interessieren sich weniger für Beweise, also die internen Strukturen logischer Gedankengebäude, sondern mehr für die Anwendungen mathematischer Aussagen auf die reale Welt.
Um dieses Ziel schneller erreichen zu können, werden auch in diesem Skriptum
die meisten Beweise weggelassen. So sahen wir noch keinen Beweis bis hier. Auch
Wirtschaftswissenschaftler sollten sich jedoch bewußt sein, daß das Weglassen
und Ignorieren von mathematischen Beweisen verschiedene Gefahren in sich birgt.
Zum Beispiel geht es auch dem Wirtschaftswissenschaftler oft um strukturelles
Verständnis, wenn ökonomische Phänomene mit Hilfe von Modellen beschrieben
und erklärt werden. Daher liegt ein Teil des Verständnisses des ökonomischen
Phänomens in der verwendeten Struktur des mathematischen Modells. Der andere (ökonomische) Teil des Verständnisses drückt sich oft in der Wahl geeigneter
Modell-Bestandteile und Annahmen aus. Beide Verständnisarten bedingen sich
oft gegenseitig. Es ist kein Zufall, daß viele der berühmten Ökonomen unserer Zeit
gleichzeitig hervorragende Mathematiker sind oder sogar von der Mathematik zur
Ökonomie gekommen sind. Umgekehrt ist es schwierig, als angehender Ökonom
an die Front aktueller Forschung in Ökonomie zu gelangen, ohne sich großzügig
in der Welt der etablierten mathematischen Resultate zu bedienen. Es ist eine
Kunst, sich für die relevanten mathematischen Strukturen zu interessieren und
die weniger relevanten ökonomisch als ’black boxes’ zu benutzen auf dem Weg zu
einem besseren ökonomischen Verständnis.
Da wir im Folgenden gelegentlich exemplarisch Beweise vorführen, sei hier kurz
auf einige der wichtigsten Beweis-Techniken des Mathematikers eingegangen.
Als direkten Beweis bezeichnet man eine Kette von Implikationen, an deren Anfang die hineingesteckten Annahmen und an deren Ende die zu beweisende Behauptung steht.
√
Beispiel 2.6: Seien a, b ∈ {0, 1, 2, . . .}, dann ist das geometrische Mittel a · b
.
stets kleiner oder gleich dem arithmetischen Mittel a+b
2
2
Der Beweis wurde schließlich publiziert als Andrew Wiles, Modular elliptic curves and
Fermat’s Last Theorem, Ann. Math. 141 (1995), 443-551
10
2 Logik
√
Beweis: a · b ≤ a+b
⇔ 4ab ≤ (a + b)2 ⇔ 0 ≤ (a − b)2 , was stets wahr ist. Da
2
für a, b ∈ {0, 1, 2, . . .} die Implikationen in beiden Richtungen gelten, gelten sie
insbesondere alle rückwärts, also ist die am Anfang stehende Aussage wahr.
Der indirekte Beweis beruht auf der logischen Äquivalenz ¬(A∧B) = ¬A∨¬B, die
in Kap. 2.2 eingeführt wurde. Die Quantifizierung dieser logischen Äquivalenz ist
¬∀x. A(x) ⇔ ∃x. ¬A(x). Statt eines Beispiels hier, wird auf das folgende √
Kapitel
verwiesen, wo wir indirekt oder durch Widerspruch beweisen werden, daß 2 eine
irrationale Zahl ist.
Falls die zu beweisende Behauptung für alle natürlichen Zahlen n ∈ N zu zeigen ist, so kann sie mit Hilfe vollständiger Induktion bewiesen werden. Diese
Beweismethode wird dem französischen Mathematiker Blaise Pascal (16231662), einem Zeitgenossen von P. de Fermat, zugeschrieben. Die Aussage wird
zunächst für eine Zahl n0 ∈ N gezeigt. Die Zahl n0 ist oft 0 oder 1. Man nennt
sie den Induktionsanfang. Aus der Induktionsvoraussetzung, also der Annahme,
die Behauptung gelte für n ∈ N, folgert man dann die Induktionsbehauptung,
also die selbe Behauptung für n + 1 ∈ N. In dieser Folgerung, also diesem Teil
des Beweises, liegt meistens die eigentliche Beweisidee, daher nennen wir ihn den
Induktionsbeweis.
Beispiel 2.7: (Gauss’sche Summenformel3 ) Es gilt ∀n ∈ N:
1+2+···+n =
n(n + 1)
2
.
.
(i) Induktionsanfang: 1 = 1·2
2
(ii) Induktionsvoraussetzung: Es gelte für n = k:
1+2+···+k =
k(k + 1)
2
.
(iii) Induktionsbehauptung: Dann gilt für n = k + 1:
1 + 2 + · · · + k + (k + 1) =
(k + 1)(k + 2)
2
.
(iv) Induktionsbeweis:
1 + 2 + · · · + k + (k + 1) =
3
k(k + 1)
+ (k + 1)
2
benannt nach dem deutschen Mathematiker Carl Friedrich Gauss (1777-1855), vom dem
die Legende sagt, daß er eine von seinem Lehrer gestellte Aufgabe, die Zahlen 1 bis 100
aufzuaddieren im Handumdrehen lösen konnte zu großen Verblüffung seines Lehrers und
seiner Mitschüler. Gauss verwendete angeblich eine andere Idee. Statt die Zahlen sukzessive
zu addieren rechnete er 1 + · · · + 100 = (1 + 100) + (2 + 99) + · · · + (50 + 51) = 50 · 101.
11
2 Logik
k 2 + k + 2k + 2
2
(k + 1)(k + 2)
=
.
2
=
12
3 Zahlen und Arithmetik
In diesem Kapitel werden Zahlen und einzelne Elemente aus dem Bereich der
Arithmetik rekapituliert. Insbesondere werden die reellen Zahlen eingeführt und
einige Rechenregeln wie Potenzrechnung und Logarithmieren wiederholt.
3.1 Zahlen
Grundlegend für die Mathematik sind die Zahlen. Die Zahlen 1, 2, 3, . . ., die sich
intuitiv aus dem Zählen (z.B. der Finger) ergeben, heißen natürliche Zahlen oder
positive ganze Zahlen und werden mit dem Symbol N bezeichnet. Dazu gehören offenbar die geraden Zahlen 2, 4, 6, . . . und die ungeraden Zahlen 1, 3, 5, . . .. Natürliche Zahlen sind bezüglich der Addition und der Multiplikation abgeschlossen. Das
heißt, daß die Summe und das Produkt zweier natürlicher Zahlen wieder natürliche Zahlen sind.
Positive und negative ganze Zahlen zusammen mit der 0, also . . . , −2, −1, 0, 1, 2, . . .
heißen ganze Zahlen und werden mit Z bezeichnet. Die ganzen Zahlen sind zusätzlich bezüglich der Subtraktion abgeschlossen.
Brüche sind Zahlen wie 27 , die sich als Quotient ab zweier ganzer Zahlen a und
b mit b = 0 darstellen lassen. Sie heißen rationale Zahlen und werden als Q bezeichnet. Verschiedene Brüche können die gleiche rationale Zahl darstellen, zum
Beispiel ist 24 = 12 . Eine besondere Rolle spielen daher die gekürzten Brüche, deren
Zähler und Nenner teilerfremd sind und der Nenner stets positiv ist. Wir können
daher jede rationale Zahl durch viele Brüche aber nur mit genau einem gekürzten
Bruch darstellen. Die rationalen Zahlen sind bezüglich aller vier Grundrechenarten +, −, ·, : abgeschlossen.
Die ganzen und auch die rationalen Zahlen lassen sich auf der Zahlengeraden
darstellen. Angenommen, wir würden alle rationalen Zahlen, also zuerst die 0,
dann alle (positiven und negativen) Vielfachen von 1, dann alle (positiven und
negativen) Vielfachen von 12 , dann alle (positiven und negativen) Vielfachen von
1
, usw. auf der Zahlengeraden markieren. Es ist verführerisch, zu denken, dann
3
gäbe es keine Löcher mehr auf der Zahlengeraden. Schon die Griechen der Antike
bemerkten jedoch, daß dies nicht der Fall ist. Spätestens Euklid
√ sah, daß keine
p 2
ganzen Zahlen p und q existieren, so daß ( q ) = 2 ist. Also ist 2 keine rationale
13
3 Zahlen und Arithmetik
Zahl. Um dies zu zeigen, verwenden wir einen indirekten Beweis. Statt also zu
zeigen ” pq ist gekürzter Bruch aus ganzen Zahlen” ⇒ ”( pq )2 = 2” zeigen wir
”( pq )2 = 2” ⇒ ” pq ist nicht gekürzter Bruch aus ganzen Zahlen”. Dabei verwenden
wir also die logische Äquivalenz
(A ⇒ B) ⇔ (¬A ∨ B) ⇔ (B ∨ ¬A) ⇔ (¬B ⇒ ¬A).
Nehmen wir also umgekehrt an, es gäbe einen gekürzten Bruch
p2
q2
p2
q2
2
p
q
=
√
2. Also ist
2
ein gekürzter Bruch (warum?). Wegen = 2 ist also p = 2q . Da q und
auch
2
daher q ganze Zahlen sind, ist 2q 2 und daher auch p2 eine gerade Zahl, denn wäre
p ungerade so wäre auch p2 ungerade. Also ist p2 sogar durch 4 teilbar. Wegen
p2 = 2q 2 muss dann aber auch q gerade sein. Dies widerspricht aber unserer
Annahme, daß pq gekürzt ist. Da also ( pq )2 = 2 zu einem Widerspruch führt, ist
√
2 keine rationale Zahl.
Eine für uns übliche Art, Zahlen zu schreiben, ist die so genannte Dezimalschreibweise. Jede natürliche Zahl kann mit Hilfe der zehn Symbole 0, 1, 2, . . . , 9 geschrieben werden. Die Anordnung der Ziffern als Zahl entspricht der Summe von
Vielfachen der Potenzen von 10. Zum Beispiel bedeutet
2003 = 2 · 103 + 0 · 102 + 0 · 101 + 3 · 100 .
Zusammen mit den Symbolen +, − können alle ganzen Zahlen im Dezimalsystem
geschrieben werden. Mit Hilfe von Kommastellen und negativen Potenzen von
10 können wir auch rationale Zahlen, die keine ganzen Zahlen sind, in Dezimalschreibweise darstellen, zum Beispiel
3.14 = 3 · 100 + 1 · 10−1 + 4 · 10−2.
Jeder Zahl, die auf diese Weise mit endlich vielen Ziffern in Dezimalschreibweise
geschrieben werden kann, ist eine rationale Zahl zugeordnet. Umgekehrt kann
nicht jede rationale Zahl mit endlich vielen Ziffern in Dezimalschreibweise dargestellt werden. Zum Beispiel ist 13 = 0.3̄ = 0.33 . . ., wobei der obere Balken die
zu wiederholenden Ziffern beschreibt oder die Punkte dafür stehen, daß die Ziffer
3 unendlich oft wiederholt wird. Die Dezimalschreibweise jeder rationalen Zahl
ist jedoch periodisch, d.h. ab einer gewissen Stelle der Dezimalschreibweise wiederholen sich die Ziffern unendlich oft in der gleichen Reihenfolge. Zum Beispiel
ist
1
= 0.142857 = 0.142857142857 . . . .
7
Eine intuitive Erweiterung der rationalen Zahlen ist offenbar die Menge aller
Zahlen in (unendlicher) Dezimalschreibweise, also auch die nichtperiodischen. Wir
14
3 Zahlen und Arithmetik
nennen alle solchen Zahlen, die nicht schon rationale Zahlen sind, irrational. Dazu
gehören zum Beispiel
√
√
1, 01001000100001 . . . , 2, − 11, π, e.
Rationale und irrationale Zahlen zusammen, also alle Zahlen in Dezimalschreibweise, heißen reelle Zahlen und werden mit R bezeichnet. Dies ist die für Ökonomen wichtigste und am häufigsten verwendete Zahlenmenge und wird daher
später weiter vertieft. Reelle Zahlen sind wie die rationalen Zahlen abgeschlossen bezüglich der vier Grundrechenarten, aber darüber hinaus auch bezüglich
der Bildung von Grenzwerten, die in Kap.??? eingehender behandelt werden. Die
reellen Zahlen sind dagegen nicht
√ abgeschlossen bezüglich der Bildung von Wurzelausdrücken. Zum Beispiel ist −1 keine reelle Zahl. Der Abschluss der reellen
Zahlen bezüglich Wurzelaudrücken heißt komplexe Zahlen und wird mit C bezeichnet. Die komplexen Zahlen sind für die Mathematik und auch für die Physik
grundlegend. Da jedoch komplexe Zahlen selten in den Wirtschaftswissenschaften
vorkommen, werden wir uns hier nicht weiter damit befassen.
Offensichtlich gilt N ⊂ Z ⊂ Q ⊂ R ⊂ C. Die komplexen Zahlen sind also der
allgemeinste der fünf hier aufgeführten Zahlenbegriffe.
3.2 Potenzen und Wurzeln
Das n-fache Produkt
a
· a ·. . . · a
n mal
einer Zahl a ∈ R mit sich selbst wird als die n-te Potenz dieser Zahl bezeichnet.
Dabei heißt a auch Basis oder Grundzahl und n Exponent oder Hochzahl der
Potenz. Man schreibt dafür an .
Der Potenzbegriff wird über die Definition a−n := a1n mit n ∈ N auf ganzzahlige
Exponenten kleiner Null erweitert und mit der Festsetzung a0 := 1 für a = 0
schließlich auf alle ganzzahligen Exponenten ausgedehnt.1 Für das Rechnen mit
Potenzen gilt für alle n, m ∈ Z:
an am =
an
=
am
n n
a b =
an
=
bn
(an )m =
1
an+m
an−m
n
(ab)
a n
b
nm
a
Der Ausdruck 00 ist nicht definiert.
15
; a, b ∈ R
; a, b ∈ R, a = 0
; a, b ∈ R
; a, b ∈ R, b = 0
; a, b ∈ R
3 Zahlen und Arithmetik
Beispiel 3.1:
(i) 32 · 33 = 35 = 3 · 3 · 3 · 3 · 3 = 243.
2
1
1
= 25
.
(ii) 554 = 5−2 = 512 = 5·5
2
2
2
2
(iii) 4 · 6 = (4 · 6) = 24 = 576.
3
(iv) (22 ) = 26 = 64.
Für die Potenz an √
= b mit b ≥ 0 und n ∈ N heißt a auch
√ n-te Wurzel aus b und
n
man schreibt a = b für n = 2 und einfach nur a = b für n = 2. Dabei wird b
auch als Radikant bezeichnet. Das Wurzelziehen ist also die inverse Operation der
Potenzierung. Wurzelausdrücke können auch als Potenzen mit nicht ganzzahligen
Exponenten geschrieben werden, indem
√
a1/n := n a.
festgesetzt wird. Dies ist offenbar konsistent zu den oben angeführten PotenzRechenregeln, denn
√
n
an = (an )1/n = an/n = a.
Also gelten entsprechende Rechenregeln für das Wurzelziehen, so daß für das
Rechnen mit Wurzeln mit a, b ≥ 0 und n, m ∈ N folgt:
√
√
√
n
n
n
a √b =
ab
na
√
= n ab
n
b
√
√
n
m = ( n a)m
a
√
√
m n
a = nm a
Beispiel
√ 3.2: 1/2
16 = 16 = 4.
(i)
1/4
1/4
1/4
4
x12 y 8 = (x12 y 8) = (x12 ) (y 8 ) = x12/4 y 8/4 = x3 y 2.
(ii)
√
1/m
(iii) m x n y = xy 1/n
= x1/m y 1/mn .
3.3 Logarithmen
Mit dem Wurzelziehen wurde im vorhergehenden Abschnitt die zur Potenzierung
inverse Operation bezüglich der Basis oder Grundzahl gebildet. Die inverse Operation zur Potenzierung bezüglich des Exponenten oder der Hochzahl ist das so
genannte Logarithmieren.
Für die Potenz ay = x mit a > 0 und a = 1 heißt y auch Logarithmus von x zur
Basis a. Man schreibt dafür y = loga x. Der Logarithmus einer Zahl x zur Basis
16
3 Zahlen und Arithmetik
a ist also diejenige Zahl y, mit der a potenziert werden muß, um x zu erhalten.
Besondere Basen sind in diesem Zusammenhang 10 und die Eulersche Zahl e ≈
2, 718281828, die in vielen verschiedenen Zusammenhängen, insbesondere z.B.
für Wachstumsprozesse bedeutsam ist. Der Logarithmus zur Basis 10 wird häufig
nur mit log x, der Logarithmus zur Basis e mit ln x (für ’logarithmus naturalis’)
bezeichnet.
Beispiel 3.3:
(i) log 100 = 2.
(ii) log2 64 = 6.
(iii) ln 1 = 0.
Für das Rechnen mit Logarithmen gelten folgende Regeln. Für a, b > 0, a, b = 1
und x, y > 0 gilt:
ax
logb x = log
loga b
loga (xy) = loga x + loga y
loga (x/y) = loga x − loga y
loga (xy ) = y loga x
Beispiel 3.4:
(i) log(100 · 10002) = log 100 + log(10002 ) = log 100 + 2 log 1000 = 2 +2 · 3 =
8.
x2 y 3
2
3
5
1
1
2
3
5
(ii) 7 log x + 7 log y − 7 log z = 7 (log(x ) + log(y ) − log(z )) = 7 log z 5 .
Man beachte, daß der Logarithmus nur für Zahlen größer als Null gebildet werden
kann; für alle Zahlen kleiner oder gleich Null ist er nicht definiert.
17
4 Gleichungen und Ungleichungen
In diesem Kapitel werden Techniken zur Bestimmung der Lösungsmengen von
Gleichungen und Ungleichungen rekapituliert.
4.1 Eindimensionale Gleichungen und
Ungleichungen
Eine Gleichung oder Ungleichung ohne Variablen ist eine Aussage, z.B. ist 1 = 1
wahr und 0 > 1 falsch. Gleichungen oder Ungleichungen, bzw. mehrdimensionale
Systeme von Gleichungen und Ungleichungen mit Variablen heißen Bestimmungsgleichungen bzw. ungleichungenund sind Aussageformen. Der einzige Unterschied
zwischen Bestimmungsgleichungen und -ungleichungen besteht darin, daß bei
letzteren an der Stelle des Gleichheitszeichens eine der Relationen >, ≥, ≤, <, =
steht.
Für Gleichungen und Ungleichungen existieren Umformungen, die es ermöglichen, eine Aussageform in eine andere Aussageform mit derselben Lösungsmenge
zu überführen, und die somit sehr nützlich dafür sind, die Lösungsmenge einer
Ungleichung zu bestimmen, indem mit ihrer Hilfe die Aussageform nach der Unbekannten aufgelöst wird. Die wichtigsten dieser Umformungen sind nachfolgend
für a, b, c ∈ R zusammengestellt:
a < (≤) b
a < (≤) b
a < (≤) b ∧ c > 0
a < (≤) b ∧ c < 0
⇒
⇒
⇒
⇒
b > (≥) a
a + c < (≤) b + c
ca < (≤) cb
ca > (≥) cb
Man beachte, daß die Multiplikation einer Ungleichung mit einem Faktor c ∈ R,
dessen Vorzeichen nicht bekannt ist, eine Fallunterscheidung für c > 0 und c < 0
erforderlich macht.
Sei U eine Ungleichung der Form a = b mit a und b als beliebige Ausdrücke,
die eine unbekannte Variable enthalten. Eine Möglichkeit, deren Lösungsmenge
LU zu bestimmen, ist, zunnächst die Lösungsmenge LG der Gleichung a = b zu
berechnen. Es gilt dann LU = CR LG .
18
4 Gleichungen und Ungleichungen
Beispiel 4.1:
(i) Die Lösungsmenge der Ungleichung 2x ≥ 8 mit x als Unbekannter ist die
Menge aller reellen Zahlen, die größer oder gleich 4 sind, also das Intervall [4, ∞).
(ii) Die Lösungsmenge der Ungleichung x + 1 < 0 mit x als Unbekannter ist die
Menge aller reellen Zahlen, die kleiner als -1 sind, also das Intervall (−∞, −1).
(iii) Die Lösungsmenge der Ungleichung 3x − 5 ≥ 6x − (2x + 3) mit x als Unbekannter ist, wie die Kette
3x − 5 ≥ 6x − (2x + 3)
3x − 5 ≥ 6x − 2x − 3
3x − 5 ≥ 4x − 3
3x − 2 ≥ 4x
−2 ≥ x
| Auflösen der Klammer
| Zusammenfassen der x-Glieder
| +3
| −3x
| Ungleichung aufgelöst
von Umformungen erbringt, das Intervall (−∞, −2].
(iv) Um die Lösungsmenge der Ungleichung x5 ≤ 1 mit x als Unbekannter, an
welche zusätzlich die Forderung x = 0 erhoben wird, zu bestimmen, wird zunächst
der Fall x > 0 betrachtet. Die Multiplikation der Ungleichung mit x führt dann
auf die Ungleichung 5 ≤ x. Also ist die Lösungsmenge der urpsrünglichen Ungleichung für x > 0 das Intervall L1 = [5, ∞). Für den Fall x < 0 führt die
Multiplikation der Ungleichung mit x hingegen auf die Ungleichung 5 ≥ x. Die
Lösungsmenge der urpsrünglichen Ungleichung ist folglich für x < 0 das Intervall
L2 = (−∞, 0), und die gesamte Lösungsmenge ist L = L1 ∪ L2 .
Es existieren Arten von Ungleichungen, welche mit dem bisher behandelten Instrumentarium allein nicht gelöst werden können. Eine Ungleichung der Form
|a| < b,
|a| ≤ b,
|a| > b |a| ≥ b oder |a| = b
mit a und b als beliebige Ausdrücke, die eine unbekannte Variable enthalten, heißt
Ungleichung mit Absolutbetrag. Ist die Lösungsmenge einer solchen Ungleichung
zu bestimmen, sind die nachfolgenden Äquivalenzen sehr hilfreich:
1.
2.
3.
4.
5.
|a| < b
|a| ≤ b
|a| > b
|a| ≥ b
|a| = b
⇔
⇔
⇔
⇔
⇔
a<b
a≤b
a>b
a≥b
a = b
∧
∧
∨
∨
∧
−a < b
−a ≤ b
−a > b
−a ≥ b
−a = b
Um die Lösungsmenge L einer Ungleichung mit Absolutbetrag zu bestimmen,
kann man gemäß dieser Äquivalenzen die Lösungsmengen L1 und L2 zweier
dazu äquivalenter Ungleichungen ohne Absolutbetrag bestimmen. Im Falle der
∧−Verknüpfung, also in den Fällen 1, 2 und 5 bildet man dann L = L1 ∩ L2 und
für die ∨−Verknüpfung, also in den Fällen 3 und 4, entsprechend L = L1 ∪ L2 .
19
4 Gleichungen und Ungleichungen
Beispiel 4.2:
(i) Die Ungleichung x ≤ |5 − x| ist (nach 4.) äquivalent zu
x ≤ 5 − x ∨ x ≤ −(5 − x) .
U1 :=
U2 :=
Die Lösungsmenge der Ungleichung U1 ist, wie die Kette
x ≤ 5 − x | +x
2x ≤ 5
|: 2
x ≤ 5/2
| Ungleichung aufgelöst
von Äquivalenzumformungen erbringt, L1 = (−∞, 5/2]. Die Lösungsmenge der
Ungleichung U2 ist, wie die Kette
x ≤ −(5 − x) | Klammer auflösen
x ≤ −5 + x
| −x
0 ≤ −5
| Falsche Aussage
von Äquivalenzumformungen erbringt, L2 = ∅. Die Lösungsmenge der ursprünglichen Ungleichung ist also L = L1 ∪ L2 = (−∞, 5/2].
(ii) Die Ungleichung |6 − x| < 8 ist (nach 1.) äquivalent zu
6 − x < 8 ∧ −(6 − x) < 8 .
U1 :=
U2 :=
Die Lösungsmenge der Ungleichung U1 ist das offene Intervall L1 = (−2, ∞),
die Lösungsmenge der Ungleichung U2 das offene Intervall L2 = (−∞, 14). Die
Lösungsmenge der Ungleichung |6 − x| < 8 ist also L = L1 ∩ L2 = (−2, 14).
Eine Ungleichung der Form
x2 + px + q B 0,
wobei B für eine der Relationen =, >, ≥, ≤, < oder = steht, heißt quadratische
Gleichung oder Ungleichung.
Eine quadratische Gleichung hat entweder keine, eine oder zwei Lösungen in R,
welche sich mit Hilfe der sogenannten pq-Formel
p
p 2
x1,2 = − ±
−q
2
2
berechnen lassen.
p 2Diese Formel besagt, daß die oben angegebene quadratische
Gleichung für 2 − q > 0 zwei Lösungen hat, nämlich
p
p
p 2
p 2
− q und x2 = − −
− q,
x1 = − +
2
2
2
2
20
4 Gleichungen und Ungleichungen
B
>
≥
≤
<
=
Fall (a):
Fall (b):
2 Lösungen
1 Lösung
xu , xo
xu,o
(−∞, xu ) ∪ (xo , ∞) R \ {xu,o}
(−∞, xu ] ∪ [xo , ∞)
R
[xu , xo ]
{xu,o }
(xu , xo )
∅
R \ {xu , xo }
R \ {xu,o}
Fall (c):
keine
Lösung
R
R
∅
∅
R
Tabelle 4.1: Lösungsmengen quadratischer Ungleichungen
für
p 2
2
− q = 0 eine Lösung, nämlich
x1 = x2 = −
p
2
2
und für p2 − q < 0 keine Lösung, da die Wurzel einer negativen Zahl in R nicht
definiert ist.1
Beispiel 4.3:
(i) Die Gleichung x2 + 2x − 15 = 0 hat nach der pq-Formel x1,2 = −1 ±
√
1 + 15 = −1 ± 4 die Lösungsmenge {3, −5}.
√
2
+
4x+
10
=
0
hat
nach
der
pq-Formel
x
=
−2
±
4 − 10
(ii) Die Gleichung
x
1,2
√
keine Lösung, da −6 nicht definiert ist.
Um eine quadratische Ungleichung zu lösen, sind zunächst etwa alle Lösungen
der von der quadratischen Ungleichung abgeleiteten Gleichung
x2 + px + q = 0
zu bestimmen. Die Lösungsmenge der quadratischen Ungleichung ergibt sich nun
in Abhängigkeit von den Lösungen der quadratischen Gleichung und der Relation
B gemäß Tabelle 4.1.
Die in Tabelle 4.1 zusammengestellten Ergebnisse werden in Abbildung 5.2 veranschaulicht, in welcher für die drei Fälle (a), (b) und (c) jeweils eine durch eine
entsprechende quadratische Gleichung beschriebene Parabel dargestellt ist.
Beispiel 4.4:
(i) Die zur quadratischen Ungleichung x2 − x − 2 ≤ 0 gehörende Gleichung
x2 − x − 2 = 0 hat nach der pq-Formel die beiden Lösungen xu = −1 und xo = 2
mit xu < xo . Dann ist die Lösungsmenge der betrachteten quadratischen Ungleichung das geschlossene Interval [−1, 2].
1
Tatsächlich ist die Wurzel einer negativen reellen Zahl eine komplexe Zahl in C.
21
4 Gleichungen und Ungleichungen
xu
xo
(a)
x
xu,o
x
(b)
x
(c)
Abbildung 4.1: Die drei Fälle beim Lösen quadratischer Ungleichungen
(ii) Die zur quadratischen Ungleichung x2 − 11x + 24 > 0 gehörende Gleichung
x2 − 11x + 24 = 0 hat nach der pq-Formel die beiden Lösungen xu = 3 und
xo = 8. Dann ist (−∞, 3) ∪ (8, ∞) die Lösungsmenge der betrachteten quadratischen Ungleichung.
(iii) Die quadratische Ungleichung x2 + 1 ≤ 0 hat, wie man leicht erkennt, keine
Lösung. Ihre Lösungsmenge ist daher ∅.
4.2 Mehrdimensionale Gleichungs- und
Ungleichungssysteme
Auch Bestimmungsgleichungen- oder ungleichungen mit n = 2, 3, . . . Unbekannten sind Aussageformen, deren Lösungsmenge eine Menge von n-Tupeln oder nVektoren aus Elementen der Grundmenge ist. Ein Gleichungs- bzw. Ungleichungssystem besteht aus mehreren Bestimmungsgleichungen und -ungleichungen, die
dieselben Variablen enthalten. Offenbar können auch Systeme auftreten, die sowohl Gleichungen als auch Ungleichungen enthalten. Die Menge der n-Tupel von
Zahlen, die gleichzeitig jede dieser Gleichungen und Ungleichungen erfüllen, heißt
auch Lösungsmenge L des Gleichungs- bzw. Ungleichungssystems. Diese können
wir für ein System von Gleichungen oder Ungleichungen A1 (x), . . . , Ak (x) mit
x ∈ Rn bestimmen, indem wir zunächst deren jeweilige Lösungsmenge Li mit
i = 1, . . . , k ermitteln. Es ist dann
L = L1 ∩ L2 ∩ . . . ∩ Lk .
Beispiel 4.5:
(i) Die Bestimmungsgleichung 4x1 + 2x2 = 6 mit Variablen x1 und x2 hat die
22
4 Gleichungen und Ungleichungen
Lösungsmenge {(x1 , x2 )|x1 ∈ R ∧ x2 = 3 − 2x1 }.
(ii) Die Lösungsmenge der Bestimmungsungleichung x1 x2 > 0 mit Variablen
x1 und x2 besteht aus den 2-Tupeln (x1 , x2 ), für die gilt, daß x1 und x2 beide
ungleich Null sind und das gleiche Vorzeichen haben.
(iii) Die beiden Gleichungen x1 + x2 = 0 und x1 − x2 = 0 bilden gemeinsam ein Gleichungssystem. Die Lösungsmenge der ersten Gleichung ist L1 =
{(x1 , x2 )|x1 ∈ R ∧ x2 = −x1 }, die Lösungsmenge der zweiten Gleichung ist
L2 = {(x1 , x2 )|x1 ∈ R ∧ x2 = x1 }. Folglich ist die Lösungsmenge des Gleichungssystems L = L1 ∩ L2 = {(0, 0)}.
4.3 Lineare Gleichungssysteme
Gleichungssysteme, deren Einzelgleichungen alle in jeder Unbekannten linear sind,
heißen lineare Gleichungssyteme. Sie kommen in den Wirtschaftswissenschaften
häufig vor und sind wegen der Linearität leicht lösbar. Ein lineares Gleichungssystem hat entweder keine, genau eine oder unendlich viele Lösungen.
Beispiel 4.6:
(i) Um die Lösungsmenge des Gleichungssystems
2x + 3y = 14
und
G1 :=
4x − y = 0
G2 :=
mit den Variablen x und y zu bestimmen, kann man zunächst G2 nach y auflösen
und erhält dann y = 4x. Ersetzt man nun in G1 die Variable y durch 4x, ergibt
sich 2x + 3(4x) = 14. Die Lösung dieser Gleichung ist x = 1. Mit y = 4x folgt
y = 4. Die Lösungsmenge des betrachteten Gleichungssystems ist also {(1, 4)}.
(ii) Um die Lösungsmenge des Gleichungssystems
x + 2y = 3
und
G1 :=
2x + 4y − 4 = 0
G2 :=
zu bestimmen, kann man zunächst G1 nach x auflösen und erhält dann x = 3−2y.
Ersetzt man nun in G2 x durch 3 − 2y, folgt die Gleichung 2(3 − 2y) + 4y − 4 = 0,
die wegen 2 = 0 keine Lösung hat. Die Lösungsmenge dieses Gleichungssystems
ist also leer.
Ein effizienteres Verfahren zur Bestimmung der Lösungsmenge linearer Gleichungssysteme, der sogenannte Gauss-Algorithmus, wird in der Vorlesung Mathematik II (Lineare Algebra) behandelt.
23
4 Gleichungen und Ungleichungen
x2
4
x2 ≤ 2 + x1
3
x1 < 3
2
1
−2
−1
0
1
2
3
−1
4
5
x1
x2 ≥ 1 − ½ x1
Abbildung 4.2: Lösungsmenge zu Beispiel 4.7 (i)
4.4 Zweidimensionale Ungleichungssysteme
Im Fall mit zwei Variablen ist oft eine graphische Analyse in der euklidischen
Ebene hilfreich. Es ist üblich, den Rand von Flächen für die Relationen ≤ und ≥
mit durchgezogenen und für < und > mit gestrichelten Linien darzustellen.
Beispiel 4.7:
(i) Um die Lösungsmenge des Ungleichungssystems
U1 : x2 ≤ 2 + x1
U2 : x2 ≥ 1 − 1/2x1
U3 : x1 < 3
mit den Variablen x1 und x2 graphisch zu bestimmen, zeichnen wir zunächst die
zu jeder Ungleichung gehörende Gerade in die euklidische Ebene ein (Abbildung
4.2). Die Lösungsmenge zu den jeweiligen Ungleichungen U1 , U2 oder U3 entspricht jeweils der Halbebene rechts unterhalb, rechts oberhalb bzw. links dieser
Geraden. Also ist die Lösungsmenge des Ungleichungssystems ist das grau markierte Dreieck ohne den rechten gestrichelten Rand (Abbildung 4.2).
(ii) Die Lösungsmenge des Ungleichungssystems
U1 : x21 + x22 ≤ 1
x2 ≥ −x1
U2 :
24
4 Gleichungen und Ungleichungen
x2
1
x1 2 + x2 2 ≤ 1
−1
0
−1
1
x1
x2 ≥ − x1
Abbildung 4.3: Lösungsmenge zu Beispiel 4.7 (ii)
mit Variablen x1 und x2 ist die grau dargestellte Schnittfläche der vom Einheitskreis2 umschlossenen Fläche, welche die Lösungsmenge von U1 darstellt, mit der
Halbebene rechts oberhalb der Geraden x2 = −x1 , welche die Lösungsmenge von
U2 darstellt (Abbildung 4.3).
2
Ein Kreis mit dem Radius r ∈ R um den Ursprung wird durch die Gleichung x21 + x22 = r2
beschrieben.
25
5 Folgen und Grenzwerte
In diesem Kapitel werden Folgen und der für die Analysis grundlegende Begriff
des Grenzwerts behandelt.
5.1 Folgen
Definition 5.1 (Folge) Eine geordnete (unendliche) Liste von Zahlen
(a1 , a2 , . . . , an , . . .)
heißt Folge (engl.: sequence) und wird mit (an )n∈N bezeichnet. Dabei heißt n der
Index und die an heißen Glieder der Folge. Falls klar ist, daß n ∈ N der Index ist
wird meistens die verkürzte Schreibweise (an ) oder einfach an verwendet.
Der erste Folgenindex ist oft auch 0 oder jede andere beliebige natürliche Zahl
statt 1, also bedeutet oft auch (an ) = (a0 , a1 , . . . , an , . . .). Wir legen uns diesbezüglich nicht fest und verwenden verschiedene Notationen je nach Zusammenhang. Folgen können auf verschiedene Arten dargestellt werden. Falls für eine
Folge an ein Folgenglied an durch eine Funktionsgleichung nur in n angegeben
ist, heißt dies geschlossene Darstellung. Bei einer rekursiven Darstellung einer
Folge wird der Wert der ersten Folgenglieder a1 , . . . , ak angegeben und alle weiteren Folgenglieder n = k + 1, k + 2, . . . durch frühere Folgenglieder ausgedrückt.
Besonders einfach ist der Fall, bei dem für alle n ∈ N der Zusammenhang zwischen zwei aufeinander folgenden Folgengliedern an und an+1 über eine Funktionsgleichung beschrieben ist. Wenn klar ist, was mit damit gemeint ist, kann eine
Folge auch durch Angabe einiger Folgenglieder und . . . beschrieben werden. Die
rekursive Darstellung einer Folge ist oft unmittelbar aus der zu analysierenden
Fragestellung heraus gegeben, während die geschlossene Darstellung einfacher zu
analysieren ist. Daher ist es offenbar hilfreich, die rekursive Darstellung der betrachteten Folge in eine geschlossene Darstellung zu überführen. Dieses gelingt
oftmals, indem man die ersten Folgenglieder notiert und darin eine strukturelle
Gesetzmäßigkeit identifiziert, aus der sich eine geschlossene Darstellung der Folge ergibt. Der Beweis, daß die so gefundene geschlossene Darstellung tatsächlich
die selbe Folge beschreibt wie die rekursive Darstellung, ist damit noch nicht
erbracht, jedoch häufig mit Hilfe eines Induktionsbeweises leicht zu führen.
26
5 Folgen und Grenzwerte
Beispiel 5.1:
(i) Eine rekursive Darstellung der Folge an = (0, 0, 0, . . .) ist a1 = 0, an+1 = an .
Die geschlossene Darstellung dieser Folge ist an = 0.
(ii) Die rekursive Darstellung der Folge an = (1, 3, 5, . . .) ist a1 = 1, an+1 =
an + 2. Die zugehörige geschlossene Darstellung ist an = 2n − 1.
(iii) Bei der Folge (nt)t∈N steht n nicht für den Index der Folge sondern als
Symbol für die Folgenglieder. Für eine eindeutige Bedeutung wäre in diesem Fall
die weniger genaue Notation (nt) nicht ausreichend. Die ersten fünf Glieder dieser
Folge sind n, 2n, 3n, 4n und 5n.
(iv) Die Folge an = (1, 2, 3, 5, 8, 13, 21, . . .) besitzt die rekursive Darstellung a0 =
1, a1 = 2, an+2 = an + an+1 .
(v) Sei (Kt ) eine Kapitalanlage mit Startkapital K1 = K, die mit einem Zinssatz
i pro Periode verzinst wird. Die Folge (Kt )t∈N beschreibt die Wertentwicklung der
Kapitalanlage im Zeitablauf. Falls keine Ein- oder Auszahlungen stattfinden, gilt
zwischen Kt in Periode t ∈ N und Kt+1 in der Folgeperiode t + 1 die rekursive
Beziehung
Kt+1 = Kt (1 + i).
Aus den ersten vier Gliedern dieser Folge,
K1 = K,
K2 = K(1 + i),
K3 = K(1 + i)2 und
K4 = K(1 + i)3
ist leicht erkennbar, daß die geschlossene Darstellung dieser Folge gegeben ist
durch
Kt = K(1 + i)t−1 .
Existiert für eine Folge an ein reelle Zahl c ∈ R, so daß für alle n ∈ N die
Beziehung
an+1 − an = c
gilt, so heißt sie arithmetische Folge. Falls dagegen für eine Folge an ein Konstante
c ∈ R existiert, so daß für alle n ∈ N die Beziehung
an+1
=c
an
gilt, so heißt sie geometrische Folge. Die geschlossenen Darstellungen der arithmetischen Folge und der geometrischen Folge (gn ) sind an ist an = c(n − 1) + d
und gn = dcn−1 mit c, d ∈ R. Im vorhergehenden Beispiel sind (i),(ii) und (iii)
arithmetische Folgen, (v) ist geometrische Folge und (iv) keines von beiden.
27
5 Folgen und Grenzwerte
Eine Folge an heißt monoton steigend bzw. streng monoton steigend, (engl.: strictly increasing), wenn für alle n ∈ N gilt an+1 ≥ an (bzw.> für ’streng’). Entsprechend wird fallende Monotonie definiert. Monoton ist eine Folge also genau dann,
wenn die Veränderung zwischen zwei aufeinander folgenden Gliedern immer das
gleiche Vorzeichen hat bzw. in die gleiche Richtung geht. Die Folge an heißt nach
unten bzw. nach oben beschränkt (engl.: bounded from below, above), wenn eine
Konstante c ∈ R existiert, so daß für alle n ∈ N gilt an ≥ c (bzw. ≤). Sie heißt
beschränkt (engl.: bounded), wenn ein c ∈ R existiert, so daß für alle n ∈ N
die Beziehung |an | ≤ c gilt. Die Konstante c wird untere, obere bzw. einfach nur
Schranke (engl.: lower bound, upper bound, bound) genannt. Eine Folge an heißt
alternierend (engl.: alternating), wenn für alle n ∈ N gilt:
an · an+1 < 0,
also das Vorzeichen zwischen zwei aufeinander folgenden Folgengliedern alterniert, d.h. sich jeweils abwechselt.
Beispiel 5.2: (i) Die Folge n + n1 ist streng monoton steigend.
(ii) Die Folge (max{4 − n, 0}), deren erste fünf Glieder 3, 2, 1, 0 und 0 sind, ist
monoton aber nicht streng monoton fallend.1
(iii) Die Folge ((−1)n ) ist alternierend und daher weder monoton steigend noch
monoton fallend.
(iv) Für die Folge an mit an = 3 + 7n existiert mit c = 3 wegen an ≥ c für
alle n ∈ N offensichtlich eine untere Schranke. Die Folge ist somit nach unten
beschränkt.
(v) Die Folge n1 ist wegen 0 ≤ n1 ≤ 1 für alle n ∈ N beschränkt.
(vi) Die Folge ((−2)n ) ist alternierend und weder nach unten noch nach oben
beschränkt, da ihre Glieder beliebig groß und beliebig klein werden.
5.2 Konvergenz und Grenzwert
Von besonderem Interesse im Zusammenhang mit Folgen an ist ihr Verhalten für
sehr große n. Insbesondere gilt unser Interesse dem Fall, daß eine
Zahl existiert,
1
der sich die Folgenglieder beliebig gut annähern wie die Folge n der Zahl 0. Die
Begriffe Konvergenz und Grenzwert präzisieren dieses Verhalten.
1
Dabei nimmt max{x, y} für x ≥ y den Wert x und für x < y den Wert y an. Es ist also
beispielsweise max{3, 4} = 4.
28
5 Folgen und Grenzwerte
Definition 5.2 (Konvergenz und Grenzwert) Eine Folge (an )n∈N heißt konvergent (engl.: convergent) genau dann, wenn es ein a ∈ R gibt, so daß für alle
ε > 0 ein n(ε) > 0 mit
|an − a| ≤ ε
für alle n ≥ n(ε) existiert. Man schreibt dann
lim an = a
n→∞
oder an −→ a
und sagt, an konvergiere gegen den Grenzwert (engl.: limit) a.
Zeichnet man ein Intervall mit Radius ε um a, so müssen alle Folgenglieder außer
den ersten n(ε) − 1 in diesem Intervall liegen, gleichgültig wie klein der Radius
ε um a gewählt wurde. Mit anderen Worten, eine Folge an konvergiert genau
dann gegen a, wenn der Abstand zwischen den Folgengliedern und a ab einem
bestimmten n(ε) jedes noch so kleine vorgegebene ε > 0 nicht überschreitet.
Beispiel 5.3:
(i) Es gilt n1 → 0, da für jedes vorgegebene ε > 0 die gesuchte Grenze durch
n(ε) = 1ε gegeben ist, denn für alle n ≥ n(ε) gilt
1
− 0 = 1 ≤ 1 = ε
1
n
n
ε
.
(ii) Die konstante Folge (c) mit c ∈ R konvergiert offenbar gegen c.
(iii) Die Folgen ((−1)n ) und (2n ) konvergieren nicht.
Satz 5.1 Jede Folge besitzt höchstens einen Grenzwert.
Beweis. Indirekt: Angenommen, eine Folge an habe mehr als einen Grenzwert
also Grenzwerte a und a mit a = a . Sei
1
ε = |a − a|
4
(vgl. Abbildung 5.1). Dann existiert wegen an −→ a ein n(ε) mit |an − a| ≤
ε für alle n ≥ n(ε). Außerdem existiert wegen an −→ a auch ein n (ε) mit
|an − a | ≤ ε für alle n ≥ n (ε). Sei nun m = max{n(ε), n (ε)}. Dann ist offenbar
|am −a|+|am −a | < 2ε. Die sogenannte Dreiecksungleichung sagt aus, daß für alle
x, y ∈ R gilt |x+y| ≤ |x|+|y|. Daher ist |am −a|+|am −a | = |am −a|+|a −am | ≥
|am − a + a − am | = |a − a|, so daß insgesamt folgt:
|a − a| ≤ 2ε
29
5 Folgen und Grenzwerte
2ε
2ε
a
a’
|a’ − a| = 4εε
Abbildung 5.1: Veranschaulichung des Beweises von Satz 5.1
Dieses widerspricht aber ε = 14 |a − a|. Satz 5.1 ist damit bewiesen.
Während mit dem letzten Satz gezeigt wurde, daß eine Folge höchstens einen
Grenzwert besitzt, werden in den folgenden beiden Sätzen ohne Beweis notwendige bzw. notwendige und hinreichende Bedingungen genannt, unter denen eine
Folge konvergiert und also überhaupt einen Grenzwert hat.
Satz 5.2 Für jede Folge an gilt:
an konvergiert ⇒ an ist beschränkt.
Satz 5.3 Für jede monoton steigende Folge an gilt:
an konvergiert ⇔ an ist nach oben beschränkt.
Für jede monoton fallende Folge bn gilt:
bn konvergiert ⇔ bn ist nach unten beschränkt.
Beispiel 5.4:
1
1
(i) Die Folge an mit an = n1+n
2 en + 1 = n2 en + nen + 1 fällt offenbar monoton. Sie
ist wegen an ≥ 1 nach unten beschränkt und daher wegen Satz 5.3 konvergent.
(ii) Die Folge (n) steigt monoton und ist nicht nach oben beschränkt. Nach Satz
5.3 konvergiert sie also nicht.
Bei einer konvergenten Folge richtet sich das Interesse naturgemäß meistens auf
ihren Grenzwert. Besonders für komplizierte Folgen kann es aber sehr aufwendig
sein, ihre Konvergenz allein unter Verwendung von Definition 5.2 zu untersuchen.
Der folgende Satz macht Aussagen über die Konvergenz und den Grenzwert von
Folgen, die mittels der vier Grundrechenarten aus anderen konvergenten Folgen
zusammengesetzt sind.
30
5 Folgen und Grenzwerte
Satz 5.4 Seien an und bn zwei Folgen mit an −→ a und bn −→ b. Dann gilt
i) an + bn −→ a + b,
ii) an − bn −→ a − b,
iii) an · bn −→ a · b und
iv)
an
bn
−→ ab , für b = 0.
Nachfolgend ist nur der Beweis der Teilaussage i) von Satz 5.4 angegeben. Die
Beweise der anderen Teilaussagen entsprechen diesem.
Beweis. Betrachte ein vorgegebenes ε > 0. Wegen an −→ a existiert ein na (ε)
mit
ε
|an − a| <
2
für alle n ≥ na (ε). Analog existiert wegen bn −→ b ein nb (ε) mit
|bn − b| <
ε
2
für alle n ≥ nb (ε). Sei n(ε) = max {na (ε), nb (ε)}. Dann gilt für alle n ≥ n(ε)
|(an + bn ) − (a + b)| = |(an − a) + (bn − b)|
≤ |(an − a)| + |(bn − b)| (Dreiecksungleichung)
< 2ε + 2ε
= ε.
Die Konvergenz von (an + bn ) gegen a + b ist damit bewiesen.
Beispiel 5.5:
3
2 +1
(i) Die Folge an mit an = 2n3n−n
konvergiert gemäß Satz 5.4 gegen 23 , wie
3 +n
sich aus der Darstellung der Folgenglieder in der Form
→0
→0
1
1
2 −
+ 3
n
n
an =
1
3 + 2
n
→2
→3
→0
und den
1 angegebenen Grenzwerten der konvergenten Einzelfolgen (2),
und n2 ergibt.
31
1 1 , n3 ,(3)
n
5 Folgen und Grenzwerte
2
(ii) Die Folge an mit an = 6nn5−2 konvergiert gemäß Satz 5.4 gegen 0, wie aus
der Darstellung der Folgenglieder in der Form
→0
→0
6
2
− 5
3
n
an = n
1
→1
zu sehen ist.
Alternativ zur Dezimalschreibweise lassen sich reelle Zahlen mit Hilfe von Folgen und Konvergenz definieren indem man verschiedene konvergente Folgen von
rationalen Zahlen miteinander identifiziert und einer reellen Zahl zuordnet, falls
ihre Differenz gegen 0 konvergiert.2 Mit anderen Worten, zwei konvergente Folgen an und bn heißen äquivalent, falls an − bn −→ 0. Alle zueinander äquivalenten
konvergenten Folgen bilden eine Äquivalenzklasse. Die Menge aller konvergenten
Folgen rationaler Zahlen zerfällt also in – d.h. ist disjunkte Vereinigung von –
Äquivalenzklassen von konvergenten Folgen, wobei jeweils zwei Repräsentanten
der gleichen Äquivalenzklasse gegen den gleichen Grenzwert streben. Die reellen
Zahlen sind also die Menge der Äquivalenzklassen konvergenter Folgen rationaler
Zahlen. Die im Kapitel Zahlen eingeführte Dezimalschreibweise mit Zehnerpotenzen ist jeweils ein Repräsentant einer solchen Äquivalenzklasse, also nur eine
von vielen Möglichkeiten, reelle Zahlen mit Hilfe von rationalen Zahlen zu approximieren. Satz 5.4 zeigt, daß die Rechenregeln der rationalen Zahlen sich auf die
reellen Zahlen übertragen.
5.3 Grenzwerte im Unendlichen
Folgen, die jede beliebig große Grenze m ab einem gewissen n(m) ∈ N nicht
mehr unterschreiten oder aber jede beliebig kleine Grenze m ab einem gewissen
n(m) ∈ N nicht mehr überschreiten streben offenbar gegen ∞ bzw. −∞. Da
dieses keine reellen Zahlen sind, nennen wir sie uneigentliche Grenzwerte.
Definition 5.3 (Uneigentlicher Grenzwert) Eine Folge an hat den uneigentlichen Grenzwert ∞, wenn für jedes m ∈ R ein n(m) mit
an ≥ m
für alle n ≥ n(m) existiert. Man schreibt limn→∞ an = ∞ oder an −→ ∞.
2
Um reelle Zahlen zu definieren, darf deren Definition nicht schon reelle Zahlen verwenden.
Unsere bisherige Definition von Konvergenz beruht aber auf einem reellen Grenzwert. In
diesem Zusammenhang verwendet man daher eine alternative Definition von Konvergenz,
die sogenannte Cauchy-Konvergenz, bei der eine Folge an konvergiert falls für jedes ε > 0
ein n(ε) existiert, so daß für alle Folgenglieder an , am mit n, m ≥ n(ε) gilt |an − am | ≤ ε.
32
5 Folgen und Grenzwerte
Der uneigentliche Grenzwert −∞ wird entsprechend definiert.
Beispiel 5.6:
(i) Die Folge (n) hat den uneigentlichen Grenzwert ∞.
(ii) Die Folge 0, 2, 0, 4, 0, 6, 0, . . ., konvergiert nicht, auch nicht gegen einen uneigentlichen Grenzwert.
Der folgende Satz zeigt, daß mit gewissen Einschränkungen die Rechenregeln der
reellen Zahlen auf die uneigentlichen Zahlen ∞ bzw. −∞ erweiterbar sind.
Satz 5.5 Seien an und bn Folgen. Dann gilt:
i) an −→ ∞ ⇒ −an −→ −∞
ii) an −→ ∞ ∧ bn nach unten beschränkt ⇒ an + bn −→ ∞
iii) an −→ −∞ ∧ bn nach oben beschränkt ⇒ an + bn −→ −∞
iv) an −→ ∞ (−∞) ∧ bn mit unterer Schranke s > 0 ⇒ an bn −→ ∞ (−∞)
v) an −→ ∞ (−∞) ∧ bn mit oberer Schranke s < 0 ⇒ an bn −→ −∞ (∞)
vi) an −→ 0 ∧ ∀n ∈ N an > (<) 0 ⇒
1
an
−→ ∞ (−∞)
vii) (an −→ ∞ ∨ an −→ −∞) ∧ bn beschränkt ⇒
bn
an
−→ 0
viii) an −→ ∞ ∧ bn beschränkt ∧ ∀n ∈ N bn > (<) 0 ⇒
an
bn
ix) an −→ −∞ ∧ bn beschränkt ∧ ∀n ∈ N bn > (<) 0 ⇒
−→ ∞ (−∞)
an
bn
−→ −∞ (∞)
Die Aussage an −→ ∞ ⇒ −an −→ −∞ kann man verkürzt schreiben als
(−1)∞ = −∞.
Beispiel
(i) Die
∞ strebt
(ii) Die
5.7:
Folge (n(sin n + 2)) strebt gemäß Satz 5.5 iv) gegen ∞, da (n) gegen
und (sin
n+
2) etwa durch 1 > 0 nach unten beschränkt ist.
(−1)n
Folge
konvergiert gemäß Satz 5.5 vii) gegen 0.
n
Den Abschluß dieses Abschnitts bildet Satz 5.6, der das Konvergenzverhalten
einiger häufig auftretender Folgen bzw. Klassen von Folgen zusammenfaßt.
Satz 5.6 Es gilt:
33
5 Folgen und Grenzwerte
i) nr −→ 0 für r < 0 und r ∈ Q
ii) nr −→ ∞ für r > 0 und r ∈ Q
iii) nr q n −→ 0 für r ∈ Q und |q| < 1
iv) nr q n −→ ∞ für r ∈ Q und q > 1
√
v) n c −→ 1 mit c > 0
√
vi) n n −→ 1
n
vii) 1 + n1 −→ e (Eulersche Zahl)
5.4 Reihen
Eine spezielle Klasse von Folgen sind die sogenannten Reihen. Ihre Glieder werden
durch die Summen der Glieder einer anderen Folge gebildet.
Definition 5.4 (Reihe) Sei an eine Folge. Dann heißt die Folge (sk )k∈N mit
sk =
k
an
n=1
für alle k ∈ N zur Folge an gehörige Reihe (engl.: series). Ihre Glieder sk =
k
n=1 an bezeichnet man auch als Partialsummen.
Natürlich gelten alle Begriffe und Sätze
∞ aus den vorangegangenen Abschnitten
auch für Reihen.
eine Reihe n=1 an konvergent, wenn die Folge der Par So heißt
k
konvergiert. Der Grenzwert dieser Folge und häufig
tialsummen
n=1 an
k∈N
auch die Reihe selbst wird mit ∞
n=1 an bezeichnet. Eine wichtige notwendige
Bedingung für die Konvergenz einer Reihe gibt der folgende Satz.
Satz 5.7 Konvergiert die Reihe
∞
n=1 an ,
dann konvergiert die Folge an gegen 0.
Er ist insbesondere dafür geeignet, die Nicht-Konvergenz oder Divergenz einer
Reihe zu zeigen. Der Begriff Divergenz wird in der Literatur uneinheitlich benutzt,
manchmal nur für Konvergenz gegen ∞ oder −∞, manchmal aber allgemeiner für
Nicht-Konvergenz gegen eine reelle Zahl. Wir werden ihn ab hier nur in letzterem
Sinne benutzen, also als Synonym für Nicht-Konvergenz gegen eine reelle Zahl.
34
5 Folgen und Grenzwerte
Beispiel 5.8: 1
(i) Die Reihe ∞
n=1 (1 + n ) divergiert gemäß Satz 5.7.
∞
n
(ii) Die Reihe
n=1 (−1) , deren erste vier Partialsummen −1, 0, −1 und 0
sind, divergiert. ∞
1
(iii) Die Reihe
n=1 2n−1 konvergiert gegen 2, wie die Beobachtung deutlich
1
macht, daß für alle k ∈ N mit der Addition von 2k−1
der Abstand zwischen der
k−1 1
k − 1-ten Partialsumme n=1 2n−1 und 2 halbiert wird.
Wie bereits erwähnt, sind alle Sätze über Folgen auch für Reihen anwendbar,
da Reihen spezielle Folgen sind. Der folgende Satz, der bei der Bestimmung des
Grenzwerts von Reihen hilfreich ist, die linear aus anderen konvergenten Reihen
gebildet werden, folgt aus Satz 5.4.
∞
a
und
Satz 5.8 Seien ∞
n
n=1
n=1
bn zwei konvergente Reihen und α, β ∈ R.
Dann konvergiert auch die Reihe ∞
n=1 (αan + βbn ) und es gilt:
∞
(αan + βbn ) = α
n=1
∞
an + β
n=1
∞
bn .
n=1
In den Wirtschaftswissenschaften treten häufig geometrische Reihen auf, welche
durch die Partialsummen der Glieder geometrischer Folgen definiert sind.
Definition
5.5 (Geometrische Reihe) Sei an eine geometrische Folge. Dann
a
wird ∞
n=1 n geometrische Reihe (engl.: geometric series) genannt.
n−1
mit c, d ∈ R \ {0}
Die geometrische Reihe kann stets in der Form ∞
n=1 dc
geschrieben werden. Ihr Konvergenzverhalten in Abhängigkeit von c und d beschreibt der folgende Satz.
Satz 5.9 Die geometrische Reihe
∞
dcn−1
n=1
mit c, d ∈ R \ {0} konvergiert für |c| < 1 gegen
d
.
1−c
Für |c| ≥ 1 konvergiert sie nicht gegen eine reelle Zahl.
35
5 Folgen und Grenzwerte
Beweis. Sei sk = kn=1 dcn−1 die k-te Partialsumme der geometrischen Reihe
∞
n−1
. Dann gilt für alle k ∈ N
n=1 dc
sk − csk =
k
dc
n−1
−c
n=1
=
k
dcn−1
n=1
k
dcn−1 −
n=1
k+1
dcn−1
n=2
= d − dc .
k
Folglich hat die Folge (sk )k∈N die geschlossene Darstellung
sk =
Aus dieser folgt, daß
divergiert.
∞
n=1
d − dck
.
1−c
dcn−1 für |c| < 1 gegen
d
1−c
konvergiert und für |c| ≥ 1
Das nachfolgende Beispiel ist eine Anwendung von Satz 5.9 auf in der Praxis
häufig auftretende Fälle, in denen eine Umindizierung der zu untersuchenden
Reihe hilfreich ist.
Beispiel 5.9: ∞
1 n−1
(i)
konvergiert gegen 1−2 1 = 4.
n=1 2 2
2
∞ 8 n−1
divergiert.
(ii)
7 1 n−1
n=1
∞
1 n
= ∞
konvergiert gegen 1−4 1 = 6.
(iii)
n=0 4 3
n=1 4 3
3
∞ 2 n−1 2 ∞ 2 n−1
2 1
=
konvergiert
gegen
= 23 .
(iv)
n=2 5
n=1 5
5
5 1− 2
5
Als Anwendung geometrischer Reihen in den Wirtschaftswissenschaften betrachten wir sogenannte Multiplikatoreffekte in einem stilisierten Modell zu den Möglichkeiten der Konjunkturbelebung durch staatliche Ausgabenprogramme.
Beispiel 5.10: Betrachtet wird eine Volkswirtschaft, in der das aggregierte Konsumverhalten aller Haushalte in einer Periode t > 1 durch die Gleichung
Ct = c(1 − τ )Yt−1
mit Ct als Konsumausgaben in Periode t, mit c ∈ (0, 1) als Konsumquote, mit
τ ∈ (0, 1) als Einkommenssteuersatz und Yt−1 als Gesamteinkommen vor Steuern
aller Haushalte in Periode t − 1 beschrieben sei. Es werde also angenommen,
die Haushalte würden in jeder Periode einen Anteil c ihres in der Vorperiode
36
5 Folgen und Grenzwerte
erzielten Einkommens nach Steuern konsumieren und den Rest sparen. Dann sind
∆Ct = Ct − Ct−1 die Veränderung der Konsumausgaben und ∆Yt = Yt − Yt−1
die Veränderung des Einkommens zwischen zwei aufeinander folgenden Perioden.
Also gilt
∆Ct = c(1 − τ )∆Yt−1 .
Zur Vereinfachung nehmen wir an, daß zusätzliches Einkommen der Haushalte
nur durch zusätzlichen Konsum erzeugt wird, also keine anderen einkommenswirksamen Effekte auftreten, etwa im Unternehmenssektor oder im Ausland.
Dann ist ∆Yt = ∆Ct und es folgt insgesamt
∆Yt = c(1 − τ )∆Yt−1 .
Angenommen, der Staat interveniere in diese Volkswirtschaft, indem er in Periode
1 einmalig den Betrag G etwa für Arbeitsbeschaffungsmaßnahmen einbringt, also
∆Y1 = G. Dann beschreibt die Folge (∆Yt )t∈N mit
∆Y1 = G
∆Y2 = c(1 − τ )∆Y1
∆Y3 = c(1 − τ )∆Y2
..
.
= c(1 − τ )G
= (c(1 − τ ))2 G
∆Yt = c(1 − τ )∆Yt−1 = (c(1 − τ ))t−1 G
die Einzeleffekte dieser Intervention in jeder Periode t und die Reihe
∞
t=1
∆Yt =
∞
(c(1 − τ ))t−1 G
t=1
ihren Gesamteffekt ∆Y . Da c ∈ (0, 1) und τ ∈ (0, 1) ist auch 0 < c(1 − τ ) < 1.
Also konvergiert die betrachtete Reihe gemäß Satz 5.9 gegen
∆Y = G
1
.
1 − c(1 − τ )
Daraus koennte man den Schluss ziehen, daß die Einkommenswirkung einer solchen konjunkturbelebenden Maßnahme des Staates auf dem Wege der Ausgabenpolitik aufgrund des sogenannten Multiplikatoreffekts die Kosten dieser Staatsintervention wegen
1
>1
1 − c(1 − τ )
übersteigt. Außerdem folgt aus dieser Argumentation, daß die Wirkung einer
solchen Maßnahme umso größer ausfällt, je größer die Konsumquote c und je
kleiner der Einkommenssteuersatz τ ist.
37
5 Folgen und Grenzwerte
Im abschließende Beispiel studieren wir eine einfachen Variante eines Gedankenexperiments, des sogenannten Cobb-Web-Modells, welches dynamische Anpassungsprozesse in Märkten beschreibt, deren Angebot mit Zeitverzögerung auf
Preisänderungen reagiert.
Beispiel 5.11: Betrachtet werde ein Markt, dessen Angebot S und Nachfrage D
linear im Preis p seien, also
S = a + bp
mit a, b ∈ R und b > 0 und
D = c − dp
mit c, d ∈ R und d > 0. Sei dieser Markt zunächst ein sogenannter vollkommener Markt, der unter anderem durch eine unendlich hohe Reaktionsgeschwindigkeit aller Marktteilnehmer bezüglich Änderungen von Marktparametern charakterisiert ist. Unter diesen Voraussetzungen werden Angebot und Nachfrage über
Preisanpassungen ohne Zeitverzögerung ausgeglichen. Also bildet sich unmittelbar ein Preis p̄, für den die gehandelte Menge x̄ gleich der angebotenen gleich der
nachgefragten Menge ist, also
x̄ = S = D
(vgl. Abbildung 5.2 (a)). Dann ist
p̄ =
c−a
b+d
und x̄ =
ad + bc
.
b+d
Die so definierte Preis-Mengen-Kombination (p̄, x̄) wird als Marktgleichgewicht
bezeichnet, da zu diesem Preis kein Marktteilnehmer einen Anreiz für Verhaltensänderungen hat.
Wir nehmen nun an, die Angebotsseite reagiere etwa wegen zeitlich ausgedehnter
Produktionsprozesse mit Verzögerung auf Preisänderungen. Seien St , Dt und pt
Angebot, Nachfrage und Preis in Periode t ∈ N. Es sei
St = a + bpt−1
und Dt = c − dpt ,
das Angebot richte sich also nach dem Marktpreis der Vorperiode, während die
Nachfrage wie zuvor vom gegenwärtigen Preis abhänge. Der Marktmechanismus
bringe in jeder Periode t ∈ N Angebot und Nachfrage über den Preis pt in Einklang, es gelte also also stets
xt = St = Dt .
Dann gilt für die Preise zweier aufeinander folgender Perioden
pt =
c−a b
− pt−1 = α − βpt−1 ,
d
d
38
5 Folgen und Grenzwerte
p
pt
S = a + bp
p0
p2
p
p1
D = c − dp
0
St = a + bpt−11
x
Dt = c − dpt
0
x
x2
(a)
x3 x1
xt
(b)
pt
pt
St = a + bpt−11
p2
St = a + bpt−11
p0 = p2
p0
p1
p1
Dt = c − dpt
Dt = c − dpt
0
x2
x1
x3
0
xt
(c)
x2
x1 = x3
(d)
Abbildung 5.2: Das Cobb-Web-Modell
39
xt
5 Folgen und Grenzwerte
wobei α = c−a
und β =
d
t = 0, dann gilt
b
d
sind. Sei p0 der Marktpreis in der Ausgangsperiode
p1 = α − βp0
p2 = α − βp1 = α − αβ + β 2 p0
p3 = α − βp2 = α − αβ + αβ 2 − β 3 p0
..
.
pt = α − βpt−1 = α ti=1 (−β)i−1 + (−β)t p0 .
Der Preispfad im Zeitablauf wird also durch die Folge
t
(pt )t∈N = α
(−β)i−1 + (−β)t p0
i=1
t∈N
beschrieben. Sie konvergiert gemäß Satz 5.9 für β < 1 gegen c−a
= p̄ (vgl. Abbilb+d
dung 5.2 (b)) und divergiert für β ≥ 1 (vgl. Abbildungen 5.2 (c) und (d)). Die
Folge
(xt )t∈N = (c − dpt )t∈N ,
die den zugehörigen Mengenpfad im Zeitablauf beschreibt, konvergiert bzw. divergiert unter der selben Bedingung.
Die betrachtete Variante des Cobb-Web-Gedankenexperimentes erlaubt also die
Beobachtung, daß ein Markt, in dem das Angebot mit zeitlicher Verzögerung auf
den Preis reagiert, unter sonst gleichen Bedingungen sich langfristig genau dann
auf dasselbe Gleichgewicht zu bewegt wie ein Markt mit unendlicher hoher Reaktionsgeschwindigkeit aller Marktteilnehmer, wenn β = db < 1 ist. Das bedeutet,
daß die Steigung b der Angebotsfunktion dem Betrage nach kleiner als die Steigung d der Nachfragefunktion sein muß. Anderenfalls erwarten wir nicht, daß sich
langfristig ein gleichgewichtiger Zustand einstellt.
5.5 Mehrdimensionale Folgen
Im vorhergehenden Cobb-Web-Gedankenexperiment-Beispiel haben wir zwei Folgen, nämlich den Preis- und den Mengenpfad gleichzeitig betrachtet. Die Folge
xt , pt kann daher als zweidimensionale Folge von Punkten oder Vektoren in R2
interpretiert werden. Eine naheliegende Verallgemeinerung von Definition 5.1 auf
Folgen in Rk mit k ∈ N ist die folgende Definition.
Definition 5.6 (Mehrdimensionale Folge) Eine geordnete unendliche Liste
von reellen k-Vektoren
(a1 , a2 , . . . , an , . . .)
heißt mehrdimensionale (engl.: multi-dimensional) Folge und wird mit (an )n∈N
bezeichnet. Die k-Vektoren an = (an1 , . . . , ank ) ∈ Rk heißen Glieder der Folge.
40
5 Folgen und Grenzwerte
Eine mehrdimensionale Folge in Rk kann also als eine Zuordnung interpretiert
werden, die jedem n ∈ N einen Vektor aus Rk zuordnet. Wir schreiben den
Folgenindex hier als Oberindex um den Unterindex für die Indizierung der Komponenten freizugeben.3
2n
Beispiel 5.12:
ist eine Folge in R2 . Ihre ersten drei Glieder sind
n + n1
6
2
4
und
.
,
3 + 13
2
2 + 12
Auch für mehrdimensionale Folgen (an ) ist ihr Verhalten für große n von Interesse.
Um die in Definition 5.2 eingeführten Begriffe der Konvergenz und des Grenzwerts
auf Vektoren übertragen zu können, brauchen wir zunächst ein Maß für den
Abstand zweier Vektoren x und y mit x, y ∈ Rk . Ein solches Maß für den Abstand
ist die Euklidische Metrik.4 Sie ist für alle k ∈ N und alle x, y ∈ Rk definiert als
k
||x − y|| = (xi − yi )2
i=1
und somit wegen (x − y)2 = |x − y| für alle x, y ∈ R eine Verallgemeinerung
des eindimensionalen Abstandes. Mit der Euklidischen Metrik lautet die Verallgemeinerung von Definition 5.2 folgendermaßen.
Definition 5.7 (Konvergenz und Grenzwert) Eine Folge an in Rk mit k ∈
N heißt konvergent, wenn ein a ∈ Rk existiert, so daß für alle ε > 0 ein n(ε) ∈ N
existiert mit
||an − a|| < ε
für alle n ≥ n(ε). Man schreibt
lim an = a
n→∞
oder an −→ a.
Der Vektor a heißt Grenzwert.
Der nachfolgende, ohne Beweis angegebene Satz5 führt die Konvergenz einer
mehrdimensionalen Folge bezüglich der Euklidischen Metrik auf die Konvergenz
mehrerer eindimensionaler Folgen im Sinne der Definition 5.2 zurück. Er läßt
daher die Verwendung aller bisher vorgestellten Sätze für die Untersuchung der
Konvergenz auch für mehrdimensionale Folgen zu.
3
Es gibt verschiedene Möglichkeiten der Mehrfachindizierung.
Die Euklidische Metrik ist nur eines unter vielen Abstandsmaßen. Ein anderes ist die sogenannte Manhatten-Metrik, bei der die einfache Summe der Abstände in allen Komponenten
gebildet wird. Sie heißt Manhatten-Metrik, da man wie in Manhatten nicht diagonal geht,
sondern nur entlang der Koordinatenachsen.
5
Der an einem Beweis interessierte Leser sei auf Blume und Simon (1994, S. 262) verwiesen.
4
41
5 Folgen und Grenzwerte
Satz 5.10 Eine Folge (an ) in Rk mit k ∈ N konvergiert genau dann gegen a ∈ Rk ,
wenn (ani )n∈N gegen ai ∈ R konvergiert für alle i ∈ {1, . . . , k}.
Beispiel 5.13: 2n
divergiert gemäß Satz 5.10 wegen 2n −→ ∞.
(i) Die Folge
1
n n
1+n1
e
(ii) Die Folge
konvergiert gemäß Satz 5.10 gegen
.
1 n
0
2
42
6 Funktionen einer Variablen
Die Wirtschaftswissenschaften sind voller Funktionen, z.B. Zielfunktionen, Nutzenfunktionen, Reaktionsfunktionen, Angebots- und Nachfragefunktionen und
vielen anderen. Da Funktionen grundlegend für alles Weitere sind, studieren wir
zunächst deren einfachste Art, Funktionen einer Variablen. Wirtschaftswissenschaftler benutzen diese einfachsten Funktionen alltäglich. Zusätzlich ist deren
gründliches Verständnis eine hilfreiche Vorübung für die ebenfalls alltäglichen,
aber allgemeineren und also abstrakteren Funktionen mehrerer Variablen und
die daraus abgeleiteten Konzepte.
6.1 Grundbegriffe
Definition 6.1 (Funktion) Seien X und Y zwei beliebige nichtleere Mengen.
Eine Funktion ist eine Vorschrift f , die jedem x ∈ X genau ein y ∈ Y zuordnet.
Wir schreiben f : X → Y oder
f
x −→ y
oder y = f (x). Die Menge Def(f ) = {x ∈ X|∃y ∈ Y, y = f (x)} heißt Definitionsbereich (engl.: domain), die Menge Wert(f ) = f (X) = {y ∈ Y |∃x ∈
X, y = f (x)} ⊆ Y Wertebereich (engl.: range). Die Variable x wird auch Argument (engl.: argument) genannt und y Funktionswert (engl.: value). Falls X ⊆ R
und Y ⊆ R Teilmengen der reellen Zahlen sind, heißt f reellwertige Funktion
einer Variablen.
Die eine Variable und die Reellwertigkeit in der Definition beziehe sich also in
diesem Kapitel sowohl auf den Definitionsbereich als auch auf den Wertebereich.
Für eine Funktion f : R → R heißen alle x ∈ R mit f (x) = 0 Nullstellen von
f und f (0) y-Achsenabschnitt oder einfach Achsenabschnitt. Warum kann eine
Funktion keine bzw. mehr als eine Nullstelle haben aber niemals mehr als einen
Achsenabschnitt?
Beispiel 6.1:
(i) Die Funktion g : [−1, 1] → R mit g(x) = 5x + 1 hat den Definitionsbereich
[−1, 1], den Wertebereich [−4, 6], die Nullstelle − 15 und den Achsenabschnitt 1.
43
6 Funktionen einer Variablen
Ihr Funktionswert vom Argument x = 12 ist g( 12 ) = 72 .
(ii) Es gibt keine Funktion, die jedem deutschen Staatsbürger die Postleitzahl
seines ersten Wohnsitzes zuordnet, da nicht jeder deutsche Staatsbürger einen
ersten Wohnsitz hat.
(iii) Eine Vorschrift, die jedem AOL-Nutzer eine Email-Adresse zuordnet, unter
welcher dieser Nutzer erreichbar ist, ist keine Funktion, da ein AOL-Nutzer mehrere Email-Adressen besitzen kann.
(iv) Sei f (x) = 4x2 − 1 mit Definitionsbereich R. Dann ist der Wertebereich
gegeben durch [−1, ∞). Die Nullstellen von f sind 12 und − 12 und der Achsenabschnitt ist −1.
(v) Sei h : R → R mit h(x) = x1 , dann ist Def(h) = Wert(h) = R \ {0}.
6.2 Graphische Darstellung
Funktionen mit R als Definitions- und Wertebereich kann man hervorragend in
der Ebene, auf einem Papier oder an der Tafel darstellen. In einem Koordinatensystem wird meistens der Wert der unabhängigen Variablen horizontal entlang
der x-Achse dieses Koordinatensystems und der Wert der abhängigen Variablen
vertikal entlang der y-Achse aufgetragen.1 die Menge
Graph(f ) = {(x, y)|x ∈ D ∧ y = f (x)}
zur Funktion f : D → W heißt Graph von f .
Beispiel 6.2: Abbildung 6.1 zeigt die Graphen der Funktionen y = 12 x + 1 und
y = (x − 1)2 .
6.3 Eigenschaften von Funktionen
Eine Funktion f : R → R heißt monoton steigend, wenn für alle x1 , x2 ∈ R
mit x2 > x1 die Ungleichung f (x2 ) ≥ f (x1 ) gilt. Die Funktion monoton fallend, wenn für alle x1 , x2 ∈ R mit x2 > x1 die Ungleichung f (x2 ) ≤ f (x1 ) gilt.
Ersetzt man in diesen beiden Ungleichungen die Relationen ≥ und ≤ durch >
bzw. <, so erhält man die Definitionen für strenge Monotonie. Ferner heißt eine Funktion f : R → R konvex, wenn für alle x1 , x2 ∈ R und alle a ∈ (0, 1)
1
Die x-Achse wird oft auch als Abszisse und die y-Achse als Ordinate bezeichnet. In den Wirtschaftswissenschaften wird aus historischen Gründen oftmals, insbesondere bei Angebotsund Nachfragefunktionen entgegen der mathematischen Konvention die unabhängige Variable auf der y-Achse und die abhängige Variable auf der x-Achse aufgetragen.
44
6 Funktionen einer Variablen
y
y
3
−1
3
y =1/2 x + 1
y =(xx−1)2
2
2
1
1
0
1
2
3
x
−1
−1
0
1
2
3
x
−1
(a)
(b)
Abbildung 6.1: Graphen zu den Funktionen y = 12 x + 1 und y = (x − 1)2
die Ungleichung f (ax1 + (1 − a)x2 ) ≤ af (x1 ) + (1 − a)f (x2 ) gilt. Die Funktion heißt konkav, wenn für alle x1 , x2 ∈ R und alle a ∈ (0, 1) die Ungleichung
f (ax1 + (1 − a)x2 ) ≥ af (x1 ) + (1 − a)f (x2 ) gilt. Ersetzt man wieder in den
beiden Ungleichungen die Relationen ≤ und ≥ durch < bzw. >, so erhält man
entsprechend die beiden Definitionen für strenge Konvexität bzw. Konkavität.
Die beiden Begriffe Konvexität und Konkavität werden in Abbildung 6.2 veranschaulicht. Offenbar verläuft für konvexe Funktionen die Verbindungslinie zweier
beliebiger Punkte des Graphen der Funktion stets oberhalb des Graphen (a), und
für konkave Funktionen stets darunter (b).
Beispiel 6.3:√
(i) f (x) = x mit [0, ∞) als Definitionsbereich ist streng monoton steigend
und konkav.
(ii) g(x) = −x + 2 ist streng monoton fallend, als lineare Funktion zugleich
konkav und konvex, aber dadurch weder streng konkav noch streng konvex.
In Abschnitt 6.1 wurde als charakteristisches Merkmal einer Funktion genannt,
daß sie jedem Argument aus dem Definitionsbereich eindeutig einen Funktionswert aus dem Wertebereich zuordnet. Gilt außerdem, daß eine Funktion jedem
Element des Definitionsbereichs einen Funktionswert zuordnet, den sie keinem
anderen Element des Definitionsbereichs zuordnet, so heißt diese Funktion injektiv oder eineindeutig. Für jede injektive Funktion f ist die Umkehrfunktion
f −1 gegeben als die Funktion, die jedem Element y = f (x) des Wertebereichs
von f das Element x im Definitionsbereich von f zuordnet. Es gilt also für alle
45
6 Funktionen einer Variablen
y
y
f(x)
3
−1
3
2
2
1
1
0
−1
x1 1
2 x2
xa = ax1+ (1−a))x2
3
x
−1
0
−1
(a)
f(x)
x1 1
2 x2
xa = ax1+ (1−a))x2
3
x
(b)
Abbildung 6.2: Konvexität und Konkavität
Elemente des Definitionsbereichs von f
f −1 (f (x)) = x.
Beispiel 6.4:
(i) f (x) = 2x + 6 ist eineindeutig.
(ii) g(x) = x2 ist nicht eineindeutig.
(iii) Die Umkehrfunktion g −1 der Funktion g(x) = 3x − 9 erhält man durch
Auflösen nach x. Sie ist x = g −1 (y) = 13 y + 3.
(iv) Die Umkehrfunktion der Funktion h : R+ → R mit h(x) = x2 ist h−1 : R →
√
R+ mit h−1 (y) = y. Graphisch entspricht die Umkehrfunktion einer Vertauschung der x- und y-Achsen und einer Spiegelung des Graphen an der 45 Linie.
1
(v) Achtung, die Umkehrung f −1 (y) und multiplikative Inversion f (x)
werden
bisweilen miteinander verwechselt, haben aber nichts miteinander zu tun. Man
überprüfe das für die eben genannten Beispiele.
6.4 Grenzwerte und Stetigkeit
Viele Definitionen und Aussagen in den Wirtschaftswissenschaften beziehen sich
auf Funktionen ohne Sprünge, deren Graphen man zeichnen kann, ohne den Stift
abzusetzen.2 Diese Eigenschaft heißt Stetigkeit und hängt eng mit dem Begriff
der Konvergenz zusammen.
2
In Kapitel 9 werden wir lernen daß die mit dem Absetzen eines Stiftes verbundene Intuition
nicht nur ihre Grenzen hat sondern sogar falsch sein kann.
46
6 Funktionen einer Variablen
Definition 6.2 (Grenzwert einer Funktion) Der Grenzwert ŷ einer Funktion f : R → R an der Stelle x̂ existiert, falls für jede Folge (xn )n∈N mit xn −→ x̂
die Folge
(f (xn ))n∈N
stets gegen den selben Wert ŷ konvergiert. Man schreibt in diesem Fall
lim f (x) = ŷ.
x→x̂
Definition 6.3 (Stetigkeit) Die Funktion f heißt stetig an der Stelle x̂, falls
limx→x̂ f (x) existiert und
lim f (x) = f (x̂).
x→x̂
Die Funktion f heißt stetig auf A ⊆ R, falls f stetig ist für alle x̂ ∈ A
Beispiel 6.5:
(i) Die Funktion f (x) = 1/x mit dem Definitionsbereich R\{0} ist nicht stetig,
da man, um sie zu zeichnen, beim Überqueren der y-Achse den Stift absetzen
muß. Um das gemäß unserer Definition formal zu erkennen, betrachte die Folge
xn = (− n1 )n mit limn→∞ xn = 0. Dann ist (f (xn )) = (−n)n , was nicht konvergiert.
(ii) Sei [x] für alle x ∈ R die größte ganze Zahl n ∈ Z, für die n ≤ x gilt.
Der Graph der Funktion f (x) := [x] hat die Form einer Treppe (ohne vertikale
Striche). f ist also nicht stetig.
Man kann Definition 6.2 in der Art erweitern, daß für (xn )n∈N und (f (xn ))n∈N auch
solche Folgen zugelassen werden, die gegen ∞ oder −∞ divergieren. Durch diese
Erweiterung können zusätzliche Fälle auftreten, die in der folgenden Übersicht
zusammengestellt sind.
f (xn ) −→ a
xn −→ x̄
lim f (x) = a
xn −→ ∞
lim f (x) = a
f (xn ) −→ ∞
lim f (x) = ∞
lim f (x) = ∞
f (xn ) −→ −∞
x→x̄
x→∞
xn −→ −∞
lim f (x) = a
x→−∞
lim f (x) = ∞
x→x̄
x→∞
x→−∞
x→x̄
x→∞
x→−∞
lim f (x) = −∞
lim f (x) = −∞
lim f (x) = −∞
Beispiel 6.6:
(i) Sei f : R \ {0} → R mit f (x) = x12 . Dann ist limx→0 f (x) = ∞, da zu
jeder Folge (xn ) mit xn −→ 0 und xn = 0 die Folge (f (xn )) gegen ∞ divergiert.
Außerdem ist limx→∞ f (x) = 0, da zu jeder Folge (xn ) mit xn −→ ∞ und xn = 0
die Folge (f (xn )) gegen 0 konvergiert.
(ii) Sei f : R → R mit f (x) = −3x2 − x. Dann ist limx→∞ f (x) = −∞, da zu
jeder Folge (xn ) mit xn −→ ∞ die Folge (f (xn )) gegen −∞ divergiert.
47
6 Funktionen einer Variablen
6.5 Typen von Funktionen
In diesem Abschnitt werden einige von Wirtschaftswissenschaftlern besonders
häufig benutzte Funktionstypen vorgestellt.
Die Funktion
f (x) = a0 + a1 x + · · · + an x =
n
n
ai xi
i=0
mit n ∈ N und a0 , a1 , . . . , an ∈ R heißt Polynom vom Grad n, falls an = 0 ist.
Die a0 , a1 , . . . , an nennt man Koeffizienten der Polynomfunktion. Es gilt, daß ein
Polynom n-ten Grades maximal n Nullstellen hat.
Beispiel 6.7: Lineare Funktionen sind Polynome vom Grad 1. Der Koeffizient
a1 ist die Steigung und der Koeffizient a0 der Achsenabschnitt der zugehörigen
Geraden.
Die Funktion f : R → R mit
f (x) = xn ,
wobei n ∈ Z ist, heißt Potenzfunktion. Ihr Definitionsbereich ist Def(f ) = R
für n ≥ 1, Def(f ) = R \ {0} für n ≤ −1, Def(f ) = R+ für n ∈ (0, 1) und
Def(f ) = R++ für n ∈ (−1, 0). Der Graph einer Potenzfunktion ist für n > 1
eine Parabel, für n = 1 eine Gerade, für n ∈ (0, 1) eine gespiegelte Parabel (oder
Wurzelfunktion), für n = 0 eine Gerade mit einer Unstetigkeitsstelle in x = 0
und für n < 0 eine Hyperbel. Die Funktion
f (x) = cap(x)
mit c ∈ R, a > 0 und p(x) ein Polynom heißt Exponentialfunktion. Sie kommt
z.B. bei der Beschreibung von Wachstumsprozessen vor. Funktionen der Form
f (x) = loga x
heißen Logarithmusfunktionen zur Basis a. Schließlich sollen noch die zwei wichtigsten trigonometrischen Funktionen genannt werden, der Sinus und der Cosinus. Abbildung 6.3 zeigt cos α (sprich: Cosinus alpha) als x-Koordinate und sin α
(sprich: Sinus alpha) als y-Koordinate eines Punktes auf dem Einheitskreis, der
auf einem vom Ursprung ausgehenden Strahl im Winkel α relativ zur x-Achse
liegt.
Man beachte, daß die Argumente trigonometrischer Funktionen meistens nicht in
Grad, sondern als Bogenmaß angegeben werden. In diesem Maß entsprechen 360
Grad dem Umfang des Einheitskreises 2π. Andere Winkel werden entsprechend
α
umgerechnet, d.h. ein Winkel von α Grad entspricht im Bogenmaß 360
2π.
48
6 Funktionen einer Variablen
y
1
sin α
α
−1
0
cos α
1
x
−1
Abbildung 6.3: Sinus und Cosinus am Einheitskreis
49
7 Ableitung von Funktionen einer
Variablen
In diesem Kapitel wird das Konzept der Ableitung von Funktionen behandelt. Es
ist zentraler Bestandteil der klassischen Optimierungstheorie, welche wiederum
insbesondere für die positive und normative Modellierung menschlichen Verhaltens in den Wirtschaftswissenschaften von großer Bedeutung ist.
7.1 Das Konzept der Ableitung
Der Koeffizient a einer linearen Funktion f (x) := ax + b mit a, b ∈ R ist die
Steigung der zugehörigen Geraden. Die Steigung gibt an, um wieviel Einheiten
der Funktionswert von f (x) steigt, wenn das Argument x um eine Einheit erhöht
wird. Bei einer nicht-linearen Funktion g(x) hängt die Steigung von der Stelle
x ab, ist also nicht wie bei der Geraden konstant, sondern selbst eine von x
abhängige Funktion, die Ableitung von g genannt wird.
Sei im folgenden f (x) eine stetige, reellwertige Funktion. Man kann auch bei
einer nicht-linearen Funktion die durchschnittliche Steigung bzw. die Steigung
der Sekante von f (x) zwischen zwei Punkten x0 und x0 +∆x mit ∆x = 0 angeben
mit
∆y
f (x0 + ∆x) − f (x0 )
=
.
∆x
∆x
Dieser Ausdruck heißt Differenzenquotient und wird in Abbildung 7.1 veranschaulicht. Dort gibt der Differenzenquotient die Steigung der Sekante zwischen
den Punkten P und Q an. Die Ableitung ist die Steigung der Tangente t, die den
Graphen von f (x) im Punkt P berührt, aber nicht schneidet.
Für einen festen Ausgangspunkt x konvergiert also die Steigung der Sekanten
gegen die Steigung der Tangente an den Graphen von f im Punkte (x, f (x)),
falls ∆x gegen 0 geht. Eine konvergente Folge von Sekantensteigungen gegen die
Tangentensteigung ist genau die Idee der ersten Ableitung.
Definition 7.1 Die erste Ableitung der Funktion f : R → R an der Stelle x ist
definiert durch den Grenzwert
f (x + ∆x) − f (x)
.
∆x→0
∆x
lim
50
7 Ableitung von Funktionen einer Variablen
y
f(x0+ ∆x)
f(x0)
y = f((x)
Q
P
∆y
∆x
t
0
x0
x0+ ∆x
x
Abbildung 7.1: Veranschaulichung des Differenzenquotienten
(x)
. Existiert der Grenzwert f (x) für alle x ∈
Man schreibt dafür f (x) oder dfdx
A ⊆ Def(f ), so heißt die Funktion f auf A differenzierbar.
Man beachte, daß nicht alle Funktionen in ihrem gesamten Definitionsbereich eine Ableitung besitzen, da der Grenzwert des Differenzenquotienten für ∆x → 0
nicht in jedem Fall existiert. Offenbar ist f (x) eine neue Funktion deren Definitionsbereich die Menge aller reellen Zahlen ist, für die f differenzierbar ist. Ihr
Funktionswert ist die Ableitung von f (x) an eben dieser Stelle. Falls die Funktion
f (x) ihrerseits differenzierbar ist heißt deren Ableitung zweite Ableitung von f (x)
2 f (x)
bezeichnet. Analog
und wird mit den Symbolen f (x), f (2) (x) oder auch d dx
2
sind bei entsprechend häufiger Differenzierbarkeit höhere Ableitungen definiert.
Beispiel 7.1:
(i) Der Differenzenquotient von f (x) = x2 an einer beliebigen Stelle x0 ∈ R ist
(x0 + ∆x)2 − x20
= 2x0 + ∆x.
∆x
Für ∆x → 0 konvergiert der Differenzenquotient also gegen den Wert 2x0 . Die
Abbleitung von f (x) an der Stelle x0 ist also 2x0 . Die Ableitung f als Funktion
von x ist also f (x) = 2x.
(ii) Betrachtet man den Differenzenquotienten von f (x) aus dem vorherigen
Beispiel an einer beliebigen Stelle x0 ∈ R, dann ist
2(x0 + ∆x) − 2x0
= 2,
∆x
51
7 Ableitung von Funktionen einer Variablen
f (x)
a
x (a ∈ R)
√
x
1
x
x
f (x)
axa−1
1
√
2 x
− x12
x
e
e
x
a (a > 0)
a ln a
1
ln x
x
1
loga x (a > 0)
x ln a
sin x
cos x
cos x
− sin x
x
Tabelle 7.1: Ableitungen ausgewählter Funktionen
also ist die zweite Ableitung von f (x) gegeben als f (x) = 2.
(iii) Sei g(x) = |x|. Der Differenzenquotient von g(x) an der Stelle x0 = 0 ist
|0 + ∆x| − |0|
|∆x|
=
.
∆x
∆x
Für beliebig kleine |∆x| > 0 hat dieser Differenzenquotient für ∆x > 0 den
Wert 1 und für ∆x < 0 den Wert −1. Es existiert also kein Grenzwert des
Differenzenquotienten für ∆x → 0, und die Funktion g(x) ist an der Stelle 0
nicht differenzierbar.
Der folgende Satz ohne Beweis zeigt, daß Differenzierbarkeit eine stärkere Eigenschaft als Stetigkeit ist, also Stetigkeit eine notwendige Bedingung für Differenzierbarkeit einer Funktion ist.
Satz 7.1 Jede auf A ⊆ R differenzierbare Funktion ist stetig auf A.
7.2 Ableitungen ausgewählter Funktionen
Da die analytische Bestimmung der Ableitung über ihre Definition, also dem
Grenzwert des Differenzenquotienten, oft mühselig ist, ist es sinnvoll, die Ableitungen der in den Wirtschaftswissenschaften häufig vorkommenden Funktionen
zu kennen. In Tabelle 7.1 sind die Ableitungen ausgewählter Funktionen zusammengestellt.
7.3 Ableitungsregeln
Um Funktionen abzuleiten, die aus anderen Funktionen, deren Ableitungen bekannt sind, zusammengesetzt sind, sind die in diesem Abschnitt zusammenge-
52
7 Ableitung von Funktionen einer Variablen
stellten Ableitungsregeln sehr nützlich. Seien nachfolgend f (x) und g(x) zwei
reellwertige und differenzierbare Funktionen. Nach der Summenregel ist
(f (x) + g(x)) = f (x) + g (x).
Die Produktregel besagt
(f (x) · g(x)) = f (x) · g(x) + f (x) · g (x).
Die Quotientenregel sagt
f (x)
f (x) · g(x) − f (x) · g (x)
=
g(x)
(g(x))2
falls g(x) = 0. Gemäß der Kettenregel ist
(f (g(x))) = f (g(x)) · g (x).
Es ist häufig nötig, diese Ableitungsregeln kombiniert anzuwenden, um die Ableitung einer zusammengesetzten Funktion zu bestimmen.
Beispiel 7.2:
(i) Die Faktorregel
(af (x)) = af (x)
folgt offenbar aus der Produktregel.
(ii) Die Ableitung von f (x) = 3 sin x ist nach der Faktorregel f (x) = 3 cos x.
(iii) Die Ableitung von f (x) = 4x2 + 5x + ln x ist nach der Summen- und der
Faktorregel f (x) = 8x + 5 + 1/x.
(iv) Die Ableitung von f (x) = 4x sin x ist nach der Produkt- und der Faktorregel f (x) = 4 sin x + 4x cos x.
2
x
2 ex
=
(v) Die Ableitung von f (x) = xex ist nach der Quotientenregel f (x) = 2xe e−x
2x
2x−x2
.
ex
(vi) Die Ableitung von f (x) = 2 sin (x3 ) ist nach der Ketten- und der Faktorregel
f (x) = 6x2 cos (x3 ).
53
8 Teilmengen des Rn
Die Menge der möglichen Handlungsalternativen eines Entscheidungsproblems
wird Entscheidungsraum genannt. Die Entscheidungsräume vieler ökonomischer
Entscheidungsprobleme sind Teilmengen des Rn . In diesem Kapitel werden einige
wichtige Eigenschaften solcher Teilmengen betrachtet, die für die Lösbarkeit und
die Bestimmung von Lösungen von Entscheidungsproblemen von Bedeutung sind.
8.1 Grundbegriffe der Mengen-Topologie
Die Mengen-Topologie ist eine sehr allgemeine mathematische Methode, Mengen
mit einer Struktur auszustatten, die es ermöglicht Nähe und Abstand qualitativ
zu charakterisieren. Der Rn besitzt viele verschiedene topologische Strukturen,
von denen wir hier nur eine, die Standardtopologie, benötigen. Diese wird durch
die in Kapitel 5.5 eingeführte Euklidische Metrik aber auch durch andere Metriken wie die Manhatten-Metrik oder Maximum-Metrik induziert. Die Grundbegriffe der Mengen-Topologie sind offene und abgeschlossene Mengen. Um die
Standardtopologie des Rn zu definieren, müssen offene und abgeschlossene Teilmengen beschrieben werden. Ein möglicher Weg dazu, den wir hier beschreiten
wollen, geht über den Begriff der ε-Umgebung. Falls nicht anders hervorgehoben,
sei in diesem Kapitel stets n ∈ N die Dimension des Rn .
Definition 8.1 (Epsilon-Umgebung) Sei x ∈ Rn und ε > 0. Die Menge
Bε (x) = {y | y ∈ Rn , ||x − y|| < ε}
heißt ε-Kugel oder ε-Umgebung (engl.: ε-ball, neighborhood) um x.
Die ε-Umgebung um x ∈ Rn ist also die Menge aller Punkte, die zu x einen strikt
geringeren Abstand als ε bezüglich der Euklidischen Metrik haben. Sie ist also
eine Kugel vom Radius ε um x ohne deren noch zu definierenden Rand. Diesen
definieren wir nun zusammen mit anderen topologischen Grundbegriffen.
Definition 8.2 (Innerer Punkt, Randpunkt, Rand) Der Punkt x ∈ M mit
M ⊆ Rn heißt innerer Punkt (engl.: interior point) von M, wenn ε > 0 existiert,
so daß
Bε (x) ⊆ M.
54
8 Teilmengen des Rn
ε
x
ε
x
M
M
(a)
(b)
Abbildung 8.1: Ein innerer Punkt und ein Randpunkt
Umgekehrt heißt der Punkt y ∈ Rn Randpunkt (engl.: boundary point) der Menge
M ⊆ Rn , falls für alle ε > 0
Bε (x) ∩ M = ∅ und
Bε (x) \ M = ∅.
Die Menge aller Randpunkte heißt Rand und wird geschrieben als ∂M.
Ein Punkt ist also innerer Punkt einer Menge, wenn seine unmittelbare Nachbarschaft nur aus Punkten dieser Menge besteht (vgl. Abbildung 8.1 (a)). Dagegen
ist ein Punkt Randpunkt einer Menge, wenn seine unmittelbare Nachbarschaft
sowohl aus Punkten dieser Menge als auch deren Komplement besteht. Daraus
folgt, daß ein Randpunkt einer Menge M nicht unbedingt zur Menge M gehören
muß (vgl. Abbildung 8.1 (b)).
Beispiel 8.1: (i) B 1 (3) = 52 , 72 .
2
(ii) Sei x = 0 ∈ R2 . Dann ist B1 (x) = {y | y ∈ R2 ∧ y12 + y22 < 1}.
(iii) Der Punkt x = 12 ist wegen B 1 (x) ⊆ M innerer Punkt der Menge [0, 1).
4
Dagegen ist der Punkt x = 1 Randpunkt von [0, 1), da für alle ε > 0 einerseits
/ M ist.
x − ε ∈ M und andererseits x + ε ∈
(iv) Der Rand der Einheitskugel
K = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}
ist ∂M = {(x, y) ∈ R2 | x2 + y 2 = 1}. Die Menge der inneren Punkte von K ist
die Menge M \ ∂M = {(x, y) | x ∈ R ∧ y ∈ R ∧ x2 + y 2 < 1}.
55
8 Teilmengen des Rn
Auf den Begriffen des inneren und des Randpunkts bauen die der offenen und
der abgeschlossenen Menge auf. Offene und abgeschlossene Mengen im Rn sind
n-dimensionale Verallgemeinerungen von Vereinigungsmengen offener und abgeschlossener Intervalle in R.
Definition 8.3 (Offene und abgeschlossene Menge) A ⊆ Rn heißt offen (engl.: open),
wenn alle x ∈ M innere Punkte von M sind. B ⊆ Rn heißt abgeschlossen
(engl.: closed), wenn die Menge B ihren Rand ∂B enthält, also ∂B ⊆ B. Die
Menge
M̄ := M ∪ ∂M
heißt Abschluß von M. Entsprechend heißt die Menge
Ṁ := M \ ∂M
Inneres von M.
Der Abschluß einer Menge ist stets abgeschlossen und das Innere ist stets offen. Komplemente abgeschlossener Mengen, beliebige Vereinigungen und endliche Durchschnitte offener Mengen sind stets offen, während Komplemente abgeschlossener Mengen und beliebige Durchschnitte und endliche Vereinigungen
abgeschlossener Mengen stets abgeschlossen sind. Falls die Menge A ⊆ Rn sowohl offen als auch abgeschlossen ist, nennt man sie abgeschloffen (engl.: clopen).
In der Standardtopologie gilt dies nur für A = Rn oder A = ∅. Ein System von
offenen und abgschlossenen Teilmengen, das diese Eigenschaften besitzt heißt topologischer Raum. Neben der Standardtopologie auf dem Rn gibt es viele andere
Topologien.1 Da sich Ökonomen meistens nur für die Standardtopologie interessieren, verfolgen wir den sehr allgemeinen Begriff des topologischen Raumes hier
nicht weiter.
Beispiel 8.2:
(i) Die Einheitskugel K = {(x, y) ∈ R2 | x2 + y 2 ≤ 1} ist abgeschlossen.
(ii) Die Menge {(x, y) ∈ R2 | |x| + |y| < 1} ist offen (wie sieht sie aus?)
(iii) Die Menge [0, 1) ist weder offen noch abgeschlossen, da sie mit 0 einen ihrer
Randpunkte, wegen 1 ∈
/ [0, 1) aber nicht alle ihrer Randpunkte enthält.
(iv) Die Menge [0, 1]2 ∪ {(x, y) ∈ R2 | x2 + y 2 < 1} ist weder offen noch abgeschlossen (warum?).
Eine weitere wichtige Eigenschaft von Mengen ist die der Beschränkheit.
1
Seien zum Beispiel nur der ganze Rn und ∅ abgeschloffen und alle anderen Teilmengen weder
offen noch abgeschlossen. Man überzeuge sich davon, daß dann alle hier angeführten Eigenschaften erfüllt sind. Diese Topologie heißt auch gröbste Topologie des Rn . Die sogenannte
feinste Topologie definiert alle Mengen als offen und abgeschlossen und erfüllt ebenfalls alle
Eigenschaften.
56
8 Teilmengen des Rn
Definition 8.4 (Beschränkte Menge) Eine Menge M ⊆ Rn heißt beschränkt
(engl.: bounded), wenn ein a ∈ R mit
||x|| ≤ a
für alle x ∈ M existiert.
Eine Menge heißt also beschränkt, wenn sie in einer Kugel mit endlichem Radius
enthalten ist. Daß in unserer Definition die Kugel eine Ursprungskugel, also eine
Kugel um den Ursprung als Mittelpunkt, ist, spielt offenbar für die Definition
keine Rolle (warum?). In der Tat könnte man die Beschränktheit auch mit einem Quader oder beliebigen anderen Formen definieren. Entscheidend für eine
beschränkte Menge ist, daß sie in keiner Richtung unendlich groß ist.
Beispiel 8.3:
(i) Die Menge [0, a] mit a ≥ 0 ist wegen ||x|| = |x| ≤ a für alle x ∈ R beschränkt.
(ii) Die Menge M = {x | x ∈ R3 ∧ x1 + x2 + x3 ≥ 1} ist nicht beschränkt, da √
für
alle h ≥ 1 der Punkt (h, h, h) Element von M ist, der Abstand ||(h, h, h)|| = h 3
zwischen diesem Punkt und dem Ursprung allerdings mit steigendem h jede
Schranke überschreitet.
Mit Hilfe der in diesem Abschnitt vorgestellten Begriffe können nun abschließend
kompakte Mengen eingeführt werden. Diese spielen in der Optimierungstheorie,
dem wichtigsten mathematischen Handwerkzeug des Ökonomen eine zentrale Rolle, da Kompaktheit der Auswahlmenge zusammen mit der Stetigkeit der Zielfunktion die Existenz einer Lösung eines Optimierungsproblems garantiert. Bezüglich
Kompaktheit gibt es eine gute und eine schlechte Nachricht. Die schlechte Nachricht ist, daß Kompaktheit im Allgemeinen (in einem topologischen Raum) abstrakt und kompliziert zu definieren ist. Die gute Nachricht ist, daß wir uns
vorläufig diese Mühe ersparen können, da im Spezialfall des Rn , auf den wir uns
hier konzentrieren, Kompaktheit sehr einfach ist.
Definition 8.5 (Kompakte Menge) Eine Teilmenge des Rn heißt genau dann
kompakt (engl.: compact), wenn sie beschränkt und abgeschlossen ist.
Beispiel 8.4:
(i) Die Menge [0, 1] × (2, 3) ist beschränkt, aber nicht abgeschlossen und daher
nicht kompakt.
(ii) Die Menge [0, ∞)2 ist abgeschlossen, aber nicht beschränkt, also nicht kompakt.
(iii) Die Menge ([0, 1] ∪ [2, 3]) × [1, 5] ist beschränkt und abgeschlossen, also
kompakt.
57
8 Teilmengen des Rn
8.2 Konvexe Mengen
Eine weitere bedeutsame Eigenschaft von Teilmengen des Rn im Zusammenhang
mit wirtschaftswissenschaftlichen Fragestellungen ist die Konvexität, da diese unter geeigneten Annahmen die Eindeutigkeit der Lösung eines Optimirungsproblems garantiert.
Definition 8.6 (Konvexe Menge) Die Menge M ∈ Rn heißt konvex (engl.: convex), wenn für alle x, y ∈ M und alle λ ∈ [0, 1] gilt
λx + (1 − λ)y ∈ M.
Die gerade Verbindungsstrecke zwischen zwei Punkten x, y ∈ M muß also stets
ganz in M liegen, damit M eine konvexe Menge ist (vgl. Abbildung 8.2 (a)).
Falls diese Eigenschaft für gewisse Punkte x, y ∈ M nicht gilt, so ist M nicht
konvex (vgl. Abbildung 8.2 (b)). Obwohl die Konvexität einer Funktion mit der
Konvexität einer Menge verbunden ist , gibt es den umgekehrten Begriff der
Konkavität zwar fr Funktionen nicht im Zusammenhang mit Mengen.2
Beispiel 8.5:
(i) Die Menge [0, 1] ist konvex, da für alle x, y ∈ [0, 1] und alle λ ∈ [0, 1] die
Ungleichnungen λx+(1−λ)y ≤ λ max{x, y}+(1−λ) max{x, y} = max{x, y} ≤ 1
und λx + (1 − λ)y ≥ 0 gelten.
(ii) Die Menge M = {x ∈ R2 | ||x|| ≥ 1 ∧ ||x|| ≤ 3} ist nicht konvex, da
/ M trotz x = (2, 0) ∈
beispielsweise die Konvexkombination 12 x + 12 x = (0, 0) ∈
M und y = (−2, 0) ∈ M ist.
Die Konvexität einer Menge ergibt sich in den Wirtschaftswissenschaften oft ganz
natürlich. Betrachtet man beispielsweise einen Haushalt, der sich mit seinem Budget entweder 20 Liter Bier oder 10 Liter Wein kaufen kann, so ist meistens sinnvoll
anzunehmen, daß er mit seinen Mitteln auch 20λ Liter Bier und 10(1 − λ) Liter Wein mit λ ∈ [0, 1] erwerben kann. Die Budgetmenge, also die Menge aller
Güterbündel, die der Haushalt mit einem gegebenen Budget kaufen kann, ist
unter dieser Annahme konvex.
Satz 8.1 Der Durchschnitt A ∩ B zweier konvexer Mengen A und B ist konvex.
2
Ein kleiner Vorgriff auf das folgende Kapitel mag dies illustrieren. Die untere Konturmenge
einer Funktion f : Rn → R ist die Menge aller Punkte x ∈ Rn deren Funktionswert f (x)
einen bestimmten Wert nicht überschreitet. Diese Menge ist stets konvex für eine konvexe
Funktion. Zum Beispiel ist die Einheitskugel die untere Konturmenge zum Wert 1 für die
konvexe Funktion f (x1 , x2 ) = x21 + x22 . Die untere Konturmenge einer konkaven Funktion
ist nicht konvex, wird aber nicht konkav genannt. Das Komplement der Einheitskugel ist
ein Beispiel für eine solche Menge.
58
8 Teilmengen des Rn
y
x
y
x
y
y
x
x
(a)
(b)
Abbildung 8.2: Beispiele konvexer und nicht-konvexer Mengen
Beweis. Seien x, y ∈ A ∩ B, also x, y ∈ A und x, y ∈ B. Da A konvex ist,
gilt λx + (1 − λ)y ∈ A für alle λ ∈ [0, 1]. Da auch B konvex ist, gilt analog
λx + (1 − λ)y ∈ B für alle λ ∈ [0, 1]. Folglich ist λx + (1 − λ)y ∈ A ∩ B für alle
λ ∈ [0, 1].
59
9 Funktionen von Rm nach Rn
Die nachgefragte Menge an Weizenbier und Speiseeis am Sommeranfang im Jahr
2004 kann vom Weizenbierpreis, vom Speiseeispreis vom Preis anderer Produkte
(Döner, Wein, Wohnungsmiete, Benzin,...), vom Einkommen, vom Wetter an diesem Tag (z.B. gemessen in Sonnenstunden oder Durchschnittstemperatur) und
vielen anderen Variablen abhängen. Eine Zuordnung aller relevanter Variablen
auf dieses 2-Tupel nachgefragter Mengen ist eine mehrdimensionale Funktion.
Mehrdimensionale Funktionen sind Verallgemeinerungen von Funktionen einer
Variablen. Viele darauf aufbauende Konzepte wie Ableitungen oder Konkavität
bauen daher auf der Intuition eindimensionaler Funktionen auf.
9.1 Grundbegriffe
Grundlage für dieses Kapitel ist der bereits durch Definition 6.1 in Kapitel 6
eingeführte allgemeine Begriff der Funktion. Gerade weil Funktionen so grundlegend für die Mathematik sind, besitzen sie verschiedene Interpretationen. So
wird eine Funktion auch Abbildung genannt, ein Argument als Urbild oder als
unabhängige Variable und ein Funktionswert als Bild oder als abhängige Variable.
Definitionsbereich und Wertebereich wie in Kapitel 6 eingeführt heißen in dieser
Terminologie Urbildmenge und Bildmenge. Die Menge f (A) = {y ∈ Y | ∃x ∈
A mit y = f (x)} bezeichnet man entsprechend als Bild einer Teilmenge A ⊆ X
und umgekehrt die Menge f −1 (B) = {x ∈ X | ∃y ∈ B mit y = f (x)} als Urbild
der Teilmenge B ⊆ Y .
In diesem Kapitel betrachten wir stets Funktionen f : X → Y mit X ⊆ Rn
und Y ⊆ Rm , wobei n, m ∈ N. Diese heißen reellwertige Funktionen. In einem
solchen Fall schreibt man für den Funktionswert von f für ein Argument x ∈ X
üblicherweise f (x1 , . . . , xn ). Man beachte, daß dieser Funktionswert Element des
Rm ist. Daher schreibt man die m einzelnen Komponenten als
f (x1 , . . . , xn ) = (f1 (x1 , . . . , xn ) , . . . , fm (x1 , . . . , xn )).
Nachfolgend betrachten wir oft Fälle niedriger Dimensionen m = 1 oder n = 1,
bei dem die Bilder oder Urbilder eindimensional sind.
Beispiel 9.1:
(i) Sei X = {a, b, c} und Y = {1, 2}. Dann ist f : X → Y mit f (a) = 1, f (b) =
60
9 Funktionen von Rm nach Rn
y
y
f
f
V
f(U)
U
x
f−1(V)
(a)
x
(b)
Abbildung 9.1: Bild- und Urbildmenge
2 und f (c) = 1 eine Funktion mit Definitionsbereich {a, b, c} und Wertebereich
{1, 2}.
(ii) Der Funktionswert der reellwertigen Funktion g : R2 → R mit
g(x1 , x2 ) = x31 + 2x22
für das Argument (x1 , x2 ) = (2, 3) ist g(2, 3) = 23 + 2 · 32 = 26.
(iii) Sei f : R → R eine Funktion mit f (x) = 2x − 1. Dann ist f ([2, 3]) = [3, 5]
und f −1 ([5, 7]) = [3, 4].
(iv) Sei g(x) = (2x, −x) eine Funktion R → R2 . Dann ist
g({1, 2, 3}) = {(2, −1), (4, −2), (6, −3)}.
(v) Sei f : R → R eine Funktion mit f (x) = x2 . Dann ist f ([0, 1]) = [0, 1] und
f −1 ([1, 4]) = [1, 2] ∪ [−2, −1].
9.2 Verknüpfungen von Funktionen
Funktionen können mit Hilfe der auf den vier Grundrechenarten basierenden und
auch anderen Verknüpfungen zu komplexeren Funktionen zusammengesetzt werden. In diesem Abschnitt werden die wichtigsten Möglichkeiten zur Verknüpfung
von Funktionen vorgestellt.
61
9 Funktionen von Rm nach Rn
Definition 9.1 (Addition, Subtraktion) Seien f : X → Rn und g : X → Rn
Funktionen, wobei X eine beliebige Menge sein kann. Dann bezeichnen f + g
bzw. f − g Funktionen von X nach Rn definiert durch
(f + g)(x) = f (x) + g(x)
bzw. (f − g)(x) = f (x) − g(x)
für alle x ∈ X.
Für die Addition oder Subtraktion ist also wichtig ein gemeinsamer Definitionsbereich und ein gemeinsamer Wertebereich mit einer additiven Struktur, die auf
dem Rn in natürlicher Weise durch die komponentenweise Vektoraddition gegeben
ist. Analoges gilt für die Differenz zweier Funktionen.
Definition 9.2 (Multiplikation, Division) Seien f : X → Rn und g : X →
R Funktionen mit X als beliebiger Menge. Dann bezeichnen f · g bzw. f /g Funktionen von X in Rn definiert durch
f
1
(f · g)(x) = f (x) · g(x) bzw.
(x) = f (x) ·
g
g(x)
für alle x ∈ X. Dabei muß im Fall der Division für alle x ∈ X die Bedingung
g(x) = 0 erfüllt sein.
Für das Produkt oder den Quotienten zweier Funktionen benötigt man außer einem gemeinsamen Definitionsbereich die Möglichkeit Funktionswerte miteinander
multiplizieren oder durcheinander dividieren zu können. Falls ein Funktionswert
ein Vektor reeller Zahlen und der andere eine (eindimensionale) reelle Zahl also
ein sogenannter Skalar ist, sind diese Rechenoperationen komponentenweise wieder durch die entsprechenden Grundrechenarten auf den reellen Zahlen gegeben.
Man beachte, daß die Multplikation eines Vektors aus Rn mit einem Skalar wieder
ein Vektor des Rn ist. Analoges gilt für den Quotienten zweier Funktionen.
Beispiel 9.2:
(i) Sei f : R2 → R eine Funktion mit f (x1 , x2 ) = x1 + sin x2 und g : R2 → R
eine Funktion mit g(x1 , x2 ) = 3x1 + 5x2 . Dann ist f + g : R → R eine Funktion
mit (f + g)(x) = x1 + sin x2 + 3x1 + 5x2 = 4x1 + 5x2 + sin x2 .
(ii) Seien f : R → R2 eine Funktion mit f (x) = (2x, 3) und g : R → R eine
Funktion mit g(x) = x2 + 1. Wegen g(x) = 0 für alle x ∈ R ist die Funktion f /g
definiert. Für sie ist (f /g)(x) = x21+1 (2x, 3).
(iii) Sei f : X → Rn eine Funktion mit X als beliebiger Menge und α ∈ R.
Da der Skalar α offebar als konstante Funktion g(x) = α interpretiert werden
kann, ist die Multiplikation mit einem Skalar ein Beispiel für das Produkt zweier
Funktionen, also αf die Funktion von X nach Rn mit
(αf )(x) = αf (x)
62
9 Funktionen von Rm nach Rn
f
Y
g
X
Z
gof
Abbildung 9.2: Verkettung von Funktionen
für alle x ∈ X.
Die wichtigste Verknüpfung, die nicht auf den vier Grundrechenarten basiert, ist
die nachfolgend definierte Verkettung oder Verknüpfung.
Definition 9.3 (Verkettung) Seien f : X → Y und g : Y → Z Funktionen
mit X, Y und Z als beliebigen Mengen. Dann heißt die Funktion g ◦ f : X → Z
mit
(g ◦ f )(x) = g(f (x))
für alle x ∈ X Verkettung (engl.: composition) von f und g.
Für die Verkettung g ◦ f zweier Funktionen f und g muß der Wertebereich von f
dem Definitionsbereich von g entsprechen. In diesem Fall ist die Verkettung der
beiden Funktionen eine andere Funktion, die jedes Element x des Definitionsbereichs von f in der Weise auf ein Element z des Wertebereichs von g abbildet,
daß z = g(f (x)) gilt (vgl. Abbildung 9.2).
Beispiel 9.3:
(i) Sei f : R → R eine Funktion mit f (x) = x2 und g : R → R eine Funktion
mit g(x) = sin x. Dann ist g ◦ f : R → R eine Funktion mit (g ◦ f )(x) = sin (x2 )
und f ◦ g : R → R eine Funktion mit (f ◦ g)(x) = (sin x)2 .
(ii) Sei f : R → R2 eine Funktion mit f (x) = (x, 2x) und g : R2 → R eine
Funktion mit g(x1 , x2 ) = 2x1 + 5x2 . Dann ist g ◦ f : R → R eine Funktion mit
(g ◦ f )(x) = 2(x) + 5(2x) = 12x.
9.3 Graphische Darstellung von Funktionen
Wie bei Funktionen einer Variablen ist zur Untersuchung reellwertiger Funktionen
eine graphische Analyse oft sehr hilfreich. Der Graph einer höherdimensionalen
63
9 Funktionen von Rm nach Rn
Funktion kann in der Ebene (Tafel, Papier) nur durch geeignete Projektionen
dargestellt werden. In diesem Abschnitt werde verschiedene Möglichkeiten solcher
Projektionen oder Schnitte eingeführt.
Definition 9.4 (Graph) Sei f : X → Y eine Funktion mit X ⊆ Rn , Y ⊆ Rm .
Dann heißt die Menge
Graph(f ) = Gf = {(x, y) ∈ X × Y | y = f (x)} ⊆ Rn+m
Graph (engl.: graph) von f .
Der Graph ist also die Menge aller Paare bestehend aus einem Element des Definitionsbereichs von f und dessen Funktionswert im Wertebereich. Für die Darstellung bedienen wir uns des Umstandes, daß sich Teilmengen von R in intuitiver
Weise auf der Zahlengeraden und Teilmengen des R2 und R3 , im Fall des R3 durch
geeignete perspektivische Projektion, in der Ebene darstellen lassen. Wir werden
ab hier beide Schreibweisen Graph(f ) und Gf verwenden.
Beispiel 9.4:
(i) Zu f : R → R mit f (x) = x sin x ist
Gf = {(x, y) ∈ R2 | y = x sin x}.
Ein Ausschnitt von Gf ist in Abbildung 9.3 dargestellt.
(ii) Zu f : R2 → R mit f (x, y) = sin x · sin y ist
Gf = {(x, y, z) ∈ R3 | z = sin x · sin y}.
Ein Ausschnitt von Gf ist, nach geeigneter Projektion auf die Ebene, in Abbildung 9.4 dargestellt.
Eine weitere Möglichkeit, einer reellwertigen Funktion eine Teilmenge des Rn zuzuordnen, besteht in der Betrachtung sogenannter Isohöhenlinien. Diese kommen
in den Wirtschaftswissenschaften häufig als Isoquanten oder Indifferenzkurven
vor.
Definition 9.5 (Isohöhenlinie) Sei f : X → Y eine Funktion mit X ⊆ Rn ,
Y ⊆ Rm und n, m ∈ N. Für alle y ∈ Y wird die Menge
f −1 ({y})
auch als Isohöhenlinie (engl.: level curve) zum Niveau y bezeichnet.
64
9 Funktionen von Rm nach Rn
y
7.5
5
2.5
2
4
6
8
10
12
-2.5
-5
-7.5
-10
Abbildung 9.3: Teil des Graphen von f (x) = x sin x
65
x
9 Funktionen von Rm nach Rn
0.5
z
0
2
-0.5
0
-2
y
0
-2
x
2
Abbildung 9.4: Ausschnitt des Graphen von f (x, y) = sin x · sin y
66
9 Funktionen von Rm nach Rn
3
2
1
0
-1
-2
-3
-3
-2
-1
0
1
2
3
Abbildung 9.5: Isohöhenlinien von f (x, y) = sin x · sin y
Die Isohöhenlinie zum Niveau y ∈ Y ist also ein Spezialfall des Urbildes einer Menge bestehend aus dem einen Element y ∈ Y in der Bildmenge, also ist
f −1 ({y}) ⊆ Rn .
Beispiel 9.5:
(i) Die Isohöhenlinie der Funktion f : R2 → R mit f (x, y) = x+2y zum Niveau
4 ist f −1 ({4}) = {(x, y) ∈ R2 | x + 2y = 4} . Dies entpricht offenbar der Geraden
in der x-y-Ebene mit der Gleichung y = 2 − 12 x.
(ii) In Abbildung 9.5 sind einige Isohöhenlinien der Funktion f : R2 → R mit
f (x, y) = sin x · sin y zu verschiedenen Niveaus ausschnittsweise dargestellt.
Als letzte Möglichkeit der Darstellung reellwertiger Funktionen sollen noch die
sogenannten projezierten Schnittlinien vorgestellt werden, die auf der im vorangegangenen Abschnitt eingeführten Verkettung von Funktionen basieren.
Definition 9.6 (Projezierte Schnittlinie) Sei f : X → Y eine Funktion mit
X ⊆ Rn , Y ⊆ Rm und g : Z → X eine Funktion mit Z ⊆ R. Dann heißt der
Graph
Gf ◦g
67
9 Funktionen von Rm nach Rn
z
0.75
0.5
0.25
-3
-2
-1
1
2
3
y
-0.25
-0.5
-0.75
Abbildung 9.6: Projezierte Schnittlinie von f (x, y) = sin x · sin y entlang g1
der Verkettung f ◦ g projezierte Schnittlinie entlang des von g beschriebenen Pfades.
Eine projezierte Schnittlinie zu einer Funktion f entlang eines von einer anderen
Funktion g beschriebenen Pfades ist also die Menge aller Paare bestehend aus
einem Element des Definitionsbereichs von g als Parameter, der den Ort auf
dem betrachteten Pfad beschreibt, und dem Funktionswert von f an diesem Ort.
Intuitive entspricht dies einem Schnitt durch den Graphen von f entlang einer
durch g beschriebenen Schnittlinie. Da die Schnittlinie durch einen Parameter
beschrieben wird, ist offenbar Gf ◦g ⊆ Rm+1 .
Beispiel 9.6: In den Abbildungen 9.6 bis 9.8 sind projezierte Schnittlinien zur
Funktion f : R2 → R mit f (x, y) = sin x · sin y entlang der Pfade gi : R → R2 für
i = 1, 2, 3 mit g1 (x) = (1, x), g2 (x) = (x, x) und g3 (x) = (x, x2 ) ausschnittsweise
dargestellt.
Alle vorgestellten Möglichkeiten zur graphischen Darstellung reellwertiger Funktionen haben spezifische Vor- und Nachteile. Graphen sind vollständige Darstellungen der Funktion und unter Umständen am anschaulichsten, falls die Funktion
68
9 Funktionen von Rm nach Rn
z
1
0.8
0.6
0.4
0.2
-3
-2
-1
1
2
3
x
Abbildung 9.7: Projezierte Schnittlinie von f (x, y) = sin x · sin y entlang g2
69
9 Funktionen von Rm nach Rn
z
1
0.5
-1.5
-1
-0.5
0.5
1
1.5
x
-0.5
-1
Abbildung 9.8: Projezierte Schnittlinie von f (x, y) = sin x · sin y entlang g3
70
9 Funktionen von Rm nach Rn
niedrigdimensional, also n+m ≤ 3 ist. Isohöhenlinien und projezierte Schnittlinien lassen sich dagegen auch für Funktionen mit n ≤ 3 bzw. m + 1 ≤ 3 darstellen,
sind dafür aber nur eine partielle Beschreibung der Funktion und daher oft weniger anschaulich als Graphen.
9.4 Umkehrfunktionen
Funktionen sind gemäß Definition 6.1 dadurch charakterisiert, daß sie jedem Element ihres Definitionsbereichs genau ein Element ihres Wertebereichs zuordnen.
Die Fragestellung, ob eine Funktion möglicherweise umgekehrt auch jedem Element ihres Wertebereichs genau ein Element ihres Definitionsbereichs zuordnet,
führt zum Begriff der Umkehrfunktion:
Definition 9.7 (Umkehrfunktion) Eine Funktion g : Y → X heißt Umkehrfunktion (engl.: inverse function) zu einer Funktion f : X → Y , wenn für alle
x ∈ X gilt:
g(f (x)) = x.
Eine solche Funktion wird mit f −1 bezeichnet.
Eine Umkehrfunktion f −1 einer Funktion f : X → Y hat also den Wertebereich
Y von f als Definitions- und den Definitionsbereich X von f als Wertebereich
und ordnet jedem Funktionswert f (x) ∈ Y das zugehörige Argument x ∈ X zu.
Beispiel 9.7:
(i) Zu der Funktion f : R → R mit y = f (x) = 2x + 4 ist eine Umkehrfunktion
gegeben durch f −1 : R → R mit x = f −1 (y) = 12 y − 2 die Umkehrfunktion, da
für alle x ∈ R gilt:
f −1 (f (x)) = f −1 (2x + 4)
= 12 (2x + 4) − 2
=x
√
(ii) Sei g : R → R+ mit g(x) = x2 , dann sind sowohl g1−1 (y) = y als auch
√
g2−1 (y) = − y Umkehrfunktionen zur Funktion g und gehen beide von R+ nach
R.
Wie das Beispiel zeigt, existiert allerdings nicht zu jeder Funktion eine eindeutige
Umkehrfunktion. So kann zu g : R → R mit g(x) = x2 keine Umkehrfunktion angegeben werden, da einigen Funktionswerten zwei Argumente zugeordnet werden
können und anderen als Elementen des Wertebereichs von f grundsätzlich möglichen Funktionswerten kein Argument zugeordnet werden kann. Beispielsweise
71
9 Funktionen von Rm nach Rn
f
f
a
1
b
a
2
c
b
3
d
3
d
5
X
2
c
4
e
1
4
e
Y
5
X
(a)
Y
(b)
Abbildung 9.9: Injektivität
existieren mit 1 und −1 zwei mögliche Argumente zum Funktionswert 1 und kein
Argument zum Element −5 des Wertebereichs. Nachfolgend werden Funktionseigenschaften vorgestellt, nämlich Injektivität, Surjektivität und Bijektivität, die
zusammen die Existenz einer eindeutigen Umkehrfunktion garantieren.
Definition 9.8 (Injektivität, Surjektivität, Bijektivität) Eine Funktion f :
X → Y heißt injektiv (engl.: one-to-one), wenn für alle x1 , x2 ∈ X gilt
f (x1 ) = f (x2 ) ⇒ x1 = x2 .
Eine Funktion f : X → Y heißt surjektiv (engl.: onto), wenn gilt
f (X) = Y.
Ist eine Funktion injektiv und surjektiv, so heißt sie bijektiv (engl.: bijective).
Eine Funktion ist also genau dann injektiv, wenn es möglich ist, vom Funktionswert f (x) eindeutig auf das Argument x zu schließen. In Abbildung 9.9 wird dieser
Umstand an (a) einer injektiven und (b) einer nicht-injektiven Funktion veranschaulicht. Eine Funktion f ist surjektiv, wenn es möglich ist, zu jedem Element
y ihres Wertebereichs mindestens ein Element x des Definitionsbereichs anzugeben, welches von f auf y abgebildet wird. In Abbildung 9.10 wird dieser Umstand
an (a) einer surjektiven und (b) einer nicht-surjektiven Funktion veranschaulicht.
Offenbar ist unter diesen Abbildungen nur die durch 9.9(a) dargestellte Funktion
bijektiv.
Beispiel 9.8:
(i) f : R2 → R mit f (x, y) = 2(x − 1)y ist offenbar surjektiv, aber wegen
72
9 Funktionen von Rm nach Rn
f
f
a
a
1
b
b
2
c
1
2
c
3
d
3
d
4
4
e
e
X
Y
X
(a)
Y
(b)
Abbildung 9.10: Surjektivität
f (1, 0) = f (2, 0) nicht injektiv.
(ii) g1 : R → R mit g1 (x) = x2 ist weder injektiv noch surjektiv. g2 : [0, ∞) → R
mit g2 (x) = x2 ist injektiv, aber nicht surjektiv und g3 : [0, ∞) → [0, ∞) mit
g3 (x) = x2 ist injektiv und surjektiv, also bijektiv.
Der nachfolgende Satz gibt eine notewendige und hinreichende Voraussetzung für
die Existenz einer Umkehrfunktion an.
Satz 9.1 Zu jeder bijektiven Funktion existiert eine eindeutige Umkehrfunktion.
Umgekehrt ist eine Funktion mit eindeutiger Umkehrfunktion bijektiv.
Die Beweisidee ist, daß die Surjektivität garantiert, jedem Element des Wertebereiches einer Funktion f durch die Umkehrfunktion f −1 mindestens ein Element
des Definitionsbereichs von f zuzuordnen, während Injektivität sicherstellt, daß
durch die Umkehrfunktion jedem Element des Wertebereichs von f höchstens ein
Element des Definitionsbereichs von f zugeordnet wird.
Beispiel 9.9:
(i) Die Funktion f : {1, 2, 3} → {a, b, c} mit f (1) = b, f (2) = a und f (3) = c
ist bijektiv. Ihre Umkehrfunktion ist f −1 : {a, b, c} → {1, 2, 3} mit f −1 (a) = 2,
f −1 (b) = 1 und f −1 (c) = 3.
(ii) Die Funktion f : (−∞, 0] → [2, ∞) mit f (x) = x2 + 2 ist, wie an ihrem
√ Gra−1
phen leicht erkennbar ist, bijektiv. Ihre Umkehrfunktion ist f (y) = − x − 2.
73
9 Funktionen von Rm nach Rn
Häufig ist es nützlich und sinnvoll, auch zu injektiven aber nicht surjektiven
Funktion f eine ’Umkehrfunktion’ anzugeben, indem man den Wertebereich von f
auf die Bildmenge von f einschränkt und so eine bijektive Funktion f¯ konstruiert,
die auf dem Definitionsbereich identisch zur Funktion f ist und zu der nach
Satz 9.1 eine Umkehrfunktion existiert. Der nachfolgende Satz präzisiert dieses
Vorgehen:
Satz 9.2 Jede injektive Funktion f : X → Y induziert genau eine bijektive
Funktion f¯ : X → f (X) mit f¯(x) = f (x), zu der eine Umkehrfunktion f¯−1
existiert.
Beispiel 9.10: Die injektive Funktion f : R → R mit f (x) = ex induziert die
bijektive Funktion f¯ : R → (0, ∞) mit f¯(x) = ex . Deren Umkehrfunktion ist
f¯−1 : (0, ∞) → R mit f¯−1 (y) = ln y.
9.5 Grenzwerte von Funktionen und Stetigkeit
In diesem Abschnitt werden die in den Definitionen 6.2 und 6.3 eingeführten
Begriffe Grenzwert und Stetigkeit auf höhere Dimensionen verallgemeinert. Die
entscheidende Vorarbeit ist bereits erledigt, da die diesen Konzepten zugrundeliegenden Ideen und Intuitionen direkt auf höhere Dimensionen übertragbar sind.
Der Grenzwert einer Funktion ist wie zuvor durch die Konvergenz von zugehörigen Folgen von Funktionswerten gegen einen Funktionswert beliebiger gegen den
selben Wert konvergierender Folgen im Definitionsbereich der Funktion definiert.
Für die Existenz des Grenzwertes einer Funktion muß also die Konvergenz durch
die Funktion – in eindeutiger Weise – vom Urbild in das Bild übertragen werden.
Definition 9.9 (Grenzwert einer Funktion) Sei f : X → Y eine Funktion
mit X ⊆ Rn , Y ⊆ Rm . Der Grenzwert ŷ der Funktion f an der Stelle x̂ ∈ X
existiert, falls für jede Folge (xn )n∈N ∈ X mit xn −→ x̂ die Folge
(f (xn ))n∈N
stets gegen das selbe Element ŷ ∈ Y konvergiert. Man schreibt wie im eindimensionalen Fall
lim f (x) = ŷ.
x→x̂
Definition 9.10 (Stetigkeit) Die Funktion f : X → Y heißt stetig an der
Stelle x̂ ∈ X, falls limx→x̂ f (x) existiert und
lim f (x) = f (x̂).
x→x̂
Die Funktion f heißt stetig auf A ⊆ X, falls f stetig ist für alle x̂ ∈ A
74
9 Funktionen von Rm nach Rn
Für die Definition des Grenzwertes einer Funktion wollen wir außerdem zulassen,
daß einer Funktion f an einem Randpunkt x̄ ∈ ∂X \ X ihres Definitionsbereichs,
der nicht Element dieses Definitionsbereichs ist, ein Grenzwert a zugeordnet werden kann, wenn unabhängig davon, entlang welchen durch eine Folge (xn )n∈N
beschriebenen Pfads man sich dem Randpunkt x̄ anähert, die sich entlang dieses
Pfads ergebende Folge von Funktionswerten (f (xn ))n∈N immer gegen a konvergiert. Eine Funktion f : X → Y ist stetig an einer Stelle x̄ ∈ X, wenn bei der
Konvergenz gegen x̄ entlang des durch eine solche konvergente Folge (xn ) vorgegebenen Pfads die Folge der Funktionswerte (f (xn )) gegen den Funktionswert
f (x̄) konvergiert.
Da der Grenzwertbegriff für Funktionen unmittelbar auf demjenigen für Folgen
aufbaut, gelten alle Aussagen des Satzes 5.4 entsprechend für Grenzwerte von
Funktionen. In den nachfolgenden Beispielen wird davon verschiedentlich Gebrauch gemacht.
Beispiel 9.11:
(i) Sei f : (0, 1) → R mit f (x) = 2x. Dann ist limx→1 f (x) = 2, da zu jeder
Folge (xn ) mit xn −→ 1 und xn ∈ (0, 1) die Folge (f (xn )) = (2xn ) gegen 2
konvergiert.
(ii) Die Funktion f : R → R mit
f (x) =
1
0
für x ≥ 0
für x < 0
1
ist
unstetig
an
der
Stelle
x̄
=
0,
da
etwa
zur
Folge
− n mit − n1 −→ 0 die Folge
1 f − n = (0) gegen 0 konvergiert, obgleich f (0) = 1 ist. Dieses Beispiel korrespondiert mit unserer in Kapitel 6 gegebenen Intuition des abzusetzenden Stiftes
bei Unstetigkeiten. Das folgende Beispiel demonstriert dagegen die Unzulänglichkeit dieser Intuition.
1 (iii) Sei f : (0, ∞) → R mit f (x) = sin x1 . Da zu der Folge
2πn
die Fol 1 1
= (sin 2πn) = (0) gegen 0 und zu der Folge 2πn+ π die Folge
ge f 2πn
2
1
π
= sin 2πn + 2 ) = (1) gegen 1 konvergiert, existiert limx→0 f (x)
f 2πn+ π
2
nicht. Dieses Beispiel lehrt uns also, daß die in Kapitel 6 gegebene Intuition des
abzusetzenden Stiftes bei Unstetigkeiten hier nicht hilfreich ist, da der durch
diese offenbar unstetige Funktion beschriebene Graph nicht in zwei unzusammenhängende Teilmengen zerfällt, wie das Absetzen des Stiftes suggerieren mag.
(iv) Die Funktion f : R → R mit f (x) = 3x + 5 ist stetig an jeder Stelle x̄, da
für alle Folgen (xn ) mit xn −→ x̄ gilt
|f (xn ) − f (x̄)| = |3xn + 5 − 3x̄ − 5|
= 3|xn − x̄| −→ 3 · 0 = 0,
75
9 Funktionen von Rm nach Rn
also f (xn ) −→ f (x̄).
(v) Die Funktion f : R → R mit f (x) = x2 ist überall stetig, da für alle Folgen
(xn ) mit xn −→ x̄ gilt
|f (xn ) − f (x̄)| = |x2n − x̄2 |
= |(xn − x̄)(xn + x̄)|
= |xn − x̄| · |xn + x̄| −→ 0 · 2x̄ = 0,
daher f (xn ) −→ f (x̄).
(vi) Die Funktion f : R2 → R mit f (x, y) = 2xy ist stetig an jeder Stelle
(x̄, ȳ) ∈ R2 , da für alle Folgen (xn , yn ) mit (xn , yn ) −→ (x̄, ȳ) gilt
|f (xn , yn ) − f (x̄, ȳ)| = |2xn yn − 2x̄ȳ| −→ 2(|x̄ȳ − x̄ȳ| = 0
und daher f (xn , yn ) −→ f (x̄, ȳ).
(vii) Die Funktion f : R \ {0} → R mit f (x) = x1 ist stetig durch geeignete
Einschränkung des Definitionsbereiches.
(viii)Die Funktion f : R → R mit
1 fürx = n1 mit n ∈ N
f (x) =
x sonst
ist
an der Stelle x̄ = 0, da etwa zur Folge n1 mit n1 −→ 0 die Folge
unstetig
f n1 gegen 1 konvergiert, obgleich f (0) = 0 gilt.
9.6 Monotonie und Homogenität
In den beiden folgenden Abschnitten werden Eigenschaften reellwertiger Funktionen von Rn nach R behandelt (also die Dimension der Bildmenge ist m = 1), die
in den Wirtschaftswissenschaften von zentraler Bedeutung sind. Zunächst werden
wir Monotonie allgemein definieren.
Definition 9.11 (Monotonie) Eine Funktion f : X → Y mit X ⊆ Rn , Y ⊆ R
und f (x1 , . . . , xn ) = f (x) ∈ R heißt
i) monoton steigend (engl.: increasing) in der Komponente xi , wenn für alle
x, x ∈ X mit xi > xi und xj = xj für alle j ∈ {1, . . . , n} \ {i} gilt
f (x ) ≥ f (x).
ii) monoton fallend (engl.: decreasing) in der Komponente xi , wenn für alle
x, x ∈ X mit xi > xi und xj = xj für alle j ∈ {1, . . . , n} \ {i} gilt
f (x ) ≤ f (x).
76
9 Funktionen von Rm nach Rn
Ist f monoton steigend (fallend) in xi in allen Komponenten i = 1, . . . , n, so
heißt f monoton steigend (fallend).
Ersetzt man in i) und ii) die Relationszeichen ≥ und ≤ durch > bzw. <, so
erhält man die entsprechenden Definitionen für strenge Monotonie (engl.: strict
monotonicity).
Unsere aus Kapitel 6 aufgebaute Intuition gilt weiter, und zwar unabhängig für
jede einzelne Komponente. Eine reellwertige Funktion ist also genau dann monoton steigend in einer Komponente ihres Arguments, falls der Funktionswert
für wachsende Werte dieser Komponente (schwach) mitwächst, wenn die anderen
Komponenten konstant bleiben.
Beispiel 9.12:
(i) Die Funktion f : R → R mit f (x) = −x3 ist streng monoton fallend in x.
(ii) Die Funktion f : R2 → R mit f (x, y) = 2x − 3y ist streng monoton steigend
in x und steng monoton fallend in y (vgl. Abbildung 9.11).
(iii) Die Funktion f : R2 → R mit f (x, y) = xy ist weder monoton steigend noch
monoton fallend in x, da etwa für y = 1 die Funktionswerte mit steigendem x
zu-, für y = −1 jedoch abnehmen. Das Gleiche gilt aus Symmetriegründen für y.
Dagegen ist die Funktion g : [0, ∞)2 → R mit g(x, y) = xy aufgrund der Wahl des
Definitionsbereichs monoton steigend in x und in y und also insgesamt monoton
steigend.
(iv) Die Funktion f : R2 → R mit f (x, y) = ex y ist streng monoton steigend in
y, da für alle x ∈ R die Ungleichung ex > 0 erfüllt ist.
Die Monotonie einer Funktion ergibt sich in den Wirtschaftswissenschaften oft
ganz natürlich. So ist es etwa sinnvoll anzunehmen, daß Produktionsfunktionen,
welche die durch einen Produktionsprozeß vorgegebene Beziehung zwischen Outputmenge und den Inputmengen eingesetzter Produktionsfaktoren, beispielsweise
Kapital und Arbeit, beschreiben, monoton steigend sind, da eine Erhöhung der
Inputmengen im relevanten Bereich eine Erhöhung der Outputmenge bewirkt.
Eine weitere Eigenschaft von Funktionen ist die Homogenität, eine Art abgeschwächte Form der Symmetrie, die in den Wirtschaftswissenschaften häufig verwendet wird, da sie je nach Zusammenhang leicht ökonomisch interpretierbar ist
und den Rechenaufwand deutlich reduzieren kann.
Definition 9.12 (Homogenität) Eine Funktion f : X → Y mit X ⊆ Rn , Y ⊆
R und λx ∈ X für alle x ∈ X und alle λ > 0 heißt homogen (engl.: homogeneous)
vom Grad r ∈ R, wenn für alle x ∈ X und alle λ > 0 gilt:
f (λx) = λr f (x)
77
9 Funktionen von Rm nach Rn
10
z
5
0
-5
-10
-2
2
1
0
-1
-1
0
x
1
2 -2
Abbildung 9.11: Graph von f (x, y) = 2x − 3y
78
y
9 Funktionen von Rm nach Rn
Eine Funktion ist also homogen vom Grad r, wenn eine Vervielfachung aller
Komponenten ihres Arguments um einen Faktor λ > 0 eine Vervielfachung des
Funktionswerts um den Faktor λr bewirkt.
Beispiel 9.13:
(i) Die Funktion f : R2 → R mit f (x, y) = 2x2 y 3 ist homogen vom Grad 5, da
für alle λ > 0 und alle (x, y) ∈ R2 gilt:
f (λx, λy) = 2(λx)2 (λy)3
= λ5 · 2x2 y 3
= λ5 f (x, y)
(ii) Die Funktion f : R2 → R mit f (x, y) = 5x2 − y 2 ist homogen vom Grad 2,
da für alle λ > 0 und alle (x, y) ∈ R2 gilt:
f (λx, λy) = 5(λx)2 − (λy)2
= λ2 (5x2 − y 2)
= λ2 f (x, y)
(iii) Die Funktion f : R2 → R mit f (x, y) = x2 + xy − y ist inhomogen,
da beispielsweise eine Verdopplung aller Argumente an der Stelle (1, 1) wegen
f (1, 1) = 1 und f (2, 2) = 6 eine Versechsfachung des Funktionswerts bewirkt,
während dieses bei einer Verdopplung aller Argumente an der Stelle (2, 2) wegen
f (2, 2) = 6 und f (4, 4) = 28 nicht der Fall ist.
(iv) Die Funktion f : Rn → R mit f (x) = min{x1 , . . . , xn } und n ∈ N ist
homogen vom Grad 1.
9.7 Konkavität und Quasikonkavität
Die folgenden Eigenschaften Konvexität, Konkavität und Quasikonkavität charakterisieren die Krümmungseigenschaften von Funktionen. Wir werden dabei
sehen, daß die Konzepte Konvexität und Konkavität genau wie bei eidimensionalen Funktionen definiert werden. Das Konzept der Quasikonkavität hat eine lange Tradition, Verwirrung unter Anfängerstudenten der Wirtschaftswissenschaften
zu stiften. Die Quelle der Verwirrung ist der enge Zusammenhang quasikonkaver
Funktionen mit konvexen Mengen, der im Folgenden erläutert werden soll. Wie
das Wort quasikonkav suggeriert, ist es aber eine Abschwächung der Konkavit2at
einer Funktion, d.h. jede konkave Funktion ist auch quasikonkav. Unglücklicherweise ist genau dieser Begriff der Quasikonkavität häufig der für Wirtschaftswissenschaften entscheidende, da er in vielen relevanten Zusammenhängen die
Eindeutigkeit von Lösungen garantiert.
79
9 Funktionen von Rm nach Rn
Definition 9.13 (Konvexität und Konkavität) Eine Funktion f : X → Y
mit X ⊆ Rn als konvexer Menge, Y ⊆ R heißt
i) konvex (engl.: convex), wenn für alle x, x ∈ X mit x = x und alle λ ∈ (0, 1)
gilt
f (λx + (1 − λ)x ) ≤ λf (x) + (1 − λ)f (x )
und
ii) konkav (engl.: concave), wenn für alle x, x ∈ X mit x = x und alle λ ∈
(0, 1) gilt
f (λx + (1 − λ)x ) ≥ λf (x) + (1 − λ)f (x ).
Ersetzt man in den beiden obigen Ungleichungen die Relationszeichen ≤ und ≥
durch < bzw. >, so erhält man die Definitionen strenger Konvexität und Konkavität.
Eine Funktion ist also konvex, wenn die gerade Verbindungslinie zwischen zwei
beliebigen Punkten auf dem Graphen der Funktion immer ausschließlich oberhalb des Graphen verläuft (vgl. Abbildung 9.12 (a)) und konkav, wenn diese
ausschließlich unterhalb des Graphen verläuft (vgl. Abbildung 9.12 (b)).
Der analytische Nachweis mit Hilfe von Definition 9.13, daß eine Funktion konvex
bzw. konkav ist, ist oft umständlich oder nicht möglich. Da dies aber häufig mit
Hilfe von später behandelten Ableitungseigenschaften gemacht wird und meistens
nur die schwächere Eigenschaft Quasikonkavität nötig, ist verzichten wir an dieser
Stelle auf eine Diskussion an Beispielen und gehen gleich zu Quasikonkavität
weiter.
Definition 9.14 (Quasikonkavität) Eine Funktion f : X → Y mit X ⊆ Rn
als konvexer Menge und Y ⊆ R heißt quasikonkav (engl.: quasiconcave), wenn
für alle x, x ∈ X mit x = x und alle λ ∈ (0, 1) gilt
f (λx + (1 − λ)x ) ≥ min {f (x), f (x )} .
Ersetzt man in dieser Ungleichung das Relationszeichen ≥ durch >, so erhält
man die Definition strenger Quasikonkavität.
Eine Funktion f : X → Y ist also genau dann quasikonkav, wenn die Funktionswerte beliebiger Konvexkombinationen zweier Punkte den kleineren der beiden
Funktionswerte an diesen Punkten nicht unterschreitet. Entsprechend kann man
Quasikonvexität definieren, die wir aber hier nicht weiter thematisiern, da sie in
den Wirtschaftswissenschaften selten vorkommt. Der bereits erwähnte Umstand,
daß Quasikonkavität gegenüber Konkavität eine schwächere Eigenschaft ist, wird
präzisiert durch Satz 9.3.
80
9 Funktionen von Rm nach Rn
y
z
λf(x)+(1−λ
λ)f(x’))
f(λx+(1−λ
λ)x’))
0
y
0
x
x
λx+(1−λ
λ)x’
x’
x
x
λx+(1−λ
λ)x’
x’
x
(a)
y
z
f(λx+(1−λ
λ)x’))
λ)f(x’))
λf(x)+(1−λ
0
y
0
x
(b)
Abbildung 9.12: Konvexität und Konkavität
81
9 Funktionen von Rm nach Rn
Satz 9.3 Jede konkave Funktion ist quasikonkav.
Beweis. Sei f : X → Y konkav mit X ⊆ Rn als konvexer Menge und Y ⊆ R.
Dann gilt für alle x, x ∈ X und alle λ ∈ (0, 1)
f (λx + (1 − λ)x ) ≥ λf (x) + (1 − λ)f (x )
≥ λ min {f (x), f (x )} + (1 − λ) min {f (x), f (x )}
= min {f (x), f (x )}
Folglich ist f auch quasikonkav.
Eine äquivalente Charakterisierung von Quasikonkavität gibt Satz 9.4. Er besagt,
daß eine Funktion f : X → Y genau dann quasikonkav ist, wenn zu jedem
Niveau a ∈ Y die sogenannte obere Konturmenge oder Bessermenge Ba , die
alle x ∈ X mit f (x) ≥ a enthält, konvex ist. Aus Satz 9.4 folgt insbesondere,
daß die Konvexität der oberen Konturmengen eine alternative Definition von
Quasikonkavität darstellt. Dieser semantisch ungückliche Umstand ist häufige
Quelle von Irrtümern bei unbedarften Benutzern.
Satz 9.4 Eine Funktion f : X → Y mit X ⊆ Rn als konvexer Menge, Y ⊆ R
und n ∈ N ist genau dann quasikonkav, wenn für alle a ∈ Y die Bessermenge
(engl.: upper level set)
Ba = {x | x ∈ X ∧ f (x) ≥ a}
konvex ist (vgl. Abbildung 9.13).
Beweis. Da Satz 9.4 eine Äquivalenzaussage macht, müssen Implikationen in
beiden Richtungen gezeigt werden. Zeige also zunächst, daß aus der Quasikonkavität von f die Konvexität von Ba für alle a ∈ Y folgt. Seien x, x ∈ Ba für ein
beliebiges a ∈ Y . Dann ist f (x) ≥ a und f ( x) ≥ a. Da f nach Voraussetzung
quasikonkav ist, gilt dann für alle λ ∈ (0, 1) die Beziehung
f (λx + (1 − λ)x ) ≥ min {f (x), f (x )} ≥ a.
Also ist λx + (1 − λ)x ∈ Ba und daher Ba konvex. Zeige nun umgekehrt, daß
aus der Konvexität von Ba für alle a ∈ Y die Quasikonkavität von f folgt. Seien
x, x ∈ Ba mit a = min {f (x), f (x )}. Da Ba nach Voraussetzung konvex ist, gilt
für alle λ ∈ (0, 1) die Beziehung
λx + (1 − λ)x ∈ Ba .
82
9 Funktionen von Rm nach Rn
y
Ba
f−1({a
a})
0
x
Abbildung 9.13: Quasikonkavität
3
2
1
10
z 5
0
-5
0
2
-1
0 y
-2
-2
0
x
-2
-3
-3
2
-2
-1
0
1
2
3
Abbildung 9.14: Graph und Bessermengen von f (x, y) = 10 − (x2 + y 2 )
Also ist f (λx + (1 − λ)x ) ≥ min {f (x), f (x )} und daher f quasikonkav.
Beispiel 9.14:
(i) Die Funktion f : R2 → R mit f (x, y) = 10 − (x2 + y 2) ist quasikonkav
(vgl. Abbildung 9.14).
(ii) Die Funktion f : R → R mit f (x) = ex ist quasikonkav aber strikt konvex
also nicht konkav. Warum?
(iii) Jede stetige eingipflige Funktion R → R mit höchstens einem Maximum
ist quasikonkav. So ist z.B. f1 : R → R mit f1 (x) = −x2 quasikonkav (und auch
2
konkav). Dagegen ist f2 : R → R mit f2 (x) = e−x quasikonkav aber nicht konkav.
Warum?
83
9 Funktionen von Rm nach Rn
Insbesondere Quasikonkavität ist oft ganz natürlich eine Eigenschaft von Funktionen, die wirtschaftliche Phänomene beschreiben. So ist es beispielweise oft
sinnvoll anzunehmen, daß Nutzenfunktionen, die den Zusammenhang zwischen
der ’Zufriedenheit’ eines Konsumenten und seinem Konsum beschreiben, quasikonkav sind.
9.8 Ausgewählte Typen von Funktionen
In diesem Abschnitt werden zum Abschluß dieses Kapitels einige Typen von
Funktionen vorgestellt, die bei der Beschreibung ökonomischer Phänomene besonders häufig benutzt werden, da sie rechnerisch leicht zu handhaben sind. Den
Lesern wird als Übung and Herz gelegt, die aufgezählten Eigenschaften anhand
der Definitionen dieses Kapitels zu verifizieren.
Definition 9.15 (Cobb-Douglas-Funktion) Eine Funktion f : [0, ∞)n → R
mit
n
f (x) =
xai i
i=1
mit festen ai > 0 für alle i = 1, . . . , n heißt Cobb-Douglas-Funktion.
Cobb-Douglas-Funktionen
sind monoton
n steigend in x1 bis xn , homogen vom
n
Grad i=1 ai , quasikonkav und für i=1 ai ≤ 1 zusätzlich konkav.
Definition 9.16 (Leontief- oder auch limitationale Funktion) Eine Funktion f : [0, ∞)n → R mit
x1
xn
f (x) = min
,...,
a1
an
und mit festen ai > 0 für alle i = 1, . . . , n heißt Leontief-Funktion.
Leontief-Funktionen sind monoton steigend in x1 bis xn , homogen vom Grade 1,
quasikonkav und konkav.
Definition 9.17 (CES-Funktion) Eine Funktion f : [0, ∞)n → R mit
f (x) =
n
1q
ai xqi
i=1
und mit festen ai > 0 für alle i = 1, . . . , n, q ≤ 1 und q = 0 heißt CES-Funktion.
84
9 Funktionen von Rm nach Rn
2
1.5
z4
3
2
1
0
0
0.5
2
1.5
1y
0.5
1
x 1.5
1
0.5
20
0
0
0.5
1
1.5
2
6
Abbildung 9.15: Graph und Isohöhenlinien zu f (x, y) = x 5 y
2
1.5
1
0.75
z
0.5
0.25
0
0
0.5
1
x 1.5
2
1.5
1y
0.5
1
0.5
20
0
0
0.5
1
1.5
2
Abbildung 9.16: Graph und Isohöhenlinien zu f (x, y) = min x, y2
CES-Funktionen1 sind monoton steigend in x1 bis xn , homogen vom Grad 1,
quasikonkav und für q > −1 zusätzlich konkav.
Beispiel 9.15:
6
(i) f : [0, ∞)2 → R mit f (x, y) = x 5 y ist eine Cobb-Douglas-Funktion. Ihr
Graph und einige Isohöhenlinien sind inAbbildung
9.15 dargestellt.
(ii) f : [0, ∞)2 → R mit f (x, y) = min x, y2 ist eine Leontief-Funktion. Dabei
ist f (8, 4) = min{8, 2} = 2, f (8, 8) = min{8, 4} = 4 und f (8, 20) = min{8, 10} =
8. Ihr Graph und einige Isohöhenlinien
9.16 dargestellt.
√sind in√Abbildung
2
2
(iii) f : [0, ∞) → R mit f (x, y) = 2 x + 2 y ist eine CES-Funktion.
Eine CES-Funktion
f (x) =
n
1q
ai xqi
i=1
1
Die Abkürzung CES steht für ’constant elasticity of substitution’.
85
9 Funktionen von Rm nach Rn
approximiert für q −→ −∞ eine Leontief-Funktion und für q −→ 0 eine CobbDouglas-Funktion. Insofern können CES-Funktionen als die allgemeinsten der
drei hier vorgestellten Funktionstypen aufgefaßt werden.
86
10 Differentialrechnung
In diesem Kapitel wird das zentrale Instrument der Analysis auf Funktionen
mehrerer Veränderlicher erweitert. Die Differentialrechnung (engl.: calculus) ist
auch das wichtigste Handwerkzeug der Wirtschaftswissenschaften.
10.1 Partielle Ableitungen
In diesem Abschnitt wird die Ableitung reellwertiger Funktionen mit mehreren
Veränderlichen behandelt. Eine Funktion mehrerer Veränderlicher kann wie wir
bei den graphischen Darstellungen von Funktionen gelernt haben auf verschiedene
Art und Weise als Funktion einer Variablen interpretiert werden. Die einfachste
Art ist, alle Variablen außer einer konstant zu halten. Die Ableitung jeder dieser so gebildeten Funktionen einer Variablen (deren Graphen die projezierten
Schnittlinien sind) heißen partielle Ableitungen.
Definition 10.1 (Partielle Differenzierbarkeit und Ableitung) Eine Funktion f : X → Y mit X ⊆ Rn , Y ⊆ R heißt für i ∈ {1, . . . , n} partiell differenzierbar (engl.: partially differentiable) nach xi an der Stelle x̄ ∈ X, wenn der
Grenzwert
lim
xi →x̄i
f (x̄1 , . . . , xi , . . . , x̄n ) − f (x̄)
f (x̄1 , . . . , x̄i + ∆xi , . . . , x̄n ) − f (x̄)
= lim
∆xi →0
xi − x̄i
∆xi
existiert. Dieser Grenzwert heißt dann erste partielle Ableitung (engl.: first-order
partial derivative) von f nach xi an der Stelle x̄ und wird geschrieben als
∂f
(x̄)
∂xi
oder Di f (x̄)
oder verkürzt fi (x̄).
Ist f an jeder Stelle x ∈ X partiell differenzierbar nach xi , so heißt f partiell
differenzierbar nach xi . Die Funktion, die jedem x ∈ X die partielle Ableitung
von f nach xi an der Stelle x zuordnet, heißt dann partielle Ableitung von f nach
xi und wird bezeichnet mit
∂f
∂xi
oder Di f
oder verkürzt als fi .
87
10 Differentialrechnung
Ist f partiell differenzierbar nach xi für alle i ∈ {1, . . . , n}, so heißt f partiell
differenzierbar. Sind außerdem alle partiellen Ableitungen von f stetig, so nennt
man f C 1 -Funktion.
Beispiel 10.1:
(i) Sei f (x1 , x2 ) = a1 x1 + a2 x2 + b eine lineare Funktion von R2 nach R. Dann
sind sind die partiellen Ableitungen konstant, also
∂f
(x1 , x2 ) = a1
∂x1
und
∂f
(x1 , x2 ) = a2 .
∂x2
(ii) Sei fy : R → R eine parametrisierte Funktionenschar mit fy (x) = 2x2 y und
y ∈ R als Parameter. Dann ist für alle x, y ∈ R die Ableitung dfdxy (x) = 4xy.
∂g
(x̄, ȳ) = 4x̄ȳ
Sei nun g : R2 → R eine Funktion mit g(x, y) = 2x2 y. Dann ist ∂x
die partielle Ableitung von g nach x an einer Stelle (x̄, ȳ) ∈ R2 , wie die folgende
Grenzwertbetrachtung erbringt:
2
2
ȳ−2x̄ ȳ
= lim∆x→0 2(x̄+∆x)
lim∆x→0 g(x̄+∆x,ȳ)−g(x̄,ȳ)
∆x
∆x
2
= lim∆x→0 4x̄ȳ∆x+2ȳ(∆x)
∆x
= 4x̄ȳ
∂f
Graphisch kann man die partielle Ableitung ∂x
(x̄) einer Funktion f : X → Y mit
i
X ⊆ Rn , Y ⊆ R darstellen als Steigung derjenigen Tangente an den Graphen von
f im Punkt (x, f (x)), die parallel zur (xi , f (x))-Ebene verläuft (vgl. Abbildung
10.1).
10.2 Richtungsableitung, Kettenregel, Satz von
Euler
Mit Hilfe der partiellen Ableitungen definieren wir allgemeiner die Richtungsableitung, die die lokale Veränderung des Funktionswertes in einer beliebigen
Richtung (also nicht unbedingt entlang einer der Koordinatenachsen) beschreibt.
Definition 10.2 (Richtungsableitung) Die Richtungsableitung der Funktion
f : X → Y mit X ⊆ Rn , Y ⊆ R an der Stelle x̄ in Richtung r̄ ∈ Rn mit r̄ = 1
ist definiert durch
f (x̄ + hr̄) − f (x̄)
.
Df (x̄; r̄) = lim
h→0
h
88
10 Differentialrechnung
f(x1,x2)
t
Gf
x1
x2
x1
x2
Abbildung 10.1: Geometrische Interpretation der partiellen Ableitung
In dieser Definition wird die Richtung, in der die Funktion f abgeleitet wird, auf
die Länge 1 normiert, da in diesem Fall die Richtungsableitung in Richtung des
i-ten Einheitsvektors ei = (0, . . . , 0, 1, 0, . . . , 0) (nur 1 bei der i-ten Koordinate,
sonst 0) mit der jeweiligen partiellen Ableitung übereinstimmt, also
Df (x̄; ei ) =
∂f (x̄)
.
∂xi
Es gilt die Rechenregel
n
∂f
(x̄) · r̄i .
Df (x̄; r̄) =
∂xi
i=1
3
Beispiel 10.2: Die Richtungsableitung
der
Funktion f (x1 , x2 ) = 2x1 x2 an der
Stelle x̄ = (2, 1) in Richtung r̄ = √12 , √12 ist
1
1
1 1
= 2 · √ + 12 √ .
Df (2, 1); √ , √
2 2
2
2
Die Kettenregel für Funktionen mehrerer Veränderlicher ist eine unmittelbare
Verallgemeinerung der uns bekannten Kettenregel für Funktionen einer Veränderlicher. Da bei der Hintereinanderausführung von Funktionen gleichzeitig alle Zwischenvariablen verändert werden können durch Veränderung einer Variablen in
89
10 Differentialrechnung
der Urbildmenge ergibt sich die Veränderung der zusammengesetzten Funktion
wie bei der Richtungsableitung durch die Summe der Veränderungen der Zwischenvariablen.
Satz 10.1 (Kettenregel) Sei f : X1 × . . . × Xn → Y mit X1 , . . . , Xn ⊆ R,
Y ⊆ R eine partiell differenzierbare Funktion. Seien außerdem gi : T → Xi mit
T ⊆ Rk und k ∈ N für alle i ∈ {1, . . . , n} partiell differenzierbare Funktionen.
Dann ist die zusammengesetzte Funktion h : T → Y mit
h(t) = f (g1 (t), . . . , gn (t))
differenzierbar für alle j ∈ {1, . . . , k} und es gilt
∂f
∂gi
∂h
(t) =
(g1 (t), . . . , gn (t)) ·
(t).
∂tj
∂xi
∂tj
i=1
n
Beispiel 10.3:
(i) Seien insbesondere gi : T → Xi mit T ⊆ R differenzierbare Funktionen
einer Variablen. Dann ist die zusammengesetzte Funktion h : T → Y eine differenzierbare Funktion einer Variablen mit
h(t) = f (g1 (t), . . . , gn (t))
für alle t ∈ T :
∂f
dgi
dh
(g1 (t), . . . , gn (t)) ·
(t) =
(t).
dt
∂xi
dt
i=1
n
(ii) Sei f : R2 → R mit f (x1 , x2 ) = x21 (x2 + 1), g1 : R → R mit g1 (t) = sin t und
g2 : R → R mit g2 (t) = t2 . Dann ist die Ableitung der Funktion h : R → R mit
h(t) = f (g1 (t), g2 (t))
gemäß des vorhergehenden Beispiels
∂f
· dgdt1 (t) + ∂x
(g1 (t), g2 (t)) ·
2
= 2(sin t)(t + 1) · cos t + (sin t)2 · 2t.
∂f
dh
(t) = ∂x
(g1 (t), g2 (t))
dt
1
2
dg2
(t)
dt
(iii) Sei f : R2 → R mit f (x1 , x2 ) = x2 sin x1 , g1 : R2 → R mit g1 (t) = t1 t2
und g2 : R2 → R mit g2 (t) = t2 . Dann ist die partielle Ableitung der Funktion
h : R2 → R mit
h(t) = f (g1 (t), g2 (t))
90
10 Differentialrechnung
nach t2 gemäß Satz 10.1
∂f
1
· ∂g
(t) + ∂x
(g1 (t), g2 (t)) ·
∂t2
2
= t2 (cos t1 t2 ) · t1 + (sin t1 t2 ) · 1.
∂f
∂h
(t) = ∂x
(g1 (t), g2 (t))
∂t2
1
∂g2
(t)
∂t2
Wir erinnern uns, daß Wirtschaftswissenschaftler gerne homogene Funktionen benutzen. Daher wird hier ein wichtiger Satz über homogene Funktionen angeführt.
Der Beweis und die weitere Vertiefung wird als Übungsaufgabe behandelt.
Satz 10.2 (Satz von Euler) Sei f : [0, ∞)n → R eine vom Grad r ∈ R homogene C 1 -Funktion. Dann gilt für alle x̄ ∈ [0, ∞)n :
n
∂f
(x̄)x̄i = rf (x̄).
∂x
i
i=1
10.3 Gradient, totales Differential
Die partiellen Ableitungen einer C 1 -Funktion werden häufig zu einem Vektor,
dem sogenannten Gradient, zusammengefaßt:
Definition 10.3 (Gradient) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine C 1 Funktion. Dann heißt der Vektor
∂f
∂f
gradf (x̄) = ∇f (x̄) =
(x̄), . . . ,
(x̄)
∂x1
∂xn
Gradient (engl.: gradient vector) von f an der Stelle x̄ ∈ X.1
Beispiel 10.4: Sei f : R2 → R mit f (x, y) = 3x2 y − x. Dann ist
∇f (x, y) = 6xy − 1, 3x2 .
Der Gradient ∇f (x) besitzt Eigenschaften, die ihn sehr anschaulich und leicht
interpretierbar machen:
• ∇f (x) zeigt an jeder Stelle x ∈ X in die Richtung des steilsten Anstiegs
des Funktionswerts.
1
Das Symbol ∇ wird Nabla genannt.
91
10 Differentialrechnung
y
3
∇f(0.5, 2) = (2, 0.5)T
2
∇f(1, 1) = (1, 1)T
1
f−1({1})
0
0
0.5
1
2
3
4
x
Abbildung 10.2: Eigenschaften des Gradienten am Beispiel von f (x, y) = xy
• ∇f (x) steht für alle x ∈ X senkrecht auf der Isohöhenlinie von f zum
Niveau f (x).
Man erinnere sich in diesem Zusammenhang, daß die Isohöhenlinie in derjenigen
Richtung verläuft, in der die Funktion einen konstanten Funktionswert besitzt,
sich also gar nicht verändert.
Beispiel 10.5: Abbildung 10.2 veranschaulicht diese Eigenschaften des Gradienten an der Funktion f : [0, ∞)2 → R mit f (x, y) = xy. Abgebildet sind die
Isohöhenlinie von f zum Niveau
1 1 und die Gradienten ∇f (x, y) = (y, x) von f
für (x, y) = (1, 1) und (x, y) = 2 , 2 .
Die Ableitung einer Funktion f : X → Y mit X, Y ⊆ R an einer Stelle x̄ ∈ X
kann, wie wir wissen, als Steigung der Tangente t an den Graphen von f im Punkt
(x̄, f (x̄)) interpretiert werden (vgl. Abbildung 10.3 (a)). Die Geradengleichung
dieser Tangente in x ∈ R und y ∈ R ist
y = f (x̄)(x − x̄) + f (x̄).
Mit ȳ = f (x̄), dx = x − x̄ und dy = y − ȳ ergibt sich daraus formal
dy = f (x̄)dx.
Die Tangente ist der Graph der linearen Funktion, die die Funktion f im Punkt
x̄ am besten approximiert.
92
10 Differentialrechnung
y
z
Et
t
Gf
Gf
x
x
x
y
(a)
(b)
Abbildung 10.3: Geometrische Interpretation des totalen Differentials
Entsprechend kann mit Hilfe der partiellen Ableitungen einer C 1 -Funktion f :
X → Y mit X ⊆ R2 und Y ⊆ R an einer Stelle (x̄, ȳ) ∈ X die Gleichung
einer Tangentialebene Et an den Graphen von f in einem Punkt (x̄, ȳ, f (x̄, ȳ))
angegeben werden (vgl. Abbildung 10.3 (b)). Sie lautet in x ∈ R, y ∈ R und
z ∈ R:
∂f
∂f
z=
(x̄, ȳ)(x − x̄) +
(x̄, ȳ)(y − ȳ) + f (x̄, ȳ).
∂x
∂y
Mit z̄ = f (x̄, ȳ), dx = x − x̄, dy = y − ȳ und dz = z − z̄ ergibt sich daraus
dz =
∂f
∂f
(x̄, ȳ)dx +
(x̄, ȳ)dy.
∂x
∂y
Wie zuvor ist die Tangentialebene der Graph der linearen Funktion von R2 nach
R, die die Funktion f im Punkt (x̄, ȳ) am besten approximiert.
Die Erweiterung dieses Konzeptes auf den allgemeinen Fall von Funktionen mit
n ∈ N Veränderlichen führt zum Begriff des totalen Differentials.
Definition 10.4 (Totales Differential) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R
eine C 1 -Funktion. Das totale Differential Df (x̄) an der Stelle x̄ ist die lineare
Funktion
Df (x̄) : Rn −→ R
mit
dx −→ Df (x̄)(dx) = Df (x̄; dx) =
93
n
∂f
(x̄) · dxi = ∇f (x̄) · dx,
∂x
i
i=1
10 Differentialrechnung
wobei ∇f (x̄) · dx für das Vektorprodukt des Gradienten mit dx = (dx1 , . . . , dxn ) ∈
Rn , einem beliebiger Vektor des Rn steht. Eine andere verkürzte Schreibweise
dafür ist
n
∂f
(x̄)dxi .
df =
∂xi
i=1
Die Schreibweise Df (x̄; dx) verdeutlicht, daß das totale Differential als verallgemeinerte Richtungsableitung aufgefaßt werden kann. Im Gegensatz zur Richtungsableitung wird die Länge des Vektors dx aber nicht normiert, kann also
beliebig sein. Der Graph des totalen Differentials ist, wie wir in den Dimensionen
n = 1, 2 gesehen haben, der Tangentialraum oder die Tangetialhyperebene 2 an
den Graphen der Funktion f .
Beispiel 10.6: Sei f : R2 → R mit f (x, y) = x2 + y 2. Dann ist das totale
Differential von f an einer Stelle (x̄, ȳ) ∈ R2
df = 2x̄ · dx + 2ȳ · dy
und für (x̄, ȳ) = (1, 1)
df = 2dx + 2dy.
Der Vergleich zwischen dem totalen Differential von f an der Stelle (x̄, ȳ) = (1, 1)
und der tatsächlichen Veränderung des Funktionswerts
∆f = ∆f ((x̄, ȳ), (dx, dy)) = f (x̄ + dx, ȳ + dy) − f (x̄, ȳ)
bei einer Änderung der Komponenten des Arguments um dx und dy ausgehend
von (x̄, ȳ) = (1, 1) für verschiedene Werte von dx und dy ergibt die folgende
Tabelle:
(dx, dy)
∆f
df
(0.01, 0.01) 0.0402 0.04
(0.1, 0.01) 0.2301 0.22
(1, 1)
6
4
(10, 10)
240
40
2
Das ’hyper’ im Wort Tangentialhyperebene bezieht sich auf den Umstand daß deren Dimension nicht unbedingt 2 sein muß wie das Wort ’Ebene’ suggerieren mag.
94
10 Differentialrechnung
10.4 Höhere Ableitungen
Wir verallgemeinern nun den Begriff der höheren Ableitung auf Funktionen mit
mehreren Veränderlichen.
Definition 10.5 (Ableitungen höherer Ordnung) Ist für i ∈ {1, . . . , n} die
∂f
einer nach xi partiell differenzierbaren Funktion f :
erste partielle Ableitung ∂x
i
n
X → Y mit X ⊆ R , Y ⊆ R für ein j ∈ {1, . . . , n} partiell differenzierbar
∂f
nach xj , dann heißt die erste partielle Ableitung von ∂x
nach xj zweite partielle
i
Ableitung (engl.: second-order partial derivative) von f nach xi und xj . Diese
Ableitung wird bezeichnet mit
∂2f
∂xj ∂xi
oder verkürzt fji
bzw. für i = j mit
∂2f
.
∂x2i
Die Fortschreibung dieser Definition führt zur partiellen Ableitung k-ter Ordnung
mit k ∈ N, die mit
∂k f
∂xik . . . ∂xi1
für i1 , . . . , ik ∈ {1, . . . , n} bezeichnet wird.
Beispiel 10.7: Sei f : R2 → R mit f (x, y) = x2 y + xy 3 . Die ersten partiellen
Ableitungen sind
Dann sind
und
∂f
(x, y) = 2xy + y 3
∂x
und
∂f
(x, y) = x2 + 3xy 2 .
∂y
∂2f
(x, y) = 2y
∂x2
und
∂2f
(x, y) = 6xy
∂y 2
∂2f
(x, y) = 2x + 3y 2
∂x∂y
und
∂2f
(x, y) = 2x + 3y 2 .
∂y∂x
2
2
∂ f
∂ f
In diesem Beispiel fällt auf, daß die beiden gemischten Ableitungen ∂x∂y
und ∂y∂x
übereinstimmen. Diese Aussage gilt allgemein für zweimal stetig differenzierbare
Funktionen, so genannte C 2 -Funktionen.
Definition 10.6 (C 2 -Funktion) Existieren zu einer Funktion f : X → Y mit
X ⊆ Rn , Y ⊆ R alle zweiten partiellen Ableitungen und sind diese Ableitungen
stetig, so heißt f C 2 -Funktion.
95
10 Differentialrechnung
Satz 10.3 Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine C 2 -Funktion. Dann gilt für
alle i, j ∈ {1, . . . , n} und für alle x ∈ X
∂2f
∂2f
(x) =
(x).
∂xi ∂xj
∂xj ∂xi
Alle zweiten partiellen Ableitungen einer C 2 -Funktion werden zur sogenannten
Hesse-Matrix, deren Definition nachfolgend angegeben ist, zusammengefasst. Wie
die zweite Ableitung bei Funktionen von R nach R enthält die Hesse-Matrix an
einer Stelle x̄ Informationen über die lokalen Krümmungseigenschaften wie z.B.
Konkavität oder Konvexität einer Funktion an dieser Stelle.
Definition 10.7 (Hesse-Matrix) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R eine
zweimal partiell differenzierbare Funktion. Dann heißt die Matrix

 ∂2f
∂2f
∂2f
(x̄)
(x̄)
·
·
·
(x̄)
2
∂x
∂x
∂x
∂x
∂x
n
2
1
1

 ∂ 2 f1
∂2f
∂2f

(x̄)
(x̄)
·
·
·
(x̄) 
2
∂x
∂x
∂x
∂x
∂x
2
n
1
2
2

2
D f (x̄) = 
..


..
..
..
.


.
.
.
∂2f
∂2f
∂2f
(x̄) ∂x2 ∂xn (x̄) · · ·
(x̄)
∂x1 ∂xn
∂x2
n
Hesse-Matrix (engl.: Hessian) von f an der Stelle x̄ ∈ X.
Offensichtlich ist die Hesse-Matrix einer C 2 -Funktion nach Satz 10.3 symmetrisch.3
Beispiel 10.8:
(i) Sei f : R2 → R mit f (x, y) = 3x2 y − 5y 3. Dann ist
2
∂ f
∂2f
(x,
y)
(x,
y)
6y
6x
2
2
∂x
∂y∂x
D f (x, y) =
=
.
2
∂2f
6x −30y
(x, y) ∂∂yf2 (x, y)
∂x∂y
(ii) Sei f : R3 → R mit f (x, y, z) = x2 yz − y 3 z 2 . Dann ist

 ∂2f
∂2f
∂2f
(x, y, z) ∂y∂x
(x, y, z) ∂z∂x
(x, y, z)
∂x2
2

 ∂2f
∂2f
D 2 f (x, y, z) =  ∂x∂y
(x, y, z) ∂∂yf2 (x, y, z) ∂z∂y
(x, y, z) 
2
∂2f
∂2f
(x, y, z) ∂y∂z
(x, y, z) ∂∂zf2 (x, y, z)

 ∂x∂z
2yz
2xz
2xy
x2 − 6y 2z  .
=  2xz
−6yz 2
−2y 3
2xy x2 − 6y 2z
3
Eine Matrix A = (aij )n×n mit n ∈ N heißt symmetrisch, falls aij = aji für alle i, j ∈
{1, . . . , n}.
96
10 Differentialrechnung
10.5 Eigenschaften von Funktionen und ihre
Ableitungen
In diesem Abschnitt werden Zusammenhänge zwischen den in den Abschnitten
9.6 und 9.7 vorgestellten Monotonie-, Konkavitäts- und Quasikonkavitätseigenschaften von Funktionen und ihren ersten und zweiten Ableitungen behandelt.
Der nachfolgend angegebene Satz beschreibt den Zusammenhang zwischen den
Monotonieeigenschaften einer Funktion und ihren ersten partiellen Ableitungen.
Satz 10.4 Sei f : X → Y mit X ⊆ Rn , Y ⊆ R und f : (x1 , . . . , xn ) −→ f (x)
eine C 1 -Funktion. Dann gilt:
i) f steigt genau dann monoton in xi , wenn für alle x ∈ X gilt:
∂f
(x) ≥ 0.
∂xi
ii) f steigt streng monoton in xi , wenn für alle x ∈ X gilt:
∂f
(x) > 0.
∂xi
Ersetzt man in i) und ii) die beiden Relationszeichen ≥ und > durch ≤ bzw. <,
so erhält man die entsprechenden Aussagen für monoton fallende Funktionen.
Man beachte, daß der Satz für strenge Monotonie nur eine hinreichende Bedingung nennt, während er für (schwache) Monotonie eine notwendige und hinreichende Bedingung angibt.
Beispiel 10.9:
(x, y) = 3 >
(i) Die Funktion f : R2 → R mit f (x, y) = 3x+5y 3 steigt wegen ∂f
∂x
2
0 für alle (x, y) ∈ R streng monoton in x. Außerdem steigt f wegen ∂f
(x, y) =
∂y
2
2
15y ≥ 0 für alle (x, y) ∈ R monoton in y. f steigt sogar streng monoton in y.
(0, 0) = 0 die
Dies kann aber nicht aus Satz 10.4 geschlossen werden, da wegen ∂f
∂y
hinreichende Bedingung nicht erfüllt ist.
(ii) Die Funktion f : [0, ∞)n → R mit
f (x) =
n
xai i
i=1
und a1 , . . . , an > 0 ist für alle i = 1, . . . n monoton steigend in xi wegen
a
∂f
(x) = ai xiai −1 ·
xj j ≥ 0.
∂xi
j=1
n
j=i
97
10 Differentialrechnung
Während die ersten Ableitungen einer Funktion Auskunft über deren Monotonieeigenschaften geben, stehen die zweiten Ableitungen in engem Zusammenhang mit den Konvexitäts- und Konkavitätseigenschaften der Funktion. Allgemein kann aus den Vorzeichen der Determinanten geeignet gewählter Teilmatrizen der Hesse-Matrix einer Funktion auf deren Krümmung geschlossen werden.
Wir beschränken uns im Rahmen diese Skriptums auf die entsprechenden Zusammenhänge für Funktionen mit einer oder zwei reellen Veränderlichen mit den
Sätzen 10.5 bis 10.7 ohne Beweise. 4
Satz 10.5 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R eine offene und
konvexe Menge reeller Zahlen ist und Y ⊆ R . Dann gilt:
i) f ist genau dann konvex, wenn für alle x ∈ X gilt:
d2 f
(x) ≥ 0
dx2
ii) f ist streng konvex, wenn für alle x ∈ X gilt:
d2 f
(x) > 0
dx2
Ersetzt man in i) und ii) die beiden Relationszeichen ≥ und > durch ≤ bzw. <,
so erhält man zwei analoge Aussagen für konkave Funktionen.
Satz 10.6 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R2 offen und konvex ist
und Y ⊆ R . Dann gilt:
i) f ist genau dann konvex, wenn für alle x ∈ X gilt:
∂2f
(x) ≥ 0
∂x21
2
∂ f
(x) ≥ 0
∂x22
2
det (D f (x)) ≥ 0
ii) f ist streng konvex, wenn für alle x ∈ X gilt:
∂2f
(x) > 0
∂x21
2
det (D f (x)) > 0
4
Für weiterführende Aussagen zu diesem Thema sei der interessierte Leser auf Sydsæter et
al. (1999, S. 79ff) verwiesen.
98
10 Differentialrechnung
Satz 10.7 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R2 offen und konvex ist
und Y ⊆ R . Dann gilt:
i) f ist genau dann konkav, wenn für alle x ∈ X gilt:
∂2f
(x) ≤ 0
∂x21
2
∂ f
(x) ≤ 0
∂x22
2
det (D f (x)) ≥ 0
ii) f ist streng konkav, wenn für alle x ∈ X gilt:
∂2f
(x) < 0
∂x21
2
det (D f (x)) > 0
Wiederum beachte man, daß diese Sätze für strenge Konvexität und Konkavität
nur hinreichende Bedingungen angeben, während sie für (schwache) Konvexität
und Konkavität notwendige und hinreichende Bedingungen angeben.
Beispiel 10.10:
2
(i) Die Funktion f : R → R mit f (x) = x4 ist wegen ddxf2 (x) = 12x2 ≥ 0
für alle x ∈ R nach Satz 10.5 i) konvex. Ob f streng konvex ist, kann mit Satz
10.5 hingegen nicht entschieden werden, da die hinreichende Bedingung wegen
d2 f
(0) = 0 nicht erfüllt ist.
dx2
2
(ii) Die Funktion f : R2 → R mit f (x, y) = x2 + y 2 + xy ist wegen ∂∂xf2 (x, y) =
2 > 0 und
2
2 1
=3>0
det D f (x, y) = det
1 2
für alle (x, y) ∈ R2 nach Satz 10.6 ii) streng konvex.
(iii) Die Funktion f : R2 → R mit f (x, y) = −x − 3y 2 ist wegen
2
0, ∂∂yf2 (x, y) = −6 ≤ 0 und
2
det D f (x, y) = det
0 0
0 −6
∂2f
(x, y)
∂x2
=0≤
=0≥0
für alle (x, y) ∈ R2 nach Satz 10.7 i) konkav. Ob f streng konkav ist, kann mit
Satz 10.7 wegen det (D 2 f (x, y)) = 0 wieder nicht entschieden werden.
Der folgende Satz 10.8 gibt jeweils eine notwendige und eine hinreichende Bedingung für die Quasikonkavität einer Funktion mit zwei reellen Veränderlichen.
99
10 Differentialrechnung
Satz 10.8 Sei f : X → Y eine C 2 -Funktion, wobei X ⊆ R2 eine offene und
konvexe Menge reeller Zahlen ist und Y ⊆ R . Sei ferner
2 2
2 2
∂f
∂f
∂f
∂ f
∂ f
∂f
∂2f
D̃(x) = 2
(x)
(x)
(x) −
(x)
(x) −
(x)
(x)
2
∂x1
∂x2
∂x1 ∂x2
∂x1
∂x2
∂x2
∂x21
Dann gilt:
i) Wenn f quasikonkav ist, gilt für alle x ∈ X:
D̃(x) ≥ 0
ii) f ist quasikonkav, wenn für alle x ∈ X gilt:
2
∂f
(x)
>0
∂x1
D̃(x) > 0
Beispiel 10.11: Die Funktion f : (0, ∞)2 → R mit f (x, y) = x2 y 3 ist nach Satz
10.8 ii) wegen
2
2
∂f
(x, y) = 2xy 3 > 0
∂x
und
2
2
D̃(x, y) = 2 (2xy 3 · 3x2 y 2 · 6xy 2) − (2xy 3 ) · 6x2 y − (3x2 y 2 ) · 2y 3
= 30x4 y 7
>0
für alle (x, y) ∈ (0, ∞)2 quasikonkav.
10.6 Elastizitäten und deren ökonomische
Interpretation
Der Begriff der Elastizität, der seinen Ursrung den Wirtschaftswissenschaften
verdankt, baut unmittelbar auf den Begriff der Ableitung auf.
Definition 10.8 (Elastizität) Sei f : X → Y mit X, Y ⊆ R eine differenzierbare Funktion. Dann heißt für ein x̄ ∈ X mit f (x̄) = 0
ηf (x̄) =
df
x̄
(x̄) ·
dx
f (x̄)
Elastizität von f an der Stelle x̄. Außerdem heißt f unelastisch an der Stelle x̄
falls |ηf (x̄)| < 1 elastisch falls |ηf (x̄)| > 1.
100
10 Differentialrechnung
df
Während die Ableitung dx
(x̄) der Funktion f ein Maß für die absolute Veränderung des Funktionswerts von f im Verhältnis zu einer infinitesimal kleinen absoluten Veränderung des Argument an einer Stelle x̄ ist, ist ihre Elastizität ηf (x̄)
ein Maß für das Verhältnis der relativen Veränderungen von Funktionswert und
Argument. Die folgende Überlegung verdeutlicht diese Interpretation der Elastizität. Sei f : X → Y mit X, Y ⊆ R eine differenzierbare Funktion und x̄ ∈ X.
Dann gibt der Quotient
f (x̄+∆x)−f (x̄)
f (x̄)
∆x
x̄
(x̄)
das Verhältnis der relativen Veränderung des Funktionswerts f (x̄+∆x)−f
und
f (x̄)
∆x
der relativen Veränderung des Arguments x̄ an der Stelle x̄ bei einer absoluten
Veränderung des Arguments um ∆x = 0 an. Für ∆x −→ 0 konvergiert dieser
Quotient wegen
f (x̄+∆x)−f (x̄)
f (x̄)
∆x
x̄
=
f (x̄ + ∆x) − f (x̄)
x̄
·
∆x
f (x̄)
wegen der Differenzierbarkeit von f gegen
df
x̄
(x̄) ·
.
dx
f (x̄)
Elastizitäten unterscheiden sich von Ableitungen dadurch, daß sie keine Einheit
haben. Sie machen also den Grad der der Abhängigkeit des Funktionswerts vom
Argument für unterschiedlichste Funktionalzusammenhänge vergleichbar.
Beispiel 10.12: Sei die Nachfrage nach einem Gut A in einem Markt in Abhängigkeit vom Preis des Gutes pA ∈ R beschrieben durch die Nachfragefunktion
xA : R → R mit
xA (pA ) = 30 · 106 − 30pA .
Dann ist die Preiselastizität der Nachfrage an einer Stelle p̄A = 106
ηxA (p̄A ) = −30 ·
p̄A
.
30 · 106 − 30p̄A
Beträgt der aktuelle Marktpreis für Gut A p̃A = 105 , dann ist die Preiselastizität
gegeben durch
1
ηxA (p̃A ) = − .
9
Sei außerdem die Nachfrage nach einem Gut B in diesem Markt in Abhängigkeit
vom Preis des Gutes pB ∈ R beschrieben durch die Nachfragefunktion xB : R → R
mit
xB (pB ) = 30 · 106 − 106 pB .
101
10 Differentialrechnung
Dann ist die Preiselastizität der Nachfrage an einer Stelle p̄B = 30
ηxB (p̄B ) = −106 ·
30 ·
p̄B
.
− 106 p̄B
106
Beträgt der aktuelle Marktpreis für Gut B p̃B = 10−1 , dann ist die Preiselastizität
gegeben durch
1
ηxB (p̃B ) = −
.
299
Wegen
1
1
>
= |ηxB (p̃B )|
9
299
ist es sinnvoll zu sagen, die Nachfrage nach Gut A sei preissensitiver als die nach
Gut B, auch wenn der Vergleich der Ableitungen
dxA
dxB
6
dpA (p̃A ) = 30 < 10 = dpB (p̃B )
|ηxA (p̃A )| =
und damit des Verhältnisses der absoluten Veränderungen umgekehrt ist.
Die Übertragung von Definition 10.8 auf reellwertige Funktionen mit mehreren
Veränderlichen mit Hilfe partieller Ableitungen führt zum Begriff der partiellen
Elastizität, die entsprechend interpretiert wird.
Definition 10.9 (Partielle Elastizität) Sei f : X → Y mit X ⊆ Rn , Y ⊆ R
eine in xi partiell differenzierbare Funktion. Dann heißt
ηf,xi (x̄) =
∂f
x̄i
(x̄) ·
∂xi
f (x̄)
für ein x̄ ∈ X mit f (x̄) = 0 partielle Elastizität von f an der Stelle x̄ bezüglich
xi .
Beispiel 10.13: Sei die Nachfrage eines Haushaltes nach einem Gut gegeben
durch die Funktion
x(p, Y, q1 , . . . , qn ),
wobei p ≥ 0 der Preis des Gutes sei, Y ≥ 0 das Haushaltseinkommen und
q1 , . . . , qn die Preise anderer für den Haushalt relevanter Güter. ηx,p heißt Preiselastizität, ηx,Y Einkommenselastizität und ηx,qi für i = 1, . . . , n Kreuzpreiselastizität der Nachfrage.
Ihre Anwendung finden diese Elastizitäten unter anderem bei der Charakterisierung ökonomischer Phänomene, die im Zusammenhang mit dem Nachfrageverhalten von Haushalten zu beobachten sind. Die nachfolgende Tabelle gibt hierzu
eine Übersicht:
102
10 Differentialrechnung
Elastizität
Preiselastizität
Einkommenselastizität
Kreuzpreiselastizität
Vorzeichen
ηx,p < 0
ηx,p > 0
ηx,Y < 0
ηx,Y ∈ [0, 1]
ηx,Y > 1
ηx,qi < 0
ηx,qi > 0
Phänomen
normales Gut
Giffen-Gut, Veblen-Effekt
inferiores Gut
normales Gut
superiores Gut
Komplementarität
Substitution
10.7 Der Satz über implizite Funktionen
Der in diesem Abschnitt behandelte Satz über implizite Funktionen ist nicht nur
innerhalb der Mathematik sehr bedeutsam. Er kommt auch innerhalb der Wirtschaftswissenschaften oft vor, insbesondere im Zusammenhang mit komparativer Statik von Gleichgewichtsmodellen, also bei der Frage, wie eine gefundene
Lösung zu einem Optimirungsproblem von den das Problem charakterisierenden
Parametern abhängt (in der Makrotheorie z.B. im so genannten IS-LM-Modell).5
Im Rahmen dieses Skriptums wird nur die einfachste zweidimensionale Variante
behandelt. Schon ganz am Anfang des typischen Curriculums des Wirtschaftswissenschaftlers, nämlich bei der Bestimmung der Steigung einer Isohöhenlinie,
tritt das folgende Problem auf.
Ein Zusammenhang zwischen zwei Größen x und y sei gegeben in der Form
F (x, y) = c
mit F : X −→ R, X ⊆ R2 und c ∈ R. Wir interessieren uns nun für folgende
Fragen.
1.) Definiert F (x, y) = c implizit eine Funktion φ : D −→ R mit geeignet
gewähltem Definitionsbereich D ⊆ R, so daß für alle x ∈ D
F (x, φ(x)) = c
gilt?
2.) Kann eine Aussage über die Ableitung der impliziten Funktion φ getroffen
werden, falls sie existiert?
5
Eine anwendungsbezogene Darstellung der allgemeineren Variante findet sich etwa bei Chiang
(1984, S. 210ff) oder bei Sydsæter et al. (1999, S. 35).
103
10 Differentialrechnung
Beispiel 10.14:
(i) Gegeben sei
F (x, y) = x2 − 5y = c = 10.
2
2
Auflösen dieser Gleichung nach y ergibt y = x5 − 2. Dann gilt F (x, x5 − 2) =
2
2
x2 − 5( x5 − 2) = 10, also existiert eine Funktion φ(x) = x5 − 2 mit der geforderten
= 25 x.
Eigenschaft. Ihr Definitionsbereich ist D = R und ihre Ableitung dφ(x)
dx
(ii) Gegeben sei
F (x, y) = x2 + y 2 = c = 1.
Auflösung dieser Gleichung nach y ergibt offenbar keine Funktion. Es gilt
√
y = ± 1 − x2 mit x ∈ [−1, 1].
Das heißt, (i) nicht zu jedem x existiert ein y mit F (x, y) = x2 + y 2 = 1 und (ii)
zu einigen x existiert mehr als ein y mit F (x, y) = x2 + y 2 = 1.
Wir stellen uns nun die Frage, ob man trotzdem sinnvolle Antworten auf die oben
gestellten Fragen geben kann. Dazu wollen wir eine lokale Betrachtung anstellen.
Sei Bε (x̄, ȳ) eine ε-Umgebung um den Punkt (x̄, ȳ) mit F (x̄, ȳ) = c. Wir stellen
erneut die nun lokale Frage, ob Gleichung F (x, y) = c wenigstens innerhalb dieser
ε-Umgebung (für hinreichend kleines ε > 0) eine Funktion mit der geforderten
Eigenschaft eindeutig definiert.
Dazu betrachte in Beispiel 10.14 (ii) ε-Umgebungen um die Punkte A = √12 , √12
und B = (1, 0). In einer hinreichend kleinen ε-Umgebung um den Punkt A definiert die Gleichung x2 + y 2 = 1√offenbar eine Funktion φ(x) mit der geforderten
Eigenschaft. Sie lautet φ(x) = 1 − x2 . Um den Punkt B dagegen existiert auch
in einer beliebig kleinen ε-Umgebung keine eindeutige Funktion mit der geforderten Eigenschaft. Die Frage, unter welchen Bedingungen die Gleichung F (x, y) = c
um einen Punkt (x̄, ȳ) mit F (x̄, ȳ) = c innerhalb einer hinreichend kleinen εUmgebung Bε (x̄, ȳ) eine Funktion φ mit F (x, φ(x)) = c für alle (x, y) ∈ Bε (x̄, ȳ)
definiert, beantwortet allgemein der nachfolgend angegebene Satz.
Satz 10.9 (Satz über implizite Funktionen) Gegeben sei eine C 1 -Funktion
F : X −→ R mit X ⊆ R2 . Sei (x̄, ȳ) innerer Punkt von X mit F (x̄, ȳ) = c und
c ∈ R. Dann definiert die Gleichung F (x̄, ȳ) = c in einer hinreichend kleinen εUmgebung Bε (x̄, ȳ) um (x̄, ȳ) eine Funktion φ mit F (x, φ(x)) = c für alle (x, y) ∈
Bε (x̄, ȳ), wenn gilt
∂F (x̄, ȳ)
= 0.
∂y
Die Ableitung von φ für (x, y) ∈ Bε (x̄, ȳ) lautet dann
∂F (x,y)
dφ(x)
= − ∂F∂x
φ (x) =
.
(x,y)
dx
∂y
104
10 Differentialrechnung
(x̄,ȳ)
Der Satz gibt also mit ∂F∂y
= 0 eine Bedingung für die Existenz einer Funktion
φ mit F (x, φ(x)) = c für alle x nahe x̄. Ihre Ableitung ergibt sich direkt aus der
Kettenregel
dF (x,φ(x))
= ∂F (x,φ(x))
· 1 + ∂F (x,φ(x))
· dφ(x)
=0
dx
∂x
∂y
dx
⇒
dφ(x)
dx
∂F (x,φ(x))
∂F (x,y)
∂y
∂y
∂x
= − ∂F (x,φ(x))
= − ∂F∂x
(x,y) .
Beispiel 10.15: Gegeben sei F (x, y) = y 2 − x3 − x2 √= 0. Daraus ergibt sich
2
3
2
2
y = x + x = x (x + 1), also y = ± x2 (x + 1) = ±|x| x + 1 mit x ≥ −1. Eine
Funktion φ wird offenbar nicht definiert um die beiden Punkte (0, 0) und (−1, 0).
In der Tat sind diese auch die einzigen Punkte mit F (x, y) = 0 und
∂F (x, y)
= 2y = 0.
∂y
105
11 Optimierung von Funktionen
einer Veränderlichen
In diesem Kapitel werden die bis hier behandelten Grundlagen der Analysis genutzt, um Methoden aus der Optimierungstheorie für eindimensionale Entscheidungsmengen einzuführen. Die zentrale Problemstellung der Optimierung besteht
darin, den Wert einer Funktion durch die geeignete Wahl ihres Arguments zu maximieren oder zu minimieren. Kann das Argument aus dem Definitionsbereich der
Funktion beliebig gewählt werden, so spricht man von unbeschränkter Optimierung oder auch der Optimierung ohne Nebenbedingungen; falls dagegen das Argument zusätzliche Bedingungen erfüllen muß, so spricht man von beschränkter
Optimierung oder auch Optimierung unter Nebenbedingungen.
Insbesondere die beschränkte Optimierung steht in sehr enger Beziehung zu zentralen Fragestellungen der Wirtschaftswissenschaften, insbesondere im Zusammenhang der bestmöglichen Verwendung knapper Ressourcen.
11.1 Lokale und globale Extrema
Wichtigstes Grundkonzept der Optimierungstheorie sind Extremwerte von Funktionen, also Maxima und Minima. Wir unterscheiden zwischen lokalen und globalen Extremwerten. Die Formulierung lokal bezieht sich auf die unmittelbare
Nachbarschaft (genügend kleine ε-Kugel) um den Extremwert, während global
sich auf eine in Frage kommende oder betrachtete Zahlenmenge bezieht. Durch
die in der folgenden Definition vorgenommene Präzisierung kann ein lokales als
ein relatives (relativ zur Nachbarschaft) Extremum aufgefaßt werden und ein
globales als ein absolutes.
Definition 11.1 (Lokale und globale Extrema) Sei f : R −→ R. Das Element x̂ ∈ A ⊆ Def(f ) heißt lokales Maximum (Minimum) auf A genau dann
wenn
∃ε > 0 :
∀x ∈ Bε = {x ||x − x̂| ≤ ε } ∩ A gilt: f (x) ≤ (≥)f (x̂) .
x̂ ∈ A ⊆ Def(f ) heißt dagegen globales Maximum (Minimum) auf A genau dann
wenn
∀x ∈ A gilt: f (x) ≤ (≥)f (x̂) .
106
11 Optimierung von Funktionen einer Veränderlichen
insert picture here
Im Bild sind a und c lokale Maxima, b lokales Minimum und c globales Maximum,
während kein globales Minimum existiert.
Für differenzierbare Funktionen stehen erste und zweite Ableitung in engem Zusammenhang mit der Extremwert
Satz 11.1 (Notwendige und hinreichende Bedingungen für lokale Extremwerte)
Sei f : R −→ R eine C 2 -Funktion mit Def(f ) = R. Dann gilt:
1.) Falls x̂ lokales Maximum ist, gilt
Df (x̂) = 0 und
D 2 f (x̂) ≤ 0.
2.) Falls x̂ lokales Minimum ist, gilt
Df (x̂) = 0 und
D 2 f (x̂) ≥ 0.
3.) Falls
und D 2 f (x̂) < 0
Df (x̂) = 0
ist, dann ist x̂ lokales Maximum.
4.) Falls
und D 2 f (x̂) > 0
Df (x̂) = 0
ist, dann ist x̂ lokales Minimum.
Man beachte die feinen Unterschiede zwischen den notwendigen und hinreichenden Bedingungen in den schwachen und starken Ungleichheitszeichen. Daraus
ergibt sich ein einfaches Rezept für den nach einem globalen Maximum suchenden Protagonisten.
1.) Zunächst bestimme man diejenigen Punkte x̂ mit der Eigenschaft, daß deren
erste Ableitung gleich null ist, also Df (x̂) = 0.
2.) Unter diesen bestimme man diejenigen, für die zusätzlich gilt D 2 f (x̂) <
0. Nach Satz 11.1 ist sichergestellt, daß alle Punkte die beiden Kriterien
genügen lokale Maxima sind.
3.) Man bestimme deren Funktionswerte und wähle denjenigen (oder falls es
mehr als einen gibt, diejenigen) mit dem höchsten Funktionswert aus.
107
11 Optimierung von Funktionen einer Veränderlichen
4.) Achtung jetzt sind wir noch nicht fertig, denn es kann noch passieren, daß
die Funktion f am Rand des Definitionsbereiches also für x → ∞ oder
x → −∞ nach ∞ strebt und daher kein globales Maximum existiert. Letzter
Schritt ist also die Untersuchung des Randverhaltens.
Beispiel 11.1: Sei f (x) = −x4 + 2x2 + 4. Dann ist Df (x) = −4x3 + 4x und
D 2 f (x) = −12x2 + 4. Erster Schritt: Erste Ableitung gleich null ergibt x1 =
0, x2 = −1 und x3 = 1. Zweiter Schritt: Zweite Ableitung strikt negativ gilt für
x2 und x3 aber nicht für x1 . Dritter Schritt: Da f (x2 ) = f (x3 ) ist, sind sowohl
x2 als auch x3 mögliche Kandidaten für globale Maxima. Vierter Schritt: Für das
Randverhalten gilt
lim f (x) = lim x2 (−x2 + 2) + 4 = −∞
x→∞
x→∞
und
lim f (x) = lim x2 (−x2 + 2) + 4 = −∞.
x→∞
x→−∞
Eine Analyse der (strengen) Monotoniebereiche Mon++ (f ) = {x | Df (x) > 0}
und Mon−− (f ) = {x | Df (x) < 0} ist eine alternative Methode zur Bestimmung
der lokalen Extrema, die gleich die Analyse des Randverhaltens mit einschließt.
11.2 Optimierung mit Nebenbedingungen
Wir betrachten in den folgenden beiden Abschnitten stets Optimierungsprobleme
der Form
max f (x),
x∈A
wobei
A = [a, ∞) oder A = (−∞, b] oder A = [a, b] mit a, b ∈ R.
Das heißt, der zulässige Bereich A, über dem maximiert wird, ist ein abgeschlossenes Intervall. In diesem Zusammenhang sei daran erinnert, daß z.B. [a, ∞) eine
abgeschlossene aber nicht kompakte da nicht beschränkte Teilmenge der reellen
Zahlen ist.
Beispiel 11.2:
(i) insert picture
(ii) insert picture
108
11 Optimierung von Funktionen einer Veränderlichen
Wir erkennen am zweiten Beispiel, daß im Gegensatz zur Optimierung ohne Nebenbedingungen Df (x̂) = 0 keine notwendige Bedingung für eine Lösung des
Optimierungsproblems maxx∈A f (x) ist. Offenbar braucht diese Bedingung erster
Ordnung genau dann nicht erfüllt zu sein, wenn eine Lösung x̂ am Rand ∂A des
Intervalls A liegt, also x̂ = a oder x̂ = b ist.
Satz 11.2 Sei f : A −→ R zweimal differenzierbar und konkav auf seinem Definitionsbereich Def(f ) = A, also D 2 f (x) ≤ 0 ∀x ∈ A. Dann gilt: Df (x̂) = 0 ⇒ x̂
ist globales Maximum auf A.
Df (x̂) = 0 ist also hinreichend dafür, daß x̂ das Optimierungsproblem maxx∈A f (x)
löst, falls f konkav auf A ist.
Beispiel 11.3: Sei f (x) = x3 − 6x2 + 7, A = [−5, 1], B = [−1, 3] und C = [3, ∞].
Dann ist Df (x) = 3x2 − 12x und D 2 f (x) = 6x − 12, also D 2 f (x) ≤ 0 für x ∈ A.
Aus Satz 11.2 folgt also, daß x̂ = 0 das Maximierungsproblem
max f (x)
x∈A
löst. Man beachte, daß Satz 11.2 keine notwendige Bedingung angibt, denn x̂ = 0
löst maxx∈B f (x), obwohl f nicht konkav auf B ist. Das Maximierungsproblem
maxx∈C f (x) besitzt keine Lösung, während auf das Minimierungsproblem
min f (x)
x∈C
wieder Satz 11.2 anwendbar ist durch die Umformung in das entsprechende Maximierungsproblem maxx∈C −f (x). Da Df (4) = 0 und D 2 f (x) ≥ 0 für x ∈ C
löst x̂ = 4 das Minimierungsproblem minx∈C f (x).
Beispiel 11.2 lehrt uns, daß es in der Optimierungstheorie genügt, Maximierungsprobleme zu studieren, da Minimierungsprobleme durch Umkehrung des Vorzeichens der Zielfunktion stets in analoge Maximierungsprobleme umgewandelt
werden können.
11.3 Lagrangefunktion und Kuhn-Tucker
Bedingungen
Beispiel 11.2 zeigt, daß Satz 11.2 nicht befriedigt, denn selbst für konkave Funktionen ist offenbar die Bedingung erster Ordnung Df (x̂) = 0 nicht notwendig für die
Lösung eines Problems vom Typ maxx∈A f (x). Die inzwischen 250 Jahre alte Idee
109
11 Optimierung von Funktionen einer Veränderlichen
des 18-jährigen autodidaktischen Joseph-Louis Lagrange (1736-1813) war es,
stattdessen eine andere Funktion einer höheren Dimensionalität zu definieren, deren Ableitung stets 0 ist für die Lösung des betrachteten Optimierungsproblems.1
insert picture
Sei für den Moment A = (−∞, b]. Wir betrachten nun das Optimierungsproblem
maxx∈A f (x), das wir häufig auch schreiben als
max f (x) u.d.N. b − x ≥ 0,
x
wobei u.d.N. die Abkürzung für unter der Nebenbedingung ist.
Definition 11.2 Die Funktion
L(x, λ) = f (x) + λ(b − x)
heißt Lagrangefunktion zum Problem
max f (x) u.d.N.
x
b − x ≥ 0.
Die Variable λ heißt die zur Nebenbedingung b − x ≥ 0 gehörige Lagrangevariable
oder Lagrangemultiplikator.
Die Lagrangevariable λ wird so bestimmt, daß für eine Lösung x̂ des Optimie∂
rungsproblems stets ∂x
L(x, λ) = 0 gilt.
Definition 11.3 (Kuhn-Tucker Bedingungen) Die Bedingungen
∂
L(x, λ) = 0
(1) ∂x
(2) b − x ≥ 0
(3) λ ≥ 0
(4) λ(b − x) = 0
heißen Kuhn-Tucker Bedingungen (KT) zum Optimierungsproblem
max f (x) u.d.N.
x
b − x ≥ 0.
Falls x̂ die Kuhn-Tucker Bedingungen erfüllt, werden wir abkürzend sagen, x̂
erfüllt KT.
1
Diese Methode des jungen italienischen Mathematikers wurde von seinem berühmten Zeitgenossen Leonard Euler als so bedeutsam eingestuft, daß Lagrange auf dessen Empfehlung
kurz darauf als 19-jähriger zum Professor an der Universität Turin ernannt wurde. Später
soll Lagrange einmal geäußert haben ’Wenn ich reich gewesen wäre, hätte ich mich wahrscheinlich nicht der Mathematik gewidmet’.
110
11 Optimierung von Funktionen einer Veränderlichen
2 Fälle: insert picture
Die Mathematiker Harold Kuhn und Albert Tucker haben ca. 200 Jahre
später die Idee von Lagrange verallgemeinert und notwendige und hinreichende
Bedingungen für die Lösung von Optimierungsproblemen mit Nebenbedingungen
in Form von Ungleichungen formuliert.2 Da rationales ökonomisches Verhalten
meistens auf genau diese Art von Problem reduzierbar ist, spielen diese Bedingungen ein zentrale Rolle für Wirtschaftswissenschaftler. Bemerkenswerterweise sind
vereinfachte und dadurch falsche Versionen dieser für Wirtschaftswissenschaftler
so zentralen Theorie hartnäckig bis heute Bestandteil des üblichen ökonomischen
Curriculums und der entsprechenden Literatur. In diesem Abschnitt werden diese Bedingungen für Funktionen einer Veränderlichen studiert. Da dies eine gute
Vorbereitung für die allgemeine Formulierung darstellt, behandeln wir hier den
eindimensionalen Fall aus didaktischen Gründen getrennt von der allgemeineren
mehrdimensionalen Formulierung.3
Satz 11.3 (Notwendige Bedingungen) Sei x∗ eine Lösung des Optimierungsproblems
max f (x) u.d.N. b − x ≥ 0.
x
Dann existiert ein λ∗ , so daß (x∗ , λ∗ ) die KT
∂
L(x, λ) = 0
(1) ∂x
(2) b − x ≥ 0
(3) λ ≥ 0
(4) λ(b − x) = 0
erfüllt.
Die Umkehrung benötigt wie im Fall ohne Nebenbedingungen mehr Voraussetzungen. Das folgende Bild zeigt, daß auch ein lokales Minimum die KT erfüllen
kann.
insert picture
2
Man beachte, daß Nebenbedingungen in Form von Gleichungen stets durch die doppelte Anzahl von Nebenbedingungen in Form von Ungleichungen ersetzbar ist. Z.B. gilt
g(x) = 0 ⇔ g(x) ≥ 0 ∧ g(x) ≤ 0. Da umgekehrt Ungleichungsnebenbedingungen nicht
durch Gleichungen repräsentierbar sind, ist die Formulierung auf Basis von Ungleichungen
allgemeiner.
3
Es ist häufig nicht schwierig, oder sogar einfacher, im eindimensionalen Fall Lösungen zu
bestimmen, ohne auf KT zurückzugreifen. Da der Rand des Optimierungsbereiches A nur
aus höchstens zwei Elementen besteht, ist durch Bestimmung der lokalen Maxima in A und
der Funktionswerte an den Rändern ein direkter Vergleich sehr einfach.
111
11 Optimierung von Funktionen einer Veränderlichen
Satz 11.4 (Hinreichende Bedingungen) Sei f konkav auf A = (−∞, b] und
(x∗ , λ∗ ) erfülle die KT
∂
L(x, λ) = 0
(1) ∂x
(2) b − x ≥ 0
(3) λ ≥ 0
(4) λ(b − x) = 0.
Dann löst x∗ das Optimierungsproblem
max f (x) u.d.N.
x
b − x ≥ 0.
Statt der 4.) KT Bedingung λ(b − x∗ ) = 0 kann man auch schreiben L(x∗ , λ∗ ) =
f (x∗ ). Analoge Aussagen zu den Sätzen 11.3 und 11.4 gelten offenbar für A =
[a, ∞) oder A = [a, b]. Die Lagrangefunktion für A = [a, ∞) ist
L(x, λ) = f (x) + λ(x − a)
und die KT sind
∂
L(x, λ) = 0
(1) ∂x
(2) x − a ≥ 0
(3) λ ≥ 0
(4) λ(x − a) = 0.
Für A = [a, b] ist die Lagrangefunktion
L(x, λ1 , λ2 ) = f (x) + λ1 (b − x) + λ2 (x − a)
und es müssen zwei Ungleichungen erfüllt sein. Die Zahl der KT erhöht sich
entsprechend:
∂
(1) ∂x
L(x, λ1 , λ2 ) = 0
(2) b − x ≥ 0 und x − a ≥ 0
(3) λ1 ≥ 0 und λ2 ≥ 0
(4) λ1 (b − x) = 0 und λ2 (x − a) = 0.
Beispiel 11.4: Betrachte das Optimierungsproblem
max f (x) u.d.N. b − x ≥ 0
x
für f (x) = 2 − x2 .
(i) Sei zunächst b = 1. Die Lagrangefunktion ist dann
L(x, λ) = 2 − x2 + λ(1 − x)
112
11 Optimierung von Funktionen einer Veränderlichen
und die KT sind
∂
(1) ∂x
L(x, λ) = −2x − λ = 0
(2) b − x = 1 − x ≥ 0
(3) λ ≥ 0
(4) λ(b − x) = λ(1 − x) = 0.
Da f konkav ist, löst wegen Satz 11.4 eine Lösung x∗ der KT auch das Optimierungsproblem. Betrachte dazu zwei Fälle: (i) λ > 0 ⇒ x = 1 führt zu einem
Widerspruch, denn es muß gelten −2 − 1 − λ = 0. Daher kann nur gelten (ii)
λ = 0 ⇒ x = 0. Lösung des Optimierungsproblems ist also x∗ = 0.
(ii) Sei nun b = −1. Also
L(x, λ) = 2 − x2 + λ(−1 − x),
und die KT
(1)
(2)
(3)
(4)
−2x − λ = 0
1−x≥0
λ≥0
λ(−1 − x) = 0.
Hier führt (ii) λ = 0 zum Widerspruch denn dies impliziert x = 0 ⇒ −1 ≥
0. Umgekehrt ist (i) λ > 0 ⇒ x = −1 ⇒ −2 · (−1) = λ = 2. Lösung des
Optimierungsproblems ist also x∗ = −1.
(iii) Betrachte zuletzt b = 0. Also
L(x, λ) = 2 − x2 − λx,
und die KT sind
(1)
(2)
(3)
(4)
−2x − λ = 0
−x ≥ 0
λ≥0
λx = 0.
(i) λ > 0 ⇒ x = 0 ⇒ λ = 0 Widerspruch, also (ii) λ = 0 ⇒ x = 0. Lösung des
Optimierungsproblems ist also x∗ = 0.
Für das Verständnis allgemeiner mehrdimensionaler Optimierungstheorie ist es
hilfreich, sich folgende Zusammenfassung zu globalen Maxima von Funktionen
einer Variablen einzuprägen.
1.) Ohne Nebenbedingungen
x∗ löst max f (x)
f ist konkav
x∈R
113
Df (x∗ ) = 0.
11 Optimierung von Funktionen einer Veränderlichen
2.) Mit Nebenbedingungen
x∗ löst max f (x)
f ist konkav
x∈A
(x∗ , λ∗ ) löst KT.
Offenbar ist 1.) in 2.) enthalten. Statt Konkavität genügt auch Quasikonkavität
als schwächere Annahme für die hinreichenden Bedingungen.
114
12 Optimierungstheorie
In diesem Kapitel wird die im vorherigen Kapitel eingeführte Methode verallgemeinert auf Zielfunktionen mehrerer Veränderlicher. Sehr viele reale Entscheidungsprobleme sind reduzierbar auf die Gestalt
max f (x),
x∈A
wobei A die Menge der zulässigen Entscheidungsalternativen ist, und f eine die
Wünsche oder die Präferenzen des Protagonisten repräsentierende Zielfunktion.
In der mathematischen Entscheidungstheorie, die nicht Gegenstand der Vorlesung und dieses Skriptums ist, wird genau analysiert, welche Auswahlentscheidungen konsistent sind mit der Maximierung einer Zielfunktion. Grob vereinfacht
lässt sich sagen, daß die Existenz einer Zielfunktion aus nur wenigen Konsistenzannahmen hervorgeht, die häufig mit zielgerichteter rationaler Verhaltensweise
identifiziert werden und das methodische Rückgrad der modernen ökonomischen
Analyse darstellt. Obwohl Experimentatoren und Verhaltensökonomen sich in
jüngerer Zeit zunehmend für Abweichungen von diesem Paradigma des homo oeconomicus interessieren, wird die Standard-Entscheidungstheorie noch für lange
Zeit die wichtigste Methode bleiben für die Analyse ökonomischer Phänomene.
Diese Methode wird allein deshalb vermutlich nie aus dem Wergzeugkasten des
Ökonomen verschwinden, da sie für normative Theorie, also Handlungsempfehlungen an Akteure, gebraucht wird, auch wenn wir mit deskriptiven Methoden
häufig beobachten, daß reale Menschen von rationalem Verhalten abweichen.
12.1 Optimierung ohne Nebenbedingungen
Lokale und globale Extremwerte für Funktionen mehrerer Veränderlicher sind auf
die gleiche Art und Weise definiert wie im vorhergehenden Kapitel.
Definition 12.1 (Lokale und globale Extrema) Sei f : Rn −→ R. Das Element x̂ ∈ A ⊆ Def(f ) heißt lokales Maximum (Minimum) auf A genau dann
wenn
∃ε > 0 :
∀x ∈ Bε = {x ||x − x̂| ≤ ε } ∩ A gilt: f (x) ≤ (≥)f (x̂) .
115
12 Optimierungstheorie
x̂ ∈ A ⊆ Def(f ) heißt dagegen globales Maximum (Minimum) auf A genau dann
wenn
∀x ∈ A gilt: f (x) ≤ (≥)f (x̂) .
Optimierung ohne Nebenbedingungen, bedeute im Folgenden, daß die Menge der
Handlungsalternativen A nicht eingeschränkt ist, also A = Rn . Wie zuvor stehen
für differenzierbare Funktionen erste und zweite Ableitung, also hier der Gradient
und die Hesse-Matrix, in engem Zusammenhang mit der Extremwerteigenschaft.
In einem lokalen (und daher auch globalen) Optimum x̂ ∈ Rn ohne Nebenbedingungen muß die Ableitung der Funktion in allen Richtungen gleich 0 sein,
also ∇f (x̂) = 0 (wobei hier mit 0 der Nullvektor im Rn gemeint ist), da sonst
der Funktionswert bereits in Richtung des Gradienten erhöht werden könnte. Die
folgenden beiden Sätze folgen ebenfalls dem Aufbau des vorhergehenden Kapitels.
Satz 12.1 (Notw. und hinr. Bedingungen für lokale Extremwerte) Sei
f : Rn −→ R
eine C 2 -Funktion mit Def(f ) = Rn . Dann gilt:
1.) Falls x̂ lokales Maximum ist, gilt
∇f (x̂) = 0
und Hf (x̂)
ist negativ semidefinit.
2.) Falls x̂ lokales Minimum ist, gilt
∇f (x̂) = 0 und
Hf (x̂)
ist positiv semidefinit.
3.) Falls
∇f (x̂) = 0
und Hf (x̂)
negativ definit
ist, dann ist x̂ lokales Maximum.
4.) Falls
∇f (x̂) = 0 und
Hf (x̂)
positiv definit
ist, dann ist x̂ lokales Minimum.
Satz 12.2 (Hinreichende Bedingung für globalen Extremwert) Sei
f : Rn −→ R
zweimal differenzierbar und konkav. Dann gilt: ∇f (x̂) = 0 ⇔ x̂ ist globales Maximum.
116
12 Optimierungstheorie
Beispiel 12.1:
(i) Sei f (x1 , x2 ) = x21 + x22 . Dann ist ∇f (x1 , x2 ) = (2x1 , 2x2 ) mit einziger Nullstelle (x01 , x02 ) = (0, 0). Die Hesse-Matrix ist
2 0
,
Hf (x1 , x2 ) =
0 2
also ist f wegen Satz 10.6 streng konvex. Daher ist −f streng konkav und
(x01 , x02 ) = (0, 0) ist globales Minimum von f .
(ii) Sei f (x1 , x2 ) = x21 − x22 . Dann ist ∇f (x1 , x2 ) = (2x1 , −2x2 ) wieder mit
einziger Nullstelle (x01 , x02 ) = (0, 0). Die Hesse-Matrix ist
2 0
Hf (0, 0) = Hf (x1 , x2 ) =
.
0 −2
Da diese Hesse-Matrix indefinit ist, ist (0, 0) ein Sattelpunkt und es existiert kein
globales Maximum oder Minimum.
(iii) Die Funktion f (x1 , x2 ) = x31 −3x22 −6x1 x2 +4 hat den Gradienten ∇f (x1 , x2 ) =
(3x21 −6x2 , −6x1 −6x2 ) mit den Nullstellen (x01 , x02 ) = (0, 0) und (x11 , x12 ) = (−2, 2)
und die Hesse-Matrix
6x1 6
Hf (x1 , x2 ) =
.
−6 −6
Also ist
∂2f
(0, 0)
∂x21
∂2f
(0, 0)
∂x22
= −6 und
0
6
det Hf (0, 0) = det
= 36.
−6 −6
= 0,
Wegen der Sätze 10.6 und 10.7 ist Hf (0, 0) indefinit und daher (0, 0) kein lokaler
2
2
Extremwert. Weiter ist ∂∂xf2 (−2, 2) = −12, ∂∂xf2 (−2, 2) = −6 und
1
2
−12 6
det Hf (−2, 2) = det
= 108.
−6 −6
Wegen Satz 10.7 ist Hf (−2, 2) negativ definit und daher ist (−2, 2) lokales Maximum (aber nicht globales, warum?).
12.2 Geometrische Lösung von
Optimierungsproblemen
Seien f, g : R2 −→ R zwei Funktionen zweier Veränderlicher. Wir betrachten das
Optimierungsproblem
max f (x) u.d.N. g(x) ≥ 0.
x
117
12 Optimierungstheorie
Das heißt, wir suchen ein globales Maximum von f auf der Menge
A = x ∈ R2 |g(x) ≥ 0 .
Offenbar ist die Niveaulinie g −1 (0) der Funktion g zum Niveau 0 die Begrenzungslinie der Menge A. Um festzustellen, nach welcher Seite die Niveaulinie g −1(0)
die Menge A begrenzt, betrachte den Gradienten ∇g(x). Für ein x ∈ g −1 (0) zeigt
∇g(x) in die Menge A hinein.
insert picture here
Betrachte nun Niveaulinien f −1 (y) von f , die durch die Menge A gehen, für die
also f −1 (y) ∩ A = ∅. Gesucht sind Niveaulinien mit möglichst hohem Niveau y
die gerade noch durch A gehen. ”Verschiebe” also Niveaulinie f −1 (y) (verschieben
durch Veränderung von y) in Richtung von ∇f (x) für x auf der Niveaulinie f −1 (y)
so weit wie möglich, so daß gerade noch ein nicht leerer Durchschnitt f −1 (y) ∩
A = ∅ bleibt. Der oder die verbleibenden Elemente dieser Durchschnittsmenge
f −1 (y) ∩ A lösen das betrachtete Optimierungsproblem
max f (x) u.d.N. g(x) ≥ 0.
x
Entsprechend kann man verfahren, falls die Menge A der Entscheidungsalternativen durch k > 1 Nebenbedingungen Xj = {x ∈ R2 |gj (x) ≥ 0} mit
A=
k
!
Xj
j=1
gegeben ist.
insert picture
Ein wichtiges Kriterium wird im Folgenden die Konvexität der Menge A der Entscheidungsalternativen sein. In diesem Zusammenhang ist folgende hinreichende
Bedingung hilfreich.
Satz 12.3 Seien gj : Rn −→ R konkave Funktionen für j = 1, . . . , k. Sei ferner
"
A = kj=1 Xj mit Xj = {x ∈ Rn |gj (x) ≥ 0}. Dann ist A konvexe Menge.
Der Beweis folgt aus der Kombination der bereits bewiesenen Sätze 8.1,9.4 und
9.3.
12.3 Häufige Irrtümer
In diesem Abschnitt gehen wir einen ungewöhnlichen didaktischen Weg. Wir
nähern uns der allgemeinen Theorie durch eine Sequenz von gebräuchlichen Irrtümern,
118
12 Optimierungstheorie
denen nicht nur der unbefangene Optimierer sondern in unterschiedlichem Grade
auch eine nicht unerhebliche Zahl von Lehrbüchern unterliegen. Dazu kehren wir
vorläufig zum Fall n = 1 zurück.
Betrachte eine differenzierbare Funktion f : R −→ R und das Optimierungsproblem
max f (x) u.d.N. g(x) ≥ 0.
x
Wir erinnern uns daß in den Abschnitten 11.2 und 11.3 die Nebenbedingung als
lineare Funktion g(x) = b−x gegeben war. Diese Annahme wird nun aufgehoben.
Beispiel 12.2: Sei f (x) = −x und g(x) = (x − 1)3 . Offenbar löst x̂ = 1 das
Optimierungsproblem
max f (x) u.d.N. g(x) ≥ 0.
x
Die erste der Kuhn-Tucker-Bedingungen lautet hier
∂
L(x, λ) = −1 + λ3(x − 1)2 = 0.
∂x
Einsetzen von x̂ = 1 zeigt, daß diese Bedingung offenbar nicht erfüllt, also weder
notwendig noch hinreichend ist für eine Lösung.
Beispiel 12.3 lehrt uns, daß die bisherige Theorie im Falle nichtlinearer Nebenbedingungen bereits für die Dimension n = 1 unvollständig ist. Eine genauere
Betrachtung ergibt, daß das Problem dieses Beispiels dadurch entsteht, daß für
die Lösung x̂ des Optimierungsproblems g (x̂) = 0 und gleichzeitig f (x̂) = 0 ist.
Falls dies der Fall ist, kann kein λ̂ ∈ R existieren, so daß die erste der Kuhn∂
Tucker-Bedingungen ∂x
L(x̂, λ̂) = −f (x̂) + λ̂g (x̂) = 0 erfüllt ist.
Ein möglicher Ausweg wäre zu fordern, daß bei einer Randlösung, also im Fall
g(x) = 0, zusätzlich gilt g (x) = 0, damit KT notwendig ist. Die Verallgemeinerung dieser zusätzlichen Forderung heißt, wie wir sehen werden, Beschränkungsqualifikation.
Beispiel 12.3: Sei f (x) = x und g(x) = x2 −1. Offenbar ist f linear, also konkav.
Wir erkennen, daß x̂ = −1 nicht das Optimierungsproblem
max f (x) u.d.N. g(x) ≥ 0
x
löst, denn es gilt z.B. f (3) = 3 > −1 = f (−1). Jedoch erfüllt (x̂, λ̂) = (−1, 12 )
∂
L(−1, 12 ) = 1 − 1 = 0, (2) g(−1) = 1 − 1 ≥ 0, (3) 12 ≥ 0 und (4)
die KT (1) ∂x
1
g(−1) = 0.
2
119
12 Optimierungstheorie
Beispiel 12.3 lehrt uns, daß Konkavität der Zielfunktion f und KT schon für n = 1
keine hinreichenden Bedingungen für die Lösung eines Optimierungsproblems
sind, falls die Nebenbedingung nicht linear ist. Es ist nicht schwer zu erkennen,
daß in diesem Fall die Ursache des Problems in der Nichtkonvexität der Menge
A = {x ∈ R|g(x) ≥ 0}
zu suchen ist, die im Beispiel 12.3 ein ”Loch” hat, d.h. nicht ein Intervall ist sondern aus zwei (halboffenen) Intervallen besteht. Aus Satz 12.3, folgt, daß diese
Schwierigkeit entfällt, falls die Entscheidungsmenge durch konkave Funktionen
begrenzt wird. Wir werden sehen, daß diese zusätzliche Forderung zu hinreichenden Bedingungen führt. Insbesondere impliziert für λ ≥ 0 die Konkavität der
Zielfunktion und die Konkavität der Nebenbedinung(en) die Konkavität der Lagrangefunktion L(x, λ).
12.4 Lagrangefunktion, Kuhn-Tucker Bedingungen
und Beschränkungsqualifikation
Wir kommen zur allgemeinen Formulierung eines Optimierungsproblems mit m
Nebenbedingungen in Form von Ungleichungen. Zu jeder Nebenbedingung j =
1 . . . , m gehört eine Lagrangevariable λj . Zur Unterscheidung von Zahlen und
Vektoren werden wir ab hier Vektoren stets mit unterstrichenen Variablen bezeichnen, also z.B. bezeichne λ = (λ1 , . . . , λm ) den Vektor der m Lagrangevariablen. Betrachte m + 1 differenzierbare Funktionen f, gj : Rn −→ R mit
x = (x1 , . . . , xn ) und das Optimierungsproblem
max f (x) u.d.N. gj (x) ≥ 0 für j = 1, . . . , m.
x
Definition 12.2 (Lagrange-Funktion und Kuhn-Tucker Bedingungen) Die
Funktion
m
L(x, λ) = f (x) +
λj gj (x)
j=1
heißt Lagrangefunktion zum Problem
max f (x)
x
u.d.N. gj (x) ≥ 0 für j = 1, . . . , m.
Die Variablen λj heißen die zu den Nebenbedingungen gj (x) ≥ 0 gehörigen Lagrangevariablen oder Lagrangemultiplikatoren. Die Bedingungen
(1) ∇f (x) + m
j=1 λj ∇gj (x) = 0
(2)
gj (x) ≥ 0
für j = 1, . . . , m
für j = 1, . . . , m
(3)
λj ≥ 0
für j = 1, . . . , m.
(4)
λj gj (x) = 0
120
12 Optimierungstheorie
heißen Kuhn-Tucker Bedingungen (KT) zum Optimierungsproblem
max f (x)
x
u.d.N. gj (x) ≥ 0 für j = 1, . . . , m.
Falls x∗ die Kuhn-Tucker Bedingungen erfüllt, werden wir abkürzend sagen, x∗
erfüllt KT.
Die im vorhergehenden Abschnitt bereits erwähnte Beschränkungsqualifikation
verlangte für eine Lösung des Optimierungsproblems von der Nebenbedingung,
daß deren Ableitung ungeich 0 ist, damit die KT für die Lösung erfüllt sind. Eine naheliegende Verallgemeinerung für m Nebenbedingungen könnte lauten, daß
die Gradienten aller Nebenbedingungen ausgewertet an der Lösung eines Optimierungsproblems ungleich 0 sind, damit KT notwendige Bedingungen für die
Lösung sind. Das folgende graphische Besipiel zeigt, daß eine Verallgemeinerung
im eben beschriebenen Sinne nicht ausreicht.
Beispiel 12.4: insert picture here
Im Bild ist es offenbar nicht möglich, die Gleichung
∇f (x) = α1 ∇g1 (x) + α2 ∇g2 (x)
zu erfüllen, da die Gradientenvektoren ∇g1 (x) und ∇g2 (x) auf einer Geraden liegen, die in einer anderen Richtung verläuft als der Gradientenvektor ∇f (x). Für
α1 = −λ1 und α2 = −λ2 ist dies aber gerade die erste der KT. Zur Erfüllung der
KT bereitet offenbar die lineare Abhängigkeit der Gradientenvektoren der Nebenbedingungen in der Lösung des Optimierungsproblems Schwierigkeiten. Daraus
ergibt sich die korrekte Verallgemeinerung der Beschränkungsqualifikation.
Definition 12.3 (Beschränkungsqualifikation) Der Punkt x̂ erfüllt die Beschränkungsqualifikation (BQ) genau dann, wenn die Gradientenvektoren ∇gj (x̂)
linear unabhängig sind für diejenigen j ∈ {1, . . . , m}, für die die zugehörigen
Nebenbedingungen bindend sind, also gj (x̂) = 0.
Beispiel 12.5:
(i) Seien f (x) = x1 + x2 , g1 (x) = 4 − 2x1 − x2 und g2 (x) = 1 − 12 x1 − x2 . Dann
erfüllt x̂ = (2, 0) die BQ, da ∇g1 (x̂) = (−2, −1) = t(− 12 , −1) = t∇g2 (x̂), also
∇g1 (x̂) und ∇g2 (x̂) linear unabhängige Vektoren sind.
(ii) Seien nun f (x) = x1 + x2 , g1 (x) = 4 − 2x1 − x2 , g2 (x) = 1 − 12 x1 − x2
und g3 (x) = 3 − 12 x1 − x2 . Zwar sind nun ∇g2 (x̂) und ∇g3 (x̂) linear abhängig.
Trotzdem erfüllt x̂ = (2, 0) die BQ, da die dritte Nebenbedingung nicht bindend
121
12 Optimierungstheorie
ist, denn g3 (2, 0) = 2 > 0 und für die beiden anderen Nebenbedingungen ∇g1 (x̂)
und ∇g2 (x̂) linear unabhängige Vektoren sind.
Wir kommen nun zu den entscheidenden Sätzen, die mit Hilfe der Lagrangefunktion und der Kuhn-Tucker-Bedingungen notwendige und hinreichende Bedingungen zur Lösung von Optimierungsproblemen mit Nebenbedingungen in Form von
Ungleichungen formulieren.
Satz 12.4 (Notwendige Bedingungen) Seien f, gj für j = 1, . . . , m an den
relevanten Stellen differenzierbare Funktionen von Rn nach R. Sei x̂ eine Lösung
des Optimierungsproblems
max f (x)
x
u.d.N. gj (x) ≥ 0 für j = 1, . . . , m,
und x̂ erfülle die Beschränkungsqualifikation, dann existieren Lagrangevariablen
λ̂ = (λ̂1 , . . . , λ̂m ), so daß (x̂, λ̂) die Kuhn-Tucker-Bedingungen
(1) ∇f (x) + m
j=1 λj ∇gj (x) = 0
(2)
gj (x) ≥ 0
(3)
λj ≥ 0
(4)
λj gj (x) = 0
für j = 1, . . . , m
für j = 1, . . . , m
für j = 1, . . . , m
erfüllt.
Für die hinreichende Bedingung sei nun gleich die allgemeinere Formuliereung
basierend auf Quasikonkavität der Zielfunktion und ihrer Nebenbedingungen genannt.
Satz 12.5 (Hinreichende Bedingungen) Seien f, gj für j = 1, . . . , m quasikonkave, an den relevanten Stellen differenzierbare Funktionen von Rn nach R.
Ferner erfülle (x̂, λ̂) die Kuhn-Tucker-Bedingungen
(1) ∇f (x) + m
j=1 λj ∇gj (x) = 0
(2)
gj (x) ≥ 0
(3)
λj ≥ 0
(4)
λj gj (x) = 0
für j = 1, . . . , m
für j = 1, . . . , m
für j = 1, . . . , m.
Dann ist x̂ eine Lösung des Optimierungsproblems
max f (x)
x
u.d.N. gj (x) ≥ 0 für j = 1, . . . , m.
122
12 Optimierungstheorie
Beispiel 12.6:
(i) Seien f (x) = −x21 − x22 und g(x) = 4 − x1 − x2 . Die zugehörige Lagrangefunktion ist
L(x, λ) = f (x) + λg(x) = −x21 − x22 + λ(4 − x1 − x2 )
und die KT sind (1) ∇L(x) = (−2x1 − λ, −2x2 − λ) = 0, (2) 4 − x1 − x2 ≥ 0, (3)
λ ≥ 0 und (4) λ(4 − x1 − x2 ) = 0. Offenbar erfüllt nur (x, λ) = (0, 0, 0) die KT,
da λ > 0 zum Widerspruch zwischen der 1. und 2. Bedingung führt. Da f und g
konkav sind, löst (x) = (0, 0) das Optimierungsproblem maxgj (x)≥0 f (x).
(ii) Seien nun f (x) = −(x1 − 3)2 − (x2 − 3)2 und g(x) = 4 − x1 − x2 mit
Lagrangefunktion
L(x, λ) = f (x) + λg(x) = −(x1 − 3)2 − (x2 − 3)2 + λ(4 − x1 − x2 ).
Die KT sind (1) ∇L(x) = (−2(x1 −3)−λ, −2(x2 −3)−λ) = 0, (2) 4−x1 −x2 ≥ 0,
(3) λ ≥ 0 und (4) λ(4 − x1 − x2 ) = 0. Offenbar erfüllt jetzt nur (x, λ) = (2, 2, 2)
die KT, da hier λ = 0 zum Widerspruch zwischen der 1. und 2. Bedingung
führt. Da f und g konkav sind, löst also (x) = (2, 2) das Optimierungsproblem
maxgj (x)≥0 f (x).
(iii) Betrachte f (x) = x1 und die beiden Nebenbedingungen g1 (x) = 4 − x1 − x2
und g2 (x) = 2 − (x1 − 3)2 − (x2 − 3)2 mit Lagrangefunktion
L(x, λ) = x1 + λ1 (4 − x1 − x2 ) + λ2 (2 − (x1 − 3)2 − (x2 − 3)2 ).
Offenbar löst x = (2, 2) das Optimierungsproblem, denn dies ist der einzige Punkt
der beide Nebenbedingungen erfüllt. Im Punkt x = (2, 2) ist die BQ nicht erfüllt,
da hier beide Nebenbedingungen g1 (x) ≥ 0 und g2 (x) ≥ 0 bindend sind und
∇g1 (2, 2) = (−1, −1) = − 12 ∇g2 (2, 2) = (2, 2) ist, also die beiden Gradientenvektoren ∇g1 (2, 2) und ∇g2 (2, 2) linear abhängig sind. Die erste KT-Bedingung
∇L(x) = (1 − λ1 − 2λ2 (x1 − 3), −λ1 − 2λ2 (x2 − 3)) = 0,
ist für x = (2, 2) nicht erfüllbar, da der Gradientenvektor ∇f = (1, 0) nicht
im von den Vektoren ∇g1 (2, 2) und ∇g2 (2, 2) aufgespannten linearen Unterraum
liegt.
(iv) Gegeben sei f (x) = x21 + x22 und g(x) = 4 − x1 − x2 mit Lagrangefunktion
L(x, λ) = f (x) + λg(x) = x21 + x22 + λ(4 − x1 − x2 ).
Die KT sind (1) ∇L(x) = (2x1 − λ, 2x2 − λ) = 0, (2) 4 − x1 − x2 ≥ 0, (3) λ ≥ 0
und (4) λ(4 − x1 − x2 ) = 0. Sie werden erfüllt von den beiden Tupeln (x, λ) =
(0, 0, 0) und (x, λ) = (2, 2, 4). Aus Beispiel (i) wissen wir, daß (x, λ) = (0, 0, 0)
das zugehörige Minimierungsproblem löst. x = (2, 2) ist ebenfalls keine Lösung,
denn z.B. ist f (−3, −3) = 18 > f (2, 2). In diesem Beispiel ist die Zielfunktion f
123
12 Optimierungstheorie
nicht konkav. Daher sind die KT-Bedingungen nicht hinreichend für eine Lösung
des Optimierungsproblems maxx1 +x2 ≤4 x21 + x22 . Da sie aber notwendig sind und
die beiden Punkte x = (0, 0) und x = (2, 2) nicht als Lösung in Frage kommen,
existiert keine Lösung zu maxx1 +x2 ≤4 x21 + x22 .
12.5 Nebenbedingungen in Form von Gleichungen
Betrachte in diesem Abschnitt eine differenzierbare Funktion f : Rn −→ R und
das Optimierungsproblem
max f (x) u.d.N. g(x) = 0.
x
Dieses Optimierungsproblem ist offenbar äquivalent zu
max f (x) u.d.N. g(x) ≥ 0 und − g(x) ≥ 0.
x
Die zugehörige Lagrangefunktion kann geschrieben werden als
L(x, λ1 , λ2 ) = f (x) + (λ1 − λ2 )g(x)
oder mit λ = λ1 − λ2 vereinfacht als
L(x, λ) = f (x) + λg(x).
Die KT-Bedingungen vereinfachen sich dann zu
(I)
∇f (x) + λ∇g(x) =
(II)
g(x) =
∂
L(x, λ), ∂x∂ 2 L(x, λ)
∂x1
∂
L(x, λ) = 0.
∂λ
=0
Die ”alten” Bedingungen (3) λ1 ≥ 0 und λ2 ≥ 0 implizieren kein Vorzeichen
für λ = λ1 − λ2 , während (4) λg(x) = 0 bereits aus (2) folgt. Also sind die
Bedingungen (3) und (4) redundant.
Die beiden folgenden Sätze sind die Anwendungen der Sätze 12.4 und 12.5 auf
Optimierungsprobleme mit m Nebenbedingungen in Form von Gleichungen. Sie
folgen unmittelbar mit Hilfe der vorgenommenen Notationskonvention.
Satz 12.6 (Notwendige Bedingungen) Seien f, gj : Rn −→ R für j = 1, . . . , m
an den relevanten Stellen differenzierbare Funktionen. Seien ferner f eine quasikonkave und gj lineare Funktionen. Falls x̂ eine Lösung des Optimierungsproblems
max f (x) u.d.N.
x
gj (x) = 0 für j = 1, . . . , m,
124
12 Optimierungstheorie
ist und die Beschränkungsqualifikation erfüllt, dann existieren Lagrangevariablen
λ̂ = (λ̂1 , . . . , λ̂m ), so daß (x̂, λ̂) die vereinfachten Kuhn-Tucker-Bedingungen, ab
hier abgekürzt mit KT’
(I) ∇f (x̂) + m
j=1 λ̂j ∇gj (x̂) = 0
(II)
gj (x̂) = 0
für j = 1, . . . , m
erfüllt.
Satz 12.7 (Hinreichende Bedingungen) Seien f, gj : Rn −→ R für j =
1, . . . , m an den relevanten Stellen differenzierbare Funktionen. Seien ferner f
eine quasikonkave und gj lineare Funktionen. Außerdem erfülle (x̂, λ̂) die vereinfachten Kuhn-Tucker-Bedingungen KT’
(I) ∇f (x̂) + m
j=1 λ̂j ∇gj (x̂) = 0
(II)
gj (x̂) = 0
für j = 1, . . . , m.
Dann ist x̂ eine Lösung des Optimierungsproblems
max f (x) u.d.N.
x
gj (x) = 0 für j = 1, . . . , m.
Man beachte, daß diese Formulierung wegen der einfachen Form der KT’ zwar
eine Vereinfachung der allgemeineren Form KT mit Nebenbedingungen als Ungleichungen darstellt aber gleichzeitig verschiedene Nachteile mit sich bringt.
Zunächst sind die Handlungsalternativen in den meisten ökonomischen Kontexten durch Ungleichungen in Form von Budget- oder Resourcenrestriktionen, also
obere oder untere Schranken gegeben. Ferner enthalten die KT’ keine Information
zum Vorzeichen der Lagrangevariablen. Da außerdem die hinreichende Forderung
der Quasikonkavität aller Funktionen bei Nebenbedingungen in Form von Gleichungen in die Forderung der Linearität der Nebenbedingungen übergeht, bleiben
nur wenige einfache Anwendungen übrig, bei denen die KT’ (I) und (II) der Sätze
12.6 und 12.7 die maßgeblichen Kriterien zum Lösen von Optimierungsproblemen
darstellen.
Beispiel 12.7: Ein typisches solches Problem ist das Nutzenmaximierungsproblem eines Haushaltes dessen Präferenzen erstens strikt monoton sind, der also
stets sein Budget voll ausschöpft und dessen Budgetrestriktion daher als Gleichung statt als Ungleichung angenommen werden kann. Wenn man zweitens annimmt, daß der Haushalt jedes Gut in strikt positiver Menge konsumieren möchte,
also Indifferenzkurven nicht die Achsen schneiden, dann folgt, daß in vielen relevanten Fällen die Untergrenzen an die konsumierten Gütermengen nicht bindend
sind und daher das betrachtete Nutzenmaximierungsproblem zum Nutzenmaximierungsproblem mit Budgetgleichung als Nebenbedingung äquivalent ist. Daraus folgt, daß die Lösung des Problems, also die Bestimmung der Nachfrage mit
125
12 Optimierungstheorie
Hilfe der beiden KT’ der Sätze 12.6 und 12.7 das ursprüngliche Problem nicht
vereinfacht, denn zuvor muß sichergestellt sein, daß erstens die Budgetrestriktion
bindend und zweitens keine andere Nebenbedingung bindend ist, was im Prinzip
genau der Analyse der KT-Bedingungen (3) und (4) entspricht, die – wie wir uns
erinnern – genau der Fallunterscheidung dient, ob Nebenbedingungen bindend
sind oder nicht. Da dieser Stoff Gegenstand der Mikro-Veranstaltungen ist, seien
hier nur wenige Beispiele genannt. Betrachte stets zweidimensionale Güterräume
mit Güterbündel x = (x1 , x2 ), Preisvektor p = (p1 , p2 ), exogenem Einkommen I
und das Optimierungsproblem
max u(x) u.d.N. I − p · x ≥ 0 und xi ≥ 0 für j = 1, 2. (MAX)
x
Die zugehörige Lagrangefunktion ist
L(x, λ, α1 , α2 ) = u(x) + λ(I − p1 x1 − p2 x2 ) + α1 x1 + α2 x2
und die ”normalen” KT sind
(1)
(2)
(3)
(4)
∇L(x) = ∇u(x) − λp + (α1 , α2 ) = 0
I − p1 x1 − p2 x2 ≥ 0, x1 ≥ 0 und x2 ≥ 0
λ ≥ 0, α1 ≥ 0 und α2 ≥ 0
λ(I − p1 x1 − p2 x2 ) = 0, α1 x1 = 0 und α2 x2 = 0.
Wir sehen, daß unter diesen Bedingungen alle Nebenbedingungen linear sind.
Dadurch sind gute Chancen gegeben, daß die vereinfachten KT’ gemäß der Sätze
12.6 und 12.7 zur Lösung von (MAX) genügen. Sie lauten
(I) ∇u(x) − λp = 0
(II) p1 x1 + p2 x2 = I.
1
1
(i) Für die konkave Cobb-Douglas-Nutzenfunktion u(x) = x12 x22 , strikt positives
Einkommen und Preise I > 0, p1 > 0 und p2 > 0 gelten alle Voraussetzungen, um
Satz 12.7 mit den vereinfachten KT’ anzuwenden, da die Nutzenfunktion strikt
monoton ist, die Indifferenzkurven nicht die Achsen schneiden und alle Nebenbedingungen linear sind. Eine Lösung der KT’ (I) und (II) löst also (MAX).
(ii) Die Cobb-Douglas-Nutzenfunktion u(x) = x21 x22 ist nicht konkav. Daher
können wir mit Hilfe von Satz 12.7 nicht schließen, das die vereinfachten KT’
und zu einer Lösung von (MAX) führen. In diesem Fall ist u(x) = x21 x22 aber
quasikonkav, was als hinreichende Bedingung ausreicht.
(iii) Die quasilineare Nutzenfunktion u(x) = x1 + ln x2 ist zwar strikt monoton
und konkav, aber deren Indifferenzkurven schneiden die x1 −Achse. Damit sind
die Voraussetzungen zur Anwendung der vereinfachten KT’ nicht erfüllt. Die KT
126
12 Optimierungstheorie
können aber angewendet werden und führen zu stetigen aber nicht differenzierbaren Nachfragefunktionen.1
(iv) Die Nutzenfunktion u(x) = x21 + x22 ist nicht konkav und auch nicht quasikonkav. Da die BQ für p1 > 0, p2 > 0 auf dem ganzen R2+ erfüllt ist, muß eine
Lösung von (MAX) die KT (1) bis (4) erfüllen. Es kann also Satz 12.4 angewendet
werden, hingegen nicht Satz 12.5. Die Lagrangefunktion ist
L(x, λ, α1 , α2 ) = x21 + x22 + λ(I − p1 x1 − p2 x2 ) + α1 x1 + α2 x2
und die KT für diese Nutzenfunktion lauten
(1) ∂x∂ 1 L(x) = 2x1 − λp1 + α1 = 0 und ∂x∂ 2 L(x) = 2x2 − λp2 + α2 = 0
(2) I − p1 x1 − p2 x2 ≥ 0, x1 ≥ 0 und x2 ≥ 0
(3) λ ≥ 0, α1 ≥ 0 und α2 ≥ 0
(4) λ(I − p1 x1 − p2 x2 ) = 0, α1 x1 = 0 und α2 x2 = 0.
Da u strikt monoton ist, gilt stets λ > 0 und p1 x1 + p2 x2 = I. Aus der Bedingung (4) ergeben sich also 3 mögliche Fälle. Ecklösung (e1) mit α1 > 0 impliziert
x1 = 0 und x2 = pI2 . Ecklösung (e2) mit α2 > 0 impliziert x2 = 0 und x1 = pI1 .
Tangentiallösung (t) mit α1 = α2 = 0 impliziert mit KT (1) Grenzrate der Substitution gleich Preisverhältnis oder xx12 = pp12 . Unter diesen drei Fällen kommen nur
(e1) und (e2) als Lösung von (MAX) in Frage2 , da das durch (t) charakterisierte
Güterbündel das Nutzenminimum aller Güterbündel auf der Budgetgeraden ist.
Man beachte, daß die vereinfachten KT’ uns nur zum Nutzenminimum (t) auf der
Budgetgeraden hinführen aber im Gegensatz zu KT nicht zur Lösung des Nutzenoptimierungsproblems. Damit zeigt dieses letzte Beispiel insbesondere, daß KT’
im Gegensatz zu KT keine notwendigen Bedingungen sind, falls die Zielfunktion nicht konkav ist, also zur Bestimmung einer Lösung von (MAX) nicht helfen
können.
12.6 Existenz und Eindeutigkeit von Lösungen
Wir haben Beispiele gesehen, bei denen keine Lösung zu einem Optimierungsproblem existiert. Der folgende Satz gibt hinreichende Bedingungen für die Existenz
von Lösungen zu Optimierungsproblemen.
Satz 12.8 (Satz von Weierstrass) Sei f : Rn −→ R stetig und die Auswahlmenge A ⊆ Def(f ) ⊆ Rn nicht leer und kompakt. Dann existiert eine Lösung zum
Optimierungsproblem maxx∈A f (x).
1
Die Berechnungen der Nachfragen sind Gegenstand der entsprechenden MikroVeranstaltungen.
2
Beides sind lokale Maxima, das globale ergibt sich durch den Nutzenvergleich dieser beiden.
127
12 Optimierungstheorie
Beispiel 12.8: Als Fortsetzung des Beispiels 12.5 aus der Mikroökonomie betrachte das Nutzenmaximierungsproblem MAX gegeben durch
max2 u(x) u.d.N. p1 x1 + p2 x2 ≤ I, x1 ≥ 0, x2 ≥ 0
x∈R
mit stetiger Nutzenfunktion u(x1 , x2 ) auf dem 2-dimensionalen Güterraum Preisen p1 , p2 und exogenem Einkommen I ≥ 0.
(i) Betrachte zunächst den Fall strikt positiver Güterpreise p1 , p2 > 0. Wir
wollen zeigen, daß aus dem Satz von Weierstrass folgt, daß MAX eine Lösung
besitzt. Dafür muß die Budgetmenge
A = x ∈ R2 |p1 x1 + p2 x2 ≤ I, x1 ≥ 0, x2 ≥ 0
nicht leer und kompakt sein. A ist nicht leer, denn sie enthält stets das Element
(0, 0). Außerdem ist die Auswahlmenge beschränkt. Als obere Schranke wähle
2
z.B. a = max{ pI1 , pI2 }. Sei z.B. p1 ≤ p2 . Dann gilt ||x|| = x21 + x22 ≤ a = pI1
2
für alle x ∈ A, denn gäbe es umgekehrt ein x ∈ A mit x21 + x22 > a2 = pI1 ,
dann gälte wegen 0 < p1 ≤ p2 auch
(p1 x1 + p2 x2 )2 =
≥
≥
≥
p1 x1 + p2 x2 >
(p1 x1 )2 + 2p1 x1 p2 x2 + (p2 x2 )2
(p1 x1 )2 + (p2 x2 )2
(p1 x1 )2 + (p1 x2 )2
I 2 also
I,
was x ∈ A widerspricht. Eine entsprechende Abschätzung gilt offenbar auch für
p1 ≤ p2 . Also ist A beschränkt. Die obere Schranke a = max{ pI1 , pI2 } ist tatsächlich
die kleinste obere Schranke der Budgetmenge, denn
# #
#
#
# #
# I
#
I
# , # 0,
# = a.
,
0
max #
# #
# p1
p2 #
Es bleibt zu prüfen, ob A abgeschlossen ist. Da A seinen Rand ∂A enthält, denn
die A begrenzenden Ungleichungen sind alle schwach, ist A auch abgeschlossen
und also kompakt. Gemäß des Satzes von Weierstrass existiert daher eine Lösung
von MAX.
(ii) Falls einer der Preise, z.B. p1 = 0 ist, ist die Budgetmenge
A = x ∈ R2 |p1 x1 + p2 x2 ≤ I, x1 ≥ 0, x2 ≥ 0
nicht mehr beschränkt, also nicht kompakt. Dies erkennt man daran, daß für die
eben definierte kleinste obere Schranke a gilt
I I
,
= ∞.
lim a = lim max
p1 →0
p1 →0
p1 p2
128
12 Optimierungstheorie
In der Tat besitzt MAX für keine der in Beispiel 12.5 untersuchten Nutzenfunktionen eine Lösung, da der Haushalt unersättlich bezüglich eines Gutes mit dem
Preis 0 ist.
(iii) Sei nun die Auswahlmenge gegeben durch
A = x ∈ R2 |p1 x1 + p2 x2 ≤ I, x1 > 0, x2 ≥ 0 ,
d.h. vom Gut 1 darf nicht die Menge x1 = 0 konsumiert werden. Dann kann
der Satz von Weierstrass nicht mehr angewendet werden, auch wenn die Preise
p1 , p2 > 0 strikt positiv sind und die Auswahlmenge daher beschränkt ist, denn
für I > 0 ist A nicht abgeschlossen und für I = 0 ist A leer. Auch in diesem Fall
lassen sich einfach Nutzenfunktionen angeben, so daß MAX tatsächlich keine
Lösung besitzt, z.B. für u(x) = x2 würde der Haushalt gerne nur das Gut 2
konsumieren. Da nicht die Menge 0 vom Gut 1 konsumiert werden kann, existiert
zu jedem Güterbündel x ∈ A ein gegenüber diesem präferiertes.
Der Satz von Weierstrass zeigt uns, daß Stetigkeit eine wichtige Voraussetzung
für die Existenz von Lösungen ist. Der folgende Satz zeigt entsprechend, daß
Konvexität bzw. strikte Quasikonkavität eine wichtige Voraussetzung für die Eindeutigkeit von Lösungen ist.
Satz 12.9 Sei A ⊆ Def(f ) ⊆ Rn eine konvexe Auswahlmenge und f : Rn −→ R
strikt quasikonkav auf der Auswahlmenge A. Dann existiert nicht mehr als eine
Lösung zum Optimierungsproblem maxx∈A f (x).
Die Beweisidee ist, daß konvexe Kombinationen λx̂+(1−λ)x̄ zweier verschiedener
Lösungen x̂, x̄ stets ebenfalls Lösungen sein müssen wegen der Konvexität der
Auswahlmenge und der Quasikonkavität. Wegen der strikten Quasikonkavität
gilt aber, daß strikte konvexe Kombinationen λx̂ + (1 − λ)x̄ für 0 < λ < 1 sogar
strikt bevorzugt werden, was ein Widerspruch dazu ist, daß x̂, x̄ Lösungen sind.
Beispiel 12.9:
(i) Sei A = {0, 1} und f (x) = x − x2 . Dann ist f strikt konkav, also auch
strikt quasikonkav. Dennoch besitzt maxx∈A f (x) die beiden Lösungen 0 und 1.
Das liegt daran, daß A keine konvexe Menge ist. Würde man die Auswahlmenge konvexifizieren, d.h. in diesem Fall zum Optimierungsproblem maxx∈[0,1] f (x)
übergehen, dann kommt Satz 12.9 zur Anwendung und es kann höchstens eine
Lösung existieren. In diesem Fall wäre die eindeutige Lösung x = 12 .
(ii) Sei A = (0, 1) und f (x) = −x2 , dann ist A konvex und f strikt quasikonkav, also gilt Satz 12.9 und es existiert nicht mehr als eine Lösung. In diesen
Beispiel existiert keine Lösung, da A nicht kompakt ist, also die Voraussetzungen
des Satzes von Weierstrass nicht erfüllt sind.
129
12 Optimierungstheorie
Satz 12.8 nennt Bedingungen, die mindestens eine Lösung garantieren, während
Satz 12.9 Bedingungen nennt, die die Zahl der Lösungen auf höchstens eine beschränkt. Daraus folgt zusammen:
Satz 12.10 Sei A ⊆ Def(f ) ⊆ Rn eine nicht-leere, kompakte und konvexe Auswahlmenge und f : Rn −→ R stetig und strikt quasikonkav auf der Auswahlmenge
A. Dann existiert genau eine Lösung zum Optimierungsproblem maxx∈A f (x).
Beispiel 12.10: Die Beispiele 12.7,(i) bis (iii) erfüllen alle Voraussetzungen des
Satzes 12.10 und garantieren daher eindeutige Lösungen des Nutzenmaximierungsproblems. Daraus ergibt sich die Existenz einer Nachfragefunktion, die jedem Tupel (p1 , p2 , I) ein eindeutiges am meisten präferiertes Güterbündel zuordnet. In Beispiel 12.5.(iv) dagegen ist die Nutzenfunktion nicht strikt quasikonkav.
Die Nachfrage existiert wegen des Satzes von Weierstrass zwar, ist aber nicht mehr
eindeutig und daher keine Funktion3 .
3
Sie ist eine Korrespondenz, die nicht eindeutig zu sein braucht. Es ist nicht schwierig aber
nicht Gegenstand dieses Skriptums, die meisten zentralen Aussagen der Mikrotheorie von
Funktionen auf Korrespondenzen zu verallgemeinern.
130
Literaturverzeichnis
[1] K. Binmore (1983). Calculus. Cambridge, London, New York: Cambridge
University Press.
[2] L. Blume und C. Simon (1994). Mathematics for Economists. New York,
London: W. W. Norton.
[3] I. Bronstein, K. Semendjajew und G. Musiol (1999). Taschenbuch der Mathematik. Erweiterte und überarbeitete Auflage. Thun, Frankfurt/Main: Harri Deutsch.
[4] A. Chiang (1984). Fundamental Methods of Mathematical Economics. 3.
Auflage. Auckland, London, Tokio: McGraw-Hill.
[5] A. Dixit (1990). Optimization in Economic Theory. 2. Auflage. New York,
Oxford: Oxford University Press.
[6] A. Mas-Colell, M. Whinston und J. Green (1995). Microeconomic
Theory. New York, Oxford: Oxford University Press.
[7] D. Ohse (2002). Mathematik für Wirtschaftswissenschaftler I - Analysis. 5.
Auflage. München: Vahlen.
[8] H. Rommelfanger (2001). Mathematik für Wirtschaftswissenschaftler I
5. Auflage. Heidelberg, Berlin: Spektrum: Akademischer Verlag.
[9] K. Sydsæter, und P. Hammond (2002).Essential Mathematics for Economic Analysis. 3. Auflage. Prentice Hall.
128
Herunterladen