Tutorium Mathematik in den Wirtschaftswissenschaften 1 Vorwort Liebe Kommilitoninnen und Kommilitonen, wer hat keine Angst davor, dass seine Mathematikkenntnisse aus der Schule nicht ausreichen, um ein mathelastiges Studium zu bestreiten? Wer hat nicht schon einen Teil der Methodik aus den ersten Semestern vergessen, die irgendwann einfach fehlt? Dieses Skript entstand, um euch die Angst vor dem Mathematikanteil in BWL und VWL zu nehmen und soll als Lernund Nachschlagewerk - nicht nur für Erstsemester - dienen. Zu diesem Zweck wurden zum Wintersemester 09/10 auch freiwillige Mathematiktutorien eingeführt, die keine Ergänzung zur Vorlesung Mathematik für Wirtschaftswissenschaftler bilden, sondern als separate Lerngruppen dem Erwerb und der Auffrischung methodischer Kenntnisse dienen sollen. Sollten euch die mathematischen Werkzeuge auf den folgenden Seiten nicht (mehr) geläufig sein, bieten die Tutorien eine gute Gelegenheit, eure Lücken ganz unproblematisch zu füllen, bevor diese zum Problem werden. Wir haben versucht, dieses Skript als ein Leitfaden zu den Tutorien zu gestalten und alle gängigen Methoden, die ihr im Laufe eures Studiums benötigen werdet, darzustellen. Auf den folgenden Seiten findet ihr deshalb die wichtigesten mathematischen Werkzeuge für BWL und VWL, angefangen bei den Grundrechenarten bis hin zur Stochastik. Trotz sorgfältiger Arbeit erheben wir allerdings nicht den Anspruch auf Vollständigkeit oder vollkommene Fehlerfreiheit. Vielmehr hoffen wir, dass dieses Skript im Laufe der Semester aktualisiert und immer weiter verbessert wird. Im Gegenteil befinden sich einige Passagen noch in der Bearbeitung. Deshalb begrüßen wir Verbesserungen und Vervollständigungen eurerseits, die dazu führen sollen, das Skript zu einer immer nützlicheren Hilfe für möglichst viele Studentinnen und Studenten werden zu lassen. Eure Vertreter der Fachschaft VWL, Oktober 2009 Version v0.3: 16. Oktober 2010 1 Inhaltsverzeichnis 1 Vorwort 1 2 Grundrechenarten 5 2.1 Addition und Multiplikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Bruchrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2.1 Gleicher Nenner: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2.2 Ungleicher Nenner: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Potenzrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3.1 Ganze“ Exponenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ” Rationale Exponenten: Wurzeln . . . . . . . . . . . . . . . . . . . . . . . 6 Logarithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 2.3.2 2.4 3 Gleichungen 8 10 3.1 Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.2 Äquivalenzumformungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3 Verschiedene Gleichungstypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.4 3.3.1 Lineare Gleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.2 Quadratische Gleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.3 Kubische Gleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3.4 Bruchgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.3.5 Wurzelgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3.6 Binomische Formeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3.7 Exponentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3.8 Logarithmusgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Beispiel: Das IS-LM-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4 Differentialrechnung 24 4.1 Rechenregeln der Differentialrechnung . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2 Marginale und diskrete Wertänderungen . . . . . . . . . . . . . . . . . . . . . . 29 4.3 Extremwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.4 Krümmungsverhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5 Funktionen mit mehreren Variablen 33 5.1 Ableiten einer Funktion mit mehreren Variablen . . . . . . . . . . . . . . . . . . 33 5.2 Beispiel: Grenzprodukte und Skalenerträge . . . . . . . . . . . . . . . . . . . . . 34 5.3 Extremwerte bei Funktionen mehrerer Variablen . . . . . . . . . . . . . . . . . . 35 5.4 Das totale Differential . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2 5.5 Methode nach Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 6 Integralrechnung 6.1 41 Stammfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.1.1 Fundamentalsatz der Analysis . . . . . . . . . . . . . . . . . . . . . . . . 42 6.1.2 Bilden von Stammfunktionen . . . . . . . . . . . . . . . . . . . . . . . . 42 6.2 Das unbestimmte Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 6.3 Das bestimmte Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6.4 Beispiel: Konsumentenrente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 7 Matrixalgebra 46 7.1 Warum Matrizen nützlich sind . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 7.2 Rechnen mit Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 7.3 7.2.1 Addition und Subtraktion . . . . . . . . . . . . . . . . . . . . . . . . . . 47 7.2.2 Matrizen-Multipikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7.2.3 Multipikation einer Matrix mit einem Skalar . . . . . . . . . . . . . . . . 50 7.2.4 Transponieren einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . 51 Besondere Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 7.3.1 Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 7.3.2 Nullmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 7.3.3 Quadratische Matrix und Einheitsmatrix . . . . . . . . . . . . . . . . . . 52 7.4 Zusammenfassung der Rechenregeln der Matrixalgebra . . . . . . . . . . . . . . 53 7.5 Lineare Abhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 7.6 Determinanten quadratischer Matrizen . . . . . . . . . . . . . . . . . . . . . . . 55 7.7 Inverse einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 7.8 7.7.1 Formale Herleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 7.7.2 Gauß-Jordan Elimination 7.7.3 Cramer’sche Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Beispiel: Herleitung des multivariaten OLS-Schätzers . . . . . . . . . . . . . . . 61 7.8.1 Ableiten der Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 7.8.2 Auflösen der Gleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 8 Stochastik 66 8.1 Begriff der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 8.2 Definition von Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 67 8.2.1 Laplace-Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 67 8.2.2 Axiomatische Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . 68 3 8.3 Diskrete und stetige Zufallsvariablen: Wahrscheinlichkeits-, Dichte- und Verteilungsfunktion . . . . . . . . . . . . . . . 69 8.4 8.3.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 8.3.2 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 8.3.3 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Rechnen mit Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 8.4.1 Mengenlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 8.4.2 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . 77 8.4.3 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 8.4.4 Die Momente einer Wahrscheinlichkeitsverteilung . . . . . . . . . . . . . 80 4 2 Grundrechenarten Da bei manchem Studienanfänger der Schulunterricht vielleicht schon eine Weile zurück liegt, wollen wir in diesem ersten einführenden Kapitel zunächst mathematische Grundprinzipien wiederholen. Wir wollen so jedem Nutzer dieses Skripts ermöglichen, sich die mathematische Methode von der Pike“ an in Erinnerung zu holen. ” 2.1 Addition und Multiplikation Für Addition und Multiplikation gelten drei Gesetze: 1. Kommutativgesetz: a + b = b + a Beispiel: 1 + 2 = 2 + 1 = 3 2. Assoziativgesetz: (a + b) + c = a + (b + c) Beispiel: (1 + 2) + 3 = 1 + (2 + 3) = 6 3. Distributivgesetz: (a + b) · c = c· a + c· b Beispiel: (2 + 5) · 2 = 2 · 2 + 5 · 2 = 14 2.2 Bruchrechnung m “. m ist der Zähler, n der Nenner. Ein Nenner n = 0 ist ”n nicht definiert. Sogenannte Echte Brüche“ sind Brüche mit m < n. Für unechte Brüche“ gilt ” ” m > n. Brüche mit m = 1 sind Stammbrüche. Der Kehrwert bildet sich durch die Vertauschung Ein Bruch ist eine Zahl der Form von Zähler und Nenner. Bruchoperationen: • Erweitern: a b = a·c b·c = ac ;c bc ̸= 0 5 Beispiel: • Kürzen: Beispiel: 2 3 = a b = 2·5 3·5 = 10 15 a÷c b÷c 9 9÷9 = 18 18÷9 = 1 2 • Addieren/Subtrahieren 2.2.1 a+b c 5 Beispiel: 6 + 16 a c + b c Gleicher Nenner: = 2.2.2 = 1 1 =1 Ungleicher Nenner: Brüche mit ungleichen Nennern müssen auf den gleichen Nenner gebracht werden, bevor eine Addition oder Subtraktion möglich ist. Hierbei bedient man sich des Erweiterns. Der Hauptnenner ist das kleinste gemeinsame Vielfache der Nenner. a b a·d c·b + d·b b·d Beispiel: 14 + 23 + c d = = ad+cb bd Hauptnenner: 4· 3 = 12 ⇒ 1·3+4·2 4·3 = 11 12 • Multiplizieren: ab · dc = • Dividieren: a b ÷ c d ac bd = ab · dc = ad bc Das Kürzen und Dividieren, sowie Multiplizieren und Erweitern sind zu unterscheiden! 2.3 2.3.1 Potenzrechnung Ganze“ Exponenten ” an : Potenz n: Exponent 6 a: Basis an sei eine Kurzschreibweise für das Produkt ∏n a = a · a · ... · a Es gelten folgende Definitionen: p • a( q ) = b ⇔ ap = bq • a−n = 1 an • a1 = a • a0 = 1 Zusätzlich gelten folgende Operationen: • b · an + c · an = (b + c) · an Diese Regel ist einfach eine Verallgemeinerung des Distributivgesetzes. • am · an = a(m+n) Wenn die Basen (die a’s) gleich sind, werden diese multipliziert, indem man einfach deren Exponenten addiert. • am an = a(m−n) Diese Regel läuft analog zur vorhergehenden Regel, nur dass bei einer Division gleicher Basen die Hochzahlen subtrahiert werden. • ( ab )−n = ( ab )n Ist die Hochzahl negativ, so erhält man einen positiven Exponenten, wenn man Zähler und Nenner vertauscht. Dieses Ergebnis kann man sehr leicht selbst ausrechnen. • an · bn = (ab)n Sind die Basen unterschiedlich, aber die Exponenten gleich, so kann man den Exponenten herausziehen. Umgekehrt gilt natürlich auch: Sollte man zwei zu multiplizierende Basen umschreiben wollen, muss man selbstverständlich bei jeder Basis an den Exponenten denken. • (an )m = anm Und zum Schluss: Wird eine Potenz potenziert, so multipliziert man einfach die Exponenten. 7 2.3.2 Rationale Exponenten: Wurzeln Wurzeln sind Potenzen mit rationalen Exponenten. Somit ist das Rechnen mit Wurzeln nur Rechnen mit Brüchen als Hochzahl. Beispiele: √ n m am = a( n ) √ 2 a2 = a( 2 ) = a1 = a √ 4 3 a4 = a( 3 ) √ √ √ 3 1 3 3 5 3 ab = (ab)( 5 ) = (ab)( 5 · 2 ) = (ab)( 10 ) Nebenbei: Rechnungen in dieser Ausführlichkeit kosten zwar ein klein wenig mehr Zeit, aber sie minimieren die Fehlerwahrscheinlichkeit drastisch. Zum Üben und in der Klausur ist diese Ausführlichkeit auf jeden Fall gerechtfertigt! Nun sei noch auf das Rationalmachen der Nenner verwiesen: √ a a b √ ⇔ b b Auch wenn es banal klingt: Übt das Rechnen mit Wurzeln! Unsicherheiten mit solchen Grundoperationen können in Klausuren viele Punkte kosten, die leicht verdient wären. 8 2.4 Logarithmen Hier betrachten wir nun allein die Rechenregeln zum Logarithmus. Was ein Logarithmus konkret ist oder woher die zunächst unverständlichen Rechenregeln überhaupt kommen, wird später noch erläutert. Hier beschränken wir uns zunächst nur auf den ”natürlichen Logarithmus”. Die Gleichung ax = b ist nur durch den Logarithmus lösbar: ax = b| ln ⇒ x · ln a = ln b ln b ⇔x = ln a Diese Regel ist manchen noch aus der Oberstufe geläufig. Die Nützlichkeit und seine Praktikabilität gewinnt der Logarithmus durch diese Beziehung: ln(bm cn ) = m ln b + n ln c bm ) = m ln b − n ln c cn Diese Beziehung bedeutet nichts anderes als den Ausdruck einer Multiplikation durch eine ln( Addition. Für diejenigen, die sich an Rechengesetzte wie die Produktregel“ in der Differenti” alrechnung erinnern, wissen, wie wertvoll es sein kann, einen multiplikativen Zusammenhang additiv ausdrücken zu können. Der natürliche Logarithmus ist sehr eng mit der Eulerzahl e verbunden. Es gilt nämlich: ex = b ⇒ x = ln b Es gilt vor allem ln e = 1. 9 3 Gleichungen Durch Gleichungen lassen sich quantitative, also zählbare, Beziehungen zwischen verschiedenen Variablen beschreiben. Das Beschreiben solcher Zusammenhänge spielt in den Wirtschaftswissenschaften eine große Rolle. Dazu betrachten wir ein einfaches Beispiel: Verkauft eine Eisdiele an einem Tag y Kugeln Eis zu einem Preis von p, dann ist es nur logisch, dass sich der Umsatz durch Multiplikation der beiden Größen berechnen lässt. Verkauft die Eisdiele also konkret 200 Kugel Eis für je 0,5 Euro, so beträgt der Umsatz 100 Euro. Der Umsatz ist also sowohl von Preis und Verkaufsmenge abhängig. Eine Gleichung ist dabei nichts weiter als die Übersetzung“ ei” nes solchen, beschriebenen Sachverhaltes in eine formale Notation. Im Beispiel unserer Eisdiele können wir den Umsatz U folgendermaßen beschreiben: U =p·y Für die zuvor gewählten Zahlen beträgt der Umsatz also U = 200 · 0,5 = 100 wie wir es bereits verbal beschrieben haben. In den Wirtschaftswissenschaften werden natürlich häufig weitaus komplexere Probleme analysiert. Allgemein erfreut sich die Beschreibung dieser Probleme mit Hilfe mathematischer Schreibweisen großer Beliebtheit. Dies liegt an unter anderem an zwei wesentlichen Vorteilen dieser Methodik, die sich aber auch in unserem einfachen Beispiel bereits offenbaren: • Formale Schreibweisen sind sehr kompakt: Die formale Notation lässt sich für einen geübten Leser deutlich schneller lesen als die Schilderung eines Sachverhalts durch einen langen Aufsatz. Dazu erlaubt die Mathematik im Gegensatz zu einer verbalen Erläuterung keine mehrdeutige Interpretation durch einen dritten Leser. • Gleichungen haben trotzdem immer eine nichtmathematische Intention. In der Ökonomie müssen Gleichungen wie der Zusammenhang zwischen Umsatz, Preis und Verkaufsmenge ökonomisch und nur sehr selten mathematisch begründet werden. Alle Zusammenhänge, die sich aus Kombination der zu Beginn als gegeben angenommenen Gleichungen durch Anwendung der mathematischen Gesetze ableiten lassen sind ebenfalls richtig und haben eine ökonomische Bedeutung. Bei der obigen Gleichung handelt es sich bereits um eine Funktion und damit um einen speziellen Typen einer Gleichungen. Allgemein lassen sich Gleichungen in drei verschiedene Grundtypen unterteilen, die im Folgenden kurz aufgeführt sind. 10 1. Identitäten: Bei Identitäten läst sich durch Umformen einer Seite der Gleichung immer der Inhalt der anderen Seite replizieren. Somit wären Gleichungen wie z.B. a = a eine triviale Identität. Andere Beispiele für Identitäten sind: • an · am = an+m • ln(x · y) = ln x + ln y • 3+4=7 2. Bestimmungen: Bei Bestimmungen lassen sich unbekannte Werte der Gleichung durch Auflösen nach diesen Werten errechnen. Häufig ist dazu eine Umformung von Nöten. Beispiele sind: • x+1=7 • 4x = 5 • ln x = 1 + x 3. Funktionen: Mit Funktionen werden Werte einer abhängigen Variablen durch Werte von anderen, unabhängigen Variablen beschrieben. So war es zum Beispiel mit dem Umsatz der Fall. Der Umsatz, die abhängige Variable, ist durch die Werte von Preis und Verkaufsmenge festgelegt, die wir hier als unabhängig angenommen haben. Somit ist Der Umsatz eine Funktion von Preis und Verkaufsmenge. Wie das Beispiel schon naheliegt sind Funktionen für die Wirtschaftswissenschaften sehr wichtig. Wir werden Funktionen im folgenden Verlauf dieses Skriptes deshalb noch näher betrachten. Andere (nicht-ökonomische) Beispiele für Funktionen sind: • y = x2 + 2 • y = sin x • y = ex + x 2 3.1 Funktionen Eine Funktion beschreibt immer eine Input-Output-Beziehung. So ist unser Umsatz U wie bereits erwähnt, eine Funktion der Variablen Preis (p) und Verkaufsmenge (y). Die beiden zuletztgenannten Variablen sind hierbei der (exogene, also von außen vorgegebene) Input. Der Umsatz, das Ergebnis der Funktion, ist der (endogene, also durch Anwendung unseres 11 Modells beschriebene) Output, der sich aus diesem Input errechnen lässt. Man beschreibt eine solche allgemeine Input-Output-Beziehung in der Mathematik auch mit U = f (p, y) wobei der Autor damit lediglich zum Ausdruck bringen will, dass U eine (bisher noch nicht spezifizierte) Funktion (hier f ) der Werte p und y ist. Eine solche allgemeine Funktion lässt sich nun genauer definieren. Der Umsatz ist, wie uns bereits bekannt, einfach das Produkt der beiden Variablen. Also setzen wir: f (p, y) := p · y Mit dem Doppelpunkt vor dem Gleichheitszeichen signalisieren wir dem Leser unserer Formel, dass wir die obige, spezielle Funktionsform an dieser Stelle zum ersten Mal (selbst) definieren. Wir möchten ihn dadurch darauf aufmerksam machen, dass dieser Zusammenhang zuvor noch nicht bekannt war und insbesondere nicht nach den allgemeinen, mathematischen Gesetzen gilt. In den Wirtschaftswissenschaften ist es dabei wichtig, sich den Unterschied zwischen einer Funktion und einfachen (exogenen) Variablen immer vor Augen zu halten. In vielen Aufsätzen und Skripten sind diese beiden Variablentypen nämlich nicht immer in ihrer Notation zu unterscheiden. Wollte man zum Beispiel den Gewinn unserer Eisdiele errechnen, so wäre der Gewinn (π) widerum eine Funktion von Umsatz abzüglich der Kosten. Definieren wir die Kosten mit K = g(x) := x2 so liese sich der Gewinn mit π = h(U, K) := U − K beschreiben. Hier ist der Gewinn aber nicht von zwei Variablen sondern von zwei Funktionen abhängig, die selbst widerum durch (exogene) Variablen erklärt werden. Sauberer könnte man auch schreiben: π = h(U, K) := U (p, x) − K(x). Allerdings verzichten viele Autoren auf eine solche explizite Darstellung. Dass Funktionen hier mit Großbuchstaben markiert sind und Variablen durch Kleinbuchstaben soll hier lediglich der einfacheren Lesbarkeit im weiteren Verlauf des Skriptes dienen und wird in der Literatur in dieser Präzision selten befolgt. Außerdem ist darauf zu achten, dass Funktionen nicht immer so deutlich wie oben dargestelt definiert werden, sondern dass sich diese Eigenschaft manchmal lediglich aus dem Kontext verstehen lässt. Würden wir beispielsweise, wie zu Beginn dieses Kapitels, einfach behaupten, dass der Umsatz durch ein Produkt aus Preis und Verkaufsmenge ist, hätten wir sinngemäß ebenfalls eine Funktion definiert. Formal korrekter werden Funktionen häufig auch als explizite Abbildung eines Werteraums auf einen anderen Werteraum aufgeschrieben. Inhaltlich macht dies keinen Unterschied, allerdings sind viele Studenten mit dem Lesen solcher Formalisierungen nicht vertraut. Aus diesem Grund 12 wollen wir an dieser Stelle bereits kurz auf die Mengenlehre, die in den späteren Kapiteln noch im Detail beschrieben ist, vorgreifen. Hier soll zunächst nur kurz dargestellt werden, wie die Beschreibung einer Abbildung allgemein zu interpretieren ist. Unsere als Beispiel genutzte, allgemeine Funktion für den Umsatz (U = f (p, x)) liese sich als Abbildung folgendermaßen notieren: + + f : R+ 0 × N0 → R0 Diese Darstellung sieht auf den ersten Blick sehr kompliziert aus, ist aber eigentlich sehr trivial. Diese Formel liest sich wie folgt: Die Funktion f kombiniert (×) jede beliebige, positive reele + Zahl (R+ 0 ) mit einer beliebigen positiven natürlichen Zahl (N0 ). Als Ergebnis (→) ergibt sich daraus widerum eine beliebige, positive reele Zahl (R+ 0 ). An unserem Beispiel also könnte ein Leser aus dieser Notation sinngemäß erkennen, dass sich aus der Funktion f der Preis mit der Absatzmenge zu dem Umsatz als Ergebnis kombinieren lässt. Dass aber eine Multiplikation vorgenommen wird oder welche andere spezielle Form die Funktion annimmt, lässt sich aus dieser Schreibweise nicht erkennen. Allerdings sind die Wertbereiche der Variablen aus der Definition einer Abbildung zu erkennen. Wir wissen also, dass für die Verkaufsmenge nur Ganzzahlen erlaubt sind. Dass Preis und Umsatz hingegen auch Kommastellen zulassen. 3.2 Äquivalenzumformungen Existierende Gleichungen, nicht nur Funktionen, lassen sich grundsätzlich beliebig um neue Elemente erweitern oder um bestehende Elemente kürzern. Dadurch wollen wir den Zusammenhang der Zahlen und Variablen kompakter darstellen oder Ergebnisse hervorheben. Die eigentliche Aussage oder Gültigkeit einer Gleichung wird dabei nicht verändert. Dieses, vielen sicherlich noch aus der Schulmathematik bekannte, Konzept wird mit Hilfe sogenannter Äquivalenzumformungen umgesetzt. Als Beispiel betrachten wir den beliebig gewählten Term: x − a = b. Um hieraus z.B. x zu bestimmen greifen wir auf die Äquivalenzumformung zurück: Wir wollen ein Ergebnis im Sinne von: x = . . . erhalten. x−a = b ⇔ (x − a) + a = b + a ⇔x = b+a 13 |+a Mit Hilfe des Pfeilsymbols ⇔ verdeutlichen wir dabei, dass es sich um eine Äquivalenzumformung handelt; wir also lediglich die Darstellung der Gleichung verändert haben und sich die vorherige und aktuelle Zeile im eigentlichen Inhalt nicht unterscheiden. Wollen wir dem Leser außerdem deutlich machen, welches Element wir in der nächsten Zeile auf beiden Seiten hinzufügen oder entfernen, so schreiben wir die Rechenoperation hinter einen Lämngsstrich (|) an die rechte Seite der Gleichung. Letzteres ist in der Literatur oder auch in Skripten allerdings unüblich. Analog funktionieren solche Äquivalenzumformungen für die Subtraktion, was am folgenden Beispiel verdeutlicht sein soll: x+a = b |−a ⇔ (x + a) − a = b − a ⇔x = b−a Das Gleiche funktioniert natürlich auch bei multiplikativen Verknüpfungen: x = b a x ⇔ ·a = b·a a ⇔x = b·a |·a a·x = b a·x b ⇔ = a a b ⇔x = a |:a Oder auch für die Division: 3.3 Verschiedene Gleichungstypen Leider sind Gleichungen nur selten so einfach lösbar wie wir es im vorherigen Abschnitt beschrieben und gezeigt haben. Das Lösen von komplexeren Gleichungen erfordert die im folgenden beschriebenen Theorie, aber auch viel Übung und ein Auge für den nächsten Lösungsschritt. Macht euch aber keine Sorgen: Das Lösen von Gleichungen ist keine rocket science sondern 14 erfordert lediglich Routine und kann von Jedem erlernt werden. Lasst euch deshalb bitte nicht frustrieren, wenn ihr nicht von Anfang an selbstständig auf alle Lösungen der in den Vorlesung gerechneten Aufgaben kommt. Wie fast immer macht Übung auch hier den Meister. 3.3.1 Lineare Gleichungen Lineare Gleichungen sind die einfachste Form von Gleichungen. In solchen Gleichungen steht die unbekannte Variable, nach der wir auflösen wollen und die wir hier immer mit x bezeichnen wollen, mit der Hochzahl Eins. (x1 = x) Jede lineare Gleichung lässt sich deshalb in der Form a · x + b = 0 beschreiben, wobei a und b beliebige reele Zahlen sind und a ̸= 0. Die Lösung einer linearen Gleichung ist deshalb trivial immer: x = − ab . Wir verdeutlichen dies an folgendem Beispiel: 5(x + 2) = −3(x − 6) ⇔ 5x + 10 = −3x + 18 ⇔ 8x + 10 = 18 | + 3x | − 10 ⇔ 8x = 8 |:8 ⇔x = 1 Wer sich, insbesondere bei komplexeren Gleichungen, unsicher ist, ob das Ergebnis stimmt, kann abschließend eine Probe durchführen. Nur wenn das Einsetzen des Ergebnisses in jede Seite der ursprünglichen Gleichung indentisch ist, stimmt das errechnete Ergebnis. 3.3.2 Quadratische Gleichungen Quadratische Gleichungen sind algebraische Gleichungen, in denen höchstens die zweite Potenz vorkommt. Die unbekannte Variable, auch hier wieder mit x bezeichnet, darf also Höchstens mit der Hochzahl Zwei notiert sein. (x2 ) Gleichzeitig darf x aber auch mit der Hochzahl Eins in der Gleichung vorkommen. Jede quadratische Gleichung lässt sich deshalb in der Form ax2 +bx+c = 0 mit a ̸= 0 aufschreiben. 15 Solche quadratische Gleichungen können einfach mit der sogenannten Mitternachtsformel oder der p-q-Formel gelöst werden. Beide Arten der Lösung sind zur Lösung quadratischer Gleichungen geeignet. Die Mitternachtsformel lautet: x1,2 = −b ± √ b2 − 4ac 2a Dazu betrachten wir beispielhaft eine beliebig gewählte Gleichung: 3x2 − 18x + 13 = 4 + 2x Diese Gleichung müssen wir zunächst auf eine der Seiten auflösen. Wir bringen deshalb durch Subtraktion beziehungsweise Addition alle Terme auf die linke Seite. Es folgt: 3x2 − 18x + 23,25 = 4 + 2x | − 4 − 2x ⇔ 3x2 − 20x + 19,25 = 0 Zur Lösung dieser quadratische Gleichung nach x lässt sich nun die Mitternachtsformel anwenden. Dazu lassen sich durch simples Ablesen die Werte für a, b und c bestimmen. Diese sind nach der obigen Gleichung a = 3, b = −20 und c = 19,25. Diese Werte setzen wir nun in die Mitternachtsformel ein: ⇔ √ (−20)2 − 4 · 3 · 19,25 2·3 √ 20 ± 400 − 231 = 6 10 13 = ± 3 6 x1,2 = ⇔ −(−20) ± Diese Lösung besagt, dass die quadratische Gleichung zwei Nullstellen besitzt. Für die erste Lösung werden beide Ausdrücke addiert. Für die zweite Lösung wird der zweite Ausdruck vom ersten Ausdruck subtrahiert. Damit hat die Gleichung Nullstellen an den Punkten: 10 13 + ≈ 5,5 3 6 10 13 = − ≈ 1,167 3 6 x1 = x2 Betrachten wir nun die selbe Gleichung mit der p-q Formel. Die p-q Formel lautet √ p p x1,2 = − ± ( )2 − q 2 2 Um zu wissen, welche der beiden Formeln man anwenden soll, muss man zwischen allgemeiner Form und Normalform unterscheiden. Eine quadratische Gleichung in allgemeiner Form wurde 16 oben bei der Mitternachtsformel behandelt (ax2 + bx + c = 0). Die Normalform erhält man, indem man die quadratische Gleichung in allgemeiner Form durch a dividiert. Also: b c x2 + x + = 0 a a . Für die p-q Formel werden ab = p und ac = q gesetzt. Die Normalform ist also x2 + px + q = 0. Betrachtet man unsere quadratische Gleichung aus dem Beispiel, 3x2 − 20x + 19,25 = 0, so muss hier zuerst die Gleichung durch das a geteilt werden. In diesem Fall ist a = 3, also ergibt sich 20 19,25 + = 0. 3 3 Nun ist die quadratische Gleichung in Normalform und die p-q Formel kann verwendet werden. x2 − Hier setzt man wieder sturr ein: x1,2 − 20 = − 3 ± 2 √ ( − 20 19,25 3 2 ) − 2 3 Selbstverständlich sind die Ergebnisse für x1 und x2 die selben wie bei Anwendung der Mitternachtsformel. Welche Formel man verwendet, ist eine Frage der Gewöhnung und des Geschmacks. Je nach Art der Gleichung können quadratische Terme auch keine Nullstellen besitzen. Das ist immer dann der Fall wenn der Ausdruck unter der Wurzel der Mitternachtsformel negativ ist und ein Ergebnis damit nicht definiert ist. Sofern der Term unter der Wurzel Null zum Ergebnis hat, besitzt eine Gleichung nur eine Nullstelle. Mehr als zwei Nullstellen sind für einen quadratischen Ausdruck nicht möglich. 3.3.3 Kubische Gleichungen Als kubische Gleichung bezeichnet man eine Gleichung, in der die unbekannte Varbiable x in keiner höheren Potenz als der dritten vorkommt. (x3 ) Sie haben also die folgende Form: ax3 + bx2 + cx + d = 0, a ̸= 0 Solche Gleichungen werden in der Praxis zumeist mit Hilfe von Computerprogrammen gelöst. In den Veranstaltungen unseres Studiums hingegen werden kubische Gleichungen zumeist vermieden. Der Grund hierfür ist, dass es kein einfaches Lösungsverfahren für Gleichungen dieser Art gibt und die Mathematik viel Zeit verbrauchen würde. Die einzigen manuellen Möglichkeiten zur Lösung sind die folgenden: 17 • Für den Fall d = 0 wird schlichtweg ein x ausgeklammert. Somit reduziert sich die vormals kubische Gleichung zu x · (ax2 + bx + c) = 0. Die erste triviale Lösung der Gleichung ist x = 0. Aus der Klammer erhalten wir weiterhin eine quadratische Gleichung, die nach dem eben besprochenen Verfahren gelöst werden kann. Alle Nullstellen dieser quadratischen Gleichung sind auch Nullstellen der ursprünglichen, kubischen Gleichung. • Ist d ̸= 0 muss zur Bestimmung aller Nullstellen hingegen eine Lösung bekannt sein. Anschließend wird eine sogenannte Polynomdivision durchgeführt, die hier aber auf Grund der geringen Relevanz nicht besprochen werden soll. 3.3.4 Bruchgleichungen Wenn in einer Gleichung eine Variable im Nenner eines Ausdruckes auftritt, dann spricht man von sogenannten Bruchgleichungen. Um solche Gleichungen zu lösen müssen die Variablen im Nenner einfach beseitigt werden. Deshalb wird die Gleichung auf beiden Seiten mit dem sogenannten Hauptnenner multipliziert. Der Hauptnenner ist dabei derjenige Term, welcher alle Ausdrücke der Gleichung enthält für die gilt, dass sie im Nenner stehen und die gesuchte Variable beinhalten. Zur Veranschaulichung betrachten wir eine Beispielgleichung: x+1 2x − 1 = x−1 x Der Hauptnenner dieser Gleichung setzt sich, wie erklärt, aus den Ausdrücken im Nenner beider Seiten zusammen. Dieser Ausdruck ist: x · (x − 1) Multipliziert man nun den Hauptnenner mit beiden Seiten erhält man die folgende Gleichung: x · (x + 1) = (2x − 1) · (x − 1) Lösen wir die Klammer auf und bringen alle Ausdrücke auf eine Seite erhalten wir das folgende Ergebnis: x · (x + 1) = (2x − 1) · (x − 1) ⇔ x2 − 4x + 1 = 0 Das Lösungsverfahren für solche quadratische Lösungen ist uns bereits bekannt. Unter Verwendung der Mitternachtsformel können wir lösen: x1,2 = 2 ± √ 4−1 3 ≈ 3,73 √ = 2 − 3 ≈ 0,27 x1 = 2 + x2 √ 18 Allerdings ist eine letzte Einschränkung für diese Lösung zu beachten. Es ist möglich, dass die berechneten Ergebnisse in der Ursprungsgleichung eine Definitionslücke treffen. Das wäre dann der Fall wenn durch Verwenden der Lösung in einem Bruch eine Division durch Null verursacht würde, welche bekanntlich nicht definiert ist. Dann wäre das berechnete Ergebnis in Folge keine gültige Lösung. Das ist in unserer Beispielgleichung allerdings nicht der Fall. 3.3.5 Wurzelgleichungen Eine Gleichung, bei der eine Variable unter einer Wurzel (oder mit einer anderen Hochzahl 0 < p < 1 versehen) steht, ist eine sogenannte Wurzelgleichung. Zur Erläuterung des zugehörigen Lösungsverfahrens betrachten wir ein Beispiel: √ 5+ x+1=8 Um eine solche Gleichung zu lösen, isolieren wir den Ausdruck mit der Variable unter der Wurzel auf eine Seite: √ x+1=3 Anschließend quadrieren wir den Wurzelausdruck, um die Wurzel zu entfernen: x + 1 = 32 ⇔ x=8 Allerdings ist auch hier wieder darauf zu achten, dass die errechneten Ergebnisse keine Lösung für die Ursprungsgleichung sein müssen. Sofern das Ergebnis einen negativen Ausdruck unter der Wurzel verursacht, wäre die Nullstelle widerum nicht definiert. Anmerkung: Wenn man eine Gleichung betrachtet, bei der die Seiten quadriert werden, muss man eine wichtige Sache beachten, die, wie die Erfahrung gezeigt hat, oft falsch gemacht wird. Betrachtet man zum Beispiel die Wurzelgleichung √ x2 + 5 = x + 12. Nun quadriert man die Gleichung und erhält (x2 + 5) 2 ·2 = (x + 12)1·2 1 Leider wird die rechte Seite oftmals falsch umgeschrieben. Der Ausdruck ist nämlich nicht x2 + 122 ! (x + 12)2 ist per Definition (x + 12) · (x + 12). Eine solche Form muss eigentlich ausmultipliziert werden. Um das nicht ständig tun zu müssen (große Fehlerquelle!) hat wahrscheinlich jeder in der Schule die sogenannten binomischen Formeln auswendig lernen müssen, die wir im nächsten Abschnitt zeigen. 19 3.3.6 Binomische Formeln Binomische Formeln sind nützliche Werkzeuge zum Lösen und Vereinfachen von Termen in der Form (a ± b)n . In den Wirtschaftswissenschaften sind diese Formeln fast ausschließlich in der quadratischen Ausführung zu finden. Die binomischen Formeln lauten hier: 1. (a + b)2 = a2 + 2ab + b2 2. (a − b)2 = a2 − 2ab + b2 3. (a − b)(a + b) = a2 − b2 Durch binomische Formeln lassen sich unter anderem auch hochdimensionale Gleichungen lösen, die andernfalls ein komplexeres Lösungsverfahren erfordern würden. Betrachten wir dazu als Beispiel die folgende Gleichung. 4x4 − 8x2 − 5 = 0 Durch Anwendung der oben als zweites notierten binomischen Formel mit a = 2x2 und b = 2 können wir die folgende Umformung durchführen: 4x4 − 8x2 − 5 = 0 ⇔ 4x4 − 8x2 + 4 − 9 = 0 ⇔ ⇔ ⇔ ⇔ (2x2 − 2)2 = 9 √ 2x2 − 2 = 9 x2 = 52 √ x = 2,5 Natürlich gibt es auch für die n-te Potenz eine allgemeine Form der binomischen Formeln. Die allgemeine Form wirkt allerdings sehr abschreckend, weswegen wir sie hier nicht zeigen. 3.3.7 Exponentialgleichungen Gleichungen, in denen eine Variable im Exponenten steht, nennt man Exponentialgleichung. Exponentialgleichungen lassen sich in aller Regel nie exakt lösen, außer wenn die Variablen ausschließlich in Exponenten vorkommen. In diesem Fall führt am einfachsten eine Umformung 20 durch einen Logarithmus zum Erfolg. Dazu versucht man zunächst die Ausdrücke mit dem Exponenten zu isolieren. Als Beispiel betrachten wir die folgende Gleichung: 5x + 1 = 3 ⇔ x ln 5 = ln (3 − 1) | ÷ ln 5 ⇔ x= ln 2 ln 5 Eine Gleichung in denen die Variablen nicht ausschließlich in den Exponenten vorkommen, lässt sich hingegen nicht nach dem vorgestellten Verfahren lösen. Sucht man beispielsweise eine Lösung für eine Gleichung wie 2x = x + 1 so lässt sich eine solche nur durch Näherungsverfahren wie z.B. das Newtonverfahren lösen. Da solche Verfahren in den Wirtschaftswissenschaften aber nur eine geringe Rolle spielen wollen wir an dieser Stelle allerdings nicht näher auf diese Methoden eingehen. 3.3.8 Logarithmusgleichungen Befindet sich eine Variable im Argument eines Logarithmus, dann betrachten wir eine Logarithmusgleichung. Sind diese Ausdrücke nicht durch schlichte Umformungen auflösbar, so müssen die Gleichungen durch geeignete Substitutionen, wie im folgenden besprochen, in eine lösbare Form gebracht werden. Treten Variablen hingegen nicht ausschließlich in den Logarithmen auf, so ist die Gleichung wie zuvor nur durch Näherungsverfahren lösbar, die hier nicht besprochen werden. Wir betrachten zur Verdeutlichung des Lösungsverfahrens ein Beispiel: ln x2 = 2 ln (3x + 1) ⇔ ln x2 = ln (3x + 1)2 Da ein Logarithmus sogenannte injektive Eigenschaften1 müssen beide Ausdrücke für den Logarithmus ebenfalls gleich sein, damit die oben beschriebene Gleichheit erfüllt sein kann. Daraus folgt: x2 = (3x + 1)2 ⇔ 1 x = − 12 Eine Funktion ist injektiv, wenn man von der Gleichheit der Funktionswerte darauf schließen kann hat, dass die eingesetzten Werte die gleichen waren. Interessierte können sich den Begriff der Surjektivität auch mal näher anschauen 21 3.4 Beispiel: Das IS-LM-Modell Der Großteil der Veranstaltung Makroökonomie I setzt ein gutes Grundverständnis im Umgang mit Gleichungen voraus. Deswegen wollen wir beispielhaft eine zentrale Gleichung aus einem Modell der Veranstaltung diskutieren. Diese lautet: Y =C +I +G Diese Gleichung ist eine Identität und besagt das Folgende: Das Einkommen einer Ökonomie (Y ) soll sich aus dem Konsum (C), den Investitionen (I) und den Staatsausgaben (G) zusammensetzen. Diese Komponenten sind im Modell selbst widerum als Identitäten definiert. Der Konsum sei C = c0 +c1 (Y −T ), die Investitionen seien I = b0 +b1 Y −b2 i und die Staatsausgaben seien G = g1 Y = T , wobei T die Steuern repräsentieren. Es soll im Folgenden aber nicht die Intuition der Gleichungen diskutiert werden, dafür wollen wir uns auf die algebraischen Eigenschaften der Gleichungen konzentrieren. Ziel der Übung ist es, einen Wert für Y zu bestimmen, der nur von den exogenen Variablen erklärt wird. Durch simples Einsetzen dieser Identitäten können wir Y zunächst zu Y = c0 + c1 (Y − g1 Y ) + b0 + b1 Y − b2 i + g1 Y auflösen. Bis auf den im IS-LM-Modell endogenen Zins i und das zu bestimmende Einkommen Y sind all diese Variablen nach Aussage des Modells exogen bestimmt. Der Zins (i) wird dabei auf dem Geldmarkt festgesetzt. Die Geldnachfrage sei durch M = d1 Y − d2 i P gegeben. Diese Gleichung besagt inhaltlich: M ist die exogene Geldmenge, P das exogene Preisniveau. Die Variable d1 bezeichnet dabei die sogenannte Einkommensreagibilität der Geldnachfrage, d2 die Zinsreagibilität. Auch diese Variablen sind exogen. Da wir bereits eine Gleichung kennen, in welcher nur i und Y unbekannt sind können wir durch Einsetzen einer Gleichung in die andere ein definitives Ergebnis für diese Variablen bestimmen. Dafür wollen wir zunächst die zweite Gleichung, die des Geldmarktes, nach i auflösen: M = d1 Y − d2 i P 1 ⇔ d2 i = d1 Y − M |· P d2 d2 1 1 M ⇔ d2 i = d2 d1 Y − d2 P ⇔ i= d1 Y d2 − M d2 P Somit haben wir einen Ausdruck für i erhalten den wir im weitren Rechenvorgang verwenden können. Es folgt durch Einsetzen in die zuerst besprochene Gleichung: d1 M Y = c0 + c1 (Y − g1 Y ) + b0 + b1 Y − b2 ( Y − ) + g1 Y d2 d2 P 22 Dieser Term entspricht nun allerdings noch nicht dem gesuchten Ergebnis. Die unbekannte und von uns zu bestimmende Variable Y steht nämlich noch auf beiden Seiten der Gleichung. Diesen Fehler wollen wir deshalb schrittweise beseitigen. Zunächst multiplizieren wir die Klammern aus: Y = c0 + c1 Y − c1 g1 Y + b0 + b1 Y − b2 M d1 Y + b2 + g1 Y d2 d2 P Nun bringen wir durch Addition beziehungsweise Subtraktion alle Y auf die linke Seite der Gleichung: Y − c1 Y + c1 g1 Y − b1 Y + b2 d1 Y − g1 Y d2 = c0 + b0 + b2 M d2 P Nun können wir Y ausklammern: Y (1 − c1 + c1 g1 − b1 + b2 d1 M − g1 ) = c 0 + b 0 + b 2 d2 d2 P Zum Schluss müssen wir nur noch Y isolieren also alle übrigen Variablen auf die rechte Seite bringen: Y = 1 M (c0 + b0 + b2 ) d1 d2 P 1 − c1 + c1 g1 − b1 + b2 d2 − g1 Damit haben wir das sogenannte gesamtwirtschaftliche Gleichgewicht im IS-LM-Modell hergeleitet: Wir haben also einen Wert für Y bestimmt, der durch ausschließlich exogene Variablen beschrieben wird. Dessen ökonomische Bedeutung wird noch in der zugehörigen VWLVeranstaltung besprochen. An dieser Stelle sollte die rein algebraische Herleitung durch Einsetzen und Aufösen veranschaulicht werden. 23 4 Differentialrechnung Mit der Differentialrechnung, vielen aus Schulzeiten sicher noch mit Bezeichnung das Ableiten bekannt, lässt sich bestimmen wie sensibel das Ergebnis einer Funktion auf eine Veränderung seiner Input-Werte reagiert. Anders gesagt lässt sich mit der Differentialrechnung also bestimmen in welche Richtung und mit welcher Stärke eine Variable y = f (x) sich ändert wenn wir den Eingabewert x variieren. Dabei ist y = f (x) eine zunächst noch unspezifizierte Funktion mit einer einzigen unabhängigen Variable x, die den Wert von y bestimmt. Die Ableitung einer solchen Funktion, häufig notiert mit f ′ (x), zeigt dabei genauer gesagt an, in welchem relativen Verhältnis sich y bei einer Änderung des x-Wertes verändert. Es sind hierfür aber auch folgende alternative Schreibweisen üblich: dy = fx (x) dx Alle diese Schreibweisen sind in den Wirtschaftswissenschaften gebräuchlich und bringen den f ′ (x) = oben beschriebenen Zusammenhang gleichwertig zum Ausdruck. Zum näheren Verständnis konkretisieren wir nun unsere Funktion f (x), um zuerst die Intuition der Differentialrechnung zu verstehen. Erst anschließend werden dann die zugehörigen Rechenregeln erläutert. Wir betrachten deshalb die beliebig gewählte Funktion y = f (x) mit f (x) := 4·x. Wie verändert sich hier der Wert von y wenn wir den Wert von x um eine Werteinheit erhöhen? Beim Betrachten der Funktion zeigt sich schnell: Natürlich verändert sich y um genau 4 Werteinheiten wenn x um 1 wächst. Erhöht man beispielsweise x von x = 1 auf x = 2 so wächst der Funktionswert y von y = 4 · 1 = 4 auf y = 4 · 2 = 8 um eben jene 4 Werteinheiten. Damit wächst der Wert von y also viermal so schnell wie der Wert von x. Diesen soeben verbal erklärten Zusammenhang würde auch die Differentialrechnung anzeigen. Deshalb gilt aus unserer Intuition für die Ableitung: f ′ (x) = (+) 4 Natürlich ist dieser Anstieg nur bei einer solch trivialen Funktion mit dem bloßen Auge erkennbar. Außerdem sind die Wertänderungen für eine nicht-lineare Funktion wie zum Beispiel g(x) = x2 auch nicht mehr für alle Werte von x konstant wie es in unserem einfachen Beispiel der Fall war. Aus diesem Grund nutzen wir die Rechengesetze der Differentialrechnung, um zuverlässig allgemeine Ableitungen für komplexere Funktionen zu berechnen. Diese in den Wirtschaftswissenschaften sehr häufig gebrauchten Rechengesetze wollen wir im folgenden Kapitel wiederholen. 24 4.1 Rechenregeln der Differentialrechnung Die Regeln zur Ableitung möchten wir hier kurz mit jeweils einem Beispiel vorstellen. • Konstante Funktion Wir betrachten eine Funktion f (x) = a wobei a hier einen fixierten Wert repräsentiert; einen exogenen Wert also, der sich innerhalb der Funktion niemals ändert. Der Wert x kommt in der Funktion f (x) folglich überhaupt nicht vor. Konsequenterweise ist auch die Ableitung f ′ (x) = 0. Dadurch wird nur naheliegendes zum Ausdruck gebracht: Wenn sich x ändert, verbleibt y bei seinem Ausgangswert. Die Variable y verändert sich also um das nullfache von x. Beide Variablen stehen also in keinem Zusammenhang und die Ableitung ist Null. • Potenzfunktion Diese Regel zählt wohl zu einer der bekanntesten Regeln der Differentialrechnung. Diese Regel besagt, dass eine Funktion differenziert wird, indem man bei jedem Argument zunächst den Exponenten als Produkt vor die Zahl zieht und dann den verbleibenden Exponenten um den Wert 1 vermindert. Eine Funktion f (x) = xa wird also mit f ′ (x) = a · xa−1 differenziert. Diese Regel lässt sich am vorherigem Beispiel einfach verdeutlichen. Ist g(x) = x2 , dann ist die Ableitung f ′ (x) = 2 · x2−1 = 2 · x. Ändert man den Wert von x also um eine sehr kleine Einheit, so ändert sich der Wert von y um das 2x-fache. Damit wird bei dieser Ableitung dem Umstand Rechnung getragen, dass der Wert von y bei größer werdenden x immer stärker ansteigt. Ändert man den Wert von x = 1 um eine kleine Einheit so steigt der Wert von y also 2 · 1 = 2 mal schneller als der von x. Ein Erhöhung ausgehend von einem Wert x = 10 verursacht hingegen bereits ein relativ 2 · 10 = 20-faches Ansteigen von y. • Summenregel Sind die Variablen einer Funktion additiv verknüpft, so lassen sich die Argumente jeweils für sich differenzieren. Eine Funktion der Form f (x) = 3 · x2 − 5 · x + 9 ergibt als Ableitung bei Anwendung der eben erläuterten Regeln damit beispielsweise f ′ (x) = 6 · x − 5. Die Vorzeichen der Verknüpfungen bleiben natürlich erhalten. • Produktregel Will man eine Funktion differenzieren, die selbst widerum ein Produkt aus Funktionen repräsentiert, dann benötigen wir hierfür die Produktregel. Betrachten wir für eine anschaulichere Darstellung dazu zwei beliebige Funktionen, die jeweils nur von einer exoge- 25 nen Variablen x abhängen. u(x) = x2 − 7x v(x) = x3 − 2x2 Es ist uns nun ohne weiteres möglich eine weitere Funktion zu definieren, deren Ergebnis sich aus dem Produkt von u(x) und v(x) bestimmen lässt. Wir definieren hierzu: f (x) = u(x) · v(x) = (x2 − 7x) · (x3 − 2x2 ) Die Produktregel besagt dann, dass sich das Ergebnis der Ableitung dieses Produkts allgemein wie folgt berechnen lässt: f ′ (x) = u′ (x) · v(x) + u(x) · v ′ (x) Wir Berechnen aus Gründen der Übersichtlichkeit zunächst: u′ (x) = 2x − 7 v ′ (x) = 3x2 − 4x Mit diesen Zwischenergebnissen lässt sich nun die Ableitung der ursprünglichen Funktion nach der Produktregel berechnen: f ′ (x) = u′ (x) · v(x) + u(x) · v ′ (x) ⇔ f ′ (x) = (2x − 7) · (x3 − 2x2 ) + (x2 − 7x) · (3x2 − 4x) ⇔ f ′ (x) = 2x4 − 4x3 − 7x3 + 14x2 + 3x4 − 4x3 − 21x3 + 28x2 ⇔ f ′ (x) = 5x4 − 36x3 + 42x2 Natürlich liese sich diese Ableitung auch durch einfaches Ausmultiplizieren der Ursprungsfunktion errechnen. Anschließend wären die Argumente dieser Funktion additiv verknüpft und liesen sich einzeln differenzieren. Allerdings ist die Produktregel häufig deutlich zeitsparend und gestattet außerdem allgemeiner notierte Differenzierungen. • Quotientenregel Die Quotientenregel wird bei sogenannten rationalen Funktionen angewendet. Eine rationale Funktion setzt sich, ähnlich wie im Beispiel zur Produktregel, selbst wieder aus zwei Funktionen zusammen. Es gilt also: f (x) = u(x) . v(x) Verwenden wir die spezifizier- ten Teilfunktionen u(x) und v(x) aus dem vorherigen Beispiel, dann wäre zum Beispiel f (x) = x2 −7x x3 −2x2 zu differenzieren. Die darauf anzuwendende Quotientenregel lautet nun: f ′ (x) = u′ (x) · v(x) − u(x) · v ′ (x) (v(x))2 26 Hier ist stärker noch als bei der Produktregel auf die Reihenfolge der Ableitungen im Zähler und Nenner zu achten. Wir machen uns bei der anfolgenden Berechnung die bisherigen Zwischenergebnisse zu nutze. u′ (x) · v(x) − u(x) · v ′ (x) (v(x))2 (2x − 7) · (x3 − 2x2 ) − (x2 − 7x) · (3x2 − 4x) ⇔ f ′ (x) = (x3 − 2x2 )2 2x4 − 4x3 − 7x3 + 14x2 − 3x4 + 4x3 + 21x3 − 28x2 ⇔ f ′ (x) = x6 − 4x5 + 4x4 f ′ (x) = • Kettenregel Die Kettenregel kommt immer dann zum Einsatz wenn zwei Funktionen ineinander verschachtelt sind. Man unterscheidet dabei zwischen einer inneren Funktion und einer äußeren Funktion. Diese Unterscheidung ist am einfachsten an einem Beispiel erklärt: Wir betrachten deshalb eine innere Funktion v(x) = x2 + 1 und eine äußere Funktion u(x) = (v(x))3 . Die Bezeichnungen bestehen deshalb, weil die äußere Funktion u(x) die innere Funktion v(x) vollständig umschließt. Die zugehörige Kettenregel zur Differenzierung solcher Funktionen f (x) = u(v(x)) ist gemeinhin mit dem Merkspruch Äußere mal innere Ableitung bekannt. Formal notiert gilt also: f ′ (x) = u′ (v(x)) · v ′ (x) Auch zum Ableiten dieser Beispielfunktion f (x) = u(v(x)) = (x2 + 1)3 betrachten wir zunächst die Teilergebnisse der jeweiligen Ableitungen von v(x) und u(x). Im Unterschied zu den bisherigen Ableitungen wird die äußere Funktion aber nach ihrer inneren Funktion anstatt nach x differenziert. Wir suchen also: du(v(x)) = 3(v(x))3−1 = 3(v(x))2 dv(x) dv(x) v ′ (x) = = 2x2−1 + 0 = 2x dx u′ (v(x)) = Bei Berücksichtigung der Kettenregel und der bisherigen Zwischenergebnisse lässt sich nun auch das Ergebnis von f ′ (x) errechnen. Es gilt: f ′ (x) = u′ (v(x)) · v ′ (x) ⇔ f ′ (x) = 3(x2 + 1)2 · 2x ⇔ f ′ (x) = 6x(x4 + 2x2 + 1) ⇔ f ′ (x) = 6x5 + 12x3 + 6x 27 • Exponentialfunktion Bei Exponentialfunktionen befindet sich die abzuleitende Variable naheliegenderweise im Exponenten der Funktion. Wir betrachten also eine Funktion des Typen f (x) = eg(x) wobei als Basis e = 2,718 . . . die sogenannte Euler’sche Zahl bezeichnet. Bei solchen Exponentialfunktionen wird zur Ableitung der differenzierte Exponent vor den Term gezogen; der ursprüngliche Term bleibt dabei allerdings unverändert. Die Ableitung ist damit allgemein: f ′ (x) = g ′ (x) · eg(x) Für eine konkrete Funktion f (x) = e3x wäre die Ableitung beispielsweise f ′ (x) = 3 · e3x . Diese Form der Ableitung reflektiert den Umstand, dass Funktionen solcher Art exponentiell, also immer stärker, ansteigen. Die Wachstumsrate ist dabei auf Grund der Euler’schen Zahl konstant was diese Funktionsform in den Wirtschaftswissenschaften sehr populär macht. Steht in der Basis allerdings eine andere als die Euler’sche Zahl ist diese Rechenregel nicht mehr anwendbar. Da solche Varianten in den Wirtschaftswissenschaften allerdings äußerst selten vorkommen, soll die Weiterführung dieser Rechenregel an dieser Stelle aber nicht besprochen werden. • Logarithmusfunktion Bei Logarithmusfunktionen wird ähnlich wie bei der Kettenregel zwischen einer inneren und einer äußeren Funktion unterschieden. Der Logarithmus selbst ist dabei die äußere Funktion, sein Inhalt die innere Funktion. Für eine Funktion des Typen f (x) = ln(g(x)) ist die Ableitungsregel wie folgt definiert: f ′ (x) = g ′ (x) g(x) Betrachten wir zur Veranschaulichung eine Beispielfunktion f (x) = ln(x3 + 4) so lautet die Ableitung unter Verwendung dieser Regel: g ′ (x) g(x) 3x2 ⇔ f ′ (x) = 3 x +4 f ′ (x) = Auch hier wurde wie bei der vorherigen Regel der sogenannte natürliche Logarithmus zur Basis e betrachtet. (ln = loge ) Für Logarithmen zu einer anderen Basis muss diese Ableitungsregel wieder verallgemeinert werden. Da derartige Ableitungen in den Wirtschaftswissenschaften allerdings ebenfalls äußerst selten sind, wollen wir diese Verallgemeinerung hier nicht betrachten. 28 Abschlussbemerkung: Das Beherrschen dieser Ableitungsregeln ist ein äußerst zentrales Konzept in den Wirtschaftswissenschaften weshalb es sich lohnt selbige gut zu trainieren. In vielen Fällen sind dabei verschiedene Regel zu kombinieren was erst nach ausreichend Übung flüssig gelingt. 4.2 Marginale und diskrete Wertänderungen Häufig versuchen Studenten Ableitungen fälschlicherweise dazu zu nutzen, um zu bestimmen wie stark ein Funktionswert y = f (x) bei einer diskreten Wertänderung von x ansteigt. Mit einer diskreten Wertänderung ist dabei eine reale, zählbare Wertänderung gemeint. So wäre eine Wertämnderung von x = 1 auf x = 2 eine solche diskrete Wertänderung. Eine marginale Wertänderung meint hingegen eine Wertänderung von beispielsweise x = 1 auf einen kleinstmöglich größeren Wert x = 1 + ϵ wobei ϵ ≈ 0 ist. Die Wertveränderung ϵ ist also beinahe Null. Wie wir soeben gelernt haben, gibt eine Ableitung immer das relative Wachstum von y = f (x) im Verhältnis zu x an. Dieses relative Wachstum kann sich von marginaler Einheit zu marginaler Einheit allerdings drastisch verändern. Betrachten wir zum Verständnis dieses Unterschieds eine Beispielfunktion y = f (x) := x2 und f ′ (x) = 2x. Erhöhen wir den Wert von x = 1 auf x = 2 so wächst y von f (x = 1) = 1 auf f (x = 2) = 4. Der Funktionswert wächst also um drei Einheiten während die Ableitung f ′ (x = 1) = 2 lediglich eine Verdopplung, also ein Wachstum um zwei Einheiten, vermuten lässt. Das liegt in der Tatsache begründet, dass die Ableitung f ′ (x) weiter von x abhängig ist, der Funktionswert y auf dem Weg von x = 1 zu x = 2 also immer stärker ansteigt. So verdoppelt sich y bei einem Anstieg von x = 1 auf x = 1 + ϵ zwar noch, bei einem Anstieg ausgehend von beispielsweise x = 1,5 beträgt die Ableitung hingegen bereits f ′ (x = 1,5) = 3. Der Funktionswert von y verdreifacht sich auf halbem Weg also bereits. Als Konsequenz lässt sich die absolute Wertdifferenz von y = f (x) zwischen zwei diskreten x nur noch sehr mühevoll aus der Ableitung bestimmen, da sich das relative Wachstum beständig ändert. Eine Ausnahme bilden lineare Funktionen. Hier ist die Ableitung f ′ (x) nicht mehr von x abhängig sondern bleibt für alle Wertänderungen gleich. Will man aus der Ableitung zu y = g(x) := 3x mit g ′ (x) = 3 also bestimmen wie stark der Funktionswert y mit einer Veränderung von x = 1 auf x = 2 ansteigt, so lässt sich dies aus der Ableitung ersehen: y wird um 3 Einheiten 29 wachsen, da das relative Wachstum auf dem Weg von 1 zu 2 unverändert bleibt. 4.3 Extremwerte In den Wirtschaftswissenschaften ist es ein beständiges Ziel Werte entweder zu minimieren oder zu maximieren: Sei dies der Nutzen eines Individiums, die Kosten einer Firma oder die Wohlfahrt Aller. Solche Extremwerte können wir mit unserem bisherigen Wissen sehr einfach bestimmen: Sie ergeben sich aus Anwendung der eben besprochenen Differentialrechnung. Betrachten wir dazu das einfache Beispiel einer Firma. Selbige kann auf einem Konkurenzmarkt ein Produkt x für einen festen Preis von p = 3 verkaufen. Bei der Herstellung fallen allerdings Kosten von K(x) = x2 an. Aus Intuition ergibt sich daher eine Gewinnfunktion π(x), die wir maxmimieren wollen: π(x) = 3x − x2 Wie wir im vorherigen Kapitel gelernt haben, zeigen positive Ableitungen ein relatives Wachstum an während negative Ableitungen ein Abfallen von Funktionswerten darstellen. Ein Maximum, sofern ein solches existiert, muss also an einem Punkt liegen, bis zu dem die Funktion mit x angestiegen ist und von dem aus die Funktion mit noch größeren x wieder abfällt. Das Maximum selbst würde demnach den Gipfelpunkt zwischen positiver und negativer Ableitung repräsentieren: Wir suchen also einen Punkt, in dem weder positives noch negtives Wachstum stattfindet, einen Punkt also in dem die Ableitung π ′ (x) = 0 ist. Ein solcher Punkt ist leicht zu ermitteln, indem wir die Ableitung unserer Funktion nullsetzen: π ′ (x) = 3 − 2x = 0 ⇔ 3 = 2x ⇔ x = 1,5 Dass ein solcher Punkt mit der Ableitung gleich Null existiert ist die sogenannte Bedingung erster Ordnung für einen Extrempunkt. Es ist für ein Maximum oder Minimum eine notwendige (also zwingend erforderliche) Bedingung, zur Bestimmung eines Extremwerts allerdings noch nicht hinreichend (wir konnten einen Extrempunkt also noch nicht eindeutig nachweisen). Denn bisher konnten wir lediglich zeigen, dass die Ableitung im Punkt x = 1,5 gleich Null ist. Wir wissen hingegen noch nicht, dass der Funktionswert bei einen marginal kleineren Wert ansteigt und bei einem marginal größerem Wert abfällt wie wir zuvor argumentiert hatten. Hinreichend ist lediglich die sogenannte Bedingung zweiter Ordnung, die im Abschluss des Folgekapitels, dem Krümmungsverhalten, erläutert wird. 30 4.4 Krümmungsverhalten Die Krümmung einer Funktion wird durch deren zweite Ableitung angezeigt. Diese wird mit: f ′′ (x) = d2 y = fxx (x) dx2 notiert. Man unterscheidet dabei zwischen rechtsgekrümmten (konvexen, f ′′ (x) > 0), linksgekrümmten (konkaven, f ′′ (x) < 0) und flachen (gleichzeitig konvex und konkav, f ′′ (x) = 0) Funktionen oder Funktionsabschnitten. Man teilt eine Funktionskurve in konvexe und konkave Intervalle ein: Eine Funktion kann also in bestimmten Wertebereichen konvex, in anderen hingegen konkav sein. Aus der Krümmung einer Kurve lässt sich die Bedingung zweiter Ordnung für einen Extremwert bestimmen. Hierfür überlegen wir uns aber zunächst was die Krümmung einer Kurve impliziert. • Bei einer konvexen Funktion ist die zweite Ableitung, wie zuvor angeführt, größer Null. Wie wir bereits argumentiert haben zeigt das Vorzeichen der ersten Ableitung immer an, ob eine Funktion steigt oder fällt. Wenn wir mit der zweiten Ableitung also ein positives Vorzeichen erhalten, wissen wir, dass die (positive) Steigung mit marginal größeren Werten wächst. (Oder dass die Funktion bei negativem Wachstum mit größer werdenden x immer weniger abfällt.) Denn die zweite Ableitung beschreibt die Eigenschaften der ersten Ableitung nicht anders als die erste Ableitung die Ursprungsfunktion beschreibt. Folglich der Definition konvexer Funktionen beschleunigt sich das Wachstum einer konvexen Funktion deshalb mit größeren x-Werten. Betrachten wir dazu als Beispiel die Funktion y = f (x) := x3 . Die erste Ableitung dieser Funktion lautet f ′ (x) = 3x2 . Die zweite Ableitung ist f ′′ (x) = 6x. Aus dem Vorzeichen der zweiten Ableitung können wir algebraisch folgern, dass die Funktion für x > 0 konvex ist, sich das Wachstum mit größer werdenden x also immer stärker beschleunigt. • Bei einer konkaven Funktion ist hingegen gegenteiliges der Fall. Die Steigung wird mit größer werdenden x nun immer schwächer was durch das negative Vorzeichen der zweiten Ableitung angezeigt wird. Betrachten wir wieder die Funktion f (x) = x3 . Für x < 0 ist die zweite Ableitung negativ, weshalb wir folgern können, dass die Funktion mit größeren x immer schwächer wächst. • Bei gleichzeitig konkaven und konvexen Funktionen ist die zweite Ableitung gleich Null. Das bedeutet analog zur ersten Ableitung, dass die Steigung unverändert stark ist. Folglich ist die Steigung konstant. Dies ist für f (x) = x3 an der Stelle x = 0 der Fall. 31 Mit diesem Wissen über das Krümmungsverhalten lässt sich nun spezifizieren, ob ein Extremwert ein Minimum, Maximum oder Flachpunkt ist. Betrachten wir dazu wieder die vorherige Gewinnfunktion π(x) = 3x − x2 . Die erste Ableitung ist π ′ (x) = 3 − 3x. Die zweite Ableitung lautet π ′′ (x) = −3. Folglich ist die Funktion konkav. Aus obiger Argumentation wissen wir also, dass das (positive) Wachstum der Funktionskurve in jedem Punkt schwächer wird. Das ist auch am Extrempunkt x = 1,5 der Fall. In Folge dessen wissen wir, dass der Funktionswert für marginal kleinere x immer weniger wächst. Für marginal größere x hingegen fällt die Funktion immer stärker ab. Nur falls dies der Fall ist, können wir uns gleichzeitig in einem Extrempunkt befinden und die Bedingung der Konkavität erfüllen. Folglich muss es sich bei dem Extrempunkt um ein Maximum handeln. Bis zu diesem x-Wert war die Funktion gewachsen. Für noch größere x fällt die Funktion hingegen wieder ab. Ist eine Funktion in einem Extrempunkt also konkav befinden wir uns in einem Maximum. Man sagt auch: Die Bedinung zweiter Ordnung für ein Maximum ist erfüllt. 32 5 Funktionen mit mehreren Variablen In den Wirtschaftswissenschaften sind Funktionen häufig nicht nur von einer einzelnen Inputvariablen abhängig. Wollen wir beispielsweise eine Abhängigkeitsbeziehung für die Verkaufsmenge (y) zu Preis (p) und Werbeausgaben (m) darstellen, müssten wir bereits zwei Variablen in die Funktion integrieren. Dies würde formal durch y = f (p, m) geschehen. Man spricht dabei auch von einer multivariaten Funktion. Bisher waren alle betrachteten Funktionen hingegen univariat. Die zuvor vorgestellten Rechengesetzte der Differentialrechnung sind auch für solche Funktionen gültig. Allerdings müssen beispielweise zur Bestimmung eines Maximums abweichende Bedingungen überprüft werden. 5.1 Ableiten einer Funktion mit mehreren Variablen Zur Veranschaulichung der Ableitungsregeln betrachten wir eine beliebige Beispielfunktion mit zwei Variablen. In diesem Fall die Funktion eines sogenannten Paraboloiden: y = f (x1 , x2 ) := x21 + x22 Wollen wir nun untersuchen wie sich der abhängige y-Wert bei marginalem Wachstum eines einzelnen Inputwerts ändert, so bilden wir die sogenannte partielle Ableitung. Diese wird nach den zuvor besprochenen Rechenregeln der Differentialrechnung gebildet. Dabei ist die nicht abzuleitende Variable einfach als Konstante anzusehen. Anstelle eines Delta-Symbols (d) wird zur Kenntlichmachung das Symbol der partiellen Ableitung (∂) verwendet. Selbige ist formal wie folgt definiert: ∂f (x1 , x2 , . . . , xn ) d f (x1 , x2 , . . . , xn ) = |dx−i =0 ∂xi dxi Diese Definition besagt nichts anderes als das eben erklärte: In einer Funktion mit n unabhängigen Variablen ist die partielle Ableitung nach einer einzelnen der Variablen in der Funktion xi (linke Seite) nichts weiter als das Differential (rechte Seite) unter der Bedingung, dass alle Variablen, die nicht xi sind (x−i ), unverändert bleiben (dx−i = 0). Die partiellen Ableitungen unseres Paraboloiden sind also: ∂f (x1 , x2 ) = 2x1 ∂x1 ∂f (x1 , x2 ) = 2x2 ∂x2 x2 als Konstante x1 als Konstante 33 Auch die Interpretation der partiellen Ableitung verhält sich analog zur Ableitung mit einer Variablen. Steigt eine der Variablen um einen marginalen Wert an, so wächst y relativ um das 2x1 - beziehungsweise 2x2 -fache. 5.2 Beispiel: Grenzprodukte und Skalenerträge Wir betrachten die sogenannte aggregierte Produktionsfunktion einer Volkswirtschaft. Dabei sei Y die Produktionsmenge. Diese ist von der Menge des eingesetzten Kapitals K und der eingesetzten Arbeitskraft N abhängig. Die Produktionsfunktion sei dabei wie folgt definiert: Y = F (K, N ) := K α N 1−α Wenn die Variable α zwischen 0 und 1 liegt (0 < α < 1), handelt es sich bei der Produktionsfunktion um eine sogenannte Cobb-Douglas-Funktion. Von selbiger wollen wir die sogenannten Grenzproduktivität bestimmen. Diese Grenzprodukte sollen zum Ausdruck bringen wie stark sich die Produktion ändert wenn man einen Inputfaktor marginal variiert. Dies wird mathematisch, wie zuvor besprochen, durch die partielle Ableitung zum Ausdruck gebracht. Für unsere Beispielfunktion betragen die Grenzprodukte: ∂Y = (1 − α)K α N (1−α)−1 = (1 − α)K α N −α ∂N ∂Y = αK α−1 N 1−α ∂K Zunächst ist festzustellen, dass die partiellen Ableitungen weiterhin von beiden Input-Variablen abhängig sind. Dass dies der Fall sein muss, ergibt sich intuitiv bereits aus der Ursprungsgleichung. Denn die beiden Variablen der Funktion sind multiplikativ verknüpft. Würden zur Produktion Y beispielsweise Null Einheiten Arbeit N eingesetzt wäre die Produktion immer Null, unabhängig vom verwendeten Kapital K. Ist das Niveau der eingesetzten Arbeit N hingegen sehr hoch ist der Einsatz einer weiteren Einheit Kapitals K für die Produktion Y hingegen sehr rentabel. Weiterhin sind beide Ableitungen und damit die Grenzerträge für alle Werte von N > 0 und K > 0 positiv. Das bedeutet, dass eine zusätzliche Einheit Arbeit N oder Kapital K den Output Y immer erhöhen. (Und ihn nicht veringern was sich aus einer negativen Ableitung folgern liese.) Wie sich diese Wertsteigerung für immer größeren Einsatz der Inputfaktoren verändert (steigende oder fallende Grenzerträge), gibt die zweite partielle Ableitung an: ∂ 2Y = −α(1 − α)K α N −α−1 ∂N 2 ∂ 2Y = α(α − 1)K α−2 N 1−α 2 ∂K 34 Die Ausdrücke am vorderen Ende der Ableitungen (−α) und (α − 1) sind jeweils negativ. Damit ist der Grenzertrag für beide Inputvariablen fallend. Dies bedeutet inhaltlich, dass eine zusätzliche Einheit Arbeit N oder Kapital K den Output Y zwar ansteigen lassen, aber die Produktivitätssteigerungen mit immer größeren Werten kontinuierlich abfallen. Betrachten wir zum Abschluss noch die sogenannten Skalenerträge dieser Funktion. Man untersucht mit solchen, in welchem Verhältnis eine Erhöhung (bzw. Veringerung) beider Inputwerte zu einer Erhöhung (bzw. Verminderung) des Outputs führt. Hierzu multipliziert man jeden Faktor der Funktion Y = F (K, N ) mit einer einzuführenden Konstanten c. Es gilt also Y = F (cK, cN ). Setzt man diese Werte in die gegebene Funktion ein und berechnet den resultierenden Exponenten des auszuklammernden c, so erhält man ein Ergebnis für die Skalenerträge: (cK)α (cN )1−α = cα K α c1−α N 1−α = cα cα−1 K α N 1−α = cα+(1−α) K α N 1−α = c1 K α N 1−α = c1 Y Für Skalenerträge gilt: Wenn der Exponent von c kleiner als 1 ist, so sind die Skalenerträge der Funktion fallend. Ist der Exponent gleich 1, so sind die Skalenerträge der Funktion konstant. Und für einen Exponenten größer 1 gelten steigende Skalenerträge. Zusammenfassend: Positive, allerdings abnehmende Grenzerträge mit konstanten Skalenerträgen sind die Eigenschaften, welche sich für die Cobb-Douglas-Produktionsfunktion ergeben. All dies wird in den Vorlesungen unseres Studiums noch im Detail besprochen. In diesem Abschnitt sollte lediglich ein Beispiel für die zuvor erlernte Methodik gegeben werden. 5.3 Extremwerte bei Funktionen mehrerer Variablen Betrachten wir nochmals unseren Paraboloiden f (x1 , x2 ) = x21 + x22 mit den ersten partiellen Ableitungen fx1 = 2x1 und fx2 = 2x2 . Solche Werte, an denen beide partiellen Ableitungen gleich Null sind, heißen stationäre Stellen. Für einen Extrempunkt ist es anschließend noch wichtiger als bei univariaten Funktionen, die zweite, hinreichende Bedingung für einen solchen Punkt zu überprüfen. Bevor wir hierauf aber näher eingehen, wollen wir aber zunächst die stationären Stellen unseres Paraboloiden bestimmen. Beide Ableitungen sind trivialerweise bei x1 = 0 und x2 = 0 gleich Null. Es handelt sich hierbei um die einzige stationäre Stelle unserer 35 Funktion. Als hinreichende Bedingung für einen Extremwert gilt bei multivariate Funktionen die erweiterte zweite Bedingung, dass das Produkt der zweiten partiellen Ableitung jeder Variablen an allen Punkten für x1 und x2 größer sein muss, als der Funktionswert der sogenannten gemischten partiellen zweiten Ableitung zum Quadrat. Einfacher ist diese Bedingung formal ausgedrückt: fx1 x1 (x1 , x2 ) · fx2 x2 (x1 , x2 ) > (fx1 x2 (x1 , x2 ))2 Bilden wir also die zur Überprüfung der hinreichenden Bedingung geforderten Ableitungen: fx1 x1 = 2 fx2 x2 = 2 Die Berechnung von fx1 x2 ist auch nicht schwieriger durchzuführen. Hierzu müssen wir lediglich das Ergebnis der ersten partiellen Ableitung nach x1 nochmal nach x2 differenzieren. Die Reihenfolge des Ableitens ist dabei nicht von Bedeutung, da das Ergebnis beider Reihenfolgen in jedem Fall identisch ist. Wir erhalten für unsere Beispielfunktion: fx1 x2 = 0 Nun setzen wir unsere Ergebnisse nur noch in die besprochene Bedingung ein: 2 · 2 > 02 Diese Bedingung ist selbstverständlich erfüllt. Wir haben also einen potentiellen Extremwert gefunden. Es bleibt die Frage, ob es sich bei selbigem um ein Minimum oder ein Maximum handelt. Diese Frage ist leicht zu beantworten: Sind beide zweiten partiellen Ableitungen nach x1 und x2 positiv, so handelt es sich bei dem Punkt um ein Minimum. Sind beide Ableitungen hingegen negativ, so haben wir ein Maximum gefunden. Haben beide Ableitungen verschiedene Vorzeichen, liegt kein Extrempunkt vor. In unserem Beispiel sind beide partiellen Ableitungen positiv. Das bedeutet der gefundene Punkt ist ein Minimum. 5.4 Das totale Differential Das totale Differential ist ein Werkzeug mit dem wir allgemein überprüfen können wie sich das Ergebnis einer Funktion y = f (x1 , x2 , . . . , xn ) mit beliebig vielen Input-Variablen ändert, wenn wir beliebig viele dieser Eingabewerte variieren. Formal ist das totale Differential folgendermaßen definiert: df (x1 , x2 , . . . , xn ) = n ∑ ∂f (x1 , x2 , . . . , xn ) i=1 36 ∂xi · dxi ∑ Dieser Ausdruck ist einfach zu übersetzen. Das Sigma-Symbol ( ) gibt eine Summe an. Diese Summe läuft über alle Variablen der Funktion von den Indizes 1 bis n. Summiert werden dabei alle partiellen Ableitungen der Funktion, welche mit der jeweiligen Änderung”(dxi ) multipliziert werden. Betrachten wir zunächst das triviale Beispiel einer Funktion mit einer unabhängigen Variablen: y = f (x) := x2 . Das totale Differential für diese Funktion lautet: dy = ∂f (x) ∂x · dx = 2x · dx. Wollen wir also bestimmen wie sich ausgehend von einem bestimmten x der y-Wert bei einer Variation von x verändert, können wir durch das totale Differntial eine approximative Änderung bestimmen. Befinden wir uns beispielsweise an einem Punkt x = 4 und erhöhen diesen x-Wert auf x = 6 (dx = 2), so ergibt das totale Differential: ∆ Betrachten wir als Beispiel für den Fall zweier Variablen: df δf δf = dx1 + dx2 dx δx1 δx2 Betrachten wir nochmal den Ausdruck für das Gesamtwirtschaftliche Gleichgewicht Y = M 1 (c0 + b0 + b2 ) d1 d2 P 1 − c1 + c1 g1 − b1 + b2 d2 − g1 Wir wollen nun untersuchen, wie eine marginale Erhöhung der Geldmenge den Output verändert. Hierzu bilden wir das Differential von Y dY = b2 1 M (d( )) d1 P 1 − c1 + c1 g1 − b1 + b2 d2 − g1 d2 Teilt man nun durch d( M ), erhält man P dY b2 = M d( P ) (1 − c1 + c1 g1 − b1 + b2 dd12 − g1 )d2 Da eine Änderung von c0 und b0 nicht betrachtet wird, werden diese Komponenten mit 0 multipliziert, sind also gleich 0. Was bedeutet dieser Term nun? Wir haben so den Geldmengenmultiplikator für diese Volkswirtschaft hergeleitet. Dieser gibt an, um wieviel sich der Output Y verändert, wenn die Geldmenge um eine Einheit erhöht wird. 37 5.5 Methode nach Lagrange Bei der Behandlung des Lagrange möchten wir die ökonomische Interpretation außen vor lassen. Diese wird in der Veranstaltung ”Mathematische Methodenäusgiebig diskutiert. Ebenso nehmen wir an, dass die hinreichende Bedingung bei der Maximierung/Minimierung unter Nebenbedingungen bereits erfüllt ist. 1 Betrachten wir also den in der Mikro 1 klassischen Fall2 . U (x1 , x2 ) = 6x12 x2 ist gegeben, dazu die Budgetbeschränkung für den Zwei - Güter - Fall p1 x1 + p2 x2 = m. Erster Schritt ist immer das Aufstellen der Lagrange-Funktion. 1 L = 6x12 x2 − λ(p1 x1 + p2 x2 − m) Hierbei ist es (noch) egal, ob ihr die durch das λ gewichtete Nebenbedingung addiert oder subtrahiert, was man an den nun folgenden Rechenschritten auch sehen wird. Da wir hier den Nutzen eines Individuums maximieren, gilt ebenso das Prinzip, partielle Ableitungen zu bilden und Null zu setzen. Beim Lagrange-Verfahren differenzieren wir nach allen Variablen und λ, wobei die Differenzierung nach λ uns wieder die Nebenbedingungen gibt. δL −1 = 3x1 2 x2 − λp1 = 0 δx1 1 δL = 6x12 − λp2 = 0 δx2 δL = −p1 x1 − p2 x2 + m δλ Nun lösen wir geschickt nach einer der beiden Variablen x1 oder x2 auf. Als erster Schritt bietet sich an, λp1 und λp2 auf die rechte Seite zu bringenund die erste Gleichung durch die zweite Gleichung zu dividieren, da sich so das λ eliminiert. −1 3x1 2 x2 = 1 2 6x1 p1 p2 Aufgrund der Rechenregeln für Exponenten bei gleichen Basen (s. Grundlagenkapitel) folgt 3x2 1 2 1 2 = 6x1 x1 p1 . p2 Kürzen und Anwenden der Potenzregeln führt zu p1 x2 = 2x1 p2 2 Klausuraufgabe SS09 38 Nun empfiehlt es sich, nach x2 aufzulösen: x2 = 2p2 x1 p2 Diesen Ausdruck setzt man nun in die Nebenbedingung ein und löst nach x1 auf, um die optimale Menge von x1 zu erhalten: p1 x 1 + p2 ( 2p2 x1 ) = m p2 3p1 x1 = m m x∗1 = 3p1 Analog rechnet man nun für x2 und erhält für x2 x∗2 = 2m 3p2 Um zu zeigen, wie einfach die Methode funktioniert, rechnen wir im Folgenden nicht mit zwei Variablen, sondern mit dreien. Wir betrachten als erstes einen beliebigen Studenten Hubert. Hubert will ein möglichst bequemes Semester haben. Seine Zufriedenheit lässt sich funktional darstellen aus einer Verknüpfung der ”Güter”Lernen (L), Schlaf (S) und Freizeit (F). Z(L, S, B) = L2 + S 2 + F 2 Allerdings hat der Tag nur 24 Stunden, unser Maximierungsproblem unterliegt also einer Restriktion: R := L + S + F = 24. Hieraus bilden wir nun die Lagrangefunktion L = Z − λR: L(L, S, B) = L2 + S 2 + F 2 − λ(L + S + F − 24) Beim Lagrange geht es schlichtweg nur um Maximierung unter Nebenbedingungen. Das erste, was man beim Wort ”Maximierung”denken muss, ist ërste Ableitung!”. Das gilt auch hier. 1.) Bilde alle partiellen Ableitungen erster Ordnung und setze sie Null! dL dL dL dS dL dF dL dλ = 2L − λ = 0 = 2S − λ = 0 = 2F − λ = 0 = −L − S − F + 24 = 0 39 2.) Löse geschickt nach den Variablen auf ! In diesem Beispiel ist es recht einfach. Man sieht, dass alle drei Variablen die gleiche Gewichtung haben. Daraus folgert man, dass L = S = F = 6. Leider gibt es kein Universal-Rezept“ hierfür, ” weshalb das Lösen manchmal etwas mehr Denken erfordert. 40 6 Integralrechnung Die Integralrechnung nutzt man zur Bestimmung der Fläche zwischen dem Graphen einer Funktion und der x-Achse. Die ökonomischen Anwendungen sind zahlreich, die erste Anwendung im VWL-Studium ist die der Rente“ sein. Zunächst werden Rechenregeln für unbestimmte In” tegrale erläutert und im zweiten Teil für bestimmte Integrale gezeigt, wie man ein Integral überhaupt berechnet. 6.1 Stammfunktionen Gegeben sei eine Funktion f : D −→ ℜ, wobei D ein Intervall sei. Gesucht wird eine differenzierbare Funktion mit F ′ = f . Wir betrachten hier der Einfachkeit halber nur stetige f . Um eine Verbindung zwischen der Fläche zwischen Graph und x-Achse und der Differentialrechnung herzustellen, sei auf den Mittelwertsatz der Integralrechnung hingewiesen: Sei f eine stetige Funktion auf [a,b] mit a¡b, dann gibt es eine Stelle ξ, mit a < ξ, b, sodass ∫b f (x)dx = (b − a)f (ξ). a Der Beweis hierzu ist nicht so kompliziert:3 Sei w der kleinste und W der größte Wert, den f im Intervall [a, b] annehmen kann. Dann gilt ∫b w(b − a) ≤ a f (x)dx ≤ W (b − a). Deswegen liegt ∫b 1 b−a a 4 f (x)dx zwischen w und W . Einen Zwischenwertsatz gibt es auch für stetige Funktionen. Nach diesem kann auch jeder Wert zwischen w und W als Funktionswert f (ξ) angenommen werden. 3 Zu Beweisen gilt generell: Sie mögen vielleicht in einer Vorlesung oder Übungsrunde schnell hingeschrieben sein. Aber: Dahinter steht oftmals tagelanges, in vielen Fällen sogar jahrelanges (jahrhundertelanges) Überlegen und Probieren. Von daher: Sich nicht verrückt machen lassen, wenn man so etwas nicht sofort nachvollziehen kann. 4 Übrigens auch auf Lagrange zurück zu führen. 41 6.1.1 Fundamentalsatz der Analysis Sei f : D −→ ℜ, D ein Intervall, eine stetige Funktion und aϵD ein Punkt. Dann ist die Funktion ∫ x f (t)dt(xϵD) F (x) := a eine Stammfunktion von f . Auch hier gehen wir wieder über den Differenzenquotienten im Intervall D, bezeichnet mit x0 : ∫ x F (x) − F (x0 ) 1 = f (t)dt x − x0 x − x0 x 0 ∫x Nach dem vorhergehenden Mittelwertsatz gelte x0 f (t)dt = (x−x0 )f (ξ), mit ξ = ξ(x) zwischen x und x0 . Daraus folgt nun: F (x) − F (x − 0) = f (ξ) x − x0 Wenn x nach x0 strebt, strebt ξ auch nach x0 . Wegen der Stetigkeit von f strebt auch f (ξ) gegen f (x0 ). Somit ist: F ′ (x0 ) = f (x0 ) 6.1.2 Bilden von Stammfunktionen Das Bilden von Stammfunktionen (unschön auch als Aufleiten“ bezeichnet.5 ) ist zentraler Be” standteil der Integralrechnung. Generell bildet man für eine Funktion der Gestalt f (x) = xn die Stammfunktion mit der Formel 1 xn+1 n+1 5 Denn eine Stammfunktion ist nicht einfach nur eine Umkehrung der Ableitung. 42 6.2 Das unbestimmte Integral • Konstante Eine Konstante kann aus dem Integral herausgezogen“ werden: ” ∫ ∫ cf (x)dx = c f (x)dx • Summen ∫ ∫ (f (x) + g(x))dx = ∫ f (x)dx + g(x)dx • Bruch, indem Zähler die erste Ableitung des Nenners ist ∫ f ′ (x) dx = ln f (x) + c f (x) • Partielle Integration Ist eine Funktion f (x) das Produkt zweier Funktionen g(x) = u(x) und h(x) = v ′ (x) somit f (x) = u(x) · v ′ (x) , dann gelte ∫ ∫ ′ u(x)v (x)dx = u(x)v(x) − u′ (x)v(x)dx Hier kann ein Beispiel hilfreich sein: Betrachten wir das Integral ∫ xex dx. Setzt man u(x) = x und v ′ (x) = ex , folgt u′ (x) = 1 und v(x) = ex . ∫ ∫ x x xe dx = xe − 1 · ex dx = xex − ex + c = (x − 1)ex + c • Substitution Durch die Substitution x = ς(k) der unabhängigen Variable einer Funktion y = f (x), ist das unbestimmte Integral ∫ ∫ f (x)dx = Beispiel: Betrachten wir das Integral ∫ f (ς(k))ς ′ (k)dk (1 + x)n . Substitutiert man x = ς(k) = k + 2, erhält man ς ′ (k) = 1. Daraus folgt nun: ∫ ∫ n (1 + x) dx = k n dk = k n+1 +x n+1 (x + 1)n+1 +c = n+1 43 6.3 Das bestimmte Integral Aus dem Fundamentalsatz der Analysis lässt sich recht schnell die Verbindung zwischen unbestimmten und bestimmten Integralen folgern: Sei F eine differenzierbare Funktion auf dem Intervall D mit stetiger Ableitung f ′ . Dann gilt ∫ b f (x)dx = F (b) − F (a) a (a und b sind Elemente des Intervalls) Auf einen Beweis verzichten wir an dieser Stelle. Beispiel: ∫ 1 3 1 1 1 xdx = [ x2 ]31 = [( · 32 ) − ( 12 )] = 4 2 2 2 Nun zu einigen Eigenschaften bestimmter Integrale: • Integrationsintervalle zusammenfassen: ∫ b ∫ c ∫ c f (x)dx + f (x)dx = f (x)dx a b a • Sind untere und obere Integrationsgrenzen gleich, so ist ”die Fläche unter dem Graphen”= 0. ∫ a f (x)dx = 0 a • Vertauschen der Integrationsgrenzen ∫ a ∫ b f (x)dx = − f (x)dx b 6.4 a Beispiel: Konsumentenrente In der Veranstaltung Mikroökonomie I lernt man, dass die Konsumentenrente beschreibt, wie ” ” sehr die Konsumenten von einem Gut profitieren. Diese Konsumentenrente wird nicht selten 44 mit Hilfe von Integralen beschrieben. Die Konsumentenrente bezeichnet dabei die aggregierte Differenz zwischen maximaler Zahlungsbereitschaft und zu zahlendem Preis. Betrachten wir wieder ein Münchner Grundnahrungsmittel: Bier. Der Preis für Bier sei 2, 50, die inverse Nachfrage durch p = 6−0, 001B gegeben. Als erstes berechne man den Schnittpunkt der beiden (linearen) Kurven, um die Integrationsgrenzen zu erhalten: 6 − 0, 001B = 2, 50 B = 3500 Nicht vergessen: Die Differenz zwischen Prohibitivpreis und Preis beträgt 3, 5, was wir in die Funktion einbeziehen müssen. Nun bilde man die Stammfunktion: p(B) = 3, 5 − 0, 001B P (B) = 6B − 0, 0005B 2 Mit dieser Vorbereitung können wir die Konsumentenrente berechnen: ∫ Bd KR = p(B) dB 0 ∫ 3500 KR = 3, 5 − 0, 001B dB 0 = [3, 5B − 0, 0005B 2 ]3500 0 = [3, 5 · 3500 − 0, 0005 · 35002 ] = 6125 45 7 Matrixalgebra In vielen Feldern der Volkswirtschaftslehre spielen lineare Gleichungssysteme eine wichtige Rolle. Insbesonders in der Ökonometrie wird häufig eine Notation in Form von Vektoren und Matrizen verwendet. Deshalb ist für ein erfolgreiches Studium ein gutes Verständnis der Matrixalgebra äußerst hilfreich. Im Folgenden wollen wir dazu einige Konzepte der linearen Algebra, das Rechnen mit Vektoren und Matrizen, verstehen lernen und üben. Eine Matrix ist dabei zunächst nicht viel mehr als eine rechteckige Anordnung von Zahlen oder Variablen. Man spricht dabei von einer N ×K (Sprich: N-Kreuz-K) Matrix. Das N repräsentiert dabei die Zahl der Zeilen einer Matrix, das K steht für die Anzahl der Spalten. Man sagt auch: Eine Matrix besitzt die Ordnung oder Dimension N × K. Ein Vektor entspricht einer Matrix mit nur einer Spalte oder Zeile und ist somit nichts weiter als eine Sonderform der Matrix, wie später noch ausführlicher erläutert wird. In der Mathematik wird eine Matrix der Dimension N m m12 · · · 11 m21 m22 · · · M= . .. ... .. . mN 1 mN 2 · · · × K folgendermaßen notiert: m1K m2K .. . mN K M bezeichnet dabei die gesamte Matrix. Die Werte mij stehen für ihre jeweiligen Elemente in der i-ten Zeile und j-ten Spalte. Das Element m21 steht dabei beispielsweise für das Element in der zweiten Zeile und der ersten Spalte obiger Matrix. Die Buchstaben i und j sind dabei typisch verwendete Zählindikatoren, wobei mit i eine beliebige Zeile einer Matrix und mit j eine beliebige Spalte bezeichnet wird. Es ist eine Konvention, dass Matrizen mit fettgedruckten Großbuchstaben, Vektoren mit fettgedruckten Kleinbuchstaben gekennzeichnet werden. Die Notation mit einem Pfeil über dem Buchstaben, wie sie vielen sicherlich aus dem Schulunterricht noch bekannt ist, wird in wissenschaftlichen Aufsätzen und in Lehrbüchern hingegen kaum verwendet. 46 7.1 Warum Matrizen nützlich sind Bei der Arbeit mit Matrizen fragen sich viele Studenten zunächst häufig wie das Rechnen mit Matrizen Vorteile mit sich bringt. Anders als bei zum Beispiel einfachen Funktionsbeziehungen ist es bei Matrizen verständlicherweise schwieriger sich vorzustellen was solche Konstrukte denn eigentlich bedeuten. Im Gegenteil zum abstrakten Anschein sind Matrizen allerdings ein sehr nützliches Werkzeug zum einfachen Lösen vieler wirtschaftswissenschaftlicher Aufgabenstellungen. Betrachten wir beispielsweise ein System von Gleichungen, das gleichzeitig erfüllt sein muss: 2a + 5b − 2c = 4 6a + 3b = 3 5b + 1c = 19 Natürlich liese sich durch schrittweises inneinander Einsetzen der Gleichungen ein Ergebnis finden. Mit Hilfe einer Matrix lässt sich gleiche Anforderung an die linke Seite der Gleichungen allerdings auch viel einfacher notieren: 2 5 −2 6 3 0 5 0 1 Schreibt man die rechte Seite der Gleichung nun in eine weitere Matrix, so liese sich mit Hilfe einfacher Rechenoperationen schnell und zuverlässig ein Ergebnis für das Gleichungssystem finden. Diese Rechengesetze wollen wir im Folgenden ausführlich erläutern, da sie in weiten Teilen der Wirtschaftswissenschaften von Bedeutung sind. 7.2 Rechnen mit Matrizen 7.2.1 Addition und Subtraktion Um eine Addition oder Subtraktion zweier Matrizen durchzuführen ist es zwingend erforderlich, dass diese die gleiche Dimension besitzen. Eine Matrix der Dimension 3 × 3 kann beispielsweise nur mit einer Matrix addiert werden, die ebenfalls die Dimension 3 × 3 besitzt. Dabei werden jeweils die Elemente addiert, die sich in beiden Matrizen an gleicher Zeilen- und Spaltenposition 47 befinden. Ausgehend von zwei 3 × 3-Matrizen A und B : 19 8 12 24 5 50 19 2 34 A= B = 8 117 12 −4 12 37 109 0 −1 gilt: 19 8 12 24 5 50 19 + 24 8+5 12 + 50 A + B = 8 117 12 + 19 2 34 = 8 + 19 117 + 2 12 + 34 −4 12 37 109 0 −1 −4 + 109 12 + 0 37 + (−1) 43 13 62 = 27 119 46 105 12 36 Die Subtraktion funktioniert nach dem gleichen Prinzip, nur dass hierbei die jeweiligen Elemente der zwei Matrizen voneinander subtrahiert werden: 24 5 50 19 8 12 − 19 2 34 = A−B= 8 117 12 109 0 −1 −4 12 37 −5 3 −38 = −11 115 −22 −113 12 38 19 − 24 8−5 8 − 19 117 − 2 −4 − 109 12 − 0 12 − 50 12 − 34 37 − (−1) Durch das Verrechnen der beiden Matrizen entsteht dabei wieder eine Matrix mit selber Dimension N ×K der beiden Ausgangsmatrizen. Bei Betrachten des Ergebnisses fällt auch sogleich ins Auge, warum nur Matrizen mit den gleichen Dimensionen verrechnet werden können: Andernfalls wäre eine Addition oder Subtraktion der jeweiligen Elemente nicht möglich - das Ergebnis einer solchen Rechnung ist daher nicht definiert. 7.2.2 Matrizen-Multipikation Ein wenig anders funktioniert die Multiplikation zweier Matrizen. Im Unterschied zur Addition oder Subtraktion ist es nun nicht mehr notwendig, dass diese die gleiche Dimension besitzen. Vielmehr ist es erforderlich, dass die Zahl der Spalten in der Matrix A (Dimension: NA × KA ) der Zahl der Zeilen in Matrix B (Dimension: NB × KB ) entspricht. Dagegen muss gelten, dass KA = NB , also dass die Zahl der Spalten in Matrix A der Zahl der Zeilen in Matrix B entspricht. Die Ergebnismatrix besitzt anschließend gleiche Dimension NB × KA der Ausgangsmatrizen. 48 Die Werte von NA und KB sind für die Durchführbarkeit einer solchen Multiplikation dagegen irrelvant. Die Funktionsweise einer Multiplikation sei an einem einfachen Beispiel veranschaulicht. Wir verwenden dabei wieder gleiche Matizen A und B wie zuvor. Da es sich um zwei 3 x 3-Matrizen handelt, ist die Bedingung KA = NB mit 3 = 3 erfüllt. Im Ergebniss wollen wir eine Matrix C berechnen. c11 c12 c13 a11 a12 a13 b11 b12 b13 C =A·B ⇔ = · c c c a a a b b b 21 22 23 21 22 23 21 22 23 c31 c32 c33 a31 a32 a33 b31 b32 b33 Dabei berechnet sich ein Element cij nicht durch Multiplikation der jeweiligen Elemente aij und bij . Um ein Element cij zu berechnen, multiplizieren wir stattdessen jedes Element der i-ten Zeile von A mit dem entsprechenden Element der j-ten Spalte von B und addieren dann alle Produkte auf. Intuitiver kann dies an unserem Beispiel erläutert werden. Wir betrachten dabei zunächst die allgemeine Form der Matrizen und berechnen erst im Anschluss die Ergebnisse mit den eigentlichen Zahlen. Für die Berechnung des Elements c21 betrachten wir beispielsweise alle Elemente aus der zweiten Spalte der Matrix A und alle Elemente aus der ersten Zeile der Matrix B. Wir erhalten dadurch zwei Reihen mit jeweils drei Elementen: ” ” a11 a12 a13 a21 a22 a23 a31 a32 a33 b11 b12 b13 b21 b22 b23 b31 b32 b33 Diese sind a21 , a22 und a23 für die Matrix A. Für die Matrix B erhalten wir (geordnet von oben nach unten) die Elemente b11 , b21 und b31 . Um nun unser Ergebnis zu berechnen, multiplizieren wir die Elemente an den jeweils gleichen Positionen unserer beiden “Reihen miteinander und ” addieren die dadurch erhaltenen Ergebnisse. c21 entspricht also a21 · b11 + a22 · b21 + a32 · b31 . Mit den tatsächlichen Werten erhalten wir die Reihen“ 8, 117 und 12 aus der Matrix A. ” Aus B erhalten wir 24, 19 und 109. Für c21 erhalten wir damit: 8 · 24 + 117 · 19 + 12 · 109 = 192 + 2.223 + 1.308 = 3.723 In einer allgemeinen Form lässt sich jedes Element cij einer Matrix C folgendermaßen definieren: 49 (Wobei Q = KA = NB ) cij = Q ∑ aiq · bqj = ai1 · b1j + ai2 · b2j + . . . + aiQ · bQj q=1 Um solche Matrizenmultiplikationen im Studienalltag schneller durchführen zu können, gibt es einen einfachen grafischen Trick, um schnell und einfach zu einem Ergebnis zu kommen. Man schreibt, wie untenstehend veranschaulich, die Matrix A links neben die Ergebnismatrix und setzt die Matrix B darüber. 19 8 12 8 117 12 −4 12 37 24 19 109 c11 c21 c31 5 50 2 34 0 −1 c12 c13 1916 111 1210 3723 274 4366 = c22 c23 c32 c33 4165 4 171 Um das Ergebnis für eine Feld der Ergebnismatrix C zu erhalten, werden nun jeweils die linksstehenden Zeilen-Elementen der Matrix A mit den obenstehenden Spalten-Elementen der Matrix B multipliziert und die errechneten Werte wie oben erklärt aufaddiert. Achtung: Das Kommutativgesetz gilt bei der Multiplikation von Matrizen nicht! Es gilt also, dass A · B ̸= B · A. Es muss deshalb zwischen Vor- und Nachmultiplikation unterschieden werden. Suchen wir also die Matrix C = B · A, so erhalten wir nicht das oben errechneten Ergebnis: 19 24 5 50 19 2 34 109 0 −1 7.2.3 8 −4 c11 c21 c31 8 12 117 12 12 37 c12 c13 296 1377 2198 241 794 1510 = c22 c23 2075 860 1271 c32 c33 Multipikation einer Matrix mit einem Skalar Ein sogenanntes Skalar ist eine einfache Zahl, die keine Dimension besitzt. (Beziehungsweise eine Dimension der Größe 1 × 1) Damit stellt sie keinen Vektor oder eine Matix dar. Trotzdem lässt sich ein Skalar einfach mit einer Matrix multiplizieren. Eine Addition eines Skalars mit einer Matrix ist hingegen nicht möglich. 50 So lässt sich zum Beispiel die Matrix A mit dem Skalar (also der Zahl) 2 multiplizieren: a11 a12 a13 2 · a11 2 · a12 2 · a13 2 · 19 2 · 8 2 · 12 2·A=2· 2 · 117 2 · 12 a21 a22 a23 = 2 · a21 2 · a22 2 · a23 = 2 · 8 a31 a32 a33 2 · a31 2 · a32 2 · a33 2 · (−4) 2 · 12 2 · 37 38 16 24 = 16 234 24 −8 24 74 7.2.4 Transponieren einer Matrix Das Transponieren einer Matrix entspricht einer Umkehrung der Anordnung der Elemente in einer Matrix. Die jeweiligen Werte der Elemente bleiben dabei unverändert, lediglich deren Position in der Matrix verändert sich: Aus ei ner N × K-Matrix soll eine K × N -Matrix entstehen. Jedes Element mij findet sich nach einer Transponierung dann an Position mji wieder. Bezeichnet wir eine transponierte Matrix mit M′ . Konkret bedeutet dies am Beispiel der Matrix B: 24 19 109 ′ B = 5 2 0 50 34 −1 7.3 7.3.1 Besondere Matrizen Vektoren Eine Matrix mit nur einer Spalte (Eine N ×1-Matrix) wird als Spaltenvektor bezeichnet. Dies ist die gebräuchlichste Form, einen Vektor zu notieren. Eher unüblich ist eine Matrix mit nur einer Zeile (Eine 1 × K-Matrix) welche entsprechend ein Zeilenvektor genannt wird. Wie bereits angesprochen, werden solche Vektoren häufig mit einem Kleinbuchstaben gekennzeichnet. Häufige auftretende Rechenformulierungen von Vektoren sind das innere und das äußere Produkt. Sei dazu ein Vektor v ein Spaltenvektor mit N Zeilen. 51 Das äußere Produkt ist dann definiert als: v1 v12 v1 · v2 v2 ( ) v2 · v1 v22 v · v′ = . · v1 v2 · · · vN = .. .. .. . . vN · v1 vN · v2 vN · · · v1 · vN · · · v2 · vN .. .. . . ··· 2 vN Das innere Produkt hingegen ist: v1 v′ · v = ( v1 v2 · · · vN ) v2 · . .. vN N ∑ 2 2 2 vi2 = v1 + v2 + . . . + vN = i=1 Zu den Ergebnissen ist anzumerken, dass bei Bildung des äußeren Produktes eine quadratische Matrix der Dimension N × N entsteht. Das innere Produkt ergibt hingegen immer ein Skalar. (Was einer 1 × 1-Matrix entspricht.) 7.3.2 Nullmatrix Eine Nullmatrix ist eine Matrix der Dimension N × K, die für jedes Element die Zahl Null (0) annimmt. Sie wird häufig mit einer fettgedruckten Null (0) angezeigt. Dabei ist wichtig, sich vor Augen zu halten, dass eine Nullmatrix nicht dem Skalar (also der reelen Zahl) Null enstspricht! Eine Nullmatrix enthält zwar ausschließlich solche Nullen, verfügt aber weiterhin über eine Dimension. 0= 7.3.3 0 0 ··· 0 0 .. . 0 ··· .. . . . . 0 .. . 0 0 ··· 0 Quadratische Matrix und Einheitsmatrix Eine andere besondere Form einer Matrix ist die quadratische Matrix. Eine solche Matrix besitzt eine gleiche Anzahl an Spalten und an Zeilen. Formal gesprochen gilt also dass N = K, wie auch bei unseren beiden Matrizen A und B, die wir für unsere bisherigen Beispielrechnungen verwendet haben. 52 Eine noch speziellere Form der eben erwähnten quadratischen Matrix ist die sogenannte Einheitsmatrix. Eine solche Matrix besteht bis auf eine Linie aus Einsen entlang ihrer sogenannten Hauptdiagonalen lediglich aus Nullen. Sie hat folgende Form und wir häufig mit dem Buchstaben I kenntlich gemacht: I= 1 0 ··· 0 0 .. . 1 ··· .. . . . . 0 .. . 0 0 ··· 1 Eine Multiplikation mit der Einheitsmatrix enspricht einer Multiplikation mit der Zahl 1 im System der reelen Zahlen, denn es gilt: I·M=M·I=M Die Gültigkeit dieser Rechenregel lässt sich auch durch einfaches Ausprobieren nach den oben stehenden Rechenregeln zur Matrizen-Multiplikation schnell überprüfen. Auch wenn wir den Beweis dazu an dieser Stelle aussparen wollen, ist es oft hilfreich, sich daran zu erinnern. 7.4 Zusammenfassung der Rechenregeln der Matrixalgebra Für gleichdimensionierte Matrizen gilt: (Matrizen sind dabei fettgedruckt. Skalare sind in einfachem Druck gekennzeichnet.) 1. (A + B) + C = A + (B + C) 2. A + (-A) = 0 ̸= 0 3. A + B = B + A 4. A + 0 = 0 + A = A 5. (x1 + x2 ) · A = x1 · A + x2 · A 6. x · (A + B) = x · A + x · B 7. (A′ )′ = A 8. (A + B) = A + B 9. (A · B)′ = B′ · A′ 53 10. I′ = I 11. x = x sowie (x · A)′ = x · A′ Für Matrizen, welche die Eigenschaft KA = NB erfüllen, gilt: 1. Das Assoziativgesetz : (A · B) · C = A · (B · C) 2. Das Distributivgesetz : A · (B + C) = A · B + A · C 3. Nicht das Kommutativgesetz : A · B ̸= B · A 7.5 Lineare Abhängigkeit Eine Gruppe gleichdimensionierter Vektoren sind linear voneinander abhängig, wenn sich mindestens einer dieser Vektoren durch eine beliebige Kombination der anderen abbilden lässt. Diese Eigenschaft lässt sich einfach an einem Beispiel verdeutlichen: Angenommen es existieren drei Zeilenvektoren v, w und z der Dimension 4 × 1. 17 9 9 15 v= w= −3 7 12 12 15 −33 z= −37 −12 Dann muss es bei linearer Abhängigkeit möglich sein, eine Lösung für beliebige Skalare x1 , x2 und x3 (außgenommen der Zahl Null) zu finden, sodass: x1 · v + x2 · w + x3 · z = 0 In unserem Beispiel gilt für die Werte x1 = 3, x2 = −2 und x3 = 1: 3 · 17 − 2 · 9 + 1 · 15 15 9 17 −33 3 · 9 − 2 · 15 + 1 · (−33) 15 9 3· −3 + (−2) · 7 + 1 · −37 = 3 · (−3) − 2 · 7 + 1 · (−37) 3 · 12 − 2 · 12 + 1 · (−12) −12 12 12 Die drei Vektoren v, w und z sind demnach linear voneinander abhängig. 54 0 0 = =0 0 0 7.6 Determinanten quadratischer Matrizen Als Determinante einer quadratischen Matrix wird eine reele Zahl bezeichnet, die sich aus den Elementen der Matrix errechnen lässt. Interpretieren lässt sich diese Determinante als eine geometrische Fläche, wobei mit den Elementwerten die Eckpunkte dieser Fläche gesetzt werden. Da die Interpretation ein tieferes Verständnis der linearen Algebra voraussetzt, soll an dieser Stelle nicht darauf eingegangen werden. Trotzdem ist es wichtig, zu wissen, dass sich solche Determinanten errechen lassen, da sie Voraussetzung für einige Rechenoperationen innerhalb der Matrixalgebra ist. Für eine 2 × 2-Matrix ist die Determinante noch einfach zu berechnen. Für größere Matizen sind kompliziertere Rechnungen (zum Beispiel mit Hilfe der sogenannten Laplace Expansion) notwendig, auf die an dieser Stelle ebenfalls nicht eingegangen wird. Die Determinante einer Matrix wird notiert wie folgt und lässt sich im Fall einer 2×2-Dimension folgendermaßen errechnen: |M| = m11 m12 m21 m22 = m11 · m22 − m12 · m21 Aus einer Beispielmatrix A lösst sich zum Beispiel ausrechnen: |A| = 19 4 10 3 = 19 · 3 − 4 · 10 = 57 − 40 = 17 Aus dem Wert der Determinanten einer Matrix lässt sich eine weitere wichtige Eigenschaft der Matrix ablesen. So ist der Wert einer Determinate immer Null, wenn zwischen den Zeilen oder den Spalten der Matrix eine lineare Abhängigkeit (wie wir sie zuvor kennen gelernt haben) besteht. Eine Matrix mit einer Determinanten von Null wird auch als singuläre Matrix bezeichnet. |B| = 2 4 3 6 = 2 · 6 − 3 · 4 = 12 − 12 = 0 In obigem Fall ist die zweite Zeile schlichtweg das 1,5-fache der ersten Zeile. Die beiden Zeilen der Matrix sind demnach voneinander abhängig und die Determinante ergibt Null. Für Matrizen größerer Dimension gibt es auch ähnlich einfache Regeln, die lediglich etwas mehr Wiederholungen beim Üben brauchen. Für 3 × 3 Matrizen nutzt die Regel von Sarrus 6 . 6 Pierre FrŸedŸeric Sarrus, französischer Mathematiker. Aus gegebenem Anlass bitten wir, den Nachnamen auch korrekt auszusprechen (Sarrü). 55 Betrachtet man eine 3 × 3 Matrix 14 15 A= 21 9 14 6 4 12 8 so gibt die Regel von Sarrus einen graphischen Trick vor, zuerst die erste und zweite Spalte (in dieser Reihenfolge) rechts neben die Matrix zu schreiben: 14 15 4 14 15 21 9 12 21 9 14 6 8 14 6 Nun multipliziert man die Hauptdiagonalen miteinander: 14 · 9 · 8 = 1008oben 15 · 12 · 14 = 2520oben 4 · 21 · 6 = 504oben 14 · 9 · 4 = 504unten 6 · 12 · 14 = 1008unten 8 · 21 · 15 = 2520unten Die Ergebnisse oben werden addiert und die Ergebnisse unten subtrahiert. 1008 + 2520 + 504 − 504 − 1008 − 2520 = 0 So erhält man die Determinante der 3 × 3 Matrix. In unserem Fall ist die Determinante 0, was kein ungewöhnlicher Fall ist. Die Methode zur Determinantenberechnung für beliebig große Matrizen wird aufgrund der geringen (oder sogar nicht vorhandenen) Relevanz im Bachelor nicht behandelt. Trotzdem soll zum Selbststudium für Interessierte zumindest auf die gängige Methode hingewiesen werden, den Entwicklungssatz nach Laplace. 7.7 Inverse einer Matrix Mit Hilfe der Determinanten einer Matrix lässt sich die Inverse einer Matrix errechnen. Eine quadratische Matrix der Dimension K × K hat immer dann eine Inverse, wenn eine Lösung existiert, sodass: A · A−1 = I. (I bezeichnet dabei wieder die Einheitsmatrix.) 56 7.7.1 Formale Herleitung Betrachten wir im Folgenden eine 2×2-Matrix A und definieren dabei die (unbekannten) Werte der Inversen der Matrix mit dem griechischen Buchstaben α, muss für das Produkt A · A−1 gelten: ( a11 a12 a21 a22 ) ( · α11 α12 α21 α22 ) ( = 1 0 0 1 Multiplizieren wir dies aus, erhalten wir: ( ) a11 · α11 + a12 · α21 a11 · α12 + a12 · α22 a21 · α11 + a22 · α21 a21 · α12 + a22 · α22 ) ( = 1 0 ) 0 1 Anders notiert lassen sich die Lösungen für obigen Ergebnisvektor in einem Gleichungssystem festhalten: a11 · α11 + a12 · α21 = 1 a11 · α12 + a12 · α22 = 0 a21 · α11 + a22 · α21 = 0 a21 · α12 + a22 · α22 = 1 Löst man nun alle Gleichungen nach den unbekannten Werten für α auf und überführt das Ergebnis wieder in die Matrizenschreibweise, so erhält man: ( ( ( ) ) ) α11 α12 a −a a −a 1 1 22 12 22 12 · · = = = A−1 a11 · a22 − a12 · a21 |A| α21 α22 −a21 a11 −a21 a11 Für Matrizen mit einer größeren Dimension ist der Rechenweg wieder ungleich komplizierter, denn hierzu muss die sogenannte adjunkte Matrix berechnet werden, was viel Zeit in Anspruch nimmt. Dafür werden wir eine Methode zur Errechnung der Inversen besprechen, die händisch einfacher ist und trotzdem zum Ergebnis führt. 7.7.2 Gauß-Jordan Elimination Die Erfahrung hat gezeigt, dass bei dem sogenannten Gauß - Algorithmus 7 vielen ein ”roter Faden”fehlt. Deswegen möchten wir den Algorithmus zuerst äus der Ferneängehen. 7 Hier möchten wir darauf hinweisen, dass Carl Friedrich Gauß nicht wegen dieses Eliminationsverfahrens als einer der genialsten Köpfe der Mathematik gilt, sondern wegen weitaus tiefergehenden Ideen. Eine weitere von ihm eingeführte Methode, die Kleinste-Quadrate-Schätzung, findet in der Ökonomie und in vielen anderen Wissenschaften eine populäre Anwendung. Der Abschnitt 7.8 führt in diese Idee ein. 57 Eine Matrix nennt man in Zeilen-Stufen Form, wenn jede Zeile einer Matrix mit einer führenden 1 beginnt. Dies könnte so aussehen: 0 1 4 999999 72684 π A= 0 0 1 0 847 84 0 0 0 0 0 0 Wichtig ist hier zu erkennen, dass jede Zeile mit einer 1 beginnt, links von dieser 1 nur Nullen stehen und falls keine 1 in einer Zeile zu finden ist, erhält man die Nullzeile. Zusätzlich ist es in der Zeilen-Stufen Form vollkommen egal, was rechts von der führenden 1 steht. Bei der Gauß - Jordan Elimination ist das Herstellen der Zeilen-Stufen Form der erste Schritt. Die Reduzierte Zeilen-Stufen Form (RZF) fordert gegenüber der Zeilen-Stufen Form zusätzlich, dass in jeder Spalte mit führender 1 keine anderen Zahlen (bzw. allgemeiner gesagt: Elemente) stehen als 0 und die führende 1 selbst. Diese könnte so aussehen: 1 0 0 A= 0 2 0 0 0 0 Dieses Beispiel dürfte wohl das Paradebeispiel für eine Matrix in RZF sein. Folgende Matrix ist ebenso in RZF: 1 0 0 14 0 0 A= 0 1 0 0 0 0 1 0 9 0 0 8 Wie wahrscheinlich schon erwartet, ist die RZF das Ziel der Gauß - Elimination. Man verwendet hierzu Elementare Zeilenumformungen. Diese sind Regeln, die darauf bauen, dass jede Matrix äquivalent zu ihrer Zeilen - Stufen Form ist und diese wiederum äquivalent zu ihrer Reduzierten Zeilen Stufen Form ist. Der soeben eingeführte Algorithmus sagt nur, dass man durch Elementare Zeilenumformungen die RZF herstellen kann. Elementare Zeilenumformungen sind • Das Addieren einer Zeile zu einer anderen Zeile • Die Multiplikation einer Zeile mit einem Skalar (welcher auch ein Bruch sein kann) • Vertauschen zweier Zeilen • Die Addition einer Linearkombination zu einer Zeile 58 Nun wollen wir ein Beispiel rechnen. Wir betrachten 1 1 1 0 1 1 A= 0 0 1 1 1 1 eine 4 × 4 Beispielmatrix A. Diese sei 1 1 1 2 Bei der Gauß-Jordan Elimination wird ein grafischer Trick angewandt8 : Man schreibt die Einheitsmatrix neben die zu invertierende Matrix: 1 1 1 0 1 1 A= 0 0 1 1 1 1 1 1 0 0 0 1 0 1 0 0 1 0 0 1 0 2 0 0 0 1 Man sieht, dass diese Matrix bereits in Zeilen-Stufen Form vorliegt. Nun gilt es, die reduzierte Zeilen-Stufen Form herzustellen. Eine Möglichkeit ist, von der vierten Gleichung die erste Gleichung zu subtrahieren. Hierfür schreiben wir wieder die unveränderten Zeilen auf und bilden die Matrix, indem wir die ursprüngliche vierte Zeile durch die modifizierte vierte Zeile ersetzen. Wir erhalten also die Matrix 1 1 1 1 1 0 0 0 0 1 1 1 0 1 0 0 A= 0 0 1 1 0 0 1 0 0 0 0 1 −1 0 0 1 Nach dieser elementaren Zeilenumformung sind wir schon ein Stck voran gekommen, denn immerhin steht in der ersten Spalte nur noch eine führende 1 und sonst nur 0. Wir gehen nun Spalte für Spalte vor. In der zweiten Spalte erhalten wir die gewünschte Form, indem wir einfach von der ersten Zeile die zweite Zeile subtrahieren. 1 0 0 0 1 0 1 1 1 0 A= 0 0 1 1 0 0 0 0 1 −1 8 −1 0 0 1 0 0 0 0 1 0 0 1 Allgemeiner Hinweis: In vielen mathematischen Strukturen tauchen Begriffe wie neutrales Element und Inverse auf. Ein neutrales Element ist zum Beispiel die Zahl 1 in der Multiplikation, da eine Zahl a mit 1 multipliziert immer noch gleich a ist. Um das neutrale Element in der Multiplikation herzustellen, dividiert man a durch a selbst. Oder anders ausgedrückt: Man multipliziert a mit neutrale Element der Multiplikation, 1. 59 1 a bzw. 1 a = a−1 und erhält so das Das Prinzip dürfte langsam klar sein. Im nächsten Schritt wird die dritte Zeile von der zweiten Zeile subtrahiert. 1 0 0 0 −1 1 0 1 0 0 0 A= 0 0 1 1 0 0 0 0 1 −1 1 0 0 0 0 −1 0 1 0 0 1 Der letzte Teil ist nicht überraschend. Nachdem man nun von der dritten Zeile die vierte subtrahiert hat, ist die Inverse in diesem Schema auf der rechten Seite ablesbar. Die Einheitsmatrix hat sozusagen den Platz getauscht. 1 0 0 0 1 0 1 0 0 0 A= 0 0 1 0 1 0 0 0 1 −1 −1 0 1 −1 0 1 0 0 0 0 −1 1 Dieses Beispiel ist aber mit Vorsicht zu genießen. Wir haben uns für ein eingängiges Beispiel entschieden, um den Algorithmus leicht nachvollziehbar zu halten. Es sei davor gewarnt, einfach sturr die die untere Zeile von der oberen zu subtrahieren und so irgendwann zu einer RZF zu kommen. Der Gauß benötigt Übung, um den Lösungsweg sehen zu können. 7.7.3 Cramer’sche Regel Zur Lösung nicht-homogener Gleichungssysteme existiert eine weitere einfache Lösungsmethode: Die Cramer’sche Regel. Nach dieser Regel sind Gleichungssysteme der Form M·x=y einfach lösbar. Die Matrix M besitzt dabei eine Dimension N × K (und wird in diesem Zusammenhang häufig als Koeffizientenmatrix bezeichnet), x ist ein 1 × K-Spaltenvektor, wohingegen y ein 1 × N -Spaltenvektor ist. m 11 m21 . .. mN 1 Unsere Unbekannte sei m12 · · · m1K m22 · · · m2K · .. .. .. . . . aN 2 · · · mN K 60 in diesem Fall der Vektor x. Damit gilt: y x1 1 x2 y 2 = . .. . . . yN xK Eine Möglichkeit zur Lösung des Gleichungssystems wäre nur das Bilden der Inversen von A, wodurch der Vektor x mit x = A−1 · y errechnet werden könnte. Mit der Cramer’schen Regel ist die Gleichung allerdings unter Umständen einfacher zu lösen. Zur Lösung für ein beliebiges xj muss zunächst die Matrix Mj zu aus der Koeffizientenmatrix M gebildet werden. Dazu wird einfach die j -te Spalte der Matrix M durch den Vektor y ersetzt. Somit gilt zum Beispiel für M2 : m11 y1 · · · m1K m21 y2 · · · m2K M2 = . .. . . .. .. . . . mN 1 yN · · · mN K Die Lösung für den Wert x2 ist nach der Cramer’schen Regel nun einfach als der Quotient zweier Determinanten definiert. Für den Wert x2 ist dieser beispielsweise der Quotient aus den Determinanten obiger Matrix M2 und der Koeffizientenmatrix M selbst. Allgemein gilt für ein beliebiges xj : xj = 7.8 |Mj | |M| Beispiel: Herleitung des multivariaten OLS-Schätzers In der Statistik ist die Methode der Kleinsten Quadrate (Ordinary Least Squares = OLS ) eine häufig verwendete Analysemethode. Sie dient dazu, lineare Strukturen in zusammengehörigen Beobachtungen zu prüfen und zu beschreiben. Abstrakt gesprochen unterstellt dieses statistische Modell, dass ein linearer Zusammenhang zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen besteht. So ließe sich mit dieser Methode zum Beispiel überprüfen, ob gilt, dass: (Punktzahl in einer Klausur ) = a + b1 · (Lernzeit) +b2 · (Intelligenzquotient) Das Verstehen dieser Methode soll aber nicht Sinn der folgenden Übung werden. Vielmehr wollen wir den OLS-Schätzer herleiten, was nichts anderes bedeutet als die zuvor besprochenen mathematischen Methoden zur Matrixalgebra anzuwenden. Betrachten wir also zunächst folgende Matrizen als gegeben: 61 x11 x12 · · · x1K x21 x22 · · · x2K X= . .. .. ... .. . . xN 1 xN 2 · · · x N K y= y1 y2 .. . yN Dabei wollen wir am Ende einen (noch unbekannten) Vektor b der Dimension K × 1 finden, (also untenstehende Gleichung so Auflösen, dass wir eine Form von b = . . . erhalten) für den gilt, dass: y=X·b+u⇔u=y−X·b In ausgedehnter Schreibweise nehmen wir demnach also das folgende Gleichungssystem als gegeben: (Wobei die Vektoren b und u unbekannt sind. Mehr dazu gleich im Folgenden.) u y x x12 · · · x1K b 1 1 11 1 u2 y2 x21 x22 · · · x2K b2 . = . − . · . . . . .. .. .. .. .. .. .. uK yN xN 1 x N 2 · · · xN K bK Die Methode der Kleinsten Quadrate sieht nur vor, die quadrierte Summe der Elemente des Vektors u zu minimieren. (Auch darauf wollen wir an dieser Stelle nicht eingehen. Im Fokus dieser Übung stehen nach wie vor die mathematischen Methoden, die im Folgenden angewandt werden. Die Bedeutung des OLS-Schätzers wird im Verlauf des Studiums noch detailiert besprochen. Ein Verständnis der tatsächlichen Bedeutung der Matrizen ist hier also nicht von Bedeutung.) Die Summe der Elemente eines Vektors ist, wie wir bei der Besprechung der mathematischen Methoden zuvor gezeigt haben, nichts weiter als sein inneres Produkt. Wir berechnen im Folgenden also das Ergebnis für den Ausdruck: min u′ · u ⇔ min(y − X · b)′ · (y − X · b) b b Ausgehend von all diesen Annahmen wollen wir nun einige unserer Rechenmethoden erproben. 7.8.1 Ableiten der Matrizen Um eine Matrix oder einen Vektor abzuleiten, sind keine speziellen Rechenregeln anwendbar. Vielmehr ist einzeln zu prüfen, was bei einer zeilenweisen Ableitung nach Methodik der bekannten Ableitungsregeln heraus kommt. Dazu multiplizieren wir zunächst obige Gleichung aus: 62 u′ · u = (y − X · b)′ · (y − X · b) = (y′ − b′ · X′ ) · (y − X · b) = y′ · y − b′ · X′ · y − y′ · X · b + b′ · X′ · X · b Nun lässt sich mit Hilfe eines kleinen Tricks die eben errechnete Gleichung weiter vereinfachen. Es gilt, dass b′ · X′ · y′ = (y′ · b · X)′ = y′ · X · b, denn bei dem Ergebnis des obigen Ausdrucks handelt es sich um ein Skalar. (Dies ergibt sich aus den oben angezeigten Dimensionen der Matrizen. Durch Multiplikation erhalten wir eine 1 x 1-Matrix, also eine reele Zahl.) Denn wie bei Besprechung der Methoden gezeigt, behält ein transponierter Skalar auch bei Transponierung seinen ursprünglichen Wert. So können wir letzteres Ergebnis in die obige Gleichung einsetzen, sodass wir erhalten: u′ · u = y′ · y − 2 · b′ · X′ · y + b′ · X′ · X · b Wir erhalten also drei durch Summenoperatoren verbundene Teilgleichungen, die wir nach b ableiten müssen. 1. y′ · y 2. 2 · b′ · X′ · y 3. b′ · X′ · X · b Die Ableitung für den ersten Teil der Gleichung (1 ) ist Null, da b in ihr nicht vorkommt. Die beiden anderen Gleichungen müssen wir hingegen im Detail betrachten. Zunächst lösen wir die Ableitung für den 2. Teil der Gleichung: Da X eine Matrix der Dimension N × K ist und y ein N × 1-Spaltenvektor, ist das Ergebnis von X′ · y ein K × 1-Spaltenvektor. Aus Gründen der Einfachheit in der Notation bezeichnen wir dieses Produkt aus X′ und y im Folgenden mit (klein) x = X′ · y. Dieses Produkt aus b’ und x lässt sich berechnen als: 63 x1 b′ · X′ · y = b′ · x = ( b1 b2 · · · bK ) x2 · . .. xK = b1 · x1 + b2 · x2 + . . . + bK · xK Da wir als Ergebnis ein Skalar erhalten, folgt für die Ableitung nach einem beliebigen Wert bj des Vektors b: ∂(b′ · x) = xj ∂bj Womit gilt, dass: (Im Fall der oben beschriebenen Matrixdimensionen) ∂(b′ · x) = x = X′ · y ∂b Eine ähnliche Vorgehensweise nutzen wir bei Berechnung der partiellen Ableitung der dritten Gleichung. Wieder fassen wir aus Gründen der Einfachheit das Produkt aus X’ und X in der Matrix Z zusammen. Also Z = X′ · X. Da es sich bei X um eine N × K-Matrix handelt, ergibt das Produkt aus transponierter Matrix und Matrix X für Z eine quadratische Dimension K ×K. Wir suchen also eine Lösung für: b′ · Z · b = ( b1 b2 · · · bK z z12 11 ) z21 z22 · . .. .. . zK1 zK2 · · · z1K · · · z2K .. .. . . · · · zKK · b1 b2 .. . bK ∑K ∑K ∑K = ( j=1 bj · zj1 + j=1 bj · zj2 + . . . + j=1 bj · zjK ) · b1 b2 .. . bK = b1 · ∑K j=1 bj · zj1 + b2 · ∑K j=1 bj · zj2 + . . . + bK · ∑K Das eben ausgerechnete Ergebnis lässt sich ebenfalls (aus-)schreiben als: 64 j=1 bj · zjK b′ · Z · b = b1 · b1 · z11 + b1 · b2 · z12 + ... + b1 · bK · z1K + b2 · b1 · z21 .. . + b2 · b2 · z22 .. . + ... + .. . b2 · bK · z2K .. . + bK · b1 · zK1 + bK · b2 · zK2 + . . . + bK · bK · zKK Für die folgende Ableitung ist es wichtig, sich vor Augen zu halten, dass die Matrix Z symmetrisch ist, d.h. es gilt: zij = zji . Damit gilt für die partiellen Ableitungen beispielswiese nach b1 . ′ ∂ b ·Z·b ∂b1 = 2 · b1 · z11 + b2 · z12 + . . . + bK · z1K + b2 · z21 + . . . + bK · zK1 = 2 · b1 · z11 + 2 · b2 · z12 + . . . + 2 · bK · z1K ∑ = 2· K j=1 ·bj · z1j Oder kürzer: (und in Matrizenschreibweise) ∂b′ · Z · b = 2 · Z · b = 2 · X′ · X · b ∂b Wir sehen also: Das Ableiten von Matrizen ist prinzipiell genau so möglich wie für reele Zahlen. Allerdings spielen die Dimensionen der abzuleitenden Matrizen eine entscheidende Rolle für das Ergebnis, weshalb unter Umständen umständlichere Rechenvorgänge vonnöten sind. 7.8.2 Auflösen der Gleichung Wie wir soeben gezeigt haben, gilt: ∂u′ · u ! = 0 − 2 · X′ · y + 2 · X′ · X · b = 0 ∂b Durch einfaches Umstellen erhält man: 2 · X′ · X · b = 2 · X′ · y ⇔ b = (X′ · X)−1 · X′ · y 65 8 Stochastik In diesem Kapitel werden einige Konzepte der Stochastik, wie sie aus dem Schulunterricht bekannt sind, wiederholt. Eine detailierte Besprechnung dieser Materie findet innerhalb des Studiums allerdings erstmalig in den Statistik-Kursen statt. Vorweg sei gesagt: Die nachfolgenden Kapitel ersetzen keinesfalls den Besuch der Statistik-Veranstaltungen! Wir wollen lediglich versuchen, einige Basiskonzepte zu wiederholen, ohne dass wir auf statistische Testverfahren eingehen. Wir wollen lediglich sicherstellen, dass ihr über ein Fundament verfügt, um später sicher mit Mengen und Wahrscheinlichkeiten zu rechnen. Außerdem wollen wir später einige der wichtigsten Begrifflichkeiten der Statistik möglichst intuitiv erläutern, um insbesondere Studenten im Nebenfach, die keine Statistikveranstaltungen besuchen, das Verstehen solcher Thematiken zu erleichtern. Wenn euch das ein oder andere Thema allerdings vollkommen neu ist: Keine Sorge! Ihr werdet im Verlauf eueres Studiums noch viel Gelegenheit bekommen, diese zu verstehen. 8.1 Begriff der Wahrscheinlichkeit Eine Wahrscheinlichkeit im Kontext der Mathematik ist das Maß zur Quantifizierung von Sicherheit oder Unsicherheit bei einem Zufallsereignis. Auch wenn dies zunächst sehr kompliziert klingt, ist das Gemeinte aber bereits aus dem Alltagsgebrauch des Wortes Wahrscheinlichkeit erschließbar. Denn auch wenn dies aus Sicht einer mathematischen Definition wenig korrekt ist, versteht man unter einer Wahrscheinlichkeit zumeist eine Zahl, die angibt, ob ein Ereignis häufig oder weniger häufig im Vergleich zu anderen Ereignissen auftritt. Verdeutlicht sei dies am Beispiel eines geübten und eines ungeübten Sportlers. Wenn beide Spieler die Chance bekommen, einen Basketball in einen Korb zu werfen, würden wir vermuten, dass es wahrscheinlicher ist, dass der geübte Sportler trifft, als dies beim ungeübten Sportler der Fall ist. Trifft der geübte Sportler beispielsweise in acht von zehn Fällen, so beträgt die (quantitative) Wahrscheinlichkeit für einen Treffer 0,8 = b 80%. Beim ungeübten Sportler ist diese, wenn er nur bei zwei von zehn Würfen einen Korb macht, nur 0,2 = b 20%. Solche Zufallsereignisse spielen auch in der VWL eine tragende Rolle. Mit dem Wissen darüber, ob eine Aktie wahrscheinlich“ an Wert gewinnen wird oder nicht, lässt sich an der Börse viel ” 66 Geld verdienen (und verlieren). Im Gegensatz zu zwei verschieden starken Basketballspielern ist eine solche Wahrscheinlichkeit aber oft ungleich komplexer, weshalb wir es nicht bei dieser einfachen Begrifflichkeit belassen können. 8.2 Definition von Wahrscheinlichkeit So wenig sich Manchem die Notwendigkeit dafür offenbaren mag: In der Mathematik existieren verschiedene Definitionen der Wahrscheinlichkeit. Mit der Wahrscheinlichkeitstheorie existiert sogar ein eigenes Teilgebiet, in dem darüber nachgedacht wird, was eine Wahrscheinlichkeit tatsächlich bedeutet. Das zu wissen, ist zu einem kleinen Teil auch für Volkswirte von Bedeutung, da wir, wie oben angesprochen, viel über Zufallsereignisse nachdenken und diese dann oft unterschiedlich modelliert werden. Deshalb wollen wir zunächst zwei häufige Typen“ von ” Wahrscheinlichkeiten kennen lernen, bevor wir mit dem Rechnen beginnen. 8.2.1 Laplace-Wahrscheinlichkeit Die Wahrscheinlichkeit nach dem Mathematiker Laplace ist eine der ältesten Definitionen von Wahrscheinlichkeit. Deshalb wird sie häufig auch als die klassische Definition der Wahrscheinlichkeit bezeichnet. Nach Laplace definiert sich Wahrscheinlichkeit sehr einfach. Zunächst exisitert eine Menge möglicher Ereignisse Ω. Und jedes Ereignis innerhalb von Ω gilt als gleich wahrscheinlich. Mit einer Ereignismenge Ω = {Regen, Kein Regen} würde dies nach Laplace bedeuten, dass es nur zwei mögliche Ausprägungen des Zufallsereignis Wetter gibt. Entweder regnet es morgen oder nicht. Das ist soweit natürlich kaum abzustreiten. Nur unterstellt Laplace auch, dass beide Ereignisse gleich wahrscheinlich sind. Das heißt, die Wahrscheinlichkeit (P für probability) für Regen beträgt zum Beispiel: |{Regen}| 1 Zahl der günstigen Ereignisse“ = = = 0,5 P (Regen) = ” Zahl der möglichen Ereignisse“ |{Regen, Kein Regen}| 2 ” 67 8.2.2 Axiomatische Wahrscheinlichkeit Obige Annahme gleicher Wahrscheinlichkeit ist in vielen Anwendungsfällen problematisch. Denn natürlich ist es Unsinn zu glauben, dass Regen und kein Regen zu jeder Zeit gleichwahrscheinliche Ereignisse sind. Auf Grund dieser Einschränkung hat die axiomatische Wahrscheinlichkeitstheorie in der Praxis oft eine höhere Bedeutung. Diese geht auf den Mathematiker Kolmogorow zurück. Der große Unterschied zur Definition nach Laplace ist, dass nach dieser Theorie nicht versucht wird, die Wahrscheinlichkeit in eine besondere Form zu fassen, sondern dass sehr allgemeine Eigenschaften von Wahrscheinlichkeit zusammengefasst wurden. Mit Hilfe dieser Annahmen, lassen sich Wahrscheinlichkeiten dann einfacher ableiten. Diese Annahmen sind: 1. Jedes Ereignis aus der Menge Ω hat eine Wahrscheinlichkeit. Diese kann nicht größer als Eins (sicheres Ereignis = b 100%) und nicht kleiner als Null (unmögliches Ereignis = b 0%) sein. Für ein beliebiges Ereignis A gilt also: 0 ≤ P (A) ≤ 1 2. Die Wahrscheinlichkeit, dass ein beliebiges, aber kein bestimmtes Ereignis aus der Menge Ω eintritt, beträgt Eins. Im Klartext also: Irgendetwas passiert immer. 3. Wenn sich zwei Ereignisse gegenseitig ausschließen (zum Beispiel kann ein Würfel nicht gleichzeitig eine Zwei und eine Drei zeigen), dann entspricht die Wahrscheinlichkeit, dass eines der beiden Ereignisse auftitt, gleich der Summe der Einzelwahrscheinlichkeiten, dass eines von ihnen eintritt. Aufbauend auf diesen Annahmen lassen sich, wie wir gleich sehen werden, durch Wahrscheinlichkeits, Dichte- und Verteilungsfunktionen komplexere Wahrscheinlichkeiten formulieren. 68 8.3 Diskrete und stetige Zufallsvariablen: Wahrscheinlichkeits-, Dichte- und Verteilungsfunktion 8.3.1 Zufallsvariablen Unter einer Zufallsvariablen verstehen wir eine Variable, die in der Mathematik für ein Ereignis mit nicht bekanntem Ausgang den Platz hält. Ihr Gegenstück, die deterministische Variable, ist einem jedem sicherlich noch bestens aus dem Schulunterricht bekannt. Man konnte mit ihr einen Platzhalter für einen unbekannten Wert setzen und so statt mit Zahlen mit dieser Unbekannten weiterrechnen. Eine Zufallsvariable ist im Grunde genommen nichts anderes als eine solche Unbekannte. Eine Zufallsvariable kommt immer dann zum Einsatz, wenn wir mit einem Ereignis arbeiten müssen, dessen Ergebnis noch offen steht. Steht uns beispielsweise frei, einen Betrag M entweder auf einem Sparkonto mit Zinssatz a = 3% zu anzulegen oder in einer Wette (b) bei einem Sieg das Geld zu verdoppeln oder bei Verlust alles zu verlieren, so lässt sich das Resultat der ersten Option durch eine deterministische Variable beschreiben, das Resultat der letzteren aber nur durch eine Zufallsvariable. Formal notiert würde für die Auszahlung Z jeweils gelten: Sparkonto: Z = M · a Wette: Z = M · b Den Betrag auf dem Sparkonto können wir nun sehr einfach mit den uns bekannten Regeln errechnen. Für die vom Zufall abhängige Wette allerdings benötigen wir spezielle Rechenregeln. Oft lassen sich Ergebnisse hier nämlich nur als Erwartung oder Verteilung darstellen. Denn welchen Wert b letzendlich annimmt, wissen wir zu diesem Zeitpunkt nocht nicht. Das hierzu nötige Grundwerkzeug lernen wir in den folgenden Kapiteln kennen. 8.3.2 Diskrete Zufallsvariablen Man spricht von einer diskreten Zufallsvariablen, wenn ein Ereignis nur eine begrenzte Zahl von Ausprägungen annehmen kann. Ein Würfel kann zum Beispiel nur die Seiten Eins bis Sechs zeigen. Die Menge der möglichen Ergebnisse ist also Ω = {1, 2, 3, 4, 5, 6} und damit begrenzt. Die Wahrscheinlichkeitsfunktion gibt dabei für jede Ausprägung xi des Zufallsereignisses Würfeln 69 an (Im Folgenden wird das Ereignis, hier also das ”Würfeln”mit X bezeichnet. Ein mögliches Ergebnis, also die Augen, die das Würfeln zeigt, mit xi ), wie häufig es relativ zu den anderen Ereignissen eintritt. Wenn also jede Seite des Würfels gleich oft nach oben zeigt, dann beträgt die Wahrscheinlichkeit für zum Beispiel die Zahl Zwei (X = x2 = 2) gemäß der Definition von Laplace 61 . Formal wird eine solche Wahrscheinlichkeit wie hier notiert: f (2) = P (X = 2) = 1 6 Allgemeiner wird die Wahrscheinlichkeitsfunktion so aufgeschrieben: (auch für Nicht-LaplaceWahrscheinlichkeiten) ∀ i ∈ {1, . . . , N } f (xi ) = P (X = xi ) Die Intuition für diese allgemeine Formel wird im Folgenden an einem typischen Beispiel erläutert, auf das wir auch später noch häufiger zurück greifen werden: Das betrachtete Zufallsereignis ist dabei der gleichzeitige Wurf von zwei Würfeln mit sechs Augen. Das uns interessierende Ereignis (X) ist die Summe der gezeigten Augen beider Würfel. Wie sich diese Augensumme zusammensetzt, ist uns hingegen egal. Nur die Augensumme interessiert uns. Die Menge aller möglichen Ereignisse ist jetzt Ω = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}: Der kleinste Wert ist Zwei. (Beide Würfel zeigen eine Eins.) Der höchste mögliche Wert ist die Zwölf. (Beide Würfel zeigen eine Sechs.) Durch geeignete Kombinationen können auch alle Werte dazwischen erzielt werden. Zusammengefasst in einer Tabelle sind deshalb alle der folgenden Ergebnisse möglich: xi Augen der Würfel {Nr.1, Nr.2} Häufigkeit Kumuliert 2 {1,1} 1 1 3 {1,2} {2,1} 2 3 4 {1,3} {3,1} {2,2} 3 6 5 {1,4} {2,3} {3,2} {4,1} 4 10 6 {1,5} {2,4} {3,3} {4,2} {5,1} 5 15 7 {1,6} {2,5} {3,4} {4,3} {5,2} {6,1} 6 21 8 {2,6} {3,5} {4,4} {5,3} {6,2} 5 26 9 {3,6} {4,5} {5,4} {6,3} 4 30 10 {4,6} {5,5} {6,4} 3 33 11 {5,6} {6,5} 2 35 12 {6,6} 1 36 Tabelle 1: Mögliche Ereignisse beim gemeinsamen Werfen mit zwei Würfeln. 70 Wie es aus der obenstehenden Tabelle ersichtlich ist, sind die verschiedenen Ergebnisse für die Summe der Augen nun nicht mehr gleichwahrscheinlich wie es beim Werfen mit nur einem Würfel der Fall war. So ist die Augensumme Zwei beispielsweise nur mit einem Einserpasch möglich. Eine Augensumme von Sieben ergeben hingegen sechs verschiedene Würfelkombinationen, weshalb wir beim Würfeln eine Zwei viel seltener als die Sieben zu sehen bekommt. Dass verschiedene Ereignisse nun unterschiedlich wahrscheinlich sind, liegt daran, dass wir verschiedene Elementarereignisse nun zu komplexeren Ereignissen zusammengefasst haben. Konkret haben wir die Elementarereignisse des Würfelns mit einem Würfel zu einem gemeinsamen Wurf aggregiert. Diese Elementarereignisse ließen sich auch weiterhin mit einer Wahrscheinlichkeit nach Laplace beschreiben, aber es ist schnell zu erkennen, dass diese Möglichkeit für viele Anwendungsgebiete äußerst unpraktisch ist. Es wäre zu schwierig, beispielsweise zur Bestimmung des Wetters, alle Grundfaktoren wie Windstärke, Sonneneinstrahlung etc. zu abstrahieren, um daraus nach Laplace eine Wahrscheinlichkeit für den Regen abzuleiten. Und auch in der VWL können viele Wahrscheinlichkeiten nicht durch Aggregation der Grundereignisse bestimmt werden. Deshalb prüfen wir für das Beispiel der beiden Würfel zunächst die Regeln der axiomatischen Wahrscheinlichkeit. Wie für jedes Zufallsereignis gilt die Definition der drei genannte Bedinungen: (1) Jedes Ereignis hat eine (individuelle) Wahrscheinlichkeit, einzutreten. (2) Die Würfel werden immer eine der Zahlen aus der Ereignismenge zeigen. (3) Und die Wahrscheinlichkeit, dass eine von zwei beliebige Zahlen nach oben zeigt, entspricht der Summe der Einzelwahrscheinlichkeiten. Damit wir aber weiterhin Wahrscheinlichkeiten für Ereignisse in Zahlen fassen können und auch einem Außenstehenden die Wahrscheinlichkeit eines Zufallsereignisses vermitteln können, ohne ihn mühselig über die Zusammensetzung aus Elementarereignissen zu informieren, (sofern das überhaupt möglich ist) ist deshalb die bereits angesprochene Wahrscheinlichkeitsfunktion notwendig, welche die Häufigkeiten einzelner Ausprägungen des Zufallsereignisses zusammenfasst. Für das Werfen von zwei Würfeln sieht diese Funktion beispielsweise folgendermaßen aus: 71 f (xi ) = 1 , 36 2 , 36 3 , 36 4 , 36 5 , 36 6 , 36 xi ∈ {2, 12} xi ∈ {3, 11} xi ∈ {4, 10} xi ∈ {5, 9} xi ∈ {6, 8} xi = 7 Die Funktion sieht nur auf den ersten Blick umständlich aus. Im Gegenteil aber kann mit Hilfe dieser Ausdrucksweise eine große Menge von Information auf wenig Platz zusammengefasst werden. Dazu enthält sie alle Informationen über die Wahrscheinlichkeiten, die wir zuvor noch in einer umständlichen Tabelle abgefasst haben. So liest sich aus der ersten Zeile dieser Formel zum Beispiel von links nach rechts, dass die Wahrscheinlichkeit für eine Ausprägung 1 36 beträgt, wenn diese Ausprägung die Augensumme 2 oder 12 ist. (In diesem Zusammenhang bedeutet x ∈ {2; 12}“ so viel wie xi = 2 oder xi = 12“. Später besprechen wir diese Art der Notation ” i ” noch etwas ausführlicher.) Eine in der VWL und Statistik noch viel häufigere Form, um Wahrscheinlichkeiten zu beschreiben, ist die sogenannte (kumulierte) Verteilungsfunktion. Im Gegensatz zur Wahrscheinlichkeitsfunktion bringt diese zum Ausdruck, wie häufig ein Ereignis gemeinsam mit allen bisherigen Ereignissen eintritt. Für die Zahl Sieben gibt die Verteilungsfunktion also an, wie wahrscheinlich die Zahl Sieben oder eine kleinere Zahl gewürfelt wird. Dazu werden einfach die Wahrscheinlichkeiten aller Ereignisse in aufsteigender Reihenfolge aufaddiert: F (xi ) = 1 , 36 3 , 36 6 , 36 10 , 36 15 , 36 21 , 36 26 , 36 30 , 36 33 , 36 35 , 36 1, 72 xi = 2 xi = 3 xi = 4 xi = 5 xi = 6 xi = 7 xi = 8 xi = 9 xi = 10 xi = 11 xi = 12 Üblicherweise werden Wahrscheinlichkeitsfunktionen dabei immer mit einem Kleinbuchstaben, Verteilungsfunktionen mit einem Großbuchstaben bezeichnet. Die Bedeutung dieser Ausdrucksform wird im folgenden Kapitel mit stetigen Zufallsvariablen aber noch von größerer Bedeutung. Außerdem wird es einfacher zu verstehen, warum in vielen Fällen eine Verteilungsfunktion einfacher zu interpretieren ist als eine Wahrscheinlichkeitsfunktion. 8.3.3 Stetige Zufallsvariablen Im Gegensatz zu einer diskreten Zufallsvariablen ist die Menge der möglichen Ausprägungen, die sich in einem stetigem Zufallsereignis ergeben können, nicht auf eine zählbare Gruppe von Ergebnissen beschränkt. Stetige Zufallsvariablen können innerhalb eines (festzulegenden) Intervalls jeden beliebigen Wert annehmen. Als Beispiel können Börsenkurse (X) genannt werden. Eine Aktie notiert nicht zwingend mit einem nach oben hin beschränktem Preis (xi ) ganzer Euros. Würde man jedenfalls versuchen, für jeden möglichen Aktienpreis in Eurocent eine eigene, diskrete Wahrscheinlichkeit zu bestimmen, würde man damit zu keinem sinnvollen Ergebnis kommen. Darum werden stetige Zufallsereignisse vorzugsweise mit Hilfe einer Dichtefunktion beschrieben. Diese Dichtefunktion gibt für alle möglichen Wertbereiche einer Aktie an, wie wahrscheinlich sich relativ zu anderen Ereignnissen ein bestimmter Kurs einstellt. Sie ist sozusagen das Äquivalent zur Wahrscheinlichkeitsfunktion bei diskreten Zufallsvariablen. Tatsächlich werden beide Begriffe häufig sogar synonym verwendet. Auch lässt sich wie bei diskreten Zufallsvariablen eine Verteilungsfunktion errechnen, welche die aufsummierten Wahrscheinlichkeiten bis zu einem bestimmten Wert angeben. Würde man in einem Model über Aktienkurse zum Beispiel die Verteilungsfunktion zu einem Aktienpreis von 20 Euro die folgende Formel finden: ∫ F (x = 20) = P (0 ≤ x ≤ 20) = 20 f (x) dx = 0,7 0 Dann ließe sich hieraus ablesen, dass die Wahrscheinlichkeit für einen Aktienkurs von 20 Euro oder kleiner genau 70 Prozent beträgt. F (x) bezeichnet dabei - wie zuvor - bei diskreten 73 Zufallsvariablen die Verteilungsfunktion und f (x) die Dichtefunktion. Im Gegensatz zur Wahrscheinlichkeitsfunktion bei diskreten Zufallsvariablen erklärt die Dichtefunktion nun allerdings nicht mehr, wie wahrscheinlich ein bestimmtes Ereignis ist. Es gilt bei stetigen Zufallsereignissen darum: f (xi ) ̸= P (X = xi ) = 0 Die Dichtefunktion lässt sich im Vergleich zur Wahrscheinlichkeitsfunktion deshalb nur schwer interpretieren. Lieber verwenden viele Autoren daher die Verteilungsfunktion, um die besprochenen Ereignisse sinnvoll zu beschreiben. Auch ist es wichtig, anzumerken, dass bei stetigen Verteilungsfunktionen die Wahrscheinlichkeit, dass sich ein bestimmtes Ergebnis einstellt, immer approximativ Null angenommen wird. Die Wahrscheinlichkeit. dass ein ganz bestimmter Aktienkurs (mit einer Unzahl von Nachkommastellen) an der Börse notiert wird, ist also so gering, dass sie nahe Null vermutet wird. Die Dichtefunktion kann hingegen sogar Werte größer als Eins annehmen, was nur bedeutet, dass ein Wert relativ zu anderen Ereignissen häufiger auftritt. Ein Aktienkurs von genau 20 Euro ist demnach zwar selten, aber immer noch wahrscheinlicher als ein Kurs von 1000 Euro. 8.4 Rechnen mit Zufallsvariablen Im Folgenden wollen wir ein paar häufige Begriffe aus der Stochastik erläutern, die auch in der VWL regelmäßigen Gebrauch finden. Allerdings werden wir weniger rechnen“ als eine ” Intuition für die Begrifflichkeiten geben. Dazu werden wir formale Begriffe in einen verbalen Kontext setzen und wollen so ein Gefühl für einige Begriffe der Stochastik vermitteln. Eine ausführliche Erläuterung der in diesem Kapitel besprochenen Inhalte findet in den Kursen zur Statistik statt und bleibt hier deshalb außen vor. 8.4.1 Mengenlehre Wir haben bereits festgestellt, dass jedem Zufallsexperiment eine Menge von Ereignissen zugeordnet ist, die sich als Ergebnis einstellen können. Diese Mengen werden nach den Regeln der sogenannten Mengenlehre miteinander verrechnet. Deshalb wollen wir die in der Mengenlehre 74 gebrauchte Notation in diesem Abschnitt kurz zusammenfassen. Als Beispiel für die Mengenlehre betrachten wir zwei Zufallsvariablen. Als A bezeichnen wir den Wurf mit einem Würfel. Dessen Ereignismenge ist, wie oben gezeigt, ΩA = {1, 2, 3, 4, 5, 6}. Als zweite Zufallsvariable betrachten wir B, einen Wurf mit zwei Würfeln. Das uns interessierende Ereignis ist wieder die Summe der Augenzahlen beider Würfel ΩB = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Im Kontext der Mengenlehre interessieren wir uns dabei nicht für die Eintrittswahrscheinlichkeit der jeweiligen Zufallsvariablen. Im Folgenden sind ausschließlich die Mengen der möglichen Ereignisse von Bedeutung. Wir wollen dabei verstehen lernen, wie man bestimmte verbale Ausdrücke formal notiert. Zunächst existieren in der Mengenlehre einige Symbole, mit deren Hilfe Zusammenhänge zwischen Mengen und Elementen lediglich beschrieben werden. So lässt sich zum Beispiel zum Ausdruck bringen, dass eine Zahl ein Element einer Menge ist. 1 ∈ ΩA Dieser Term ist richtig, da die Zahl 1 mit einem einzelnen Würfelwurf erzielbar ist. Folglich ist 1 ein Element der möglichen Würfelergebnisse. Hingegen gilt 1∈ / ΩB denn die Zahl 1 kann nicht die Augensumme zweier Würfel sein. Beschreibt man hingegen die Gemeinsamkeit zweier Mengen, so wird statt des Elementsymbols das Symbol für die Teilmenge zum Einsatz gebracht. Die Menge der Zahlen 4 und 5 ist beispielsweise vollständig in ΩA enthalten. Darum gilt {4, 5} ⊂ ΩA als echte Teilmenge. Von einer unechten Teilmenge spricht man allerdings nur, wenn zwei Mengen eigentlich identisch sind. Zwar ist ein Menge in sich selbst vollständig enthalten, allerdings gilt dieser Zusammenhang auch umgekehrt. Notiert wird das so: {1, 2, 3, 4, 5, 6} ⊆ ΩA . 75 Allerdings ist bei der Notation Vorsicht geboten. Manchmal wird eine echte Teilmenge auch mit ( markiert während die (unechte) Teilmenge mit ⊂ notiert wird. Mit Hilfe der Mengenlehre lassen sich Gemeinsamkeiten von ΩA und ΩB nicht nur beschreiben, es können auch neue Mengen gebildet werden. Rechnerisch sind die meisten Begrifflichkeiten trivial, allerdings ist die Notationsform ungewohnt. Zunächst ist ΩA ∪ ΩB = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} die Vereinigung zweier Mengen. Eine Vereinigung ergibt immer die Ereignisse, die sich aus A, aus B oder aus beiden Zufallsvariabeln ergeben können. Dazu im Gegensatz steht die Schnittmenge. Mit ΩA ∩ ΩB = {2, 3, 4, 5, 6} werden nur solche Ereignisse abgebildet, die sich sowohl aus A als auch aus B ergeben können. Anders verhält es sich mit der Differenzmenge. Diese ist ΩA \ ΩB = {1} und enthält all jene Elemente, die sich in ΩA aber nicht in ΩB befinden. Zuletzt lernen wir noch das kartesische Produkt kennen. Im Vergleich zu den letzteren Berechnungen ist diese ein wenig komplexer. Mit dem kartesischen Produkt werden die möglichen Ereignisse zweier Zufallsvariablen nicht zusammengeführt, sondern zu einem neuen Ereignis kombiniert. Dadurch erhält das Ergebnis eine neue Form. Für das hier angeführte Beispiel ergibt das kartesische Produkt alle möglichen Ergebnise für beide Zufallsvariablen. Es gilt: ΩB × ΩA = {(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), . . . , (12, 6)} Dabei steht ein Wertpaar (2, 5) beispielsweise für das Ergebnis, dass gleichzeitig B = 2 und A = 5 gilt. 76 8.4.2 Bedingte Wahrscheinlichkeit Wir stellen die Mengenlehre wieder zurück und wenden uns wieder den Eintrittswahrscheinlichkeiten von Ereignissen zu. Für eine intuitive Erklärung der bedingten Wahrscheinlichkeit kehren wir zu unserem Beispiel mit der Augensumme beim Werfen zweier Würfel zurück. Eine bedingte Wahrscheinlichkeit bezeichnet dabei immer, dass eine Wahrscheinlichkeit bedingt, also ein Teilereigniss vorausgesetzt, bereits eingetreten ist. Würde man beispielsweise zunächst einen der Würfel werfen, der dann mit einer Drei nach oben zeigt, (Diese Teilereignis bezeichnen wir mit X1 = 3.) dann ist eine Augensumme beider Würfel von Zwei nicht mehr möglich - ganz egal, welche Zahl der zweite Würfel anschließend noch anzeigt. Darum gilt: f (2|X1 = 3) = P (X = 2|X1 = 3) = 0. Eine Funktion mit bedingter Wahrscheinlichkeit gibt also an, wie wahrscheinlich ein Zufallsereignis nach Erhalt neuer Informationen ist. Formal wird das bedingte, also bekannte Ereignis, immer nach einem Läengsstrich notiert. (Diese Notation gilt nicht nur für die Wahrscheinlichkeit. Ein Läengsstrich lässt sich auch in anderem Kontext als für den Fall, dass“ interpretieren.) ” Wenn sich die Wahrscheinlichkeit für ein Zufallsereignis mit der Ausprägung einer Komponente nicht verändert, spricht man weiter von einer Unabhängigkeit zweier Ereignisse. Die Unabhängigkeit und die bedingte Wahrscheinlichkeit sind dabei mit Sicherheit Jedem unter anderer Begrifflichkeit bereits bekannt und finden sich bereits im Gebrauch der Alltagssprache häufig wieder. Dazu sei ein banales Beispiel aufgeführt. Auch wenn sich natürlich selbst hierüber streiten lässt, so ist beispielsweise anzunehmen, dass die Wahrscheinlichkeit tagsüber beim Fahren mit dem Auto einen Unfall zu erleiden, unabhängig von der Mondphase. Damit gilt, dass das Risiko für einen Unfall bei z.B. Neumond gleich dem Risiko bei jeder anderen Mondphase ist. Die beiden Ereignisse“ sind unabhängig. Darum gilt für die bedingte Wahrscheinlichkeit: ” f (Unfall | Mond = Neumond) = P (X = Unfall | Mond = Neumond) = P (X = Unfall). Weiß man hingegen sicher, dass ein Fahrer bei schlechtem Wetter unterwegs ist, so würde man ihm hingegen eine höhere Wahrscheinlichkeit zuschreiben, mit dem Auto zu verunglücken, als einem Fahrer bei durchschnittlichem“, beliebigem Wetter. ” 77 f (Unfall) < f (Unfall | Wetter = Regen) Nicht anders liest sich die bedingte Wahrscheinlichkeit in allen anderen Bereichen. Nur wird dies dann zumeist etwas technischer zum Ausdruck gebracht, was aber niemanden weiter verwirren sollte. An dieser Stelle genügt es, sich zu merken, was es in der Stochastik bedeutet, dass eine Zufallsvariable bedingt eintritt. 8.4.3 Erwartungswert Der Erwartungswert ist die mit Eintrittswahrscheinlichkeiten gewichtete Summe aller möglichen Ausprägungen eines Zufallsereignisses. Weniger technisch ausgedrückt: Der Erwartungswert ist ein Durchschnitt, wobei die Ausprägungen nicht gleichberechtigt, sondern zu ihren jeweiligen Wahrscheinlichkeiten berücksichtigt werden. Als anschauliches Beispiel betrachten wir wieder die Augenzahl beim Werfen mit zwei Würfeln. Die Wahrscheinlichkeiten der jeweiligen Ausprägungen in Ω wurden dazu bereits bei der Besprechung diskreter Zufallsvariablen beschrieben. Aus der Wahrscheinlichkeitsfunktion f (x) lässt sich für den Erwartungswert also nach der obigen Definition berechnen: E(X) = 1 2 3 4 5 6 5 4 3 2 1 ·2+ ·3+ ·4+ ·5+ ·6+ ·7+ ·8+ ·9+ ·10+ ·11+ ·12 = 7. 36 36 36 36 36 36 36 36 36 36 36 Die Zahl Sieben ist also der Erwartungswert für dieses Zufallsereignis. Das ist dabei auch wenig überraschend, schließlich haben wir bereits festgestellt, dass dieser Wert auch der häufigste ist. Allerdings muss der Erwartungswert nicht für alle Zufallsereignisse den häufigsten Wert wiedergeben. Betrachten wir beispielsweise wieder das Werfen eines einzelnen Würfels, so ist der Erwartungswert: E(X) = 1 1 1 1 1 1 · 1 + · 2 + · 3 + · 4 + · 5 + · 6 = 3,5 6 6 6 6 6 6 Natürlich ist es klar, dass ein Wert von 3,5 niemals von diesem Würfel gezeigt wird. Trotzdem ist der Wert 3,5 möglichst nahe an allen möglichen, gleich wahrscheinlichen Ergebnissen des 78 Wurfes. Nicht anders ist ein Erwartungswert zu interpretieren: Werden die Ergebnisse des Zufallsereignisses eher hoch sein, wächst auch der Erwartungswert mit. Bei tendenziell niedrigen Ausprägungen, schrumpft der Erwartungswert eines Zufallsereignisses in Richtung dieser Werte. Für stetige Zufallsvariablen ist die Interpretation des Erwartungswertes identisch, nur die Berechnung erfolgt etwas anders, nämlich durch das Berechnen eines Integrals. Allgemein gilt daher für den Erwartungswert diskreter und stetiger Zufallsereignisse: Diskrete Zufallsvariable: E(X) = n ∑ xi · f (xi ) i=1 ∫ ∞ Stetige Zufallsvariable: E(X) = −∞ x · f (x) dx Glücklicherweise lassen sich Erwartungswerte auch durch Rechenregeln umformen. Dabei gelten leicht modifizierte Regeln wie beim Rechnen mit reelen Zahlen. Am Beispiel eines Wurfes mit einem Würfel X und zwei konstanten Werten a = 3 und b = 2 gilt: E(a + b · X) = E(a) + E(b) · E(X) = a + b · E(X). Die Interpretation lässt sich wie folgt formulieren: Frage ich eine beliebige Person welchen Wert er beim Würfeln eines einzelnen Würfels erwartet, wenn er das Ergebnis anschließend noch mit Zwei multipliziert und den Wert Drei aufaddiert, dann entpricht dies der gleichen Zahl, die sich ergibt, wenn ich denjenigen nur nach seiner Erwartung für den gewürfelten Wert befrage und die Rechnungen anschließend selbst durchführe. Ganz ähnlich verhält es sich für das Addieren und Subtrahieren zweier Würfe X und Y : E(X + Y ) = E(X) + E(Y ) und E(X − Y ) = E(X) − E(Y ). Wieder ergibt sich das gleiche Ergebnis, wenn direkt nach der Erwartung für die Summe der Würfel gefragt wird oder wenn sich nach den jeweiligen Erwartungswerten der Würfel X und 79 Y erkundigt wird und die Addition anschließend selbst durchgeführt wird. Allerdings lassen sich Erwartungswerte nicht multiplizieren. Berechnen wir den Erwartungswert für das Produkt zweier Würfe mit dem gleichem Würfel X: E(X 2 ) = 1 2 1 2 1 2 1 2 1 2 1 2 · 1 + · 2 + · 3 + · 4 + · 5 + · 6 ≈ 15,16 ̸= (3, 5)2 = 12,25. 6 6 6 6 6 6 Eine detailierte, mathematische Besprechung von Erwartungswerten findet innerhalb des Studiums erstmals in den Verantaltungen zur Statistik statt. Hier wollen wir uns vor allem mit einer Intuition für das Rechnen mit Erwartungswerten zufrieden geben. Eine solche, intuitive Auslegung von Erwartungswerten ist in der VWL übrigens sehr viel öfter ein Thema als man es zunächst vermuten würde. Deswegen ist es oft hilftreich, sich zunächst an mögliche intuitive Erklärungen für Erwartungswerte zu erinnern, als beim Anblick eines Erwartungsfunktion sofort einen Taschenrechner zu zücken. 8.4.4 Die Momente einer Wahrscheinlichkeitsverteilung Oftmals wird ein Erwartungswert mit dem sogenannten Mittelwert einer Verteilung gleichgesetzt. Das ist mathematisch aber nicht ganz korrekt. Zwar lässt sich der Mittelwert einer Zufallsvariable X unmittelbar aus dem Erwartungswert berechnen. Allerdings leiten sich auch höhere Momente von Verteilungen, die wir nur kurz ansprechen werden, aus dem Erwartungswert ab. Die genaue Bedeutung der Momente einer Zufallsvariablen wird in den Veranstaltungen zur Statistik besprochen. Grund für die häufige Gleichsetzung von Mittel- und Erwartungswert ist die Definition des Ersteren. Denn für das Werfen eines Würfels mit sechs Seiten gilt für den Mittelwert µX eine einfache Definition. Dieser sogenanne erste Moment einer Wahrscheinlichkeitsverteilung entspricht schlichtweg dem Erwartungswert von X: µX = E(X) = 3,5 Genauso berechnen sich höhere Momente der Wahrscheinlichkeit. Die Varianz, der zweite Moment einer Wahrscheinlichkeitsverteilung, ist ebenso als Rechnung mit Erwartungswerten definiert. Auch wird aus dieser Rechnung klarer, warum der Erwartungswert nur bedingt dem 80 Mittelwert entspricht. Ersterer ist nämlich nicht an eine bestimmte Form der Zufallsvariablen 2 gebunden. Für die Varianz σX eines Würfelwurfs X gilt 1 1 1 1 1 1 2 σX = E[X−E(X)]2 = ·[1−3,5]2 + ·[2−3,5]2 + ·[3−3,5]2 + ·[4−3,5]2 + ·[5−3,5]2 + ·[6−3,5]2 6 6 6 6 6 6 2 mit einem Ergebniss von σX ≈ 2,92. Und auch die höheren Momente - Schiefe und Wölbung einer Verteilung - berechnen sich mit Hilfe von Erwartungswerten. Die Formeln zur Berechnung seien an dieser Stelle nur zur Vollständigkeit aufgeführt: Drittes Moment: E[X − E(X)]3 = 3,5 Viertes Moment: E[X − E(X)]4 = 3,5 An dieser Stelle wollen wir uns aber damit begnügen, den Unterschied zwischen dem Erwartungswert und den vier Momenten einer Wahrscheinlichkeitsverteilung berechnen. Wichtig soll es für uns nur sein, zu begreifen, dass ein solcher Unterschied besteht und wie die Berechnung funktioniert. 81