Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 1 Appendix I: Eine etwas komprimierte Einführung in die Wahrscheinlichkeitstheorie Vorbemerkung: Die folgenden Seiten sind nicht zur Abschreckung gedacht, sondern als Ergänzung zu den Darstellungen, die in einführenden Lehrbüchern zur Ökonometrie enthalten sind. Die folgenden Seiten sind der Versuch, die Intuition hinter den vielen Definitionen und Konzepten in der Wahrscheinlichkeitstheorie zu erklären. Deshalb wird nicht überall auf Formeln verzichtet, auch wenn dadurch vielleicht nicht alles beim ersten oder zweiten Lesen klar wird. Korrekturen, Kommentare und Kritik sind willkommen! • Möglichkeitenraum (sample space, outcome space): die Menge Ω enthält alle möglichen Elementarereignisse (outcomes) eines Zufallsexperiments. Diese Menge kann abzählbar viele oder unendlich viele Elementarereignisse enthalten. Beispiele: – Urne mit 4 Kugeln in jeweils verschiedener Farbe: Ω = {gelb, rot, blau, grün} – zukünftiges Monatseinkommen eines Haushalts: Ω = [0, ∞) Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 2 Anmerkungen: – Sind die Elementarereignisse endlich viele, dann bezeichnet man die einzelnen Elementarereignisse häufig mit ωi. Für S Elementarereignisse ist Ω dann Ω = {ω1, ω2, . . . , ωS }. – Liegen unendlich viele Elementarereignisse vor, dann bezeichnet man ein einzelnes davon häufig mit ω. • Ereignis (event): Jede Menge von möglichen Elementarereignissen = jede Teilmenge der Menge Ω einschließlich Ω selbst. Beispiele: – Urnenbeispiel: mögliche Ereignisse sind beispielsweise {gelb, rot} oder {rot, blau, grün – Haushaltseinkommen: mögliche Ereignisse sind alle möglichen Teilintervalle und Verknüpfungen davon, z.B. (0, 5000], [1000, 1001), (400, ∞), 4000, etc. Anmerkungen: Verwendet man die allgemeine Schreibweise mit den ω’s, dann ergibt sich Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 3 – im Fall von S Elementarereignissen: {ω1, ω2}, {ωS }, {ω3, . . . , ωS }, etc. – im Fall von unendlich vielen Elementarereignissen innerhalb eines Intervalls Ω = (−∞, ∞): (a1, b1], [a2, b2), (0, ∞), etc., wobei immer die untere Grenze kleiner oder gleich der oberen Grenze ist, also ai ≤ bi. • Sigma-Algebra: – Vorbemerkungen: Betrachten wir unser Beispiel mit den 4 Kugeln in verschiedenen Farben. Um das Beispiel noch allgemeiner zu machen, bezeichnen wir ω1 = gelb, ω2 = rot, ω3 = blau, ω4 = grün. Nehmen wir nun an, dass wir insbesondere daran interessiert sind, ob folgende Ereignisse eintreten: C = {{ω1}, {ω1, ω2}, {ω1, ω3, ω4}} , die in der Menge C zusammengefasst werden. Wenn wir nun diese Kollektion von Teilmengen C genauer betrachten, fällt auf, dass zwar das Elementarereignis {ω1} eintreten kann, aber was machen wir, wenn es nicht eintritt. Dann muss ja zwangsläufig das Ereignis {ω2, ω3, ω4} eintreten, das aber nicht in der Sammlung C enthalten ist. Das bedeutet, dass wir die- Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 4 sem Ereignis dann auch keine Wahrscheinlichkeit zuordnen können. Da dies keinen Sinn macht, müssen wir die Menge C mindestens um das Ereignis {ω2, ω3, ω4} erweitern. Daraus folgt, dass eine Kollektion von Teilmengen, für die wir jeweils Wahrscheinlichkeiten definieren möchten, bestimmte Eigenschaften aufweisen muss. So muss zumindest immer das Komplement eines Ereignisses in der Kollektion von Teilmengen enthalten sein. Man kann sich auch überlegen, dass beliebige Vereinigungsmengen von Teilmengen ebenfalls in der Kollektion enthalten sein müssen. Erfüllt eine Kollektion von Teilmengen diese Anforderungen, dann wird sie als Sigma-Algebra bezeichnet. – Definition einer Sigma-Algebra: Eine Menge von Teilmengen von Ω wird als Sigma-Algebra bzw. als σ-Algebra (σ-algebra, σ-field) bezeichnet, wenn für diese Menge von Teilmengen folgende Eigenschaften gelten. Dabei wird eine σ-Algebra häufig mit F bezeichnet: 1. ∅ ∈ F 2. Wenn A ∈ F, dann Ac ∈ F Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 3. Wenn A1, A2 , . . . ∈ F, dann S∞ i=1 Ai 5 ∈F – Anmerkung: Im Fall endlich vieler Elementarereignisse ist die σ-Algebra mit der Potenzmenge identisch. Im Fall unendlich vieler Elementarereignisse, beispielsweise im Fall der möglichen Intervalle reeller Zahlen ist die σ-Algebra kleiner als die Potenzmenge. Genau für diesen Fall hat man dieses Konzept entwickelt, da die Potenzmenge ”zu groß” sein würde. • Wahrscheinlichkeitsfunktion: Es sei eine Menge Ω und eine σ-Algebra F gegeben. Dann ist eine Wahrscheinlichkeitsfunktion P eine Funktion mit Definitionsmenge F, die folgende Bedingungen erfüllt: Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 6 1. P (A) ≥ 0 für alle A ∈ F 2. P (Ω) = 1 3. Wenn A1, A2, . . . paarweise disjunkt sind, dann P ( S∞ i=1 Ai ) = P∞ i=1 P (Ai ) • Man sieht, dass die Definition einer Wahrscheinlichkeitsfunktion die Kenntnis eines Möglichkeitenraumes Ω und einer dazu passenden σ-Algebra voraussetzt. Streng genommen müsste man also zu einer Wahrscheinlichkeitsfunktion P immer dazusagen, zu welchem Ω und F sie gehört, was wir aber nicht tun werden. (Das Tripel (Ω, F, P) hat einen Namen und wird Wahrscheinlichkeitsraum genannt.) • Zufallsvariable: Eine Zufallsvariable ist eine Funktion, die jedem Elementarereignis ω ∈ Ω eine reelle Zahl X(ω) zuordnet. Urnenbeispiel: X(ω1) = 0, X(ω2) = 3, X(ω3) = 17, X(ω4) = 20 Beachte: Möchte man eine Wahrscheinlichkeitsfunktion für die Zufallsvariable X(ω) auf Ω festlegen, dann benötigt man – eine neue Menge an Elementarereignissen Ω′, die der Bildmenge der Zu- Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 7 fallsvariablen für die Elementarereignisse entspricht (im Urnenbeispiel Ω′ = {0, 3, 17, 20}) – eine neue σ-Algebra F ′, die sich aus F gewinnen lässt, – und eine neue Wahrscheinlichkeitsfunktion PX , die als Argumente Zahlen (im Beispiel: z.B. 0, 3) bzw. Intervalle von (reellen) Zahlen hat. • Dichtefunktion – Vorbemerkung: Wie wir schon gesehen haben, wird es immer kompliziert, wenn Ω unendlich viele Elementarereignisse vorliegen. Betrachten wir beispielsweise Ω = [0, 4]. Möchte man nun die Wahrscheinlichkeit berechnen, dass beispielsweise die Zahl π eintritt, dann ist diese Wahrscheinlichkeit 0. Wäre sie nicht 0, dann hätten wir das Problem, dass die Summe der Wahrscheinlichkeiten über alle (unendlich vielen) Zahlen nicht 1 sein könnte. Was tun? – Ein Ausweg ist folgender Trick: Betrachten wir die Wahrscheinlichkeit, dass die Realisation der Zufallsvariablen X in dem Intervall [0, x] liegt, wobei x < 4. Diese Wahrscheinlichkeit lässt sich schreiben als P (X ≤ x). Nun kann man fragen, inwieweit sich diese Wahrscheinlichkeit verändert, wenn Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 8 man das Intervall [0, x] um ein kleines Stück h verlängert. Die Antwort lautet: P (X ≤ x + h) − P (X ≤ x). Setzt man diese Veränderung in der Wahrscheinlichkeit in Bezug auf die Veränderung der Intervalllänge, erhält man P (X ≤ x + h) − P (X ≤ x) h Lässt man nun die Intervalllänge h gegen 0 gehen, bildet also den Grenzwert, erhält man P (X ≤ x + h) − P (X ≤ x) = f (x). lim h→0 h Dieser Grenzwert heißt Wahrscheinlichkeitsdichtefunktion oder kurz Dichtefunktion, die zu der Wahrscheinlichkeitsfunktion P gehört. – Wie lässt sich die Dichtefunktion interpretieren? Schreibt man etwas lässig P (X ≤ x + h) − P (X ≤ x) ≈ f (x) h und formt dies um zu P (X ≤ x + h) − P (X ≤ x) ≈ f (x)h, Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 9 dann sieht man, dass die Dichtefunktion f (x) die Rate angibt, mit der sich die Wahrscheinlichkeit verändert, wenn das Intervall [0, x] um h verlängert wird. Die Dichtefunktion gibt also eine Rate an. – Da die Dichtefunktion eine Ableitung ist, gilt umgekehrt in unserem Beispiel, dass Z x f (u)du = P (X ≤ x) = F (x). 0 Dabei wird F (x) = P (X ≤ x) als Wahrscheinlichkeitsverteilungsfunktion bezeichnet. Man erhält natürlich in unserem Beispiel auch, dass Z 4 f (u)du = P (X ≤ 4) = 1. 0 Allgemein gilt, dass das Integral der Dichtefunktion über den gesamten Bereich der Zufallsvariable 1 ergibt, beispielsweise bei X(ω) ∈ R: Z ∞ f (u)du = P (X ≤ ∞) = 1. −∞ Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 10 • Bedingte Wahrscheinlichkeitsfunktion Zunächst ein Beispiel: Es bezeichne die Zufallsvariable X ∈ [0, ∞) den Auszahlungsbetrag in einem Gewinnspiel. Die Wahrscheinlichkeitsfunktion bzw. Verteilungsfunktion P (X ≤ x) = F (x) gibt die Wahrscheinlichkeit für einen maximalen Gewinnbetrag von x an. Es ist weiter bekannt, dass zur Ermittlung des Auszahlungsbetrags 2 Maschinen bereitstehen, Maschine A und Maschine B. Frage: Wie groß ist die Wahrscheinlichkeit für einen maximalen Gewinnbetrag von x, wenn Maschine A zum Einsatz kommt? Anders formuliert, wie groß ist die gesuchte Wahrscheinlichkeit, wenn die Bedingung ”Maschine A im Einsatz” gilt? Man nennt deshalb die gesuchte Wahrscheinlichkeit auch bedingte Wahrscheinlichkeit und man schreibt P (X ≤ x|A). Entsprechend notiert man, falls die Bedingung ”Maschine B im Einsatz” gilt, P (X ≤ x|B). Frage: Welcher Zusammenhang besteht nun zwischen der unbedingten Wahr- Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 11 scheinlichkeit P (X ≤ x) und den beiden bedingten Wahrscheinlichkeiten P (X ≤ x|A) und P (X ≤ x|B)? Zur Beantwortung muss man wissen, mit welcher Wahrscheinlichkeit Maschine A, bzw. Maschine B zum Einsatz kommt. Wenn wir diese Wahrscheinlichkeiten mit P (A) und P (B) bezeichnen, dann können wir die obige Frage beantworten: P (X ≤ x) = P (X ≤ x|A)P (A) + P (X ≤ x|B)P (B) F (x) = F (x|A)P (A) + F (x|B)P (B) (Übrigens, der Möglichkeitenraum mit den Elementarereignissen für die Maschinenwahl ist Ω = {A, B}. Die hier verwendete σ-Algebra für die Maschinenwahl ist gegeben durch F = {Ω, A, B, ∅}.) In unserem Beispiel haben wir genau zwei Elementarereignisse. Der hierfür genannte Zusammenhang lässt sich auf n diskrete Elementarereignisse Ω = {A1, A2, . . . , An} erweitern: F (x) = F (x|A1)P (A1) + F (x|A2 )P (A2) + · · · F (x|An)P (An ) (*) Bisher haben wir die Bedingung in Form von Ereignissen und nicht in Form Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 12 von Zufallsvariablen definiert. Ein Beispiel für letzteres wäre, wenn zur Ermittlung des Auszahlungsbetrags nur eine Maschine zur Verfügung steht, deren Funktionsweise aber von dem vorherigen Auszahlungsbetrag Z abhängt. Dann lautet die bedingte Verteilungsfunktion F (x|Z = z), wobei Z = z bedeutet, dass die Bedingung lautet, dass Zufallsvariable Z genau die Realisation z annimmt. Um wieder den Zusammenhang zwischen der unbedingten und den bedingten Wahrscheinlichkeiten zu erhalten, müssen wir nun die Summe durch ein Integral ersetzen und die Wahrscheinlichkeit der Bedingung durch die entsprechende Dichtefunktion, da Z ja unendlich viele Werte annehmen kann. Für unser Beispiel ergibt sich dann: Z ∞ Z ∞ F (x|Z = z)f (z)dz = F (x|z)f (z)dz F (x) = 0 bzw. allgemein F (x) = Z 0 F (x|Z = z)f (z)dz = Z F (x|z)f (z)dz (**) Noch eine wichtige Eigenschaft: Wenn die Zufallszahlen X und Z stochastisch unabhängig sind, dann gilt F (x|z) = F (x). Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 13 • Bedingte Dichtefunktion Die bedingte Dichtefunktion kann man heuristisch aus der bedingten Verteilungsfunktion in derselben Weise ableiten, wie wir das weiter oben für unbedingte Dichtefunktion getan haben; lediglich die unbedingten Wahrscheinlichkeiten werden durch bedingte Wahrscheinlichkeiten ersetzt. Die bedingte Dichtefunktion ergibt sich aus P (X ≤ x + h|A) − P (X ≤ x|A) = f (x|A). lim h→0 h Falls man endlich viele Bedingungen hat, dann wird (*) zu f (x) = f (x|A1)P (A1) + f (x|A2 )P (A2) + · · · f (x|An)P (An ) Der Zusammenhang (**) lautet dann Z Z f (x) = f (x|Z = z)f (z)dz = f (x|z)f (z)dz. (+) (++) • Erwartungswert Betrachten wir wieder unser Beispiel der Auszahlungsmaschinen. Frage: Welchen Auszahlungsbetrag würden Sie ”im Mittel” oder ”im Durchschnitt” erwarten? Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 R∞ 14 Antwort: 0 xf (x)dx. Würde die Gewinnauszahlung in n verschiedenen disPn kreten Beträgen erfolgen, so würde man ”im Mittel” i=1 xiP (X = xi) erwarten. Jede mögliche Auszahlung wird mit ihrer Eintrittswahrscheinlichkeit gewichtet aufsummiert. Nicht überraschend bezeichnet man diese Größen auch als Erwartungswert. Allgemein ist der Erwartungswert definiert als Z E(X) = xf (x)dx, X E(X) = xiP (X = xi) X stetig X diskret Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 15 • Regeln für den Erwartungswert z.B. Wooldridge (2003), Appendix B 1. Für jede Konstante c gilt E[c] = c. 2. Für alle Konstanten a und b und Zufallsvariablen X und Y gilt E[aY + bY ] = aE(X) + bE(Y ). 3. Sind die Zufallsvariablen X und Y unabhängig, gilt E(Y X) = E(Y )E(X). • Bedingter Erwartungswert Bisher haben wir nicht darauf geachtet, welche Maschine bei der Auszahlungsermittlung zum Einsatz kommt. Interessieren wir uns hingegen für die erwartete Auszahlung, wenn Maschine A im Einsatz ist, dann müssen wir den bedingten Erwartungswert berechnen Z ∞ xf (x|A)dx. E(X|A) = 0 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 16 Dies geschieht einfach, indem man die unbedingte Dichte f (x) durch die bedingte Dichte f (x|A) ersetzt und die Bedingung in der Notation des Erwartungswertes angibt. Entsprechend lässt sich die erwartete Auszahlung für Maschine B berechnen als Z ∞ E(X|B) = xf (x|B)dx. 0 Allgemein erhält man für diskrete Bedingungen Z E(X|A) = xf (x|A)dx, X E(X|A) = xiP (X = xi|A), bzw. für stetige Bedingungen Z E(X|Z = z) = xf (x|Z = z)dx, X E(X|Z = z) = xiP (X = xi|Z = z), X stetig, X diskret, X stetig, X diskret. Beachte: Häufig verwendet man auch die Kurzformen, so auch in Wooldridge Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 17 (2003), E(X|z) = Z xf (x|z)dx, X E(X|z) = xiP (X = xi|z), X stetig, X diskret. Entsprechend dem Zusammenhang zwischen unbedingten und bedingten Wahrscheinlichkeiten, existiert ein ähnlicher Zusammenhang auch zwischen dem unbedingten und den bedingten Erwartungswerten. Er lautet E(X) = E [E(x|z)] und wird als Law of iterated expectations (LIE) bezeichnet. Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 Beweisskizze: E(X) = 18 Z xf (x)dx Z Z = x f (x|z)f (z)dz dx (Einsetzen von (++)) Z Z = xf (x|z)f (z)dzdx Z Z = xf (x|z)dx f (z)dz (Vertauschen von dx und dz) {z } | E(x|z) Z = E(x|z)f (z)dz =E [E(x|z)] In unserem Beispiel mit den 2 Maschinen ergibt das Gesetz der iterierten Erwartungen E(X) = E(X|A)P (A) + E(X|B)P (B) Dieses Beispiel macht auch deutlich, dass die bedingten Erwartungswerte E(X|A) und E(X|B) Zufallszahlen sind, die gewichtet mit ihren Eintritts- Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 19 wahrscheinlichkeiten P (A) und P (B) den Erwartungswert E(X) ergeben. Man stelle sich vor, man kennt vor Beginn des Spiels nur die beiden bedingten Erwartungswerte, aber nicht welche Maschine zum Einsatz kommen wird. Dann ist der erwartete Auszahlungsbetrag gerade E(X) und wir müssen die beiden bedingten Erwartungswerte als Zufallsvariablen ansehen. Sobald man weiß, welche Maschine zum Einsatz gekommen ist, ist der dazugehörige bedingte Erwartungswert die Realisation der Zufallsvariablen. Diese Eigenschaft gilt ganz allgemein für bedingte Erwartungswerte. • Regeln für bedingte Erwartungen z.B. Wooldridge (2003), Appendix B 1. Für jede Funktion c(·) gilt E[c(X)|X] = c(X). 2. Für alle Funktionen a(·) und b(·) gilt E[a(X)Y + b(X)|X] = a(X)E[Y |X] + b(X). 3. Sind die Zufallsvariablen X und Y unabhängig, gilt E(Y |X) = E(Y ). Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008 20 4. Law of iterated expectations (LIE) E(E(Y |X)) = E(Y ) 5. E(Y |X) = E(E(Y |X, Z)|X) 6. Falls E(Y |X) = E(Y ), dann Cov(X, Y ) = 0 7. Falls E(Y 2) < ∞ und E[g(X)2] < ∞ für eine beliebige Funktion g(·), dann gelten E{[Y − E(Y |X)]2|X} ≤ E{[Y − g(X)]2|X} E{[Y − E(Y |X)]2} ≤ E{[Y − g(X)]2}