Appendix I: Eine etwas komprimierte Einführung in die Wahrscheinlichkeitstheorie Vorbemerkung: Die folgenden Seiten sind nicht zur Abschreckung gedacht, sondern als Ergänzung zu den Darstellungen, die in einführenden Lehrbüchern zur Ökonometrie enthalten sind. Die folgenden Seiten sind der Versuch, die Intuition hinter den vielen Definitionen und Konzepten in der Wahrscheinlichkeitstheorie zu erklären. Deshalb wird nicht überall auf Formeln verzichtet, auch wenn dadurch vielleicht nicht alles beim ersten oder zweiten Lesen klar wird. Korrekturen, Kommentare und Kritik sind willkommen! Siehe insbesondere den sehr guten, knappen Überblick (mit Beispielen) in Hassler (2007, Kapitel 2) oder sehr ausführlich (in Englisch) Casella & Berger (2002) oder 1 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 (sehr knapp) Wahrscheinlichkeitstheorie in Wikipedia. 2 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 • Ergebnismenge (sample space, outcome space): (in früheren Versionen auch als Möglichkeitenraum bezeichnet) die Menge Ω enthält alle möglichen Ergebnisse (outcomes) eines Zufallsexperiments. Diese Menge kann abzählbar viele oder überabzählbar viele Ergebnisse enthalten. Beispiele: – Urne mit 4 Kugeln in jeweils verschiedener Farbe: Ω = {gelb, rot, blau, grün}. – zukünftiges Monatseinkommen eines Haushalts: Ω = [0, ∞). Anmerkungen: – Sind die Ergebnisse endlich viele, dann bezeichnet man die einzelnen Ergebnisse häufig mit ωi. Für S Ergebnisse ist Ω dann Ω = {ω1, ω2, . . . , ωS }. – Liegen unendlich viele Ergebnis vor, dann bezeichnet man ein einzelnes davon häufig mit ω. 3 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 • Ereignis (event): – Tritt ein bestimmtes Ergebnis ein, wird dies als Ereignis bezeichnet. – Enthält das Ereignis genau ein Element der Ergebnismenge, wird es als Elementarereignis bezeichnet. – Ein Ereignis ist eine Teilmenge der Ergebnismenge Ω, also jede Menge von möglichen Elementarereignissen = jede Teilmenge der Menge Ω einschließlich Ω selbst. Beispiele: – Urnenbeispiel: mögliche Ereignisse sind beispielsweise {gelb, rot} oder {rot, blau, grün}. – Haushaltseinkommen: mögliche Ereignisse sind alle möglichen Teilintervalle und Verknüpfungen davon, z.B. (0, 5000], [1000, 1001), (400, ∞), 4000, etc. 4 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 Anmerkungen: Verwendet man die allgemeine Schreibweise mit den ω’s, dann ergibt sich – im Fall von S Elementarereignissen: {ω1, ω2}, {ωS }, {ω3, . . . , ωS }, etc. – im Fall von unendlich vielen Elementarereignissen innerhalb eines Intervalls Ω = (−∞, ∞): (a1, b1], [a2, b2), (0, ∞), etc., wobei immer die untere Grenze kleiner oder gleich der oberen Grenze ist, also ai ≤ bi. • Sigma-Algebra: – Vorbemerkungen: Betrachten wir unser Beispiel mit den 4 Kugeln in verschiedenen Farben. Um das Beispiel noch allgemeiner zu machen, bezeichnen wir ω1 = gelb, ω2 = rot, ω3 = blau, ω4 = grün. Nehmen wir nun an, dass wir insbesondere daran interessiert sind, ob folgende Ereignisse eintreten: C = {{ω1}, {ω1, ω2}, {ω1, ω3, ω4}} , die in der Menge C zusammengefasst werden. Wenn wir nun diese Kollektion von Teilmengen C genauer betrachten, fällt auf, dass zwar das Elementarereignis {ω1} eintreten kann, aber was machen wir, wenn es nicht eintritt. Dann 5 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 muss ja zwangsläufig das Ereignis {ω2, ω3, ω4} eintreten, das aber nicht in der Sammlung C enthalten ist. Das bedeutet, dass wir diesem Ereignis dann auch keine Wahrscheinlichkeit zuordnen können. Da dies keinen Sinn macht, müssen wir die Menge C mindestens um das Ereignis {ω2, ω3, ω4} erweitern. Daraus folgt, dass eine Kollektion von Teilmengen, für die wir jeweils Wahrscheinlichkeiten definieren möchten, bestimmte Eigenschaften aufweisen muss. So muss zumindest immer das Komplement eines Ereignisses in der Kollektion von Teilmengen enthalten sein. Man kann sich auch überlegen, dass beliebige Vereinigungsmengen von Teilmengen ebenfalls in der Kollektion enthalten sein müssen. Erfüllt eine Kollektion von Teilmengen diese Anforderungen, dann wird sie als Sigma-Algebra bezeichnet. 6 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 – Definition einer Sigma-Algebra: Eine Menge von Teilmengen von Ω wird als Sigma-Algebra bzw. als σAlgebra (σ-algebra, σ-field) bezeichnet, wenn für diese Menge von Teilmengen folgende Eigenschaften gelten. Dabei wird eine σ-Algebra häufig mit F bezeichnet: 1. ∅ ∈ F. 2. Wenn A ∈ F, dann Ac ∈ F. 3. Wenn A1, A2, . . . ∈ F, dann – Anmerkungen: S∞ i=1 Ai ∈ F. ∗ Im Fall endlich vieler Elementarereignisse ist die σ-Algebra mit der Potenzmenge identisch. Im Fall unendlich vieler Elementarereignisse, beispielsweise im Fall der möglichen Intervalle reeller Zahlen ist die σ-Algebra kleiner als die Potenzmenge. Genau für diesen Fall hat man dieses Konzept entwickelt, da die Potenzmenge ”zu groß” sein würde. ∗ F wird auch als Ereignisalgebra oder Ereignisraum bezeichnet. 7 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 • Es sei eine Ergebnismenge Ω und eine σ-Algebra F gegeben. Dann wird das Paar (Ω, F) als meßbarer Raum bezeichnet. • Wahrscheinlichkeitsfunktion: Es sei eine Ergebnismenge Ω und eine σ-Algebra F gegeben. Jedem Ereignis wird eine Wahrscheinlichkeit zugeordnet. Die Wahrscheinlichkeit ist eine Abbildung P : A → P (A) ∈ [0, 1], A ∈ F, die folgende Bedingungen erfüllt: 1. P (A) ≥ 0 für alle A ∈ F. 2. P (Ω) = 1. 3. Wenn A1, A2, . . . paarweise disjunkt sind, dann P ( S∞ i=1 Ai ) = P∞ i=1 P (Ai ). • Man sieht, dass die Definition einer Wahrscheinlichkeitsfunktion die Kenntnis einer Ergebnismenge Ω und einer dazu passenden σ-Algebra voraussetzt. Streng genommen müsste man also zu einer Wahrscheinlichkeitsfunktion P immer dazu sagen, zu welchem Ω und F sie gehört, was wir aber im Allgemeinen nicht tun werden. Das Tripel (Ω, F, P) hat einen Namen und wird Wahrscheinlichkeits8 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 raum genannt. Auf einem meßbaren Raum (Ω, F) können mehrere Wahrscheinlichkeitsfunktionen definiert sind (z.B. für einen fairen und einen unfairen Würfel). • Zufallsvariable: Eine Zufallsvariable ist eine Funktion, die jedem Elementarereignis ω ∈ Ω eine reelle Zahl X(ω) ∈ R zuordnet. Urnenbeispiel: X(ω1) = 0, X(ω2) = 3, X(ω3) = 17, X(ω4) = 20. Beachte: Möchte man eine Wahrscheinlichkeitsfunktion für die Zufallsvariable X(ω) auf Ω festlegen, dann benötigt man – eine neue Ergebnismenge Ω′, die der Bildmenge der Zufallsvariablen für die Ergebnisse bzw. Elementarereignisse entspricht (im Urnenbeispiel Ω′ = {0, 3, 17, 20}) – eine neue σ-Algebra F ′, die sich aus F gewinnen lässt, – und eine neue Wahrscheinlichkeitsfunktion PX , die als Argumente Zahlen (im Beispiel: z.B. 0, 3) bzw. Intervalle von (reellen) Zahlen hat. Im Allgemeinen ist 9 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 – die neue Ergebnismenge Ω′ durch die Menge der reellen Zahlen R gegeben – die dazugehörige σ-Algebra durch die sogenannte Borel-Algebra B gegeben. Sie ist die kleinste σ-Algebra über R, die alle reellen Intervalle enthält. Die Zufallsvariable X definiert damit einen neuen (abgeleiteten, induzierten) Wahrscheinlichkeitsraum (R, B, PX ). Beachte: Voraussetzung hierfür, dass alle Teilmengen in den jeweiligen σ-Algebren (F bzw. B) jeweils eine entsprechende Teilmenge in der anderen σ-Algebra aufweisen. Dies wird in der mathematischen Statistik als Messbarkeit einer Zufallsvariablen bezeichnet, siehe auch Hassler (2007, Abschnitt 2.1, S. 15). Beachte: Wenn es zu keinen Verwechslungen kommen kann, wird im Folgenden anstelle von PX nur P geschrieben. 10 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 • Dichtefunktion – Vorbemerkung: Wie wir schon gesehen haben, wird es immer kompliziert, wenn Ω unendlich viele Elementarereignisse vorliegen. Betrachten wir beispielsweise Ω = [0, 4]. Möchte man nun die Wahrscheinlichkeit berechnen, dass beispielsweise die Zahl π eintritt, dann ist diese Wahrscheinlichkeit 0. Wäre sie nicht 0, dann hätten wir das Problem, dass die Summe der Wahrscheinlichkeiten über alle (überabzählbar vielen) Zahlen nicht 1 sein könnte. Was tun? – Ein Ausweg bietet folgender Trick: Betrachten wir die Wahrscheinlichkeit, dass die Realisation der Zufallsvariablen X in dem Intervall [0, x] liegt, wobei x < 4. Diese Wahrscheinlichkeit lässt sich schreiben als P (X ≤ x). Nun kann man fragen, inwieweit sich diese Wahrscheinlichkeit verändert, wenn man das Intervall [0, x] um ein kleines Stück h verlängert. Die Antwort lautet: P (X ≤ x + h) − P (X ≤ x). Setzt man diese Veränderung in der Wahrscheinlichkeit in Bezug auf die Veränderung der Intervalllänge, erhält man P (X ≤ x + h) − P (X ≤ x) . h 11 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 Lässt man nun die Intervalllänge h gegen 0 gehen, bildet also den Grenzwert, erhält man P (X ≤ x + h) − P (X ≤ x) = f (x). lim h→0 h Dieser Grenzwert heißt Wahrscheinlichkeitsdichtefunktion oder kurz Dichtefunktion, die zu der Wahrscheinlichkeitsfunktion P gehört. – Wie lässt sich die Dichtefunktion interpretieren? Schreibt man etwas lässig P (X ≤ x + h) − P (X ≤ x) ≈ f (x) h und formt dies um zu P (X ≤ x + h) − P (X ≤ x) ≈ f (x)h, dann sieht man, dass die Dichtefunktion f (x) die Rate angibt, mit der sich die Wahrscheinlichkeit verändert, wenn das Intervall [0, x] um h verlängert wird. Die Dichtefunktion gibt also eine Rate an. 12 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 – Da die Dichtefunktion eine Ableitung ist, gilt umgekehrt in unserem Beispiel, dass Z x f (u)du = P (X ≤ x) = F (x). 0 Dabei wird F (x) = P (X ≤ x) als Wahrscheinlichkeitsverteilungsfunktion bezeichnet. Man erhält natürlich in unserem Beispiel auch, dass Z 4 f (u)du = P (X ≤ 4) = 1. 0 Allgemein gilt, dass das Integral der Dichtefunktion über den gesamten Bereich der Zufallsvariable 1 ergibt, beispielsweise bei X(ω) ∈ R: Z ∞ f (u)du = P (X ≤ ∞) = 1. −∞ 13 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 • Bedingte Wahrscheinlichkeitsfunktion Zunächst ein Beispiel: Es bezeichne die Zufallsvariable X ∈ [0, ∞) den Auszahlungsbetrag in einem Gewinnspiel. Die Wahrscheinlichkeitsfunktion bzw. Verteilungsfunktion P (X ≤ x) = F (x) gibt die Wahrscheinlichkeit für einen maximalen Gewinnbetrag von x an. Es ist weiter bekannt, dass zur Ermittlung des Auszahlungsbetrags 2 Maschinen bereitstehen, Maschine A und Maschine B. Frage: Wie groß ist die Wahrscheinlichkeit für einen maximalen Gewinnbetrag von x, wenn Maschine A zum Einsatz kommt? Anders formuliert, wie groß ist die gesuchte Wahrscheinlichkeit, wenn die Bedingung ”Maschine A im Einsatz” gilt? Man nennt deshalb die gesuchte Wahrscheinlichkeit auch bedingte Wahrscheinlichkeit und man schreibt P (X ≤ x|A). Entsprechend notiert man, falls die Bedingung ”Maschine B im Einsatz” gilt, P (X ≤ x|B). 14 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 Frage: Welcher Zusammenhang besteht nun zwischen der unbedingten Wahrscheinlichkeit P (X ≤ x) und den beiden bedingten Wahrscheinlichkeiten P (X ≤ x|A) und P (X ≤ x|B)? Zur Beantwortung muss man wissen, mit welcher Wahrscheinlichkeit Maschine A, bzw. Maschine B zum Einsatz kommt. Wenn wir diese Wahrscheinlichkeiten mit P (A) und P (B) bezeichnen, dann können wir die obige Frage beantworten: P (X ≤ x) = P (X ≤ x|A)P (A) + P (X ≤ x|B)P (B) F (x) = F (x|A)P (A) + F (x|B)P (B) (Übrigens, der Ergebnisraum mit den Elementarereignissen für die Maschinenwahl ist Ω = {A, B}. Die hier verwendete σ-Algebra für die Maschinenwahl ist gegeben durch F = {Ω, A, B, ∅}.) In unserem Beispiel haben wir genau zwei Elementarereignisse. Der hierfür genannte Zusammenhang lässt sich auf n diskrete Elementarereignisse Ω = {A1, A2, . . . , An} erweitern: F (x) = F (x|A1 )P (A1) + F (x|A2)P (A2) + · · · F (x|An)P (An ) 15 (*) Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 Bisher haben wir die Bedingung in Form von Ereignissen und nicht in Form von Zufallsvariablen definiert. Ein Beispiel für letzteres wäre, wenn zur Ermittlung des Auszahlungsbetrags nur eine Maschine zur Verfügung steht, deren Funktionsweise aber von dem vorherigen Auszahlungsbetrag Z abhängt. Dann lautet die bedingte Verteilungsfunktion F (x|Z = z), wobei Z = z bedeutet, dass die Bedingung lautet, dass Zufallsvariable Z genau die Realisation z annimmt. Um wieder den Zusammenhang zwischen der unbedingten und den bedingten Wahrscheinlichkeiten zu erhalten, müssen wir nun die Summe durch ein Integral ersetzen und die Wahrscheinlichkeit der Bedingung durch die entsprechende Dichtefunktion, da Z ja unendlich viele Werte annehmen kann. Für unser Beispiel ergibt sich dann: Z ∞ Z ∞ F (x|Z = z)f (z)dz = F (x|z)f (z)dz F (x) = 0 0 bzw. allgemein F (x) = Z F (x|Z = z)f (z)dz = 16 Z F (x|z)f (z)dz (**) Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 Noch eine wichtige Eigenschaft: Wenn die Zufallszahlen X und Z stochastisch unabhängig sind, dann gilt F (x|z) = F (x). • Bedingte Dichtefunktion Die bedingte Dichtefunktion kann man heuristisch aus der bedingten Verteilungsfunktion in derselben Weise ableiten, wie wir das weiter oben für unbedingte Dichtefunktion getan haben; lediglich die unbedingten Wahrscheinlichkeiten werden durch bedingte Wahrscheinlichkeiten ersetzt. Die bedingte Dichtefunktion ergibt sich aus P (X ≤ x + h|A) − P (X ≤ x|A) = f (x|A). lim h→0 h Falls man endlich viele Bedingungen hat, dann wird (*) zu f (x) = f (x|A1 )P (A1) + f (x|A2)P (A2) + · · · f (x|An )P (An) Der Zusammenhang (**) lautet dann Z Z f (x) = f (x|Z = z)f (z)dz = f (x|z)f (z)dz. 17 (+) (++) Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 • Erwartungswert Betrachten wir wieder unser Beispiel der Auszahlungsmaschinen. Frage: Welchen Auszahlungsbetrag würden Sie ”im Mittel” oder ”im Durchschnitt” erwarten? R∞ Antwort: 0 xf (x)dx. Würde die Gewinnauszahlung in n verschiedenen diskrePn ten Beträgen erfolgen, so würde man ”im Mittel” i=1 xiP (X = xi) erwarten. Jede mögliche Auszahlung wird mit ihrer Eintrittswahrscheinlichkeit gewichtet aufsummiert. Nicht überraschend bezeichnet man diese Größen auch als Erwartungswert. Allgemein ist der Erwartungswert definiert als Z E(X) = xf (x)dx, X E(X) = xiP (X = xi) 18 X stetig X diskret Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 • Regeln für den Erwartungswert z.B. Wooldridge (2009, Appendix B) 1. Für jede Konstante c gilt E[c] = c. 2. Für alle Konstanten a und b und Zufallsvariablen X und Y gilt E[aX + bY ] = aE(X) + bE(Y ). 3. Sind die Zufallsvariablen X und Y unabhängig, gilt E(Y X) = E(Y )E(X). • Bedingter Erwartungswert Bisher haben wir nicht darauf geachtet, welche Maschine bei der Auszahlungsermittlung zum Einsatz kommt. Interessieren wir uns hingegen für die erwartete Auszahlung, wenn Maschine A im Einsatz ist, dann müssen wir den bedingten Erwartungswert berechnen Z ∞ E(X|A) = xf (x|A)dx. 0 19 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 Dies geschieht einfach, indem man die unbedingte Dichte f (x) durch die bedingte Dichte f (x|A) ersetzt und die Bedingung in der Notation des Erwartungswertes angibt. Entsprechend lässt sich die erwartete Auszahlung für Maschine B berechnen als Z ∞ E(X|B) = xf (x|B)dx. 0 Allgemein erhält man für diskrete Bedingungen Z E(X|A) = xf (x|A)dx, X E(X|A) = xiP (X = xi|A), bzw. für stetige Bedingungen Z E(X|Z = z) = xf (x|Z = z)dx, X E(X|Z = z) = xiP (X = xi|Z = z), 20 X stetig, X diskret, X stetig, X diskret. Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 Beachte: Häufig verwendet man auch die Kurzformen, so auch in Wooldridge (2009), Z E(X|z) = xf (x|z)dx, X stetig, X X diskret. E(X|z) = xiP (X = xi|z), Entsprechend dem Zusammenhang zwischen unbedingten und bedingten Wahrscheinlichkeiten, existiert ein ähnlicher Zusammenhang auch zwischen dem unbedingten und den bedingten Erwartungswerten. Er lautet E(X) = E [E(X|Z)] und wird als Law of iterated expectations (LIE) bezeichnet. 21 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 Beweisskizze: E(X) = Z xf (x)dx Z Z = x f (x|z)f (z)dz dx (Einsetzen von (++)) Z Z = xf (x|z)f (z)dzdx Z Z = xf (x|z)dx f (z)dz (Vertauschen von dx und dz) {z } | E(X|z) Z = E(X|z)f (z)dz =E [E(X|Z)] In unserem Beispiel mit den 2 Maschinen ergibt das Gesetz der iterierten Erwartungen E(X) = E(X|A)P (A) + E(X|B)P (B). Dieses Beispiel macht auch deutlich, dass die bedingten Erwartungswerte E(X|A) und E(X|B) Zufallszahlen sind, die gewichtet mit ihren Eintrittswahrscheinlich22 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 keiten P (A) und P (B) den Erwartungswert E(X) ergeben. Man stelle sich vor, man kennt vor Beginn des Spiels nur die beiden bedingten Erwartungswerte, aber nicht welche Maschine zum Einsatz kommen wird. Dann ist der erwartete Auszahlungsbetrag gerade E(X) und wir müssen die beiden bedingten Erwartungswerte als Zufallsvariablen ansehen. Sobald man weiß, welche Maschine zum Einsatz gekommen ist, ist der dazugehörige bedingte Erwartungswert die Realisation der Zufallsvariablen. Diese Eigenschaft gilt ganz allgemein für bedingte Erwartungswerte. • Regeln für bedingte Erwartungen z.B. Wooldridge (2009, Appendix B) 1. Für jede Funktion c(·) gilt E[c(X)|X] = c(X). 2. Für alle Funktionen a(·) und b(·) gilt E[a(X)Y + b(X)|X] = a(X)E(Y |X) + b(X). 23 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 3. Sind die Zufallsvariablen X und Y unabhängig, gilt E(Y |X) = E(Y ). 4. Law of iterated expectations (LIE) E[E(Y |X)] = E(Y ). 5. E(Y |X) = E[E(Y |X, Z)|X]. 6. Falls E(Y |X) = E(Y ), dann Cov(X, Y ) = 0. 7. Falls E(Y 2) < ∞ und E[g(X)2] < ∞ für eine beliebige Funktion g(·), dann gelten E{[Y − E(Y |X)]2|X} ≤ E{[Y − g(X)]2|X} E{[Y − E(Y |X)]2} ≤ E{[Y − g(X)]2}. 24 Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009 Beachte: – E(Y ) = 0 6⇒ – Cov(Y, X) = 0 E(Y |X) = 0. 6⇒ E(Y |X) = 0. – Cov(Y, X) = 0 und E(Y ) = 0 ⇒ E(Y X) = E[XE(Y |X)] = 0. – Beispiel: Für Y = X 2 und E(X) = E(X 3) = 0 gilt Cov(Y, X) = 0, da Cov(X 2, X) = E(X 3) − E(X 2)E(X) = 0, aber E(Y |X) = X 2 6= 0. 25 Literaturverzeichnis Casella, G. & Berger, R. L. (2002), Statistical Inference, Thomson. Hassler, U. (2007), Stochastische Integration und Zeitreihenmodellierung, Springer, Berlin, Heidelberg. Wooldridge, J. M. (2009), Introductory Econometrics. A Modern Approach, 4th edn, Thomson South-Western. 26