Wahrscheinlichkeitstheorie Sommer 2009

Werbung
Appendix I: Eine etwas komprimierte Einführung in die
Wahrscheinlichkeitstheorie
Vorbemerkung: Die folgenden Seiten sind nicht zur Abschreckung gedacht, sondern
als Ergänzung zu den Darstellungen, die in einführenden Lehrbüchern zur Ökonometrie
enthalten sind. Die folgenden Seiten sind der Versuch, die Intuition hinter den vielen
Definitionen und Konzepten in der Wahrscheinlichkeitstheorie zu erklären. Deshalb
wird nicht überall auf Formeln verzichtet, auch wenn dadurch vielleicht nicht alles
beim ersten oder zweiten Lesen klar wird. Korrekturen, Kommentare und Kritik sind
willkommen!
Siehe insbesondere den sehr guten, knappen Überblick (mit Beispielen) in Hassler
(2007, Kapitel 2) oder sehr ausführlich (in Englisch) Casella & Berger (2002) oder
1
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
(sehr knapp) Wahrscheinlichkeitstheorie in Wikipedia.
2
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
• Ergebnismenge (sample space, outcome space):
(in früheren Versionen auch als Möglichkeitenraum bezeichnet)
die Menge Ω enthält alle möglichen Ergebnisse (outcomes) eines Zufallsexperiments. Diese Menge kann abzählbar viele oder überabzählbar viele Ergebnisse
enthalten.
Beispiele:
– Urne mit 4 Kugeln in jeweils verschiedener Farbe: Ω = {gelb, rot, blau, grün}.
– zukünftiges Monatseinkommen eines Haushalts: Ω = [0, ∞).
Anmerkungen:
– Sind die Ergebnisse endlich viele, dann bezeichnet man die einzelnen Ergebnisse
häufig mit ωi. Für S Ergebnisse ist Ω dann
Ω = {ω1, ω2, . . . , ωS }.
– Liegen unendlich viele Ergebnis vor, dann bezeichnet man ein einzelnes davon
häufig mit ω.
3
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
• Ereignis (event):
– Tritt ein bestimmtes Ergebnis ein, wird dies als Ereignis bezeichnet.
– Enthält das Ereignis genau ein Element der Ergebnismenge, wird es als Elementarereignis bezeichnet.
– Ein Ereignis ist eine Teilmenge der Ergebnismenge Ω, also jede Menge von
möglichen Elementarereignissen = jede Teilmenge der Menge Ω einschließlich
Ω selbst.
Beispiele:
– Urnenbeispiel: mögliche Ereignisse sind beispielsweise {gelb, rot} oder
{rot, blau, grün}.
– Haushaltseinkommen: mögliche Ereignisse sind alle möglichen Teilintervalle
und Verknüpfungen davon, z.B. (0, 5000], [1000, 1001), (400, ∞), 4000, etc.
4
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
Anmerkungen: Verwendet man die allgemeine Schreibweise mit den ω’s, dann
ergibt sich
– im Fall von S Elementarereignissen: {ω1, ω2}, {ωS }, {ω3, . . . , ωS }, etc.
– im Fall von unendlich vielen Elementarereignissen innerhalb eines Intervalls
Ω = (−∞, ∞): (a1, b1], [a2, b2), (0, ∞), etc., wobei immer die untere Grenze
kleiner oder gleich der oberen Grenze ist, also ai ≤ bi.
• Sigma-Algebra:
– Vorbemerkungen:
Betrachten wir unser Beispiel mit den 4 Kugeln in verschiedenen Farben. Um
das Beispiel noch allgemeiner zu machen, bezeichnen wir ω1 = gelb, ω2 = rot,
ω3 = blau, ω4 = grün. Nehmen wir nun an, dass wir insbesondere daran
interessiert sind, ob folgende Ereignisse eintreten:
C = {{ω1}, {ω1, ω2}, {ω1, ω3, ω4}} ,
die in der Menge C zusammengefasst werden. Wenn wir nun diese Kollektion
von Teilmengen C genauer betrachten, fällt auf, dass zwar das Elementarereignis {ω1} eintreten kann, aber was machen wir, wenn es nicht eintritt. Dann
5
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
muss ja zwangsläufig das Ereignis {ω2, ω3, ω4} eintreten, das aber nicht in
der Sammlung C enthalten ist. Das bedeutet, dass wir diesem Ereignis dann
auch keine Wahrscheinlichkeit zuordnen können. Da dies keinen Sinn macht,
müssen wir die Menge C mindestens um das Ereignis {ω2, ω3, ω4} erweitern.
Daraus folgt, dass eine Kollektion von Teilmengen, für die wir jeweils Wahrscheinlichkeiten definieren möchten, bestimmte Eigenschaften aufweisen muss.
So muss zumindest immer das Komplement eines Ereignisses in der Kollektion
von Teilmengen enthalten sein. Man kann sich auch überlegen, dass beliebige Vereinigungsmengen von Teilmengen ebenfalls in der Kollektion enthalten
sein müssen. Erfüllt eine Kollektion von Teilmengen diese Anforderungen, dann
wird sie als Sigma-Algebra bezeichnet.
6
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
– Definition einer Sigma-Algebra:
Eine Menge von Teilmengen von Ω wird als Sigma-Algebra bzw. als σAlgebra (σ-algebra, σ-field) bezeichnet, wenn für diese Menge von Teilmengen folgende Eigenschaften gelten. Dabei wird eine σ-Algebra häufig mit F
bezeichnet:
1. ∅ ∈ F.
2. Wenn A ∈ F, dann Ac ∈ F.
3. Wenn A1, A2, . . . ∈ F, dann
– Anmerkungen:
S∞
i=1 Ai
∈ F.
∗ Im Fall endlich vieler Elementarereignisse ist die σ-Algebra mit der Potenzmenge identisch. Im Fall unendlich vieler Elementarereignisse, beispielsweise
im Fall der möglichen Intervalle reeller Zahlen ist die σ-Algebra kleiner als
die Potenzmenge. Genau für diesen Fall hat man dieses Konzept entwickelt,
da die Potenzmenge ”zu groß” sein würde.
∗ F wird auch als Ereignisalgebra oder Ereignisraum bezeichnet.
7
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
• Es sei eine Ergebnismenge Ω und eine σ-Algebra F gegeben. Dann wird das Paar
(Ω, F) als meßbarer Raum bezeichnet.
• Wahrscheinlichkeitsfunktion:
Es sei eine Ergebnismenge Ω und eine σ-Algebra F gegeben. Jedem Ereignis wird
eine Wahrscheinlichkeit zugeordnet. Die Wahrscheinlichkeit ist eine Abbildung
P : A → P (A) ∈ [0, 1],
A ∈ F,
die folgende Bedingungen erfüllt:
1. P (A) ≥ 0 für alle A ∈ F.
2. P (Ω) = 1.
3. Wenn A1, A2, . . . paarweise disjunkt sind, dann P (
S∞
i=1 Ai )
=
P∞
i=1 P (Ai ).
• Man sieht, dass die Definition einer Wahrscheinlichkeitsfunktion die Kenntnis einer Ergebnismenge Ω und einer dazu passenden σ-Algebra voraussetzt. Streng
genommen müsste man also zu einer Wahrscheinlichkeitsfunktion P immer dazu
sagen, zu welchem Ω und F sie gehört, was wir aber im Allgemeinen nicht tun
werden. Das Tripel (Ω, F, P) hat einen Namen und wird Wahrscheinlichkeits8
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
raum genannt.
Auf einem meßbaren Raum (Ω, F) können mehrere Wahrscheinlichkeitsfunktionen
definiert sind (z.B. für einen fairen und einen unfairen Würfel).
• Zufallsvariable:
Eine Zufallsvariable ist eine Funktion, die jedem Elementarereignis ω ∈ Ω eine
reelle Zahl X(ω) ∈ R zuordnet. Urnenbeispiel: X(ω1) = 0, X(ω2) = 3, X(ω3) =
17, X(ω4) = 20.
Beachte: Möchte man eine Wahrscheinlichkeitsfunktion für die Zufallsvariable
X(ω) auf Ω festlegen, dann benötigt man
– eine neue Ergebnismenge Ω′, die der Bildmenge der Zufallsvariablen für die Ergebnisse bzw. Elementarereignisse entspricht (im Urnenbeispiel Ω′ = {0, 3, 17, 20})
– eine neue σ-Algebra F ′, die sich aus F gewinnen lässt,
– und eine neue Wahrscheinlichkeitsfunktion PX , die als Argumente Zahlen (im
Beispiel: z.B. 0, 3) bzw. Intervalle von (reellen) Zahlen hat.
Im Allgemeinen ist
9
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
– die neue Ergebnismenge Ω′ durch die Menge der reellen Zahlen R gegeben
– die dazugehörige σ-Algebra durch die sogenannte Borel-Algebra B gegeben.
Sie ist die kleinste σ-Algebra über R, die alle reellen Intervalle enthält.
Die Zufallsvariable X definiert damit einen neuen (abgeleiteten, induzierten)
Wahrscheinlichkeitsraum (R, B, PX ).
Beachte: Voraussetzung hierfür, dass alle Teilmengen in den jeweiligen σ-Algebren
(F bzw. B) jeweils eine entsprechende Teilmenge in der anderen σ-Algebra aufweisen. Dies wird in der mathematischen Statistik als Messbarkeit einer Zufallsvariablen bezeichnet, siehe auch Hassler (2007, Abschnitt 2.1, S. 15).
Beachte: Wenn es zu keinen Verwechslungen kommen kann, wird im
Folgenden anstelle von PX nur P geschrieben.
10
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
• Dichtefunktion
– Vorbemerkung: Wie wir schon gesehen haben, wird es immer kompliziert,
wenn Ω unendlich viele Elementarereignisse vorliegen. Betrachten wir beispielsweise Ω = [0, 4]. Möchte man nun die Wahrscheinlichkeit berechnen, dass
beispielsweise die Zahl π eintritt, dann ist diese Wahrscheinlichkeit 0. Wäre
sie nicht 0, dann hätten wir das Problem, dass die Summe der Wahrscheinlichkeiten über alle (überabzählbar vielen) Zahlen nicht 1 sein könnte. Was
tun?
– Ein Ausweg bietet folgender Trick: Betrachten wir die Wahrscheinlichkeit, dass
die Realisation der Zufallsvariablen X in dem Intervall [0, x] liegt, wobei x <
4. Diese Wahrscheinlichkeit lässt sich schreiben als P (X ≤ x). Nun kann
man fragen, inwieweit sich diese Wahrscheinlichkeit verändert, wenn man das
Intervall [0, x] um ein kleines Stück h verlängert. Die Antwort lautet: P (X ≤
x + h) − P (X ≤ x). Setzt man diese Veränderung in der Wahrscheinlichkeit
in Bezug auf die Veränderung der Intervalllänge, erhält man
P (X ≤ x + h) − P (X ≤ x)
.
h
11
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
Lässt man nun die Intervalllänge h gegen 0 gehen, bildet also den Grenzwert,
erhält man
P (X ≤ x + h) − P (X ≤ x)
= f (x).
lim
h→0
h
Dieser Grenzwert heißt Wahrscheinlichkeitsdichtefunktion oder kurz Dichtefunktion, die zu der Wahrscheinlichkeitsfunktion P gehört.
– Wie lässt sich die Dichtefunktion interpretieren?
Schreibt man etwas lässig
P (X ≤ x + h) − P (X ≤ x)
≈ f (x)
h
und formt dies um zu
P (X ≤ x + h) − P (X ≤ x) ≈ f (x)h,
dann sieht man, dass die Dichtefunktion f (x) die Rate angibt, mit der sich die
Wahrscheinlichkeit verändert, wenn das Intervall [0, x] um h verlängert wird.
Die Dichtefunktion gibt also eine Rate an.
12
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
– Da die Dichtefunktion eine Ableitung ist, gilt umgekehrt in unserem Beispiel,
dass
Z x
f (u)du = P (X ≤ x) = F (x).
0
Dabei wird F (x) = P (X ≤ x) als Wahrscheinlichkeitsverteilungsfunktion bezeichnet. Man erhält natürlich in unserem Beispiel auch, dass
Z 4
f (u)du = P (X ≤ 4) = 1.
0
Allgemein gilt, dass das Integral der Dichtefunktion über den gesamten Bereich
der Zufallsvariable 1 ergibt, beispielsweise bei X(ω) ∈ R:
Z ∞
f (u)du = P (X ≤ ∞) = 1.
−∞
13
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
• Bedingte Wahrscheinlichkeitsfunktion
Zunächst ein Beispiel:
Es bezeichne die Zufallsvariable X ∈ [0, ∞) den Auszahlungsbetrag in einem
Gewinnspiel. Die Wahrscheinlichkeitsfunktion bzw. Verteilungsfunktion P (X ≤
x) = F (x) gibt die Wahrscheinlichkeit für einen maximalen Gewinnbetrag von x
an. Es ist weiter bekannt, dass zur Ermittlung des Auszahlungsbetrags 2 Maschinen bereitstehen, Maschine A und Maschine B.
Frage: Wie groß ist die Wahrscheinlichkeit für einen maximalen Gewinnbetrag von
x, wenn Maschine A zum Einsatz kommt?
Anders formuliert, wie groß ist die gesuchte Wahrscheinlichkeit, wenn die Bedingung ”Maschine A im Einsatz” gilt? Man nennt deshalb die gesuchte Wahrscheinlichkeit auch bedingte Wahrscheinlichkeit und man schreibt
P (X ≤ x|A).
Entsprechend notiert man, falls die Bedingung ”Maschine B im Einsatz” gilt,
P (X ≤ x|B).
14
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
Frage: Welcher Zusammenhang besteht nun zwischen der unbedingten Wahrscheinlichkeit P (X ≤ x) und den beiden bedingten Wahrscheinlichkeiten
P (X ≤ x|A) und P (X ≤ x|B)?
Zur Beantwortung muss man wissen, mit welcher Wahrscheinlichkeit Maschine
A, bzw. Maschine B zum Einsatz kommt. Wenn wir diese Wahrscheinlichkeiten
mit P (A) und P (B) bezeichnen, dann können wir die obige Frage beantworten:
P (X ≤ x) = P (X ≤ x|A)P (A) + P (X ≤ x|B)P (B)
F (x) = F (x|A)P (A) + F (x|B)P (B)
(Übrigens, der Ergebnisraum mit den Elementarereignissen für die Maschinenwahl
ist Ω = {A, B}. Die hier verwendete σ-Algebra für die Maschinenwahl ist gegeben
durch F = {Ω, A, B, ∅}.)
In unserem Beispiel haben wir genau zwei Elementarereignisse. Der hierfür genannte Zusammenhang lässt sich auf n diskrete Elementarereignisse Ω = {A1, A2, . . . , An}
erweitern:
F (x) = F (x|A1 )P (A1) + F (x|A2)P (A2) + · · · F (x|An)P (An )
15
(*)
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
Bisher haben wir die Bedingung in Form von Ereignissen und nicht in Form von
Zufallsvariablen definiert. Ein Beispiel für letzteres wäre, wenn zur Ermittlung des
Auszahlungsbetrags nur eine Maschine zur Verfügung steht, deren Funktionsweise
aber von dem vorherigen Auszahlungsbetrag Z abhängt. Dann lautet die bedingte Verteilungsfunktion F (x|Z = z), wobei Z = z bedeutet, dass die Bedingung
lautet, dass Zufallsvariable Z genau die Realisation z annimmt. Um wieder den
Zusammenhang zwischen der unbedingten und den bedingten Wahrscheinlichkeiten zu erhalten, müssen wir nun die Summe durch ein Integral ersetzen und die
Wahrscheinlichkeit der Bedingung durch die entsprechende Dichtefunktion, da Z
ja unendlich viele Werte annehmen kann. Für unser Beispiel ergibt sich dann:
Z ∞
Z ∞
F (x|Z = z)f (z)dz =
F (x|z)f (z)dz
F (x) =
0
0
bzw. allgemein
F (x) =
Z
F (x|Z = z)f (z)dz =
16
Z
F (x|z)f (z)dz
(**)
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
Noch eine wichtige Eigenschaft:
Wenn die Zufallszahlen X und Z stochastisch unabhängig sind, dann gilt
F (x|z) = F (x).
• Bedingte Dichtefunktion
Die bedingte Dichtefunktion kann man heuristisch aus der bedingten Verteilungsfunktion in derselben Weise ableiten, wie wir das weiter oben für unbedingte
Dichtefunktion getan haben; lediglich die unbedingten Wahrscheinlichkeiten werden durch bedingte Wahrscheinlichkeiten ersetzt. Die bedingte Dichtefunktion
ergibt sich aus
P (X ≤ x + h|A) − P (X ≤ x|A)
= f (x|A).
lim
h→0
h
Falls man endlich viele Bedingungen hat, dann wird (*) zu
f (x) = f (x|A1 )P (A1) + f (x|A2)P (A2) + · · · f (x|An )P (An)
Der Zusammenhang (**) lautet dann
Z
Z
f (x) = f (x|Z = z)f (z)dz = f (x|z)f (z)dz.
17
(+)
(++)
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
• Erwartungswert
Betrachten wir wieder unser Beispiel der Auszahlungsmaschinen.
Frage: Welchen Auszahlungsbetrag würden Sie ”im Mittel” oder ”im Durchschnitt” erwarten?
R∞
Antwort: 0 xf (x)dx. Würde die Gewinnauszahlung in n verschiedenen diskrePn
ten Beträgen erfolgen, so würde man ”im Mittel” i=1 xiP (X = xi) erwarten.
Jede mögliche Auszahlung wird mit ihrer Eintrittswahrscheinlichkeit gewichtet
aufsummiert. Nicht überraschend bezeichnet man diese Größen auch als Erwartungswert.
Allgemein ist der Erwartungswert definiert als
Z
E(X) = xf (x)dx,
X
E(X) =
xiP (X = xi)
18
X stetig
X diskret
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
• Regeln für den Erwartungswert z.B. Wooldridge (2009, Appendix B)
1. Für jede Konstante c gilt
E[c] = c.
2. Für alle Konstanten a und b und Zufallsvariablen X und Y gilt
E[aX + bY ] = aE(X) + bE(Y ).
3. Sind die Zufallsvariablen X und Y unabhängig, gilt
E(Y X) = E(Y )E(X).
• Bedingter Erwartungswert
Bisher haben wir nicht darauf geachtet, welche Maschine bei der Auszahlungsermittlung zum Einsatz kommt. Interessieren wir uns hingegen für die erwartete
Auszahlung, wenn Maschine A im Einsatz ist, dann müssen wir den bedingten
Erwartungswert berechnen
Z ∞
E(X|A) =
xf (x|A)dx.
0
19
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
Dies geschieht einfach, indem man die unbedingte Dichte f (x) durch die bedingte
Dichte f (x|A) ersetzt und die Bedingung in der Notation des Erwartungswertes
angibt. Entsprechend lässt sich die erwartete Auszahlung für Maschine B berechnen als
Z ∞
E(X|B) =
xf (x|B)dx.
0
Allgemein erhält man für diskrete Bedingungen
Z
E(X|A) = xf (x|A)dx,
X
E(X|A) =
xiP (X = xi|A),
bzw. für stetige Bedingungen
Z
E(X|Z = z) = xf (x|Z = z)dx,
X
E(X|Z = z) =
xiP (X = xi|Z = z),
20
X stetig,
X diskret,
X stetig,
X diskret.
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
Beachte: Häufig verwendet man auch die Kurzformen, so auch in Wooldridge
(2009),
Z
E(X|z) = xf (x|z)dx,
X stetig,
X
X diskret.
E(X|z) =
xiP (X = xi|z),
Entsprechend dem Zusammenhang zwischen unbedingten und bedingten Wahrscheinlichkeiten, existiert ein ähnlicher Zusammenhang auch zwischen dem unbedingten und den bedingten Erwartungswerten. Er lautet
E(X) = E [E(X|Z)]
und wird als Law of iterated expectations (LIE) bezeichnet.
21
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
Beweisskizze:
E(X) =
Z
xf (x)dx
Z Z
= x
f (x|z)f (z)dz dx (Einsetzen von (++))
Z Z
=
xf (x|z)f (z)dzdx
Z Z
=
xf (x|z)dx f (z)dz (Vertauschen von dx und dz)
{z
}
|
E(X|z)
Z
= E(X|z)f (z)dz
=E [E(X|Z)]
In unserem Beispiel mit den 2 Maschinen ergibt das Gesetz der iterierten Erwartungen
E(X) = E(X|A)P (A) + E(X|B)P (B).
Dieses Beispiel macht auch deutlich, dass die bedingten Erwartungswerte E(X|A)
und E(X|B) Zufallszahlen sind, die gewichtet mit ihren Eintrittswahrscheinlich22
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
keiten P (A) und P (B) den Erwartungswert E(X) ergeben. Man stelle sich vor,
man kennt vor Beginn des Spiels nur die beiden bedingten Erwartungswerte, aber
nicht welche Maschine zum Einsatz kommen wird. Dann ist der erwartete Auszahlungsbetrag gerade E(X) und wir müssen die beiden bedingten Erwartungswerte
als Zufallsvariablen ansehen. Sobald man weiß, welche Maschine zum Einsatz gekommen ist, ist der dazugehörige bedingte Erwartungswert die Realisation der
Zufallsvariablen. Diese Eigenschaft gilt ganz allgemein für bedingte Erwartungswerte.
• Regeln für bedingte Erwartungen
z.B. Wooldridge (2009, Appendix B)
1. Für jede Funktion c(·) gilt
E[c(X)|X] = c(X).
2. Für alle Funktionen a(·) und b(·) gilt
E[a(X)Y + b(X)|X] = a(X)E(Y |X) + b(X).
23
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
3. Sind die Zufallsvariablen X und Y unabhängig, gilt
E(Y |X) = E(Y ).
4. Law of iterated expectations (LIE)
E[E(Y |X)] = E(Y ).
5. E(Y |X) = E[E(Y |X, Z)|X].
6. Falls E(Y |X) = E(Y ), dann Cov(X, Y ) = 0.
7. Falls E(Y 2) < ∞ und E[g(X)2] < ∞ für eine beliebige Funktion g(·), dann
gelten
E{[Y − E(Y |X)]2|X} ≤ E{[Y − g(X)]2|X}
E{[Y − E(Y |X)]2} ≤ E{[Y − g(X)]2}.
24
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial SS 2009 - Stand: 22.04.2009
Beachte:
– E(Y ) = 0
6⇒
– Cov(Y, X) = 0
E(Y |X) = 0.
6⇒
E(Y |X) = 0.
– Cov(Y, X) = 0 und E(Y ) = 0
⇒
E(Y X) = E[XE(Y |X)] = 0.
– Beispiel: Für Y = X 2 und E(X) = E(X 3) = 0 gilt Cov(Y, X) = 0, da
Cov(X 2, X) = E(X 3) − E(X 2)E(X) = 0, aber E(Y |X) = X 2 6= 0.
25
Literaturverzeichnis
Casella, G. & Berger, R. L. (2002), Statistical Inference, Thomson.
Hassler, U. (2007), Stochastische Integration und Zeitreihenmodellierung, Springer,
Berlin, Heidelberg.
Wooldridge, J. M. (2009), Introductory Econometrics. A Modern Approach, 4th edn,
Thomson South-Western.
26
Herunterladen