Appendix I: Eine etwas komprimierte Einführung in die

Werbung
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
1
Appendix I: Eine etwas komprimierte Einführung in
die Wahrscheinlichkeitstheorie
Vorbemerkung: Die folgenden Seiten sind nicht zur Abschreckung gedacht, sondern als Ergänzung zu den Darstellungen, die in einführenden Lehrbüchern zur
Ökonometrie enthalten sind. Die folgenden Seiten sind der Versuch, die Intuition
hinter den vielen Definitionen und Konzepten in der Wahrscheinlichkeitstheorie zu
erklären. Deshalb wird nicht überall auf Formeln verzichtet, auch wenn dadurch
vielleicht nicht alles beim ersten oder zweiten Lesen klar wird. Korrekturen, Kommentare und Kritik sind willkommen!
• Möglichkeitenraum (sample space, outcome space):
die Menge Ω enthält alle möglichen Elementarereignisse (outcomes) eines Zufallsexperiments. Diese Menge kann abzählbar viele oder unendlich viele Elementarereignisse enthalten.
Beispiele:
– Urne mit 4 Kugeln in jeweils verschiedener Farbe: Ω = {gelb, rot, blau, grün}
– zukünftiges Monatseinkommen eines Haushalts: Ω = [0, ∞)
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
2
Anmerkungen:
– Sind die Elementarereignisse endlich viele, dann bezeichnet man die einzelnen Elementarereignisse häufig mit ωi. Für S Elementarereignisse ist Ω
dann
Ω = {ω1, ω2, . . . , ωS }.
– Liegen unendlich viele Elementarereignisse vor, dann bezeichnet man ein
einzelnes davon häufig mit ω.
• Ereignis (event):
Jede Menge von möglichen Elementarereignissen = jede Teilmenge der Menge
Ω einschließlich Ω selbst.
Beispiele:
– Urnenbeispiel: mögliche Ereignisse sind beispielsweise {gelb, rot} oder {rot, blau, grün
– Haushaltseinkommen: mögliche Ereignisse sind alle möglichen Teilintervalle
und Verknüpfungen davon, z.B. (0, 5000], [1000, 1001), (400, ∞), 4000, etc.
Anmerkungen: Verwendet man die allgemeine Schreibweise mit den ω’s, dann
ergibt sich
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
3
– im Fall von S Elementarereignissen: {ω1, ω2}, {ωS }, {ω3, . . . , ωS }, etc.
– im Fall von unendlich vielen Elementarereignissen innerhalb eines Intervalls Ω = (−∞, ∞): (a1, b1], [a2, b2), (0, ∞), etc., wobei immer die untere
Grenze kleiner oder gleich der oberen Grenze ist, also ai ≤ bi.
• Sigma-Algebra:
– Vorbemerkungen:
Betrachten wir unser Beispiel mit den 4 Kugeln in verschiedenen Farben.
Um das Beispiel noch allgemeiner zu machen, bezeichnen wir ω1 = gelb,
ω2 = rot, ω3 = blau, ω4 = grün. Nehmen wir nun an, dass wir insbesondere
daran interessiert sind, ob folgende Ereignisse eintreten:
C = {{ω1}, {ω1, ω2}, {ω1, ω3, ω4}} ,
die in der Menge C zusammengefasst werden. Wenn wir nun diese Kollektion von Teilmengen C genauer betrachten, fällt auf, dass zwar das Elementarereignis {ω1} eintreten kann, aber was machen wir, wenn es nicht
eintritt. Dann muss ja zwangsläufig das Ereignis {ω2, ω3, ω4} eintreten, das
aber nicht in der Sammlung C enthalten ist. Das bedeutet, dass wir die-
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
4
sem Ereignis dann auch keine Wahrscheinlichkeit zuordnen können. Da dies
keinen Sinn macht, müssen wir die Menge C mindestens um das Ereignis
{ω2, ω3, ω4} erweitern. Daraus folgt, dass eine Kollektion von Teilmengen,
für die wir jeweils Wahrscheinlichkeiten definieren möchten, bestimmte Eigenschaften aufweisen muss. So muss zumindest immer das Komplement eines Ereignisses in der Kollektion von Teilmengen enthalten sein. Man kann
sich auch überlegen, dass beliebige Vereinigungsmengen von Teilmengen
ebenfalls in der Kollektion enthalten sein müssen. Erfüllt eine Kollektion von Teilmengen diese Anforderungen, dann wird sie als Sigma-Algebra
bezeichnet.
– Definition einer Sigma-Algebra:
Eine Menge von Teilmengen von Ω wird als Sigma-Algebra bzw. als
σ-Algebra (σ-algebra, σ-field) bezeichnet, wenn für diese Menge von Teilmengen folgende Eigenschaften gelten. Dabei wird eine σ-Algebra häufig
mit F bezeichnet:
1. ∅ ∈ F
2. Wenn A ∈ F, dann Ac ∈ F
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
3. Wenn A1, A2 , . . . ∈ F, dann
S∞
i=1 Ai
5
∈F
– Anmerkung:
Im Fall endlich vieler Elementarereignisse ist die σ-Algebra mit der Potenzmenge identisch. Im Fall unendlich vieler Elementarereignisse, beispielsweise im Fall der möglichen Intervalle reeller Zahlen ist die σ-Algebra kleiner
als die Potenzmenge. Genau für diesen Fall hat man dieses Konzept entwickelt, da die Potenzmenge ”zu groß” sein würde.
• Wahrscheinlichkeitsfunktion:
Es sei eine Menge Ω und eine σ-Algebra F gegeben. Dann ist eine Wahrscheinlichkeitsfunktion P eine Funktion mit Definitionsmenge F, die folgende
Bedingungen erfüllt:
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
6
1. P (A) ≥ 0 für alle A ∈ F
2. P (Ω) = 1
3. Wenn A1, A2, . . . paarweise disjunkt sind, dann P (
S∞
i=1 Ai )
=
P∞
i=1 P (Ai )
• Man sieht, dass die Definition einer Wahrscheinlichkeitsfunktion die Kenntnis
eines Möglichkeitenraumes Ω und einer dazu passenden σ-Algebra voraussetzt.
Streng genommen müsste man also zu einer Wahrscheinlichkeitsfunktion P
immer dazusagen, zu welchem Ω und F sie gehört, was wir aber nicht tun
werden. (Das Tripel (Ω, F, P) hat einen Namen und wird Wahrscheinlichkeitsraum genannt.)
• Zufallsvariable:
Eine Zufallsvariable ist eine Funktion, die jedem Elementarereignis ω ∈ Ω eine
reelle Zahl X(ω) zuordnet.
Urnenbeispiel: X(ω1) = 0, X(ω2) = 3, X(ω3) = 17, X(ω4) = 20
Beachte: Möchte man eine Wahrscheinlichkeitsfunktion für die Zufallsvariable
X(ω) auf Ω festlegen, dann benötigt man
– eine neue Menge an Elementarereignissen Ω′, die der Bildmenge der Zu-
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
7
fallsvariablen für die Elementarereignisse entspricht (im Urnenbeispiel Ω′ =
{0, 3, 17, 20})
– eine neue σ-Algebra F ′, die sich aus F gewinnen lässt,
– und eine neue Wahrscheinlichkeitsfunktion PX , die als Argumente Zahlen
(im Beispiel: z.B. 0, 3) bzw. Intervalle von (reellen) Zahlen hat.
• Dichtefunktion
– Vorbemerkung: Wie wir schon gesehen haben, wird es immer kompliziert, wenn Ω unendlich viele Elementarereignisse vorliegen. Betrachten wir
beispielsweise Ω = [0, 4]. Möchte man nun die Wahrscheinlichkeit berechnen, dass beispielsweise die Zahl π eintritt, dann ist diese Wahrscheinlichkeit 0. Wäre sie nicht 0, dann hätten wir das Problem, dass die Summe
der Wahrscheinlichkeiten über alle (unendlich vielen) Zahlen nicht 1 sein
könnte. Was tun?
– Ein Ausweg ist folgender Trick: Betrachten wir die Wahrscheinlichkeit, dass
die Realisation der Zufallsvariablen X in dem Intervall [0, x] liegt, wobei
x < 4. Diese Wahrscheinlichkeit lässt sich schreiben als P (X ≤ x). Nun
kann man fragen, inwieweit sich diese Wahrscheinlichkeit verändert, wenn
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
8
man das Intervall [0, x] um ein kleines Stück h verlängert. Die Antwort
lautet: P (X ≤ x + h) − P (X ≤ x). Setzt man diese Veränderung in der
Wahrscheinlichkeit in Bezug auf die Veränderung der Intervalllänge, erhält
man
P (X ≤ x + h) − P (X ≤ x)
h
Lässt man nun die Intervalllänge h gegen 0 gehen, bildet also den Grenzwert, erhält man
P (X ≤ x + h) − P (X ≤ x)
= f (x).
lim
h→0
h
Dieser Grenzwert heißt Wahrscheinlichkeitsdichtefunktion oder kurz
Dichtefunktion, die zu der Wahrscheinlichkeitsfunktion P gehört.
– Wie lässt sich die Dichtefunktion interpretieren?
Schreibt man etwas lässig
P (X ≤ x + h) − P (X ≤ x)
≈ f (x)
h
und formt dies um zu
P (X ≤ x + h) − P (X ≤ x) ≈ f (x)h,
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
9
dann sieht man, dass die Dichtefunktion f (x) die Rate angibt, mit der sich
die Wahrscheinlichkeit verändert, wenn das Intervall [0, x] um h verlängert
wird. Die Dichtefunktion gibt also eine Rate an.
– Da die Dichtefunktion eine Ableitung ist, gilt umgekehrt in unserem Beispiel, dass
Z
x
f (u)du = P (X ≤ x) = F (x).
0
Dabei wird F (x) = P (X ≤ x) als Wahrscheinlichkeitsverteilungsfunktion bezeichnet. Man erhält natürlich in unserem Beispiel auch, dass
Z 4
f (u)du = P (X ≤ 4) = 1.
0
Allgemein gilt, dass das Integral der Dichtefunktion über den gesamten
Bereich der Zufallsvariable 1 ergibt, beispielsweise bei X(ω) ∈ R:
Z ∞
f (u)du = P (X ≤ ∞) = 1.
−∞
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
10
• Bedingte Wahrscheinlichkeitsfunktion
Zunächst ein Beispiel:
Es bezeichne die Zufallsvariable X ∈ [0, ∞) den Auszahlungsbetrag in einem Gewinnspiel. Die Wahrscheinlichkeitsfunktion bzw. Verteilungsfunktion
P (X ≤ x) = F (x) gibt die Wahrscheinlichkeit für einen maximalen Gewinnbetrag von x an. Es ist weiter bekannt, dass zur Ermittlung des Auszahlungsbetrags 2 Maschinen bereitstehen, Maschine A und Maschine B.
Frage: Wie groß ist die Wahrscheinlichkeit für einen maximalen Gewinnbetrag
von x, wenn Maschine A zum Einsatz kommt?
Anders formuliert, wie groß ist die gesuchte Wahrscheinlichkeit, wenn die Bedingung ”Maschine A im Einsatz” gilt? Man nennt deshalb die gesuchte Wahrscheinlichkeit auch bedingte Wahrscheinlichkeit und man schreibt
P (X ≤ x|A).
Entsprechend notiert man, falls die Bedingung ”Maschine B im Einsatz” gilt,
P (X ≤ x|B).
Frage: Welcher Zusammenhang besteht nun zwischen der unbedingten Wahr-
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
11
scheinlichkeit P (X ≤ x) und den beiden bedingten Wahrscheinlichkeiten P (X ≤ x|A) und P (X ≤ x|B)?
Zur Beantwortung muss man wissen, mit welcher Wahrscheinlichkeit Maschine A, bzw. Maschine B zum Einsatz kommt. Wenn wir diese Wahrscheinlichkeiten mit P (A) und P (B) bezeichnen, dann können wir die obige Frage
beantworten:
P (X ≤ x) = P (X ≤ x|A)P (A) + P (X ≤ x|B)P (B)
F (x) = F (x|A)P (A) + F (x|B)P (B)
(Übrigens, der Möglichkeitenraum mit den Elementarereignissen für die Maschinenwahl ist Ω = {A, B}. Die hier verwendete σ-Algebra für die Maschinenwahl ist gegeben durch F = {Ω, A, B, ∅}.)
In unserem Beispiel haben wir genau zwei Elementarereignisse. Der hierfür
genannte Zusammenhang lässt sich auf n diskrete Elementarereignisse Ω =
{A1, A2, . . . , An} erweitern:
F (x) = F (x|A1)P (A1) + F (x|A2 )P (A2) + · · · F (x|An)P (An )
(*)
Bisher haben wir die Bedingung in Form von Ereignissen und nicht in Form
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
12
von Zufallsvariablen definiert. Ein Beispiel für letzteres wäre, wenn zur Ermittlung des Auszahlungsbetrags nur eine Maschine zur Verfügung steht, deren Funktionsweise aber von dem vorherigen Auszahlungsbetrag Z abhängt.
Dann lautet die bedingte Verteilungsfunktion F (x|Z = z), wobei Z = z bedeutet, dass die Bedingung lautet, dass Zufallsvariable Z genau die Realisation z annimmt. Um wieder den Zusammenhang zwischen der unbedingten und
den bedingten Wahrscheinlichkeiten zu erhalten, müssen wir nun die Summe
durch ein Integral ersetzen und die Wahrscheinlichkeit der Bedingung durch
die entsprechende Dichtefunktion, da Z ja unendlich viele Werte annehmen
kann. Für unser Beispiel ergibt sich dann:
Z ∞
Z ∞
F (x|Z = z)f (z)dz =
F (x|z)f (z)dz
F (x) =
0
bzw. allgemein
F (x) =
Z
0
F (x|Z = z)f (z)dz =
Z
F (x|z)f (z)dz
(**)
Noch eine wichtige Eigenschaft:
Wenn die Zufallszahlen X und Z stochastisch unabhängig sind, dann gilt
F (x|z) = F (x).
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
13
• Bedingte Dichtefunktion
Die bedingte Dichtefunktion kann man heuristisch aus der bedingten Verteilungsfunktion in derselben Weise ableiten, wie wir das weiter oben für unbedingte Dichtefunktion getan haben; lediglich die unbedingten Wahrscheinlichkeiten werden durch bedingte Wahrscheinlichkeiten ersetzt. Die bedingte
Dichtefunktion ergibt sich aus
P (X ≤ x + h|A) − P (X ≤ x|A)
= f (x|A).
lim
h→0
h
Falls man endlich viele Bedingungen hat, dann wird (*) zu
f (x) = f (x|A1)P (A1) + f (x|A2 )P (A2) + · · · f (x|An)P (An )
Der Zusammenhang (**) lautet dann
Z
Z
f (x) = f (x|Z = z)f (z)dz = f (x|z)f (z)dz.
(+)
(++)
• Erwartungswert
Betrachten wir wieder unser Beispiel der Auszahlungsmaschinen.
Frage: Welchen Auszahlungsbetrag würden Sie ”im Mittel” oder ”im Durchschnitt” erwarten?
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
R∞
14
Antwort: 0 xf (x)dx. Würde die Gewinnauszahlung in n verschiedenen disPn
kreten Beträgen erfolgen, so würde man ”im Mittel” i=1 xiP (X = xi) erwarten. Jede mögliche Auszahlung wird mit ihrer Eintrittswahrscheinlichkeit
gewichtet aufsummiert. Nicht überraschend bezeichnet man diese Größen auch
als Erwartungswert.
Allgemein ist der Erwartungswert definiert als
Z
E(X) = xf (x)dx,
X
E(X) =
xiP (X = xi)
X stetig
X diskret
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
15
• Regeln für den Erwartungswert z.B. Wooldridge (2003), Appendix B
1. Für jede Konstante c gilt
E[c] = c.
2. Für alle Konstanten a und b und Zufallsvariablen X und Y gilt
E[aY + bY ] = aE(X) + bE(Y ).
3. Sind die Zufallsvariablen X und Y unabhängig, gilt
E(Y X) = E(Y )E(X).
• Bedingter Erwartungswert
Bisher haben wir nicht darauf geachtet, welche Maschine bei der Auszahlungsermittlung zum Einsatz kommt. Interessieren wir uns hingegen für die
erwartete Auszahlung, wenn Maschine A im Einsatz ist, dann müssen wir den
bedingten Erwartungswert berechnen
Z ∞
xf (x|A)dx.
E(X|A) =
0
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
16
Dies geschieht einfach, indem man die unbedingte Dichte f (x) durch die bedingte Dichte f (x|A) ersetzt und die Bedingung in der Notation des Erwartungswertes angibt. Entsprechend lässt sich die erwartete Auszahlung für Maschine B berechnen als
Z ∞
E(X|B) =
xf (x|B)dx.
0
Allgemein erhält man für diskrete Bedingungen
Z
E(X|A) = xf (x|A)dx,
X
E(X|A) =
xiP (X = xi|A),
bzw. für stetige Bedingungen
Z
E(X|Z = z) = xf (x|Z = z)dx,
X
E(X|Z = z) =
xiP (X = xi|Z = z),
X stetig,
X diskret,
X stetig,
X diskret.
Beachte: Häufig verwendet man auch die Kurzformen, so auch in Wooldridge
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
17
(2003),
E(X|z) =
Z
xf (x|z)dx,
X
E(X|z) =
xiP (X = xi|z),
X stetig,
X diskret.
Entsprechend dem Zusammenhang zwischen unbedingten und bedingten Wahrscheinlichkeiten, existiert ein ähnlicher Zusammenhang auch zwischen dem
unbedingten und den bedingten Erwartungswerten. Er lautet
E(X) = E [E(x|z)]
und wird als Law of iterated expectations (LIE) bezeichnet.
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
Beweisskizze:
E(X) =
18
Z
xf (x)dx
Z Z
= x
f (x|z)f (z)dz dx (Einsetzen von (++))
Z Z
=
xf (x|z)f (z)dzdx
Z Z
=
xf (x|z)dx f (z)dz (Vertauschen von dx und dz)
{z
}
|
E(x|z)
Z
= E(x|z)f (z)dz
=E [E(x|z)]
In unserem Beispiel mit den 2 Maschinen ergibt das Gesetz der iterierten
Erwartungen
E(X) = E(X|A)P (A) + E(X|B)P (B)
Dieses Beispiel macht auch deutlich, dass die bedingten Erwartungswerte
E(X|A) und E(X|B) Zufallszahlen sind, die gewichtet mit ihren Eintritts-
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
19
wahrscheinlichkeiten P (A) und P (B) den Erwartungswert E(X) ergeben.
Man stelle sich vor, man kennt vor Beginn des Spiels nur die beiden bedingten Erwartungswerte, aber nicht welche Maschine zum Einsatz kommen wird.
Dann ist der erwartete Auszahlungsbetrag gerade E(X) und wir müssen die
beiden bedingten Erwartungswerte als Zufallsvariablen ansehen. Sobald man
weiß, welche Maschine zum Einsatz gekommen ist, ist der dazugehörige bedingte Erwartungswert die Realisation der Zufallsvariablen. Diese Eigenschaft
gilt ganz allgemein für bedingte Erwartungswerte.
• Regeln für bedingte Erwartungen
z.B. Wooldridge (2003), Appendix B
1. Für jede Funktion c(·) gilt
E[c(X)|X] = c(X).
2. Für alle Funktionen a(·) und b(·) gilt
E[a(X)Y + b(X)|X] = a(X)E[Y |X] + b(X).
3. Sind die Zufallsvariablen X und Y unabhängig, gilt
E(Y |X) = E(Y ).
Lehrstuhl für Ökonometrie — Universität Regensburg — Zusatzmaterial WS 2008/09 - Stand: 23.10.2008
20
4. Law of iterated expectations (LIE)
E(E(Y |X)) = E(Y )
5. E(Y |X) = E(E(Y |X, Z)|X)
6. Falls E(Y |X) = E(Y ), dann Cov(X, Y ) = 0
7. Falls E(Y 2) < ∞ und E[g(X)2] < ∞ für eine beliebige Funktion g(·),
dann gelten
E{[Y − E(Y |X)]2|X} ≤ E{[Y − g(X)]2|X}
E{[Y − E(Y |X)]2} ≤ E{[Y − g(X)]2}
Herunterladen