5. Mehrdimensionale Zufallsvariablen Bei vielen Problemstellungen

Werbung
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
5. Mehrdimensionale Zufallsvariablen
Bei vielen Problemstellungen ist eine isolierte Betrachtung einzelnen Zufallsvariablen
nicht angemessen, weil so die Zusammenhänge zwischen den Variablen verloren gehen.
Häufig: gleichzeitige Betrachtung mehrerer Zufallsvariablen
Bsp.: - Körpergröße und Gewicht einer zufällig aus der Population herausgegriffenen
Person
- Konsumausgaben, Haushaltseinkommen und Sparguthaben eines zufällig
ausgewählten Haushaltes
- mehrere Aktienindizes (z. B. Dax, Dow Jones)
- Augensumme und Augenprodukt beim Werfen zweier Würfel usw.
Die Variablen werden dabei nicht nur als n Zufallsvariablen angesehen, sondern auch als
eine n-dimensionale Zufallsvariable.
1
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Definition:
X = (X1, X2,…, Xn) heißt n-dimensionale Zufallsvariable oder n-dimensionaler
Zufallsvektor.
- Bivariate Verteilung: gemeinsame Wahrscheinlichkeitsverteilung von zwei Zufallsvariablen oder die Verteilung einer zweidimensionalen Zufallsvariablen
- Multivariate Verteilung: gemeinsame Wahrscheinlichkeitsverteilung von drei und
mehr Zufallsvariablen oder die Verteilung einer drei- und mehrdimensionalen Zufallsvariablen
2
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
5.1. Mehrdimensionale diskrete Zufallsvariablen
- Gemeinsame Wahrscheinlichkeitsfunktion von X und Y:
f ( xi , y j ) = P( X = x ∩ Y = y)
Sie gibt die Wahrscheinlichkeiten an, mit der die Zufallsvariable X den Wert x und
gleichzeitig Y den Wert y annimmt.
- Eigenschaften der gemeinsamen Wahrscheinlichkeitsfunktion:
0 ≤ f ( xi , y j ) ≤ 1
∑∑ f ( x , y ) = 1
i
i
j
j
für alle i und j
3
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Gemeinsame Verteilung in Matrixform:
x1
x2
.
.
.
xi
.
.
.
xk
pij = f (xi , y j ) ,
y1
y2
p11
p21
p12
p22
pi1
pi2
pk1
pk2
p·1
p·2
...
yj
. . . yl
p1j
p2j
.
.
.
pij
.
.
.
pkj
p1l
p2l
pil
pkl
. . . p·j . . .
p1·
p2·
.
.
.
pi·
.
.
.
pk·
p·l
Randvertei lungen : f ( xi ) = p i• = ∑ p ij
j
und
f ( y j ) = p• j = ∑ pij
i
4
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Gemeinsame Verteilungsfunktion:
F(x, y) = P(X ≤ x ∩ Y ≤ y)
Sie gibt an, mit welcher Wahrscheinlichkeit die Zufallsvariable X Werte kleiner oder
gleich x und gleichzeitig die Zufallsvariable Y Werte kleiner oder gleich y annimmt.
F berechnet man durch die Addition der gemeinsamen Wahrscheinlichkeitsfunktion:
F ( x, y) = ∑ ∑ f ( xi , y j )
xi ≤ x y j ≤ y
F ist eine Treppenfunktion, die von F(-∞, -∞) = 0 bis F(∞, ∞) = 1 steigt
5
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
5.2. Multidimensionale stetige Zufallsvariablen
Gemeinsame Dichtefunktion von X und Y:
b d
∫ ∫ f ( x, y)dydx = P(a < X ≤ b ∩ c < Y ≤ d )
für a < b, c < d
a c
Eigenschaften der Dichtefunktion f:
(1)
f ( x, y) ≥ 0
∞ ∞
(2)
∫∫
f ( x , y ) dydx = 1
−∞−∞
6
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Gemeinsame Verteilungsfunktion:
Im stetigen Fall findet man F durch die Integration der gemeinsamen Dichtefunktion
x
F ( x, y ) =
y
∫∫
f ( u , v ) dvdu
−∞−∞
F ist stetig differenzierbar und stetig monoton von F (−∞,−∞) = 0 bis F ( ∞ , ∞ ) = 1 .
Randverteilungen bei stetigen Zufallsvariablen:
Die Randverteilung von X erhält man durch die Integration über y
∞
f ( x) =
∫ f ( x, y ) dy
−∞
Die Randverteilung von Y erhält man durch die Integration über x
∞
f ( x) =
∫ f ( x, y )dx
−∞
7
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Wahrscheinlichkeitsintervall einer stetigen zweidimensionalen Zufallsvariablen:
Gegeben sei eine stetige zweidimensionale Zufallsvariable (X; Y) mit der Dichtefunktion
f(x,y).
Für die Wahrscheinlichkeit, dass (X; Y) in das Intervall (a<X≤b und c<Y≤d) fällt, gilt:
d b
P (a < X ≤ b, c < Y ≤ d ) = ∫ ∫ f ( x, y ) dxdy
c a
8
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
5.3. Bedingte Zufallsverteilungen und stochastische Unabhängigkeit
Bedingte Verteilungen geben die Auskunft über die Verteilung der einen Variablen unter
der Bedingung, dass die jeweils andere einen bestimmten Wert annimmt. Der Stichprobenraum wird durch die Angabe der Bedingung reduziert.
Die Konstruktion der bedingten Verteilung ist analog zur Konstruktion der bedingten
Wahrscheinlichkeiten für Ereignisse:
Bedingte Wahrscheinlichkeit:
P( X = x | Y = y j ) =
P( X = xi ∩ Y = y j )
P(Y = y j )
für P (Y = y j ) > 0
9
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Bedingte Verteilung von X unter der Bedingung Y = yj:
f (xi | y j ) =
f (xi , y j )
f (y j )
(diskreter Fall)
f ( x | y) =
f ( x, y )
f ( y)
(stetiger Fall)
Bedingte Verteilung von Y unter der Bedingung X = xi:
f ( y j | xi ) =
f ( xi , y j )
f ( xi )
(diskreter Fall)
f ( y | x) =
f ( x, y )
f ( x ) (stetiger Fall)
Im diskreten Fall existiert für jede Ausprägung yj eine bedingte Verteilung für X,
entsprechend erhält man n bedingte Verteilungen für Y (n: Anzahl der Ausprägungen der
Variablen X).
Im stetigen Fall können die Zufallsvariablen X und Y unendlich viele Werte in einem
Intervall annehmen, dementsprechend gibt es unendlich viele Möglichkeiten, einen xbzw. y-Wert vorzugeben.
10
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Stochastische Unabhängigkeit
Die Unabhängigkeit von Zufallsvariablen lässt sich auf das Konzept der stochastischen
Unabhängigkeit von Ereignissen zurückführen.
Wiederholung: Zwei Ereignisse A und B sind stochastisch unabhängig, wenn das
Eintreten von A keinerlei Einfluss auf das Eintreten von B hat und umgekehrt.
formal: P(B|A) = P(B) bzw. P(A|B) = P(A)
oder:
P(A∩B)=P(A)·P(B) (Multiplikationssatz für unabhängige Ereignisse)
Unabhängigkeit von Zufallsvariablen:
Die Zufallsvariablen X und Y heißen stochastisch unabhängig, wenn die gemeinsame
Wahrscheinlichkeits- bzw. Dichtefunktion gerade gleich dem Produkt der beiden Randverteilungen ist:
f (xi , yj ) = f (xi )⋅ f (yj ) (diskreter Fall)
f (x, y) = f (x)⋅ f (y) (stetiger Fall)
11
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
5.4. Parameter von mehrdimensionalen Zufallsvariablen
1. Erwartungswerte
Der Erwartungswert einer zweidimensionalen Verteilung wird angegeben durch das
Paar der Erwartungswerte der beiden Randverteilungen E(X) und E(Y):
k
E ( X ) = μ x = ∑ xi pi • = ∑∑ xi f ( xi , y j )
i =1
i
j
l
E(Y ) = μ y = ∑ y j p• j = ∑∑ y j f ( xi , y j )
j =1
E( X ) = μx =
i
j
im diskreten Fall
∞
∫ xf ( x)dx
−∞
∞
E(Y ) = μ y = ∫ yf ( y)dy
−∞
im stetigen Fall
12
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
2. Varianzen
Die Streuung entlang der x-Achse wird durch die Varianz der Randverteilung von X
gemessen:
k
V ( X ) = σ = ∑ ( xi − μ x ) 2 p i •
2
x
V (X ) = σ =
2
x
i =1
im diskreten Fall
∞
∫ (x − μ
x
) 2 f ( x ) dx
−∞
im stetigen Fall
Entsprechend wird die Streuung entlang der y-Achse durch die Streuung der Randverteilung Y gemessen:
l
V ( X ) = σ = ∑ ( y j − μ y ) 2 p• j
2
y
V (X ) = σ =
2
y
j =1
im diskreten Fall
∞
∫(y − μ
−∞
y
) 2 f ( y ) dy im stetigen Fall
13
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
3. Kovarianz
Obige Erwartungswerte und Varianzen charakterisieren nur die einzelnen Komponenten
einer Verteilung für sich genommen, denn sie rekurrieren nur auf die Randverteilungen.
Sie geben keine Information über den Zusammenhang zwischen X und Y.
Man benötigt ein Maß, das die Tendenz angibt, mit der die Werte der ZV Y sich
verändern, wenn die Werte der ZV X sich ändern und umgekehrt. Eine Maßzahl für den
stochastischen Zusammenhang ist die Kovarianz:
Cov ( X , Y ) = ∑∑ ( xi − μ x )( y j − μ y ) ⋅ f ( xi , y j )
i
j
im diskreten Fall
∞ ∞
Cov ( X , Y ) =
∫ ∫ ( x − μ )( y − μ
x
− ∞− ∞
y
) f ( x, y )dxdy
im stetigen Fall
Aus der Unabhängigkeit von Zufallsvariablen folgt das Verschwinden der Kovarianz
(Cov(X,Y) = 0), Umkehrschluss ist nicht möglich.
14
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
4. Korrelationskoeffizient
Korrelationskoeffizient zwischen X und Y gibt Richtung und Stärke des linearen
stochastischen Zusammenhangs zwischen X und Y an.
Korrelationskoeffizient ist definiert als der Quotient aus der Kovarianz und den beiden
Standardabweichungen von X und Y:
ρ ( X ,Y ) =
Cov ( X , Y )
V ( X ) ⋅ V (Y )
=
σ xy
σ x ⋅σ y
Korrelationskoeffizient ist ein normiertes Maß und liegt stets zwischen -1 und +1.
15
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
5.5. Regressionsanalyse
Regressionsrechnung der deskriptiven Statistik ist von der Regressionsanalyse der
schließenden Statistik sorgfältig zu unterscheiden.
In der deskriptiven Statistik sollte die Regressionsgerade y = a + bx rein statistisch
beschreibend interpretiert werden und sich nur auf den aktuell vorliegenden Datensatz
beziehen. Eine Aussage über einen fachwissenschaftlich begründeten Zusammenhang
zwischen zwei Variablen X und Y, der auch eine allgemeine Gültigkeit besitzen würde,
sollte damit nicht verbunden werden.
Dies bleibt der Regressionsanalyse als Instrument der schließenden Statistik vorbehalten.
Sie betrachtet die Beobachtungswerte (xi; yj) als eine Stichprobe aus einer Grundgesamtheit. Die Aufgabe der Regressionsanalyse ist es, anhand von dieser Stichprobe
einen eventuellen Zusammenhang aufzuspüren, zu quantifizieren (d.h. zu schätzen) oder
zu verwerfen (d.h. zu testen).
16
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Das einfache lineare Regressionsmodell
1. Schritt: Spezifikation der Variablen, die miteinander in ursächlicher Beziehung
stehen.
Y = f(X) (d.h. eine Variable X beeinflusst eine andere Variable Y).
2. Schritt: Festlegung der Funktionsform. Die einfachste Form ist die lineare, ausgedrückt durch folgende Geradengleichung:
Y(X) = α + βX (ökonomische Gleichung)
Beispiele:
(1) Konsumfunktion von Keynes: C = α + βYverf (Der Gesamtwirtschaftliche
Konsum C sei eine Funktion des verfügbaren Einkommens Yverf).
(2) Kostenfunktion: K(X) = α + βX (Die Produktionskosten K eines bestimmten
Gutes seien eine lineare Funktion der Ausbringungsmenge X).
17
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Um auch den anderen Einflüssen auf die Variable Y Rechnung zu tragen, modifiziert der
ökonometrische Modellansatz den ökonomischen und fügt eine Störvariable U hinzu:
Y(X) = α + βX + U (ökonometrische Gleichung)
Für die Stichprobe schreibt man: yi = α + βxi + ui für i = 1, 2, …, n.
yi: endogene Variable (Regressand)
xi: exogene Variable (Regressor)
ui: latente Variable (Störvariable), ui ist eine Zufallsvariable, dadurch erhält das Modell
seine stochastische Komponente: die strenge Abhängigkeit Y von X wird durch eine
stochastische Störung überlagert.
α und β sind Modellparameter oder Koeffizienten. Das sind „die wahren Werte“, die
unbekannt sind und unbekannt bleiben. Ihre Zahlenwerte können nur geschätzt werden,
was die Hauptaufgabe der Regressionsanalyse darstellt.
αˆ und βˆ
nennt man Schätzer oder Schätzparameter.
18
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Schätzmethode der kleinsten Quadrate
Das Ziel der Schätzung besteht darin, eine Schätzgerade zu finden, die der wahren (unbekannten) Regressionsgeraden möglichst nahe kommt.
Drei verschiedene y-Werte sind dabei zu unterscheiden:
Beobachtungswerte:
yi = α + βxi + ui
Theoretische Werte:
~y = α + β x
(liegen auf der unbekannten Modellgeraden)
i
Schätzwerte:
yˆ i = αˆ + βˆx i (liegen auf der geschätzten Geraden)
Abweichungen der Schätzwerte von den Beobachtungswerten
heißen Residuen: ei = yi − yˆi
19
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Mit der Methode der kleinsten Quadrate wird die Schätzgerade so bestimmt, dass die
Summe der quadrierten Residuen minimal wird:
T
SQR= ∑ei2 = ∑( yi − yˆi )2 = ∑( yi −αˆ − βˆxi )2
t =1
Man bildet die partiellen Ableitungen von SQR und setzt sie gleich Null:
⎧ ∂
ˆ
ˆ
⎪⎪ ∂αˆ SQR(αˆ , β ) = ∑ 2( yi − αˆ − βxi )(−1) = 0
⎨∂
⎪ SQR(αˆ , βˆ ) = ∑ 2( yi − αˆ − βˆxi )(− xi ) = 0
⎪⎩ ∂βˆ
Mit diesem Gleichungssystem (Normalgleichungen) können die beiden Schätzparameter
bestimmt werden.
20
Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie
Dr. Roland Füss ● Statistik II: Schließende Statistik ● SS 2007
Für die unbekannten Schätzparameter erhält man die Schätzformeln:
βˆ =
Cov ( X , Y )
Var ( X )
αˆ = y − βˆ x
Konfidenzintervalle
Oft wird man sich jedoch in der Regressionsanalyse nicht mit Punktschätzungen der
Parameter zufrieden geben. Man berechnet die Konfidenzintervalle für β :
KONF ( βˆ − tσˆ ≤ β ≤ βˆ + tσˆ ) = 1 − α
σˆ = Vˆ ( βˆ ) , t ist aus der Tafel der t-Verteilung mit n-k-1 Freiheitsgraden zu entnehmen,
mit α = Irrtumswahrscheinlichkeit.
21
Herunterladen