zufallsvariable formula

Werbung
Analyse
zeitabhängiger Daten
Zeitreihenanalyse I
Warum geht es in den folgenden
Sitzungen?
Zeitreihen
Datum
Vorlesung
13.04.05
Einführung
20.04.05
Schätzverfahren für Regressionsmodelle
27.04.05
Zeitreihenanalyse I
04.05.05
Zeitreihenanalyse II
11.05.05
Kumulierte Querschnittsdaten I
18.05.05
Pfingstferien
25.05.05
K. Querschnittsdaten II (Kohortenanalyse)
01.06.05
Paneldaten kontinuierlicher Zielvariablen I
08.06.05
Paneldaten kontinuierlicher Zielvariablen II
15.06.05
Paneldaten kategorialer Zielvariablen I
22.06.05
Paneldaten kategorialer Zielvariablen I
29.06.05
Ereignisdaten
06.07.05
Quasi-experimentelle Untersuchungen
13.07.05
Trunkierte Variablen und Zählvariablen
20.07.05
Missings, einflußreiche Fälle, komplexe Stp
Gliederung
1. Deskriptive Analyse von Zeitreihen
2. Regressionsmodelle für Zeitreihen
3. Annahmen des klassischen linearen
Modells übertragbar?
4. Achtung Scheinkorrelation!
Gliederung
1. Deskriptive Analyse von Zeitreihen
2. Regressionsmodelle für Zeitreihen
3. Annahmen des klassischen linearen
Modells übertragbar?
4. Achtung Scheinkorrelation!
30000
s tat ewide total accidents
35000
40000
45000
50000
55000
Beispiel 1: Verkehrsunfälle
Jul80
Nov81
Apr83
Aug84
Jan86
May87
Sep88
date
Daten: traffic2.dta, n=108, monatliche Anzahl
der Verkehrsunfälle im US-Bundesstaat
Kalifornien (1981-1989)
Feb90
Datum
Jan. 81
Feb. 81
Mrz. 81
Apr. 81
Mai. 81
Jun. 81
Jul. 81
Aug. 81
Sep. 81
Okt. 81
Nov. 81
Dez. 81
Jan. 82
Feb. 82
…
Dez. 89
Unfälle
40511
36034
40328
37699
38816
38900
38625
39539
38070
40676
39270
39734
36672
32699
…
47251
Jul80
Nov8 1
Apr83
Aug84 Jan86
date
May87
Sep88
Feb90
Fitted values
4 00 00 4 50 00 5 00 00
3 50 00
Jul80
Nov8 1
Apr83
Aug84 Jan86
date
Trend
Ju l80
N ov81
May87
Sep88
Feb90
Apr83
Aug84 Jan86
date
May87
Sep88
Feb90
Sep88
Feb90
Daten + Trend + Saison
statewide total accidents/Fitted values
30000 35000 40000 45000 50000 55000
Trend + Saison
5 50 00
statewide total accidents
3 00 00 3 50 00 4 00 00 4 50 00 5 00 00
5 50 00
Daten
statewide total accidents/Fitted values
30000 35000 40000 45000 50000 55000
Zeitliche Trends und saisonale
Einflüsse
Ju l80
N ov81
Apr83
Aug84 Jan86
date
May87
200
W ater u se in 1000 gallons
400
600
800
1000
Beispiel 2: Wasserverbrauch
31dec 1982
19feb1983
10apr1983
date
30may 1983
19jul1983
Daten: milwater.dta, n=212, täglicher Wasserverbrauch in Milford, New Hampshire
Glättung durch gleitende Mittelwerte
Wa te r use in 10 00 gallons
200 400 600 800 1000
Ausgangsdaten
19feb1983
31dec1982
10apr1983
date
30may1983
19ju l1983
Gleitende Durchschnitte
ma : x(t)= wa te r: win dow(5)
500 600 700 800 900
31dec1982
19feb1983
10apr1983
date
30may1983
19ju l1983
-0.20
Autocorrelations of water
0.00
0.20
0.40
0.60
Autokorrelationsfunktion
0
5
10
Lag
Bartlett's formula for MA(q) 95% confidence bands
15
Gliederung
1. Deskriptive Analyse von Zeitreihen
2. Regressionsmodelle für Zeitreihen
3. Annahmen des klassischen linearen
Modells übertragbar?
4. Achtung Scheinkorrelation!
Alle bekannten Modelle verwendbar
y = β0 + β1z1 + β2 z2 + β3 z3 + β4 z4 +K+ βk zk + u
• lineare (zj = xj)
• nicht-lineare (z.B. z2 = ln(x2))
• additive (zj = xj und Effekte additiv
verknüpft)
• nicht-additive (z.B. z4 = x2 ⋅ d mit DummyVariablen d)
Statische und „dynamische“ Modelle
• Querschnitt
yi = β0 + β1x1i + β2 x2i +K+ βk xki + ui
• Zeitreihe: statisches Modell
yt = β0 + β1x1t + β2 x2t +K+ βk xkt + ut
• Zeitreihe: „dynamisches Modell“
yt = β0 + β1x1t + β2 x1,t −1 + β3 yt −1 +K+ ut
• Ein „dynamisches“ Modell enthält zeitverzögerte
x-Variablen und/oder zeitverzögerte y-Variablen
Wozu dynamische Modelle?
• zeitverzögerte x-Variablen
– Eine Variable x entfaltet ihre Wirkung nicht
unmittelbar, sondern mit zeitlicher Verzögerung.
– Arbeitssparende Investitionen erhöhen die
Arbeitsproduktivität im nächsten Jahr.
• zeitverzögerte y-Variablen
– bürokratische Beharrungsprozesse
– Die Staatsausgaben des folgenden Jahres können
nur bedingt verändert werden, weil viele
Ausgabepositionen gesetzlich festgelegt sind.
Zeitliche Trends und saisonale
Einflüsse
linearer Trend
yt = β0 + β1 ⋅ t + ut
quadratischer
Trend
yt = β0 + β1 ⋅ t + β2 ⋅ t 2 + ut
exponentieller
Trend
saisonale Effekte
ln yt = β0 + β1 ⋅ t + ut
Beispiel: Dummies für Monate
yt = β0 + β1d2t + β2d3t +K+ β12d12,t + ut
v orher/nachher
30000 35000 40000 45000 50000 55000
Analyse von Ereignissen
Vor und nach Einführung der Gurtpflicht
Jul80
Nov81
Apr83
Aug84
Jan86
May87
Sep88
Feb90
date
vorher
nachher
• Dummy-Variable: vorher (d=0), nachher (d=1)
• Niveauunterschiede yt = β0 + β1dt + ut
• Trendunterschiede yt = β0 + β1dt + β2t + β3 ⋅ t ⋅ dt + ut
Gliederung
1. Deskriptive Analyse von Zeitreihen
2. Regressionsmodelle für Zeitreihen
3. Annahmen des klassischen linearen
Modells übertragbar?
a. Zufall bei Zeitreihen
b. Übertragbar nur unter restriktiven Bedingungen
c. Strikt exogene Variablen
4. Achtung Scheinkorrelation!
Analyse der Lebenszufriedenheit
• St. Regression: eine kleine Insel im Südpazifik mit 665
Einwohnern
• Lebenszufriedenheit (Index 1-20)
• Determinanten: Haushaltseinkommen, Berufsprestige,
Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße
• Messfehler und weitere Einflüsse sind unabhängig von
diesen Determinanten: u korreliert mit keiner der fünf
Variablen
• Frage: Ist der folgende in der „Grundgesamtheit“ gültige
Zusammenhang zwischen Lebenszufriedenheit und
Einkommen, Prestige usw. auch in einer
Zufallsstichprobe beobachtbar?
y = 10.51 + 0.065 x1 + 0.011x2 + 0.116 x3 + 0.265 x4 − 0.056 x5 + u
Annahme: Zufallsauswahl
Grundgesamtheit (N=665)
Urnenmodell:
Einfache Zufallsstichprobe (n=300)
Simulation der Stichprobenverteilung
des geschätzten Einkommenseffektes
4
1000 Stichproben (Replikationen) jeweils mit n=300
Dens ity
2
3
Arithm. Mittel = 0,061
(Bias = 0,061 – 0,065)
0
1
Std.abw. = 0,110
-. 4
-.2
0
_b[income]
.2
.4
Schätzverfahren notwendig bei
Totalerhebungen?
• Beispiele für Totalerhebungen
– Zeitreihe der Arbeitslosenquote 1950-2000
– Kindersterblichkeit 1990 für jeden
Bundesstaat der USA
• Wie kann es einen vom Parameter der
Grundgesamtheit abweichenden
Schätzwert geben, wenn man Daten über
alle Elemente der Grundgesamtheit hat?
Schätzverfahren bei Totalerhebungen?
• Gedankenexperiment
– Daten zur Kindersterblichkeit (Arbeitslosigkeit)
werden nach Abschluss erneut überprüft.
• Ergebnis
– Wegen Erfassungsproblemen ergeben sich
leicht abweichende Werte der Zielvariablen.
• Schlussfolgerung
– Messfehler gibt es auch bei Totalerhebungen.
Schätzverfahren bei Totalerhebungen?
• Gedankenexperiment
– Erhebung zur Lebenszufriedenheit wird eine Woche
später wiederholt. Messfehler seien ausgeschlossen.
• Ergebnis
– Sonstige Determinanten der Lebenszufriedenheit
(z.B. subjektive Stimmungen), die man wegen ihrer
Zufälligkeit zunächst vernachlässigt hat, können
andere Werte aufweisen.
• Schlussfolgerung
– Auch bei Totalerhebungen ist von weiteren Einflüssen
auszugehen, die man jedoch nicht weiter modelliert
und statt dessen als Zufallsvariable betrachtet.
Totalerhebung als stochastischer Prozess
systematische
Komponente
µi
+
stochastische
Komponente
ui
10.51 + 0.065 x1 + 0.011x2 + 0.116 x3
+ 0.265 x4 − 0.056 x5
Universum der sonstigen Einflüsse
und Messfehler
Zufallszahlengenerator
ui ~ N(0, σ )
=
Zielvariable
yi
immer gleiche Werte, wenn ui=0
verschiedene Werte, wenn ui≠0
Schlussfolgerungen
• Analysiere die stochastischen Eigenschaften
des datengenerierenden Prozesses
• Zufallsstichprobe
– u: Messfehler und unbekannte Determinanten
– Auswahl einer Teilstichprobe aus einer endlichen
Grundgesamtheit
• Totalerhebung
– u: Messfehler und unbekannte Determinanten
– Auswahl einer Teilstichprobe aus einer
hypothetischen Grundgesamtheit
• Auch bei Totalerhebungen ist Schätzen (und
Testen) sinnvoll!
Zeitreihe als stochastischer Prozess
systematische
Komponente
µt
zeitgleiche und zeitverzögerte Einflüsse
xt , xt −1 , xt − 2 , K , yt −1 , yt − 2 , K
+
stochastische
Komponente
ut
Zufallszahlengenerator
ut ~ N(0, σ )
=
Zielvariable
yt
je nach Modell: Determinante der
Zielvariablen in nächster Periode
Abhängige Beobachtungen
• weil die Werte der x-Variablen, die hier als
gegeben betrachtet werden, im Zeitablauf
miteinander zusammenhängen.
• weil die Vergangenheit des Prozesses
(yt-1, yt-2, ...) in die aktuellen Werte yt eingeht.
• weil die stochastische Komponente nicht nur aus
der aktuellen ut, sondern auch aus früheren
Zufallszahlen ut-1, ut-2, ... zusammengesetzt ist
(Verallgemeinerung der vorherigen Folie).
Zufall bei Querschnitt und bei Zeitreihe
Querschnitt
Totalerhebung
Zeitreihe
Grundgesamtheit
Urne
N Elemente
Universum ui
∞ Elemente
Zufallsprozess
∞ Elemente
Stichprobenentnahme
einmal
n Elemente
einmal
n Elemente
t-mal
ein Element
Stichprobe
n Elemente
n Elemente
t Elemente
Abhängig?
nein
nein
ja
Zufall
Auswahl
Fehlerterm
Fehlerterm
Gliederung
1. Deskriptive Analyse von Zeitreihen
2. Regressionsmodelle für Zeitreihen
3. Annahmen des klassischen linearen
Modells übertragbar?
a. Zufall bei Zeitreihen
b. Übertragbar nur unter restriktiven Bedingungen
c. Strikt exogene Variablen
4. Achtung Scheinkorrelation!
Zur Erinnerung: OLS Annahmen
Problematik von Zeitreihen
Weil es sich bei Zeitreihen nicht um einfache Zufallsstichproben handelt,
sondern um einen stochastischen Prozess, der eventuell im Zeitablauf
abhängige Beobachtungen generiert, sind insbesondere die beiden rot
unterstrichenen Annahmen problematisch.
Einflüsse im Zeitablauf
Der Fehlerterm erfasst Messfehler und vor allem nicht berücksichtigte
Einflüsse von Drittvariablen. Bei Zeitreihen können solche Einflüsse
zeitlich vorhergehende und nachfolgende Drittvariablen sein.
Es muss daher zusätzlich gefordert werden, dass die Fehlerterme nicht
nur von den aktuellen x-Werten, sondern auch von allen zeitlich
vorhergehenden und nachfolgenden x-Werten unabhängig sind. Dies ist
eine sehr restriktive Annahme, die häufig nicht angemessen ist.
Unabhängige Beobachtungen
Auch wenn die Fehlerterme von allen zeitlich vorhergehenden und
nachfolgenden x-Werten unabhängig sind, ist nicht davon auszugehen,
dass die nicht berücksichtigten Drittvariablen selbst (und damit die
Fehlerterme) im Zeitablauf zusammenhängen.
Die Annahme der Unkorreliertheit der Fehlerterme ist daher bei
Zeitreihen in der Regel nicht gegeben. Man spricht auch von
Autokorrelation.
Voraussetzung: strikte Exogenität
Annahme
Definition
Funktion
Datengenerierender Prozess
×
×
Modell linear in Parametern
yt = β 0 + β1 x1t + K + β k xkt + ut
Art des Schätzverfahrens
Unabhängigkeit des Fehlerterms
E (ut | X) = 0, t = 1,K , n
Erwartungstreue
Keine perfekte Kollinearität
xkt keine Konstante, keine lineare Funktion
Berechenbarkeit
Homoskedastizität
Var (ut | X) = σ 2 , t = 1,K , n
Effizienz
Unkorrelierte Fehlerterme
E (ut , u s | X) = 0, für alle t ≠ s
Effizienz
Normalverteilte Fehlerterme
ut ~ N (0, σ 2 )
Art der statistischen Tests
X bezeichnet die Werte der unabhängigen Variablen zu allen Zeitpunkten.
Die Annahme der Unabhängigkeit besagt z.B., dass die Fehlerterme zu
jedem beliebigen Zeitpunkt von allen zeitlich vorhergehenden und
nachfolgenden x-Werten unabhängig sind (Annahme strikter Exogenität).
Gliederung
1. Deskriptive Analyse von Zeitreihen
2. Regressionsmodelle für Zeitreihen
3. Annahmen des klassischen linearen
Modells übertragbar?
a. Zufall bei Zeitreihen
b. Übertragbar nur unter restriktiven Bedingungen
c. Strikt exogene Variablen
4. Achtung Scheinkorrelation!
Beispiele für strikte Exogenität
• Definition: Strikt exogene Variable
reagieren nicht auf das, was in der
Vergangenheit passierte.
• Ernteertrag (y) und Niederschlag (x)
– Die Menge des Regenniederschlags hängt
nicht vom Ernteertrag des Vorjahres ab.
Keine strikte Exogenität
• Ernteertrag (y) und Arbeitseinsatz (x)
– Ein Bauer erhöht seinen Arbeitseinsatz, um
den Ernteertrag gegenüber dem Vorjahr zu
erhöhen.
• Kriminalitätsrate (y) und Polizeidichte (x)
– Eine Stadt stellt mehr Polizisten ein, um den
Anstieg der Kriminalität im Vorjahr zu
bekämpfen.
Keine strikte Exogenität
• Staatsausgaben (yt, yt-1)
– Die Höhe der Staatsausgaben des aktuellen
Jahres ergeben sich zum Teil aus den
Ansätzen des Vorjahres (yt =β0 + β1yt-1 + ut).
– yt-1 korreliert jedoch notwendigerweise mit den
Fehlertermen des Vorjahres ut-1.
Strikte Exogenität nicht gegeben
• bei Feedbackprozessen
– die abhängige Variable y wirkt auf die
unabhängige Variable x zurück
• bei zeitverzögerten endogenen Variablen
– yt-1 fungiert als unabhängige Variable
– gilt natürlich auch bei Verwendung größerer
Lags yt-2, yt-3, ...
Gliederung
1. Deskriptive Analyse von Zeitreihen
2. Regressionsmodelle für Zeitreihen
3. Annahmen des klassischen linearen
Modells übertragbar?
4. Achtung Scheinkorrelation!
a. Variablen mit Trend
b. Stark abhängige Prozesse
c. Trendelimination am Beispiel
Trend: x = -3*t + 10*a
-4
-2
a
0
0
Normalverteilte Zufallsvariable a
x
-400 -300 -200 -100
01jan1960
01jan1962
01jan1964
01jan1966
01jan1968
01jan1970
4
01jan1960
01jan1962
01jan1964
01jan1966
01jan1968
01jan1970
2
0
Trend: y = 2*t + 10*e
-3
-2
-1
e
0
1
2
Normalverteilte Zufallsvariable e
y
50 100 150 200 250
Scheinkorrelation durch Trends
01jan1960
01jan1962
01jan1964
01jan1966
01jan1968
01jan1970
01jan1960
01jan1962
01jan1964
01jan1966
01jan1968
01jan1970
eˆ = − 0,066 − 0,104a
(0,088) (0,085)
yˆ = 0,386 − 0,660 x
(2,323) (0,011)
R 2 = 0,013, n = 120
R 2 = 0,968, n = 120
Gliederung
1. Deskriptive Analyse von Zeitreihen
2. Regressionsmodelle für Zeitreihen
3. Annahmen des klassischen linearen
Modells übertragbar?
4. Achtung Scheinkorrelation!
a. Variablen mit Trend
b. Stark abhängige Prozesse
c. Trendelimination am Beispiel
Stark abhängige Prozesse
y_t = y_t-1 + e_t
0
5
x_t = x_t-1 + a_t
-10
01jan1960
01jan1962
01jan1964
01jan1966
01jan1968
01jan1970
Autocorrelations of x
Autocorrelations of y
0
5
10
Autocorrelation
-0.50 0.00 0.50 1.00
-15
-5
-10
x
y
-5
0
yt = yt −1 + et
01jan1960
01jan1962
01jan1964
01jan1966
01jan1968
01jan1970
Autocorrelation
-1.00-0.50 0.00 0.50 1.00
xt = xt −1 + at
15
0
5
Lag
Bartlett's formula for MA(q) 95% confidence bands
10
Lag
Bartlett's f ormula for MA(q) 95% c onfidence bands
yˆ = − 2.391 − 0,230 x
(0,530) (0,069)
R 2 = 0,087, n = 120
15
Ergebnis Zufall?
• beide Zeitreihen (yt, xt) sind unabhängig
voneinander
• deshalb sollte der Regressionskoeffizient β1 in
yt = β0 + β1xt gleich Null sein (H0)
• Beispiel aus Handout kann jedoch Zufall sein
• Simulationsstudie Davidson / MacKinnon (1993)
– 10,000 Zeitreihen aus jeweils n=50 Werten simuliert
– jeweils T-Test von β1 mit α=0,05 durchgeführt
– 66,2% der Zeitreihen wird H0 verworfen
Gliederung
1. Deskriptive Analyse von Zeitreihen
2. Regressionsmodelle für Zeitreihen
3. Annahmen des klassischen linearen
Modells übertragbar?
4. Achtung Scheinkorrelation!
a. Variablen mit Trend
b. Stark abhängige Prozesse
c. Trendelimination am Beispiel
Beispiel 3: Bauinvestitionen
Index der Hauspreise
.8
.4
.85
Index (1982=1)
.9
.95
Mio. Dollar, real
.5
.6
1
.7
1.05
private Bauinvestitionen pro Kopf
1950
1960
1970
Jahr
1980
1990
Daten: hseinv.dat, n=42, USA 1947-1988
1950
1960
1970
Jahr
1980
1990
Zum Schluss
Zusammenfassung
Zeitreihen
Modelle
Schätzung
Scheinkorrelation
• haben zeitliche Ordnung
• keine unabhängigen Beobachtungen
• zeitverzögerte Variablen
• Trend & saisonale Effekte
• Ereignisse
• Zeitreihen sind stochastische Prozesse
• strikte Exogenität für OLS-Annahmen
- kein Feedback
- keine zeitverzögerten endogenen Variablen
• bei Trends
• bei stark abhängigen Prozessen
Wichtige Fachausdrücke
Deutsch
Englisch
Deutsch
Englisch
Trendabhängigkeit
trending
stochastischer
Prozess
stochastic
process
Saisonabhängigkeit
seasonality
Strikte
Exogenität
strict exogeneity
Autokorrelation
autocorrelation
zeitverzögerte
Variable
lagged variable
stark abhängige highly persistent
Zeitreihe
time series
Trendelimination
Detrending
Weiterführende Literatur
• Wooldridge (2003)
– Kapitel 10 (WO 323-359) gibt eine Einführung
in verschiedene Regressionsmodelle für
Zeitreihen. Außerdem wird diskutiert, unter
welchen restriktiven Bedingungen die
Annahmen des klassischen linearen Modells
auf Zeitreihen übertragbar sind.
Scheinkorrelationen durch Trends werden
besprochen, nicht aber durch stark abhängige
Prozesse. Die werden erst in Kapitel 11
eingeführt. Das kommt nächste Woche dran.
Stata-Befehle
tsset t
Deklaration der Zeitreihenstruktur
graph twoway line y t
Liniendiagramm
tssmooth ma glatt=y,
window(5)
Berechnung ungewichteter gleitender Mittelwerte
aus den Datenwerten von t-2 bis t+2
corrgram y, lags(15)
Berechnung der Autokorrelationsfunktion
ac y, lags(15)
Graphik der Autokorrelationsfunktion
generate y=L.x + e
generate y=L2.x + e
Berechnung mit zeitverzögerten Variablen (um
einen Zeitpunkt verschoben: L.x oder L1.x, zwei
Zeitpunkte L2.x)
reg y t
Kleinste-Quadrate-Schätzung (z.B. eines linearen
Trends)
predict y_detrended,
resid
Berechnung der Residuen (trendbereinigte Werte)
Zugehörige Unterlagen
Herunterladen