Analyse zeitabhängiger Daten Zeitreihenanalyse I Warum geht es in den folgenden Sitzungen? Zeitreihen Datum Vorlesung 13.04.05 Einführung 20.04.05 Schätzverfahren für Regressionsmodelle 27.04.05 Zeitreihenanalyse I 04.05.05 Zeitreihenanalyse II 11.05.05 Kumulierte Querschnittsdaten I 18.05.05 Pfingstferien 25.05.05 K. Querschnittsdaten II (Kohortenanalyse) 01.06.05 Paneldaten kontinuierlicher Zielvariablen I 08.06.05 Paneldaten kontinuierlicher Zielvariablen II 15.06.05 Paneldaten kategorialer Zielvariablen I 22.06.05 Paneldaten kategorialer Zielvariablen I 29.06.05 Ereignisdaten 06.07.05 Quasi-experimentelle Untersuchungen 13.07.05 Trunkierte Variablen und Zählvariablen 20.07.05 Missings, einflußreiche Fälle, komplexe Stp Gliederung 1. Deskriptive Analyse von Zeitreihen 2. Regressionsmodelle für Zeitreihen 3. Annahmen des klassischen linearen Modells übertragbar? 4. Achtung Scheinkorrelation! Gliederung 1. Deskriptive Analyse von Zeitreihen 2. Regressionsmodelle für Zeitreihen 3. Annahmen des klassischen linearen Modells übertragbar? 4. Achtung Scheinkorrelation! 30000 s tat ewide total accidents 35000 40000 45000 50000 55000 Beispiel 1: Verkehrsunfälle Jul80 Nov81 Apr83 Aug84 Jan86 May87 Sep88 date Daten: traffic2.dta, n=108, monatliche Anzahl der Verkehrsunfälle im US-Bundesstaat Kalifornien (1981-1989) Feb90 Datum Jan. 81 Feb. 81 Mrz. 81 Apr. 81 Mai. 81 Jun. 81 Jul. 81 Aug. 81 Sep. 81 Okt. 81 Nov. 81 Dez. 81 Jan. 82 Feb. 82 … Dez. 89 Unfälle 40511 36034 40328 37699 38816 38900 38625 39539 38070 40676 39270 39734 36672 32699 … 47251 Jul80 Nov8 1 Apr83 Aug84 Jan86 date May87 Sep88 Feb90 Fitted values 4 00 00 4 50 00 5 00 00 3 50 00 Jul80 Nov8 1 Apr83 Aug84 Jan86 date Trend Ju l80 N ov81 May87 Sep88 Feb90 Apr83 Aug84 Jan86 date May87 Sep88 Feb90 Sep88 Feb90 Daten + Trend + Saison statewide total accidents/Fitted values 30000 35000 40000 45000 50000 55000 Trend + Saison 5 50 00 statewide total accidents 3 00 00 3 50 00 4 00 00 4 50 00 5 00 00 5 50 00 Daten statewide total accidents/Fitted values 30000 35000 40000 45000 50000 55000 Zeitliche Trends und saisonale Einflüsse Ju l80 N ov81 Apr83 Aug84 Jan86 date May87 200 W ater u se in 1000 gallons 400 600 800 1000 Beispiel 2: Wasserverbrauch 31dec 1982 19feb1983 10apr1983 date 30may 1983 19jul1983 Daten: milwater.dta, n=212, täglicher Wasserverbrauch in Milford, New Hampshire Glättung durch gleitende Mittelwerte Wa te r use in 10 00 gallons 200 400 600 800 1000 Ausgangsdaten 19feb1983 31dec1982 10apr1983 date 30may1983 19ju l1983 Gleitende Durchschnitte ma : x(t)= wa te r: win dow(5) 500 600 700 800 900 31dec1982 19feb1983 10apr1983 date 30may1983 19ju l1983 -0.20 Autocorrelations of water 0.00 0.20 0.40 0.60 Autokorrelationsfunktion 0 5 10 Lag Bartlett's formula for MA(q) 95% confidence bands 15 Gliederung 1. Deskriptive Analyse von Zeitreihen 2. Regressionsmodelle für Zeitreihen 3. Annahmen des klassischen linearen Modells übertragbar? 4. Achtung Scheinkorrelation! Alle bekannten Modelle verwendbar y = β0 + β1z1 + β2 z2 + β3 z3 + β4 z4 +K+ βk zk + u • lineare (zj = xj) • nicht-lineare (z.B. z2 = ln(x2)) • additive (zj = xj und Effekte additiv verknüpft) • nicht-additive (z.B. z4 = x2 ⋅ d mit DummyVariablen d) Statische und „dynamische“ Modelle • Querschnitt yi = β0 + β1x1i + β2 x2i +K+ βk xki + ui • Zeitreihe: statisches Modell yt = β0 + β1x1t + β2 x2t +K+ βk xkt + ut • Zeitreihe: „dynamisches Modell“ yt = β0 + β1x1t + β2 x1,t −1 + β3 yt −1 +K+ ut • Ein „dynamisches“ Modell enthält zeitverzögerte x-Variablen und/oder zeitverzögerte y-Variablen Wozu dynamische Modelle? • zeitverzögerte x-Variablen – Eine Variable x entfaltet ihre Wirkung nicht unmittelbar, sondern mit zeitlicher Verzögerung. – Arbeitssparende Investitionen erhöhen die Arbeitsproduktivität im nächsten Jahr. • zeitverzögerte y-Variablen – bürokratische Beharrungsprozesse – Die Staatsausgaben des folgenden Jahres können nur bedingt verändert werden, weil viele Ausgabepositionen gesetzlich festgelegt sind. Zeitliche Trends und saisonale Einflüsse linearer Trend yt = β0 + β1 ⋅ t + ut quadratischer Trend yt = β0 + β1 ⋅ t + β2 ⋅ t 2 + ut exponentieller Trend saisonale Effekte ln yt = β0 + β1 ⋅ t + ut Beispiel: Dummies für Monate yt = β0 + β1d2t + β2d3t +K+ β12d12,t + ut v orher/nachher 30000 35000 40000 45000 50000 55000 Analyse von Ereignissen Vor und nach Einführung der Gurtpflicht Jul80 Nov81 Apr83 Aug84 Jan86 May87 Sep88 Feb90 date vorher nachher • Dummy-Variable: vorher (d=0), nachher (d=1) • Niveauunterschiede yt = β0 + β1dt + ut • Trendunterschiede yt = β0 + β1dt + β2t + β3 ⋅ t ⋅ dt + ut Gliederung 1. Deskriptive Analyse von Zeitreihen 2. Regressionsmodelle für Zeitreihen 3. Annahmen des klassischen linearen Modells übertragbar? a. Zufall bei Zeitreihen b. Übertragbar nur unter restriktiven Bedingungen c. Strikt exogene Variablen 4. Achtung Scheinkorrelation! Analyse der Lebenszufriedenheit • St. Regression: eine kleine Insel im Südpazifik mit 665 Einwohnern • Lebenszufriedenheit (Index 1-20) • Determinanten: Haushaltseinkommen, Berufsprestige, Ausbildungsdauer, Kirchgangshäufigkeit, Ortsgröße • Messfehler und weitere Einflüsse sind unabhängig von diesen Determinanten: u korreliert mit keiner der fünf Variablen • Frage: Ist der folgende in der „Grundgesamtheit“ gültige Zusammenhang zwischen Lebenszufriedenheit und Einkommen, Prestige usw. auch in einer Zufallsstichprobe beobachtbar? y = 10.51 + 0.065 x1 + 0.011x2 + 0.116 x3 + 0.265 x4 − 0.056 x5 + u Annahme: Zufallsauswahl Grundgesamtheit (N=665) Urnenmodell: Einfache Zufallsstichprobe (n=300) Simulation der Stichprobenverteilung des geschätzten Einkommenseffektes 4 1000 Stichproben (Replikationen) jeweils mit n=300 Dens ity 2 3 Arithm. Mittel = 0,061 (Bias = 0,061 – 0,065) 0 1 Std.abw. = 0,110 -. 4 -.2 0 _b[income] .2 .4 Schätzverfahren notwendig bei Totalerhebungen? • Beispiele für Totalerhebungen – Zeitreihe der Arbeitslosenquote 1950-2000 – Kindersterblichkeit 1990 für jeden Bundesstaat der USA • Wie kann es einen vom Parameter der Grundgesamtheit abweichenden Schätzwert geben, wenn man Daten über alle Elemente der Grundgesamtheit hat? Schätzverfahren bei Totalerhebungen? • Gedankenexperiment – Daten zur Kindersterblichkeit (Arbeitslosigkeit) werden nach Abschluss erneut überprüft. • Ergebnis – Wegen Erfassungsproblemen ergeben sich leicht abweichende Werte der Zielvariablen. • Schlussfolgerung – Messfehler gibt es auch bei Totalerhebungen. Schätzverfahren bei Totalerhebungen? • Gedankenexperiment – Erhebung zur Lebenszufriedenheit wird eine Woche später wiederholt. Messfehler seien ausgeschlossen. • Ergebnis – Sonstige Determinanten der Lebenszufriedenheit (z.B. subjektive Stimmungen), die man wegen ihrer Zufälligkeit zunächst vernachlässigt hat, können andere Werte aufweisen. • Schlussfolgerung – Auch bei Totalerhebungen ist von weiteren Einflüssen auszugehen, die man jedoch nicht weiter modelliert und statt dessen als Zufallsvariable betrachtet. Totalerhebung als stochastischer Prozess systematische Komponente µi + stochastische Komponente ui 10.51 + 0.065 x1 + 0.011x2 + 0.116 x3 + 0.265 x4 − 0.056 x5 Universum der sonstigen Einflüsse und Messfehler Zufallszahlengenerator ui ~ N(0, σ ) = Zielvariable yi immer gleiche Werte, wenn ui=0 verschiedene Werte, wenn ui≠0 Schlussfolgerungen • Analysiere die stochastischen Eigenschaften des datengenerierenden Prozesses • Zufallsstichprobe – u: Messfehler und unbekannte Determinanten – Auswahl einer Teilstichprobe aus einer endlichen Grundgesamtheit • Totalerhebung – u: Messfehler und unbekannte Determinanten – Auswahl einer Teilstichprobe aus einer hypothetischen Grundgesamtheit • Auch bei Totalerhebungen ist Schätzen (und Testen) sinnvoll! Zeitreihe als stochastischer Prozess systematische Komponente µt zeitgleiche und zeitverzögerte Einflüsse xt , xt −1 , xt − 2 , K , yt −1 , yt − 2 , K + stochastische Komponente ut Zufallszahlengenerator ut ~ N(0, σ ) = Zielvariable yt je nach Modell: Determinante der Zielvariablen in nächster Periode Abhängige Beobachtungen • weil die Werte der x-Variablen, die hier als gegeben betrachtet werden, im Zeitablauf miteinander zusammenhängen. • weil die Vergangenheit des Prozesses (yt-1, yt-2, ...) in die aktuellen Werte yt eingeht. • weil die stochastische Komponente nicht nur aus der aktuellen ut, sondern auch aus früheren Zufallszahlen ut-1, ut-2, ... zusammengesetzt ist (Verallgemeinerung der vorherigen Folie). Zufall bei Querschnitt und bei Zeitreihe Querschnitt Totalerhebung Zeitreihe Grundgesamtheit Urne N Elemente Universum ui ∞ Elemente Zufallsprozess ∞ Elemente Stichprobenentnahme einmal n Elemente einmal n Elemente t-mal ein Element Stichprobe n Elemente n Elemente t Elemente Abhängig? nein nein ja Zufall Auswahl Fehlerterm Fehlerterm Gliederung 1. Deskriptive Analyse von Zeitreihen 2. Regressionsmodelle für Zeitreihen 3. Annahmen des klassischen linearen Modells übertragbar? a. Zufall bei Zeitreihen b. Übertragbar nur unter restriktiven Bedingungen c. Strikt exogene Variablen 4. Achtung Scheinkorrelation! Zur Erinnerung: OLS Annahmen Problematik von Zeitreihen Weil es sich bei Zeitreihen nicht um einfache Zufallsstichproben handelt, sondern um einen stochastischen Prozess, der eventuell im Zeitablauf abhängige Beobachtungen generiert, sind insbesondere die beiden rot unterstrichenen Annahmen problematisch. Einflüsse im Zeitablauf Der Fehlerterm erfasst Messfehler und vor allem nicht berücksichtigte Einflüsse von Drittvariablen. Bei Zeitreihen können solche Einflüsse zeitlich vorhergehende und nachfolgende Drittvariablen sein. Es muss daher zusätzlich gefordert werden, dass die Fehlerterme nicht nur von den aktuellen x-Werten, sondern auch von allen zeitlich vorhergehenden und nachfolgenden x-Werten unabhängig sind. Dies ist eine sehr restriktive Annahme, die häufig nicht angemessen ist. Unabhängige Beobachtungen Auch wenn die Fehlerterme von allen zeitlich vorhergehenden und nachfolgenden x-Werten unabhängig sind, ist nicht davon auszugehen, dass die nicht berücksichtigten Drittvariablen selbst (und damit die Fehlerterme) im Zeitablauf zusammenhängen. Die Annahme der Unkorreliertheit der Fehlerterme ist daher bei Zeitreihen in der Regel nicht gegeben. Man spricht auch von Autokorrelation. Voraussetzung: strikte Exogenität Annahme Definition Funktion Datengenerierender Prozess × × Modell linear in Parametern yt = β 0 + β1 x1t + K + β k xkt + ut Art des Schätzverfahrens Unabhängigkeit des Fehlerterms E (ut | X) = 0, t = 1,K , n Erwartungstreue Keine perfekte Kollinearität xkt keine Konstante, keine lineare Funktion Berechenbarkeit Homoskedastizität Var (ut | X) = σ 2 , t = 1,K , n Effizienz Unkorrelierte Fehlerterme E (ut , u s | X) = 0, für alle t ≠ s Effizienz Normalverteilte Fehlerterme ut ~ N (0, σ 2 ) Art der statistischen Tests X bezeichnet die Werte der unabhängigen Variablen zu allen Zeitpunkten. Die Annahme der Unabhängigkeit besagt z.B., dass die Fehlerterme zu jedem beliebigen Zeitpunkt von allen zeitlich vorhergehenden und nachfolgenden x-Werten unabhängig sind (Annahme strikter Exogenität). Gliederung 1. Deskriptive Analyse von Zeitreihen 2. Regressionsmodelle für Zeitreihen 3. Annahmen des klassischen linearen Modells übertragbar? a. Zufall bei Zeitreihen b. Übertragbar nur unter restriktiven Bedingungen c. Strikt exogene Variablen 4. Achtung Scheinkorrelation! Beispiele für strikte Exogenität • Definition: Strikt exogene Variable reagieren nicht auf das, was in der Vergangenheit passierte. • Ernteertrag (y) und Niederschlag (x) – Die Menge des Regenniederschlags hängt nicht vom Ernteertrag des Vorjahres ab. Keine strikte Exogenität • Ernteertrag (y) und Arbeitseinsatz (x) – Ein Bauer erhöht seinen Arbeitseinsatz, um den Ernteertrag gegenüber dem Vorjahr zu erhöhen. • Kriminalitätsrate (y) und Polizeidichte (x) – Eine Stadt stellt mehr Polizisten ein, um den Anstieg der Kriminalität im Vorjahr zu bekämpfen. Keine strikte Exogenität • Staatsausgaben (yt, yt-1) – Die Höhe der Staatsausgaben des aktuellen Jahres ergeben sich zum Teil aus den Ansätzen des Vorjahres (yt =β0 + β1yt-1 + ut). – yt-1 korreliert jedoch notwendigerweise mit den Fehlertermen des Vorjahres ut-1. Strikte Exogenität nicht gegeben • bei Feedbackprozessen – die abhängige Variable y wirkt auf die unabhängige Variable x zurück • bei zeitverzögerten endogenen Variablen – yt-1 fungiert als unabhängige Variable – gilt natürlich auch bei Verwendung größerer Lags yt-2, yt-3, ... Gliederung 1. Deskriptive Analyse von Zeitreihen 2. Regressionsmodelle für Zeitreihen 3. Annahmen des klassischen linearen Modells übertragbar? 4. Achtung Scheinkorrelation! a. Variablen mit Trend b. Stark abhängige Prozesse c. Trendelimination am Beispiel Trend: x = -3*t + 10*a -4 -2 a 0 0 Normalverteilte Zufallsvariable a x -400 -300 -200 -100 01jan1960 01jan1962 01jan1964 01jan1966 01jan1968 01jan1970 4 01jan1960 01jan1962 01jan1964 01jan1966 01jan1968 01jan1970 2 0 Trend: y = 2*t + 10*e -3 -2 -1 e 0 1 2 Normalverteilte Zufallsvariable e y 50 100 150 200 250 Scheinkorrelation durch Trends 01jan1960 01jan1962 01jan1964 01jan1966 01jan1968 01jan1970 01jan1960 01jan1962 01jan1964 01jan1966 01jan1968 01jan1970 eˆ = − 0,066 − 0,104a (0,088) (0,085) yˆ = 0,386 − 0,660 x (2,323) (0,011) R 2 = 0,013, n = 120 R 2 = 0,968, n = 120 Gliederung 1. Deskriptive Analyse von Zeitreihen 2. Regressionsmodelle für Zeitreihen 3. Annahmen des klassischen linearen Modells übertragbar? 4. Achtung Scheinkorrelation! a. Variablen mit Trend b. Stark abhängige Prozesse c. Trendelimination am Beispiel Stark abhängige Prozesse y_t = y_t-1 + e_t 0 5 x_t = x_t-1 + a_t -10 01jan1960 01jan1962 01jan1964 01jan1966 01jan1968 01jan1970 Autocorrelations of x Autocorrelations of y 0 5 10 Autocorrelation -0.50 0.00 0.50 1.00 -15 -5 -10 x y -5 0 yt = yt −1 + et 01jan1960 01jan1962 01jan1964 01jan1966 01jan1968 01jan1970 Autocorrelation -1.00-0.50 0.00 0.50 1.00 xt = xt −1 + at 15 0 5 Lag Bartlett's formula for MA(q) 95% confidence bands 10 Lag Bartlett's f ormula for MA(q) 95% c onfidence bands yˆ = − 2.391 − 0,230 x (0,530) (0,069) R 2 = 0,087, n = 120 15 Ergebnis Zufall? • beide Zeitreihen (yt, xt) sind unabhängig voneinander • deshalb sollte der Regressionskoeffizient β1 in yt = β0 + β1xt gleich Null sein (H0) • Beispiel aus Handout kann jedoch Zufall sein • Simulationsstudie Davidson / MacKinnon (1993) – 10,000 Zeitreihen aus jeweils n=50 Werten simuliert – jeweils T-Test von β1 mit α=0,05 durchgeführt – 66,2% der Zeitreihen wird H0 verworfen Gliederung 1. Deskriptive Analyse von Zeitreihen 2. Regressionsmodelle für Zeitreihen 3. Annahmen des klassischen linearen Modells übertragbar? 4. Achtung Scheinkorrelation! a. Variablen mit Trend b. Stark abhängige Prozesse c. Trendelimination am Beispiel Beispiel 3: Bauinvestitionen Index der Hauspreise .8 .4 .85 Index (1982=1) .9 .95 Mio. Dollar, real .5 .6 1 .7 1.05 private Bauinvestitionen pro Kopf 1950 1960 1970 Jahr 1980 1990 Daten: hseinv.dat, n=42, USA 1947-1988 1950 1960 1970 Jahr 1980 1990 Zum Schluss Zusammenfassung Zeitreihen Modelle Schätzung Scheinkorrelation • haben zeitliche Ordnung • keine unabhängigen Beobachtungen • zeitverzögerte Variablen • Trend & saisonale Effekte • Ereignisse • Zeitreihen sind stochastische Prozesse • strikte Exogenität für OLS-Annahmen - kein Feedback - keine zeitverzögerten endogenen Variablen • bei Trends • bei stark abhängigen Prozessen Wichtige Fachausdrücke Deutsch Englisch Deutsch Englisch Trendabhängigkeit trending stochastischer Prozess stochastic process Saisonabhängigkeit seasonality Strikte Exogenität strict exogeneity Autokorrelation autocorrelation zeitverzögerte Variable lagged variable stark abhängige highly persistent Zeitreihe time series Trendelimination Detrending Weiterführende Literatur • Wooldridge (2003) – Kapitel 10 (WO 323-359) gibt eine Einführung in verschiedene Regressionsmodelle für Zeitreihen. Außerdem wird diskutiert, unter welchen restriktiven Bedingungen die Annahmen des klassischen linearen Modells auf Zeitreihen übertragbar sind. Scheinkorrelationen durch Trends werden besprochen, nicht aber durch stark abhängige Prozesse. Die werden erst in Kapitel 11 eingeführt. Das kommt nächste Woche dran. Stata-Befehle tsset t Deklaration der Zeitreihenstruktur graph twoway line y t Liniendiagramm tssmooth ma glatt=y, window(5) Berechnung ungewichteter gleitender Mittelwerte aus den Datenwerten von t-2 bis t+2 corrgram y, lags(15) Berechnung der Autokorrelationsfunktion ac y, lags(15) Graphik der Autokorrelationsfunktion generate y=L.x + e generate y=L2.x + e Berechnung mit zeitverzögerten Variablen (um einen Zeitpunkt verschoben: L.x oder L1.x, zwei Zeitpunkte L2.x) reg y t Kleinste-Quadrate-Schätzung (z.B. eines linearen Trends) predict y_detrended, resid Berechnung der Residuen (trendbereinigte Werte)