4 Modellierung und Prognose mit ARMA, ARIMA und SARIMA Modellen Ein Problem von großer praktischer Bedeutung ist natürlich die Schätzung der unbekannten Parameter eines ARM A(p, q) Prozesses (mit Mittelwert µ) Xt − µ − ϕ1 (Xt−1 − µ) − · · · − ϕp (Xt−p − µ) = ϵt + θ1 ϵt−1 + · · · + θq ϵt−q mit {ϵt } ∼ W N (0, σ 2 ) aus einer gegebenen Zeitreihe X1 , . . . , Xn der Länge n. In einem ersten Schritt wird natürlich µ durch den empirischen Mittelwert X̄ ersetzt. • In den nachfolgenden Abschnitten wird jeweils vorausgesetzt, dass die dort behandelten Schätzmethoden auf die zentrierte, durch den Mittelwert korrigierte Zeitreihe X̃t = Xt − X̄ angewandt werden. X̄ schätzt den wahren Mittelwert µ. Der Schätzfehler |X̄ − µ| spielt für die meisten Zwecke im Vergleich zu anderen Ungenauigkeiten keine Rolle. Zeitreihenanalyse@LS-Kneip 4–1 4.1 Kleinste-Quadrate Methoden In der Literatur wurden zahlreiche z.B. auf KleinsteQuadrate Methoden basierende Algorithmen vorgeschlagen, die es erlauben, auf relativ einfache Weise approximative Lösungen zu bestimmen. Bei relativ kurzen Zeitreihen liefern ML Verfahren (siehe Abschnitt 4.2) i.a. bessere Schätzer als andere Methoden. 4.1.1 AR(p)-Modell Sei {Xt } ein AR(p) Prozess. Für den zentrierten Prozess ergibt sich dann X̃t = ϕ1 X̃t−1 + · · · + ϕp X̃t−p + ϵt mit ϵt ∼ W N (0, σ 2 ). Eine Modellanpassung erfordert die Schätzung der unbekannten Parameter ϕ1 , . . . , ϕp . Für die Modelldiagnose, Parametertests und Konfidenzintervall ist es weiterhin unumgänglich, auch die Varianz σ 2 der Zufallsschocks ϵt zu schätzen. Kleinste-Quadrate Schätzer: Bestimme Schätzungen ϕ̂1 , . . . , ϕ̂p der wahren Koeffizienten durch Minimieren von n n ( )2 ( )2 ∑ ∑ X̃t − X̂t = X̃t − ϕ1 X̃t−1 − · · · − ϕp X̃t−p t=p+1 t=p+1 Zeitreihenanalyse@LS-Kneip 4–2 über alle möglichen Werte von ϕ1 , . . . , ϕp . Die resultierenden Kleinste-Quadrate Schätzer ϕ̂1 , . . . , ϕ̂p werden auch als ”Regressionsschätzer” von ϕ1 , . . . , ϕp bezeichnet. Sie ergeben sich als Lösung der Normalgleichungen ∑ n X̃ X̃ t=p+1 t t−1 .. . n ∑ X̃t X̃t−p t=p+1 n ∑ 2 X̃t−1 t=p+1 .. = . n ∑ X̃t−p X̃t−1 t=p+1 ··· n ∑ X̃t−1 X̃t−p t=p+1 ... n ∑ .. . t=p+1 2 X̃t−p ϕ̂1 .. . ϕ̂p Die Kleinste-Quadrate Schätzer sind für großes n approximativ äquivalent zu den in Kapitel 3 vorgestellten Yule-Walker Schätzern ϕ̂∗1 , . . . , ϕ̂∗p . Diese ergeben sich als Lösungen des Gleichungssystems ρ̂(1) 1 ρ̂(1) . . . ρ̂(p − 1) ϕ̂∗1 1 . . . ρ̂(p − 2) ϕ̂∗2 ρ̂(2) ρ̂(1) .. .. .. .. = .. . . . . . ρ̂(p) ρ̂(p − 1) ρ̂(p − 2) . . . 1 ϕ̂∗p Zeitreihenanalyse@LS-Kneip 4–3 Dieses Gleichungssystem lässt sich auch in der Form γ̂(1) γ̂(0) γ̂(1) . . . γ̂(p − 1) ϕ̂∗1 γ̂(0) . . . γ̂(p − 2) ϕ̂∗2 γ̂(2) γ̂(1) = . . . . . .. . . . . . . . . γ̂(p − 1) γ̂(p − 2) . . . γ̂(p) γ̂(0) ϕ̂∗p schreiben. Für große n und 0 ≤ h, j ≤ p gilt dann n−|h−j| n ∑ ∑ 1 1 X̃t−h X̃t−j ≈ n X̃t X̃t+|h−j| = γ̂(h − l), n t=p+1 t=1 und die Normalgleichungen entsprechen (approximativ) den Yule-Walker Gleichungen. Es lässt sich weiterhin zeigen, dass die Yule-Walker Schätzer ebenso wie die Kleinste-Quadrate Schätzer asymptotisch äquivalent zu den in Abschnitt 4.2 vorgestellten Maximum-Likelihood Schätzern für die Parameter ϕj sind. Schätzer für σ 2 : Es gilt γ(0) = E((X̃t )2 ) = ϕ1 E(X̃t X̃t−1 ) + · · · + ϕp E(X̃t X̃t−p ) + E(X̃t ϵt ) = ϕ1 γ(1) + · · · + ϕp γ(p) + σ 2 ⇒ σ 2 = γ0 − ϕ1 γ(1) − · · · − ϕp γ(p) Zeitreihenanalyse@LS-Kneip 4–4 Ersetzt man γ durch die empirische Autokovarianzfunktion, erhält man den Schätzer σ̂ 2 = γ̂0 − ϕ1 γ̂(1) − · · · − ϕp γ̂(p) 4.1.2 ARM A(p, q)-Modell Sei {Xt } ein AR(p) Prozess. Für den zentrierten Prozess ergibt sich dann X̃t − ϕ1 X̃t−1 − · · · − ϕp X̃t−p = ϵt + θ1 ϵt−1 + · · · + θq ϵt−q Die Hauptschwierigkeit bei der Behandlung dieser Modelle besteht in der Tatsache, dass die Werte ϵt , ϵt−1 , . . . nicht beobachtbar sind. Man beachte jedoch, dass ϵt = X̃t − p ∑ s=1 | ϕs X̃t−s − {z q ∑ s=1 θs ϵt−s , } X̂wahr,t wobei sich X̂wahr,t aus vergangenen Werten X̃t−1 , X̃t−2 , . . . und ϵt−1 , ϵt−2 , . . . der Zeitreihe und der Innovationen berechnen lässt. Die allgemeine Idee der verschiedenen Kleinste-Quadrate Methoden zur Schätzung der Parameter ϕj , θk Zeitreihenanalyse@LS-Kneip 4–5 von ARM A(p.q) Modellen lässt sich nun folgendermaßen beschreiben: • Die unbekannten Zufallsschocks ϵt werden durch Schätzwerte (Residuen) ϵ̂t = X̃t − X̂t ersetzt, wobei X̂t eine Prognose von X̃t aus den Zeireihenwerten in vorangegangenen Perioden t − 1, t − 2, . . . ist. • Schätzungen ϕ̂j und θ̂k werden durch minimieren von )2 ∑( X̃t − X̂t t = ∑ ( X̃t − t p ∑ s=1 ϕs X̃t−s − q ∑ )2 θs ϵ̂t−s s=1 bestimmt. Die einzelnen Verfahren unterscheiden sich im Wesentlichen nur durch die Art und Weise der Berechnung von ϵ̂t . Man beachte, dass die Werte von X̂t ≡ X̂t (ϕ, θ) bzw. ϵ̂t = Xt − X̂t (ϕ, θ) selbst wiederum von den jeweiligen Parameterwerten abhängen. Im Allgemeinen erhält man daher ein nichtlineares Minimierungsproblem, das sich nur iterativ lösen lässt. Zeitreihenanalyse@LS-Kneip 4–6 Der bedingte Kleinste-Quadrate Ansatz. Man setzt X̂t = 0 für t ≤ 1 und ϵ̂1 = X1 − X̂1 = X1 ϵ̂2 = X2 − ϕ1 X1 − θ1 ϵ̂1 | {z } X̂2 .. . ϵ̂t = X̃t − p ∑ ϕs X̃t−s − s=1 | {z q ∑ θs ϵ̂t−s s=1 } X̂t Das unbedingte Kleinste Quadrate Verfahren führt auf Schätzer, die asymptotisch mit den MaximumLikelihood Schätzern übereinstimmen (siehe 4.2). Der Hannen-Rissanen Algorithmus: Zur Bestimmung der X̂t ϵ̂t wird ein AR(m) Modell mit m > max{p, q} an die Daten angpasst ⇒ Yule-Walker Schätzer ϕ̂1 , . . . , ϕ̂m der zugehörigen Parameter. Die resultierenden Residuen ϵ̂t = X̃t − X̂t = X̃t − m ∑ ϕ̂s Xt−s s=1 dienen sodann als Schätzungen der Zufallsschocks. Zeitreihenanalyse@LS-Kneip 4–7 4.2 Maximum-Likelihood Der Maximum-Likelihood Ansatz beruht auf der Zusatzannahme, dass {Xt } ein streng stationärer Gaußprozess ist. Die Zufallsvaraiblen X̃1 , . . . , X̃n sind dann multivariat normalverteilt. Anmerkung: Die Grundidee der Maximum-Likelihood Schätzung lässt sich folgendermaßen darstellen (Details siehe Abschnitt 4.10.3): • Aufstellen einer ”Likelihoodfunktion” L(ϕ, θ, σ 2 ) in Abhängigkeit von den unbekannten Koeffizienten ϕ = (ϕ1 , . . . , ϕp ), θ = (θ1 , . . . , θq ) und σ 2 = var(ϵt ). • Bei diskreten Zufallsvariablen quantifiziert die Likelihoodfunktion die Wahrscheinlichkeit, dass gerade die tatsächlich beobachteten Werte x̃1 , . . . , x̃n auftreten, falls die wahre Werte der Koeffizienten mit den jeweils betrachteten Werten übereinstimmen. Bei stetigen (z.B. normalverteilten) Verteilung ist L(ϕ, θ, σ) gleich dem jeweiligen Wert der Dichtefunktion. • Die Maximum-Likelihood Schätzungen σ̂ 2 , ϕ̂ und θ̂ maximieren L(ϕ, θ, σ 2 ) über alle möglichen Werte von σ 2 , ϕ, θ. Zeitreihenanalyse@LS-Kneip 4–8 • Die Maximum-Likelihood Schätzung bestimmt daher diejenigen Koeffizienten, für die die tatsächlich beobachteten Daten x̃1 , . . . , x̃n am ”plausiblesten” sind (höchstmögliche Wahrscheinlichkeit bzw. größtmöglicher Dichtewert). Für einen Gaußprozess lässt sich für alle möglichen Werte von σ 2 , ϕ, θ die zugehörige Likelihoodfunktion aus den Formeln für die Dichte der multivariaten Normalverteilung berechnen (siehe Abschnitt 4.10.2). Nach einigen (komplizierten!) Rechnungen kann man zeigen, dass sich die Maximum-Likelihood Schätzung folgendermaßen darstellen lassen: Zeitreihenanalyse@LS-Kneip 4–9 ϕ̂ = (ϕ̂1 , . . . , ϕ̂p ), θ̂ = (θ̂1 , . . . , θ̂q ) minimieren 1 ∑ (X̃t − X̂t )2 1∑ l(ϕ, θ) = ln( )+ ln rt−1 n t=1 rt−1 n t=1 n n bezüglich allen möglichen Werten von σ 2 , ϕ, θ und 1 ∑ (X̃t − X̂t )2 2 σ̂ = , n t=1 rt−1 n wobei * X̂t - bestmöglicher Prognosewert von X̃t (in Abhängigkeit von σ 2 , ϕ, θ) aus den vergangenen Werten der Zeitreihe: Für t ≥ max{p, q} gilt X̂t = p ∑ ϕs X̃t−s + s=1 q ∑ θt−1,s (X̃t−s − X̂t−s ) {z } | s=1 ϵ̂t−s * Die jeweiligen Werte von θt,s und rt ≡ rt (ϕ, θ, σ 2 ) ergeben sich für t = 1, 2, . . . rekursiv aus dem sogenannten Innovations-Algorithmus (die Formeln sind in dem Buch von Brockwell und Davis zu finden). * Ist t merklich größer al max{p, q}, so gilt approximativ: θt,s = θs und rt = 1. Zeitreihenanalyse@LS-Kneip 4–10 Anmerkung: Es gilt −2 ln L(ϕ̂, θ̂, σ̂ 2 ) = l(ϕ̂, θ̂) (+Konstante) Ein großes Problem der Maximum-Likelihood Schätzung (ML) ist natürlich die praktische Berechnung der Koeffizienten. Es gibt i.Allg. keine Möglichkeit, exakte Lösungen in einer geschlossenen analytischen Form darzutellen. In allen modernen statistischen Programmpaketen sind jedoch Optimierungsverfahren (iterative Algorithmen) implementiert, die es erlauben, die ML Schätzungen numerisch zu berechnen. Es existiert ein enger Zusammenhang zwischen den im vorigen Abschnitt betrachteten Kleinste-Quadrate Schätzern und dem Maximum-Likelihood Ansatz: • Für t ≫ max p, q gilt θt,s ≈ θs , rt ≈ 1 und daher X̂t ≈ p ∑ ϕs X̃t−s + s=1 sowie 1 n ∑n t=1 q ∑ θs (X̃t−s − X̂t−s ) {z } | s=1 ϵ̂t−s ln rt−1 → 0 für n → ∞. Für eine lange Zeitreihe ist der Einfluss der Anfangswerte vernachlässigbar, und Minimieren von Zeitreihenanalyse@LS-Kneip 4–11 l(ϕ, θ) ist daher asymptotisch äquivalent zum Minimieren von n ∑ (X̃t − X̂t )2 t=1 ML Schätzer und die genannten Kleinste-Quadrate Schätzer stimmen daher asymptotisch (approximativ) überein. • Ein Unterschied besteht jedoch bei relativ kurzen Zeitreihen (n klein im Vergleich zu p und q). ML führt auf diejenigen Parameterwerte, die auf der Grundlage eines optimalen Prognose-Algorithmus den kleinsten quadratischen Abstand zwischen X̃t und X̂t liefern. Bei kurzen Zeitreihen liefert MaximumLikelihood i. Allg. genauere Schätzungen als einfache Kleinste-Quadrate Methoden. • Das Vorgehen des Maximum-Likelihood Ansatzes ist auch dann sinnvoll, wenn {Xt } kein streng stationärer Gaußprozess ist. Es lässt sich zeigen, dass auch unter den meisten anderen Verteilungsannahmen die aus dem oben beschrieben ML Verfahren resultierenden Schätzer asymptotsch effizient sind. Ausnahmen sind z.B. Verteilungen mit ”langen Enden” (→ Ausreißer!). Zeitreihenanalyse@LS-Kneip 4–12 4.3 Inferenz Die Eigenschaften von ML Schätzern für ARMA Modelle lassen sich aus der allgemeinen Theorie von Maximum-Likelihood Schätzern ableiten. Es lässt sich zeigen, dass für einen Gaußprozess unter schwachen Bedingungen folgendes gilt: • Die ML Schätzer ϕ̂j , θ̂k von sind asymptotisch effiziente Schätzer von ϕj , θk . Für großes n gilt für einen beliebigen alternative Schätzer ϕ̂∗ E((ϕ̂j − ϕj )2 ) ≤ E((ϕ̂∗j − ϕj ) j = 1, . . . , p (analog für θ) • Die ML Schätzer ϕ̂j , θ̂k sind konsistente Schätzer der unbekannten Parameter. Die Verteilung der Schätzwerte ist asymptotisch normal. Für großes n gilt approximativ ϕ̂j ∼ Np (ϕj , vj2 /n) θ̂k ∼ Nq (θk , vj∗2 /n) Die Werte vj2 bzw. vk∗2 in den Varianztermen vj2 /n bzw. vk∗2 /n hängen selbst wiederum von den wahren Werten der Koeffizienten ab. Einsetzen der Zeitreihenanalyse@LS-Kneip 4–13 Schätzwerte erlaubt eine konsistente Approximation. • In statistischen Programmpaketen wird zusätzlich zu den Schätzwerten ϕ̂j und θ̂k auch Approxima√ √ ∗ tionen v̂j / n und v̂k / n der zugehörigen Standardfehler angegeben. • Von großer praktischer Bedeutung sind Tests der Nullhypothesen H0 : ϕj = 0 bzw. H0 : θk = 0. Zum Testen wird jeweils die sogenannte ”tStatistik” verwandt: t= ϕ̂j √ v̂j / n bzw t= θ̂k √ ∗ v̂k / n Unter H0 ist t asymptotisch N (0, 1) verteilt (einige Programmpakete benützen auch Approximationen durch t-Verteilungen). Die Programmpakete berechnen sodann den zugehörigen p-Wert (”pvalue”, ”significance level”). Interpretation: – p-Wert< 0, 05 ⇒ Koeffizient signifikant; ein Test zum Niveau α = 5% lehnt die Nullhypothese ab. – p-Wert< 0, 01 ⇒ Koeffizient hochsignifikant; ein Test zum Niveau α = 1% lehnt die Nullhypothese ab. Zeitreihenanalyse@LS-Kneip 4–14 • Bei ARMA Modellen höherer Dimension (p und/oder q groß) kommt es häufig vor, dass einige Parameter ϕj und/oder θk nicht signifikant sind, und daher für die wahren Werte möglicherweise ϕj = 0 und/oder θk = 0 gilt. Zur Vereinfachung des Modells werden solche nichtsignifikanten ”Lags” häufig aus dem Modell entfernt. Das so reduzierte Modell wird dann neu an die Daten angepasst, indem man l(ϕ, θ) unter den Nebenbedingungen ϕj = 0, θk = 0 über die verbleibenden Parameter minimiert (”constrained Likelihood”). • Bei der Elimination nichtsignifikanter Lags muss sehr sorgfältig vorgegangen werden. Die Elimination eines bestimmten Lags aus dem Modell kann zu veränderten Schätzwerten und Signifikanzen bei anderen Lags führen. Existieren mehrere nichtsignifikante Lags, so ist ein schrittweises Vorgehen notwendig, bei dem die betreffenden Lags eines nach dem anderen aus dem Modell entfernt werden. In jedem Schritt sind die in Abschnitt 4.5 beschriebenen Diagnoseverfahren anzuwenden um sicherzustellen, das das reduzierte Modell eine genauso gute oder bessere Modellanpassung liefert wie das Originalmodell. Zeitreihenanalyse@LS-Kneip 4–15 4.4 Prognoseverfahren In Kapitel 3.5 wurde bereits ein ”optimales” Prognoseverfahren beschrieben, das jedoch die Kenntnis der wahren Parameterwerte voraussetzt. In der Praxis werden diese durch die geschätzten Parameterwerte approximiert. Zum Beispiel: Ein-Schritt Prognose (h = 1) eines ARM A(p, q)Prozesses X̂n+1 =X̄ + ϕ1 X̃n + . . . ϕp X̃n+1−p + θn,1 (X̃n − X̂n ) + · · · + θn,q (X̃n−q − X̂n−q ) Geschätztes“ 95% Prognoseintervall: ” [X̂n+1 ± 1.96σ̂] Der Schätzfehler bei der Berechnung von Prädiktionsintervallen in erster Ordnung vernachlässigbar. Zeitreihenanalyse@LS-Kneip 4–16 4.5 Modelldiagnose Ein wichtiger Schritt bei der Anpassung eines Zeitreihenmodells ist die nachfolgende Modellvalidierung. In der Praxis wird bei der Modellbildung oft so vorgegangen, dass zunächst aus der Struktur von ACF und PACF eine Reihe von möglichen Modellen ausgwählt wird. Jeder dieser ”Modellkandidaten” wird dann mit den besprochenen Techniken an die Daten angepasst (Schätzung der Parameter). Mit Hilfe von Diagnosetechniken wird sodann das am besten passende Modell ausgwählt. Es gibt eine ganze Reihe verschiedener Diagnosetechniken, die in erster Linie auf die nach Elimination von Trend und Saisonfigur erhaltene stationäre Zeitreihe abzielen. Eine oft angewandte Möglichkeit ist z.B. der Vergleich der empirischen ACF und PACF mit den aus dem Modell folgenden theoretischen Werten. Für eine sinnvolle Interpretation ist es wichtig, den Schätzfehler zu quantifizieren und auf die in Kapitel 3 besprochenen Verfahren zur Konstruktion von Konfidenzintervallen zurückzugreifen. Von noch größerer praktischer Bedeutung sind jedoch Verfahren der Residualanalyse und die Verwendung von Selektionskriterien wie Akaikes AIC. Zeitreihenanalyse@LS-Kneip 4–17 4.5.1 Residualanalyse Die Grundidee der Residualanalyse beruht auf der einfachen Beobachtung, dass sichfür ein korrektes ARM A(p, q) Modell die Zeitreihe der Residuen ϵt = X̃t − p ∑ s=1 | ϕs X̃t−s − {z q ∑ s=1 θs ϵt−s } X̂wahr,t als Weißes Rauschen darstellen lassen muss. Da die wahren Residuen natürlich nicht bekannt sind, stützt man sich in der Praxis auf die geschätzten Residuen ϵ̂t = X̃t − X̂t wie sie auch bei der Schätzung benutzt werden. Anmerkung: Um Residuen mit gleicher Varianz auch für kleines t zu erhalten, werden von manchmal die reskalierten Residuen ϵ̃t = ϵ̂t 1/2 σ̂rt vorgezogen. Bei einem korrekt spezifizierten ARMA-Modell sollte die Zeitreihe der {ϵ̂t } (bzw. {ϵ̃t } einer Realisierung von Weißem Rauschen ähneln. Zeitreihenanalyse@LS-Kneip 4–18 • In einem ersten Schritt der Residualanalyse wird die jeweilige Struktur der Autokorrelationsfunktion und der partiellen Autokorrelationsfunktion überprüft. Da die {ϵ̂t } für ein korrektes Modell approximativ Weißes Rauschen sind, sollten ungfähr 95% aller Werte von ρ̂(h) innerhalb der Schranken √ ±1.96/ n liegen. • Eine weitere Überprüfung der Hypothese, dass die {ϵt } approximativ Weißes Rauschen sind kann sodann mit Hilfe von Tests auf Weißes Rauschen geschehen. – Durbin-Watson Statistik ∑n−1 (ϵ̂t+1 − ϵ̂t )2 t=1∑ d= n 2 t=1 ϵ̂t Falls {ϵ̂t } approximativ Weißes Rauschen, so sollte der Wert von d nahe 2 sein. Die in Kapitel 2 angegebene Verteilung unter der Nullhypothese gilt jedoch nur für die ”wahren” Innovationen ϵt und überträgt sich nicht auf die Residuen ϵ̂t . In der Praxis werden daher Signifikanztests i.Allg. mit Hilfe des Durbin-Watson h-Tests durchgeführt, der auf einer modifizier- Zeitreihenanalyse@LS-Kneip 4–19 ten Teststatistik beruht √ h = (1 − 0, 5 · d) n 1 − nv̂ 2 Unter H0 folgt d asymptotisch einer Standardnormalverteilung. – Ljung-Box-Test: Für ein vorgegebenes H basiert dieser Test auf der Statistik H ∑ ρ̂(h)2 Q = n(n + 2) n−h h=1 Für großes n gilt q ∼ χ2H . Die Hypothese, dass {ϵ̂t } approximativ Weißes Rauschen ist, wird abgelehnt, falls Q zu groß ist. Es handelt sich hier um eine Modifikation des in Kapitel 2 vorgestellten Portmanteau Tests. – Es existieren weiterhin Verfahren, die auf dem Ansatz beruhen, dass die geschätzten ρ̂(h) bei Weißem Rauschen für verschiedene Werte von h voneinander unkorreliert sind, und daher eine genügend große Zahl von Vorzeichenwechseln aufweisen sollten (Turning points, Difference Sign Test, etc.). Zeitreihenanalyse@LS-Kneip 4–20 4.5.2 Gütekriterien Es gibt eine Reihe von wichtigen Kriterien zur Beurteilung der Modellanpassung. RATS verwendet folgende Maßzahlen: • Centered R2 : • Adjusted R : 2 • Uncentered R2 : R2 = 1 − R̄ = 1 − 2 ∑n (X̃t −X̂t )2 t=1 ∑n 2 t=1 X̃t ∑n X̃t −X̂t )2 /(n−p−q−1) t=1 (∑ n 2 t=1 X̃ /(n−1) 2 Runcentered = ∑n (Xt −X̂t )2 t=1 1− ∑n X 2 t t=1 Es gilt 0 ≤ R2 ≤ 1. Falls R2 groß ist, z.B. R2 > 0, 8, so folgt, dass sich die aus dem Modell berechneten Prognosewerte X̂t im Mittel über alle Perioden nicht sehr stark von den zentrierten Zeitreihenwerten X̃t unterscheiden. Schlecht spezifizierte, inkorrekte ARMA Modelle werden tendenziell einen eher niedrigen Wert von R2 liefern. Ein Grundproblem besteht natürlich in der Wahl der Ordnungen p und q eines geeigneten ARM A(p, q)Modells. Für diesen Zweck ist R2 keine geeignete Maßzahl, da eine Erhöhung von p oder q notwendigerweise zu einem höheren Wert von R2 führt. Mehr Information liefert hier der ”Adjusted R2 ”, der die Zeitreihenanalyse@LS-Kneip 4–21 Anzahl der im Modell geschätzten Parameter berücksichtigt. In der Praxis werden jedoch spezifische Selektionskriterien wie Akaikes Informationskriterium (AIC) oder das Schwartz-Kriterium (SBC) vorgezogen. Sie dienen dazu, aus einer Reihe von ”Kandidatenmodellen” das beste auszuwählen. • Die Grundidee der Parameterschätzung mit der Maximum-Likelihood Methode überträgt sich sofort auf den Vergleich verschiedener Modelle. Man betrachtet den Wert der Likelihoodfunktion für die verschiedenen ”Kandidatenmodelle” und wählt tendenziell dasjenige aus, bei dem die Likelihood so groß wie möglich wird. Häufig wird statt der eigentlichen Likelihoodfunktion der resultierende Wert von −2 ln L(ϕ̂, θ̂, σ̂) = l(ϕ̂, θ̂) (+Konstante) betrachtet mit ϕ̂ = (ϕ̂1 , . . . , ϕ̂p )′ , θ̂ = (θ̂1 , . . . , θ̂q )′ . Ein gutes Modell sollte dann auf einen möglichst kleinen Wert führen. • Beim Vergleich von Modellen ist jedoch eine zusätzliche Schwierigkeit zu beachten. Ein ARM A(p, q) ist natürlich ein spezielles ARM A(p + 1, q + 1) Zeitreihenanalyse@LS-Kneip 4–22 Modell mit ϕp+1 = θq+1 = 0. Selbst wenn das ARM A(p, q) richtig ist, werden für MaximumLikelihood Schätzungen zufallsbedingt i.Allg. π̂p+1 ̸= 0 bzw. θ̂q+1 ̸= 0 gelten, und notwendigerweise −2 lnL(ϕ̂1 , . . . , ϕ̂p , ϕ̂p+1 , θ̂1 , . . . , θ̂q , θ̂q+1 , σ̂) < −2 ln L(ϕ̂1 , . . . , ϕ̂p , θ̂1 , . . . , θ̂p , σ̂) Die Selektionskriterien kompensieren diesen Effekt durch Einführung eines Strafterms“ der um” so größer wird, je höher die Ordnungen p bzw. q des Prozesses sind. AIC und SBC unterscheiden sich nur durch die Größe des Strafterms. ( ) AIC = −2 log L(Xn |ϕ̂, θ̂, σ̂) + 2(p + q + 1) ( ) SBC = −2 log L(Xn |ϕ̂, θ̂, σ̂) + (p + q + 1) · ln n Vergleicht man mehrere verschiedene Modelle, so wird man tendenziell dasjenige auswählen, das den kleinsten AIC (SBC) Wert besitzt. Zeitreihenanalyse@LS-Kneip 4–23 4.6 Beispiel: Australischer Rotwein logged red wine data 8.00 7.75 7.50 7.25 7.00 6.75 6.50 6.25 6.00 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1990 1991 logged red wine data, difference at lag 1 0.54 0.36 0.18 -0.00 -0.18 -0.36 -0.54 -0.72 -0.90 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 logged red wine data, diff at lag1, sdifference at lag 1 0.50 0.25 0.00 -0.25 -0.50 1981 1982 1983 Zeitreihenanalyse@LS-Kneip 1984 1985 1986 1987 1988 1989 1990 1991 4–24 ACF, diff at lag=1 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 5 10 15 20 25 30 35 ACF, diff at lag=1, sdiff at lag=1 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 5 10 15 20 25 30 35 PACF, diff at lag=1, sdiff at lag=1 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 5 Zeitreihenanalyse@LS-Kneip 10 15 4–25 Australischer Rotwein: Monatlich verkaufte Mengen (in Kilolitern) von australischem Rotwein von Januar 1980 bis Oktober 1991. Wir betrachten die Zeitreihe der logaritmierten Mengen. Die Zeitreihe besitzt sowohl einen Trend als auch eine saisonale Komponente. Trend und Saison werden durch Differenzenbildung eliminiert: Xt∗ = ∆Xt = Xt − Xt−1 ∗ Yt = (1 − L12 )Xt∗ = Xt∗ − Xt−12 Es wird davon ausgegangen, dass die resultierenden Zeitreihe Yt von Differenzen stationär ist und durch ein geeignetes ARMA-Modell beschrieben werden kann. Betrachtete ”Kandidatenmodelle”: • M A(1): Yt = µ + ϵt + θϵt−1 • M A(13): Yt = µ + ϵt + θ1 ϵt−1 + · · · + θ13 ϵt−13 Zeitreihenanalyse@LS-Kneip 4–26 1) Schätzergebnisse für ein M A(1)-Modell Yt = µ + ϵt + θϵt−1 Box-Jenkins - Estimation by Gauss-Newton Convergence in 14 Iterations. Final criterion was 0.0000042 < 0.0000100 Dependent Variable LOGX Monthly Data From 1981:02 To 1991:10 Usable Observations 129 Degr. of Freedom 128 Centered R**2 0.843547 R Bar **2 0.843547 Uncentered R**2 0.999623 T x R**2 128.951 Mean of Dependent Variable 7.2739434755 Std Error of Dependent Variable 0.3588303010 Standard Error of Estimate 0.1419323284 Sum of Squared Residuals 2.5785325864 Durbin-Watson Statistic 1.731259 Q(32-1) 72.643285 Significance Level of Q 0.00003413 Variable Coeff Std Error T-Stat Signif MA1 -0.7601 0.0579 -13.1329 0.00000 Zeitreihenanalyse@LS-Kneip 4–27 1) Schätzergebnisse für ein M A(13)-Modell Yt = µ + ϵt + θ1 ϵt−1 + · · · + θ13 ϵt−13 Box-Jenkins - Estimation by Gauss-Newton Convergence in 23 Iterations. Final criterion was 0.0000094 < 0.0000100 Dependent Variable LOGX Monthly Data From 1981:02 To 1991:10 Usable Observations 129 Degr. of Freedom 128 Centered R**2 0.909793 R Bar **2 0.900461 Uncentered R**2 0.999783 T x R**2 128.972 Mean of Dependent Variable 7.2739434755 Std Error of Dependent Variable 0.3588303010 Standard Error of Estimate 0.1132100098 Sum of Squared Residuals 1.4867147317 Durbin-Watson Statistic 1.891331 Q(32-1) 13.319504 Significance Level of Q 0.82182052 AIC 77.15738 SBC 114.33494 Zeitreihenanalyse@LS-Kneip 4–28 Variable Coeff Std Error T-Stat Signif MA1 -0.7350 0.0824 -8.9178 0.0000 MA2 0.0390 0.0904 0.43122 0.6671 MA3 -0.1364 0.08978 -1.5194 0.1313 MA4 0.0396 0.0909 0.4362 0.6635 MA5 0.2038 0.0912 2.2359 0.0273 MA6 -0.3133 0.0916 -3.4207 0.0008 MA7 0.1147 0.0959 1.1957 0.2343 MA8 0.1858 0.0941 1.9739 0.0508 MA9 -0.1232 0.0941 -1.3104 0.1926 MA10 0.1018 0.0948 1.0744 0.2849 MA11 -0.1568 0.0951 -1.6475 0.1021 MA12 -0.6784 0.09612 -7.0541 0.0000 MA13 0.4943 0.0885 5.5872 0.0000 Schrittweise Eliminierung von nicht signifikanten θ̂j führt auf das Modell Yt = µ + ϵt + θ1 ϵt−1 + θ2 ϵt−12 + θ3 ϵt−13 Für dieses Modell ergeben sich folgende Schätzergebnisse: Zeitreihenanalyse@LS-Kneip 4–29 Box-Jenkins - Estimation by Gauss-Newton Convergence in 17 Iterations. Final criterion was 0.0000069 < 0.0000100 Dependent Variable LOGX Monthly Data From 1981:02 To 1991:10 Usable Observations 129 Degr. of Freedom 126 Centered R**2 0.895993 R Bar **2 0.894342 Uncentered R**2 0.999749 T x R**2 128.968 Mean of Dependent Variable 7.2739434755 Std Error of Dependent Variable 0.3588303010 Standard Error of Estimate 0.1166380547 Sum of Squared Residuals 1.7141589111 Durbin-Watson Statistic 1.899511 Q(32-1) 22.004764 Significance Level of Q 0.81999213 AIC 75.52101 SBC 84.10044 Variable Coeff Std Error T-Stat Signif MA1 -0.7732 0.0575 -13.455 0.0000 MA12 -0.7314 0.0704 -10.3852 0.0000 MA13 0.5323 0.0839 0 6.3451 0.0000 Zeitreihenanalyse@LS-Kneip 4–30 ACF ma=1 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 5 10 15 20 ACF ma=13(full) diff=1,sdiff=1 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 5 10 15 20 PACF 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 5 Zeitreihenanalyse@LS-Kneip 10 15 4–31 ACF, ma=1,12,13 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 5 10 15 20 PACF 1.00 0.75 0.50 0.25 0.00 -0.25 -0.50 -0.75 -1.00 5 Zeitreihenanalyse@LS-Kneip 10 15 4–32 4.7 ARIMA Modelle ARMA Prozesse modellieren stationäre Zeitreihe. Wie jedoch schon in Kapitel 2 diskutiert, besitzen in der Realität viele Zeitreihen einen Trend. Die Grundidee der Box-Jenkins Modellierungsphilosophie besteht in der Trendelimination durch Differenzenbildung. Im Rahmen dieses Ansatzes werden bei der Modellbildung solange die jeweils sinnvollen Differenzenoperatoren angewendet, bis der Output als stationär anzusehen ist. Allgemein nennt man eine Zeireihe {Xt } ”integriert von der Ordnung d”, wenn seine d-fachen Differenzen ∆d Xt = (1 − L)d Xt ein stationärer Prozess sind. Man schreibt Xt ∼ I(d). Definition: Sei d ≥ 0. Eine Zeitreihe Xt ∼ I(d) wird als ARIM A(p, d, q) Prozess bezeichnet (Autoregressive Integrated Moving Average Prozess), falls Yt := (1 − L)d Xt ein kausaler ARM A(p, q) Prozess (mit Mittelwert µ ) ist. Y Falls µY = 0, lässt sich ein ARIM A(p, d, q) Prozess abgekürzt in folgender Form darstellen: ϕ(L)(1 − L)d Xt = θ(L)ϵt , Zeitreihenanalyse@LS-Kneip ϵt ∼ W N (0, σ 2 ) 4–33 Beispiele: • Der in Kapitel 2 eingeführte Random Walk Xt = Xt−1 + ϵt ist ein ARIM A(0, 1, 0) Prozess. • Ein Beispiel für einen ARIM A(0, 1, 1) Prozess ist das lineare Trendmodell Xt = β 0 + β 1 t + ϵ t Einfache Differenzenbildung führt auf das (nicht invertierbare!) M A(1) Modell (mit Mittelwert β1 = µY ) Yt = (1 − L)Xt = β1 + ϵt − ϵt−1 (1−L)2 Xt liefert ein (nicht invertierbares) M A(2) Modell mit Mittelwert 0. Xt lässt sich also auch als ARIM A(0, 2, 2) Modell schreiben • Ein lineares Trendmodell der Form Xt = β0 + β1 t + ϵt + θϵt−1 lässt sich als ARIM A(0, 1, 2) Modell auffassen, denn nach Differenzenbildung erhält man das M A(2) Modell Yt = (1 − L)Xt = β1 + ϵt + (θ − 1)ϵt−1 − θϵt−2 Zeitreihenanalyse@LS-Kneip 4–34 Behandlung von ARIMA Modellen • Differenzenbildung und Berechnung von Yt = (1 − L)d Xt • Anpassung eines geeigneten ARMA Modells an die Zeitreihe {Yt }. Dies beinhaltet Parameterschätzung, Modelldiagnose und Modellselektion. • Die Prognose zukünftiger Werte Yn+1 , Yn+2 , . . . erfolgt auf der Grundlage der in den Abschnitten 3.5 und 4.4 vorgestellten Prognoseverfahren. • Eine Prognose zukünftiger Werte Xn+1 , Xn+2 , . . . der Originalzeitreihe erfolgt über eine Umkehrung der Differenzenbildung. Ist d = 1, so gilt Xt+1 = Yt+1 + Xt für jede Periode t. Allgemein: Xt+1 d (−1)j Xt+1−j = Yt+1 − j j=1 d ∑ ⇒ Ein-Schritt Prognose Xn+1 d ∑ d (−1)j Xn+1−j = Yn+1 − j j=1 Prognoseintervalle errechnen sich aus den Prognoseintervallen für Yn+1 . Zeitreihenanalyse@LS-Kneip 4–35 4.8 SARIMA Modelle SARIMA Modelle beinhalten einen Differenzenfilter, der auf Elimination der Saisonfigur abzielt. Man betrachtet also Zeitreihen, die zusätzlich zu einem eventuellen Trend eine Saisonfigur der Periodizität s besitzen (z.B. s = 4 bei Quartalsdaten, s = 12 für monatliche Daten). Definition: Eine Zeitreihe {Xt } wird als SARIM A(p, d, q) × (P, D, Q)s Prozess (saisonaler ARIMA Prozess mit Periode s) bezeichnet, falls Yt = (1 − L)d (1 − Ls )D Xt ein kausaler ARMA Prozess (mit Mittelwert µY ) der Form ϕ(L)Φ(Ls )(Yt − µY ) = θ(L)Θ(Ls )ϵt , ϵt ∼ W N (0, σ 2 ), ist, wobei ϕ(L) = 1 − ϕ1 L − · · · − ϕp Lp Φ(Ls ) = 1 − Φ1 Ls − · · · − ΦP LP s θ(L) = 1 + θ1 L + · · · + θq Lq Θ(Ls ) = 1 + Θ1 Ls + · · · + ΘQ LQs Zeitreihenanalyse@LS-Kneip 4–36 In der Praxis ist D fast immer 1, P und Q sind in den meisten Fällen sehr klein. Typischerweise ist s = 12 für monatliche Daten, s = 4 für Quartalsdaten, etc. • Man betrachte eine Zeitreihe {Xt } von monatlichen Daten, die eine Saisonkomponente der Periodizität s = 12 aufweise. Saisonelimination durch Differenzenbildung führt auf Yt = (1 − L12 )Xt = Xt − Xt−12 Wenn sich nun {Yt } als kausaler ARM A(p, q) Prozess modellieren lässt, so ist {Xt } ein SARIM A(p, 0, q) × (0, 1, 0)12 Prozess. • In manchen Anwendungen reicht die Saisonelimination durch Differenzenbildung jedoch nicht aus, um eine stationäre Zeitreihe zu erhalten. Beispielsweise kann Yt∗ = (1 − L12 )Xt = Xt − Xt−12 noch einen Trend besitzen. Man betrachtet dann ∗ Yt = (1 − L)(1 − L12 )Xt = Yt∗ − Yt−1 = Xt − Xt−1 − Xt−12 + Xt−13 Wenn nun {Yt } ein kausaler ARM A(p, q) Prozess ist, so lässt sich die Originalzeitreihe {Xt } Zeitreihenanalyse@LS-Kneip 4–37 als SARIM A(p, 1, q)×(0, 1, 0)12 Prozess beschreiben. Die Einführung der zusätzlichen“ Ordnungen P und ” Q in der Definition eines SARIMA Modell ist dadurch motiviert, dass in der Praxis die Lags t−s, t−2s, etc., häufig eine Sonderrolle einnehmen. Dies sieht man sehr einfach bei der Betrachtung deterministischer Komponentenmodelle. • Eine Zeitreihe von Quartalsdaten besitze eine konstante Saisonfigur der Periodizität s = 4 und lasse sich durch das einfache Komponentenmodell Xt = β0 + β1 t + St + ϵt mit St+4 = St für alle t, {ϵt } ∼ W N (0, σ 2 ), beschreiben. Saisonelimination durch Differenzenbildung führt auf Yt = (1 − L4 )Xt = 4β1 + ϵt − ϵt−4 {Yt } ist kausal (aber nicht invertierbar) und µY = 4β1 . Zeitreihenanalyse@LS-Kneip 4–38 – Yt lässt sich als spezieller M A(4) Prozess Yt = µY + ϵt + θ1 ϵt−1 + θ2 ϵt−2 + θ3 ϵt−3 + θ4 ϵt−4 mit θ1 = θ2 = θ3 = 0 und θ4 = −1 auffassen. {Xt } ist folglich als SARIM A(0, 0, 4)×(0, 1, 0)4 Prozess beschreibar. Diese Modellierung von {Xt } ist jedoch unökono” misch“, da sie in keiner Weise berücksichtigt, dass θ1 = θ2 = θ3 = 0. – Eine sinnvollere Modellierung von {Xt } im Rahmen des SARIMA Ansatzes besteht in einer Berschreibung der Zeitreihe als SARIM A(0, 0, 0) × (0, 1, 1)4 Prozess. Mit Θ1 = −1 gilt Yt − µY = ϵt + Θ1 ϵt−4 = Θ(L4 )ϵt • Als weiteres Beispiel betrachte man Xt = β0 + β1 t + St + ϵt + θϵt−1 {Xt } ist ein SARIM A(0, 0, 1) × (0, 1, 1)4 Prozess. mit Θ1 = −1 und θ1 = θ. Zeitreihenanalyse@LS-Kneip 4–39 Behandlung von SARIMA Modellen • Differenzenbildung und Berechnung von Yt = (1 − L)d (1 − Ls )D Xt • Anpassung eines geeigneten ARMA Modells an die Zeitreihe {Yt }. Dies beinhaltet Parameterschätzung, Modelldiagnose und Modellselektion. • Die Prognose zukünftiger Werte Yn+1 , Yn+2 , . . . erfolgt auf der Grundlage der in den Abschnitten 3.5 und 4.4 vorgestellten Prognoseverfahren. • Eine Prognose zukünftiger Werte Xn+1 , Xn+2 , . . . der Originalzeitreihe erfolgt über eine Umkehrung der Differenzenbildung. Zeitreihenanalyse@LS-Kneip 4–40 4.9 Tests auf Einheitswurzeln (Unit-Root Tests) In der Praxis ist es oft von großer Bedeutung zu entscheiden, ob ein Prozesss stationär ist oder einen Trend besitzt. Neben der Verwendung von Diagnosewerkzeugen (wie ACF, PACF) gibt es Tests, die bei dieser Entscheidung eine Hilfestellung geben können. Von besonderer Bedeutung sind die Dickey-Fuller Tests. Sie beruhen auf der Annahme eines autoregressiven Prozesses und testen die Hypothese, dass der zugrundeliegenden Prozess eine Einheitswurzel (”uni-root”) besitzt und daher nicht stationär ist. Es gibt eine ganze Reihe von verschiedenen DickeyFuller Tests, die sich in den jeweils zugrundeliegenden Annahmen über die stochastische Struktur der Zeitreihe unterscheiden. Fehlspezifikationen können zu verzerrten Resultaten führen. 1) Einfacher AR(1)-Prozess (keine Konstante, kein det. Trend) Xt = ϕXt−1 + ϵt t = 1, . . . , n. Die zu testende Nullhypothese lautet H0 : ϕ = 1 d.h., Xt ist ein Random Walk Zeitreihenanalyse@LS-Kneip 4–41 Mit einem statistischen Programmpaket (z.B: RATS) lassen sich der Kleinste-Quadrate Schätzer ϕ̂ und eine Approximation v̂ des zugehörigen Standardfehlers berechnen. Als Teststatistiken werden nun ϕ̂ t= v̂ oder t∗ = n · ρ̂(1) verwendent. Im ersten Fall spricht das RATS Manual von der ”t-Test-Form”, im zweiten Fall von der ”Test-statistic” des Dickey-Fuller Tests. Das Problem besteht nun darin, dass unter der Nullhypothese H0 : ϕ = 1 die Verteilung von t eine sogenannte Dickey-Fuller Verteilung ist, die nicht durch eine Normalverteilung (bzw. t-Verteilung) approximiert werden kann. Krtische Werte der Dickey-Fuller Verteilung sind tabelliert; sie können jedoch auch mittels Monte-Carlo Simulationen berechnet werden. 2) AR(1)-Prozess mit Konstante Xt = δ + ϕXt−1 + ϵt Man benutzt die gleichen Test wie bei einem einfachen AR(1)-Prozess. Die Verteilung von t = ϕ̂v̂ unter der Nullhypothese verändert sich jedoch durch die Einbeziehung der Konstante δ. Zeitreihenanalyse@LS-Kneip 4–42 3) AR(1)-Prozess, Konstante und deterministischer Trend. Xt = δ + ϕXt−1 + γt + ϵt Statistische Programmpakete (z.B. RATS) liefern KleinsteQuadrate Schätzer ϕ̂ und γ̂ und die zugehörigen Standardfehler v̂ϕ und v̂γ . Unter H0 : ϕ = 1 besitzt t = ϕ̂/v̂ϕ wiederum eine Dickey-Fuller Verteilung (dies sich jedoch von den Verteilungen für einen einfachen AR(1)-Prozess ohne bzw. mit Konstante unterscheidet). Statistische Interpretation: • Annahme von H0 : ϕ = 1 ⇒ stochastischer Trend + ev. deterministischer Trend. • Ablehnung von H0 : ϕ = 1 ⇒ |ϕ| < 1 ⇒ kein stochastischer Trend, aber eventuell ein deterministischer Trend, falls sich γ̂ signifikant von Null unterscheidet (die Verteilung von t = γ̂/v̂γ lässt sich asymptotisch (n groß) durch eine Normalverteilung (bzw. t-Verteilung) approximieren). – Annahme von H0 : γ = 0: Zeitreihe Xt bereits stationär – Ablehnung von H0 : γ = 0: Existenz eines deterministischen Trends; Trendbereinigung durch Zeitreihenanalyse@LS-Kneip 4–43 Regression und anschließenden Analyse der trendbereinigten Zeitreihe 4) Erweiterter Dickey-Fuller Test: Beim erweiterten Dickey-Fuller Test wird die stochastische Struktur der Zeitreihe durch einen AR(p)-Prozess, p > 1, modelliert. Beispiel: AR(2) Xt = ϕ1 Xt−1 + ϕ2 Xt−2 + ϵt oder ∆Xt = (ϕ1 − 1) Xt−1 + ϕ2 Xt−2 +ϵt =⇒ ∆Xt = (ϕ1 + ϕ2 − 1) Xt−1 − ϕ2 ∆Xt−1 + εt | {z } π Man kann zeigen dass die Existenz einer Einheits Wurzel (Nicht-Stationarität) aequivalent ist zu H0 : π = ϕ 1 + ϕ 2 − 1 = 0 Man berechnet nun den Kleinste-Quadrate Schätzer π̂ und den zugehörigen Standardfehler v̂π . Als Teststatistik dient t = π̂/v̂π . Unter H0 besitzt t eine DickeyFuller Verteilung. Verallgemeinerung: AR(p)-Prozess ∆Xt = π Xt−1 − ϕ2 ∆Xt−1 − · · · − ϕp ∆Xt−p+1 + ϵt Zeitreihenanalyse@LS-Kneip 4–44 mit π = ϕ1 + · · · + ϕp − 1. Als Teststatistik dient wiederum t = π̂/v̂π . Natürlich kann auch beim erweiterten Dickey-Fuller Test entsprechend dem in den Fällen 2) und 3) besprochenen Vorgehen, dem Modell eine Konstante δ bzw. ein deterministischer Trend hinzugefügt werden. Allgemeines Vorgehen: Fuer Prozesse, die nicht AR(p) sind, wählt man p so hoch dass ϵt = Xt −ϕ1 Xt−1 −· · ·− ϕp Xt−p eine gute Approximation an weisses Rauschen ergibt (dies ist notwendige Annahme fuer die Gültigkeit der asymptotischen Verteilung nach Dickey-Fuller). Bei zu vielen Lags verliert der Test an Macht. Häufig wird das AIC-Kriterium zur Bestimmung der Anzahl der Lags benutzt. Verteilung unter H0 Quantile der Verteilungen der Test-Statistiken unter H0 findet man in Tafeln. Die folgende Tabelle stammt aus Fuller, 1976, p. 373 und gilt für die Statistik in t-Test-Form. Für weitere Tafeln siehe Tabelle B6 in dem Buch von Hamilton. Zeitreihenanalyse@LS-Kneip 4–45 no constant, constant, constant, no trend no trend trend 1% 5% 1% 5% 1% 5% n=25 -2.66 -1.95 -3.75 -3.00 -4.83 -3.60 n=50 -2.62 -1.95 -3.58 -2.93 -4.15 -3.50 n=100 -2.60 -1.95 -3.51 -2.89 -4.04 -3.45 n=250 -2.58 -1.95 -3.46 -2.88 -3.99 -3.43 n=500 -2.58 -1.95 -3.44 -2.87 -3.98 -3.42 n=∞ -2.58 -1.95 -3.43 –2.86 -3.96 -3.41 Wir gewinnen einen Eindruck der Verteilung durch Monte Carlo Simulation (siehe unten). Dies haben wir auf 1000 simulierten Random Walks der Laenge 100 durchgefuehrt. Die Verteilung wird aus den so erhaltenen 1000 t−Statistiken approximiert und stimmt gut mit den von Dickey-Fuller bestimmten Quantilen überein . 0.45 0.5 0.40 0.4 0.35 0.30 0.3 0.25 0.20 0.2 0.15 0.10 0.1 0.05 0.00 0.0 -3.2 -2.4 -1.6 -0.8 -0.0 0.8 1.6 2.4 t-test, H0 , keine Konstante Zeitreihenanalyse@LS-Kneip -3.6 -2.4 -1.2 0.0 1.2 t-test, H0 , Konstante 4–46 Die Verteilungen gelten approximativ auch im erweiterten Fall, d.h. bei Einbeziehung zusätzlicher Lags. RATS liefert zur Berechnung verschiedener Tests auf Einheitswurzeln das Programm dfunit.src. Dieses Programm behandelt nur die Fälle 2) Konstante, ohne Trend und 3) Konstante + Trend. ********************************************************************** *this program computes the distribution of the DICKEY-FULLER t-test *by monte carlo simulation *using t-statistics of the reg cof for the case of no constant *and the RATS program dfunit.src for the case of a constant *ku, mainz, dec.18th, 2003 *********************************************************************** end xxx *source(noecho) ’C:\Program Files\Estima\WinRATS 5.02\dfunit.src’ source(noecho) D:\utikal\teach\Ws03\rats\arima\unit roots\dfmod1.prg dec integer nsamp nsim compute nsam = 100 compute nsim = 1000 allo 100 seed 123 Zeitreihenanalyse@LS-Kneip 4–47 *simulate random walk, compute reg.cof, and write into file *repeat whithin a loop 1000 times. do draw = 1,nsim set x = %RAN(1) set x 2 nsam = x{1}+%RAN(1) diff x / difx set difx = difx{-1} linreg(noprint) difx #x disp %TSTATS *compare with dfunit.src provided by RATS for the case of an included constant, *note: dfmod1 is dfunit, modified to suppress print *and globalized the output variable ’tttest’ containing value of the t-test @dfmod1(lags=0,ttest) x disp tttest end do draw Zeitreihenanalyse@LS-Kneip 4–48 Anwendung: CPI (”consumer price index”), USA, viertel jaehrlich, 1. Quartal 1959 - 4. Quartal 2000 (168 Beobachtungen). log cpi 5.25 5.00 4.75 4.50 4.25 4.00 3.75 3.50 3.25 1959 1963 1967 1971 1975 1979 1983 1987 1991 1995 1999 1991 1995 1999 dif1log(cpi) 0.040 0.035 0.030 0.025 0.020 0.015 0.010 0.005 0.000 -0.005 1959 1963 1967 1971 Zeitreihenanalyse@LS-Kneip 1975 1979 1983 1987 4–49 dif2log(cpi) 0.015 0.010 0.005 0.000 -0.005 -0.010 -0.015 1959 1963 1967 1971 1975 1979 1983 1987 1991 1995 1999 Dickey Fuller Test mit Konstante und Trend zusatz lags log(cpi) dif1log(cpi) dif2log(cpi) 0 -0.49578 -3.71364 -16.35020 1 -1.29347 -2.93138 -14.42225 2 -1.64938 -2.07166 -7.89260 4 -1.74715 -2.47350 -6.06860 Resultat: Der CPI ist offensichtlich I(2). Zeitreihenanalyse@LS-Kneip 4–50 4.10 Mathematisch statistischer Anhang 4.10.1 Charakterisierung von eindimensionalen Verteilungen z.B.: Haushaltseinkommen in Deutschland, Renditen auf dem amerikanischen Aktienmarkt, Körpergröße japanischer Frauen, ... Verteilungsfunktion F von X: F (x) = P (X ≤ x) für jedes x ∈ R • diskrete Zufallsvariable: X nimmt nur abzählbar viele Werte x1 , x2 , x3 , . . . an Wahrscheinlichkeitsfunktion: P (X = xi ) = f (xi ) ∑ F (x) = fi xi ≤x • stetige Zufallsvariable: Es existiert eine Dichtefunktion f , so daß ∫x F (x) = f (x)dx −∞ Zeitreihenanalyse@LS-Kneip 4–51 Wahrscheinlichkeitsdichte: Z 1 f (x) 0; f (x)dx = 1: + 1 Verteilungsfunktion: F F (x) monoton wachsend ( 1) = 0 ; F 1) = 1 (+ : 1 Verteilungsfunktion 1 Dichtefunktion 0.8 0.6 F(x) f(x) 0.6 0.8 F(x) 0.4 0.4 f(x) 0.2 0.2 F(b) F(b) b 0 b -3 -2 -1 0 1 x Zeitreihenanalyse@LS-Kneip 2 3 -3 -2 -1 0 1 2 3 x 4–52 Wichtige Parameter einer stetigen Z.v. X • Mittelwert (Erwartungswert) ∫ ∞ µ = E(X) = xf (x)dx −∞ • Varianz ( ) 2 σ = V ar(X) = E (X − µ) = E(X 2 ) − µ2 2 • Erwartungswert einer transformierten Zufallsvariablen X → g(X) ∫ ∞ E(g(X)) = g(x)f (x)dx −∞ Schätzer auf der Grundlage einer einfachen Zufallsstichprobe X1 , . . . , Xn • Mittelwert: X̄ = • Varianz: S = 2 1 n 1 n−1 Zeitreihenanalyse@LS-Kneip ∑n i=1 ∑n Xi i=1 (Xi − X̄)2 4–53 Die Normalverteilung N (µ, σ 2 ) Viele statistische Verfahren basieren auf der Annahme, daß eine Z.v. X normalverteilt ist, d.h. X ∼ N (µ, σ 2 ) Wahrscheinlichkeitsdichte: f (x) = 2 2 √1 e−(x−µ) /2σ σ 2π für −∞ < x < ∞, σ > 0 • E(X) = µ, V ar(X) = σ 2 Standardisierte Normalverteilung N (0, 1) • X ∼ N (µ, σ 2 ) ⇒ Z= X−µ σ ∼ N (0, 1) • Standardisierte Dichtefunktion und Verteilungsfunktion ∫ z 2 1 ϕ(x) = √ e−x /2 , Φ(z) = ϕ(x)dx 2π −∞ • N (0, 1) ist tabelliert und P (X ≤ x) = P ( Zeitreihenanalyse@LS-Kneip X −µ x−µ x−µ ≤ ) = P (Z ≤ ) σ σ σ 4–54 f(x) 0.6 0.8 1 1.2 Dichtefunktion (Normalverteilung) N(2,1/3) 0.4 N(0,1) 0.2 N(2,1) N(2,2) -3 -2 -1 0 1 x 2 3 4 5 6 0 0.1 f(x) 0.2 0.3 0.4 Dichtefunktion (Standard-Normalverteilung N(0,1)) -4 -3 -2 -1 0 x 1 2 3 4 0 0.25 F(x) 0.5 0.75 1 Verteilungsfunktion (Standard-Normalverteilung N(0,1)) -4 -3 -2 -1 Zeitreihenanalyse@LS-Kneip 0 x 1 2 3 4 4–55 4.10.2 Gaußprozesse und die multivariate Normalverteilung • Ein n-dimensionaler Zufallsvektor ist ein Spaltenvektor X = (X1 , . . . , Xn )T , dessen einzelne Elemente alle Zufallsvariablen sind. Diskrete Zufallsvariable: X nimmt nur abzählbar viele Werte x1 , x2 , · · · ∈ IRn an: Wahrscheinlichkeitsfunktion: f (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn ) Stetige Zufallsvariable: Die gemeinsame Verteilung von X1 , . . . , Xn wird beschrieben durch eine multivariate Dichtefunktion: f (x1 , . . . , xn ) Eigenschaften von Dichtefunktionen: • f (x1 , . . . , xn ) ≥ 0 ∫∞ ∫∞ • −∞ . . . −∞ f (x1 , . . . , xn )dx1 . . . dxn = 1 • P (X ∈ [a1 , b1 ] × · · · × [an , bn ]) ∫ b1 ∫ bn = a1 . . . an f (x1 , . . . , xn )dx1 . . . dxn Zeitreihenanalyse@LS-Kneip 4–56 Unabhängigkeit: Die Zufallsvariablen X1 , . . . , Xn sind voneinander unabhängig, wenn für alle x = (x1 , . . . , xn )T gilt f (x1 , . . . , xn ) = f1 (x1 ) · f2 (x2 ) · . . . · fn (xn ) • Die obige Definition ist eine Formalisierung der intuitiven Idee, dass X1 , . . . , Xn unabhängig voneinander sind, wenn sie sich gegenseitig nicht beeinflussen. Kenntnis der Werte von Xi liefert keinerlei Informationen über Xj . • Beispiel aus der Zeitreihenanalyse: {ϵt } ∼ IID(µ, σ 2 ) ⇒ ϵ1 , . . . , ϵn sind voneinander unabhängig Zeitreihenanalyse@LS-Kneip 4–57 Dichte der zweidimensionalen Standardnormalverteilung: X1 ∼ N (0, 1), X2 ∼ N (0, 1), X1 unabhängig von X2 1 −x21 /2 −x22 /2 ⇒ f (x1 , x2 ) = e e 2π Zeitreihenanalyse@LS-Kneip 4–58 Die wichtigste multivariate Verteilung ist die sogenannte ”multivariate Normalverteilung”. Ein Zufallsvektor X = (X1 , . . . , Xn )T ist multivariat normalverteilt, falls folgende Bedingungen erfüllt sind: • Jede einzelne Variable ist normalverteilt, Xi ∼ N (µi , σi2 ), i = 1, . . . , n • Jede Linearkombination der Form Y = c1 X1 + c2 X2 + · · · + cn Xn = ist univariat normalverteilt ∑n ∑n Y ∼ N (c1 µ1 +· · ·+cn µn , i=1 j=1 cov(Xi , Xj )) Parameter der multivariaten Normalverteilung: Mittelwerte, Varianzen und Kovarianzen der einzelnen Variablen. Spezialfall: i.i.d. Gaußsches Weißes Rauschen: {Xt } ∼ IID(µ, σ 2 ) und Xt ∼ N (µ, σ 2 ) ⇒ X = (X1 , . . . , Xn )T multivariat normalverteilt mit Dichtefunktion: f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) . . . fn (xn ) n ∑ (xi − µ)2 1 n ) exp( ) = (√ 2 2σ 2πσ i=1 f (x1 , . . . , xn ) ≡ f (x1 , . . . , xn |µ, σ 2 ) hängt nur von den Werten von µ und σ 2 ab (alle Kovarianzen = 0) Zeitreihenanalyse@LS-Kneip 4–59 Im allgemeinen Fall werden alle Varianzen und Kovarianzen der einzelnen Variablen in der sogenannten Kovarianzmatrix zusammengefasst: var(X1 ) cov(X , X ) 2 1 · Σ := · · cov(X1 , X2 ) · · · var(X2 ) · · · cov(Xn , X1 ) cov(Xn , X2 ) · · · · · · cov(X1 , Xn ) cov(X2 , Xn ) · · · var(Xn ) Dichtefunktion der multivariaten Normalverteilung: f (x1 , . . . , xn ) = 1 (2π)n/2 |Σ|1/2 1 exp(− (x−µ)T Σ−1 (x−µ)) 2 mit x = (x1 , . . . , xn )T und µ = (µ1 , . . . , µn )T Wir schreiben dann kurz X = (X1 , . . . , Xn )T ∼ Nn (µ, Σ) Zeitreihenanalyse@LS-Kneip 4–60 Zeitreihenanalyse: Der Gaußprozess Zeitreihenanalyse: Ein stochastischer Prozess {Xt } heißt Normalprozess oder Gaußprozess, wenn für jede endliche Auswahl von Zeitpunkten t1 , t2 , . . . , tn die entsprechenden n-dimensionalen Zufallsvariablen Xt1 , . . . , Xtn multivariat normalverteilt sind. • Für einen Gaußprozess sind strenge und schwache Stationarität äquivalent. • Ist X1 , . . . , Xn der beobachtete Abschnitt eines stationären Gaußprozesses, so gilt X = (X1 , . . . , Xn )T ∼ Nn (µ, Γn ) • Die Parameter dieser multivariaten Normalverteilung sind der gemeinsame Mittelwert µ = E(X1 ) = · · · = E(Xn ) und die in der Matrix Γn zusammengefassten Werte der Autovarianzfunktion: γ(0) γ(1) · · · γ(n − 1) γ(1) γ(0) · · · γ(n − 2) Γn = .. .. .. . . . γ(n − 1) γ(n − 2) · · · Zeitreihenanalyse@LS-Kneip γ(0) 4–61 Bei der Analyse von ARMA-Prozessen {Xt } wird häufig zusätzlich angenommen, dass die Zeitreihe ein GaußProzess ist. • ARM A(p, q)-Prozess (mit Mittelwert µ): Xt − µ =ϕ1 (Xt−1 − µ) + · · · + ϕp (Xt−p − µ) + ϵt + θ1 ϵt−1 + · · · + θq ϵt−q Falls X1 , . . . , Xn multivariat normal sind, so erhält man die Dichtefunktion f (x1 , . . . , xn ) = 1 1 T −1 (x−µ) Γn (x−µ)) exp(− 2 (2π)n/2 |Γn |1/2 • Die Elemente der Autokovarianzmatrix Γn (= Werte von γ(h)) errechnen sich in Abhängigkeit von µ, ϕ1 , . . . , ϕp , θ1 , . . . , θp und σ 2 . Die Struktur der Dichtefunktion f (x1 , . . . , xn ) = f (x1 , . . . , xn |µ, ϕ, θ, σ 2 ) lässt sich daher aus den Koeffizienten des Prozesses berechnen. Zeitreihenanalyse@LS-Kneip 4–62 4.10.3 Maximum Likelihood-Schätzung Beispiel: Eine Firma besitze einen relativ großen Lagerbestand an Glühbirnen. Um sich einen Eindruck von dem Anteil defekter Glühbirnen zu verschaffen, wird eine Zufallsstichprobe von 5 Birnen gezogen. 3 davon sind defekt. Statistisches Modell: 1 • Zufallsvariable X = 0 falls Glühbirne defekt sonst X ∼ Bernoulli(p) p = P [X = 1] - Anteil der defekten Glühbirnen • Einfache Zufallsstichprobe X1 , . . . , X5 . Die beobachteten Werte sind x1 = 1, x2 = 0, x3 = 1, x4 = 1, x5 = 0 Problem: Schätzung des wahren Wertes von p? Idee der Maximum Likelihood-Schätzung: Man betrachtet alle möglichen Werte 0 ≤ p ≤ 1 und wählt dann denjenigen aus, der die beobachteten Daten am besten erklärt. Zeitreihenanalyse@LS-Kneip 4–63 Die Wahrscheinlichkeit, genau die beobachtete Stichprobe x1 , . . . , x5 zu ziehen, hängt von p ab: P [X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 , X5 = x5 |p] = P [X1 = x1 ] · P [X2 = x2 ] · P [X3 = x3 ] · P [X4 = x4 ] · P [X5 = x5 ] = p · (1 − p) · p · p · (1 − p) = p3 (1 − p)2 ⇒ Für alle p ∈ [0, 1]: Falls p der wahre Wert ist, so gilt L(p) = P [X1 = x1 , . . . , X5 = x5 |p] = p3 (1 − p)2 L(p) wird als Likelihoodfunktion“ bezeichnet. ” Für alle 0 ≤ p ≤ 1 gibt L(p) also die Wahrscheinlichkeit an, dass die beobachteten Werte x1 , . . . , x5 auftreten, falls der betrachtete Wert p gleich dem wahren Wert ist. Der Ansatz der Maximum LikelihoodSchätzung besteht nun darin, denjenigen Wert auszuwählen für den diese Wahrscheinlichkeit maximal ist. • p = 0 ⇒ L(p) = 0 ⇒ beobachtete Werte unmöglich! Zeitreihenanalyse@LS-Kneip 4–64 • p = 0, 1 ⇒ L(p) = 0, 13 · 0, 92 = 0, 00081 • p = 0, 2 ⇒ L(p) = 0, 23 · 0, 82 = 0, 00512 0.04 0.03 L(p) 0.02 0.01 0.00 0.0 0.2 0.4 0.6 0.8 1.0 p L(p) wird am Punkt p = 0.6 maximal ⇒ p̂ = 0.6 ist die Maximum Likelihood-Schätzung“ des unbe” kannten wahren Wertes von p. p̂ = 0.6 ist im Beispiel derjenige Wert von p ∈ [0, 1], für den die Wahrscheinlichkeit, dass gerade die beobachteten Werte x1 , . . . , x5 auftreten, maximal ist. Zeitreihenanalyse@LS-Kneip 4–65 Das Maximum Likelihood-Prinzip Das obige Beispiel liefert eine Illustration des Maximum Likelihood-Prinzip zur Konstruktion einer Schätzfunktion. Allgemein lässt sich dieses Prinzip folgendermaßen darstellen: Statistisches Modell: • n Zufallsvariablen X1 , . . . , Xn Die gemeinsame Verteilung der Xi hängt von einem Parameter(vektor) ϑ ab, dessen wahrer Wert unbekannt ist. • beobachtete (realisierte) Werte: x1 , . . . , xn Problem: Schätze ϑ 1. Schritt: Berechnen der Likelihoodfunktion L(ϑ) Die Likelihoodfunktion ergibt sich in Abhängigkeit von allen prinzipiell möglichen Werten von ϑ. Sie quantifiziert (bei diskreten Zufallsvariablen) die Wahrscheinlichkeit, dass gerade die beobachteten Werte x1 , . . . , xn auftreten, falls der wahre Wert des Parameter(vektors) mit dem betrachteten Wert ϑ übereinstimmt. Zeitreihenanalyse@LS-Kneip 4–66 • Diskrete Verteilung mit Wahrscheinlichkeitsfunktion f (x1 , . . . , xn ) ≡ f (x1 , . . . , xn |ϑ) L(ϑ) ≡ L(x1 , . . . , xn |ϑ) = P [X1 = x1 , . . . , Xn = xn |ϑ] = f (x1 , . . . , xn |ϑ) • Stetige Verteilung mit Dichtefunktion f L(ϑ) ≡ L(x1 , . . . , xn |ϑ) = f (x1 , . . . , xn |ϑ) 2. Schritt: Maximieren von L(ϑ) bezüglich allen prinzipiell möglichen Werten ϑ liefert die Maximum ” Likelihood-Schätzung“ ϑ̂ des wahren Parameterwertes, L(ϑ̂) = max L(ϑ) ϑ Schätzwert: ϑ̂ ⇔ arg max L(x1 , . . . , xn |ϑ) ϑ Schätzfunktion: ϑ̂ ⇔ arg max L(X1 , . . . , Xn |ϑ) ϑ Zeitreihenanalyse@LS-Kneip 4–67 Illustration: Maximum Likelihood-Schätzung des Mittelwerts µ von i.i.d. Gaußschem Weißen Rauschen mit bekannter Varianz σ 2 = 1 (n = 20) ( ) 2 L(µ) = f (x1 |µ) · · · f (x20 |µ); f (x|µ) = √12π exp − (x−µ) 2 µ = 2 ⇒ Likelihood L(2) klein: 0.4 0.3 f(xi| 2) 0.2 0.1 0.0 -2 -1 0 1 2 3 4 3 4 x µ = 1 ⇒ Likelihood L(1) > L(2) 0.4 0.3 f(xi| 1) 0.2 0.1 0.0 -2 -1 0 1 2 x Maximale Likelihood für µ = x̄ = −0.29 ⇒ µ̂ = −0.29 0.4 0.3 f(xi|-0.29) 0.2 0.1 0.0 -2 -1 0 1 2 3 4 x Zeitreihenanalyse@LS-Kneip 4–68 Anwendung: Maximum Likelihood-Schätzung eines Anteilswertes • X1 , . . . , Xn unabhängig und identisch verteilt; Xi ∼ Bernoulli(p); zu schätzen: wahrer Anteilswert p • beobachtet: s = n ∑ xi mal 1“ und n − s mal 0“ ” ” i=1 • Damit ergibt sich L(p) = P [X1 = x1 ] · · · P [X2 = x2 ] . . . P [Xn = xn ] = ps (1 − p)n−s • Maximum-Likelihood: p̂ maximiert L(p) • Eine Lösung des Maximierungsproblems ergibt sich durch Ableiten und Nullsetzen: ∂L(p) = sps−1 (1 − p)n−s − ps (n − s)(1 − p)n−s−1 ∂p ⇒ 0 = sp̂s−1 (1 − p̂)n−s − p̂s (n − s)(1 − p̂)n−s−1 ∑n s i=1 xi ⇒ p̂ = = = x̄ n n • Berechnung der zweiten Ableitung: L(p) nimmt an der Stelle p̂ ein Maximum an. ⇒ p̂ = X̄ ist Maximum Likelihood-Schätzer des Anteilswertes Zeitreihenanalyse@LS-Kneip 4–69 Logarithmierte Likelihood Vorgehen zur Bestimmung einer Maximum LikelihoodSchätzung: Ableiten von L(ϑ) und anschließendes Nullsetzen. Problem: Oft unfreundliche“ Ausdrücke ” Ausweg: Vereinfachung der Berechnungen durch Verwendung der Log-Likelihoodfunktion“ ln L(ϑ) ” • ϑ̂ maximiert L(ϑ) ↔ ϑ̂ maximiert ln L(ϑ) Ansatz zur Berechnung von ϑ̂: 1. Differenzieren: l(ϑ) = ∂ ln L(ϑ) ∂ϑ 2. Nullsetzen: ϑ̂ Lösung von l(ϑ̂) = 0 3. Verifikation, dass ϑ̂ wirklich ein Maximum ist Achtung: Ist ϑ = (ϑ1 , . . . , ϑk )′ eine Parametervektor, so beinhaltet dies die Berechnung aller k partiellen Ableitungen und eine anschließende Lösung des (evtl nichtlinearen) Gleichungssystems l(ϑ̂) = 0. Zeitreihenanalyse@LS-Kneip 4–70 Anwendung: Maximum Likelihood-Schätzung des Mittelwerts von Gaußschem Weißen Rauschen • Sei {Xt } ∼ IID(µ, σ 2 ) mit Xt ∼ N (µ, σ 2 ); σ 2 bekannt zu schätzen: wahrer Mittelwert µ • n beobachtete Werte der Zeitreihe: x1 , . . . , xn • Likelihoodfunktion: L(µ) = f (x1 |µ) · · · f (xn |µ) n ∑ (xi − µ)2 1 n = (√ ) exp( ) 2 2σ 2πσ i=1 • Log-Likelihoodfunktion: ∑ (xi − µ)2 1 ln L(µ) = n · ln √ + − 2σ 2 2πσ i=1 n • Ableitung nach µ: ∂ ln L(µ) ∑ (xi − µ) l(µ) = = − 2 ∂µ σ i=1 n Zeitreihenanalyse@LS-Kneip 4–71 • Berechnung von µ̂: 0 = l(µ̂) = n ∑ − i=1 ⇒0= n ∑ (xi − µ) = i=1 ∑n ⇒ µ̂ = i=1 n xi − µ σ2 n ∑ xi − nµ i=1 xi = x̄ Anmerkung: Durch analoge Rechnungen ergibt sich bei unbekannter Varianz 1∑ 2 s̃ = (xi − x̄)2 n i=1 n als Maximum Likelihood-Schätzung von σ 2 Zeitreihenanalyse@LS-Kneip 4–72 4.10.4 Schätzer und ihre Verteilungen Sei X ∼ N (µ, σ 2 ) Einfache Zufallsstichprobe: X1 , . . . , Xn Dann gilt: σ2 X̄ ∼ N (µ, ) n ⇒ Konfidenzintervall zum Niveau 1 − α für µ bei bekannten σ σ µ ∈ [X̄ ± z1−α/2 √ ] n z1−α/2 - 1 − α/2-Quantil der Standardnormalverteilung; z0.975 = 1.96 √ n(X̄ − µ) ∼ Tn−1 S Tn−1 - Studentsche t-Verteilung mit n − 1 Freiheitsgraden ⇒ Konfidenzintervall für µ bei unbekannter Varianz S µ ∈ [X̄ ± t1−α/2;n−1 √ ] n Zeitreihenanalyse@LS-Kneip 4–73 S2 (n − 1) 2 ∼ χ2n−1 σ χ2n−1 - χ2 Verteilung mit n − 1 Freiheitsgraden Zentraler Grenzwertsatz Seien X1 , . . . , Xn unabhängig und identisch verteilte Zufallsvariablen mit E(Xi ) = µ und V ar(Xi ) = σ 2 > 0. • Die Folge von Zufallsvariablen ∑n ( ) √ Xi − nµ X̄ − µ √ Zn = i=1 = n σ nσ 2 konvergiert mit steigendem n gegen die standardisierte Normalverteilung N (0, 1) • Für genügend großes n sind die Beziehungen X̄ ∼ √ 2 S2 2 N (µ, σn ), n(X̄−µ) ∼ T , (n − 1) ∼ χ 2 n−1 n−1 S σ approximativ erfüllt. Zeitreihenanalyse@LS-Kneip 4–74 4.10.5 Statistische Testverfahren Beispiel: t-Test Einfache Zufallsstichprobe: X1 , . . . , Xn unabhängig und identisch N (µ, σ 2 ) verteilt. • Einseitiger Test Nullhypothese H0 : : µ = µ0 Alternative H1 : µ > µ0 • Zweiseitiger Test Nullhypothese H0 : µ = µ0 Alternative H1 : µ ̸= µ0 Statististischer Test: Verfahren zur Entscheidung zwischen H0 und H1 auf der Grundlage der beobachteten Daten Fehler 1. Art: H0 wird abgelehnt, obwohl H0 richtig ist Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist Signifikanztest zum Niveau α (z.B. α = 5%) P ( Fehler 1. Art ) ≤ α Zeitreihenanalyse@LS-Kneip 4–75 Teststatistik des t-Tests: √ n(X̄ − µ0 ) T = S Test zum Niveau α • Einseitiger Test: Ablehnung von H0 , falls Tbeobachtet ≥ tn−1;1−α • Zweiseitiger Test: Ablehnung von H0 , falls |Tbeobachtet | ≥ tn−1;1−α/2 Der p-Wert (Überschreitungswahrscheinlichkeit): • Einseitiger Test: p-Wert = P (Tn−1 ≥ Tbeobachtet ) • Zweiseitiger Test: p-Wert = P (|Tn−1 | ≥ |Tbeobachtet |) Zeitreihenanalyse@LS-Kneip 4–76 Allgemein: p-Wert = Wahrscheinlichkeit, unter H0 den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten. Interpretation: • ”Glaubwürdigkeit” von H0 : H0 ist wenig glaubwürdig, falls der p-Wert sehr klein ist • Der in einer konkreten Anwendung berechnete pWert hängt von dem beobachteten Datensatz ab. Er liefert Informationen über die Resultate der zugehörigen Signifikanztests zu den verschiedenen Niveaus α : α > p-Wert ⇒ Ablehnung von H0 α < p-Wert ⇒ Beibehaltung von H0 In der Praxis: • Test ”signifikant”, falls p-Wert < 0.05 (d.h. ein Test zum Niveau 5% führt zur Ablehnung von H0 ) • Häufig: Test ”schwach ”signifikant, falls 0.05 > p-Wert > 0.01 (d.h. ein Test zum Niveau 5% führt zur Ablehnung von H0 ; ein Test zum Niveau 1% führt dagegen zur Beibehaltung von H0 ) Zeitreihenanalyse@LS-Kneip 4–77 Beispiel: Daten: X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 = 16.50, X5 = 18.90, n = 5. ⇒ X̄ = 18.1 Testproblem: H0 : µ = 17 gegen H1 : µ ̸= 17 √ 5(18.1 − 17) Tbeobachtet = = 2.187 1.125 ⇒ p-Wert = P (|Tn−1 | ≥ 2.187) = 0.094 Tests zu verschiedenen Niveaus α: α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von H0 α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von H0 α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187 ⇒ Ablehnung von H0 α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von H0 α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von H0 Zeitreihenanalyse@LS-Kneip 4–78