4 Modellierung und Prognose mit ARMA, ARIMA und SA

Werbung
4
Modellierung und Prognose
mit ARMA, ARIMA und SARIMA Modellen
Ein Problem von großer praktischer Bedeutung ist
natürlich die Schätzung der unbekannten Parameter
eines ARM A(p, q) Prozesses (mit Mittelwert µ)
Xt − µ − ϕ1 (Xt−1 − µ) − · · · − ϕp (Xt−p − µ)
= ϵt + θ1 ϵt−1 + · · · + θq ϵt−q
mit {ϵt } ∼ W N (0, σ 2 ) aus einer gegebenen Zeitreihe X1 , . . . , Xn der Länge n. In einem ersten Schritt
wird natürlich µ durch den empirischen Mittelwert X̄
ersetzt.
• In den nachfolgenden Abschnitten wird jeweils vorausgesetzt, dass die dort behandelten Schätzmethoden auf die zentrierte, durch den Mittelwert
korrigierte Zeitreihe X̃t = Xt − X̄ angewandt werden. X̄ schätzt den wahren Mittelwert µ. Der Schätzfehler |X̄ − µ| spielt für die meisten Zwecke im
Vergleich zu anderen Ungenauigkeiten keine Rolle.
Zeitreihenanalyse@LS-Kneip
4–1
4.1
Kleinste-Quadrate Methoden
In der Literatur wurden zahlreiche z.B. auf KleinsteQuadrate Methoden basierende Algorithmen vorgeschlagen, die es erlauben, auf relativ einfache Weise approximative Lösungen zu bestimmen. Bei relativ kurzen Zeitreihen liefern ML Verfahren (siehe Abschnitt 4.2) i.a. bessere Schätzer als andere Methoden.
4.1.1
AR(p)-Modell
Sei {Xt } ein AR(p) Prozess. Für den zentrierten Prozess ergibt sich dann
X̃t = ϕ1 X̃t−1 + · · · + ϕp X̃t−p + ϵt
mit ϵt ∼ W N (0, σ 2 ). Eine Modellanpassung erfordert
die Schätzung der unbekannten Parameter ϕ1 , . . . , ϕp .
Für die Modelldiagnose, Parametertests und Konfidenzintervall ist es weiterhin unumgänglich, auch die
Varianz σ 2 der Zufallsschocks ϵt zu schätzen.
Kleinste-Quadrate Schätzer: Bestimme Schätzungen ϕ̂1 , . . . , ϕ̂p der wahren Koeffizienten durch Minimieren von
n
n
(
)2
(
)2
∑
∑
X̃t − X̂t =
X̃t − ϕ1 X̃t−1 − · · · − ϕp X̃t−p
t=p+1
t=p+1
Zeitreihenanalyse@LS-Kneip
4–2
über alle möglichen Werte von ϕ1 , . . . , ϕp . Die resultierenden Kleinste-Quadrate Schätzer ϕ̂1 , . . . , ϕ̂p werden auch als ”Regressionsschätzer” von ϕ1 , . . . , ϕp bezeichnet. Sie ergeben sich als Lösung der Normalgleichungen

 ∑
n
X̃ X̃
t=p+1 t t−1 


..




.


n

 ∑
X̃t X̃t−p
t=p+1

n
∑
2
X̃t−1
 t=p+1

..

=
.

n
 ∑
X̃t−p X̃t−1
t=p+1
···

n
∑
X̃t−1 X̃t−p
t=p+1
...
n
∑
..
.
t=p+1
2
X̃t−p


 ϕ̂1
 
  .. 
 . 
 

ϕ̂p
Die Kleinste-Quadrate Schätzer sind für großes n approximativ äquivalent zu den in Kapitel 3 vorgestellten Yule-Walker Schätzern ϕ̂∗1 , . . . , ϕ̂∗p . Diese ergeben
sich als Lösungen des Gleichungssystems

 
 
ρ̂(1)
1
ρ̂(1)
. . . ρ̂(p − 1)
ϕ̂∗1

 
 

 
 
1
. . . ρ̂(p − 2) ϕ̂∗2 
ρ̂(2)  ρ̂(1)

 
 
..
..
..
 ..  = 
  .. 
 .  
 . 
.
.
.

 
 
ρ̂(p)
ρ̂(p − 1) ρ̂(p − 2) . . .
1
ϕ̂∗p
Zeitreihenanalyse@LS-Kneip
4–3
Dieses Gleichungssystem lässt sich auch in der Form

 
 
γ̂(1)
γ̂(0)
γ̂(1)
. . . γ̂(p − 1)
ϕ̂∗1

 
 

 
 
γ̂(0)
. . . γ̂(p − 2) ϕ̂∗2 
γ̂(2)  γ̂(1)

=
 
.
.
.
.
 .  
  .. 
.
.
.
 .  
 . 
.
.
.

 
 
γ̂(p − 1) γ̂(p − 2) . . .
γ̂(p)
γ̂(0)
ϕ̂∗p
schreiben. Für große n und 0 ≤ h, j ≤ p gilt dann
n−|h−j|
n
∑
∑
1
1
X̃t−h X̃t−j ≈ n
X̃t X̃t+|h−j| = γ̂(h − l),
n
t=p+1
t=1
und die Normalgleichungen entsprechen (approximativ) den Yule-Walker Gleichungen.
Es lässt sich weiterhin zeigen, dass die Yule-Walker
Schätzer ebenso wie die Kleinste-Quadrate Schätzer
asymptotisch äquivalent zu den in Abschnitt 4.2 vorgestellten Maximum-Likelihood Schätzern für die Parameter ϕj sind.
Schätzer für σ 2 : Es gilt
γ(0) = E((X̃t )2 )
= ϕ1 E(X̃t X̃t−1 ) + · · · + ϕp E(X̃t X̃t−p ) + E(X̃t ϵt )
= ϕ1 γ(1) + · · · + ϕp γ(p) + σ 2
⇒
σ 2 = γ0 − ϕ1 γ(1) − · · · − ϕp γ(p)
Zeitreihenanalyse@LS-Kneip
4–4
Ersetzt man γ durch die empirische Autokovarianzfunktion, erhält man den Schätzer
σ̂ 2 = γ̂0 − ϕ1 γ̂(1) − · · · − ϕp γ̂(p)
4.1.2
ARM A(p, q)-Modell
Sei {Xt } ein AR(p) Prozess. Für den zentrierten Prozess ergibt sich dann
X̃t − ϕ1 X̃t−1 − · · · − ϕp X̃t−p
= ϵt + θ1 ϵt−1 + · · · + θq ϵt−q
Die Hauptschwierigkeit bei der Behandlung dieser Modelle besteht in der Tatsache, dass die Werte ϵt , ϵt−1 , . . .
nicht beobachtbar sind. Man beachte jedoch, dass
ϵt = X̃t −
p
∑
s=1
|
ϕs X̃t−s −
{z
q
∑
s=1
θs ϵt−s ,
}
X̂wahr,t
wobei sich X̂wahr,t aus vergangenen Werten X̃t−1 , X̃t−2 , . . .
und ϵt−1 , ϵt−2 , . . . der Zeitreihe und der Innovationen
berechnen lässt.
Die allgemeine Idee der verschiedenen Kleinste-Quadrate Methoden zur Schätzung der Parameter ϕj , θk
Zeitreihenanalyse@LS-Kneip
4–5
von ARM A(p.q) Modellen lässt sich nun folgendermaßen beschreiben:
• Die unbekannten Zufallsschocks ϵt werden durch
Schätzwerte (Residuen)
ϵ̂t = X̃t − X̂t
ersetzt, wobei X̂t eine Prognose von X̃t aus den
Zeireihenwerten in vorangegangenen Perioden t −
1, t − 2, . . . ist.
• Schätzungen ϕ̂j und θ̂k werden durch minimieren
von
)2
∑(
X̃t − X̂t
t
=
∑
(
X̃t −
t
p
∑
s=1
ϕs X̃t−s −
q
∑
)2
θs ϵ̂t−s
s=1
bestimmt.
Die einzelnen Verfahren unterscheiden sich im Wesentlichen nur durch die Art und Weise der Berechnung
von ϵ̂t . Man beachte, dass die Werte von X̂t ≡ X̂t (ϕ, θ)
bzw. ϵ̂t = Xt − X̂t (ϕ, θ) selbst wiederum von den jeweiligen Parameterwerten abhängen. Im Allgemeinen
erhält man daher ein nichtlineares Minimierungsproblem, das sich nur iterativ lösen lässt.
Zeitreihenanalyse@LS-Kneip
4–6
Der bedingte Kleinste-Quadrate Ansatz. Man
setzt X̂t = 0 für t ≤ 1 und
ϵ̂1 = X1 − X̂1 = X1
ϵ̂2 = X2 − ϕ1 X1 − θ1 ϵ̂1
|
{z
}
X̂2
..
.
ϵ̂t = X̃t −
p
∑
ϕs X̃t−s −
s=1
|
{z
q
∑
θs ϵ̂t−s
s=1
}
X̂t
Das unbedingte Kleinste Quadrate Verfahren führt
auf Schätzer, die asymptotisch mit den MaximumLikelihood Schätzern übereinstimmen (siehe 4.2).
Der Hannen-Rissanen Algorithmus: Zur Bestimmung der X̂t ϵ̂t wird ein AR(m) Modell mit m >
max{p, q} an die Daten angpasst ⇒ Yule-Walker Schätzer
ϕ̂1 , . . . , ϕ̂m der zugehörigen Parameter. Die resultierenden Residuen
ϵ̂t = X̃t − X̂t = X̃t −
m
∑
ϕ̂s Xt−s
s=1
dienen sodann als Schätzungen der Zufallsschocks.
Zeitreihenanalyse@LS-Kneip
4–7
4.2
Maximum-Likelihood
Der Maximum-Likelihood Ansatz beruht auf der Zusatzannahme, dass {Xt } ein streng stationärer Gaußprozess ist. Die Zufallsvaraiblen X̃1 , . . . , X̃n sind dann
multivariat normalverteilt.
Anmerkung: Die Grundidee der Maximum-Likelihood
Schätzung lässt sich folgendermaßen darstellen (Details siehe Abschnitt 4.10.3):
• Aufstellen einer ”Likelihoodfunktion” L(ϕ, θ, σ 2 )
in Abhängigkeit von den unbekannten Koeffizienten ϕ = (ϕ1 , . . . , ϕp ), θ = (θ1 , . . . , θq ) und σ 2 =
var(ϵt ).
• Bei diskreten Zufallsvariablen quantifiziert die Likelihoodfunktion die Wahrscheinlichkeit, dass gerade die tatsächlich beobachteten Werte x̃1 , . . . , x̃n
auftreten, falls die wahre Werte der Koeffizienten
mit den jeweils betrachteten Werten übereinstimmen. Bei stetigen (z.B. normalverteilten) Verteilung ist L(ϕ, θ, σ) gleich dem jeweiligen Wert der
Dichtefunktion.
• Die Maximum-Likelihood Schätzungen σ̂ 2 , ϕ̂ und
θ̂ maximieren L(ϕ, θ, σ 2 ) über alle möglichen Werte von σ 2 , ϕ, θ.
Zeitreihenanalyse@LS-Kneip
4–8
• Die Maximum-Likelihood Schätzung bestimmt daher diejenigen Koeffizienten, für die die tatsächlich
beobachteten Daten x̃1 , . . . , x̃n am ”plausiblesten”
sind (höchstmögliche Wahrscheinlichkeit bzw. größtmöglicher Dichtewert).
Für einen Gaußprozess lässt sich für alle möglichen
Werte von σ 2 , ϕ, θ die zugehörige Likelihoodfunktion
aus den Formeln für die Dichte der multivariaten Normalverteilung berechnen (siehe Abschnitt 4.10.2).
Nach einigen (komplizierten!) Rechnungen kann man
zeigen, dass sich die Maximum-Likelihood Schätzung
folgendermaßen darstellen lassen:
Zeitreihenanalyse@LS-Kneip
4–9
ϕ̂ = (ϕ̂1 , . . . , ϕ̂p ), θ̂ = (θ̂1 , . . . , θ̂q ) minimieren
1 ∑ (X̃t − X̂t )2
1∑
l(ϕ, θ) = ln(
)+
ln rt−1
n t=1
rt−1
n t=1
n
n
bezüglich allen möglichen Werten von σ 2 , ϕ, θ und
1 ∑ (X̃t − X̂t )2
2
σ̂ =
,
n t=1
rt−1
n
wobei
* X̂t - bestmöglicher Prognosewert von X̃t (in Abhängigkeit von σ 2 , ϕ, θ) aus den vergangenen Werten der
Zeitreihe: Für t ≥ max{p, q} gilt
X̂t =
p
∑
ϕs X̃t−s +
s=1
q
∑
θt−1,s (X̃t−s − X̂t−s )
{z
}
|
s=1
ϵ̂t−s
* Die jeweiligen Werte von θt,s und rt ≡ rt (ϕ, θ, σ 2 )
ergeben sich für t = 1, 2, . . . rekursiv aus dem sogenannten Innovations-Algorithmus (die Formeln
sind in dem Buch von Brockwell und Davis zu
finden).
* Ist t merklich größer al max{p, q}, so gilt approximativ: θt,s = θs und rt = 1.
Zeitreihenanalyse@LS-Kneip
4–10
Anmerkung: Es gilt
−2 ln L(ϕ̂, θ̂, σ̂ 2 ) = l(ϕ̂, θ̂) (+Konstante)
Ein großes Problem der Maximum-Likelihood Schätzung
(ML) ist natürlich die praktische Berechnung der
Koeffizienten. Es gibt i.Allg. keine Möglichkeit, exakte Lösungen in einer geschlossenen analytischen Form
darzutellen. In allen modernen statistischen Programmpaketen sind jedoch Optimierungsverfahren (iterative
Algorithmen) implementiert, die es erlauben, die ML
Schätzungen numerisch zu berechnen.
Es existiert ein enger Zusammenhang zwischen den
im vorigen Abschnitt betrachteten Kleinste-Quadrate
Schätzern und dem Maximum-Likelihood Ansatz:
• Für t ≫ max p, q gilt θt,s ≈ θs , rt ≈ 1 und daher
X̂t ≈
p
∑
ϕs X̃t−s +
s=1
sowie
1
n
∑n
t=1
q
∑
θs (X̃t−s − X̂t−s )
{z
}
|
s=1
ϵ̂t−s
ln rt−1 → 0 für n → ∞.
Für eine lange Zeitreihe ist der Einfluss der Anfangswerte vernachlässigbar, und Minimieren von
Zeitreihenanalyse@LS-Kneip
4–11
l(ϕ, θ) ist daher asymptotisch äquivalent zum Minimieren von
n
∑
(X̃t − X̂t )2
t=1
ML Schätzer und die genannten Kleinste-Quadrate
Schätzer stimmen daher asymptotisch (approximativ) überein.
• Ein Unterschied besteht jedoch bei relativ kurzen
Zeitreihen (n klein im Vergleich zu p und q). ML
führt auf diejenigen Parameterwerte, die auf der
Grundlage eines optimalen Prognose-Algorithmus
den kleinsten quadratischen Abstand zwischen X̃t
und X̂t liefern. Bei kurzen Zeitreihen liefert MaximumLikelihood i. Allg. genauere Schätzungen als einfache Kleinste-Quadrate Methoden.
• Das Vorgehen des Maximum-Likelihood Ansatzes
ist auch dann sinnvoll, wenn {Xt } kein streng
stationärer Gaußprozess ist. Es lässt sich zeigen,
dass auch unter den meisten anderen Verteilungsannahmen die aus dem oben beschrieben ML Verfahren resultierenden Schätzer asymptotsch effizient sind. Ausnahmen sind z.B. Verteilungen mit
”langen Enden” (→ Ausreißer!).
Zeitreihenanalyse@LS-Kneip
4–12
4.3
Inferenz
Die Eigenschaften von ML Schätzern für ARMA Modelle lassen sich aus der allgemeinen Theorie von
Maximum-Likelihood Schätzern ableiten. Es lässt
sich zeigen, dass für einen Gaußprozess unter schwachen Bedingungen folgendes gilt:
• Die ML Schätzer ϕ̂j , θ̂k von sind asymptotisch
effiziente Schätzer von ϕj , θk . Für großes n gilt
für einen beliebigen alternative Schätzer ϕ̂∗
E((ϕ̂j − ϕj )2 ) ≤ E((ϕ̂∗j − ϕj )
j = 1, . . . , p (analog für θ)
• Die ML Schätzer ϕ̂j , θ̂k sind konsistente Schätzer
der unbekannten Parameter. Die Verteilung der
Schätzwerte ist asymptotisch normal. Für großes
n gilt approximativ
ϕ̂j ∼ Np (ϕj , vj2 /n)
θ̂k ∼ Nq (θk , vj∗2 /n)
Die Werte vj2 bzw. vk∗2 in den Varianztermen vj2 /n
bzw. vk∗2 /n hängen selbst wiederum von den wahren Werten der Koeffizienten ab. Einsetzen der
Zeitreihenanalyse@LS-Kneip
4–13
Schätzwerte erlaubt eine konsistente Approximation.
• In statistischen Programmpaketen wird zusätzlich
zu den Schätzwerten ϕ̂j und θ̂k auch Approxima√
√
∗
tionen v̂j / n und v̂k / n der zugehörigen Standardfehler angegeben.
• Von großer praktischer Bedeutung sind Tests der
Nullhypothesen H0 : ϕj = 0 bzw. H0 : θk =
0. Zum Testen wird jeweils die sogenannte ”tStatistik” verwandt:
t=
ϕ̂j
√
v̂j / n
bzw
t=
θ̂k
√
∗
v̂k / n
Unter H0 ist t asymptotisch N (0, 1) verteilt (einige Programmpakete benützen auch Approximationen durch t-Verteilungen). Die Programmpakete berechnen sodann den zugehörigen p-Wert (”pvalue”, ”significance level”).
Interpretation:
– p-Wert< 0, 05 ⇒ Koeffizient signifikant; ein Test
zum Niveau α = 5% lehnt die Nullhypothese ab.
– p-Wert< 0, 01 ⇒ Koeffizient hochsignifikant; ein
Test zum Niveau α = 1% lehnt die Nullhypothese
ab.
Zeitreihenanalyse@LS-Kneip
4–14
• Bei ARMA Modellen höherer Dimension (p und/oder
q groß) kommt es häufig vor, dass einige Parameter ϕj und/oder θk nicht signifikant sind, und
daher für die wahren Werte möglicherweise ϕj =
0 und/oder θk = 0 gilt. Zur Vereinfachung des
Modells werden solche nichtsignifikanten ”Lags”
häufig aus dem Modell entfernt. Das so reduzierte Modell wird dann neu an die Daten angepasst,
indem man l(ϕ, θ) unter den Nebenbedingungen
ϕj = 0, θk = 0 über die verbleibenden Parameter
minimiert (”constrained Likelihood”).
• Bei der Elimination nichtsignifikanter Lags muss
sehr sorgfältig vorgegangen werden. Die Elimination eines bestimmten Lags aus dem Modell kann
zu veränderten Schätzwerten und Signifikanzen bei
anderen Lags führen. Existieren mehrere nichtsignifikante Lags, so ist ein schrittweises Vorgehen
notwendig, bei dem die betreffenden Lags eines
nach dem anderen aus dem Modell entfernt werden. In jedem Schritt sind die in Abschnitt 4.5
beschriebenen Diagnoseverfahren anzuwenden um
sicherzustellen, das das reduzierte Modell eine genauso gute oder bessere Modellanpassung liefert
wie das Originalmodell.
Zeitreihenanalyse@LS-Kneip
4–15
4.4
Prognoseverfahren
In Kapitel 3.5 wurde bereits ein ”optimales” Prognoseverfahren beschrieben, das jedoch die Kenntnis der
wahren Parameterwerte voraussetzt. In der Praxis werden diese durch die geschätzten Parameterwerte approximiert. Zum Beispiel:
Ein-Schritt Prognose (h = 1) eines ARM A(p, q)Prozesses
X̂n+1 =X̄ + ϕ1 X̃n + . . . ϕp X̃n+1−p
+ θn,1 (X̃n − X̂n ) + · · · + θn,q (X̃n−q − X̂n−q )
Geschätztes“ 95% Prognoseintervall:
”
[X̂n+1 ± 1.96σ̂]
Der Schätzfehler bei der Berechnung von Prädiktionsintervallen in erster Ordnung vernachlässigbar.
Zeitreihenanalyse@LS-Kneip
4–16
4.5
Modelldiagnose
Ein wichtiger Schritt bei der Anpassung eines Zeitreihenmodells ist die nachfolgende Modellvalidierung. In
der Praxis wird bei der Modellbildung oft so vorgegangen, dass zunächst aus der Struktur von ACF und
PACF eine Reihe von möglichen Modellen ausgwählt
wird. Jeder dieser ”Modellkandidaten” wird dann mit
den besprochenen Techniken an die Daten angepasst
(Schätzung der Parameter). Mit Hilfe von Diagnosetechniken wird sodann das am besten passende Modell
ausgwählt.
Es gibt eine ganze Reihe verschiedener Diagnosetechniken, die in erster Linie auf die nach Elimination von
Trend und Saisonfigur erhaltene stationäre Zeitreihe
abzielen. Eine oft angewandte Möglichkeit ist z.B. der
Vergleich der empirischen ACF und PACF mit den aus
dem Modell folgenden theoretischen Werten. Für eine
sinnvolle Interpretation ist es wichtig, den Schätzfehler zu quantifizieren und auf die in Kapitel 3 besprochenen Verfahren zur Konstruktion von Konfidenzintervallen zurückzugreifen.
Von noch größerer praktischer Bedeutung sind jedoch
Verfahren der Residualanalyse und die Verwendung
von Selektionskriterien wie Akaikes AIC.
Zeitreihenanalyse@LS-Kneip
4–17
4.5.1
Residualanalyse
Die Grundidee der Residualanalyse beruht auf der einfachen Beobachtung, dass sichfür ein korrektes ARM A(p, q)
Modell die Zeitreihe der Residuen
ϵt = X̃t −
p
∑
s=1
|
ϕs X̃t−s −
{z
q
∑
s=1
θs ϵt−s
}
X̂wahr,t
als Weißes Rauschen darstellen lassen muss.
Da die wahren Residuen natürlich nicht bekannt sind,
stützt man sich in der Praxis auf die geschätzten Residuen
ϵ̂t = X̃t − X̂t
wie sie auch bei der Schätzung benutzt werden.
Anmerkung: Um Residuen mit gleicher Varianz auch für
kleines t zu erhalten, werden von manchmal die reskalierten Residuen ϵ̃t =
ϵ̂t
1/2
σ̂rt
vorgezogen.
Bei einem korrekt spezifizierten ARMA-Modell sollte
die Zeitreihe der {ϵ̂t } (bzw. {ϵ̃t } einer Realisierung von Weißem Rauschen ähneln.
Zeitreihenanalyse@LS-Kneip
4–18
• In einem ersten Schritt der Residualanalyse wird
die jeweilige Struktur der Autokorrelationsfunktion und der partiellen Autokorrelationsfunktion
überprüft. Da die {ϵ̂t } für ein korrektes Modell approximativ Weißes Rauschen sind, sollten ungfähr
95% aller Werte von ρ̂(h) innerhalb der Schranken
√
±1.96/ n liegen.
• Eine weitere Überprüfung der Hypothese, dass die
{ϵt } approximativ Weißes Rauschen sind kann sodann mit Hilfe von Tests auf Weißes Rauschen
geschehen.
– Durbin-Watson Statistik
∑n−1
(ϵ̂t+1 − ϵ̂t )2
t=1∑
d=
n
2
t=1 ϵ̂t
Falls {ϵ̂t } approximativ Weißes Rauschen, so
sollte der Wert von d nahe 2 sein. Die in Kapitel 2 angegebene Verteilung unter der Nullhypothese gilt jedoch nur für die ”wahren” Innovationen ϵt und überträgt sich nicht auf die
Residuen ϵ̂t . In der Praxis werden daher Signifikanztests i.Allg. mit Hilfe des Durbin-Watson
h-Tests durchgeführt, der auf einer modifizier-
Zeitreihenanalyse@LS-Kneip
4–19
ten Teststatistik beruht
√
h = (1 − 0, 5 · d)
n
1 − nv̂ 2
Unter H0 folgt d asymptotisch einer Standardnormalverteilung.
– Ljung-Box-Test: Für ein vorgegebenes H basiert dieser Test auf der Statistik
H
∑
ρ̂(h)2
Q = n(n + 2)
n−h
h=1
Für großes n gilt q ∼ χ2H . Die Hypothese, dass
{ϵ̂t } approximativ Weißes Rauschen ist, wird
abgelehnt, falls Q zu groß ist.
Es handelt sich hier um eine Modifikation des
in Kapitel 2 vorgestellten Portmanteau Tests.
– Es existieren weiterhin Verfahren, die auf dem
Ansatz beruhen, dass die geschätzten ρ̂(h) bei
Weißem Rauschen für verschiedene Werte von
h voneinander unkorreliert sind, und daher eine genügend große Zahl von Vorzeichenwechseln aufweisen sollten (Turning points, Difference Sign Test, etc.).
Zeitreihenanalyse@LS-Kneip
4–20
4.5.2
Gütekriterien
Es gibt eine Reihe von wichtigen Kriterien zur Beurteilung der Modellanpassung. RATS verwendet folgende
Maßzahlen:
• Centered R2 :
• Adjusted R :
2
• Uncentered R2 :
R2 = 1 −
R̄ = 1 −
2
∑n
(X̃t −X̂t )2
t=1
∑n
2
t=1 X̃t
∑n
X̃t −X̂t )2 /(n−p−q−1)
t=1 (∑
n
2
t=1 X̃ /(n−1)
2
Runcentered
=
∑n
(Xt −X̂t )2
t=1
1− ∑n X 2
t
t=1
Es gilt 0 ≤ R2 ≤ 1. Falls R2 groß ist, z.B. R2 > 0, 8,
so folgt, dass sich die aus dem Modell berechneten
Prognosewerte X̂t im Mittel über alle Perioden nicht
sehr stark von den zentrierten Zeitreihenwerten X̃t unterscheiden. Schlecht spezifizierte, inkorrekte ARMA
Modelle werden tendenziell einen eher niedrigen Wert
von R2 liefern.
Ein Grundproblem besteht natürlich in der Wahl der
Ordnungen p und q eines geeigneten ARM A(p, q)Modells. Für diesen Zweck ist R2 keine geeignete Maßzahl, da eine Erhöhung von p oder q notwendigerweise zu einem höheren Wert von R2 führt. Mehr
Information liefert hier der ”Adjusted R2 ”, der die
Zeitreihenanalyse@LS-Kneip
4–21
Anzahl der im Modell geschätzten Parameter berücksichtigt.
In der Praxis werden jedoch spezifische Selektionskriterien wie Akaikes Informationskriterium (AIC) oder
das Schwartz-Kriterium (SBC) vorgezogen. Sie dienen
dazu, aus einer Reihe von ”Kandidatenmodellen” das
beste auszuwählen.
• Die Grundidee der Parameterschätzung mit der
Maximum-Likelihood Methode überträgt sich sofort auf den Vergleich verschiedener Modelle. Man
betrachtet den Wert der Likelihoodfunktion für
die verschiedenen ”Kandidatenmodelle” und wählt
tendenziell dasjenige aus, bei dem die Likelihood
so groß wie möglich wird. Häufig wird statt der
eigentlichen Likelihoodfunktion der resultierende
Wert von
−2 ln L(ϕ̂, θ̂, σ̂) = l(ϕ̂, θ̂) (+Konstante)
betrachtet mit ϕ̂ = (ϕ̂1 , . . . , ϕ̂p )′ , θ̂ = (θ̂1 , . . . , θ̂q )′ .
Ein gutes Modell sollte dann auf einen möglichst
kleinen Wert führen.
• Beim Vergleich von Modellen ist jedoch eine zusätzliche Schwierigkeit zu beachten. Ein ARM A(p, q)
ist natürlich ein spezielles ARM A(p + 1, q + 1)
Zeitreihenanalyse@LS-Kneip
4–22
Modell mit ϕp+1 = θq+1 = 0. Selbst wenn das
ARM A(p, q) richtig ist, werden für MaximumLikelihood Schätzungen zufallsbedingt i.Allg. π̂p+1 ̸=
0 bzw. θ̂q+1 ̸= 0 gelten, und notwendigerweise
−2 lnL(ϕ̂1 , . . . , ϕ̂p , ϕ̂p+1 , θ̂1 , . . . , θ̂q , θ̂q+1 , σ̂)
< −2 ln L(ϕ̂1 , . . . , ϕ̂p , θ̂1 , . . . , θ̂p , σ̂)
Die Selektionskriterien kompensieren diesen Effekt durch Einführung eines Strafterms“ der um”
so größer wird, je höher die Ordnungen p bzw. q
des Prozesses sind. AIC und SBC unterscheiden
sich nur durch die Größe des Strafterms.
(
)
AIC = −2 log L(Xn |ϕ̂, θ̂, σ̂) + 2(p + q + 1)
(
)
SBC = −2 log L(Xn |ϕ̂, θ̂, σ̂) + (p + q + 1) · ln n
Vergleicht man mehrere verschiedene Modelle, so wird
man tendenziell dasjenige auswählen, das den kleinsten AIC (SBC) Wert besitzt.
Zeitreihenanalyse@LS-Kneip
4–23
4.6
Beispiel: Australischer Rotwein
logged red wine data
8.00
7.75
7.50
7.25
7.00
6.75
6.50
6.25
6.00
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1990
1991
logged red wine data, difference at lag 1
0.54
0.36
0.18
-0.00
-0.18
-0.36
-0.54
-0.72
-0.90
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
logged red wine data, diff at lag1, sdifference at lag 1
0.50
0.25
0.00
-0.25
-0.50
1981
1982
1983
Zeitreihenanalyse@LS-Kneip
1984
1985
1986
1987
1988
1989
1990
1991
4–24
ACF, diff at lag=1
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
10
15
20
25
30
35
ACF, diff at lag=1, sdiff at lag=1
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
10
15
20
25
30
35
PACF, diff at lag=1, sdiff at lag=1
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
Zeitreihenanalyse@LS-Kneip
10
15
4–25
Australischer Rotwein: Monatlich verkaufte Mengen
(in Kilolitern) von australischem Rotwein von Januar
1980 bis Oktober 1991. Wir betrachten die Zeitreihe
der logaritmierten Mengen.
Die Zeitreihe besitzt sowohl einen Trend als auch eine saisonale Komponente. Trend und Saison werden
durch Differenzenbildung eliminiert:
Xt∗ = ∆Xt = Xt − Xt−1
∗
Yt = (1 − L12 )Xt∗ = Xt∗ − Xt−12
Es wird davon ausgegangen, dass die resultierenden
Zeitreihe Yt von Differenzen stationär ist und durch
ein geeignetes ARMA-Modell beschrieben werden kann.
Betrachtete ”Kandidatenmodelle”:
• M A(1): Yt = µ + ϵt + θϵt−1
• M A(13): Yt = µ + ϵt + θ1 ϵt−1 + · · · + θ13 ϵt−13
Zeitreihenanalyse@LS-Kneip
4–26
1) Schätzergebnisse für ein M A(1)-Modell
Yt = µ + ϵt + θϵt−1
Box-Jenkins - Estimation by Gauss-Newton
Convergence in 14 Iterations.
Final criterion was 0.0000042 < 0.0000100
Dependent Variable LOGX
Monthly Data From 1981:02 To 1991:10
Usable Observations 129
Degr. of Freedom 128
Centered R**2 0.843547
R Bar **2 0.843547
Uncentered R**2 0.999623
T x R**2 128.951
Mean of Dependent Variable
7.2739434755
Std Error of Dependent Variable
0.3588303010
Standard Error of Estimate
0.1419323284
Sum of Squared Residuals
2.5785325864
Durbin-Watson Statistic
1.731259
Q(32-1)
72.643285
Significance Level of Q
0.00003413
Variable
Coeff
Std Error
T-Stat
Signif
MA1
-0.7601
0.0579
-13.1329
0.00000
Zeitreihenanalyse@LS-Kneip
4–27
1) Schätzergebnisse für ein M A(13)-Modell
Yt = µ + ϵt + θ1 ϵt−1 + · · · + θ13 ϵt−13
Box-Jenkins - Estimation by Gauss-Newton
Convergence in 23 Iterations.
Final criterion was 0.0000094 < 0.0000100
Dependent Variable LOGX
Monthly Data From 1981:02 To 1991:10
Usable Observations 129
Degr. of Freedom 128
Centered R**2 0.909793
R Bar **2 0.900461
Uncentered R**2 0.999783
T x R**2 128.972
Mean of Dependent Variable
7.2739434755
Std Error of Dependent Variable
0.3588303010
Standard Error of Estimate
0.1132100098
Sum of Squared Residuals
1.4867147317
Durbin-Watson Statistic
1.891331
Q(32-1)
13.319504
Significance Level of Q
0.82182052
AIC
77.15738
SBC
114.33494
Zeitreihenanalyse@LS-Kneip
4–28
Variable
Coeff
Std Error
T-Stat
Signif
MA1
-0.7350
0.0824
-8.9178
0.0000
MA2
0.0390
0.0904
0.43122
0.6671
MA3
-0.1364
0.08978
-1.5194
0.1313
MA4
0.0396
0.0909
0.4362
0.6635
MA5
0.2038
0.0912
2.2359
0.0273
MA6
-0.3133
0.0916
-3.4207
0.0008
MA7
0.1147
0.0959
1.1957
0.2343
MA8
0.1858
0.0941
1.9739
0.0508
MA9
-0.1232
0.0941
-1.3104
0.1926
MA10
0.1018
0.0948
1.0744
0.2849
MA11
-0.1568
0.0951
-1.6475
0.1021
MA12
-0.6784
0.09612
-7.0541
0.0000
MA13
0.4943
0.0885
5.5872
0.0000
Schrittweise Eliminierung von nicht signifikanten θ̂j
führt auf das Modell
Yt = µ + ϵt + θ1 ϵt−1 + θ2 ϵt−12 + θ3 ϵt−13
Für dieses Modell ergeben sich folgende Schätzergebnisse:
Zeitreihenanalyse@LS-Kneip
4–29
Box-Jenkins - Estimation by Gauss-Newton
Convergence in 17 Iterations.
Final criterion was 0.0000069 < 0.0000100
Dependent Variable LOGX
Monthly Data From 1981:02 To 1991:10
Usable Observations 129
Degr. of Freedom 126
Centered R**2 0.895993
R Bar **2 0.894342
Uncentered R**2 0.999749
T x R**2 128.968
Mean of Dependent Variable
7.2739434755
Std Error of Dependent Variable
0.3588303010
Standard Error of Estimate
0.1166380547
Sum of Squared Residuals
1.7141589111
Durbin-Watson Statistic
1.899511
Q(32-1)
22.004764
Significance Level of Q
0.81999213
AIC
75.52101
SBC
84.10044
Variable
Coeff
Std Error
T-Stat
Signif
MA1
-0.7732
0.0575
-13.455
0.0000
MA12
-0.7314
0.0704
-10.3852
0.0000
MA13
0.5323
0.0839
0 6.3451
0.0000
Zeitreihenanalyse@LS-Kneip
4–30
ACF ma=1
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
10
15
20
ACF ma=13(full) diff=1,sdiff=1
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
10
15
20
PACF
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
Zeitreihenanalyse@LS-Kneip
10
15
4–31
ACF, ma=1,12,13
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
10
15
20
PACF
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
Zeitreihenanalyse@LS-Kneip
10
15
4–32
4.7
ARIMA Modelle
ARMA Prozesse modellieren stationäre Zeitreihe. Wie
jedoch schon in Kapitel 2 diskutiert, besitzen in der
Realität viele Zeitreihen einen Trend. Die Grundidee
der Box-Jenkins Modellierungsphilosophie besteht in
der Trendelimination durch Differenzenbildung. Im Rahmen dieses Ansatzes werden bei der Modellbildung solange die jeweils sinnvollen Differenzenoperatoren angewendet, bis der Output als stationär anzusehen ist.
Allgemein nennt man eine Zeireihe {Xt } ”integriert
von der Ordnung d”, wenn seine d-fachen Differenzen ∆d Xt = (1 − L)d Xt ein stationärer Prozess sind.
Man schreibt Xt ∼ I(d).
Definition: Sei d ≥ 0. Eine Zeitreihe Xt ∼ I(d)
wird als ARIM A(p, d, q) Prozess bezeichnet (Autoregressive Integrated Moving Average Prozess), falls
Yt := (1 − L)d Xt
ein kausaler ARM A(p, q) Prozess (mit Mittelwert
µ ) ist.
Y
Falls µY = 0, lässt sich ein ARIM A(p, d, q) Prozess
abgekürzt in folgender Form darstellen:
ϕ(L)(1 − L)d Xt = θ(L)ϵt ,
Zeitreihenanalyse@LS-Kneip
ϵt ∼ W N (0, σ 2 )
4–33
Beispiele:
• Der in Kapitel 2 eingeführte Random Walk
Xt = Xt−1 + ϵt
ist ein ARIM A(0, 1, 0) Prozess.
• Ein Beispiel für einen ARIM A(0, 1, 1) Prozess ist
das lineare Trendmodell
Xt = β 0 + β 1 t + ϵ t
Einfache Differenzenbildung führt auf das (nicht
invertierbare!) M A(1) Modell (mit Mittelwert β1 =
µY )
Yt = (1 − L)Xt = β1 + ϵt − ϵt−1
(1−L)2 Xt liefert ein (nicht invertierbares) M A(2)
Modell mit Mittelwert 0. Xt lässt sich also auch
als ARIM A(0, 2, 2) Modell schreiben
• Ein lineares Trendmodell der Form
Xt = β0 + β1 t + ϵt + θϵt−1
lässt sich als ARIM A(0, 1, 2) Modell auffassen,
denn nach Differenzenbildung erhält man das M A(2)
Modell
Yt = (1 − L)Xt = β1 + ϵt + (θ − 1)ϵt−1 − θϵt−2
Zeitreihenanalyse@LS-Kneip
4–34
Behandlung von ARIMA Modellen
• Differenzenbildung und Berechnung von
Yt = (1 − L)d Xt
• Anpassung eines geeigneten ARMA Modells
an die Zeitreihe {Yt }. Dies beinhaltet Parameterschätzung, Modelldiagnose und Modellselektion.
• Die Prognose zukünftiger Werte Yn+1 , Yn+2 , . . .
erfolgt auf der Grundlage der in den Abschnitten
3.5 und 4.4 vorgestellten Prognoseverfahren.
• Eine Prognose zukünftiger Werte Xn+1 , Xn+2 , . . .
der Originalzeitreihe erfolgt über eine Umkehrung der Differenzenbildung. Ist d = 1, so gilt
Xt+1 = Yt+1 + Xt für jede Periode t. Allgemein:
Xt+1
 
d
  (−1)j Xt+1−j
= Yt+1 −
j
j=1
d
∑
⇒ Ein-Schritt Prognose
Xn+1
 
d
∑
d
 (−1)j Xn+1−j

= Yn+1 −
j
j=1
Prognoseintervalle errechnen sich aus den Prognoseintervallen für Yn+1 .
Zeitreihenanalyse@LS-Kneip
4–35
4.8
SARIMA Modelle
SARIMA Modelle beinhalten einen Differenzenfilter,
der auf Elimination der Saisonfigur abzielt. Man betrachtet also Zeitreihen, die zusätzlich zu einem eventuellen Trend eine Saisonfigur der Periodizität s besitzen (z.B. s = 4 bei Quartalsdaten, s = 12 für monatliche Daten).
Definition: Eine Zeitreihe {Xt } wird als
SARIM A(p, d, q) × (P, D, Q)s Prozess (saisonaler
ARIMA Prozess mit Periode s) bezeichnet, falls
Yt = (1 − L)d (1 − Ls )D Xt
ein kausaler ARMA Prozess (mit Mittelwert µY ) der
Form
ϕ(L)Φ(Ls )(Yt − µY ) = θ(L)Θ(Ls )ϵt ,
ϵt ∼ W N (0, σ 2 ), ist, wobei
ϕ(L) = 1 − ϕ1 L − · · · − ϕp Lp
Φ(Ls ) = 1 − Φ1 Ls − · · · − ΦP LP s
θ(L) = 1 + θ1 L + · · · + θq Lq
Θ(Ls ) = 1 + Θ1 Ls + · · · + ΘQ LQs
Zeitreihenanalyse@LS-Kneip
4–36
In der Praxis ist D fast immer 1, P und Q sind in den
meisten Fällen sehr klein. Typischerweise ist s = 12
für monatliche Daten, s = 4 für Quartalsdaten, etc.
• Man betrachte eine Zeitreihe {Xt } von monatlichen Daten, die eine Saisonkomponente der Periodizität s = 12 aufweise. Saisonelimination durch
Differenzenbildung führt auf
Yt = (1 − L12 )Xt = Xt − Xt−12
Wenn sich nun {Yt } als kausaler ARM A(p, q) Prozess modellieren lässt, so ist {Xt } ein
SARIM A(p, 0, q) × (0, 1, 0)12 Prozess.
• In manchen Anwendungen reicht die Saisonelimination durch Differenzenbildung jedoch nicht aus,
um eine stationäre Zeitreihe zu erhalten. Beispielsweise kann
Yt∗ = (1 − L12 )Xt = Xt − Xt−12
noch einen Trend besitzen. Man betrachtet dann
∗
Yt = (1 − L)(1 − L12 )Xt = Yt∗ − Yt−1
= Xt − Xt−1 − Xt−12 + Xt−13
Wenn nun {Yt } ein kausaler ARM A(p, q) Prozess ist, so lässt sich die Originalzeitreihe {Xt }
Zeitreihenanalyse@LS-Kneip
4–37
als SARIM A(p, 1, q)×(0, 1, 0)12 Prozess beschreiben.
Die Einführung der zusätzlichen“ Ordnungen P und
”
Q in der Definition eines SARIMA Modell ist dadurch
motiviert, dass in der Praxis die Lags t−s, t−2s, etc.,
häufig eine Sonderrolle einnehmen. Dies sieht man sehr
einfach bei der Betrachtung deterministischer Komponentenmodelle.
• Eine Zeitreihe von Quartalsdaten besitze eine konstante Saisonfigur der Periodizität s = 4 und lasse
sich durch das einfache Komponentenmodell
Xt = β0 + β1 t + St + ϵt
mit St+4 = St für alle t, {ϵt } ∼ W N (0, σ 2 ), beschreiben. Saisonelimination durch Differenzenbildung führt auf
Yt = (1 − L4 )Xt = 4β1 + ϵt − ϵt−4
{Yt } ist kausal (aber nicht invertierbar) und µY =
4β1 .
Zeitreihenanalyse@LS-Kneip
4–38
– Yt lässt sich als spezieller M A(4) Prozess
Yt = µY + ϵt + θ1 ϵt−1 + θ2 ϵt−2 + θ3 ϵt−3 + θ4 ϵt−4
mit θ1 = θ2 = θ3 = 0 und θ4 = −1 auffassen. {Xt }
ist folglich als SARIM A(0, 0, 4)×(0, 1, 0)4 Prozess
beschreibar.
Diese Modellierung von {Xt } ist jedoch unökono”
misch“, da sie in keiner Weise berücksichtigt, dass
θ1 = θ2 = θ3 = 0.
– Eine sinnvollere Modellierung von {Xt } im Rahmen des SARIMA Ansatzes besteht in einer Berschreibung der Zeitreihe als
SARIM A(0, 0, 0) × (0, 1, 1)4 Prozess.
Mit Θ1 = −1 gilt
Yt − µY = ϵt + Θ1 ϵt−4 = Θ(L4 )ϵt
• Als weiteres Beispiel betrachte man
Xt = β0 + β1 t + St + ϵt + θϵt−1
{Xt } ist ein
SARIM A(0, 0, 1) × (0, 1, 1)4 Prozess.
mit Θ1 = −1 und θ1 = θ.
Zeitreihenanalyse@LS-Kneip
4–39
Behandlung von SARIMA Modellen
• Differenzenbildung und Berechnung von
Yt = (1 − L)d (1 − Ls )D Xt
• Anpassung eines geeigneten ARMA Modells
an die Zeitreihe {Yt }. Dies beinhaltet Parameterschätzung, Modelldiagnose und Modellselektion.
• Die Prognose zukünftiger Werte Yn+1 , Yn+2 , . . .
erfolgt auf der Grundlage der in den Abschnitten
3.5 und 4.4 vorgestellten Prognoseverfahren.
• Eine Prognose zukünftiger Werte Xn+1 , Xn+2 , . . .
der Originalzeitreihe erfolgt über eine Umkehrung der Differenzenbildung.
Zeitreihenanalyse@LS-Kneip
4–40
4.9
Tests auf Einheitswurzeln
(Unit-Root Tests)
In der Praxis ist es oft von großer Bedeutung zu entscheiden, ob ein Prozesss stationär ist oder einen Trend
besitzt. Neben der Verwendung von Diagnosewerkzeugen (wie ACF, PACF) gibt es Tests, die bei dieser
Entscheidung eine Hilfestellung geben können. Von
besonderer Bedeutung sind die Dickey-Fuller Tests.
Sie beruhen auf der Annahme eines autoregressiven
Prozesses und testen die Hypothese, dass der zugrundeliegenden Prozess eine Einheitswurzel (”uni-root”)
besitzt und daher nicht stationär ist.
Es gibt eine ganze Reihe von verschiedenen DickeyFuller Tests, die sich in den jeweils zugrundeliegenden
Annahmen über die stochastische Struktur der Zeitreihe unterscheiden. Fehlspezifikationen können zu verzerrten Resultaten führen.
1) Einfacher AR(1)-Prozess (keine Konstante, kein
det. Trend)
Xt = ϕXt−1 + ϵt
t = 1, . . . , n. Die zu testende Nullhypothese lautet
H0 : ϕ = 1
d.h., Xt ist ein Random Walk
Zeitreihenanalyse@LS-Kneip
4–41
Mit einem statistischen Programmpaket (z.B: RATS)
lassen sich der Kleinste-Quadrate Schätzer ϕ̂ und eine Approximation v̂ des zugehörigen Standardfehlers
berechnen. Als Teststatistiken werden nun
ϕ̂
t=
v̂
oder t∗ = n · ρ̂(1)
verwendent. Im ersten Fall spricht das RATS Manual von der ”t-Test-Form”, im zweiten Fall von der
”Test-statistic” des Dickey-Fuller Tests.
Das Problem besteht nun darin, dass unter der Nullhypothese H0 : ϕ = 1 die Verteilung von t eine sogenannte Dickey-Fuller Verteilung ist, die nicht durch eine Normalverteilung (bzw. t-Verteilung) approximiert
werden kann. Krtische Werte der Dickey-Fuller Verteilung sind tabelliert; sie können jedoch auch mittels
Monte-Carlo Simulationen berechnet werden.
2) AR(1)-Prozess mit Konstante
Xt = δ + ϕXt−1 + ϵt
Man benutzt die gleichen Test wie bei einem einfachen
AR(1)-Prozess. Die Verteilung von t = ϕ̂v̂ unter der
Nullhypothese verändert sich jedoch durch die Einbeziehung der Konstante δ.
Zeitreihenanalyse@LS-Kneip
4–42
3) AR(1)-Prozess, Konstante und deterministischer
Trend.
Xt = δ + ϕXt−1 + γt + ϵt
Statistische Programmpakete (z.B. RATS) liefern KleinsteQuadrate Schätzer ϕ̂ und γ̂ und die zugehörigen Standardfehler v̂ϕ und v̂γ .
Unter H0 : ϕ = 1 besitzt t = ϕ̂/v̂ϕ wiederum eine Dickey-Fuller Verteilung (dies sich jedoch von den
Verteilungen für einen einfachen AR(1)-Prozess ohne
bzw. mit Konstante unterscheidet).
Statistische Interpretation:
• Annahme von H0 : ϕ = 1 ⇒ stochastischer Trend
+ ev. deterministischer Trend.
• Ablehnung von H0 : ϕ = 1 ⇒ |ϕ| < 1 ⇒ kein
stochastischer Trend, aber eventuell ein deterministischer Trend, falls sich γ̂ signifikant von Null
unterscheidet (die Verteilung von t = γ̂/v̂γ lässt
sich asymptotisch (n groß) durch eine Normalverteilung (bzw. t-Verteilung) approximieren).
– Annahme von H0 : γ = 0: Zeitreihe Xt bereits
stationär
– Ablehnung von H0 : γ = 0: Existenz eines deterministischen Trends; Trendbereinigung durch
Zeitreihenanalyse@LS-Kneip
4–43
Regression und anschließenden Analyse der trendbereinigten Zeitreihe
4) Erweiterter Dickey-Fuller Test: Beim erweiterten
Dickey-Fuller Test wird die stochastische Struktur der
Zeitreihe durch einen AR(p)-Prozess, p > 1, modelliert.
Beispiel: AR(2)
Xt = ϕ1 Xt−1 + ϕ2 Xt−2 + ϵt
oder ∆Xt = (ϕ1 − 1) Xt−1 + ϕ2 Xt−2 +ϵt
=⇒ ∆Xt = (ϕ1 + ϕ2 − 1) Xt−1 − ϕ2 ∆Xt−1 + εt
|
{z
}
π
Man kann zeigen dass die Existenz einer Einheits Wurzel
(Nicht-Stationarität) aequivalent ist zu
H0 : π = ϕ 1 + ϕ 2 − 1 = 0
Man berechnet nun den Kleinste-Quadrate Schätzer π̂
und den zugehörigen Standardfehler v̂π . Als Teststatistik dient t = π̂/v̂π . Unter H0 besitzt t eine DickeyFuller Verteilung.
Verallgemeinerung: AR(p)-Prozess
∆Xt = π Xt−1 − ϕ2 ∆Xt−1 − · · · − ϕp ∆Xt−p+1 + ϵt
Zeitreihenanalyse@LS-Kneip
4–44
mit π = ϕ1 + · · · + ϕp − 1. Als Teststatistik dient
wiederum t = π̂/v̂π .
Natürlich kann auch beim erweiterten Dickey-Fuller
Test entsprechend dem in den Fällen 2) und 3) besprochenen Vorgehen, dem Modell eine Konstante δ
bzw. ein deterministischer Trend hinzugefügt werden.
Allgemeines Vorgehen: Fuer Prozesse, die nicht AR(p)
sind, wählt man p so hoch dass ϵt = Xt −ϕ1 Xt−1 −· · ·−
ϕp Xt−p eine gute Approximation an weisses Rauschen
ergibt (dies ist notwendige Annahme fuer die Gültigkeit der asymptotischen Verteilung nach Dickey-Fuller).
Bei zu vielen Lags verliert der Test an Macht. Häufig
wird das AIC-Kriterium zur Bestimmung der Anzahl
der Lags benutzt.
Verteilung unter H0
Quantile der Verteilungen der Test-Statistiken unter
H0 findet man in Tafeln. Die folgende Tabelle stammt
aus Fuller, 1976, p. 373 und gilt für die Statistik in
t-Test-Form. Für weitere Tafeln siehe Tabelle B6 in
dem Buch von Hamilton.
Zeitreihenanalyse@LS-Kneip
4–45
no constant,
constant,
constant,
no trend
no trend
trend
1%
5%
1%
5%
1%
5%
n=25
-2.66
-1.95
-3.75
-3.00
-4.83
-3.60
n=50
-2.62
-1.95
-3.58
-2.93
-4.15
-3.50
n=100
-2.60
-1.95
-3.51
-2.89
-4.04
-3.45
n=250
-2.58
-1.95
-3.46
-2.88
-3.99
-3.43
n=500
-2.58
-1.95
-3.44
-2.87
-3.98
-3.42
n=∞
-2.58
-1.95
-3.43
–2.86
-3.96
-3.41
Wir gewinnen einen Eindruck der Verteilung durch
Monte Carlo Simulation (siehe unten). Dies haben wir
auf 1000 simulierten Random Walks der Laenge 100
durchgefuehrt. Die Verteilung wird aus den so erhaltenen 1000 t−Statistiken approximiert und stimmt gut
mit den von Dickey-Fuller bestimmten Quantilen überein .
0.45
0.5
0.40
0.4
0.35
0.30
0.3
0.25
0.20
0.2
0.15
0.10
0.1
0.05
0.00
0.0
-3.2
-2.4
-1.6
-0.8
-0.0
0.8
1.6
2.4
t-test, H0 , keine Konstante
Zeitreihenanalyse@LS-Kneip
-3.6
-2.4
-1.2
0.0
1.2
t-test, H0 , Konstante
4–46
Die Verteilungen gelten approximativ auch im erweiterten Fall, d.h. bei Einbeziehung zusätzlicher Lags.
RATS liefert zur Berechnung verschiedener Tests auf
Einheitswurzeln das Programm dfunit.src. Dieses Programm behandelt nur die Fälle 2) Konstante, ohne
Trend und 3) Konstante + Trend.
**********************************************************************
*this program computes the distribution of the DICKEY-FULLER t-test
*by monte carlo simulation
*using t-statistics of the reg cof for the case of no constant
*and the RATS program dfunit.src for the case of a constant
*ku, mainz, dec.18th, 2003
***********************************************************************
end xxx
*source(noecho) ’C:\Program Files\Estima\WinRATS 5.02\dfunit.src’
source(noecho) D:\utikal\teach\Ws03\rats\arima\unit roots\dfmod1.prg
dec integer nsamp nsim
compute nsam = 100
compute nsim = 1000
allo 100
seed 123
Zeitreihenanalyse@LS-Kneip
4–47
*simulate random walk, compute reg.cof, and write into file
*repeat whithin a loop 1000 times.
do draw = 1,nsim
set x = %RAN(1)
set x 2 nsam = x{1}+%RAN(1)
diff x / difx
set difx = difx{-1}
linreg(noprint) difx
#x
disp %TSTATS
*compare with dfunit.src provided by RATS for the case of an included
constant,
*note: dfmod1 is dfunit, modified to suppress print
*and globalized the output variable ’tttest’ containing value of the t-test
@dfmod1(lags=0,ttest) x
disp tttest
end do draw
Zeitreihenanalyse@LS-Kneip
4–48
Anwendung: CPI
(”consumer price index”), USA, viertel jaehrlich, 1.
Quartal 1959 - 4. Quartal 2000 (168 Beobachtungen).
log cpi
5.25
5.00
4.75
4.50
4.25
4.00
3.75
3.50
3.25
1959
1963
1967
1971
1975
1979
1983
1987
1991
1995
1999
1991
1995
1999
dif1log(cpi)
0.040
0.035
0.030
0.025
0.020
0.015
0.010
0.005
0.000
-0.005
1959
1963
1967
1971
Zeitreihenanalyse@LS-Kneip
1975
1979
1983
1987
4–49
dif2log(cpi)
0.015
0.010
0.005
0.000
-0.005
-0.010
-0.015
1959
1963
1967
1971
1975
1979
1983
1987
1991
1995
1999
Dickey Fuller Test mit Konstante und Trend
zusatz lags
log(cpi)
dif1log(cpi)
dif2log(cpi)
0
-0.49578
-3.71364
-16.35020
1
-1.29347
-2.93138
-14.42225
2
-1.64938
-2.07166
-7.89260
4
-1.74715
-2.47350
-6.06860
Resultat: Der CPI ist offensichtlich I(2).
Zeitreihenanalyse@LS-Kneip
4–50
4.10
Mathematisch statistischer
Anhang
4.10.1
Charakterisierung von
eindimensionalen Verteilungen
z.B.: Haushaltseinkommen in Deutschland, Renditen auf
dem amerikanischen Aktienmarkt, Körpergröße japanischer
Frauen, ...
Verteilungsfunktion F von X:
F (x) = P (X ≤ x) für jedes x ∈ R
• diskrete Zufallsvariable: X nimmt nur abzählbar
viele Werte x1 , x2 , x3 , . . . an
Wahrscheinlichkeitsfunktion: P (X = xi ) = f (xi )
∑
F (x) =
fi
xi ≤x
• stetige Zufallsvariable: Es existiert eine Dichtefunktion f , so daß
∫x
F (x) =
f (x)dx
−∞
Zeitreihenanalyse@LS-Kneip
4–51
Wahrscheinlichkeitsdichte:
Z 1
f (x)
0;
f (x)dx = 1:
+
1
Verteilungsfunktion:
F
F
(x) monoton wachsend
(
1) = 0
;
F
1) = 1
(+
:
1
Verteilungsfunktion
1
Dichtefunktion
0.8
0.6
F(x)
f(x)
0.6
0.8
F(x)
0.4
0.4
f(x)
0.2
0.2
F(b)
F(b)
b
0
b
-3
-2
-1
0
1
x
Zeitreihenanalyse@LS-Kneip
2
3
-3
-2
-1
0
1
2
3
x
4–52
Wichtige Parameter einer stetigen Z.v. X
• Mittelwert (Erwartungswert)
∫ ∞
µ = E(X) =
xf (x)dx
−∞
• Varianz
(
)
2
σ = V ar(X) = E (X − µ) = E(X 2 ) − µ2
2
• Erwartungswert einer transformierten Zufallsvariablen X → g(X)
∫ ∞
E(g(X)) =
g(x)f (x)dx
−∞
Schätzer auf der Grundlage einer einfachen Zufallsstichprobe X1 , . . . , Xn
• Mittelwert: X̄ =
• Varianz: S =
2
1
n
1
n−1
Zeitreihenanalyse@LS-Kneip
∑n
i=1
∑n
Xi
i=1 (Xi
− X̄)2
4–53
Die Normalverteilung N (µ, σ 2 )
Viele statistische Verfahren basieren auf der Annahme, daß eine Z.v. X normalverteilt ist, d.h. X ∼ N (µ, σ 2 )
Wahrscheinlichkeitsdichte:
f (x) =
2
2
√1 e−(x−µ) /2σ
σ 2π
für −∞ < x < ∞, σ > 0
• E(X) = µ, V ar(X) = σ 2
Standardisierte Normalverteilung N (0, 1)
• X ∼ N (µ, σ 2 )
⇒
Z=
X−µ
σ
∼ N (0, 1)
• Standardisierte Dichtefunktion und Verteilungsfunktion
∫ z
2
1
ϕ(x) = √ e−x /2 , Φ(z) =
ϕ(x)dx
2π
−∞
• N (0, 1) ist tabelliert und
P (X ≤ x) = P (
Zeitreihenanalyse@LS-Kneip
X −µ
x−µ
x−µ
≤
) = P (Z ≤
)
σ
σ
σ
4–54
f(x)
0.6
0.8
1
1.2
Dichtefunktion (Normalverteilung)
N(2,1/3)
0.4
N(0,1)
0.2
N(2,1)
N(2,2)
-3
-2
-1
0
1
x
2
3
4
5
6
0
0.1
f(x)
0.2
0.3
0.4
Dichtefunktion (Standard-Normalverteilung N(0,1))
-4
-3
-2
-1
0
x
1
2
3
4
0
0.25
F(x)
0.5
0.75
1
Verteilungsfunktion (Standard-Normalverteilung N(0,1))
-4
-3
-2
-1
Zeitreihenanalyse@LS-Kneip
0
x
1
2
3
4
4–55
4.10.2
Gaußprozesse und die multivariate
Normalverteilung
• Ein n-dimensionaler Zufallsvektor ist ein Spaltenvektor X = (X1 , . . . , Xn )T , dessen einzelne Elemente alle Zufallsvariablen sind.
Diskrete Zufallsvariable: X nimmt nur abzählbar
viele Werte x1 , x2 , · · · ∈ IRn an:
Wahrscheinlichkeitsfunktion:
f (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn )
Stetige Zufallsvariable: Die gemeinsame Verteilung von
X1 , . . . , Xn wird beschrieben durch eine multivariate
Dichtefunktion: f (x1 , . . . , xn )
Eigenschaften von Dichtefunktionen:
• f (x1 , . . . , xn ) ≥ 0
∫∞
∫∞
• −∞ . . . −∞ f (x1 , . . . , xn )dx1 . . . dxn = 1
•
P (X ∈ [a1 , b1 ] × · · · × [an , bn ])
∫ b1
∫ bn
= a1 . . . an f (x1 , . . . , xn )dx1 . . . dxn
Zeitreihenanalyse@LS-Kneip
4–56
Unabhängigkeit:
Die Zufallsvariablen X1 , . . . , Xn sind voneinander
unabhängig, wenn für alle x = (x1 , . . . , xn )T gilt
f (x1 , . . . , xn ) = f1 (x1 ) · f2 (x2 ) · . . . · fn (xn )
• Die obige Definition ist eine Formalisierung der
intuitiven Idee, dass X1 , . . . , Xn unabhängig voneinander sind, wenn sie sich gegenseitig nicht beeinflussen. Kenntnis der Werte von Xi liefert keinerlei Informationen über Xj .
• Beispiel aus der Zeitreihenanalyse: {ϵt } ∼ IID(µ, σ 2 )
⇒ ϵ1 , . . . , ϵn sind voneinander unabhängig
Zeitreihenanalyse@LS-Kneip
4–57
Dichte der zweidimensionalen Standardnormalverteilung: X1 ∼ N (0, 1), X2 ∼ N (0, 1), X1 unabhängig von
X2
1 −x21 /2 −x22 /2
⇒ f (x1 , x2 ) =
e
e
2π
Zeitreihenanalyse@LS-Kneip
4–58
Die wichtigste multivariate Verteilung ist die sogenannte ”multivariate Normalverteilung”.
Ein Zufallsvektor X = (X1 , . . . , Xn )T ist multivariat
normalverteilt, falls folgende Bedingungen erfüllt sind:
• Jede einzelne Variable ist normalverteilt, Xi ∼
N (µi , σi2 ), i = 1, . . . , n
• Jede Linearkombination der Form Y = c1 X1 +
c2 X2 + · · · + cn Xn = ist univariat normalverteilt
∑n ∑n
Y ∼ N (c1 µ1 +· · ·+cn µn , i=1 j=1 cov(Xi , Xj ))
Parameter der multivariaten Normalverteilung:
Mittelwerte, Varianzen und Kovarianzen der einzelnen Variablen.
Spezialfall: i.i.d. Gaußsches Weißes Rauschen: {Xt } ∼
IID(µ, σ 2 ) und Xt ∼ N (µ, σ 2 )
⇒ X = (X1 , . . . , Xn )T multivariat normalverteilt mit
Dichtefunktion:
f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) . . . fn (xn )
n
∑
(xi − µ)2
1
n
) exp(
)
= (√
2
2σ
2πσ
i=1
f (x1 , . . . , xn ) ≡ f (x1 , . . . , xn |µ, σ 2 ) hängt nur von
den Werten von µ und σ 2 ab (alle Kovarianzen = 0)
Zeitreihenanalyse@LS-Kneip
4–59
Im allgemeinen Fall werden alle Varianzen und Kovarianzen der einzelnen Variablen in der sogenannten
Kovarianzmatrix zusammengefasst:

var(X1 )

 cov(X , X )
2
1



·

Σ := 

·



·

cov(X1 , X2 )
·
·
·
var(X2 )
·
·
·
cov(Xn , X1 )
cov(Xn , X2 )
·
·
·
·
·
·

cov(X1 , Xn )

cov(X2 , Xn )



·



·



·

var(Xn )
Dichtefunktion der multivariaten Normalverteilung:
f (x1 , . . . , xn ) =
1
(2π)n/2 |Σ|1/2
1
exp(− (x−µ)T Σ−1 (x−µ))
2
mit x = (x1 , . . . , xn )T und µ = (µ1 , . . . , µn )T
Wir schreiben dann kurz
X = (X1 , . . . , Xn )T ∼ Nn (µ, Σ)
Zeitreihenanalyse@LS-Kneip
4–60
Zeitreihenanalyse: Der Gaußprozess
Zeitreihenanalyse: Ein stochastischer Prozess
{Xt } heißt Normalprozess oder Gaußprozess,
wenn für jede endliche Auswahl von Zeitpunkten t1 , t2 , . . . , tn die entsprechenden n-dimensionalen
Zufallsvariablen Xt1 , . . . , Xtn multivariat normalverteilt sind.
• Für einen Gaußprozess sind strenge und schwache
Stationarität äquivalent.
• Ist X1 , . . . , Xn der beobachtete Abschnitt eines
stationären Gaußprozesses, so gilt
X = (X1 , . . . , Xn )T ∼ Nn (µ, Γn )
• Die Parameter dieser multivariaten Normalverteilung sind der gemeinsame Mittelwert µ = E(X1 ) =
· · · = E(Xn ) und die in der Matrix Γn zusammengefassten Werte der Autovarianzfunktion:


γ(0)
γ(1)
· · · γ(n − 1)




γ(1)
γ(0)
·
·
·
γ(n
−
2)




Γn = 
..
..
..



.
.
.


γ(n − 1) γ(n − 2) · · ·
Zeitreihenanalyse@LS-Kneip
γ(0)
4–61
Bei der Analyse von ARMA-Prozessen {Xt } wird häufig
zusätzlich angenommen, dass die Zeitreihe ein GaußProzess ist.
• ARM A(p, q)-Prozess (mit Mittelwert µ):
Xt − µ =ϕ1 (Xt−1 − µ) + · · · + ϕp (Xt−p − µ)
+ ϵt + θ1 ϵt−1 + · · · + θq ϵt−q
Falls X1 , . . . , Xn multivariat normal sind, so erhält
man die Dichtefunktion
f (x1 , . . . , xn ) =
1
1
T −1
(x−µ)
Γn (x−µ))
exp(−
2
(2π)n/2 |Γn |1/2
• Die Elemente der Autokovarianzmatrix Γn (=
Werte von γ(h)) errechnen sich in Abhängigkeit
von µ, ϕ1 , . . . , ϕp , θ1 , . . . , θp und σ 2 . Die Struktur
der Dichtefunktion
f (x1 , . . . , xn ) = f (x1 , . . . , xn |µ, ϕ, θ, σ 2 )
lässt sich daher aus den Koeffizienten des Prozesses berechnen.
Zeitreihenanalyse@LS-Kneip
4–62
4.10.3
Maximum Likelihood-Schätzung
Beispiel: Eine Firma besitze einen relativ großen Lagerbestand an Glühbirnen. Um sich einen Eindruck
von dem Anteil defekter Glühbirnen zu verschaffen,
wird eine Zufallsstichprobe von 5 Birnen gezogen. 3
davon sind defekt.
Statistisches Modell:

 1
• Zufallsvariable X =
 0
falls Glühbirne defekt
sonst
X ∼ Bernoulli(p)
p = P [X = 1] - Anteil der defekten Glühbirnen
• Einfache Zufallsstichprobe X1 , . . . , X5 . Die beobachteten Werte sind
x1 = 1, x2 = 0, x3 = 1, x4 = 1, x5 = 0
Problem: Schätzung des wahren Wertes von p?
Idee der Maximum Likelihood-Schätzung: Man
betrachtet alle möglichen Werte 0 ≤ p ≤ 1 und wählt
dann denjenigen aus, der die beobachteten Daten am
besten erklärt.
Zeitreihenanalyse@LS-Kneip
4–63
Die Wahrscheinlichkeit, genau die beobachtete Stichprobe x1 , . . . , x5 zu ziehen, hängt von p ab:
P [X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 , X5 = x5 |p]
= P [X1 = x1 ] · P [X2 = x2 ] · P [X3 = x3 ]
· P [X4 = x4 ] · P [X5 = x5 ]
= p · (1 − p) · p · p · (1 − p)
= p3 (1 − p)2
⇒ Für alle p ∈ [0, 1]: Falls p der wahre Wert ist, so
gilt
L(p) = P [X1 = x1 , . . . , X5 = x5 |p] = p3 (1 − p)2
L(p) wird als Likelihoodfunktion“ bezeichnet.
”
Für alle 0 ≤ p ≤ 1 gibt L(p) also die Wahrscheinlichkeit an, dass die beobachteten Werte x1 , . . . , x5 auftreten, falls der betrachtete Wert p gleich dem wahren Wert ist. Der Ansatz der Maximum LikelihoodSchätzung besteht nun darin, denjenigen Wert auszuwählen für den diese Wahrscheinlichkeit maximal
ist.
• p = 0 ⇒ L(p) = 0 ⇒ beobachtete Werte unmöglich!
Zeitreihenanalyse@LS-Kneip
4–64
• p = 0, 1 ⇒ L(p) = 0, 13 · 0, 92 = 0, 00081
• p = 0, 2 ⇒ L(p) = 0, 23 · 0, 82 = 0, 00512
0.04
0.03
L(p)
0.02
0.01
0.00
0.0
0.2
0.4
0.6
0.8
1.0
p
L(p) wird am Punkt p = 0.6 maximal ⇒ p̂ = 0.6 ist
die Maximum Likelihood-Schätzung“ des unbe”
kannten wahren Wertes von p.
p̂ = 0.6 ist im Beispiel derjenige Wert von p ∈ [0, 1],
für den die Wahrscheinlichkeit, dass gerade die beobachteten Werte x1 , . . . , x5 auftreten, maximal ist.
Zeitreihenanalyse@LS-Kneip
4–65
Das Maximum Likelihood-Prinzip
Das obige Beispiel liefert eine Illustration des Maximum Likelihood-Prinzip zur Konstruktion einer Schätzfunktion. Allgemein lässt sich dieses Prinzip folgendermaßen darstellen:
Statistisches Modell:
• n Zufallsvariablen
X1 , . . . , Xn Die gemeinsame Verteilung der Xi hängt
von einem Parameter(vektor) ϑ ab, dessen wahrer
Wert unbekannt ist.
• beobachtete (realisierte) Werte: x1 , . . . , xn
Problem: Schätze ϑ
1. Schritt: Berechnen der Likelihoodfunktion L(ϑ)
Die Likelihoodfunktion ergibt sich in Abhängigkeit von
allen prinzipiell möglichen Werten von ϑ. Sie quantifiziert (bei diskreten Zufallsvariablen) die Wahrscheinlichkeit, dass gerade die beobachteten Werte x1 , . . . , xn
auftreten, falls der wahre Wert des Parameter(vektors)
mit dem betrachteten Wert ϑ übereinstimmt.
Zeitreihenanalyse@LS-Kneip
4–66
• Diskrete Verteilung mit Wahrscheinlichkeitsfunktion f (x1 , . . . , xn ) ≡ f (x1 , . . . , xn |ϑ)
L(ϑ) ≡ L(x1 , . . . , xn |ϑ) = P [X1 = x1 , . . . , Xn = xn |ϑ]
= f (x1 , . . . , xn |ϑ)
• Stetige Verteilung mit Dichtefunktion f
L(ϑ) ≡ L(x1 , . . . , xn |ϑ) = f (x1 , . . . , xn |ϑ)
2. Schritt: Maximieren von L(ϑ) bezüglich allen prinzipiell möglichen Werten ϑ liefert die Maximum
”
Likelihood-Schätzung“ ϑ̂ des wahren Parameterwertes,
L(ϑ̂) = max L(ϑ)
ϑ
Schätzwert: ϑ̂ ⇔ arg max L(x1 , . . . , xn |ϑ)
ϑ
Schätzfunktion: ϑ̂ ⇔ arg max L(X1 , . . . , Xn |ϑ)
ϑ
Zeitreihenanalyse@LS-Kneip
4–67
Illustration: Maximum Likelihood-Schätzung des Mittelwerts µ von i.i.d. Gaußschem Weißen Rauschen mit
bekannter Varianz σ 2 = 1 (n = 20)
(
)
2
L(µ) = f (x1 |µ) · · · f (x20 |µ); f (x|µ) = √12π exp − (x−µ)
2
µ = 2 ⇒ Likelihood L(2) klein:
0.4
0.3
f(xi| 2)
0.2
0.1
0.0
-2
-1
0
1
2
3
4
3
4
x
µ = 1 ⇒ Likelihood L(1) > L(2)
0.4
0.3
f(xi| 1)
0.2
0.1
0.0
-2
-1
0
1
2
x
Maximale Likelihood für µ = x̄ = −0.29 ⇒ µ̂ = −0.29
0.4
0.3
f(xi|-0.29)
0.2
0.1
0.0
-2
-1
0
1
2
3
4
x
Zeitreihenanalyse@LS-Kneip
4–68
Anwendung: Maximum Likelihood-Schätzung
eines Anteilswertes
• X1 , . . . , Xn unabhängig und identisch verteilt;
Xi ∼ Bernoulli(p);
zu schätzen: wahrer Anteilswert p
• beobachtet: s =
n
∑
xi mal 1“ und n − s mal 0“
”
”
i=1
• Damit ergibt sich
L(p) = P [X1 = x1 ] · · · P [X2 = x2 ] . . . P [Xn = xn ]
= ps (1 − p)n−s
• Maximum-Likelihood: p̂ maximiert L(p)
• Eine Lösung des Maximierungsproblems ergibt sich
durch Ableiten und Nullsetzen:
∂L(p)
= sps−1 (1 − p)n−s − ps (n − s)(1 − p)n−s−1
∂p
⇒ 0 = sp̂s−1 (1 − p̂)n−s − p̂s (n − s)(1 − p̂)n−s−1
∑n
s
i=1 xi
⇒ p̂ = =
= x̄
n
n
• Berechnung der zweiten Ableitung: L(p) nimmt
an der Stelle p̂ ein Maximum an.
⇒ p̂ = X̄ ist Maximum Likelihood-Schätzer des Anteilswertes
Zeitreihenanalyse@LS-Kneip
4–69
Logarithmierte Likelihood
Vorgehen zur Bestimmung einer Maximum LikelihoodSchätzung: Ableiten von L(ϑ) und anschließendes Nullsetzen.
Problem: Oft unfreundliche“ Ausdrücke
”
Ausweg: Vereinfachung der Berechnungen durch Verwendung der
Log-Likelihoodfunktion“ ln L(ϑ)
”
• ϑ̂ maximiert L(ϑ) ↔ ϑ̂ maximiert ln L(ϑ)
Ansatz zur Berechnung von ϑ̂:
1. Differenzieren: l(ϑ) =
∂ ln L(ϑ)
∂ϑ
2. Nullsetzen: ϑ̂ Lösung von l(ϑ̂) = 0
3. Verifikation, dass ϑ̂ wirklich ein Maximum ist
Achtung: Ist ϑ = (ϑ1 , . . . , ϑk )′ eine Parametervektor,
so beinhaltet dies die Berechnung aller k partiellen
Ableitungen und eine anschließende Lösung des (evtl
nichtlinearen) Gleichungssystems l(ϑ̂) = 0.
Zeitreihenanalyse@LS-Kneip
4–70
Anwendung: Maximum Likelihood-Schätzung des Mittelwerts von Gaußschem Weißen Rauschen
• Sei {Xt } ∼ IID(µ, σ 2 ) mit
Xt ∼ N (µ, σ 2 ); σ 2 bekannt
zu schätzen: wahrer Mittelwert µ
• n beobachtete Werte der Zeitreihe: x1 , . . . , xn
• Likelihoodfunktion:
L(µ) = f (x1 |µ) · · · f (xn |µ)
n
∑
(xi − µ)2
1
n
= (√
) exp(
)
2
2σ
2πσ
i=1
• Log-Likelihoodfunktion:
∑ (xi − µ)2
1
ln L(µ) = n · ln √
+
−
2σ 2
2πσ i=1
n
• Ableitung nach µ:
∂ ln L(µ) ∑ (xi − µ)
l(µ) =
=
−
2
∂µ
σ
i=1
n
Zeitreihenanalyse@LS-Kneip
4–71
• Berechnung von µ̂:
0 = l(µ̂) =
n
∑
−
i=1
⇒0=
n
∑
(xi − µ) =
i=1
∑n
⇒ µ̂ =
i=1
n
xi − µ
σ2
n
∑
xi − nµ
i=1
xi
= x̄
Anmerkung: Durch analoge Rechnungen ergibt sich
bei unbekannter Varianz
1∑
2
s̃ =
(xi − x̄)2
n i=1
n
als Maximum Likelihood-Schätzung von σ 2
Zeitreihenanalyse@LS-Kneip
4–72
4.10.4
Schätzer und ihre Verteilungen
Sei X ∼ N (µ, σ 2 )
Einfache Zufallsstichprobe: X1 , . . . , Xn
Dann gilt:
σ2
X̄ ∼ N (µ, )
n
⇒ Konfidenzintervall zum Niveau 1 − α für µ bei
bekannten σ
σ
µ ∈ [X̄ ± z1−α/2 √ ]
n
z1−α/2 - 1 − α/2-Quantil der Standardnormalverteilung; z0.975 = 1.96
√
n(X̄ − µ)
∼ Tn−1
S
Tn−1 - Studentsche t-Verteilung mit n − 1 Freiheitsgraden
⇒ Konfidenzintervall für µ bei unbekannter Varianz
S
µ ∈ [X̄ ± t1−α/2;n−1 √ ]
n
Zeitreihenanalyse@LS-Kneip
4–73
S2
(n − 1) 2 ∼ χ2n−1
σ
χ2n−1 - χ2 Verteilung mit n − 1 Freiheitsgraden
Zentraler Grenzwertsatz
Seien X1 , . . . , Xn unabhängig und identisch verteilte
Zufallsvariablen mit E(Xi ) = µ und V ar(Xi ) = σ 2 >
0.
• Die Folge von Zufallsvariablen
∑n
(
)
√
Xi − nµ
X̄ − µ
√
Zn = i=1
= n
σ
nσ 2
konvergiert mit steigendem n gegen die standardisierte Normalverteilung N (0, 1)
• Für genügend
großes n sind die Beziehungen X̄ ∼
√
2
S2
2
N (µ, σn ), n(X̄−µ)
∼
T
,
(n
−
1)
∼
χ
2
n−1
n−1
S
σ
approximativ erfüllt.
Zeitreihenanalyse@LS-Kneip
4–74
4.10.5
Statistische Testverfahren
Beispiel: t-Test
Einfache Zufallsstichprobe: X1 , . . . , Xn unabhängig
und identisch N (µ, σ 2 ) verteilt.
• Einseitiger Test
Nullhypothese H0 : : µ = µ0
Alternative H1 : µ > µ0
• Zweiseitiger Test
Nullhypothese H0 : µ = µ0
Alternative H1 : µ ̸= µ0
Statististischer Test: Verfahren zur Entscheidung zwischen H0 und H1 auf der Grundlage der beobachteten Daten
Fehler 1. Art: H0 wird abgelehnt, obwohl H0 richtig ist
Fehler 2. Art: H0 wird angenommen, obwohl H0
falsch ist
Signifikanztest zum Niveau α (z.B. α = 5%)
P ( Fehler 1. Art ) ≤ α
Zeitreihenanalyse@LS-Kneip
4–75
Teststatistik des t-Tests:
√
n(X̄ − µ0 )
T =
S
Test zum Niveau α
• Einseitiger Test: Ablehnung von H0 , falls
Tbeobachtet ≥ tn−1;1−α
• Zweiseitiger Test: Ablehnung von H0 , falls
|Tbeobachtet | ≥ tn−1;1−α/2
Der p-Wert (Überschreitungswahrscheinlichkeit):
• Einseitiger Test:
p-Wert = P (Tn−1 ≥ Tbeobachtet )
• Zweiseitiger Test:
p-Wert = P (|Tn−1 | ≥ |Tbeobachtet |)
Zeitreihenanalyse@LS-Kneip
4–76
Allgemein: p-Wert = Wahrscheinlichkeit, unter H0
den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten.
Interpretation:
• ”Glaubwürdigkeit” von H0 : H0 ist wenig glaubwürdig,
falls der p-Wert sehr klein ist
• Der in einer konkreten Anwendung berechnete pWert hängt von dem beobachteten Datensatz
ab. Er liefert Informationen über die Resultate der
zugehörigen Signifikanztests zu den verschiedenen
Niveaus α :
α > p-Wert ⇒
Ablehnung von H0
α < p-Wert ⇒
Beibehaltung von H0
In der Praxis:
• Test ”signifikant”, falls p-Wert < 0.05 (d.h. ein
Test zum Niveau 5% führt zur Ablehnung von H0 )
• Häufig: Test ”schwach ”signifikant, falls 0.05 >
p-Wert > 0.01 (d.h. ein Test zum Niveau 5% führt
zur Ablehnung von H0 ; ein Test zum Niveau 1%
führt dagegen zur Beibehaltung von H0 )
Zeitreihenanalyse@LS-Kneip
4–77
Beispiel:
Daten: X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 =
16.50, X5 = 18.90, n = 5.
⇒ X̄ = 18.1
Testproblem: H0 : µ = 17 gegen H1 : µ ̸= 17
√
5(18.1 − 17)
Tbeobachtet =
= 2.187
1.125
⇒ p-Wert = P (|Tn−1 | ≥ 2.187) = 0.094
Tests zu verschiedenen Niveaus α:
α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von
H0
α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von
H0
α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187
⇒ Ablehnung von H0
α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von
H0
α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von
H0
Zeitreihenanalyse@LS-Kneip
4–78
Herunterladen