4 Modellierung und Prognose mit ARMA, ARIMA und SA

4
Modellierung und Prognose
mit ARMA, ARIMA und SARIMA Modellen
Ein Problem von großer praktischer Bedeutung ist
natürlich die Schätzung der unbekannten Parameter
eines ARM A(p, q) Prozesses (mit Mittelwert µ)
Xt − µ − ϕ1 (Xt−1 − µ) − · · · − ϕp (Xt−p − µ)
= ϵt + θ1 ϵt−1 + · · · + θq ϵt−q
mit {ϵt } ∼ W N (0, σ 2 ) aus einer gegebenen Zeitreihe X1 , . . . , Xn der Länge n. In einem ersten Schritt
wird natürlich µ durch den empirischen Mittelwert X̄
ersetzt.
• In den nachfolgenden Abschnitten wird jeweils vorausgesetzt, dass die dort behandelten Schätzmethoden auf die zentrierte, durch den Mittelwert
korrigierte Zeitreihe X̃t = Xt − X̄ angewandt werden. X̄ schätzt den wahren Mittelwert µ. Der Schätzfehler |X̄ − µ| spielt für die meisten Zwecke im
Vergleich zu anderen Ungenauigkeiten keine Rolle.
Zeitreihenanalyse@LS-Kneip
4–1
4.1
Kleinste-Quadrate Methoden
In der Literatur wurden zahlreiche z.B. auf KleinsteQuadrate Methoden basierende Algorithmen vorgeschlagen, die es erlauben, auf relativ einfache Weise approximative Lösungen zu bestimmen. Bei relativ kurzen Zeitreihen liefern ML Verfahren (siehe Abschnitt 4.2) i.a. bessere Schätzer als andere Methoden.
4.1.1
AR(p)-Modell
Sei {Xt } ein AR(p) Prozess. Für den zentrierten Prozess ergibt sich dann
X̃t = ϕ1 X̃t−1 + · · · + ϕp X̃t−p + ϵt
mit ϵt ∼ W N (0, σ 2 ). Eine Modellanpassung erfordert
die Schätzung der unbekannten Parameter ϕ1 , . . . , ϕp .
Für die Modelldiagnose, Parametertests und Konﬁdenzintervall ist es weiterhin unumgänglich, auch die
Varianz σ 2 der Zufallsschocks ϵt zu schätzen.
Kleinste-Quadrate Schätzer: Bestimme Schätzungen ϕ̂1 , . . . , ϕ̂p der wahren Koeﬃzienten durch Minimieren von
n
n
(
)2
(
)2
∑
∑
X̃t − X̂t =
X̃t − ϕ1 X̃t−1 − · · · − ϕp X̃t−p
t=p+1
t=p+1
Zeitreihenanalyse@LS-Kneip
4–2
über alle möglichen Werte von ϕ1 , . . . , ϕp . Die resultierenden Kleinste-Quadrate Schätzer ϕ̂1 , . . . , ϕ̂p werden auch als ”Regressionsschätzer” von ϕ1 , . . . , ϕp bezeichnet. Sie ergeben sich als Lösung der Normalgleichungen

 ∑
n
X̃ X̃
t=p+1 t t−1 


..




.


n

 ∑
X̃t X̃t−p
t=p+1

n
∑
2
X̃t−1
 t=p+1

..

=
.

n
 ∑
X̃t−p X̃t−1
t=p+1
···

n
∑
X̃t−1 X̃t−p
t=p+1
...
n
∑
..
.
t=p+1
2
X̃t−p


 ϕ̂1
 
  .. 
 . 
 

ϕ̂p
Die Kleinste-Quadrate Schätzer sind für großes n approximativ äquivalent zu den in Kapitel 3 vorgestellten Yule-Walker Schätzern ϕ̂∗1 , . . . , ϕ̂∗p . Diese ergeben
sich als Lösungen des Gleichungssystems

 
 
ρ̂(1)
1
ρ̂(1)
. . . ρ̂(p − 1)
ϕ̂∗1

 
 

 
 
1
. . . ρ̂(p − 2) ϕ̂∗2 
ρ̂(2)  ρ̂(1)

 
 
..
..
..
 ..  = 
  .. 
 .  
 . 
.
.
.

 
 
ρ̂(p)
ρ̂(p − 1) ρ̂(p − 2) . . .
1
ϕ̂∗p
Zeitreihenanalyse@LS-Kneip
4–3
Dieses Gleichungssystem lässt sich auch in der Form

 
 
γ̂(1)
γ̂(0)
γ̂(1)
. . . γ̂(p − 1)
ϕ̂∗1

 
 

 
 
γ̂(0)
. . . γ̂(p − 2) ϕ̂∗2 
γ̂(2)  γ̂(1)

=
 
.
.
.
.
 .  
  .. 
.
.
.
 .  
 . 
.
.
.

 
 
γ̂(p − 1) γ̂(p − 2) . . .
γ̂(p)
γ̂(0)
ϕ̂∗p
schreiben. Für große n und 0 ≤ h, j ≤ p gilt dann
n−|h−j|
n
∑
∑
1
1
X̃t−h X̃t−j ≈ n
X̃t X̃t+|h−j| = γ̂(h − l),
n
t=p+1
t=1
und die Normalgleichungen entsprechen (approximativ) den Yule-Walker Gleichungen.
Es lässt sich weiterhin zeigen, dass die Yule-Walker
Schätzer ebenso wie die Kleinste-Quadrate Schätzer
asymptotisch äquivalent zu den in Abschnitt 4.2 vorgestellten Maximum-Likelihood Schätzern für die Parameter ϕj sind.
Schätzer für σ 2 : Es gilt
γ(0) = E((X̃t )2 )
= ϕ1 E(X̃t X̃t−1 ) + · · · + ϕp E(X̃t X̃t−p ) + E(X̃t ϵt )
= ϕ1 γ(1) + · · · + ϕp γ(p) + σ 2
⇒
σ 2 = γ0 − ϕ1 γ(1) − · · · − ϕp γ(p)
Zeitreihenanalyse@LS-Kneip
4–4
Ersetzt man γ durch die empirische Autokovarianzfunktion, erhält man den Schätzer
σ̂ 2 = γ̂0 − ϕ1 γ̂(1) − · · · − ϕp γ̂(p)
4.1.2
ARM A(p, q)-Modell
Sei {Xt } ein AR(p) Prozess. Für den zentrierten Prozess ergibt sich dann
X̃t − ϕ1 X̃t−1 − · · · − ϕp X̃t−p
= ϵt + θ1 ϵt−1 + · · · + θq ϵt−q
Die Hauptschwierigkeit bei der Behandlung dieser Modelle besteht in der Tatsache, dass die Werte ϵt , ϵt−1 , . . .
nicht beobachtbar sind. Man beachte jedoch, dass
ϵt = X̃t −
p
∑
s=1
|
ϕs X̃t−s −
{z
q
∑
s=1
θs ϵt−s ,
}
X̂wahr,t
wobei sich X̂wahr,t aus vergangenen Werten X̃t−1 , X̃t−2 , . . .
und ϵt−1 , ϵt−2 , . . . der Zeitreihe und der Innovationen
berechnen lässt.
Die allgemeine Idee der verschiedenen Kleinste-Quadrate Methoden zur Schätzung der Parameter ϕj , θk
Zeitreihenanalyse@LS-Kneip
4–5
von ARM A(p.q) Modellen lässt sich nun folgendermaßen beschreiben:
• Die unbekannten Zufallsschocks ϵt werden durch
Schätzwerte (Residuen)
ϵ̂t = X̃t − X̂t
ersetzt, wobei X̂t eine Prognose von X̃t aus den
Zeireihenwerten in vorangegangenen Perioden t −
1, t − 2, . . . ist.
• Schätzungen ϕ̂j und θ̂k werden durch minimieren
von
)2
∑(
X̃t − X̂t
t
=
∑
(
X̃t −
t
p
∑
s=1
ϕs X̃t−s −
q
∑
)2
θs ϵ̂t−s
s=1
bestimmt.
Die einzelnen Verfahren unterscheiden sich im Wesentlichen nur durch die Art und Weise der Berechnung
von ϵ̂t . Man beachte, dass die Werte von X̂t ≡ X̂t (ϕ, θ)
bzw. ϵ̂t = Xt − X̂t (ϕ, θ) selbst wiederum von den jeweiligen Parameterwerten abhängen. Im Allgemeinen
erhält man daher ein nichtlineares Minimierungsproblem, das sich nur iterativ lösen lässt.
Zeitreihenanalyse@LS-Kneip
4–6
Der bedingte Kleinste-Quadrate Ansatz. Man
setzt X̂t = 0 für t ≤ 1 und
ϵ̂1 = X1 − X̂1 = X1
ϵ̂2 = X2 − ϕ1 X1 − θ1 ϵ̂1
|
{z
}
X̂2
..
.
ϵ̂t = X̃t −
p
∑
ϕs X̃t−s −
s=1
|
{z
q
∑
θs ϵ̂t−s
s=1
}
X̂t
Das unbedingte Kleinste Quadrate Verfahren führt
auf Schätzer, die asymptotisch mit den MaximumLikelihood Schätzern übereinstimmen (siehe 4.2).
Der Hannen-Rissanen Algorithmus: Zur Bestimmung der X̂t ϵ̂t wird ein AR(m) Modell mit m >
max{p, q} an die Daten angpasst ⇒ Yule-Walker Schätzer
ϕ̂1 , . . . , ϕ̂m der zugehörigen Parameter. Die resultierenden Residuen
ϵ̂t = X̃t − X̂t = X̃t −
m
∑
ϕ̂s Xt−s
s=1
dienen sodann als Schätzungen der Zufallsschocks.
Zeitreihenanalyse@LS-Kneip
4–7
4.2
Maximum-Likelihood
Der Maximum-Likelihood Ansatz beruht auf der Zusatzannahme, dass {Xt } ein streng stationärer Gaußprozess ist. Die Zufallsvaraiblen X̃1 , . . . , X̃n sind dann
multivariat normalverteilt.
Anmerkung: Die Grundidee der Maximum-Likelihood
Schätzung lässt sich folgendermaßen darstellen (Details siehe Abschnitt 4.10.3):
• Aufstellen einer ”Likelihoodfunktion” L(ϕ, θ, σ 2 )
in Abhängigkeit von den unbekannten Koeﬃzienten ϕ = (ϕ1 , . . . , ϕp ), θ = (θ1 , . . . , θq ) und σ 2 =
var(ϵt ).
• Bei diskreten Zufallsvariablen quantiﬁziert die Likelihoodfunktion die Wahrscheinlichkeit, dass gerade die tatsächlich beobachteten Werte x̃1 , . . . , x̃n
auftreten, falls die wahre Werte der Koeﬃzienten
mit den jeweils betrachteten Werten übereinstimmen. Bei stetigen (z.B. normalverteilten) Verteilung ist L(ϕ, θ, σ) gleich dem jeweiligen Wert der
Dichtefunktion.
• Die Maximum-Likelihood Schätzungen σ̂ 2 , ϕ̂ und
θ̂ maximieren L(ϕ, θ, σ 2 ) über alle möglichen Werte von σ 2 , ϕ, θ.
Zeitreihenanalyse@LS-Kneip
4–8
• Die Maximum-Likelihood Schätzung bestimmt daher diejenigen Koeﬃzienten, für die die tatsächlich
beobachteten Daten x̃1 , . . . , x̃n am ”plausiblesten”
sind (höchstmögliche Wahrscheinlichkeit bzw. größtmöglicher Dichtewert).
Für einen Gaußprozess lässt sich für alle möglichen
Werte von σ 2 , ϕ, θ die zugehörige Likelihoodfunktion
aus den Formeln für die Dichte der multivariaten Normalverteilung berechnen (siehe Abschnitt 4.10.2).
Nach einigen (komplizierten!) Rechnungen kann man
zeigen, dass sich die Maximum-Likelihood Schätzung
folgendermaßen darstellen lassen:
Zeitreihenanalyse@LS-Kneip
4–9
ϕ̂ = (ϕ̂1 , . . . , ϕ̂p ), θ̂ = (θ̂1 , . . . , θ̂q ) minimieren
1 ∑ (X̃t − X̂t )2
1∑
l(ϕ, θ) = ln(
)+
ln rt−1
n t=1
rt−1
n t=1
n
n
bezüglich allen möglichen Werten von σ 2 , ϕ, θ und
1 ∑ (X̃t − X̂t )2
2
σ̂ =
,
n t=1
rt−1
n
wobei
* X̂t - bestmöglicher Prognosewert von X̃t (in Abhängigkeit von σ 2 , ϕ, θ) aus den vergangenen Werten der
Zeitreihe: Für t ≥ max{p, q} gilt
X̂t =
p
∑
ϕs X̃t−s +
s=1
q
∑
θt−1,s (X̃t−s − X̂t−s )
{z
}
|
s=1
ϵ̂t−s
* Die jeweiligen Werte von θt,s und rt ≡ rt (ϕ, θ, σ 2 )
ergeben sich für t = 1, 2, . . . rekursiv aus dem sogenannten Innovations-Algorithmus (die Formeln
sind in dem Buch von Brockwell und Davis zu
ﬁnden).
* Ist t merklich größer al max{p, q}, so gilt approximativ: θt,s = θs und rt = 1.
Zeitreihenanalyse@LS-Kneip
4–10
Anmerkung: Es gilt
−2 ln L(ϕ̂, θ̂, σ̂ 2 ) = l(ϕ̂, θ̂) (+Konstante)
Ein großes Problem der Maximum-Likelihood Schätzung
(ML) ist natürlich die praktische Berechnung der
Koeﬃzienten. Es gibt i.Allg. keine Möglichkeit, exakte Lösungen in einer geschlossenen analytischen Form
darzutellen. In allen modernen statistischen Programmpaketen sind jedoch Optimierungsverfahren (iterative
Algorithmen) implementiert, die es erlauben, die ML
Schätzungen numerisch zu berechnen.
Es existiert ein enger Zusammenhang zwischen den
im vorigen Abschnitt betrachteten Kleinste-Quadrate
Schätzern und dem Maximum-Likelihood Ansatz:
• Für t ≫ max p, q gilt θt,s ≈ θs , rt ≈ 1 und daher
X̂t ≈
p
∑
ϕs X̃t−s +
s=1
sowie
1
n
∑n
t=1
q
∑
θs (X̃t−s − X̂t−s )
{z
}
|
s=1
ϵ̂t−s
ln rt−1 → 0 für n → ∞.
Für eine lange Zeitreihe ist der Einﬂuss der Anfangswerte vernachlässigbar, und Minimieren von
Zeitreihenanalyse@LS-Kneip
4–11
l(ϕ, θ) ist daher asymptotisch äquivalent zum Minimieren von
n
∑
(X̃t − X̂t )2
t=1
ML Schätzer und die genannten Kleinste-Quadrate
Schätzer stimmen daher asymptotisch (approximativ) überein.
• Ein Unterschied besteht jedoch bei relativ kurzen
Zeitreihen (n klein im Vergleich zu p und q). ML
führt auf diejenigen Parameterwerte, die auf der
Grundlage eines optimalen Prognose-Algorithmus
den kleinsten quadratischen Abstand zwischen X̃t
und X̂t liefern. Bei kurzen Zeitreihen liefert MaximumLikelihood i. Allg. genauere Schätzungen als einfache Kleinste-Quadrate Methoden.
• Das Vorgehen des Maximum-Likelihood Ansatzes
ist auch dann sinnvoll, wenn {Xt } kein streng
stationärer Gaußprozess ist. Es lässt sich zeigen,
dass auch unter den meisten anderen Verteilungsannahmen die aus dem oben beschrieben ML Verfahren resultierenden Schätzer asymptotsch eﬃzient sind. Ausnahmen sind z.B. Verteilungen mit
”langen Enden” (→ Ausreißer!).
Zeitreihenanalyse@LS-Kneip
4–12
4.3
Inferenz
Die Eigenschaften von ML Schätzern für ARMA Modelle lassen sich aus der allgemeinen Theorie von
Maximum-Likelihood Schätzern ableiten. Es lässt
sich zeigen, dass für einen Gaußprozess unter schwachen Bedingungen folgendes gilt:
• Die ML Schätzer ϕ̂j , θ̂k von sind asymptotisch
eﬃziente Schätzer von ϕj , θk . Für großes n gilt
für einen beliebigen alternative Schätzer ϕ̂∗
E((ϕ̂j − ϕj )2 ) ≤ E((ϕ̂∗j − ϕj )
j = 1, . . . , p (analog für θ)
• Die ML Schätzer ϕ̂j , θ̂k sind konsistente Schätzer
der unbekannten Parameter. Die Verteilung der
Schätzwerte ist asymptotisch normal. Für großes
n gilt approximativ
ϕ̂j ∼ Np (ϕj , vj2 /n)
θ̂k ∼ Nq (θk , vj∗2 /n)
Die Werte vj2 bzw. vk∗2 in den Varianztermen vj2 /n
bzw. vk∗2 /n hängen selbst wiederum von den wahren Werten der Koeﬃzienten ab. Einsetzen der
Zeitreihenanalyse@LS-Kneip
4–13
Schätzwerte erlaubt eine konsistente Approximation.
• In statistischen Programmpaketen wird zusätzlich
zu den Schätzwerten ϕ̂j und θ̂k auch Approxima√
√
∗
tionen v̂j / n und v̂k / n der zugehörigen Standardfehler angegeben.
• Von großer praktischer Bedeutung sind Tests der
Nullhypothesen H0 : ϕj = 0 bzw. H0 : θk =
0. Zum Testen wird jeweils die sogenannte ”tStatistik” verwandt:
t=
ϕ̂j
√
v̂j / n
bzw
t=
θ̂k
√
∗
v̂k / n
Unter H0 ist t asymptotisch N (0, 1) verteilt (einige Programmpakete benützen auch Approximationen durch t-Verteilungen). Die Programmpakete berechnen sodann den zugehörigen p-Wert (”pvalue”, ”signiﬁcance level”).
Interpretation:
– p-Wert< 0, 05 ⇒ Koeﬃzient signifikant; ein Test
zum Niveau α = 5% lehnt die Nullhypothese ab.
– p-Wert< 0, 01 ⇒ Koeﬃzient hochsignifikant; ein
Test zum Niveau α = 1% lehnt die Nullhypothese
ab.
Zeitreihenanalyse@LS-Kneip
4–14
• Bei ARMA Modellen höherer Dimension (p und/oder
q groß) kommt es häuﬁg vor, dass einige Parameter ϕj und/oder θk nicht signiﬁkant sind, und
daher für die wahren Werte möglicherweise ϕj =
0 und/oder θk = 0 gilt. Zur Vereinfachung des
Modells werden solche nichtsigniﬁkanten ”Lags”
häuﬁg aus dem Modell entfernt. Das so reduzierte Modell wird dann neu an die Daten angepasst,
indem man l(ϕ, θ) unter den Nebenbedingungen
ϕj = 0, θk = 0 über die verbleibenden Parameter
minimiert (”constrained Likelihood”).
• Bei der Elimination nichtsigniﬁkanter Lags muss
sehr sorgfältig vorgegangen werden. Die Elimination eines bestimmten Lags aus dem Modell kann
zu veränderten Schätzwerten und Signiﬁkanzen bei
anderen Lags führen. Existieren mehrere nichtsigniﬁkante Lags, so ist ein schrittweises Vorgehen
notwendig, bei dem die betreﬀenden Lags eines
nach dem anderen aus dem Modell entfernt werden. In jedem Schritt sind die in Abschnitt 4.5
beschriebenen Diagnoseverfahren anzuwenden um
sicherzustellen, das das reduzierte Modell eine genauso gute oder bessere Modellanpassung liefert
wie das Originalmodell.
Zeitreihenanalyse@LS-Kneip
4–15
4.4
Prognoseverfahren
In Kapitel 3.5 wurde bereits ein ”optimales” Prognoseverfahren beschrieben, das jedoch die Kenntnis der
wahren Parameterwerte voraussetzt. In der Praxis werden diese durch die geschätzten Parameterwerte approximiert. Zum Beispiel:
Ein-Schritt Prognose (h = 1) eines ARM A(p, q)Prozesses
X̂n+1 =X̄ + ϕ1 X̃n + . . . ϕp X̃n+1−p
+ θn,1 (X̃n − X̂n ) + · · · + θn,q (X̃n−q − X̂n−q )
Geschätztes“ 95% Prognoseintervall:
”
[X̂n+1 ± 1.96σ̂]
Der Schätzfehler bei der Berechnung von Prädiktionsintervallen in erster Ordnung vernachlässigbar.
Zeitreihenanalyse@LS-Kneip
4–16
4.5
Modelldiagnose
Ein wichtiger Schritt bei der Anpassung eines Zeitreihenmodells ist die nachfolgende Modellvalidierung. In
der Praxis wird bei der Modellbildung oft so vorgegangen, dass zunächst aus der Struktur von ACF und
PACF eine Reihe von möglichen Modellen ausgwählt
wird. Jeder dieser ”Modellkandidaten” wird dann mit
den besprochenen Techniken an die Daten angepasst
(Schätzung der Parameter). Mit Hilfe von Diagnosetechniken wird sodann das am besten passende Modell
ausgwählt.
Es gibt eine ganze Reihe verschiedener Diagnosetechniken, die in erster Linie auf die nach Elimination von
Trend und Saisonﬁgur erhaltene stationäre Zeitreihe
abzielen. Eine oft angewandte Möglichkeit ist z.B. der
Vergleich der empirischen ACF und PACF mit den aus
dem Modell folgenden theoretischen Werten. Für eine
sinnvolle Interpretation ist es wichtig, den Schätzfehler zu quantiﬁzieren und auf die in Kapitel 3 besprochenen Verfahren zur Konstruktion von Konﬁdenzintervallen zurückzugreifen.
Von noch größerer praktischer Bedeutung sind jedoch
Verfahren der Residualanalyse und die Verwendung
von Selektionskriterien wie Akaikes AIC.
Zeitreihenanalyse@LS-Kneip
4–17
4.5.1
Residualanalyse
Die Grundidee der Residualanalyse beruht auf der einfachen Beobachtung, dass sichfür ein korrektes ARM A(p, q)
Modell die Zeitreihe der Residuen
ϵt = X̃t −
p
∑
s=1
|
ϕs X̃t−s −
{z
q
∑
s=1
θs ϵt−s
}
X̂wahr,t
als Weißes Rauschen darstellen lassen muss.
Da die wahren Residuen natürlich nicht bekannt sind,
stützt man sich in der Praxis auf die geschätzten Residuen
ϵ̂t = X̃t − X̂t
wie sie auch bei der Schätzung benutzt werden.
Anmerkung: Um Residuen mit gleicher Varianz auch für
kleines t zu erhalten, werden von manchmal die reskalierten Residuen ϵ̃t =
ϵ̂t
1/2
σ̂rt
vorgezogen.
Bei einem korrekt speziﬁzierten ARMA-Modell sollte
die Zeitreihe der {ϵ̂t } (bzw. {ϵ̃t } einer Realisierung von Weißem Rauschen ähneln.
Zeitreihenanalyse@LS-Kneip
4–18
• In einem ersten Schritt der Residualanalyse wird
die jeweilige Struktur der Autokorrelationsfunktion und der partiellen Autokorrelationsfunktion
überprüft. Da die {ϵ̂t } für ein korrektes Modell approximativ Weißes Rauschen sind, sollten ungfähr
95% aller Werte von ρ̂(h) innerhalb der Schranken
√
±1.96/ n liegen.
• Eine weitere Überprüfung der Hypothese, dass die
{ϵt } approximativ Weißes Rauschen sind kann sodann mit Hilfe von Tests auf Weißes Rauschen
geschehen.
– Durbin-Watson Statistik
∑n−1
(ϵ̂t+1 − ϵ̂t )2
t=1∑
d=
n
2
t=1 ϵ̂t
Falls {ϵ̂t } approximativ Weißes Rauschen, so
sollte der Wert von d nahe 2 sein. Die in Kapitel 2 angegebene Verteilung unter der Nullhypothese gilt jedoch nur für die ”wahren” Innovationen ϵt und überträgt sich nicht auf die
Residuen ϵ̂t . In der Praxis werden daher Signiﬁkanztests i.Allg. mit Hilfe des Durbin-Watson
h-Tests durchgeführt, der auf einer modiﬁzier-
Zeitreihenanalyse@LS-Kneip
4–19
ten Teststatistik beruht
√
h = (1 − 0, 5 · d)
n
1 − nv̂ 2
Unter H0 folgt d asymptotisch einer Standardnormalverteilung.
– Ljung-Box-Test: Für ein vorgegebenes H basiert dieser Test auf der Statistik
H
∑
ρ̂(h)2
Q = n(n + 2)
n−h
h=1
Für großes n gilt q ∼ χ2H . Die Hypothese, dass
{ϵ̂t } approximativ Weißes Rauschen ist, wird
abgelehnt, falls Q zu groß ist.
Es handelt sich hier um eine Modiﬁkation des
in Kapitel 2 vorgestellten Portmanteau Tests.
– Es existieren weiterhin Verfahren, die auf dem
Ansatz beruhen, dass die geschätzten ρ̂(h) bei
Weißem Rauschen für verschiedene Werte von
h voneinander unkorreliert sind, und daher eine genügend große Zahl von Vorzeichenwechseln aufweisen sollten (Turning points, Diﬀerence Sign Test, etc.).
Zeitreihenanalyse@LS-Kneip
4–20
4.5.2
Gütekriterien
Es gibt eine Reihe von wichtigen Kriterien zur Beurteilung der Modellanpassung. RATS verwendet folgende
Maßzahlen:
• Centered R2 :
• Adjusted R :
2
• Uncentered R2 :
R2 = 1 −
R̄ = 1 −
2
∑n
(X̃t −X̂t )2
t=1
∑n
2
t=1 X̃t
∑n
X̃t −X̂t )2 /(n−p−q−1)
t=1 (∑
n
2
t=1 X̃ /(n−1)
2
Runcentered
=
∑n
(Xt −X̂t )2
t=1
1− ∑n X 2
t
t=1
Es gilt 0 ≤ R2 ≤ 1. Falls R2 groß ist, z.B. R2 > 0, 8,
so folgt, dass sich die aus dem Modell berechneten
Prognosewerte X̂t im Mittel über alle Perioden nicht
sehr stark von den zentrierten Zeitreihenwerten X̃t unterscheiden. Schlecht speziﬁzierte, inkorrekte ARMA
Modelle werden tendenziell einen eher niedrigen Wert
von R2 liefern.
Ein Grundproblem besteht natürlich in der Wahl der
Ordnungen p und q eines geeigneten ARM A(p, q)Modells. Für diesen Zweck ist R2 keine geeignete Maßzahl, da eine Erhöhung von p oder q notwendigerweise zu einem höheren Wert von R2 führt. Mehr
Information liefert hier der ”Adjusted R2 ”, der die
Zeitreihenanalyse@LS-Kneip
4–21
Anzahl der im Modell geschätzten Parameter berücksichtigt.
In der Praxis werden jedoch speziﬁsche Selektionskriterien wie Akaikes Informationskriterium (AIC) oder
das Schwartz-Kriterium (SBC) vorgezogen. Sie dienen
dazu, aus einer Reihe von ”Kandidatenmodellen” das
beste auszuwählen.
• Die Grundidee der Parameterschätzung mit der
Maximum-Likelihood Methode überträgt sich sofort auf den Vergleich verschiedener Modelle. Man
betrachtet den Wert der Likelihoodfunktion für
die verschiedenen ”Kandidatenmodelle” und wählt
tendenziell dasjenige aus, bei dem die Likelihood
so groß wie möglich wird. Häuﬁg wird statt der
eigentlichen Likelihoodfunktion der resultierende
Wert von
−2 ln L(ϕ̂, θ̂, σ̂) = l(ϕ̂, θ̂) (+Konstante)
betrachtet mit ϕ̂ = (ϕ̂1 , . . . , ϕ̂p )′ , θ̂ = (θ̂1 , . . . , θ̂q )′ .
Ein gutes Modell sollte dann auf einen möglichst
kleinen Wert führen.
• Beim Vergleich von Modellen ist jedoch eine zusätzliche Schwierigkeit zu beachten. Ein ARM A(p, q)
ist natürlich ein spezielles ARM A(p + 1, q + 1)
Zeitreihenanalyse@LS-Kneip
4–22
Modell mit ϕp+1 = θq+1 = 0. Selbst wenn das
ARM A(p, q) richtig ist, werden für MaximumLikelihood Schätzungen zufallsbedingt i.Allg. π̂p+1 ̸=
0 bzw. θ̂q+1 ̸= 0 gelten, und notwendigerweise
−2 lnL(ϕ̂1 , . . . , ϕ̂p , ϕ̂p+1 , θ̂1 , . . . , θ̂q , θ̂q+1 , σ̂)
< −2 ln L(ϕ̂1 , . . . , ϕ̂p , θ̂1 , . . . , θ̂p , σ̂)
Die Selektionskriterien kompensieren diesen Effekt durch Einführung eines Strafterms“ der um”
so größer wird, je höher die Ordnungen p bzw. q
des Prozesses sind. AIC und SBC unterscheiden
sich nur durch die Größe des Strafterms.
(
)
AIC = −2 log L(Xn |ϕ̂, θ̂, σ̂) + 2(p + q + 1)
(
)
SBC = −2 log L(Xn |ϕ̂, θ̂, σ̂) + (p + q + 1) · ln n
Vergleicht man mehrere verschiedene Modelle, so wird
man tendenziell dasjenige auswählen, das den kleinsten AIC (SBC) Wert besitzt.
Zeitreihenanalyse@LS-Kneip
4–23
4.6
Beispiel: Australischer Rotwein
logged red wine data
8.00
7.75
7.50
7.25
7.00
6.75
6.50
6.25
6.00
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1990
1991
logged red wine data, difference at lag 1
0.54
0.36
0.18
-0.00
-0.18
-0.36
-0.54
-0.72
-0.90
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
logged red wine data, diff at lag1, sdifference at lag 1
0.50
0.25
0.00
-0.25
-0.50
1981
1982
1983
Zeitreihenanalyse@LS-Kneip
1984
1985
1986
1987
1988
1989
1990
1991
4–24
ACF, diff at lag=1
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
10
15
20
25
30
35
ACF, diff at lag=1, sdiff at lag=1
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
10
15
20
25
30
35
PACF, diff at lag=1, sdiff at lag=1
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
Zeitreihenanalyse@LS-Kneip
10
15
4–25
Australischer Rotwein: Monatlich verkaufte Mengen
(in Kilolitern) von australischem Rotwein von Januar
1980 bis Oktober 1991. Wir betrachten die Zeitreihe
der logaritmierten Mengen.
Die Zeitreihe besitzt sowohl einen Trend als auch eine saisonale Komponente. Trend und Saison werden
durch Diﬀerenzenbildung eliminiert:
Xt∗ = ∆Xt = Xt − Xt−1
∗
Yt = (1 − L12 )Xt∗ = Xt∗ − Xt−12
Es wird davon ausgegangen, dass die resultierenden
Zeitreihe Yt von Diﬀerenzen stationär ist und durch
ein geeignetes ARMA-Modell beschrieben werden kann.
Betrachtete ”Kandidatenmodelle”:
• M A(1): Yt = µ + ϵt + θϵt−1
• M A(13): Yt = µ + ϵt + θ1 ϵt−1 + · · · + θ13 ϵt−13
Zeitreihenanalyse@LS-Kneip
4–26
1) Schätzergebnisse für ein M A(1)-Modell
Yt = µ + ϵt + θϵt−1
Box-Jenkins - Estimation by Gauss-Newton
Convergence in 14 Iterations.
Final criterion was 0.0000042 < 0.0000100
Dependent Variable LOGX
Monthly Data From 1981:02 To 1991:10
Usable Observations 129
Degr. of Freedom 128
Centered R**2 0.843547
R Bar **2 0.843547
Uncentered R**2 0.999623
T x R**2 128.951
Mean of Dependent Variable
7.2739434755
Std Error of Dependent Variable
0.3588303010
Standard Error of Estimate
0.1419323284
Sum of Squared Residuals
2.5785325864
Durbin-Watson Statistic
1.731259
Q(32-1)
72.643285
Signiﬁcance Level of Q
0.00003413
Variable
Coeﬀ
Std Error
T-Stat
Signif
MA1
-0.7601
0.0579
-13.1329
0.00000
Zeitreihenanalyse@LS-Kneip
4–27
1) Schätzergebnisse für ein M A(13)-Modell
Yt = µ + ϵt + θ1 ϵt−1 + · · · + θ13 ϵt−13
Box-Jenkins - Estimation by Gauss-Newton
Convergence in 23 Iterations.
Final criterion was 0.0000094 < 0.0000100
Dependent Variable LOGX
Monthly Data From 1981:02 To 1991:10
Usable Observations 129
Degr. of Freedom 128
Centered R**2 0.909793
R Bar **2 0.900461
Uncentered R**2 0.999783
T x R**2 128.972
Mean of Dependent Variable
7.2739434755
Std Error of Dependent Variable
0.3588303010
Standard Error of Estimate
0.1132100098
Sum of Squared Residuals
1.4867147317
Durbin-Watson Statistic
1.891331
Q(32-1)
13.319504
Signiﬁcance Level of Q
0.82182052
AIC
77.15738
SBC
114.33494
Zeitreihenanalyse@LS-Kneip
4–28
Variable
Coeﬀ
Std Error
T-Stat
Signif
MA1
-0.7350
0.0824
-8.9178
0.0000
MA2
0.0390
0.0904
0.43122
0.6671
MA3
-0.1364
0.08978
-1.5194
0.1313
MA4
0.0396
0.0909
0.4362
0.6635
MA5
0.2038
0.0912
2.2359
0.0273
MA6
-0.3133
0.0916
-3.4207
0.0008
MA7
0.1147
0.0959
1.1957
0.2343
MA8
0.1858
0.0941
1.9739
0.0508
MA9
-0.1232
0.0941
-1.3104
0.1926
MA10
0.1018
0.0948
1.0744
0.2849
MA11
-0.1568
0.0951
-1.6475
0.1021
MA12
-0.6784
0.09612
-7.0541
0.0000
MA13
0.4943
0.0885
5.5872
0.0000
Schrittweise Eliminierung von nicht signiﬁkanten θ̂j
führt auf das Modell
Yt = µ + ϵt + θ1 ϵt−1 + θ2 ϵt−12 + θ3 ϵt−13
Für dieses Modell ergeben sich folgende Schätzergebnisse:
Zeitreihenanalyse@LS-Kneip
4–29
Box-Jenkins - Estimation by Gauss-Newton
Convergence in 17 Iterations.
Final criterion was 0.0000069 < 0.0000100
Dependent Variable LOGX
Monthly Data From 1981:02 To 1991:10
Usable Observations 129
Degr. of Freedom 126
Centered R**2 0.895993
R Bar **2 0.894342
Uncentered R**2 0.999749
T x R**2 128.968
Mean of Dependent Variable
7.2739434755
Std Error of Dependent Variable
0.3588303010
Standard Error of Estimate
0.1166380547
Sum of Squared Residuals
1.7141589111
Durbin-Watson Statistic
1.899511
Q(32-1)
22.004764
Signiﬁcance Level of Q
0.81999213
AIC
75.52101
SBC
84.10044
Variable
Coeﬀ
Std Error
T-Stat
Signif
MA1
-0.7732
0.0575
-13.455
0.0000
MA12
-0.7314
0.0704
-10.3852
0.0000
MA13
0.5323
0.0839
0 6.3451
0.0000
Zeitreihenanalyse@LS-Kneip
4–30
ACF ma=1
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
10
15
20
ACF ma=13(full) diff=1,sdiff=1
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
10
15
20
PACF
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
Zeitreihenanalyse@LS-Kneip
10
15
4–31
ACF, ma=1,12,13
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
10
15
20
PACF
1.00
0.75
0.50
0.25
0.00
-0.25
-0.50
-0.75
-1.00
5
Zeitreihenanalyse@LS-Kneip
10
15
4–32
4.7
ARIMA Modelle
ARMA Prozesse modellieren stationäre Zeitreihe. Wie
jedoch schon in Kapitel 2 diskutiert, besitzen in der
Realität viele Zeitreihen einen Trend. Die Grundidee
der Box-Jenkins Modellierungsphilosophie besteht in
der Trendelimination durch Diﬀerenzenbildung. Im Rahmen dieses Ansatzes werden bei der Modellbildung solange die jeweils sinnvollen Diﬀerenzenoperatoren angewendet, bis der Output als stationär anzusehen ist.
Allgemein nennt man eine Zeireihe {Xt } ”integriert
von der Ordnung d”, wenn seine d-fachen Diﬀerenzen ∆d Xt = (1 − L)d Xt ein stationärer Prozess sind.
Man schreibt Xt ∼ I(d).
Deﬁnition: Sei d ≥ 0. Eine Zeitreihe Xt ∼ I(d)
wird als ARIM A(p, d, q) Prozess bezeichnet (Autoregressive Integrated Moving Average Prozess), falls
Yt := (1 − L)d Xt
ein kausaler ARM A(p, q) Prozess (mit Mittelwert
µ ) ist.
Y
Falls µY = 0, lässt sich ein ARIM A(p, d, q) Prozess
abgekürzt in folgender Form darstellen:
ϕ(L)(1 − L)d Xt = θ(L)ϵt ,
Zeitreihenanalyse@LS-Kneip
ϵt ∼ W N (0, σ 2 )
4–33
Beispiele:
• Der in Kapitel 2 eingeführte Random Walk
Xt = Xt−1 + ϵt
ist ein ARIM A(0, 1, 0) Prozess.
• Ein Beispiel für einen ARIM A(0, 1, 1) Prozess ist
das lineare Trendmodell
Xt = β 0 + β 1 t + ϵ t
Einfache Diﬀerenzenbildung führt auf das (nicht
invertierbare!) M A(1) Modell (mit Mittelwert β1 =
µY )
Yt = (1 − L)Xt = β1 + ϵt − ϵt−1
(1−L)2 Xt liefert ein (nicht invertierbares) M A(2)
Modell mit Mittelwert 0. Xt lässt sich also auch
als ARIM A(0, 2, 2) Modell schreiben
• Ein lineares Trendmodell der Form
Xt = β0 + β1 t + ϵt + θϵt−1
lässt sich als ARIM A(0, 1, 2) Modell auﬀassen,
denn nach Diﬀerenzenbildung erhält man das M A(2)
Modell
Yt = (1 − L)Xt = β1 + ϵt + (θ − 1)ϵt−1 − θϵt−2
Zeitreihenanalyse@LS-Kneip
4–34
Behandlung von ARIMA Modellen
• Diﬀerenzenbildung und Berechnung von
Yt = (1 − L)d Xt
• Anpassung eines geeigneten ARMA Modells
an die Zeitreihe {Yt }. Dies beinhaltet Parameterschätzung, Modelldiagnose und Modellselektion.
• Die Prognose zukünftiger Werte Yn+1 , Yn+2 , . . .
erfolgt auf der Grundlage der in den Abschnitten
3.5 und 4.4 vorgestellten Prognoseverfahren.
• Eine Prognose zukünftiger Werte Xn+1 , Xn+2 , . . .
der Originalzeitreihe erfolgt über eine Umkehrung der Diﬀerenzenbildung. Ist d = 1, so gilt
Xt+1 = Yt+1 + Xt für jede Periode t. Allgemein:
Xt+1
 
d
  (−1)j Xt+1−j
= Yt+1 −
j
j=1
d
∑
⇒ Ein-Schritt Prognose
Xn+1
 
d
∑
d
 (−1)j Xn+1−j

= Yn+1 −
j
j=1
Prognoseintervalle errechnen sich aus den Prognoseintervallen für Yn+1 .
Zeitreihenanalyse@LS-Kneip
4–35
4.8
SARIMA Modelle
SARIMA Modelle beinhalten einen Diﬀerenzenﬁlter,
der auf Elimination der Saisonﬁgur abzielt. Man betrachtet also Zeitreihen, die zusätzlich zu einem eventuellen Trend eine Saisonﬁgur der Periodizität s besitzen (z.B. s = 4 bei Quartalsdaten, s = 12 für monatliche Daten).
Deﬁnition: Eine Zeitreihe {Xt } wird als
SARIM A(p, d, q) × (P, D, Q)s Prozess (saisonaler
ARIMA Prozess mit Periode s) bezeichnet, falls
Yt = (1 − L)d (1 − Ls )D Xt
ein kausaler ARMA Prozess (mit Mittelwert µY ) der
Form
ϕ(L)Φ(Ls )(Yt − µY ) = θ(L)Θ(Ls )ϵt ,
ϵt ∼ W N (0, σ 2 ), ist, wobei
ϕ(L) = 1 − ϕ1 L − · · · − ϕp Lp
Φ(Ls ) = 1 − Φ1 Ls − · · · − ΦP LP s
θ(L) = 1 + θ1 L + · · · + θq Lq
Θ(Ls ) = 1 + Θ1 Ls + · · · + ΘQ LQs
Zeitreihenanalyse@LS-Kneip
4–36
In der Praxis ist D fast immer 1, P und Q sind in den
meisten Fällen sehr klein. Typischerweise ist s = 12
für monatliche Daten, s = 4 für Quartalsdaten, etc.
• Man betrachte eine Zeitreihe {Xt } von monatlichen Daten, die eine Saisonkomponente der Periodizität s = 12 aufweise. Saisonelimination durch
Diﬀerenzenbildung führt auf
Yt = (1 − L12 )Xt = Xt − Xt−12
Wenn sich nun {Yt } als kausaler ARM A(p, q) Prozess modellieren lässt, so ist {Xt } ein
SARIM A(p, 0, q) × (0, 1, 0)12 Prozess.
• In manchen Anwendungen reicht die Saisonelimination durch Diﬀerenzenbildung jedoch nicht aus,
um eine stationäre Zeitreihe zu erhalten. Beispielsweise kann
Yt∗ = (1 − L12 )Xt = Xt − Xt−12
noch einen Trend besitzen. Man betrachtet dann
∗
Yt = (1 − L)(1 − L12 )Xt = Yt∗ − Yt−1
= Xt − Xt−1 − Xt−12 + Xt−13
Wenn nun {Yt } ein kausaler ARM A(p, q) Prozess ist, so lässt sich die Originalzeitreihe {Xt }
Zeitreihenanalyse@LS-Kneip
4–37
als SARIM A(p, 1, q)×(0, 1, 0)12 Prozess beschreiben.
Die Einführung der zusätzlichen“ Ordnungen P und
”
Q in der Deﬁnition eines SARIMA Modell ist dadurch
motiviert, dass in der Praxis die Lags t−s, t−2s, etc.,
häuﬁg eine Sonderrolle einnehmen. Dies sieht man sehr
einfach bei der Betrachtung deterministischer Komponentenmodelle.
• Eine Zeitreihe von Quartalsdaten besitze eine konstante Saisonﬁgur der Periodizität s = 4 und lasse
sich durch das einfache Komponentenmodell
Xt = β0 + β1 t + St + ϵt
mit St+4 = St für alle t, {ϵt } ∼ W N (0, σ 2 ), beschreiben. Saisonelimination durch Diﬀerenzenbildung führt auf
Yt = (1 − L4 )Xt = 4β1 + ϵt − ϵt−4
{Yt } ist kausal (aber nicht invertierbar) und µY =
4β1 .
Zeitreihenanalyse@LS-Kneip
4–38
– Yt lässt sich als spezieller M A(4) Prozess
Yt = µY + ϵt + θ1 ϵt−1 + θ2 ϵt−2 + θ3 ϵt−3 + θ4 ϵt−4
mit θ1 = θ2 = θ3 = 0 und θ4 = −1 auﬀassen. {Xt }
ist folglich als SARIM A(0, 0, 4)×(0, 1, 0)4 Prozess
beschreibar.
Diese Modellierung von {Xt } ist jedoch unökono”
misch“, da sie in keiner Weise berücksichtigt, dass
θ1 = θ2 = θ3 = 0.
– Eine sinnvollere Modellierung von {Xt } im Rahmen des SARIMA Ansatzes besteht in einer Berschreibung der Zeitreihe als
SARIM A(0, 0, 0) × (0, 1, 1)4 Prozess.
Mit Θ1 = −1 gilt
Yt − µY = ϵt + Θ1 ϵt−4 = Θ(L4 )ϵt
• Als weiteres Beispiel betrachte man
Xt = β0 + β1 t + St + ϵt + θϵt−1
{Xt } ist ein
SARIM A(0, 0, 1) × (0, 1, 1)4 Prozess.
mit Θ1 = −1 und θ1 = θ.
Zeitreihenanalyse@LS-Kneip
4–39
Behandlung von SARIMA Modellen
• Diﬀerenzenbildung und Berechnung von
Yt = (1 − L)d (1 − Ls )D Xt
• Anpassung eines geeigneten ARMA Modells
an die Zeitreihe {Yt }. Dies beinhaltet Parameterschätzung, Modelldiagnose und Modellselektion.
• Die Prognose zukünftiger Werte Yn+1 , Yn+2 , . . .
erfolgt auf der Grundlage der in den Abschnitten
3.5 und 4.4 vorgestellten Prognoseverfahren.
• Eine Prognose zukünftiger Werte Xn+1 , Xn+2 , . . .
der Originalzeitreihe erfolgt über eine Umkehrung der Diﬀerenzenbildung.
Zeitreihenanalyse@LS-Kneip
4–40
4.9
Tests auf Einheitswurzeln
(Unit-Root Tests)
In der Praxis ist es oft von großer Bedeutung zu entscheiden, ob ein Prozesss stationär ist oder einen Trend
besitzt. Neben der Verwendung von Diagnosewerkzeugen (wie ACF, PACF) gibt es Tests, die bei dieser
Entscheidung eine Hilfestellung geben können. Von
besonderer Bedeutung sind die Dickey-Fuller Tests.
Sie beruhen auf der Annahme eines autoregressiven
Prozesses und testen die Hypothese, dass der zugrundeliegenden Prozess eine Einheitswurzel (”uni-root”)
besitzt und daher nicht stationär ist.
Es gibt eine ganze Reihe von verschiedenen DickeyFuller Tests, die sich in den jeweils zugrundeliegenden
Annahmen über die stochastische Struktur der Zeitreihe unterscheiden. Fehlspeziﬁkationen können zu verzerrten Resultaten führen.
1) Einfacher AR(1)-Prozess (keine Konstante, kein
det. Trend)
Xt = ϕXt−1 + ϵt
t = 1, . . . , n. Die zu testende Nullhypothese lautet
H0 : ϕ = 1
d.h., Xt ist ein Random Walk
Zeitreihenanalyse@LS-Kneip
4–41
Mit einem statistischen Programmpaket (z.B: RATS)
lassen sich der Kleinste-Quadrate Schätzer ϕ̂ und eine Approximation v̂ des zugehörigen Standardfehlers
berechnen. Als Teststatistiken werden nun
ϕ̂
t=
v̂
oder t∗ = n · ρ̂(1)
verwendent. Im ersten Fall spricht das RATS Manual von der ”t-Test-Form”, im zweiten Fall von der
”Test-statistic” des Dickey-Fuller Tests.
Das Problem besteht nun darin, dass unter der Nullhypothese H0 : ϕ = 1 die Verteilung von t eine sogenannte Dickey-Fuller Verteilung ist, die nicht durch eine Normalverteilung (bzw. t-Verteilung) approximiert
werden kann. Krtische Werte der Dickey-Fuller Verteilung sind tabelliert; sie können jedoch auch mittels
Monte-Carlo Simulationen berechnet werden.
2) AR(1)-Prozess mit Konstante
Xt = δ + ϕXt−1 + ϵt
Man benutzt die gleichen Test wie bei einem einfachen
AR(1)-Prozess. Die Verteilung von t = ϕ̂v̂ unter der
Nullhypothese verändert sich jedoch durch die Einbeziehung der Konstante δ.
Zeitreihenanalyse@LS-Kneip
4–42
3) AR(1)-Prozess, Konstante und deterministischer
Trend.
Xt = δ + ϕXt−1 + γt + ϵt
Statistische Programmpakete (z.B. RATS) liefern KleinsteQuadrate Schätzer ϕ̂ und γ̂ und die zugehörigen Standardfehler v̂ϕ und v̂γ .
Unter H0 : ϕ = 1 besitzt t = ϕ̂/v̂ϕ wiederum eine Dickey-Fuller Verteilung (dies sich jedoch von den
Verteilungen für einen einfachen AR(1)-Prozess ohne
bzw. mit Konstante unterscheidet).
Statistische Interpretation:
• Annahme von H0 : ϕ = 1 ⇒ stochastischer Trend
+ ev. deterministischer Trend.
• Ablehnung von H0 : ϕ = 1 ⇒ |ϕ| < 1 ⇒ kein
stochastischer Trend, aber eventuell ein deterministischer Trend, falls sich γ̂ signiﬁkant von Null
unterscheidet (die Verteilung von t = γ̂/v̂γ lässt
sich asymptotisch (n groß) durch eine Normalverteilung (bzw. t-Verteilung) approximieren).
– Annahme von H0 : γ = 0: Zeitreihe Xt bereits
stationär
– Ablehnung von H0 : γ = 0: Existenz eines deterministischen Trends; Trendbereinigung durch
Zeitreihenanalyse@LS-Kneip
4–43
Regression und anschließenden Analyse der trendbereinigten Zeitreihe
4) Erweiterter Dickey-Fuller Test: Beim erweiterten
Dickey-Fuller Test wird die stochastische Struktur der
Zeitreihe durch einen AR(p)-Prozess, p > 1, modelliert.
Beispiel: AR(2)
Xt = ϕ1 Xt−1 + ϕ2 Xt−2 + ϵt
oder ∆Xt = (ϕ1 − 1) Xt−1 + ϕ2 Xt−2 +ϵt
=⇒ ∆Xt = (ϕ1 + ϕ2 − 1) Xt−1 − ϕ2 ∆Xt−1 + εt
|
{z
}
π
Man kann zeigen dass die Existenz einer Einheits Wurzel
(Nicht-Stationarität) aequivalent ist zu
H0 : π = ϕ 1 + ϕ 2 − 1 = 0
Man berechnet nun den Kleinste-Quadrate Schätzer π̂
und den zugehörigen Standardfehler v̂π . Als Teststatistik dient t = π̂/v̂π . Unter H0 besitzt t eine DickeyFuller Verteilung.
Verallgemeinerung: AR(p)-Prozess
∆Xt = π Xt−1 − ϕ2 ∆Xt−1 − · · · − ϕp ∆Xt−p+1 + ϵt
Zeitreihenanalyse@LS-Kneip
4–44
mit π = ϕ1 + · · · + ϕp − 1. Als Teststatistik dient
wiederum t = π̂/v̂π .
Natürlich kann auch beim erweiterten Dickey-Fuller
Test entsprechend dem in den Fällen 2) und 3) besprochenen Vorgehen, dem Modell eine Konstante δ
bzw. ein deterministischer Trend hinzugefügt werden.
Allgemeines Vorgehen: Fuer Prozesse, die nicht AR(p)
sind, wählt man p so hoch dass ϵt = Xt −ϕ1 Xt−1 −· · ·−
ϕp Xt−p eine gute Approximation an weisses Rauschen
ergibt (dies ist notwendige Annahme fuer die Gültigkeit der asymptotischen Verteilung nach Dickey-Fuller).
Bei zu vielen Lags verliert der Test an Macht. Häuﬁg
wird das AIC-Kriterium zur Bestimmung der Anzahl
der Lags benutzt.
Verteilung unter H0
Quantile der Verteilungen der Test-Statistiken unter
H0 ﬁndet man in Tafeln. Die folgende Tabelle stammt
aus Fuller, 1976, p. 373 und gilt für die Statistik in
t-Test-Form. Für weitere Tafeln siehe Tabelle B6 in
dem Buch von Hamilton.
Zeitreihenanalyse@LS-Kneip
4–45
no constant,
constant,
constant,
no trend
no trend
trend
1%
5%
1%
5%
1%
5%
n=25
-2.66
-1.95
-3.75
-3.00
-4.83
-3.60
n=50
-2.62
-1.95
-3.58
-2.93
-4.15
-3.50
n=100
-2.60
-1.95
-3.51
-2.89
-4.04
-3.45
n=250
-2.58
-1.95
-3.46
-2.88
-3.99
-3.43
n=500
-2.58
-1.95
-3.44
-2.87
-3.98
-3.42
n=∞
-2.58
-1.95
-3.43
–2.86
-3.96
-3.41
Wir gewinnen einen Eindruck der Verteilung durch
Monte Carlo Simulation (siehe unten). Dies haben wir
auf 1000 simulierten Random Walks der Laenge 100
durchgefuehrt. Die Verteilung wird aus den so erhaltenen 1000 t−Statistiken approximiert und stimmt gut
mit den von Dickey-Fuller bestimmten Quantilen überein .
0.45
0.5
0.40
0.4
0.35
0.30
0.3
0.25
0.20
0.2
0.15
0.10
0.1
0.05
0.00
0.0
-3.2
-2.4
-1.6
-0.8
-0.0
0.8
1.6
2.4
t-test, H0 , keine Konstante
Zeitreihenanalyse@LS-Kneip
-3.6
-2.4
-1.2
0.0
1.2
t-test, H0 , Konstante
4–46
Die Verteilungen gelten approximativ auch im erweiterten Fall, d.h. bei Einbeziehung zusätzlicher Lags.
RATS liefert zur Berechnung verschiedener Tests auf
Einheitswurzeln das Programm dfunit.src. Dieses Programm behandelt nur die Fälle 2) Konstante, ohne
Trend und 3) Konstante + Trend.
**********************************************************************
*this program computes the distribution of the DICKEY-FULLER t-test
*by monte carlo simulation
*using t-statistics of the reg cof for the case of no constant
*and the RATS program dfunit.src for the case of a constant
*ku, mainz, dec.18th, 2003
***********************************************************************
end xxx
*source(noecho) ’C:\Program Files\Estima\WinRATS 5.02\dfunit.src’
source(noecho) D:\utikal\teach\Ws03\rats\arima\unit roots\dfmod1.prg
dec integer nsamp nsim
compute nsam = 100
compute nsim = 1000
allo 100
seed 123
Zeitreihenanalyse@LS-Kneip
4–47
*simulate random walk, compute reg.cof, and write into file
*repeat whithin a loop 1000 times.
do draw = 1,nsim
set x = %RAN(1)
set x 2 nsam = x{1}+%RAN(1)
diff x / difx
set difx = difx{-1}
linreg(noprint) difx
#x
disp %TSTATS
*compare with dfunit.src provided by RATS for the case of an included
constant,
*note: dfmod1 is dfunit, modified to suppress print
*and globalized the output variable ’tttest’ containing value of the t-test
@dfmod1(lags=0,ttest) x
disp tttest
end do draw
Zeitreihenanalyse@LS-Kneip
4–48
Anwendung: CPI
(”consumer price index”), USA, viertel jaehrlich, 1.
Quartal 1959 - 4. Quartal 2000 (168 Beobachtungen).
log cpi
5.25
5.00
4.75
4.50
4.25
4.00
3.75
3.50
3.25
1959
1963
1967
1971
1975
1979
1983
1987
1991
1995
1999
1991
1995
1999
dif1log(cpi)
0.040
0.035
0.030
0.025
0.020
0.015
0.010
0.005
0.000
-0.005
1959
1963
1967
1971
Zeitreihenanalyse@LS-Kneip
1975
1979
1983
1987
4–49
dif2log(cpi)
0.015
0.010
0.005
0.000
-0.005
-0.010
-0.015
1959
1963
1967
1971
1975
1979
1983
1987
1991
1995
1999
Dickey Fuller Test mit Konstante und Trend
zusatz lags
log(cpi)
dif1log(cpi)
dif2log(cpi)
0
-0.49578
-3.71364
-16.35020
1
-1.29347
-2.93138
-14.42225
2
-1.64938
-2.07166
-7.89260
4
-1.74715
-2.47350
-6.06860
Resultat: Der CPI ist oﬀensichtlich I(2).
Zeitreihenanalyse@LS-Kneip
4–50
4.10
Mathematisch statistischer
Anhang
4.10.1
Charakterisierung von
eindimensionalen Verteilungen
z.B.: Haushaltseinkommen in Deutschland, Renditen auf
dem amerikanischen Aktienmarkt, Körpergröße japanischer
Frauen, ...
Verteilungsfunktion F von X:
F (x) = P (X ≤ x) für jedes x ∈ R
• diskrete Zufallsvariable: X nimmt nur abzählbar
viele Werte x1 , x2 , x3 , . . . an
Wahrscheinlichkeitsfunktion: P (X = xi ) = f (xi )
∑
F (x) =
fi
xi ≤x
• stetige Zufallsvariable: Es existiert eine Dichtefunktion f , so daß
∫x
F (x) =
f (x)dx
−∞
Zeitreihenanalyse@LS-Kneip
4–51
Wahrscheinlichkeitsdichte:
Z 1
f (x)
0;
f (x)dx = 1:
+
1
Verteilungsfunktion:
F
F
(x) monoton wachsend
(
1) = 0
;
F
1) = 1
(+
:
1
Verteilungsfunktion
1
Dichtefunktion
0.8
0.6
F(x)
f(x)
0.6
0.8
F(x)
0.4
0.4
f(x)
0.2
0.2
F(b)
F(b)
b
0
b
-3
-2
-1
0
1
x
Zeitreihenanalyse@LS-Kneip
2
3
-3
-2
-1
0
1
2
3
x
4–52
Wichtige Parameter einer stetigen Z.v. X
• Mittelwert (Erwartungswert)
∫ ∞
µ = E(X) =
xf (x)dx
−∞
• Varianz
(
)
2
σ = V ar(X) = E (X − µ) = E(X 2 ) − µ2
2
• Erwartungswert einer transformierten Zufallsvariablen X → g(X)
∫ ∞
E(g(X)) =
g(x)f (x)dx
−∞
Schätzer auf der Grundlage einer einfachen Zufallsstichprobe X1 , . . . , Xn
• Mittelwert: X̄ =
• Varianz: S =
2
1
n
1
n−1
Zeitreihenanalyse@LS-Kneip
∑n
i=1
∑n
Xi
i=1 (Xi
− X̄)2
4–53
Die Normalverteilung N (µ, σ 2 )
Viele statistische Verfahren basieren auf der Annahme, daß eine Z.v. X normalverteilt ist, d.h. X ∼ N (µ, σ 2 )
Wahrscheinlichkeitsdichte:
f (x) =
2
2
√1 e−(x−µ) /2σ
σ 2π
für −∞ < x < ∞, σ > 0
• E(X) = µ, V ar(X) = σ 2
Standardisierte Normalverteilung N (0, 1)
• X ∼ N (µ, σ 2 )
⇒
Z=
X−µ
σ
∼ N (0, 1)
• Standardisierte Dichtefunktion und Verteilungsfunktion
∫ z
2
1
ϕ(x) = √ e−x /2 , Φ(z) =
ϕ(x)dx
2π
−∞
• N (0, 1) ist tabelliert und
P (X ≤ x) = P (
Zeitreihenanalyse@LS-Kneip
X −µ
x−µ
x−µ
≤
) = P (Z ≤
)
σ
σ
σ
4–54
f(x)
0.6
0.8
1
1.2
Dichtefunktion (Normalverteilung)
N(2,1/3)
0.4
N(0,1)
0.2
N(2,1)
N(2,2)
-3
-2
-1
0
1
x
2
3
4
5
6
0
0.1
f(x)
0.2
0.3
0.4
Dichtefunktion (Standard-Normalverteilung N(0,1))
-4
-3
-2
-1
0
x
1
2
3
4
0
0.25
F(x)
0.5
0.75
1
Verteilungsfunktion (Standard-Normalverteilung N(0,1))
-4
-3
-2
-1
Zeitreihenanalyse@LS-Kneip
0
x
1
2
3
4
4–55
4.10.2
Gaußprozesse und die multivariate
Normalverteilung
• Ein n-dimensionaler Zufallsvektor ist ein Spaltenvektor X = (X1 , . . . , Xn )T , dessen einzelne Elemente alle Zufallsvariablen sind.
Diskrete Zufallsvariable: X nimmt nur abzählbar
viele Werte x1 , x2 , · · · ∈ IRn an:
Wahrscheinlichkeitsfunktion:
f (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn )
Stetige Zufallsvariable: Die gemeinsame Verteilung von
X1 , . . . , Xn wird beschrieben durch eine multivariate
Dichtefunktion: f (x1 , . . . , xn )
Eigenschaften von Dichtefunktionen:
• f (x1 , . . . , xn ) ≥ 0
∫∞
∫∞
• −∞ . . . −∞ f (x1 , . . . , xn )dx1 . . . dxn = 1
•
P (X ∈ [a1 , b1 ] × · · · × [an , bn ])
∫ b1
∫ bn
= a1 . . . an f (x1 , . . . , xn )dx1 . . . dxn
Zeitreihenanalyse@LS-Kneip
4–56
Unabhängigkeit:
Die Zufallsvariablen X1 , . . . , Xn sind voneinander
unabhängig, wenn für alle x = (x1 , . . . , xn )T gilt
f (x1 , . . . , xn ) = f1 (x1 ) · f2 (x2 ) · . . . · fn (xn )
• Die obige Deﬁnition ist eine Formalisierung der
intuitiven Idee, dass X1 , . . . , Xn unabhängig voneinander sind, wenn sie sich gegenseitig nicht beeinﬂussen. Kenntnis der Werte von Xi liefert keinerlei Informationen über Xj .
• Beispiel aus der Zeitreihenanalyse: {ϵt } ∼ IID(µ, σ 2 )
⇒ ϵ1 , . . . , ϵn sind voneinander unabhängig
Zeitreihenanalyse@LS-Kneip
4–57
Dichte der zweidimensionalen Standardnormalverteilung: X1 ∼ N (0, 1), X2 ∼ N (0, 1), X1 unabhängig von
X2
1 −x21 /2 −x22 /2
⇒ f (x1 , x2 ) =
e
e
2π
Zeitreihenanalyse@LS-Kneip
4–58
Die wichtigste multivariate Verteilung ist die sogenannte ”multivariate Normalverteilung”.
Ein Zufallsvektor X = (X1 , . . . , Xn )T ist multivariat
normalverteilt, falls folgende Bedingungen erfüllt sind:
• Jede einzelne Variable ist normalverteilt, Xi ∼
N (µi , σi2 ), i = 1, . . . , n
• Jede Linearkombination der Form Y = c1 X1 +
c2 X2 + · · · + cn Xn = ist univariat normalverteilt
∑n ∑n
Y ∼ N (c1 µ1 +· · ·+cn µn , i=1 j=1 cov(Xi , Xj ))
Parameter der multivariaten Normalverteilung:
Mittelwerte, Varianzen und Kovarianzen der einzelnen Variablen.
Spezialfall: i.i.d. Gaußsches Weißes Rauschen: {Xt } ∼
IID(µ, σ 2 ) und Xt ∼ N (µ, σ 2 )
⇒ X = (X1 , . . . , Xn )T multivariat normalverteilt mit
Dichtefunktion:
f (x1 , x2 , . . . , xn ) = f1 (x1 )f2 (x2 ) . . . fn (xn )
n
∑
(xi − µ)2
1
n
) exp(
)
= (√
2
2σ
2πσ
i=1
f (x1 , . . . , xn ) ≡ f (x1 , . . . , xn |µ, σ 2 ) hängt nur von
den Werten von µ und σ 2 ab (alle Kovarianzen = 0)
Zeitreihenanalyse@LS-Kneip
4–59
Im allgemeinen Fall werden alle Varianzen und Kovarianzen der einzelnen Variablen in der sogenannten
Kovarianzmatrix zusammengefasst:

var(X1 )

 cov(X , X )
2
1



·

Σ := 

·



·

cov(X1 , X2 )
·
·
·
var(X2 )
·
·
·
cov(Xn , X1 )
cov(Xn , X2 )
·
·
·
·
·
·

cov(X1 , Xn )

cov(X2 , Xn )



·



·



·

var(Xn )
Dichtefunktion der multivariaten Normalverteilung:
f (x1 , . . . , xn ) =
1
(2π)n/2 |Σ|1/2
1
exp(− (x−µ)T Σ−1 (x−µ))
2
mit x = (x1 , . . . , xn )T und µ = (µ1 , . . . , µn )T
Wir schreiben dann kurz
X = (X1 , . . . , Xn )T ∼ Nn (µ, Σ)
Zeitreihenanalyse@LS-Kneip
4–60
Zeitreihenanalyse: Der Gaußprozess
Zeitreihenanalyse: Ein stochastischer Prozess
{Xt } heißt Normalprozess oder Gaußprozess,
wenn für jede endliche Auswahl von Zeitpunkten t1 , t2 , . . . , tn die entsprechenden n-dimensionalen
Zufallsvariablen Xt1 , . . . , Xtn multivariat normalverteilt sind.
• Für einen Gaußprozess sind strenge und schwache
Stationarität äquivalent.
• Ist X1 , . . . , Xn der beobachtete Abschnitt eines
stationären Gaußprozesses, so gilt
X = (X1 , . . . , Xn )T ∼ Nn (µ, Γn )
• Die Parameter dieser multivariaten Normalverteilung sind der gemeinsame Mittelwert µ = E(X1 ) =
· · · = E(Xn ) und die in der Matrix Γn zusammengefassten Werte der Autovarianzfunktion:


γ(0)
γ(1)
· · · γ(n − 1)




γ(1)
γ(0)
·
·
·
γ(n
−
2)




Γn = 
..
..
..



.
.
.


γ(n − 1) γ(n − 2) · · ·
Zeitreihenanalyse@LS-Kneip
γ(0)
4–61
Bei der Analyse von ARMA-Prozessen {Xt } wird häuﬁg
zusätzlich angenommen, dass die Zeitreihe ein GaußProzess ist.
• ARM A(p, q)-Prozess (mit Mittelwert µ):
Xt − µ =ϕ1 (Xt−1 − µ) + · · · + ϕp (Xt−p − µ)
+ ϵt + θ1 ϵt−1 + · · · + θq ϵt−q
Falls X1 , . . . , Xn multivariat normal sind, so erhält
man die Dichtefunktion
f (x1 , . . . , xn ) =
1
1
T −1
(x−µ)
Γn (x−µ))
exp(−
2
(2π)n/2 |Γn |1/2
• Die Elemente der Autokovarianzmatrix Γn (=
Werte von γ(h)) errechnen sich in Abhängigkeit
von µ, ϕ1 , . . . , ϕp , θ1 , . . . , θp und σ 2 . Die Struktur
der Dichtefunktion
f (x1 , . . . , xn ) = f (x1 , . . . , xn |µ, ϕ, θ, σ 2 )
lässt sich daher aus den Koeﬃzienten des Prozesses berechnen.
Zeitreihenanalyse@LS-Kneip
4–62
4.10.3
Maximum Likelihood-Schätzung
Beispiel: Eine Firma besitze einen relativ großen Lagerbestand an Glühbirnen. Um sich einen Eindruck
von dem Anteil defekter Glühbirnen zu verschaﬀen,
wird eine Zufallsstichprobe von 5 Birnen gezogen. 3
davon sind defekt.
Statistisches Modell:

 1
• Zufallsvariable X =
 0
falls Glühbirne defekt
sonst
X ∼ Bernoulli(p)
p = P [X = 1] - Anteil der defekten Glühbirnen
• Einfache Zufallsstichprobe X1 , . . . , X5 . Die beobachteten Werte sind
x1 = 1, x2 = 0, x3 = 1, x4 = 1, x5 = 0
Problem: Schätzung des wahren Wertes von p?
Idee der Maximum Likelihood-Schätzung: Man
betrachtet alle möglichen Werte 0 ≤ p ≤ 1 und wählt
dann denjenigen aus, der die beobachteten Daten am
besten erklärt.
Zeitreihenanalyse@LS-Kneip
4–63
Die Wahrscheinlichkeit, genau die beobachtete Stichprobe x1 , . . . , x5 zu ziehen, hängt von p ab:
P [X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 , X5 = x5 |p]
= P [X1 = x1 ] · P [X2 = x2 ] · P [X3 = x3 ]
· P [X4 = x4 ] · P [X5 = x5 ]
= p · (1 − p) · p · p · (1 − p)
= p3 (1 − p)2
⇒ Für alle p ∈ [0, 1]: Falls p der wahre Wert ist, so
gilt
L(p) = P [X1 = x1 , . . . , X5 = x5 |p] = p3 (1 − p)2
L(p) wird als Likelihoodfunktion“ bezeichnet.
”
Für alle 0 ≤ p ≤ 1 gibt L(p) also die Wahrscheinlichkeit an, dass die beobachteten Werte x1 , . . . , x5 auftreten, falls der betrachtete Wert p gleich dem wahren Wert ist. Der Ansatz der Maximum LikelihoodSchätzung besteht nun darin, denjenigen Wert auszuwählen für den diese Wahrscheinlichkeit maximal
ist.
• p = 0 ⇒ L(p) = 0 ⇒ beobachtete Werte unmöglich!
Zeitreihenanalyse@LS-Kneip
4–64
• p = 0, 1 ⇒ L(p) = 0, 13 · 0, 92 = 0, 00081
• p = 0, 2 ⇒ L(p) = 0, 23 · 0, 82 = 0, 00512
0.04
0.03
L(p)
0.02
0.01
0.00
0.0
0.2
0.4
0.6
0.8
1.0
p
L(p) wird am Punkt p = 0.6 maximal ⇒ p̂ = 0.6 ist
die Maximum Likelihood-Schätzung“ des unbe”
kannten wahren Wertes von p.
p̂ = 0.6 ist im Beispiel derjenige Wert von p ∈ [0, 1],
für den die Wahrscheinlichkeit, dass gerade die beobachteten Werte x1 , . . . , x5 auftreten, maximal ist.
Zeitreihenanalyse@LS-Kneip
4–65
Das Maximum Likelihood-Prinzip
Das obige Beispiel liefert eine Illustration des Maximum Likelihood-Prinzip zur Konstruktion einer Schätzfunktion. Allgemein lässt sich dieses Prinzip folgendermaßen darstellen:
Statistisches Modell:
• n Zufallsvariablen
X1 , . . . , Xn Die gemeinsame Verteilung der Xi hängt
von einem Parameter(vektor) ϑ ab, dessen wahrer
Wert unbekannt ist.
• beobachtete (realisierte) Werte: x1 , . . . , xn
Problem: Schätze ϑ
1. Schritt: Berechnen der Likelihoodfunktion L(ϑ)
Die Likelihoodfunktion ergibt sich in Abhängigkeit von
allen prinzipiell möglichen Werten von ϑ. Sie quantiﬁziert (bei diskreten Zufallsvariablen) die Wahrscheinlichkeit, dass gerade die beobachteten Werte x1 , . . . , xn
auftreten, falls der wahre Wert des Parameter(vektors)
mit dem betrachteten Wert ϑ übereinstimmt.
Zeitreihenanalyse@LS-Kneip
4–66
• Diskrete Verteilung mit Wahrscheinlichkeitsfunktion f (x1 , . . . , xn ) ≡ f (x1 , . . . , xn |ϑ)
L(ϑ) ≡ L(x1 , . . . , xn |ϑ) = P [X1 = x1 , . . . , Xn = xn |ϑ]
= f (x1 , . . . , xn |ϑ)
• Stetige Verteilung mit Dichtefunktion f
L(ϑ) ≡ L(x1 , . . . , xn |ϑ) = f (x1 , . . . , xn |ϑ)
2. Schritt: Maximieren von L(ϑ) bezüglich allen prinzipiell möglichen Werten ϑ liefert die Maximum
”
Likelihood-Schätzung“ ϑ̂ des wahren Parameterwertes,
L(ϑ̂) = max L(ϑ)
ϑ
Schätzwert: ϑ̂ ⇔ arg max L(x1 , . . . , xn |ϑ)
ϑ
Schätzfunktion: ϑ̂ ⇔ arg max L(X1 , . . . , Xn |ϑ)
ϑ
Zeitreihenanalyse@LS-Kneip
4–67
Illustration: Maximum Likelihood-Schätzung des Mittelwerts µ von i.i.d. Gaußschem Weißen Rauschen mit
bekannter Varianz σ 2 = 1 (n = 20)
(
)
2
L(µ) = f (x1 |µ) · · · f (x20 |µ); f (x|µ) = √12π exp − (x−µ)
2
µ = 2 ⇒ Likelihood L(2) klein:
0.4
0.3
f(xi| 2)
0.2
0.1
0.0
-2
-1
0
1
2
3
4
3
4
x
µ = 1 ⇒ Likelihood L(1) > L(2)
0.4
0.3
f(xi| 1)
0.2
0.1
0.0
-2
-1
0
1
2
x
Maximale Likelihood für µ = x̄ = −0.29 ⇒ µ̂ = −0.29
0.4
0.3
f(xi|-0.29)
0.2
0.1
0.0
-2
-1
0
1
2
3
4
x
Zeitreihenanalyse@LS-Kneip
4–68
Anwendung: Maximum Likelihood-Schätzung
eines Anteilswertes
• X1 , . . . , Xn unabhängig und identisch verteilt;
Xi ∼ Bernoulli(p);
zu schätzen: wahrer Anteilswert p
• beobachtet: s =
n
∑
xi mal 1“ und n − s mal 0“
”
”
i=1
• Damit ergibt sich
L(p) = P [X1 = x1 ] · · · P [X2 = x2 ] . . . P [Xn = xn ]
= ps (1 − p)n−s
• Maximum-Likelihood: p̂ maximiert L(p)
• Eine Lösung des Maximierungsproblems ergibt sich
durch Ableiten und Nullsetzen:
∂L(p)
= sps−1 (1 − p)n−s − ps (n − s)(1 − p)n−s−1
∂p
⇒ 0 = sp̂s−1 (1 − p̂)n−s − p̂s (n − s)(1 − p̂)n−s−1
∑n
s
i=1 xi
⇒ p̂ = =
= x̄
n
n
• Berechnung der zweiten Ableitung: L(p) nimmt
an der Stelle p̂ ein Maximum an.
⇒ p̂ = X̄ ist Maximum Likelihood-Schätzer des Anteilswertes
Zeitreihenanalyse@LS-Kneip
4–69
Logarithmierte Likelihood
Vorgehen zur Bestimmung einer Maximum LikelihoodSchätzung: Ableiten von L(ϑ) und anschließendes Nullsetzen.
Problem: Oft unfreundliche“ Ausdrücke
”
Ausweg: Vereinfachung der Berechnungen durch Verwendung der
Log-Likelihoodfunktion“ ln L(ϑ)
”
• ϑ̂ maximiert L(ϑ) ↔ ϑ̂ maximiert ln L(ϑ)
Ansatz zur Berechnung von ϑ̂:
1. Diﬀerenzieren: l(ϑ) =
∂ ln L(ϑ)
∂ϑ
2. Nullsetzen: ϑ̂ Lösung von l(ϑ̂) = 0
3. Veriﬁkation, dass ϑ̂ wirklich ein Maximum ist
Achtung: Ist ϑ = (ϑ1 , . . . , ϑk )′ eine Parametervektor,
so beinhaltet dies die Berechnung aller k partiellen
Ableitungen und eine anschließende Lösung des (evtl
nichtlinearen) Gleichungssystems l(ϑ̂) = 0.
Zeitreihenanalyse@LS-Kneip
4–70
Anwendung: Maximum Likelihood-Schätzung des Mittelwerts von Gaußschem Weißen Rauschen
• Sei {Xt } ∼ IID(µ, σ 2 ) mit
Xt ∼ N (µ, σ 2 ); σ 2 bekannt
zu schätzen: wahrer Mittelwert µ
• n beobachtete Werte der Zeitreihe: x1 , . . . , xn
• Likelihoodfunktion:
L(µ) = f (x1 |µ) · · · f (xn |µ)
n
∑
(xi − µ)2
1
n
= (√
) exp(
)
2
2σ
2πσ
i=1
• Log-Likelihoodfunktion:
∑ (xi − µ)2
1
ln L(µ) = n · ln √
+
−
2σ 2
2πσ i=1
n
• Ableitung nach µ:
∂ ln L(µ) ∑ (xi − µ)
l(µ) =
=
−
2
∂µ
σ
i=1
n
Zeitreihenanalyse@LS-Kneip
4–71
• Berechnung von µ̂:
0 = l(µ̂) =
n
∑
−
i=1
⇒0=
n
∑
(xi − µ) =
i=1
∑n
⇒ µ̂ =
i=1
n
xi − µ
σ2
n
∑
xi − nµ
i=1
xi
= x̄
Anmerkung: Durch analoge Rechnungen ergibt sich
bei unbekannter Varianz
1∑
2
s̃ =
(xi − x̄)2
n i=1
n
als Maximum Likelihood-Schätzung von σ 2
Zeitreihenanalyse@LS-Kneip
4–72
4.10.4
Schätzer und ihre Verteilungen
Sei X ∼ N (µ, σ 2 )
Einfache Zufallsstichprobe: X1 , . . . , Xn
Dann gilt:
σ2
X̄ ∼ N (µ, )
n
⇒ Konﬁdenzintervall zum Niveau 1 − α für µ bei
bekannten σ
σ
µ ∈ [X̄ ± z1−α/2 √ ]
n
z1−α/2 - 1 − α/2-Quantil der Standardnormalverteilung; z0.975 = 1.96
√
n(X̄ − µ)
∼ Tn−1
S
Tn−1 - Studentsche t-Verteilung mit n − 1 Freiheitsgraden
⇒ Konﬁdenzintervall für µ bei unbekannter Varianz
S
µ ∈ [X̄ ± t1−α/2;n−1 √ ]
n
Zeitreihenanalyse@LS-Kneip
4–73
S2
(n − 1) 2 ∼ χ2n−1
σ
χ2n−1 - χ2 Verteilung mit n − 1 Freiheitsgraden
Zentraler Grenzwertsatz
Seien X1 , . . . , Xn unabhängig und identisch verteilte
Zufallsvariablen mit E(Xi ) = µ und V ar(Xi ) = σ 2 >
0.
• Die Folge von Zufallsvariablen
∑n
(
)
√
Xi − nµ
X̄ − µ
√
Zn = i=1
= n
σ
nσ 2
konvergiert mit steigendem n gegen die standardisierte Normalverteilung N (0, 1)
• Für genügend
großes n sind die Beziehungen X̄ ∼
√
2
S2
2
N (µ, σn ), n(X̄−µ)
∼
T
,
(n
−
1)
∼
χ
2
n−1
n−1
S
σ
approximativ erfüllt.
Zeitreihenanalyse@LS-Kneip
4–74
4.10.5
Statistische Testverfahren
Beispiel: t-Test
Einfache Zufallsstichprobe: X1 , . . . , Xn unabhängig
und identisch N (µ, σ 2 ) verteilt.
• Einseitiger Test
Nullhypothese H0 : : µ = µ0
Alternative H1 : µ > µ0
• Zweiseitiger Test
Nullhypothese H0 : µ = µ0
Alternative H1 : µ ̸= µ0
Statististischer Test: Verfahren zur Entscheidung zwischen H0 und H1 auf der Grundlage der beobachteten Daten
Fehler 1. Art: H0 wird abgelehnt, obwohl H0 richtig ist
Fehler 2. Art: H0 wird angenommen, obwohl H0
falsch ist
Signifikanztest zum Niveau α (z.B. α = 5%)
P ( Fehler 1. Art ) ≤ α
Zeitreihenanalyse@LS-Kneip
4–75
Teststatistik des t-Tests:
√
n(X̄ − µ0 )
T =
S
Test zum Niveau α
• Einseitiger Test: Ablehnung von H0 , falls
Tbeobachtet ≥ tn−1;1−α
• Zweiseitiger Test: Ablehnung von H0 , falls
|Tbeobachtet | ≥ tn−1;1−α/2
Der p-Wert (Überschreitungswahrscheinlichkeit):
• Einseitiger Test:
p-Wert = P (Tn−1 ≥ Tbeobachtet )
• Zweiseitiger Test:
p-Wert = P (|Tn−1 | ≥ |Tbeobachtet |)
Zeitreihenanalyse@LS-Kneip
4–76
Allgemein: p-Wert = Wahrscheinlichkeit, unter H0
den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten.
Interpretation:
• ”Glaubwürdigkeit” von H0 : H0 ist wenig glaubwürdig,
falls der p-Wert sehr klein ist
• Der in einer konkreten Anwendung berechnete pWert hängt von dem beobachteten Datensatz
ab. Er liefert Informationen über die Resultate der
zugehörigen Signiﬁkanztests zu den verschiedenen
Niveaus α :
α > p-Wert ⇒
Ablehnung von H0
α < p-Wert ⇒
Beibehaltung von H0
In der Praxis:
• Test ”signiﬁkant”, falls p-Wert < 0.05 (d.h. ein
Test zum Niveau 5% führt zur Ablehnung von H0 )
• Häuﬁg: Test ”schwach ”signiﬁkant, falls 0.05 >
p-Wert > 0.01 (d.h. ein Test zum Niveau 5% führt
zur Ablehnung von H0 ; ein Test zum Niveau 1%
führt dagegen zur Beibehaltung von H0 )
Zeitreihenanalyse@LS-Kneip
4–77
Beispiel:
Daten: X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 =
16.50, X5 = 18.90, n = 5.
⇒ X̄ = 18.1
Testproblem: H0 : µ = 17 gegen H1 : µ ̸= 17
√
5(18.1 − 17)
Tbeobachtet =
= 2.187
1.125
⇒ p-Wert = P (|Tn−1 | ≥ 2.187) = 0.094
Tests zu verschiedenen Niveaus α:
α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von
H0
α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von
H0
α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187
⇒ Ablehnung von H0
α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von
H0
α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von
H0
Zeitreihenanalyse@LS-Kneip
4–78