ifo Institut für Wirtschaftsforschung an der Universität München Zeitreihenökonometrie Kapitel 4 – Schätzung univariater Zeitreihenmodelle ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Yt = c + α1Yt −1 + … + α pYt − p + ε t + β1ε t −1 + … + β qε t − q Problem: Direkte Schätzung der Parameter α1 ,… ,α p und β1 ,… ,βq über OLS nicht möglich, da die Residuen εi ( mit i=1,...,N ) nicht bekannt sind. Es existieren verschiedene Methoden zur Schätzung von ARMA Modellen • Momentenmethode (Yule-Walker Gleichungen) • Kleinste-Quadrate Schätzungen (OLS) ¾ Conditional Least Squares (CLS) ¾ Unconditional Least Squares (UCLS) • 2 Maximum-Likelihood Schätzungen (ML) => Voraussetzung: Modellordnung (p,q) des ARMA-Prozesses ist bekannt !!!! ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Momentenmethode Die Idee der Momentenmethode besteht darin, so viele empirische Momente mit den theoretischen Momenten gleichzusetzen, wie es Parameter zu schätzen gibt, und die resultierenden Gleichungen nach den unbekannten Parametern aufzulösen. Für reine AR-Prozessen liefert die Momentenmethode optimale Schätzer. Für reine MAProzesse oder gemischte ARMA-Prozesse sind diese Schätzer jedoch i.A. nicht optimal. Die Werte dienen dann oft als Startwerte für iterative Methoden. Ein Beispielverfahren ist die Yule-Walker Gleichung, bei der die Schätzer der ARKoeffizienten iterativ aus den empirischen Autokorrelationsfunktionen berechnet werden. 3 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Momentenmethode Für AR(p)-Prozesse sind die YULE-WALKER-Schätzer optimal in dem Sinne, dass Sie für T → ∞ die kleinste Varianz besitzen. Grund: AR(p)-Modelle sind linear in den Koeffizienten und YULE-WALKER-Schätzer sind damit im Wesentlichen KQ-Schätzer. Im Prinzip können die YULE-WALKER-Schätzer auch für MA(q)- und ARMA(p,q)-Prozesse mit q > 0 angewendet werden. Die YULE-WALKER-Schätzer sind dann jedoch nicht mehr in dem oben beschriebenen Sinne optimal. Bereits die Anwendung auf den MA(1)-Prozess zeigt, dass dies zu einem nichtlinearen Gleichungssystem für die beiden Parameter führt, das u.U. keine oder mehrere Lösungen hat. 4 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Kleinste-Quadrate Schätzungen (OLS) von ARMA Modellen Yt = c + α1Yt −1 + … + α pYt − p + ε t + β1ε t −1 + … + β qε t − q Ziel: Minimierung der Quadratsumme der Residuen N ∑ε i =1 2 i → min Beispiel: ARMA(1,1) Yt = α1Yt −1 + ε t + β1ε t −1 ε t = Yt − α1Yt −1 − β1ε t −1 Bestimmung der unbekannten 5 εt : • Vernachlässigung der Startwerte (CLS) • Schätzung geeigneter Startwerte (UCLS) ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Conditional Least Squares Schätzung (CLS) Initialisierung: Yt = ε t = 0 für t ≤ 0 ε t = Yt − α1Yt −1 − β1ε t −1 Berechne rekursiv: Es gehen aber die ersten p-Beobachtungen verloren !!! für t 0 ε1 = Y1 ε 2 = Y2 − α1Y1 − β1ε1 = Y2 − α1Y1 − β1Y1 = Y2 − Y1 ( β1 + α1 ) ε 3 = Y3 − α1Y2 − β1ε 2 = Y3 − α1Y2 − β1 (Y2 − Y1 ( β1 + α1 ) ) N Minimiere die nichtlineare Funktion: 6 min ∑ ε i2 α1 , β1 i =1 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Unconditional Least Squares Schätzung (UCLS) • ARMA(p,q)-Prozess lautet bei der ersten Beobachtung wie folgt: Y1 = c +α1Y0 + ...+α pY− p+1 + ε1 + β1ε0 + ...+ βqε−q+1 Y0 , Y−1 ,..., Y− p +1 und ε 0 ,..., ε − q +1 • Die Werte sind aber unbekannt. • Bei der UCLS Methode wird für die nicht beobachteten Y−j -Werte jeweils der Mittelwert eingesetzt und die nicht beobachteten Störgrößen ε−k werden jeweils ihrem Erwartungswert Null gleichgesetzt. • Die Kleinst-Quadrat-Schätzung ist auf Grund dieser Annahmen möglich. • Die geschätzten Parameter können bei sehr großem Stichprobenumfang analog zum bekannten Regressionsmodell getestet werden. • 7 Sie sind asymptotisch unverzerrt, konsistent und asymptotisch normalverteilt. ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Maximum Likelihood Schätzung (ML) Das Standardverfahren zur Parameterschätzung bei reinen MA-Modellen und gemischten und ARMA-Modellen ist die Maximum-Likelihood-Methode. Bei dieser Methode werden diejenigen Parameter gewählt, die den Wert der gemeinsamen Dichte an der Stelle der Stichprobe (die vorliegende Zeitreihe) maximieren. Der ML-Schätzer des Parametervektors bei einer gegebenen Stichprobe ist der Vektor, der die Wahrscheinlichkeit(sdichte) genau diese Stichprobe zu erhalten, maximiert. Probleme: 8 • Fehlende Erwartungstreue des ML-Schätzers • Hoher numerischer Rechenaufwand • Verteilungsannahme ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Idee der Maximum Likelihood Schätzung Zusammenfassung aller Modellparameter im Vektor • Verteilungsannahmen bezgl. der Stichprobenvariablen • Berechnung der gemeinsamen Dichtefunktion • Betrachtung der Dichtefunktion als Funktion im unbekannten Parametervektor L (θ ) = fYt ,Yt −1 ,...,Y1 ( yt , yt −1 ,..., y1 ;θ ) • 9 θ = [c α1...α p β1...β q σ 2 ] • Maximiere log ( L (θ ) ) bezgl. θ Y1 ,..., YT fYt ,Yt −1 ,...,Y1 ( yt , yt −1 ,..., y1 ) ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Maximum Likelihood Schätzung (ML) • Die ML Methode geht von der Likelihood Funktion aus, die die Wahrscheinlichkeit, die vorliegende Zeitreihe {Yt }Tt=1 zu beobachten, als Funktion eines Vektors von den Parametern θ beschreibt. • Ziel ist es, den Vektor an Parametern θ zu schätzen, der den natürlichen Logarithmus der Likelihood Funktion maximiert. Wichtig: Die Dichtefunktion einer normalverteilten Zufallsvariable y ist definiert als: ( f Y y μ, σ 10 2 )= ⎛ ( y − μ )2 exp ⎜ − 2 ⎜ 2σ 2 2πσ ⎝ 1 ⎞ ⎟ ⎟ ⎠ ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Sidestep: Bedingte Wahrscheinlichkeiten • Wie groß ist die Wahrscheinlichkeit beim Würfeln eine 2 zu erhalten, wenn man schon weiß, dass eine gerade Zahl gewürfelt wurde? • Wahrscheinlichkeit eine gerade Zahl zu erhalten: P ( A ) = 1 • Wahrscheinlichkeit eine 2 zu würfeln: P (B ) = 1 • Gemeinsame Wahrscheinlichkeit eine 2 und eine gerade Zahl zu erhalten: P (A ∩ B ) = 1 • 2 6 6 Die Wahrscheinlichkeit eine 2 zu erhalten, wenn eine gerade Zahl gewürfelt wurde, kann mit Hilfe der folgenden Gleichung bestimmt werden (bedingte Wahrscheinlichkeit): 1 P (A ∩ B ) P (B A ) = = 6 = 1 3 1 P (A ) 2 11 Bayes Formel ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Sidestep: Bedingte Wahrscheinlichkeiten II • Die einfache gemeinsame Wahrscheinlichkeit von Ereignissen lässt sich wie folgt berechnen: P (A ∩ B ) = P (A ) ⋅ P (B A ) • Bei 3 Ereignissen sind die gemeinsame Wahrscheinlichkeit so aus: P(A ∩ B ∩ C ) = P(A ∩ B) ⋅ P(C A ∩ B) • (1) (2) Setzt man jetzt man die Gleichung (1) in Gleichung (2) ein und nimmt an, dass die bedingte Wahrscheinlichkeit von C nur von B abhängt, erhält man: P (A ∩ B ∩ C ) = P (A ) ⋅ P (B A )⋅ P (C B ) 12 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen AR(1)-Prozess • Für den Prozess iid ( mit ε ~ N 0 , σ t Y t = c + α Y t −1 + ε t 2 ) soll eine ML-Schätzung des Parametervektors θ = (c , α , σ 2 ) erfolgen. • Die Likelihood-Funktion beschreibt für einen gegebenen Parametervektor die Wahrscheinlichkeit dafür, dass die vorliegende Zeitreihe 13 {Y } θ = (c , α , σ T t t =1 realisiert wurde. 2 ) ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Exakte Likelihood Bestimmung • Beginn mit der ersten Realisation • Wir wissen: E ( Y1 ) = μ = E (Y1 − μ ) 2 Y1 des Zeitreihenprozesses {Yt }T . t =1 c 1−α σ2 = 1−α 2 • Auf Grund der Normalverteilung der Störgröße ε t ist auch Y1 normalverteilt. • Die Dichtefunktion der normalverteilten Zufallsvariable lautet: f Y1 ( y1; θ) = 14 1 ( 2πσ2 / 1 − α2 ) ⎛ y − c / (1 − α ) 2 ⎞ (1 ) ⎟ exp ⎜ − ⎜⎜ 2σ2 / 1 − α2 ⎟⎟ ⎝ ⎠ ( ) Y1 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Y 2 = c + α Y1 + ε • Für die zweite Beobachtung gilt: • Die bedingte Wahrscheinlichkeit von Y2 bei gegebenen Normalverteilung von (Y 2 ε2 2 Y1 = y1 ist wegen der auch normalverteilt Y1 = y1 ) ~ N ( c + α y1 , σ 2 ) mit zugehöriger Dichtefunktion ⎡ exp ⎢ − ⎢⎣ ( y2 Für die beiden Zufallsvariablen Y1 und Y2 f Y 2 Y1 ( y 2 y 1 , θ • )= 1 2π σ 2 − c − α y1 ) 2σ 2 2 ⎤ ⎥ ⎥⎦ kann die gemeinsame Dichtefunktion mit Hilfe der bedingten Verteilung berechnet werden: f Y1 , Y 2 15 ( y1 , y2 ,θ )= f Y 2 Y1 (y 2 y1 , θ )⋅ f Y1 ( y1 , θ ) ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • In einem AR(1)-Prozess nehmen die Zufallsvariablen die Zufallsvariable • Y1 , Y2 ,..., Yt −1 nur durch Y t − 1 Einfluss auf Y t . Die bedingte Dichte für Y t ist definiert als: ⎡ ( yt − c − α yt −1 )2 ⎤ fYt Yt−1 ,...,Y1 ( yt yt −1 ,..., y1;θ ) = fYt Yt−1 ( yt yt −1;θ ) = exp ⎢− ⎥ 2 2 σ 2 2πσ ⎢⎣ ⎥⎦ 1 • Die gemeinsame Dichte für die ersten t beobachteten Realisationen von Y t lässt sich nun rekursiv bestimmen fYt ,Yt −1 ,...,Y1 ( yt , yt −1 ,..., y1 ;θ ) = fYt Yt −1 ( yt yt −1 ;θ ) fYt −1 ,Yt −2 ,...,Y1 ( yt −1 , yt − 2 ,..., y1 ;θ ) Und als gemeinsame Dichte bzw. Likelihood Funktion L der gesamten Zeitreihe formulieren: T L ( y1 , y2 ,..., yT ; θ ) = fY1 ( y1 ; θ ) ∏ fYt Yt −1 ( yt yt −1 ; θ ) t =2 16 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Die logarithmierte Likelihood Funktion des AR-Prozesses lässt sich schreiben als: T ln L (θ ) = ln f Y1 ( y1 ; θ ) + ∑ ln f Yt Yt −1 ( yt yt −1 ; θ ) t =2 • Setzt man die Werte der Dichtefunktionen ein, so entsteht folgendes Ergebnis: 2 ⎧ ⎡ ⎤⎫ Y1 − ⎢ c 2 ⎨ ⎥⎬ T ⎡ ⎡ 2 ⎤ ⎩ Yt − c − α Yt −1 ) ⎤ ( ⎣ (1 − α ) ⎦ ⎭ 2 σ 1 1 ln L (θ ) = − ln ( 2π ) − ln ⎢ − ⎡⎣(T − 1) / 2⎤⎦ ln ( 2π ) − ⎡⎣(T − 1) / 2 ⎤⎦ ln (σ ) − ∑ ⎢ ⎥ 2 ⎥− 2 2 2 2 α − 1 σ 2 σ 2 ( ) 2 = t ⎢ ⎥⎦ ⎣⎢ ⎦⎥ ⎣ (1 − α 2 ) erste Beobachtung 17 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Die Maximierung der logarithmierten Likelihood Funktion für eine gegebene Zeitreihe mit Hilfe der unbekannten Parameter c, α und σ 2 liefert die Maximum-Likelihood- Schätzer dieser drei Größen. • Dieses entspricht einem nichtlinearen Optimierungsproblem, so dass eine analytische Darstellung wie bei der linearen Regression nicht möglich ist. • Numerische Verfahren (Newton-Raphson-Algorithmus, Berndt-Hall-Hall-HausmannAlgorithmus) werden hier angewendet. 18 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen Bedingte Maximum-Likelihood-Bestimmung • Bei der bedingten ML-Bestimmung wird die erste Beobachtung nicht als Zufallsvariable betrachtet, sondern als deterministisch gegeben angesehen. • Der erste Teil der Likelihood entfällt und die logarithmierte Likelihood Funktion vereinfacht sich zu folgender Gleichung: ⎡ (Yt − c − α Yt −1 )2 ⎤ ln L (θ ) = − ⎡⎣(T − 1) / 2 ⎤⎦ ln ( 2π ) − ⎡⎣(T − 1) / 2 ⎤⎦ ln (σ ) − ∑ ⎢ ⎥ 2 2 σ t =2 ⎢ ⎥⎦ ⎣ T 2 19 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Die Maximierung dieser reduzierten Form bezüglich der Parameter durch die Minimierung der Summe: c und α erfolgt ⎡ (Yt − c − αYt −1 )2 ⎤ ⎢ ⎥ ∑ 2 2 σ t =2 ⎢ ⎥⎦ ⎣ T • Als Ergebnis aus dem Optimierungsproblem erhält man die bekannten KQ- Schätzer für die Parameter c und α. • Als ML-Schätzer für die Varianz erhält man: T σˆ 2 = 20 ∑ (Yt − cˆ − αˆ Yt −1 ) t=2 T −1 2 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Die Bedingte ML-Schätzung beim AR(1)-Prozess ist für jeden Wert von α zulässig, wohingegen bei der exakten Methode das α betragsmäßig kleiner sein muss als eins, ansonsten sind die Formeln für den Erwartungswert und die Varianz der ersten Zufallsvariable Y1 hinfällig. • Das bedingte Verfahren liefert stets konsistente Schätzer. • In der Regel werden AR(1)- und AR(p)-Prozesse mit Kleinst-Quadrat-Verfahren geschätzt. 21 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Betrachtung MA(1)-Prozess Yt = c + ε t + βε t −1 Ziel ist eine ML-Schätzung des Parametervektors • Für ein gegebenes ε t −1 ist Yt wie folgt verteilt: Yt ε t −1 ~ N(c + βε t −1 , σ 2 ) • Die bedingte Dichte beträgt somit: fY t 22 ε t −1 ( yt εt −1; θ) = ⎡ ( y − c − βε )2 ⎤ t t −1 ⎥ exp ⎢ − 2 2 ⎢ ⎥ 2σ 2πσ ⎣ ⎦ 1 ε t ~ N (0, σ 2 ) iid θ = (c , β , σ 2 ) ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Wir treffen die Annahme, dass die Störgröße in Zeitpunkt t=0 ihrem Erwartungswert entspricht ε o = E (ε o ) = 0 • Daraus folgt: Y1 ε 0 ~ N ( c, σ 2 ) ε1 = y1 − c • Die bedingte Dichte für Y2 kann wie folgt geschrieben werden: ⎡ − ( y2 − c − βε1 )2 ⎤ fY2 Y1 ,ε0 ( y2 y1,(ε 0 = 0),θ ) = exp ⎢ ⎥ 2 2 σ 2 2πσ ⎢⎣ ⎥⎦ 1 23 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Man kann jetzt auch den Wert für die Störgröße in Periode 2 bestimmen: ε2 = Y2 − c − βε1 • Auf diese Art können wir unter der Annahme ε o = 0 die ganze Folge {ε1 , ε1 ,..., ε T } aus der beobachteten Zeitreihe ableiten εt = yt − c − βεt −1 24 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Die bedingte Wahrscheinlichkeit kann jetzt für jede Realisation t mit folgender Gleichung dargestellt werden: fY Y (ε0 =0) t t −1 ,Yt −2 ,...,Y1 , • ( ⎡ − (Yt − c − βεt −1 )2 ⎤ yt yt −1, yt −2 ,..., y1, ( ε0 = 0) ;θ = fYt εt−1 ( yt εt −1;θ ) = exp ⎢ ⎥ 2 2 σ 2 2πσ ⎢⎣ ⎥⎦ ) 1 Die Likelihood Funktion der gesamten Zeitreihe ist somit das Produkt dieser bedingten Dichten L (θ ) = fY T 25 ,YT −1 ,...,Y1 ( ε 0 = 0 ) (y ,y T T −1 ) ,..., y1 ( ε 0 = 0 ) ;θ = fY (ε 1 0 =0 ) (y 1 ( ε 0 = 0 ) ;θ ) ∏ fY Y T t =2 T T −1 ,...,Y1 (ε 0 = 0 ) (y t yt −1 ,..., y1 , ( ε 0 = 0 ) ;θ ) ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Mit den entsprechenden Werten eingesetzt, lautet die bedingte Likelihood Funktion: ln L (θ ) = − T • 2 ln (2 π ) − T Hierbei kann die Folge der 2 ( )− ∑ ln σ T 2 t =1 ε t iterativ berechnet werden: ε t = ( y t − c ) − β 1 ( y t −1 − c ) + ... + ( − 1 ) • ε t2 2σ 2 Dieses Verfahren setzt voraus, dass t −1 β t −1 ( y1 − c ) + ( − 1) β t ε o t β <1 und somit der Einfluss der Annahme ε o = 0 rasch an Bedeutung verliert. Die bedingte ML Schätzung ist dann eine gute Annäherung an die exakte ML Schätzung. 26 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Die Parameter c und β werden nun so gewählt, dass die bedingte Log-Likelihood Funktion maximiert wird. • Die Maximierung stellt wieder ein nichtlineares Optimierungsproblem dar und muss mit Hilfe von numerischen Methoden gelöst werden. • Eine Verallgemeinerung auf den MA(q)-Prozess ist leicht möglich, jedoch werden hier die ersten q Werte ε1,...,ε T 27 ε 0 ,..., ε −q+1 berechnet. gleich Null gesetzt und daraus dann iterativ ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen ARMA(p,q)-Prozess • Für den stochastischen Prozess Yt = c + α1Yt −1 + ... + α pYp + ε t + β1ε t −1 + ... + β qε t −q ε t ~ N (0, σ 2 ) iid mit soll ein ML-Schätzung des Parametervektors θ = (c , α 1 ,..., α p , β 1 ... β q , σ 2 ) erfolgen. Bedingter Likelihood Ansatz • Die Approximation an die Likelihood Funktion erfolgte bei: Y0 , Y−1 ,..., Y− p +1 2. MA(q)-Prozessen durch die Annahmen bezüglich der Störgrößen ε 0 ,..., ε −q +1 3. ARMA(p,q)-Prozesse sowohl auf Y0 , Y−1 ,..., Y− p +1 als auch auf ε 0 ,..., ε −q +1 1. AR(p)-Prozessen durch die Bedingungen an die Anfangswerte 28 ifo Institut für Wirtschaftsforschung an der Universität München Schätzung von ARMA-Prozessen • Wir können anhand dieser Annahmen die Störgröße für jeden Zeitpunkt t wie folgt bestimmen: ε t = Yt − c − α1Yt −1 − ... − α pYt − p − β1ε t −1 − ... − β qε t −q • Die bedingte Likelihood Funktion kann dann mittels der durch Rekursion gewonnenen Werte für ε t bestimmt werden. ln L (θ ) = − T • Analog zur Bedingung dass das Polynom βq 2 ln (2 π ) − T 2 ( )− ∑ ln σ T 2 t =1 ε t2 2σ 2 β < 1 beim MA(1)-Prozess gilt beim ARMA(p,q)-Prozess, (L) invertierbar sein muss, d.h. alle Wurzeln der Gleichung 1 + β 1 z + ... + β q z q = 0 müssen außerhalb des Einheitskreises liegen. • Wenn diese Bedingung erfüllt ist, stellt die bedingte Methode eine gute Approximation für die exakte Likelihood Funktion dar. 29