Zeitreihenanalyse WS 2004/2005 Michael Hauhs / Gunnar Lischeid • Definition einer Zeitreihe, Eigenschaften • Tests und Trenderkennung bei Zeitreihen • Beispiele (ACF, Tests), Fouriertransformationen, Powerspektrum • Zeitreihenmodellierung der ARMA-Klasse • Modellierung von Zeitreihen mit langem Gedächtnis • Kausalität, Transferfunktionen, multivariate Methoden • Skalierung, (Multi-)Fraktale • Komplexität und Information von Zeitreihen • Wavelets Trendanalyse Zugrundeliegendes Modell (additives Komponentenmodell): X (t ) f ( X (t ), Y (t )) S (t ) TD (t ) TS (t ) (t ) Y (t ) externe Faktoren S (t ) saisonale Komponente TD (t ) TS (t ) (t ) deterministischer Trend stochastischer Trend stationäres Rauschen Globaler monotoner Trend: "im Mittel wächst X(t) an / fällt ab" => Trend des Mittelwerts (= 1. Moment der Verteilung) Der Mann-Kendall Test Anwendung des Kendall-Tests auf Zeitreihen (d.h., sortiert nach Zeit, ohne doppelte Einträge) => Trendtest: n 1 S n sgn( x(t k 1 j k 1 j ) x(t k )) 1 x 0 sgn( x) 0 x 0 1 x 0 Für die H0-Hypothese (= "es gibt keinen Trend") gilt dann: E (S ) (S ) 0 var( S ) 2 ( S ) n(n 1) (2n 5) 18 => normalverteilt => Ableitung der Testgröße: Abweichung der beobachteten (normierten) S von den laut H0 erwarteten Der Mann-Kendall Test beachte: Korrektur für verbundene Ränge (Ranggleichheit) notwendig => statt var( S ) 2 ( S ) var( S ) 2 ( S ) n(n 1) (2n 5) 18 p n(n 1) (2n 5) t j (t j 1) (2t j 5) j 1 18 wobei tj = Anzahl der verbundenen Ränge (ties) S , D wobei D = maximal mögliche Anzahl der Konkordanzen: => Teststatistik: 1 1 p 1 D (n(n 1) t j (t j 1) n(n 1) 2 2 j 1 2 Erweiterung auf saisonale Daten: saisonaler Mann-Kendall Test n Beobachtungen pro Saisonteil (z.B. fester Tag im Jahr), m Saisonteile pro Saison (z.B. 365 Tage/Jahr) xig i-te Beobachtung im g-ten Saisonteil n 1 n S g sgn( x jg xig ), g n(n 1)( 2n 5) / 18 i 1 j i 1 m m S S g , g2 cov( S g S h ) g 1 2 S g 1 g ,h g h • Entmaskierung von Gesamttrends • Trends in einzelnen Saisonteilen (z.B. Monaten) Regressionsanalyse zur Trendbeseitigung k m(t ) i mi (t ) mi (t ) beliebig, aber bekannt (z.B. mi (t ) t i ) i 1 n Methode der kleinsten Quadrate: Q ( x(t ) m(t )) 2 minimieren! t 1 Normalgleichungen n c111 c12 2 ... c1k k x(t )m1 (t ) t 1 n c21 2 c22 2 ... c2 k k x(t )m2 (t ) t 1 n ck1 1 ck 2 2 ... ckk k x(t )mk (t ) t 1 n (C ) ij cij mi (t )m j (t ) t 1 Fehler der Schätzwerte: 2 ( j ) (C 1 ) jj Desaisonalisierung Vermutet wird eine (natürliche) Periode s in den Daten. x(t m ,r ) r-te Messung der m-ten Stelle (r 1,..., n; m 1,..., p) Unnormierte Desaisonalisierung: ~ x (t m ,r ) x(t m ,r ) m Normierte Desaisonalisierung: ~ x (t m,r ) ( x(t m,r ) m ) / m 2km 2km m A0 Ak cos Bk sin s s k 1 F 2km 2km m C0 Ck cos Dk sin s s k 1 F Additive Modelle zur Darstellung einer Zeitreihe Zugrundeliegendes Modell (additives Komponentenmodell): X (t ) f ( X (t ), Y (t )) S (t ) TD (t ) TS (t ) (t ) Globaler monotoner Trend: „im Mittel wächst X(t) an / fällt ab“ Frequenzraumdarstellung von Zeitreihen • bisher: Zeitreihen wurden durch ihre Werte dargestellt (Zeitdomäne): x = x(t) • alternativ: Darstellung in einem Funktionenraum - möglich für jede Funktion in einem n-dimensionalen Vektorraum: x x( f ) ck k (t ) k 1 ck : Koeffizienten k: Basisfunktionen • sinnvolle Wahl des Funktionenraums: additiv (Superposition) => orthogonale Funktionen Orthogonalsysteme • Zwei Vektoren A und B heißen orthogonal wenn: a1 b1 A B 0 A B cos( ) a2 b2 a1b1 a2b2 a3b3 a b 3 3 • vergleiche: Orthogonalität = "Unabhängigkeit", "Unkorreliertheit" im statistischen Sinne => Veränderung eines Vektor hat keine Auswirkungen auf den anderen Vektor: Superposition 0 i j i (t ) (t )dt 0 i j * j 0 i j i (t k ) (t k ) k 0 i j (kontinuierlicher Fall) * j (diskreter Fall) Orthogonalsystem: sin(x), cos(x) • Wahl von sin(x) und cos(x) als Basisfunktionen kt 2 kt : k 0, 1, ..., N / 2 sin 2 , cos N N bzw. Darstellung als komplexe Zahl: i2 ktN N N : 1 k e 2 2 Wiederholung: Komplexe Zahlen z x iy Re z i Im z z ei i 2 1 alternative Darstellung in Polarkoordinaten (φ, ρ): x i y [cos( ) i sin( )] xi y x2 y2 Eulersche Gleichung: ei cos i sin ei 1 Taylorreihendarstellung der trigonometrischen Funktionen • generell: ( x a )1 ( x a) 2 ( x a) n 1 '' ( n 1) f ( x) f (a) f (a) f (a) ... f (a) Rn 1! 2! (n 1)! ' Rn f (n) ( x a) n ( x0 ) n! • für f(x) = ex und a = 0 : • analog für f(x) = eix : a x0 x x 2 x3 x4 x5 e 1 x ... 2! 3! 4! 5! x 2 ix3 x 4 ix5 ix e 1 ix ... 2! 3! 4! 5! x 2 3 x 1x 5 =>x 7 i • für a = 0 : sin( x) x ... x2 x4 x6 cos( x) 1 ... 3! 5! 7! 2! 4! 6! Exponent n 70 1 2 3 4 5 6 7 8 3 5 ix ix ix i sin( x) ix ... ix => e i sin( n = 3 ! 5 ! 7 ! i 1 i -1 -i 1 cos( i x) -1 -i x) 1 Frequenzen, Zeiten, Längen, Perioden, ... Eine äquidistante Zeitreihe mit Messintervall (Zeitauflösung) t und N Werten Länge der Messperiode T Nt Anzahl der Perioden im Datensatz k T / Pk Periodenlänge Pk T / k 1 / f 2 / k 1 k k fk Pk 2 N t Frequenz Kreisfrequenz k 2 / Pk 2 f k harmonische Frequenz k 2 t k T k N k 1 2 T P Grundfrequenz, Frequenzauflösung min T N t Nyquist-Theorem, Abtasttheorem max t k min 1 Pmax T k max N / 2 Pmin 2t Frequenzen, Zeiten, Längen, Perioden, ... Eine äquidistante Zeitreihe mit Messintervall (Zeitauflösung) t und N Werten Länge der Messperiode T Nt Anzahl der Perioden im Datensatz k T / Pk Periodenlänge Pk T / k 1 / f 2 / k 1 k k fk Pk 2 N t Frequenz Kreisfrequenz k 2 / Pk 2 f k harmonische Frequenz k 2 k T k N k 1 2 T Grundfrequenz, Frequenzauflösung min Nyquist-Theorem, Abtasttheorem max t k min 1 Pmax T k max N / 2 Pmin 2t Fourieranalyse = harmonische Analyse J.B.J. Fourier (1807): Jede stetige und periodische Funktion kann (beliebig genau) dargestellt werden als Superposition einer Serie harmonischer Schwingungen unterschiedlicher Frequenzen. => Entwicklung in eine unendliche trigonometrische Reihe: a0 kt kt x(t ) [ak sin( 2 ) bk cos(2 ] 2 k N N Voraussetzungen (= Dirichletsche Bedingungen): 1. Die Funktion muss sich in endlich viele Teilintervalle zerlegen lassen können, in denen jeweils x stetig und monoton ist. 2. In den Unstetigkeitsstellen (Sprungstellen) existiert jeweils der links- und der rechtsseitige Grenzwert. Fourierkoeffizienten • hier: für periodische, diskrete, äquidistante Zeitreihen mit N Werten • Schätzung der Koeffizienten für die kte harmonische Frequenz: 2 N k ak xi sin( 2 ti ) N i 1 N 2 N k bk xi cos( 2 ti ) N i 1 N • Ausnahme für k = N/2: aN / 2 0 bN / 2 1 2 N xi cos( 2 ( N / 2) t ) 2 N i 1 Fouriertransformation Für unendlich lange Zeitreihen gibt es alle Frequenzen 1 f ( ) 2 1 x(t ) 2 Spektrum von x t k i t x t e k f eit d Merkmale: • umkehrbar • existiert für absolut integrierbare Funktionen • zeitglobal • Stationarität prinzipiell erforderlich Beispiel für eine Fourierapproximation 1 Term: Mittelwert 2 Terme 3 Terme 5 Terme 10 Terme 100 Terme Aliasing = "Frequenzmissdeutung" = "Einstrahlen" höherer Frequenzen in den niedrigen Bereich aufgrund der endlichen Länge/Auflösung des Datensatzes: Parsevalsches Theorem Die totale Varianz der Werte ist gleich der Summe der Varianzen der einzelnen Frequenzen: k 1 (a b ) (ai2 bi2 ) (ak2 bk2 ) 2 T 2 1 2 1 i 2 Energie ist im Zeit- und Frequenzraum gleich Def.: Energie eines Signals: E x ( tk ) k 2 Periodogramm • Aufteilung der Varianz auf die einzelnen Frequenzen: s2(k) (= spektrale Varianz) gegen k aufgetragen • Berechnung anhand der Fourier-Koeffizienten: N I ( k ) a b 2 2 k 2 k Periodogramm = Darstellung der Varianzanteile für die einzelnen Frequenzen bzw. Phasenlängen 25 25 20 20 25 25 15 15 20 20 10 10 15 5 5 10 0 0.00 0.05 0.10 0.15 0.20 0.25 Frequenz 0.30 0.35 0.40 0.45 Periodogramm-Werte Periodogramm-Werte 15 10 0 50.50 5 0 0 2 4 6 8 10 12 14 16 Periode 18 20 22 24 26 28 30 0 32 Aufgabe 1. Berechnen Sie in Excel die Fourierkoeffizienten für den Datensatz in Aufgabe_Fourieranalyse.xls. 2. Erstellen Sie anhand der Fourierkoeffizienten ein Periodogramm. 3. Rekonstruieren Sie die Zeitreihe als Superposition der entsprechenden sin- und cos- Funktionen. 4. Führen Sie mit den Daten eine Fourieranalyse in Statistica durch und vergleichen Sie die Ergebnisse.