Kein Folientitel

Werbung
Zeitreihenanalyse
WS 2004/2005
Michael Hauhs / Gunnar Lischeid
• Definition einer Zeitreihe, Eigenschaften
• Tests und Trenderkennung bei Zeitreihen
• Beispiele (ACF, Tests), Fouriertransformationen, Powerspektrum
• Zeitreihenmodellierung der ARMA-Klasse
• Modellierung von Zeitreihen mit langem Gedächtnis
• Kausalität, Transferfunktionen, multivariate Methoden
• Skalierung, (Multi-)Fraktale
• Komplexität und Information von Zeitreihen
• Wavelets
Trendanalyse
Zugrundeliegendes Modell (additives Komponentenmodell):
X (t )  f ( X (t ), Y (t ))  S (t )  TD (t )  TS (t )   (t )
Y (t ) externe Faktoren
S (t ) saisonale Komponente
TD (t )
TS (t )
 (t )
deterministischer Trend
stochastischer Trend
stationäres Rauschen
Globaler monotoner Trend: "im Mittel wächst X(t) an / fällt ab"
=> Trend des Mittelwerts (= 1. Moment der Verteilung)
Der Mann-Kendall Test
Anwendung des Kendall-Tests auf Zeitreihen (d.h., sortiert nach Zeit,
ohne doppelte Einträge) => Trendtest:
n 1
S 
n
 sgn( x(t
k 1 j  k 1
j
)  x(t k ))
 1 x  0

sgn( x)   0 x  0
 1 x  0

Für die H0-Hypothese (= "es gibt keinen Trend") gilt dann:
E (S ) 
 (S )  0
var( S )   2 ( S ) 
n(n  1)  (2n  5)
18
=> normalverteilt
=> Ableitung der Testgröße: Abweichung der beobachteten
(normierten) S von den laut H0 erwarteten
Der Mann-Kendall Test
beachte: Korrektur für verbundene Ränge (Ranggleichheit) notwendig
=> statt
var( S )   2 ( S ) 
var( S )   2 ( S ) 
n(n  1)  (2n  5)
18
p
n(n  1)  (2n  5)   t j (t j  1)  (2t j  5)
j 1
18
wobei tj = Anzahl der verbundenen Ränge (ties)
S
,
D
wobei D = maximal mögliche Anzahl der Konkordanzen:
=> Teststatistik:

1
1 p
1
D
(n(n  1)   t j (t j  1) 
n(n  1)
2
2 j 1
2
Erweiterung auf saisonale Daten:
saisonaler Mann-Kendall Test
n Beobachtungen pro Saisonteil (z.B. fester Tag im Jahr),
m Saisonteile pro Saison (z.B. 365 Tage/Jahr)
xig
i-te Beobachtung im g-ten Saisonteil
n 1
n
S g    sgn( x jg  xig ),  g  n(n  1)( 2n  5) / 18
i 1 j i 1
m
m
S   S g ,     g2   cov( S g S h )
g 1
2
S
g 1
g ,h
g h
• Entmaskierung von Gesamttrends
• Trends in einzelnen Saisonteilen (z.B. Monaten)
Regressionsanalyse zur Trendbeseitigung
k
m(t )    i mi (t )
mi (t ) beliebig, aber bekannt (z.B. mi (t )  t i )
i 1
n
Methode der kleinsten Quadrate: Q   ( x(t )  m(t )) 2
minimieren!
t 1
 Normalgleichungen
n
c111  c12  2  ...  c1k  k   x(t )m1 (t )
t 1
n
c21 2  c22  2  ...  c2 k  k   x(t )m2 (t )
t 1

n
ck1 1  ck 2  2  ...  ckk  k   x(t )mk (t )
t 1
n
(C ) ij  cij   mi (t )m j (t )
t 1
Fehler der Schätzwerte:
 2 (  j )  (C 1 ) jj
Desaisonalisierung
Vermutet wird eine (natürliche) Periode s in den Daten.
x(t m ,r )
r-te Messung der m-ten Stelle
(r  1,..., n; m  1,..., p)
Unnormierte Desaisonalisierung:
~
x (t m ,r )  x(t m ,r )   m
Normierte Desaisonalisierung:
~
x (t m,r )  ( x(t m,r )   m ) /  m
2km
2km 

 m  A0    Ak cos
 Bk sin

s
s 
k 1 
F
2km
2km 

 m  C0    Ck cos
 Dk sin

s
s 
k 1 
F
Additive Modelle
zur Darstellung einer Zeitreihe
Zugrundeliegendes Modell (additives Komponentenmodell):
X (t )  f ( X (t ), Y (t ))  S (t )  TD (t )  TS (t )   (t )
Globaler monotoner Trend: „im Mittel wächst X(t) an / fällt ab“
Frequenzraumdarstellung von Zeitreihen
• bisher: Zeitreihen wurden durch ihre Werte dargestellt (Zeitdomäne):
x = x(t)
• alternativ: Darstellung in einem Funktionenraum - möglich für jede
Funktion in einem n-dimensionalen Vektorraum:

x  x( f )   ck k (t )
k 1
ck : Koeffizienten
 k:
Basisfunktionen
• sinnvolle Wahl des Funktionenraums:
additiv (Superposition) => orthogonale Funktionen
Orthogonalsysteme


• Zwei Vektoren A
und B heißen orthogonal wenn:
 a1   b1 
 
 
   
A  B  0  A  B  cos( )   a2    b2   a1b1  a2b2  a3b3
 a  b 
 3  3
• vergleiche: Orthogonalität = "Unabhängigkeit", "Unkorreliertheit" im
statistischen Sinne
=> Veränderung eines Vektor hat keine Auswirkungen auf den
anderen Vektor: Superposition
 0 i j
 i (t ) (t )dt   0 i  j

*
j
 0 i j
 i (t k ) (t k )  

k  
 0 i  j
(kontinuierlicher Fall)

*
j
(diskreter Fall)
Orthogonalsystem: sin(x), cos(x)
• Wahl von sin(x) und cos(x) als Basisfunktionen
kt 
 
 2  kt  : k  0, 1, ..., N / 2
sin
2


,
cos



 

N
N

 

bzw. Darstellung als komplexe Zahl:
 i2 ktN
N
N
:  1  k  
e
2
2

Wiederholung: Komplexe Zahlen
z  x  iy  Re z  i Im z  z ei
i 2  1
alternative Darstellung in Polarkoordinaten (φ, ρ):
x  i  y    [cos( )  i sin( )]
  xi y
 x2  y2
Eulersche Gleichung:
ei  cos   i sin 
ei  1
Taylorreihendarstellung der
trigonometrischen Funktionen
• generell:
( x  a )1
( x  a) 2
( x  a) n 1
''
( n 1)
f ( x)  f (a)  f (a)
 f (a)
 ... f
(a)
 Rn
1!
2!
(n  1)!
'
Rn  f
(n)
( x  a) n
( x0 )
n!
• für f(x) = ex und a = 0 :
• analog für f(x) = eix :
a  x0  x
x 2 x3 x4 x5
e  1  x      ...
2! 3! 4! 5!
x 2 ix3 x 4 ix5
ix
e  1  ix  
 
 ...
2! 3! 4! 5!
x
2 3
x 1x 5 =>x 7
i

• für a = 0 : sin( x)  x     ...
x2 x4 x6
cos( x)  1     ...
3! 5! 7!
2! 4! 6!
Exponent
n 70 1 2 3 4 5 6 7 8
3
5
ix ix ix
i  sin( x)  ix 


 ...
ix
=>
e
 i sin(
n
=
3
!
5
!
7
!
i
1
i -1 -i 1 cos(
i x) -1
-i x) 1
Frequenzen, Zeiten, Längen, Perioden, ...
Eine äquidistante Zeitreihe mit Messintervall (Zeitauflösung) t und
N Werten
Länge der Messperiode
T  Nt
Anzahl der Perioden im Datensatz
k  T / Pk
Periodenlänge
Pk  T / k  1 / f  2 /  k
1 k
k
fk 


Pk 2 N  t
Frequenz
Kreisfrequenz
 k  2 / Pk  2  f k
harmonische Frequenz
 k  2
t
k
T
k N  k  1
2
  
T
P
Grundfrequenz, Frequenzauflösung
 min
T  N
t
Nyquist-Theorem,
Abtasttheorem
 max 

t
k min  1 Pmax  T
k max  N / 2 Pmin  2t
Frequenzen, Zeiten, Längen, Perioden, ...
Eine äquidistante Zeitreihe mit Messintervall (Zeitauflösung) t und
N Werten
Länge der Messperiode
T  Nt
Anzahl der Perioden im Datensatz
k  T / Pk
Periodenlänge
Pk  T / k  1 / f  2 /  k
1 k
k
fk 


Pk 2 N  t
Frequenz
Kreisfrequenz
 k  2 / Pk  2  f k
harmonische Frequenz
 k  2
k
T
k N  k  1
2
  
T
Grundfrequenz, Frequenzauflösung
 min
Nyquist-Theorem, Abtasttheorem
 max 

t
k min  1 Pmax  T
k max  N / 2 Pmin  2t
Fourieranalyse = harmonische Analyse
J.B.J. Fourier (1807): Jede stetige und periodische Funktion kann
(beliebig genau) dargestellt werden als Superposition einer Serie
harmonischer Schwingungen unterschiedlicher Frequenzen.
=> Entwicklung in eine unendliche trigonometrische Reihe:

a0
kt
kt
x(t ) 
  [ak  sin( 2 )  bk  cos(2 ]
2 k  
N
N
Voraussetzungen (= Dirichletsche Bedingungen):
1. Die Funktion muss sich in endlich viele Teilintervalle zerlegen lassen können, in
denen jeweils x stetig und monoton ist.
2. In den Unstetigkeitsstellen (Sprungstellen) existiert jeweils der links- und der
rechtsseitige Grenzwert.
Fourierkoeffizienten
• hier: für periodische, diskrete, äquidistante Zeitreihen mit N Werten
• Schätzung der Koeffizienten für die kte harmonische Frequenz:
2 N
k
ak   xi  sin( 2   ti )
N i 1
N
2 N
k
bk   xi  cos( 2   ti )
N i 1
N
• Ausnahme für k = N/2:
aN / 2  0
bN / 2
1 2 N
   xi  cos( 2  ( N / 2)  t )
2 N i 1
Fouriertransformation
Für unendlich lange Zeitreihen gibt es alle Frequenzen
1
f ( ) 
2
1
x(t ) 
2

Spektrum von x t 
k  


 i t
x

t

e
 k
f  eit d

Merkmale:
• umkehrbar
• existiert für absolut integrierbare Funktionen
• zeitglobal
• Stationarität prinzipiell erforderlich
Beispiel für eine Fourierapproximation
1 Term: Mittelwert
2 Terme
3 Terme
5 Terme
10 Terme
100 Terme
Aliasing
= "Frequenzmissdeutung"
= "Einstrahlen" höherer Frequenzen in den niedrigen
Bereich aufgrund der endlichen Länge/Auflösung des
Datensatzes:
Parsevalsches Theorem
Die totale Varianz der Werte ist gleich der Summe der
Varianzen der einzelnen Frequenzen:
k 1
  (a  b )   (ai2  bi2 )  (ak2  bk2 )
2
T
2
1
2
1
i 2
 Energie ist im Zeit- und Frequenzraum gleich
Def.: Energie eines Signals:
E

 x ( tk )
k  
2
Periodogramm
• Aufteilung der Varianz auf die einzelnen Frequenzen:
s2(k) (= spektrale Varianz) gegen k aufgetragen
• Berechnung anhand der Fourier-Koeffizienten:
N
I ( k )  a  b 
2
2
k
2
k
Periodogramm
= Darstellung der Varianzanteile für die einzelnen
Frequenzen bzw. Phasenlängen
25
25
20
20
25
25
15
15
20
20
10
10
15
5
5
10
0
0.00
0.05
0.10
0.15
0.20
0.25
Frequenz
0.30
0.35
0.40
0.45
Periodogramm-Werte
Periodogramm-Werte
15
10
0
50.50
5
0
0
2
4
6
8
10
12
14
16
Periode
18
20
22
24
26
28
30
0
32
Aufgabe
1. Berechnen Sie in Excel die Fourierkoeffizienten für den Datensatz in
Aufgabe_Fourieranalyse.xls.
2. Erstellen Sie anhand der Fourierkoeffizienten ein Periodogramm.
3. Rekonstruieren Sie die Zeitreihe als Superposition der
entsprechenden sin- und cos- Funktionen.
4. Führen Sie mit den Daten eine Fourieranalyse in Statistica durch und
vergleichen Sie die Ergebnisse.
Herunterladen