Stochastische Prozesse I Seminarvortrag von Elias Kellner 14.06.2007 1. 2. 3. 4. Zeitreihen Modellierung Analyse Beispiel: Kalmanfilter 1. Zeitreihen Zeitreihe: zeitabhängige Folge von Datenpunkten i.d.R. nicht stochastisch unabhängig Handschriftanalyse, Zeitreihe der vertikalen Geschwindigkeit Zeitreihe (Daten) Trendkomponenten Saisonale Komponenten Modellbildung Vorhersage (Simulation) Tiefere Einsichten Wir brauchen: Geeignete Werkzeuge zur Datenenanalyse Fitfunktionen zur Trendbereinigung Spektralanalyse Korrelationsanalyse mathematische Beschreibung zur Modellbildung Stochastischer Prozess „Rauschen“ Betrachte zeitdiskrete Prozesse, um Rauschen zu simulieren 2 Klassen dynamischer Systeme -nichtvergeßliche (klassische) -vergeßliche (stochastische) (chaotische) (Xt ) Prozess ( Verteilungen bekannt) ( xt ) Realisation Cov( X , Y ) ( X X )(Y Y ) Stationarität Eine Zeitreihe ( X t ) heißt stark stationär, wenn die Verteilung von nicht vom Index abhängt. ( X t s ) Eine Zeitreihe ( X t ) heißt schwach stationär, wenn 1. X t (t ) const 2. Cov( X t , X t ) Cov( X t r , X t r ) CovX ( ) Autokovarianz Ergodizität Ergodisch in klass. Mechanik: System kommt erlaubten Systemzuständen beliebig nahe Jeder Prozess x f ( x, ) induziert eine Dichte (x ) im Phasenraum. Mittelwerte müssen bezüglich dieser Dichte gebildet werden G dx ( x)G ( x) Für ergodische Systeme gilt: „Scharmittel = Zeitmittel“ G dx ( x)G ( x) dtG( x(t )) G ( x(ti )) Simulation des Rauschens: Summe von vielen stochastischen Einflüssen Zentraler GWS Rauschen gaußverteilt Weißes Rauschen (WN): Folge von unabhängigen Realisationen einer gaußverteilten Zufallsvariablen t N (0, 2 ) Modellierung durch AR-Prozesse Betrachte „vergesslichen“ Prozess Nehme an, xt sei linear durch die N vorherigen Datenpunkte bestimmt (Autoregession) N xt a j xt j j 1 Addiere zu jeden xt eine kleine Störung (Zufallsvariable, z.B. weisses Rauschen) N xt t a j xt j j 1 AR(N) – Prozess: N xt t a j xt j Differenzengleichungen. y 1 Differenzengleichung = „diskretisierte“ Differentialgleichung Ansatz macht Sinn, da Natur i.a. durch Differentialgleichungen beschrieben wird. lineare DGL n‘ter Ordnung d d2 dn x(t ) a1 x(t ) a2 2 x(t ) ... an n x(t ) 0 dt dt dt Rückführung von DGL n‘ter Ordnung auf System von DGL 1‘ter Ordnung d x (t ) A x (t ) 0 dt z.B harmonischer Oszillator: k x (t ) mx(t ) d x 0 1 x k 0 dt v m v Analog läßt sich jeder univariate AR(N)-Prozess auf einen n-variaten AR(1) Prozess reduzieren. N xt t a j xt j j 1 xt Axt 1 t Eigenschaften eines AR(1) Prozesses xt axt 1 t zentriert stationär ergodisch a<1 Varianz: xt (axt 1 t ) 2 2 xt 2 2 1 a2 xt xt ACF( ) xt2 ACF( ) a a=1 Random Walk (Brownian Motion) xt xt 1 t N AR(N) – Prozess: xt t a j xt j j 1 N 1 MA(N) – Prozess: (gleitendes Mittel) ARMA(p,q) xt m j t j j 0 p q j 1 j 1 xt t a j xt j m j t j Spektralanaylse Gegeben sei eine Zeitreihe. Welche Frequenzen sind enthalten? Fouriertrafo (ohne Normierung) f ( ) it e Xt t Unterscheide wie immer FT einer Realisation und eines Prozesses FT ist komplexe Größe Aliasing Zeitreihe = gesampelter, kontinuierlicher Prozess! Sample z.B. einen Sinus mit Samplingfrequenz f f max f Nyquist 1 f Sampling 2 Vor dem sampeln muss gefiltert werden!! Spektrum Definiere Spektrum S ( ) i e ACF ( ) ACF( ) Cov( xt , xt ) X t X t Var( xt ) X t2 ACF einer Zeitreihe entspricht einer Faltung der Reihe mit sich selbst Faltung im Ortsraum enspricht Multiplikation im Frequenzraum. Multiplikation mit sich selbst ist | |2 S ( ) | f ( ) | 2 f ( ) it e Xt t Definition über ACF mathematisch korrekt, aber über FT leichter zu schätzen! Schätzung des Spektrums: 2 Probleme S ( ) | f ( ) |2 1. Spektrum als Erwartungswert definiert. Meist aber nur eine Zeitreihe vorhanden! Suche Schätzer für Spektrum z.B Periodogramm: Per ( ) | f ( ) |2 Per ( ) | f ( ) |2 (Re[ f ( )]) 2 (Im[ f ( )]) 2 Problem: Periodogramm „zappelt“ mit Chi2 - Verteilung 1 Per ( ) S ( ) 2 Var( ) 4 Var(Per) ist unabhängig von N nicht konsistent 2. Problem: Endliche Zeitreihe = unendliche Reihe mit Fenster multipliziert Im Frequenzraum zusätzlich Faltung mit dem Sinc des Fensters! leaking Power von Peaks in Täler Periodogramm ist sogar verzerrter Schätzer Lösung: „Tapering“: kein eckiges Rechteckfenster, sondern Dreick- oder Gaussfenster optimalstes Fenster : Hamming Schätzung des Spektrums durch Zerschneiden der Zeitreihe, Tapern Und Mittelwertbildung der einzelnen Periodogramme Methode nach Welch Zeitreihe Zerschneiden Tapern |FFT|2 Frequenzweise mitteln Filter allgemein: X(t) y(t) Filter Wichtige Filterklasse: linear und zeitinvariant (LTI-Filter) Filtersystem ist durch seine Impulsantwort bestimmt (FIR, IIR ) N MA – Prozess ohne Rauschen = FIR Filter yt m j xt j j 0 ARMA – Prozess ohne Rauschen = IIR Filter X-Pass-Filter, Bildbearbeitung… p q j 1 j 0 yt a j yt j m j xt j Das Kálmán-Filter Gegeben Sei dynamisches System, z.B. ein multivariater AR(1) Prozess x (t ) Ax (t 1) (t ) y (t ) Bx (t ) (t ) Systemgleichung Beobachtungsgleichung Wir haben nur Zugriff auf yt ! Gesucht: Filter, das uns die wahren Werte xt schätzt y(t) Filter x(t) x(t ) ax(t 1) (t ) y (t ) bx(t ) (t ) Systemgleichung Beobachtungsgleichung Einfache Schätzung: Rückrechnen auf xt durch B-1 Große Fehler wegen Beobachtungsrauschen Man kann ausnutzen, dass man die Dynamik A des Systems kennt 1. Prädiktionsschritt: x(t | t 1) ax(t 1 | t 1) y (t | t 1) bx(t 1 | t 1) Beobachte y(t), berechne daraus Fehler y(t|t-1) - y(t) 2. Korrektur x(t | t ) x(t | t 1) K (t )( y (t ) y (t | t 1) Bsp: Kalman Filter, AR-1 Prozess a=0.89, Beobachtug stark verrauscht Zusammenfassung AR-Prozesse Spektrum xt Axt 1 t S ( ) e i ACF ( ) S ( ) | f ( ) |2 Per ( ) | f ( ) |2 Spektrum schätzen: Schneiden - Tapern – Periodogramme mitteln