Kapitel 2: Stochastische Prozesse Stochastische Prozesse Copyright M. Gross, ETH Zürich 2005, 2006 1 Bedingte Verteilungen Ebenso kann die Verbundwahrscheinlichkeit von n Zufallsvariablen über bedingte Wahrscheinlichkeiten ausgedrückt werden P( X 1 L X n ) = P( X 1 L X n −1 )P( X n X 1 , K , X n −1 ) n P( X 1 L X n ) = ∏ P( X i X 1 , K , X i −1 ) i =1 Wiederum kommt eine Produktregel zur Anwendung Summen- und Produktregeln sind in der Wahrscheinlichkeitsrechnung von zentraler Bedeutung Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 2 Beispiel: Verbunds WS Bedingte Verbundswahrscheinlichkeiten Sei A = X1, B = X2, C = X3 n=2: Gesetz von Bayes P( A, B) = P( A) ⋅ P( B | A) n=3: P( A, B, C ) = P( A) ⋅ P( B | A) ⋅ P(C | A, B ) Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 3 Bayes – Netz (1) Vier binäre (True, False) Zufallsvariablen B: Bewölkt S: Sprinkler R: Regen G: Gras ist nass B R S G P( B = T ) P( B = F) 0.5 0.5 B P( S = F) P( S = T) F 0.5 0.5 B P( R = F) P( R = T) F 0 .8 0 .2 T T Stochastische Prozesse 0.9 0.1 0 .2 Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 0.8 4 Bayes – Netz (2) S R P(G = F) P(G = T ) F F 1.0 0.0 F T 0.1 0.9 T F 0.1 0.9 T T 0.01 0.99 B R S G Verbundswahrscheinlichkeit P( S , B, R, G ) = P( B) ⋅ P( S | B) ⋅ P( R | B, S ) ⋅ P(G | B, S , R) = P( B) ⋅ P( S | B) ⋅ P( R | B) ⋅ P(G | S , R) da P( R | S ) = P( R) Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 5 Bayes – Netz (3) Beobachtung: Gras ist nass. Frage: Nass vom Sprinkler oder Regen? P ( S = T, G = T ) P( S = T | G = T ) = P (G = T) P( B = b, S = T, R = r , G = T ) ∑ b ,r = ∑ P ( B = b, S = s , R = r , G = T ) b ,r , s 0.2781 = = 0.4237 0.6471 Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 6 Bayes – Netz (4) Beobachtung: Gras ist nass. Frage: Nass vom Sprinkler oder Regen? P ( R = T, G = T ) P( R = T | G = T ) = P(G = T) P ( B = b, S = s, R = T , G = T ) ∑ b,s = ∑ P ( B = b, S = s , R = r , G = T ) b,r , s 0.4581 = = 0.706 0.6471 Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 7 Erwartungswert Der Erwartungswert E(X) einer diskreten Zufallsvariablen X ist gegeben durch E ( X ) = ∑ xi p ( xi ) i Dieser wird oft auch Mittelwert von X genannt Schwerpunkt der Häufigkeitsfunktion Erwartungswerte sind statistische Momente erster Ordnung Aufgrund der Linearität erhalten wir (Superposition) Y = aX + b ⇒ E (Y ) = aE ( X ) + b Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 8 Geometrische Verteilung Produkt ist defekt mit Wahrscheinlichkeit p Wie viele Produkte müssen untersucht werden, bis ein defektes Produkt gefunden wird? X: Anzahl inspizierter Produkte P( X = k ) = PX (k ) = q k −1 ⋅ p ∞ E( X ) = ∑ k ⋅ p ⋅ q k =1 ∞ k −1 ∞ = p ⋅∑ k ⋅ q wobei q = 1-p k −1 wobei k ⋅ q k =1 k −1 d k = ⋅q dq q d d k = p⋅ ⋅∑k ⋅q = p⋅ ⋅ dq k =1 dq 1 − q p 1 = = 2 p (1 − q ) Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 9 Varianz Die Varianz Var(X) einer diskreten Zufallsvariablen X ist gegeben durch { Var ( X ) = E [ X − E ( X )] 2 } Vorausgesetzt, dass E existiert Für eine diskrete Zufallsvariable X mit p(x) ergibt sich 2 Var ( X ) = ∑ ( xi − E ( X )) p ( xi ) i Ebenso erhalten wir Y = aX + b ⇒ Var (Y ) = a 2 Var ( X ) Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 10 Bernoulli - Verteilung X hat Bernoulli - Verteilung X = 0 → 1− p X =1→ p E( X ) = 0 ⋅ (1 − p ) + 1 ⋅ p = p Var ( X ) = (0 − p ) 2 ⋅ (1 − p ) + (1 − p ) 2 ⋅ p = p ⋅ (1 − p ) 1 → Maximum bei p = 2 Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 11 Standardabweichung Die Standardabweichung σ ist gegeben durch σ = Var ( X ) , und beschreibt eine Art mittlere Abweichung (Streuung) der Daten vom Mittelwert Die Varianz wird oft zur Fehlerberechnung in Messungen verwendet Man definiert dazu den mittleren quadratischen Fehler [ MSE = E ( X − x 0 ) 2 Stochastische Prozesse ] Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 12 Kovarianz Die Kovarianz misst die Verbundvariabilität zweier Zufallsvariablen X und Y Cov( X , Y ) = E[( X − E ( X ) )(Y − E (Y ) )] Oftmals wird folgende Notation verwendet E( X ) = µ X E (Y ) = µY Es gilt auch Cov( X , Y ) = E ( XY ) − E ( X ) ⋅ E (Y ) oder auch Cov( X , Y + Z ) = Cov( X , Y ) + Cov( X , Z ) Und vieles mehr… (siehe Rice pp.131ff) Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 13 Korrelation Die Korrelation zweier Zufallsvariablen X und Y wird über Varianz und Kovarianz definiert Cov( X , Y ) ρ= Var( X )Var (Y ) Sie ist von grosser praktischer Bedeutung Schliesslich bleibt der bedingte Erwartungswert Es gilt auch E (Y , X = x) = ∑ ypY X ( y x) y E (Y ) = ∑ E (Y X = x) p X ( x) =E (E (Y X )) x Vergleiche Marginalisierung Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 14 Stochastische Prozesse Ein stochastischer Prozess {X(ti)} ist ein Wahrscheinlichkeitsprozess, welcher eine Sequenz von Zufallsvariablen X(ti) erzeugt. Zu jedem Zeitpunkt ti existiert also eine Zufallsvariable, die einer bestimmten Verteilung unterliegt (kontinuierlich) oder bestimmte Werte annehmen kann (diskret). Prozess {X (t0 ) = x0 , X (t1 ) = x1 , X (t2 ) = x2 , X (t3 ) = x3 K} Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 15 Stochastische Prozesse Diskret bezieht sich also auf Zeit ti sowie auf mögliche Werte xk Beispiel: Folge von Münzwürfen mit Wahrscheinlichkeiten p für Kopf und q=1-p für Zahl Hierbei gilt die statistische Unabhängigkeit der einzelnen Ergebnisse: x ∈ { Kopf , Zahl } Es gilt also für zwei beliebige diskrete Zeiten ti und tj P( X (ti ) X (t j )) = P( X (ti )) Das muss nicht so sein (Markov-Ketten)! Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 16 Stationarität Ein stochastischer Prozess, dessen statistische Eigenschaften invariant unter Translation der Zeit bleiben, heisst stationär. Dies bezieht sich auf Momente verschiedener Ordnung In der Praxis oft auf Erwartungswerte beschränkt Dann gilt also: E ( X (t j )) = E ( X (t j + k )) oder auch, dass die Verbundwahrscheinlichkeiten P( X (ti ), X (t j )) = f (ti − t j ) nur von der Zeitdifferenz abhängen Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 17 Ergodizität Um einen ergodischen, stochastischen Prozess zu definieren, bedarf es einer neuen Variablen X (ti ) + X (ti +1 ) + X (ti + 2 ) + L + X (ti + r ) X e = lim r →∞ r +1 Wir mitteln also über die Werte der Zufallsvariablen einer immer grösseren Sequenz Konvergiert dieser Grenzwert gegen eine Konstante Xe gilt für eine beliebige Zufallsvariable X(ti) E ( X (ti )) = E s Der Erwartungswert über die Zeit ist also gleich dem Erwartungswert der Einzelvariablen Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 18 Stochastische Prozesse Ergodische Prozesse sind also Untermengen von stationären, stochastischen Prozessen stochastisch ergodisch stationär Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 19 Markov-Prozesse Ein stochastischer Prozess, welcher eine Sequenz von Zufallsvariablen {Xi} ist, heisst MarkovKette, wenn gilt P( X n = xk X 1 , K X n −1 ) = P( X n = xk X n −1 ) Die bedingte Wahrscheinlichkeit für eine Zufallsvariable ist also nur von ihrem direkten Vorgänger abhängig Markov-Ketten werden mit einer Uebergangswahrscheinlichkeitsmatrix beschrieben, deren Elemente wie folgt gegeben sind Pk l = P( X n = xk X n −1 = xl ) Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 20 Markov-Ketten Xn-1 Xn Xn+1 Xn+2 Die Berechnung der Verbundwahrscheinlichkeit erfolgt durch Produktbildung P ( X n −1 , X n , X n +1 , X n + 2 ) = P ( X n −1 ) P ( X n X n −1 ) P ( X n +1 X n ) P ( X n + 2 X n +1 ) Ebenso können bedingte Wahrscheinlichkeiten zu Markov-Feldern erweitert werden Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 21 3-stufige Markovkette X Y Z P( X , Y , Z ) = P( X ) ⋅ P(Y | X ) ⋅ P( Z | Y ) Bedingte Wahrscheinlichkeit P( X , Y , Z ) P( X , Y ) ⋅ P( Z | Y ) = P( X , Z | Y ) = P(Y ) P(Y ) = P( X | Y ) ⋅ P( Z | Y ) Spezialfall eines Bayes-Netzes Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 22 Markov Zustandsautomaten Markov-Prozesse eignen sich zur verfeinerten Modellierung einzelner diskreter Zufallsvariablen Dazu verwendet man einen probabilistischen, endlichen Automaten, welcher alle Zustände {xi} einer Variablen Z beschreibt Jeder Zustand xi bleibt entweder erhalten, oder wird in Richtung eines anderen Zustandes xj verlassen p X ( x j xi ) Xi p X ( xi xi ) Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 23 Markovsche Modelle Dies wird mit Übergangswahrscheinlichkeiten ausgedrückt Es gilt die folgende Bedingung für jeden Knoten N ∑p j =1 X ( x j xi ) = 1 Ferner gilt für die Wahrscheinlichkeit des Zustandes xi N p X ( xi ) = ∑ p X ( xi x j ) p X ( x j ) j =1 Dies ist ein Eigenwertproblem der Zustandsübergangsmatrix Summen- und Produktregeln sind in der Wahrscheinlichkeitsrechnung von zentraler Bedeutung Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 24 Markovsche Modelle Allgemeine Formulierung ⎛ ⎞ ⎛ ⎜ ⎟ ⎜ ⎜ M ⎟ ⎜ ⎜ p (x )⎟ = ⎜ ⎜ X i ⎟ ⎜ ⎜ M ⎟ ⎜ ⎜ ⎟ ⎜ ⎝ ⎠ ⎝ O p X ( xi x j ) O ⎞⎛ ⎞ ⎟⎜ ⎟ ⎟⎜ M ⎟ ⎟ ⎟⎜ ⎟⎜ ⎟ ⎟⎜ p X ( x j ) ⎟ ⎟⎜ ⎟ ⎠⎝ ⎠ Eigenwertproblem Fazit: Die Verbundwahrscheinlichkeit einer Sequenz hängt vom Wissen über ihre statistischen Eigenschaften ab. Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 25 Markov Modell 0-ter Ordnung p (a ) = 0.5 p (c) = 0.2 0 p (b) = 0.3 Gegeben: Alphabet mit 3 Buchstaben 3 mögliche Werte der Zustandsvariable X X ∈ {a, b, c} Gesucht: Wahrscheinlichkeit des Strings “aacb“ p (aacb) = p (a ) ⋅ p (a ) ⋅ p (c) ⋅ p (b) = 0.5 ⋅ 0.5 ⋅ 0.2 ⋅ 0.3 = 0.015 Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 26 Markov Modell 1-ter Ordnung p (a | a ) = 0.5 ' a' p (c | a ) = 0.1 1 p (a | b) = 0.3 p (b | a ) = 0.4 p (a | c) = 0.2 3 p (c | c) = 0.6 ' c' p (c | b) = 0.3 2 p (b | c) = 0.2 ' b' p (b | b) = 0.4 p (aacb) = p (a | a ) ⋅ p(a | a ) ⋅ p(c | a ) ⋅ p(b | c) = 0.5 ⋅ 0.5 ⋅ 0.4 ⋅ 0.2 = 0.005 Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2005, 2006 27