Bedingte Verteilungen Kapitel 2: Stochastische Prozesse Ebenso kann die Verbundwahrscheinlichkeit von n Zufallsvariablen über bedingte Wahrscheinlichkeiten ausgedrückt werden P( X 1 X n ) = P( X 1 X n −1 )P( X n X 1 , … , X n −1 ) n P( X 1 X n ) = ∏ P( X i X 1 , … , X i −1 ) i =1 Wiederum kommt eine Produktregel zur Anwendung Summen- und Produktregeln sind in der Wahrscheinlichkeitsrechnung von zentraler Bedeutung Stochastische Prozesse Copyright M. Gross, ETH Zürich 2006, 2007 1 Beispiel: Verbunds WS Bedingte Verbundswahrscheinlichkeiten Sei A = X1, B = X2, C = X3 n=2: Stochastische Prozesse Informationstheorie 2 Copyright M. Gross, ETH Zürich 2006, 2007 Bayes – Netz (1) Vier binäre (True, False) Zufallsvariablen Gesetz von Bayes B: Bewölkt S: Sprinkler R: Regen G: Gras ist nass P( A, B, C ) = P( A) ⋅ P( B | A) ⋅ P(C | A, B ) Stochastische Prozesse G P( B = T ) P( B = F) 0.5 0.5 n=3: Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 3 R S P( A, B) = P( A) ⋅ P( B | A) B B P( S = F) P( S = T) F 0.5 0.5 B P( R = F) P( R = T) F 0 .8 0 .2 T T Stochastische Prozesse 0.9 0.1 0 .2 Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 0.8 4 Bayes – Netz (2) Bayes – Netz (3) S R P(G = F) P(G = T ) F F 1.0 0.0 F T 0.1 0.9 T F 0.1 0.9 T T 0.01 0.99 B Beobachtung: Gras ist nass. Frage: Nass vom Sprinkler oder Regen? R S G Verbundswahrscheinlichkeit = P( S , B, R, G ) = P( B) ⋅ P( S | B) ⋅ P( R | B, S ) ⋅ P(G | B, S , R) = P( B) ⋅ P( S | B) ⋅ P( R | B) ⋅ P(G | S , R) Informationstheorie 5 Copyright M. Gross, ETH Zürich 2006, 2007 Bayes – Netz (4) = P ( R = T, G = T ) P(G = T) ∑ P ( B = b, S = s, R = T , G = T ) ∑ P ( B = b, S = s , R = r , G = T ) 0.4581 = 0.706 0.6471 Informationstheorie Informationstheorie 6 Copyright M. Gross, ETH Zürich 2006, 2007 Der Erwartungswert E(X) einer diskreten Zufallsvariablen X ist gegeben durch i b,s Copyright M. Gross, ETH Zürich 2006, 2007 0.2781 = 0.4237 0.6471 E ( X ) = ∑ xi p ( xi ) b,r , s Stochastische Prozesse Stochastische Prozesse P( R = T | G = T ) = = ∑ P ( B = b, S = s , R = r , G = T ) Erwartungswert Beobachtung: Gras ist nass. Frage: Nass vom Sprinkler oder Regen? = b ,r b ,r , s da P( R | S ) = P( R) Stochastische Prozesse P ( S = T, G = T ) P (G = T) ∑ P( B = b, S = T, R = r , G = T) P( S = T | G = T ) = Dieser wird oft auch Mittelwert von X genannt Schwerpunkt der Häufigkeitsfunktion Erwartungswerte sind statistische Momente erster Ordnung Aufgrund der Linearität erhalten wir (Superposition) Y = aX + b ⇒ E (Y ) = aE ( X ) + b 7 Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 8 Geometrische Verteilung Varianz Produkt ist defekt mit Wahrscheinlichkeit p Wie viele Produkte müssen untersucht werden, bis ein defektes Produkt gefunden wird? X: Anzahl inspizierter Produkte P( X = k ) = PX (k ) = q k −1 ⋅ p ∞ ∞ E( X ) = ∑ k ⋅ p ⋅ q k −1 = p ⋅∑ k ⋅ q k −1 k =1 { Var ( X ) = E [ X − E ( X )] 2 wobei q = 1-p wobei k ⋅ q k −1 = k =1 d k ⋅q dq Ebenso erhalten wir Y = aX + b ⇒ Var (Y ) = a 2 Var ( X ) 9 Copyright M. Gross, ETH Zürich 2006, 2007 Bernoulli - Verteilung Vorausgesetzt, dass E existiert Für eine diskrete Zufallsvariable X mit p(x) ergibt sich 2 i q d d = p ⋅ ⋅ ∑ qk = p ⋅ ⋅ dq k =1 dq 1 − q 1 p = = 2 (1 − q ) p Informationstheorie } Var ( X ) = ∑ ( xi − E ( X )) p ( xi ) ∞ Stochastische Prozesse Die Varianz Var(X) einer diskreten Zufallsvariablen X ist gegeben durch Stochastische Prozesse Informationstheorie 10 Copyright M. Gross, ETH Zürich 2006, 2007 Standardabweichung X hat Bernoulli - Verteilung Die Standardabweichung σ ist gegeben durch σ = Var ( X ) , X = 0 → 1− p X =1→ p E( X ) = 0 ⋅ (1 − p ) + 1 ⋅ p = p Var ( X ) = (0 − p ) 2 ⋅ (1 − p ) + (1 − p ) 2 ⋅ p = p ⋅ (1 − p ) → Maximum bei p = Stochastische Prozesse 1 2 Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 und beschreibt eine Art mittlere Abweichung (Streuung) der Daten vom Mittelwert Die Varianz wird oft zur Fehlerberechnung in Messungen verwendet Man definiert dazu den mittleren quadratischen Fehler [ MSE = E ( X − x 0 ) 2 11 Stochastische Prozesse ] Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 12 Kovarianz Korrelation Die Kovarianz misst die Verbundvariabilität zweier Zufallsvariablen X und Y Cov( X , Y ) = E[( X − E ( X ) )(Y − E (Y ) )] ρ= Oftmals wird folgende Notation verwendet E( X ) = μ X Die Korrelation zweier Zufallsvariablen X und Y wird über Varianz und Kovarianz definiert Sie ist von grosser praktischer Bedeutung Schliesslich bleibt der bedingte Erwartungswert Es gilt auch E (Y ) = μY Es gilt auch Cov( X , Y ) = E ( XY ) − E ( X ) ⋅ E (Y ) E(Y X = x) = ∑ ypY X ( y x) oder auch x Und vieles mehr… (siehe Rice pp.131ff) Stochastische Prozesse Informationstheorie 13 Copyright M. Gross, ETH Zürich 2006, 2007 Stochastische Prozesse y E(Y ) = ∑ E(Y X = x) p X ( x) =E(E(Y X )) Cov( X , Y + Z ) = Cov( X , Y ) + Cov( X , Z ) Cov( X , Y ) Var( X )Var (Y ) Vergleiche Marginalisierung Stochastische Prozesse Informationstheorie 14 Copyright M. Gross, ETH Zürich 2006, 2007 Stochastische Prozesse Ein stochastischer Prozess {X(ti)} ist ein Wahrscheinlichkeitsprozess, welcher eine Sequenz von Zufallsvariablen X(ti) erzeugt. Zu jedem Zeitpunkt ti existiert also eine Zufallsvariable, die einer bestimmten Verteilung unterliegt (kontinuierlich) oder bestimmte Werte annehmen kann (diskret). Diskret bezieht sich also auf Zeit ti sowie auf mögliche Werte xk Beispiel: Folge von Münzwürfen mit Wahrscheinlichkeiten p für Kopf und q=1-p für Zahl Hierbei gilt die statistische Unabhängigkeit der einzelnen Ergebnisse: x ∈ { Kopf , Zahl } Prozess Es gilt also für zwei beliebige diskrete Zeiten ti und tj P( X (ti ) X (t j )) = P( X (ti )) {X (t0 ) = x0 , X (t1 ) = x1 , X (t2 ) = x2 , X (t3 ) = x3 …} Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 15 Das muss nicht so sein (Markov-Ketten)! Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 16 Stationarität Ergodizität Ein stochastischer Prozess, dessen statistische Eigenschaften invariant unter Translation der Zeit bleiben, heisst stationär. Dies bezieht sich auf Momente verschiedener Ordnung In der Praxis oft auf Erwartungswerte beschränkt Dann gilt also: E ( X (t j )) = E ( X (t j + k )) Um einen ergodischen, stochastischen Prozess zu definieren, bedarf es einer neuen Variablen X e = lim r →∞ oder auch, dass die Verbundwahrscheinlichkeiten Stochastische Prozesse E ( X (ti )) = E s Informationstheorie 17 Copyright M. Gross, ETH Zürich 2006, 2007 Stochastische Prozesse + X (ti + r ) Wir mitteln also über die Werte der Zufallsvariablen einer immer grösseren Sequenz Konvergiert dieser Grenzwert gegen eine Konstante Xe gilt für eine beliebige Zufallsvariable X(ti) P( X (ti ), X (t j )) = f (ti − t j ) nur von der Zeitdifferenz abhängen X (ti ) + X (ti +1 ) + X (ti + 2 ) + r +1 Der Erwartungswert über die Zeit ist also gleich dem Erwartungswert der Einzelvariablen Stochastische Prozesse Informationstheorie 18 Copyright M. Gross, ETH Zürich 2006, 2007 Markov-Prozesse Allgemein: Ergodische Prozesse sind Untermengen von stationären, stochastischen Prozessen Ein stochastischer Prozess, welcher eine Sequenz von Zufallsvariablen {Xi} ist, heisst MarkovKette, wenn gilt P( X n = xk X 1 , … X n −1 ) = P( X n = xk X n −1 ) stochastisch ergodisch Pk l = P( X n = xk X n −1 = xl ) stationär Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 Die bedingte Wahrscheinlichkeit für eine Zufallsvariable ist also nur von ihrem direkten Vorgänger abhängig Markov-Ketten werden mit einer Uebergangswahrscheinlichkeitsmatrix beschrieben, deren Elemente wie folgt gegeben sind 19 Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 20 Markov-Ketten 3-stufige Markovkette X Xn-1 Xn Xn+1 Xn+2 Die Berechnung der Verbundwahrscheinlichkeit erfolgt durch Produktbildung Y P( X , Y , Z ) = P( X ) ⋅ P(Y | X ) ⋅ P( Z | Y ) Bedingte Wahrscheinlichkeit P( X , Y , Z ) P( X , Y ) ⋅ P( Z | Y ) = P(Y ) P(Y ) = P( X | Y ) ⋅ P( Z | Y ) P ( X n −1 , X n , X n +1 , X n + 2 ) = P( X , Z | Y ) = P ( X n −1 ) P ( X n X n −1 ) P ( X n +1 X n ) P ( X n + 2 X n +1 ) Ebenso können bedingte Wahrscheinlichkeiten zu Markov-Feldern erweitert werden Stochastische Prozesse Informationstheorie 21 Copyright M. Gross, ETH Zürich 2006, 2007 Markov Zustandsautomaten Stochastische Prozesse 22 Dies wird mit Übergangswahrscheinlichkeiten ausgedrückt Es gilt die folgende Bedingung für jeden Knoten ∑p j =1 X ( x j xi ) = 1 Ferner gilt für die Wahrscheinlichkeit des Zustandes xi N p X ( xi ) = ∑ p X ( xi x j ) p X ( x j ) j =1 Xi Dies ist ein Eigenwertproblem der Zustandsübergangsmatrix Summen- und Produktregeln sind in der Wahrscheinlichkeitsrechnung von zentraler Bedeutung p X ( xi xi ) Informationstheorie Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 N p X ( x j xi ) Copyright M. Gross, ETH Zürich 2006, 2007 Spezialfall eines Bayes-Netzes Markovsche Modelle Markov-Prozesse eignen sich zur verfeinerten Modellierung einzelner diskreter Zufallsvariablen Dazu verwendet man einen probabilistischen, endlichen Automaten, welcher alle Zustände {xi} einer Variablen Z beschreibt Jeder Zustand xi bleibt entweder erhalten, oder wird in Richtung eines anderen Zustandes xj verlassen Stochastische Prozesse Z 23 Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 24 Markovsche Modelle Markov Modell 0-ter Ordnung p (a ) = 0.5 Allgemeine Formulierung ⎛ ⎞ ⎛ ⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ p (x )⎟ = ⎜ ⎜ X i ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎝ ⎠ ⎝ ⎞⎛ ⎞ ⎟⎜ ⎟ ⎟⎜ ⎟ ⎟⎜ ⎟ ⎟⎜ ⎟ ⎟⎜ p X ( x j ) ⎟ ⎟⎜ ⎟ ⎠⎝ ⎠ p X ( xi x j ) p (c) = 0.2 25 Copyright M. Gross, ETH Zürich 2006, 2007 Markov Modell 1-ter Ordnung p (a | a ) = 0.5 ' a' p (c | a ) = 0.1 1 p (a | b) = 0.3 p (b | a ) = 0.4 p (a | c) = 0.2 3 p (c | c) = 0.6 ' c' p (c | b) = 0.3 2 p (b | c) = 0.2 ' b' p (b | b) = 0.4 p (aacb) = p (a|a) ⋅ p(a|a) ⋅ p(c|a) ⋅ p(b|c) = 0.5 ⋅ 0.5 ⋅ 0.1 ⋅ 0.2 = 0.005 Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 Gegeben: Alphabet mit 3 Buchstaben 3 mögliche Werte der Zustandsvariable X Gesucht: Wahrscheinlichkeit des Strings “aacb“ p (aacb) = p (a ) ⋅ p (a ) ⋅ p (c) ⋅ p (b) = 0.5 ⋅ 0.5 ⋅ 0.2 ⋅ 0.3 = 0.015 Fazit: Die Verbundwahrscheinlichkeit einer Sequenz hängt vom Wissen über ihre statistischen Eigenschaften ab. Informationstheorie p (b) = 0.3 X ∈ {a, b, c} Eigenwertproblem Stochastische Prozesse 0 27 Stochastische Prozesse Informationstheorie Copyright M. Gross, ETH Zürich 2006, 2007 26