Kapitel 2: Stochastische Prozesse

Werbung
Kapitel 2:
Stochastische Prozesse
Stochastische
Prozesse
Copyright M. Gross,
ETH Zürich 2005, 2006
1
Bedingte Verteilungen
‰
Ebenso kann die Verbundwahrscheinlichkeit
von n Zufallsvariablen über bedingte
Wahrscheinlichkeiten ausgedrückt werden
P( X 1 L X n ) = P( X 1 L X n −1 )P( X n X 1 , K , X n −1 )
n
P( X 1 L X n ) = ∏ P( X i X 1 , K , X i −1 )
i =1
‰
Wiederum kommt eine Produktregel zur
Anwendung
Summen- und Produktregeln sind in der
Wahrscheinlichkeitsrechnung von zentraler Bedeutung
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
2
Beispiel: Verbunds WS
‰
Bedingte Verbundswahrscheinlichkeiten
Sei A = X1, B = X2, C = X3
‰
n=2:
‰
Gesetz von Bayes
P( A, B) = P( A) ⋅ P( B | A)
‰
n=3:
P( A, B, C ) = P( A) ⋅ P( B | A) ⋅ P(C | A, B )
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
3
Bayes – Netz (1)
‰
Vier binäre (True, False) Zufallsvariablen
ƒ
ƒ
ƒ
ƒ
B: Bewölkt
S: Sprinkler
R: Regen
G: Gras ist nass
B
R
S
G
P( B = T ) P( B = F)
0.5
0.5
B P( S = F) P( S = T)
F
0.5
0.5
B P( R = F) P( R = T)
F
0 .8
0 .2
T
T
Stochastische
Prozesse
0.9
0.1
0 .2
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
0.8
4
Bayes – Netz (2)
S R P(G = F) P(G = T )
F F
1.0
0.0
‰
F T
0.1
0.9
T
F
0.1
0.9
T T
0.01
0.99
B
R
S
G
Verbundswahrscheinlichkeit
P( S , B, R, G ) = P( B) ⋅ P( S | B) ⋅ P( R | B, S ) ⋅ P(G | B, S , R)
= P( B) ⋅ P( S | B) ⋅ P( R | B) ⋅ P(G | S , R)
da P( R | S ) = P( R)
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
5
Bayes – Netz (3)
‰
‰
Beobachtung: Gras ist nass.
Frage: Nass vom Sprinkler oder Regen?
P ( S = T, G = T )
P( S = T | G = T ) =
P (G = T)
P( B = b, S = T, R = r , G = T )
∑
b ,r
=
∑ P ( B = b, S = s , R = r , G = T )
b ,r , s
0.2781
=
= 0.4237
0.6471
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
6
Bayes – Netz (4)
‰
‰
Beobachtung: Gras ist nass.
Frage: Nass vom Sprinkler oder Regen?
P ( R = T, G = T )
P( R = T | G = T ) =
P(G = T)
P ( B = b, S = s, R = T , G = T )
∑
b,s
=
∑ P ( B = b, S = s , R = r , G = T )
b,r , s
0.4581
=
= 0.706
0.6471
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
7
Erwartungswert
‰
Der Erwartungswert E(X) einer diskreten
Zufallsvariablen X ist gegeben durch
E ( X ) = ∑ xi p ( xi )
i
‰
‰
‰
‰
Dieser wird oft auch Mittelwert von X genannt
Schwerpunkt der Häufigkeitsfunktion
Erwartungswerte sind statistische Momente erster
Ordnung
Aufgrund der Linearität erhalten wir
(Superposition)
Y = aX + b ⇒ E (Y ) = aE ( X ) + b
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
8
Geometrische Verteilung
‰
‰
‰
Produkt ist defekt mit Wahrscheinlichkeit p
Wie viele Produkte müssen untersucht werden, bis ein
defektes Produkt gefunden wird?
X: Anzahl inspizierter Produkte
P( X = k ) = PX (k ) = q k −1 ⋅ p
∞
E( X ) = ∑ k ⋅ p ⋅ q
k =1
∞
k −1
∞
= p ⋅∑ k ⋅ q
wobei q = 1-p
k −1
wobei k ⋅ q
k =1
k −1
d k
=
⋅q
dq
q
d
d
k
= p⋅ ⋅∑k ⋅q = p⋅ ⋅
dq k =1
dq 1 − q
p
1
=
=
2
p
(1 − q )
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
9
Varianz
‰
Die Varianz Var(X) einer diskreten
Zufallsvariablen X ist gegeben durch
{
Var ( X ) = E [ X − E ( X )] 2
‰
‰
}
Vorausgesetzt, dass E existiert
Für eine diskrete Zufallsvariable X mit p(x) ergibt
sich
2
Var ( X ) = ∑ ( xi − E ( X )) p ( xi )
i
‰
Ebenso erhalten wir
Y = aX + b ⇒ Var (Y ) = a 2 Var ( X )
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
10
Bernoulli - Verteilung
‰
X hat Bernoulli - Verteilung
X = 0 → 1− p
X =1→ p
E( X ) = 0 ⋅ (1 − p ) + 1 ⋅ p = p
Var ( X ) = (0 − p ) 2 ⋅ (1 − p ) + (1 − p ) 2 ⋅ p = p ⋅ (1 − p )
1
→ Maximum bei p =
2
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
11
Standardabweichung
‰
Die Standardabweichung σ ist gegeben durch
σ = Var ( X ) ,
‰
‰
und beschreibt eine Art mittlere Abweichung
(Streuung) der Daten vom Mittelwert
Die Varianz wird oft zur Fehlerberechnung in
Messungen verwendet
Man definiert dazu den mittleren quadratischen
Fehler
[
MSE = E ( X − x 0 ) 2
Stochastische
Prozesse
]
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
12
Kovarianz
‰
Die Kovarianz misst die Verbundvariabilität
zweier Zufallsvariablen X und Y
Cov( X , Y ) = E[( X − E ( X ) )(Y − E (Y ) )]
‰
Oftmals wird folgende Notation verwendet
E( X ) = µ X
‰
E (Y ) = µY
Es gilt auch
Cov( X , Y ) = E ( XY ) − E ( X ) ⋅ E (Y )
oder auch
Cov( X , Y + Z ) = Cov( X , Y ) + Cov( X , Z )
‰
Und vieles mehr… (siehe Rice pp.131ff)
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
13
Korrelation
‰
Die Korrelation zweier Zufallsvariablen X und Y
wird über Varianz und Kovarianz definiert
Cov( X , Y )
ρ=
Var( X )Var (Y )
‰
Sie ist von grosser praktischer Bedeutung
Schliesslich bleibt der bedingte Erwartungswert
‰
Es gilt auch
‰
E (Y , X = x) = ∑ ypY X ( y x)
y
E (Y ) = ∑ E (Y X = x) p X ( x) =E (E (Y X ))
x
‰
Vergleiche Marginalisierung
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
14
Stochastische Prozesse
‰
‰
Ein stochastischer Prozess {X(ti)} ist ein
Wahrscheinlichkeitsprozess, welcher eine
Sequenz von Zufallsvariablen X(ti) erzeugt.
Zu jedem Zeitpunkt ti existiert also eine
Zufallsvariable, die einer bestimmten Verteilung
unterliegt (kontinuierlich) oder bestimmte Werte
annehmen kann (diskret).
Prozess
{X (t0 ) = x0 , X (t1 ) = x1 , X (t2 ) = x2 , X (t3 ) = x3 K}
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
15
Stochastische Prozesse
‰
‰
‰
Diskret bezieht sich also auf Zeit ti sowie auf
mögliche Werte xk
Beispiel: Folge von Münzwürfen mit
Wahrscheinlichkeiten p für Kopf und q=1-p für
Zahl
Hierbei gilt die statistische Unabhängigkeit der
einzelnen Ergebnisse:
x ∈ { Kopf , Zahl }
‰
Es gilt also für zwei beliebige diskrete Zeiten ti
und tj
P( X (ti ) X (t j )) = P( X (ti ))
‰
Das muss nicht so sein (Markov-Ketten)!
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
16
Stationarität
‰
‰
‰
‰
Ein stochastischer Prozess, dessen statistische
Eigenschaften invariant unter Translation der Zeit
bleiben, heisst stationär.
Dies bezieht sich auf Momente verschiedener
Ordnung
In der Praxis oft auf Erwartungswerte beschränkt
Dann gilt also:
E ( X (t j )) = E ( X (t j + k ))
oder auch, dass die Verbundwahrscheinlichkeiten
P( X (ti ), X (t j )) = f (ti − t j )
nur von der Zeitdifferenz abhängen
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
17
Ergodizität
‰
Um einen ergodischen, stochastischen Prozess zu
definieren, bedarf es einer neuen Variablen
X (ti ) + X (ti +1 ) + X (ti + 2 ) + L + X (ti + r )
X e = lim
r →∞
r +1
‰
‰
Wir mitteln also über die Werte der
Zufallsvariablen einer immer grösseren Sequenz
Konvergiert dieser Grenzwert gegen eine
Konstante Xe gilt für eine beliebige Zufallsvariable
X(ti)
E ( X (ti )) = E s
‰
Der Erwartungswert über die Zeit ist also gleich
dem Erwartungswert der Einzelvariablen
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
18
Stochastische Prozesse
‰
Ergodische Prozesse sind also Untermengen von
stationären, stochastischen Prozessen
stochastisch
ergodisch
stationär
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
19
Markov-Prozesse
‰
Ein stochastischer Prozess, welcher eine Sequenz
von Zufallsvariablen {Xi} ist, heisst MarkovKette, wenn gilt
P( X n = xk X 1 , K X n −1 ) = P( X n = xk X n −1 )
‰
‰
Die bedingte Wahrscheinlichkeit für eine
Zufallsvariable ist also nur von ihrem direkten
Vorgänger abhängig
Markov-Ketten werden mit einer
Uebergangswahrscheinlichkeitsmatrix
beschrieben, deren Elemente wie folgt gegeben
sind
Pk l = P( X n = xk X n −1 = xl )
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
20
Markov-Ketten
Xn-1
‰
Xn
Xn+1
Xn+2
Die Berechnung der Verbundwahrscheinlichkeit
erfolgt durch Produktbildung
P ( X n −1 , X n , X n +1 , X n + 2 ) =
P ( X n −1 ) P ( X n X n −1 ) P ( X n +1 X n ) P ( X n + 2 X n +1 )
‰
Ebenso können bedingte Wahrscheinlichkeiten
zu Markov-Feldern erweitert werden
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
21
3-stufige Markovkette
X
Y
Z
‰
P( X , Y , Z ) = P( X ) ⋅ P(Y | X ) ⋅ P( Z | Y )
‰
Bedingte Wahrscheinlichkeit
P( X , Y , Z ) P( X , Y ) ⋅ P( Z | Y )
=
P( X , Z | Y ) =
P(Y )
P(Y )
= P( X | Y ) ⋅ P( Z | Y )
‰
Spezialfall eines Bayes-Netzes
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
22
Markov Zustandsautomaten
‰
‰
‰
Markov-Prozesse eignen sich zur verfeinerten
Modellierung einzelner diskreter Zufallsvariablen
Dazu verwendet man einen probabilistischen,
endlichen Automaten, welcher alle Zustände {xi}
einer Variablen Z beschreibt
Jeder Zustand xi bleibt entweder erhalten, oder
wird in Richtung eines anderen Zustandes xj
verlassen
p X ( x j xi )
Xi
p X ( xi xi )
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
23
Markovsche Modelle
‰
‰
Dies wird mit Übergangswahrscheinlichkeiten
ausgedrückt
Es gilt die folgende Bedingung für jeden Knoten
N
∑p
j =1
‰
X
( x j xi ) = 1
Ferner gilt für die Wahrscheinlichkeit
des Zustandes xi
N
p X ( xi ) = ∑ p X ( xi x j ) p X ( x j )
j =1
‰
Dies ist ein Eigenwertproblem der
Zustandsübergangsmatrix
Summen- und Produktregeln sind in der
Wahrscheinlichkeitsrechnung von zentraler Bedeutung
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
24
Markovsche Modelle
‰
Allgemeine Formulierung
⎛
⎞ ⎛
⎜
⎟ ⎜
⎜ M ⎟ ⎜
⎜ p (x )⎟ = ⎜
⎜ X i ⎟ ⎜
⎜ M ⎟ ⎜
⎜
⎟ ⎜
⎝
⎠ ⎝
ƒ
O
p X ( xi x j )
O
⎞⎛
⎞
⎟⎜
⎟
⎟⎜ M ⎟
⎟
⎟⎜
⎟⎜
⎟
⎟⎜ p X ( x j ) ⎟
⎟⎜
⎟
⎠⎝
⎠
Eigenwertproblem
Fazit: Die Verbundwahrscheinlichkeit einer Sequenz hängt
vom Wissen über ihre statistischen Eigenschaften ab.
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
25
Markov Modell 0-ter Ordnung
p (a ) = 0.5
p (c) = 0.2
‰
‰
0
p (b) = 0.3
Gegeben: Alphabet mit 3 Buchstaben
3 mögliche Werte der Zustandsvariable X
X ∈ {a, b, c}
‰
Gesucht: Wahrscheinlichkeit des Strings “aacb“
p (aacb) = p (a ) ⋅ p (a ) ⋅ p (c) ⋅ p (b)
= 0.5 ⋅ 0.5 ⋅ 0.2 ⋅ 0.3 = 0.015
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
26
Markov Modell 1-ter Ordnung
p (a | a ) = 0.5
' a'
p (c | a ) = 0.1
1
p (a | b) = 0.3
p (b | a ) = 0.4
p (a | c) = 0.2
3
p (c | c) = 0.6 ' c'
‰
p (c | b) = 0.3
2
p (b | c) = 0.2
' b'
p (b | b) = 0.4
p (aacb) = p (a | a ) ⋅ p(a | a ) ⋅ p(c | a ) ⋅ p(b | c)
= 0.5 ⋅ 0.5 ⋅ 0.4 ⋅ 0.2 = 0.005
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2005, 2006
27
Herunterladen