Kapitel 2: Stochastische Prozesse ∏

Werbung
Bedingte Verteilungen
Kapitel 2:
Stochastische Prozesse
‰
Ebenso kann die Verbundwahrscheinlichkeit
von n Zufallsvariablen über bedingte
Wahrscheinlichkeiten ausgedrückt werden
P( X 1
X n ) = P( X 1
X n −1 )P( X n X 1 , … , X n −1 )
n
P( X 1
X n ) = ∏ P( X i X 1 , … , X i −1 )
i =1
‰
Wiederum kommt eine Produktregel zur
Anwendung
Summen- und Produktregeln sind in der
Wahrscheinlichkeitsrechnung von zentraler Bedeutung
Stochastische
Prozesse
Copyright M. Gross,
ETH Zürich 2006, 2007
1
Beispiel: Verbunds WS
‰
Bedingte Verbundswahrscheinlichkeiten
Sei A = X1, B = X2, C = X3
‰
n=2:
‰
Stochastische
Prozesse
Informationstheorie
2
Copyright M. Gross, ETH Zürich 2006, 2007
Bayes – Netz (1)
‰
Vier binäre (True, False) Zufallsvariablen
ƒ
ƒ
ƒ
ƒ
Gesetz von Bayes
B: Bewölkt
S: Sprinkler
R: Regen
G: Gras ist nass
P( A, B, C ) = P( A) ⋅ P( B | A) ⋅ P(C | A, B )
Stochastische
Prozesse
G
P( B = T ) P( B = F)
0.5
0.5
n=3:
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
3
R
S
P( A, B) = P( A) ⋅ P( B | A)
‰
B
B P( S = F) P( S = T)
F
0.5
0.5
B P( R = F) P( R = T)
F
0 .8
0 .2
T
T
Stochastische
Prozesse
0.9
0.1
0 .2
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
0.8
4
Bayes – Netz (2)
Bayes – Netz (3)
S R P(G = F) P(G = T )
F F
1.0
0.0
‰
F T
0.1
0.9
T
F
0.1
0.9
T T
0.01
0.99
‰
B
‰
Beobachtung: Gras ist nass.
Frage: Nass vom Sprinkler oder Regen?
R
S
G
Verbundswahrscheinlichkeit
=
P( S , B, R, G ) = P( B) ⋅ P( S | B) ⋅ P( R | B, S ) ⋅ P(G | B, S , R)
= P( B) ⋅ P( S | B) ⋅ P( R | B) ⋅ P(G | S , R)
Informationstheorie
5
Copyright M. Gross, ETH Zürich 2006, 2007
Bayes – Netz (4)
‰
‰
=
P ( R = T, G = T )
P(G = T)
∑ P ( B = b, S = s, R = T , G = T )
‰
‰
‰
∑ P ( B = b, S = s , R = r , G = T )
‰
0.4581
= 0.706
0.6471
Informationstheorie
Informationstheorie
6
Copyright M. Gross, ETH Zürich 2006, 2007
Der Erwartungswert E(X) einer diskreten
Zufallsvariablen X ist gegeben durch
i
b,s
Copyright M. Gross, ETH Zürich 2006, 2007
0.2781
= 0.4237
0.6471
E ( X ) = ∑ xi p ( xi )
b,r , s
Stochastische
Prozesse
Stochastische
Prozesse
‰
P( R = T | G = T ) =
=
∑ P ( B = b, S = s , R = r , G = T )
Erwartungswert
Beobachtung: Gras ist nass.
Frage: Nass vom Sprinkler oder Regen?
=
b ,r
b ,r , s
da P( R | S ) = P( R)
Stochastische
Prozesse
P ( S = T, G = T )
P (G = T)
∑ P( B = b, S = T, R = r , G = T)
P( S = T | G = T ) =
Dieser wird oft auch Mittelwert von X genannt
Schwerpunkt der Häufigkeitsfunktion
Erwartungswerte sind statistische Momente erster
Ordnung
Aufgrund der Linearität erhalten wir
(Superposition)
Y = aX + b ⇒ E (Y ) = aE ( X ) + b
7
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
8
Geometrische Verteilung
‰
‰
‰
Varianz
Produkt ist defekt mit Wahrscheinlichkeit p
Wie viele Produkte müssen untersucht werden, bis ein
defektes Produkt gefunden wird?
X: Anzahl inspizierter Produkte
P( X = k ) = PX (k ) = q k −1 ⋅ p
∞
∞
E( X ) = ∑ k ⋅ p ⋅ q k −1 = p ⋅∑ k ⋅ q k −1
k =1
‰
{
Var ( X ) = E [ X − E ( X )] 2
‰
wobei q = 1-p
wobei k ⋅ q k −1 =
k =1
‰
d k
⋅q
dq
‰
Ebenso erhalten wir
Y = aX + b ⇒ Var (Y ) = a 2 Var ( X )
9
Copyright M. Gross, ETH Zürich 2006, 2007
Bernoulli - Verteilung
‰
Vorausgesetzt, dass E existiert
Für eine diskrete Zufallsvariable X mit p(x) ergibt
sich
2
i
q
d
d
= p ⋅ ⋅ ∑ qk = p ⋅ ⋅
dq k =1
dq 1 − q
1
p
=
=
2
(1 − q )
p
Informationstheorie
}
Var ( X ) = ∑ ( xi − E ( X )) p ( xi )
∞
Stochastische
Prozesse
Die Varianz Var(X) einer diskreten
Zufallsvariablen X ist gegeben durch
Stochastische
Prozesse
Informationstheorie
10
Copyright M. Gross, ETH Zürich 2006, 2007
Standardabweichung
X hat Bernoulli - Verteilung
‰
Die Standardabweichung σ ist gegeben durch
σ = Var ( X ) ,
X = 0 → 1− p
X =1→ p
‰
E( X ) = 0 ⋅ (1 − p ) + 1 ⋅ p = p
Var ( X ) = (0 − p ) 2 ⋅ (1 − p ) + (1 − p ) 2 ⋅ p = p ⋅ (1 − p )
→ Maximum bei p =
Stochastische
Prozesse
‰
1
2
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
und beschreibt eine Art mittlere Abweichung
(Streuung) der Daten vom Mittelwert
Die Varianz wird oft zur Fehlerberechnung in
Messungen verwendet
Man definiert dazu den mittleren quadratischen
Fehler
[
MSE = E ( X − x 0 ) 2
11
Stochastische
Prozesse
]
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
12
Kovarianz
‰
Korrelation
Die Kovarianz misst die Verbundvariabilität
zweier Zufallsvariablen X und Y
‰
Cov( X , Y ) = E[( X − E ( X ) )(Y − E (Y ) )]
‰
‰
ρ=
Oftmals wird folgende Notation verwendet
E( X ) = μ X
Die Korrelation zweier Zufallsvariablen X und Y
wird über Varianz und Kovarianz definiert
‰
Sie ist von grosser praktischer Bedeutung
Schliesslich bleibt der bedingte Erwartungswert
‰
Es gilt auch
‰
E (Y ) = μY
Es gilt auch
Cov( X , Y ) = E ( XY ) − E ( X ) ⋅ E (Y )
E(Y X = x) = ∑ ypY X ( y x)
oder auch
x
‰
Und vieles mehr… (siehe Rice pp.131ff)
Stochastische
Prozesse
Informationstheorie
13
Copyright M. Gross, ETH Zürich 2006, 2007
Stochastische Prozesse
‰
‰
y
E(Y ) = ∑ E(Y X = x) p X ( x) =E(E(Y X ))
Cov( X , Y + Z ) = Cov( X , Y ) + Cov( X , Z )
‰
Cov( X , Y )
Var( X )Var (Y )
Vergleiche Marginalisierung
Stochastische
Prozesse
Informationstheorie
14
Copyright M. Gross, ETH Zürich 2006, 2007
Stochastische Prozesse
Ein stochastischer Prozess {X(ti)} ist ein
Wahrscheinlichkeitsprozess, welcher eine
Sequenz von Zufallsvariablen X(ti) erzeugt.
Zu jedem Zeitpunkt ti existiert also eine
Zufallsvariable, die einer bestimmten Verteilung
unterliegt (kontinuierlich) oder bestimmte Werte
annehmen kann (diskret).
‰
‰
‰
Diskret bezieht sich also auf Zeit ti sowie auf
mögliche Werte xk
Beispiel: Folge von Münzwürfen mit
Wahrscheinlichkeiten p für Kopf und q=1-p für
Zahl
Hierbei gilt die statistische Unabhängigkeit der
einzelnen Ergebnisse:
x ∈ { Kopf , Zahl }
Prozess
‰
Es gilt also für zwei beliebige diskrete Zeiten ti
und tj
P( X (ti ) X (t j )) = P( X (ti ))
{X (t0 ) = x0 , X (t1 ) = x1 , X (t2 ) = x2 , X (t3 ) = x3 …}
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
‰
15
Das muss nicht so sein (Markov-Ketten)!
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
16
Stationarität
‰
‰
‰
‰
Ergodizität
Ein stochastischer Prozess, dessen statistische
Eigenschaften invariant unter Translation der Zeit
bleiben, heisst stationär.
Dies bezieht sich auf Momente verschiedener
Ordnung
In der Praxis oft auf Erwartungswerte beschränkt
Dann gilt also:
E ( X (t j )) = E ( X (t j + k ))
‰
Um einen ergodischen, stochastischen Prozess zu
definieren, bedarf es einer neuen Variablen
X e = lim
r →∞
‰
‰
oder auch, dass die Verbundwahrscheinlichkeiten
Stochastische
Prozesse
E ( X (ti )) = E s
‰
Informationstheorie
17
Copyright M. Gross, ETH Zürich 2006, 2007
Stochastische Prozesse
‰
+ X (ti + r )
Wir mitteln also über die Werte der
Zufallsvariablen einer immer grösseren Sequenz
Konvergiert dieser Grenzwert gegen eine
Konstante Xe gilt für eine beliebige Zufallsvariable
X(ti)
P( X (ti ), X (t j )) = f (ti − t j )
nur von der Zeitdifferenz abhängen
X (ti ) + X (ti +1 ) + X (ti + 2 ) +
r +1
Der Erwartungswert über die Zeit ist also gleich
dem Erwartungswert der Einzelvariablen
Stochastische
Prozesse
Informationstheorie
18
Copyright M. Gross, ETH Zürich 2006, 2007
Markov-Prozesse
Allgemein: Ergodische Prozesse sind
Untermengen von stationären, stochastischen
Prozessen
‰
Ein stochastischer Prozess, welcher eine Sequenz
von Zufallsvariablen {Xi} ist, heisst MarkovKette, wenn gilt
P( X n = xk X 1 , … X n −1 ) = P( X n = xk X n −1 )
‰
‰
stochastisch
ergodisch
Pk l = P( X n = xk X n −1 = xl )
stationär
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
Die bedingte Wahrscheinlichkeit für eine
Zufallsvariable ist also nur von ihrem direkten
Vorgänger abhängig
Markov-Ketten werden mit einer
Uebergangswahrscheinlichkeitsmatrix
beschrieben, deren Elemente wie folgt gegeben
sind
19
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
20
Markov-Ketten
3-stufige Markovkette
X
Xn-1
‰
Xn
Xn+1
Xn+2
Die Berechnung der Verbundwahrscheinlichkeit
erfolgt durch Produktbildung
Y
‰
P( X , Y , Z ) = P( X ) ⋅ P(Y | X ) ⋅ P( Z | Y )
‰
Bedingte Wahrscheinlichkeit
P( X , Y , Z ) P( X , Y ) ⋅ P( Z | Y )
=
P(Y )
P(Y )
= P( X | Y ) ⋅ P( Z | Y )
P ( X n −1 , X n , X n +1 , X n + 2 ) =
P( X , Z | Y ) =
P ( X n −1 ) P ( X n X n −1 ) P ( X n +1 X n ) P ( X n + 2 X n +1 )
‰
Ebenso können bedingte Wahrscheinlichkeiten
zu Markov-Feldern erweitert werden
‰
Stochastische
Prozesse
Informationstheorie
21
Copyright M. Gross, ETH Zürich 2006, 2007
Markov Zustandsautomaten
‰
‰
‰
Stochastische
Prozesse
‰
‰
22
Dies wird mit Übergangswahrscheinlichkeiten
ausgedrückt
Es gilt die folgende Bedingung für jeden Knoten
∑p
j =1
‰
X
( x j xi ) = 1
Ferner gilt für die Wahrscheinlichkeit
des Zustandes xi
N
p X ( xi ) = ∑ p X ( xi x j ) p X ( x j )
j =1
Xi
‰
Dies ist ein Eigenwertproblem der
Zustandsübergangsmatrix
Summen- und Produktregeln sind in der
Wahrscheinlichkeitsrechnung von zentraler Bedeutung
p X ( xi xi )
Informationstheorie
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
N
p X ( x j xi )
Copyright M. Gross, ETH Zürich 2006, 2007
Spezialfall eines Bayes-Netzes
Markovsche Modelle
Markov-Prozesse eignen sich zur verfeinerten
Modellierung einzelner diskreter Zufallsvariablen
Dazu verwendet man einen probabilistischen,
endlichen Automaten, welcher alle Zustände {xi}
einer Variablen Z beschreibt
Jeder Zustand xi bleibt entweder erhalten, oder
wird in Richtung eines anderen Zustandes xj
verlassen
Stochastische
Prozesse
Z
23
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
24
Markovsche Modelle
‰
Markov Modell 0-ter Ordnung
p (a ) = 0.5
Allgemeine Formulierung
⎛
⎞ ⎛
⎜
⎟ ⎜
⎜
⎟ ⎜
⎜ p (x )⎟ = ⎜
⎜ X i ⎟ ⎜
⎜
⎟ ⎜
⎜
⎟ ⎜
⎝
⎠ ⎝
ƒ
⎞⎛
⎞
⎟⎜
⎟
⎟⎜
⎟
⎟⎜
⎟
⎟⎜
⎟
⎟⎜ p X ( x j ) ⎟
⎟⎜
⎟
⎠⎝
⎠
p X ( xi x j )
p (c) = 0.2
‰
‰
‰
25
Copyright M. Gross, ETH Zürich 2006, 2007
Markov Modell 1-ter Ordnung
p (a | a ) = 0.5
' a'
p (c | a ) = 0.1
1
p (a | b) = 0.3
p (b | a ) = 0.4
p (a | c) = 0.2
3
p (c | c) = 0.6 ' c'
‰
p (c | b) = 0.3
2
p (b | c) = 0.2
' b'
p (b | b) = 0.4
p (aacb) = p (a|a) ⋅ p(a|a) ⋅ p(c|a) ⋅ p(b|c)
= 0.5 ⋅ 0.5 ⋅ 0.1 ⋅ 0.2 = 0.005
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
Gegeben: Alphabet mit 3 Buchstaben
3 mögliche Werte der Zustandsvariable X
Gesucht: Wahrscheinlichkeit des Strings “aacb“
p (aacb) = p (a ) ⋅ p (a ) ⋅ p (c) ⋅ p (b)
= 0.5 ⋅ 0.5 ⋅ 0.2 ⋅ 0.3 = 0.015
Fazit: Die Verbundwahrscheinlichkeit einer Sequenz hängt
vom Wissen über ihre statistischen Eigenschaften ab.
Informationstheorie
p (b) = 0.3
X ∈ {a, b, c}
Eigenwertproblem
Stochastische
Prozesse
0
27
Stochastische
Prozesse
Informationstheorie
Copyright M. Gross, ETH Zürich 2006, 2007
26
Herunterladen