PDF-File

Werbung
1
Zufallsvariablen
Stochastische Variable oder Zufallsvariable X :
Abbildung eines Ereignisraumes S auf reelle Zahlen.
Das Ereignis fEj j X (Ej ) = xj g wird mit X = xj bezeichnet.
diskrete Zufallsvariablen
Sei P eine Wahrscheinlichkeitsverteilung über S , X
eine Zufallsvariable über S , die die Werte x1; ::; xn annimmt.
Dann ist die Abbildung
f : S ![0; 1] mit f (xi) = P (X = xi)
die Wahrscheinlichkeitsverteilung von X .
Erwartungswert einer diskreten Zufallsvariablen (entspricht arithmetischem Mittel):
n
X
X
X = E (X ) = x2S x f (x) = i=1 xi f (xi)
Varianz 2:
n
X
X = i (xi , ) f (xi)
2
=1
2
2
Zufallsvariablen
stetige Zufallsvariablen
Die Wahrscheinlichkeit, dass der Wert einer stetigen
Zufallsvariablen X genau eine reelle Zahl x annimmt,
geht gegen 0.
Deshalb wird die summierte Wahrscheinlichkeit von
X x betrachtet:
Zx
F (x) = P (fu j X (u) xg) = P (X x) = ,1 f (t)dt
F : R![0; 1] heisst auch Verteilungsfunktion
(und f ist die Ableitung davon).
Erwartungswert:
X = E (X ) =
Varianz 2:
X =
2
Z1
Z1
,1 x f (x)dx
,1(x , ) f (x)dx
2
3
Zufallsvariablen
mehrdimensionale Zufallsvariablen
Sei S ein Ereignisraum, P eine W'keitsverteilung
darüber, X und Y Zufallsvariablen darüber mit den
Werten x1; ::; xn bzw. y1; ::; ym.
Dann ist die Abbildung
(xi; yj )!P (X = xi; Y = yj )
die gemeinsame Wahrscheinlichkeitsverteilung oder
-funktion von X und Y .
Gilt für alle (xi; yj ):
P (X = xi; Y = yj ) = P (X = xi)P (Y = yj );
dann sind X und Y unabhängig.
4
spezielle W'keitsverteilungen
Binomialverteilung
Bernoulli-Experimente:
Experimente mit nur zwei Ausgängen.
Bernoulli-Variable:
Zufallsvariable, bei der der eine Ausgang den Wert 0,
der andere den Wert 1 erhält.
Bernoullische Formel:
Sei p die Wahrscheinlichkeit für den Ausgang 1 eines B.-Experiments. Dann ist die W'keit, dass bei n
Ausführungen k -mal der Ausgang 1 eintritt:
P (X = k) = (nk)pk (1 , p)n,k
Sei X eine Zufallsvariable, die die Werte 0, 1, 2, ..., n
annehmen kann, mit X (k ) = (nk)pk (1 , p)n,k = Bn;p(k ),
heisst X binomialverteilt mit Parametern n und p.
Es gilt: E (X ) = np; v (X ) = np(1 , p).
Binomialverteilung ist abhängig von der Anzahl der
Versuche! Betrachtung von n!1: Verschiebung des
Erwartungswerts auf 0, Streckung von k um 1= und
von Bn;p(k ) um .
5
Gauss-Funktionen, Normalverteilung
1
X
e=n
die eulersche Zahl:
Gauss-Funktion:
=0
1
n!
,1 x2
1
p
e2
'(x) =
2
Graph von ' ist eine Glockenkurve...
Näherung für Binomialverteilung für n > p(19,p)
0
1
k
,
1
Bn;p(k) ' B@ CA
r
mit = np und = np(1 , p)
(x) =
Gauss'sche Summenfunktion:
Sei X
Zx
,1
'(t)dt
Bn;p-verteilt, dann gilt für genügend grosses n:
k
,
P (X k) ( ):
Normalverteilung
x
,
Zufallsvariable X mit
P (X x) = ( );
für alle reellen Zahlen x heisst X normalverteilt mit
Erwartungswert und Varianz (N (; )-verteilt).
2
6
Stochastische Prozesse
Ein stochastischer oder Zufallsprozess ist eine Folge
von Zufallsvariablen X1; X2; ::: über demselben Ereignisraum.
Die möglichen Ausgänge heissen auch Zustände des
Prozesses, der Prozess ist im Zustand xt zum Zeitpunkt t.
Die Xi sind nicht zwingend unabhängig voneinander!
Zufallsprozesse können über diskrete oder stetige
Zeitparameter und über diskrete oder stetige Zufallsvariablen betrachtet werden, hier aber nur diskrete
Zeitschritte und endliche Ausgangsmengen.
Vollständige Charakterisierung eines Zufallsprozesses:
Wahrscheinlichkeit P (X1 = xj ) für alle Ausgänge xj
für den Anfangszustand.
für jeden folgenden Zustand Xt+1; t = 1; 2; ::: die bedingten W'keiten P (Xt+1 = xit+1 j X1 = xi1 ; ::; Xt = xit )
7
N-Gram-Modelle
Annahme: nur die letzten n , 1 Wörter haben Einfluss
auf die Wahrscheinlichkeit des nächsten. Gebräuchlich ist n = 3: Trigram-Modelle.
Wahrscheinlichkeit für ein Wort wn nach der Wortfolge w1;n,1:
P (wn j w ;n, ) = P (wn j wn, ; wn, )
Die Wahrscheinlichkeit für eine Wortfolge w ;n beträgt
1
1
2
1
1
dann:
P (w ;n) = P (w )P (w j w )P (w j w w )::P (wn j w ;n, )
= P (w )P (w j w )P (nw j w w )::P (wn j wn, ;n, )
= P (w )P (w j w ) i P (wi j wi, ;i, )
1
1
2
1
3
1
2
1
2
1
3
1
2
1
2
1
=3
1
2
2
P (w ;n) = ni P (wi j wi, ;i, )
1
=3
2
1
1
1
1
8
Markov-Kette
Eine Markov-Kette ist ein Zufallsprozess, bei dem die
Wahrscheinlichkeit des nächsten Zustands nur vom
aktuellen abhängt.
Die Markov-Eigenschaft ist also:
P (Xt = xit+1 j X = xi1 ; ::; Xt = xit )
= P (Xt = xit+1 j Xt = xit )
+1
1
+1
Beispiel:
9
Stochastische Matrix
Sei eine (endliche) Markov-Kette mit n Zuständen gegeben.
Die Übergangswahrscheinlichkeiten von Zustand si in
sj , d.h. P (Xt+1 = sj j Xt = si) = pij können in einer
Übergangsmatrix dargestellt werden:
2
66
66
66
4
p p
3
1n 7
77
77
75
n
X
P = ; 0 pij 1; j pij = 1 für i = 1; 2; ::; n
11
pn pnn
1
=1
v
Ein Vektor = [v1; ::; vn] mit 1 vi 0 und Pni=1 vi =
1 heisst Wahrscheinlichkeitsvektor, und kann z.B. für
den ersten Zustand einer Markov-Kette gelten. Dann
gilt: vi = P (Xi = si); i = 1; ::; n.
Der initiale Wahrscheinlichkeitsvektor zusammen mit
der Übergangsmatrix bestimmen eine Markov-Kette
vollständig, d.h. die Wahrscheinlichkeiten, dass sich
der Prozess an einem best. Zeitpunkt t in einem best.
Zustand si befindet, können daraus errechnet werden:
[p t (s ); ::; p t (sn)] = vPt,
( )
1
( )
1
10
Beispielmatrix
Für das Beispiel zur Markov-Kette kann man folgende
Zustandsübergangs-Wahrscheinlichkeits-Matrix aufstellen:
2
66
66
66
66
66
66
66
66
66
66
66
66
66
66
66
66
66
64
0
0
0
0
0
0
0
0
0
1
0:5
0
0
0
0
0
0
0
0
0
0:5
0
0
0
0
0
0
0
0
0
0
0:34
0:34
0
0
0
0
0
0
0
0
0:33
0:33
0
0
0
0
0
0
0
0
0:33
0:33
0
0
0
0
0
0
0
0
0
0
0:33
0:01
0:49
0
0
0
0
0
0
0
0:33
0:01
0:49
0
0
0
0
0
0
0
0:34
0:98
0:02
0
0
0
0
0
0
0
0
0
0
1
1
1
0
3
77
77
77
77
77
77
77
77
77
77
77
77
77
77
77
77
77
75
11
Matrix-Multiplikation
Wir brauchen nur quadratische, d.h. (n n) Matrizen.
Seien
und (n n) Matrizen mit den Elementen
aij und bij , i; j = 1; ::; n, i die Zeile, j die Spalte.
Dann ist das Produkt definiert als (n n) Matrix
mit
n
X
cij = k=1(aik bkj ):
(Das ist das Produkt aus dem i-ten Zeilenvektor
zi = [ai1; ::; ain] und dem j -ten Spaltenvektor sj =
[aj1; ::; ajn] )
A
B
AB
C
Produkt aus (n n) Matrix
Ax =
3
2
66 1 77
66 . 77
66 . 77
4
5
zx
znx
A und Vektor x (n-stellig):
=
2 Pn
3
66 k=1 1k k 77
66
77
..
66
77
4 Pn
5
a x
k=1 ank xk
12
Markov-Modelle
Sei jeder Zustand einer Markov-Kette mit einer endlichen Menge von Signalen verbunden.
Nach jedem Zustandsübergang wird eines der zum
aktuellen Zustand gehörenden Signale ausgegeben.
Die Zufallsvariable t repräsentiert dieses Signal zum
Zeitpunkt t.
Ein Markov-Modell (erster Ordnung) besteht aus:
einer endliche Menge von Zuständen ! =
fs ; ::; sng
einem Signal-Alphabet = f ; ::; mg
einer (n n)-Zustandsübergangs-Matrix P = [pij ]
mit pij = P (Xt = sj j Xt = si)
einer (n m)-Signal-Matrix A = [aij ] mit der Wahrscheinlichkeit aij = p(t = j j Xt = si) für jedes
1
1
+1
Zustands-Signal-Paar, dass j im Zustand si ausgegeben wird.
und einem initialer Vektor v = [v ; ::; vn] mit vi =
1
P (X = si)
Sei p t (j ) die Wahrscheinlichkeit, dass zur Zeit t das
Signal j ausgegeben wird. Der Vektor
[p t ( ); ::; p t (m)] = vPt, A
enthält diese Wahrscheinlichkeiten für alle 2 .
1
( )
( )
1
( )
1
13
Hidden Markov Models, HMMs
Wenn keine Beobachtung der Zustände möglich ist,
sondern nur die Signale beobachtet werden können,
liegt ein Hidden Markov Model (HMM) vor.
O
S
Sei
2 eine Folge von beobachteten Signalen
und 2 S die unbekannte Folge von Zuständen.
Die beste Schätzung für S ist die Folge mit dem
grössten Wert für P ( j )
Laut Bayes'schem Satz gilt:
S O
P
(
O
j
S
)
P
(
S
)
P (S j O) =
P (O)
P (O) nicht von S abhängt, können wir auch
P (O j S) P (S) maximieren.
und da
P (O j S) heisst Signalmodell, P (S) Sprachmodell.
14
Anwendungen für HMMs
1. Schätzung der Wahrscheinlichkeit einer Signalfolge (Identifikation einer Sprache), P ( )
O
2. Bestimmung der wahrscheinlichsten Zustandsfolge, die zu einer Signalfolge geführt hat:
Tagging
Signale: Wörter eines Eingabetextes
Zustände: Mengen von Wortarten
Aufgabe: finde die wahrscheinlichste Folge von
Wortartmengen, die den Wörtern zugeordnet werden können.
Spracherkennung
Signale: (Repräsentation der) akustischen Signale
Zustände: mögliche Wörter
Aufgabe: finde die wahrscheinlichste Folge von
Wörtern, die die akustischen Signale hervorgerufen haben
3. Bestimmung der Parameter
P; A; v
15
1. P (
O
O)
S
Sei = (k1 ; ::; kT ); = (si1 ; ::; siT ).
Dann:
P ( j ) = Tt=1P (t = kt j Xt = sit ) = Tt=1aitkt
O S
P (S)
= vi1 Tt pit,1it
=1
P (O \ S) = P (O j S) P (S)
= (Tt aitkt ) (Tt pit,1it )
= ai1k1 vi1 Tt pit,1it aitkt
=1
=1
=2
und:
P (O) = XS P (O \ S)
und das ist viel zu aufwendig!
wie aufwendig?
O(2TnT )
16
Der Vorwärts-Algorithmus
Vorwärts-Variablen:
t(i) = P (Ot; Xt = si)
= P ( = k1 ; ::; t = kt ; Xt = si).
1
n
X
n
X
P (O) = i P ( = k1 ; ::; T = kT ; XT = si) = i T (i)
1
=1
=1
n
X
(i) = aik1 vi und t (i) = (i t(i) pij ) ajkt+1
1
+1
=1
Begründung (Markov-Annahme im zweiten Schritt):
P (Ot ; Xt = si) =
= ni P (Ot; Xt = si)
P (t = kt+1; Xt = sj j Ot; Xt = si)
= ni P (Ot; Xt = si)
P (t = kt+1 j Xt = sj ) P (Xt = sj j Xt = si)
Aufwand: O(n T )
+1
+1
=1
+1
+1
=1
+1
2
+1
+1
17
Der Rückwärts-Algorithmus
Rückwärts-Variablen:
t(i) = P (O>t; Xt = si)
= P (t = kt+1; ::; T = kT ; Xt = si).
+1
n
X
P (O) = i P ( = k1; X = si)P ( ; ::; T = kT ; X = si)
1
=1
1
2
n
X
1
= i aik1 vi (i)
1
=1
Definiere T (i) = 1 für i = 1; ::; n.
n
X
t(i) = j=1 pij ajkt+1 t+1(j )
weil:
P (O>t j Xt = si) =
+1
= nj P (O>t; Xt = sj j Xt = si)
= nj P (O>t j Xt = si; Xt = sj )
P (Xt = sj j Xt = si)
+1
=1
+1
=1
+1
= nj P (t = kt+1 j Xt = sj ) P (O>t j Xt = sj )
P (Xt = sj j Xt = si)
=1
+1
+1
+1
+1
18
Der Vorwärts-Rückwärts-Algorithmus
P (O) = Pni
= Pni
= Pni
= Pni
=1
=1
=1
=1
P (O; Xt = si)
P (Ot; Xt = si) P (O>t j Ot; Xt = si)
P (Ot; Xt = si) P (O>t j Xt = si)
t(i)t(i)
Wahrscheinlichkeit, zum Zeitpunkt t im Zustand si zu
sein, wenn O die gesamte beobachtete Sequenz von
Zeit 1 bis T ist:
Vorwärts-Rückwärts-Variablen:
P
(
O
;
X
t = si)
t(i)t(i)
t(i) = P (Xt = si j O) = P (O) = Pn (i) (i)
t
t
i
=1
Herunterladen