1 Zufallsvariablen Stochastische Variable oder Zufallsvariable X : Abbildung eines Ereignisraumes S auf reelle Zahlen. Das Ereignis fEj j X (Ej ) = xj g wird mit X = xj bezeichnet. diskrete Zufallsvariablen Sei P eine Wahrscheinlichkeitsverteilung über S , X eine Zufallsvariable über S , die die Werte x1; ::; xn annimmt. Dann ist die Abbildung f : S ![0; 1] mit f (xi) = P (X = xi) die Wahrscheinlichkeitsverteilung von X . Erwartungswert einer diskreten Zufallsvariablen (entspricht arithmetischem Mittel): n X X X = E (X ) = x2S x f (x) = i=1 xi f (xi) Varianz 2: n X X = i (xi , ) f (xi) 2 =1 2 2 Zufallsvariablen stetige Zufallsvariablen Die Wahrscheinlichkeit, dass der Wert einer stetigen Zufallsvariablen X genau eine reelle Zahl x annimmt, geht gegen 0. Deshalb wird die summierte Wahrscheinlichkeit von X x betrachtet: Zx F (x) = P (fu j X (u) xg) = P (X x) = ,1 f (t)dt F : R![0; 1] heisst auch Verteilungsfunktion (und f ist die Ableitung davon). Erwartungswert: X = E (X ) = Varianz 2: X = 2 Z1 Z1 ,1 x f (x)dx ,1(x , ) f (x)dx 2 3 Zufallsvariablen mehrdimensionale Zufallsvariablen Sei S ein Ereignisraum, P eine W'keitsverteilung darüber, X und Y Zufallsvariablen darüber mit den Werten x1; ::; xn bzw. y1; ::; ym. Dann ist die Abbildung (xi; yj )!P (X = xi; Y = yj ) die gemeinsame Wahrscheinlichkeitsverteilung oder -funktion von X und Y . Gilt für alle (xi; yj ): P (X = xi; Y = yj ) = P (X = xi)P (Y = yj ); dann sind X und Y unabhängig. 4 spezielle W'keitsverteilungen Binomialverteilung Bernoulli-Experimente: Experimente mit nur zwei Ausgängen. Bernoulli-Variable: Zufallsvariable, bei der der eine Ausgang den Wert 0, der andere den Wert 1 erhält. Bernoullische Formel: Sei p die Wahrscheinlichkeit für den Ausgang 1 eines B.-Experiments. Dann ist die W'keit, dass bei n Ausführungen k -mal der Ausgang 1 eintritt: P (X = k) = (nk)pk (1 , p)n,k Sei X eine Zufallsvariable, die die Werte 0, 1, 2, ..., n annehmen kann, mit X (k ) = (nk)pk (1 , p)n,k = Bn;p(k ), heisst X binomialverteilt mit Parametern n und p. Es gilt: E (X ) = np; v (X ) = np(1 , p). Binomialverteilung ist abhängig von der Anzahl der Versuche! Betrachtung von n!1: Verschiebung des Erwartungswerts auf 0, Streckung von k um 1= und von Bn;p(k ) um . 5 Gauss-Funktionen, Normalverteilung 1 X e=n die eulersche Zahl: Gauss-Funktion: =0 1 n! ,1 x2 1 p e2 '(x) = 2 Graph von ' ist eine Glockenkurve... Näherung für Binomialverteilung für n > p(19,p) 0 1 k , 1 Bn;p(k) ' B@ CA r mit = np und = np(1 , p) (x) = Gauss'sche Summenfunktion: Sei X Zx ,1 '(t)dt Bn;p-verteilt, dann gilt für genügend grosses n: k , P (X k) ( ): Normalverteilung x , Zufallsvariable X mit P (X x) = ( ); für alle reellen Zahlen x heisst X normalverteilt mit Erwartungswert und Varianz (N (; )-verteilt). 2 6 Stochastische Prozesse Ein stochastischer oder Zufallsprozess ist eine Folge von Zufallsvariablen X1; X2; ::: über demselben Ereignisraum. Die möglichen Ausgänge heissen auch Zustände des Prozesses, der Prozess ist im Zustand xt zum Zeitpunkt t. Die Xi sind nicht zwingend unabhängig voneinander! Zufallsprozesse können über diskrete oder stetige Zeitparameter und über diskrete oder stetige Zufallsvariablen betrachtet werden, hier aber nur diskrete Zeitschritte und endliche Ausgangsmengen. Vollständige Charakterisierung eines Zufallsprozesses: Wahrscheinlichkeit P (X1 = xj ) für alle Ausgänge xj für den Anfangszustand. für jeden folgenden Zustand Xt+1; t = 1; 2; ::: die bedingten W'keiten P (Xt+1 = xit+1 j X1 = xi1 ; ::; Xt = xit ) 7 N-Gram-Modelle Annahme: nur die letzten n , 1 Wörter haben Einfluss auf die Wahrscheinlichkeit des nächsten. Gebräuchlich ist n = 3: Trigram-Modelle. Wahrscheinlichkeit für ein Wort wn nach der Wortfolge w1;n,1: P (wn j w ;n, ) = P (wn j wn, ; wn, ) Die Wahrscheinlichkeit für eine Wortfolge w ;n beträgt 1 1 2 1 1 dann: P (w ;n) = P (w )P (w j w )P (w j w w )::P (wn j w ;n, ) = P (w )P (w j w )P (nw j w w )::P (wn j wn, ;n, ) = P (w )P (w j w ) i P (wi j wi, ;i, ) 1 1 2 1 3 1 2 1 2 1 3 1 2 1 2 1 =3 1 2 2 P (w ;n) = ni P (wi j wi, ;i, ) 1 =3 2 1 1 1 1 8 Markov-Kette Eine Markov-Kette ist ein Zufallsprozess, bei dem die Wahrscheinlichkeit des nächsten Zustands nur vom aktuellen abhängt. Die Markov-Eigenschaft ist also: P (Xt = xit+1 j X = xi1 ; ::; Xt = xit ) = P (Xt = xit+1 j Xt = xit ) +1 1 +1 Beispiel: 9 Stochastische Matrix Sei eine (endliche) Markov-Kette mit n Zuständen gegeben. Die Übergangswahrscheinlichkeiten von Zustand si in sj , d.h. P (Xt+1 = sj j Xt = si) = pij können in einer Übergangsmatrix dargestellt werden: 2 66 66 66 4 p p 3 1n 7 77 77 75 n X P = ; 0 pij 1; j pij = 1 für i = 1; 2; ::; n 11 pn pnn 1 =1 v Ein Vektor = [v1; ::; vn] mit 1 vi 0 und Pni=1 vi = 1 heisst Wahrscheinlichkeitsvektor, und kann z.B. für den ersten Zustand einer Markov-Kette gelten. Dann gilt: vi = P (Xi = si); i = 1; ::; n. Der initiale Wahrscheinlichkeitsvektor zusammen mit der Übergangsmatrix bestimmen eine Markov-Kette vollständig, d.h. die Wahrscheinlichkeiten, dass sich der Prozess an einem best. Zeitpunkt t in einem best. Zustand si befindet, können daraus errechnet werden: [p t (s ); ::; p t (sn)] = vPt, ( ) 1 ( ) 1 10 Beispielmatrix Für das Beispiel zur Markov-Kette kann man folgende Zustandsübergangs-Wahrscheinlichkeits-Matrix aufstellen: 2 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 66 64 0 0 0 0 0 0 0 0 0 1 0:5 0 0 0 0 0 0 0 0 0 0:5 0 0 0 0 0 0 0 0 0 0 0:34 0:34 0 0 0 0 0 0 0 0 0:33 0:33 0 0 0 0 0 0 0 0 0:33 0:33 0 0 0 0 0 0 0 0 0 0 0:33 0:01 0:49 0 0 0 0 0 0 0 0:33 0:01 0:49 0 0 0 0 0 0 0 0:34 0:98 0:02 0 0 0 0 0 0 0 0 0 0 1 1 1 0 3 77 77 77 77 77 77 77 77 77 77 77 77 77 77 77 77 77 75 11 Matrix-Multiplikation Wir brauchen nur quadratische, d.h. (n n) Matrizen. Seien und (n n) Matrizen mit den Elementen aij und bij , i; j = 1; ::; n, i die Zeile, j die Spalte. Dann ist das Produkt definiert als (n n) Matrix mit n X cij = k=1(aik bkj ): (Das ist das Produkt aus dem i-ten Zeilenvektor zi = [ai1; ::; ain] und dem j -ten Spaltenvektor sj = [aj1; ::; ajn] ) A B AB C Produkt aus (n n) Matrix Ax = 3 2 66 1 77 66 . 77 66 . 77 4 5 zx znx A und Vektor x (n-stellig): = 2 Pn 3 66 k=1 1k k 77 66 77 .. 66 77 4 Pn 5 a x k=1 ank xk 12 Markov-Modelle Sei jeder Zustand einer Markov-Kette mit einer endlichen Menge von Signalen verbunden. Nach jedem Zustandsübergang wird eines der zum aktuellen Zustand gehörenden Signale ausgegeben. Die Zufallsvariable t repräsentiert dieses Signal zum Zeitpunkt t. Ein Markov-Modell (erster Ordnung) besteht aus: einer endliche Menge von Zuständen ! = fs ; ::; sng einem Signal-Alphabet = f ; ::; mg einer (n n)-Zustandsübergangs-Matrix P = [pij ] mit pij = P (Xt = sj j Xt = si) einer (n m)-Signal-Matrix A = [aij ] mit der Wahrscheinlichkeit aij = p(t = j j Xt = si) für jedes 1 1 +1 Zustands-Signal-Paar, dass j im Zustand si ausgegeben wird. und einem initialer Vektor v = [v ; ::; vn] mit vi = 1 P (X = si) Sei p t (j ) die Wahrscheinlichkeit, dass zur Zeit t das Signal j ausgegeben wird. Der Vektor [p t ( ); ::; p t (m)] = vPt, A enthält diese Wahrscheinlichkeiten für alle 2 . 1 ( ) ( ) 1 ( ) 1 13 Hidden Markov Models, HMMs Wenn keine Beobachtung der Zustände möglich ist, sondern nur die Signale beobachtet werden können, liegt ein Hidden Markov Model (HMM) vor. O S Sei 2 eine Folge von beobachteten Signalen und 2 S die unbekannte Folge von Zuständen. Die beste Schätzung für S ist die Folge mit dem grössten Wert für P ( j ) Laut Bayes'schem Satz gilt: S O P ( O j S ) P ( S ) P (S j O) = P (O) P (O) nicht von S abhängt, können wir auch P (O j S) P (S) maximieren. und da P (O j S) heisst Signalmodell, P (S) Sprachmodell. 14 Anwendungen für HMMs 1. Schätzung der Wahrscheinlichkeit einer Signalfolge (Identifikation einer Sprache), P ( ) O 2. Bestimmung der wahrscheinlichsten Zustandsfolge, die zu einer Signalfolge geführt hat: Tagging Signale: Wörter eines Eingabetextes Zustände: Mengen von Wortarten Aufgabe: finde die wahrscheinlichste Folge von Wortartmengen, die den Wörtern zugeordnet werden können. Spracherkennung Signale: (Repräsentation der) akustischen Signale Zustände: mögliche Wörter Aufgabe: finde die wahrscheinlichste Folge von Wörtern, die die akustischen Signale hervorgerufen haben 3. Bestimmung der Parameter P; A; v 15 1. P ( O O) S Sei = (k1 ; ::; kT ); = (si1 ; ::; siT ). Dann: P ( j ) = Tt=1P (t = kt j Xt = sit ) = Tt=1aitkt O S P (S) = vi1 Tt pit,1it =1 P (O \ S) = P (O j S) P (S) = (Tt aitkt ) (Tt pit,1it ) = ai1k1 vi1 Tt pit,1it aitkt =1 =1 =2 und: P (O) = XS P (O \ S) und das ist viel zu aufwendig! wie aufwendig? O(2TnT ) 16 Der Vorwärts-Algorithmus Vorwärts-Variablen: t(i) = P (Ot; Xt = si) = P ( = k1 ; ::; t = kt ; Xt = si). 1 n X n X P (O) = i P ( = k1 ; ::; T = kT ; XT = si) = i T (i) 1 =1 =1 n X (i) = aik1 vi und t (i) = (i t(i) pij ) ajkt+1 1 +1 =1 Begründung (Markov-Annahme im zweiten Schritt): P (Ot ; Xt = si) = = ni P (Ot; Xt = si) P (t = kt+1; Xt = sj j Ot; Xt = si) = ni P (Ot; Xt = si) P (t = kt+1 j Xt = sj ) P (Xt = sj j Xt = si) Aufwand: O(n T ) +1 +1 =1 +1 +1 =1 +1 2 +1 +1 17 Der Rückwärts-Algorithmus Rückwärts-Variablen: t(i) = P (O>t; Xt = si) = P (t = kt+1; ::; T = kT ; Xt = si). +1 n X P (O) = i P ( = k1; X = si)P ( ; ::; T = kT ; X = si) 1 =1 1 2 n X 1 = i aik1 vi (i) 1 =1 Definiere T (i) = 1 für i = 1; ::; n. n X t(i) = j=1 pij ajkt+1 t+1(j ) weil: P (O>t j Xt = si) = +1 = nj P (O>t; Xt = sj j Xt = si) = nj P (O>t j Xt = si; Xt = sj ) P (Xt = sj j Xt = si) +1 =1 +1 =1 +1 = nj P (t = kt+1 j Xt = sj ) P (O>t j Xt = sj ) P (Xt = sj j Xt = si) =1 +1 +1 +1 +1 18 Der Vorwärts-Rückwärts-Algorithmus P (O) = Pni = Pni = Pni = Pni =1 =1 =1 =1 P (O; Xt = si) P (Ot; Xt = si) P (O>t j Ot; Xt = si) P (Ot; Xt = si) P (O>t j Xt = si) t(i)t(i) Wahrscheinlichkeit, zum Zeitpunkt t im Zustand si zu sein, wenn O die gesamte beobachtete Sequenz von Zeit 1 bis T ist: Vorwärts-Rückwärts-Variablen: P ( O ; X t = si) t(i)t(i) t(i) = P (Xt = si j O) = P (O) = Pn (i) (i) t t i =1