ppt

Hidden Markov Models (HMM)
Karin Haenelt
16.5.2009
1
Inhalt
 Einführung
 Theoretische Basis
 Elementares Zufallsereignis
 Stochastischer Prozess (Folge von elementaren
Zufallsereignissen)
 Markow-Kette (Stochastischer Prozess mit begrenzter
Abhängigkeit)
 Hidden Markov Models
 Definition
 Aufgabenlösungen mit Hidden Markov Models
 State Emission Models / Arc Emission Models
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
2
Was sind Hidden Markov Models?




Ein Hidden Markov Model (HMM) ist ein stochastisches Modell
auch beschreibbar als Variante eines endlichen Automaten
Theoretische Basis: Markow-Ketten
Vorteile
 direkt aus annotierten Daten (z.B. Text-Corpora mit
Metadaten) ableitbar
 Eigenschaften der Daten und Verarbeitungsverfahren nach
stochastischen Gesetzmäßigkeiten
 trainierbar und optimierbar
 Nachteil
 nicht-deterministisch
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
3
Was ist ein
Hidden Markov Model ?
.3
.4
nomn
.2
 Eine Variante eines
endlichen Automaten mit
 einer Menge von Zuständen
 einem Ausgabealphabet
wir
.2
auxv
.3
werden
part
.4
geschickt
Q
O
 Übergangswahrscheinlichkeiten A
 Ausgabewahrscheinlichkeiten
B
 Startwahrscheinlichkeiten
Π
.3 x .2 x .4 x .3 x .2 x .4 =0.000576
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
Paul E. Black, "hidden Markov model", in
Dictionary of Algorithms and Data Structures4
Was ist ein
Hidden Markov Model ?
.3
.4
 Der aktuelle Zustand kann
nicht beobachtet werden
nomn
 Nur die Ausgaben eines Zustandes
.2
können beobachtet werden
wir
.2
auxv
.3
werden
part
.4
geschickt
.3 x .2 x .4 x .3 x .2 x .4 =0.000576
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
Paul E. Black, "hidden Markov model", in
Dictionary of Algorithms and Data Structures5
Hidden Markov Model: Beispiel
 in einem Text lassen sich nur die Ausgaben (= produzierte
Wörter) beobachten (visible)
 die Sequenz von Zuständen (= Wortarten), die die Wörter
ausgeben, (Satzmuster) lässt sich nicht beobachten (hidden)
 mehrere Sequenzen können dieselbe Ausgabe erzeugen:
.3
.4
nomn
.2
auxv
.2
wir
.3
werden
.3
part
.4
geschickt
.3 x .2 x .4 x .3 x .2 x .4 =0.000576
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
.3
nomn
.2
wir
.2
kopv
.5
werden
adje
.2
geschickt
.3 x .2 x .3 x .5 x .2 x .2 =0.000360
6
Anwendungsgebiete von Hidden Markov Models
 Mit Hilfe von Hidden Markov Models
lassen sich zu beobachteten Daten Metadatenmuster auffinden
 Data Mining: Erkennung von Mustern in Datenbeständen







Spracherkennung
Part-of-Speech-Tagging
Bildverarbeitung
Bioinformatik
Gestenerkennung
Psychologie
…
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
7
Hidden Markov Model
 Hidden Markov Models (HMM)
sind stochastische Modelle, die auf Markow-Ketten beruhen
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
8
Inhalt
 Einführung
 Theoretische Basis
 Elementares Zufallsereignis
 Stochastischer Prozess (Folge von elementaren
Zufallsereignissen)
 Markow-Kette (Stochastischer Prozess mit begrenzter
Abhängigkeit)
 Hidden Markov Models
 Definition
 Aufgabenlösungen mit Hidden Markov Models
 State Emission Models / Arc Emission Models
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
9
Wahrscheinlichkeitsraum
 Modell zur Beschreibung von Zufallsexperimenten
 ein Wahrscheinlichkeitsraum ist ein Tripel ( , F , P )


eine beliebige Menge

F
eine σ-Algebra

P
ein Wahrscheinlichkeitsmaß
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
10
σ-Algebra
 eine Mengenalgebra, die unter abzählbar unendlichen
Vereinigungen abgeschlossen ist
 Mengensystem über Ω mit folgenden Eigenschaften
  F
 A F  A F
 A1 , A2 ,...  F 
Ai  F

i
Brants,Crocker,Lieblang, 2000
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
11
Wahrscheinlichkeitsmaß
 eine Abbildung P : F  [1,0] mit den Eigenschaften
 P ( A)  0 für jedes A  F
 Gilt A1 , A2 ,...  F mit Ai  Aj   für i  j,
so gilt P(i 1 Ai )  i 1 P( Ai )



P ( )  1
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
12
Komponenten des Wahrscheinlichkeitsraumes
Bezeichnung
Erläuterung
(Ω,F,P)
Wahrscheinlichkeit
sraum
Ω
Ergebnismenge,
Grundgesamtheit
Menge aller Elementarereignisse
σ-Algebra über Ω
Ereignisraum
Menge aller möglichen
Ereignisse;
-Nicht notwendigerweise
jede Teilmenge von Ω,
mindestens
- Ω als sicheres Ereignis
- als unmögliches
Ereignis
ω σ-Algebra
über Ω
Ereignis
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
13
Komponenten des Wahrscheinlichkeitsraumes:
Beispiel 1
Bezeichnung
Beispiel
(Ω,F,P)
Wahrscheinlichkeits
raum
Ω
Ergebnismenge
{a,b,c}
σ-Algebra über Ω
Ereignisraum
{ {a,b,c}, {a,b},{a,c}, {a}, {b,c},
{b}, {c}, {} }
ω σ-Algebra
über Ω
Ereignis
{a,b,c}
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
14
Komponenten des Wahrscheinlichkeitsraumes:
Beispiel 2 (Verkehrsampel)
Bezeichnung
Beispiel
(Ω,F,P)
Wahrscheinlichkeits
raum
Ω
Ergebnismenge
{rot,gelb,grün}
σ-Algebra über Ω
Ereignisraum
{ {rot}, {rot,gelb},{gelb}, {grün}, {}
}
ω σ-Algebra
über Ω
Ereignis
{}
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
15
Stochastischer Prozess
 Definition 1
 Sei Ω eine Menge elementarer Zufallsereignisse
(Ergebnismenge eines Wahrscheinlichkeitsraumes).
Ein stochastischer Prozess oder Zufallsprozess ist eine
Folge von elementaren Zufallsereignissen
X1,X2,…Xi Ω
 Definition 2
 Die möglichen Zufallswerte in einem stochastischen Prozess
heißen Zustände des Prozesses.
Man sagt, dass sich der Prozess zum Zeitpunkt t in Zustand
Xt befindet
Brants, 1999: 30
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
16
Stochastischer Prozess

Für die vollständige Beschreibung eines Zufallsprozesses mit
diskretem Zeitparameter benötigt man
1. die Anfangswahrscheinlichkeit:
die für jeden Zustand angibt, mit welcher
Wahrscheinlichkeit er als Zustand X1 beobachtet werden
kann (d.h. den Startzustand bildet)
πi = P(X1=si)
2. die Übergangswahrscheinlichkeit:
die für jeden Zustand angibt, mit welcher
Wahrscheinlichkeit er in einer Zustandsfolge auftritt:
P(Xt+1 = xt+1 | X1 = x1, X2 = x2, …,Xt = xt)
Brants, 1999: 30
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
17
Stochastischer Prozess: Beispiel
 Ein Textgenerator hat ein Lexikon mit drei Wörtern von denen
an jeder Position jedes auftreten kann :
 Ω = {geschickt, werden, wir}
 wir beobachten an jeder Position, welches Wort generiert wurde
 Sei
 X1 das Wort zum ersten Beobachtungszeitpunkt
 X2 das Wort zum zweiten Beobachtungszeitpunkt, usw.
 Dann ist die Folge der Wörter ein stochastischer Prozess mit
diskreter Zufallsvariable und diskretem Zeitparameter
 Für diese Folge kann man eine Wahrscheinlichkeit angeben
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
18
Markow-Kette
 Eine Markow-Kette ist ein stochastischer Prozess, bei dem der
nächste Zustand Xt+1 bei bekanntem gegenwärtigem Zustand Xt
unabhängig von den vergangenen Zuständen Xt-1, Xt-2,…,X0 ist.
 Es gilt
P(Xt+1 = j | Xt = it, Xt-1 = it-1, …,X1 = i1, X0=i0) =
P(Xt+1 = j | Xt = it)
 daher der Name Kette: Kettenglieder hängen nur am vorigen
Kettenglied, nicht an allen vorherigen Kettengliedern
Brants,Crocker,Lieblang, 2000:22
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
19
Endliche Markow-Kette
 Für eine endliche Markow-Kette gibt es endlich viele Zustände,
und die Kette muss sich zu jedem Zeitpunkt in einem dieser
endlich vielen Zustände befinden
Brants, 1999: 31
 Prozess
 „ohne Gedächtnis“
 mit endlich vielen Zuständen
 entspricht den Eigenschaften eines endlichen Automaten
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
20
Markow-Kette und Eigenschaften menschlicher
Sprachen: ein Beispiel
 nach einem q folgt oft ein u,
 Vorhersage über 2. Buchstaben hinter q?
 abhängig von q?
 nach einem s folgt ein c, dann folgt ein h
 Vorhersage über 3. Buchstaben hinter s?
 abhängig von s?
Markow-Modell
1. Ordnung
Markow-Modell
2. Ordnung
…
Kunze, 2001
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
21
Markow-Kette: Matrix-Darstellung
 kann beschrieben werden durch die Angaben
 Stochastische Übergangsmatrix A
aij  P( Xt  1  sj | Xt  si )
i, j
aij  0
N
i

a
i, j
1
j 1
Anfangswahrscheinlichkeiten Π
i  P( X 1  si )
N

i
i 1
1
Xt  si
Xt  1  sj
geschickt
geschickt .3
werden .4
wir
.3
Xt
werden
.4
.2
.4

geschickt .2
werden .3
wir
.5
Manning/Schütze, 2000: 318
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
22
wir
.3
.4
.3
Markow Model: Definition
Ein Markow-Modell wird spezifiziert durch ein Tripel (S,Π,A)
S = {S1, ..., SN} Menge der Zustände
Π = {πi}
Wahrscheinlichkeiten der Startzustände
πi = P(X1 = Si)
N
  1
i
i 1
A = {aij}
Wahrscheinlichkeiten der Zustandsübergänge
N
aij = P(Xt+1 = Sj | Xt = Si)
1≤i,
 aij  1
j≤N
j 1
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
23
Markow-Kette: Graph-Darstellung
 kann beschrieben werden durch Zustandsübergangsgraphen
.5
.3
.3
.4
.2
wir
.4
werden
.3
.4
.3
.4
geschickt
.2
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
.3
24
Markow-Kette: Berechnung einer SequenzWahrscheinlichkeit
 Wahrscheinlichkeit der Sequenz der Zustände X1 … XT
P( X 1,..., XT )
 P( X 1) P( X 2 | X 1) P( X 3 | X 2, X 1)...P( XT | X 1,..., XT  1)
 für eine Markow-Kette gilt:
 P( X 1) P( X 2 | X 1) P( X 3 | X 2)...P( XT | XT  1)

T 1
a

X
1
t 1
X t X t 1
Manning/Schütze, 2000: 320
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
25
Markow-Kette: Berechnungsbeispiel
 Wahrscheinlichkeit der Sequenz der Zustände X1 … XT
P( X 1  wir , X 2  werden, X 3  geschickt )
 P( X 1  wir ) 
P( X 2  werden | X 1  wir ) 
P( X 3  geschickt | X 2  werden)
 (.5  .4  .4)  0.08
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
Xt

geschickt .2
werden .3
wir
.5
Xt  si
Xt  1  sj
geschickt
geschickt .3
werden .4
wir
.3
werden
.4
.2
.4
wir
.3
.4
.3
26
Inhalt
 Einführung
 Theoretische Basis
 Elementares Zufallsereignis
 Stochastischer Prozess (Folge von elementaren
Zufallsereignissen)
 Markow-Kette (Stochastischer Prozess mit begrenzter
Abhängigkeit)
 Hidden Markov Models
 Definition
 Aufgabenlösungen mit Hidden Markov Models
 State Emission Models / Arc Emission Models
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
27
Hidden Markov Modell (HMM): Beschreibung
 Ein Hidden Markov Model ist ein Markow-Modell
 bei dem nur die Sequenz der Ausgaben beobachtbar ist,
 die Sequenz der Zustände verborgen bleibt
 Es kann mehrere Zustandssequenzen geben, die dieselbe
Ausgabe erzeugen
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
28
Hidden Markov Model: Beispiel
 in einem Text lassen sich nur die Ausgaben (= produzierte
Wörter) beobachten (visible)
 die Sequenz von Zuständen (= Wortarten), die die Wörter
ausgeben, (Satzmuster) lässt sich nicht beobachten (hidden)
 mehrere Sequenzen können dieselbe Ausgabe erzeugen:
.3
.4
nomn
.2
auxv
.2
wir
.3
werden
.3
part
.4
geschickt
.3 x .2 x .4 x .3 x .2 x .4 =0.000576
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
.3
nomn
.2
wir
.2
kopv
.5
werden
adje
.2
geschickt
.3 x .2 x .3 x .5 x .2 x .2 =0.000360
29
Hidden Markov Model: Definition
Ein HMM wird spezifiziert durch ein Fünf-Tupel (S,K, Π
S = {S1, ..., SN} Menge der Zustände
K = {k1, ..., kM} Menge der Ausgabesymbole
Π = {πi}
Wahrscheinlichkeiten der Startzustände
πi = P(X1 = Si)
,
A
,
B
)
N
  1
i
i 1
A = {aij}
Wahrscheinlichkeiten der Zustandsübergänge
N
aij = P(Xt+1 = Sj | Xt = Si)
1≤i,
 aij  1
j≤N
j 1
B = {bj(k)}
Wahrscheinlichkeiten der Symbolemissionen in Zustand j
M
bj(k) = P(Kk in t | Xt = Sj)
1≤j≤N
bj ( k )  1
1≤k≤M 
k 1
Rabiner, 1989, S. 260/261
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
Manning/Schütze, 2000: 318-324 30
Ein Hidden Markov Model
Xt
Übergangsmatrix
Emissionsmatrix
Startwahr
scheinlich
keit
Xt+1
ot
π
Adje AuxV
KopV
Nomn
Part
geschickt werden wir
...
Adje
.2
.1
.1
.4
.2
.2
0
0
.8
.3
AuxV
.2
.3
.1
.2
.2
0
.3
0
.7
.2
KopV
.2
.2
.1
.4
.1
0
.5
0
.5
.1
Nomn
.1
.4
.3
.1
.1
0
0
.2
.8
.3
Part
.3
.1
.2
.1
.3
.4
0
0
.6
.1
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
31
Hidden Markov Model: Gewinnung der Daten –
Übersicht
 Annotation eines Corpus
 Auszählung der Sequenzen
 Umrechnung der Häufigkeiten in prozentuale Anteile
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
32
Hidden Markov Model: Gewinnung der Daten (1)
 Annotation eines Corpus
 Auszählung der Sequenzen
 Umrechnung der Häufigkeiten in prozentuale Anteile
wir
werden geschickt vom König .
nomn auxv
part
..
..
Punkt
Wir
werden geschickt durch Übung .
nomn kopv
adje
..
…
Punkt
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
33
Hidden Markov Model: Gewinnung der Daten (2)
 Annotation eines Corpus
 Auszählung der Sequenzen
 Umrechnung der Häufigkeiten in prozentuale Anteile
Adje AuxV KopV Nomn Part Punkt geschickt werden wir .
Adje
-
-
-
-
-
1
1
-
-
-
AuxV -
-
-
-
1
-
-
1
-
-
KopV 1
-
-
-
-
-
1
-
-
-
Nomn -
1
1
-
-
-
-
-
2
-
Part
-
-
-
-
-
1
-
-
-
-
Punkt -
-
1
-
-
-
-
-
2
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
34
Hidden Markov Model: Gewinnung der Daten (3)
 Annotation eines Corpus
 Auszählung der Sequenzen
 Umrechnung der Häufigkeiten in prozentuale Anteile
Adje AuxV KopV Nomn Part Punkt geschickt werden wir .
Adje
-
-
-
-
-
AuxV -
-
-
-
KopV 1.0 -
-
Nomn -
0.5
Part
-
-
Punkt -
-
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
1.0
1.0
-
-
-
1.0 -
-
1.0
-
-
-
-
-
1.0
-
-
-
0.5
-
-
-
-
-
1.0 -
-
-
-
1.0
-
-
-
-
1.0
-
-
-
-
-
1.0
35
Drei grundlegende Aufgaben, die mit HMMs
bearbeitet werden
1.
•
•
2.
•
•
3.
Dekodierung: Wahrscheinlichkeit einer Beobachtung finden
brute force
Forward-Algorithmus / Backward-Algorithmus
Beste Pfad-Sequenz finden
brute force
Viterbi-Algorithmus
Training: Aufbau des besten Modells aus Trainingsdaten
Manning/Schütze, 2000: 325
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
36
Algorithmen für Hidden Markov Models
 Note: Computing a model given sets of sequences of observed
outputs is very difficult, since the states are not directly
observable and transitions are probabilistic. One method is the
Baum Welch algorithm.
 Although the states cannot, by definition, be directly observed,
the most likely sequence of sets for a given sequence of
observed outputs can be computed in O(nt), where n is the
number of states and t is the length of the sequence. One
method is the Viterbi algorithm.
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
Paul E. Black, "hidden Markov model", in
Dictionary of Algorithms and Data Structures37
A1: Wahrscheinlichkeit einer Beobachtung finden
 gegeben:
 eine Sequenz von Beobachtungen
O=(wir,werden,geschickt)
 ein Modell   ( A, B,  )
Adje
AuxV
KopV
Nomn
Part
Adje AuxV KopV Nomn
.2
.1
.1
.4
.2
.3
.1
.2
.2
.2
.1
.4
.1
.4
.3
.1
.3
.1
.2
.1
O  (o1,..., oT )
Part g‘schickt werden wir
.2
.2
0
0
.2
0
.3
0
.1
0
.5
0
.1
0
0
.2
.3
.4
0
0
..
.8
.7
.5
.8
.6

.3
.2
.1
.3
.1
 gesucht: die Wahrscheinlichkeit P( wir , werden, geschickt |  )
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
38
A1: Wahrscheinlichkeit einer Beobachtung finden
Lösungsweg 1: brute force
 Für alle möglichen Zustandsfolgen
 Berechnung der Wahrscheinlichkeit der Beobachtungen
 Summierung der Wahrscheinlichkeiten
P(O |  )
  P(O | X ,  ) P( X |  )
X

T 1
 X b X O  a X X b X
1
X 1... XT
1
1
t 1
t
t 1
state
transition
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
Ot  1
t 1
symbol
emission
vgl. Rabiner, 1989, S. 260/261
vgl. Manning/Schütze, 2000: 326
39
A1: Wahrscheinlichkeit einer Beobachtung finden
Lösungsweg 1: brute force: Beispiel

P(O |  )

T 1
 X b X O  a X X b X
1
X 1... XT









1
1
t 1
t
t 1
Ot  1
t 1
P(wir,werden,geschickt | Adje Adje Adje, μ)
=0.0
+ P(wir,werden,geschickt | Adje Adje AuxV, μ)
+…
+ P(wir,werden,geschickt | Nomn AuxV Part, μ)
.3 x .2 x .4 x .3 x .2 x .4 =0.000576
+…
+ P(wir,werden,geschickt | Nomn KopV Adje, μ)
.3 x .2 x .3 x .5 x .2 x .2 =0.000360
+…
+ P(wir,werden,geschickt | Part Part Part, μ)
=0.0
=…
=0.000936
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
40
A1: Wahrscheinlichkeit einer Beobachtung finden
Lösungsweg 1: brute force: Effizienz
P(O |  )

T 1
 X b X O  a X X b X
1
X 1... XT
1
1
t 1
t
t 1
Ot  1
t 1
 Lösungsweg ist hoffnungslos ineffizient




Benötigt im allgemeinen Fall, d.h.
Start in jedem Zustand möglich,
Jeder Zustand kann auf jeden folgen
(2T -1) x NT Multiplikationen
T Anzahl der Beobachtungen O
N Anzahl der Zustände
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
vgl. Rabiner, 1989, S. 260/261
vgl. Manning/Schütze, 2000: 326
41
A1: Wahrscheinlichkeit einer Beobachtung finden
Lösungsweg 2: Vorwärts- und Rückwärts-Verfahren
 Forward procedure
 Backward procedure
 Merken partieller Ergebnisse statt
 Wiederholter Berechnung
Manning/Schütze, 2000: 326ff
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
42
A2: Beste Pfadsequenz finden
 gegeben:
 eine Sequenz von Beobachtungen
O=(wir,werden,geschickt)
 ein Modell   ( A, B,  )
Adje
AuxV
KopV
Nomn
Part
Adje AuxV KopV Nomn
.2
.1
.1
.4
.2
.3
.1
.2
.2
.2
.1
.4
.1
.4
.3
.1
.3
.1
.2
.1
O  (o1,..., oT )
Part g‘schickt werden wir
.2
.2
0
0
.2
0
.3
0
.1
0
.5
0
.1
0
0
.2
.3
.4
0
0
..
.8
.7
.5
.8
.6

.3
.2
.1
.3
.1
 gesucht: die wahrscheinlichste Pfadsequenz
arg X max P( X | O,  )
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
43
A2: Beste Pfadsequenz finden
 Lösungsweg 1: brute force: Wie in [A1]:
 alle Varianten berechnen
 die wahrscheinlichste auswählen
 hoffnungslos ineffizient
 Lösungsweg 2: beste Einzelzustände
 Für jeden Zeitpunkt t Zustand mit höchster
Ausgabewahrscheinlichkeit auswählen
 Zusammensetzung kann unwahrscheinliche Sequenzen
ergeben
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
44
A2: Beste Pfadsequenz finden
 Lösungsweg 3: Viterbi-Algorithmus
 Speichert für jeden Zeitpunkt t die Wahrscheinlichkeit des
wahrscheinlichsten Pfades, der zu einem Knoten führt
.| 
wir|Adje
wir|AuxV
wir|KopV
wir|Nomn
wir|Part
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
werden|Adje
werden|AuxV
werden|KopV
werden|Nomn
werden|Part
geschickt|Adje
geschickt|AuxV
geschickt|KopV
geschickt|Nomn
geschickt|Part
45
A3: Training der Modellparameter
 gegeben: eine Sequenz von Beobachtungen
In einem Trainingscorpus
O  (o1,..., oT )
 gesucht: ein Modell, das für die beobachteten Sequenzen im
Trainingscorpus die maximalen Wahrscheinlichkeiten erzeugt
  ( A, B,  )
arg  max P(OTraining |  )
Manning/Schütze, 2000: 333ff
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
46
A3: Training der Modellparameter
 Lösung: Baum-Welch oder Forward-backward-Algorithmus
Manning/Schütze, 2000: 333ff
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
47
Formen von Hidden Markov Models: Emissionen
 auf den vorangehenden Folien wurde ein State Emission Model
verwendet
 den allgemeinen Fall stellt ein Arc Emission Model dar
 ein State Emission Model kann in ein Arc Emission Model
überführt werden, umgekehrt ist dies nicht immer möglich
 auf den folgenden Folien wird ein Arc Emission Model
beschrieben
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
48
Formen von Hidden Markov Models: Emissionen
 Allgemeine Form:
Arc Emission Model
 Zur Zeit t emittiertes
Symbol
hängt ab von
 Zustand zur Zeit t und
 Zustand zur Zeit t+1
t
t+1
o
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
• Spezielle Form:
State Emission Model
– Zur Zeit t emittiertes
Symbol
hängt ab von
• Zustand zur Zeit t
t
t+1
o
o
49
Formen von HMM: Emissionen: Beispiel
 Arc Emission Model
• State Emission Model
.2
auxv
.2
part
werden .3
auxv
part
werden .65
haben
.4
haben
.25
sein
.3
sein
.10
.2
verb
werden .95
haben
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
.05
50
Arc Emission Model: Beispiel
 in einem Text lassen sich nur die Ausgaben (= produzierte
Wörter) beobachten (visible)
 die Sequenz von Zuständen (= Wortarten), die die Wörter
ausgeben, (Satzmuster) lässt sich nicht beobachten (hidden)
 mehrere Sequenzen können dieselbe Ausgabe erzeugen:
.3
.3
.3
nomn
.2
.1
auxv
part
.2
.3
wir
werden
.3
punkt
.4
geschickt
.3 x .3 x .2 x .2 x .3 x .1 x .4 = 0.0000432
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
nomn
.2
kopv
.2
wir
.1
punkt
adje
.5
werden
.2
geschickt
.3 x .3 x .2 x .2 x .5 x .1 x .2 = 0.000036
51
Arc Emission Model:
Darstellung als Wahrscheinlichkeitsmatrix
Xt
Adje
AuxV
KopV
Nomn
Part
Punkt
Übergangsmatrix
Xt+1
Adje
.2
Emissionsmatrix
ot
geschickt werden
.2
0
.2
.2
Emissionsmatrix
ot
geschickt werden
0.05
.5
.05
.3
.2
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
Start
AuxV KopV Nomn Part Punkt π
.1
.1
.4
.1
.1
.3
wir ...
0 .8
.3
.1
.1
.1
.1
.4
.2
.1
.1
.1
.2
.1
.4
.1
.2
.3
.1
.1
.05
.1
.3
.1
.3
.1
.1
.1
.1
.3
.1
.1
wir ...
.05 .4
52
Arc Emission Model:
Spezialfall: State Emission Model
Übergangsmatrix
Xt
Xt+1
Adje
AuxV
Adje .2
.2
Emissionsmatrix
Emissionsmatrix
ot
ot
geschickt werden wir ... geschickt werden wir ...
.2
0
0 .8 .2
0
0 .8
AuxV
...
Wenn die Emissionsverteilungen für alle Übergänge aus einem
Zustand identisch sind, entspricht dies einem State Emission
Modell
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
53
Arc Emission Model: Definition
Ein HMM wird spezifiziert durch ein Fünf-Tupel (S,K, Π
S = {S1, ..., SN} Menge der Zustände
K = {k1, ..., kM} Menge der Ausgabesymbole
Π = {πi}
Wahrscheinlichkeiten der Startzustände
πi = P(X1 = Si)
,
A
,
B
)
N
  1
i
i 1
A = {aij}
Wahrscheinlichkeiten der Zustandsübergänge
N
aij = P(Xt+1 = Sj | Xt = Si)
1≤i,
 aij  1
j≤N
j 1
B = {bijk}
Wahrscheinlichkeiten der Symbolemissionen
M
bijk = P(Kk bei Übergang von 1 ≤ j ≤ N
bijk  1
Xt zu Xt+1 | Xt = Sj, Xt+1 = Sj)
1≤k≤M 
k 1
Manning/Schütze, 2000: 318-324
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
54
Formen von Hidden Markov Models: Verbindungen
zwischen Zuständen
 ergodic model: jeder Zustand kann
von jedem in einer endlichen Anzahl
von Schritten erreicht werden:
 andere Arten z.B. in der
Verarbeitung gesprochener
Sprache verwendet
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
55
Rabiner, 1989, S. 266
Vielen Dank
Für das Aufspüren von Fehlern in früheren Versionen und
Hinweise zur Verbesserung danke ich
Wiebke Petersen
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
56
Literatur
•
•
•
•
•
•
Allen, James (1995): Natural Language Understanding. 2nd edition. Addison-Wesley
Publishing Co.
Paul E. Black, "hidden Markov model", in Dictionary of Algorithms and Data Structures
[online], Paul E. Black, ed., U.S. National Institute of Standards and Technology. 14 August
2008. (accessed 16.5.2009) Available from:
http://www.itl.nist.gov/div897/sqg/dads/HTML/hiddenMarkovModel.html
Brants, Thorsten (1999). Statistische Methoden in der Sprachverarbeitung. Seminarskript
15. Juni 1999
Brants, Thorsten; Matthew Crocker und Enrico Lieblang (2000). Statistische Methoden in
der Sprachverarbeitung. Seminarskript. http://www.coli.unisaarland.de/~thorsten/stat00/skript.ps.gz
Haenelt, Karin: Der Viterbi-Algorithmus. Eine Erläuterung der formalen Spezifikation am
Beispiel des Part-of-Speech Tagging. Kursskript. 11.05.2002
http://kontext.fraunhofer.de/haenelt/kurs/folien/Viterbi-Tutor.doc
http://kontext.fraunhofer.de/haenelt/kurs/folien/Viterbi-Tutor.htm
Kunze, Jürgen (2001). Computerlinguistik I: Erkennung und Synthese gesprochener
Sprache. Vorlesungsskript. Humboldt-Universität zu Berlin.
http://kontext.fraunhofer.de/haenelt/eBooks/Kunze/SpeechSkript/
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
57
Literatur
•
•
Manning, Christopher D.; Schütze, Hinrich (1999): Foundations of Statistical Natural
Language Processing. Cambridge, Mass., London: The MIT Press. (vgl.:
http://www.sultry.arts.usyd.edu.au/fsnlp)
Rabiner, Lawrence R. (1989). A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition. In: Proceedings of the IEEE, Vol. 77, No. 2, February.
http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/tutorial%20on%20hmm%20and%
20applications.pdf
© Karin Haenelt, Hidden Markov
Models, 16.5.2009
58