STOCHASTISCHE GRAMMATIKMODELLE

Werbung
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
SAVG
MEMM
Σ
Teil VII
STOCHASTISCHE GRAMMATIKMODELLE
Stochastische
Phrasenstrukturgrammatiken
Vorlesung im Sommersemester 2017
Prof. E.G. Schukat-Talamazzini
Stand: 6. März 2017
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
Stochastische Phrasenstrukturgrammatiken
Definition des Hidden Markov Modells
Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten
Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder)
Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch)
Stochastische CFG und Inside-Outside-Algorithmus
Attribut-Wert-Grammatiken
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
Stochastische Phrasenstrukturgrammatiken
SPSG
=
ˆ
gewöhnliche PSG + Regelwahrscheinlichkeiten
Stochastische kontextfreie Grammatik
Quintupel G = (V, N , N 1 , R, P) mit
V = {v 1 , . . . , v L }
Alphabet der terminalen Symbole
1
K
N = {N , . . . , N }
Alphabet der nichtterminalen Symbole
N1 ∈ N
Startsymbol
R = {N i → ζ iν | i, ν} Menge kontextfreier Produktionen
P : R → [0, 1]
Regelwahrscheinlichkeiten
P
mit Normierung ν P(N i → ζ iν ) = 1
• Berechne Wahrscheinlichkeit eines Ableitungsbaumes
• Berechne Wahrscheinlichkeit einer terminalen Kette
• Sicherstellen der Normierungseigenschaft
Maximum-Entropie-Markovmodelle
Zusammenfassung
• Lernen der Parameter — Regelwahrscheinlichkeiten
• Lernen der Struktur — Produktionsregeln
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Wahrscheinlichkeit eines Ableitungsbaums
Beispielgrammatik (V, N , S, R, P)
V
= {„ants“, „flies“, „like“, „of“, „swat“, „with“, . . .}
N
= {S, NP, VP, PP, Prep, V , N}

S → NP VP
0.8




→ VP
0.2




NP
→
N
0.4




→
N
PP
0.4



→ N NP
0.2
=
VP → V
0.3




→
V
NP
0.3




→
V
PP
0.2




→ V NP PP 0.2



PP → Prep NP
1.0
R
HMM
S
0.8
→
→
→
N
→
→
→
Prep →
Prep →
Prep →
V
„like“
„flies“
„swat“
„swat“
„flies“
„ants“
„like“
„with“
„of“
0.4
0.4
0.2
0.05
0.45
0.5
0.5
0.3
0.2
















NP
VP
0.2
0.3
N
NP
0.05
Produktformel
V
0.4
NP
0.4
0.4
N















N
0.45
swat
für die Einzelschrittwahrscheinlichkeiten
eines
sequentiellen
Verzweigungsprozesses
0.5
flies
like
ants
P(w , B) = P(S(NP(N(„swat“), NP(N(„flies“))), VP(V („like“), NP(N(„ants“))))))
= 0.8 · 0.2 · 0.05 · 0.4 · 0.45 · 0.3 · 0.4 · 0.4 · 0.5
Bemerkung
Die Wörter „like“ und „flies“ und „swat“ sind grammatisch mehrdeutig auf
Grund überschneidender PS-Regeln.
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Sequentieller Verzweigungsprozess
Dominierungsrelation
Ns,t
= 3.456 · 10−5
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Beispiel zur verzweigten Kettenregel
P(B1 ) = P(B1,3 , C4,5 , w1 , w2 , w3 , w4 , w5 | A1,5 )
= P(B1,3 , C4,5 | A1,5 )
· P(w1 , w2 , w3 | A1,5 , B1,3 , C4,5 )
· P(w4 , w5 | A1,5 , B1,3 , C4,5 , w1 , w2 , w3 )
∆N
ws ...wt
für N ∈ N , w ts ∈ V ? und Positionen 1 ≤ s ≤ t ≤ T
Zufällige Regelanwendung
= P(A → B C ) · P(B → w1 , w2 , w3 ) · P(C → w4 , w5 )
P(N → αβ . . . γ) = P(αs0 ,s1 −1 , βs1 ,s2 −1 , . . . , γsm−1 ,sm | Ns0 ,sm )
A1,5
für α, β, γ ∈ N ∪V und Positionen 1 ≤ s0 < s1 < . . . < sm ≤ T
Q:
Ist
Unabhängigkeitspostulat I
X
P(B) gleich 1 ?
B
P(Ns,t → ζ) = P(Ns,t → ζ | irgendetwas außerhalb von [s, t] )
A1:
B1,3
C4,5
Ja! (Induktion)
Unabhängigkeitspostulat II
A2:
P(Ns,t → ζ) = P(Ns,t → ζ | irgendetwas oberhalb von Ns,t )
w1
w2
w3
w4
w5
Aber nicht jeder
Ableitungsbaum ist
endlich ...
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
Syntaktische Mehrdeutigkeit
S
0.2
V
0.8
PP
0.4
N
0.45
V
0.05
0.5
0.4
1.0
Prep
0.4
NP
0.5
N
flies
like
swat
P(B2 ) = 14.4 · 10−5
flies
like
P(w , B) =
P(w ) =
B
B
Stochastische PSG
HMM
HMM/FBA
t=1
P(B)
HMM/Viterbi
HMM/BWA
w
SCFG
SAVG
MEMM
Cq T,0
T
mit C ` ∈ IRK ×(K +1)
mit A ∈ IRK ×(K +1) und B ∈ IRK ×L
N
G = (V, A, B)
V
Adj
B →
→
→
→
1S
0S
1
0
0.3
0.5
0.1
0.1
SRG-Baum
besitzt Kammform
S
S
B
B
dumm
dreist
scharfe
getigertes
rassig
grüner
... ... ...
0.4 (1)
lacht
weint
lieben
kratze
beißen
gewachsen
... ... ...
B
S
B
0
0.05 (1)
w
Cqtt,qt+1
V, (C )`=1..L
0.9
0.05
0.05
S
0.6 (0)
P(N qt → wt N qt+1 ) · P(N qT → wT )
|
{z
} |
{z
}
`
=
B→w
∈{1,0}
Stochast. Moore-Automat
Peter
Paul
Frauen
Katze
Hund
Baum
... ... ...
(T − 1) linkslineare
Regeln
eine terminale Regel
S
Stochast.
Mealy-Automat
G =
{S, B}

S →0B



→1S
→0S



S
X
SRG-Ableitung in Kammform
TY
−1
=
0.05 (0)
Stochastische endliche Automaten
P(B) =
N
0.9 (0)
P(B) · P(w |B) =
| {z }
Σ
linkslineare PSG + Regelwahrscheinlichkeiten
von w1 . . . wT :
ants
definiert eine normierte Verteilung auf V ?
G nicht degeneriert
=
ˆ
{1, 0}
R
P(B3 ) = 12.8 · 10−5
Satzwahrscheinlichkeit
einer
X
XSPSG
MEMM
=
0.4
0.5
ants
SAVG
V
N
0.5
swat
SCFG
SRG-Ableitung
PP
NP
Prep
HMM/BWA
0.2
N
1.0
HMM/Viterbi
Beispielgrammatik (V, N , S, R, P)
VP
0.4
NP
0.2
SRG
NP
0.2
HMM/FBA
Stochastische reguläre Grammatiken
Ein Satz besitzt mehrere Ableitungsbäume
S
VP
HMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
0
0
1
0
HMM/BWA
SCFG
0
SAVG
0
1
MEMM
Bemerkungen
1. SRG & MEALY:
Die Produktionswahrscheinlichkeiten P(N i → v ` N j ) können wir als die
Übergangswahrscheinlichkeiten eines Mealy-Automaten über V mit den
Zuständen N 0 , N 1 , . . . , N K interpretieren. (N 0 Endzustand)
2. MOORE
& MEALY:
Mealy
zwischen
Der
-Automat erzeugt seine Ausgaben
den
Moore
in
IBMZuständen und entspricht einem (DD-)HMM in
Notation
StandardDer Moore-SEA besitzt viel weniger Wahrscheinlichkeitsparameter als der
Mealy-SEA (K 2 + KL versus K 2 L)
3. Observable Operator Modelle:
Die stochastischen Mealy-Automaten lassen sich zu stochastischen
Prozessen (OOM) verallgemeinern, deren Momentanzustand nicht durch
einen Index k ∈ {1, . . . , K } repräsentiert ist sondern durch einen Vektor
z ∈ IRK
„Stochastische Uhren“
http://www.faculty.iu-bremen.de/hjaeger/oom_research.html
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Einzelworterkennung mit Wort-HMMs
Stochastische Phrasenstrukturgrammatiken
Definition des Hidden Markov Modells
Erkennung mit der Bayesregel:
Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten
`∗ = argmax P(W` |X ) = argmax
`=1..L
`=1..L
P(W` ) · P(X |λ` )
P(X )
Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder)
Stochastische CFG und Inside-Outside-Algorithmus
Merkmale
Dichtewertberechnung
Vektorquant.
P(X | λl )
MAXIMUM
Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch)
Wl ∗
···
Attribut-Wert-Grammatiken
Parameter-
Maximum-Entropie-Markovmodelle
Markovmodelle
λ1 , . . . , λL
schätzung
Zusammenfassung
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
Das HMM als Wortaussprachemodell
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Was ist eigentlich verborgen im Hidden Markov Modell ?
• ... die Folge q1 , q2 , . . . , qt , qt+1 , . . .
0.6
0.9
0.5
0.7
(die inneren „Systemzustände“)
0.8
Und was ist beobachtbar im Hidden Markov Modell ?
/h/
/a/
/b/
//
• ... die Folge o1 , o2 , . . . , ot , ot+1 , . . .
/n/
(die „Ausgabezeichen“ des Zufallsprozesses)
·
·
·
·
[b]
[]
[n] 0.7
[m] 0.3
Modellzustände =
ˆ Artikulationsgesten
Zustandswiederholung =
ˆ längere Lautdauer
Zustand überspringen =
ˆ Lautereignis elidieren
zufallsgesteuerte Ausgabe =
ˆ Ausspracheverschleifung
t=2
t=3
t=...
2
1
Zustand 2
[a] 0.9
[=] 0.1
t=1
Fakt
Jeder Zustand kann grundsätzlich jedes Zeichen erzeugen !
2
1
1
verborgen beobachtbar
[h]
Zustand 1
0.2
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
Markovkette = einfache stationäre Markovquelle
a11
s1
HMM/FBA
HMM/Viterbi
a11
a22
a33
SAVG
MEMM
Σ
A
1
ZUSTÄNDE
a12
TRANSITIONEN
a23
2
a34
3
a13
s4
a11
aij 6= 0 ⇒ i ≤ j
4
a24
a14
s3
SCFG
a44
s2
a21
HMM/BWA
Verbindungsstruktur einer Markovkette
a22
a12
HMM
a22
Links−Rechts−Modell
a33
a44
A
• Endliches Zustandsalphabet
S = {s1 , . . . , sN }
• Diskreter stochastischer Prozess
• Erste Markoveigenschaft
q 1 , q2 , . . . , qt , . . .
1
a12
qt ∈ S
P(qt | q1 , . . . , qt−1 ) = P(qt |qt−1 )
def
a11
• Stationäre Übergangswahrscheinlichkeiten aij = P(qt = sj | qt−1 = si )
a23
2
a34
3
aij 6= 0 ⇒ j − i ∈ {0, 1, 2}
4
Bakis−Modell
a13
a24
a22
a33
a44
A
def
• Anfangswahrscheinlichkeiten
πi = P(q1 = si )
N
Parameter (π, A) ∈ IR × IR
1
N×N
a12
a23
2
3
aij 6= 0 ⇒ j − i ∈ {0, 1}
a34
4
Lineares Modell
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Ausgabeverteilungen eines HMM
p(zk )
p(zk )
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
Diskrete Ausgabeverteilungen
p(zk )
• Endliches Zeichenalphabet
p(zk )
V = {v1 , . . . , vK }
diskrete
Modellierung
k
k
k
k
• Folge beobachteter Ausgabezeichen
o1 , o2 , . . . , ot , . . .
ot ∈ V
Links−Rechts
• Zweite Markoveigenschaft
HMM
s1
s2
p(x)
s3
p(x)
s4
p(x)
P(ot | q1 , . . . , qt , o1 , . . . , ot−1 ) = P(ot |qt )
• Stationäre Ausgabewahrscheinlichkeiten
p(x)
def
kontinuierliche
Modellierung
bjk = P(ot = vk | qt = sj )
x
x
x
x
Parameter (π, A, B) ∈ IRN × IRN×N × IRN×K
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
Stetige (kontinuierliche) Ausgabeverteilungen
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
MEMM
Σ
Stochastische Normierungsbedingungen
Anfangswahrscheinlichkeiten
• Folge beobachteter Ausgabevektoren
N
X
x t ∈ IRD
x 1, x 2, . . . , x t , . . .
πi = 1
i =1
Übergangswahrscheinlichkeiten
• Zweite Markoveigenschaft
N
X
P(x t | q1 , . . . , qt , x 1 , . . . , x t−1 ) = P(x t |qt )
aij = 1 ,
i = 1, . . . , N
j=1
Diskrete Ausgabewahrscheinlichkeiten
• Stationäre Ausgabewahrscheinlichkeiten
N
X
def
bj (y ) = P(Xt = y | qt = sj )
bjk = 1 ,
j = 1, . . . , N
k=1
Kontinuierliche Ausgabedichtefunktionen
Parameter (π, A, [bj ]) ∈ IRN × IRN×N × (IRD → IR)N
Z
bj (x) dx = 1 ,
j = 1, . . . , N
IRD
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
Drei offene Fragen zum Thema HMM
? Berechnung der Datenerzeugungswahrscheinlichkeit
P(o|λ) =
X
P(q, o | λ)
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
Stochastische Phrasenstrukturgrammatiken
Definition des Hidden Markov Modells
Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten
q
Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder)
? Aufdeckung der wahrscheinlichsten Zustandsfolge
P(q, o | λ)
!
→
MAX
? Schätzung der bestpassenden Modellparameter
P(o|λ̂) = max P(o|λ)
λ
Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch)
Stochastische CFG und Inside-Outside-Algorithmus
Attribut-Wert-Grammatiken
Maximum-Entropie-Markovmodelle
Zusammenfassung
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
Berechnung der Erzeugungswahrscheinlichkeiten
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
MEMM
Σ
Berechnung der Vorwärtswahrscheinlichkeiten
• Modellbedingte Verteilung der Zustandsfolgen
def
P(q|λ) = P(q1 , . . . , qT | λ) = πq1 ·
T
Y
αt (j) = P(o1 , . . . , ot , qt = j | λ) ,
aqt−1 ,qt
hAlgorithmusi
t=2
1
• Zustandsbedingte Verteilung der Ausgabezeichenfolgen
P(o | q, λ) = P(o1 , . . . , oT | q1 , . . . , qT , λ) =
T
Y
2
• Gemeinsame Wahrscheinlichkeitsverteilung
T
Y
INITIALISIERUNG
Für alle j = 1, . . . , N setze
α1 (j) = πj · bj (o1 )
bqt (ot )
t=1
P(o, q | λ) = P(q|λ)·P(o | q, λ) = πq1 bq1 (o1 )·
t = 1..T , j = 1..N
REKURSION
Für t > 1 und alle j = 1, . . . , N setze
N
X
αt (j) =
aqt−1 ,qt bqt (ot )
!
αt−1 (i) · aij
· bj (ot )
i=1
t=2
3
• Randverteilung für die Ausgabezeichenfolge
P(o|λ) =
X
P(o, q | λ) =
q∈S T
X
πq1 bq1 (o1 ) ·
q∈S T
T
Y
TERMINIERUNG
Berechne die Summe
aqt−1 ,qt bqt (ot )
P(o|λ) =
t=2
N
X
αT (j)
j=1
isumhtiroglAh
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
Rechenschema für den Vorwärtsalgorithmus
O1
Ot−1
Ot
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
Berechnung der Rückwärtswahrscheinlichkeiten
def
βt (i) = P(ot+1 , . . . , oT | qt = i, λ) ,
OT
t = 1..T , i = 1..N
hAlgorithmusi
s1
1
s2
INITIALISIERUNG
Für alle i = 1, . . . , N setze
s3
βT (i) = 1
s4
2
s5
spaltenweise
zeilenweise
REKURSION
Für t < T und alle i = 1, . . . , N setze
βt (i) =
Bemerkung
Rechenaufwand O(N 2 · T ) statt O(N T · T )
Speicheraufwand O(NT ) bzw. O(N)
Rechenaufwand für Bakismodelle O(NT )
Speicheraufwand für Links-Rechts-Modelle O(min(N, T ))
N
X
aij · bj (ot+1 ) · βt+1 (j)
j=1
3
TERMINIERUNG
Berechne die Summe
P(o|λ) =
N
X
πi · bi (o1 ) · β1 (i)
i=1
isumhtiroglAh
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
Beweis.
Beweis.
(zum Vorwärtsalgorithmus)
(zum Rückwärtsalgorithmus)
• Initialisierung — Anwenden der Definition
P(o1 . . . ot , qt = j | λ)
=
P(o1 . . . ot−1 , qt = j | λ) · P(ot | o1 . . . ot−1 , qt = j, λ)
!
N
X
P(o1 . . . ot−1 , qt = j, qt−1 = i | λ) · bj (ot )
βt (i) = P(ot+1 . . . oT | qt = i, λ) =
P(o1 . . . ot−1 , qt−1 = i | λ) · P(qt = j | o1 . . . ot−1 , qt−1 = i, λ)
{z
} |
{z
}
|
Stochastische PSG
HMM
P(o1 . . . oT | λ)
P(o1 . . . oT , qT = j | λ)
|
{z
}
HMM/FBA
HMM/BWA
=
=
αT (j)
HMM/Viterbi
N
X
j=1
N
X
j=1
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM
Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten
P(ot+1 . . . oT , qt+1 = j | qt = i, λ)
HMM/FBA
P(o1 . . . oT , q1 = j | λ)
P(o1 , q1 = j | λ) · P(o2 . . . oT | o1 , q1 = j, λ)
|
{z
} |
{z
}
πj ·bj (o1 )
HMM/Viterbi
β1 (j)
HMM/BWA
SCFG
SAVG
Die verborgene Zustandsfolge
Stochastische Phrasenstrukturgrammatiken
Definition des Hidden Markov Modells
N
X
• Terminierung — totale Wahrscheinlichkeit, dann Kettenregel
aij
• Terminierung — Formel für die totale Wahrscheinlichkeit
j=1
GEGEBEN:
ein HMM mit dem Parametern λ = (π, A, B)
eine Beobachtungssequenz o der Dauer T ∈ IN
Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder)
GESUCHT:
Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch)
Stochastische CFG und Inside-Outside-Algorithmus
Attribut-Wert-Grammatiken
Maximum-Entropie-Markovmodelle
Zusammenfassung
Σ
Jeder Summand läßt sich nach der Kettenregel in ein Produkt aus den
folgenden drei Wahrscheinlichkeiten zerlegen:
P(qt+1 = j | qt = i, λ)
= aij
P(ot+1 | qt+1 = j, qt = i, λ)
= bj (ot+1 )
P(ot+2 . . . oT | ot+1 , qt+1 = j, qt = i, λ) = βt+1 (j)
Jeder Summand läßt sich nach der Kettenregel als Produkt schreiben:
P(o1 . . . oT | λ) =
MEMM
j=1
i =1
N
X
SAVG
• Rekursion — Formel für die totale Wahrscheinlichkeit
=
αt−1 (i )
SCFG
βT (i) = P(leere Folge | qT = i, λ) = 1
• Rekursion — Kettenregel und totale Wahrscheinlichkeit
=
HMM/BWA
• Initialisierung — Anwenden der Definition
α1 (j) = P(o1 , q1 = j | λ) = P(q1 = j|λ)·P(o1 | q1 = j, λ) = πj ·bj (o1 )
αt (j)
HMM/Viterbi
(die Folge der) a posteriori wahrscheinlichsten Zustände
qt∗ ∈ S ,
t = 1, 2, . . . , T
die a posteriori wahrscheinlichste Zustandsfolge
q∗ ∈ S T
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Maximum a posteriori Klassifikation von Zuständen
γt (j)
HMM
HMM/FBA
HMM/BWA
SCFG
SAVG
MEMM
Σ
MEMM
Σ
• Ausgabebezogene a posteriori Zustandsfolgewahrscheinlichkeit
P(o, qt = j | λ)
αt (j) · βt (j)
= N
P(o|λ)
X
αt (i) · βt (i)
P(q | o, λ) =
P(o, q | λ)
P(o|λ)
• Für optimale Zustandsfolgen q ∗ gilt die Identität
i=1
P(o, q ∗ | λ) = max P(o, q | λ)
q∈S T
|
{z
}
• Maximiere die kausale a posteriori Zustandswahrscheinlichkeit
P(qt = j | o1 . . . ot , λ) =
HMM/Viterbi
Datenerzeugung & Optimale Zustandsfolge(n)
• Maximiere die globale a posteriori Zustandswahrscheinlichkeit
P(qt = j | o, λ) =
|
{z
}
Stochastische PSG
P(o1 . . . ot , qt = j | λ)
αt (j)
= N
P(o1 . . . ot | λ)
X
αt (i)
P∗ (o|λ)
• Der Viterbi-Algorithmus berechnet die Wahrscheinlichkeiten
def
i=1
ϑt (j) = maxt P(o1 . . . ot , q1 . . . qt | λ) ,
t = 1..T , j = 1..N
q∈S
qt =j
qt =?
o1
o2
ot
KAUSAL
Stochastische PSG
Bemerkung
HMM
ot+τ
PROSPEKTIV
HMM/FBA
HMM/Viterbi
Für die Viterbi-Bewertung P∗ (o|λ) einer Datensequenz gilt die Ungleichung
oT
P∗ (o|λ) ≤ P(o|λ)
GLOBAL
HMM/BWA
SCFG
SAVG
MEMM
Der Viterbi-Algorithmus
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
Viterbi-Ausrichtung & Entscheidungsüberwachtes Lernen
hAlgorithmusi
1
Sind die Viterbi-Ausrichtungen der Sequenzen einer Probe bekannt, so lassen
sich verbesserte HMM-Parameter als relative aus absoluten Häufigkeiten
gewinnen („Viterbi-Training“):
INITIALISIERUNG
Für alle j = 1, . . . , N setze
ϑ1 (j) = πj · bj (o1 ),
2
ψ1 (j) = 0
REKURSION
Für t > 1 und alle j = 1, . . . , N setze
ϑt (j) = max (ϑt−1 (i) · aij )·bj (ot ),
i =1..N
âij
∝
#(i → j)
def
=
{t | qt−1 = si , qt = sj }
b̂jk
∝
#(j ↓ k)
def
{t | qt = sj , ot = vk }
q
q
q
q
1
2
3
4
q
5
=
q
6
q
7
q
8
q
9
q
10
q
11
q
12
q13 q
14
ψt (j) = argmax (ϑt−1 (i) · aij )
s1
i =1..N
s2
3
TERMINIERUNG
Berechne das Maximum
P∗ (o|λ) = max ϑT (j),
j=1..N
4
RÜCKVERFOLGUNG
Rekonstruiere eine optimale Folge
Viterbi−Ausrichtung
s3
s4
∗
qT
= argmax ϑT (j)
j=1..N
s5
o1
∗
qt∗ = ψt+1 (qt+1
),
isumhtiroglAh
t<T
o2
o3
o4
o5
o6
o7
o8
o9
o
10
o
11
o
12
o
13
o
14
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
EM-Prinzip & Baum-Welch-Trainingsalgorithmus
Stochastische Phrasenstrukturgrammatiken
Definition
Definition des Hidden Markov Modells
Für ein HMM mit Parametern λ (bzw. λ̂) und eine Lernsequenz o ∈ V T
bezeichne
X
def
P(o, q | λ)
`ML (λ) = log P(o|λ) = log
Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten
q∈S T
Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder)
die logarithmierte Likelihood-Zielgröße und
def
Q(λ, λ̂) = E[log P(o, q | λ̂) | o, λ]
Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch)
die Kullback-Leibler-Statistik.
Stochastische CFG und Inside-Outside-Algorithmus
Satz (Expectation-Maximization-Prinzip)
Für alle HMM-Parameterfelder λ, λ̂ gilt
Attribut-Wert-Grammatiken
Q(λ, λ̂) ≥ Q(λ, λ)
Maximum-Entropie-Markovmodelle
mit Gleichheit nur an stationären Stellen λ von `ML (·).
Zusammenfassung
Stochastische PSG
HMM
`ML (λ̂) ≥ `ML (λ)
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
HMMs mit diskreten Ausgabeverteilungen
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Baum-Welch-Algorithmus für diskrete Ausgabeverteilungen
hAlgorithmusi
a11
1
a22
a12
b1
a33
a23
2
b2
3
a44
a34
4
1
INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN
2
EXPECTATION
A posteriori Übergangswahrscheinlichkeiten für si → sj in t
def
ξt (i, j) = P(qt = i, qt+1 = j | o, λ) =
diskrete
Ausgabe−
verteilungen
A posteriori Zustandswahrscheinlichkeiten für si in t
αt (i) · βt (j)
def
γt (i) = P(qt = i | o, λ) = PN
j=1 αt (j) · βt (j)
3
v1
v2
v3
···
vK
αt (i) · aij · bj (ot+1 ) · βt+1 (j)
PN
i=1 αt (i) · βt (i)
Zustände
b4
b3
Ausgabealphabet
Σ
MAXIMIZATION
Neuberechnung der Q(λ, λ̂)-optimalen Parameter
PT
PT −1
t=1 Iot =vk · γt (j)
t=1 ξt (i, j)
π̂i = γ1 (i) , âij = PT −1
, b̂jk =
PT
t=1 γt (i)
t=1 γt (j)
isumhtiroglAh
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
HMMs mit stetigen Ausgabeverteilungen
a11
a22
a12
1
b1
a33
a23
2
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
a34
MEMM
Σ
hAlgorithmusi
4
b3
SAVG
Baum-Welch-Algorithmus für normalverteilte Ausgaben
a44
3
b2
Stochastische PSG
1
INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN
2
EXPECTATION
A posteriori Zustandswahrscheinlichkeiten und
Übergangswahrscheinlichkeiten
Zustände
γt (i) ,
kontinuierliche
Ausgabeverteilungen
b4
3
ξt (i, j) ,
t = 1..T , i = 1..N, j = 1..N
MAXIMIZATION
Neuberechnung der Q(λ, λ̂)-optimalen Parameter {π̂i }, {âij } und
T
X
Multivariat normalverteilte Zustandsausgabe
µ̂j =
t=1
T
X
bj (y ) = N (y | µj , S j )
T
X
γt (j) · x t
,
Ŝ j =
γt (j) · (x t − µ̂j )(x t − µ̂j )>
t=1
γt (j)
t=1
T
X
γt (j)
t=1
isumhtiroglAh
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Bemerkungen
1. Der Baum-Welch-Algorithmus konvergiert gegen ein lokales Maximum.
2. Die Güte des Endresultats richtet sich nach der Güte der Startparameter.
3. Der BWA kann analog für HMMs des Mealy-Typs formuliert werden.
4. Zum Lernen stochastischer regulärer Grammatiken (SRG) mit obigem
Moore-BWA muss konvertiert werden.
Σ
Stochastische PSG
Mealy
Moore:
kartesische Zustände n = (i, j)
A(l,i),(i,j)
=
B((i,j),k
=
MEMM
hAlgorithmusi
= Aij · Bjk
(k)
kC
.ij P
(k)
Cij
l
SAVG
Regelwahrscheinlichkeiten
P : R → [0, 1]
3
(k)
SCFG
GESUCHT:
P(ot = k, qt = j | qt−1 = i)
Cij
HMM/BWA
Regul. Gramm. G = (V, N , S, R)
M
Lerndatenkorpus O⊕ = u (m) m=1
2
Moore Mealy:
identische Zustandsmenge
HMM/Viterbi
GEGEBEN:
Konversion zwischen stochastischen Moore/Mealy-Automaten
=
HMM/FBA
Lernen der Parameter einer SRG
1
Semantik der Automatenparameter:
(k)
Aij = P(qt = j | qt−1 = i) Cij
Bjk = P(ot = k | qt = j)
HMM
P
(l)
Cij
WAHL DER STARTSTRUKTUR
Zustände =
ˆ N und Ausgabealphabet =
ˆ V
WAHL DER STARTPARAMETER
A, B uniform über zulässige Folgezustände/Ausgabewörter
MAXIMUM-LIKELIHOOD-OPTIMIERUNG
Baum-Welch-Algorithmus bis λ = (π, A, B) stationär
isumhtiroglAh
Bemerkung
Vorwärtsalgorithmus:
berechnet die Erzeugungswahrscheinlichkeit PSRG (w ) = P(w |λ)
Viterbialgorithmus:
berechnet wahrscheinlichste Zustandsfolge (=
ˆ N)
SRG-Ableitung
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Lernen der Struktur einer SRG
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
MEMM
Σ
Stochastische Phrasenstrukturgrammatiken
GEGEBEN:
GESUCHT:
Lerndatenkorpus
M
O⊕ = u (m) m=1
Stochastische reguläre Grammatik
G = (V, N , S, R, P)
Definition des Hidden Markov Modells
Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten
hAlgorithmusi
1
2
3
4
WAHL DER STARTSTRUKTUR
HMM mit N ∈ IN Zuständen und Ausgabealphabet =
ˆ V
WAHL DER STARTPARAMETER
A, B uniform mit Wahrscheinlichkeiten 1/N bzw. 1/L
MAXIMUM-LIKELIHOOD-OPTIMIERUNG
Baum-Welch-Algorithmus bis λ = (π, A, B) stationär
PHRASENSTRUKTURREGELREDUKTION
(k)
Elimination aller PS-Regeln N i → v k N j mit Cij < ε
Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder)
Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch)
Stochastische CFG und Inside-Outside-Algorithmus
Attribut-Wert-Grammatiken
Maximum-Entropie-Markovmodelle
isumhtiroglAh
Bemerkung
Wenig erfolgversprechender Ansatz wegen der Startwertsensibilität des BWA
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Zusammenfassung
Σ
Stochastische PSG
HMM
Normalformdarstellung kontextfreier Grammatiken
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
Innenwelt & Außenwelt
Vorderteil & Hinterteil der HMM-Ausgabe werden zu Mantel- & Kernsequenz
N1
Definition
Eine stochastische kontextfreie Grammatik
j
Dominanz Ns,t
G = (V, N , N 1 , R, P)
N
Nichtterminal N j ist für
Segment der Länge
t − s + 1 verantwortlich
j
ist in Chomsky-Normalform, falls alle Produktionsregel die Gestalt
i
N → v
`
i
j
oder N → N N
Speicher O(T 2 N)
k
besitzen.
Bemerkungen
1. Jede kontextfreie Grammatik lässt sich äquivalent in Chomsky-NF
ausdrücken (und umgekehrt).
2. Die Umformung resultiert u.U. in einer rasanten Vergrößerung der
Nichtterminalmenge.
3. CNF-Grammatiken besitzen ausschließlich binäre Ableitungsbäume.
α, β sind Kuben
w1 . . . ws−1
ws . . . w t
wt+1 . . . wT
Definition (Lari & Young, 1990)
Sei G = (V, N , N 1 , R, P) eine stochastische kontextfreie Grammatik. Die
Wahrscheinlichkeiten
und
βs,t (j)
=
j
)
P(ws . . . wt | Ns,t
αs,t (j)
=
j
P(w1 . . . ws−1 , Ns,t
, wt+1 . . . wT )
heißen Innen- bzw. Außenwahrscheinlichkeiten von w ∈ V T .
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Berechnen der Kernwahrscheinlichkeiten
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Beweis.
Ni
• Terminierung: Die SCFG ist normiert über jedem V T , T ∈ IN
• Induktionsanfang: Die CNF-Gestalt der SCFG garantiert, dass es nur
Nj
genau eine Ableitung des Terminals wt aus dem Nichtterminal N j gibt
Nk
• Rekursion: Erweitern, Zerlegen & beide Unabhängigkeitsaxiome
ausnutzen:
wr
ws
ws+1
βr ,t (i)
wt
=
=
Lemma
P(wr . . . wt | Nri ,t )
X
k
P(wr . . . ws , Nrj ,s , ws+1 . . . wt , Ns+1,t
| Nri ,t )
j,k,s
Für die Innenwahrscheinlichkeiten einer stochastischen kontextfreien
Grammatik gelten die folgende Aussagen:
β1,T (1)
=
βt,t (i)
=
βr ,t (i)
1
P(w |N1,T
)
i
P(wt |Nt,t
)
X
k
· P(w sr | Nrj ,s , Ns+1,t
, Nri ,t )
|
{z
}
= P(N i → wt )
entfällt
·
i
j
k
P(Nrj ,s , Ns+1,t
| Nri ,t )
j,k,s
= P(w | `(w ) = T )
t−1
K X
K X
X
=
=
P(w ts+1
k
|
k
w sr , Nri ,t , Nrj ,s , Ns+1,t
)
|
P(N → N N ) · βr ,s (j) · βs+1,t (k)
{z
entfällt
}
j=1 k=1 s=r
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Berechnen der Mantelwahrscheinlichkeiten
N1
Rekursionstaktik
Das geschwisterliche Nichtterminal wird
durch den passenden β-Ausdruck substituiert, der verkleinerte Restmantel durch
den entsprechenden α-Ausdruck
Ni
N
N
k
N
Σ
Stochastische PSG
HMM
j
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Lemma
Für die Außenwahrscheinlichkeiten einer stochastischen kontextfreien
Grammatik gelten die folgenden Aussagen:
P(w |T )
=
K
X
αt,t (j) · P(N j → wt )
für t = 1, . . . , T
j=1
α1,T (1)
1
HMM/FBA
αs,t (j)
=
=
1
P(N1,T
) = 1
K X
K X
s−1
X
αr ,t (i) · P(N i → N k N j ) · βr ,s−1 (k)
i=1 k=1 r =1
w1 . . . wr −1 wr . . . ws−1
ws . . . wt wt+1 . . . wT
N
+
i
K X
K
T
X
X
αs,u (i) · P(N i → N j N k ) · βt+1,u (k)
i=1 k=1 u=t+1
Garantiert wegen Chomsky-NF
j
Ns,t
ist entweder als linkes oder als
rechtes Nichtterminal einer rechten
PS-Regelseite entstanden
Nj
Nk
Speicher- und Rechenaufwand
w1 . . . ws−1 ws . . . wt
wt+1 . . . wu wu+1 . . . wT
Die Auswertung der Rekursionsformel erfordert O(K 2 T ) Operationen.
Es gibt jeweils O(KT 2 ) verschiedene αs,t (j)- bzw. βs,t (j)-Wahrscheinlichkeiten
zu berechnen; der Gesamtaufwand beträgt daher O(K 3 T 3 ).
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Syntaktische Dekodierung
Beweis.
A.
j
eine Ableitung des Terminals wt aus dem Nichtterminal N gibt
Viterbivariante der α/β-Rekursion (Maximum statt Summe)
• Induktionsanfang: Die SCFG ist normiert über jedem V T , T ∈ IN
• Rekursion: Im Anschluss an die Erweiterung
αs,t (j)
=
j
P(w1 . . . ws−1 , Ns,t
, wt+1
=
X
B.
X
A posteriori Dominanzwahrscheinlichkeiten
def
j
j
γs,t (j) = αs,t (j) · βs,t (j) = P(w1 . . . wT , Ns,t
) = P(w , Ns,t
)
. . . wT )
• Bis auf den Faktor P(w ) sind das die Rückschlußwahrscheinlichkeiten für
j
P(w1 . . . wr −1 , wr . . . ws−1 , Ns,t
, wt+1 . . . wT , Nri ,t , Nrk,s−1 )
j
die Dominanz Ns,t
bei Vorlage der Eingabe w .
P
t
• Es ist γs,t (j)
k γs,t (k) die Wahrscheinlichkeit, dass w s zur
Syntaxkategorie N j gehört, falls w ts überhaupt eine Konstituente in der
Ableitung war.
i ,k,r
+
Stochastisches Parsen
Suche nach der wahrscheinlichsten Ableitung von w ∈ V ?
• Terminierung: Die CNF-Gestalt der SCFG garantiert, dass es nur genau
i
k
j
, wt+1 . . . wu , wu+1 . . . wT , Ns,u
, Nu+1,T
)
P(w1 . . . ws−1 , Ns,t
i ,k,u
lassen sich beide Terme faktorisieren und wie im βs,t (j)-Beweis mittels
Unabhängigkeitsaxiomen „entrümpeln“.
• Spezialfall I:
1
1
1
γ1,T (1) = P(w , N1,T
) = P(N1,T
) · P(w |N1,T
) = P(w |T )
• X
Spezialfall II: für
jede Position t gilt
X
k
P(w , Nt,t ) = P(w |T )
γt,t (k) =
k
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
k
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Lemma (Inside-Outside-Algorithmus)
Sei G = (V, N , N 1 , R, P) eine stochastische kontextfreie Grammatik,
w ∈ V T eine Stichprobe der Größe T und αs,t (j), βs,t (j) die Außenbzw. Innenwahrscheinlichkeiten von w hinsichtlich G. Für die modifizierte
Wahrscheinlichkeitsverteilung
Γw (N i → ζ iν )
P0 (N i → ζ iν ) = X
Γw (N i → ζ iκ )
κ
mit den a posteriori Erwartungswerten
T
X
1
Γw (N i → v l )
=
·
αt,t (i) · P(N i → v l ) · Iwt =v l
P(w ) t=1
T X
t X
s
X
1
·
Γw (N i → N j N k ) =
P(w ) t=1 s=1 r =1
αr ,t (i) · P(N i → N j N k ) · βr ,s (j) · βs+1,t (k)
gilt die Ungleichung
P0 (w ) ≥ P(w ) .
Beweis.
Die Verbesserung P0 (w ) ≥ P(w ) der ML-Zielgröße ergibt sich aus dem
EM-Prinzip, denn die neuen Regelwahrscheinlichkeiten P0 (·) maximieren die
Kullback-Leibler-Statistik Q(P, P0 ).
Bemerkungen
1. Der Inside-Outside-A. für SCFG entspricht dem Baum-Welch-A. für
SRG und liefert die Grundlage eines iterativen Schätzverfahrens für
die ML-optimalen PSR-Wahrscheinlichkeiten.
2. Die Berechnung der αs,t (j), βs,t (j) lässt sich (mit viel Mühe!) auf
Nicht-CNF-SCFGs verallgemeinern.
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM
Lernen der Parameter einer SCFG
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Lernen der Struktur einer SCFG
GEGEBEN:
GESUCHT:
GEGEBEN:
GESUCHT:
Kontextfreie G = (V, N , S, R)
M
Lerndatenkorpus O⊕ = u (m) m=1
Regelwahrscheinlichkeiten
P : R → [0, 1]
Lerndatenkorpus
M
O⊕ = u (m) m=1
Stochastische kontextfreie Grammatik
G = (V, N , S, R, P)
hAlgorithmusi
hAlgorithmusi
1
WAHL DER STARTSTRUKTUR
Zustände =
ˆ N in Chomsky-NF und Ausgabealphabet =
ˆ V
2
WAHL DER STARTPARAMETER
P(N i → ζ iν ) uniform über zulässige rechte PSR-Seiten
3
MAXIMUM-LIKELIHOOD-OPTIMIERUNG
Inside-Outside-Algorithmus bis P(N i → ζ iν ) stationär
1
2
3
4
isumhtiroglAh
Bemerkung
SCFG-Parser: berechnet zur Eingabe w eine wahrscheinlichste Ableitung
B∗ (w ) = argmax P(w , B | G) mit der CFG-Variante des Viterbialgorithmus
isumhtiroglAh
Bemerkung
Die SCFG hat (vor der Reduktion) genau K 3 + K · L viele PS-Regeln
B
Stochastische PSG
HMM
WAHL DER STARTSTRUKTUR
K ∈ IN CNF-Nichtterminale und Ausgabealphabet =
ˆ V
WAHL DER STARTPARAMETER
P(N i → ζ iν ) uniform für alle kombinat. möglichen PSR
MAXIMUM-LIKELIHOOD-OPTIMIERUNG
Inside-Outside-Algorithmus bis P(N i → ζ iν ) stationär
PHRASENSTRUKTURREGELREDUKTION
Eliminiere PS-Regeln N i → N j N k und N i → v k mit P(·) < ε
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM
A priori Einschränkungen für den Lernprozess
HMM/FBA
Chomsky (1970)
Verwende POS statt Wortformen als Terminale
• Treebank-Korpus:
Lerne aus geklammerten Textproben
und kumuliere Γw (N i → N j N k ) nur über verträgliche Ableitungsbäume
Pron
V
she
¯
N̄
ξ 00
ξ0
v
MEMM
X̄ -Theorie
N
Det
ate
the
Jede Konstituente
besitzt (genau einen)
einen Kopf
Prep
N
Det
→
→
→
→
SAVG
Jackendoff (1977)
Prep
• Dependenz-Grammatiken:
oder
&
V
( „Salespeople“ ( „sold“ ( „the“ „dog“ ) „biscuits“ ) )
(
N
(
V
( Det
N
)
N
) )
N = C∪C¯ = C∪{N̄ | N ∈ C}
SCFG
S
Pron
Nichtterminale von der Form
HMM/BWA
Beispiel — Dependenzgrammatik
• Parts-of-speech:

S


 ¯
N̄
also beispielsweise


 N̄
N
HMM/Viterbi
N
Det
N
Det
hamburger with
a
fork
Ihre Kategorie trägt
einen Balken mehr
als diejenige ihres
Kopfes
X
X -Phrase
¯ C̄¯
N = C∪C∪
Argumente für Dependenzgrammatiken
N̄
N
00




η
η0 


1.
2.
DG reflektiert unstrittige Struktureigenschaft natürlicher Sprachen
Einschränkung kombinatorischer Vielfalt unterstützt maschin. Lernprozess
...
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Attribut-Wert-Grammatiken
Stochastische Phrasenstrukturgrammatiken
zur ökonomischen Modellierung von Kongruenzbedingungen
Beispiel

Definition des Hidden Markov Modells
S →




S →



A →
A →





B →


B →
Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten
Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder)
Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch)
AA
B
a
b
aa
bb








versus








S →




S →



A →

A →





 B →
B →
A1 A2 11 = 21
B
a
b
aa
bb















Das Notat 11 = 21 meint: „ Erstes Kind von A1 gleich erstes Kind von A2 “
Stochastische CFG und Inside-Outside-Algorithmus
Erfassung horizontaler Kontextabhängigkeiten
Attribut-Wert-Grammatiken
• keine Berücksichtigung
Maximum-Entropie-Markovmodelle
• kombinatorische Entflechtung
HMM
HMM/Viterbi
HMM/BWA
SCFG
SAVG
Stochastische Attribut-Wert-Grammatiken
Datenverteilung und Modellverteilung
Ableitungsbaum #w (B) Ableitungswk. P(B) SAVG
1/ · 2/ · 2/ = 8/
S[A[a]A[a]]
4
2
3
3
36
1/ · 1/ · 1/ = 2/
S[A[b]A[b]]
2
2
3
3
36
1/ · 2/ · 1/ = 4/
S[A[a]A[b]]
0
2
3
3
36
1/ · 1/ · 2/ = 4/
S[A[b]A[a]]
0
2
3
3
36
1
1
9
S[B[aa]]
3
/2 · /2
= /36
1/ · 1/
S[B[bb]]
3
= 9/36
2
2
Wahrscheinlichkeit eines Ableitungsbaumes

XY
1 Y ϕi (B)
P(B) =
·
zi
z0
SCFG:
SAVG:
A in AVG
(vgl. LFG = lexical functional grammar)
HMM/FBA
i
B in CFG und AVG
• Gleichungsrestriktionen
Zusammenfassung
Stochastische PSG
A in CFG
mit


 z0 =
B
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
Definition des Hidden Markov Modells
Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten
Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder)
Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch)
ϕi (B)
i
zi = PS-Regel-Parameter



ϕi = Vielfachheit in B
zi = P(PS-Regel) und z0 = 1
zi > 0 MaxEntropie-Parameter und z0 Partitionsfunktion
SAVG
Stochastische Phrasenstrukturgrammatiken
Stochastische CFG und Inside-Outside-Algorithmus
zi
SCFG
Attribut-Wert-Grammatiken
Maximum-Entropie-Markovmodelle
Zusammenfassung
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
Generative & diskriminative Sprachmodelle
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Diskriminative Hidden Markov Modelle
Maximum-Entropie-Markovmodelle (MEMM) · McCallum, Freitag, Pereira (2000)
Stochastische PSG in der Sprachverarbeitung
HMM generativ
POS-Tagging · Textsegmentierung · Eigennamendetektion
:⇒
Generativ: P(w , u)
Diskriminativ: P(u|w )
w =
ˆ Satz oder Text w1 . . . wT
u=
ˆ Zustandsfolge q1 . . . qT oder Ableitungsbaum B
P(w , u) des Korpus O
⊕
ot−1
q
t
t+1
q
q
t−1
q
t
t+1
MEMM
ot+1
ot
ot−1
ot+1
ot
mit u-Annotation!
P0 (si ), P(sj |si ), P(w` |sj )
u w ∈O
• Werten: Bestimme
Erzeugungswahrscheinlichkeit
X
P(w , u) der Eingabe w
P(w ) =
q
t−1
HMM
• Lernen: Maximiere
X Y Erzeugungswahrscheinlichkeit
P(O) =
q
. . . . . . . . . . . . . . . . . . . . . . HMM diskriminativ
MaxEnt-Markovmodell =
ˆ HMM & diskriminativ & CME
keine Chance!
Warum sollte qt nicht auch von or mit r 6= t abhängen ?!
u
⊕
• Dekodieren: Decke Erzeugungsmechanismus
∗
u (w ) = argmax P(u|w ) der Eingabe w auf
P(sj | si , w` )
• überlappende Textmerkmale und/oder Merkmalbündel
Großschreibung, Suffixe, Wortart, Layout, Position, ...
kein Problem!
u
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Vorwärts/Rückwärtsvariablen im MEMM
P(qt+1 = sj |
= P(qt+1 = sj | qt =
|
{z
αt (j)
=
=
P(qt = sj | o1 , . . . , ot )

f0 (j|o1 )
t=1


N
X
αt−1 (i) · fi (j|ot ) t > 1


i=1
Bedingte Rückwärtswahrscheinlichkeiten
βt (i)
βt (i)
def
=
=
P(qt = si | ot+1 , . . . , oT )

1
t=T

 N
X
fi (j|ot ) · βt+1 (j) t < T


j=1
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Je Zustand si eine CME-Verteilung fi (j|o) für die Vorhersage des
Folgezustands sj mit den Auswahlfunktionen
1
bm (ot ) = true ∧ qt = sj
ϕhm,ji (ot , qt ) =
0
sonst
}
Bedingte Vorwärtswahrscheinlichkeiten
def
HMM
Bedingte Maximum-Entropie-Modelle
si ; o T
1 )
bedingte Ü-Verteilungen fi (j|o)
αt (j)
Stochastische PSG
Zustandsübergangsverteilungen
Nur eine Markovbedingung
q1 , . . . , qt ; o T
1 )
Σ
Kontext
der N bedingten
Übergangsverteilungen fi (j|·) ist

ot+1




o t+d
t−d



 T
o1
(lokal)
(gleitend)
(global)









j = 1, . . . , N und bm : V [?] → {1, 0} binäres Textmerkmal von/um ot
Frage-Antwort-Segmentierung von FAQ-Dokumenten
begins-with-number
contains-question-word
begins-with-question-word
indented
contains-alphanum
more-than-one-third-space
contains-non-space
prv-begins-with-ordinal
contains-question-mark
begins-with-punctuation
first-alpha-is-capitalized
blank
indented-5-to-10
contains-http
prev-is-blank
contains-pipe
begins-with-ordinal
ends-with-question-mark
begins-with-subject
indented-1-to-4
contains-bracketed-number
only-punctuation
contains-number
shorter-than-30
Σ
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
Modellformel der CME-Verteilungen
1
!
ϕµ (ot , qt ) =
Ti
qt−1 =si
{z
}
|
N
X X
SCFG
SAVG
MEMM
Σ
MEMM
Σ
Korrekturindikator
Für alle Indikatoren µ = hm, ji und Vorzustände si :
X
HMM/BWA
Zwei technische Finessen
CME — das System der Bedingungsgleichungen
1
Ti
|
HMM/Viterbi
zur Absicherung der Balanceeigenschaft
def
ϕ0 (o, sj ) = C −
fi (j|ot ) · ϕµ (ot , sj )
X
ϕµ (o, sj )
µ∈M
qt−1 =si j=1
ψ̂µ := EDATA [ϕµ (Ot ,Qt )]
{z
mit C ∈ IN, so daß ϕ0 (·, ·) ≥ 0 für alle o und j
}
ψµ := Ef [ϕµ (Ot ,Qt )]
Reduktion der Modellkomplexität
CME — die Verteilung in Loglinearform
Achtung:
Log-Parameterfeld Λ ∈ IRN×|M| = IRN×M×N




X
1
fi (j|o) =
· exp
λi,µ · ϕµ (o, sj )


z(o, i)
Der
GIS-Algorithmus
operiert
innerhalb eines
jeden
EM-Schritts!
µ∈M
durch Faktorisierung des CME-Prädiktors gemäß




X
1
!
fi (j|o) = P(sj | si ) ·
· exp
λµ · ϕµ (o, sj )


| {z } z(o, i)
µ∈M
âij
|
{z
}
g̃ (j|o)
|M|-Parameter-CME-Modell plus a priori Verteilung P(sj |si )
Normierungskonstanten z(o, i) unproblematische N-Summe
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
Stochastische PSG
HMM
HMM/FBA
A posteriori Wahrscheinlichkeiten
HMM/Viterbi
HMM/BWA
SCFG
SAVG
Viterbi-Dekodierung
... die Alternative zur MAP-Dekodierung
Zustandsfolgewahrscheinlichkeiten
EM-Algorithmus
... so simpel wie P(o|q) im HMM
Der E-Schritt benötigt
die datenbezogenen
Rückschlusswahrscheinlichkeiten γt (j) des
MEMMs
P(q|o) = f0 (q1 |o1 ) ·
T
Y
fqt−1 (qt |ot )
t=2
P(qt = sj | o) =
|
{z
}
γt (j)
=
=
X
t
Y
q1 ,...,qt−1 s=1
N
X
T
Y
=
=
maxq∈S t {P(q1 , . . . , qt | o) | qt = sj }
(
f0 (j|o1 )
t=1
max (θt−1 (i) · fi (j|ot ))
t>1
q ∗ mit ausschließlich zulässigen Übergängen qt 7→ qt+1
fqs−1 (qs |os )
fqs−1 (qs |os )
γt−1 (i) · fi (j|ot )
i=1
def
i
q1 ,...,qt−1 qt+1 ,...,qT s=1
X
θt (j)
θt (j)
Zustandswahrscheinlichkeiten
X
Viterbialgorithmus im MEMM
“
„sie
„sie
“
„ist“
„aus“
gut passend
„ist“
„am“
schlecht passend
Label-Bias-Problem
„Es
sen
“
en“
s
„Es
W.masse 1 wird an alle
Nachfolger verteilt
oT
1 hat geringen
Einfluss, falls der
Ausgangsgrad klein ist
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Σ
MEMM und Konsorten
Stochastische PSG
HMM
HMM/FBA
HMM/Viterbi
HMM/BWA
Conditional CFG
wenn Textkorpus und
syntaktische Markierung oder
Ableitung verfügbar
diskriminative ME-Variante der
stochastischen CFG
Unüberwacht lernen
CME-Modell für
Zustandsfolgen statt für
Zustände — ohne
Label-Bias-Problem
Definition des Hidden Markov Modells
Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten
Conditional MRF
aus unetikettiertem Textkorpus
mit einer Instanz des
EM-Algorithmus
Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder)
Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch)
Stochastische CFG und Inside-Outside-Algorithmus
Diskriminative Modelle wie MEMM & Co.
Attribut-Wert-Grammatiken
• verschwenden keine Energie um P(w ) zu schätzen
denn der Text ist in Lern- wie auch Abrufphase bekannt!
Maximum-Entropie-Markovmodelle
• entkoppeln die Abhängigkeiten unter den Wortvorkommen
Zusammenfassung
und erlauben die Einbeziehung komplexer Textmerkmale als ϕm ’s
HMM
HMM/FBA
SAVG
Stochastische Phrasenstrukturgrammatiken
Überwacht lernen
Stochastische PSG
SCFG
HMM/Viterbi
HMM/BWA
SCFG
SAVG
MEMM
Zusammenfassung (7)
1. Stochastische PS-Grammatiken entstehen durch normierte
Wahrscheinlichkeitsgewichtung aller Phrasenstrukturregeln.
2. Für reguläre Grammatiken resultieren daraus stochastische Moore- oder
Mealy-Automaten (Hidden Markov Modelle).
3. Wir kennen für das HMM effiziente Algorithmen zur Parameterschätzung
(Baum-Welch) und für die Satzwahrscheinlichkeit (Vorwärtsrekursion).
4. Auch für kontextfreie Grammatiken kennen wir das stochastische
Äquivalent und Algorithmen zur Parameterschätzung (Inside-Outside)
und für die P(w )-Berechnung (Kern-Mantel-Rekursion).
5. Das maschinelle Lernen der Modellstruktur (PS-Regelvorrat) ist für
HMMs und SCFGs nicht befriedigend gelöst.
6. Zur Dekodierung der latenten Zustände (HMM) oder Ableitungsschritte
(SCFG) einer Wortfolge wählen wir zwischen globaler
(Viterbialgorithmus) und lokaler (Maximum a posteriori-Regel) Strategie.
7. Mit bedingten ME-Verteilungen (CME) lässt sich eine diskriminative
Variante (MEMM) regulärer SPSG definieren, die sich für
Dekodieraufgaben (Parser, Tagger, Segmentierer) anbietet.
Σ
MEMM
Σ
Herunterladen