Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ SAVG MEMM Σ Teil VII STOCHASTISCHE GRAMMATIKMODELLE Stochastische Phrasenstrukturgrammatiken Vorlesung im Sommersemester 2017 Prof. E.G. Schukat-Talamazzini Stand: 6. März 2017 Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG Stochastische Phrasenstrukturgrammatiken Definition des Hidden Markov Modells Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder) Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch) Stochastische CFG und Inside-Outside-Algorithmus Attribut-Wert-Grammatiken MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG Stochastische Phrasenstrukturgrammatiken SPSG = ˆ gewöhnliche PSG + Regelwahrscheinlichkeiten Stochastische kontextfreie Grammatik Quintupel G = (V, N , N 1 , R, P) mit V = {v 1 , . . . , v L } Alphabet der terminalen Symbole 1 K N = {N , . . . , N } Alphabet der nichtterminalen Symbole N1 ∈ N Startsymbol R = {N i → ζ iν | i, ν} Menge kontextfreier Produktionen P : R → [0, 1] Regelwahrscheinlichkeiten P mit Normierung ν P(N i → ζ iν ) = 1 • Berechne Wahrscheinlichkeit eines Ableitungsbaumes • Berechne Wahrscheinlichkeit einer terminalen Kette • Sicherstellen der Normierungseigenschaft Maximum-Entropie-Markovmodelle Zusammenfassung • Lernen der Parameter — Regelwahrscheinlichkeiten • Lernen der Struktur — Produktionsregeln Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Wahrscheinlichkeit eines Ableitungsbaums Beispielgrammatik (V, N , S, R, P) V = {„ants“, „flies“, „like“, „of“, „swat“, „with“, . . .} N = {S, NP, VP, PP, Prep, V , N} S → NP VP 0.8 → VP 0.2 NP → N 0.4 → N PP 0.4 → N NP 0.2 = VP → V 0.3 → V NP 0.3 → V PP 0.2 → V NP PP 0.2 PP → Prep NP 1.0 R HMM S 0.8 → → → N → → → Prep → Prep → Prep → V „like“ „flies“ „swat“ „swat“ „flies“ „ants“ „like“ „with“ „of“ 0.4 0.4 0.2 0.05 0.45 0.5 0.5 0.3 0.2 NP VP 0.2 0.3 N NP 0.05 Produktformel V 0.4 NP 0.4 0.4 N N 0.45 swat für die Einzelschrittwahrscheinlichkeiten eines sequentiellen Verzweigungsprozesses 0.5 flies like ants P(w , B) = P(S(NP(N(„swat“), NP(N(„flies“))), VP(V („like“), NP(N(„ants“)))))) = 0.8 · 0.2 · 0.05 · 0.4 · 0.45 · 0.3 · 0.4 · 0.4 · 0.5 Bemerkung Die Wörter „like“ und „flies“ und „swat“ sind grammatisch mehrdeutig auf Grund überschneidender PS-Regeln. Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Sequentieller Verzweigungsprozess Dominierungsrelation Ns,t = 3.456 · 10−5 Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Beispiel zur verzweigten Kettenregel P(B1 ) = P(B1,3 , C4,5 , w1 , w2 , w3 , w4 , w5 | A1,5 ) = P(B1,3 , C4,5 | A1,5 ) · P(w1 , w2 , w3 | A1,5 , B1,3 , C4,5 ) · P(w4 , w5 | A1,5 , B1,3 , C4,5 , w1 , w2 , w3 ) ∆N ws ...wt für N ∈ N , w ts ∈ V ? und Positionen 1 ≤ s ≤ t ≤ T Zufällige Regelanwendung = P(A → B C ) · P(B → w1 , w2 , w3 ) · P(C → w4 , w5 ) P(N → αβ . . . γ) = P(αs0 ,s1 −1 , βs1 ,s2 −1 , . . . , γsm−1 ,sm | Ns0 ,sm ) A1,5 für α, β, γ ∈ N ∪V und Positionen 1 ≤ s0 < s1 < . . . < sm ≤ T Q: Ist Unabhängigkeitspostulat I X P(B) gleich 1 ? B P(Ns,t → ζ) = P(Ns,t → ζ | irgendetwas außerhalb von [s, t] ) A1: B1,3 C4,5 Ja! (Induktion) Unabhängigkeitspostulat II A2: P(Ns,t → ζ) = P(Ns,t → ζ | irgendetwas oberhalb von Ns,t ) w1 w2 w3 w4 w5 Aber nicht jeder Ableitungsbaum ist endlich ... Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG Syntaktische Mehrdeutigkeit S 0.2 V 0.8 PP 0.4 N 0.45 V 0.05 0.5 0.4 1.0 Prep 0.4 NP 0.5 N flies like swat P(B2 ) = 14.4 · 10−5 flies like P(w , B) = P(w ) = B B Stochastische PSG HMM HMM/FBA t=1 P(B) HMM/Viterbi HMM/BWA w SCFG SAVG MEMM Cq T,0 T mit C ` ∈ IRK ×(K +1) mit A ∈ IRK ×(K +1) und B ∈ IRK ×L N G = (V, A, B) V Adj B → → → → 1S 0S 1 0 0.3 0.5 0.1 0.1 SRG-Baum besitzt Kammform S S B B dumm dreist scharfe getigertes rassig grüner ... ... ... 0.4 (1) lacht weint lieben kratze beißen gewachsen ... ... ... B S B 0 0.05 (1) w Cqtt,qt+1 V, (C )`=1..L 0.9 0.05 0.05 S 0.6 (0) P(N qt → wt N qt+1 ) · P(N qT → wT ) | {z } | {z } ` = B→w ∈{1,0} Stochast. Moore-Automat Peter Paul Frauen Katze Hund Baum ... ... ... (T − 1) linkslineare Regeln eine terminale Regel S Stochast. Mealy-Automat G = {S, B} S →0B →1S →0S S X SRG-Ableitung in Kammform TY −1 = 0.05 (0) Stochastische endliche Automaten P(B) = N 0.9 (0) P(B) · P(w |B) = | {z } Σ linkslineare PSG + Regelwahrscheinlichkeiten von w1 . . . wT : ants definiert eine normierte Verteilung auf V ? G nicht degeneriert = ˆ {1, 0} R P(B3 ) = 12.8 · 10−5 Satzwahrscheinlichkeit einer X XSPSG MEMM = 0.4 0.5 ants SAVG V N 0.5 swat SCFG SRG-Ableitung PP NP Prep HMM/BWA 0.2 N 1.0 HMM/Viterbi Beispielgrammatik (V, N , S, R, P) VP 0.4 NP 0.2 SRG NP 0.2 HMM/FBA Stochastische reguläre Grammatiken Ein Satz besitzt mehrere Ableitungsbäume S VP HMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi 0 0 1 0 HMM/BWA SCFG 0 SAVG 0 1 MEMM Bemerkungen 1. SRG & MEALY: Die Produktionswahrscheinlichkeiten P(N i → v ` N j ) können wir als die Übergangswahrscheinlichkeiten eines Mealy-Automaten über V mit den Zuständen N 0 , N 1 , . . . , N K interpretieren. (N 0 Endzustand) 2. MOORE & MEALY: Mealy zwischen Der -Automat erzeugt seine Ausgaben den Moore in IBMZuständen und entspricht einem (DD-)HMM in Notation StandardDer Moore-SEA besitzt viel weniger Wahrscheinlichkeitsparameter als der Mealy-SEA (K 2 + KL versus K 2 L) 3. Observable Operator Modelle: Die stochastischen Mealy-Automaten lassen sich zu stochastischen Prozessen (OOM) verallgemeinern, deren Momentanzustand nicht durch einen Index k ∈ {1, . . . , K } repräsentiert ist sondern durch einen Vektor z ∈ IRK „Stochastische Uhren“ http://www.faculty.iu-bremen.de/hjaeger/oom_research.html Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Einzelworterkennung mit Wort-HMMs Stochastische Phrasenstrukturgrammatiken Definition des Hidden Markov Modells Erkennung mit der Bayesregel: Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten `∗ = argmax P(W` |X ) = argmax `=1..L `=1..L P(W` ) · P(X |λ` ) P(X ) Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder) Stochastische CFG und Inside-Outside-Algorithmus Merkmale Dichtewertberechnung Vektorquant. P(X | λl ) MAXIMUM Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch) Wl ∗ ··· Attribut-Wert-Grammatiken Parameter- Maximum-Entropie-Markovmodelle Markovmodelle λ1 , . . . , λL schätzung Zusammenfassung Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG Das HMM als Wortaussprachemodell MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Was ist eigentlich verborgen im Hidden Markov Modell ? • ... die Folge q1 , q2 , . . . , qt , qt+1 , . . . 0.6 0.9 0.5 0.7 (die inneren „Systemzustände“) 0.8 Und was ist beobachtbar im Hidden Markov Modell ? /h/ /a/ /b/ // • ... die Folge o1 , o2 , . . . , ot , ot+1 , . . . /n/ (die „Ausgabezeichen“ des Zufallsprozesses) · · · · [b] [] [n] 0.7 [m] 0.3 Modellzustände = ˆ Artikulationsgesten Zustandswiederholung = ˆ längere Lautdauer Zustand überspringen = ˆ Lautereignis elidieren zufallsgesteuerte Ausgabe = ˆ Ausspracheverschleifung t=2 t=3 t=... 2 1 Zustand 2 [a] 0.9 [=] 0.1 t=1 Fakt Jeder Zustand kann grundsätzlich jedes Zeichen erzeugen ! 2 1 1 verborgen beobachtbar [h] Zustand 1 0.2 Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG Markovkette = einfache stationäre Markovquelle a11 s1 HMM/FBA HMM/Viterbi a11 a22 a33 SAVG MEMM Σ A 1 ZUSTÄNDE a12 TRANSITIONEN a23 2 a34 3 a13 s4 a11 aij 6= 0 ⇒ i ≤ j 4 a24 a14 s3 SCFG a44 s2 a21 HMM/BWA Verbindungsstruktur einer Markovkette a22 a12 HMM a22 Links−Rechts−Modell a33 a44 A • Endliches Zustandsalphabet S = {s1 , . . . , sN } • Diskreter stochastischer Prozess • Erste Markoveigenschaft q 1 , q2 , . . . , qt , . . . 1 a12 qt ∈ S P(qt | q1 , . . . , qt−1 ) = P(qt |qt−1 ) def a11 • Stationäre Übergangswahrscheinlichkeiten aij = P(qt = sj | qt−1 = si ) a23 2 a34 3 aij 6= 0 ⇒ j − i ∈ {0, 1, 2} 4 Bakis−Modell a13 a24 a22 a33 a44 A def • Anfangswahrscheinlichkeiten πi = P(q1 = si ) N Parameter (π, A) ∈ IR × IR 1 N×N a12 a23 2 3 aij 6= 0 ⇒ j − i ∈ {0, 1} a34 4 Lineares Modell Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Ausgabeverteilungen eines HMM p(zk ) p(zk ) Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG Diskrete Ausgabeverteilungen p(zk ) • Endliches Zeichenalphabet p(zk ) V = {v1 , . . . , vK } diskrete Modellierung k k k k • Folge beobachteter Ausgabezeichen o1 , o2 , . . . , ot , . . . ot ∈ V Links−Rechts • Zweite Markoveigenschaft HMM s1 s2 p(x) s3 p(x) s4 p(x) P(ot | q1 , . . . , qt , o1 , . . . , ot−1 ) = P(ot |qt ) • Stationäre Ausgabewahrscheinlichkeiten p(x) def kontinuierliche Modellierung bjk = P(ot = vk | qt = sj ) x x x x Parameter (π, A, B) ∈ IRN × IRN×N × IRN×K MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG Stetige (kontinuierliche) Ausgabeverteilungen HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ MEMM Σ Stochastische Normierungsbedingungen Anfangswahrscheinlichkeiten • Folge beobachteter Ausgabevektoren N X x t ∈ IRD x 1, x 2, . . . , x t , . . . πi = 1 i =1 Übergangswahrscheinlichkeiten • Zweite Markoveigenschaft N X P(x t | q1 , . . . , qt , x 1 , . . . , x t−1 ) = P(x t |qt ) aij = 1 , i = 1, . . . , N j=1 Diskrete Ausgabewahrscheinlichkeiten • Stationäre Ausgabewahrscheinlichkeiten N X def bj (y ) = P(Xt = y | qt = sj ) bjk = 1 , j = 1, . . . , N k=1 Kontinuierliche Ausgabedichtefunktionen Parameter (π, A, [bj ]) ∈ IRN × IRN×N × (IRD → IR)N Z bj (x) dx = 1 , j = 1, . . . , N IRD Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG Drei offene Fragen zum Thema HMM ? Berechnung der Datenerzeugungswahrscheinlichkeit P(o|λ) = X P(q, o | λ) MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG Stochastische Phrasenstrukturgrammatiken Definition des Hidden Markov Modells Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten q Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder) ? Aufdeckung der wahrscheinlichsten Zustandsfolge P(q, o | λ) ! → MAX ? Schätzung der bestpassenden Modellparameter P(o|λ̂) = max P(o|λ) λ Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch) Stochastische CFG und Inside-Outside-Algorithmus Attribut-Wert-Grammatiken Maximum-Entropie-Markovmodelle Zusammenfassung Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG Berechnung der Erzeugungswahrscheinlichkeiten HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ MEMM Σ Berechnung der Vorwärtswahrscheinlichkeiten • Modellbedingte Verteilung der Zustandsfolgen def P(q|λ) = P(q1 , . . . , qT | λ) = πq1 · T Y αt (j) = P(o1 , . . . , ot , qt = j | λ) , aqt−1 ,qt hAlgorithmusi t=2 1 • Zustandsbedingte Verteilung der Ausgabezeichenfolgen P(o | q, λ) = P(o1 , . . . , oT | q1 , . . . , qT , λ) = T Y 2 • Gemeinsame Wahrscheinlichkeitsverteilung T Y INITIALISIERUNG Für alle j = 1, . . . , N setze α1 (j) = πj · bj (o1 ) bqt (ot ) t=1 P(o, q | λ) = P(q|λ)·P(o | q, λ) = πq1 bq1 (o1 )· t = 1..T , j = 1..N REKURSION Für t > 1 und alle j = 1, . . . , N setze N X αt (j) = aqt−1 ,qt bqt (ot ) ! αt−1 (i) · aij · bj (ot ) i=1 t=2 3 • Randverteilung für die Ausgabezeichenfolge P(o|λ) = X P(o, q | λ) = q∈S T X πq1 bq1 (o1 ) · q∈S T T Y TERMINIERUNG Berechne die Summe aqt−1 ,qt bqt (ot ) P(o|λ) = t=2 N X αT (j) j=1 isumhtiroglAh Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG Rechenschema für den Vorwärtsalgorithmus O1 Ot−1 Ot HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG Berechnung der Rückwärtswahrscheinlichkeiten def βt (i) = P(ot+1 , . . . , oT | qt = i, λ) , OT t = 1..T , i = 1..N hAlgorithmusi s1 1 s2 INITIALISIERUNG Für alle i = 1, . . . , N setze s3 βT (i) = 1 s4 2 s5 spaltenweise zeilenweise REKURSION Für t < T und alle i = 1, . . . , N setze βt (i) = Bemerkung Rechenaufwand O(N 2 · T ) statt O(N T · T ) Speicheraufwand O(NT ) bzw. O(N) Rechenaufwand für Bakismodelle O(NT ) Speicheraufwand für Links-Rechts-Modelle O(min(N, T )) N X aij · bj (ot+1 ) · βt+1 (j) j=1 3 TERMINIERUNG Berechne die Summe P(o|λ) = N X πi · bi (o1 ) · β1 (i) i=1 isumhtiroglAh Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG HMM HMM/FBA Beweis. Beweis. (zum Vorwärtsalgorithmus) (zum Rückwärtsalgorithmus) • Initialisierung — Anwenden der Definition P(o1 . . . ot , qt = j | λ) = P(o1 . . . ot−1 , qt = j | λ) · P(ot | o1 . . . ot−1 , qt = j, λ) ! N X P(o1 . . . ot−1 , qt = j, qt−1 = i | λ) · bj (ot ) βt (i) = P(ot+1 . . . oT | qt = i, λ) = P(o1 . . . ot−1 , qt−1 = i | λ) · P(qt = j | o1 . . . ot−1 , qt−1 = i, λ) {z } | {z } | Stochastische PSG HMM P(o1 . . . oT | λ) P(o1 . . . oT , qT = j | λ) | {z } HMM/FBA HMM/BWA = = αT (j) HMM/Viterbi N X j=1 N X j=1 SCFG SAVG MEMM Σ Stochastische PSG HMM Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten P(ot+1 . . . oT , qt+1 = j | qt = i, λ) HMM/FBA P(o1 . . . oT , q1 = j | λ) P(o1 , q1 = j | λ) · P(o2 . . . oT | o1 , q1 = j, λ) | {z } | {z } πj ·bj (o1 ) HMM/Viterbi β1 (j) HMM/BWA SCFG SAVG Die verborgene Zustandsfolge Stochastische Phrasenstrukturgrammatiken Definition des Hidden Markov Modells N X • Terminierung — totale Wahrscheinlichkeit, dann Kettenregel aij • Terminierung — Formel für die totale Wahrscheinlichkeit j=1 GEGEBEN: ein HMM mit dem Parametern λ = (π, A, B) eine Beobachtungssequenz o der Dauer T ∈ IN Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder) GESUCHT: Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch) Stochastische CFG und Inside-Outside-Algorithmus Attribut-Wert-Grammatiken Maximum-Entropie-Markovmodelle Zusammenfassung Σ Jeder Summand läßt sich nach der Kettenregel in ein Produkt aus den folgenden drei Wahrscheinlichkeiten zerlegen: P(qt+1 = j | qt = i, λ) = aij P(ot+1 | qt+1 = j, qt = i, λ) = bj (ot+1 ) P(ot+2 . . . oT | ot+1 , qt+1 = j, qt = i, λ) = βt+1 (j) Jeder Summand läßt sich nach der Kettenregel als Produkt schreiben: P(o1 . . . oT | λ) = MEMM j=1 i =1 N X SAVG • Rekursion — Formel für die totale Wahrscheinlichkeit = αt−1 (i ) SCFG βT (i) = P(leere Folge | qT = i, λ) = 1 • Rekursion — Kettenregel und totale Wahrscheinlichkeit = HMM/BWA • Initialisierung — Anwenden der Definition α1 (j) = P(o1 , q1 = j | λ) = P(q1 = j|λ)·P(o1 | q1 = j, λ) = πj ·bj (o1 ) αt (j) HMM/Viterbi (die Folge der) a posteriori wahrscheinlichsten Zustände qt∗ ∈ S , t = 1, 2, . . . , T die a posteriori wahrscheinlichste Zustandsfolge q∗ ∈ S T MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Maximum a posteriori Klassifikation von Zuständen γt (j) HMM HMM/FBA HMM/BWA SCFG SAVG MEMM Σ MEMM Σ • Ausgabebezogene a posteriori Zustandsfolgewahrscheinlichkeit P(o, qt = j | λ) αt (j) · βt (j) = N P(o|λ) X αt (i) · βt (i) P(q | o, λ) = P(o, q | λ) P(o|λ) • Für optimale Zustandsfolgen q ∗ gilt die Identität i=1 P(o, q ∗ | λ) = max P(o, q | λ) q∈S T | {z } • Maximiere die kausale a posteriori Zustandswahrscheinlichkeit P(qt = j | o1 . . . ot , λ) = HMM/Viterbi Datenerzeugung & Optimale Zustandsfolge(n) • Maximiere die globale a posteriori Zustandswahrscheinlichkeit P(qt = j | o, λ) = | {z } Stochastische PSG P(o1 . . . ot , qt = j | λ) αt (j) = N P(o1 . . . ot | λ) X αt (i) P∗ (o|λ) • Der Viterbi-Algorithmus berechnet die Wahrscheinlichkeiten def i=1 ϑt (j) = maxt P(o1 . . . ot , q1 . . . qt | λ) , t = 1..T , j = 1..N q∈S qt =j qt =? o1 o2 ot KAUSAL Stochastische PSG Bemerkung HMM ot+τ PROSPEKTIV HMM/FBA HMM/Viterbi Für die Viterbi-Bewertung P∗ (o|λ) einer Datensequenz gilt die Ungleichung oT P∗ (o|λ) ≤ P(o|λ) GLOBAL HMM/BWA SCFG SAVG MEMM Der Viterbi-Algorithmus Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG Viterbi-Ausrichtung & Entscheidungsüberwachtes Lernen hAlgorithmusi 1 Sind die Viterbi-Ausrichtungen der Sequenzen einer Probe bekannt, so lassen sich verbesserte HMM-Parameter als relative aus absoluten Häufigkeiten gewinnen („Viterbi-Training“): INITIALISIERUNG Für alle j = 1, . . . , N setze ϑ1 (j) = πj · bj (o1 ), 2 ψ1 (j) = 0 REKURSION Für t > 1 und alle j = 1, . . . , N setze ϑt (j) = max (ϑt−1 (i) · aij )·bj (ot ), i =1..N âij ∝ #(i → j) def = {t | qt−1 = si , qt = sj } b̂jk ∝ #(j ↓ k) def {t | qt = sj , ot = vk } q q q q 1 2 3 4 q 5 = q 6 q 7 q 8 q 9 q 10 q 11 q 12 q13 q 14 ψt (j) = argmax (ϑt−1 (i) · aij ) s1 i =1..N s2 3 TERMINIERUNG Berechne das Maximum P∗ (o|λ) = max ϑT (j), j=1..N 4 RÜCKVERFOLGUNG Rekonstruiere eine optimale Folge Viterbi−Ausrichtung s3 s4 ∗ qT = argmax ϑT (j) j=1..N s5 o1 ∗ qt∗ = ψt+1 (qt+1 ), isumhtiroglAh t<T o2 o3 o4 o5 o6 o7 o8 o9 o 10 o 11 o 12 o 13 o 14 Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ EM-Prinzip & Baum-Welch-Trainingsalgorithmus Stochastische Phrasenstrukturgrammatiken Definition Definition des Hidden Markov Modells Für ein HMM mit Parametern λ (bzw. λ̂) und eine Lernsequenz o ∈ V T bezeichne X def P(o, q | λ) `ML (λ) = log P(o|λ) = log Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten q∈S T Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder) die logarithmierte Likelihood-Zielgröße und def Q(λ, λ̂) = E[log P(o, q | λ̂) | o, λ] Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch) die Kullback-Leibler-Statistik. Stochastische CFG und Inside-Outside-Algorithmus Satz (Expectation-Maximization-Prinzip) Für alle HMM-Parameterfelder λ, λ̂ gilt Attribut-Wert-Grammatiken Q(λ, λ̂) ≥ Q(λ, λ) Maximum-Entropie-Markovmodelle mit Gleichheit nur an stationären Stellen λ von `ML (·). Zusammenfassung Stochastische PSG HMM `ML (λ̂) ≥ `ML (λ) HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM HMMs mit diskreten Ausgabeverteilungen Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Baum-Welch-Algorithmus für diskrete Ausgabeverteilungen hAlgorithmusi a11 1 a22 a12 b1 a33 a23 2 b2 3 a44 a34 4 1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN 2 EXPECTATION A posteriori Übergangswahrscheinlichkeiten für si → sj in t def ξt (i, j) = P(qt = i, qt+1 = j | o, λ) = diskrete Ausgabe− verteilungen A posteriori Zustandswahrscheinlichkeiten für si in t αt (i) · βt (j) def γt (i) = P(qt = i | o, λ) = PN j=1 αt (j) · βt (j) 3 v1 v2 v3 ··· vK αt (i) · aij · bj (ot+1 ) · βt+1 (j) PN i=1 αt (i) · βt (i) Zustände b4 b3 Ausgabealphabet Σ MAXIMIZATION Neuberechnung der Q(λ, λ̂)-optimalen Parameter PT PT −1 t=1 Iot =vk · γt (j) t=1 ξt (i, j) π̂i = γ1 (i) , âij = PT −1 , b̂jk = PT t=1 γt (i) t=1 γt (j) isumhtiroglAh Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ HMMs mit stetigen Ausgabeverteilungen a11 a22 a12 1 b1 a33 a23 2 HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG a34 MEMM Σ hAlgorithmusi 4 b3 SAVG Baum-Welch-Algorithmus für normalverteilte Ausgaben a44 3 b2 Stochastische PSG 1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN 2 EXPECTATION A posteriori Zustandswahrscheinlichkeiten und Übergangswahrscheinlichkeiten Zustände γt (i) , kontinuierliche Ausgabeverteilungen b4 3 ξt (i, j) , t = 1..T , i = 1..N, j = 1..N MAXIMIZATION Neuberechnung der Q(λ, λ̂)-optimalen Parameter {π̂i }, {âij } und T X Multivariat normalverteilte Zustandsausgabe µ̂j = t=1 T X bj (y ) = N (y | µj , S j ) T X γt (j) · x t , Ŝ j = γt (j) · (x t − µ̂j )(x t − µ̂j )> t=1 γt (j) t=1 T X γt (j) t=1 isumhtiroglAh Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Bemerkungen 1. Der Baum-Welch-Algorithmus konvergiert gegen ein lokales Maximum. 2. Die Güte des Endresultats richtet sich nach der Güte der Startparameter. 3. Der BWA kann analog für HMMs des Mealy-Typs formuliert werden. 4. Zum Lernen stochastischer regulärer Grammatiken (SRG) mit obigem Moore-BWA muss konvertiert werden. Σ Stochastische PSG Mealy Moore: kartesische Zustände n = (i, j) A(l,i),(i,j) = B((i,j),k = MEMM hAlgorithmusi = Aij · Bjk (k) kC .ij P (k) Cij l SAVG Regelwahrscheinlichkeiten P : R → [0, 1] 3 (k) SCFG GESUCHT: P(ot = k, qt = j | qt−1 = i) Cij HMM/BWA Regul. Gramm. G = (V, N , S, R) M Lerndatenkorpus O⊕ = u (m) m=1 2 Moore Mealy: identische Zustandsmenge HMM/Viterbi GEGEBEN: Konversion zwischen stochastischen Moore/Mealy-Automaten = HMM/FBA Lernen der Parameter einer SRG 1 Semantik der Automatenparameter: (k) Aij = P(qt = j | qt−1 = i) Cij Bjk = P(ot = k | qt = j) HMM P (l) Cij WAHL DER STARTSTRUKTUR Zustände = ˆ N und Ausgabealphabet = ˆ V WAHL DER STARTPARAMETER A, B uniform über zulässige Folgezustände/Ausgabewörter MAXIMUM-LIKELIHOOD-OPTIMIERUNG Baum-Welch-Algorithmus bis λ = (π, A, B) stationär isumhtiroglAh Bemerkung Vorwärtsalgorithmus: berechnet die Erzeugungswahrscheinlichkeit PSRG (w ) = P(w |λ) Viterbialgorithmus: berechnet wahrscheinlichste Zustandsfolge (= ˆ N) SRG-Ableitung Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Lernen der Struktur einer SRG Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ MEMM Σ Stochastische Phrasenstrukturgrammatiken GEGEBEN: GESUCHT: Lerndatenkorpus M O⊕ = u (m) m=1 Stochastische reguläre Grammatik G = (V, N , S, R, P) Definition des Hidden Markov Modells Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten hAlgorithmusi 1 2 3 4 WAHL DER STARTSTRUKTUR HMM mit N ∈ IN Zuständen und Ausgabealphabet = ˆ V WAHL DER STARTPARAMETER A, B uniform mit Wahrscheinlichkeiten 1/N bzw. 1/L MAXIMUM-LIKELIHOOD-OPTIMIERUNG Baum-Welch-Algorithmus bis λ = (π, A, B) stationär PHRASENSTRUKTURREGELREDUKTION (k) Elimination aller PS-Regeln N i → v k N j mit Cij < ε Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder) Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch) Stochastische CFG und Inside-Outside-Algorithmus Attribut-Wert-Grammatiken Maximum-Entropie-Markovmodelle isumhtiroglAh Bemerkung Wenig erfolgversprechender Ansatz wegen der Startwertsensibilität des BWA Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Zusammenfassung Σ Stochastische PSG HMM Normalformdarstellung kontextfreier Grammatiken HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG Innenwelt & Außenwelt Vorderteil & Hinterteil der HMM-Ausgabe werden zu Mantel- & Kernsequenz N1 Definition Eine stochastische kontextfreie Grammatik j Dominanz Ns,t G = (V, N , N 1 , R, P) N Nichtterminal N j ist für Segment der Länge t − s + 1 verantwortlich j ist in Chomsky-Normalform, falls alle Produktionsregel die Gestalt i N → v ` i j oder N → N N Speicher O(T 2 N) k besitzen. Bemerkungen 1. Jede kontextfreie Grammatik lässt sich äquivalent in Chomsky-NF ausdrücken (und umgekehrt). 2. Die Umformung resultiert u.U. in einer rasanten Vergrößerung der Nichtterminalmenge. 3. CNF-Grammatiken besitzen ausschließlich binäre Ableitungsbäume. α, β sind Kuben w1 . . . ws−1 ws . . . w t wt+1 . . . wT Definition (Lari & Young, 1990) Sei G = (V, N , N 1 , R, P) eine stochastische kontextfreie Grammatik. Die Wahrscheinlichkeiten und βs,t (j) = j ) P(ws . . . wt | Ns,t αs,t (j) = j P(w1 . . . ws−1 , Ns,t , wt+1 . . . wT ) heißen Innen- bzw. Außenwahrscheinlichkeiten von w ∈ V T . Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Berechnen der Kernwahrscheinlichkeiten Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Beweis. Ni • Terminierung: Die SCFG ist normiert über jedem V T , T ∈ IN • Induktionsanfang: Die CNF-Gestalt der SCFG garantiert, dass es nur Nj genau eine Ableitung des Terminals wt aus dem Nichtterminal N j gibt Nk • Rekursion: Erweitern, Zerlegen & beide Unabhängigkeitsaxiome ausnutzen: wr ws ws+1 βr ,t (i) wt = = Lemma P(wr . . . wt | Nri ,t ) X k P(wr . . . ws , Nrj ,s , ws+1 . . . wt , Ns+1,t | Nri ,t ) j,k,s Für die Innenwahrscheinlichkeiten einer stochastischen kontextfreien Grammatik gelten die folgende Aussagen: β1,T (1) = βt,t (i) = βr ,t (i) 1 P(w |N1,T ) i P(wt |Nt,t ) X k · P(w sr | Nrj ,s , Ns+1,t , Nri ,t ) | {z } = P(N i → wt ) entfällt · i j k P(Nrj ,s , Ns+1,t | Nri ,t ) j,k,s = P(w | `(w ) = T ) t−1 K X K X X = = P(w ts+1 k | k w sr , Nri ,t , Nrj ,s , Ns+1,t ) | P(N → N N ) · βr ,s (j) · βs+1,t (k) {z entfällt } j=1 k=1 s=r Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Berechnen der Mantelwahrscheinlichkeiten N1 Rekursionstaktik Das geschwisterliche Nichtterminal wird durch den passenden β-Ausdruck substituiert, der verkleinerte Restmantel durch den entsprechenden α-Ausdruck Ni N N k N Σ Stochastische PSG HMM j HMM/Viterbi HMM/BWA SCFG SAVG MEMM Lemma Für die Außenwahrscheinlichkeiten einer stochastischen kontextfreien Grammatik gelten die folgenden Aussagen: P(w |T ) = K X αt,t (j) · P(N j → wt ) für t = 1, . . . , T j=1 α1,T (1) 1 HMM/FBA αs,t (j) = = 1 P(N1,T ) = 1 K X K X s−1 X αr ,t (i) · P(N i → N k N j ) · βr ,s−1 (k) i=1 k=1 r =1 w1 . . . wr −1 wr . . . ws−1 ws . . . wt wt+1 . . . wT N + i K X K T X X αs,u (i) · P(N i → N j N k ) · βt+1,u (k) i=1 k=1 u=t+1 Garantiert wegen Chomsky-NF j Ns,t ist entweder als linkes oder als rechtes Nichtterminal einer rechten PS-Regelseite entstanden Nj Nk Speicher- und Rechenaufwand w1 . . . ws−1 ws . . . wt wt+1 . . . wu wu+1 . . . wT Die Auswertung der Rekursionsformel erfordert O(K 2 T ) Operationen. Es gibt jeweils O(KT 2 ) verschiedene αs,t (j)- bzw. βs,t (j)-Wahrscheinlichkeiten zu berechnen; der Gesamtaufwand beträgt daher O(K 3 T 3 ). Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Syntaktische Dekodierung Beweis. A. j eine Ableitung des Terminals wt aus dem Nichtterminal N gibt Viterbivariante der α/β-Rekursion (Maximum statt Summe) • Induktionsanfang: Die SCFG ist normiert über jedem V T , T ∈ IN • Rekursion: Im Anschluss an die Erweiterung αs,t (j) = j P(w1 . . . ws−1 , Ns,t , wt+1 = X B. X A posteriori Dominanzwahrscheinlichkeiten def j j γs,t (j) = αs,t (j) · βs,t (j) = P(w1 . . . wT , Ns,t ) = P(w , Ns,t ) . . . wT ) • Bis auf den Faktor P(w ) sind das die Rückschlußwahrscheinlichkeiten für j P(w1 . . . wr −1 , wr . . . ws−1 , Ns,t , wt+1 . . . wT , Nri ,t , Nrk,s−1 ) j die Dominanz Ns,t bei Vorlage der Eingabe w . P t • Es ist γs,t (j) k γs,t (k) die Wahrscheinlichkeit, dass w s zur Syntaxkategorie N j gehört, falls w ts überhaupt eine Konstituente in der Ableitung war. i ,k,r + Stochastisches Parsen Suche nach der wahrscheinlichsten Ableitung von w ∈ V ? • Terminierung: Die CNF-Gestalt der SCFG garantiert, dass es nur genau i k j , wt+1 . . . wu , wu+1 . . . wT , Ns,u , Nu+1,T ) P(w1 . . . ws−1 , Ns,t i ,k,u lassen sich beide Terme faktorisieren und wie im βs,t (j)-Beweis mittels Unabhängigkeitsaxiomen „entrümpeln“. • Spezialfall I: 1 1 1 γ1,T (1) = P(w , N1,T ) = P(N1,T ) · P(w |N1,T ) = P(w |T ) • X Spezialfall II: für jede Position t gilt X k P(w , Nt,t ) = P(w |T ) γt,t (k) = k Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG k HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Lemma (Inside-Outside-Algorithmus) Sei G = (V, N , N 1 , R, P) eine stochastische kontextfreie Grammatik, w ∈ V T eine Stichprobe der Größe T und αs,t (j), βs,t (j) die Außenbzw. Innenwahrscheinlichkeiten von w hinsichtlich G. Für die modifizierte Wahrscheinlichkeitsverteilung Γw (N i → ζ iν ) P0 (N i → ζ iν ) = X Γw (N i → ζ iκ ) κ mit den a posteriori Erwartungswerten T X 1 Γw (N i → v l ) = · αt,t (i) · P(N i → v l ) · Iwt =v l P(w ) t=1 T X t X s X 1 · Γw (N i → N j N k ) = P(w ) t=1 s=1 r =1 αr ,t (i) · P(N i → N j N k ) · βr ,s (j) · βs+1,t (k) gilt die Ungleichung P0 (w ) ≥ P(w ) . Beweis. Die Verbesserung P0 (w ) ≥ P(w ) der ML-Zielgröße ergibt sich aus dem EM-Prinzip, denn die neuen Regelwahrscheinlichkeiten P0 (·) maximieren die Kullback-Leibler-Statistik Q(P, P0 ). Bemerkungen 1. Der Inside-Outside-A. für SCFG entspricht dem Baum-Welch-A. für SRG und liefert die Grundlage eines iterativen Schätzverfahrens für die ML-optimalen PSR-Wahrscheinlichkeiten. 2. Die Berechnung der αs,t (j), βs,t (j) lässt sich (mit viel Mühe!) auf Nicht-CNF-SCFGs verallgemeinern. Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG HMM Lernen der Parameter einer SCFG HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Lernen der Struktur einer SCFG GEGEBEN: GESUCHT: GEGEBEN: GESUCHT: Kontextfreie G = (V, N , S, R) M Lerndatenkorpus O⊕ = u (m) m=1 Regelwahrscheinlichkeiten P : R → [0, 1] Lerndatenkorpus M O⊕ = u (m) m=1 Stochastische kontextfreie Grammatik G = (V, N , S, R, P) hAlgorithmusi hAlgorithmusi 1 WAHL DER STARTSTRUKTUR Zustände = ˆ N in Chomsky-NF und Ausgabealphabet = ˆ V 2 WAHL DER STARTPARAMETER P(N i → ζ iν ) uniform über zulässige rechte PSR-Seiten 3 MAXIMUM-LIKELIHOOD-OPTIMIERUNG Inside-Outside-Algorithmus bis P(N i → ζ iν ) stationär 1 2 3 4 isumhtiroglAh Bemerkung SCFG-Parser: berechnet zur Eingabe w eine wahrscheinlichste Ableitung B∗ (w ) = argmax P(w , B | G) mit der CFG-Variante des Viterbialgorithmus isumhtiroglAh Bemerkung Die SCFG hat (vor der Reduktion) genau K 3 + K · L viele PS-Regeln B Stochastische PSG HMM WAHL DER STARTSTRUKTUR K ∈ IN CNF-Nichtterminale und Ausgabealphabet = ˆ V WAHL DER STARTPARAMETER P(N i → ζ iν ) uniform für alle kombinat. möglichen PSR MAXIMUM-LIKELIHOOD-OPTIMIERUNG Inside-Outside-Algorithmus bis P(N i → ζ iν ) stationär PHRASENSTRUKTURREGELREDUKTION Eliminiere PS-Regeln N i → N j N k und N i → v k mit P(·) < ε HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG HMM A priori Einschränkungen für den Lernprozess HMM/FBA Chomsky (1970) Verwende POS statt Wortformen als Terminale • Treebank-Korpus: Lerne aus geklammerten Textproben und kumuliere Γw (N i → N j N k ) nur über verträgliche Ableitungsbäume Pron V she ¯ N̄ ξ 00 ξ0 v MEMM X̄ -Theorie N Det ate the Jede Konstituente besitzt (genau einen) einen Kopf Prep N Det → → → → SAVG Jackendoff (1977) Prep • Dependenz-Grammatiken: oder & V ( „Salespeople“ ( „sold“ ( „the“ „dog“ ) „biscuits“ ) ) ( N ( V ( Det N ) N ) ) N = C∪C¯ = C∪{N̄ | N ∈ C} SCFG S Pron Nichtterminale von der Form HMM/BWA Beispiel — Dependenzgrammatik • Parts-of-speech: S ¯ N̄ also beispielsweise N̄ N HMM/Viterbi N Det N Det hamburger with a fork Ihre Kategorie trägt einen Balken mehr als diejenige ihres Kopfes X X -Phrase ¯ C̄¯ N = C∪C∪ Argumente für Dependenzgrammatiken N̄ N 00 η η0 1. 2. DG reflektiert unstrittige Struktureigenschaft natürlicher Sprachen Einschränkung kombinatorischer Vielfalt unterstützt maschin. Lernprozess ... Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Attribut-Wert-Grammatiken Stochastische Phrasenstrukturgrammatiken zur ökonomischen Modellierung von Kongruenzbedingungen Beispiel Definition des Hidden Markov Modells S → S → A → A → B → B → Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder) Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch) AA B a b aa bb versus S → S → A → A → B → B → A1 A2 11 = 21 B a b aa bb Das Notat 11 = 21 meint: „ Erstes Kind von A1 gleich erstes Kind von A2 “ Stochastische CFG und Inside-Outside-Algorithmus Erfassung horizontaler Kontextabhängigkeiten Attribut-Wert-Grammatiken • keine Berücksichtigung Maximum-Entropie-Markovmodelle • kombinatorische Entflechtung HMM HMM/Viterbi HMM/BWA SCFG SAVG Stochastische Attribut-Wert-Grammatiken Datenverteilung und Modellverteilung Ableitungsbaum #w (B) Ableitungswk. P(B) SAVG 1/ · 2/ · 2/ = 8/ S[A[a]A[a]] 4 2 3 3 36 1/ · 1/ · 1/ = 2/ S[A[b]A[b]] 2 2 3 3 36 1/ · 2/ · 1/ = 4/ S[A[a]A[b]] 0 2 3 3 36 1/ · 1/ · 2/ = 4/ S[A[b]A[a]] 0 2 3 3 36 1 1 9 S[B[aa]] 3 /2 · /2 = /36 1/ · 1/ S[B[bb]] 3 = 9/36 2 2 Wahrscheinlichkeit eines Ableitungsbaumes XY 1 Y ϕi (B) P(B) = · zi z0 SCFG: SAVG: A in AVG (vgl. LFG = lexical functional grammar) HMM/FBA i B in CFG und AVG • Gleichungsrestriktionen Zusammenfassung Stochastische PSG A in CFG mit z0 = B MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA Definition des Hidden Markov Modells Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder) Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch) ϕi (B) i zi = PS-Regel-Parameter ϕi = Vielfachheit in B zi = P(PS-Regel) und z0 = 1 zi > 0 MaxEntropie-Parameter und z0 Partitionsfunktion SAVG Stochastische Phrasenstrukturgrammatiken Stochastische CFG und Inside-Outside-Algorithmus zi SCFG Attribut-Wert-Grammatiken Maximum-Entropie-Markovmodelle Zusammenfassung MEMM Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG Generative & diskriminative Sprachmodelle HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Diskriminative Hidden Markov Modelle Maximum-Entropie-Markovmodelle (MEMM) · McCallum, Freitag, Pereira (2000) Stochastische PSG in der Sprachverarbeitung HMM generativ POS-Tagging · Textsegmentierung · Eigennamendetektion :⇒ Generativ: P(w , u) Diskriminativ: P(u|w ) w = ˆ Satz oder Text w1 . . . wT u= ˆ Zustandsfolge q1 . . . qT oder Ableitungsbaum B P(w , u) des Korpus O ⊕ ot−1 q t t+1 q q t−1 q t t+1 MEMM ot+1 ot ot−1 ot+1 ot mit u-Annotation! P0 (si ), P(sj |si ), P(w` |sj ) u w ∈O • Werten: Bestimme Erzeugungswahrscheinlichkeit X P(w , u) der Eingabe w P(w ) = q t−1 HMM • Lernen: Maximiere X Y Erzeugungswahrscheinlichkeit P(O) = q . . . . . . . . . . . . . . . . . . . . . . HMM diskriminativ MaxEnt-Markovmodell = ˆ HMM & diskriminativ & CME keine Chance! Warum sollte qt nicht auch von or mit r 6= t abhängen ?! u ⊕ • Dekodieren: Decke Erzeugungsmechanismus ∗ u (w ) = argmax P(u|w ) der Eingabe w auf P(sj | si , w` ) • überlappende Textmerkmale und/oder Merkmalbündel Großschreibung, Suffixe, Wortart, Layout, Position, ... kein Problem! u Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Vorwärts/Rückwärtsvariablen im MEMM P(qt+1 = sj | = P(qt+1 = sj | qt = | {z αt (j) = = P(qt = sj | o1 , . . . , ot ) f0 (j|o1 ) t=1 N X αt−1 (i) · fi (j|ot ) t > 1 i=1 Bedingte Rückwärtswahrscheinlichkeiten βt (i) βt (i) def = = P(qt = si | ot+1 , . . . , oT ) 1 t=T N X fi (j|ot ) · βt+1 (j) t < T j=1 HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Je Zustand si eine CME-Verteilung fi (j|o) für die Vorhersage des Folgezustands sj mit den Auswahlfunktionen 1 bm (ot ) = true ∧ qt = sj ϕhm,ji (ot , qt ) = 0 sonst } Bedingte Vorwärtswahrscheinlichkeiten def HMM Bedingte Maximum-Entropie-Modelle si ; o T 1 ) bedingte Ü-Verteilungen fi (j|o) αt (j) Stochastische PSG Zustandsübergangsverteilungen Nur eine Markovbedingung q1 , . . . , qt ; o T 1 ) Σ Kontext der N bedingten Übergangsverteilungen fi (j|·) ist ot+1 o t+d t−d T o1 (lokal) (gleitend) (global) j = 1, . . . , N und bm : V [?] → {1, 0} binäres Textmerkmal von/um ot Frage-Antwort-Segmentierung von FAQ-Dokumenten begins-with-number contains-question-word begins-with-question-word indented contains-alphanum more-than-one-third-space contains-non-space prv-begins-with-ordinal contains-question-mark begins-with-punctuation first-alpha-is-capitalized blank indented-5-to-10 contains-http prev-is-blank contains-pipe begins-with-ordinal ends-with-question-mark begins-with-subject indented-1-to-4 contains-bracketed-number only-punctuation contains-number shorter-than-30 Σ Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG HMM HMM/FBA Modellformel der CME-Verteilungen 1 ! ϕµ (ot , qt ) = Ti qt−1 =si {z } | N X X SCFG SAVG MEMM Σ MEMM Σ Korrekturindikator Für alle Indikatoren µ = hm, ji und Vorzustände si : X HMM/BWA Zwei technische Finessen CME — das System der Bedingungsgleichungen 1 Ti | HMM/Viterbi zur Absicherung der Balanceeigenschaft def ϕ0 (o, sj ) = C − fi (j|ot ) · ϕµ (ot , sj ) X ϕµ (o, sj ) µ∈M qt−1 =si j=1 ψ̂µ := EDATA [ϕµ (Ot ,Qt )] {z mit C ∈ IN, so daß ϕ0 (·, ·) ≥ 0 für alle o und j } ψµ := Ef [ϕµ (Ot ,Qt )] Reduktion der Modellkomplexität CME — die Verteilung in Loglinearform Achtung: Log-Parameterfeld Λ ∈ IRN×|M| = IRN×M×N X 1 fi (j|o) = · exp λi,µ · ϕµ (o, sj ) z(o, i) Der GIS-Algorithmus operiert innerhalb eines jeden EM-Schritts! µ∈M durch Faktorisierung des CME-Prädiktors gemäß X 1 ! fi (j|o) = P(sj | si ) · · exp λµ · ϕµ (o, sj ) | {z } z(o, i) µ∈M âij | {z } g̃ (j|o) |M|-Parameter-CME-Modell plus a priori Verteilung P(sj |si ) Normierungskonstanten z(o, i) unproblematische N-Summe Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ Stochastische PSG HMM HMM/FBA A posteriori Wahrscheinlichkeiten HMM/Viterbi HMM/BWA SCFG SAVG Viterbi-Dekodierung ... die Alternative zur MAP-Dekodierung Zustandsfolgewahrscheinlichkeiten EM-Algorithmus ... so simpel wie P(o|q) im HMM Der E-Schritt benötigt die datenbezogenen Rückschlusswahrscheinlichkeiten γt (j) des MEMMs P(q|o) = f0 (q1 |o1 ) · T Y fqt−1 (qt |ot ) t=2 P(qt = sj | o) = | {z } γt (j) = = X t Y q1 ,...,qt−1 s=1 N X T Y = = maxq∈S t {P(q1 , . . . , qt | o) | qt = sj } ( f0 (j|o1 ) t=1 max (θt−1 (i) · fi (j|ot )) t>1 q ∗ mit ausschließlich zulässigen Übergängen qt 7→ qt+1 fqs−1 (qs |os ) fqs−1 (qs |os ) γt−1 (i) · fi (j|ot ) i=1 def i q1 ,...,qt−1 qt+1 ,...,qT s=1 X θt (j) θt (j) Zustandswahrscheinlichkeiten X Viterbialgorithmus im MEMM “ „sie „sie “ „ist“ „aus“ gut passend „ist“ „am“ schlecht passend Label-Bias-Problem „Es sen “ en“ s „Es W.masse 1 wird an alle Nachfolger verteilt oT 1 hat geringen Einfluss, falls der Ausgangsgrad klein ist Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA SCFG SAVG MEMM Σ MEMM und Konsorten Stochastische PSG HMM HMM/FBA HMM/Viterbi HMM/BWA Conditional CFG wenn Textkorpus und syntaktische Markierung oder Ableitung verfügbar diskriminative ME-Variante der stochastischen CFG Unüberwacht lernen CME-Modell für Zustandsfolgen statt für Zustände — ohne Label-Bias-Problem Definition des Hidden Markov Modells Berechnen der Vorwärts- und Rückwärtswahrscheinlichkeiten Conditional MRF aus unetikettiertem Textkorpus mit einer Instanz des EM-Algorithmus Aufdecken der latenten Zustandsfolge (Viterbi/MAP-Dekoder) Lernen der HMM-Parameter nach EM-Prinzip (Baum-Welch) Stochastische CFG und Inside-Outside-Algorithmus Diskriminative Modelle wie MEMM & Co. Attribut-Wert-Grammatiken • verschwenden keine Energie um P(w ) zu schätzen denn der Text ist in Lern- wie auch Abrufphase bekannt! Maximum-Entropie-Markovmodelle • entkoppeln die Abhängigkeiten unter den Wortvorkommen Zusammenfassung und erlauben die Einbeziehung komplexer Textmerkmale als ϕm ’s HMM HMM/FBA SAVG Stochastische Phrasenstrukturgrammatiken Überwacht lernen Stochastische PSG SCFG HMM/Viterbi HMM/BWA SCFG SAVG MEMM Zusammenfassung (7) 1. Stochastische PS-Grammatiken entstehen durch normierte Wahrscheinlichkeitsgewichtung aller Phrasenstrukturregeln. 2. Für reguläre Grammatiken resultieren daraus stochastische Moore- oder Mealy-Automaten (Hidden Markov Modelle). 3. Wir kennen für das HMM effiziente Algorithmen zur Parameterschätzung (Baum-Welch) und für die Satzwahrscheinlichkeit (Vorwärtsrekursion). 4. Auch für kontextfreie Grammatiken kennen wir das stochastische Äquivalent und Algorithmen zur Parameterschätzung (Inside-Outside) und für die P(w )-Berechnung (Kern-Mantel-Rekursion). 5. Das maschinelle Lernen der Modellstruktur (PS-Regelvorrat) ist für HMMs und SCFGs nicht befriedigend gelöst. 6. Zur Dekodierung der latenten Zustände (HMM) oder Ableitungsschritte (SCFG) einer Wortfolge wählen wir zwischen globaler (Viterbialgorithmus) und lokaler (Maximum a posteriori-Regel) Strategie. 7. Mit bedingten ME-Verteilungen (CME) lässt sich eine diskriminative Variante (MEMM) regulärer SPSG definieren, die sich für Dekodieraufgaben (Parser, Tagger, Segmentierer) anbietet. Σ MEMM Σ