Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung SPEZIELLE MUSTERANALYSESYSTEME Schrift- und Spracherkennung mit Hidden-Markov-Modellen Teil VIII Dekodierung mit HMMs Vorlesung im Wintersemester 2016 Prof. E.G. Schukat-Talamazzini Stand: 5. September 2016 Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Dekodierung = ˆ Maximierungsaufgabe Motivation w ∗ = argmax {PAM (X | w ) · PLM (w )} Kompilierte HMM-Netzwerkstrukturen w Die wahrscheinlichste Wortsegmentierung Suche in Zeitrichtung KODIERUNG & ÜBERTRAGUNG Text- f w Merkmal- DEKODIERUNG X Erkenner ŵ Sprecher/in quelle berechnung ASM—LSM Suche in Wortfolgenrichtung Massives Resourcenproblem Wortschatzorganisation Mehrphasendekodierung 1. viele Wörter, Modelle, Verteilungen 2. zerklüfteter Suchraum aufgrund mächtiger Grammatikmodelle 3. Kombinatorik unbekannter Wortgrenzen in kontinuierlicher Sprache Beispielaufbau Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Lösungsansätze Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Motivation Angriffsflächen Kompilierte HMM-Netzwerkstrukturen Synchrone Suche · Einzelwort · Verbundwort · Bigramm-Modell • Rekombination von Teillösungen • Beschneidung des Suchraums (’pruning’) • Sequentielle Dekomposition der Analyse Die wahrscheinlichste Wortsegmentierung Suche in Zeitrichtung Programmtechnisches Vorgehen • Zeitliche Überlagerung bei der Speicherverwaltung Suche in Wortfolgenrichtung • Impliziter Suchraumaufbau • Datenflußkontrolle: Dichteberechnungen, Cache Mehrphasendekodierung Risiken und Nebenwirkungen ? Modellierungsfehler: w ∗ 6= gesprochene Wortfolge Wortschatzorganisation Dekodierungsfehler: gefundene Wortfolge 6= w ∗ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Beispielaufbau Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Kompilierte Netzwerke aus HMMs Einzelworterkennung Bigramm-Grammatik oder weniger Jedes Wortmodell λ(W ) besitzt je einen E/A-Zustand λ(W1 ) 1/3 Vernetzung der Wort-HMMs im Sinne der Grammatik 1/3 Lösung w ∗ λV λ(W2 ) 1 Dekodierung durch Viterbi-Algorithmus auf dem Netzwerk Optimale Zustandsfolge 1 1/3 λ(W3 ) 1 Die Modelle aller Wortschatzeinträge werden parallel geschaltet. Synchrone Suche Strikte Verarbeitung des Eingabesignals in Zeitrichtung („von links nach rechts“) Es können Unigrammwahrscheinlichkeiten eingebracht werden. Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Verbundworterkennung mit bekannter Satzlänge Verbundworterkennung mit unbekannter Satzlänge 1−ρ 1 1 ... 1 1 1 1 ρ λV ,1 λV ,m λV Ein Wortmodellbündel wird zu einer Schleife verschaltet. Es werden m Wortmodellbündel in Serie geschaltet. Eine Fluchtwahrscheinlichkeit ρ regelt die (mittlere) Wortanzahl. Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Verbundworterkennung mit wortbezogenen Bigrammen Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Verbundworterkennung mit kategoriebezogenen Bigrammen HMM−Bündel einer Wortkategorie λ(W1 ) .. . λ(WL ) P(Wi |W1 ) Wort−HMM P(W1 |Wi ) λ(Wi ) P(Wi |WL ) P(Wi ) P(WL |Wi ) mit Bigrammübergängen λ(W1 ) .. . λ(WL ) λ(Ci ) P(Wj |Ci ) .. . .. . P(C1 |Ci ) 1 λ(Wj ) .. . P(Wk |Ci ) P($|Wi ) 1 P(CN |Ci ) λ(Wk ) 1 P(Wl |Ci ) λ(C1 ) λ(Wl ) L Wortmodelle und L2 Übergangskanten mit Bigramm-W’keiten L Wortmodelle im Falle disjunkter Wortkategorien P($|Ci ) λ(CN ) Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Wann „realisiert“ ein HMM-Netzwerk eine Grammatik ? def P(X | λ(w )) · P(w ) = P(X , w | λ) = X P(X , q | λ) q∈S T |w (es bezeichnet S T |w die Menge aller Zustandsfolgen der Dauer T , welche die Kette w traversieren) Die wahrscheinlichste Wortsegmentierung One-Stage/Level-Building · Vorwärtsdekodierung · PTB Suche in Zeitrichtung Suche in Wortfolgenrichtung Expansion konfluenter Zustände: a1,0 Motivation Kompilierte HMM-Netzwerkstrukturen Für alle Wortfolgen w ∈ V ∗ muß gelten: ? Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung a1,0 · a0,3 a0,3 Wortschatzorganisation a2,0 · a0,3 a2,0 a0,4 a1,0 · a0,4 Mehrphasendekodierung a2,0 · a0,4 Beispielaufbau Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Welches ist die „beste“ Wortfolge ? t0 t1 w1 t2 w2 t3 w3 t4 w4 Einstufige Verbundwortdekodierung t5 w5 t6 w6 λ(„eins“) • Viterbi-Wortfolge w ∗VA = w (q ∗ ) , q ∗ = argmax {P(w ) · P(X , q | λ(w ))} q∈S T λ(„zwei“) • Optimale Wortsegmentierung (t ∗ , w ∗ ) = argmax P(t, w | X ) = argmax {P(X , t | w ) · P(w )} | {z } t,w t,w w∗ SEG λ(„drei“) „zwei“ t „eins“ „drei“ „zwei“ „zwei“ Zeit • Maximum a posteriori-Wortfolge w ∗MAP = argmax {P(w ) · P(X | λ(w ))} w ∈V ∗ One-stage Algorithmus (Vintsyuk ’71, Bridle ’82) Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Mehrstufige Verbundwortdekodierung Vorwärtsdekodierung hAlgorithmusi Stufe 1 1 „zwei“ INITIALISIERUNG. Setze für alle j = 1, . . . , N ϑ1 (j) = πj bj (x 1 ) und ψ1 (j) = 0 λ(„eins“) 2 Für alle j = 1, . . . , N setze ψt (j) = argmaxi ϑt−1 (i)aij sowie (ϑt−1 (i)aij ) · bj (x t ) falls sj Wortanfangszustand ist max i X ϑt (j) = (ϑt−1 (i)aij ) · bj (x t ) für alle sonstigen sj „eins“ Stufe 2 REKURSION. λ(„zwei“) i 3 TERMINIERUNG. Setze „drei“ P∗ (X | λ) = ϑT (N) Stufe 3 Level-building Algorithmus und ∗ qT = ϑT (N) λ(„drei“) (Myers ’81, Rabiner ’85) 4 ∗ RÜCKVERFOLGUNG. Für t = t − 1, . . . , 1 setze qt∗ = ψt+1 (qt+1 ) 5 LÖSUNGSWORTKETTE. Setze w ∗ = w (q ∗ ). isumhtiroglAh Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ t=1 Schritthaltende Teildekodierung t=t t=t 0 00 t=T Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Motivation Kompilierte HMM-Netzwerkstrukturen Die wahrscheinlichste Wortsegmentierung aktuelles Wort Suche in Zeitrichtung Strahlsuche · Vorwärts-Rückwärts-Suche Anfangspartien von w ∗ bereits eher als in t = T berechnen ! Worterkennung vor dem Wortende ! Suche in Wortfolgenrichtung q(j, t) = wahrscheinlichste Folge, die in t den Zustand sj erreicht Wortschatzorganisation Menge aller Zustände, die zum Zeitpunkt t 0 eingenommen wurden und auf einer optimalen, in t 00 endenden Folge liegen: Qt 0 t 00 = {qt 0 (j, t 00 ) | j = 1, . . . , N} , 1 ≤ t 0 ≤ t 00 Zwischenbilanz für Zeitpunkt t 0 , sobald Qt 0 t 00 einelementig ist Mehrphasendekodierung Beispielaufbau Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Viterbi-Algorithmus — vorwärts schauend Strahlsuchverfahren • Obsolete Maximumoperationen hAlgorithmusi 1 INITIALISIEREN Für alle j ∈ {1, . . . , N} setze t←1 und ϑt (j) ← πj · bj (x t ). 2 VORBESETZEN ϑt+1 (j) ← 0 3 1. falls aij = 0 oder 2. falls ϑt (i) = 0 • Aktive & passive Zustände (∀j) def Ot = {i | ϑt (i) 6= 0} VORWÄRTS FEUERN ϑt+1 (j) ϑt+1 (j) ← max ϑt (i) · aij Passive Zustände müssen nicht mehr feuern! • Beschneidungsstrategie (∀i, j) def 4 OtB0 = {i | ϑt (i) ≥ B0 · Λt } ABSCHLIEßEN ϑt+1 (j) ← ϑt+1 (j) · bj (x t+1 ) 5 WEITERSCHALTEN Setze t←t + 1 oder mit Λt = max ϑt (j) j verfolgt nur eine kleine Schar wahrscheinlichster aktueller Zustände (∀j) • die Anzahl der Kandidaten („Strahlbreite“) ist adaptiv ENDE. B0 = 10−2 . . . 10−4 . . . 0 isumhtiroglAh Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Strahlbreite und Hypothesenrang Vorwärts-Rückwärts-Suche I Problem zwei hundert und acht zehn Anzahl Zustände 150 Rgt 100 Immer noch hohe Kandidatenzahl an den Wortübergängen! Wörter von Strahlsuche aktiviert & gleich wieder deaktiviert. Lösungsansätze Sbt getrennte Kandidatenlisten & Strahlkonstanten schnelle Vorauswahl mutmaßlicher Fortsetzungswörter Reduktion der Menge Ot aktiver Zustände durch ’look-ahead’: 50 0 Zeit t 1. Viterbi-Algorithmus vorwärts mit einfachen akustischen und grammatischen Modellen 2. Speichern der „aktiven“ Wahrscheinlichkeitsbewertungen • Rgt = lokaler Wahrscheinlichkeitsrang der global besten Wortkette • Sbt = Anzahl konkurrierender Kandidatenzustände zum Zeittakt t typische Aufwandsreduktion: Faktor 10–20 bei ≤ 1% erhöhter Fehlerrate {ϑt (i) | i ∈ Ot , 1 ≤ t ≤ T } 3. Viterbi-Algorithmus rückwärts mit komplexeren akustischen und grammatischen Modellen zur Berechnung der zeitinversen Bewertungen ← ϑ← t (i) = max aij bj (x t+1 )ϑt+1 (j) j Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Vorwärts-Rückwärts-Suche II Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Motivation Beschleunigung bei den Rückwärtstransitionen sj → si : • Wenn i 6∈ Ot , so ϑt (i) außerhalb des Suchstrahls {ϑ | ϑ ≥ B0 Γt }. Kompilierte HMM-Netzwerkstrukturen • Wenn i ∈ Ot , so steht ϑt (i) zur Verfügung. Die wahrscheinlichste Wortsegmentierung Überprüfe die Ungleichung ϑt (i) · aij · bj (x t+1 ) · ϑ← t+1 (j) ≥ B0 · ΓT | {z } Suche in Zeitrichtung P∗ (X ,qt =si ,qt+1 =sj ) Suche in Wortfolgenrichtung Graphsuche · Kellersuche sm sl sj Wortschatzorganisation si ϑt (·) log P(·) ϑ← t (·) sk si sk Mehrphasendekodierung sj vorwärts −→ ←− rückwärts Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Beispielaufbau Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Graphsuche Heuristisch informierte geordnete Suche Aufgabenstellung hAlgorithmusi Suche bestbewerteten Zielknoten eines gerichteten Graphen 1 INITIALISIERUNG Setze O = Kα 2 AUSWAHL Ermittle besten Knoten k = argmin`∈O fˆ(`) 3 TERMINIERUNG Wenn k ∈ Kω dann Bewerteter gerichteter Graph (K, E, d ) • Knotenmenge K = {k1 , k2 , . . .} • Kantenmenge E ⊆ K × K • Nichtnegative Kostenfunktion d : E → IR+ 0 4 EXPANSION Berechne fˆ(k 0 ) für alle (k, k 0 ) ∈ E Sortiere die fˆ(k 0 ) in die Schlange O ein 5 ITERATION Gehe 2 Pfade, Lösungen und ihre Kosten • Gerichteter Pfad k = (k1 , . . . , km ) falls alle (ki , ki+1 ) ∈ E • k Lösungspfad falls k1 ∈ Kα und km ∈ Kω ENDE • Kumulative Kosten isumhtiroglAh def D(k) = m−1 X Die „heuristische Funktion“ fˆ(·) schätzt die Erfolgschance der Expansion d (ki , ki+1 ) Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Spezialfall A*-Algorithmus Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Zulassigkeit & Optimalität des A*-Algorithmus Eine zulässige & effiziente heurist. inform. Graphsuche 1. Wahre Zielfunktion Satz def f (k) = argmin {D(k) | k ∈ k, k Lösung } Die geordnete Suche mit fˆ = ĝ + ĥ 2. Additive Zerlegung Weg vom Start nach k — Weg von k ins Ziel heißt A*-Algorithmus und besitzt die folgenden Eigenschaften: f (k) = g (k) + h(k) 1. Terminierung — Algorithmus endet 3. Dynamische Programmierung 2. Monotonie — nach Expansion von k ∈ K gilt ĝ (k) = g (k) 3. Zulässigkeit — die erste expandierte Lösung ist die beste def ĝ (k) = bislang günstigster Pfad von Kα nach k 4. Optimale Effizienz — min. Anzahl expand. Knoten bzgl. ĥ(·) 4. Optimistische Restschätzung ĥ(k) ≤ h(k) 5. Anordnung — liefert ggf. die n besten Lösungen in Folge (∀k ∈ K) Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Kellersuche (’stack decoding’) Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Kellersuche und Kostenfunktionen • Kumulative Kosten def gt (w ) = P(w , x 1 . . . x t ) = P(w ) · P(x 1 . . . x t | w ) K = (V∪{$})∗ Suchgraph = ˆ Suchbaum ⇒ ĝt ≡ gt Kα = {∅} • Restwahrscheinlichkeit Kω = {w $ | w ∈ V ∗ } def ht (w ) = max∗ P(u|w ) · P(x t+1 . . . x T | u) u∈V • Lokales Bewertungsprofil Kα = {∅} u ft (w ) = gt (w ) + ht (w ) u$ Für f = maxt ft gilt: ∅ v w vu vw vuw vuw$ vw$ Kω • Restschätzung f (w ) = maxu P(w u, X ) P(w , X ) w ∈ 6 Kω partiell w ∈ Kω vollständig (’shortfall’) ĥt (w ) = ĥt = T Y s=t+1 max bj (x s ) j=1..N Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Gestapelte Vorwärtsmatrixberechnung Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Motivation Kompilierte HMM-Netzwerkstrukturen αt (j) bzgl. Modell λ(w ) Die wahrscheinlichste Wortsegmentierung sω gt (w ) Suche in Zeitrichtung s1 Suche in Wortfolgenrichtung αt (j) bzgl. Modell λ(v ) s2 s3 gt (w v ) gt (w ) def = P(x 1 . . . x t | w ) gt (w v ) def P(x 1 . . . x t | w v ) ( b1 (x 1 ) v |w αt (1) = = Wortschatzorganisation Suffixäquivalenz · Phonetischer Baum · Dendrophone t=1 v |w b1 (x t ) · αt−1 (1) · a11 + gt−1 (w ) · a01 t>1 Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Mehrphasendekodierung Beispielaufbau Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Ökonomische Wortschatzorganisation Präfixäquivalenz & Postfixäquivalenz Aufgabenstellung /t/ Komprimierung des HMM-Wortmodellnetzwerks Reduktion des Speicher- und Berechnungsaufwandes 1 Vorgehensweise /n/ 2 /to:n/ /t/ 3 • Angriffsfläche: /o:/ /o:/ 4 5 /t/ 6 /to:t/ die Phonmodellkopien (∼ 90% Reduktion) • Präfixäquivalenz identische α- oder ϑ-Wahrscheinlichkeiten /r/ /t/ 8 /ro:t/ n werte t us a fahre auswerten auswertet ausfahre ablehne blehne ∗ P(X , q ) • Postfixäquivalenz vorweggenommene Siegerwortentscheidungen ( /o:/ 7 ) abkaufe einkaufe Kernseife ein kau ver fe Kernsei 0 = max max P(X , q | /to:t/), max P(X , q | /ro:t/) q q0 ∗ P (x 1 . . . x t | /t/) ∗ = max max · P (x t+1 . . . x T | /o:t/) P∗ (x 1 . . . x t | /r/) t Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Phonetischer Lexikonbaum & CD-PLUs phonetischer Baum inverser phonetischer Baum /n/ /t/ /t/ /o:/ phonetischer Rhombus /n/ /n/ /o:/ Baumstrukturierter Viterbi-Suchraum /t/ αt (j) sj /o:/ /t/ /t/ /t/ /o:/ /r/ /o:/ /t/ /t/ /r/ /r/ /o:/ Triphone „Ton“ „tot“ „rot“ /t/o: /t/o: /r/o: t/o:/n t/o:/t r/o:/t o:/n/ o:/t/ o:/t/ Dendrophone „Ton“ „tot“ „rot“ /t/ /t/ /r/ t/o:/ t/o:/ r/o:/ to:/n/ to:/t/ ro:/t/ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Zeit t Speicherplatztopologie der Vorwärtswahrscheinlichkeiten eines phonetischen Lexikonbaums Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Mehrphasendekodierung Motivation Kompilierte HMM-Netzwerkstrukturen Problem Nicht alle Grammatikformalismen sind HMM-Netzwerk-kompatibel: |Zustandsraum| = L4 Pentagramm-Sprachmodelle Die wahrscheinlichste Wortsegmentierung Kreditkartennummer/Kontrollbedingung Suche in Zeitrichtung Spielekommandos „127 teilt k“ „Springer schlägt Dame auf c3“ Suche in Wortfolgenrichtung Lösung = schrittweise Verfeinerung Wortschatzorganisation Mehrphasendekodierung Schrittweise Verfeinerung · n beste Wortketten Beispielaufbau 1 Schnelle Suche zur Erzeugung konkurrierender Zwischenlösungen 2 Sequentielles Ausfiltern vermöge akustischer & grammatischer Neubewertung Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Zwischenlösungsrepräsentationen für die Satzerkennung WORTKETTEN 1. Paula mahlt Kaffee 2. Paula malt Kaffee 3. Pablo malt Kaffee 4. Paula macht Kaffee 5. Paul mahlt Kaffee WORTGRAPH Paula WORTGITTER mahlt Paula mahlt Tee STRAHLSUCHE Kaffee Pablo Die Systemarchitektur BYBLOS Pablo macht Kaffee malt Paul malt Monophon-ASM t NEUBEWERTUNG 1. 2. 3. Baumstruktur Bigramm-LSM 40. Triphon-ASM .. . 1’. Wortgrenzen Trigramm-LSM • Wortketten aufzählende Wortfolgeinformation · hochredundant • Wortgraphen explizite Wortfolgeinformation · hochökonomisch Die Neubewertung von Wortketten unterliegt keinerlei Einschränkungen hinsichtlich der Struktur akustischer & grammatischer Modelle! • Wortgitter implizite Wortfolgeinformation durch Zeitstempel · übergeneralisierend Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung n-best Algorithmen Näherungsweise Berechnung der n besten Wortketten mit Varianten des Viterbi-Algorithmus Kettenrekonstruktion aus dem Wortgitter ŵ 1 ŵ 2 • Zustandsbezogener NBVA (Bayer ’86) hält in jedem Gitterpunkt (t, j) die n besten Kandidaten in bewertungssortierter Liste Dt (j) und berechnet n o (k) (l) ϑt (j) = max(k) ϑt−1 (i) · aij · bj (x t ) | 1 ≤ i ≤ N, 1 ≤ l ≤ n | {z } Dt (j) ŵ 3 ŵ 4 ŵ 5 ŵ 6 ŵ 7 ŵ 8 ŵ 9 Zeit t ŵ 10 • Satzbezogener NBVA (Steinbiss ’89) rekombiniert konkurrierende Kandidaten für gleiche Wortfolgen • Gitterbezogener NBVA (Marino&Monte ’89) keine Listen im Wortinneren, nur das dichte Wortgitter {hw , ϑt (w ), τt (w )i | t = 1, . . . , T , w ∈ W} Rekonstruktion der 10 bestbewerteten Wortketten aus dem dichten Wortgitter mit der Rekursion P∗ (t0 . . . ti , w1 . . . wi ) = P∗ (t0 . . . ti−1 , w1 . . . wi−1 ) · ϑti (wi ) maxv ϑti −1 (v ) Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Der gitterbezogene n-best-Viterbi ist suboptimal! w1 Der Tree-Trellis-Algorithmus (Soong) t=1 t=T Suchbaum µ3 µ2 asynchron: A*−Algorithmus w2 Block−Viterbi−Algorithmus µ1 w3 dichtes Wortgitter Rekombination synchron: Viterbi−Algorithmus Im Innern des Wortes w3 werden die Zustandsfolgen µ1 und µ2 rekombiniert. Die Wortfolge w1 w3 wird fortan durch Pfad µ3 vertreten, auch wenn P(X , µ2 ) > P(X , µ3 ) gelten sollte! Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung An Stelle einer Zusammenfassung Motivation Kompilierte HMM-Netzwerkstrukturen EXEMPLARISCHE BERECHNUNGSFOLGE ZUR DEKODIERUNG EINES GESPROCHENEN SATZES Grammatikgesteuerte Spracherkennung Die wahrscheinlichste Wortsegmentierung 1 Vorverarbeitung des Eingabesignals Diskretisierung – Merkmalberechnung – Vektorquantisierung 2 Suche in Wortfolgenrichtung Strahlgesteuerter Viterbi-Algorithmus vorwärts Phonemischer Baum, Monophone, Bigramm-Grammatik 3 Wortgitterberechnung rückwärts Inverser Phonemischer Baum, Dendrophone, Bigramm-Grammatik Wortschatzorganisation 4 Konstruktion der 100 besten Wortketten A*-Algorithmus oder Dynamische Programmierung Mehrphasendekodierung 5 Umbewerten & Umsortieren der Wortketten HMM’s mit wortgrenzenübergreifenden Polyphonen, Polygramm-Grammatik Suche in Zeitrichtung Beispielaufbau