und Spracherkennung mit Hidden-Markov

Werbung
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
SPEZIELLE MUSTERANALYSESYSTEME
Schrift- und Spracherkennung mit
Hidden-Markov-Modellen
Teil VIII
Dekodierung mit HMMs
Vorlesung im Wintersemester 2016
Prof. E.G. Schukat-Talamazzini
Stand: 5. September 2016
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Dekodierung =
ˆ Maximierungsaufgabe
Motivation
w ∗ = argmax {PAM (X | w ) · PLM (w )}
Kompilierte HMM-Netzwerkstrukturen
w
Die wahrscheinlichste Wortsegmentierung
Suche in Zeitrichtung
KODIERUNG & ÜBERTRAGUNG
Text-
f
w
Merkmal-
DEKODIERUNG
X
Erkenner
ŵ
Sprecher/in
quelle
berechnung
ASM—LSM
Suche in Wortfolgenrichtung
Massives Resourcenproblem
Wortschatzorganisation
Mehrphasendekodierung
1. viele Wörter, Modelle, Verteilungen
2. zerklüfteter Suchraum aufgrund mächtiger Grammatikmodelle
3. Kombinatorik unbekannter Wortgrenzen in kontinuierlicher Sprache
Beispielaufbau
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Lösungsansätze
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Motivation
Angriffsflächen
Kompilierte HMM-Netzwerkstrukturen
Synchrone Suche · Einzelwort · Verbundwort · Bigramm-Modell
• Rekombination von Teillösungen
• Beschneidung des Suchraums (’pruning’)
• Sequentielle Dekomposition der Analyse
Die wahrscheinlichste Wortsegmentierung
Suche in Zeitrichtung
Programmtechnisches Vorgehen
• Zeitliche Überlagerung bei der Speicherverwaltung
Suche in Wortfolgenrichtung
• Impliziter Suchraumaufbau
• Datenflußkontrolle: Dichteberechnungen, Cache
Mehrphasendekodierung
Risiken und Nebenwirkungen ?
Modellierungsfehler:
w ∗ 6= gesprochene Wortfolge
Wortschatzorganisation
Dekodierungsfehler:
gefundene Wortfolge 6= w ∗
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Beispielaufbau
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Kompilierte Netzwerke aus HMMs
Einzelworterkennung
Bigramm-Grammatik oder weniger
Jedes Wortmodell λ(W ) besitzt je einen E/A-Zustand
λ(W1 )
1/3
Vernetzung der Wort-HMMs im Sinne der Grammatik
1/3
Lösung w ∗
λV
λ(W2 )
1
Dekodierung durch Viterbi-Algorithmus auf dem Netzwerk
Optimale Zustandsfolge
1
1/3
λ(W3 )
1
Die Modelle aller Wortschatzeinträge werden parallel geschaltet.
Synchrone Suche
Strikte Verarbeitung des Eingabesignals in Zeitrichtung
(„von links nach rechts“)
Es können Unigrammwahrscheinlichkeiten eingebracht werden.
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Verbundworterkennung mit bekannter Satzlänge
Verbundworterkennung mit unbekannter Satzlänge
1−ρ
1
1
...
1
1
1
1
ρ
λV ,1
λV ,m
λV
Ein Wortmodellbündel wird zu einer Schleife verschaltet.
Es werden m Wortmodellbündel in Serie geschaltet.
Eine Fluchtwahrscheinlichkeit ρ regelt die (mittlere) Wortanzahl.
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Verbundworterkennung mit wortbezogenen Bigrammen
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Verbundworterkennung mit kategoriebezogenen Bigrammen
HMM−Bündel einer Wortkategorie
λ(W1 )
..
.
λ(WL )
P(Wi |W1 )
Wort−HMM
P(W1 |Wi )
λ(Wi )
P(Wi |WL )
P(Wi )
P(WL |Wi )
mit
Bigrammübergängen
λ(W1 )
..
.
λ(WL )
λ(Ci )
P(Wj |Ci )
..
.
..
.
P(C1 |Ci )
1
λ(Wj )
..
.
P(Wk |Ci )
P($|Wi )
1
P(CN |Ci )
λ(Wk )
1
P(Wl |Ci )
λ(C1 )
λ(Wl )
L Wortmodelle und L2 Übergangskanten mit Bigramm-W’keiten
L Wortmodelle im Falle disjunkter Wortkategorien
P($|Ci )
λ(CN )
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Wann „realisiert“ ein HMM-Netzwerk eine Grammatik ?
def
P(X | λ(w )) · P(w ) = P(X , w | λ) =
X
P(X , q | λ)
q∈S T |w
(es bezeichnet S T |w die Menge aller Zustandsfolgen der Dauer T , welche die Kette w traversieren)
Die wahrscheinlichste Wortsegmentierung
One-Stage/Level-Building · Vorwärtsdekodierung · PTB
Suche in Zeitrichtung
Suche in Wortfolgenrichtung
Expansion konfluenter Zustände:
a1,0
Motivation
Kompilierte HMM-Netzwerkstrukturen
Für alle Wortfolgen w ∈ V ∗ muß gelten:
?
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
a1,0 · a0,3
a0,3
Wortschatzorganisation
a2,0 · a0,3
a2,0
a0,4
a1,0 · a0,4
Mehrphasendekodierung
a2,0 · a0,4
Beispielaufbau
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Welches ist die „beste“ Wortfolge ?
t0
t1
w1
t2
w2
t3
w3
t4
w4
Einstufige Verbundwortdekodierung
t5
w5
t6
w6
λ(„eins“)
• Viterbi-Wortfolge
w ∗VA = w (q ∗ ) ,
q ∗ = argmax {P(w ) · P(X , q | λ(w ))}
q∈S T
λ(„zwei“)
• Optimale Wortsegmentierung
(t ∗ , w ∗ ) = argmax P(t, w | X ) = argmax {P(X , t | w ) · P(w )}
| {z }
t,w
t,w
w∗
SEG
λ(„drei“)
„zwei“
t
„eins“
„drei“
„zwei“
„zwei“
Zeit
• Maximum a posteriori-Wortfolge
w ∗MAP = argmax {P(w ) · P(X | λ(w ))}
w ∈V ∗
One-stage Algorithmus
(Vintsyuk ’71, Bridle ’82)
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Mehrstufige Verbundwortdekodierung
Vorwärtsdekodierung
hAlgorithmusi
Stufe 1
1
„zwei“
INITIALISIERUNG. Setze für alle j = 1, . . . , N
ϑ1 (j) = πj bj (x 1 )
und
ψ1 (j) = 0
λ(„eins“)
2
Für alle j = 1, . . . , N setze ψt (j) = argmaxi ϑt−1 (i)aij sowie

(ϑt−1 (i)aij ) · bj (x t ) falls sj Wortanfangszustand ist
 max
i
X
ϑt (j) =
(ϑt−1 (i)aij ) · bj (x t ) für alle sonstigen sj

„eins“
Stufe 2
REKURSION.
λ(„zwei“)
i
3
TERMINIERUNG. Setze
„drei“
P∗ (X | λ) = ϑT (N)
Stufe 3
Level-building Algorithmus
und
∗
qT
= ϑT (N)
λ(„drei“)
(Myers ’81, Rabiner ’85)
4
∗
RÜCKVERFOLGUNG. Für t = t − 1, . . . , 1 setze qt∗ = ψt+1 (qt+1
)
5
LÖSUNGSWORTKETTE. Setze w ∗ = w (q ∗ ).
isumhtiroglAh
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
t=1
Schritthaltende
Teildekodierung
t=t
t=t
0
00
t=T
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Motivation
Kompilierte HMM-Netzwerkstrukturen
Die wahrscheinlichste Wortsegmentierung
aktuelles Wort
Suche in Zeitrichtung
Strahlsuche · Vorwärts-Rückwärts-Suche
Anfangspartien von w ∗ bereits eher als in t = T berechnen !
Worterkennung vor dem Wortende !
Suche in Wortfolgenrichtung
q(j, t) = wahrscheinlichste Folge, die in t den Zustand sj erreicht
Wortschatzorganisation
Menge aller Zustände, die zum Zeitpunkt t 0 eingenommen wurden
und auf einer optimalen, in t 00 endenden Folge liegen:
Qt 0 t 00 = {qt 0 (j, t 00 ) | j = 1, . . . , N} ,
1 ≤ t 0 ≤ t 00
Zwischenbilanz für Zeitpunkt t 0 , sobald Qt 0 t 00 einelementig ist
Mehrphasendekodierung
Beispielaufbau
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Viterbi-Algorithmus — vorwärts schauend
Strahlsuchverfahren
• Obsolete Maximumoperationen
hAlgorithmusi
1
INITIALISIEREN
Für alle j ∈ {1, . . . , N} setze t←1 und ϑt (j) ← πj · bj (x t ).
2
VORBESETZEN
ϑt+1 (j) ← 0
3
1. falls aij = 0 oder
2. falls ϑt (i) = 0
• Aktive & passive Zustände
(∀j)
def
Ot = {i | ϑt (i) 6= 0}
VORWÄRTS FEUERN
ϑt+1 (j)
ϑt+1 (j) ← max
ϑt (i) · aij
Passive Zustände müssen nicht mehr feuern!
• Beschneidungsstrategie
(∀i, j)
def
4
OtB0 = {i | ϑt (i) ≥ B0 · Λt }
ABSCHLIEßEN
ϑt+1 (j) ← ϑt+1 (j) · bj (x t+1 )
5
WEITERSCHALTEN Setze t←t + 1 oder
mit Λt = max ϑt (j)
j
verfolgt nur eine kleine Schar wahrscheinlichster aktueller Zustände
(∀j)
• die Anzahl der Kandidaten („Strahlbreite“) ist adaptiv
ENDE.
B0 = 10−2 . . . 10−4 . . . 0
isumhtiroglAh
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Strahlbreite und Hypothesenrang
Vorwärts-Rückwärts-Suche I
Problem
zwei
hundert
und
acht
zehn
Anzahl Zustände
150
Rgt
100
Immer noch hohe Kandidatenzahl an den Wortübergängen!
Wörter von Strahlsuche aktiviert & gleich wieder deaktiviert.
Lösungsansätze
Sbt
getrennte Kandidatenlisten & Strahlkonstanten
schnelle Vorauswahl mutmaßlicher Fortsetzungswörter
Reduktion der Menge Ot aktiver Zustände durch ’look-ahead’:
50
0
Zeit t
1. Viterbi-Algorithmus vorwärts
mit einfachen akustischen und grammatischen Modellen
2. Speichern der „aktiven“ Wahrscheinlichkeitsbewertungen
• Rgt = lokaler Wahrscheinlichkeitsrang der global besten Wortkette
• Sbt = Anzahl konkurrierender Kandidatenzustände zum Zeittakt t
typische Aufwandsreduktion:
Faktor 10–20 bei ≤ 1% erhöhter Fehlerrate
{ϑt (i) | i ∈ Ot , 1 ≤ t ≤ T }
3. Viterbi-Algorithmus rückwärts
mit komplexeren akustischen und grammatischen Modellen zur
Berechnung der zeitinversen Bewertungen
←
ϑ←
t (i) = max aij bj (x t+1 )ϑt+1 (j)
j
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Vorwärts-Rückwärts-Suche II
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Motivation
Beschleunigung bei den Rückwärtstransitionen sj → si :
• Wenn i 6∈ Ot , so ϑt (i) außerhalb des Suchstrahls {ϑ | ϑ ≥ B0 Γt }.
Kompilierte HMM-Netzwerkstrukturen
• Wenn i ∈ Ot , so steht ϑt (i) zur Verfügung.
Die wahrscheinlichste Wortsegmentierung
Überprüfe die Ungleichung
ϑt (i) · aij · bj (x t+1 ) · ϑ←
t+1 (j) ≥ B0 · ΓT
|
{z
}
Suche in Zeitrichtung
P∗ (X ,qt =si ,qt+1 =sj )
Suche in Wortfolgenrichtung
Graphsuche · Kellersuche
sm
sl
sj
Wortschatzorganisation
si
ϑt (·)
log P(·)
ϑ←
t (·)
sk
si
sk
Mehrphasendekodierung
sj
vorwärts −→
←− rückwärts
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Beispielaufbau
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Graphsuche
Heuristisch informierte geordnete Suche
Aufgabenstellung
hAlgorithmusi
Suche bestbewerteten Zielknoten eines gerichteten Graphen
1
INITIALISIERUNG
Setze O = Kα
2
AUSWAHL
Ermittle besten Knoten k = argmin`∈O fˆ(`)
3
TERMINIERUNG
Wenn k ∈ Kω dann
Bewerteter gerichteter Graph (K, E, d )
• Knotenmenge K = {k1 , k2 , . . .}
• Kantenmenge E ⊆ K × K
• Nichtnegative Kostenfunktion d : E →
IR+
0
4
EXPANSION
Berechne fˆ(k 0 ) für alle (k, k 0 ) ∈ E
Sortiere die fˆ(k 0 ) in die Schlange O ein
5
ITERATION
Gehe
2
Pfade, Lösungen und ihre Kosten
• Gerichteter Pfad k = (k1 , . . . , km ) falls alle (ki , ki+1 ) ∈ E
• k Lösungspfad falls k1 ∈ Kα und km ∈ Kω
ENDE
• Kumulative Kosten
isumhtiroglAh
def
D(k) =
m−1
X
Die „heuristische Funktion“ fˆ(·) schätzt die Erfolgschance der Expansion
d (ki , ki+1 )
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Spezialfall A*-Algorithmus
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Zulassigkeit & Optimalität des A*-Algorithmus
Eine zulässige & effiziente heurist. inform. Graphsuche
1. Wahre Zielfunktion
Satz
def
f (k) = argmin {D(k) | k ∈ k, k Lösung }
Die geordnete Suche mit
fˆ = ĝ + ĥ
2. Additive Zerlegung
Weg vom Start nach k — Weg von k ins Ziel
heißt A*-Algorithmus und besitzt die folgenden Eigenschaften:
f (k) = g (k) + h(k)
1. Terminierung — Algorithmus endet
3. Dynamische Programmierung
2. Monotonie — nach Expansion von k ∈ K gilt ĝ (k) = g (k)
3. Zulässigkeit — die erste expandierte Lösung ist die beste
def
ĝ (k) = bislang günstigster Pfad von Kα nach k
4. Optimale Effizienz — min. Anzahl expand. Knoten bzgl. ĥ(·)
4. Optimistische Restschätzung
ĥ(k) ≤ h(k)
5. Anordnung — liefert ggf. die n besten Lösungen in Folge
(∀k ∈ K)
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Kellersuche (’stack decoding’)
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Kellersuche und Kostenfunktionen
• Kumulative Kosten
def
gt (w ) = P(w , x 1 . . . x t ) = P(w ) · P(x 1 . . . x t | w )
K = (V∪{$})∗
Suchgraph =
ˆ Suchbaum ⇒ ĝt ≡ gt
Kα = {∅}
• Restwahrscheinlichkeit
Kω = {w $ | w ∈ V ∗ }
def
ht (w ) = max∗ P(u|w ) · P(x t+1 . . . x T | u)
u∈V
• Lokales Bewertungsprofil
Kα = {∅}
u
ft (w ) = gt (w ) + ht (w )
u$
Für f = maxt ft gilt:
∅
v
w
vu
vw
vuw
vuw$
vw$
Kω
• Restschätzung
f (w ) =
maxu P(w u, X )
P(w , X )
w ∈
6 Kω partiell
w ∈ Kω vollständig
(’shortfall’)
ĥt (w ) = ĥt =
T
Y
s=t+1
max bj (x s )
j=1..N
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Gestapelte Vorwärtsmatrixberechnung
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Motivation
Kompilierte HMM-Netzwerkstrukturen
αt (j) bzgl. Modell λ(w )
Die wahrscheinlichste Wortsegmentierung
sω
gt (w )
Suche in Zeitrichtung
s1
Suche in Wortfolgenrichtung
αt (j) bzgl. Modell λ(v )
s2
s3
gt (w v )
gt (w )
def
=
P(x 1 . . . x t | w )
gt (w v )
def
P(x 1 . . . x t | w v )
(
b1 (x 1 ) v |w
αt (1)
=
=
Wortschatzorganisation
Suffixäquivalenz · Phonetischer Baum · Dendrophone
t=1
v |w
b1 (x t ) · αt−1 (1) · a11 + gt−1 (w ) · a01
t>1
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Mehrphasendekodierung
Beispielaufbau
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Ökonomische Wortschatzorganisation
Präfixäquivalenz & Postfixäquivalenz
Aufgabenstellung
/t/
Komprimierung des HMM-Wortmodellnetzwerks
Reduktion des Speicher- und Berechnungsaufwandes
1
Vorgehensweise
/n/
2
/to:n/
/t/
3
• Angriffsfläche:
/o:/
/o:/
4
5
/t/
6
/to:t/
die Phonmodellkopien (∼ 90% Reduktion)
• Präfixäquivalenz
identische α- oder ϑ-Wahrscheinlichkeiten
/r/
/t/
8
/ro:t/

n 

werte
t
us
a



fahre






auswerten




auswertet
ausfahre 



ablehne


blehne
∗
P(X , q )
• Postfixäquivalenz
vorweggenommene Siegerwortentscheidungen
(
/o:/
7
)
abkaufe
einkaufe
Kernseife
  ein

kau


ver
fe

Kernsei
0
= max max P(X , q | /to:t/), max
P(X , q | /ro:t/)
q
q0
∗
P (x 1 . . . x t | /t/)
∗
= max max
· P (x t+1 . . . x T | /o:t/)
P∗ (x 1 . . . x t | /r/)
t
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Phonetischer Lexikonbaum & CD-PLUs
phonetischer Baum
inverser phonetischer Baum
/n/
/t/
/t/
/o:/
phonetischer Rhombus
/n/
/n/
/o:/
Baumstrukturierter Viterbi-Suchraum
/t/
αt (j)
sj
/o:/
/t/
/t/
/t/
/o:/
/r/
/o:/
/t/
/t/
/r/
/r/
/o:/
Triphone
„Ton“
„tot“
„rot“
/t/o:
/t/o:
/r/o:
t/o:/n
t/o:/t
r/o:/t
o:/n/
o:/t/
o:/t/
Dendrophone
„Ton“
„tot“
„rot“
/t/
/t/
/r/
t/o:/
t/o:/
r/o:/
to:/n/
to:/t/
ro:/t/
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Zeit t
Speicherplatztopologie der Vorwärtswahrscheinlichkeiten eines
phonetischen Lexikonbaums
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Mehrphasendekodierung
Motivation
Kompilierte HMM-Netzwerkstrukturen
Problem
Nicht alle Grammatikformalismen sind HMM-Netzwerk-kompatibel:
|Zustandsraum| = L4
Pentagramm-Sprachmodelle
Die wahrscheinlichste Wortsegmentierung
Kreditkartennummer/Kontrollbedingung
Suche in Zeitrichtung
Spielekommandos
„127 teilt k“
„Springer schlägt Dame auf c3“
Suche in Wortfolgenrichtung
Lösung = schrittweise Verfeinerung
Wortschatzorganisation
Mehrphasendekodierung
Schrittweise Verfeinerung · n beste Wortketten
Beispielaufbau
1
Schnelle Suche
zur Erzeugung konkurrierender Zwischenlösungen
2
Sequentielles Ausfiltern
vermöge akustischer & grammatischer Neubewertung
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Zwischenlösungsrepräsentationen für die Satzerkennung
WORTKETTEN
1. Paula mahlt Kaffee
2. Paula malt Kaffee
3. Pablo malt Kaffee
4. Paula macht Kaffee
5. Paul mahlt Kaffee
WORTGRAPH
Paula
WORTGITTER
mahlt
Paula
mahlt
Tee
STRAHLSUCHE
Kaffee
Pablo
Die Systemarchitektur BYBLOS
Pablo
macht
Kaffee
malt
Paul
malt
Monophon-ASM
t
NEUBEWERTUNG
1.
2.
3.
Baumstruktur
Bigramm-LSM
40.
Triphon-ASM
..
.
1’.
Wortgrenzen
Trigramm-LSM
• Wortketten
aufzählende Wortfolgeinformation · hochredundant
• Wortgraphen
explizite Wortfolgeinformation · hochökonomisch
Die Neubewertung von Wortketten unterliegt keinerlei
Einschränkungen hinsichtlich der Struktur akustischer &
grammatischer Modelle!
• Wortgitter
implizite Wortfolgeinformation durch Zeitstempel ·
übergeneralisierend
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
n-best Algorithmen
Näherungsweise Berechnung der n besten Wortketten mit Varianten
des Viterbi-Algorithmus
Kettenrekonstruktion aus dem Wortgitter
ŵ 1
ŵ 2
• Zustandsbezogener NBVA
(Bayer ’86)
hält in jedem Gitterpunkt (t, j) die n besten Kandidaten in
bewertungssortierter Liste Dt (j) und berechnet
n
o
(k)
(l)
ϑt (j) = max(k) ϑt−1 (i) · aij · bj (x t ) | 1 ≤ i ≤ N, 1 ≤ l ≤ n
|
{z
}
Dt (j)
ŵ 3
ŵ 4
ŵ 5
ŵ 6
ŵ 7
ŵ 8
ŵ 9
Zeit t
ŵ 10
• Satzbezogener NBVA
(Steinbiss ’89)
rekombiniert konkurrierende Kandidaten für gleiche Wortfolgen
• Gitterbezogener NBVA
(Marino&Monte ’89)
keine Listen im Wortinneren, nur das dichte Wortgitter
{hw , ϑt (w ), τt (w )i | t = 1, . . . , T , w ∈ W}
Rekonstruktion der 10 bestbewerteten Wortketten aus dem dichten
Wortgitter mit der Rekursion
P∗ (t0 . . . ti , w1 . . . wi ) = P∗ (t0 . . . ti−1 , w1 . . . wi−1 ) ·
ϑti (wi )
maxv ϑti −1 (v )
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
Der gitterbezogene n-best-Viterbi ist suboptimal!
w1
Der Tree-Trellis-Algorithmus (Soong)
t=1
t=T
Suchbaum
µ3
µ2
asynchron: A*−Algorithmus
w2
Block−Viterbi−Algorithmus
µ1
w3
dichtes Wortgitter
Rekombination
synchron: Viterbi−Algorithmus
Im Innern des Wortes w3 werden die Zustandsfolgen µ1 und µ2 rekombiniert.
Die Wortfolge w1 w3 wird fortan durch Pfad µ3 vertreten, auch wenn
P(X , µ2 ) > P(X , µ3 ) gelten sollte!
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung Σ
Motivation HMM-Netzwerke Wortsegmentierung Synchrone Suche Asynchrone Suche Lexikon Mehrphasendekodierung
An Stelle einer Zusammenfassung
Motivation
Kompilierte HMM-Netzwerkstrukturen
EXEMPLARISCHE BERECHNUNGSFOLGE ZUR DEKODIERUNG EINES GESPROCHENEN SATZES
Grammatikgesteuerte Spracherkennung
Die wahrscheinlichste Wortsegmentierung
1
Vorverarbeitung des Eingabesignals
Diskretisierung – Merkmalberechnung – Vektorquantisierung
2
Suche in Wortfolgenrichtung
Strahlgesteuerter Viterbi-Algorithmus vorwärts
Phonemischer Baum, Monophone, Bigramm-Grammatik
3
Wortgitterberechnung rückwärts
Inverser Phonemischer Baum, Dendrophone, Bigramm-Grammatik
Wortschatzorganisation
4
Konstruktion der 100 besten Wortketten
A*-Algorithmus oder Dynamische Programmierung
Mehrphasendekodierung
5
Umbewerten & Umsortieren der Wortketten
HMM’s mit wortgrenzenübergreifenden Polyphonen,
Polygramm-Grammatik
Suche in Zeitrichtung
Beispielaufbau
Herunterladen