Espresso - Informatik - FB3

Werbung
Sprachverarbeitung:
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
1.
Spracherkennung und Dialog
–
–
–
–
Verschiedene
Arbeitsphasen
–
• Routengraphen
2.
Software Nuance 8
Prototyp 1: Entwicklung einer Grammatik
Prototyp 2: Java Client
Prot.3-4: Sprachausgabe, Dialoge,
Erweiterungen
Prototyp 5-7: Erweiterung der GSL-Grammatik:
Optimierung, Small-talk
Sprachgenerierung und Synthese
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Spracherkennung:
Signalanalyse
Musterabgleich
Frequenzen/Zeitpunkt
Merkmalsextraktion
Ähnlichkeitsmaß
Folge von Lauten, Wörtern
als Ergebnis
Lexikalische Dekodierung
Syntaktische Analyse
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Software: NUANCE 8
Anwendungsgebiet:
– Marktführer, sehr präzis
– Für kontinuierliche Sprache
– Sprecher-unabhängig
Funktionsweise:
– Wird mit statistischen Sprachmodellen kombiniert
– Geräusch-robuste Merkmalsextraktion
– Akustische Adaptation (an Sprecher)
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Erkennungs-Grammatik unter Nuance:
Grammatikdatei(en): Nuance individuell einsetzen
Werkzeug: Nuance Grammar Builder
 zum editieren und kompilieren
Notation: in Grammar Specification Language (GSL)
– Für kontextfreie Grammatiken
– Terminalen und nonterminalen Symbolen
– Erweiterungen möglich, wie z.B. Wahrscheinlichkeit
des Vorkommens
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Erkennungs-Grammatik unter Nuance:
Konstrukt
(...)
[...]
*
+
Bedeutung
Konkatenation
Disjunktion
Kleen’sche
Hülle
Positive Hülle
?
Option
Beispiel
(ich möchte)
[tee kaffee]
*viel milch
Beschreibung
Phrase ’ich möchte’
’tee’ oder ’kaffee’
’milch’, ’viel milch’,
’viel, viel milch’, ...
+viel milch
’viel milch’,
’viel, viel milch’, ...
kaffee ?bitte ’kaffee’ oder
’kaffee bitte’
Auszug aus den Syntaxkonstrukten der GSL
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Erkennungs-Grammatik unter Nuance:
Beispiel bei espresso:
.SATZ (ich möchte einen GETRAENK)
GETRAENK [kaffee tee milch milchkaffee]
Durch Einführung von Regeln wird die Grammatik flexibel
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Erkennungs-Grammatik unter Nuance:
Bei zu großen Grammatiken hingegen,
– wird die Bearbeitung langsamer
– die Erkennungsrate sinkt
– es können semantisch ungültige Konstrukte
generiert werden
 möglichst viele denkbare Sätze in die Grammatik,
aber nicht alle mögliche (Begrenzung auf
Bereiche).
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Prototyp 1: Entwicklung einer Grammatik
(Bestellungsvorgang)
Beispiele von erkannten Sätze:
•
•
•
•
Einen Kaffee bitte
Mach mir einen Kaffee
Für mich einen Kaffee
Ich hätte gerne einen Kaffee
– sollte robust sein
– ausreichend für erste Versuche
(Tests über Nuance Server)
.INIT
[
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
( BITTE GETRAENK )
( GETRAENK BITTE )
( PERSONALPRONOMEN VERB ?(BITTE ?(GERNE)) GETRAENK
)
]
BITTE
[
?(bitte)
]
GERNE
[
?(gerne)
]
PERSONALPRONOMEN
[
ich
]
VERB
[
( moechte )
( haette )
( will )
]
GETRAENK
[
( einen ?(doppelten) kaffee )
( eine kanne kaffee )
( einen ?(doppelten) cappuccino )
( einen ?(doppelten) latte macchiato )
( einen ?(doppelten) milchkaffee )
( einen ?(doppelten) kaffee creme )
( einen ?(doppelten) milchkaffee )
( einen ?(doppelten) espresso )
( milchschaum )
]
Prototyp 2:
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
– Grammatik erweitert
– Java-Client programmiert
Prototypen 3-4:
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
– Integration von Text-to-speech
– Integration von Maschinensteuerung
– Dialoge entwickelt:
•
•
•
•
•
Begrüßung
Getränke-Repertoire
Antwort auf Bestellungen
Meldung bei Missverständnis
Abbruch der Bestellung
Prototypen 3-4:
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
U: Guten Tag, WMF combination S.
M: Guten Tag. Was kann ich Ihnen anbieten?
U: Was kannst Du denn alles?
M: Ich kann Kaffee, Café Crème, (...). Was ist Ihr Wunsch?
U: Ich hätte gerne einen Cappuccino.
M: Entschuldigung, ich habe eben leider nicht zugehört.
U: Einen Cappuccino bitte.
M: Gerne, ich mache Ihnen eine Cappuccino. Einen
Moment bitte.
Prototypen 3-4:
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Weiterer sprachliche Aspekt:
Aussprache bei unbekannten Wörtern oder Fremdwörtern:
 Dictionary-Files in Lautschrift-Notation bei Nuance
aufgeschaeumte
combination
heisses
macchiato
milchschaum
aw u f g * S Oj m t *
kombineS*n
h aj s E S
mAkiAto
m i l rej S aw m
Prototypen 5 bis Final:
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
– Sprachsynthese und Steuerung
in entsprechende Module ausgelagert
– Wahrscheinlichkeitswerte in Grammatik
– Weitere Dialog-Elemente, Smalltalk
Prototypen 5 bis Final:
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Sprachgenerierung und -synthese (Kurzer Einblick)
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
Generierung und
Synthese
• Routengraphen
– Benutzte Software: Mary
(andere: SABLE, SAPI)
– Herausforderung Aussprache/Intonation
(Parsen, Satzmelodie finden, Lexikon)
– MaryXML-Struktur auf jede Ebene des Prozesses
zugreifbar / erweiterbar
• Explizite Ausspracheangaben (Kaffeedomäne)
• Beeinflussung der Intonation mit GToBI
(Notationssystem)
Sprachgenerierung und -synthese (Kurzer Einblick)
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
Generierung und
Synthese
• Routengraphen
<?xml version="1.0" encoding="UTF-8"?>
<maryxml xmlns="http://mary.dfki.de/2002/MaryXML"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance„
version="0.3" xml:lang="de">
<prosody rate="+10%" pitch="+10%">
Ihr <t sampa="ka-’fee">Kaffee</t> ist fertig!
</prosody>
</maryxml>
Sprachgenerierung und -synthese (Kurzer Einblick)
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
Generierung und
Synthese
• Routengraphen
...
<prosody pitch="+10%" rate="+10%">
<paragraph>
<sentence>
<phrase>
<t g2p_method="lexicon" pos="PPOSAT" sampa="’?i:6"
syn_attach="1" syn_phrase="NP">
Ihr
</t>
<t accent="L+H * " pos="NN" sampa="ka-’fee"
syn_attach="0" syn_phrase="NP">
Kaffee
</t>
<boundary breakindex="3" tone="H-"/>
....
Routengraphen für die Ebene 8 (MZH)
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
a)
B: Wo finde ich das Büro von BKB?
K: Raum 8071. Gehen Sie hier raus, dann gleich nach
links. Ganz am Ende sehen Sie eine Tür, das Büro
von BKB ist die Tür daneben.
b)
B: Wie finde ich das Büro von xxx? (xxx ist ein Student, hat
aber kein Büro.)
K: Entschuldigung, ich habe Sie nicht richtig verstanden.
Können Sie es noch einmal versuchen?
B: Wie finde ich das Büro von xxx?
K: Es tut mir leid, die Person ist nicht in der Datenbank
gespeichert.
Routengraphen für die Ebene 8 (MZH)
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Routengraphen für die Ebene 8 (MZH)
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Routengraphen für die Ebene 8 (MZH)
• Überblick Software
• Bestellungsverwaltungsprozess
• Dialogmanagement
• Simulation
• Sprachverarbeitung
Verschiedene
Arbeitsphasen
• Routengraphen
Herunterladen