Sprachverarbeitung: • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung 1. Spracherkennung und Dialog – – – – Verschiedene Arbeitsphasen – • Routengraphen 2. Software Nuance 8 Prototyp 1: Entwicklung einer Grammatik Prototyp 2: Java Client Prot.3-4: Sprachausgabe, Dialoge, Erweiterungen Prototyp 5-7: Erweiterung der GSL-Grammatik: Optimierung, Small-talk Sprachgenerierung und Synthese • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Spracherkennung: Signalanalyse Musterabgleich Frequenzen/Zeitpunkt Merkmalsextraktion Ähnlichkeitsmaß Folge von Lauten, Wörtern als Ergebnis Lexikalische Dekodierung Syntaktische Analyse • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Software: NUANCE 8 Anwendungsgebiet: – Marktführer, sehr präzis – Für kontinuierliche Sprache – Sprecher-unabhängig Funktionsweise: – Wird mit statistischen Sprachmodellen kombiniert – Geräusch-robuste Merkmalsextraktion – Akustische Adaptation (an Sprecher) • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Erkennungs-Grammatik unter Nuance: Grammatikdatei(en): Nuance individuell einsetzen Werkzeug: Nuance Grammar Builder zum editieren und kompilieren Notation: in Grammar Specification Language (GSL) – Für kontextfreie Grammatiken – Terminalen und nonterminalen Symbolen – Erweiterungen möglich, wie z.B. Wahrscheinlichkeit des Vorkommens • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Erkennungs-Grammatik unter Nuance: Konstrukt (...) [...] * + Bedeutung Konkatenation Disjunktion Kleen’sche Hülle Positive Hülle ? Option Beispiel (ich möchte) [tee kaffee] *viel milch Beschreibung Phrase ’ich möchte’ ’tee’ oder ’kaffee’ ’milch’, ’viel milch’, ’viel, viel milch’, ... +viel milch ’viel milch’, ’viel, viel milch’, ... kaffee ?bitte ’kaffee’ oder ’kaffee bitte’ Auszug aus den Syntaxkonstrukten der GSL • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Erkennungs-Grammatik unter Nuance: Beispiel bei espresso: .SATZ (ich möchte einen GETRAENK) GETRAENK [kaffee tee milch milchkaffee] Durch Einführung von Regeln wird die Grammatik flexibel • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Erkennungs-Grammatik unter Nuance: Bei zu großen Grammatiken hingegen, – wird die Bearbeitung langsamer – die Erkennungsrate sinkt – es können semantisch ungültige Konstrukte generiert werden möglichst viele denkbare Sätze in die Grammatik, aber nicht alle mögliche (Begrenzung auf Bereiche). • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Prototyp 1: Entwicklung einer Grammatik (Bestellungsvorgang) Beispiele von erkannten Sätze: • • • • Einen Kaffee bitte Mach mir einen Kaffee Für mich einen Kaffee Ich hätte gerne einen Kaffee – sollte robust sein – ausreichend für erste Versuche (Tests über Nuance Server) .INIT [ • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen ( BITTE GETRAENK ) ( GETRAENK BITTE ) ( PERSONALPRONOMEN VERB ?(BITTE ?(GERNE)) GETRAENK ) ] BITTE [ ?(bitte) ] GERNE [ ?(gerne) ] PERSONALPRONOMEN [ ich ] VERB [ ( moechte ) ( haette ) ( will ) ] GETRAENK [ ( einen ?(doppelten) kaffee ) ( eine kanne kaffee ) ( einen ?(doppelten) cappuccino ) ( einen ?(doppelten) latte macchiato ) ( einen ?(doppelten) milchkaffee ) ( einen ?(doppelten) kaffee creme ) ( einen ?(doppelten) milchkaffee ) ( einen ?(doppelten) espresso ) ( milchschaum ) ] Prototyp 2: • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen – Grammatik erweitert – Java-Client programmiert Prototypen 3-4: • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen – Integration von Text-to-speech – Integration von Maschinensteuerung – Dialoge entwickelt: • • • • • Begrüßung Getränke-Repertoire Antwort auf Bestellungen Meldung bei Missverständnis Abbruch der Bestellung Prototypen 3-4: • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen U: Guten Tag, WMF combination S. M: Guten Tag. Was kann ich Ihnen anbieten? U: Was kannst Du denn alles? M: Ich kann Kaffee, Café Crème, (...). Was ist Ihr Wunsch? U: Ich hätte gerne einen Cappuccino. M: Entschuldigung, ich habe eben leider nicht zugehört. U: Einen Cappuccino bitte. M: Gerne, ich mache Ihnen eine Cappuccino. Einen Moment bitte. Prototypen 3-4: • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Weiterer sprachliche Aspekt: Aussprache bei unbekannten Wörtern oder Fremdwörtern: Dictionary-Files in Lautschrift-Notation bei Nuance aufgeschaeumte combination heisses macchiato milchschaum aw u f g * S Oj m t * kombineS*n h aj s E S mAkiAto m i l rej S aw m Prototypen 5 bis Final: • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen – Sprachsynthese und Steuerung in entsprechende Module ausgelagert – Wahrscheinlichkeitswerte in Grammatik – Weitere Dialog-Elemente, Smalltalk Prototypen 5 bis Final: • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Sprachgenerierung und -synthese (Kurzer Einblick) • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen Generierung und Synthese • Routengraphen – Benutzte Software: Mary (andere: SABLE, SAPI) – Herausforderung Aussprache/Intonation (Parsen, Satzmelodie finden, Lexikon) – MaryXML-Struktur auf jede Ebene des Prozesses zugreifbar / erweiterbar • Explizite Ausspracheangaben (Kaffeedomäne) • Beeinflussung der Intonation mit GToBI (Notationssystem) Sprachgenerierung und -synthese (Kurzer Einblick) • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen Generierung und Synthese • Routengraphen <?xml version="1.0" encoding="UTF-8"?> <maryxml xmlns="http://mary.dfki.de/2002/MaryXML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance„ version="0.3" xml:lang="de"> <prosody rate="+10%" pitch="+10%"> Ihr <t sampa="ka-’fee">Kaffee</t> ist fertig! </prosody> </maryxml> Sprachgenerierung und -synthese (Kurzer Einblick) • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen Generierung und Synthese • Routengraphen ... <prosody pitch="+10%" rate="+10%"> <paragraph> <sentence> <phrase> <t g2p_method="lexicon" pos="PPOSAT" sampa="’?i:6" syn_attach="1" syn_phrase="NP"> Ihr </t> <t accent="L+H * " pos="NN" sampa="ka-’fee" syn_attach="0" syn_phrase="NP"> Kaffee </t> <boundary breakindex="3" tone="H-"/> .... Routengraphen für die Ebene 8 (MZH) • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen a) B: Wo finde ich das Büro von BKB? K: Raum 8071. Gehen Sie hier raus, dann gleich nach links. Ganz am Ende sehen Sie eine Tür, das Büro von BKB ist die Tür daneben. b) B: Wie finde ich das Büro von xxx? (xxx ist ein Student, hat aber kein Büro.) K: Entschuldigung, ich habe Sie nicht richtig verstanden. Können Sie es noch einmal versuchen? B: Wie finde ich das Büro von xxx? K: Es tut mir leid, die Person ist nicht in der Datenbank gespeichert. Routengraphen für die Ebene 8 (MZH) • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Routengraphen für die Ebene 8 (MZH) • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen Routengraphen für die Ebene 8 (MZH) • Überblick Software • Bestellungsverwaltungsprozess • Dialogmanagement • Simulation • Sprachverarbeitung Verschiedene Arbeitsphasen • Routengraphen