Digitale Sprachsignalverarbeitung 2007 Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Einführung 3 Sprachkodierung 30 Voice over IP (VoIP) 42 Spracherkennung 61 Spracherzeugung 93 Entwicklung Sprachgesteuerter Applikationen 104 Multimodalität 112 Verfahren zur Verbesserung der Sprachqualität 117 ——————————————————————————————————————————————————— 14.05.16 -2- Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Einführung Was ist Sprache ? Physikalischer Prozess (Schallwellen, Pegel) Bildung von Lauten (Phonetik) Bedeutung von Lauten (Phonologie) Bildung von Wörtern und Sätzen (Grammatik) Bedeutung von Wörtern und Sätzen (Semantik) Aufbaue der Sprache (Linguistik) Sprache im Alltag (Erfahrungen, Gefühle, Alter, Nationalität, Herkunft) ——————————————————————————————————————————————————— 14.05.16 -3- Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Spracherzeugung beim Menschen Bild: Sprachtrakt beim Menschen ——————————————————————————————————————————————————— 14.05.16 -4- Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Bildung von Sprachlauten Anregungssignal: Durch den Überdruck in der Lunge öffnet sich die Stimmritze und es baut sich ein Luftstrom auf. Stimmritze und Stimmbänder erzeugen in Verbindung mit dem Luftstrom ein Anregungsssignal, daß vom nachfolgenden Sprachtrakt geformt wird. Der nachfolgende Rachenraum, Mundraum und der Nasenraum sowie Gaumen, Zunge und Zähne formen dann den entsprechenden Laut Das Anregungssignal kann periodisch sein und dann zur Bildung von stimmhaften Lauten führen oder auch in Form eines Geräuschs zur Anregung von stimmlosen Lauten Was ist der Unterschied zwischen einem Ton, einem Klang und einem Geräusch ? Vokale und Konsonanten: Die Einteilung in Vokale und Konsonanten unterscheidet zwischen Öffungslauten, bei denen der Sprachtrakt durchgehend geöffnet ist und Verschlusslauten bei denen Engstellen im Luftstrom wesentlich zur Lautbildung beitragen. Vokale sind immer stimmhaft, Konsonanten können sowohl stimmhaft ([n] , [m]) als auch stimmlos ([h]) sein. Die Kombination von zwei Vokalen (z.B.: [au]) , eine typisches Merkmal der deutschen Sprache, wird als Diphtong bezeichnet ——————————————————————————————————————————————————— 14.05.16 -5- Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Konsonanten werden entsprechend dem Ort im Sprachtrakt und der Art wie Sie gebildet werden klassifiziert: Bildungsweise Ort der Stimmbildung Explosivlaute Frikative Nasallaute Seitenlaute / Schwinglaute Lippen & Zähne stimmhaft: B W M stimmlos: P F Zunge & Zähne Sh: D S N Sl: T SS Zunge & Vordergaumen Sh: D J, Sch N L, R Sl: T Zunge & Hintergaumen Sh: G CH Ng L, R Sl: K Bildungsweise: Explosivlaute werden durch plötzliches Öffnen des Luftstroms gebildet Frikative (Reibelaute) durch einen weitgehend verschlossenen Sprechtrakt gebildet Nasallaute werden durch einen weitgehend verschlossenen Mundraum bei gleichzeitig geöffnetem Nasenraum gebildet ——————————————————————————————————————————————————— 14.05.16 -6- Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Modell der Spracherzeugung (Generator - Filtermodell) Bild: Blockschaltbild eines Spracherzeugungssystems Eigenschaften des Modells Voraussetzungen Modellfehler / Rückkopplungen ——————————————————————————————————————————————————— 14.05.16 -7- Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Sprachwahrnehmung beim Menschen und Psychoakustik Aufbau des Ohrs Äußeres Ohr 1. Ohrmuschel 2. Gehörgang Mittelohr 3. Trommelfell 4. Hammer 5. Amboß 6. Steigbügel 7. Ohrtrompete Innenohr 8. Schnecke 9. Bogengänge 10. Hör- & Gleichgewichtsnerv ——————————————————————————————————————————————————— 14.05.16 -8- Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Aufgaben der verschiedenen Teile des Ohrs Aussenohr - Schallleitung Gehörgang - Richtungshören - Frequenzgang Mittleres Ohre - Schallweiterleitung vom Trommelfell und die 3 Gehörknöchelchen auf das ovale Fenster - Verstärkung des Drucks ( Flächenverhältnisse & Hebelverhältnisse) (1:22) - Impedanz- Anpassung: (Notwendigkeit ? statt 98% Reflexion nur 40% Reflexion) - Dynamikbereichanpassung - Schutz des Ohrs (Dämpfung des Drucks) bei sehr hohen Amplituden (Latenzzeit ca 35 -150msec) Risken schneller Schalldrucksteigerungen Innenohr (ist mit Flüssigkeit gefüllt) - Umsetzung in Nervenimpulse Amplitudenmaxima in Abhängigkeit von der Frequenz Außerdem Knochenleitung ——————————————————————————————————————————————————— 14.05.16 -9- Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Übertragungsfunktion Freifeldübertragungsfunktion bei frontaler Beschallung Abschattung des Schalls durch den Kopf Frequenzabhängigkeit Übertragungsfunktion des äußeren (Bp = 3,4kHz) , mittleren (TP = 1,5kHZ) und inneren Ohres (Bp) ——————————————————————————————————————————————————— 14.05.16 - 10 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— "Psychoakustik" Wahrnehmung von Lautstärke (Tonbeispiel DruckgleichLautstärkeempfinden.WAV) L = Schalldruckpegel Kurven gleicher Lautstärke (phon) Lautheit 10 phon == Faktor 2 ——————————————————————————————————————————————————— 14.05.16 - 11 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Schwerhörigkeit = Altersbedingte Veränderung der und Hörschwelle Schalldruck = L = 20 log10 (px / p0) p0 = 20μP (100 pascal = 1 mbar = 100N/m2) Bei 1kHz entspricht die Skalierung der Lautstärke der Skalierung des Schalldrucks Welche Lautstärkeänderung ist wahrnehmbar ? siehe Bild rechts ——————————————————————————————————————————————————— 14.05.16 - 12 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Wahrnehmung der Tonhöhe Die Tonhöhe ist im Gegensatz zur Signalfrequenz keine objektiv messbare Grösse sondern die subjektive empfundene Tonhöhe. Durch Versuchreihen mit Testpersonen wurde der Zusammenhang zwischen Signalfrequenz und Tonhöhe experimentell festgestellt. Die subjektive Tonhöhe wird mit der Einhet Mel versehen. 1000 Hz entsprechen 1000 Mel 500 Mel entsprechen subjektiv der halben Tonhöhe aber der Signalfrequenz 400 Hz Tonbeispiel: LinUndMelSkala.WAV wahrnehmbare Tonhöhenänderung bis 500 Hz 1,8Hz ab 500 Hz 3,5 ‰ ——————————————————————————————————————————————————— 14.05.16 - 13 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Maskierungseffekt Maskierung von "Nutzschall" durch "Störschall" Breitbandiges Rauschen ——————————————————————————————————————————————————— 14.05.16 - 14 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Schmalbandiges Rauschen Mask_BP1.wav ——————————————————————————————————————————————————— 14.05.16 - 15 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Nachton: (Tonbeispiel) Breitbandrauschen mit Frequenzlücke verursacht einen Nachton Adaption des Gehörsinns Anpassung an verschiedene Schallpegel Ausblendung von Dauertönen Richtungshören Identifikation der Schallrichtung in horizontaler Ebene Laufzeitunterchiede Pegelunterschiede Klangfarbenunterschiede Schwebung und Rauhigkeit Tonbeispiel: Schwebung_xxx Virtuelle Tonhöhe (Residuum) Wahrnehmung der Grundfrequenz Tonbeispiel: F_rang_intelig.WAV Sprachverständlichkeit Phasenunempfindlichkeit ——————————————————————————————————————————————————— 14.05.16 - 16 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Übung: Richtungsauflösung ? Berechnung der Ortungsgenauigkeit des Ohrs in der horizontalen Richtung Gegeben: maximal zu erfassende Laufzeitunterschied = 0,03 msec ds = v * t = sin(alfa) * d mit d = 0,20 m v = 333m/sek t = 0,03 e-3 sek -> alfa = 2,86 Grad ——————————————————————————————————————————————————— 14.05.16 - 17 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Lautelemente der Sprache Phone Phone beschreiben akustisch unterschiedliche Lautäußerungen Unterscheidung der Laute: Betonung / Zeitdauer / Tonhöhe Zeitdauer: [a] in Ampel oder matt Betonung [e] in Pegel Ausschnitt aus der Lautschrift: [a] [a:] [e] [e:] helles a langes a kurzes e langes e ab, Alter, warm, Bilanz, Wanne Abend, Basis Endung, fett Planet, edel, eben [ə] kurzes unbetontes e Atem, gering, nobel ——————————————————————————————————————————————————— 14.05.16 - 18 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Phoneme: Phoneme fassen bedeutungsgleiche Phone zu Gruppen zusammen Ca 50 Phoneme in der deutschen Sprache Diphon Buchstabe: e Lautschrift Phoneme [e] [e:] [ə] /e/ Eigenschaften fließender Sprache Koartikulation Sprachmelodie / Prosodie Betonung, Grundfrequenz, Geschwindigkeit, Lautstärke Die Sprachbedeutung ist Betonungsabhängig Gehen Sie nach Hause ? / Gehen Sie nach Hause ! Variation der Sprechgeschwindigkeit ist nichtlinear Halt ! , Haaalt !! ——————————————————————————————————————————————————— 14.05.16 - 19 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Grundlagen der technischen Sprachsignalverarbeitung Anwendungen der technischen Sprachsignalverarbeitung Übertragung von Sprache in Echtzeit, (Telefon) Freie Sprachkommunikation (Freisprechen) Speicherung und Wiedergabe von Sprache (Anrufbeantworter, Archivierung) Spracherkennung von: Kommandos (Sprachwahl beim Telefon, Sprachsteuerung im Auto) Schlüsselwörtern innerhalb fließender Sprache Fließender Sprache (email dictation, Textverarbeitung) Für die Mensch Maschine Kommunikation Sprechererkennung (Zugangsberechtigung) Spracherzeugung (Vorlesen von geschriebener Sprache) ——————————————————————————————————————————————————— 14.05.16 - 20 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Welche Anwendungen gibt es oder wird es zukünftig geben ? Aufzeichnung von Sprachnachrichten und Umsetzung in Dokumente Sprachausgabe von Nachrichten Auskunftsdienste Reine Informationsdienste (Sportnachrichten) Interaktive Auskunfts- und Verkaufsdienstleistungen (Fahrscheinbestellung, Flugbuchung, Ticketverkauf) Automatische E-Commerce Dienste Interaktion mit technischen Geräten (Auto, PC, Handy, Organizer, Fernseher, Stereoanlage, Waschmaschine, Werkzeugmaschinen, Warenerfassung & steuerung) Diktatsysteme Unified messaging ——————————————————————————————————————————————————— 14.05.16 - 21 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Grundlagen digitaler Systeme Linearität Yges = Y1 + Y2 + k* Y3 Kausalität Kein Ergebniswert kann von Eingangsdaten aus der Zukunft abhängen Vertauschungsgesetz Y = Y1 + Y2 = Y2 + Y1 Die Reihenfolge von Verarbeitungsblöcken kann vertauscht werden Zeitinvarianz Das Übertragungsverhalten ist meistens zeitlich konstant Das Ausgangssignal ist uabhängig vom Zeitpunkt zu dem das Eingangssignal anliegt, sondern nur von dem Verlauf des Eingangssignals und dem Übertragungsverhalten abhängig ——————————————————————————————————————————————————— 14.05.16 - 22 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Signaldarstellung im Zeit und Frequenzbereich Systemantwort eines linearen System a) im Zeitbereich (Faltung) y (t ) x( ht d y (n ) x(k h n k ´ b) Im Frequenzbereich Beschreibung im Frequenzbereich ? Y( f ) H( f ) X( f ) ——————————————————————————————————————————————————— 14.05.16 - 23 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Zeitbereich Frequenzbereich Faltung Reales Signal Muliplikation Konjugiert komplexes Spektrum H(f) = H(f)* Symmetrie in der Amplitude Muliplikation Faltung Digitale Filter N y ( n ) bi x n i ´i 0 ——————————————————————————————————————————————————— 14.05.16 - 24 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Signaleigenschaften der Sprachsignale Dynamik des Sprachsignals Formanten Vokale zeichnen sich durch 5 und mehr Maxima im Frequenzspektrum aus, die sogenannten Formanten, die die spektrale Hüllkurve des Sprachsignals formen Anhand der Lage der Formanten im Frequenzspektrum können die Vokale voneinander unterschieden werden. Formant 1 Formant 2 /a/ 700 -1200 Hz 1000-1500 Hz /e/ 400 - 600 Hz 1800-2600 Hz /i/ 200 - 400 Hz 2000 - 3500 Hz /o/ 400 - 700 Hz 600 - 1000 Hz /u/ 200 - 400 Hz 600 - 1000 Hz ——————————————————————————————————————————————————— 14.05.16 - 25 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Grundfrequenz ——————————————————————————————————————————————————— 14.05.16 - 26 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Darstellung im Zeit- und Frequenzbereich Beispiel: "Phonetican" Darstellung des Zeitsignals: f o n ə t i ʃ ə n ——————————————————————————————————————————————————— 14.05.16 - 27 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Darstellung des Kurzzeitspektrums ——————————————————————————————————————————————————— 14.05.16 - 28 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Spektrogramm f o n ə t i ʃ ə n ——————————————————————————————————————————————————— 14.05.16 - 29 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Sprachkodierung = Sprachkoder + Sprachdecoder = Sprach Codec (englisch) Entwicklung der Sprachkodierung Anpassung der Datenrate an die im Übertragungskanal verfügbare Datenrate Datenrate des Übertragungskanals: 8 bit * 8 kHz = 64 kbit /sek Datenrate des:Sprachsignals: 16 bit * 8kHz = 128 kbit /sek BP Filter ADWandler Coder Übertragungskanal Sendeseite Bei der Datenrate des Sprachsignals ist wichtig zu beachten welches Frequenzsprektrum übertragen werden soll. Heute wird mehr als 99 % des Telefonverkehrs mit“schmalbandigen” Sprachkanal abgewickelt! Dies bedeutet das der Bandpassfilter (BP Filter) das Sprachwisgnal auf Anteile zwischen ca 300 Hz und 3,5 kHz begrenzt. Die andere Signalanteile werden unterdrück bevor Sie zum AD-Wandler kommen. Ein breitbandiges Sprachspektrum enthält mindestens Anteile von 300 bis 7 kHz. ——————————————————————————————————————————————————— 14.05.16 - 30 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Übertragenes Frequenzsprektrum Abtastfrequenz des AD Wandlers Datenrate des Sprachsignals “Schmalbandige” Sprache 300 – 3,5 kHz 8 kHz 64 kbit /sek - 128 kbit/sek “Breitbandige” Sprache 300 – 7 kHz 16 kHz 128 kbit /sek - 256 kbit/sek Effiziente Speicherung von Sprachsignalen Bedeutung und Realisierung der Sprachkodierung Berechnung der minimal notwendigen Datenrate Die minimal notwendige Datenrate ergibt sich aus der Forderung: Alle wichtigen Informationen im Sprachsignal sollen übertragen werden Berechnung des Informationsgehalts I ( Pi log 2 ( Pi )) i 1.. Anzahl der Symbole Pi = Wahrscheinlichkeit für das Symbol i mit der Tabelle der Phonemwahrscheinlichkeiten ergibt sich ~ 5 Bit / Phonem und damit Die Minimale Datenrate = 50 Bit /sek ——————————————————————————————————————————————————— 14.05.16 - 31 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— (Ohne Berücksichtigung der Korrelation zwischen Phonemen) Berechnung der maximal notwendigen Datenrate Die maximal notwendige Datenrate ergibt sich aus der Forderung: Die Datenrate soll so gewählt werden, daß nach dem Decodieren die Decodierfehler beliebig minmiert werden kann. Eine Perfekte Rekonstruktions des Originalsignals soll möglich sein. Mit W = Bandbreite des Sprachsignals 3,5kHz SNR = Signal-Geräuschverhältnis im Übertragungskanal = 1000 (= 30 dB) Lässt sich die Datenrate berechnen: C W log 2 (1 SNR) Maximale Datenrate = 35kbit/sek ——————————————————————————————————————————————————— 14.05.16 - 32 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Eigenschaften von Sprachcodiersystemen Datenrate Feste Datenrate + Einfache Realisierung in Telekommunikationsnetzen + garantierter QoS (Quality of Service) - keine optimale Datenreduktion variable Datenrate + optimale Datenreduktion - höherer Realisierungsaufwand im Netz Typische Datenraten Festnetz: 16kb/sek ... 64kBit/sek Mobilfunk: 3.3-13 kBit /Sek Sprachspeicherung: 0.8 - 4kbit /Sek ——————————————————————————————————————————————————— 14.05.16 - 33 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Sprachqualität Subjektive Messung der Sprachqualität Bisher erst Ansätze zur objektiven Messung der Sprachqualität Weit verbreitet sind subjektive Messungen mit dem MOS -Test MOS = Mean opinion score Hörtest mit 20 - 60 untrainierten Hörern Bewertung von 1-5 1 = unakzeptabel bad 2 = ausreichend poor 3 = befriedigend fair 4 = gut toll 5 = exzellent excellent ——————————————————————————————————————————————————— 14.05.16 - 34 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Objektive Messung der Sprachqualität Verhältnis des Nutzsignals zum Störsignal Signal -Geräusch Verhältnis = Signal Noise Ratio = SNR S Nutzpegel SNR 10 log 10 ( ) 20 log 10 ( ) N Störpegel Mit: S = Nutzleistung N = Störleistung Pegelverhältnis SNR 1 0 dB 10 20 dB 100 40 dB 1000 60 dB Tabelle: Pegelverhältnisse im Absolutwert und in dB ——————————————————————————————————————————————————— 14.05.16 - 35 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Komplexität und Speicheraufwand (Complexity and Memory Requirements) Angabe in wMOPS (weighted Mega Operations / second) RAM static and scratch ROM RAM / ROM in words (2 bytes) Verzögerung (Delay) Die Verzögerung beeinträchtigt die subjektive Qualität der Verbindung Ursachen der Verzögerung = Sprach-Coder , Kanal -Coder, Übertragung, Kanal -Decoder, Sprach -Decoder ——————————————————————————————————————————————————— 14.05.16 - 36 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Grundprinzipien der Sprachkodierung Wellenformkodierung Kodierung des Signalverlaufs Modellbasierte Kodierung Berechnung von Modellparametern für dein Modell zur Erzeugung von Sprache Hybride Kodierung Mischung aus Modellbasierter und Wellenformkodierung Wellenformkodierung Modellbasierte Kodierung Geringe Komplexität Große Komplexität Kleine Verzögerung Große Verzögerung Geringe Datenreduktion Große Datenreduktion Tabelle: Vergleich der Kodierungsarten ——————————————————————————————————————————————————— 14.05.16 - 37 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Wellenformkodierung 1. Pulse Code Modulation (= PCM) S(t) A/D Wandlung SCod(t) Übertragung D/A Wandlung S1(t) Amplitude SNR S1Cod(n T) Sout(t) S1 (t ) Signal Geräusch S1 (t ) S1Cod (t ) S2(t) S2Cod2(n T) t ——————————————————————————————————————————————————— 14.05.16 - 38 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Andere Verfahren der Wellenformkodierung Delta Puls Code Modulation Statt des Signalwerts wird nur die Differenz zum vorhergehenden Wert kodiert bessere Auflösung bei gleicher Bitrate höhere Qualität Adaptive Delta Puls Code Modulation (ADPCM) Delta Modulation (DM) ——————————————————————————————————————————————————— 14.05.16 - 39 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Übersicht schmalbandiger Sprachkodiersysteme Kodectyp Eigenschaften Wellen- hybrid Modell Datenrate Delay Komplexität Qualität Kbit/sek msek Mips form Name PCM X ADPCM X CVSD X Anwendung 64 16, 32 16-48 klein klein klein < 1 wMops 1 wMops 1 wMops Toll Toll Toll ISDN (G711) DECT Bluetooth FR EFR AMR X X X 13 12,2 12,2 20 25 25 4 wMops 17 wMops 17 wMops < Toll Toll Toll GSM Mobilfunk GSM Mobilfunk UMTS Mobilfunk G.723.1 X 5,3 / 6 30 20 wMops < Toll Voice over IP 2 100 20 wMops Poor - fair Militär FS1015 X ——————————————————————————————————————————————————— 14.05.16 - 40 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Ausblick Verbesserung der Verfahren für Voice Over IP Kombination von Sprachkodierung und Musikkodierung Bessere Verfahren zur Sprachspeicherung (sehr niedrige Bitraten) ——————————————————————————————————————————————————— 14.05.16 - 41 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Voice over IP (VoIP) Motivation Anforderungen Systemüberblick Protokolle ——————————————————————————————————————————————————— 14.05.16 - 42 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Motivation Physikalische Konvergenz der Netze (Ethernet -Koaxleitung & ISDN 2 / 4 Draht Leitung) IP als globales Basis Protokoll (SIP & IMS auch für den Mobilfunk) Konvergenz der Anwendungen (Telefonie aus Outlook, UMS, usw.) Höhere Effizienz Geringere Kosten Anforderungen Anforderung Realisierung im bestehenden Telefonnetz Hohe Sprachqualität Geschaltete permanente Verbindung mit garantierter Datenrate und sehr geringer Fehlerrate sehr gute Qualität bis 100 msek Geringe Verzögerung Sehr hohe Verfügbarkeit (derzeit im Telefonnetz 99.997 % ergibt maximal 16 min Ausfallzeit / Jahr Sicherheit (Abhörsicher) s. o. Interoperabilität mit bestehendem Netz Third party call ——————————————————————————————————————————————————— 14.05.16 - 43 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Anforderungen an Leistungsmerkmale Anrufweiterleitung, Anrufumleitung, Rufnummernübertragung Anklopfen, Rückruf, usw. Systemüberblick Für Sprachkommunikation sind zwei Ebenen erforderlich, die Medienebene und die Signalisierungsebene. Die Signalisierung kann "inband" oder "outband" sein Die Inband Signalisierung wird im Teilnehmeranschlussbereich verwendet, während innerhalb des Telekommunikationsnetzwerkes üblicherweise eine outband -Signalisierung zum Einsatz kommt, d.h.: die Signalisierungsmeldungen werden nicht im Sprachkanal sondern in einem separaten Kanal übertragen. ——————————————————————————————————————————————————— 14.05.16 - 44 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Systemübersicht PSTN VoIP Location Service LDAP, .. Registrar LDAP, .. SIP Proxy MGC SIP ISUP/SIGTRAN SIP SIP MGCP/H248 SGW ISUP/SS7 PSTN Switch RTP SIP MGW Voice RTP ISUP = ISDN Signaling User Part, MGCP = Media Gateway Control protocol, MGW = Media Gateway, MGC——————————————————————————————————————————————————— = Media Gateway Controller, PSTN = Public Switched Telephone Network, RTP = Real-time Transport Protocol, SS7 = Signalling Protocol Nr. 7, SIGTRAN = Signalling Transport, SIP = Session Initiation 14.05.16 - 45 Bernhard Noé Protocol, SGW = Signalling Gateway Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Protokolle Die folgende Liste gibt eine (unvollständige) Übersicht der in der VoIP Welt verwendeten Protokolle mit einer Kurzbeschreibung ihrer Verwendung. SIP: für den Aufbau, die Modifizierung und den Abbau von Multimediasitzungen http://www.tech-invite.com bietet eine sehr gute Einführung in SIP (englisch) http://www.voipango.de bietet eine sehr gute Einführung in SIP (deutsch) SDP: für die Beschreibung der Medienformate (Codec) der Multimediadaten RTP: für den Ende zu Ende Transport von Multimedia Daten DNS: für die Abbildung von Domain Namen auf IP Addressen ENUM: für die Abbildung on Telefonnummern auf URIs MGCP/H248: für die Steuerung von Media Gateways SIGTRAN: für den Transport von ISDN Signalisierungsdaten über IP ... ——————————————————————————————————————————————————— 14.05.16 - 46 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— SIP Session Initiation Protokoll Das SIP Protokoll ist ein Standard der IETF, der zum Aufbau von Sitzungen ("Sessions") zwischen Multimedia Endgeräten über das Internet (IP) verwendet wird. Durch die Übernahme von SIP in andere Standardisierungsgremien (3GPP, ETSI) wird es sich wohl mittelfristig als Protokoll zum Aufbau von Kommunikationsverbindungen in der Telekommunikation durchsetzen. Zu SIP gibt es mittlerweile viele IETF Standards, die verschiedene Aspekte der Kommunikation abdecken, aber die Basisdefinition ist in der RFC 3261 beschrieben. SIP hat folgende Eigenschaften: SIP unterstützt den Aufbau von Multimediasitzungen SIP unterstützt "supplementary Services" Rufumleitung, Weiterleitung, 3rd Party Call SIP unterstützt Presence SIP unterstützt Konferenzen SIP unterstützt die Authentifizierung ——————————————————————————————————————————————————— 14.05.16 - 47 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Formaler Aufbau von SIP Sip ähnelt / benutzt erprobte Eigenschaften anderer Protokolle Ähnlichkeiten zwischen SIP und HTTP: Transaktionsorientiertes Client -Server Protokoll (request-response) Adressierung über URLs Syntax der Response Codes ähnlich zu http Ähnlichkeiten zwischen SIP und SMTP: Textbasiert Header Weiterhin bietet SIP eine in sich gesicherte Übertragung (kein TCP erforderlich), die gegen Übertragungsfehler resistent ist. Um eine Verbindung aufzubauen und zu betreiben reicht aber SIP nicht aus. Es arbeitet hier mit zwei anderen Protokollen zusammen dem Realtime Transport Protocol (RTP) und dem Session Description Protocol (SDP). RTP wird zur Übertragung der Multimediadaten benutzt (Media-Layer) und SDP zur Übertragung der Geräteeigenschaften. ——————————————————————————————————————————————————— 14.05.16 - 48 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Darüber hinaus wird das DNS (Domain Name System) benutzt um zu einer bekannten Adresse eine IP Nummer zu erhalten. Beispiele für die Anwendung des DNS www.example.net wird abgebildet auf: 192.0.34.16 [email protected] wird abgebildet auf: [email protected] SIP Architektur (mit Basiselementen) Registrar SIP SIP UA 1 Proxy SIP LDAP, .. Location Service RTP SIP UA 2 ——————————————————————————————————————————————————— 14.05.16 - 49 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Basiselemente der SIP Architektur Endgerät (Softphone) = SIP User Agent (SIP UA). In der SIP Terminologie wird noch zwischen SIP User Agent Client (Anrufer) und SIP User Agent Server (Angerufener) unterschieden. Registrar = für die Registrierung und Authentisieriung des SIP UA durch Proxy = für die Vermittlung der SIP Nachrichten Es gibt mehrere Varianten des Proxies A) Redirect Server: Dies ist die einfachste Form des Proxies. Hier wird ein ankommendes INVITE mit einer Umleitung zur Zieladressse (oder dem nächsten proxy) beantwortet,d.h. der Redirect Server ist am weiteren Verlauf des Dialogs nicht mehr beteiligt. B) Stateless Proxy: der Proxy leitet SIP Nachrichten weiter, er erzeugt keinen neuen Dialog Vorteile: schnell, hoch skalierbar Nachteile: keine Transkodierung, weniger Sicherheit C) Stateful Proxy: der Proxy terminiert den Dialog des Anrufers und baut zum Angerufenen einen neuen Dialog auf. (Der Teilnehmer merkt nicht ob der SIP Call mit einem stateful oder stateless Proxy abgewickelt wird. ) Vorteile: Transkodierung möglich, Call forking möglich, Abschirmen von Addressen (Sicherheit) Nachteile: aufwändiger (mehr Memory, mehr Rechenleistung) kleinerer Durchsatz ——————————————————————————————————————————————————— 14.05.16 - 50 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Transaktionen in SIP A B Request Transaktions-Status erzeugt Transaktions-Status zerstört Initiale Anfrage Warten auf eine "finael response" Eine Transaktion kann 0 oder mehr "provisional responses" enthalten Transaktionen werden über den Cseq Header identifiziert Provisonal responses Final response ——————————————————————————————————————————————————— 14.05.16 - 51 - Bernhard Noé Digitale Sprachsignalverarbeitung Der Dialog beschreibt eine Mediensitzung —————————————————————————————————————————————————— Der Dialog wird durch die CallID den remote tag und den local tag eineindeutig identifiziert Dialog in SIP A Prepare Media session Early Dialog Establish Media session Dialog B Invite 180 Ringing 200 ok Ack Create Media session Dialog Media session Terminate Media session Destroy Dialog Terminate Media session Bye OK Destroy Dialog ——————————————————————————————————————————————————— 14.05.16 - 52 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Basis Methoden von SIP (RFC 3261) INVITE, ACK and CANCEL für den Aufbau von Verbindungen BYE zum Abbau einer Verbindungen REGISTER Registrierung eines Endgeräts OPTIONS zum Abfragen von Servern über Ihre Fähigkeiten INVITE Aufbau der Verbindung: Angabe der Sender und Empfangsadresse ACK Finale Bestätigung des INVITE CANCEL Abbruch eines Invite REGISTER Registrierung eines Endgeräts (zB PC), damit dessen Adresse bekannt ist und es erreichbar ist. Weitere Methoden von SIP REFER (RFC 3515) für weiterverbinden SUBSCRIBE, NOTIFY und PUBLISH für "Call events" MESSAGE für Messaging Usw. ——————————————————————————————————————————————————— 14.05.16 - 53 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Sequenzdiagramm: Authentisierung (Digest Authentication) des Teilnehmers beim SIP Registrar (RFC 2617) A Registrar INV sip:[email protected] Ablauf: 1. SIP UA sendet Register 2. Registrar weist zurück und sendet "challenge" 3. SIP UA sendet Register mit "Credentials" 4. Bestätigiung / Zurückweisung seitens des Registrars 401 Unauthorized ACK INV sip:[email protected] OK ACK WWW-Authenticate: Digest realm=“BA”, domain=“sip: ba.com ”, nonce=“qf73…”, stale=FALSE, algorithm=MD5 Authorization: Digest username=“jo”, realm=“BA”, nonce=“qf73…”, response=“50c6a6071bc8...” Der Sicherheistbereich wird durch "realm" und die Request URI definiert nonce: Zufallswert Die Response enthält mit MD5 verschlüsselt: username, password, nonce, und die URI ——————————————————————————————————————————————————— wegen der Unsicherheit von MD5 wierden in IMS andere Algorithmen verwendet 14.05.16 - 54 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Sequenzdiagramm: Rufaufbau zwischen einem Softphone und einem Hardphone,die in zwei Domänen angemeldet sind (Registrierung weggelassen) (aus RFC 3261) Alice's . . atlanta.com. . . biloxi.com. . . . Bob's softphone proxy proxy SIP Phone | | | | | INVITE | | | |--------------->| INVITE | | | 100 Trying |--------------->| INVITE | |<---------------| 100 Trying |--------------->| | |<-------------- | 180 Ringing | | | 180 Ringing |<---------------| | 180 Ringing |<---------------| 200 OK | |<---------------| 200 OK |<---------------| | 200 OK |<---------------| | |<---------------| | | | ACK | |------------------------------------------------->| | Media Session | |<================================================>| | BYE | |<-------------------------------------------------| | 200 OK | |------------------------------------------------->| ——————————————————————————————————————————————————— 14.05.16 - 55 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Aushandlung der Medienformate mit dem Session Description Protocol (RFC 2327) A Proxy B INV Caps(A) INV Caps(A) OK Caps(A) Caps(B) OK Caps(A) Caps(B) Caps(B) MPEG4 ACK ACK G711 H264 G729 Call Caps(A) Der Anrufer sendet die SDP (Session Beschreibung) (="OFFER") Der Angerufene vergleicht diese mit den lokalen Fähigkeiten und CAPS(A) CAPS(B) = G711 & H264 sendet als Ergebnis die Schnittmenge der Fähigkeiten Während der Sitzung ist ein UPDATE möglich Eine Antwort auf die OFFER muss abgewartet werden bevor eine Anmerkung: Caps = Capabilities neue Offer gesendet werden darf ——————————————————————————————————————————————————— Jeder darf eine Offer senden 14.05.16 - 56 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Aushandlung der Medienformate ...2 Auch während des Rufs können Medienformate gewechselt werden z.B.: von Audio nach Audo-Video z.B.: Verbindung wechseln (IP- Port) Einfach über erneutes INVITE mit neuer SDP SDP unterstützt unidirectionale Kommunikation Bsp.: Webcam mit SIP UA Webcam sendet nur / Anrufer empfängt nur Anzeige durch Attribute a=sendonly, a=recvonly in der SDP ——————————————————————————————————————————————————— 14.05.16 - 57 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Enum (Zitat aus http://de.wikipedia.org/wiki/Telephone_Number_Mapping) steht für "tElephone NUmber Mapping" und ist eine Anwendung des DNS zur Übersetzung von Telefonnummern in Intenet -Adressen. ENUM wird im RFC 3761 definiert. Der Bedarf für eine solche Lösung erwuchs aus der Verfügbarkeit von VoIP-Diensten und dem Bedarf des Anwenders, sowohl im Internet als auch im klassischen Telefonnetz unter der selben Nummer erreichbar zu sein. Beispiel +44 1 2345 6789 wird abgebildet auf: 9.8.7.6.5.4.3.2.1.4.4.e164.arpa ——————————————————————————————————————————————————— 14.05.16 - 58 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— RTP Real Time Transport Protocol (RTP) RTP Header: Byte 1 Byte 2 Byte 3 Byte 4 01234567 01234567 01234567 01234567 V / P / X / CC / PT Sequence Number Timestamp Synchronisation Source (SSRC) identifier Contributing Source (CRSC) Identifiers (0..15 Mal) Inhalt Version Padding Extension CRC Count Payload TYpe Abkürzung V P X CC PT Anzahl Bits 2 1 1 4 7 ——————————————————————————————————————————————————— 14.05.16 - 59 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Timestamp: Abtastzeitpunkt des ersten Datenbytes im RTP Packet Zur Synchronisation und zum jitter Ausgleich Abtastrate wird im profile statisch definiert Bei VAD Sequence number zählt weiter / Timestamp springt Audio + Video transmission two separate RTP sessions Mixer: Änderung des Dateiformats Translator: Translator Firewall Translator ——————————————————————————————————————————————————— 14.05.16 - 60 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Spracherkennung: Testen Sie selbst: 01805 /448244 (12 Cents/Minute). Aufbau eines Spracherkennungssystems Sprachsignal Klassifizierung Merkmalsextraktion (Vorverarbeitung) Akustische Modelle Text Sprachmodell Aussprachelexikon ——————————————————————————————————————————————————— 14.05.16 - 61 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Merkmalsextraktion (Vorverarbeitung) Zwei Ziele werden verfolgt, die Reduktion der Datenrate und die Umwandlung in ca 13-20 Merkmale (Signale) die Bedeutungstragende Eigenschaften des Sprachsignals erhalten (z.B.: Lautstärkeverlauf, Frequenzgang) und unbedeutende Eigenschaften (z.B.:Daten die nur das Klangbild prägen) löschen. Die kleinere Datenrate verringert den Rechenaufwand für die Klassifizierung erheblich. Dies ist wegen der ohnehin sehr hohen Anforderungen eines Spracherkenners an die Rechnerhardware von großer praktischer Bedeutung. Transformation in den Spektralbereich Entfernen des Gleichspannungsanteils (Offsetkompensation) Frequenzgang anpassen (Preemphase) Fensterbildung und Fouriertransformation (FFT) Transformation in den Mel Frequenzbereich Berechnung der Cepstralkoeffizienten Logarithmierung der Amplituden Rücktransformation in den Zeitbereich (DCT) Normalisierung der Daten ——————————————————————————————————————————————————— 14.05.16 - 62 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Klassifizierung Die Klassifizierung ordnet die Eingangsdaten einer Klasse zu. Klassen können vom Entwickler frei definiert werden. Es können im Fall des Spracherkenners Phoneme, Worte oder ganze Sätze sein. Da die notwendige Rechenleistung mit der Anzahl der Klassen steigt, muß diese begrenzt werden. "Sätze" oder "Einzelwörter" als Klasse kommen daher für allgemeine Anwendungen nicht in Frage. Sie werden in Sonderfällen eingesetzt wie z.B. bei: Namenswahl im Handy (ca 30 Namen) Sprechenden Puppen (ca 20-30 Sätze) Anwendungen mit Command und Control (100 Worte) Wählt man aber die Phoneme einer Sprache als Klasse (ca 50-80 Klassen) dann lassen sich auch völlig freie Wortschätze für Diktatsysteme mit einigen 100000 Wörtern realisieren. Die Klassifizierung besteht aus zwei Schritten, dem "Training" und dem "Test". Das Traininhg wird während der Entwicklung des Spracherkenners durchgeführt, indem anhand einer umfangreichen Datensammlung dem Spracherkenner antrainiert ("mitgeteilt") wird welche Merkmale zu welchen Klasse gehören. Mit "Test" wird der reale Einsatzfall bezeichnet bei dem dem Spracherkenner unbekannte Daten zugeführt werden, die dann klassifieziert werden müssen. ——————————————————————————————————————————————————— 14.05.16 - 63 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Beispiel Training: Klasse: f f a a l l l s s s Eingangsdaten Merkmal 1: 2 3 4 4 8 8 8 9 5 6 Eingangsdaten Merkmal 2: 7 6 4 3 8 8 7 7 Eingangsdaten t1 t2 ... 9 10 Zeit t9 t10 Test: Klasse: ? ? ? ? ? ? ? ? ? ? Ergebnisse (Ausgangsdaten) Merkmal 1: 2 3 4 4 8 8 8 9 5 6 Eingangsdaten Merkmal 2: 7 6 4 3 8 8 7 7 Eingangsdaten 9 10 Zeit ——————————————————————————————————————————————————— 14.05.16 - 64 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— t1 t2 ... t9 t10 s M2 9 8 l f 7 6 5 4 a 3 a 2 1 0 1 2 3 4 5 6 7 8 9 M1 Klassifizierungsverfahren: Abstandsklassifizierung Bayes Klassifizierung u.v.m. ——————————————————————————————————————————————————— 14.05.16 - 65 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Akustisches Modell / Klassifizierung in Phoneme Die Klassifizierung in Spracherkennern basiert heute überwiegend auf dem Hidden Markov Model (HMM). Es benutzt statistische Modelle (das Bayes Modell) um die Phoneme zu modellieren. Die Berechnung der Klassen aus den Merkmalsdaten liefert dann auch keine exakte einindeutige Klassifizierung sonden immer einen Statz von Ergebnissen mit einem Wahrscheinlichkeitswert pro Ergebnis. Bild: Hidden Markov Model 1) b m e /th/ b m e /e/ 1) Hidden (Verborgen) heißt das Modell, weil das Ergebnis der Klassifizierung (die Phoneme) in den Merkmalsdaten verborgen sind. Der Mathematiker Markov erdachte das Modell in zwanziger Jahren des letzten Jahrhunderts ——————————————————————————————————————————————————— 14.05.16 - 66 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Beispielergebnisse des Spracherkenners: Zeitpunkt t3 (siehe Bild oben) Phonem Wahrscheinlichkeit "a" "o" 0,70 0,16 oder Zeitpunkt t1 "f" 0,35 "s" 0,16 "c" 0,05 ——————————————————————————————————————————————————— 14.05.16 - 67 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Sind wir jetzt am Ziel ? Phonem- Klassifizierung, Phoneme aneinander reihen, Wörter bilden, fertig ?? Nein ! Die Genauigkeit eines solchen Verfahrens wäre sehr gering, weil die Klassen bei Sprache so "unscharf" sind, dass Klassifizierungsfehler nicht die Ausnahme sondern eher die Regel sind. Woher kommt die grosse Unschärfe ? Die Spracherzeugung beim Menschen wird durch sehr viele Parameter beeinflußt, dies sind Faktoren aus Lebensumfeld und Lebenslauf wie der Bildungsstand, die Summe der Erfahrungen, das Alter, das Geschlecht, die Heimat aber auch rein körperliche Faktoren wie Form aund Aufbau des Sprachtrakts. Daneben spielen Umgebungsbedingungen wie Hintergrundgeräusche, und die Technik wie z.B. die Qualität des Mikrofons und der Sprachsignalverarbeitung eine Rolle. Schließlich wirken sich auch soziale Faktoren wie Emotionen, Gesprächssituation und Sprechgeschwindigkeit aus. Alle diese Faktoren beeinflussen die Qualität der Merkmale und damit die der Spracherkennung. Interessant ist daher die Frage Warum der Mensch eigentlich Sprache so gut versteht. Beobachtet man sich einmal selbst beim Gespräch wird man feststellen dass Kommunikation auf mehr Ebenen abläuft als nur der rein sprachlichen! Die Gebärdensprache, die Mimik, und die Gemeinsamkeiten mit dem Gesprächspartner bewirken, dass wir Sprache im großen Zusammenhang verstehen, dass vieles was zum Verständnis gebraucht wird gar nicht explizit gesagt werden muss sondern beim Zuhören von uns selbst ergänzt wird. ——————————————————————————————————————————————————— 14.05.16 - 68 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Da dem Spracherkenner menschliche Intelligenz zur Verfügung steht, ist bei der Anwendung immer zu bedenken dass es sich heute noch immer nicht um Sprachverstehen sondern um Umwandlung von Sprache in Text handelt. Was nun ? Die Verbesserung der Spracherkenner führt über zusätzliche Modelle, die typische Eigenschaften der Sprache berücksichtigen: Ansatz: Sowohl bei Phonemfolgen als auch bei Wortfolgen treten verschiedene Kombinationen häufiger auf als andere. Einige Beispiele: Das Phonem "e" ist das häufigste Phonem "x" dagegen sehr selten Die Phonemfolge "e" "r" ist sicher häufiger als die Folge "l" "r" (Beispielworte: er, der) Die Wortfolge "Ich gehe heute" ist sicher häufiger als die Wortfolge "der deutsche Außenhandel" Die Häufigkeit der Wortfolgen (oder Phonemfolgen, beides wird angewandt) kann aber vorab aus großen Textsammlungen berechnet werden und als Datensatz dem Spracherkenner beigefügt werden. Der Erkenner führt bei der Spracherkennung nun zunächst eine Erkennung der Phoneme basierend auf der Phonemklassifikation durch und erhält eine Ergebnisliste mit den dazugehörigen Wahrscheinlichkeitswerten (s.o). Dieses Zwischenergebnis verknüpft er mit den Wahrscheinlichkeiten für die Phonemfolgen aus dem Datensatz und bildet daraus das Schlussergebnis für die Phonemfolgen. Diese werden dann mit Hilfe von Wortlexika in Wortfolgen umgewandelt auf die dann wieder das Wortfolgenmodell (Sprachmodell) angewendet werden kann. ——————————————————————————————————————————————————— 14.05.16 - 69 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Verbesserung der Erkennungsleistung durch Bildung von Phonemfolgen Ausgabe mehrerer Ergebnisse (1, 2 oder 3 Möglichkeiten) Zusammenfassung von aufeinanderfolgenden Phonemen zu einer Gruppe von 2 oder drei Phonemen Phone: Vorlesung /f/ /o/ /r/ /l/ /e/ /z/ /U/ /N/ Biphone Vorlesung /f//o/ /o//r/ /r//l/ /l//e/ /e//z/ /z//U/ /U//N/ Triphone Vorlesung /#fo/ /for/ /orl/ /rle/ /lez/ /ezU/ /zUN/ /UN#/ Auswahl der wahrscheinlichsten Folge ! Wie wird die wahrscheinlichste Folge ausgewählt ? Die Wahrscheinlichkeit für jede mögliche Phonemfolge muß bestimmt werden Bei 50 Phonemen gibt es 50 * 50 * 50 = 125000 Triphone Auswertung einer grossen Datenbasis Für jedes Triphon muß die Wahrscheinlichkeit bestimmt werden ! Was ist der Vorteil der Phonemfolgen ? ——————————————————————————————————————————————————— 14.05.16 - 70 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Sprachmodell: N-Gramm-Modell Weitere Verbesserung der Erkennungsleistung durch das Sprachmodell (Language model / Grammatik) Die Grammatik oder Sprachmodell ist die übliche Bezeichnung für die oben bereits beschriebenen Wortfolgen-modell Beispiel: Der Erkenner gibt folgende Wortfolgen als Zwischenergebnis aus_ 1. Alternative 2. Alternative 3. Alternative Wann geht gern er der nächste - Zug - nach Mannheim - Damit können drei mögliche Wortfolgen gebildet werden: 1. Wann geht gern nächste Zug nach Mannheim ? 2. Wann geht er nächste Zug nach Mannheim ? 3. Wann geht der nächste Zug nach Mannheim ? Aus diesen Wortfolgen und dem Datensatz für die Wahrscheinlichkeit der Wortfolgen kann das Schlussergebnis bestimmt werden: Für die Wahrscheinlichkeiten für Wort 1-3 aus dem Beispiel oben wird vermutlich gelten: P ( "Wann geht er") ~= P (Wann geht der) > P( "Wann geht gern") Damit scheidet der dritte Fall aus. ——————————————————————————————————————————————————— 14.05.16 - 71 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Für die Wahrscheinlichkeiten für Wort 2-4 aus dem Beispiel oben wird vermutlich gelten: P ( " geht der nächste") > P( " geht er nächste") Damit bleibt als Ergebnis die korrekte Folge: Wann geht der nächste ... Grenzen: .. wo hast Du heute gewesen ? .. wo bist Du heute zu sehen ? Die einzelnen Schritte der Klassifizierung (in der Praxis werden diese Schritte nicht getrennt sondern miteinander verknüpft) 1. 2. 3. 4. Erkennung einzelner Phoneme Bildung von Phonemfolge und Anwendung des Phonemfolgenmodells Bildung von Wörtern und Einfügen von Wortgrenzen Bildung von Wortfolgen und Anwendung des Sprachmodells Vorteile der N-Gramme rein Datengetrieben eignet sich auch für grosse Wortschätze Nachteile der N-Gramme Zusammenhänge auf Satzebene werden nicht berücksichtigt Erfordern sehr große Trainingsdatenbasen(korpora) ——————————————————————————————————————————————————— 14.05.16 - 72 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Sprachmodell CFG Context free Grammar Bildung von Wortketten über eine BNF Grammatik (Backus -Naur Form (BNF) oder Extended Backus -Naur Form (EBNF) Beispiel: the next show page me any display the last picture textfile ——————————————————————————————————————————————————— 14.05.16 - 73 the last Bernhard Noé text file Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Vorteile der CFGs: Keine großen Trainingsdatenbasen notwendig Lange Historie innerhalb der Grammatik möglich Leicht erweiterbar Lassen sich direkt zum Parsen verwenden, denn zu jedem Wort lässt sich direkt eine Bedeutung anhängen Nachteile der CFGs Grammatik muss von Hand geschrieben werden Grammatik muss für jede Domäne geschrieben werden Nur die definierten Schema werden erkannt Rechenaufwand ——————————————————————————————————————————————————— 14.05.16 - 74 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Definition von CFG - Grammatiken Backus -Naur Form (BNF) oder Extended Backus -Naur Form (EBNF) Formale Sprache zur Definition von erlaubten Grammatiken Syntax der Extended Bachus Naur Form EBNF Erzeugungsregel <root> = Sätze und Phrasen . Oder Kombination | <root> = Hello World | Hello there Sprachobjekte <Bezeichner> <root> = Hello <Word1> . <Word1> = World | there . ——————————————————————————————————————————————————— 14.05.16 - 75 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Optionale Objekte (kommt null oder einmal vor ) ? <root> = (Herr | Frau ) ? <Name> . <Name> = Müller | Maier | Schulze . Ergebnisse: <root> = Herr Müller | Herr Maier | Herr Schulze | Frau Müller | Frau Maier | Frau Schulze | Müller | Maier | Schulze . Wiederholungen (kommt ein oder N-mal vor) + <root> = <D> + . <D> = 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 . Wiederholungen (kommt null oder N-mal vor) # <root> = <D> # . ——————————————————————————————————————————————————— 14.05.16 - 76 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Es werden beliebig viele Symbole definiert die mit Operatoren aus Strings oder anderen Symbolen erzeugt werden. Die erlaubten Strings (des Vokabulars) sind die Summe alle erlaubten Stringketten Operatoren Bedeutung | Oder ? das Symbol auf der linken Seite ist optional (Es kann 0 oder 1 mal vorhanden sein) # das Symbol auf der linken Seite kann ,0 , 1 oder x- mal vorhanden sein + das Symbol auf der linken Seite kann 1 oder x- mal vorhanden sein ——————————————————————————————————————————————————— 14.05.16 - 77 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Beispiel 1: Ganze Rationale Zahlen: -5.2 , 7 oder 123.435 oder ... Die EBNF Definition <root> := - ? <D> + (. <D>+) ? . <D> := 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 . Beispiel 2: Drei Phrasen: Der Baum Der Baumstamm Der Ast Die EBNF Definition: <Satz> := Der <Wort> . <Wort> := Baum | Baumstamm | Ast . ——————————————————————————————————————————————————— 14.05.16 - 78 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Grafische darstellung des BNF Formats: ——————————————————————————————————————————————————— 14.05.16 - 79 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Mögliche Texte sind: direct my calls home direct calls home send my calls home send calls home please direct my calls home please direct calls home please send my calls home please send calls home direct my calls to the office direct calls to the office ... ——————————————————————————————————————————————————— 14.05.16 - 80 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Weitere Funktionen des Spracherkenners Aussprachelexika Beispiel: Heroin (das Rauschgift) Heroin (die Heldin) Mit Lautschrift Peter [p e: t ə r ] (deutsch) Peter [p i: t ə r ] (englisch) Schlüsselworterkennung (Keyword-Spotting) Die Schlüsselworterkennung ist ein Sonderfall bei dem nicht die gesamte sprachliche Äußerung für die Klassifizierung verwendet wird, sondern nur ein Teil. Der Spracherkenner versucht in einer Äußerung Schlüsselwörter zu erkennen, die wiederum über eine CFG definiert sind. Im Unterschied zum normalem Betrieb (CFG oder N-Gramm) werden Äußerungen die nicht zum einem der Schlüsselwörter passen ignoriert, während ohne Schlüsselworterkennung generell versucht wird die ganze Äußerung zu klassifizieren. ——————————————————————————————————————————————————— 14.05.16 - 81 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Die Anwendung von Spracherkennung Wichtigte Parameter des Spracherkenners Die meisten dieser Parameter lassen sich nur bei Spracherkennern für Dialogsysteme ändern aber nicht bei „Diktat-Erkennern“. Wahl der Sprache: Spracherkenner haben für jede Sprache andere Phonem- und Wortmodelle. Daher ist die Sprache beispielweise in der CFG zu definieren. Es ist möglich gleichzeitig Modelle für mehrere Sprachen zu laden so dass der Spracherkenner multilingual betrieben werden kann. Wegen der höherer Komplexität und Fehlerrate sollte multilinguale Modelle aber nur eingesetzt werden wenn das wirklich notwendig ist. Wahl des Sprachmodells: Wird eine CFG oder eine N-Gramm Grammatik benötigt ? Die CFG Grammatik: Definition der CFG Grammatik. Es können such mehrere Grammatikfiles geladen werden, z.B. eine globale Grammatik (für Hilfe- Funktionen) und eine Lokale Grammatik für einen speziellen Dialogschritt. Anzahl der zurückgegebenen Ergebniswerte (N-Best value): Es kann definiert werden wieviele Ergebnisse der Spracherkenner zurückgibt Minimale Zuverlässigkeit des erkannten Textes: (Confidence-limit): Wie bereits erwähnt liefert der Spracherkenner zu jedem Ergebnis einen Wahrscheinlichkeitswert (Probability / Confidence level) der zwischen 0 und 100% liegt. Das Ergebnis wird aber nur zurückgegeben wenn ein bestimmter “Confidence -limit” überschritten wird. Ohne Änderung des Entwicklers ——————————————————————————————————————————————————— 14.05.16 - 82 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— liegt dieser Wert üblicherweise bei 50 %. Wenn also für mindestes ein Ergebniswert der Confidence Level größer als 50 % ist wird der erkannte Text zurückgegeben. Liegt der Confidence Level unter 50 % wird “nomatch” zurückgegeben. Bei schwieriger Grammtik kann es aber sinnvoll sein den “Confidence-limit” anzupassen, um dem Entwickler Optimierungsmöglichkeiten zu geben. Beispiel 1: Parameterwerte: Confidence Limit = 50 %, N-Best = 2, gesprochener Text = “Peter Meier” Ergebnis der Klassifizierung Text Confidence Level Peter Meier 54 % Peter Bayer 38 % Martha Bayer 5% Rückgabewert des Spracherkenners an der API Text Confidence Level Peter Meier 54 % Peter Bayer 38 % - Beispiel 2: Parameterwerte: Confidence Limit = 75 %, N-Best = 2, gesprochener Text = “Peter Meier” Ergebnis der Klassifizierung Text Confidence Level Peter Meier 54 % Peter Bayer 38 % Martha Bayer 5% Rückgabewert des Spracherkenners an der API Text Confidence Level nomatch - ——————————————————————————————————————————————————— 14.05.16 - 83 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Wahl des Unterbrechungsmodus (BargeIn): Darf der Benutzer unterbrechen solange das System noch spricht oder ist der Spracherkenner erst aktiv nachdem die Sprachausgabe beendet ist? Beides ist prinzipiell möglich! Erkennung der Zeitdauer des Sprachsignals: Eine wichtige Funktion ist zu Erkennen wann der Sprecher gesprochen hat. Da heute kein Sprachverstehen möglich ist kann der Spracherkenner nicht am Inhalt des Gesagten entscheiden ob die Äußerung vollständig ist und die Klassifizierung begonnen werden kann! Daher muss der Zeitraum des „aktiven Sprechens“ erkannt werden. Hierzu muss er sowohl den Anfang des Sprachsignals als auch das Ende erkennen (siehe Bild). Dafür gibt es drei Parameterwerte “Empfindlichkeit” “maximale Pausenzeit” und “Maximal Time-Out” . Das Sprachsignal wird am mittleren Pegel erkannt, der fortlaufend mit einem Schwellwert (== Empfindlichkeit!, rote Linie im Bild) verglichen wird. Sobald der Pegel zum ersten Mal diesen Schwellwert überschreitet ist der Anfang der Sprache erkannt. Wenn danach der mittlere Sprachpegel wieder für längere Zeit (== maximale Pausenzeit) unter diesen Schwellwert fällt ist das Ende des Sprachsignals erkannt und der Erkenner beginnt mit der Klassifizierung. Der dritte Parameter ist ein zeitlicher Grenzwert für die Anfang -Erkennung. Sobald der Dialog auf eine Spracheingabe wartet wird ein Timer gestartet. Wenn der Timerwert größer als “Maximal Time-Out” wird ohne das der Anfang des Sprachsignals erkannt wurde, dann wird ein “noinputEvent” generiert. “Maximal Time-Out” gibt also an wie lange der Spracherkenner auf Sprache wartet, bevor er mit dem Event "noinput" abbricht. Manchmal wird noch ein weiterer ——————————————————————————————————————————————————— 14.05.16 - 84 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Parameter die “minimale Dauer der Äußerung" definiert werden. (Damit kann z.B.: Räuspern unterdrückt werden) Bild: Parameter zur Erkennung der Zeitdauer des Sprachsignals: Empfindlichkeit Pegel Zeit Wahre Zeitdauer des Sprachsignals Erkannte Zeitdauer des Sprachsignals „Maximal Time-Out“ „Maximale Pausendauer“ ——————————————————————————————————————————————————— 14.05.16 - 85 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Language Model Scale: Dieser Parameter verschiebt das Gewicht zwsichen Sprachmodell und Akustischem Modell. Wird meistens nicht als Parameter angeboten. Audio environment: (Mobilfunk, Festnetz) Manche für Erkenner für Telefonsignale bieten die Möglichkeit anzugeben ob das Gespräch von einem Festnetztelefon oder von einem Mobiltelefon kam. Hierdurch kann die Erkennungsleistung verbessertwerden. Tools zur Entwicklung von Spracherkennungsanwendungen Aussprache eines Wortes: Falls eines der Wörter oder Phrasen die in der CFG definiert sind schlecht erkannt werden ist es sinnvoll die Aussprache des Wortes zu prüfen. (s.a orthografisch- phonetische Transkription im Kap. Sprachsynthese). Der Erkenner wandelt jeden Text zunächst in die Lautschrift um die festlegt welche Ausssprache er erwartet. Die meisten Spracherkenner bieten Tools an mit dem der Entwickler sich die erwartete Aussprache für einen beliebigen Text anzeigen lassen kann. Damit kann der Entwickler prüfen ob er gegebenfalls noch Aussprachevarianten hinzufügen muß. Diese können dann über das ——————————————————————————————————————————————————— 14.05.16 - 86 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Ausprachelexikon definiert werden. Aussprachevarianten definieren. Für ein Wort lassen sich also mehrere Entwicklung von Contextfreie Grammatiken: Die Definition einer CFG ist wegen der notwendigen Abstraktion unübersichtlich und fehlerträchtig. Deshalb gibt es Tools, die es ermöglichen aus einer BNF- Definition einer CFG entweder sämtliche möglichen oder einzelen Beispieltexte zu erzeugen. Damit kann der Entwickler einfach prüfen ob seine Grammatik fehlerfrei ist. Optimierung der Erkennungsleistung Bei hoher Fehlerrate sollte man wenn möglich folgende Dinge prüfen: Einstellung des Mikrofons und der Übertragungsstrecke. Hat das Mikrofon eine gute Qualität? Ist die Lautstärke zu niedrig (Hintergrundgeräusche störend) oder zu hoch (Verzerrungen)? Treten Übertragungsfehler auf (bei Telefonanwendungen) Umgebung: Ist das Hintergrundgeräusch zu hoch ? Spracherkenner bieten oft die Möglichkeit die Sprachsignale die am Eingang des Spracherkenners anliegen in einem Datenfile mitzuschreiben, so dass diese dann in einem Audioeditor abgehört werden können. Sprecheradaption: Sprach-Erkenner können auch auf Personen trainiert werden, was die Erkennungsleistung erheblich verbessert. Hierzu sind allerdings einige Sprachdaten notwendig was für den Benutzer einen gewissen Aufwand bedeutet. Dies ist im Bereich von Desktopanwendungen gut möglich, bei Serverbasierten Lösungen, die über das Telefon ——————————————————————————————————————————————————— 14.05.16 - 87 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— angesprochen werden aber oft nicht möglich (Identität des Anrufers nicht bekannt, ständig wechselnde Nutzer) CFG Grammatik: Enthält die Grammatik die Wörter, die der Benutzer verwendet? Muss eventuell die Grammatik korrigiert werden? Generell ist es sinnvoll die Grammatik klein zu halten, weil kleinere Grammatiken zu kleineren Fehlerraten führen! Werden Worte verwendet die sehr ähnlich oder sogar gleich klingen, obwohl Sie eine unetrschiedliche Bedeutung haben. (Homonyme) Dialog -Design: Bei Dialogbasierten Systemen ist Ablauf und Design des Dialogs sehr wichtig und hat oft einen entscheidenden Einfluß auf die Nutzerakzeptanz. Aussprache-Lexika: Erwartet der Spracherkenner das Wort in der "richtigen" Aussprache? Kann die Erkennung verbessert werden indem mehrere Aussprachevarianten angelegt werden? (s.o) Wird der Zeitraum des aktivem Sprechens richtig erkannt? Wenn nein sollten dir Parameter “maximale Pausenzeit”, “Empfindlichkeit” und “maximal Time –Out” angepasst werden. Auch hier hilft ein “Logging” der Sprachsignale. ——————————————————————————————————————————————————— 14.05.16 - 88 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— ——————————————————————————————————————————————————— 14.05.16 - 89 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Berechnung der Erkennungsraten Fehlertypen: I = Insertion / Einfügung S = Substitution / Ersetzung D = Deletion / Löschung N = Anzahl der gesprochenen Einheiten ( Wörter / Phoneme) I SD Accuracy 1 N Word Error Rate WER I SD N Gesprochener Satz / Erkannter Satz wir haben heute das schöne wetter wir haben heute schöne Vetter D S ausgenutzt um Schwimmen zu gehen aus besitzt um Schwimmen zu gehen S I ——————————————————————————————————————————————————— 14.05.16 - 90 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Eigenschaften von Spracherkennungssystemen Wortschatz klein (-20) , mittel (100 - 300) , groß ( > 1000) Sprachmodell Sprachart: N-Gramm (für Dictation) / CFG (für Dialoge) isolierte Wörter , verbundene Wörter, fließende Sprache (letzteres wird heute fast ausschließlich benutzt) Sprecherabhängig, Sprecheradaptiv, Sprecherunabhängig Sprecherabhängig: in Mobiltelefonen oder sehr kleinen kostensensitiven Geräten mit kleinem Wortschatz. Sprecherunabhängig: Standard bei großen Erkennern für Diktat oder Dialoge (Desktop oder Serverbasiert) Sprecheradaptiv: Sonderform des Sprecherunabhängigen Erkenners. Die meisten Sprecherunabhängigen Erkenner können auch auf Sprecher adaptiert werden Geräuschfrei . Geräuschbehaftet Verfügbarkeit Umgebungsbedingungen ——————————————————————————————————————————————————— 14.05.16 - 91 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Anwendungen der Spracherkennung Diktatsysteme: perfekte Erkennung aber kein Verstehen notwendig Command & Control: Erkennung + Reaktion Bsp: Name Dialling Dialogsysteme: Erkennung, Interpretation + Reaktion ——————————————————————————————————————————————————— 14.05.16 - 92 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Spracherzeugung Wie lässt sich aus Text gesprochene Sprache erzeugen ? Welche Methoden / Verfahren gibt es ? Welche Fragen / Probleme sind zu lösen ? Welche Ressourcen benötigt das System ? Welche Eingangsdaten werden benötigt ? Anwendungen: Ansagedienste, die sich über jeden Kommunikationskanal erreichen lassen Sprechende Maschinen Navigationssysteme, Intensivmedizin Anrufbeantworter Sprechende Webseiten ——————————————————————————————————————————————————— 14.05.16 - 93 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Prinzipien der Spracherzeugung Spracherzeugung oder die Umsetzung von Text in gesprochene Spraceh lässt sich in zwei grosse Komplexe gliedern, die orthographisch phonetische Transkription und die eigentliche Synthese. In der orthographisch phonetischen Transkription wird des Text in eine Lautschrift mit Prosodieinformation (Sprachmelodie) umgewandelt. Die nachfolgende eigentliche Synthese wandelt diese textuelle Beschreibung in ein Sprachsignale um, welches dann über einen Lautsprecher als Sprache wahrgenommen werden können. Text Lautschrift Schall Signal Synthese Orthographisch- phonetische Transkription (OPT) D/A ——————————————————————————————————————————————————— 14.05.16 - 94 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Modellbasierte Synthese Formantsynthese: Amplitude, Frequenz und Bandbreite der ersten drei Formanten Die Formantsynthese basiert auf einem rein regelbasierten Erzeugung der Sprachsignale. Während der Synthese werden keinerlei Aufnahmen menschlicher Sprecher verwendet. Die Ausgangsdaten der OPT werden über ein Regelbasiertes System in Parameter für Synthesefilter und Quellensinale umgewandelt. Vorteile sind: geringer Speicheraufwand Verschiedene Stimmen lassen sich einfach über geänderte Regeln synthetisieren Nachteile sind: Die Bestimmung der Regeln zur erzeugung der Modellparameter aus natürlicher Sprache ist schwierig. Die Qualität der erzeugten Sprache ist niedriger als bei den nachfolgen besprochenen "Baustein-basierten" Verfahren Da Regelbasierten Verfahren bis heute kein Klangqualität erreicht haben die dem der menschlichen Stimme ähnelt, haben sich diese Verfahren am Markt nie durchsetzen können. ——————————————————————————————————————————————————— 14.05.16 - 95 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Sollte dieses Problem eines Tages gelöst werden, dann können diese Verfahren wegen Ihren inhärenten Vorteile aus Sicht des Diensteanbieters wieder sehr interessant werden. Baustein- basierte Synthese (Concatenative Speech Synthesis) Nach den anhaltenden Problemen mit rein künstlichen Systemen, war die Idee ein Sprachsynthesesystem auf Basis der menschlichen Stimme selbst zu entwickeln naheliegend. Die Basisidee is einfach erklärt. Die Sprachaufnahmen eines menschlichen Sprechers werden in phonetisch zusammenhängende Bausteine zerschnitten und abgespeichert. Bei der Synthese werden zunächst mit Hilfe der OPT die notwendigen Phoneme bestimmt, die entsprechenden Bausteine aus der Datenbank geholt und neu zusammengesetzt. Folgende Fragen gilte es dabei zu beantworten: Welche Bausteine sollten gewählt werden, - Phoneme - Diphone - Triphone oder Silben? Wie vermeidet man bei der neuen Zusammensetzung Probleme an den Übergängen zwischen den Bausteinen ? Wie wendet man die Prosodieinformation auf die Bausteine an ? ——————————————————————————————————————————————————— 14.05.16 - 96 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Folgende Aufstellung gibt Vor- und Nachteile der einzelnen Lösungen an: > Phoneme als Bausteine Wenige Bausteien also auch geringer Speicherbedarf Schlechter Klang ( wieso ?) > Diphone / Triphone / Silben Viele - sehr viele Bausteine (wieviele ? - wenn man 50 Phonem annimmt ) Hiermit lässt sich ein deutlich besserer Klang realisieren Die Entwicklung eines Baustein- basierten Verfahrens erfordert folgende Schritte: > Aufzeichnung der Datenbasis > Markierung und Zerlegung in Bausteine > Codierung (Kompression) der Bausteine > Anpassung der Segmente (Equalization) Die Anwendung eines Baustein- basierten Syntheseverfahrens erfordert folgende Schritte: > Decodierung > "Modulation" der Bausteine mit der Sprachmelodie (Grundfrequenz, Dauer, Lautstärke) > Aneinanderfügen der Segmente ——————————————————————————————————————————————————— 14.05.16 - 97 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Orthographisch- phonetische Transkription (OPT) Die OPT ist heute Schwerpunkt der Forschung und Entwicklung die sich die Verbesserung der Sprachsynthese zum Ziel gesetzt hat. Die nachfolgenden Beispiele zeigen einige aber bei weitem nicht alle Herausforderungen für die OPT: Kontextabhängige Aussprache von Texten Um 1810 wurde Beethoven geboren aber Die 1810 m2 Grundstück bieten viel Platz 21/4 == Bruch / Datum Stuttgart siegte 2-1 aber Kapitel 2-1 Ausprache von Sonderzeichen und Abkürzungen: Die Aktie kostet derzeit 30 $ Kg. kilogramm NATO gelesen ADAC Buchstabenweise [email protected] we we we at b a strich horb punkt de ——————————————————————————————————————————————————— 14.05.16 - 98 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Ausprache von Namen Pierre Markovic IBM Sony Betonungsabhängige Bedeutung von Texten Der Junge ging nach Hause aber Junge Männer waren besonders häufig zu sehen. Tenor (Wortlaut) aber Tenor (Sänger) Heroin (Heldin) aber Heroin (Rauschgift) Er wollte den Fußgänger umfahren (drum herum) aber Er wollte den Fußgänger umfahren (überfahren) Mischung verschiedener Sprachen: Kindergarten de Kindergarden ne Eingedeutschte Begriffe: Computer, Manager, Meeting, usw ——————————————————————————————————————————————————— 14.05.16 - 99 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Umsetzung des Textes in eine Phonetische Beschreibung (Orthographisch - Phonetische Transkription) Lexikonbasiert 1. Vorverarbeitung: Wörter, Begriffe, Sätze identifizieren Satzende "Er ging nach Hause. " "Er arbeitete im Durchschnitt 2.5 Stunden am Tag. 2. Ermittlung und Beschreibung der Struktur von Wörtern (Morphologische Analyse) Wortstämme, Zusammensetzung, Verbformen, Einzahl / Mehrzahl, Person, Fall) 3. Analyse der Zusammenhänge zur bestmöglichen Erkennung der Struktur (Kontextanalyse) Reduktion der Möglichkeiten Rechter Kontext + Text + Linker Kontext 4. Phonetische Umsetzung Lexikonbasiert aus der Morphemanalyse Ausnahmen werden regelbasiert behandelt ——————————————————————————————————————————————————— 14.05.16 - 100 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Regelbasierte Umsetzung des Textes in eine phonetische Beschreibung Vorverarbeitung: Wörter, Begriffe, Sätze identifizieren Zerlegung in Silben Analyse der Zusammenhänge zur Erkennung von Ausnahmen Regelbasierte Erzeugung der Phone Ausnahmen zu den Regeln werden mit Sonderregeln behandelt Beispiele: - erkangen Erlangen - recorde record [i:] [e] ——————————————————————————————————————————————————— 14.05.16 - 101 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Erzeugung der Prosodie (Sprachmelodie) Neben der Koartikulation beeinflußt die Prosodie (oder Sprachmelodie) den empfundenen Klang, die Natürlichkeit und sogar die Verständlichkeit der Sprache sehr stark. Die wesentlichen Elemente sind die Grundfrequenz, die Zeitdauer und die Lautstärke eines Bausteins. Um Prosodie- parameter für die Synthese zu ermitteln können die Satzzeichen, Satzstrukturen und die Wortklasse (Nomen, Verb, Adjektiv, Adverb, ...) benutzt werden. Prosodieparameter lassen sich aber heute noch nicht in Abhängigkeit von der Bedeutung des Satzes ableiten, da hierzu ein Verstehen des Textes notwendig wäre ——————————————————————————————————————————————————— 14.05.16 - 102 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Unterschiedliche Phonetische Darstellungen eines Satzes Haben Sie mal einen Kaffee ? h'a:.b@n zi: ma:l ?aI.n@n k'a.fe h'a:.bn zi: ma:l ?aIn k'a.fe h'a:.bm zi: ma:.laIN k'a.fe h'a:m.z@ ma:l.N k'a.fe h'am.z@ ma:N k'a.fe ——————————————————————————————————————————————————— 14.05.16 - 103 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Entwicklung von Sprachgesteuerten Applikationen Systemübersicht Konzeption und Realisierung kann lokal oder im Netz erfolgen Netzbasierte Sprachgesteuerte Applikationen bieten: Eine Erweiterung des WWW um das bestehenden WWW-Angebot mit Sprachdiensten zu koppeln Zugriffsmöglichkeit übers Telefon, damit erhöht sich die Nutzeranzahl gewaltig Ergänzung der bestehenden Seiten ohne großen Aufwand Angebote auch für Seh-Behinderte Der heutige Stand der Technik erlaubt: Eine komplette Trennung von Hard- und Software Eine Trennung von Applikation und Technik durch Anwendung von VoiceXML Flexibilität zur Nutzung verschiedener Technologieanbieter Skalierbarkeit Integration in bestehende IT Infrastruktur ——————————————————————————————————————————————————— 14.05.16 - 104 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Abkürzungen Begriffe: ASR TTS VXML IP RTP TCP MRCP Automatic Speech Recognition (Spracherkennung) Text To Speech (Sprachsynthese) Voice XML = Markup Sprache für Sprachapplikationen ist klar oder ? Real Time Transport Protocol Transmission Control Protocol Media Ressource Control Protocol ——————————————————————————————————————————————————— 14.05.16 - 105 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Architektur Netzbasierter Sprach-Server VXML Applications Voice Server Application Server VXML Browser Analog / ISDN / GSM / SIP Media Control MRCP Spracherkenner (ASR) IF RTP Sprachsynthese (TTS) Speech Models ——————————————————————————————————————————————————— 14.05.16 - 106 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— XML Standards des World Wide Web Consortium (W3C) VoiceXML (VXML) für den Entwurf von Sprachdialogen Voice Browser Group Einheitliche Markup Language zum Entwurf von Sprachdialogen Keine Kenntnis der Spracherkenner / Sprachsynthese API notwendig Sprachunabhängig (Landessprache wird am Anfang definiert) Unterstützt den Entwurf von Dialogen (<form> <menu> <subdialogue> ) Unabhängig von der HW / SW Plattform XML Standard Ablaufkontrolle (Form Interpretation algorithm) Spezielle Events für das Error handling Unterstützt verteilte Plattformen (http Request an Application Server) Siehe http://www.w3.org/TR/voicexml20/ ——————————————————————————————————————————————————— 14.05.16 - 107 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— VoiceXML Beispiel <?xml version="1.0" encoding="UTF-8"?> <vxml xmlns="http://www.w3.org/2001/vxml" xmlns:xsi=http://www.w3.org/2001/XMLSchemainstance xsi:schemaLocation="http://www.w3.org/2001/vxml http://www.w3.org/TR/voicexml20/vxml.xsd" version="2.0"> <form> <block>Hello World!</block> </form> </vxml> ——————————————————————————————————————————————————— 14.05.16 - 108 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Speech Synthesis Markup Language (SSML) für die Ansteuerung des TTS Systems Globale Elemente: ... xml:lang="en Us" ..., 1. XML Parser Dokumentenaufbau & Struktur 2. Strukturanalyse Was muss wie gelesen werden ? <paragraph>, <sentence> 3. OPT (TTS) Ausnahme behandlung <say-as> Phonetische Beschrebung <phoneme> Prosodie: <emphasis>, <break>, <prosody> 4. Synthese: <voice> Geschlecht, Alter , ——————————————————————————————————————————————————— 14.05.16 - 109 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Speech Recognition grammar specification (SRGS) für die Definition von CFG Grammatiken Wortschatzdefinition <grammar type="application/srgs+xml" src="/grammars/boolean.grxml"/> Einzelworte Beispiel: <menu> <prompt> Welcome home. Say one of: <enumerate/> </prompt> <choice next="http://www.bn.de/vxml/start.vxml"> Sports </choice> <choice next="http://www.bn.de/intro.vxml"> Weather </choice> <choice next="http://www.bn.de/astronews.vxml"> Stargazer astrophysics news </choice> <noinput>Please say one of <enumerate/> </noinput> </menu> ——————————————————————————————————————————————————— 14.05.16 - 110 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Aus Erfahrung ... Wie entwickelt man Sprachapplikationen ? Entwicklung des Dialogs Spracherkennung Sprachsynthese Klar aber kurz Mixed Initiative oder System initiative Ansagen variieren Virtuelle Persönlichkeit Sorgfältiger Entwurf der Grammatik Optimierung der Grammatik "Confidence Level" nutzen N-Best List nutzen Beste Qualitäte wählen Fehlerbehandlung ist notwendig ! Behandlung von Erkennungsfehlern Übergang zum gerichteten Dialog Übergang zur Hotline Nutzung von DTMF ——————————————————————————————————————————————————— 14.05.16 - 111 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Multimodalität Motivation Konzept Beispiele ——————————————————————————————————————————————————— 14.05.16 - 112 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Motivation Die Sinneswahrnehmung und Ausdrucksmöglichkeiten des Menschen sind asymmetrisch ausgeprägt. Das Erfassen von Informationen geschieht primär mit Hilfe des Sehsinnes ("Ein Bild sagt mehr als 1000 Worte"). Will der Mensch aber selbst Informationen darstellen (erzeugen) wird primär die Sprache verwendet. Eine optimale Mensch -Maschine Schnittstelle sollte diese Asymmetrie berücksichtigen! Klassische nicht technische Anwendungen: das Buch ! ——————————————————————————————————————————————————— 14.05.16 - 113 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Konzept (aus http://www.w3.org/TR/2005/WD-mmi-arch-20050422/) Multimodale Applikationen nutzen sowohl die Sprache als auch das Sehsinn des Menschen aus. Die Ausgabe von Informationen geschieht bevorzut visuell die Eingabe bevorzugt mit Sprache Sequentielle Multimodalität Ein Dialogschritt enthält immer nur eine Modalität für die Ein- oder Ausgabe von Informationen ("Entweder - Oder") Der Benutzer kann die Applikation entweder mit Sprache oder mit der Maus, Keypad, und Stift steuern. Die Ausgabe geschieht entweder mit Sprache oder über das Display Simultane Multimodalität Ein Dialogschritt kann mehrere Modalitäten gleichzeitig enthalten (Sowohl als auch) ——————————————————————————————————————————————————— 14.05.16 - 114 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Realisierung von Multimodalen Applikationen 1.) Codierung als Markup Dokument Aus W3C Standards: "we assume that multimodal applications will take the form of mixed-markup documents, i.e., documents that contain markup in multiple namespaces. In many cases, the different namespaces and markup languages will correspond to different modalities, ..." 2.) Wiederverwendung bestehender Architekturen Application Server (zB.: J2EE) für Webanwendungen Voice Server für Sprachanwendungen 3.) Zu lösende Aufgaben Viele Möglichkeiten für die Integration der beiden Architekturen standardisierte Entwicklungsumgebungen fehlen Synchronisation von Events (besonders bei simultaner Multimodalität) notwendig Synchronisation der Datenkanäle (Sprache und Daten (xhtml)) notwendig Design der Mensch-Maschine Schnittstelle ——————————————————————————————————————————————————— 14.05.16 - 115 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Beispiele Es gibt sehr viele mögliche Anwendungen! Telefonbuch Navigationssystem Handbuch (Manual) für Autos Usw. ——————————————————————————————————————————————————— 14.05.16 - 116 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Verfahren zur Verbesserung der Sprachqualität Elektroakustische Wandler Lautsprecher Mikrofone Geräuschreduktion Echokompensation ——————————————————————————————————————————————————— 14.05.16 - 117 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Elektoakustische Wandler Lautsprecher Mikrofone Dynamisches Mikrofon Kondensatormikrofon Elektretmikrofon Zukünftig: Integrierte Mikrofone ——————————————————————————————————————————————————— 14.05.16 - 118 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Geräuschreduktion Sprachkommunikation mittels Telefonie wird heute oft in Situationen mit starkem Hintergrundgeräusch praktiziert. Telefonieren während des Fahrens oder in der Öffentlichkeit an stark frequentierten Orten (Bahnhof, Flughafen) sind typische Beispiele. Da diese Hintergrundgeräusche sich sehr störend auf die Verständlichkeit der Sprache auswirken können, sind Verfahren zur Reduktion des Geräuschs wichtige Komponenten eine Telekommunikationssystems. Generell unterscheidet man mehrere Arten der Geräuschreduktion Geräuschreduktion mittels spezieller Mikrofone Richtmikrofone Drahtlose Mikrofone Geräuschreduktion mittels Signalverarbeitungsverfahren für Mikrofonarrays Zweikanal -Verfahren Mehrkanalige Verfahren (Beamforming) Geräuschreduktion mittels Signalverarbeitungsverfahren für ein Mikrofon ——————————————————————————————————————————————————— 14.05.16 - 119 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Geräuschreduktion mittels Signalverarbeitungsverfahren für Mikrofonarrays (Zweikanalverfahren) Funktionsprinzip: Der erste Ansatz geht von zwei Mikofonen mit unterschiedlicher Richtcharakterisktik aus. Mikrofon 1 Omnidirektionale Charakteristik Mikrofon 2 Undirektionale (/Bidirektionale) Charakteristik Weiterhin wird angenommen das Geräusch gleichmäßig von allen Seiten auf die Mikrofone auftrifft. Damit ergeben sich folgende Gleichungen: X1 = S + N S = Signal (Sprache) N = Noise (Hintergrundgeräusch) X2 = k * S + N Damit ergibt sich ein Gleichungssystem bestehend aus X1 und X2 und zwei Unbekannten (S, N)) welches, sofern es nicht linear abhängig ist, nach den beiden Unbekannten aufgelöst werden kann, in unserem Beispiel durch Subtrahieren X2 - X1 = k * S + N - S - N = (k -1) * S Diese Gleichung lässt sich dann nach S auflösen. Vorteile - theoretisch lassen sich sehr hohe Geräuschdämpfungen erreichen Nachteile - Das Geräusch ist richtungsabhängig, - höherer Aufwand, da 2 Kanäle benötigt werden (2 Mikrofone + 2 AD Wandler + 1 DSP) ——————————————————————————————————————————————————— 14.05.16 - 120 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Geräuschreduktion mittels Signalverarbeitungsverfahren für Mikrofonarrays - Mehrkanalige Verfahren (Beamforming) Geräuschreduktion mittels Signalverarbeitungsverfahren für ein Mikrofon - In vielen Fällen kann aus Kosten oder Platzgründen weder ein Mikrofon mit Richtcharakteristik noch ein Mikrofonarray eingesetzt werden. In diesem Fall muss ein Signalverarbeitungsverfahren benutzt werden um das Geräusch wirksam zu reduzieren Funktionsweise - Durch Anwendung eines digitalen Filters soll das Mikrofonsignal vom Störgeräusch befreit werden x = Mikrofonsignal = S+N FFT = Fast Fourier transform IFFT = inverse FFT Sest = geschätzes Sprachsignal Endgerät Sprecher A (lokal) ADC Geräusch FFT x = S+N Filter (H) X IFFT Sest zum fernen Sprecher (est = estimated) ——————————————————————————————————————————————————— 14.05.16 - 121 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Echokompensation Definition des "Echo" Tonfiles Wie entstehen Echos ? Freisprechfunktion des Telefons: Akustische Rückkopplung des Lautsprechersignals zum Mikrofon Mehrere Echopfade sind möglich: Echorückkopplung über das Gehäuse Echorückkopplung über im Raum reflektierten Schall Echos sind auch ohne Freisprechfunktion nur durch die akustische Kopplung des Gehäuses vorhanden Verstärkung der Problematik bei Handys wegen kleiner Gehäuse (kurze Echowege, starke Kopplung) ——————————————————————————————————————————————————— 14.05.16 - 122 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Elektrische Echos: Echos entstehen auch durch elektrische Rückkopplung im analogen Übertragungssystem 4 Draht - 2 Draht Umsetzung in der Vermittlungsstelle sehr hohe Verzögerungszeiten des Echos spielen bei der zunehmenden Digitalisierung eine immer geringere Rolle ——————————————————————————————————————————————————— 14.05.16 - 123 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Welche Echos sind störend ? Je höher die Verzögerung des Echos, desto störender wird es empfunden Echo return loss Welche Eigenschaften muß eine Einheit zur Unterdrückung des Echos haben ? Anpassung an die variablen Echopfade Anwendbar auf verschiedene Geräte TCL = Terminal coupling loss ——————————————————————————————————————————————————— 14.05.16 - 124 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Zur Lösung des Echoproblems muß eine Einheit zur Unterdrückung des Echos (Echo Canceller) integriert werden. Eine einfache Realisierung eines "Echo Cancellers" ist die Pegelwaage, deren Blockschaltbild unten abgebildet ist. Endgerät Sprecher A (lokal) ADC LA Echopfad kA zum fernen Sprecher Kontrolllogik kB LB DAC Wand ——————————————————————————————————————————————————— 14.05.16 - 125 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Funktionsprinzip: - Die Pegelwaage überwacht die Pegel der Sprachsignale vom lokalen und vom "fernen" Sprecher LA und LB und erkennt daraus welcher Sprecher gerade spricht. Der Signalpfad der aktiven Sprechers bleibt unbeeinflußt, der andere Signalpfad wird stark bedämpft. Die Dämpfung wird durch Multiplikation des Sprachsignals mit den Faktoren kA & kB realisiert. - Wenn der lokale Sprecher spricht wird die Lautsprecherausgabe stark gedämpft, um die Entstehung eines Echos zu vermeiden. (kA = 1, kB << 1) - Wenn der ferne Sprecher spricht wird das Mikrofonsignal stark gedämpft um die Weiterleitung des Echos weitgehend zu unterdrücken. (kA << 1, kB = 1) Vorteile einfache Realisierung, robustes Verfahren, annehmbarer Klang Nachteile - Die Pegel- Regelung macht sich permanente Lautstärkeänderung bemerkbar. - Diese Lösung erlaubt immer nur einem Sprecher zu sprechen. Das Signal des anderen Sprechers wird unterdrückt. Wenn beide Sprecher gleichzeitig sprechen funktioniert die Pegelwaage nicht mehr. - Weil immer nur ein Signalpfad verbunden ist wird dieses Verfahren auch als "half duplex" (Walkie-Talkie Effekt) Verfahren bezeichnet. ——————————————————————————————————————————————————— 14.05.16 - 126 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Eine hochwertigere Lösung des Echoproblems lässt sich mit einem adaptiven Filter erreichen, dessen Blockschaltbild unten abgebildet ist. Endgerät Sprecher A (lokal) ADC FIR Error h Kontrolllogik Echopfad LA zum fernen Sprecher LB DAC Wand ——————————————————————————————————————————————————— 14.05.16 - 127 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Funktionsprinzip: - Der Echopfad kann auch als akustisches Filter betrachtet werden, dessen Verhalten sich auch mit einem digitalen Filter (FIR -Filter) nachbilden lässt. Wenn die Nachbildung gut ist kann der Echoanteil des Mikrofonsignals direkt aus dem Signal des fernen Sprechers berechnet werden und dann vom Mikrofonsignal abgezogen werden. - Da sich die akustischen Bedingungen laufend verändern, müssen auch die Filterkoeffizienten (h) laufend angepasst werden. - Die Anpassung wird durchgeführt wenn der lokale Sprecher schweigt und der ferne Sprecher aktiv ist um das Filter optimal auf den Echopfad anzupassen. Vorteile - full duplex Verfahren, gute Klangqualität Nachteile - komplex es Verfahren - anfällig gegen Hintergrundgeräusche - anfällig gegen michtlineare Verzerrungen (z.B.: im Lautsprecher) - Die maximal mögliche Laufzeit des Signals muss berücksichtigt werden ——————————————————————————————————————————————————— 14.05.16 - 128 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Adaptives Filter zur Realisierung einer full duplex Echokompensation für das Freisprechen - Endgerät ADC FIR Echopfad Kontrolllogik DAC Wand ——————————————————————————————————————————————————— 14.05.16 - 129 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— weitere Verfahren - Kombination von Pegelwaage und adaptivem Filter - Kobination von Geräuschunterdrückung und Echokompensation ——————————————————————————————————————————————————— 14.05.16 - 130 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Begriffe / Abkürzungen: 3GPP 3rd Generation Partnership Project Internationale Standardisierungsorganisation für Mobilfunknetze der 3ten (UMTS) und 4ten Generation www.3gpp.org DECT Digital enhanced cordless telephony Standard für digitale Kurzstreckenübertragung wie sie bei Schnurlosen Telefonen im Heimbereich genutzt wird. DNS Domain name system DTMF Dual tone multi frequency Bezeichnet die Wähltöne beim Telefon die zur inband Signalisierung benutzt werden. ETSI European Telecommunikation Standardisation Institute Standardisierungsinstitut für GSM Mobilfunknetze. Mitglieder sind sowohl alle großen Telekommunikationsausrüster (Alcatel, Ericcson, Motorola, Nokia, SIemens, ... ) als auch alle großen Netzbetreiber (Deutsche Telecom, British Telecom, FRance ——————————————————————————————————————————————————— 14.05.16 - 131 - Bernhard Noé Digitale Sprachsignalverarbeitung —————————————————————————————————————————————————— Telecom, Telecom Italia, Vodafone, ...) Formant Vokale enthalten mehrere (~5) Maxima im Frequenzspektrum, die als Formanten bezeichnet werden. Sie bilden die spektrale Hüllkurve des Sprachsignals. FIR Finite Impulse Response Digitales Filter mit endlicher Impulsantwort. IMS Internet Multimedia Subsystem IP basiertes Netzwerk für zukünftige Mobilfunksysteme. ITU International Telecom Union Internationale Standardiseirungsorganistaion der UNO. Hier werden sehr viele Standards für die Festnetze definiert Bsp: G711 8kHz PCM Sprachcodec, G7xx Serie sind die Sprachcodecs PSTN Public switched telephone network (Vermittlungsbasiertes Telefonnetz) PABX Public access branch exchange (Vermittlungsstelle) PBX Private branch exchange (Nebenstellenanlage) ——————————————————————————————————————————————————— 14.05.16 - 132 - Bernhard Noé