Was ist Sprache - DHBW Stuttgart

Werbung
Digitale Sprachsignalverarbeitung
2007
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Einführung
3
 Sprachkodierung
30
 Voice over IP (VoIP)
42
 Spracherkennung
61
 Spracherzeugung
93
 Entwicklung Sprachgesteuerter Applikationen
104
 Multimodalität
112
 Verfahren zur Verbesserung der Sprachqualität
117
———————————————————————————————————————————————————
14.05.16
-2-
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Einführung
 Was ist Sprache ?
Physikalischer Prozess (Schallwellen, Pegel)
Bildung von Lauten (Phonetik)
Bedeutung von Lauten (Phonologie)
Bildung von Wörtern und Sätzen (Grammatik)
Bedeutung von Wörtern und Sätzen (Semantik)
Aufbaue der Sprache (Linguistik)
Sprache im Alltag (Erfahrungen, Gefühle, Alter, Nationalität, Herkunft)
———————————————————————————————————————————————————
14.05.16
-3-
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Spracherzeugung beim Menschen
Bild: Sprachtrakt beim Menschen
———————————————————————————————————————————————————
14.05.16
-4-
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Bildung von Sprachlauten
Anregungssignal:
Durch den Überdruck in der Lunge öffnet sich die Stimmritze und es baut sich ein Luftstrom auf.
Stimmritze und Stimmbänder erzeugen in Verbindung mit dem Luftstrom ein Anregungsssignal,
daß vom nachfolgenden Sprachtrakt geformt wird. Der nachfolgende Rachenraum, Mundraum
und der Nasenraum sowie Gaumen, Zunge und Zähne formen dann den entsprechenden Laut
Das Anregungssignal kann periodisch sein und dann zur Bildung von stimmhaften Lauten
führen oder auch in Form eines Geräuschs zur Anregung von stimmlosen Lauten
Was ist der Unterschied zwischen einem Ton, einem Klang und einem Geräusch ?
Vokale und Konsonanten:
Die Einteilung in Vokale und Konsonanten unterscheidet zwischen Öffungslauten, bei denen der
Sprachtrakt durchgehend geöffnet ist und Verschlusslauten bei denen Engstellen im Luftstrom
wesentlich zur Lautbildung beitragen.
Vokale sind immer stimmhaft, Konsonanten können sowohl stimmhaft ([n] , [m]) als auch
stimmlos ([h]) sein.
Die Kombination von zwei Vokalen (z.B.: [au]) , eine typisches Merkmal der deutschen Sprache,
wird als Diphtong bezeichnet
———————————————————————————————————————————————————
14.05.16
-5-
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Konsonanten werden entsprechend dem Ort im Sprachtrakt und der Art wie Sie gebildet
werden klassifiziert:
Bildungsweise
Ort der Stimmbildung
Explosivlaute Frikative
Nasallaute Seitenlaute /
Schwinglaute
Lippen & Zähne
stimmhaft: B W
M
stimmlos: P F
Zunge & Zähne
Sh: D
S
N
Sl: T
SS
Zunge & Vordergaumen Sh: D
J, Sch
N
L, R
Sl: T
Zunge & Hintergaumen Sh: G
CH
Ng
L, R
Sl: K
Bildungsweise:
Explosivlaute werden durch plötzliches Öffnen des Luftstroms gebildet
Frikative (Reibelaute) durch einen weitgehend verschlossenen Sprechtrakt gebildet
Nasallaute werden durch einen weitgehend verschlossenen Mundraum bei gleichzeitig
geöffnetem Nasenraum gebildet
———————————————————————————————————————————————————
14.05.16
-6-
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Modell der Spracherzeugung (Generator - Filtermodell)
Bild: Blockschaltbild eines Spracherzeugungssystems
Eigenschaften des Modells
 Voraussetzungen
 Modellfehler / Rückkopplungen
———————————————————————————————————————————————————
14.05.16
-7-
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Sprachwahrnehmung beim Menschen und Psychoakustik
 Aufbau des Ohrs
Äußeres Ohr
1. Ohrmuschel
2. Gehörgang
Mittelohr
3. Trommelfell
4. Hammer
5. Amboß
6. Steigbügel
7. Ohrtrompete
Innenohr
8. Schnecke
9. Bogengänge
10. Hör- & Gleichgewichtsnerv
———————————————————————————————————————————————————
14.05.16
-8-
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Aufgaben der verschiedenen Teile des Ohrs
 Aussenohr
- Schallleitung Gehörgang
- Richtungshören
- Frequenzgang
 Mittleres Ohre
- Schallweiterleitung vom Trommelfell und die 3 Gehörknöchelchen auf das ovale
Fenster
- Verstärkung des Drucks ( Flächenverhältnisse & Hebelverhältnisse) (1:22)
- Impedanz- Anpassung: (Notwendigkeit ?  statt 98% Reflexion nur 40% Reflexion)
- Dynamikbereichanpassung
- Schutz des Ohrs (Dämpfung des Drucks) bei sehr hohen Amplituden
(Latenzzeit ca 35 -150msec) Risken schneller Schalldrucksteigerungen
 Innenohr (ist mit Flüssigkeit gefüllt)
- Umsetzung in Nervenimpulse
Amplitudenmaxima in Abhängigkeit von der Frequenz
Außerdem  Knochenleitung
———————————————————————————————————————————————————
14.05.16
-9-
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Übertragungsfunktion
Freifeldübertragungsfunktion bei frontaler Beschallung
Abschattung des Schalls durch den Kopf
 Frequenzabhängigkeit
Übertragungsfunktion des äußeren (Bp = 3,4kHz) , mittleren (TP = 1,5kHZ) und inneren Ohres
(Bp)
———————————————————————————————————————————————————
14.05.16
- 10 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 "Psychoakustik"
 Wahrnehmung von Lautstärke (Tonbeispiel DruckgleichLautstärkeempfinden.WAV)
L = Schalldruckpegel
Kurven gleicher Lautstärke
(phon)
 Lautheit
10 phon == Faktor 2
———————————————————————————————————————————————————
14.05.16
- 11 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Schwerhörigkeit = Altersbedingte Veränderung der und Hörschwelle
Schalldruck = L = 20 log10 (px / p0) p0 = 20μP (100 pascal = 1 mbar = 100N/m2)
Bei 1kHz entspricht die Skalierung der Lautstärke der Skalierung des Schalldrucks
Welche Lautstärkeänderung ist
wahrnehmbar ?  siehe Bild rechts
———————————————————————————————————————————————————
14.05.16
- 12 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Wahrnehmung der Tonhöhe
Die Tonhöhe ist im Gegensatz zur Signalfrequenz keine objektiv messbare Grösse sondern die
subjektive empfundene Tonhöhe. Durch Versuchreihen mit Testpersonen wurde der
Zusammenhang zwischen Signalfrequenz und Tonhöhe experimentell festgestellt. Die
subjektive Tonhöhe wird mit der Einhet Mel versehen.
1000 Hz entsprechen 1000 Mel
500 Mel entsprechen subjektiv der halben Tonhöhe aber der Signalfrequenz 400 Hz
Tonbeispiel: LinUndMelSkala.WAV
 wahrnehmbare Tonhöhenänderung
bis 500 Hz 1,8Hz
ab 500 Hz 3,5 ‰
———————————————————————————————————————————————————
14.05.16
- 13 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Maskierungseffekt
Maskierung von "Nutzschall" durch "Störschall"
Breitbandiges Rauschen
———————————————————————————————————————————————————
14.05.16
- 14 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Schmalbandiges
Rauschen
Mask_BP1.wav

———————————————————————————————————————————————————
14.05.16
- 15 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Nachton: (Tonbeispiel) Breitbandrauschen mit Frequenzlücke verursacht einen Nachton
 Adaption des Gehörsinns
Anpassung an verschiedene Schallpegel
Ausblendung von Dauertönen
 Richtungshören
Identifikation der Schallrichtung in horizontaler Ebene
Laufzeitunterchiede
Pegelunterschiede
Klangfarbenunterschiede
 Schwebung und Rauhigkeit
Tonbeispiel: Schwebung_xxx
 Virtuelle Tonhöhe (Residuum)
Wahrnehmung der Grundfrequenz
Tonbeispiel: F_rang_intelig.WAV
 Sprachverständlichkeit
 Phasenunempfindlichkeit
———————————————————————————————————————————————————
14.05.16
- 16 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Übung: Richtungsauflösung ?
Berechnung der Ortungsgenauigkeit des Ohrs in der horizontalen Richtung
Gegeben: maximal zu erfassende Laufzeitunterschied = 0,03 msec
ds = v * t = sin(alfa) * d
mit d = 0,20 m
v = 333m/sek
t = 0,03 e-3 sek
-> alfa = 2,86 Grad

———————————————————————————————————————————————————
14.05.16
- 17 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Lautelemente der Sprache
 Phone
Phone beschreiben akustisch unterschiedliche Lautäußerungen
Unterscheidung der Laute: Betonung / Zeitdauer / Tonhöhe
Zeitdauer:
[a] in Ampel oder matt
Betonung
[e] in Pegel
Ausschnitt aus der Lautschrift:
[a]
[a:]
[e]
[e:]
helles a
langes a
kurzes e
langes e
ab, Alter, warm, Bilanz, Wanne
Abend, Basis
Endung, fett
Planet, edel, eben
[ə]
kurzes unbetontes e
Atem, gering, nobel
———————————————————————————————————————————————————
14.05.16
- 18 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Phoneme:
Phoneme fassen bedeutungsgleiche Phone zu Gruppen zusammen
Ca 50 Phoneme in der deutschen Sprache
 Diphon
Buchstabe: e
Lautschrift
Phoneme
[e] [e:] [ə]
/e/
 Eigenschaften fließender Sprache
Koartikulation
Sprachmelodie / Prosodie
Betonung, Grundfrequenz, Geschwindigkeit, Lautstärke
Die Sprachbedeutung ist Betonungsabhängig
Gehen Sie nach Hause ? / Gehen Sie nach Hause !
Variation der Sprechgeschwindigkeit ist nichtlinear
Halt ! , Haaalt !!
———————————————————————————————————————————————————
14.05.16
- 19 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Grundlagen der technischen Sprachsignalverarbeitung
 Anwendungen der technischen Sprachsignalverarbeitung
Übertragung von Sprache in Echtzeit, (Telefon)
Freie Sprachkommunikation (Freisprechen)
Speicherung und Wiedergabe von Sprache (Anrufbeantworter, Archivierung)
Spracherkennung von:
Kommandos (Sprachwahl beim Telefon, Sprachsteuerung im Auto)
Schlüsselwörtern innerhalb fließender Sprache
Fließender Sprache (email dictation, Textverarbeitung)
Für die Mensch Maschine Kommunikation
Sprechererkennung (Zugangsberechtigung)
Spracherzeugung (Vorlesen von geschriebener Sprache)
———————————————————————————————————————————————————
14.05.16
- 20 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Welche Anwendungen gibt es oder wird es zukünftig geben ?
Aufzeichnung von Sprachnachrichten und Umsetzung in Dokumente
Sprachausgabe von Nachrichten
Auskunftsdienste
Reine Informationsdienste (Sportnachrichten)
Interaktive Auskunfts- und Verkaufsdienstleistungen (Fahrscheinbestellung, Flugbuchung,
Ticketverkauf)
Automatische E-Commerce Dienste
Interaktion mit technischen Geräten (Auto, PC, Handy, Organizer, Fernseher, Stereoanlage,
Waschmaschine, Werkzeugmaschinen, Warenerfassung & steuerung)
Diktatsysteme
Unified messaging
———————————————————————————————————————————————————
14.05.16
- 21 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Grundlagen digitaler Systeme
Linearität
Yges = Y1 + Y2 + k* Y3
Kausalität
Kein Ergebniswert kann von Eingangsdaten aus der Zukunft abhängen
Vertauschungsgesetz
Y = Y1 + Y2 = Y2 + Y1
Die Reihenfolge von Verarbeitungsblöcken kann vertauscht werden
Zeitinvarianz
Das Übertragungsverhalten ist meistens zeitlich konstant
Das Ausgangssignal ist uabhängig vom Zeitpunkt zu dem das Eingangssignal anliegt,
sondern nur von dem Verlauf des Eingangssignals und dem Übertragungsverhalten
abhängig
———————————————————————————————————————————————————
14.05.16
- 22 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Signaldarstellung im Zeit und Frequenzbereich
Systemantwort eines linearen System
a) im Zeitbereich (Faltung)

y (t ) 
 x(   ht    d


y (n )   x(k   h n  k 
´ 
b) Im Frequenzbereich
Beschreibung im Frequenzbereich ?
Y( f )  H( f ) X( f )
———————————————————————————————————————————————————
14.05.16
- 23 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Zeitbereich
Frequenzbereich
Faltung
Reales Signal
Muliplikation
Konjugiert komplexes Spektrum H(f) = H(f)*
Symmetrie in der Amplitude
Muliplikation
Faltung
 Digitale Filter
N
y ( n )   bi  x  n  i 
´i  0
———————————————————————————————————————————————————
14.05.16
- 24 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Signaleigenschaften der Sprachsignale
Dynamik des Sprachsignals
Formanten
Vokale zeichnen sich durch 5 und mehr Maxima im Frequenzspektrum aus, die sogenannten
Formanten, die die spektrale Hüllkurve des Sprachsignals formen
Anhand der Lage der Formanten im Frequenzspektrum können die Vokale voneinander
unterschieden werden.
Formant 1
Formant 2
/a/
700 -1200 Hz
1000-1500 Hz
/e/
400 - 600 Hz
1800-2600 Hz
/i/
200 - 400 Hz
2000 - 3500 Hz
/o/
400 - 700 Hz
600 - 1000 Hz
/u/
200 - 400 Hz
600 - 1000 Hz
———————————————————————————————————————————————————
14.05.16
- 25 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Grundfrequenz
———————————————————————————————————————————————————
14.05.16
- 26 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Darstellung im Zeit- und Frequenzbereich
Beispiel: "Phonetican"
Darstellung des Zeitsignals:
f
o
n
ə
t
i
ʃ
ə
n
———————————————————————————————————————————————————
14.05.16
- 27 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Darstellung des Kurzzeitspektrums
———————————————————————————————————————————————————
14.05.16
- 28 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Spektrogramm
f
o
n
ə
t
i
ʃ
ə
n
———————————————————————————————————————————————————
14.05.16
- 29 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Sprachkodierung = Sprachkoder + Sprachdecoder = Sprach Codec (englisch)
 Entwicklung der Sprachkodierung
 Anpassung der Datenrate an die im Übertragungskanal verfügbare Datenrate
Datenrate des Übertragungskanals: 8 bit * 8 kHz = 64 kbit /sek
Datenrate des:Sprachsignals:
16 bit * 8kHz = 128 kbit /sek
BP
Filter
ADWandler
Coder
Übertragungskanal
Sendeseite
Bei der Datenrate des Sprachsignals ist wichtig zu beachten welches Frequenzsprektrum
übertragen werden soll. Heute wird mehr als 99 % des Telefonverkehrs mit“schmalbandigen”
Sprachkanal abgewickelt! Dies bedeutet das der Bandpassfilter (BP Filter) das Sprachwisgnal
auf Anteile zwischen ca 300 Hz und 3,5 kHz begrenzt. Die andere Signalanteile werden
unterdrück bevor Sie zum AD-Wandler kommen. Ein breitbandiges Sprachspektrum enthält
mindestens Anteile von 300 bis 7 kHz.
———————————————————————————————————————————————————
14.05.16
- 30 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Übertragenes Frequenzsprektrum
Abtastfrequenz des AD Wandlers
Datenrate des Sprachsignals
“Schmalbandige” Sprache
300 – 3,5 kHz
8 kHz
64 kbit /sek - 128 kbit/sek
“Breitbandige” Sprache
300 – 7 kHz
16 kHz
128 kbit /sek - 256 kbit/sek
 Effiziente Speicherung von Sprachsignalen
 Bedeutung und Realisierung der Sprachkodierung
 Berechnung der minimal notwendigen Datenrate
Die minimal notwendige Datenrate ergibt sich aus der Forderung:
Alle wichtigen Informationen im Sprachsignal sollen übertragen werden
Berechnung des Informationsgehalts
I 

( Pi log 2 ( Pi ))
i  1.. Anzahl der Symbole
Pi = Wahrscheinlichkeit für das Symbol i
mit der Tabelle der Phonemwahrscheinlichkeiten ergibt sich ~ 5 Bit / Phonem und damit
Die Minimale Datenrate = 50 Bit /sek
———————————————————————————————————————————————————
14.05.16
- 31 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
(Ohne Berücksichtigung der Korrelation zwischen Phonemen)
 Berechnung der maximal notwendigen Datenrate
Die maximal notwendige Datenrate ergibt sich aus der Forderung:
Die Datenrate soll so gewählt werden, daß nach dem Decodieren die Decodierfehler beliebig
minmiert werden kann. Eine Perfekte Rekonstruktions des Originalsignals soll möglich sein.
Mit
W = Bandbreite des Sprachsignals 3,5kHz
SNR = Signal-Geräuschverhältnis im Übertragungskanal = 1000 (= 30 dB)
Lässt sich die Datenrate berechnen:
C  W log 2 (1  SNR)
Maximale Datenrate = 35kbit/sek
———————————————————————————————————————————————————
14.05.16
- 32 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Eigenschaften von Sprachcodiersystemen
 Datenrate
Feste Datenrate
+ Einfache Realisierung in Telekommunikationsnetzen
+ garantierter QoS (Quality of Service)
- keine optimale Datenreduktion
variable Datenrate
+ optimale Datenreduktion
- höherer Realisierungsaufwand im Netz
Typische Datenraten
Festnetz: 16kb/sek ... 64kBit/sek
Mobilfunk: 3.3-13 kBit /Sek
Sprachspeicherung: 0.8 - 4kbit /Sek
———————————————————————————————————————————————————
14.05.16
- 33 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Sprachqualität
Subjektive Messung der Sprachqualität
Bisher erst Ansätze zur objektiven Messung der Sprachqualität
Weit verbreitet sind subjektive Messungen mit dem MOS -Test
MOS = Mean opinion score
Hörtest mit 20 - 60 untrainierten Hörern
Bewertung von 1-5
1 = unakzeptabel
bad
2 = ausreichend
poor
3 = befriedigend
fair
4 = gut
toll
5 = exzellent
excellent
———————————————————————————————————————————————————
14.05.16
- 34 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Objektive Messung der Sprachqualität
Verhältnis des Nutzsignals zum Störsignal
Signal -Geräusch Verhältnis = Signal Noise Ratio = SNR
S
Nutzpegel
SNR  10 log 10 ( )  20 log 10 (
)
N
Störpegel
Mit: S = Nutzleistung
N = Störleistung
Pegelverhältnis
SNR
1
0 dB
10
20 dB
100
40 dB
1000
60 dB
Tabelle: Pegelverhältnisse im Absolutwert und in dB
———————————————————————————————————————————————————
14.05.16
- 35 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Komplexität und Speicheraufwand (Complexity and Memory Requirements)
Angabe in wMOPS (weighted Mega Operations / second)
RAM static and scratch
ROM
RAM / ROM in words (2 bytes)
 Verzögerung (Delay)
Die Verzögerung beeinträchtigt die subjektive Qualität der Verbindung
Ursachen der Verzögerung = Sprach-Coder , Kanal -Coder, Übertragung, Kanal -Decoder,
Sprach -Decoder
———————————————————————————————————————————————————
14.05.16
- 36 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Grundprinzipien der Sprachkodierung
 Wellenformkodierung
Kodierung des Signalverlaufs
 Modellbasierte Kodierung
Berechnung von Modellparametern für dein Modell zur Erzeugung von Sprache
 Hybride Kodierung
Mischung aus Modellbasierter und Wellenformkodierung
Wellenformkodierung
Modellbasierte Kodierung
Geringe Komplexität
Große Komplexität
Kleine Verzögerung
Große Verzögerung
Geringe Datenreduktion
Große Datenreduktion
Tabelle: Vergleich der Kodierungsarten
———————————————————————————————————————————————————
14.05.16
- 37 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Wellenformkodierung
1. Pulse Code Modulation (= PCM)
S(t)
A/D Wandlung
SCod(t)
Übertragung
D/A Wandlung
S1(t)
Amplitude
SNR 
S1Cod(n T)
Sout(t)
S1 (t )
Signal

Geräusch S1 (t )  S1Cod (t )
S2(t)
S2Cod2(n T)
t
———————————————————————————————————————————————————
14.05.16
- 38 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Andere Verfahren der Wellenformkodierung
 Delta Puls Code Modulation
Statt des Signalwerts wird nur die Differenz zum vorhergehenden Wert kodiert
 bessere Auflösung bei gleicher Bitrate  höhere Qualität
 Adaptive Delta Puls Code Modulation (ADPCM)
 Delta Modulation (DM)
———————————————————————————————————————————————————
14.05.16
- 39 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Übersicht schmalbandiger Sprachkodiersysteme
Kodectyp
Eigenschaften
Wellen- hybrid Modell Datenrate Delay Komplexität Qualität
Kbit/sek msek Mips
form
Name
PCM
X
ADPCM X
CVSD
X
Anwendung
64
16, 32
16-48
klein
klein
klein
< 1 wMops
1 wMops
1 wMops
Toll
Toll
Toll
ISDN (G711)
DECT
Bluetooth
FR
EFR
AMR
X
X
X
13
12,2
12,2
20
25
25
4 wMops
17 wMops
17 wMops
< Toll
Toll
Toll
GSM Mobilfunk
GSM Mobilfunk
UMTS Mobilfunk
G.723.1
X
5,3 / 6
30
20 wMops
< Toll
Voice over IP
2
100
20 wMops
Poor - fair
Militär
FS1015
X
———————————————————————————————————————————————————
14.05.16
- 40 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Ausblick
Verbesserung der Verfahren für Voice Over IP
Kombination von Sprachkodierung und Musikkodierung
Bessere Verfahren zur Sprachspeicherung (sehr niedrige Bitraten)
———————————————————————————————————————————————————
14.05.16
- 41 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Voice over IP (VoIP)
 Motivation
 Anforderungen
 Systemüberblick
 Protokolle
———————————————————————————————————————————————————
14.05.16
- 42 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Motivation
Physikalische Konvergenz der Netze (Ethernet -Koaxleitung & ISDN 2 / 4 Draht Leitung)
IP als globales Basis Protokoll (SIP & IMS auch für den Mobilfunk)
Konvergenz der Anwendungen (Telefonie aus Outlook, UMS, usw.)
Höhere Effizienz
Geringere Kosten
 Anforderungen
Anforderung
Realisierung im bestehenden Telefonnetz
Hohe Sprachqualität
Geschaltete permanente Verbindung mit garantierter Datenrate
und sehr geringer Fehlerrate  sehr gute Qualität
 bis 100 msek
Geringe Verzögerung
Sehr hohe Verfügbarkeit
(derzeit im Telefonnetz 99.997 %
 ergibt maximal 16 min Ausfallzeit / Jahr
Sicherheit (Abhörsicher)
s. o.
Interoperabilität mit bestehendem Netz  Third party call
———————————————————————————————————————————————————
14.05.16
- 43 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Anforderungen an Leistungsmerkmale
Anrufweiterleitung, Anrufumleitung, Rufnummernübertragung
Anklopfen, Rückruf, usw.
 Systemüberblick
Für Sprachkommunikation sind zwei Ebenen erforderlich, die Medienebene und die
Signalisierungsebene. Die Signalisierung kann "inband" oder "outband" sein
Die Inband Signalisierung wird im Teilnehmeranschlussbereich verwendet, während innerhalb
des Telekommunikationsnetzwerkes üblicherweise eine outband -Signalisierung zum Einsatz
kommt, d.h.: die Signalisierungsmeldungen werden nicht im Sprachkanal sondern in einem
separaten Kanal übertragen.
———————————————————————————————————————————————————
14.05.16
- 44 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Systemübersicht
PSTN
VoIP
Location
Service
LDAP, ..
Registrar
LDAP, ..
SIP
Proxy
MGC
SIP
ISUP/SIGTRAN
SIP
SIP
MGCP/H248
SGW
ISUP/SS7
PSTN Switch
RTP
SIP
MGW
Voice
RTP
ISUP = ISDN Signaling User Part, MGCP = Media Gateway Control protocol, MGW = Media Gateway,
MGC———————————————————————————————————————————————————
= Media Gateway Controller, PSTN = Public Switched Telephone Network, RTP = Real-time Transport
Protocol, SS7 = Signalling Protocol Nr. 7, SIGTRAN = Signalling Transport, SIP = Session Initiation
14.05.16
- 45 Bernhard Noé
Protocol,
SGW = Signalling Gateway
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Protokolle
Die folgende Liste gibt eine (unvollständige) Übersicht der in der VoIP Welt verwendeten Protokolle
mit einer Kurzbeschreibung ihrer Verwendung.
 SIP: für den Aufbau, die Modifizierung und den Abbau von Multimediasitzungen
http://www.tech-invite.com bietet eine sehr gute Einführung in SIP (englisch)
http://www.voipango.de bietet eine sehr gute Einführung in SIP (deutsch)
 SDP: für die Beschreibung der Medienformate (Codec) der Multimediadaten
 RTP: für den Ende zu Ende Transport von Multimedia Daten
 DNS: für die Abbildung von Domain Namen auf IP Addressen
 ENUM: für die Abbildung on Telefonnummern auf URIs
 MGCP/H248: für die Steuerung von Media Gateways
 SIGTRAN: für den Transport von ISDN Signalisierungsdaten über IP
 ...
———————————————————————————————————————————————————
14.05.16
- 46 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 SIP Session Initiation Protokoll
Das SIP Protokoll ist ein Standard der IETF, der zum Aufbau von Sitzungen ("Sessions")
zwischen Multimedia Endgeräten über das Internet (IP) verwendet wird. Durch die Übernahme
von SIP in andere Standardisierungsgremien (3GPP, ETSI) wird es sich wohl mittelfristig als
Protokoll zum Aufbau von Kommunikationsverbindungen in der Telekommunikation durchsetzen.
Zu SIP gibt es mittlerweile viele IETF Standards, die verschiedene Aspekte der Kommunikation
abdecken, aber die Basisdefinition ist in der RFC 3261 beschrieben. SIP hat folgende
Eigenschaften:





SIP unterstützt den Aufbau von Multimediasitzungen
SIP unterstützt "supplementary Services"  Rufumleitung, Weiterleitung, 3rd Party Call
SIP unterstützt Presence
SIP unterstützt Konferenzen
SIP unterstützt die Authentifizierung
———————————————————————————————————————————————————
14.05.16
- 47 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Formaler Aufbau von SIP
Sip ähnelt / benutzt erprobte Eigenschaften anderer Protokolle
Ähnlichkeiten zwischen SIP und HTTP:
 Transaktionsorientiertes Client -Server Protokoll (request-response)
 Adressierung über URLs
 Syntax der Response Codes ähnlich zu http
Ähnlichkeiten zwischen SIP und SMTP:
 Textbasiert
 Header
Weiterhin bietet SIP eine in sich gesicherte Übertragung (kein TCP erforderlich), die gegen
Übertragungsfehler resistent ist.
Um eine Verbindung aufzubauen und zu betreiben reicht aber SIP nicht aus. Es arbeitet
hier mit zwei anderen Protokollen zusammen dem Realtime Transport Protocol (RTP) und
dem Session Description Protocol (SDP). RTP wird zur Übertragung der Multimediadaten
benutzt (Media-Layer) und SDP zur Übertragung der Geräteeigenschaften.
———————————————————————————————————————————————————
14.05.16
- 48 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Darüber hinaus wird das DNS (Domain Name System) benutzt um zu einer bekannten Adresse
eine IP Nummer zu erhalten.
Beispiele für die Anwendung des DNS
www.example.net wird abgebildet auf: 192.0.34.16
[email protected] wird abgebildet auf: [email protected]
 SIP Architektur (mit Basiselementen)
Registrar
SIP
SIP UA 1
Proxy
SIP
LDAP, ..
Location
Service
RTP
SIP UA 2
———————————————————————————————————————————————————
14.05.16
- 49 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Basiselemente der SIP Architektur
Endgerät (Softphone) = SIP User Agent (SIP UA). In der SIP Terminologie wird noch
zwischen SIP User Agent Client (Anrufer) und SIP User Agent Server (Angerufener)
unterschieden.
Registrar = für die Registrierung und Authentisieriung des SIP UA durch
Proxy = für die Vermittlung der SIP Nachrichten
Es gibt mehrere Varianten des Proxies
A) Redirect Server: Dies ist die einfachste Form des Proxies. Hier wird ein ankommendes
INVITE mit einer Umleitung zur Zieladressse (oder dem nächsten proxy) beantwortet,d.h. der
Redirect Server ist am weiteren Verlauf des Dialogs nicht mehr beteiligt.
B) Stateless Proxy: der Proxy leitet SIP Nachrichten weiter, er erzeugt keinen neuen Dialog
Vorteile: schnell, hoch skalierbar
Nachteile: keine Transkodierung, weniger Sicherheit
C) Stateful Proxy: der Proxy terminiert den Dialog des Anrufers und baut zum Angerufenen
einen neuen Dialog auf. (Der Teilnehmer merkt nicht ob der SIP Call mit einem stateful oder
stateless Proxy abgewickelt wird. )
Vorteile: Transkodierung möglich, Call forking möglich, Abschirmen von Addressen
(Sicherheit)
Nachteile: aufwändiger (mehr Memory, mehr Rechenleistung)  kleinerer Durchsatz
———————————————————————————————————————————————————
14.05.16
- 50 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Transaktionen in SIP
A
B
Request
Transaktions-Status
erzeugt
Transaktions-Status
zerstört
 Initiale Anfrage
Warten auf eine "finael response"
 Eine Transaktion kann 0 oder mehr
"provisional responses" enthalten
 Transaktionen werden über den Cseq Header
identifiziert
Provisonal responses
Final response
———————————————————————————————————————————————————
14.05.16
- 51 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
 Der Dialog beschreibt eine Mediensitzung
——————————————————————————————————————————————————
 Der Dialog wird durch die CallID den remote
tag und den local tag eineindeutig
identifiziert
 Dialog in SIP
A
Prepare Media session
Early Dialog
Establish Media session
Dialog
B
Invite
180 Ringing
200 ok
Ack
Create Media session
Dialog
Media session
Terminate Media session
Destroy Dialog
Terminate Media session
Bye
OK
Destroy Dialog
———————————————————————————————————————————————————
14.05.16
- 52 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Basis Methoden von SIP (RFC 3261)
 INVITE, ACK and CANCEL für den Aufbau von Verbindungen
 BYE zum Abbau einer Verbindungen
 REGISTER Registrierung eines Endgeräts
 OPTIONS zum Abfragen von Servern über Ihre Fähigkeiten
INVITE Aufbau der Verbindung: Angabe der Sender und Empfangsadresse
ACK
Finale Bestätigung des INVITE
CANCEL Abbruch eines Invite
REGISTER Registrierung eines Endgeräts (zB PC), damit dessen Adresse bekannt ist und es
erreichbar ist.
 Weitere Methoden von SIP




REFER (RFC 3515) für weiterverbinden
SUBSCRIBE, NOTIFY und PUBLISH für "Call events"
MESSAGE für Messaging
Usw.
———————————————————————————————————————————————————
14.05.16
- 53 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Sequenzdiagramm: Authentisierung (Digest Authentication) des Teilnehmers beim SIP
Registrar (RFC 2617)
A
Registrar
INV sip:[email protected]
Ablauf:
1. SIP UA sendet Register
2. Registrar weist zurück und sendet "challenge"
3. SIP UA sendet Register mit "Credentials"
4. Bestätigiung / Zurückweisung seitens des Registrars
401 Unauthorized
ACK
INV sip:[email protected]
OK
ACK
WWW-Authenticate: Digest realm=“BA”,
domain=“sip: ba.com ”, nonce=“qf73…”,
stale=FALSE, algorithm=MD5
Authorization: Digest username=“jo”,
realm=“BA”, nonce=“qf73…”,
response=“50c6a6071bc8...”
Der Sicherheistbereich wird durch "realm" und die Request URI definiert
nonce: Zufallswert
Die Response enthält mit MD5 verschlüsselt: username, password, nonce, und die URI
———————————————————————————————————————————————————
 wegen der Unsicherheit von MD5 wierden in IMS andere Algorithmen verwendet
14.05.16
- 54 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Sequenzdiagramm: Rufaufbau zwischen einem Softphone und einem Hardphone,die in zwei
Domänen angemeldet sind (Registrierung weggelassen) (aus RFC 3261)
Alice's . . atlanta.com. . . biloxi.com. . . . Bob's
softphone
proxy
proxy
SIP Phone
|
|
|
|
|
INVITE
|
|
|
|--------------->|
INVITE
|
|
| 100 Trying
|--------------->|
INVITE
|
|<---------------| 100 Trying
|--------------->|
|
|<-------------- | 180 Ringing
|
|
| 180 Ringing
|<---------------|
| 180 Ringing
|<---------------|
200 OK
|
|<---------------|
200 OK
|<---------------|
|
200 OK
|<---------------|
|
|<---------------|
|
|
|
ACK
|
|------------------------------------------------->|
|
Media Session
|
|<================================================>|
|
BYE
|
|<-------------------------------------------------|
|
200 OK
|
|------------------------------------------------->|
———————————————————————————————————————————————————
14.05.16
- 55 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Aushandlung der Medienformate mit dem Session Description Protocol (RFC 2327)
A
Proxy
B
INV Caps(A)
INV Caps(A)
OK Caps(A)  Caps(B)
OK Caps(A)  Caps(B)
Caps(B)
MPEG4
ACK
ACK
G711
H264
G729
Call
Caps(A)
 Der Anrufer sendet die SDP (Session Beschreibung) (="OFFER")
 Der Angerufene vergleicht diese mit den lokalen Fähigkeiten und
CAPS(A)  CAPS(B) = G711 & H264
sendet als Ergebnis die Schnittmenge der Fähigkeiten
 Während der Sitzung ist ein UPDATE möglich
 Eine Antwort auf die OFFER muss abgewartet werden bevor eine
Anmerkung: Caps = Capabilities
neue
Offer gesendet werden darf
———————————————————————————————————————————————————
 Jeder darf eine Offer senden
14.05.16
- 56 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Aushandlung der Medienformate ...2
 Auch während des Rufs können Medienformate gewechselt werden
z.B.: von Audio nach Audo-Video
z.B.: Verbindung wechseln (IP- Port)
Einfach über erneutes INVITE mit neuer SDP
 SDP unterstützt unidirectionale Kommunikation
Bsp.: Webcam mit SIP UA  Webcam sendet nur / Anrufer empfängt nur
Anzeige durch Attribute a=sendonly, a=recvonly in der SDP
———————————————————————————————————————————————————
14.05.16
- 57 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Enum (Zitat aus http://de.wikipedia.org/wiki/Telephone_Number_Mapping)
steht für "tElephone NUmber Mapping" und ist eine Anwendung des DNS zur Übersetzung von
Telefonnummern in Intenet -Adressen. ENUM wird im RFC 3761 definiert. Der Bedarf für eine
solche Lösung erwuchs aus der Verfügbarkeit von VoIP-Diensten und dem Bedarf des
Anwenders, sowohl im Internet als auch im klassischen Telefonnetz unter der selben Nummer
erreichbar zu sein.
Beispiel
+44 1 2345 6789 wird abgebildet auf: 9.8.7.6.5.4.3.2.1.4.4.e164.arpa
———————————————————————————————————————————————————
14.05.16
- 58 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 RTP Real Time Transport Protocol (RTP)
RTP Header:
Byte 1
Byte 2
Byte 3
Byte 4
01234567 01234567 01234567 01234567
V / P / X / CC / PT
Sequence Number
Timestamp
Synchronisation Source (SSRC) identifier
Contributing Source (CRSC) Identifiers (0..15 Mal)
Inhalt
Version
Padding
Extension
CRC Count
Payload TYpe
Abkürzung
V
P
X
CC
PT
Anzahl Bits
2
1
1
4
7
———————————————————————————————————————————————————
14.05.16
- 59 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Timestamp:
Abtastzeitpunkt des ersten Datenbytes im RTP Packet
Zur Synchronisation und zum jitter Ausgleich
Abtastrate wird im profile statisch definiert
Bei VAD  Sequence number zählt weiter / Timestamp springt
Audio + Video transmission  two separate RTP sessions
Mixer:
Änderung des Dateiformats
Translator:
Translator  Firewall  Translator
———————————————————————————————————————————————————
14.05.16
- 60 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Spracherkennung:
Testen Sie selbst: 01805 /448244 (12 Cents/Minute).
 Aufbau eines Spracherkennungssystems
Sprachsignal
Klassifizierung
Merkmalsextraktion
(Vorverarbeitung)
Akustische
Modelle
Text
Sprachmodell
Aussprachelexikon
———————————————————————————————————————————————————
14.05.16
- 61 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Merkmalsextraktion (Vorverarbeitung)
Zwei Ziele werden verfolgt, die Reduktion der Datenrate und die Umwandlung in ca 13-20
Merkmale (Signale) die Bedeutungstragende Eigenschaften des Sprachsignals erhalten (z.B.:
Lautstärkeverlauf, Frequenzgang) und unbedeutende Eigenschaften (z.B.:Daten die nur das
Klangbild prägen) löschen. Die kleinere Datenrate verringert den Rechenaufwand für die
Klassifizierung erheblich. Dies ist wegen der ohnehin sehr hohen Anforderungen eines
Spracherkenners an die Rechnerhardware von großer praktischer Bedeutung.
 Transformation in den Spektralbereich
Entfernen des Gleichspannungsanteils (Offsetkompensation)
Frequenzgang anpassen (Preemphase)
Fensterbildung und Fouriertransformation (FFT)
Transformation in den Mel Frequenzbereich
 Berechnung der Cepstralkoeffizienten
Logarithmierung der Amplituden
Rücktransformation in den Zeitbereich (DCT)
Normalisierung der Daten
———————————————————————————————————————————————————
14.05.16
- 62 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Klassifizierung
Die Klassifizierung ordnet die Eingangsdaten einer Klasse zu. Klassen können vom Entwickler
frei definiert werden. Es können im Fall des Spracherkenners Phoneme, Worte oder ganze
Sätze sein. Da die notwendige Rechenleistung mit der Anzahl der Klassen steigt, muß diese
begrenzt werden. "Sätze" oder "Einzelwörter" als Klasse kommen daher für allgemeine
Anwendungen nicht in Frage. Sie werden in Sonderfällen eingesetzt wie z.B. bei:
 Namenswahl im Handy (ca 30 Namen)
 Sprechenden Puppen (ca 20-30 Sätze)
 Anwendungen mit Command und Control (100 Worte)
Wählt man aber die Phoneme einer Sprache als Klasse (ca 50-80 Klassen) dann lassen sich
auch völlig freie Wortschätze für Diktatsysteme mit einigen 100000 Wörtern realisieren.
Die Klassifizierung besteht aus zwei Schritten, dem "Training" und dem "Test". Das Traininhg
wird während der Entwicklung des Spracherkenners durchgeführt, indem anhand einer
umfangreichen Datensammlung dem Spracherkenner antrainiert ("mitgeteilt") wird welche
Merkmale zu welchen Klasse gehören. Mit "Test" wird der reale Einsatzfall bezeichnet bei dem
dem Spracherkenner unbekannte Daten zugeführt werden, die dann klassifieziert werden
müssen.
———————————————————————————————————————————————————
14.05.16
- 63 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Beispiel
Training:
Klasse:
f
f
a a l
l
l
s s s
Eingangsdaten
Merkmal 1:
2 3 4 4 8 8 8 9 5 6
Eingangsdaten
Merkmal 2: 7 6 4 3 8 8 7 7
Eingangsdaten
t1
t2
...
9 10
Zeit
t9
t10
Test:
Klasse:
? ? ? ? ? ? ? ? ? ?
Ergebnisse (Ausgangsdaten)
Merkmal 1:
2 3 4 4 8 8 8 9 5 6
Eingangsdaten
Merkmal 2: 7 6 4 3 8 8 7 7
Eingangsdaten
9 10
Zeit
———————————————————————————————————————————————————
14.05.16
- 64 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
t1
t2
...
t9
t10
s
M2 9
8
l
f
7
6
5
4
a
3
a
2
1
0 1 2 3 4 5 6 7 8 9
M1
Klassifizierungsverfahren:
Abstandsklassifizierung
Bayes Klassifizierung
u.v.m.
———————————————————————————————————————————————————
14.05.16
- 65 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Akustisches Modell / Klassifizierung in Phoneme
Die Klassifizierung in Spracherkennern basiert heute überwiegend auf dem Hidden Markov Model
(HMM). Es benutzt statistische Modelle (das Bayes Modell) um die Phoneme zu modellieren. Die
Berechnung der Klassen aus den Merkmalsdaten liefert dann auch keine exakte einindeutige
Klassifizierung sonden immer einen Statz von Ergebnissen mit einem Wahrscheinlichkeitswert
pro Ergebnis.
Bild: Hidden Markov Model 1)
b
m
e
/th/
b
m
e
/e/
1)
Hidden (Verborgen) heißt das Modell, weil das Ergebnis der Klassifizierung (die Phoneme) in
den Merkmalsdaten verborgen sind. Der Mathematiker Markov erdachte das Modell in zwanziger
Jahren des letzten Jahrhunderts
———————————————————————————————————————————————————
14.05.16
- 66 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Beispielergebnisse des Spracherkenners:
Zeitpunkt t3 (siehe Bild oben)
Phonem
Wahrscheinlichkeit
"a"
"o"
0,70
0,16
oder
Zeitpunkt t1
"f"
0,35
"s"
0,16
"c"
0,05
———————————————————————————————————————————————————
14.05.16
- 67 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Sind wir jetzt am Ziel ?
 Phonem- Klassifizierung, Phoneme aneinander reihen, Wörter bilden, fertig ??
Nein !
Die Genauigkeit eines solchen Verfahrens wäre sehr gering, weil die Klassen bei Sprache so
"unscharf" sind, dass Klassifizierungsfehler nicht die Ausnahme sondern eher die Regel sind.
Woher kommt die grosse Unschärfe ? Die Spracherzeugung beim Menschen wird durch sehr
viele Parameter beeinflußt, dies sind Faktoren aus Lebensumfeld und Lebenslauf wie der
Bildungsstand, die Summe der Erfahrungen, das Alter, das Geschlecht, die Heimat aber auch
rein körperliche Faktoren wie Form aund Aufbau des Sprachtrakts. Daneben spielen
Umgebungsbedingungen wie Hintergrundgeräusche, und die Technik wie z.B. die Qualität des
Mikrofons und der Sprachsignalverarbeitung eine Rolle. Schließlich wirken sich auch soziale
Faktoren wie Emotionen, Gesprächssituation und Sprechgeschwindigkeit aus. Alle diese
Faktoren beeinflussen die Qualität der Merkmale und damit die der Spracherkennung.
Interessant ist daher die Frage Warum der Mensch eigentlich Sprache so gut versteht.
Beobachtet man sich einmal selbst beim Gespräch wird man feststellen dass Kommunikation auf
mehr Ebenen abläuft als nur der rein sprachlichen! Die Gebärdensprache, die Mimik, und die
Gemeinsamkeiten mit dem Gesprächspartner bewirken, dass wir Sprache im großen
Zusammenhang verstehen, dass vieles was zum Verständnis gebraucht wird gar nicht
explizit gesagt werden muss sondern beim Zuhören von uns selbst ergänzt wird.
———————————————————————————————————————————————————
14.05.16
- 68 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Da dem Spracherkenner menschliche Intelligenz zur Verfügung steht, ist bei der Anwendung
immer zu bedenken dass es sich heute noch immer nicht um Sprachverstehen sondern um
Umwandlung von Sprache in Text handelt.
Was nun ?
Die Verbesserung der Spracherkenner führt über zusätzliche Modelle, die typische
Eigenschaften der Sprache berücksichtigen:
Ansatz: Sowohl bei Phonemfolgen als auch bei Wortfolgen treten verschiedene Kombinationen
häufiger auf als andere. Einige Beispiele:
Das Phonem "e" ist das häufigste Phonem "x" dagegen sehr selten
Die Phonemfolge "e" "r" ist sicher häufiger als die Folge "l" "r" (Beispielworte: er, der)
Die Wortfolge "Ich gehe heute" ist sicher häufiger als die Wortfolge "der deutsche Außenhandel"
Die Häufigkeit der Wortfolgen (oder Phonemfolgen, beides wird angewandt) kann aber vorab
aus großen Textsammlungen berechnet werden und als Datensatz dem Spracherkenner
beigefügt werden. Der Erkenner führt bei der Spracherkennung nun zunächst eine Erkennung
der Phoneme basierend auf der Phonemklassifikation durch und erhält eine Ergebnisliste mit
den dazugehörigen Wahrscheinlichkeitswerten (s.o). Dieses Zwischenergebnis verknüpft er mit
den Wahrscheinlichkeiten für die Phonemfolgen aus dem Datensatz und bildet daraus das
Schlussergebnis für die Phonemfolgen. Diese werden dann mit Hilfe von Wortlexika in
Wortfolgen umgewandelt auf die dann wieder das Wortfolgenmodell (Sprachmodell) angewendet
werden kann.
———————————————————————————————————————————————————
14.05.16
- 69 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Verbesserung der Erkennungsleistung durch Bildung von Phonemfolgen
Ausgabe mehrerer Ergebnisse (1, 2 oder 3 Möglichkeiten)
Zusammenfassung von aufeinanderfolgenden Phonemen zu einer Gruppe von 2 oder drei
Phonemen
Phone:
Vorlesung /f/ /o/ /r/ /l/ /e/ /z/ /U/ /N/
Biphone
Vorlesung /f//o/ /o//r/ /r//l/ /l//e/ /e//z/ /z//U/ /U//N/
Triphone
Vorlesung /#fo/ /for/ /orl/ /rle/ /lez/ /ezU/ /zUN/ /UN#/
Auswahl der wahrscheinlichsten Folge !
Wie wird die wahrscheinlichste Folge ausgewählt ?
 Die Wahrscheinlichkeit für jede mögliche Phonemfolge muß bestimmt werden
Bei 50 Phonemen gibt es 50 * 50 * 50 = 125000 Triphone
Auswertung einer grossen Datenbasis
Für jedes Triphon muß die Wahrscheinlichkeit bestimmt werden !
Was ist der Vorteil der Phonemfolgen ?
———————————————————————————————————————————————————
14.05.16
- 70 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Sprachmodell: N-Gramm-Modell
 Weitere Verbesserung der Erkennungsleistung durch das Sprachmodell (Language model /
Grammatik)
Die Grammatik oder Sprachmodell ist die übliche Bezeichnung für die oben bereits
beschriebenen Wortfolgen-modell
Beispiel: Der Erkenner gibt folgende Wortfolgen als Zwischenergebnis aus_
1. Alternative
2. Alternative
3. Alternative
Wann geht gern
er
der
nächste
-
Zug
-
nach Mannheim
-
Damit können drei mögliche Wortfolgen gebildet werden:
1. Wann geht gern nächste Zug nach Mannheim ?
2. Wann geht er nächste Zug nach Mannheim ?
3. Wann geht der nächste Zug nach Mannheim ?
Aus diesen Wortfolgen und dem Datensatz für die Wahrscheinlichkeit der Wortfolgen kann das
Schlussergebnis bestimmt werden:
Für die Wahrscheinlichkeiten für Wort 1-3 aus dem Beispiel oben wird vermutlich gelten:
P ( "Wann geht er") ~= P (Wann geht der) > P( "Wann geht gern")
Damit scheidet der dritte Fall aus.
———————————————————————————————————————————————————
14.05.16
- 71 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Für die Wahrscheinlichkeiten für Wort 2-4 aus dem Beispiel oben wird vermutlich gelten:
P ( " geht der nächste") > P( " geht er nächste")
Damit bleibt als Ergebnis die korrekte Folge: Wann geht der nächste ...
Grenzen:
.. wo hast Du heute gewesen ?
.. wo bist Du heute zu sehen ?
 Die einzelnen Schritte der Klassifizierung (in der Praxis werden diese Schritte nicht
getrennt sondern miteinander verknüpft)
1.
2.
3.
4.
Erkennung einzelner Phoneme
Bildung von Phonemfolge und Anwendung des Phonemfolgenmodells
Bildung von Wörtern und Einfügen von Wortgrenzen
Bildung von Wortfolgen und Anwendung des Sprachmodells
 Vorteile der N-Gramme
rein Datengetrieben
eignet sich auch für grosse Wortschätze
 Nachteile der N-Gramme
Zusammenhänge auf Satzebene werden nicht berücksichtigt
Erfordern sehr große Trainingsdatenbasen(korpora)
———————————————————————————————————————————————————
14.05.16
- 72 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Sprachmodell CFG Context free Grammar
Bildung von Wortketten über eine BNF Grammatik
(Backus -Naur Form (BNF) oder Extended Backus -Naur Form (EBNF)
Beispiel:
the next
show
page
me
any
display
the last
picture
textfile
———————————————————————————————————————————————————
14.05.16
- 73 the last
Bernhard Noé
text file
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Vorteile der CFGs:
Keine großen Trainingsdatenbasen notwendig
Lange Historie innerhalb der Grammatik möglich
Leicht erweiterbar
Lassen sich direkt zum Parsen verwenden, denn zu jedem Wort lässt sich
direkt eine Bedeutung anhängen
 Nachteile der CFGs
Grammatik muss von Hand geschrieben werden
Grammatik muss für jede Domäne geschrieben werden
Nur die definierten Schema werden erkannt
Rechenaufwand
———————————————————————————————————————————————————
14.05.16
- 74 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Definition von CFG - Grammatiken
Backus -Naur Form (BNF) oder Extended Backus -Naur Form (EBNF)
Formale Sprache zur Definition von erlaubten Grammatiken
Syntax der Extended Bachus Naur Form EBNF
Erzeugungsregel
<root> = Sätze und Phrasen .
Oder Kombination
|
<root> = Hello World | Hello there
Sprachobjekte
<Bezeichner>
<root> = Hello <Word1> .
<Word1> = World | there .
———————————————————————————————————————————————————
14.05.16
- 75 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Optionale Objekte (kommt null oder einmal vor )
?
<root> = (Herr | Frau ) ? <Name> .
<Name> = Müller | Maier | Schulze .
Ergebnisse:
<root> = Herr Müller | Herr Maier | Herr Schulze | Frau Müller | Frau Maier
| Frau Schulze | Müller | Maier | Schulze .
Wiederholungen (kommt ein oder N-mal vor)
+
<root> = <D> + .
<D> = 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 .
Wiederholungen (kommt null oder N-mal vor)
#
<root> = <D> # .
———————————————————————————————————————————————————
14.05.16
- 76 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Es werden beliebig viele Symbole definiert die mit Operatoren aus Strings oder anderen
Symbolen erzeugt werden.
Die erlaubten Strings (des Vokabulars) sind die Summe alle erlaubten Stringketten
Operatoren Bedeutung
|
Oder
?
das Symbol auf der linken Seite ist optional (Es kann 0 oder 1 mal vorhanden
sein)
#
das Symbol auf der linken Seite kann ,0 , 1 oder x- mal vorhanden sein
+
das Symbol auf der linken Seite kann 1 oder x- mal vorhanden sein
———————————————————————————————————————————————————
14.05.16
- 77 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Beispiel 1:
Ganze Rationale Zahlen: -5.2 , 7 oder 123.435 oder ...
Die EBNF Definition
<root> := - ? <D> + (. <D>+) ? .
<D> := 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 .
Beispiel 2:
Drei Phrasen:
Der Baum
Der Baumstamm
Der Ast
Die EBNF Definition:
<Satz> := Der <Wort> .
<Wort> := Baum | Baumstamm | Ast .
———————————————————————————————————————————————————
14.05.16
- 78 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Grafische darstellung des BNF Formats:
———————————————————————————————————————————————————
14.05.16
- 79 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Mögliche Texte sind:
direct my calls home
direct calls home
send my calls home
send calls home
please direct my calls home
please direct calls home
please send my calls home
please send calls home
direct my calls to the office
direct calls to the office
...
———————————————————————————————————————————————————
14.05.16
- 80 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Weitere Funktionen des Spracherkenners
 Aussprachelexika
Beispiel:
Heroin (das Rauschgift)
Heroin (die Heldin)
Mit Lautschrift
Peter
[p e: t ə r ] (deutsch)
Peter
[p i: t ə r ] (englisch)
 Schlüsselworterkennung (Keyword-Spotting)
Die Schlüsselworterkennung ist ein Sonderfall bei dem nicht die gesamte sprachliche Äußerung
für die Klassifizierung verwendet wird, sondern nur ein Teil. Der Spracherkenner versucht in einer
Äußerung Schlüsselwörter zu erkennen, die wiederum über eine CFG definiert sind. Im
Unterschied zum normalem Betrieb (CFG oder N-Gramm) werden Äußerungen die nicht zum
einem der Schlüsselwörter passen ignoriert, während ohne Schlüsselworterkennung generell
versucht wird die ganze Äußerung zu klassifizieren.
———————————————————————————————————————————————————
14.05.16
- 81 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Die Anwendung von Spracherkennung
 Wichtigte Parameter des Spracherkenners
Die meisten dieser Parameter lassen sich nur bei Spracherkennern für Dialogsysteme ändern
aber nicht bei „Diktat-Erkennern“.
 Wahl der Sprache: Spracherkenner haben für jede Sprache andere Phonem- und
Wortmodelle. Daher ist die Sprache beispielweise in der CFG zu definieren. Es ist möglich
gleichzeitig Modelle für mehrere Sprachen zu laden so dass der Spracherkenner multilingual
betrieben werden kann. Wegen der höherer Komplexität und Fehlerrate sollte multilinguale
Modelle aber nur eingesetzt werden wenn das wirklich notwendig ist.
 Wahl des Sprachmodells: Wird eine CFG oder eine N-Gramm Grammatik benötigt ?
 Die CFG Grammatik: Definition der CFG Grammatik. Es können such mehrere Grammatikfiles
geladen werden, z.B. eine globale Grammatik (für Hilfe- Funktionen) und eine Lokale
Grammatik für einen speziellen Dialogschritt.
 Anzahl der zurückgegebenen Ergebniswerte (N-Best value): Es kann definiert werden wieviele
Ergebnisse der Spracherkenner zurückgibt
 Minimale Zuverlässigkeit des erkannten Textes: (Confidence-limit): Wie bereits erwähnt liefert
der Spracherkenner zu jedem Ergebnis einen Wahrscheinlichkeitswert (Probability /
Confidence level) der zwischen 0 und 100% liegt. Das Ergebnis wird aber nur zurückgegeben
wenn ein bestimmter “Confidence -limit” überschritten wird. Ohne Änderung des Entwicklers
———————————————————————————————————————————————————
14.05.16
- 82 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
liegt dieser Wert üblicherweise bei 50 %. Wenn also für mindestes ein Ergebniswert der
Confidence Level größer als 50 % ist wird der erkannte Text zurückgegeben. Liegt der
Confidence Level unter 50 % wird “nomatch” zurückgegeben. Bei schwieriger Grammtik kann
es aber sinnvoll sein den “Confidence-limit” anzupassen, um dem Entwickler
Optimierungsmöglichkeiten zu geben.
Beispiel 1: Parameterwerte: Confidence Limit = 50 %, N-Best = 2, gesprochener Text = “Peter
Meier”
Ergebnis der Klassifizierung
Text
Confidence Level
Peter Meier
54 %
Peter Bayer
38 %
Martha Bayer
5%
Rückgabewert des Spracherkenners an der API
Text
Confidence Level
Peter Meier
54 %
Peter Bayer
38 %
-
Beispiel 2: Parameterwerte: Confidence Limit = 75 %, N-Best = 2, gesprochener Text = “Peter
Meier”
Ergebnis der Klassifizierung
Text
Confidence Level
Peter Meier
54 %
Peter Bayer
38 %
Martha Bayer
5%
Rückgabewert des Spracherkenners an der API
Text
Confidence Level
nomatch
-
———————————————————————————————————————————————————
14.05.16
- 83 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Wahl des Unterbrechungsmodus (BargeIn): Darf der Benutzer unterbrechen solange das
System noch spricht oder ist der Spracherkenner erst aktiv nachdem die Sprachausgabe
beendet ist? Beides ist prinzipiell möglich!
 Erkennung der Zeitdauer des Sprachsignals: Eine wichtige Funktion ist zu Erkennen wann der
Sprecher gesprochen hat. Da heute kein Sprachverstehen möglich ist kann der
Spracherkenner nicht am Inhalt des Gesagten entscheiden ob die Äußerung vollständig ist und
die Klassifizierung begonnen werden kann! Daher muss der Zeitraum des „aktiven Sprechens“
erkannt werden. Hierzu muss er sowohl den Anfang des Sprachsignals als auch das Ende
erkennen (siehe Bild). Dafür gibt es drei Parameterwerte “Empfindlichkeit” “maximale
Pausenzeit” und “Maximal Time-Out” .
Das Sprachsignal wird am mittleren Pegel erkannt, der fortlaufend mit einem Schwellwert (==
Empfindlichkeit!, rote Linie im Bild) verglichen wird. Sobald der Pegel zum ersten Mal diesen
Schwellwert überschreitet ist der Anfang der Sprache erkannt. Wenn danach der mittlere
Sprachpegel wieder für längere Zeit (== maximale Pausenzeit) unter diesen Schwellwert fällt
ist das Ende des Sprachsignals erkannt und der Erkenner beginnt mit der Klassifizierung. Der
dritte Parameter ist ein zeitlicher Grenzwert für die Anfang -Erkennung. Sobald der Dialog auf
eine Spracheingabe wartet wird ein Timer gestartet. Wenn der Timerwert größer als “Maximal
Time-Out” wird ohne das der Anfang des Sprachsignals erkannt wurde, dann wird ein “noinputEvent” generiert. “Maximal Time-Out” gibt also an wie lange der Spracherkenner auf Sprache
wartet, bevor er mit dem Event "noinput" abbricht. Manchmal wird noch ein weiterer
———————————————————————————————————————————————————
14.05.16
- 84 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Parameter die “minimale Dauer der Äußerung" definiert werden. (Damit kann z.B.: Räuspern
unterdrückt werden)
Bild: Parameter zur Erkennung der Zeitdauer des Sprachsignals:
Empfindlichkeit
Pegel
Zeit
Wahre Zeitdauer des Sprachsignals
Erkannte Zeitdauer des Sprachsignals
„Maximal Time-Out“
„Maximale Pausendauer“
———————————————————————————————————————————————————
14.05.16
- 85 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Language Model Scale: Dieser Parameter verschiebt das Gewicht zwsichen Sprachmodell und
Akustischem Modell. Wird meistens nicht als Parameter angeboten.
 Audio environment: (Mobilfunk, Festnetz) Manche für Erkenner für Telefonsignale bieten die
Möglichkeit anzugeben ob das Gespräch von einem Festnetztelefon oder von einem
Mobiltelefon kam. Hierdurch kann die Erkennungsleistung verbessertwerden.
 Tools zur Entwicklung von Spracherkennungsanwendungen
 Aussprache eines Wortes: Falls eines der Wörter oder Phrasen die in der CFG definiert sind
schlecht erkannt werden ist es sinnvoll die Aussprache des Wortes zu prüfen. (s.a orthografisch- phonetische Transkription im Kap. Sprachsynthese). Der Erkenner wandelt jeden
Text zunächst in die Lautschrift um die festlegt welche Ausssprache er erwartet. Die meisten
Spracherkenner bieten Tools an mit dem der Entwickler sich die erwartete Aussprache für
einen beliebigen Text anzeigen lassen kann. Damit kann der Entwickler prüfen ob er
gegebenfalls noch Aussprachevarianten hinzufügen muß. Diese können dann über das
———————————————————————————————————————————————————
14.05.16
- 86 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Ausprachelexikon definiert werden.
Aussprachevarianten definieren.
Für
ein
Wort
lassen
sich
also
mehrere
 Entwicklung von Contextfreie Grammatiken: Die Definition einer CFG ist wegen der
notwendigen Abstraktion unübersichtlich und fehlerträchtig. Deshalb gibt es Tools, die es
ermöglichen aus einer BNF- Definition einer CFG entweder sämtliche möglichen oder einzelen
Beispieltexte zu erzeugen. Damit kann der Entwickler einfach prüfen ob seine Grammatik
fehlerfrei ist.
 Optimierung der Erkennungsleistung
Bei hoher Fehlerrate sollte man wenn möglich folgende Dinge prüfen:
 Einstellung des Mikrofons und der Übertragungsstrecke. Hat das Mikrofon eine gute Qualität?
Ist die Lautstärke zu niedrig (Hintergrundgeräusche störend) oder zu hoch (Verzerrungen)?
Treten Übertragungsfehler auf (bei Telefonanwendungen)
 Umgebung: Ist das Hintergrundgeräusch zu hoch ?
Spracherkenner bieten oft die Möglichkeit die Sprachsignale die am Eingang des
Spracherkenners anliegen in einem Datenfile mitzuschreiben, so dass diese dann in einem
Audioeditor abgehört werden können.
 Sprecheradaption: Sprach-Erkenner können auch auf Personen trainiert werden, was die
Erkennungsleistung erheblich verbessert. Hierzu sind allerdings einige Sprachdaten notwendig
was für den Benutzer einen gewissen Aufwand bedeutet. Dies ist im Bereich von
Desktopanwendungen gut möglich, bei Serverbasierten Lösungen, die über das Telefon
———————————————————————————————————————————————————
14.05.16
- 87 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
angesprochen werden aber oft nicht möglich (Identität des Anrufers nicht bekannt, ständig
wechselnde Nutzer)
 CFG Grammatik: Enthält die Grammatik die Wörter, die der Benutzer verwendet? Muss
eventuell die Grammatik korrigiert werden? Generell ist es sinnvoll die Grammatik klein zu
halten, weil kleinere Grammatiken zu kleineren Fehlerraten führen! Werden Worte verwendet
die sehr ähnlich oder sogar gleich klingen, obwohl Sie eine unetrschiedliche Bedeutung haben.
(Homonyme)
 Dialog -Design: Bei Dialogbasierten Systemen ist Ablauf und Design des Dialogs sehr wichtig
und hat oft einen entscheidenden Einfluß auf die Nutzerakzeptanz.
 Aussprache-Lexika: Erwartet der Spracherkenner das Wort in der "richtigen" Aussprache?
Kann die Erkennung verbessert werden indem mehrere Aussprachevarianten angelegt
werden? (s.o)
 Wird der Zeitraum des aktivem Sprechens richtig erkannt? Wenn nein sollten dir Parameter
“maximale Pausenzeit”, “Empfindlichkeit” und “maximal Time –Out” angepasst werden. Auch
hier hilft ein “Logging” der Sprachsignale.
———————————————————————————————————————————————————
14.05.16
- 88 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
———————————————————————————————————————————————————
14.05.16
- 89 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Berechnung der Erkennungsraten
Fehlertypen:
I = Insertion / Einfügung
S = Substitution / Ersetzung
D = Deletion / Löschung
N = Anzahl der gesprochenen Einheiten ( Wörter / Phoneme)
I SD
Accuracy  1 
N
Word Error Rate  WER 
I SD
N
Gesprochener Satz / Erkannter Satz
wir haben heute das schöne wetter
wir haben heute
schöne Vetter
D
S
ausgenutzt
um Schwimmen zu gehen
aus
besitzt um Schwimmen zu gehen
S
I
———————————————————————————————————————————————————
14.05.16
- 90 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Eigenschaften von Spracherkennungssystemen
Wortschatz
klein (-20) , mittel (100 - 300) , groß ( > 1000)
Sprachmodell
Sprachart:
N-Gramm (für Dictation) / CFG (für Dialoge)
isolierte Wörter , verbundene Wörter, fließende Sprache
(letzteres wird heute fast ausschließlich benutzt)
Sprecherabhängig, Sprecheradaptiv, Sprecherunabhängig
 Sprecherabhängig: in Mobiltelefonen oder sehr kleinen
kostensensitiven Geräten mit kleinem Wortschatz.
 Sprecherunabhängig: Standard bei großen Erkennern für Diktat
oder Dialoge (Desktop oder Serverbasiert)
 Sprecheradaptiv: Sonderform des Sprecherunabhängigen
Erkenners. Die meisten Sprecherunabhängigen Erkenner
können auch auf Sprecher adaptiert werden
Geräuschfrei . Geräuschbehaftet
Verfügbarkeit
Umgebungsbedingungen
———————————————————————————————————————————————————
14.05.16
- 91 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Anwendungen der Spracherkennung
Diktatsysteme:
 perfekte Erkennung aber kein Verstehen notwendig
Command & Control:
 Erkennung + Reaktion
Bsp: Name Dialling
Dialogsysteme:
 Erkennung, Interpretation + Reaktion
———————————————————————————————————————————————————
14.05.16
- 92 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Spracherzeugung
 Wie lässt sich aus Text gesprochene Sprache erzeugen ?
 Welche Methoden / Verfahren gibt es ?
 Welche Fragen / Probleme sind zu lösen ?
 Welche Ressourcen benötigt das System ?
 Welche Eingangsdaten werden benötigt ?
 Anwendungen:
 Ansagedienste, die sich über jeden Kommunikationskanal erreichen lassen
 Sprechende Maschinen
Navigationssysteme, Intensivmedizin
Anrufbeantworter
 Sprechende Webseiten
———————————————————————————————————————————————————
14.05.16
- 93 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Prinzipien der Spracherzeugung
Spracherzeugung oder die Umsetzung von Text in gesprochene Spraceh lässt sich in zwei
grosse Komplexe gliedern, die orthographisch phonetische Transkription und die eigentliche
Synthese. In der orthographisch phonetischen Transkription wird des Text in eine Lautschrift mit
Prosodieinformation (Sprachmelodie) umgewandelt. Die nachfolgende eigentliche Synthese
wandelt diese textuelle Beschreibung in ein Sprachsignale um, welches dann über einen
Lautsprecher als Sprache wahrgenommen werden können.
Text
Lautschrift
Schall Signal
Synthese
Orthographisch- phonetische
Transkription (OPT)
D/A
———————————————————————————————————————————————————
14.05.16
- 94 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Modellbasierte Synthese
 Formantsynthese: Amplitude, Frequenz und Bandbreite der ersten drei Formanten
Die Formantsynthese basiert auf einem rein regelbasierten Erzeugung der Sprachsignale.
Während der Synthese werden keinerlei Aufnahmen menschlicher Sprecher verwendet. Die
Ausgangsdaten der OPT werden über ein Regelbasiertes System in Parameter für Synthesefilter
und Quellensinale umgewandelt.
Vorteile sind:
 geringer Speicheraufwand
 Verschiedene Stimmen lassen sich einfach über geänderte Regeln synthetisieren
Nachteile sind:
 Die Bestimmung der Regeln zur erzeugung der Modellparameter aus natürlicher Sprache ist
schwierig.
Die Qualität der erzeugten Sprache ist niedriger als bei den nachfolgen besprochenen
"Baustein-basierten" Verfahren
Da Regelbasierten Verfahren bis heute kein Klangqualität erreicht haben die dem der
menschlichen Stimme ähnelt, haben sich diese Verfahren am Markt nie durchsetzen können.
———————————————————————————————————————————————————
14.05.16
- 95 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Sollte dieses Problem eines Tages gelöst werden, dann können diese Verfahren wegen Ihren
inhärenten Vorteile aus Sicht des Diensteanbieters wieder sehr interessant werden.
 Baustein- basierte Synthese (Concatenative Speech Synthesis)
Nach den anhaltenden Problemen mit rein künstlichen Systemen, war die Idee ein
Sprachsynthesesystem auf Basis der menschlichen Stimme selbst zu entwickeln naheliegend.
Die Basisidee is einfach erklärt. Die Sprachaufnahmen eines menschlichen Sprechers werden in
phonetisch zusammenhängende Bausteine zerschnitten und abgespeichert. Bei der Synthese
werden zunächst mit Hilfe der OPT die notwendigen Phoneme bestimmt, die entsprechenden
Bausteine aus der Datenbank geholt und neu zusammengesetzt.
Folgende Fragen gilte es dabei zu beantworten:
Welche Bausteine sollten gewählt werden, - Phoneme - Diphone - Triphone oder Silben?
Wie vermeidet man bei der neuen Zusammensetzung Probleme an den Übergängen zwischen
den Bausteinen ?
Wie wendet man die Prosodieinformation auf die Bausteine an ?
———————————————————————————————————————————————————
14.05.16
- 96 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Folgende Aufstellung gibt Vor- und Nachteile der einzelnen Lösungen an:
> Phoneme als Bausteine
Wenige Bausteien also auch geringer Speicherbedarf
Schlechter Klang
( wieso ?)
> Diphone / Triphone / Silben
Viele - sehr viele Bausteine (wieviele ? - wenn man 50 Phonem annimmt )
Hiermit lässt sich ein deutlich besserer Klang realisieren
 Die Entwicklung eines Baustein- basierten Verfahrens erfordert folgende Schritte:
> Aufzeichnung der Datenbasis
> Markierung und Zerlegung in Bausteine
> Codierung (Kompression) der Bausteine
> Anpassung der Segmente (Equalization)
 Die Anwendung eines Baustein- basierten Syntheseverfahrens erfordert folgende Schritte:
> Decodierung
> "Modulation" der Bausteine mit der Sprachmelodie (Grundfrequenz, Dauer, Lautstärke)
> Aneinanderfügen der Segmente
———————————————————————————————————————————————————
14.05.16
- 97 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Orthographisch- phonetische Transkription (OPT)
Die OPT ist heute Schwerpunkt der Forschung und Entwicklung die sich die
Verbesserung der Sprachsynthese zum Ziel gesetzt hat. Die nachfolgenden Beispiele
zeigen einige aber bei weitem nicht alle Herausforderungen für die OPT:
Kontextabhängige Aussprache von Texten
Um 1810 wurde Beethoven geboren aber Die 1810 m2 Grundstück bieten viel Platz
21/4 == Bruch / Datum
Stuttgart siegte 2-1 aber Kapitel 2-1
Ausprache von Sonderzeichen und Abkürzungen:
Die Aktie kostet derzeit 30 $
Kg.  kilogramm
NATO
 gelesen
ADAC
 Buchstabenweise
[email protected]  we we we at b a strich horb punkt de
———————————————————————————————————————————————————
14.05.16
- 98 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Ausprache von Namen
Pierre Markovic
IBM
Sony
Betonungsabhängige Bedeutung von Texten
Der Junge ging nach Hause aber Junge Männer waren besonders häufig zu sehen.
Tenor (Wortlaut) aber Tenor (Sänger)
Heroin (Heldin) aber Heroin (Rauschgift)
Er wollte den Fußgänger umfahren (drum herum) aber Er wollte den Fußgänger umfahren
(überfahren)
Mischung verschiedener Sprachen:
Kindergarten  de
Kindergarden  ne
Eingedeutschte Begriffe: Computer, Manager, Meeting, usw
———————————————————————————————————————————————————
14.05.16
- 99 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Umsetzung des Textes in eine Phonetische Beschreibung
(Orthographisch - Phonetische Transkription)
 Lexikonbasiert
1. Vorverarbeitung: Wörter, Begriffe, Sätze identifizieren
 Satzende
"Er ging nach Hause. "
"Er arbeitete im Durchschnitt 2.5 Stunden am Tag.
2. Ermittlung und Beschreibung der Struktur von Wörtern (Morphologische Analyse)
 Wortstämme, Zusammensetzung,
 Verbformen, Einzahl / Mehrzahl, Person, Fall)
3. Analyse der Zusammenhänge zur bestmöglichen Erkennung der Struktur (Kontextanalyse)
Reduktion der Möglichkeiten
Rechter Kontext + Text + Linker Kontext
4. Phonetische Umsetzung
Lexikonbasiert aus der Morphemanalyse
Ausnahmen werden regelbasiert behandelt
———————————————————————————————————————————————————
14.05.16
- 100 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Regelbasierte Umsetzung des Textes in eine phonetische Beschreibung
Vorverarbeitung: Wörter, Begriffe, Sätze identifizieren
Zerlegung in Silben
Analyse der Zusammenhänge zur Erkennung von Ausnahmen
Regelbasierte Erzeugung der Phone
Ausnahmen zu den Regeln werden mit Sonderregeln behandelt
Beispiele:
- erkangen   Erlangen
- recorde
  record
[i:]
[e]
———————————————————————————————————————————————————
14.05.16
- 101 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Erzeugung der Prosodie (Sprachmelodie)
Neben der Koartikulation beeinflußt die Prosodie (oder Sprachmelodie) den empfundenen Klang,
die Natürlichkeit und sogar die Verständlichkeit der Sprache sehr stark. Die wesentlichen
Elemente sind die Grundfrequenz, die Zeitdauer und die Lautstärke eines Bausteins. Um
Prosodie- parameter für die Synthese zu ermitteln können die Satzzeichen, Satzstrukturen und
die Wortklasse (Nomen, Verb, Adjektiv, Adverb, ...) benutzt werden.
Prosodieparameter lassen sich aber heute noch nicht in Abhängigkeit von der Bedeutung des
Satzes ableiten, da hierzu ein Verstehen des Textes notwendig wäre
———————————————————————————————————————————————————
14.05.16
- 102 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Unterschiedliche Phonetische Darstellungen eines Satzes
Haben
Sie
mal einen
Kaffee ?
h'a:.b@n zi: ma:l ?aI.n@n k'a.fe
h'a:.bn zi: ma:l ?aIn k'a.fe
h'a:.bm zi: ma:.laIN k'a.fe
h'a:m.z@ ma:l.N k'a.fe
h'am.z@ ma:N k'a.fe
———————————————————————————————————————————————————
14.05.16
- 103 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Entwicklung von Sprachgesteuerten Applikationen

Systemübersicht
Konzeption und Realisierung kann lokal oder im Netz erfolgen

Netzbasierte Sprachgesteuerte Applikationen bieten:
 Eine Erweiterung des WWW um das bestehenden WWW-Angebot mit Sprachdiensten zu
koppeln
 Zugriffsmöglichkeit übers Telefon, damit erhöht sich die Nutzeranzahl gewaltig
 Ergänzung der bestehenden Seiten ohne großen Aufwand
 Angebote auch für Seh-Behinderte

Der heutige Stand der Technik erlaubt:
 Eine komplette Trennung von Hard- und Software
 Eine Trennung von Applikation und Technik durch Anwendung von VoiceXML
 Flexibilität zur Nutzung verschiedener Technologieanbieter
 Skalierbarkeit
 Integration in bestehende IT Infrastruktur
———————————————————————————————————————————————————
14.05.16
- 104 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————

Abkürzungen
Begriffe:
ASR
TTS
VXML
IP
RTP
TCP
MRCP
Automatic Speech Recognition (Spracherkennung)
Text To Speech (Sprachsynthese)
Voice XML = Markup Sprache für Sprachapplikationen
ist klar oder ?
Real Time Transport Protocol
Transmission Control Protocol
Media Ressource Control Protocol
———————————————————————————————————————————————————
14.05.16
- 105 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Architektur Netzbasierter Sprach-Server
VXML
Applications
Voice Server
Application
Server
VXML Browser
Analog / ISDN /
GSM / SIP
Media Control
MRCP
Spracherkenner
(ASR)
IF
RTP
Sprachsynthese
(TTS)
Speech Models
———————————————————————————————————————————————————
14.05.16
- 106 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 XML Standards des World Wide Web Consortium (W3C)

VoiceXML (VXML) für den Entwurf von Sprachdialogen

Voice Browser Group

Einheitliche Markup Language zum Entwurf von Sprachdialogen

Keine Kenntnis der Spracherkenner / Sprachsynthese API notwendig

Sprachunabhängig (Landessprache wird am Anfang definiert)

Unterstützt den Entwurf von Dialogen (<form> <menu> <subdialogue> )

Unabhängig von der HW / SW Plattform

XML Standard

Ablaufkontrolle (Form Interpretation algorithm)

Spezielle Events für das Error handling

Unterstützt verteilte Plattformen (http Request an Application Server)
Siehe http://www.w3.org/TR/voicexml20/
———————————————————————————————————————————————————
14.05.16
- 107 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 VoiceXML Beispiel
<?xml version="1.0" encoding="UTF-8"?>
<vxml xmlns="http://www.w3.org/2001/vxml"
xmlns:xsi=http://www.w3.org/2001/XMLSchemainstance
xsi:schemaLocation="http://www.w3.org/2001/vxml http://www.w3.org/TR/voicexml20/vxml.xsd"
version="2.0">
<form>
<block>Hello World!</block>
</form>
</vxml>
———————————————————————————————————————————————————
14.05.16
- 108 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Speech Synthesis Markup Language (SSML) für die Ansteuerung des TTS Systems
Globale Elemente: ... xml:lang="en Us" ...,
1. XML Parser  Dokumentenaufbau & Struktur
2. Strukturanalyse  Was muss wie gelesen werden ?
<paragraph>, <sentence>
3. OPT (TTS)
Ausnahme behandlung <say-as>
Phonetische Beschrebung <phoneme>
Prosodie: <emphasis>, <break>, <prosody>
4. Synthese: <voice>  Geschlecht, Alter ,
———————————————————————————————————————————————————
14.05.16
- 109 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Speech Recognition grammar specification (SRGS) für die Definition von CFG
Grammatiken
Wortschatzdefinition
<grammar type="application/srgs+xml" src="/grammars/boolean.grxml"/>
Einzelworte
Beispiel:
<menu>
<prompt> Welcome home. Say one of: <enumerate/>
</prompt>
<choice next="http://www.bn.de/vxml/start.vxml"> Sports </choice>
<choice next="http://www.bn.de/intro.vxml"> Weather </choice>
<choice next="http://www.bn.de/astronews.vxml"> Stargazer astrophysics news </choice>
<noinput>Please say one of <enumerate/> </noinput>
</menu>
———————————————————————————————————————————————————
14.05.16
- 110 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Aus Erfahrung ... Wie entwickelt man Sprachapplikationen ?
Entwicklung des Dialogs
Spracherkennung
Sprachsynthese
 Klar aber kurz
 Mixed Initiative oder
System initiative
 Ansagen variieren
 Virtuelle Persönlichkeit
 Sorgfältiger Entwurf der
Grammatik
 Optimierung der
Grammatik
 "Confidence Level"
nutzen
 N-Best List nutzen
 Beste Qualitäte wählen
 Fehlerbehandlung ist
notwendig !
Behandlung von
Erkennungsfehlern
 Übergang zum
gerichteten Dialog
 Übergang zur Hotline
 Nutzung von DTMF
———————————————————————————————————————————————————
14.05.16
- 111 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Multimodalität
 Motivation
 Konzept
 Beispiele
———————————————————————————————————————————————————
14.05.16
- 112 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Motivation
Die Sinneswahrnehmung und Ausdrucksmöglichkeiten des Menschen sind asymmetrisch
ausgeprägt.
Das Erfassen von Informationen geschieht primär mit Hilfe des Sehsinnes ("Ein Bild sagt mehr
als 1000 Worte").
Will der Mensch aber selbst Informationen darstellen (erzeugen) wird primär die Sprache
verwendet.
Eine optimale Mensch -Maschine Schnittstelle sollte diese Asymmetrie berücksichtigen!
Klassische nicht technische Anwendungen: das Buch !
———————————————————————————————————————————————————
14.05.16
- 113 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Konzept (aus http://www.w3.org/TR/2005/WD-mmi-arch-20050422/)
Multimodale Applikationen nutzen sowohl die Sprache als auch das Sehsinn des Menschen aus.
Die Ausgabe von Informationen geschieht bevorzut visuell die Eingabe bevorzugt mit Sprache
 Sequentielle Multimodalität
Ein Dialogschritt enthält immer nur eine Modalität für die Ein- oder Ausgabe von Informationen
("Entweder - Oder")
Der Benutzer kann die Applikation entweder mit Sprache oder mit der Maus, Keypad, und Stift
steuern.
Die Ausgabe geschieht entweder mit Sprache oder über das Display
 Simultane Multimodalität
Ein Dialogschritt kann mehrere Modalitäten gleichzeitig enthalten (Sowohl als auch)
———————————————————————————————————————————————————
14.05.16
- 114 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Realisierung von Multimodalen Applikationen
1.) Codierung als Markup Dokument
Aus W3C Standards:
"we assume that multimodal applications will take the form of mixed-markup documents, i.e.,
documents that contain markup in multiple namespaces. In many cases, the different
namespaces and markup languages will correspond to different modalities, ..."
2.) Wiederverwendung bestehender Architekturen
Application Server (zB.: J2EE) für Webanwendungen
Voice Server für Sprachanwendungen
3.) Zu lösende Aufgaben
 Viele Möglichkeiten für die Integration der beiden Architekturen
 standardisierte Entwicklungsumgebungen fehlen
 Synchronisation von Events (besonders bei simultaner Multimodalität) notwendig
 Synchronisation der Datenkanäle (Sprache und Daten (xhtml)) notwendig
 Design der Mensch-Maschine Schnittstelle
———————————————————————————————————————————————————
14.05.16
- 115 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Beispiele
Es gibt sehr viele mögliche Anwendungen!
Telefonbuch
Navigationssystem
Handbuch (Manual) für Autos
Usw.
———————————————————————————————————————————————————
14.05.16
- 116 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Verfahren zur Verbesserung der Sprachqualität
 Elektroakustische Wandler
Lautsprecher
Mikrofone
 Geräuschreduktion
 Echokompensation
———————————————————————————————————————————————————
14.05.16
- 117 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Elektoakustische Wandler
 Lautsprecher
 Mikrofone
Dynamisches Mikrofon
Kondensatormikrofon
Elektretmikrofon
Zukünftig: Integrierte Mikrofone
———————————————————————————————————————————————————
14.05.16
- 118 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Geräuschreduktion
Sprachkommunikation mittels Telefonie wird heute oft in Situationen mit starkem Hintergrundgeräusch praktiziert. Telefonieren während des Fahrens oder in der Öffentlichkeit an stark
frequentierten Orten (Bahnhof, Flughafen) sind typische Beispiele. Da diese Hintergrundgeräusche sich sehr störend auf die Verständlichkeit der Sprache auswirken können, sind
Verfahren
zur
Reduktion
des
Geräuschs
wichtige
Komponenten
eine
Telekommunikationssystems. Generell unterscheidet man mehrere Arten der Geräuschreduktion
 Geräuschreduktion mittels spezieller Mikrofone
 Richtmikrofone
 Drahtlose Mikrofone
 Geräuschreduktion mittels Signalverarbeitungsverfahren für Mikrofonarrays
 Zweikanal -Verfahren
 Mehrkanalige Verfahren (Beamforming)
 Geräuschreduktion mittels Signalverarbeitungsverfahren für ein Mikrofon
———————————————————————————————————————————————————
14.05.16
- 119 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Geräuschreduktion mittels Signalverarbeitungsverfahren für Mikrofonarrays (Zweikanalverfahren)
 Funktionsprinzip:
Der erste Ansatz geht von zwei Mikofonen mit unterschiedlicher Richtcharakterisktik aus.
Mikrofon 1  Omnidirektionale Charakteristik
Mikrofon 2  Undirektionale (/Bidirektionale) Charakteristik
Weiterhin wird angenommen das Geräusch gleichmäßig von allen Seiten auf die Mikrofone
auftrifft. Damit ergeben sich folgende Gleichungen:
X1 = S + N
S = Signal (Sprache) N = Noise (Hintergrundgeräusch)
X2 = k * S + N
Damit ergibt sich ein Gleichungssystem bestehend aus X1 und X2 und zwei Unbekannten (S,
N)) welches, sofern es nicht linear abhängig ist, nach den beiden Unbekannten aufgelöst werden
kann, in unserem Beispiel durch Subtrahieren
X2 - X1 = k * S + N - S - N = (k -1) * S  Diese Gleichung lässt sich dann nach S auflösen.
 Vorteile
- theoretisch lassen sich sehr hohe Geräuschdämpfungen erreichen
 Nachteile
- Das Geräusch ist richtungsabhängig,
- höherer Aufwand, da 2 Kanäle benötigt werden (2 Mikrofone + 2 AD Wandler + 1 DSP)
———————————————————————————————————————————————————
14.05.16
- 120 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Geräuschreduktion mittels Signalverarbeitungsverfahren für Mikrofonarrays
- Mehrkanalige Verfahren (Beamforming)
 Geräuschreduktion mittels Signalverarbeitungsverfahren für ein Mikrofon
- In vielen Fällen kann aus Kosten oder Platzgründen weder ein Mikrofon mit Richtcharakteristik
noch ein Mikrofonarray eingesetzt werden. In diesem Fall muss ein Signalverarbeitungsverfahren benutzt werden um das Geräusch wirksam zu reduzieren
 Funktionsweise
- Durch Anwendung eines digitalen Filters soll das Mikrofonsignal vom Störgeräusch befreit
werden
x = Mikrofonsignal = S+N
FFT = Fast Fourier transform
IFFT = inverse FFT
Sest = geschätzes Sprachsignal
Endgerät
Sprecher A
(lokal)
ADC
Geräusch
FFT
x = S+N
Filter
(H)
X
IFFT
Sest
zum fernen
Sprecher
(est = estimated)
———————————————————————————————————————————————————
14.05.16
- 121 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Echokompensation
 Definition des "Echo"
 Tonfiles
 Wie entstehen Echos ?
 Freisprechfunktion des Telefons:
Akustische Rückkopplung des Lautsprechersignals zum Mikrofon
Mehrere Echopfade sind möglich:
Echorückkopplung über das Gehäuse
Echorückkopplung über im Raum reflektierten Schall
 Echos sind auch ohne Freisprechfunktion nur durch die akustische Kopplung des Gehäuses
vorhanden
 Verstärkung der Problematik bei Handys wegen kleiner Gehäuse (kurze Echowege, starke
Kopplung)
———————————————————————————————————————————————————
14.05.16
- 122 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Elektrische Echos:
Echos entstehen auch durch elektrische Rückkopplung im analogen Übertragungssystem
 4 Draht - 2 Draht Umsetzung in der Vermittlungsstelle
 sehr hohe Verzögerungszeiten des Echos
 spielen bei der zunehmenden Digitalisierung eine immer geringere Rolle
———————————————————————————————————————————————————
14.05.16
- 123 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Welche Echos sind störend ?
 Je höher die Verzögerung des Echos, desto störender wird es empfunden
 Echo return loss
 Welche Eigenschaften muß eine Einheit zur Unterdrückung des Echos haben ?
Anpassung an die variablen Echopfade
Anwendbar auf verschiedene Geräte
TCL = Terminal coupling loss
———————————————————————————————————————————————————
14.05.16
- 124 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Zur Lösung des Echoproblems muß eine Einheit zur Unterdrückung des Echos (Echo
Canceller) integriert werden.
 Eine einfache Realisierung eines "Echo Cancellers" ist die Pegelwaage, deren Blockschaltbild
unten abgebildet ist.
Endgerät
Sprecher A
(lokal)
ADC
LA
Echopfad
kA
zum fernen
Sprecher
Kontrolllogik
kB
LB
DAC
Wand
———————————————————————————————————————————————————
14.05.16
- 125 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Funktionsprinzip:
- Die Pegelwaage überwacht die Pegel der Sprachsignale vom lokalen und vom "fernen"
Sprecher LA und LB und erkennt daraus welcher Sprecher gerade spricht. Der Signalpfad der
aktiven Sprechers bleibt unbeeinflußt, der andere Signalpfad wird stark bedämpft. Die
Dämpfung wird durch Multiplikation des Sprachsignals mit den Faktoren kA & kB realisiert.
- Wenn der lokale Sprecher spricht wird die Lautsprecherausgabe stark gedämpft, um die
Entstehung eines Echos zu vermeiden. (kA = 1, kB << 1)
- Wenn der ferne Sprecher spricht wird das Mikrofonsignal stark gedämpft um die Weiterleitung
des Echos weitgehend zu unterdrücken. (kA << 1, kB = 1)
 Vorteile
einfache Realisierung, robustes Verfahren, annehmbarer Klang
 Nachteile
- Die Pegel- Regelung macht sich permanente Lautstärkeänderung bemerkbar.
- Diese Lösung erlaubt immer nur einem Sprecher zu sprechen. Das Signal des anderen
Sprechers wird unterdrückt. Wenn beide Sprecher gleichzeitig sprechen funktioniert die
Pegelwaage nicht mehr.
- Weil immer nur ein Signalpfad verbunden ist wird dieses Verfahren auch als "half duplex"
(Walkie-Talkie Effekt) Verfahren bezeichnet.
———————————————————————————————————————————————————
14.05.16
- 126 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Eine hochwertigere Lösung des Echoproblems lässt sich mit einem adaptiven Filter erreichen,
dessen Blockschaltbild unten abgebildet ist.
Endgerät
Sprecher A
(lokal)
ADC
FIR
Error
h
Kontrolllogik
Echopfad
LA
zum fernen
Sprecher
LB
DAC
Wand
———————————————————————————————————————————————————
14.05.16
- 127 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Funktionsprinzip:
- Der Echopfad kann auch als akustisches Filter betrachtet werden, dessen Verhalten sich auch
mit einem digitalen Filter (FIR -Filter) nachbilden lässt. Wenn die Nachbildung gut ist kann der
Echoanteil des Mikrofonsignals direkt aus dem Signal des fernen Sprechers berechnet
werden und dann vom Mikrofonsignal abgezogen werden.
- Da sich die akustischen Bedingungen laufend verändern, müssen auch die Filterkoeffizienten
(h) laufend angepasst werden.
- Die Anpassung wird durchgeführt wenn der lokale Sprecher schweigt und der ferne Sprecher
aktiv ist um das Filter optimal auf den Echopfad anzupassen.
 Vorteile
- full duplex Verfahren, gute Klangqualität
 Nachteile
- komplex es Verfahren
- anfällig gegen Hintergrundgeräusche
- anfällig gegen michtlineare Verzerrungen (z.B.: im Lautsprecher)
- Die maximal mögliche Laufzeit des Signals muss berücksichtigt werden
———————————————————————————————————————————————————
14.05.16
- 128 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Adaptives Filter zur Realisierung einer full duplex Echokompensation für das Freisprechen
-
Endgerät
ADC
FIR
Echopfad
Kontrolllogik
DAC
Wand
———————————————————————————————————————————————————
14.05.16
- 129 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 weitere Verfahren
- Kombination von Pegelwaage und adaptivem Filter
- Kobination von Geräuschunterdrückung und Echokompensation
———————————————————————————————————————————————————
14.05.16
- 130 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
 Begriffe / Abkürzungen:
3GPP 3rd Generation Partnership Project
Internationale Standardisierungsorganisation für Mobilfunknetze der 3ten (UMTS) und
4ten Generation www.3gpp.org
DECT Digital enhanced cordless telephony
Standard für digitale Kurzstreckenübertragung wie sie bei Schnurlosen Telefonen im
Heimbereich genutzt wird.
DNS
Domain name system
DTMF Dual tone multi frequency
Bezeichnet die Wähltöne beim Telefon die zur inband Signalisierung benutzt werden.
ETSI
European Telecommunikation Standardisation Institute
Standardisierungsinstitut für GSM Mobilfunknetze. Mitglieder sind sowohl alle
großen Telekommunikationsausrüster (Alcatel, Ericcson, Motorola, Nokia, SIemens, ... )
als auch alle großen Netzbetreiber (Deutsche Telecom, British Telecom, FRance
———————————————————————————————————————————————————
14.05.16
- 131 -
Bernhard Noé
Digitale Sprachsignalverarbeitung
——————————————————————————————————————————————————
Telecom, Telecom Italia, Vodafone, ...)
Formant Vokale enthalten mehrere (~5) Maxima im Frequenzspektrum, die als Formanten
bezeichnet werden. Sie bilden die spektrale Hüllkurve des Sprachsignals.
FIR
Finite Impulse Response Digitales Filter mit endlicher Impulsantwort.
IMS
Internet Multimedia Subsystem
IP basiertes Netzwerk für zukünftige Mobilfunksysteme.
ITU
International Telecom Union
Internationale Standardiseirungsorganistaion der UNO. Hier werden sehr viele
Standards für die Festnetze definiert
Bsp: G711 8kHz PCM Sprachcodec, G7xx Serie sind die Sprachcodecs
PSTN Public switched telephone network (Vermittlungsbasiertes Telefonnetz)
PABX Public access branch exchange (Vermittlungsstelle)
PBX
Private branch exchange (Nebenstellenanlage)
———————————————————————————————————————————————————
14.05.16
- 132 -
Bernhard Noé
Herunterladen