Experimentelle Ergebnisse Glotallimpulse

Werbung
Untersuchungen zum Zusammenhang
zwischen Sprachsignal und Sprecher unter Stress
Milan SIGMUND, [email protected]
Technische Universität Brünn, Tschechische Republik
FH Wiesbaden
23. 4. 2008
INHALT
•
Einleitung
•
Einfluss von Stress auf Sprache
•
Sprachmaterial
•
Experimentelle Ergebnisse
•
Anwendung in der Sprachverarbeitung
•
Zusammenfassung und Ausblick
Einleitung
Stress
ist ein physiologisch-psychologischer Zustand
charakterisiert durch :
- subjektive Belastung,
- schlechtere physiologische Tätigkeit,
- schlechtere Leistung.
Stress
Einleitung
Ziel
Offene Fragen
Können wir Stress bei Menschen überhaupt objektiv messen?
Können wir das Sprachsignal als geeigneten Stressindikator
verwenden ?
Motivation und Ziel der Forschungsarbeit
Entwicklung von Algorithmen für die automatische Detektion von
Stress mittels Sprachanalyse.
Einleitung
Spracherzeugung
Grundfrequenz
Umschalter
stimmhaft/stimmlos
Impulsgenerator
Sprachsignal
Filter
Rauschgenerator
Verstärkung
Filterkoeffizienten
s(t) = g(t) * h(t)
s(t)
g(t)
h(t)
- Sprachsignal
- Anregungssignal
- Impulsantwort des Vokaltraktes
Modell der Spracherzeugung
Verstärkung
Einleitung
Informationsgehalt der Sprache
Gesamte Information im Sprachsignal (reine Sprache):
- ca. 75 % bezieht sich auf die gesprochene Nachricht
(ähnlich der geschriebenen Form)
- ca. 25 % bezieht sich auf den Sprecher:
15 % - Identität des Sprechers
10 % - psychischer und physischer Zustand,
Herkunft des Sprechers, etc.
Einfluss von Stress auf Sprache
Allgemein
Psychologische Auswirkungen:
- veränderte Satzstruktur,
- Inhalt der Sprache,
- Wiederholung von ausgewählten Wörtern,
- falsches Aussprechen von einigen Lauten,
- verändertes Sprachtempo und nicht korrekte Intonation.
……… analysiert von Psychologen und Psychiatern
Physiologische Auswirkungen:
- ungleichmäßige Atmung,
-Vergrößerung der Muskelspannung.
……….Untersuchungen von messbaren Merkmalen der Stimme
Einfluss von Stress auf Sprache
Modell
Externe Stressstimulation
Physiologische
Veränderungen
Muskelveränderungen
Bewegungsveränderungen
im Vokaltrakt
Veränderungen der
auditiven Sprachmerkmale
Modell der messbaren Sprachveränderungen aufgrund von Stress.
Sprachmaterial
RSG10
Datenbank RSG10





NATO Research Project started in 1994 by Military Air Traffic
Control Centre in the Netherlands
communication between fighter pilot and co-pilot by accident
ca. 15 minutes of each from 11 speakers
database „calibrated“ by means of following physiological
measures: - heart rate
- blood pressure (systolic and diastolic)
- respiration (volume and rate)
- transcutaneous pCO2
database not available
Sprachmaterial
SUSAS
Datenbank SUSAS (Speech Under Simulated and Actual Stress)
 32 speakers (13 female, 19 male) with ages from 22 to 76
 five stress domains include:
- talking styles (slow, fast, soft, loud, angry, clear, question)
- single tracking task or speech produced in noise (Lombard effect)
- dual tracking computer response task
- psychiatric analysis data (speech under depression, fear, anxiety)
- actual subject motion-fear tasks (Lombard effect, noise, fear)
 database distributed by Linguistic Data Consortium
http://www.ldc.upenn.edu
Sprachmaterial
Eigene Stressdatenbank
Database ExamStress
Sprachsignal:
16 Bit und 22 050 Hz im Wave-Format
Versuchspersonen: 21 männliche Studenten und 8 Doktoranden
Stresssituation:
Prüfung vor der Prüfungskommission
Sprachproben:
je ca. 120 Sekunden
Sprachmaterial:
182 Minuten
Drei Sprachproben von jedem Sprecher
Sprachprobe:
Nr. 1
Nr. 2
Stress:
spontan
gesprochen
Neutral:
gelesen
gelesen
Nr. 3
gelesen
gelesen
Sprachmaterial
Eigene Stressdatenbank
Heart Rate (pulse/min)
160
150
140
130
120
110
100
90
80
70
0
100
200
300
400
500
600
700
800
900
Time (s)
Herzpulsrate unter Stress während der Prüfung (obere Kurve) und
ohne Stress (untere Kurve).
Experimentelle Ergebnisse
Zeitliche Charakteristiken
Phoneme "a"
60
50
40
30
20
10
0
60
100
140
180
220
260
Time [msec]
Phoneme "e"
80
70
60
50
40
30
20
10
0
60
100
140
180
220
260
Time [msec]
Zeitliche Dauer der Vokale „a“ und „e“
gestrichelte Linie –
unter Stress
durchgezogene Linie – ohne Stress
Experimentelle Ergebnisse
Sprache
ohne
Stress
unter
Stress
Formanten
F1
B1
F2
B2
F3
B3
F4
B4
409
52
1981
218
2630
489
3356
371
525
98
2068
142
2672
462
3347
383
Änderungen der Formanten im Spektrum des Vokals „i“:
- Fi Formantfrequenzen in Hz
- Bi Formantbandbreiten in Hz
Experimentelle Ergebnisse
Sprache
Sprecher De
Mean Dev.
Grundfrequenz
Sprecher Fl
Mean Dev.
Sprecher Po
Mean Dev.
ohne Stress
127
16
142
13
148
25
unter Stress
162
25
243
61
177
52
500
500


400
300
300
200
200
100
100
0
0
100
150
200
250


400
300
100
150
200
300
F0 [H z ]
F0 [H z ]
ohne Stress
250
unter Stress
Verteilung der Grundfrequenz (in Hz)
Experimentelle Ergebnisse
mel-Cepstrum
Sprecher De
1
Probe
Zustand
mcc(9)
2
3
N
S
N
S
N
S
-0,191
-0,096
-0,206
-0,150
-0,121
0,056
Sprecher Fl
1
Probe
Zustand
mcc(9)
2
3
N
S
N
S
N
S
-0,152
0,160
-0,101
-0,025
-0,024
0,002
Mittelwerte von mcc (9)
Experimentelle Ergebnisse
Spracherzeugung
Glotallimpulse
Glottis
Experimentelle Ergebnisse
Glotallimpulse
s (t)
Wendepunkt
s(t)
, g
Te
Tc
vg1(t)
Ee
Top
v (t) = s´(t)

vg2(t)
Ta
Verarbeitung von Glottalimpulsen
Experimentelle Ergebnisse
0.4
, g
0.2
Glotallimpulse
Te
0
-0.2
zwischen Top  n  Te
Top
v (n)
Ee
-0.4
-0.6
vn    Ee
-0.8
-1.0

sin  T
g
0
2
4
6
8


sin  g n  Top 
e
 Top
e n Te 
10
n [ms]
Approximation nach Liljencrant und Fant (LF-Modell)
Experimentelle Ergebnisse
Glotallimpulse
0.25
Normal
RNormal
0.20

0.15
0.10
Stress
RStress
1
2
3
4
5
6
Segment [-]
Werte des Parameters α im LF-Modell für den Laut „a“
Experimentelle Ergebnisse
Glotallimpulse
1
s (n)
0
-1
0
0.01
0.02
0.03
0.04
n [s]
0.05
0.01
0.02
0.03
0.04
0.05
1
v (n)
0
n [s]
-1
0
Beispiel für den Laut „a“:
links oben – Sprachsignal im Zeitverlauf
links unten – 1. Ableitung der Glottalimpulse
rechts – Verteilung der Ableitungen (ca. 4000 Segmente)
Experimentelle Ergebnisse
Glotallimpulse
120
10
100
20
30
80
40
50
ohne Stress (oben)
60
60
40
70
80
20
90
100
20
40
60
80
100
120
140
160
180
0
0
0.2
0.4
0.6
0.8
1
200
10
180
20
160
30
140
40
120
50
100
60
80
70
60
80
40
90
20
100
20
40
60
80
100
120
140
0
unter Stress (unten)
0
0.2
0.4
0.6
0.8
Beispiel für den Sprecher „De“
1
Experimentelle Ergebnisse
Glotallimpulse
120
10
100
20
30
80
40
50
ohne Stress (oben)
60
60
40
70
80
20
90
100
20
40
60
80
100
120
140
160
180
0
0
0.2
0.4
0.6
0.8
1
250
10
20
200
30
40
unter Stress (unten)
150
50
60
100
70
80
50
90
100
20
40
60
80
100
120
140
160
0
0
0.2
0.4
0.6
0.8
Beispiel für den Sprecher „Kl“
1
Experimentelle Ergebnisse
Glotallimpulse
100
1000
80
800
60
600
40
400
20
200
ec1 
S1
S3
50
100
150
100
0
0
0.2
S2
0.4
0.6
0.8
S1
S 2  S3
1
1500
80
1000
60
ec3 
40
S7
500
20
S8
S6
50
100
150
0
0
0.2
0.5
S9
0.7
1
S7  S9
S6  S8
Anwendung in der Sprachverarbeitung _____________________
- automatische Psychoanalyse durch Stimmenanalyse
(Medizin, Kriminalistik,...)
- robuste Sprach- und Sprechererkennung
(Gerätesteuerung, Sicherheitssysteme,...)
- emotionale Sprachsynthese
(akustische Meldungen, Dialogsysteme,...)
Danke für Ihre Aufmerksamkeit.
Herunterladen