Untersuchungen zum Zusammenhang zwischen Sprachsignal und Sprecher unter Stress Milan SIGMUND, [email protected] Technische Universität Brünn, Tschechische Republik FH Wiesbaden 23. 4. 2008 INHALT • Einleitung • Einfluss von Stress auf Sprache • Sprachmaterial • Experimentelle Ergebnisse • Anwendung in der Sprachverarbeitung • Zusammenfassung und Ausblick Einleitung Stress ist ein physiologisch-psychologischer Zustand charakterisiert durch : - subjektive Belastung, - schlechtere physiologische Tätigkeit, - schlechtere Leistung. Stress Einleitung Ziel Offene Fragen Können wir Stress bei Menschen überhaupt objektiv messen? Können wir das Sprachsignal als geeigneten Stressindikator verwenden ? Motivation und Ziel der Forschungsarbeit Entwicklung von Algorithmen für die automatische Detektion von Stress mittels Sprachanalyse. Einleitung Spracherzeugung Grundfrequenz Umschalter stimmhaft/stimmlos Impulsgenerator Sprachsignal Filter Rauschgenerator Verstärkung Filterkoeffizienten s(t) = g(t) * h(t) s(t) g(t) h(t) - Sprachsignal - Anregungssignal - Impulsantwort des Vokaltraktes Modell der Spracherzeugung Verstärkung Einleitung Informationsgehalt der Sprache Gesamte Information im Sprachsignal (reine Sprache): - ca. 75 % bezieht sich auf die gesprochene Nachricht (ähnlich der geschriebenen Form) - ca. 25 % bezieht sich auf den Sprecher: 15 % - Identität des Sprechers 10 % - psychischer und physischer Zustand, Herkunft des Sprechers, etc. Einfluss von Stress auf Sprache Allgemein Psychologische Auswirkungen: - veränderte Satzstruktur, - Inhalt der Sprache, - Wiederholung von ausgewählten Wörtern, - falsches Aussprechen von einigen Lauten, - verändertes Sprachtempo und nicht korrekte Intonation. ……… analysiert von Psychologen und Psychiatern Physiologische Auswirkungen: - ungleichmäßige Atmung, -Vergrößerung der Muskelspannung. ……….Untersuchungen von messbaren Merkmalen der Stimme Einfluss von Stress auf Sprache Modell Externe Stressstimulation Physiologische Veränderungen Muskelveränderungen Bewegungsveränderungen im Vokaltrakt Veränderungen der auditiven Sprachmerkmale Modell der messbaren Sprachveränderungen aufgrund von Stress. Sprachmaterial RSG10 Datenbank RSG10 NATO Research Project started in 1994 by Military Air Traffic Control Centre in the Netherlands communication between fighter pilot and co-pilot by accident ca. 15 minutes of each from 11 speakers database „calibrated“ by means of following physiological measures: - heart rate - blood pressure (systolic and diastolic) - respiration (volume and rate) - transcutaneous pCO2 database not available Sprachmaterial SUSAS Datenbank SUSAS (Speech Under Simulated and Actual Stress) 32 speakers (13 female, 19 male) with ages from 22 to 76 five stress domains include: - talking styles (slow, fast, soft, loud, angry, clear, question) - single tracking task or speech produced in noise (Lombard effect) - dual tracking computer response task - psychiatric analysis data (speech under depression, fear, anxiety) - actual subject motion-fear tasks (Lombard effect, noise, fear) database distributed by Linguistic Data Consortium http://www.ldc.upenn.edu Sprachmaterial Eigene Stressdatenbank Database ExamStress Sprachsignal: 16 Bit und 22 050 Hz im Wave-Format Versuchspersonen: 21 männliche Studenten und 8 Doktoranden Stresssituation: Prüfung vor der Prüfungskommission Sprachproben: je ca. 120 Sekunden Sprachmaterial: 182 Minuten Drei Sprachproben von jedem Sprecher Sprachprobe: Nr. 1 Nr. 2 Stress: spontan gesprochen Neutral: gelesen gelesen Nr. 3 gelesen gelesen Sprachmaterial Eigene Stressdatenbank Heart Rate (pulse/min) 160 150 140 130 120 110 100 90 80 70 0 100 200 300 400 500 600 700 800 900 Time (s) Herzpulsrate unter Stress während der Prüfung (obere Kurve) und ohne Stress (untere Kurve). Experimentelle Ergebnisse Zeitliche Charakteristiken Phoneme "a" 60 50 40 30 20 10 0 60 100 140 180 220 260 Time [msec] Phoneme "e" 80 70 60 50 40 30 20 10 0 60 100 140 180 220 260 Time [msec] Zeitliche Dauer der Vokale „a“ und „e“ gestrichelte Linie – unter Stress durchgezogene Linie – ohne Stress Experimentelle Ergebnisse Sprache ohne Stress unter Stress Formanten F1 B1 F2 B2 F3 B3 F4 B4 409 52 1981 218 2630 489 3356 371 525 98 2068 142 2672 462 3347 383 Änderungen der Formanten im Spektrum des Vokals „i“: - Fi Formantfrequenzen in Hz - Bi Formantbandbreiten in Hz Experimentelle Ergebnisse Sprache Sprecher De Mean Dev. Grundfrequenz Sprecher Fl Mean Dev. Sprecher Po Mean Dev. ohne Stress 127 16 142 13 148 25 unter Stress 162 25 243 61 177 52 500 500 400 300 300 200 200 100 100 0 0 100 150 200 250 400 300 100 150 200 300 F0 [H z ] F0 [H z ] ohne Stress 250 unter Stress Verteilung der Grundfrequenz (in Hz) Experimentelle Ergebnisse mel-Cepstrum Sprecher De 1 Probe Zustand mcc(9) 2 3 N S N S N S -0,191 -0,096 -0,206 -0,150 -0,121 0,056 Sprecher Fl 1 Probe Zustand mcc(9) 2 3 N S N S N S -0,152 0,160 -0,101 -0,025 -0,024 0,002 Mittelwerte von mcc (9) Experimentelle Ergebnisse Spracherzeugung Glotallimpulse Glottis Experimentelle Ergebnisse Glotallimpulse s (t) Wendepunkt s(t) , g Te Tc vg1(t) Ee Top v (t) = s´(t) vg2(t) Ta Verarbeitung von Glottalimpulsen Experimentelle Ergebnisse 0.4 , g 0.2 Glotallimpulse Te 0 -0.2 zwischen Top n Te Top v (n) Ee -0.4 -0.6 vn Ee -0.8 -1.0 sin T g 0 2 4 6 8 sin g n Top e Top e n Te 10 n [ms] Approximation nach Liljencrant und Fant (LF-Modell) Experimentelle Ergebnisse Glotallimpulse 0.25 Normal RNormal 0.20 0.15 0.10 Stress RStress 1 2 3 4 5 6 Segment [-] Werte des Parameters α im LF-Modell für den Laut „a“ Experimentelle Ergebnisse Glotallimpulse 1 s (n) 0 -1 0 0.01 0.02 0.03 0.04 n [s] 0.05 0.01 0.02 0.03 0.04 0.05 1 v (n) 0 n [s] -1 0 Beispiel für den Laut „a“: links oben – Sprachsignal im Zeitverlauf links unten – 1. Ableitung der Glottalimpulse rechts – Verteilung der Ableitungen (ca. 4000 Segmente) Experimentelle Ergebnisse Glotallimpulse 120 10 100 20 30 80 40 50 ohne Stress (oben) 60 60 40 70 80 20 90 100 20 40 60 80 100 120 140 160 180 0 0 0.2 0.4 0.6 0.8 1 200 10 180 20 160 30 140 40 120 50 100 60 80 70 60 80 40 90 20 100 20 40 60 80 100 120 140 0 unter Stress (unten) 0 0.2 0.4 0.6 0.8 Beispiel für den Sprecher „De“ 1 Experimentelle Ergebnisse Glotallimpulse 120 10 100 20 30 80 40 50 ohne Stress (oben) 60 60 40 70 80 20 90 100 20 40 60 80 100 120 140 160 180 0 0 0.2 0.4 0.6 0.8 1 250 10 20 200 30 40 unter Stress (unten) 150 50 60 100 70 80 50 90 100 20 40 60 80 100 120 140 160 0 0 0.2 0.4 0.6 0.8 Beispiel für den Sprecher „Kl“ 1 Experimentelle Ergebnisse Glotallimpulse 100 1000 80 800 60 600 40 400 20 200 ec1 S1 S3 50 100 150 100 0 0 0.2 S2 0.4 0.6 0.8 S1 S 2 S3 1 1500 80 1000 60 ec3 40 S7 500 20 S8 S6 50 100 150 0 0 0.2 0.5 S9 0.7 1 S7 S9 S6 S8 Anwendung in der Sprachverarbeitung _____________________ - automatische Psychoanalyse durch Stimmenanalyse (Medizin, Kriminalistik,...) - robuste Sprach- und Sprechererkennung (Gerätesteuerung, Sicherheitssysteme,...) - emotionale Sprachsynthese (akustische Meldungen, Dialogsysteme,...) Danke für Ihre Aufmerksamkeit.