Perzeptive Phonetik Uwe Reichel IPS, LMU München [email protected] 11. November 2009 Inhalt • I Anatomie und Physiologie des Gehörs • II Psychoakustik • III Lautwahrnehmung Inhalt 1 I Anatomie und Physiologie des Gehörs Abbildung 1: Frontalschnitt durch das Gehörorgan (nach Zwicker, 1982). I Anatomie und Physiologie des Gehörs 2 Außenohr • Ohrmuschel (Aurikel) – Schalllokalisierung vorne hinten: hohe spektrale Anteile des von hinten kommenden Schalls werden reflektiert und gelangen daher nicht ins Ohr −→ spektrale Unterschiede des Schalls in Abhängigkeit der relativen Position der Schallquelle • Ohrtrichter (Concha): Resonator • Äußerer Gehörgang (Meatus Auditivus) – Schutz des Mittel- und Innenohrs – Resonator (einseitig geschlossenes Rohr): Verstärkung des für Lautsprache relevanten Frequenzbands zwischen (2–5 kHz) I Anatomie und Physiologie des Gehörs 3 Mittelohr • Trommelfell: schwingungsfähige Membran • Gehörknöchelchen (Ossikel): Hammer (Malleus), Amboss (Incus) und Steigbügel (Stapes) • Schallverstärkung u.a. durch Hebelwirkung Abbildung 2: Längen- und Flächenverhältnisse bewirken eine Schalldruckverstärkung im Mittelohr. I Anatomie und Physiologie des Gehörs 4 Innenohr Abbildung 3: Teilweise (a) und komplett (b) aufgerollte Schnecke (Cochlea). Scala vestibuli führt vom ovalen Fenster zur Schneckenspitze (Apex, Helicotrema), scala tympani von der Spitze zum runden Fenster. (aus Goldstein, 1997) I Anatomie und Physiologie des Gehörs 5 Abbildung 4: Schnitt durch eine Etage der Cochlea. (aus Wikipedia) • Scala vestibuli und Scala tympani sind getrennt durch die Scala Media, deren Unterseite die Basilarmembran bildet. • Auf der Basilarmembran sitzt das Cortische Organ (Ort der Sinneszellen), das mit dem Hörnerv verbunden ist. Über ihr befindet sich die Tektorialmembran. I Anatomie und Physiologie des Gehörs 6 Frequenz-Orts-Transformation (nach Békésy, 1960) • Die Basilarmembran besitzt ortvariante resonatorische Eigenschaften, d.h. konkret, weiter vorne lenken höhere Frequenzen die Membran maximal aus, weiter hinten tiefere. • Die in Schwingung gebrachte Lymphflüssigkeit in der Scala Media löst eine Wanderwelle auf der Basilarmembran aus, die ihre Maximalamplitude in Abhängigkeit der Frequenz entsprechend der ortvarianten resonatorischen Eigenschaften der Membran erreicht. • Tonotoper Aufbau der Membran: benachbarte Frequenzen lenken die Membran an benachbarten Stellen maximal aus. • An der stärksten Auslenkung der Basilarmembran durch die Wanderwelle, werden Basilarmembran und darüberliegende Tektorialmembran horizontal gegeneinander verschoben. Durch diesen Schereffekt knicken die Stereozilien (Härchen) der dort befindlichen Sinneszellen (innere Haarzellen, Abb. 4), was diese über den Hörnerv ans Gehirn weitermelden. I Anatomie und Physiologie des Gehörs 7 Abbildung 5: Tonotopie der Basilarmembran von Basalwindung (außen) bis Apex (innen). Abbildung 6: Frequenzabhängige Länge der Laufstrecke der Wanderwelle. (aus Pompino-Marschall, 2003) I Anatomie und Physiologie des Gehörs 8 Energietransformationen Außenohr . . . M ittelohr . . . aerodynamische / Energie Innenohr . . . mechanische T rommelf ell / ovalesF enster Energie Energie hydraulische Basilarmembran Energie mechanische biolektr. Haarzellen / ZN S Energie Abbildung 7: Das Ohr als Energietransformator. I Anatomie und Physiologie des Gehörs 9 II Psychoakustik • Teil der Psychophysik (Fechner, 1860) • Anhand physikalischer Größen lässt sich nicht unmittelbar auf die Reizempfindung schließen. • Ermittlung des funktionalen Zusammenhangs zwischen physikalischen Größen und Empfindungsgrößen. physikalische Größe Schalldruck Lautstärke Tonhöhe Dauer Maßeinheit Pasacal (Pa) oder dB phon Hertz (Hz) Sekunden (s) Empfindungsgröße Lautheit Lautheit Tonheit subjektive Dauer Maßeinheit sone sone mel,Bark dura Tabelle 1: Beispiele für physikalische Reizgrößen und entsprechende Empfindungsgrößen • allgemeine Methode: systematische Variation von Reizen verbunden mit Befragung von Versuchspersonen zu ihrer Wahrnehmung II Psychoakustik 10 Lautheit Hörfläche Abbildung 8: Hörfläche mit Hörschwelle und Schmerzschwelle. Gutes Hörvermögen v.a. in den für die Wahrnehmung gesprochener Sprache wichtigen Frequenzbereichen. (aus Hess, 2006, Zwicker, 1982) II Psychoakustik 11 • Schalldruckpegel in dB repräsentiert nicht die wahrgenommene Lautheit, da diese frequenzabhängig ist • phon – bezogen auf dB-Werte eines 1-kHz-Sinustons (hier: Phonwerte = dB-Werte) – Kurven gleicher Lautstärke – aber: nur für Sinustöne aussagekräftig, keine Aussagen über empfundene Lautstärkeverhältnisse möglich • sone – auch für komplexen Schall gültig – Bezugspunkt: 1 Sone := Lautheit eines 1-kHz-Sinuston mit Schalldruckpegel von 40 dB und Dauer von 1 s. – Verhältnisskala −→ Verhältnisaussagen möglich (ein Geräusch mit 10 sone wird als doppelt so laut empfunden wie ein Geräusch mit 5 sone). II Psychoakustik 12 Abbildung 9: Kurven gleicher Lautstärke/ Lautheit für Sinustöne. Im Gegensatz zu den PhonWerten links erlauben die Sone-Werte rechts Rückschlüsse auf Lautheitsverhältnisse (16 sone bedeutet 4x so laut wie 4 sone). Gestrichelte Linie: Hörschwelle. (aus Zwicker, 1982) II Psychoakustik 13 • • • • Tonheit Verhältnistonhöhe, Einheit: Mel, 100 Mel = 1 Bark Verhältnis meint: 2 mel wird doppelt so hoch empfunden wie 1 mel Bezugspunkt: 1000 mel = 1-kHz-Sinuston mit 40 dB mel-Skala bei tiefen Frequenzen eher linear, bei hohen eher logarithmisch Abbildung 10: durchgezogene Linie: Tonheit (in mel) als Funktion der Frequenz (in kHz). Zusammenhang bis ca. 500 Hz linear, darüber logarithmisch. (aus Zwicker, 1982) II Psychoakustik 14 III Lautwahrnehmung Vokale • Akustische Cues: – Abstand von Grundfrequenz und Formantgipfeln in Bark – intrinisische Dauer – Identifikation isolierter Vokale i.d.R. schwieriger als die Identfikation im Lautkontext, obwohl dort die akustische Variabilität größer ist III Lautwahrnehmung 15 Encodiertheit • Koartikulation −→ Laute über weite Bereiche im Signal codiert • da dies für alle Segmente gilt, ist jedes Segment akustisch durch die Eigenschaften benachbarte Segmente überlagert • −→ lautkontextabhängige Variabilität • Streit darüber, ob: – perzeptiv nutzbare Invarianzen im Signal zu finden sind (z.B. Motor Theory) – anstelle von Invarianzen Redundanzen im Signal sowie die Variabilität selbst bei der Lautwahrnehmung nützlich sind (z.B. H&H-Theorie) III Lautwahrnehmung 16 Konsonanten Kategoriale Wahrnehmung 1. Vollständige perzeptive Zuordnung von Stimuli zu einer bestimmten Anzahl von scharf gegeneinander abgegrenzten Kategorien. 2. Innerhalb einer Kategorie sehr geringe Diskriminationsfähigkeit. 3. Über Kategoriegrenzen hinweg große Diskriminationsfähigkeit. 4. Diskriminationsfähigkeit lässt sich aus Identifikationsfähigkeit vorhersagen. III Lautwahrnehmung 17 Experiment hierzu: • Präsentation eines Kontinuums von Plosiv-Vokal-Stimuli • Die Transitionen (=zeitliche Änderung der Formantlage an den Plosiv-Vokal-Übergängen) werden in kleinen äquidistanten Schritten so manipuliert, dass der Bereich /bV/–/dV/–/gV/ abgedeckt wird (V=Vokal) Abbildung 11: Zwei-Formant-Stimuli jeweils bestehend aus Plosivtransitionen und einer vokalischen Phase. Der Ausgangspunkt (Locus) der F2-Transition wurde in 13 äquidistanten 120 Hz-Schritten zwischen 1320 Hz und 2880 Hz variiert, wodurch die Plosive /b/, /d/ und /g/ überstrichen werden. III Lautwahrnehmung 18 • Identifikationstest: Zuordnung der Stimuli zu den Symbolen (Kategorien) /b/, /d/ und /g/ – Ergebnis: innerhalb von Kategorien nahezu vollständige Übereinstimmung, an Kategoriengrenzen scharfe Übergänge • Diskriminationstest: Überprüfung der Unterscheidbarkeit der Stimuli – Ergebnis: Diskriminationsfähigkeit an Kategoriengrenzen maximal, innerhalb von Kategorien auf Zufallsniveau. III Lautwahrnehmung 19 Abbildung 12: Idealisierte Beziehungen zwischen Identifikations- und Diskriminationsfähigkeit im Fall von kategorialer Wahrnehmung (durchgezogen) und im Fall von kontinuierlicher Wahrnehmung (gestrichelt). Im Falle kategorialer Wahrnehmung lässt sich aus den Identifikationsfunktionen die Diskriminationsfunktion vorhersagen. III Lautwahrnehmung 20 Kategoriale Wahrnehmung: allgemein auditiver vs. speziell phonetischer Prozess? • speziell phonetisch – psychoakustische Schwellen i.Allg. sowohl kategorieintern als auch an Kategoriegrenzen vorhanden – Sprachabhängigkeit kategorialer Grenzen (z.B. bei der Voice Onset Time) • allgemein auditiv – KW nichtsprachlicher Stimuli (z.B. gestrichene vs. gezupfte Saite) – KW bei Kleinkindern, Tieren – tendentiell KW, wenn Stimulusdetails im sensorischen auditiven Gedächtnis überschrieben werden (z.B. durch Maskierung; kategorialere Wahrnehmung von Vokalen in VC-Silben) III Lautwahrnehmung 21