Multimediale Präsentationen zum Buch

Werbung
Multimediale Präsentationen zum Buch
„SPRACHVERARBEITUNG UND SPRACHÜBERTRAGUNG“
K. Fellbaum
Liebe Leserinnen und Leser,
die vorliegende Präsentation soll zur Veranschaulichung und Ergänzung des Buches „Sprachverarbeitung und Sprachübertragung“
dienen. Der Schwerpunkt liegt auf der Sprach- und Hörphysiologie.
Die Präsentation basiert weitgehend auf Arbeiten, die im Rahmen des BMBF-Förderprogramms „Neue Medien in der Bildung“ in
dem Projekt „eLearning-Module für Studiengänge der Informations-, Kommunikations- und Medientechnik (eL-IT)“, Teilprojekt
„Elektronische Sprachsignalverarbeitung“, durchgeführt wurden.
Eine ausführliche Darstellung des gesamten eL-IT-Projektes bietet die Dokumentation:
K. Fellbaum, M. Göcks (Hrsg.): eLearning an der Hochschule, Shaker Verlag Aachen 2004, ISBN 3-8322-2531-5.
In der nachfolgenden Präsentation finden Sie eine Reihe von Animationen, die den Sprechvorgang und Hörphänomene
veranschaulichen. Besonders hervorzuheben ist eine interaktive Animation: ein Modell der Spracherzeugung, das in seiner
wesentlichen Struktur von dem damaligen Informatik-Studenten Jörg Richter an der TU Berlin entwickelt wurde.
Im Rahmen des eL-IT Teilprojektes „Elektronische Sprachsignalverarbeitung“ waren maßgeblich beteiligt: Dr. M. Göcks als
Projektkoordinator, B. Malys und H.-J. Ullmann vom Multimediazentrum der BTU Cottbus und meine Mitarbeiterin Dr. B. Ketzmerick.
Allen genannten Personen bin ich zu großem Dank verpflichtet.
Abschließend bitte ich Sie noch, die nachfolgenden technischen Hinweise zu beachten.
Und nun wünsche ich Ihnen viel Vergnügen beim Erkunden der Präsentationen.
Klaus Fellbaum
TECHNISCHE HINWEISE
Die nachfolgenden technischen Hinweise dienen vor allem dazu, den problemlosen Ablauf der multimedialen Anwendungen zu
ermöglichen.
Die Präsentation enthält Animations-, Bild- und Audiodateien.
Die Nutzung der Präsentation erfordert einen aktuellen Internet-Browser mit den folgenden Erweiterungen:
• Adobe® Flash® Player (Adobe™ Systems)
• Java™ Plug-In (Oracle™)
Links zum Download (Stand vom 28.10.2012):
www.adobe.com/go/getflashplayer_de
www.java.com/de/download/index.jsp
COPYRIGHT
Die vorliegende Dokumentation ist urheberrechtlich geschützt. Sie kann für den privaten Gebrauch unentgeltlich verwendet
werden. Jegliche kommerzielle Nutzung sowie Veränderungen oder Erweiterungen der Dokumentation bedürfen der Zustimmung
des Autors.
Inhaltsverzeichnis
1. Sprachphysiologie und Spracherzeugung
1.1 Physiologie des Sprechtraktes
1.2 Lautbildung und Lautklassifikation
1.3 Modell der menschlichen Spracherzeugung
2. Hörphysiologie und Hörpsychologie
2.1 Hörphysiologie
2.2 Hörvorgang
2.3 Spektrale und zeitliche Verdeckung
3.Schlussbemerkung
1 Sprachphysiologie und Spracherzeugung
1.1 Physiologie des Sprechtraktes
Sprache und das Sprechen wurden entwicklungsgeschichtlich betrachtet erst spät „erfunden“. Die am Sprechen beteiligten
Organe wie Lunge, Bronchien, Luftröhre, Kehlkopf, Rachen, Nase und Mund hatten zunächst nur die Funktion der Atmung und der
Nahrungsaufnahme sowie Schutzfunktionen, nämlich zu verhindern, dass Nahrung in die Atmungsorgane gelangt.
Im übertragenen Sinne kann man jedoch den
Kehlkopf (Larynx) als Stimmorgan bezeichnen. Im
Laufe der Zeit entwickelte sich dieser zu einem
außerordentlich komplizierten und flexiblen Gebilde,
das die Stimmerzeugung und damit die Erzeugung der
Anregungsfunktion für stimmhafte Sprechlaute ermöglicht
(Abb. 1). Für eine detaillierte Darstellung des Kehlkopfes
klicken Sie bitte auf den angegebenen Bildausschnitt.
Die Stimmritze ist beim Atmen (Aspiration) weit geöffnet.
Beim Sprechen (Phonation) hängt die Stimmritzen-Weite
vom Laut ab. Ist der Laut stimmhaft, so ist die Stimmritze
weitgehend geschlossen, im stimmlosen Fall dagegen
etwas geöffnet.
Abb. 1:
Anatomie des Stimmapparates
Betrachten wir zunächst die Erzeugung eines stimmhaften
Lautes (z.B. eines Vokals). Der aus der Lunge durch die
Luftröhre kommende Luftstrom staut sich vor der Glottis,
die anfänglich durch Muskelkraft verschlossen ist.
Bei genügend hohem Druck wird die Muskelkraft überwunden und durch die auseinandergedrückten Stimmbänder kann die
Luft entweichen. Damit sinkt der Druck, die Glottis schließt sich, der Druck baut sich erneut auf usw. Auf diese Weise entsteht
eine selbsterregte Schwingung der Stimmbänder und damit zusammenhängend eine periodische Druckwelle. Diese stellt
das Anregungssignal für die stimmhaften Laute dar. Die Frequenz des Anregungskanals wird Sprachgrundfrequenz oder kurz
Grundfrequenz genannt. Sie liegt zwischen etwa 80 Hz (tiefe Männerstimmen) und 350 Hz (Kinderstimmen).
Wenn Sie auf die Abbildung 2 klicken, sehen Sie eine Zeitlupenaufnahme der schwingenden Stimmbänder .
Eine andere Form der Anregung ergibt sich, wenn die
Stimmritze wie beim Atmen geöffnet bleibt und der
hindurchtretende Luftstrom sich an Kanten und Ritzen
des Artikulationstraktes bricht. Es entsteht dann ein
rauschförmiges Anregungssignal, das ein kontinuierliches
Spektrum mit noch relativ hohen Energieanteilen bei hohen
Frequenzen aufweist. Der rauschförmige Charakter kommt
auch bei den erzeugten stimmlosen Lauten zum Ausdruck.
Schließlich findet man häufig eine „gemischte“ Anregung,
die also aus stimmhaften und stimmlosen Anteilen besteht
(etwa das ‚g‘ in Garage). Bei dieser Form der Anregung ist
die Stimmritze etwas geöffnet; vom hindurchtretenden
Luftstrom werden dabei jedoch auch die Stimmbandränder
in Schwingungen versetzt.
Abb. 2:
Schwingen der Stimmbänder
Mit diesem Signal wird nun der sich an die Stimmbänder
anschließende Luftraum angeregt. Diesen Bereich
nennt man Ansatzrohr. Die Bezeichnung stammt von
Blasinstrumenten, bei denen die Klangbildung nach dem
gleichen Prinzip funktioniert.
In der Sprachverarbeitung verwendet man jedoch häufiger die Bezeichnung Artikulationstrakt. Sie deutet darauf hin, dass hier
die Artikulation, also die eigentliche Lautformung stattfindet. Nach der Helmholtzschen Resonanztheorie stellt dieser Trakt einen
Hohlraumresonator dar, der wie dieser ausgeprägte Resonanzeigenschaften aufweist. Die auftretenden Resonanzfrequenzen nennt
man nach L. Hermann (1890) Formanten oder Formantfrequenzen.
Der Artikulationstrakt ist in hohem Maße veränderbar. Insbesondere gilt dies für den Mundraum. Hierbei kommt der Zunge eine
Schlüsselrolle zu, wie sich im Folgenden bei der Beschreibung der Lautbildung noch zeigen wird.
1.2 Lautbildung und Lautklassifikation
Das kleinste Element der (gesprochenen) Sprache ist der Laut, in der Sprachwissenschaft mit „Phon“ bezeichnet. Er ist vergleichbar
mit dem Buchstaben in der geschriebenen Sprache.
Die Lauteinteilung kann nach verschiedenen Gesichtspunkten erfolgen, so z.B.:
•
•
•
•
•
nach der Artikulationsart,
nach dem Artikulationsort,
in Momentanlaute (Verschlusslaute) und Dauerlaute,
in Konsonanten und Vokale,
in stimmhafte und stimmlose Laute.
Eine Unterteilung in stimmhafte und stimmlose Laute wird vor allem bei parametrischen Systemen, aber auch bei der
Spracherkennung und Sprachsynthese verwendet. Da in der Lautlehre (Phonetik) jedoch eine Unterteilung in Konsonanten und
Vokale üblich ist, wollen wir diese auch hier zugrundelegen. Damit ergibt sich dann auch zwangsläufig eine weitere Untergliederung
nach Artikulationsart und -ort.
Unter ersterer soll die Art und der Umfang verstanden
werden, wie die bei der Artikulation ausströmende
Luft in ihrer Bewegung beeinflusst wird oder wie sie
die ihr entgegengesetzten Hindernisse überwindet
(„Überwindungsmodus“).
Abb. 3 zeigt eine Übersicht über die Artikulationsarten.
Man erkennt hieraus auch, dass Plosive und Frikative
stimmhaft und stimmlos sein können.
Beim Artikulationsort interessiert nicht nur der Ort der
Lautbildung, sondern es ist auch von Bedeutung, welche
Organe (Lippen, Zähne, Zunge etc.) dabei beteiligt sind.
Abb. 3 :
Lauteinteilung nach
Artikulationsarten
Konsonanten (Mitlaute) - siehe Abb. 4
Artikulationsarten
•
Verschlusslaute (Explosivlaute)
Der Luftstrom wird durch Zunge oder Gaumen gestoppt, so dass er weder durch den Mund noch durch die Nase entweichen
kann (oraler und nasaler Verschluss). Nach einem Druckaufbau wird der Verschluss plötzlich freigegeben. Verschlusslaute
können stimmhaft sein – dann schwingen die Stimmbänder kurz an – oder auch stimmlos.
Beispiele für Verschlusslaute sind : [b], [d], [p], [t].
•
Reibelaute (Frikative, Spiranten)
Der Luftstrom wird im Mund- oder Rachenraum eingeengt, so dass ein rauschartiger Laut entsteht. Auch Reibelaute können
stimmhaft und stimmlos sein.
Beispiele für Reibelaute: [j], [f].
•
Nasale
Die Luft entweicht durch die Nase; die Mundhöhle ist weitgehend verschlossen. Nasale sind stets stimmhaft.
Beispiele für Nasale : [m], [n].
•
Seitenlaute (Laterale)
Der Luftstrom entweicht rechts und /oder links an der Zunge vorbei durch den Mundraum. Laterale sind stimmhaft.
Beispiel für Laterale: [l].
•
Intermittierende (Vibranten)
Zäpfchen oder Zunge werden durch den Luftstrom zum Schwingen gebracht. Intermittierende sind stimmhaft.
Beispiele für Intermittierende sind das Zungen-r und das Zäpfchen-r.
Artikulationsorte
•
bilabial
Lautbildung durch Ober- und Unterlippe
Beispiel: [p].
•
labiodental
Lautbildung durch Unterlippe und obere Schneidezähne
Beispiel: [f].
•
dental
Lautbildung durch Zungenspitze und obere Schneidezähne
Beispiel: [s]
Abb. 4:
Lautformung einiger
Konsonanten
•
alveolar
Lautbildung zwischen Zungenspitze und Alveolen (oberen Zahnfächern)
Beispiel: [d].
•
palatal
Lautbildung zwischen Zunge und Palatum (harter Gaumen)
Beispiel: [ch] in „ich“.
•
velar
Lautbildung zwischen Zunge und Velum (weicher Gaumen)
Beispiel: [k].
•
uvular
Lautbildung durch Zunge und Uvula (Zäpfchen)
Beispiel: Zäpfchen-r.
•
glottal
Lautbildung in der Glottis (Stimmritze)
Beispiel [h].
Abb. 4 zeigt die Stellung des Artikulationstrakts
bei einigen Konsonanten. Bitte klicken Sie hierzu
links auf einen der angegebenen Laute.
Vokale (Selbstlaute) - siehe Abb. 5
Artikulationsart
Allen Vokalen ist zunächst gemeinsam, dass eine stimmhafte Anregung (durch die Stimmbänder) erfolgt. Man unterscheidet bei
Vokalen, ob sie mit offenem, halb geschlossenem oder fast geschlossenem Mund gesprochen werden. (Beispiele hierzu: [a], [a], [o],
[u]). Üblich ist auch die Unterscheidung zwischen gerundeten und ungerundeten Vokalen, wobei sich „gerundet“ auf die Lippen
bezieht. So werden z.B. beim [u] die Lippen gerundet, nicht aber beim [e].
Zu den Vokalen zählt man auch noch die aus zwei Vokalen bestehenden Diphtonge, bei denen die Zunge oder die Zunge
zusammen mit den Lippen eine Gleitbewegung von dem einen zu dem anderen Vokal durchführt. (Beispiele für Diphtonge: [au] in
„Haus“ oder [ai] in „Mai“).
Schließlich gehören zu den Vokalen noch die Nasalvokale, bei denen die Luft vorwiegend durch den Nasenraum entweicht und die
Klangfärbung im Wesentlichen durch die Resonanz des Nasenraums entsteht. Nasalvokale kommen vor allem in der französischen
Sprache vor.
Artikulationsort
Abb. 5:
Lautformung einiger Vokale
Vokale werden in einem relativ eng begrenzten
Raum des Mundes geformt. Dabei spielt die Lage der
Zunge – genauer die Lage des Zungenrückens – eine
entscheidende Rolle. Hierbei ist wichtig, wo und wie
hoch sich der Zungenrücken befindet (Horizontal- bzw.
Vertikalposition der Zunge). Liegt der höchste Punkt
vorn, also in der Nähe der Zähne, so klingt der Vokal hell
(Beispiel [i]); man spricht auch von Vorderzungenvokalen
oder palatalen Vokalen. Liegt der Punkt weiter hinten, also
mehr in der Nähe des Zäpfchens, so klingt der Vokal dunkel
(Beispiel [u] ); man nennt ihn dann Hinterzungenvokal
oder velaren Vokal. Die Vertikalposition betreffend,
unterscheidet man zwischen einer hohen Lage (Beispiel
[i]) und damit einem hohen Vokal und einer tiefen Lage
(Beispiel [a]), also einem tiefen Vokal. Schließlich kann man
noch die bereits erwähnte Unterteilung in gerundete und
ungerundete Vokale vornehmen.
Abb. 5 zeigt die Stellung des Artikulationstrakts bei einigen Vokalen. Bitte klicken Sie hierzu links auf einen der angegebenen Laute.
1.3 Modell der menschlichen Spracherzeugung
Bei den bisherigen Betrachtungen standen die Sprachphysiologie und die Klassifikation nach phonologischen Gesichtspunkten im
Vordergrund. In den folgenden Abschnitten wollen wir uns nun mit dem physikalisch-akustischen Aspekt befassen.
Vom Prinzip her kann man sich die Produktion von Sprache folgendermaßen vorstellen: Eine Gleichstromquelle (Lunge) versorgt
einen Impulsgenerator (Stimmbänder) und einen Rauschgenerator (Luftstrom, der sich an Kanten und Ritzen des Rachenraumes
bricht) mit elektrischer Energie (Luft); das elektrische (Schall-) Signal beider Generatoren wird gemischt und ergibt das
Anregungssignal für das Übertragungssystem (den Artikulationstrakt).
In der Abb. 6 ist eine „Sprechmaschine“ dargestellt, die
nach dem genannten Prinzip funktioniert. Bei diesem
System wird zwecks Vereinfachung keine gemischte
Anregung produziert; sie ist hier entweder rein stimmhaft
oder rein stimmlos.
Sie können sich das Prinzip der Sprechmaschine sprachlich
erläutern lassen, indem Sie auf den Text rechts und danach
auf den Pfeil unten klicken.
Auf der Grundlage der zuvor beschriebenen
Sprechmaschine funktioniert auch das nachfolgend
dargestellte Modell der Spracherzeugung (Abb. 7).
Es erlaubt in einem ersten Diagramm die Wiedergabe von
vorbereiteten Sprachproben – und zwar sowohl akustisch
als auch in Form des Zeitsignals und des Spektrogramms.
Abb. 6:
Zum Prinzip einer Sprechmaschine
(Hinweis: Die ebenfalls angegebene Möglichkeit, eigene Aufnahmen zu erstellen, ist in der hier vorliegenden Version leider nicht möglich.
Bei Bedarf und mit etwas zusätzlichem Aufwand wäre jedoch eine Lösung möglich. Bitte kontaktieren Sie mich gegebenenfalls über meine
eMail [email protected])
In einem zweiten Diagramm kann man sich zum Vergleich
das Ergebnis ansehen und anhören, nachdem die
Sprachprobe analysiert und durch die Sprechmaschine
rekonstruiert worden ist.
Da bei der Sprechmaschine die Parameter für die
Anregung und die Lautformung explizit zur Verfügung
stehen, kann man verschiedene Manipulationen an diesen
Parametern vornehmen und die dabei auftretenden hörund sichtbaren Veränderungen registrieren
Besonders interessant sind dabei Manipulationen des
Sprachgrundfrequenzverlaufs. Neben Extremfällen
wie einer konstanten Grundfrequenz (völlig monotone
Stimme) sowie einer rein stimmlosen Anregung
(geflüsterte Sprache) lassen sich an gewünschten Stellen
Betonungen erzeugen, indem man dort die Grundfrequenz
erhöht. Eine ausführliche Anleitung zur Benutzung der
Animation erhalten Sie, wenn Sie nach der Aktivierung der
Animation bei dieser auf den „Hilfe“-Button klicken.
Hier nochmals der Hinweis: Beachten Sie bitte unbedingt
die technischen Hinweise nach dem Abschnitt
„Vorbemerkungen“!
Abb. 7:
Modell der Spracherzeugung
2 Hörphysiologie und Hörpsychologie
2.1 Hörphysiologie
Der Hörvorgang vollzieht sich - ähnlich wie das Sehen - in zwei Stufen. Zuerst wird der Reiz (hier die Schalleinwirkung)
aufgenommen, verstärkt, angepasst und weitergeleitet. Anschließend formen Sinneszellen den Reiz in elektrische Aktionspotentiale
um, die dann schließlich im Gehirn nach einer neuronalen Verarbeitung zum Höreindruck führen.
Die nachfolgende Animation (Abb. 8) zeigt einen Schnitt durch das Ohr. Es lässt sich anatomisch und funktionsmäßig in drei
Bereiche unterteilen: das Außen-, Mittel- und Innenohr. Nachfolgend sollen die drei Bereiche des Ohres näher beschrieben werden.
Außenohr
Dieses umfasst den Bereich zwischen der Ohrmuschel und
dem Trommelfell und besteht im Wesentlichen aus dem
Gehörgang einem Rohr von ca. 2,7 cm Länge mit nahezu
schallharten Wänden. An seinem inneren Ende ist er durch
das Trommelfell abgeschlossen.
Der Gehörgang wirkt als Hohlraum-Resonator; seine
Resonanzfrequenz ist näherungsweise bestimmbar, wenn
man den Gehörgang als einseitig abgeschlossene Röhre
mit schallharten Wänden auffasst. Es ergibt sich dann eine
Resonanzfrequenz von ca. 3.7 kHz.
Da das Trommelfell aber nachgiebig ist und auch
die Gehörgang-Wände Schall absorbieren, weichen
experimentell ermittelte Resonanzwerte etwas von den
theoretischen ab; sie liegen typisch bei etwa 2 bis 3 kHz.
Außerdem ist die Resonanz nicht scharf ausgeprägt,
sondern erstreckt sich über einen Bereich von etwa 2 bis 6 kHz.
Abb. 8:
Animierte Darstellung des Ohres
In diesem Bereich ist der Gehörgang weitgehend reflexionsfrei abgeschlossen, d.h. ein großer Teil der Schallenergie wirkt auf das
Trommelfell. Dementsprechend ist die Hörleistung in diesem Frequenzbereich am größten.
Mittelohr
Das Mittelohr wird durch einen kleinen luftgefüllten Raum, die sogenannte Paukenhöhle gebildet. Damit vor und hinter dem
Trom­melfell der gleiche Luftdruck herrscht, besteht eine Verbindung zwischen dem Mittelohr und dem Nasen-Rachen-Raum, die
sogenannte „Eustachische Röhre“. Sie ist normalerweise mit einer Membran ver­schlossen, die sich jedoch beim Schlucken öffnet,
wodurch dann ein Druckausgleich hergestellt werden kann.
Im Mittelohr befinden sich die Gehörknöchelchen (Ossikula) Amboss, Hammer und Steigbügel. Der Hammer ist am Trommelfell
befestigt und überträgt die Trommelfell-Schwingungen auf den Amboss, der sie an den Steigbügel weitergibt. Der Steigbügel
schließlich leitet die Schallschwingungen durch das ovale Fenster in das flüssigkeitsgefüllte Innere der Schnecke.
Die Gehörknöchelchen können Sie sich genauer ansehen, wenn Sie in obigem Bild des Ohres auf den mittleren Teil klicken.
Die Gehörknöchelchen dienen in erster Linie der Anpassung der Luftschall-Impedanz an die sehr viel höhere FlüssigkeitsschallImpedanz in der Schnecke. Ohne diese Anpassung würde der weitaus größte Anteil der Schallenergie (über 90%) reflektiert werden
und damit für den Hörvorgang verloren gehen.
Die Impedanztransformation wird zum einen durch eine sehr günstige Auslegung des Masse-Feder-Systems von Trommelfell und
Gehörknöchelchen und zum anderen durch eine Transformation des Schalldruckes erreicht. Letztere wiederum kommt durch die
Hebelwirkung der Knöchelchen zustande, welche die Schnelle herab- und den Druck herauftransformiert. Außerdem findet noch
eine erhebliche Druckverstärkung dadurch statt, dass die wirksame Querschnittsfläche des Trommelfelles etwa 17-mal so groß ist
wie diejenige des ovalen Fensters. Insgesamt ergibt sich eine Schalldruckverstärkung um einen Faktor von etwa 22.
Die Impedanzanpassung ist am besten im Bereich von 1 bis 3 kHz; aber sie ist auch hier nicht optimal, da noch immer 40% der
Schallenergie reflektiert werden. Bei tieferen und höheren Frequenzen ist die Fehlanpassung beträchtlich größer, was die rasche
Dämpfungszunahme bei der Hörschwellenkurve erklärt.
Neben der Impedanzanpassung und der Verstärkungswirkung haben die Gehörknöchelchen noch die Aufgabe einer
Schutzfunktion. Bei zu lautem Schall wird der Hebelmechanismus durch Muskeln blockiert. Außerdem wird – zumindest bei tiefen
Frequenzen – ein Teil der Schallenergie im Gelenk zwischen Hammer und Amboss durch Reibung vernichtet. Schließlich ändert sich
bei großer Schallintensität auch die Bewegungsrichtung des Steigbügels, so dass die Schwingungsamplituden am ovalen Fenster
kleiner werden. Der Schutzmechanismus bewirkt eine Dämpfung von etwa 20 dB; möglicherweise ist die Dämpfung kurzfristig auch
höher. Wichtig ist jedoch, dass der Schutz-mechanismus eine gewisse Reaktionszeit benötigt (etwa 60 bis 120 ms) und daher bei
plötzlich auftretenden hohen Schalldrucken (Explosionen etc.) nicht wirksam werden kann.
Innenohr
Das Innenohr liegt im Knochen des Felsenbeins und enthält die Schnecke (Cochlea), in der die Umsetzung von
Schalldruckschwankun­gen in Reize des Gehörnervs stattfindet. In einem weiteren Teil des Innenohres ist das Gleichgewichtsorgan
untergebracht, das hier jedoch nicht näher betrachtet werden soll.
Die Schnecke hat eine Länge von ca. 32 mm und ist in 2 1/2 Windungen aufgewickelt. Ein Schnitt quer zur Schneckenwindung
ist in der Animation vergrößert dargestellt. Man erkennt eine Unterteilung in drei Kanäle: die Vorhoftreppe (Scala vestibuli) die
Paukentreppe (scala tympani) und einen kleinen Kanal in der Mitte, die Scala media. Vorhof‑ und Paukentreppe sind an der
Schneckenspitze durch eine kleine Öffnung, das Helicotrema miteinander verbunden. Am Ende der Paukentreppe, unterhalb vom
ovalen Fenster, befindet sich noch eine durch eine feine Membran verschlossene Öffnung, das runde Fenster.
Die Trennwand zwischen der Paukentreppe und der Scala media bildet die Basilarmembran. Sie ist in der Nähe des ovalen Fensters
schmal und straff gespannt; zur Schneckenspitze hin verbreitert sie sich und wird schlaffer. Eine weitere, außerordentlich dünne Wand,
die Reissnersche Membran, liegt zwischen der Scala media und der Vorhoftreppe. Diese Membran ist jedoch akustisch unwirksam.
Auf der Basilarmembran befindet sich das Cortische Organ, das eigentliche Hörorgan. Es enthält, in Stützzellen eingebettet, die
Haarzellen, die an ihrer freien Oberfläche feine Härchen (Stereociliten) tragen. Man unterscheidet die äußeren Haarzellen, die in
drei (teilweise auch vier) Reihen angeordnet sind, und die in einer Reihe vorhandenen inneren Haarzellen. Die Anzahl der ersteren
schätzt man auf etwa 12.000, die der letzteren auf etwa 3.500.
Die Haarzellen stehen in Kontakt mit den Nervenfasern (enthalten aber selbst keine Nervenzellen!) und diese wiederum sind mit
dem Gehörnerv verbunden, der im Zentral-Nervensystem endet.
Die Versorgung mit Nervenfasern erfolgt getrennt für die inneren und die äußeren Haarzellen, wobei wahrscheinlich jeder inneren
Haarzelle mindestens eine Nervenfaser zugeordnet ist. Dagegen werden mehrere äußere Haarzellen durch eine Nervenfaser
versorgt. Hieraus lässt sich schließen, dass die inneren und die äußeren Haarzellen verschiedene Aufgaben haben. Sehr vereinfacht
gesprochen sind die inneren Haarzellen für den eigentlichen Hörvorgang zuständig, während die äußeren Haarzellen einen sehr
großen Dynamikbereich der Schallintensität erfassen und zugleich auch die Frequenz-Selektivität erhöhen.
Bemerkenswert ist noch, dass es bei den inneren und vor allem auch bei den äußeren Haarzellen sowohl Nervenfasern gibt, die
den Reiz zum zentralen Nervensystem leiten (afferente Fasern), als auch solche, die Reize in umgekehrter Richtung transportieren
(efferente Fasern). Zentrales Nervensystem und Corti-Organ bilden somit ein rückgekoppeltes System.
Über dem Corti-Organ, auf der Spitze der Haarzellen aufliegend, befindet sich die Deckmembran (Tectorialmembran). Sie ist in
der Mitte des Schneckenquerschnittes befestigt. Wird die Basilarmembran durch die Flüssigkeitswellen in Schwingungen versetzt,
so entsteht an Stellen der Membrandurchbiegung eine Scherbewegung zwischen der Tektorialmembran und den Haarzellen.
Hierdurch werden die zugehörigen Nervenfasern gereizt, der Reiz wird über den Hörnerv zum Gehirn geleitet und dort als
Höreindruck wahrgenommen.
2.2 Hörpsychologie
Das Gehör kann Schallwellen im Frequenzbereich zwischen etwa 20 Hz und 16 kHz wahrnehmen. Man nennt Schall in diesem
Bereich daher Hörschall. Schall unterhalb von 20 Hz bezeichnet man als Infraschall und Schall oberhalb von 16 kHz als Ultraschall.
Die Werte des angegebenen Hörschallbereiches sind allerdings äußerste Grenzwerte. Im Bereich von 20 Hz wird der Schall bereits
überwiegend als Körperschall wahrgenommen; ein Ton von 16 kHz andererseits ist nur bei hoher Amplitude und auch dann
nur in jugendlichem Alter hörbar. Bei älteren Menschen ist bereits ab 5 kHz ein deutlich feststellbarer Hörverlust von ca. 15 dB,
oberhalb von 10 kHz sogar von 20 dB, gegenüber Jugendlichen feststellbar. Dies ist jedoch nicht allzu störend, da die wichtigsten
Schallereignisse deutlich unterhalb von 10 kHz liegen; insbesondere gilt das für Sprache, die oberhalb von etwa 6 bis 8 kHz kaum
noch nennenswerte spektrale Energieanteile aufweist.
Trägt man denjenigen Schalldruckpegel über der Frequenz auf, der gerade hörbar ist, so erhält man die sogenannte Hörschwelle.
In Abb. 9 ist das die unterste Kurve.
Die Hörschwelle ist offensichtlich in starkem Maße
frequenzabhängig. Im Bereich zwischen 2 und 5 kHz
ist die Hörempfindlichkeit am größten; hier genügen
die niedrigsten Schalldrucke für eine Hörempfindung.
Unterhalb und oberhalb dieses Bereiches nimmt die
Hörempfindlichkeit rasch ab.
Die oberste Kurve stellt die Schmerzschwelle dar. Bei
dieser sind die Schalldrucke so groß, dass bereits eine
Schmerzempfindung und bei längerer Einwirkung eine
dauernde Hörschädigung eintritt. Eine Hörschädigung
kann allerdings auch schon bei wesentlich niedrigeren
Schalldrucken auftreten, insbesondere dann, wenn ihnen
das Ohr längere Zeit ausgesetzt ist.
Abb. 9:
Hörfläche
Die im oberen Bild der Hörfläche eingezeichneten Kurven
bezeichnet man als Isophonen; sie stellen Kurven gleichen
Lautstärkepegels dar. Gleicher Lautstärkepegel heißt
hierbei, dass unabhängig von der Frequenz jeder Ton im
Verlauf einer Kurve als gleich laut empfunden wird.
Um die Frequenzabhängigkeit des Lautstärkeempfindens zu demonstrieren, wird zunächst eine Tonfolge dargeboten, bei der die
Pegel jeweils so gewählt worden sind, dass die Töne als gleichlaut empfunden werden.
Klicken Sie hierzu bei der nachfolgenden Abbildung 10 auf die linke Tonfolge. Zum Vergleich können Sie die gleiche Tonfolge in
einer zweiten Version hören (rechte Tonfolge), bei der die Pegel bei jedem Ton den gleichen Wert haben.
Abb. 10:
Zur Demonstration des
frequenzabhängigen
Lautstärkeempfindens
links: Pegel angepasst auf gleiches
Lautstärkeempfinden
rechts: Pegel konstant gehalten
Damit sich Schalldruck- und Lautstärkepegel besser auseinanderhalten lassen, bezeichnet man letzteren mit der Pseudoeinheit
„phon“. Ein Ton mit dem Lautstärkepegel 50 phon wird also als genauso laut empfunden wie ein 1 kHz-Ton mit einem
Schalldruckpegel von 50 dB. Natürlich kann man auch komplexere Schallereignisse wie Sprache, Musik oder Geräusche mit dem
1 kHz-Ton vergleichen.
2.3 Spektrale und zeitliche Verdeckung
Wie bereits erläutert, lässt sich die Hörschwelle (genauer gesagt die absolute Hörschwelle) ermitteln, indem ein in der Frequenz
veränderlicher Testton bei absolut ruhiger Umgebung gerade hörbar ist.
Nun sind wir in der realen Umwelt stets von Geräuschen (Straßenlärm, Raumgeräuschen usw.) umgeben. Wir bezeichnen diese
Geräusche als Störschall. Dieser Störschall beeinträchtigt den Nutzschall (Sprache, Musik, Töne, sonstige akustische Nutzinformation)
in der Weise, dass der Nutzschall leiser erscheint als er tatsächlich ist oder dass er sogar vom Störschall vollkommen verdeckt wird.
Im ersten Fall spricht man von Drosselung, im zweiten Fall von Verdeckung.
Um den Effekt der Verdeckung zu erfassen, geht man so vor, dass man dem Ohr einen definierten Störschall (Ton, Klang, Rauschen)
und außerdem einen Ton veränderlicher Frequenz und veränderlichen Pegels zuführt.
In der nachfolgenden Animation (Abb. 11) wird zunächst eine Tonfolge ohne Rauschen und dann mit Rauschen dargeboten. Dabei
zeigen sich deutliche Drosselungs- bzw. Verdeckungseffekte.
Abb. 11 (links):
Zur Demonstration der spektralen
Drosselung bzw. Verdeckung
Abb. 12 (rechts):
Zeitliche Verdeckung
Eine weitere Form der Verdeckung ist die zeitliche Verdeckung. Wird ein lautes Schallereignis schlagartig im Pegel gesenkt, so ist das
Schallereignis erst nach einer gewissen Zeit wieder hörbar. Das nachfolgende Hörbeispiel (Abb. 12) demonstriert diese Art der Verdeckung.
3. Schlussbemerkung
Liebe Leserinnen und Leser, ich hoffe, dass Sie die Animationen problemlos durchführen konnten und dass sie Ihr Interesse
gefunden haben. Kritik und Anregungen sind jederzeit sehr willkommen.
Klaus Fellbaum
[email protected]
Herunterladen