Zusammenfassung - Universität Ulm

Hauptseminar Neuroinformatik
Spracherkennung
Produktion und Wahrnehmung von Sprachsignalen
Miriam Schmidt
Universität Ulm, Fakultät für Informatik
[email protected]
Ausblick: Sprache ist der Anfang, der Beginn, und letztendlich die Ursache, jedes HöherenBewusstseins!“ (Norbert Plankenauer, Philosoph)
Die Notwendigkeit, in der Arbeit übereinstimmend zu handeln, zwang unsere Vorfahren
dazu, sich miteinander zu verständigen und es entwickelte sich allmählich die menschliche
Sprache. Die Arbeit wurde komplizierter, und neuartige Beziehungen bildeten sich unter den
Mitgliedern der Urmenschenhorde heraus. So kam es zur Entwicklung des sozialen Lebens.
Das wiederum förderte die Steigerung der Komplexität der Sprache, um zusammenhängende
Gedanken fassen zu können.
Einer der entscheidensten Unterschiede zwischen Mensch und Tier ist das Vorhandensein
einer ausgebildeten Sprache.
In dieser Ausarbeitung werde ich auf die Produktion und auf die Perzeption der Sprache
eingehen, genauer auf den Aufbau und die Funktion des Sprachorgans, die Darstellung der
Sprache mit Hilfe von Graphiken, den Aufbau und die Funktion des Ohrs und die
Wahrnehmung der Schallwellen. Im ersten Kapitel gebe ich einen Überblick über Laute und
Phoneme.
1. Laute und Phoneme
Der Laut ist die kleinste Einheit des gesprochenen Wortes. Es gibt mehr Laute als
Buchstaben. Laute können nach verschiedenen Merkmalen unterschieden werden.
1. nach ihrer Stellung im Wort:
– Anlaut (am Wortanfang)
– Auslaut (am Wortende)
– Inlaut (im Wort)
2. nach Kürze oder Länge
– Kurzlaute z.B. in Bett, ritt, füllen
– Langlaute z.B. in Beet, riet, fühlen
3. nach Beteiligung der Stimmbänder:
– stimmhafte Laute
– stimmlose Laute
z.B. b, d, g, l, m, n, r, w und alle Vokale
z.B. f, h, p, ss, sch, z
4. nach Artikulationsart
– Verschluss- oder Explosivlaute
– Frikative (Reibelaute)
– Liquide (Gleitlaute)
– Nasale
z.B.
z.B.
z.B.
z.B.
p, t, k, b, d, g
f, s
l, r
m, n, ng
5. nach dem Ort ihrer Bildung:
– Labiale (Laute, die mit den Lippen gebildet werden)
z.B. p, b, m, f, w bei f und w sind zusätzlich die oberen Schneidezähne
beteiligt
– Dentale (Laute, die mit den Zähnen gebildet werden)
z.B. d, t, s, sch
– Nasale (Laute, die in der Nase gebildet werden)
z. B. n
– Velare (Laute, die im hinteren weichen Gaumen gebildet werden)
z.B. u, o
– Palatale (Laute, die im vorderen harten Gaumen gebildet werden)
z. B. g, k, ch in "ich"
Die Phonetik (Lautlehre) ist der Teil der Sprachwissenschaft, der sich mit der
Lautbildung und den Eigenschaften der Laute unter physikalischen (akustischen) und
physiologischen (artikulatorischen) Gesichtspunkten beschäftigt.
Das Phonem ist die kleinste bedeutungsunterscheidende Einheit des gesprochenen
Wortes.
2
Man spricht dann von einem Phonem, wenn sich durch den Austausch eines Lautes
durch einen anderen Laut die Bedeutung eines Wortes verändert.
Beispiel:
Hand - Hund
Bett
- Beet
kann
- Kahn
(Phonemtausch im Inlaut)
(kurz gesprochenes e durch Doppelung des
nachfolgenden Konsonanten - lang
gesprochenes e durch Doppelung des Vokals)
(kurz gesprochenes a durch Doppelung des
nachfolgenden Konsonanten - lang
gesprochenes a mit h als Dehnungslaut)
Beachte: Die Länge eines Vokals (die Dehnung) wird gekennzeichnet durch
Verdoppelung des Vokals (Haar, Meer, Moor...), Dehnungs-h (Kohl, hohl, Mehl,
Kuh...), e nach i (ie) (hier, Lied, Sieg...), gar nicht (aber, Hase, Igel...). Die Kürze eines
Vokals (die Schärfung) wird gekennzeichnet durch Verdoppelung des nachfolgenden
Konsonanten (Kamm, Hammer, kommen, rollen...).
Als Diphthonge (Doppellaute) kommen vor: au, äu, eu, ei, ai.
Zudem werden noch folgende Laute durch Buchstabenkombinationen dargestellt: ch,
ck und der Reibelaut sch (Das ch kann für verschiedene Laute stehen, z.B. in: Chor,
Rache, Charme).
Sprache ist ein kontinuierlicher "Lautfluss", der nur ab und zu durch Sprechpausen
unterbrochen wird. Die Laute werden durch vielfältige Lautübergänge miteinander
verbunden. Sie kommen dadurch zustande, dass die Artikulationsorgane eine gewisse
Zeit benötigen, um sich jeweils auf den neuen Laut umzustellen.
Lautübergänge können höchst komplizierte Signalformen aufweisen. Sie haben einen
maßgeblichen Einfluss auf die Sprachverständlichkeit. Dies lässt sich sehr einfach
beweisen: setzt man Sprache aus "stumpf" aneinander gesetzten Einzellauten
zusammen, so ist die Sprache weitgehend unverständlich.
Schließlich werden die Laute selbst auch durch vorangehende bzw. nachfolgende Laute
"gefärbt". Man nennt diesen Vorgang Koartikulation. So hat z.B. das ,,k" in ,,Kuh"
eine andere Färbung als in ,,Kiel" (beachte Mundstellung).
2. Aufbau und Funktionsweise des Sprachorgans
Um den Sprech- und den Sprachaufnahme-Prozess besser zu verstehen, ist es wichtig,
die anatomischen Voraussetzungen des menschlichen Körpers zu kennen. Dabei werde
ich mich an das in Abb.1 dargestellte Schema halten:
Der Sprecher formuliert zuerst in seinem Gehirn eine Nachricht, die er übermitteln
möchte. Diese Nachricht wird in der so genannten Großhirnrinde, in der sich das
Sprachzentrum befindet, in eine Art Code umgewandelt und als Signale an die Vielzahl
3
der an der Sprache beteiligten Muskeln von Lunge, Rachen und Mund übermittelt.
Dieser Vorgang erreicht eine Informationsrate von ca. 30.000 bps (bits per second):
Formulieren der Nachricht: 50 bps, Umwandeln in Sprachcode: 200 bps, Muskelarbeit:
2.000 bps, Übertragung mit Hilfe von Schallwellen: 30.000 bps.
Abb.1: Schema für Sprech- und Sprachaufnahmeprozess
Aus der Lunge strömt Luft durch die Luftröhre und passiert dabei den so genannten
Kehlkopf. Der Kehlkopf (Abb.2) ist der Lautsprecher des Körpers. Er dient dem
Abschluss des Atemweges vom Speiseweg. Beim Schlucken schließt der Kehldeckel
den Kehlkopf vollständig ab, so dass Nahrung und Flüssigkeit auf dem richtigen Weg in
die Speiseröhre und schließlich in den Magen gelangen. Bei der Atmung hebt sich der
Kehldeckel und gibt den Atemweg zu den Lungen frei.
Er enthält auch die Stimmbänder, die durch ihre Schwingungen den Ton erzeugen. Die
Stimmbänder haben eine ähnliche Funktion wie die schwingenden Anteile der
Mundstücke von Blasinstrumenten, z. B. einer Klarinette. Wird Luft durchgeblasen, so
schwingt das Holz- oder Plastikstück des Blasinstruments und erzeugt einen Grundton,
der dann durch die Länge des Instruments und die verschiedenen Öffnungen in der
Höhe variiert wird. Ähnlich erzeugen die Stimmbänder durch ihre Schwingungen bei
Austritt der Atemluft einen Grundton, den dann Rachen, Mund und Nase variieren. Die
Stimmbänder bestehen aus zwei feinen, lippenähnlichen Bändern, die sich beim
Luftdurchtritt öffnen und schließen können. Die Lautstärke wird durch die Stärke des
austretenden Luftstromes, die Tonhöhe durch die Lage und Spannung der Stimmbänder
bestimmt. Die von den Stimmbändern erzeugte Frequenz wird als
Sprachgrundfrequenz, bezeichnet und mit GF abgekürzt. Sie ist maßgebend für die
4
Intonation oder Sprechmelodie. Ihre Frequenz liegt zwischen 80 Hz (tiefe
Männerstimme) und ca. 350 Hz (hohe Kinderstimme).
Abb.2: Schnitt durch den Kehlkopf
An der Umwandlung des im Kehlkopf gebildeten Grundtones in die Sprache sind die
Lippen, die Zunge, der Gaumen und die verschiedenen Resonanzkörper beteiligt.
Als Resonanzkörper dienen der Kehlkopf, der Rachen, die Mundhöhle, die
Nasenhöhle, die Nasennebenhöhlen und auch die Brusthöhle. Einfach ausgedrückt,
entsteht die Sprache durch Bildung von Konsonanten und Vokalen. Lippen, Zunge,
Kiefer und Gaumensegel werden auch als „Sprechmuskulatur“ bezeichnet.
Für stimmlose Laute sind die Stimmbänder geöffnet; der hindurch tretende Luftstrom
bricht sich an Kanten und Ritzen des Rachenraumes.
Die weitaus meisten Laute werden jedoch im Mundraum produziert. Hierbei spielt die
Zunge eine entscheidende Rolle. Ihre Bedeutung wird z.B. dadurch unterstrichen, dass
in verschiedenen Sprachen die Wörter "Zunge" und "Sprache" durch das gleiche Wort
ausgedrückt werden (z.B. im Lateinischen durch "lingua"). Im Gegensatz zum
Nasenraum ist der Mundraum in vielfältiger Weise veränderbar, was wiederum vor
allem an der Zunge liegt (vgl. Abb.3).
5
Abb.3: Artikulationsstellung bei verschiedenen Lauten
Der Nasenraum ist ein nicht veränderbarer Hohlraum, der über die Nasenlöcher mit
der Außenwelt verbunden ist. In diesem Raum werden die Nasal-Laute oder auch
Nasale (z.B. "m" und "n") erzeugt. Nasale sind stets stimmhaft, d.h. sie entstehen durch
das Zusammenwirken der schwingenden Stimmbänder und dem als HohlraumResonator wirkenden Nasenraum.
Abb.4: Schematische Darstellung des physiologischen Mechanismus des Sprechens
Da man, wie erwähnt, den Nasenraum nicht verändern kann (es sei denn, man hat
Schnupfen; dann kann man aber keine Nasale produzieren!) sind die Nasale ein
sprecherspezifisches Merkmal.
Nun möchte ich noch näher auf die oben genannte Sprachgrundfunktion GF eingehen.
Wie schon gesagt, handelt es sich dabei um die von den Stimmbändern erzeugte
Frequenz. Abb.5 zeigt eine typische Anregungsfunktion der Stimmbänder. Man kann
deutlich den periodischen Verlauf erkennen.
6
Abb.5: Anregungsfunktion für den Laut ,,e"
Der Abstand zwischen zwei Dreiecken wird als Grundperiode bezeichnet. Der
Zusammenhang zwischen der Sprachgrundfrequenz fg und der Grundperiode Tp ist
einfach fg = 1/Tp.
Die GF unterliegt bei jedem Sprecher erheblichen Änderungen. Verdopplungen und
Halbierungen der Frequenz innerhalb von Sekunden sind keine Seltenheit. Statt
"Frequenz" sollte man daher besser von "Momentanfrequenz" sprechen.
In Abb.6 ist ein GF-Verlauf für einen gesprochenen Satz aufgetragen. Die GFSchwankungen sind deutlich erkennbar. Dort, wo keine GF dargestellt ist, wurden
stimmlose Sprachabschnitte gesprochen.
Abb.6: GF-Verlauf für den Testsatz ,,Rudolf Ranick"
7
3. Darstellung der Sprache
Wir haben nun verschiedene Klassifizierungsarten für Laute gelernt und auch wie der
Körper solche produzieren kann. Die nächste Frage, die wir uns im Hinblick auf
Spracherkennung stellen sollten, ist: „Wie können wir Gesprochenes „sichtbar“ machen
und somit erkennen?“
Zuerst möchte ich einige grundlegende Werte aufführen:
–
–
–
–
–
Wellenlänge λ: Abstand zwischen zwei Peaks
Periode T: Dauer einer „Runde“
Frequenz F: Anzahl der Runden pro Sekunde (Hz)
Geschwindigkeit C = λ *F
Amplitude: Höhe des Peaks
Ein Laut ist wie jeder Schall eine Luftdruckschwankung, die sich wellenartig ausbreitet.
Die Amplitude bezeichnet dabei die Druckstärke des Gesprochenen (hörbar 20 Hz bis
20KHz), die Frequenz die Druckänderung des Gesprochenen.
Ich werde im Folgenden zwei verschiedene Formen der graphischen Darstellung von
Sprache zeigen. Zum einen die Waveform-Plots und zum anderen die Spektogramme.
3.1. Waveform-Plots
Das Sprachsignal ist ein sehr langsames Signal. Schaut man sich eine kurze Periode
(5 bis 100 msec) an, dann scheint das Sprachsignal still zu stehen. Erst ab einer Länge
von ca. 1/5 Sekunde kann man Unterschiede erkennen.
Die x-Achse des Waveform-Plots ist die Zeit, in der das Sprachsignal empfangen
wird. Auf der y-Achse wird die Druckstärke des Gesprochenen eingetragen.
Bei gesprochener Sprache ändern sich Wellenlänge und Amplitude ständig.
Ausgehend von der Grundfrequenz können wir also sagen, dass jeder Laut
(Buchstabe) wie ein Filter funktioniert, der die GF abändert. Deshalb sieht die
Schwingung im zeitlichen Verlauf unregelmäßig aus (vgl. Abb.7).
Abb.7: Waveform-Plot „phonetician“
8
Es gibt verschiedene Arten die unterschiedlichen Bereiche der Waveform-Plots zu
klassifizieren. Eine davon ist die Aktivität der Stimmbänder heranzuziehen. Somit
ergibt sich eine Einteilung in drei Zustände: S = Silence, U = unvoiced, V = voiced.
S bedeutet, dass zu dieser Zeit nicht gesprochen wird. U bedeutet, dass zu dieser Zeit
die Stimmbänder nicht vibrieren, was bedeutet, dass die Welle nicht periodisch ist,
sondern sehr zufällig (z.B. Einatmen vor dem Sprechen). V bedeutet, dass in dieser
Zeit gesprochen wird (Vibrieren der Stimmbänder) und daher die Welle beinahe
periodisch ist und eine hohe Amplitude hat (vgl. Abb.8).
Abb.8: Waveline-Plots der Zuständen Voiced und Unvoiced
Allerdings ist diese Einteilung in S, U, V sehr mit Nachteilen behaftet, da es
schwierig ist, einen schwachen, stimmlosen Laut (z.B. /f oder /th) aus U oder einen
schwachen stimmhaften Laut (z.B. /v oder /m) aus V von S zu unterscheiden.
Eine andere Möglichkeit das Sprachsignal zu charakterisieren, ist mit Hilfe so
genannter Spektrogramme.
3.2. Spektogramme
Spektogramme sind dreidimensionale Repräsentationen der Sprachintensität, in
verschiedenen Frequenzbereichen, über die Zeit. (Zeit: horizontal, Frequenz: vertikal,
Amplitude = Schwärzung oder Farbe für abnehmend, gleich bleibend, zunehmend).
Hier sind Laute schon eher zu identifizieren - als typische Spektogramm-Muster.
In Abb.9 werden einige Laute als Spektogramm gezeigt. Wie man sehen kann, bleibt
das Lautspektrum bei Vokalen relativ konstant, hingegen ändert es sich bei den
Konsonanten bereits innerhalb der ersten 40 ms. Die Silben /ba/ - /da/ unterscheiden
sich im Lautspektrum durch den ersten spektralen Anteil, einer Stimmeinsatzzeit von
etwa 40 ms.
9
Abb.9: Spektrogramme einiger ausgesuchter Laute
Personen, die sich sehr genau mit Spektogrammen beschäftigen, sind sogar in der
Lage sie zu lesen, da jeder Buchstabe ein anderes Erscheinungsbild hat.
10
4. Aufbau und Funktion des Ohrs
Abb.10: 1 – Ohrmuschel, 2 – Gehörgang, 3 – Trommelfell, 4 – Mittelohr, 5 – Hammer, 6 –
Amboss, 7 – Steigbügel, 8 – Gleichgewichtsorgan, 9 – Schnecke, 10 - Hörnerven
In Abb.10 wird der Aufbau des Ohres im Durchschnitt gezeigt. Um den Vorgang des
Hörens besser verstehen zu können, sollten wir den Schallwellen auf ihrem Weg folgen.
Nachdem sie ihren Entstehungsort verlassen haben, kommen sie an der Ohrmuschel
an. Durch deren spezifische Trichterform werden die Schallwellen in den Gehörgang
geleitet. Die Ohrmuschel und der Gehörgang bilden zusammen das so genannte
Außenohr. Dieses ist dafür zuständig, den inneren Bereich zu schützen (Härchen, die
Staubpartikel, Bakterien, … abfangen und zur Richtungsbestimmung der Schallquelle).
Akustisch stellen die Vertiefungen und Erhebungen der Ohrmuschel ein Filtersystem
dar. Je nachdem, aus welcher Richtung der Schall auf das Ohr trifft, werden
unterschiedliche dieser Filter angeregt. Somit erhält jede Richtung ihre individuelle
Klangverfärbung. Das Ohrläppchen ist Teil der Ohrmuschel und hat die Funktion
eines Resonanzkörpers.
Im Mittelohr treffen die Schallwellen nun auf das Trommelfell, das die Trennung
zwischen Außenohr und Mittelohr bildet und bringen dieses ins Schwingen. Im
Mittelohr befindet sich die so genannte Paukenhöhle. Sie ist mit Luft gefüllt und über
die Eustachische Röhre (Verbindung zwischen Mittelohr und Nasenrachenraum) mit
11
dem Rachenraum verbunden. Über die Eustachische Röhre findet ein Druckausgleich
gegenüber der Außenwelt statt. Das Trommelfell wiederum gibt seine Schwingungen
an die drei Gehörknöchelchen Hammer, Amboss und Steigbügel weiter, die
hintereinander geschaltet sind. Diese verstärken die Schwingungen auf mechanische
Weise (Hebelwirkung) und schützen somit das Innenohr vor zu hohem Schalldruck
(vgl. Abb.11).
Abb.11: Hintereinanderschaltung der drei Gehörknöchelchen
Die nun verstärkten Schwingungen werden von den Gehörknöchelchen an das ovale
Fenster des Innenohres weitergeleitet.
Das Innenohr besteht aus zwei Teilen: Dem Gleichgewichtsorgan und der Schnecke.
Das Gleichgewichtsorgan (Labyrinth) besteht aus den drei Bogengängen sowie
Sacculus und Utriculus. Die drei Bogengänge stehen nahezu senkrecht zueinander und
erfassen so die Drehbewegungen des Kopfes im Raum. Sie bestehen jeweils aus dem
eigentlichen Bogen und aus einer Erweiterung, der Ampulle. In ihr liegen die
Sinneszellen der Bogengänge. Sacculus und Utriculus erfassen die lineare
Beschleunigung des Körpers im Raum. Sie stehen ebenfalls senkrecht zueinander, so
dass der Sacculus auf vertikale und der Utriculus auf horizontale Beschleunigungen
anspricht.
Die Schnecke besteht aus einem knochenartigen Material, das nach den Zähnen das
härteste Material im menschlichen Körper ist. Innen ist die Hörschnecke in drei mit
Lymphe gefüllte Gänge gegliedert, an deren Innenseite sich die so genannte
Basiliarmembran befindet. Auf ihr befinden sich Haarzellen, deren feine Härchen eine
darüber liegende Membran, die Tektorialmembran durchstoßen und in die Flüssigkeit
reichen. Schwingungen, die vom Steigbügel auf die Hörschnecke übertragen werden,
versetzen die Lymphe hinter dem ovalen Fenster in eine Schwingung (vgl. Abb.12).
Wenn sich die Basiliarmembran nun relativ zur Tektorialmembran bewegt, werden die
auf ihr sitzenden Haarzellen verbogen. Die Haarzellen lösen daraufhin Nervenreize aus,
die vom Hörnerv ins Gehirn geleitet werden.
12
Abb.12: räumliches Bild einer Wanderwelle entlang der Basiliarmembran
Abb.13: Frequenzbereiche in der Schnecke (von 20 bis 20.000 Hz)
Hohe Frequenzen erzeugen hierbei ein Auslenkungsmaximum am Anfang der
Schnecke. Tiefe Frequenzen laufen bis zum Ende der Schnecke die Basiliarmembran
entlang (vgl. Abb.13). Die Stelle des Auslenkungsmaximums bestimmt die
Tonhöhenempfindung des Schallsignals. Die Entfernung des Auslenkungsmaximums
vom Ende der Basiliarmembran ist hierbei proportional zur empfundenen Tonhöhe.
Nach der Stelle des Auslenkungsmaximums wird die entsprechende Frequenz stark
gedämpft. Abschnitte der Basiliarmembran jenseits des Auslenkungsmaximums werden
durch diese Frequenz kaum noch zu Schwingungen angeregt. Dagegen regen tiefere
Frequenzen noch Basiliarmembranbereiche, die vor ihrem Maximum liegen, zu
Schwingungen an.
So kommt es zu einer Möglichkeit zur Unterscheidung verschiedener Töne.
13
5. Darstellung des Gehörten
Im vorhergehenden Kapitel haben wir die anatomischen Voraussetzungen für das Hören
gelernt. In diesem Kapitel werde ich auf die Physik des Hörens eingehen.
5.1. Lautstärke und Hörbereich
Die Anzahl der insgesamt erzeugten Nervenimpulse ist ein Maß für die empfundene
Lautstärke eines Schallsignals und diese hängt wiederum von der Stärke der
Schwingung der Basiliarmembran ab. Die Lautstärke kann man über atmosphärischen
Druck (Mikro-Pascals) messen oder mit Hilfe der Intensität (Dezibel). Eine neue
Maßeinheit für die Lautstärke nennt sich Sone. Sone ist die Maßeinheit der Lautheit,
also für den Lärmpegel, wie ihn der Mensch empfindet. Dabei werden Lautstärke, Art
und Intensität des Geräusches berücksichtigt. 1 Sone entspricht in etwa dem leisen
Ticken eines Weckers. Als Ausgangspunkt wurden 40 Phon bei 1000 Hz als 1 Sone
definiert.
Das menschliche Gehör kann akustische Ereignisse nur innerhalb eines bestimmten
Frequenz- und Schalldruckpegelbereichs wahrnehmen (Vom Menschen hörbares
Spektrum 20 Hz bis 20 kHz). Zwischen der Hörschwelle und der Schmerzschwelle
liegt die Hörfläche (vgl. Abb.14).
Die Hörschwelle hängt in hohem Masse von der Frequenz ab. Zur Wahrnehmung
sehr tiefer und sehr hoher Töne ist eine weitaus höhere Lautstärke erforderlich als für
Töne mittlerer Frequenzen. Die höchste Empfindlichkeit zeigt das menschliche Ohr
für Frequenzen zwischen 500 und 5000 Hertz. Dieser Bereich entspricht der
Frequenzspanne der menschlichen Sprache (vgl. Abb.15).
Abb.14: Graphische Darstellung des Hörbereichs
14
Abb.15: Bereiche einzelner typischer Geräusche und Laute
5.2. Zeitliche Maskierung
–
–
–
Nach Registrierung eines Tons und dessen Verstummen benötigt das Gehör eine
"Erholungszeit", während der es einen ähnlichen, leiseren Ton nicht wahrnimmt.
Die Zeit, die vergeht, bis der leisere Ton wahrgenommen wird, ist abhängig vom
Lautstärke- und vom Frequenzverhältnis der beiden Töne und liegt im Bereich
von ca. 5 bis 20 ms.
Setzt (in einem Frequenzbereich) ein Schallsignal nach längerer Ruhe ein, feuern
die Nervenzellen besonders stark. Bei länger andauerndem Schall sinkt die
Anzahl der Nervenimpulse wieder auf einen durchschnittlichen Wert ab. Dies
führt dazu, dass Schallsignale mit plötzlichen Schalleinsätzen (z.B. Hämmern)
als wesentlich lauter empfunden werden, als gleichförmige Schallsignale mit
gleichem Schallpegel.
Starke tieferfrequente Schallsignalanteile können dazu führen, dass die
Hörschwelle für höherfrequente Schallsignalanteile steigt. Das heißt: kann man
einen höheren Ton allein gut wahrnehmen, kann es sein, dass man ihn nicht mehr
wahrnehmen kann, wenn gleichzeitig einen lauter tieferer Ton anwesend ist.
15
5.3. Barkbänder und Mel-Skala
Der oben genannte Maskierungseffekt wurde von Heinrich Barkhausen (1881-1956,
Physiker, Dresden) verwendet, um den menschlichen Hörbereich in mehrere (so
genannte kritische) Bänder einzuteilen. Dabei ging er folgendermaßen vor: Er lies
Probanden einen Referenzton hören und dann einige andere. Sie mussten nun
bestimmen, welcher der anderen Töne doppelt so hoch ist wie der Referenzton.
Dadurch konnte er seine Bark-Skala aufstellen (von 0,2 bis 25 Bark). Eine
Verdoppelung des Bark-Wertes bedeutet hierbei, dass der entsprechende Ton als
doppelt so hoch empfunden wird.
Bei niedrigen Frequenzen unter 500 Hz ergibt sich ein nahezu linearer
Zusammenhang:
– Ein Ton mit doppelt so hoher Frequenz (eine Oktave) wird als doppelt so hoch
empfunden.
– Eine Differenz von 1 Bark entspricht einer Erhöhung der Frequenz um ca. 100
Hz.
Bei höheren Frequenzen über 500 Hz ergibt sich eher ein logarithmischer
Zusammenhang:
– Um doppelt so hoch empfunden zu werden, muss z.B. bei 1000 Hz ein zweiter
Ton schon die 4-fache Frequenz besitzen, bei 1600 Hz sogar eine 10-fache
Frequenz.
– Eine Differenz von 1 Bark entspricht einer Erhöhung der Frequenz um eine
kleine Terz (d.h. um den Faktor 1,19).
Diagramme, die die Bark-Skala statt der linear aufgetragenen Frequenz verwenden,
entsprechen besser dem Höreindruck.
Es besteht ein linearer Zusammenhang zwischen dem Abstand der erregten
Nervenzellen vom Ende der Basiliarmembran und dem Bark-Wert. Näherungsweise
gilt: 1 Bark = 1,4 mm Basiliarmembran-Länge. Somit teilt sie Bark-Skala die
Basiliarmembran in 24 Bereiche ein, die gleich lang, aber nicht für einen
gleichgroßen Frequenzbereich zuständig sind.
Interessanterweise hat man herausgefunden, dass das menschliche Gehör die
Basiliarmembran auch in Bereiche/Gruppen einteilt, in denen sie getrennt eine
Auswertung macht und dann zu einer Gesamtauswertung zusammensetzt. Diese
Gruppen werden Frequenzgruppen genannt. Lage und Breite der Frequenzgruppen
lassen sich durch Hörversuche bestimmen. Es lassen sich 24 Frequenzgruppen
feststellen. Lage und Breite der Frequenzgruppen legen den Schluss nahe, dass das
menschliche Gehör die Basiliarmembran des Innenohrs in ca. 24 gleichlange
Abschnitte einteilt, für die jeweils die erzeugten Nervenimpulse gemeinsam
ausgewertet werden. Dies entspricht aber genau der Definition der Bark-Skala
(siehe oben): Die Breite einer Frequenzgruppe entspricht genau einem Bark. Die
16
Frequenzgruppenbreite beträgt etwa 100 Hz unterhalb von 500 Hz und etwa 1/5 der
Frequenz oberhalb von 500 Hz (vgl. Abb.16).
Die Bark-Skala wird somit auch zur Bezeichnung der unterschiedlichen
Frequenzgruppen (und damit der Signalanalyse-Bereiche des Gehörs) verwendet.
Abb.16: Bark-Skala
Außer den Bark-Wert in einer Tabelle abzulesen (vgl. Abb.17), gibt es auch eine
Formel, so dass sich der zu einer Frequenz f zugehörige Bark-Wert annähernd
berechnen lässt:
(Anmerkung: Die Formel ist nicht ganz exakt: 131 Hz ergibt hier etwas mehr als 1,31
Bark).
Die Bark-Skala ist mit der Tonheit (Größe der subjektiven "Tonhöhenempfindung“)
verknüpft. Die Einheit der psychologischen Tonhöhe ist das Mel. Es gilt: 1 Bark =
100 Mel.
Normiert werden sowohl die Bark- als auch die Mel-Skala auf den musikalischen Ton
C (131 Hz). Es gilt: 1,31 Bark = 131 Mel = 131 Hz.
17
Abb.17: einige Unterteilungsarten auf einen Blick
6. Literatur
1. http://www.wikipedia.de Für medizinische und physikalische Grundbegriffe und
einige Bilder
2. Universität Oldenburg, V. Psychophysik des normalen und gestörten Gehörs,
Seite 121-152, Vorlesung Audiologie
3. Universität für Musik und Darstellende Kunst Graz, HochschulorchesterAufnahmetechnik, Seminararbeit: Rau Constanze
4. Udo Klinger, Grundlagen der deutschen Sprache, Schwerte/Ruhr 2002
5. ic2 consulting GmbH, Die Sprache, Wien
6. BTU
Cottbus,
Lehrstuhl
Sprachsignalverarbeitung
Kommunikationstechnik,
Online-Vorlesung
7. Prof. Hußmann, Ludwig-Maximilians-Universität München, Digitale Medien,
Kapitel 5
18