Hauptseminar Neuroinformatik Spracherkennung Produktion und Wahrnehmung von Sprachsignalen Miriam Schmidt Universität Ulm, Fakultät für Informatik [email protected] Ausblick: Sprache ist der Anfang, der Beginn, und letztendlich die Ursache, jedes HöherenBewusstseins!“ (Norbert Plankenauer, Philosoph) Die Notwendigkeit, in der Arbeit übereinstimmend zu handeln, zwang unsere Vorfahren dazu, sich miteinander zu verständigen und es entwickelte sich allmählich die menschliche Sprache. Die Arbeit wurde komplizierter, und neuartige Beziehungen bildeten sich unter den Mitgliedern der Urmenschenhorde heraus. So kam es zur Entwicklung des sozialen Lebens. Das wiederum förderte die Steigerung der Komplexität der Sprache, um zusammenhängende Gedanken fassen zu können. Einer der entscheidensten Unterschiede zwischen Mensch und Tier ist das Vorhandensein einer ausgebildeten Sprache. In dieser Ausarbeitung werde ich auf die Produktion und auf die Perzeption der Sprache eingehen, genauer auf den Aufbau und die Funktion des Sprachorgans, die Darstellung der Sprache mit Hilfe von Graphiken, den Aufbau und die Funktion des Ohrs und die Wahrnehmung der Schallwellen. Im ersten Kapitel gebe ich einen Überblick über Laute und Phoneme. 1. Laute und Phoneme Der Laut ist die kleinste Einheit des gesprochenen Wortes. Es gibt mehr Laute als Buchstaben. Laute können nach verschiedenen Merkmalen unterschieden werden. 1. nach ihrer Stellung im Wort: – Anlaut (am Wortanfang) – Auslaut (am Wortende) – Inlaut (im Wort) 2. nach Kürze oder Länge – Kurzlaute z.B. in Bett, ritt, füllen – Langlaute z.B. in Beet, riet, fühlen 3. nach Beteiligung der Stimmbänder: – stimmhafte Laute – stimmlose Laute z.B. b, d, g, l, m, n, r, w und alle Vokale z.B. f, h, p, ss, sch, z 4. nach Artikulationsart – Verschluss- oder Explosivlaute – Frikative (Reibelaute) – Liquide (Gleitlaute) – Nasale z.B. z.B. z.B. z.B. p, t, k, b, d, g f, s l, r m, n, ng 5. nach dem Ort ihrer Bildung: – Labiale (Laute, die mit den Lippen gebildet werden) z.B. p, b, m, f, w bei f und w sind zusätzlich die oberen Schneidezähne beteiligt – Dentale (Laute, die mit den Zähnen gebildet werden) z.B. d, t, s, sch – Nasale (Laute, die in der Nase gebildet werden) z. B. n – Velare (Laute, die im hinteren weichen Gaumen gebildet werden) z.B. u, o – Palatale (Laute, die im vorderen harten Gaumen gebildet werden) z. B. g, k, ch in "ich" Die Phonetik (Lautlehre) ist der Teil der Sprachwissenschaft, der sich mit der Lautbildung und den Eigenschaften der Laute unter physikalischen (akustischen) und physiologischen (artikulatorischen) Gesichtspunkten beschäftigt. Das Phonem ist die kleinste bedeutungsunterscheidende Einheit des gesprochenen Wortes. 2 Man spricht dann von einem Phonem, wenn sich durch den Austausch eines Lautes durch einen anderen Laut die Bedeutung eines Wortes verändert. Beispiel: Hand - Hund Bett - Beet kann - Kahn (Phonemtausch im Inlaut) (kurz gesprochenes e durch Doppelung des nachfolgenden Konsonanten - lang gesprochenes e durch Doppelung des Vokals) (kurz gesprochenes a durch Doppelung des nachfolgenden Konsonanten - lang gesprochenes a mit h als Dehnungslaut) Beachte: Die Länge eines Vokals (die Dehnung) wird gekennzeichnet durch Verdoppelung des Vokals (Haar, Meer, Moor...), Dehnungs-h (Kohl, hohl, Mehl, Kuh...), e nach i (ie) (hier, Lied, Sieg...), gar nicht (aber, Hase, Igel...). Die Kürze eines Vokals (die Schärfung) wird gekennzeichnet durch Verdoppelung des nachfolgenden Konsonanten (Kamm, Hammer, kommen, rollen...). Als Diphthonge (Doppellaute) kommen vor: au, äu, eu, ei, ai. Zudem werden noch folgende Laute durch Buchstabenkombinationen dargestellt: ch, ck und der Reibelaut sch (Das ch kann für verschiedene Laute stehen, z.B. in: Chor, Rache, Charme). Sprache ist ein kontinuierlicher "Lautfluss", der nur ab und zu durch Sprechpausen unterbrochen wird. Die Laute werden durch vielfältige Lautübergänge miteinander verbunden. Sie kommen dadurch zustande, dass die Artikulationsorgane eine gewisse Zeit benötigen, um sich jeweils auf den neuen Laut umzustellen. Lautübergänge können höchst komplizierte Signalformen aufweisen. Sie haben einen maßgeblichen Einfluss auf die Sprachverständlichkeit. Dies lässt sich sehr einfach beweisen: setzt man Sprache aus "stumpf" aneinander gesetzten Einzellauten zusammen, so ist die Sprache weitgehend unverständlich. Schließlich werden die Laute selbst auch durch vorangehende bzw. nachfolgende Laute "gefärbt". Man nennt diesen Vorgang Koartikulation. So hat z.B. das ,,k" in ,,Kuh" eine andere Färbung als in ,,Kiel" (beachte Mundstellung). 2. Aufbau und Funktionsweise des Sprachorgans Um den Sprech- und den Sprachaufnahme-Prozess besser zu verstehen, ist es wichtig, die anatomischen Voraussetzungen des menschlichen Körpers zu kennen. Dabei werde ich mich an das in Abb.1 dargestellte Schema halten: Der Sprecher formuliert zuerst in seinem Gehirn eine Nachricht, die er übermitteln möchte. Diese Nachricht wird in der so genannten Großhirnrinde, in der sich das Sprachzentrum befindet, in eine Art Code umgewandelt und als Signale an die Vielzahl 3 der an der Sprache beteiligten Muskeln von Lunge, Rachen und Mund übermittelt. Dieser Vorgang erreicht eine Informationsrate von ca. 30.000 bps (bits per second): Formulieren der Nachricht: 50 bps, Umwandeln in Sprachcode: 200 bps, Muskelarbeit: 2.000 bps, Übertragung mit Hilfe von Schallwellen: 30.000 bps. Abb.1: Schema für Sprech- und Sprachaufnahmeprozess Aus der Lunge strömt Luft durch die Luftröhre und passiert dabei den so genannten Kehlkopf. Der Kehlkopf (Abb.2) ist der Lautsprecher des Körpers. Er dient dem Abschluss des Atemweges vom Speiseweg. Beim Schlucken schließt der Kehldeckel den Kehlkopf vollständig ab, so dass Nahrung und Flüssigkeit auf dem richtigen Weg in die Speiseröhre und schließlich in den Magen gelangen. Bei der Atmung hebt sich der Kehldeckel und gibt den Atemweg zu den Lungen frei. Er enthält auch die Stimmbänder, die durch ihre Schwingungen den Ton erzeugen. Die Stimmbänder haben eine ähnliche Funktion wie die schwingenden Anteile der Mundstücke von Blasinstrumenten, z. B. einer Klarinette. Wird Luft durchgeblasen, so schwingt das Holz- oder Plastikstück des Blasinstruments und erzeugt einen Grundton, der dann durch die Länge des Instruments und die verschiedenen Öffnungen in der Höhe variiert wird. Ähnlich erzeugen die Stimmbänder durch ihre Schwingungen bei Austritt der Atemluft einen Grundton, den dann Rachen, Mund und Nase variieren. Die Stimmbänder bestehen aus zwei feinen, lippenähnlichen Bändern, die sich beim Luftdurchtritt öffnen und schließen können. Die Lautstärke wird durch die Stärke des austretenden Luftstromes, die Tonhöhe durch die Lage und Spannung der Stimmbänder bestimmt. Die von den Stimmbändern erzeugte Frequenz wird als Sprachgrundfrequenz, bezeichnet und mit GF abgekürzt. Sie ist maßgebend für die 4 Intonation oder Sprechmelodie. Ihre Frequenz liegt zwischen 80 Hz (tiefe Männerstimme) und ca. 350 Hz (hohe Kinderstimme). Abb.2: Schnitt durch den Kehlkopf An der Umwandlung des im Kehlkopf gebildeten Grundtones in die Sprache sind die Lippen, die Zunge, der Gaumen und die verschiedenen Resonanzkörper beteiligt. Als Resonanzkörper dienen der Kehlkopf, der Rachen, die Mundhöhle, die Nasenhöhle, die Nasennebenhöhlen und auch die Brusthöhle. Einfach ausgedrückt, entsteht die Sprache durch Bildung von Konsonanten und Vokalen. Lippen, Zunge, Kiefer und Gaumensegel werden auch als „Sprechmuskulatur“ bezeichnet. Für stimmlose Laute sind die Stimmbänder geöffnet; der hindurch tretende Luftstrom bricht sich an Kanten und Ritzen des Rachenraumes. Die weitaus meisten Laute werden jedoch im Mundraum produziert. Hierbei spielt die Zunge eine entscheidende Rolle. Ihre Bedeutung wird z.B. dadurch unterstrichen, dass in verschiedenen Sprachen die Wörter "Zunge" und "Sprache" durch das gleiche Wort ausgedrückt werden (z.B. im Lateinischen durch "lingua"). Im Gegensatz zum Nasenraum ist der Mundraum in vielfältiger Weise veränderbar, was wiederum vor allem an der Zunge liegt (vgl. Abb.3). 5 Abb.3: Artikulationsstellung bei verschiedenen Lauten Der Nasenraum ist ein nicht veränderbarer Hohlraum, der über die Nasenlöcher mit der Außenwelt verbunden ist. In diesem Raum werden die Nasal-Laute oder auch Nasale (z.B. "m" und "n") erzeugt. Nasale sind stets stimmhaft, d.h. sie entstehen durch das Zusammenwirken der schwingenden Stimmbänder und dem als HohlraumResonator wirkenden Nasenraum. Abb.4: Schematische Darstellung des physiologischen Mechanismus des Sprechens Da man, wie erwähnt, den Nasenraum nicht verändern kann (es sei denn, man hat Schnupfen; dann kann man aber keine Nasale produzieren!) sind die Nasale ein sprecherspezifisches Merkmal. Nun möchte ich noch näher auf die oben genannte Sprachgrundfunktion GF eingehen. Wie schon gesagt, handelt es sich dabei um die von den Stimmbändern erzeugte Frequenz. Abb.5 zeigt eine typische Anregungsfunktion der Stimmbänder. Man kann deutlich den periodischen Verlauf erkennen. 6 Abb.5: Anregungsfunktion für den Laut ,,e" Der Abstand zwischen zwei Dreiecken wird als Grundperiode bezeichnet. Der Zusammenhang zwischen der Sprachgrundfrequenz fg und der Grundperiode Tp ist einfach fg = 1/Tp. Die GF unterliegt bei jedem Sprecher erheblichen Änderungen. Verdopplungen und Halbierungen der Frequenz innerhalb von Sekunden sind keine Seltenheit. Statt "Frequenz" sollte man daher besser von "Momentanfrequenz" sprechen. In Abb.6 ist ein GF-Verlauf für einen gesprochenen Satz aufgetragen. Die GFSchwankungen sind deutlich erkennbar. Dort, wo keine GF dargestellt ist, wurden stimmlose Sprachabschnitte gesprochen. Abb.6: GF-Verlauf für den Testsatz ,,Rudolf Ranick" 7 3. Darstellung der Sprache Wir haben nun verschiedene Klassifizierungsarten für Laute gelernt und auch wie der Körper solche produzieren kann. Die nächste Frage, die wir uns im Hinblick auf Spracherkennung stellen sollten, ist: „Wie können wir Gesprochenes „sichtbar“ machen und somit erkennen?“ Zuerst möchte ich einige grundlegende Werte aufführen: – – – – – Wellenlänge λ: Abstand zwischen zwei Peaks Periode T: Dauer einer „Runde“ Frequenz F: Anzahl der Runden pro Sekunde (Hz) Geschwindigkeit C = λ *F Amplitude: Höhe des Peaks Ein Laut ist wie jeder Schall eine Luftdruckschwankung, die sich wellenartig ausbreitet. Die Amplitude bezeichnet dabei die Druckstärke des Gesprochenen (hörbar 20 Hz bis 20KHz), die Frequenz die Druckänderung des Gesprochenen. Ich werde im Folgenden zwei verschiedene Formen der graphischen Darstellung von Sprache zeigen. Zum einen die Waveform-Plots und zum anderen die Spektogramme. 3.1. Waveform-Plots Das Sprachsignal ist ein sehr langsames Signal. Schaut man sich eine kurze Periode (5 bis 100 msec) an, dann scheint das Sprachsignal still zu stehen. Erst ab einer Länge von ca. 1/5 Sekunde kann man Unterschiede erkennen. Die x-Achse des Waveform-Plots ist die Zeit, in der das Sprachsignal empfangen wird. Auf der y-Achse wird die Druckstärke des Gesprochenen eingetragen. Bei gesprochener Sprache ändern sich Wellenlänge und Amplitude ständig. Ausgehend von der Grundfrequenz können wir also sagen, dass jeder Laut (Buchstabe) wie ein Filter funktioniert, der die GF abändert. Deshalb sieht die Schwingung im zeitlichen Verlauf unregelmäßig aus (vgl. Abb.7). Abb.7: Waveform-Plot „phonetician“ 8 Es gibt verschiedene Arten die unterschiedlichen Bereiche der Waveform-Plots zu klassifizieren. Eine davon ist die Aktivität der Stimmbänder heranzuziehen. Somit ergibt sich eine Einteilung in drei Zustände: S = Silence, U = unvoiced, V = voiced. S bedeutet, dass zu dieser Zeit nicht gesprochen wird. U bedeutet, dass zu dieser Zeit die Stimmbänder nicht vibrieren, was bedeutet, dass die Welle nicht periodisch ist, sondern sehr zufällig (z.B. Einatmen vor dem Sprechen). V bedeutet, dass in dieser Zeit gesprochen wird (Vibrieren der Stimmbänder) und daher die Welle beinahe periodisch ist und eine hohe Amplitude hat (vgl. Abb.8). Abb.8: Waveline-Plots der Zuständen Voiced und Unvoiced Allerdings ist diese Einteilung in S, U, V sehr mit Nachteilen behaftet, da es schwierig ist, einen schwachen, stimmlosen Laut (z.B. /f oder /th) aus U oder einen schwachen stimmhaften Laut (z.B. /v oder /m) aus V von S zu unterscheiden. Eine andere Möglichkeit das Sprachsignal zu charakterisieren, ist mit Hilfe so genannter Spektrogramme. 3.2. Spektogramme Spektogramme sind dreidimensionale Repräsentationen der Sprachintensität, in verschiedenen Frequenzbereichen, über die Zeit. (Zeit: horizontal, Frequenz: vertikal, Amplitude = Schwärzung oder Farbe für abnehmend, gleich bleibend, zunehmend). Hier sind Laute schon eher zu identifizieren - als typische Spektogramm-Muster. In Abb.9 werden einige Laute als Spektogramm gezeigt. Wie man sehen kann, bleibt das Lautspektrum bei Vokalen relativ konstant, hingegen ändert es sich bei den Konsonanten bereits innerhalb der ersten 40 ms. Die Silben /ba/ - /da/ unterscheiden sich im Lautspektrum durch den ersten spektralen Anteil, einer Stimmeinsatzzeit von etwa 40 ms. 9 Abb.9: Spektrogramme einiger ausgesuchter Laute Personen, die sich sehr genau mit Spektogrammen beschäftigen, sind sogar in der Lage sie zu lesen, da jeder Buchstabe ein anderes Erscheinungsbild hat. 10 4. Aufbau und Funktion des Ohrs Abb.10: 1 – Ohrmuschel, 2 – Gehörgang, 3 – Trommelfell, 4 – Mittelohr, 5 – Hammer, 6 – Amboss, 7 – Steigbügel, 8 – Gleichgewichtsorgan, 9 – Schnecke, 10 - Hörnerven In Abb.10 wird der Aufbau des Ohres im Durchschnitt gezeigt. Um den Vorgang des Hörens besser verstehen zu können, sollten wir den Schallwellen auf ihrem Weg folgen. Nachdem sie ihren Entstehungsort verlassen haben, kommen sie an der Ohrmuschel an. Durch deren spezifische Trichterform werden die Schallwellen in den Gehörgang geleitet. Die Ohrmuschel und der Gehörgang bilden zusammen das so genannte Außenohr. Dieses ist dafür zuständig, den inneren Bereich zu schützen (Härchen, die Staubpartikel, Bakterien, … abfangen und zur Richtungsbestimmung der Schallquelle). Akustisch stellen die Vertiefungen und Erhebungen der Ohrmuschel ein Filtersystem dar. Je nachdem, aus welcher Richtung der Schall auf das Ohr trifft, werden unterschiedliche dieser Filter angeregt. Somit erhält jede Richtung ihre individuelle Klangverfärbung. Das Ohrläppchen ist Teil der Ohrmuschel und hat die Funktion eines Resonanzkörpers. Im Mittelohr treffen die Schallwellen nun auf das Trommelfell, das die Trennung zwischen Außenohr und Mittelohr bildet und bringen dieses ins Schwingen. Im Mittelohr befindet sich die so genannte Paukenhöhle. Sie ist mit Luft gefüllt und über die Eustachische Röhre (Verbindung zwischen Mittelohr und Nasenrachenraum) mit 11 dem Rachenraum verbunden. Über die Eustachische Röhre findet ein Druckausgleich gegenüber der Außenwelt statt. Das Trommelfell wiederum gibt seine Schwingungen an die drei Gehörknöchelchen Hammer, Amboss und Steigbügel weiter, die hintereinander geschaltet sind. Diese verstärken die Schwingungen auf mechanische Weise (Hebelwirkung) und schützen somit das Innenohr vor zu hohem Schalldruck (vgl. Abb.11). Abb.11: Hintereinanderschaltung der drei Gehörknöchelchen Die nun verstärkten Schwingungen werden von den Gehörknöchelchen an das ovale Fenster des Innenohres weitergeleitet. Das Innenohr besteht aus zwei Teilen: Dem Gleichgewichtsorgan und der Schnecke. Das Gleichgewichtsorgan (Labyrinth) besteht aus den drei Bogengängen sowie Sacculus und Utriculus. Die drei Bogengänge stehen nahezu senkrecht zueinander und erfassen so die Drehbewegungen des Kopfes im Raum. Sie bestehen jeweils aus dem eigentlichen Bogen und aus einer Erweiterung, der Ampulle. In ihr liegen die Sinneszellen der Bogengänge. Sacculus und Utriculus erfassen die lineare Beschleunigung des Körpers im Raum. Sie stehen ebenfalls senkrecht zueinander, so dass der Sacculus auf vertikale und der Utriculus auf horizontale Beschleunigungen anspricht. Die Schnecke besteht aus einem knochenartigen Material, das nach den Zähnen das härteste Material im menschlichen Körper ist. Innen ist die Hörschnecke in drei mit Lymphe gefüllte Gänge gegliedert, an deren Innenseite sich die so genannte Basiliarmembran befindet. Auf ihr befinden sich Haarzellen, deren feine Härchen eine darüber liegende Membran, die Tektorialmembran durchstoßen und in die Flüssigkeit reichen. Schwingungen, die vom Steigbügel auf die Hörschnecke übertragen werden, versetzen die Lymphe hinter dem ovalen Fenster in eine Schwingung (vgl. Abb.12). Wenn sich die Basiliarmembran nun relativ zur Tektorialmembran bewegt, werden die auf ihr sitzenden Haarzellen verbogen. Die Haarzellen lösen daraufhin Nervenreize aus, die vom Hörnerv ins Gehirn geleitet werden. 12 Abb.12: räumliches Bild einer Wanderwelle entlang der Basiliarmembran Abb.13: Frequenzbereiche in der Schnecke (von 20 bis 20.000 Hz) Hohe Frequenzen erzeugen hierbei ein Auslenkungsmaximum am Anfang der Schnecke. Tiefe Frequenzen laufen bis zum Ende der Schnecke die Basiliarmembran entlang (vgl. Abb.13). Die Stelle des Auslenkungsmaximums bestimmt die Tonhöhenempfindung des Schallsignals. Die Entfernung des Auslenkungsmaximums vom Ende der Basiliarmembran ist hierbei proportional zur empfundenen Tonhöhe. Nach der Stelle des Auslenkungsmaximums wird die entsprechende Frequenz stark gedämpft. Abschnitte der Basiliarmembran jenseits des Auslenkungsmaximums werden durch diese Frequenz kaum noch zu Schwingungen angeregt. Dagegen regen tiefere Frequenzen noch Basiliarmembranbereiche, die vor ihrem Maximum liegen, zu Schwingungen an. So kommt es zu einer Möglichkeit zur Unterscheidung verschiedener Töne. 13 5. Darstellung des Gehörten Im vorhergehenden Kapitel haben wir die anatomischen Voraussetzungen für das Hören gelernt. In diesem Kapitel werde ich auf die Physik des Hörens eingehen. 5.1. Lautstärke und Hörbereich Die Anzahl der insgesamt erzeugten Nervenimpulse ist ein Maß für die empfundene Lautstärke eines Schallsignals und diese hängt wiederum von der Stärke der Schwingung der Basiliarmembran ab. Die Lautstärke kann man über atmosphärischen Druck (Mikro-Pascals) messen oder mit Hilfe der Intensität (Dezibel). Eine neue Maßeinheit für die Lautstärke nennt sich Sone. Sone ist die Maßeinheit der Lautheit, also für den Lärmpegel, wie ihn der Mensch empfindet. Dabei werden Lautstärke, Art und Intensität des Geräusches berücksichtigt. 1 Sone entspricht in etwa dem leisen Ticken eines Weckers. Als Ausgangspunkt wurden 40 Phon bei 1000 Hz als 1 Sone definiert. Das menschliche Gehör kann akustische Ereignisse nur innerhalb eines bestimmten Frequenz- und Schalldruckpegelbereichs wahrnehmen (Vom Menschen hörbares Spektrum 20 Hz bis 20 kHz). Zwischen der Hörschwelle und der Schmerzschwelle liegt die Hörfläche (vgl. Abb.14). Die Hörschwelle hängt in hohem Masse von der Frequenz ab. Zur Wahrnehmung sehr tiefer und sehr hoher Töne ist eine weitaus höhere Lautstärke erforderlich als für Töne mittlerer Frequenzen. Die höchste Empfindlichkeit zeigt das menschliche Ohr für Frequenzen zwischen 500 und 5000 Hertz. Dieser Bereich entspricht der Frequenzspanne der menschlichen Sprache (vgl. Abb.15). Abb.14: Graphische Darstellung des Hörbereichs 14 Abb.15: Bereiche einzelner typischer Geräusche und Laute 5.2. Zeitliche Maskierung – – – Nach Registrierung eines Tons und dessen Verstummen benötigt das Gehör eine "Erholungszeit", während der es einen ähnlichen, leiseren Ton nicht wahrnimmt. Die Zeit, die vergeht, bis der leisere Ton wahrgenommen wird, ist abhängig vom Lautstärke- und vom Frequenzverhältnis der beiden Töne und liegt im Bereich von ca. 5 bis 20 ms. Setzt (in einem Frequenzbereich) ein Schallsignal nach längerer Ruhe ein, feuern die Nervenzellen besonders stark. Bei länger andauerndem Schall sinkt die Anzahl der Nervenimpulse wieder auf einen durchschnittlichen Wert ab. Dies führt dazu, dass Schallsignale mit plötzlichen Schalleinsätzen (z.B. Hämmern) als wesentlich lauter empfunden werden, als gleichförmige Schallsignale mit gleichem Schallpegel. Starke tieferfrequente Schallsignalanteile können dazu führen, dass die Hörschwelle für höherfrequente Schallsignalanteile steigt. Das heißt: kann man einen höheren Ton allein gut wahrnehmen, kann es sein, dass man ihn nicht mehr wahrnehmen kann, wenn gleichzeitig einen lauter tieferer Ton anwesend ist. 15 5.3. Barkbänder und Mel-Skala Der oben genannte Maskierungseffekt wurde von Heinrich Barkhausen (1881-1956, Physiker, Dresden) verwendet, um den menschlichen Hörbereich in mehrere (so genannte kritische) Bänder einzuteilen. Dabei ging er folgendermaßen vor: Er lies Probanden einen Referenzton hören und dann einige andere. Sie mussten nun bestimmen, welcher der anderen Töne doppelt so hoch ist wie der Referenzton. Dadurch konnte er seine Bark-Skala aufstellen (von 0,2 bis 25 Bark). Eine Verdoppelung des Bark-Wertes bedeutet hierbei, dass der entsprechende Ton als doppelt so hoch empfunden wird. Bei niedrigen Frequenzen unter 500 Hz ergibt sich ein nahezu linearer Zusammenhang: – Ein Ton mit doppelt so hoher Frequenz (eine Oktave) wird als doppelt so hoch empfunden. – Eine Differenz von 1 Bark entspricht einer Erhöhung der Frequenz um ca. 100 Hz. Bei höheren Frequenzen über 500 Hz ergibt sich eher ein logarithmischer Zusammenhang: – Um doppelt so hoch empfunden zu werden, muss z.B. bei 1000 Hz ein zweiter Ton schon die 4-fache Frequenz besitzen, bei 1600 Hz sogar eine 10-fache Frequenz. – Eine Differenz von 1 Bark entspricht einer Erhöhung der Frequenz um eine kleine Terz (d.h. um den Faktor 1,19). Diagramme, die die Bark-Skala statt der linear aufgetragenen Frequenz verwenden, entsprechen besser dem Höreindruck. Es besteht ein linearer Zusammenhang zwischen dem Abstand der erregten Nervenzellen vom Ende der Basiliarmembran und dem Bark-Wert. Näherungsweise gilt: 1 Bark = 1,4 mm Basiliarmembran-Länge. Somit teilt sie Bark-Skala die Basiliarmembran in 24 Bereiche ein, die gleich lang, aber nicht für einen gleichgroßen Frequenzbereich zuständig sind. Interessanterweise hat man herausgefunden, dass das menschliche Gehör die Basiliarmembran auch in Bereiche/Gruppen einteilt, in denen sie getrennt eine Auswertung macht und dann zu einer Gesamtauswertung zusammensetzt. Diese Gruppen werden Frequenzgruppen genannt. Lage und Breite der Frequenzgruppen lassen sich durch Hörversuche bestimmen. Es lassen sich 24 Frequenzgruppen feststellen. Lage und Breite der Frequenzgruppen legen den Schluss nahe, dass das menschliche Gehör die Basiliarmembran des Innenohrs in ca. 24 gleichlange Abschnitte einteilt, für die jeweils die erzeugten Nervenimpulse gemeinsam ausgewertet werden. Dies entspricht aber genau der Definition der Bark-Skala (siehe oben): Die Breite einer Frequenzgruppe entspricht genau einem Bark. Die 16 Frequenzgruppenbreite beträgt etwa 100 Hz unterhalb von 500 Hz und etwa 1/5 der Frequenz oberhalb von 500 Hz (vgl. Abb.16). Die Bark-Skala wird somit auch zur Bezeichnung der unterschiedlichen Frequenzgruppen (und damit der Signalanalyse-Bereiche des Gehörs) verwendet. Abb.16: Bark-Skala Außer den Bark-Wert in einer Tabelle abzulesen (vgl. Abb.17), gibt es auch eine Formel, so dass sich der zu einer Frequenz f zugehörige Bark-Wert annähernd berechnen lässt: (Anmerkung: Die Formel ist nicht ganz exakt: 131 Hz ergibt hier etwas mehr als 1,31 Bark). Die Bark-Skala ist mit der Tonheit (Größe der subjektiven "Tonhöhenempfindung“) verknüpft. Die Einheit der psychologischen Tonhöhe ist das Mel. Es gilt: 1 Bark = 100 Mel. Normiert werden sowohl die Bark- als auch die Mel-Skala auf den musikalischen Ton C (131 Hz). Es gilt: 1,31 Bark = 131 Mel = 131 Hz. 17 Abb.17: einige Unterteilungsarten auf einen Blick 6. Literatur 1. http://www.wikipedia.de Für medizinische und physikalische Grundbegriffe und einige Bilder 2. Universität Oldenburg, V. Psychophysik des normalen und gestörten Gehörs, Seite 121-152, Vorlesung Audiologie 3. Universität für Musik und Darstellende Kunst Graz, HochschulorchesterAufnahmetechnik, Seminararbeit: Rau Constanze 4. Udo Klinger, Grundlagen der deutschen Sprache, Schwerte/Ruhr 2002 5. ic2 consulting GmbH, Die Sprache, Wien 6. BTU Cottbus, Lehrstuhl Sprachsignalverarbeitung Kommunikationstechnik, Online-Vorlesung 7. Prof. Hußmann, Ludwig-Maximilians-Universität München, Digitale Medien, Kapitel 5 18