Teil 2 - Universität Ulm

Werbung
Seminar Sehen und Hören
Abteilung Neuroinformatik
Universität Ulm
Tonhöhenwahrnehmung
Ausarbeitung vorgelegt von:
Christian Pukelsheim
Juni 2004
Seminarleitung:
Prof. Dr. Heiko Neumann
Prof. Dr. Günther Palm
Gliederung
1. Einführung
a. Sprachsignale
b. Periodizität vs. Frequenz
c. Frequenzanalyse im Innenohr
2. Das Korrelationsmodell (Nach Langner)
a.
b.
c.
d.
e.
f.
Triggerneuron
Oszillatorneuronen
Integrator-/FlipFlop-Neuronen
Koinzidenzneuron
Funktionsweise des Modells
Verarbeitung von Periodizität und Frequenz im Hörsystem
3. Orthogonalität von Periotopie und Tonotopie
a. Tonotopie (Klang)
b. Periotopie (Tonhöhe)
4. Ausblick
a. Bedeutung für die Medizin
b. Technische Umsetzung des Korrelationsmodells
5. Zusammenfassung
6. Quellenverzeichnis
1) Einführung
a) Sprachsignale
Unser Sprachsignale bestehen aus einem bunten Frequenzmix. Die höchsten Frequenzen, die
in unserer heutigen Sprache vorkommen liegen dabei zwischen 15 und 20 kHz. Diese Signalinformationen müssen von unserem Hörsystem verarbeitet werden. Der optimale Wirkungsbereich der Nervenzellen liegt aber bei unter 100 Hz. Eine grundlegende Funktion unseres
Hörsystems besteht nun darin, die Information der hohen Frequenzen in niedrige Frequenzbereich zu zerlegen. Akustische Signale werden im Innenohr durch zeitliche Intervalle von
Nervenimpulsen repräsentiert, die wiederum in Ortsinformationen umgewandelt werden.
b) Periodizität vs. Frequenz
Die meisten Signalquellen, die wir Menschen als solche kennen, erzeugen ihr Signal mittels
periodischen Schwingungen. Wenn man Musikinstrumente außer Acht lässt, kann von einer
periodischen Schwingung meist auf einen lebenden Ursprung geschlossen werden. Ein
Geräusch hat keine periodische Schwingung und wird von der intuitiven Definition auch eher
Dingen zugeschrieben.
Komplexe periodische Signale, wie sie z.B. die Stimme oder Instrumente erzeugen, bestehen
aus einer Grundfrequenz, diversen Obertönen und der umhüllenden Periode. Die umhüllende
Periode eines komplexen Tones [die Summe der anliegenden Frequenzen] ist für die wahrgenommene Tonhöhe verantwortlich. Ein menschlicher Vokal ist von Natur aus periodisch,
da er durch die periodische Schwingung des Stimmbands erzeugt wird. Um identische Vokale
der gleichen Tonhöhe zweier Sprecher zu identifizieren, wird die Klangfarbe analysiert. Hier
genügt es, die unteren beiden Formanten anzuschauen, da sie schon genügend
charakteristische Informationen über den Sprecher beinhalten.
Die Sprechhöhe liegt in etwa zwischen 100 Hz und 300 Hz, d.h. in einem Zeitintervall von ca.
drei bis zehn Millisekunden sind alle Informationen über den Vokal enthalten, sowohl die
Klangfarbe mit den unterschiedlich ausgeprägten Formanten, als auch die Tonhöhe mit der
charakteristischen umhüllenden Periode. Um diese Information weiter zu verarbeiten muss
unser auditorisches System dieses Intervall spektral und zeitlich analysieren.
In diesem Sinne sind Frequenz und Tonhöhe unabhängige Größen, die auch weitgehend
unabhängig vom Hörsystem verarbeitet werden. Im zentralnervösen Hörsystem werden sie
schließlich räumlich orthogonal zueinander abgebildet.
c) Frequenzanalyse im Innenohr
Schall erreicht unsere Ohrmuschel und wird von dort über den Gehörgang, das Trommelfell
und über die Gehörknöchelchen zur Cochlea geleitet. Von dort breiten sich die Signalwellen
über die Basilarmembran aus. Auf der Basilarmembran sitzen feine Haarzellen, die jeweils
auf unterschiedliche Frequenzen reagieren. Die Zellen im vorderen Bereich der Basilarmembran werden durch hohe Frequenzen aktiviert, die im hinteren Bereich werden durch
tiefe Frequenzen aktiviert. Somit handelt es sich hier um die Frequenzanalyse des Innenohrs.
Der Wissenschaftler Ohm begründete damals die Vorstellung des Ohrs als Fourieranalysator.
Heutzutage jedoch wird das Modell einer Filterbank favorisiert. Dieses Modell ist eher
geeignet Impulsantworten der Nerven zu kodieren. Diese Impulsantworten werden von den
Nerven-bahnen in zeitliche Aktionspotentiale übersetzt.
Über diese zeitliche Verarbeitung im Hörsystem ist nicht so viel bekannt. Man geht davon
aus, dass eine zeitliche Analyse im Hörsystem stattfindet, die speziell auf periodische Eigenschaften der Signale reagiert.
2. Das Korrelationsmodell (nach Langner)
Das Korrelationsmodell ist ein Versuch die akustische Signalverarbeitung hinter dem
Innenohr zu verstehen und darzustellen. Die Grundlage dieses Modells sind psychophysikalische Messungen und elektrophysiologische Experimente mit verschieden Tieren, wie
z.B. Katzen, Chinchillas und Gerbils. Sowohl weitere Versuche mit Tieren als auch
Computersimulationen untermauerten später dieses Modell.
Im ventralen Nucleus Cochlearis (VCN), im dorsalen Nucleus Cochlearis (DCN) und im
Colliculus Inferior (IC) verlaufen die Antworteigenschaften der verschiedenen Neuronen
immer nach einem bestimmten Muster (Abb.1). Der IC sitzt, vereinfacht ausgedrückt, unter
dem Cortex (Stammhirn). Der linke IC erhält seine Information direkt vom linken CN aber
auch überkreuz vom rechten CN. Der IC ist somit die erste Stelle, an der Informationen aus
beiden Ohren verarbeitet werden. Allerdings kann der IC selbst nur rudimentäre Aktionen
ausführen, wie z.B. die Reaktion auf ein plötzlich auftretendes, lautes Geräusch: Unser Kopf
dreht sich automatisch in die Richtung des Geräuschursprungs.
Abb.1: Langnersches Korrelationsmodell (Langner2004)
Das Modell besteht aus acht Neuronen, die sich in fünf charakteristische Gruppen gliedern.
a) Das Triggerneuron
Das Triggerneuron gibt die eingehenden Impulse an die Flip/Flop-Neuronen und an die
Oszillatorneuronen weiter, so dass diese ihr Signal immer zeitgleich erhalten. Das Triggerneuron erhält seinen Eingang vom auditorischen Nerv. Es feuert immer zu einem bestimmten
Zeitpunkt phasengekoppelt zu der umhüllenden Periode. Der konkrete Zeitpunkt des Feuerns
ist bisher noch nicht bekannt, es wird aber davon ausgegangen, dass das Neuron beim
Erreichen des Schwingungsminimums feuert.
Das Triggerneuron ist in seiner Eigenschaft einem onset Neuron aus dem Ventral Nucleus
Cochlearis (VCN) sehr ähnlich.
b) Die Oszillatorneuronen
Der Oszillatorkomplex besteht aus drei verketteten Neuronen, die sich gegenseitig anstoßen.
Diese Neuronen erhalten ihr Eingangssignal vom Triggerneuron, das sie durch kurze „FeuerPhasen“ (spike trains) weitergeben und schaffen somit ein Signalzeitfenster für das Integratorneuron.
Die Oszillatorneuronen sind in ihrer Eigenschaft den Sternzellen aus dem VCN sehr ähnlich.
c) Das Integratorneuron
Dieses Neuron integriert den Eingang vom auditorischen Nerv und feuert nach einer kurzen
Verzögerung. Dies passiert nur, wenn das Neuron nicht von den anliegenden Flip/FlopNeuronen gehemmt wird.
Das Integratorneuron ist in seiner Eigenschaft dem spindelförmigen Neuron im Dorsalen
Nucleus Cochlearis (DCN) sehr ähnlich.
d) Die Flip/Flop-Neuronen
Diese Neuronen dienen dazu das Integratorneuron zu synchronisieren. Das Integratorneuron
und die Flip/Flop-Neuronen bilden zusammen ein Netzwerk, das die Impulse des Triggerneurons verzögert.
Die Flip/Flop-Neuronen sind in ihrer Eigenschaft den Pyramidenzellen im DCN sehr ähnlich.
e) Das Koinzidenzneuron
Das Koinzidenzneuron führt nun die beiden Netzwerke zusammen. Das Neuron feuert genau
dann, wenn es in einem sehr kleinen Zeitfenster gleichzeitig den Impuls der Oszillatorneuronen und des Integratorneurons erhält. Das Ausgangssignal dieses Neurons wird an den
auditorischen Cortex, also an die höheren Hirnregionen weitergeleitet.
Wie Versuche belegt haben, ist das Koinzidenzneuron im IC zu finden Es ist in seiner Eigenschaft den Diskzellen sehr ähnlich.
f)
Funktionsweise des Modells
Das Triggerneuron bekommt seinen Impuls vom Hörnerv und leitet diesen an die
Oszillatorneurone und an das Flipneuron weiter. Das aktivierte Flipneuron hemmt das Flopneuron, das aufhört zu feuern und somit das Integratorneuron „freischaltet“. Dieses fängt nun
an, die Impulse des Hörnervs aufzuintegrieren. Sobald es einen gewissen Schwellenwert
erreicht hat feuert es. Der Impuls wird an das Koinzidenzneuron geleitet und aktiviert das
Flopneuron wieder. Diese hemmt das Flipneuron und das Integratorneuron und sobald das
Triggerneuron wieder feuert beginnt der ganze Kreislauf von vorne. Die Zeit, die das
aktivierte Integratorneuron benötigt, um zu feuern bestimmt die Periode, auf die das
Koinzidenzneuron reagiert. Den Flip/Flop-Neuronen obliegt „nur“ die Aufgabe sicher-
zustellen, dass das Integratorneuron auch zum richtigen Zeitpunkt einer Schwingung mit dem
integrieren anfängt.
Die Oszillatorneuronen werden für die prinzipielle Funktionsweise des Modells nicht
benötigt. Doch wird angenommen, dass sie in der Biologie vorkommen. Durch ihren „Spike
train“ schaffen sie ein Zeitfenster für das Koinzidenzneuron, in welchem das Integratorneuron
feuern kann und das Koinzidenzneuron dies als gleichzeitig anerkennt. Wenn die Oszillationsneuronen wegfallen würden, müssten die beiden Signale wirklich zur gleichen Zeit bei dem
Koinzidenzneuron eingehen.
Abb.2: Zwei Fälle des zeitlichen Ablaufs des Korrelationsmodells (Palm,Langner,Borst
2004)
Bei Abb.2 sieht man im ersten Fall die Impulse gleichzeitig beim Koinzidenzneuron
ankommen, d.h. die Verzögerung des Integratorneurons passt auf die umhüllende Periode des
Eingangssignals.
Im zweiten Fall ist die Verzögerung zu kurz. Hier feuert das Koinzidenzneuron nicht, da der
Impuls des Integratorneurons vor dem Impuls der Oszillatorneuronen ankommt.
Der nichtdargestellte Fall tritt genau dann ein, wenn die Verzögerung des Integratorneurons
zu lang ist. Wenn jedoch die umhüllende Periode des Eingangsignals halb so lang ist wie die
Verzögerung, dann wird das Integratorneuron beim zweiten Feuern des Triggerneurons
aktiviert und das Koinzidenzneuron empfängt die beiden Impulse wieder gleichzeitig. Die
Flip/Flop-Neuronen verhindern beim ersten Feuern des Triggerneurons, dass das Integratorneuron aktiviert wird. Dies passiert immer, wenn die Verzögerungszeit ein ganzzahliges
Vielfaches der umhüllenden Periode ist.
g) Verarbeitung von Periodizität und Frequenz im Hörsystem
Nachdem das komplexe Akustiksignal durch die Basilarmembran in seine einzelnen
Frequenzen aufgespaltet ist, wird diese Information von den Haarzellen an den Nucleus
Cochlearis weitergeben. Das Modell der neuronalen Korrelation verwendet die fünf oben
genannten Typen. Die verschiedenen Neuronen lassen sich in drei Ortsgruppen gliedern. Das
Triggerneuron, die Flip/Flop – Neuronen und die Oszillatorneuronen befinden sich im VCN,
das Integratorneuron befindet sich im DCN und das Koinzidenzneuron befindet sich im IC.
Der IC ist somit die zentrale Umschaltstation für praktisch alle akustischen Information auf
dem Weg zum Cortex. Auf dem Weg dorthin muss es die eingehenden zeitlichen
Informationen in örtliche Informationen umwandeln. Die Menge von planar aufgetragenen
Koinzidenzneuronen erfüllt die Funktion einer Neuronenkarte, so dass die Tonhöhe nun
örtlich dargestellt wird.
Bevor das Akustiksignal durch den Gleichrichter (Abb.3) auf das Korrelationsmodell trifft,
wird es wie in einer Filterbank in einzelne Frequenzgruppen aufgespalten.
Abb.3: Bandpassfilter im CN (Langner 2004)
3) Orthogonalität von Periodotopie und Tonotopie
Da die räumliche Anordnung der Neuronen im IC sehr komplex ist, wird sie hier vereinfacht
dargestellt.
Abb.4: Tonotopie und Periodotopie (Langner 2004)
Es existieren ca. 30 parallele neuronale Schichten tausender Nervenzellen. Jede dieser
Schichten bildet einen gewissen Frequenzbereich (CF) ab. Die Koinzidenzneuronen sind auf
bestimmte Modulationsfrequenzen (BMF) abgestimmt. Die blauen Neuronen (auf die der
waagerechte Pfeil zeigt) in der Mitte der obersten Schicht reagieren z.B. auf eine Frequenz
von 2 kHz und die roten Neuronen (auf die der fast senkrechte Pfeil zeigt) auf eine
Periodizität von 100Hz. Der Kreuzungspunkt dieser beiden orthogonalen Repräsentationen
signalisiert demnach einen bestimmten harmonischen Klang, z.B. den zweiten Formanten
einer männlichen Stimme.
Die Neuronen sind in verschiedene Frequenzklassen eingeteilt, da sie letztendlich alle über
die Neuronen im Nucleus Cochlearis mit ihrer ganz bestimmten Haarzelle auf der Basilarmembran verbunden sind. Diese Ortsabbildung im IC ist ein grundlegendes Ordnungsprinzip
des auditorischen Systems und wird Tonotopie genannt.
Das Integratorneuron benötigt eine bestimmte, periodencharakteristische Zeit um zu
Integrieren und zu Feuern. Somit ist schließlich in der Reaktion des Koinzidenzneurons eine
zeitliche Information über die Periodendauer enthalten. Dementsprechend sind die Neuronen
in den neuronalen Schichten nicht nur tonotop sondern auch periodotop angeordnet.
Schlussfolgerung daraus ist, dass die Tonotopie und die Periodotopie im Colliculus Inferior
orthogonal zueinander angeordnet sind. Die Orthogonalität lässt sich durch
elektrophysiologische Ableitung mittels Mikroelektroden von einzelnen Nervenzellen und mit
weiteren Verfahren nachweisen.
4) Ausblick
a) Bedeutung für die Medizin
Die neuen Erkenntnisse in der Signalverarbeitung von komplexen akustischen Signalen haben
entscheidend dazu beigetragen, dass es in der Medizin Hörgeräte gibt. Ein Cochlear Implantat
z.B., kann tauben Menschen ein Gefühl für ihre Umgebungsakustik ermöglichen und sogar
unter gewissen Umständen einer Spracherkennung möglich machen.
Bei schwerhörigen und tauben Menschen ist der Grund der Schwerhörigkeit meistens in der
Cochlea zu finden. Die Haarzellen auf der Basilarmembran reagieren nicht auf die
Frequenzwellen. Das Cochlea Implantat greift genau dort ein, indem es die Funktion der
Haarzellen durch 22 winzige Elektroden übernimmt (Abb.5).
Abb.5: Das künstliche Gehör (Langner 1999)
Am Außenohr befindet sich ein Mikrofon, welches die Stimmen und Geräusche aufzeichnet
und sie an einen Sprachprozessor überträgt der am Körper getragen wird. Dieser gibt die
Signale an die Elektroden weiter.
Akustische Signale werden durch das Cochlea Implantat anders wahrgenommen. So berichten
Implantatträger, dass das Hören von Musik schwer fällt und manchmal Stimmen schrill oder
undeutlich klingen. Doch die vormals tauben Menschen können wieder hören. Das Implantat
wird auch vermehrt bei kleinen Kindern eingesetzt, die damit nicht nur besser Hören können,
sondern auch besser Sprechen lernen.
b) Technische Umsetzung des Korrelationsmodells
In der Abteilung Neuroinformatik an der Universität Ulm wurde das Korrelationsmodell
erfolgreich durch ein Neurales Netz zur Phasenextraktion implementiert.
Das Modell wurde in einer C++ Erweiterung für die Simulation von großen neuralen Netzen
geschrieben. Dabei wurde eine zweidimensionale Karte mit 50 verschiedenen Frequenzeingängen und 50 verschieden Periodizitätseingängen simuliert. Bei der Neuronendarstellung
wurde das Triggerneuron durch zwei „intergrate-and-fire“-Neuronen (eine technisch leichter
implementierbare Neuronenart) ersetzt. Damit erhielt man für jeden Eingang neun Neuronen.
Das gesamte Netz hatte somit 50x50x9 = 22500 Neuronen. Das Experiment wurde mit drei
unterschiedlichen Signalen durchgeführt. Das erste war ein Orgelton, das zweite ein deutsches
„a“ und das dritte Signal war ein deutsches „o“. Beide Vokale wurden von einer männlichen
Person gesprochen. Die Versuche haben den Kern des Korrelationsmodells im Großen und
Ganzen bestätigt.
Die Versuche ließen jedoch auch eine Optimierungsmöglichkeit erkennen. Da einige
Neuronen das Gleiche berechnen, können diese durch ein Einzelnes ersetzt werden. Zum
Beispiel kann das Triggerneuron und die Oszillatorneurone in mehr als einem Kreislauf
benutzt werden. Man vermutet, dass in der Natur solch eine Optimierung vorhanden ist.
5) Zusammenfassung
Das neuronale Korrelationsmodell ist eine gute Erklärungsmöglichkeit der Vorgänge im
auditorischen System von Mensch und Tier. Das genaue Zusammenspiel der einzelnen
dargestellten Neuronengruppen ist jedoch noch nicht zu 100% durch Versuche bewiesen.
Auch ist das Modell in der Wissenschaft nicht unumstritten. Allerdings zeigt es deutlich, dass
es neben der Frequenzanalyse im Innenohr eine zweite wichtige Analyse gibt, die Analyse im
Colliculus Inferior, die die zeitlichen Informationen der Hörnerven auswertet. Die zeitliche
Analyse im Colliculus Inferior ergänzt die Frequenzanalyse auf der Basilarmembran und
spielt eine wichtige Rolle bei der Tonhöhenwahrnehmung. Aufgrund dieser zeitlichen
Analyse kann man sagen, dass die Neuronen im IC nicht nur tonotop sondern auch periodotop
orthogonal zueinander angeordnet sind.
6) Quellenverzeichnis
[1]
[2]
[3]
[4]
[5]
[6]
Langer, G. „Analyse und Repräsentation akustischer Signale im Hörsystem“, voraussichtliche Veröffentlichung: „Bionik an der TU-Darmstadt“, Springer Verlag, 2004
Borst, M., Palm, G., Langner, G. „A biologically motivated neural network for phase
extraction from complex sounds“, Biol. Cybern. 90, 98-104 (2004)
Langern, G., “Temporal Processing of Pitch in the Auditory System” Journal of New
Music Research, Vol. 26 (1997), pp. 116-132
Bleeck, S., “Psychophysikalische Untersuchung von spektralen und zeitlichen
Mechanismen des auditorischen Systems anhand harmonischer und unharmonischer
Amplitudenmodulationen: relatives und absolutes Gehör“, Darmstadt (1996),
www.tonhoehe.de
Langner, G., „Die zeitliche Signalverarbeitung im Hörsystem: Das künstliche Gehör“,
Thema Forschung (TUD) 1999, http://eos.bio.tu-darmstadt.de/aglangner/langner.html
Discovery Channel: Biotronik: Künstliches Gehör, http://www.discovery.de/de/pub/
specials/techno_cops/robotech/biotronik/kuenstliches_gehoehr.htm
Herunterladen