Seminar Sehen und Hören Abteilung Neuroinformatik Universität Ulm Tonhöhenwahrnehmung Ausarbeitung vorgelegt von: Christian Pukelsheim Juni 2004 Seminarleitung: Prof. Dr. Heiko Neumann Prof. Dr. Günther Palm Gliederung 1. Einführung a. Sprachsignale b. Periodizität vs. Frequenz c. Frequenzanalyse im Innenohr 2. Das Korrelationsmodell (Nach Langner) a. b. c. d. e. f. Triggerneuron Oszillatorneuronen Integrator-/FlipFlop-Neuronen Koinzidenzneuron Funktionsweise des Modells Verarbeitung von Periodizität und Frequenz im Hörsystem 3. Orthogonalität von Periotopie und Tonotopie a. Tonotopie (Klang) b. Periotopie (Tonhöhe) 4. Ausblick a. Bedeutung für die Medizin b. Technische Umsetzung des Korrelationsmodells 5. Zusammenfassung 6. Quellenverzeichnis 1) Einführung a) Sprachsignale Unser Sprachsignale bestehen aus einem bunten Frequenzmix. Die höchsten Frequenzen, die in unserer heutigen Sprache vorkommen liegen dabei zwischen 15 und 20 kHz. Diese Signalinformationen müssen von unserem Hörsystem verarbeitet werden. Der optimale Wirkungsbereich der Nervenzellen liegt aber bei unter 100 Hz. Eine grundlegende Funktion unseres Hörsystems besteht nun darin, die Information der hohen Frequenzen in niedrige Frequenzbereich zu zerlegen. Akustische Signale werden im Innenohr durch zeitliche Intervalle von Nervenimpulsen repräsentiert, die wiederum in Ortsinformationen umgewandelt werden. b) Periodizität vs. Frequenz Die meisten Signalquellen, die wir Menschen als solche kennen, erzeugen ihr Signal mittels periodischen Schwingungen. Wenn man Musikinstrumente außer Acht lässt, kann von einer periodischen Schwingung meist auf einen lebenden Ursprung geschlossen werden. Ein Geräusch hat keine periodische Schwingung und wird von der intuitiven Definition auch eher Dingen zugeschrieben. Komplexe periodische Signale, wie sie z.B. die Stimme oder Instrumente erzeugen, bestehen aus einer Grundfrequenz, diversen Obertönen und der umhüllenden Periode. Die umhüllende Periode eines komplexen Tones [die Summe der anliegenden Frequenzen] ist für die wahrgenommene Tonhöhe verantwortlich. Ein menschlicher Vokal ist von Natur aus periodisch, da er durch die periodische Schwingung des Stimmbands erzeugt wird. Um identische Vokale der gleichen Tonhöhe zweier Sprecher zu identifizieren, wird die Klangfarbe analysiert. Hier genügt es, die unteren beiden Formanten anzuschauen, da sie schon genügend charakteristische Informationen über den Sprecher beinhalten. Die Sprechhöhe liegt in etwa zwischen 100 Hz und 300 Hz, d.h. in einem Zeitintervall von ca. drei bis zehn Millisekunden sind alle Informationen über den Vokal enthalten, sowohl die Klangfarbe mit den unterschiedlich ausgeprägten Formanten, als auch die Tonhöhe mit der charakteristischen umhüllenden Periode. Um diese Information weiter zu verarbeiten muss unser auditorisches System dieses Intervall spektral und zeitlich analysieren. In diesem Sinne sind Frequenz und Tonhöhe unabhängige Größen, die auch weitgehend unabhängig vom Hörsystem verarbeitet werden. Im zentralnervösen Hörsystem werden sie schließlich räumlich orthogonal zueinander abgebildet. c) Frequenzanalyse im Innenohr Schall erreicht unsere Ohrmuschel und wird von dort über den Gehörgang, das Trommelfell und über die Gehörknöchelchen zur Cochlea geleitet. Von dort breiten sich die Signalwellen über die Basilarmembran aus. Auf der Basilarmembran sitzen feine Haarzellen, die jeweils auf unterschiedliche Frequenzen reagieren. Die Zellen im vorderen Bereich der Basilarmembran werden durch hohe Frequenzen aktiviert, die im hinteren Bereich werden durch tiefe Frequenzen aktiviert. Somit handelt es sich hier um die Frequenzanalyse des Innenohrs. Der Wissenschaftler Ohm begründete damals die Vorstellung des Ohrs als Fourieranalysator. Heutzutage jedoch wird das Modell einer Filterbank favorisiert. Dieses Modell ist eher geeignet Impulsantworten der Nerven zu kodieren. Diese Impulsantworten werden von den Nerven-bahnen in zeitliche Aktionspotentiale übersetzt. Über diese zeitliche Verarbeitung im Hörsystem ist nicht so viel bekannt. Man geht davon aus, dass eine zeitliche Analyse im Hörsystem stattfindet, die speziell auf periodische Eigenschaften der Signale reagiert. 2. Das Korrelationsmodell (nach Langner) Das Korrelationsmodell ist ein Versuch die akustische Signalverarbeitung hinter dem Innenohr zu verstehen und darzustellen. Die Grundlage dieses Modells sind psychophysikalische Messungen und elektrophysiologische Experimente mit verschieden Tieren, wie z.B. Katzen, Chinchillas und Gerbils. Sowohl weitere Versuche mit Tieren als auch Computersimulationen untermauerten später dieses Modell. Im ventralen Nucleus Cochlearis (VCN), im dorsalen Nucleus Cochlearis (DCN) und im Colliculus Inferior (IC) verlaufen die Antworteigenschaften der verschiedenen Neuronen immer nach einem bestimmten Muster (Abb.1). Der IC sitzt, vereinfacht ausgedrückt, unter dem Cortex (Stammhirn). Der linke IC erhält seine Information direkt vom linken CN aber auch überkreuz vom rechten CN. Der IC ist somit die erste Stelle, an der Informationen aus beiden Ohren verarbeitet werden. Allerdings kann der IC selbst nur rudimentäre Aktionen ausführen, wie z.B. die Reaktion auf ein plötzlich auftretendes, lautes Geräusch: Unser Kopf dreht sich automatisch in die Richtung des Geräuschursprungs. Abb.1: Langnersches Korrelationsmodell (Langner2004) Das Modell besteht aus acht Neuronen, die sich in fünf charakteristische Gruppen gliedern. a) Das Triggerneuron Das Triggerneuron gibt die eingehenden Impulse an die Flip/Flop-Neuronen und an die Oszillatorneuronen weiter, so dass diese ihr Signal immer zeitgleich erhalten. Das Triggerneuron erhält seinen Eingang vom auditorischen Nerv. Es feuert immer zu einem bestimmten Zeitpunkt phasengekoppelt zu der umhüllenden Periode. Der konkrete Zeitpunkt des Feuerns ist bisher noch nicht bekannt, es wird aber davon ausgegangen, dass das Neuron beim Erreichen des Schwingungsminimums feuert. Das Triggerneuron ist in seiner Eigenschaft einem onset Neuron aus dem Ventral Nucleus Cochlearis (VCN) sehr ähnlich. b) Die Oszillatorneuronen Der Oszillatorkomplex besteht aus drei verketteten Neuronen, die sich gegenseitig anstoßen. Diese Neuronen erhalten ihr Eingangssignal vom Triggerneuron, das sie durch kurze „FeuerPhasen“ (spike trains) weitergeben und schaffen somit ein Signalzeitfenster für das Integratorneuron. Die Oszillatorneuronen sind in ihrer Eigenschaft den Sternzellen aus dem VCN sehr ähnlich. c) Das Integratorneuron Dieses Neuron integriert den Eingang vom auditorischen Nerv und feuert nach einer kurzen Verzögerung. Dies passiert nur, wenn das Neuron nicht von den anliegenden Flip/FlopNeuronen gehemmt wird. Das Integratorneuron ist in seiner Eigenschaft dem spindelförmigen Neuron im Dorsalen Nucleus Cochlearis (DCN) sehr ähnlich. d) Die Flip/Flop-Neuronen Diese Neuronen dienen dazu das Integratorneuron zu synchronisieren. Das Integratorneuron und die Flip/Flop-Neuronen bilden zusammen ein Netzwerk, das die Impulse des Triggerneurons verzögert. Die Flip/Flop-Neuronen sind in ihrer Eigenschaft den Pyramidenzellen im DCN sehr ähnlich. e) Das Koinzidenzneuron Das Koinzidenzneuron führt nun die beiden Netzwerke zusammen. Das Neuron feuert genau dann, wenn es in einem sehr kleinen Zeitfenster gleichzeitig den Impuls der Oszillatorneuronen und des Integratorneurons erhält. Das Ausgangssignal dieses Neurons wird an den auditorischen Cortex, also an die höheren Hirnregionen weitergeleitet. Wie Versuche belegt haben, ist das Koinzidenzneuron im IC zu finden Es ist in seiner Eigenschaft den Diskzellen sehr ähnlich. f) Funktionsweise des Modells Das Triggerneuron bekommt seinen Impuls vom Hörnerv und leitet diesen an die Oszillatorneurone und an das Flipneuron weiter. Das aktivierte Flipneuron hemmt das Flopneuron, das aufhört zu feuern und somit das Integratorneuron „freischaltet“. Dieses fängt nun an, die Impulse des Hörnervs aufzuintegrieren. Sobald es einen gewissen Schwellenwert erreicht hat feuert es. Der Impuls wird an das Koinzidenzneuron geleitet und aktiviert das Flopneuron wieder. Diese hemmt das Flipneuron und das Integratorneuron und sobald das Triggerneuron wieder feuert beginnt der ganze Kreislauf von vorne. Die Zeit, die das aktivierte Integratorneuron benötigt, um zu feuern bestimmt die Periode, auf die das Koinzidenzneuron reagiert. Den Flip/Flop-Neuronen obliegt „nur“ die Aufgabe sicher- zustellen, dass das Integratorneuron auch zum richtigen Zeitpunkt einer Schwingung mit dem integrieren anfängt. Die Oszillatorneuronen werden für die prinzipielle Funktionsweise des Modells nicht benötigt. Doch wird angenommen, dass sie in der Biologie vorkommen. Durch ihren „Spike train“ schaffen sie ein Zeitfenster für das Koinzidenzneuron, in welchem das Integratorneuron feuern kann und das Koinzidenzneuron dies als gleichzeitig anerkennt. Wenn die Oszillationsneuronen wegfallen würden, müssten die beiden Signale wirklich zur gleichen Zeit bei dem Koinzidenzneuron eingehen. Abb.2: Zwei Fälle des zeitlichen Ablaufs des Korrelationsmodells (Palm,Langner,Borst 2004) Bei Abb.2 sieht man im ersten Fall die Impulse gleichzeitig beim Koinzidenzneuron ankommen, d.h. die Verzögerung des Integratorneurons passt auf die umhüllende Periode des Eingangssignals. Im zweiten Fall ist die Verzögerung zu kurz. Hier feuert das Koinzidenzneuron nicht, da der Impuls des Integratorneurons vor dem Impuls der Oszillatorneuronen ankommt. Der nichtdargestellte Fall tritt genau dann ein, wenn die Verzögerung des Integratorneurons zu lang ist. Wenn jedoch die umhüllende Periode des Eingangsignals halb so lang ist wie die Verzögerung, dann wird das Integratorneuron beim zweiten Feuern des Triggerneurons aktiviert und das Koinzidenzneuron empfängt die beiden Impulse wieder gleichzeitig. Die Flip/Flop-Neuronen verhindern beim ersten Feuern des Triggerneurons, dass das Integratorneuron aktiviert wird. Dies passiert immer, wenn die Verzögerungszeit ein ganzzahliges Vielfaches der umhüllenden Periode ist. g) Verarbeitung von Periodizität und Frequenz im Hörsystem Nachdem das komplexe Akustiksignal durch die Basilarmembran in seine einzelnen Frequenzen aufgespaltet ist, wird diese Information von den Haarzellen an den Nucleus Cochlearis weitergeben. Das Modell der neuronalen Korrelation verwendet die fünf oben genannten Typen. Die verschiedenen Neuronen lassen sich in drei Ortsgruppen gliedern. Das Triggerneuron, die Flip/Flop – Neuronen und die Oszillatorneuronen befinden sich im VCN, das Integratorneuron befindet sich im DCN und das Koinzidenzneuron befindet sich im IC. Der IC ist somit die zentrale Umschaltstation für praktisch alle akustischen Information auf dem Weg zum Cortex. Auf dem Weg dorthin muss es die eingehenden zeitlichen Informationen in örtliche Informationen umwandeln. Die Menge von planar aufgetragenen Koinzidenzneuronen erfüllt die Funktion einer Neuronenkarte, so dass die Tonhöhe nun örtlich dargestellt wird. Bevor das Akustiksignal durch den Gleichrichter (Abb.3) auf das Korrelationsmodell trifft, wird es wie in einer Filterbank in einzelne Frequenzgruppen aufgespalten. Abb.3: Bandpassfilter im CN (Langner 2004) 3) Orthogonalität von Periodotopie und Tonotopie Da die räumliche Anordnung der Neuronen im IC sehr komplex ist, wird sie hier vereinfacht dargestellt. Abb.4: Tonotopie und Periodotopie (Langner 2004) Es existieren ca. 30 parallele neuronale Schichten tausender Nervenzellen. Jede dieser Schichten bildet einen gewissen Frequenzbereich (CF) ab. Die Koinzidenzneuronen sind auf bestimmte Modulationsfrequenzen (BMF) abgestimmt. Die blauen Neuronen (auf die der waagerechte Pfeil zeigt) in der Mitte der obersten Schicht reagieren z.B. auf eine Frequenz von 2 kHz und die roten Neuronen (auf die der fast senkrechte Pfeil zeigt) auf eine Periodizität von 100Hz. Der Kreuzungspunkt dieser beiden orthogonalen Repräsentationen signalisiert demnach einen bestimmten harmonischen Klang, z.B. den zweiten Formanten einer männlichen Stimme. Die Neuronen sind in verschiedene Frequenzklassen eingeteilt, da sie letztendlich alle über die Neuronen im Nucleus Cochlearis mit ihrer ganz bestimmten Haarzelle auf der Basilarmembran verbunden sind. Diese Ortsabbildung im IC ist ein grundlegendes Ordnungsprinzip des auditorischen Systems und wird Tonotopie genannt. Das Integratorneuron benötigt eine bestimmte, periodencharakteristische Zeit um zu Integrieren und zu Feuern. Somit ist schließlich in der Reaktion des Koinzidenzneurons eine zeitliche Information über die Periodendauer enthalten. Dementsprechend sind die Neuronen in den neuronalen Schichten nicht nur tonotop sondern auch periodotop angeordnet. Schlussfolgerung daraus ist, dass die Tonotopie und die Periodotopie im Colliculus Inferior orthogonal zueinander angeordnet sind. Die Orthogonalität lässt sich durch elektrophysiologische Ableitung mittels Mikroelektroden von einzelnen Nervenzellen und mit weiteren Verfahren nachweisen. 4) Ausblick a) Bedeutung für die Medizin Die neuen Erkenntnisse in der Signalverarbeitung von komplexen akustischen Signalen haben entscheidend dazu beigetragen, dass es in der Medizin Hörgeräte gibt. Ein Cochlear Implantat z.B., kann tauben Menschen ein Gefühl für ihre Umgebungsakustik ermöglichen und sogar unter gewissen Umständen einer Spracherkennung möglich machen. Bei schwerhörigen und tauben Menschen ist der Grund der Schwerhörigkeit meistens in der Cochlea zu finden. Die Haarzellen auf der Basilarmembran reagieren nicht auf die Frequenzwellen. Das Cochlea Implantat greift genau dort ein, indem es die Funktion der Haarzellen durch 22 winzige Elektroden übernimmt (Abb.5). Abb.5: Das künstliche Gehör (Langner 1999) Am Außenohr befindet sich ein Mikrofon, welches die Stimmen und Geräusche aufzeichnet und sie an einen Sprachprozessor überträgt der am Körper getragen wird. Dieser gibt die Signale an die Elektroden weiter. Akustische Signale werden durch das Cochlea Implantat anders wahrgenommen. So berichten Implantatträger, dass das Hören von Musik schwer fällt und manchmal Stimmen schrill oder undeutlich klingen. Doch die vormals tauben Menschen können wieder hören. Das Implantat wird auch vermehrt bei kleinen Kindern eingesetzt, die damit nicht nur besser Hören können, sondern auch besser Sprechen lernen. b) Technische Umsetzung des Korrelationsmodells In der Abteilung Neuroinformatik an der Universität Ulm wurde das Korrelationsmodell erfolgreich durch ein Neurales Netz zur Phasenextraktion implementiert. Das Modell wurde in einer C++ Erweiterung für die Simulation von großen neuralen Netzen geschrieben. Dabei wurde eine zweidimensionale Karte mit 50 verschiedenen Frequenzeingängen und 50 verschieden Periodizitätseingängen simuliert. Bei der Neuronendarstellung wurde das Triggerneuron durch zwei „intergrate-and-fire“-Neuronen (eine technisch leichter implementierbare Neuronenart) ersetzt. Damit erhielt man für jeden Eingang neun Neuronen. Das gesamte Netz hatte somit 50x50x9 = 22500 Neuronen. Das Experiment wurde mit drei unterschiedlichen Signalen durchgeführt. Das erste war ein Orgelton, das zweite ein deutsches „a“ und das dritte Signal war ein deutsches „o“. Beide Vokale wurden von einer männlichen Person gesprochen. Die Versuche haben den Kern des Korrelationsmodells im Großen und Ganzen bestätigt. Die Versuche ließen jedoch auch eine Optimierungsmöglichkeit erkennen. Da einige Neuronen das Gleiche berechnen, können diese durch ein Einzelnes ersetzt werden. Zum Beispiel kann das Triggerneuron und die Oszillatorneurone in mehr als einem Kreislauf benutzt werden. Man vermutet, dass in der Natur solch eine Optimierung vorhanden ist. 5) Zusammenfassung Das neuronale Korrelationsmodell ist eine gute Erklärungsmöglichkeit der Vorgänge im auditorischen System von Mensch und Tier. Das genaue Zusammenspiel der einzelnen dargestellten Neuronengruppen ist jedoch noch nicht zu 100% durch Versuche bewiesen. Auch ist das Modell in der Wissenschaft nicht unumstritten. Allerdings zeigt es deutlich, dass es neben der Frequenzanalyse im Innenohr eine zweite wichtige Analyse gibt, die Analyse im Colliculus Inferior, die die zeitlichen Informationen der Hörnerven auswertet. Die zeitliche Analyse im Colliculus Inferior ergänzt die Frequenzanalyse auf der Basilarmembran und spielt eine wichtige Rolle bei der Tonhöhenwahrnehmung. Aufgrund dieser zeitlichen Analyse kann man sagen, dass die Neuronen im IC nicht nur tonotop sondern auch periodotop orthogonal zueinander angeordnet sind. 6) Quellenverzeichnis [1] [2] [3] [4] [5] [6] Langer, G. „Analyse und Repräsentation akustischer Signale im Hörsystem“, voraussichtliche Veröffentlichung: „Bionik an der TU-Darmstadt“, Springer Verlag, 2004 Borst, M., Palm, G., Langner, G. „A biologically motivated neural network for phase extraction from complex sounds“, Biol. Cybern. 90, 98-104 (2004) Langern, G., “Temporal Processing of Pitch in the Auditory System” Journal of New Music Research, Vol. 26 (1997), pp. 116-132 Bleeck, S., “Psychophysikalische Untersuchung von spektralen und zeitlichen Mechanismen des auditorischen Systems anhand harmonischer und unharmonischer Amplitudenmodulationen: relatives und absolutes Gehör“, Darmstadt (1996), www.tonhoehe.de Langner, G., „Die zeitliche Signalverarbeitung im Hörsystem: Das künstliche Gehör“, Thema Forschung (TUD) 1999, http://eos.bio.tu-darmstadt.de/aglangner/langner.html Discovery Channel: Biotronik: Künstliches Gehör, http://www.discovery.de/de/pub/ specials/techno_cops/robotech/biotronik/kuenstliches_gehoehr.htm