Ein Ingenieur versucht die Funktion des Gehörs besser zu verstehen. Bitte prüfen sie seine Thesen zum Vortrag Berücksichtigung der zeitlichen Wahrnehmung im Abbild natürlicher Geräusche Mittwoch 16:25 A14-1-101 Psychoakustik: Physiologie, Modelle 1) 2) 3) 4) 5) 6) 7) 8) 9) 10) 11) 12) 13) 14) 15) 16) 17) 18) 19) 20) 21) 22) 23) 24) 25) 26) 27) 28) 29) 30) 31) 32) 33) 34) 35) 36) 37) 38) 39) 40) 41) 42) 43) 44) 45) 46) 47) 48) 49) Spektrogramme bilden speziell natürliche Geräusche bisher nur sehr unvollkommen ab. Deshalb lassen sich aus ihnen wesentliche Informationen nicht ablesen. Ein Teil der notorischen Probleme beruht auf falschen Vorstellungen von der Funktion des Gehörs. Fourier analysierte 1822 in Betrag und Phase. Im Streit mit Seebeck (1841) hat sich Ohm (1843) geirrt. Das "Ohm'sche" Gesetz der spezifischen Energien (J. Müller 1838) trifft beim Hören nicht generell zu. Der Begriff akustische Energie hat immer wieder zu Irrtümern geführt und sollte vermieden werden. So bestimmte Fletcher bei Annahme konstanter akustischer Energie eine falsche kritische Bandbreite. Die Hörbarkeit der energetisch fehlenden (virtuellen) Grundwelle ist neurophysiologisch plausibel. Eine Musterergänzung ihrer "Gestalt" ist dazu nicht erforderlich. Die Wahrnehmung der virtuellen Tonhöhe muss auch nicht erlernt werden. Die Schallintensität wird nicht nur als akustische Energie und Häufigkeit von Aktionspotenzialen kodiert. Deshalb hat man den 120 dB umfassenden Dynamikbereich bisher nicht technisch nachbilden können. Gemäss dem Ohm'schen Gesetz phasentaub ist das Gehör nur für stationäre tonale Wahrnehmung. Das Gehör ist sogar sehr empfindlich für plötzliche Änderungen der tonalen Periode. Dabei sind sprunghafte Änderung der Phase und momentane Frequenzabweichung einander äquivalent. Winzige, in Spektrogramm und Zeitfunktion unauffällige Phasenänderungen können markant hörbar sein. Auch eine Änderung der Polarität niederfrequenter Klickfolgen lässt sich eindeutig akustisch zuordnen. Man nimmt dabei die Richtung des Polaritätswechsels als kurzzeitig veränderte Tonhöhe wahr. Den Wechsel von Verdichtungs- zu Verdünnungsimpulsen hört man normalerweise als höherfrequent. Trotz bekannter Präferenz des rechten Ohrs für Sprache bzw. HF ist dann gewöhnlich das linke dominant. Die Zuordnung (höher oder tiefer) ist jedoch unsicher und kann irgendwann spontan umkippen. Dies erinnert an von Warren beschriebene Phänomene bei Wiederholungen von Sprachelementen. Möglicherweise nimmt ein Kurzzeitspeicher beschränkter Kapazität immer nur die Änderungen auf. Dementsprechend wird vermutet, dass zentrale und Rückkopplungs-Prozesse beteiligt sind. Grob vereinfacht kann zwischen diffusem, tonalem und kontralateralem Hören unterschieden werden. Das direkte diffuse Hören (an der Tonotopie vorbei) ist robuster gegen Rauschen als das tonale. Man nennt es auch zeitlich, Phasenkopplung, modulation transfer und spread spectrum transient modulation. Es beruht auf fast gleichzeitigem Feuern vieler, tonotopisch weit gestreuter Hörnervenzellen. Speziell Zellen mit Bestfrequenzen im Kilohertzbereich vermitteln dabei niedrige Pulsationsfrequenzen. Das diffuse Hören tritt u. a. als "motorboating" hervor, wenn das tonale schwach ist oder fehlt. Für Klickfolgen gibt es folglich keine untere Frequenzgrenze sondern es existiert auch Infrapitch (Warren). Das tonale Hören ist begrenzt auf den Bereich musikalischer Harmonie zwischen etwa 65 Hz und 4000 Hz. Es beruht nicht nur auf spektraler Ordnung (Tonotopie) sondern gleichzeitig auch auf zeitlicher Koinzidenz. Diese Koinzidenz ist die einzige plausible Grundlage des Gleichklangs über Oktaven und andere Intervalle. Sie ist trotz zum Cortex abnehmender relativer Häufigkeit des Feuerns der Neuronen zentral detektierbar. Die abnehmende Häufigkeit wird durch mehr Neuronen kompensiert (AN 30T, IC 400T, AC 100.000T). Ausgedehnte dendritische Kopplungen quer zur gesamten Tonotopie sind im Cortex offenbar vorhanden. Beträchliche Signallaufzeiten in dünnen Dendriten können die cochleare Latenz teilweise kompensieren. Vertikalzellen, Oktopuszellen u. ä. im nucleus cochlearis koppeln noch nicht über alle Best-Frequenzen. In der tonalen Signalverarbeitung spielt laterale Interaktion zweifellos eine grosse Rolle. Noch vor den Neuronen im CN mögen sich schon Haar-Zellen in der Cochlea gegenseitig beeinflussen. Denkbar sind eine radiale Fluid-Kopplung und eine elektrotonisch temporär erhöhte DC-Komponente. Auffällig sind zunächst die V-förmig auf die inneren Haarzellen fokussierten Reihen äusserer Haarzellen. Auffällig sind Projektionen afferenter Fasern zu ca. 0.7 mm weiter basal befindlichen äusseren Haarzellen. Es wird ein Zusammenhang zur kritischen Bandbreite (halbe Oktave bzw. ca. 1 mm) vermutet. Auffällig sind ferner das Aufklingen der Frequenz in der Sprungantwort der BM und deren Unverzerrtheit. Akkumulierte häufige Adaptierung würde den Steilabfall der Tuningkurve mit höherer Frequenz erklären. Die Front der Wanderwelle ist vermutlich durch Vorausverstärkung in den äußeren Haarzellen aufgesteilt. Nur Säugetiere weisen diese Effekte, hohes Potenzial der Endolymphe und gewundene Hörschnecken auf. 50) In der weiten basalen Windung wird eine besonders grossflächige Ionenpumpe (stria vascularis) benötigt. 51) Die Schneckenachse zeigt in Blickrichtung. Drehen und Nicken des Kopfes beschleunigen nicht tangential. 52) Die zeitliche Signalauflösung erreicht beim Menschen etwa 4 s. Sie gilt nur für niedrige Frequenz. 53) Die AC-Komponente des Potenzials in den Haarzellen folgt dem Stimulus zwar innerhalb von s biphasig. 54) Die Anzahl der Synapsen für die diskrete Übertragung der Neurotransmitter ist jedoch begrenzt. 55) Weniger Synapsen bedeuten eine ab ca. 2 kHz erhöhte Hörschwelle, nicht direkt eine Frequenzrestriktion 56) Die 4s werden bei Laufzeitdifferenzen zur azimutalen Ortung in kontralateraler Koinzidenz detektiert. 57) Dies geschieht in den MSO, die im Bereich niedriger Frequenz tonotopisch auffällig gespreizt sind. 58) Die Spreizung ist vergleichbar mit der Fovea des Auges und Besonderheiten bei speziellen Fledermäusen. 59) All dies zusammen erklärt die Diskrepanz von 4s zu minimal 31 s Halbperiodendauer bei 16 kHz Sinus. 60) Werte der Oktavvergrösserung entsprechen um 15 s zu klein gemessenen Intervallen erster Ordnung. 61) Deshalb beträgt die monaurale Zeitauflösung (ohne "Fovea") vermutlich etwa 15 s. 62) Die üblichen 22,7 s Abtastperiode (44,1 kHz) sind mithin der Schallwiedergabe ungefähr angemessen. 63) Die Deutung der Oktavergrößerung bestätigt, dass auch das tonale Hören auf zeitlicher Koinzidenz beruht. 64) Aus Spektraltemplates lassen sich Phänomene wie die Oktavverschiebung nicht widerspruchsfrei deuten. 65) Hartmann's Grundwellenverstimmung wird nicht als Beweis für ein Template-Modell angesehen. 66) Sie dürfte lediglich die Ungültigkeit eines anderen, willkürlich gewählten Modells beweisen. 67) Die Grundwelle (f0) kann zweckmäßig nichttrivial als in ihren Oberwellen enthalten definiert werden. 68) Argumente von McKinney/Delgutte für "all-order-ISIs" konnten nicht nachvollzogen werden. 69) Dies gilt auch für die von Kaernbach/Demany schon widerlegten entsprechenden Autokorrelationstheorien. 70) Übliche Erkenner nutzen die 44,1 kHz-Auflösung wegen wesentlich breiterer FFT-Fenster nicht aus. 71) Weder das Spektrogramm noch die zeitliche Hüllkurve am Hörnerv sind mathematisch sauber begründet. 72) Als "Hüllkurve" eines Impulses dient die Summe aller jeweils ungefähr gleichzeitigen Aktionspotentiale. 73) Für die Auflösungen in Zeit-Frequenz-Darstellungen gilt Heisenberg's Unschärferelation f * t > 1. 74) Diesem Dilemma wird zweckmässig wie im Ohr durch parallele Filter unterschiedlicher Breite entsprochen. 75) Wavelet-Transformationen lassen die auch schon der FFT anhaftende Akausalität stärker hervortreten. 76) Alle umfassenden Modelle des Gehörs verabsolutieren Teilaspekte und ignorieren die Komplexität. 77) Die in Phys. Rev. Letters Vol. 82 (1999) 26, 5389-5392 offerierte nichtlineare Dynamik überzeugt nicht. 78) Auch die verbreitete Vorstellung von entlang der Basilarmembran übertragener Energie ist unbegründet. 79) Die Wanderwelle ist wohl eher eine Begleiterscheinung lokaler und radialer Resonanzen, ein Epiphänomen. 80) Dafür sprechen Messungen von Dancer und die Identität von Netto-Latenz und Kehrwert der Bestfrequenz. 81) Nach gegenwärtigem Kenntnisstand arbeiten Nervenstrukturen völlig anders als die höhere Mathematik. 82) Eine generelle Autokorrelationsanalyse ist ebenso unwahrscheinlich wie das alte mechanische Modell. 83) Dementsprechend sind Korrelogramme aller Art nur eingeschränkt anwendbar. 84) Für brauchbare Modelle muss man die Verzweigung und Re-Integration der Signale im Gehirn nachbilden. 85) Neuronale Netzwerke mit dynamischen Synapsen (Berger, USC) sind ein erfolgversprechender Ansatz. 86) Diffuse und tonale Signalverarbeitung scheinen sich bei der sprachlichen Kommunikation gut zu ergänzen. 87) Ein einziger Mechanismus allein könnte nicht alle Phänomene (z. B. Tonhöhenverschiebungen) erklären. 88) Die Einwände von de Cheveigne und von Carlyon zum unitären Meddis-Modell gehen nicht weit genug. 89) Der Unterschied zwischen auf- und abklingenden Signalen erklärt sich aus der steileren Front letzterer. 90) Bei steilerem Anstieg ist die diffuse Koinzidenz stärker ausgeprägt. Sie wird als schärfer wahrgenommen. 91) Das Ohr bewertet als Kantenfilter Onsets stärker als Offsets. Höhere Bestfrequenzen hemmen tiefere, etc. 92) Die dynamische Unsymmetrie beginnt schon mit der Anpassung von Mittel- und Innenohr an den Stimulus. 93) Wichtige Unterschiede z. B zwischen ex- und implosiven Lauten entsprechen Merkmalen des Onsets. 94) Wahrscheinlich schliessen sich tonale Mustererkennung und Maskierung von Harmonischen nicht aus. 95) Das Gehör bedient ja verschiedene Wahrnehmungen (Ortung, Tonhöhe, Klangfarbe, etc.) nebeneinander. 96) Für ein vielfältig anwendbares Spektrogramm sind also Abstriche und Präzisierungen erforderlich. 97) Mit angepasst nichtlinearen Frequenz- und Zeitmassstäben werden Merkmale besser erkennbar. 98) Im Spektrogramm kann eine fehlende hörbare Grundwelle vorteilhaft ergänzt bzw. regeneriert werden. 99) Eine Zusatzdimension des Spektrogramms kann optional harmonisch kohärente Gruppen aufzeigen. 100) Dafür wird die Zyklizität der zwölf Halbtöne zweckmässig auf den Farbkreis rot bis violett abgebildet. 101) Tonfrequente Komodulationen bilden senkrechte farbige Linien. Wo sie tonale kreuzen, tritt CMR auf. 102) Infrapitch-Modulationen werden besser als Graustufen in die spektrale und zeitliche Struktur eingefügt. 103) Nicht aufgelöste höhere Frequenzen, also Zischlaute, erscheinen als maskierende graue Felder. 104) Alternativ kodiert Cook bei Modulation Frequenz als Farbton, Tiefe als Sättigung und Energie als Wert. 105) Sprache wird durch kohärent basierte Formanten (Maxima der spektralen Hüllkurve) bestimmt. 106) Man kann auch Formanten relational färben und Onsets beispielsweise durch Blinken hervorheben. Hinweis: Die Thesen widerspiegeln ungeprüfte Ideen des Autors. Sie sind nicht vom Institut für Elektronik, Signalverarbeitung und Kommunikationstechnik der Otto-von-Guericke-Universität Magdeburg autorisiert. Einwände richten Sie bitte an: [email protected] Tel. (0391) 6712403.