Skriptum zur Vorlesung Psychoakustik II Schwerpunkt: Experimentelle Audiologie verfasst von Bernhard Laback für den Inhalt verantwortlich: Bernhard Laback Institut für Schallfoschung, Österreichische Akademie der Wissenschaften Reichsratsstrasse 17 1010 Wien 3. Auflage (Februar 2006) 1 Inhaltsverzeichnis 1 1. Psychophysik.................................................................................................................. 7 1.1 Definition von Mess-Skalen....................................................................................... 7 1.1.1 Nominalskala...................................................................................................... 8 1.1.2 Ordinalskala........................................................................................................ 8 1.1.3 Intervallskala ...................................................................................................... 8 1.1.4 Verhältnisskala ................................................................................................... 9 1.2 Grundlegende Gesetze der Psychophysik................................................................... 9 1.2.1 Webersches Gesetz............................................................................................. 9 1.2.2 Fechnersches Gesetz......................................................................................... 10 1.2.3 Potenzgesetz nach Stevens (Power Law) ......................................................... 11 1.3 Psychophysische Messmethoden.............................................................................. 14 1.3.1 Definitionen...................................................................................................... 14 1.3.2 Direct Scaling (Skalierung) .............................................................................. 14 1.3.3 Method of Limits (Grenzwert-Methode).......................................................... 16 1.3.4 Method of Adjustment (Anpassungsmethode)................................................. 17 1.3.5 Method of Constant Stimuli (Methode der konstanten Stimuli) ...................... 17 1.3.6 Adaptive Methoden .......................................................................................... 20 2 Signal Detection Theory (SDT)........................................................................................ 26 2.1 Weitere Anwendungen der Signal Detection Theory............................................... 27 2.2 Statistische Entscheidungen ..................................................................................... 28 2.3 Begriffe und Symbole............................................................................................... 29 2.4 Das Entscheidungskriterium (ß) ............................................................................... 30 2.4.1 Maximierung der Anzahl an richtigen Antworten............................................ 31 2.5 Zusammenhang mit der Psychophysik ..................................................................... 32 2.6 Nicht-parametrische Messungen der Sensitivität ..................................................... 32 2.6.1 Yes-No Method (Ja/Nein Methode) ................................................................. 32 2.6.2 Rating Scale Task (Bewertungs-Skalen Aufgabe) ........................................... 35 2.6.3 Forced-Choice Methode ................................................................................... 35 2.7 Normalverteilung von Signal und Rauschen............................................................ 38 2.7.1 Yes-No-Task .................................................................................................... 38 2.7.2 Force Choice Tasks .......................................................................................... 41 2.8 Zusammenfassung .................................................................................................... 43 2.9 Appendix .................................................................................................................. 44 2.10 Literatur zur Psychophysik und Signaldetektionstheorie ......................................... 44 3 Physiologie und Funktion des normalen und geschädigten Gehörs ................................. 45 3.1 Aussenohr................................................................................................................. 45 3.1.1 Funktion ........................................................................................................... 45 3.2 Mittelohr................................................................................................................... 46 3.2.1 Physiologie ....................................................................................................... 46 3.2.2 Funktion ........................................................................................................... 47 2 3.3 Mittelohr-Reflex....................................................................................................... 47 3.3.1 Funktionsprüfung des Mittelohres.................................................................... 47 3.3.2 Schallleitungs-Schwerhörigkeit........................................................................ 48 3.4 Innenohr und Gehörschnecke (Cochlea) .................................................................. 48 3.4.1 Lage .................................................................................................................. 48 3.4.2 Aufbau:............................................................................................................. 48 3.4.3 Basilarmembran-Schwingung .......................................................................... 49 3.4.4 Wanderwelle..................................................................................................... 49 3.4.5 Frequenzauflösung der BM .............................................................................. 50 3.4.6 Abstimmkurve (Tuning Kurve)........................................................................ 50 3.4.7 Mikromechanik der Cochlea (Cortisches Organ)............................................. 50 3.4.8 Aktivität der äusseren Haarzellen..................................................................... 51 3.4.9 Tuning Curven bei sensorineuraler Schwerhörigkeit ....................................... 52 3.4.10 Komplexe Eingangssignale .............................................................................. 52 3.4.11 Zwei-Ton-Suppression ..................................................................................... 52 3.4.12 Kombinationstöne ............................................................................................ 53 3.4.13 Neuronale Antworten im gesunden Gehör ....................................................... 53 3.4.14 Neuronale Abstimm(Tuning)-Kurve ................................................................ 53 3.4.15 Rate versus Pegel Funktion .............................................................................. 54 3.4.16 Zwei Komponenten der Feuerungsraten- versus Eingangspegel-Funktion...... 54 3.4.17 Phase-Locking .................................................................................................. 55 3.4.18 Physiologischer Mechanismus ......................................................................... 55 3.4.19 Interspike-Interval-Histogramm ....................................................................... 56 3.4.20 Kodierung des akustischen Dynamikbereichs (von ca. 120 dB) ...................... 56 3.4.21 Neuronale Zwei-Ton-Suppression.................................................................... 58 3.4.22 Physiologie und Funktionalität der geschädigten Cochlea............................... 59 3.4.23 Effekte sensorineuraler Schwerhörigkeit ......................................................... 60 4 Psychoakustik des normalen und cochleär geschädigten Gehörs..................................... 62 4.1 Absolute Hörschwelle .............................................................................................. 62 4.2 Frequenzselektivität.................................................................................................. 65 4.2.1 Power Spectrum Model .................................................................................... 65 4.2.2 Messung der auditorischen Filter ..................................................................... 67 4.2.3 Abhängigkeit von der Mittenfrequenz.............................................................. 71 4.2.4 Abhängigkeit vom Pegel .................................................................................. 72 4.2.5 Maskierungspattern .......................................................................................... 72 4.2.6 Konstruktion eines Excitation Patterns ............................................................ 73 4.2.7 Nicht-simultane (= zeitliche) Maskierung........................................................ 74 4.2.8 Frequenzselektivität bei CHGs (simultane Maskierung) ................................. 77 4.2.9 Perzeptive Konsequenzen reduzierter Frequenzselektivität............................. 79 4.3 Tonhöhenwahrnehmung und Frequenzdiskrimination (FD) .................................... 80 4.3.1 Modelle der Tonhöhenwahrnehmung............................................................... 81 4.3.2 Tonhöhenwahrnehmung von Sinustönen ......................................................... 81 3 4.3.3 4.3.4 4.3.5 4.3.6 4.3.7 4.3.8 4.3.9 4.3.10 Wahrnehmung musikalischer Intervalle........................................................... 82 Tonhöhenwahrnehmung von komplexen Tönen.............................................. 82 Diskrimination der Tonhöhe komplexer Töne ................................................. 83 Analyse komplexer Klänge in der auditorischen Peripherie (Cochlea)............ 83 Theorien der Tonhöhenwahrnehmung für komplexe Töne.............................. 84 Frequenzdiskrimination (FD) für Sinustöne bei CHGs.................................... 85 FMDLs bei cochleär Hörgeschädigten ............................................................. 86 Tönhöhenwahrnehmung von Sinustönen mit fehlenden Haarzellen bei der CF.. .......................................................................................................................... 86 4.3.11 Tonhöhenanomalien in der Wahrnehmung von Sinustönen ............................ 87 4.3.12 Frequenzdiskrimination (FD) für komplexe Töne bei CHGs .......................... 87 4.3.13 Perzeptive Konsequenzen veränderter Frequenzdiskrimination ...................... 88 4.4 Lautheitswahrnehmung und Intensitätsauflösung .................................................... 89 4.4.1 Isophon-Kurven................................................................................................ 89 4.4.2 Lautheitsskalierung........................................................................................... 90 4.4.3 Intensitätsauflösung.......................................................................................... 90 4.4.4 Lautheitsanstieg und Dynamikbereich bei CHGs ............................................ 91 4.4.5 Lautheitsmodell ................................................................................................ 92 4.4.6 Zum Recruitment-Phänomen führende Mechanismen..................................... 93 4.4.7 Intensitätsauflösung bei CHGs ......................................................................... 97 4.4.8 Perzeptive Folgen veränderter Lautheitswahrnehmung bei CHGs Recruitment.. .......................................................................................................................... 99 4.5 Zeitliche Auflösung und zeitliche Integration bei CHGs ....................................... 100 4.5.1 Modell der zeitlichen Verarbeitung................................................................ 100 4.5.2 Effekt der auditorischen Filter........................................................................ 101 4.5.3 Charakteristik der nicht-linearen Stufe und des zeitlichen Integrators........... 104 4.5.4 Zeitliche Auflösung bei CHGs ....................................................................... 105 4.5.5 Zeitliche Integration ....................................................................................... 109 4.5.6 Perzeptive Auswirkungen veränderter zeitlicher Verarbeitung bei CHGs..... 111 4.6 Literatur zur Psychophysik des normalen und cochleär geschädigten Gehörs....... 111 5 Experimentelles Design in der Psychophysik ................................................................ 112 5.1 Terminologie .......................................................................................................... 112 5.2 Selektion der unabhängigen Variablen................................................................... 113 5.3 Selektion der abhängigen Variablen....................................................................... 113 5.4 Einfluss von Störvariablen ..................................................................................... 113 5.5 Definition eines Experiments ................................................................................. 114 5.5.1 Zusammenfassung der statistischen Schlussfolgerung................................... 114 5.6 Gefahren für valide Schlussfolgerungen ................................................................ 116 5.7 Kontrolle von Störvariablen und Minimierung der Gefahr falscher Schlussfolgerungen ............................................................................................................ 117 5.7.1 Allgemeine Strategien .................................................................................... 117 5.7.2 Spezielle Strategien ........................................................................................ 117 4 5.8 Varianzanalyse (Analysis of Variance, ANOVA).................................................. 118 5.8.1 Selektion des adäquaten Designs ................................................................... 118 5.8.2 Einfaktorielles (einfaches) varianzanalytisches Design (ANOVA) ............... 118 5.8.3 Zweifaktorielles (einfaches) varianzanalytisches Design (ANOVA)............. 123 5.9 Literatur zum Thema experimentelles Design ....................................................... 123 5 Experimentelle Audiologie Der allgemeine Begriff „Audiologie“ bezeichnet alle Aspekte der wissenschaftlichen Auseinandersetzung mit dem Gehör und Hörschäden. Die "klinische Audiologie" beschäftigt sich primär mit klinischen Messmethoden zur Diagnose von Hörschäden (Lokalisation des Schadens) und zur Bestimmung von deren Ausprägung. Die "Experimentelle Audiologie" befasst sich mehr mit den grundlegenden Aspekten von Hörschäden, also den zugrundeliegenden psychoakustischen Phänomenen. Man könnte sie daher auch als Psychoakustik von Hörschäden bezeichnen. Obwohl in der experimentellen Audiologie und Psychoakustik das Gehör als Black-Box bzw. als phänomenologisches Modell betrachtet wird, können aus experimentellen Ergebnissen Rückschlüsse auf die zugrundeliegenden physiologischen Vorgänge gezogen werden. Experimentelle Audiologie ist ein interdisziplinäres Forschungsgebiet, in das Ergebnisse aus den Bereichen Akustik, Physiologie, Psychologie, Signalverarbeitung, Neurowissenschaften, kognitive Musikwissenschaft und Sprachwissenschaft (v.a. Phonetik) einfließen. Im vorliegenden Skriptum werden die Schwerpunkte auf a) perzeptive Folgen von Innenohrschäden und b) experimentelle Methodik in der Psychophysik gesetzt. 6 1 1. PSYCHOPHYSIK Die Psychophysik ist jenes Teilgebiet der experimentellen Psychologie, das Zusammenhänge und Gesetzmässigkeiten zwischen physikalischen Reizen (Signalen) einerseits und den durch diese ausgelösten sensorischen Wahrnehmungen und Urteilen andererseits herstellt. Der auf die Wahrnehmung von akustischen Reizen beschränkte Teil der Psychophysik ist die Psychoakustik. Da man die sensorische Wahrnehmung nicht direkt messen kann (wie zum Beispiel die Körpertemperatur), ist man auf die Angabe von Antworten der Versuchsperson (VP) angewiesen. Daher kommt in der Psychophysik dem Design der experimentellen Situation besondere Bedeutung zu. Die primären Ziele sind, a) valide und b) wiederholbare Antworten zu bekommen. Es ist meist nicht zielführend, die VP zu fragen: "Was haben sie gehört?". Statt dessen sollten sowohl Stimulus als auch Antwort klar definiert sein, und ein bestimmter Aspekt des Stimulus modifiziert werden. Erst dadurch bekommt der Versuchsleiter ein eindeutiges Bild von der Wahrnehmung der VP. Beispliele: a) Variation des Pegels eines Signals und Befragung der Person, in welchen Versuchsintervallen sie ein Signal gehört hat. b) Präsentation von 2 Tönen, wobei einer in der Frequenz variiert wird. Die VP gibt an, ob der jeweils variierte Ton höher oder tiefer war. Im ersten Fall wird der kleinste Pegel, bei dem der Ton gerade noch gehört wird, und im zweiten Fall der minimale Frequenzabstand, der gerade noch wahrgenommen wird, ermittelt. Allerdings spielen auch in einer solchen Situation nicht nur rein sensorische Aspekte (Sensitivität) eine Rolle, sondern auch Einflussfaktoren wie z.B. der Kontext (vorangegangene Stimuli) oder das subjektive Anwortkriterium der VP (Antwort-Tendenz). Auf den Einfluss des Antwortkriteriums wird im Kap. Signal Detection Theory näher eingegangen. 1.1 Definition von Mess-Skalen Mess-Skalen unterscheiden sich hinsichtlich der folgenden Eigenschaften: • Differenz: Unterschied in bestimmter/n Eigenschaft/en • Grösse: relative Grösse einzelner Elemente • gleiche Intervalle: Differenzen zwischen benachbarten Elementen gleich gross • „echter“ Nullpunkt: bedeutet Absenz einer Eigenschaft (z.B. 0,- Euro) Die folgende Klassifizierung der psychophysikalischen Mess-Skalen basierend auf Stevens (1975). 7 1.1.1 Nominalskala Beobachtungen werden in unterschiedliche Gruppen eingeteilt, die keine Ordnung oder Hierarchie haben, d. h. sie unterscheiden sich nur hinsichtlich eines Parameters. Die Anzahl der Fälle in den einzelnen Kategorien kann gemessen werden, Differenz x Grösse gleiche Intervalle echter Nullpunkt Beispiel: Das Geschlecht von Versuchspersonen (VPn). 1.1.2 Ordinalskala Beobachtungen können in eine Rangfolge gebracht werden. Keine Information über den Abstand zwischen einelnen Kategorien hinsichtlich des sie unterscheidenden Parameters. Ermöglicht die Bestimmung des Medianwertes, d.h. des Wertes, der von derselben Anzahl an kleineren und grösseren Fällen umgeben ist. Beispiel: Die Präferenz von Versuchspersonen für verschiedene Gemälde Differenz x Grösse x gleiche Intervalle echter Nullpunkt 1.1.3 Intervallskala Entspricht einer Ordinalskala mit gleichen Abständen zwischen den einzelnen Kategorien oder Beobachtungen, d.h. die Beobachtungen können Kategorien mit gleichen relativen Abständen zugeordnet werden. Erlaubt die Anwendung der meisten Rechenverfahren, um die Charakteristik der Verteilung (z. B. Mittelwert) zu berechnen. Beispiel: Kalendertag Differenz x Grösse x gleiche Intervalle x echter Nullpunkt 8 1.1.4 Verhältnisskala Entspricht einer Intervallskala mit einem definierten Nullpunkt. Erlaubt die Angabe der gemessenen Werte als Verhältniswert und damit in der Dezibelskala. Alle mathematischen Verfahren zur Berechnung der Verteilung, wie z.B. das geometrische Mittel, können angewandt werden. Da diese Skala am restriktivsten ist, gibt sie die meiste Information über die Daten und hat daher das höchste Skalenniveau. Beispiel: Länge, Zeitintervall, Lautheit in Son und Tonhöhe Mel. Differenz x Grösse x gleiche Intervalle x echter Nullpunkt x 1.2 Grundlegende Gesetze der Psychophysik 1.2.1 Webersches Gesetz „Die relative Unterschiedschwelle ist konstant.“ (Weber, 1864). D.h., die relative Änderung K, die man an einem Reiz vornehmen muss, damit gerade noch ein Unterschied wahrgenommen wird (= JND, Just noticeable difference), ist konstant. K= ∆S S 1 − S 0 = S0 S0 S0 Referenzreiz S1 gerade vom Referenzreiz unterscheidbarer Reiz ∆S = S1 – S0 der eben merkliche Unterschied (JND) In anderen Worten: Die JND ist proportional zur Reizgrösse. ∆S = KS 0 Die Webersche Konstante K ist ist abhängig vom Sinnesgebiet und dem spezifischen Parameter, z.B. Helligkeitsbeurteilung: K= 1/100 Geschmacksempfindung: K = 1/5 9 Lautstärkewahrnehmung: Tonhöhe (S0 = 1000 Hz) K = 1/28 K = 1/333 (Mittel über verschiedene absolute Tonhöhen) Es besteht auch noch eine Abhängigkeit von der Wahrscheinlichkeit (Sicherheit) Π, mit der VPn den Unterschied wahrnehmen (siehe Definition der „psychometrischen Funktion“, Kap. „Method of Constant Stimuli“). Daher sollte K(Π) anstatt K angegeben werden. K (Π ) = ∆S S 1 − S 0 = S0 S0 1.2.2 Fechnersches Gesetz Ausgehend vom Weberschen Gesetz, in dem nur die objektiven Reizgrössen S0 und S1 vorkommen, stellte Fechner einen Zusammenhang zwischen der objektiven Dimension S und der subjektiven Dimension R her, R = f (S). Das Gesetz wurde aufgrund folgender theoretischer Überlegung aufgestellt: „Eben merkliche Unterschiede sind gleich gross“. Damit kann eine psychophysische Funktion aus einer Reihe von gerade wahrnehmbaren Unterschieden (JNDs) konstruiert werden. Annahme: K = 0.5 physikalisch S1 = 1 ........................................... S2 = S1 + 0.5 ⋅ S1 = 1.5 .............. S3 = S2 + 0.5 ⋅ S2 = 2.25 ........ S4 = S3 + 0.5 ⋅ S3 = 3.375 ........ S5 = S4 + 0.5 ⋅ S4 = 5.063 ........ S6 = S5 + 0.5 ⋅ S5 = 7.593 ........ subjektiv R1 = 1 R2 = 2 R3 = 3 R3 = 4 R5 = 5 R6 = 6 Die resultierende psychometrische Funktion ist in Abb. 1.1. dargestellt. allgemein S1 ................................................. S2 = S1 (1 + K) = S1 (1 + K) ........ S3 = S2 (1 + K) = S1 (1 + K)2 ........ S4 = S3 (1 + K) = S1 (1 + K)3 ........ … … Sm = Sm-1 (1 + K) = S1 (1 + K)m-1 ... R1 = 1 R2 = 2 R3 = 3 R4 = 4 Rm = M m = Index der Reizstärke 10 M = Empfindungsstärke Reizstärke S nimmt geometrisch zu, während Empfindungsstärke R arithmetisch wächst. nicht-linearer (logarithmischer) Zusammenhang zwischen Reiz und Wahrnehmungsstärke gleiche Verhältnisse der Reizstärke S entsprechen gleichen Differenzen in der Empfindungsstärke R → → → Psychophysische Funktion: K = 0.5 6 5.5 Empfindungsstärke R 5 4.5 4 3.5 3 2.5 2 1.5 1 1 2 3 4 5 6 7 8 Reizgrösse S Abb. 1.1. Entsprechend dem Ansatz von Fechner aufgebaute psychometrische Funktion. Durch Kombination mit dem Weberschen Gesetz resultiert das Fechnersche Gesetz: R = f (S) = c’ ln(S) + a’ c’ a’ beliebige Masstabskostante (entspricht verschiedenen Basen des Logarithmus) Integrationskonstante’ Anwendung des Fechnerschen Gesetztes : Lautstärke-Skala (in dB) 1.2.3 Potenzgesetz nach Stevens (Power Law) Stevens (1957) kritisierte, dass der Ansatz von Fechner „indirekt“ ist, da er den gerade wahrnehmbaren Unterschied (JND) als die Basis-Einheit der Wahrnehmung betrachtet. Von Stevens (1957) mittels der „Methode der Grössenschätzung“ (VP vergibt für jede Reizgrösse eine Zahl) empirisch gefundene Grössenschätzwerte widersprechen dem Fechnerschen Gesetz. Bessere Erklärung der experimentellen Daten mittels Potenzgesetz (Power Law) R = c (S – S0)α S0 Schwellenwert, S > S0 11 c Konstante α Konstante → gleiche Verhältnisse der Reizstärke S entsprechen gleichen Verhältnissen der Empfindungsstärke R. → In log-log Darstellung ergibt das Stevensche Gesetz eine Gerade mit der Steigung des Exponenten α. Folgende Argumente sprechen für das Stevensche Potenzgesetz: • Mittelungsaufgaben: VP soll im Herstellungsverfahren das subjektive Mittel zweier gegebener Reizstärken bestimmen: a) unter dem Fechnerschen Gesetz gilt: R3 = R1 + R2 (c lnS1 + a) + (c lnS2 + a) = = c ln S1S2 + a 2 2 S3 der subjektiv mittlere Reiz müsste daher dem geometrischen Mittel der beiden physikalischen Reizstärken entsprechen. → Experimente zeigten, dass der subjektiv mittlere Reiz grösser als das geometrische Mittel ist b) gilt jedoch das Potenzgesetz, so folgt: α R1 = cS1 ; R2 = cS 2 α R1 + R2 α = cS 3 2 durch Einsetzen entsprechend dem Potenzgesetz erhält man α α cS1 + cS 2 α = cS 3 2 α α S1 + S 2 α S3 = 2 S3 = α α S1 + S 2 2 α 12 → dies ist bei geeigneter Wahl von α grösser als S1 S 2 (Vorhersage nach Fechner). Dies spricht gegen die Gültigkeit des Fechner’schen Gesetzes. Beispiel: S1 = 2; S2 = 4; α = 1 ½ (2 + 4) = 3 (Stevens) > (2 ⋅ 4)1/2 = 2.83 (Fechner) • Cross Modality Matching: VPs passen Stimuli einer Modalität S (z.B. akustisch) an Stimuli einer anderen Modalität T (z.B. Helligkeit) hinsichtlich der subjektiven Intensität an. Modalität 1: psychophysische Funktion: f1 ( S ) = c1 S α Modalität 2: psychophysische Funktion: f 2 (T ) = c 2T β wenn T und S subjektiv gleich erscheinen, gilt: f1 (T ) = f 2 (T ) Einsetzen der psychophysischen Funktion ergibt: c1 S α = c 2T β Sα = c2 β T c1 S =( c2 α α ) T c1 1 β → daher müsste S als Potenzfunktion von T darstellbar sein (und vice versa): durch Logarithmieren erhält man wieder eine lineare Beziehung: ln S = β ln T + c α Sind α und ß vorgegeben, kann der Anstieg der Geraden vorhergesagt werden. 13 ln (T) ln (S) → Empirische Untersuchungen bestätigten recht gut die vorhergesagte Beziehung und bestätigen daher die Validität des Potenzgesetzes 1.3 Psychophysische Messmethoden 1.3.1 Definitionen Die in diesem Skriptum verwendeten und im folgenden aufgelisteten Begriffe werden zum Teil nicht aus dem Englischen übersetzt, wenn keine geeigneten Begriffe im Deutschen zur Vergügung stehen Stimulus (Reiz) dargebotener Versuchsreiz (akustisch, visuell, taktil …) Reizstärke Ausprägung eines definierten Parameters eines Stimulus; entspricht im Falle absoluter Werte dem Parameter (z.B. Schallintensität), und im Falle von differentiellen Schwellen der Differenz des Parameters vom Referenzstimulus (z.B. Frequenzunterschied) Trial kleinste Einheit in einem Experiment, bestehend aus Einblendung eines Warnsignals + Stimulusdarbietung in x Intervallen + Antwort der VP abhängige Variable Testvariable unabhäng. Variable Variable, deren Effekt auf die abhängige Variable getestet wird Bias Antworttendenz einer Versuchsperson 1.3.2 Direct Scaling (Skalierung) Bei den folgenden Verfahren der "Direkten Skalierung" stellt die Person einen direkten Zusammenhang zwischen einem physischen Kontinuum und einem perzeptiven Kontinuum. 1.3.2.1 Verhältnisschätzung und -Herstellung 1.3.2.1.1 Schätzung Die VP gibt das Verhältnis der Grösse zwischen zwei Stimuli in Bezug auf einen definierten Parameter an. Die subjektiven Werte werden als Funktion der physikalischen Grösse skaliert. 14 z. B. VP gibt an, dass der zweite von zwei 1000 Hz Tönen ½, 2 oder 4 mal so laut war wie der erste. 1.3.2.1.2 Herstellung (Fraktionalisierung) Die VP stellt einen variablen Parameter eines Stimulus so ein, sodass die Grösse dieses Parameters in einem vorgegebenen Verhältnis zu einem Vergleichsstimulus steht (z. B. Halbierung od. Verdoppelung der Lautstärke). Mittels dieser Methode wurde die Lautheitsskala (in Son) und die Tonhöhenskala (in Mel) gemessen. 1.3.2.2 Grössenschätzung und -Herstellung 1.3.2.2.1 Schätzung 1. Mit Referenzstimulus Darbietung eines Referenz(Standard)-Stimulus mit vorgegebener Grössenangabe (z. B. 10) und eines Vergleichsstimulus mit unterschiedlicher Grösse. Die VP gibt eine Zahl für den Vergleichsstimulus an, die in einem Verhältnis zur Grösse des Referenzstimulus steht. Z. B. die Zahl 1 für einen Stimulus, der zehnmal so leise ist wie der Vergleichston mit der Grösse 10. Abb. 1.2 Grössenschätzung der Lautheit mit Referenzstimulus (Kreise) und ohne Referenzstimlus (x). [aus Gelfand (1990); Daten aus Stevens (1956)]. 2. Ohne Referenzstimulus VP vergibt Zahlen für eine Reihe von Stimuli, die deren subjektiver Grösse in Bezug auf einem bestimmten Parameter (z. B. Lautstärke) entsprechen. Wie aus Abb. 1.2 ersichtlich ist, ergeben beide Methoden sehr ähnliche Resultate 1.3.2.2.2 Herstellung Die VP stellt die Grösse eines Stimulus so ein, dass sie einer angegebenen Zahl entspricht. 15 Sowohl die Grössenschätzungs- als auch Herstellungsmethode kann mit Absolutwerten durchgeführt werden, wobei es keinen Nullpunkt in der Skala gibt und alle Grössenangaben oder Herstellungen unabhängig voneinander sind. Obwohl die Methode problematisch erscheint, zeigte sich, dass sie selbst bei untrainierten VPn valide, wiederholbar und effizient ist. Sowohl Grössenschätzungs- als auch Herstellungsmethode sind vom Bias (individuelle Antworttendenz) der VPn betroffen: bei der Grössenschätzung werden keine Extremwerte angegeben, während bei der Grössenherstellung gerade Extremwerte bevorzugt werden. → da der Bias für beide Methoden genau gegensätzlich ist, ist das geometrische Mittel der beiden zugrundeliegenden Funktion eine gute Näherung an die tatsächliche Funktion. 1.3.2.3 Cross-Modality-Matching Die VP gibt die wahrgenommene Grösse für einen Reiz mittels einer anderen sensorischen Modalität an. Z.B. Angabe der Laustärke mittels der Länge einer Linie. 1.3.3 Method of Limits (Grenzwert-Methode) Stimulus unter Kontrolle des Versuchsleiters (VL), VP antwortet nach jeder Stimulusdarbeitung. Beginnend bei deutlich überschwelliger Stimulusgrösse, wird die Grösse nach jedem Trial (Darbeitung+Anwort), bei positiver (+) Anwort der VP (d.h. die hat z.B. einen Ton gehört oder eine Unterschied zwischen 2 Stimuli wahrgenommen) reduziert. Eine solche Abwärtsbewegung wird erst abgebrochen, sobald die Anwort negativ (−) ist. Dann beginnt eine Aufwärtsbewegung, beginnend bei deutlich unterschwelliger Stimulusgrösse. Diese wird solange fortgesetzt, bis die Antwort wieder positiv (+) wird. Die in Abb. 1.3 strichliert eingezeichnete Linie zeigt die hypothetische Schwelle, die zwischen den niedrigsten wahrgenommenen und den höchsten nicht wahrgenommenen Stimulusgrössen liegt. Der Mittelwert der Übergangspunkte für alle Durchläufe wird als die endgültige Schwelle definiert. Abb. 1.3. Method of Limits [aus Gelfand, 1990] Probleme 16 -VP könnte die Grösse, bei der der Übergang von (+) zu (−) stattfindet (bei Abwärts-Runs) und von (−) zu (+) (bei Aufwärtsbewegungen) voraausahnen, wenn der Startpegel immer gleich ist. Lösung: Unterschiedliche Startpegel (wie in Abb. 1.3) -Habituationseffekt, d.h. VP ändert, bei Aufwärtsbewegung, nicht ihre Antwort von (−) zu (+) für mehrere überschwellige Trials und, bei Abwärtsbewegung, nicht von (+) zu (−) über mehrere unterschwellige Trials. Lösung: gleiche Anzahl von Abwärts- und Aufwärtsbewegungen, dadurch Ausmittelung des Effektes. -Ineffizienz, da bei kleiner Stufenweite sehr viele Trials weit von der Schwelle "verschwendet" werden, und bei grosser Stufenweite zu grosse Ungenauigkeit der Schwellenbestimmung. -funktioniert nur bei monotonen psychometrischen Funktionen → → Trotz dieser Nachteile wird die Method of Limits, vor allem zur raschen Bestimmung der ungefähren Schwelle in Vorstudien (Pilot-Tests) oder im klinischen Bereich, noch immer angewandt. Dabei wird eine relativ grosse Stufenweite verwendet, um den Vorteil der kürzeren Testzeit zu nützen. 1.3.4 Method of Adjustment (Anpassungsmethode) -Der Stimulus wird von der VP kontinuierlich kontrolliert (im Gegensatz zur diskreten Veränderung bei der Method of Limits). -sonst Ablauf wie bei der Method of Limits -auch Messung der Differentialschwelle möglich: Veränderung der Grösse eines Stimulus, bis der zugrundeliegende Parameter subjektive Gleichheit ergibt. Vorraussetzungen -Einstellrad darf keine taktilen od. visuellen Cues liefern -Startpunkt der Grössenveränderung sollte von Durchlauf zu Durchlauf zufällig geändert werden Probleme -Generell wenig Kontrolle des VL über den Ablauf der Experiments -VP kann sein subjektives Kriterium während des Ablaufs ändern -Habituationseffekt wie bei Method of Limits kann durch gleiche Anzahl an Aufwärts- wie an Abwärtsbewegungen ausgemittelt werden → 1.3.5 Method of Constant Stimuli (Methode der konstanten Stimuli) Ein Set von Stimuli mit verschiedenen vordefinierten Grössen wird in zufälliger Reihenfolge dargeboten. Die Werte für die vordefinierten Grössen, die durch Vorwissen oder mittels PilotExperimenten ermittelt werden, umgeben die erwartete Schwelle, d. h. ein Teil soll unter- und ein Teil -überschwellig sein. Die Anzahl an Stimuli soll für jeden Wert gleich gross sein. 17 Tab. 1.1 zeigt die Ergebnisse für ein Constant Stimuli Experiment zur Ermittlung der Hörschwelle eines Tones. Der Parameter (in diesem Fall der Schallpegel) wird in Stufen von 1 dB im Bereich 4-11 dB dargeboten, jede Stufe wird 100 Mal getestet. Die Ergebnisse werden üblicherweise in Prozentanzahl (%) der detektierten Signale als Funktion des variierten Parameters (in diesem Fall dB SPL) dargestellt. Die Darstellung wird als Psychometrische Funktion bezeichnet (Abb. 1.4). Tab. 1.1. Ergebnisse der Hörschwellen-Messung für einen Ton mit der Method of Constant Stimuli [aus Gelfand, 1990] Abb. 1.4. Psychometrische Funktion für die Method of Constant Stimuli. Die durch lineare Interpolation ermittelte Schwelle, hier definiert als 50%-Punkt, beträgt 7.5 dB (Daten aus Tab. 1.1) [aus Gelfand, 1990] Differentielle Schwelle Bsp.: VP gibt an, ob der 2. von zwei Tönen lauter oder leiser wahrgenommen wird. Tab. 1.2 zeigt die Prozentwerte der Items, bei denen der 2. Ton lauter als der erste gehört wurde. Die Anzahl der Items, bei denen der 2. Ton leiser wahrgenommen wurde, ergibt sich aus 100% minus den lauter gehörten Items. Z. B. wurde der 60 dB Stimulus zu 100 – 35 = 65% leiser wahrgenommen. Die entsprechende psychometrische Funktion ist in Abb. 1.4 dargestellt. 18 Tab. 1.2 Ergebnisse der Messung der differentiellen Sensitivität für Schallpegel für die Method of Constant Stimuli [aus Gelfand, 1990] Am 50% Punkt der psychometrischen Funktion wurde der 2. Ton bei der Hälfte der Trials lauter und bei der anderen Hälfte der Trials als leiser eingestuft, daher gibt er den Punkt subjektiver Gleichheit (= point of subjective equality, PSE) an. Der 75% Punkt wird als die Schwelle bezeichnet (Übergang zur Wahrnehmung eines Unterschiedes). Die JND (just noticeable difference) wird als die Differenz der Stimulusgrösse zwischen dem PSE und der Schwelle definiert. (in Abb. 1.5: 64.8 dB (75%) – 61.5 (50%) = 3.3 dB. Eine alternative Bezeichnung zu JND ist DL (difference limen) Abb. 1.5. Psychometrische Funtion für die Ergebnisse aus Tab. 1.2. Punkt der subjektiven Gleichheit PSE (Point of subjective equality), “höhere” Schwelle und difference limen (DL) [aus Gelfand, 1990] Vorteile gegenüber Methods of Limits und Adjustment -Grössere Präzision -Es können Catch-Trials integriert werden, die keinen Stimulus enthalten und eine Schätzung der Ratewahrscheinlichkeit ermöglichen. Diese fliesst als Korrekturfaktor zur Bestimmung der Performance der VP ein. -es können auch nicht-monotone psychometrische Funktionen gemessen werden 19 Nachteile -Wesentlich ineffizienter in Bezug auf die Dauer, da viele Trials nicht nahe genug am angestrebten Prozentpunkt der psychometrischen Funktion liegen (z. B. 75% im oben beschriebenen Fall). -Damit verbundener Ermüdungseffekt und Motivationsnachlass. 1.3.6 Adaptive Methoden Bei adaptiven Methoden wird die Reizgrösse durch die Reaktionen der Versuchsperon auf vorangegangene Reize bestimmt. Strenggenommen ist die Method of Limits eine Untergruppe der adaptiven Methoden. Als adaptiv bezeichnete Methoden konvergieren bei einem Schwellenwert, der einem definierten %-Punkt an der psychometrischen Funktion entspricht. Wenn die Prozedur beispielsweise am 50% Punkt konvertiert, so detektiert die VP den Reiz an der Schwelle mit 50% Wahrscheinlichkeit. Vorteile -Maximum an Effektivität und Präzision, weil der Grossteil der Trials sich im Bereich der definierten Schwelle (entsprechend dem %-Punkt der psychometrischen Funktion, an dem die prozedur konvergiert) bewegt -Kein Vorwissen (und damit Vortests) über die Position der Schwelle notwendig, da die Prozedur von selbst zur Schwelle „wandert“ (unabhängig vom Startwert der Prozedur) Vorraussetzungen -monotoner Verlauf der psychometrischen Funktion für getesteten Parameter (abhängige Variable) -Unabhängigkeit der einzelnen Trials -damit verbunden, keine Lern- oder Ermüdungseffekte innerhalb einer adaptiven Prozedur 1.3.6.1 Békésy Tracking Vereinigt Eigenschaften der Method of Adjustment und Method of Limits sowie von adaptiven Prozeduren Die Stimulusgrösse variiert mit einer fixen Rate (z.B. 2.5 dB/sec) und die Richtung der Veränderung wird von der VP durch Drücken oder Loslassen einer Taste gesteuert. Der Verlauf der Stimulusgrösse wird über die Zeit aufgetragen (Abb. 1.6). Üblicherweise wird die Grösse reduziert, solange die Taste gedrückt ist (Stimulus ist hörbar) und erhöht, sobald die Taste ausgelassen wird (Stimulus ist nicht hörbar) D.h. die VP umwandert selbst ihre eigene Schwelle. Die Schwelle wird aus dem Mittel der Umkehrpunkte im Verlauf (bei gerader Anzahl an Umkehrpunkten) berechnet 20 100 hörbar a b unhörbar 0 Abb. 1.6. Typischer Verlauf der Békésy-Tracking Methode. Die Intensität nimmt ab, wenn die VP die Taste drückt (a) und vice versa (b). Links ist die zugehörige psychometrische Funktion eingezeichnet. Vorteile Hohe Geschwindigkeit und Präzision Nachteile -Bei schnellen Raten (Stimulusveränderung über die Zeit) Einfluss der Reaktionszeit der VP bei langsamer Reaktion grösseres Auslenken der Bewegung und damit geringere Genauigkeit bei langsamer Rate Problem nicht problematisch -Subjektives Kriterium der VP für Losslassen und erneutes Drücken der Taste nicht bekannt. Aber: unter den Annahmen: a) eines gleich bleibenden Kriteriums für eine Person über die Zeit und b) dem alleinigen Interesse an relativen Schwellenunterschieden zwischen verschiedenen Stimulusbedingungen (unabhängige Variable), nicht aber den absoluten Schwellenwerten (z. B. Laback et al., 2002) hat das nicht bekannte Kriterium keine Einfluss auf die Ergebnisse → Anwendungen -Häufige Anwendung im klinischen Bereich z.B. -Hörschwellen-Screenings (viele Personen, 100%ige Zuverlässigkeit der Methode nicht im Vordergrund) -Diagnose von Läsionen der zentraler Verarbeitung (erhöhter Adaptations-Effect, d.h. Ansteigen der Hörschwelle eines Stimulus mit zunehmender Dauer des Stimulus): BekesyAudiometry (Variation des Pegels über die Frequenz) 1.3.6.2 Einfache Up-Down (Staircase) Methode In der einfachsten Version der Up-Down Methode wird die Stimulusgrösse in diskreten Stufen reduziert, wenn die VP den vorherigen Stimulus detektiert hat und erhöht, wenn nicht. Damit bleibt die Reizgrösse immer in einem Bereich, in dem die VP „unsicher“ ist. Der Unterschied zur Method of Limits ist, dass ein Durchlauf nicht abgebrochen wird, wenn Detektion in nicht-Detektion übergeht od. vice versa. Die einfache Staircase-Methode funktioniert für sogenannte Forced-Choice-Aufgaben, bei denen das Ergebnisses eines Trials binären Charakter hat, d.h. die Antwort ist korrekt oder inkorrekt. 21 Abb. 1.7 zeigt die ersten 6 Läufe (runs) einer Staircase Prozedur mit einer Stufenweite von 2 dB. Ein run wird als eine Folge von Trials zwischen 2 Wendepunkten definiert. Ein Abwärtslauf beginnt mit einer positiven Anwort und wird solange fortgesetzt, bis eine negative Antwort erfolgt, während eine Aufwärtslauf mit einer negativen Antwort beginnt und mit einer positiven Antwort endet. Da die Stimulusgrösse nach jeder positiven Antwort reduziert und nach jeder negativen Antwort erhöht wird, konvergiert die Prozedur am 50%-Punkt der psychometrischen Funktion. Nach einer adäquaten Anzahl von Wendepunkten wird die Prozedur abgebrochen und der Schwellenwert als Mittelwert der Wendepunkte berechnet, wobei die ersten Wendepunkte nicht in die Mittelwertberechnung einbezogen werden. Adäquat kann in diesem Zusammenhang entweder eine fixe Anzahl sein (die sicherheitshalber eher höher sein sollte, z.B.12-16) oder in Abhängigkeit von der Varianz der Wendepunkte. Bei der letzen Varianten bricht die Prozedur ab wenn eine Mindestanzahl an Wendepunkten erreicht ist und die Varianz über die Wendepunkte einen vordefinierten Wert unterschreitet) Formaler lautet das Abbruchkriterium: wenn (i > MINWP) & ( 1 n ∑ (WP(i) − W P ) 2 ) < Σ i − s i=s wobei i = Index des aktuellen Wendepunktes s = Index des ersten Wendepunktes, der in die Berechung von Varianz und Mittelwert einfliesst n = Anzahl an Wendepunkten WP(i) = Stimulusgrösse am iten Wendepunkt = Mittelwert über die Wendepunkte von WP(s) bis WP(n) = Minimum an Wendepunkten = Schwelle der Varianz Stimulusgrösse WP MINWP Σ + + + 1 + WP(2) + + 2 - - WP(1) + + 3 4 +- - - - + + 5 6 - - + ... WP(i) Trial Abb. 1.7. Einfache Up-Down Methode. Ungerade Zahlen zeigen Abwärtsläufe und gerade Zahlen Aufwärtsläufe [aus Gelfand, 1990] Zur Steigerung der Effizienz und Präzision kann die Stufenweite an einem definierten Punkt der Prozedur verkleinert (üblicherweise halbiert) werden. Dadurch wird a) der angestrebte 22 %Punkt auf der psychometrischen Funktion schneller erreicht, und b) im Bereich des angestrebten %Punktes die Messgenauigkeit erhöht Anmerkung: Im Falle einer flachen psychometrischen Funktion sollte die Stufenweite auf keinen Fall zu klein sein, damit sich die adaptive Prozedur nicht an einem vom angestrebten Punkt verschiedenen Punkt der psychometrischen Funktion „verfangen“ kann (lokale Minima oder flache Stellen in der psychometrischen Funktion) !!!. Die Bestimmung der Stufenweite erfordert daher Vorwissen über die Steigung der psychometrischen Funktion. Wenn kein Vorwissen vorliegt, sollte entweder eine nichtadaptive Methode verwendet werden oder eine grosse Stufenweite (Laback et al., 2002). Vorteile (neben den oben beschriebenen allgemeinen Vorteilen der adaptiven Methoden) -Veränderungen der Sensitivität der VP innerhalb des Verlaufs können verfolgt werden. Nachteile (neben den oben beschriebenen allgemeinen Nachteilen der adaptiven Methoden) -Wenn sich die VP über den sequentiellen Verlauf der Prozedur bewusst wird, kann Bias auftreten (d.h., die einzelnen Trials sind nicht mehr unabhängig voneinander) -Es kann nur der 50-% Punkt der psychometrischen Funktion kann ermittelt werden. Daraus folgt, dass die Wahrscheinlichkeit für eine zufällig richtige Antwort für jeden Trial kleiner als 50 % sein muss, da sonst die Prozedur nicht konvergieren würde. 1.3.6.3 Transfomierte Up-Down (Staircase) Methode Um die einfache Up-Down Prozedur bei einem von 50% abweichenden Punkt der psychometrischen Funktion konvergieren zu lassen, wurden Modifikationen der Regeln für die Stimulusgrössen-Veränderung eingeführt. Am Konvergenz-Punkt ist die Wahrscheinlichkeit einer positiven Antwort identisch mit der einer negativen Antwort. D.h., wenn P die Wahrscheinlichkeit einer positiven Antwort ist, so ist (1-P) die Wahrscheinlichkeit einer negativen Antwort. Am 50%-Punkt: P = (1 − P) = 0.5 Um nun den Konvergenzpunkt zu verändern, werden die Up-Down Regeln so verändert, dass die Wahrscheinlichkeiten von Stimulusgrössen-Erhöhung und –Reduktion ungleich sind. Dies wird durch Up-Down-Regeln realisiert, die nicht nur die aktuelle Antwort, sondern Serien von Antworten auswerten. Beispiel (siehe Abb. 1.8 oben): Ziel: Konvergenz beim 70% Punkt Erhöhung nach: (−) od. (+,−) Erniedrigung nach: (+,+) Wie bei der einfachen Up-Down Regel werden bei überschwelligen Reizgrössen häufig (+,+) Sequenzen und bei unterschwelligen Reizgrössen häufig (−) oder (+,−) Sequenzen vorkommen. Am Konvergenz-Punkt hingegen ist die Wahrscheinlichkeit einer Reizgrössenerhöhung (1 − P) + P(1 − P) Wahrscheinlichkeit Wahrscheinlichkeit 23 Von (−) von (+,−) Die Wahrscheinlichkeit einer Pegelerniedrigung (+,+) ist P ∗ P = P2 Die Prozedur konvergiert am Punkt, wo die Aufwärt- und Abwärtsbewegung die gleiche Wahrscheinlichkeit von 0.5 haben. Daher beträgt die Wahrscheinlichkeit einer transformierten positiven Antwort (+,+) am Konvergenzpunkt P2 = 0.5 Da wir aber an der Wahrscheinlichkeit von P für eine einzelne positive Antwort interessiert sind, formen wir um: P = 0.5 = 0.707 In Prozent ausgedrückt, konvergiert die beschriebene Prozedur am 70.7% Punkt der psychometrischen Funktion. Zur Überprüfung setzten wir noch die Wahrscheinlichkeit einer transformierten negativen Antwort am Konvergenzpunkt gleich 0.5, d.h. (1−P) + P(1−P) = 0.5 woraus sich P berechnen lässt 1−P+P−P2 = 0.5 1−P2 = 0.5 P2 = 0.5 P = 0.707 → Abb. 1.8. Beispiele für transformierte Up-Down Prozeduren: oben: 1up/2down (70.7% Punkt); unten: 2up/1down (23.3% Punkt) [aus Gelfand, 1990]. Beachte: Die 2up/1down Methode funktioniert nur, wenn die Ratewahrscheinlichkeit eines Trials kleiner als 29.3% ist. Wie bei der einfachen Up-Down Methode wird die Effizienz durch adaptive Anpassung der Stufenweite erhöht. Die transformierte Up-Down Methode kann für absolute Schwellen, differentielle Schwellen und subjektive Beurteilungen verwendet werden (z.B. Lautstärkeverhältnis). 24 Im Falle der Verwendung von xAFC-Methoden bei x>1 (siehe Kap. Signal Detection Theory) muss der Konvergenzpunkt der Prozedur grösser als die Ratewahrscheinlichkeit sein, da sonst die Methode nicht konvergieren würde. Tab 1.3 zeigt eine Auflistung der Regeln für verschiedene Up/Down (Staircase)-Prozeduren und den zugehörigen Wahrscheinlichkeiten für eine Abwärtsbewegung (down-run) sowie den daraus resultierenden Konvergenzpunkten in %. Untersuchungen mit simulierten und realen VPs zeigten, dass die Effizienz der Prozeduren am grössten ist, wenn sie bei hohen %-Punkten der psychometrischen Funktion konvergieren. Der Grund ist, dass die Varianz im Antwortverhalten in diesem Bereich der psychometrischen Funktion geringer ist. Z. B. stellte sich die 3AFC-Methode als effizienter heraus als die 2AFC. Sequenz, die zu Sequenz, die zu Wahrscheinlichkeit %korrekt am einer Abwärtsbewegung Aufwärtsbewegung Konvergenzpunkt führt führt Abwärtsbewegung 1-up / 1-down 1-up / 2-down 1-up / 3-down 1-up / 4-down I K Pc Pc = 0.5 I, KI KK P2c Pc = 0.7071 I, KI, KKI KKK P3c Pc = 0.7937 I, KI, KKI, KKKI KKKK P4c Pc = 0.8409 Tab 1.3. Regeln für verschiedene Up/Down (Staircase)-Prozeduren. K = korrekte Antwort, I = inkorrekte Antwort. Methode zur Minimierung von Bias-Effekten, die die Vorrausetzung der Unabhängigkeit zwischen den einzelnen Trials verletzen (VP zeigt z.B. unterschiedliche Konzentration, je nach momentanem Status der Prozedure): • Parallelablauf von mehreren adaptiven Prozeduren. Nach Zufallsentscheidung werden abwechselnd Stimuli aus mehreren gleichzeitig laufenden Prozeduren präsentiert, wodurch die VP den Verlauf der einzelnen Prozeduren nicht mehr verfolgen kann. 25 1.3.6.4 PEST Prozedur Parameter estimation by sequential testing (PEST). Die Reizgrösse wird adaptiv nach bestimmten Regeln angepasst, wobei sowohl die Richtung der Veränderung als auch die Stufenweite der Veränderung durch das Antwortverhalten der VP bestimmt wird. Die Regeln bestimmen, an welchem %-Punkt der psychometrischen Funktion (PF) die Prozedur konvergiert. Wie bei der einfachen Up-Down Methode resultieren positive Antworten in Abwärtsläufen (kleinere Reizgrössen) und negative Antworten in Aufwärtsläufen. Bei der PEST Prozedur werden aber zusätzliche Regeln zur Verdoppelung oder Halbierung der Stufenweite in Abhängigkeit von der vorangegangenen Folge von Antworten angewandt. Das Grundprinzip ist, dass die PEST Prozedur nach jedem Trial überprüft, ob die Schwelle überschritten wurde (von oben oder von unten). Der Pegel wird dann so angepasst, dass maximale Information aus dem nächsten Trial entnommen wird. Obwohl es nicht notwendig ist, die ungefähre Schwellenposition im Vorhinein zu kennen, erhöht diese Information die Effizienz. In Abb. 1.9 ist ein adaptiver Durchlauf der PEST Prozedur dargestellt. Wenn der 50%Punkt angesteuert werden soll, lauten die zwei wesentlichen Regeln: Verdoppelung der Stufenweite nach zwei aufeinanderfolgenden Veränderungen der Reizgrösse in der gleichen Richtung und Halbierung der Stufenweite nach jedem Wendepunkt. Die Schwelle ist der hypothetische Punkt, der nach Halbierung auf die minimal mögliche Stufenweite erreicht werden würde. Der Stärke der PEST Methode liegt im sehr schnellen Erreichen der Schwelle. Für weitere Details der Methode siehe Taylor and Creelman (1967). J. Acoust. Soc. Am. 421, 782-787 Abb. 1.9. Beispiel des Signalgrössenverlaufes für die PEST Prozedur. Der hypothetische Punkt I ist die Schätzung der Schwelle [aus Gelfand, 1990] 2 SIGNAL DETECTION THEORY (SDT) Die klassischen Methoden der Psychophysik hatten zum Ziel, die Schwelle für einen Stimulus zu bestimmen. Schwellen können in Form von Detektion (Stimulus/kein Stimulus), Diskrimination (Stimulus gleich/ungleich mit Referenzstimulus), Erkennung (Stimulus wird 26 aus nicht vordefinierter Liste von Möglichkeiten erkannt, z.B. Spracherkennung), und Identifikation (Stimulus wird aus vordefinierter Liste von Möglichkeiten identifiziert) auftreten. Bei der Bestimmung der Schwelle ging man von einer fixen Stimulusgrösse aus, über der die VP den Stimulus detektiert und unterhalb derer sie den Stimulus nicht detektiert. Seit den 30er Jahren des 20. Jahrhunderts ist nun bekannt, dass dieses Konzept nicht zufriedenstellend ist. Bei sukzessiver Erhöhung der Stimulusgrösse tritt kein klar definierter Punkt auf, über dem der Stimulus plötzlich detektierbar ist, sondern es gibt einen Bereich von Stimulusgrössen, innerhalb dessen eine Versuchsperson manchmal angibt den Stimulus zu detektieren einen Reiz zu verspüren (z. B. einen Ton zu hören) und manchmal nicht. Die Funktion, welche die Abhängigkeit des Prozentsatztes an richtigen Antworten von der Stimulusgrösse angibt, wird, wie schon weiter oben erwähnt, als Psychometrische Funktion bezeichnet (siehe Abb. 1.4). Hinzu kommt, dass die Performance einer Versuchspersonen bei gleichbleibendem Stimulus durch Veränderung der Instruktion variiert werden kann. D.h., bestimmte Faktoren, die nicht direkt mit der Sensitivität der VP zu tun haben, können die Performance der VP beeinflussen. Die Theory of Signal Detection versucht, Faktoren, die mit dem subjektiven Kriterium und dem Bias der VP zusammenhängen, von Faktoren zu trennen, die die reine Sensitivität betreffen (siehe Abb. 1.10). Physikalischer sensorischer Entscheidungs- Antwort- Reiz Prozess prozess verhalten Theory of Signal Detection Abb. 1.10. Die Theory of Signal Detection versucht, die beiden internen Prozesse bei einem psychophysischen Experiment, die Sensitivität und die Entscheidung, zu separieren. 2.1 Weitere Anwendungen der Signal Detection Theory • • Medizinische Diagnostik (z.B. Röntgendiagnostik) Prüfsysteme (z.B. Röntgen von Fluggepäck) • Kalibrierung von Detektions (Mess)geräten (z.B. Radioaktive Strahlung) • Gerätewartung (z.B. Betriebsschäden bei Flugzeugen) 27 • Radarüberwachung (Detektion von (feindlichem) Objekt) 2.2 Statistische Entscheidungen Viele Entscheidungen basieren auf nicht perfekter Evidenz. Wenn sich beispielsweise die Körpergrössen einer Personengruppe im Bereich 63-69 Zoll (inch) bewegen, wenn sie bei der Messung barfuss sind, so steigen die Messwerte mit angezogenen Schuhen um ca. 1 Zoll, wodurch die Körpergrössen in den Bereich 64-70 rücken. Die Verteilungen der Grössen für die beiden Gruppen „Schuhe angezogen“ und „Schuhe ausgezogen“ sind in Abb. 2.1 dargestellt. Dieses Beispiel ist McNicol (1972) entnommen. Kann aufgrund dieser beiden Verteilungen gesagt werden, ob eine Person aus der Gruppe mit der Grösse 67 Zoll die Schuhe bei der Messung angezogen oder ausgezogen hatte? Nein, es kann keine mit Sicherheit richtige Entscheidung getroffen werden. Die Histogramme in Abb. 2.1 zeigen, dass 3/16 der Gruppe ohne Schuhe und 4/16 mit Schuhen eine Körpergrösse von 67 Zoll haben. Die sicherste Aussage wäre daher, dass die Person mit einer Chance von (4/16)/(3/16) = 4/3 die Schuhe anhatte. → Abb. 2.1. Verteilungen für die beiden Fälle „Schuhe angezogen“ (durchgezogene Linie) und „Schuhe ausgezogen“ (strichlierte Linie), d.h. die Wahrscheinlichkeiten des Auftretens der beiden Fälle für verschiedene Körpergrössen. [aus McNicol ,1972] Tab. 2.1. Bedingte Wahrscheinlichkeit P(x|s), dass x aus s stammt und bedingte Wahrscheinlichkeit P(x|n), dass x aus n stammt. l(x) gibt die Chance bzw. das Wahrscheinlichkeitsverhältnis zugunsten s an [aus McNicol ,1972] 28 Die rechte Spalte von Tab. 2.1 zeigt für jede der Körpergrössen die Chancen, dass sie der Bedingung mit Schuhen angehören. Die beiden Fälle „mit Schuhen“ und „ohne Schuhe“ werden im folgenden mit s und n bezeichnet (s steht für Stimulus, n für Noise (=Rauschen, d.h. kein Stimulus). Für jede Grösse (x) wird die Wahrscheinlichkeit, dass sie aus s stammt durch die Wahrscheinlichkeit, dass sie aus n stammt, dividiert. Die resultierenden Werte werden als Wahrscheinlichkeitsverhältnis l(x) zugunsten s bezeichnet. Es kann beobachtet werden, dass mit steigendem Wert von x die Chance für die Korrektheit von Hypothese s steigt. Für Grössen ≥ 67 Zoll ist es wahrscheinlicher, dass Hypothese s korrekt ist und für Grössen < 67 Zoll ist es wahrscheinlicher, dass Hypothese n korrekt ist. 2.3 Begriffe und Symbole a) Zur Entscheidung, ob Ereignis s oder n eingetreten ist, steht dem Beobachter die Evidenzvariable x zur Verfügung. Im obigen Beispiel ist sie die Körpergrösse, in psychophysischen Experimenten ist x der sensorische (interne) Effekt eines Reizes, d.h. eine physiologische Größe (z. B. Anzahl der neuronalen Pulse (Spikes) im Hörnerv). b) Bedingte Wahrscheinlichkeiten P(x|s) bzw P(x|n): Wahrscheinlichkeit des Auftretens von x unter der Bedingung, dass das Ereignis s bzw. das Ereignis n eingetreten ist. c) Wahrscheinlichkeitsverhältnis zugunsten s: l ( x) = P( x | s ) P ( x | n) 1 d) Hits, misses, false alarms and correct rejections: Während die beiden möglichen Stimulusereignisse s und n sind, bezeichnen S und N die beiden möglichen Antwortereignisse. Daraus ergeben sich die aus Tab. 2.2 ersichtlichen vier möglichen Kombinationen aus Stimulus- und Antwortereignissen, die sich auf die Verteilungen aus Abb. 2.1 beziehen. 1 die korrekte Schreibweise wäre: l SN ( xi ) = P ( xi | s ) , wobei i den Index entlang der Evidenzvariable x P ( xi | n ) angibt. Aus der Reihenfolge von s und n geht hervor, dass s im Zähler und n im Nenner steht 29 Tab. 2.2. Bedingte Wahrscheinlichkeiten und ihre Bezeichnungen für Kombinationen aus Stimulus und Antworten. Die Werte geben die Wahrscheinlichkeiten für folgendes Entscheidungskriterium an: Antworte S, wenn x > 66 Zoll, antworte N, wenn x ≤ 66 Zoll [aus McNicol ,1972] Die Bedeutung der angegebenen bedingten Wahrscheinlichkeiten gehen am besten aus einem Beispiel in Tab. 2.2 hervor. Die VP entscheidet sich S zu antworten, wenn x > 66 ist und N zu antworten, wenn x ≤ 66 ist. Die Wahrscheinlichkeit, dass die VP S antwortet nachdem sich s ereignete, P(S|s), kann aus der dritten Spalte in Tab. 2.1 durch Summation der P(x | s) Werte berechnet werden, für die x > 66 ist: (4+3+2+1)/16 = 10/16. Die ist die sogenannte Hit (H) Rate. Aus der gleichen Spalte geht auch die Wahrscheinlichkeit hervor, dass die VP N antwortet wenn s vorkam, P(N | s), die sogenannte Miss Rate ((3+2+1)/16). Aus Spalte 2 geht die Wahrscheinlichkeit von P(S | n), die False alarm (FA) Rate (6/16) und P(N | n), die Correct Rejection Rate (10/16), hervor. Da die Summe aller P(x | s) sowie die Summe aller P(x | n) 1 ist, gilt P(N | s) = 1 - P(S | s), und P(N | n) = 1 – P(S | n) D.h., die Hit und False Alarm Raten alleine beschreiben das Antwortverhalten. 2.4 Das Entscheidungskriterium (ß) Entsprechend der Theorie gibt es einen Übergangspunkt c entlang von x, der dem Entscheidungskriterium (ß) der VP entspricht; wenn x grösser als c ist, gibt sie an, den Reiz wahrgenommen zu haben (S), wenn x kleiner ist als c, so antwortet sie N. Das Kriterium für das Beispiel in Tab. 2.2 entsprechend dem Wahrscheinlichkeitsverhältnis lautet: wenn l(x) < 1 antworte N; wenn l(x) ≥ 1 antworte S → → In diesem Fall setzte die VP ihr Kriterium bei ß = 1. D.h. die Person wählt einen bestimmten Wert für l(x) als Kriterium. Das Kriterium (ß) kann von einer Reihe von Faktoren abhängen: a) Instruktion an die VP b) Wahrscheinlichkeiten s und n c) "Belohnung" und "Bestrafung" der VP für richtige und falsche Antworten, d) Erfahrung der VP e) Motivation der VP 30 2.4.1 Maximierung der Anzahl an richtigen Antworten Wenn s dieselbe Wahrscheinlichkeit hat wie n, d.h. P(s) = P(n), so erreicht die VP die maximale Anzahl an richtigen Antworten wenn sie ß = 1 wählt. Bei unterschiedlichen Wahrscheinlichkeiten von s und n, wird die maximale Anzahl an richtigen Antworten erreicht bei P ( n) ß= P( s) 2.4.1.1 Andere Entscheidungskriterien 2.4.1.1.1 Maximierung richtiger und Minimierung falscher Antworten. Unter der Annahme von Belohnung und Bestrafung für die Stimulus-Antwort Konstellationen WSs PNs PSn WNn = = = = „Wert“ für hit „Preis“ für miss „Preis“ für false alarm „Wert“ für correct rejection und unter der Bedingung P(s) = P(n) wird die Anzahl der richtigen Antworten minimiert und die Anzahl der falschen Antworten maximiert für ß= WN n + PN s WS s + PN s und bei P(s) ≠ P(n) für ß= (WN n + PN s ) P(n) (WS s + PN s P( s ) 2.4.1.1.2 Minimierung der False Alarm Rate Bei der Überprüfung der beiden Hypothesen H0 und H1 eines Experiments unterscheidet man zwei Arten von Fehlern: Fehler 1. Art: akzeptiere H1, wenn H0 wahr ist Fehler 2. Art: akzeptiere H0, wenn H1 wahr ist Der Fehler 1. Art ist vergleichbar mit der false alarm Rate und der Fehler 2. Art mit der Miss Rate. Normalerweise wird versucht, den Fehler 1. Art, also die FA Rate unterhalb eines akzeptablen Maximalwertes zu halten (z.B. p = 0.05). Eine fälschliche Annahme der H1 ist zumeist nachteiliger als ein fälschliches Verwerfen der H1. 31 Bspl.: Der fälschliche Schluss, dass ein neues Medikament eine Krankheit heilen kann, könnte dazu führen, dass Patienten nicht geheilt werden, obwohl es möglicherweise alternative Medikamente gibt, die wirken würden. Der Nachteil des Geringhaltens der Wahrscheinlichkeit des Fehlers der 1. Art (und der FA Rate) ist, dass dies nur auf Kosten einer erhöhten Wahrscheinlichkeit des Fehlers der 2. Art geht (M Rate). 2.5 Zusammenhang mit der Psychophysik Das obige Beispiel kann sehr einfach auf psychologische Entscheidungssituation und auf psychophysische Experimente im speziellen übertragen werden: Angenommen, ein Versuchsintervall enthält entweder einen in Rauschen eingebetteten Ton (s) oder das Rauschen alleine (n) (strenggenommen müsste man statt s sn schreiben, da internes Rauschen permanent vorhanden ist), wobei die Wahrscheinlichkeit des Auftretens eines der beiden Intervalle 50 % beträgt. Bei erster Betrachtung erscheint die Hit Rate, P(S|s), als geeignetes Mass für die Sensitivität der VP. Jedoch: Eine VP, die gar nicht zuhört und immer S antwortet, würde 100% erreichen. Daher: Die Einbeziehung der FA Rate in die Beurteilung der Sensitivität der VP erscheint notwendig !!! 2.6 Nicht-parametrische Messungen der Sensitivität In diesem Kapitel wird die SDT in Hinblick auf drei Typen von Detektionsexperimenten ausgearbeitet. Yes-No-Task, Forced Choice Task und Rating Scale Task. 2.6.1 Yes-No Method (Ja/Nein Methode) Beispiel Eine VP bekommt, in zufälliger Reihenfolge, entweder Rauschen oder Stimulus + Rauschen präsentiert. Nach jeder Darbietung soll die VP sagen, ob Stimulus+Rauschen (S) oder nur das Rauschen (N) präsentiert wurde. Die in Tab. 2.3 gezeigte Stimulus-Antwort Matrix resultiert aus dem Experiment. Antwort Stimulus s n S P(S | s) = 0.7 P(S | n) = 0.3 N P(N | s) = 0.3 P(N | n) = 0.7 Zeilensumme 1 1 Tab. 2.3. Stimulus-Antwort Matrix für beliebiges psychophysisches Yes-No Task Um den Effekt sowohl der H als auch der FA Rate darzustellen, wird die H Rate über der FA Rate aufgetragen (Abb. 11). Wir erhalten den Punkt c auf der Kurve A. 32 Um den Effekt des subjektiven Kriteriums zu veranschaulichen, wiederholt die VP das Experiment mit gleichem Stimulus und Rauschen, nachdem sie instruiert wurde, weniger strikt bei der Wahl der Antwort S zu sein, d.h. auch bei Unsicherheit S zu antworten. Punkt b auf Kurve A in Abb. 2.2. Schliesslich wird die Person instruiert, besonders strikt bei der Wahl von S zu sein, was im Punkt d resultiert. Weitere Punkte a und e resultieren aus den Instruktionen, besonders strikte oder laxe Kriterien anzuwenden. (Tab. 2.4 zeigt die H und FA Raten für die fünf verschiedenen Kriterien.) Die Verbindung dieser Punkte (Kurve A) wird als Receiver-Operating Characteristic (ROC) Kurve bezeichnet. Sie enthält Messungen bei gleicher Sensitivität, aber unterschiedlichen subjektiven Antwortkriterien (Antwort-Bias). Diese Kurve zeigt, wie gut die VP s von n Ereignissen unterscheiden kann. Abb. 2.2. Drei ROC-Kurven, entsprechend den s und n Verteilungen in A, B und C von Abb. 12 [aus McNicol ,1972]. Die H und FA Raten für Kurve A entstammen Tab. 2.4, jene für die Kurven B und C der Abbildung 12 (siehe unten). Tab. 2.4. H und FA Raten einer VP mit identischen Stimuli, aber variablem Kriterium für die Akzeptanz von „Indizien“ als Signal [aus McNicol ,1972]. 2.6.1.1 Herleitung der s- und n-Verteilungen aus der ROC Kurve Aus den Daten in Tab 7 können die Verteilungen von s und n folgendermassen hergeleitet werden (in Abb. 2.3 A dargestellt) [Annahme: Maximum der Evidenzvariable x = 6]. Punkt e: H = 0.1 and FA = 0.0 0.1 der Signal(s)-Verteilung liegen oberhalb des Punktes e; 0.0 der Rausch(n)-Verteilung liegt oberhalb von e. → 33 Punkt d (weniger striktes kriterium): H = 0.3 und FA = 0.1 0.3 der s-Verteilung oberhalb von d da 0.1 oberhalb von e, ist die Höhe der Verteilung zwischen d und e 0.3-0.1 = 0.2; für n-Verteilung zwischen d und e gilt 0.1-0.0 = 0.1 … … Dieser Vorgang wird bis zum Punkt a fortgesetzt. → → Abb. 2.3 Drei Paare von Signal- und Rauschverteilungen mit unterschiedlichen Distanzen zwischen deren Mittelwerten. [aus McNicol ,1972] Die in Abb. 12 B dargestellte s-Verteilung ist nach rechts verrückt, während die n-Verteilung gleich wie in Situation A ist. Bei Auftragung der entsprechenden ROC-Kurve in Abb. 2.2 (Kurve B) erkennt man eine im Vergleich zur A-Kurve erhöhte H Rate bei gleich bleibender dies entspräche einer Erhöhung des Signalpegels bei gleich bleibendem FA Rate. Rauschpegel. Abb. 2.2 C zeigt komplett überlagerte s- und n-Verteilungen, die der diagonalen Kurve in Abb. 2.2 C entsprechen. In dieser Situation könnte die VP nur raten und die H Rate und FA Rate sind identisch. → 2.6.1.2 Fläche unter der ROC Kurve Der Anteil der Fläche unter der ROC-Kurve an der Gesamtfläche ist ein Mass für die Sensitivität der VP: P(A) = A/Ages, 34 A AGes = Fläche unter der ROC Kurve = Gesamtfläche 0.5 (keine Sensitivität) ≤ P(A) ≤ 1 (maximale Sensitivität) 2.6.1.3 Relevanz des Yes-No Tasks Entspricht eher realen Situationen als die xAFC_Methode, da in praktischen Situationen kein Vergleichsreiz zur Verfügung steht, sondern entschieden werden muss, ob ein Reiz da war oder nicht. Z.B. ein Chirurg muss nach Betrachtung eines Röntgenbildes entscheiden, ob operiert werden soll oder nicht. Er hat nicht die Röntgenbilder von 2 Personen zur Auswahl und entscheidet, welcher Patient geöffnet werden soll und welcher nicht. Zumindest hoffen wir dies!!! Wenn wir eine Melodie A erkennen und benennen sollen, wobei wir auch eine sehr ähnliche Melodie B kennen, so haben wir nicht die Möglichkeit, A mit B zu vergleichen, um dann zu entscheiden, welche der beiden vorgespielt wurde. Nachteil der Messung der Sensitivität mittels der oben beschriebenen Prozedur unter Verwendung des Yes-No Tasks: extrem lange Versuchsdauer, da mehrere Punkte mit ausreichender Trial Anzahl getestet werden müssen. Lösungen: a) Verwendung des Rating Scale Tasks b) Verwendung der kriterienfreien Forced Choice -Verfahren (xAFC) c) Flächenschätzung mittels nur eines Paares von H und FA Rate 2.6.2 Rating Scale Task (Bewertungs-Skalen Aufgabe) Alternative zur Messung der ROC Kurve mittels des Yes-No-Tasks. VP gibt in jedem Trial ein Urteil entlang einer subjektiven Bewertungsskala über die Sicherheit bezüglich der Präsenz oder Absenz des Stimulus (von „Ganz sicher ein Stimulus“ bis „Ganz sicher Rauschen“). Aus den gewonnen Daten werden H und FA Raten berechnet. Vorteil: wesentlich effizienter als das Yes-No-Task Nachteil: Probleme bei der statistischen Analyse der Sensitivitäts-Unterschiede zwischen 2 mit der Rating Scale Methode gemessenen Punkten, da Unabhängigkeit zwischen verschiedenen Trials nicht gegeben. Weitere Deteils zur Berechnung der H und FA Raten finden sich in Green and Swets (1966). 2.6.3 Forced-Choice Methode Bei der sogenannten Two-Alternative Forced Choice (2AFC)-Methode werden in jedem Trail zwei aufeinanderfolgende Stimulusintervalle präsentiert. Nur eines der beiden Intervalle (zufällig gewählt) enthält das Signal. Beide Intervalle enthalten Rauschen, das entweder Teil des Stimulus ist oder in der VP entsteht (z.B. spontane Feuerung der Neuronen). Nach jedem Trial gibt die VP an, welches Intervall das Signal enthielt. Die Performance der VP kann 35 zwischen 50% (entsprechend der Ratewahrscheinlichkeit P=0.5 bei nicht detektierbarem Stimulus) und 100% (bei entsprechend starkem Stimulus) variieren. Die schon weiter oben erwähnte psychometrische Funktion (Abb. 1.4) zeigt den Prozentsatz an richtigen Antworten als Funktion der Stimulusgrösse. Die in Abb. 1.4 dargestellte psychometrische Funktion umfasst allerdings den Bereich 0 bis 100 %. Die AFC-Methode ist kriteriumsfrei, d.h. potentieller Bias der VP wirkt sich nicht auf die Performance aus. Deshalb ist die AFC-Methode das in der modernen Psychophysik am meisten angewandte Verfahren. Abb. 2.4. Verteilung von Signal und Rauschen bei einer 2AFC Prozedur [aus McNicol ,1972] 2.6.3.1 Detektions-Strategie bei 2AFC Entsprechend der SDT selektiert die VP das Stimulus-Interval als S, in dem x, die Evidenzvariable, grösser ist als im anderen Interval. Dabei entstehen Fehler, da einige Male aus der n-Verteilung stammende x grösser sind als aus der s-Verteilung stammende x. Unter der Annahme, dass die VP immer erkennt, welches Signal das grössere x enthält, ist die Antwort so oft richtig, wie x aus s grösser ist als x aus n. 2.6.3.1.1 Berechnung des Prozentsatzes an richtigen Antworten (%korrekt) aus der in Abb. 2.4 dargestellten Verteilung Definiere für jeden x-Wert die Wahrscheinlichkeit, dass n einen kleineren Wert annimmt als s. D.h., berechne für jedes x die bedingte Wahrscheinlichkeit, dass Signal x grösser ist als Rauschen n. P(xs⋅xn) = P( x | s) × P(x | n) Schritt A: P(2 | s) = 0.1; nur ein x aus n mit kleinerem Wert (x=1): P(1 | n) = 0.1 P(2 | s) × P(1 | n) = 0.1 × 0.1 = 0.01 P(3 | s) = 0.2 P(1 | n) = 0.1 P(3 | s) × P(1 | n) = 0.2 × 0.1 = 0.02 P(2 | n) = 0.2 P(3 | s) × P(2 | n) = 0.2 × 0.2 = 0.04 → → → 36 P(4 | s) = 0.4 P(1 | n) = 0.1 P (4 | s) × P(1 | n) = 0.4 × 0.1 = 0.04 . . . . setzte für alle Kombinationen xs > xn fort → Schritt B: Summiere aller dieserart berechneten gemeinsamen Wahrscheinlichkeiten für xs > xn. Schritt C: Summiere die gemeinsamen Wahrscheinlichkeiten für xs = xn und halbiere die Summe (weil für diese Bedingungen nur geraten werden konnte) Schritt D: Addiere die Ergebnisse aus den Schritten B und C. PC (Anteil an richtigen Antworten) = 0.63+(1/2 × 0.2) = 0.73. Tab. 2.5. Berechnung von PC für eine 2 AFC-Prozedur basierend auf den Verteilungen von Signal und Rauschen (Abb. 2.4) aus einer Matrix gemeinsamer Wahrscheinlichkeiten des Auftretens von xs und xn. [aus McNicol ,1972] Dieses Verfahren ist in Tab. 2.5 veranschaulicht, wo P(x | n) entlang der Spalten und P(x | s) entlang der Zeilen angegeben ist. Die Zellen der Matrix enthalten die gemeinsamen Wahrscheinlichkeiten P(x | s) × P(x | n). Für Werte unterhalb der Diagonale gilt: xs > xn, d.h. diese Werte geben die Wahrscheinlichkeiten für korrekte Antworten. Die Summe ergibt 0.63. Für die Werte auf der Diagonale gilt xs = xn, daher wird die Summe der Werte auf der Diagonale halbiert, da die VP mit Ratewahrscheinlichkeit in einem von 2 Trials richtig antwortet ( 0.5 × 0.2). → 37 PC entspricht dem weiter oben beschriebenen Anteil der Fläche unter der ROC-Kurve an der Gesamtfläche, P(A), für das Yes-No Task überein. 2.7 Normalverteilung von Signal und Rauschen 2.7.1 Yes-No-Task Bisher wurde die Form der s- und n-Verteilungen nicht parametrisiert. Untersuchungen zeigten, dass die zugrunde liegenden Verteilungen gaussförmig oder zumindest ähnlich einer Gauss’schen Form sind. Abb. 2.5 zeigt die hypothetisierte Konfiguration der s- und n-Verteilungen. Die x-Achse gibt die Evidenzvariable x an, skaliert in z(Standardabweichungs)-Einheiten der Verteilungen. Die y-Achse gibt die Wahrscheinlichkeitsdichte an. Die n-Verteilung hat einen Mittelwert von 0 und eine Standardabweichung von 1 (Standard Normalverteilung), die s-Verteilung hat ebenfalls eine Standardabweichung von 1 und ihr Mittelwert ist 1 z-Wert höher als der Mittelwert der n-Verteilung. Eine Grundannahme der SDT ist, dass s eine nach höheren x verschobene Version von n ist. Abb. 2.5. Normalverteilungen von Signal und Rauschen. Mittelwert von n = 0, Mittelwert von Signal = 1, Varianz von n und s = 1 [aus McNicol ,1972] Weiters sind die 5 Kriterienpunkte a – e eingezeichnet. Die H und FA Werte entsprechen der Fläche unter der Normalverteilung oberhalb (rechts) von den jeweiligen Kriterien. Der Punkt a liegt z.B. bei -1.5 (z-Einheiten), was einer Fläche des darüberliegenden Anteils der nVerteilung von 93% entspricht (P(S | n) = 0.93). Da die s-Verteilung 1 z-Wert höher liegt als die n-Verteilung, ist der Kriteriumspunkt a 2.5 z-Einheiten vom Mittelwert der s-Verteilung entfernt (P(S | s) = 0.99). Auf diese Weise können aus den Verteilungen die H und FA Raten für alle Kriterien prognostiziert werden (Tab. 2.6). Aus den Werten in Tab. 2.6 kann eine ROC-Kurve aufgetragen werden (Abb. 2.16). Die Wölbung der Kurve repräsentiert die Überlappung der beiden Verteilungen und daher die Sensitivität. 38 Tab. 2.6. Distanzen der Kriterien aus Abb. 2.5 von den Mittelwerten von s und n (in zEinheiten) und zugehörige H und FA Raten [aus McNicol ,1972] Abb. 2.16. ROC-Kurve für Normalverteilungen von Signal und Rauschen bei gleicher Varianz. Der Mittelwert von s liegt 1 z über dem von n [aus McNicol ,1972] Abb. 2.17 (links) zeigt ein ROC Diagramm, bei dem die H und FA Raten im z-Bereich (d.h. in z-Einheiten) für verschiedene Kriterien aufgetragen sind. Die verschiedenen Punkte liegen entlang einer zur Diagonale parallelen Gerade, entsprechend der Prognose des SDT-Modells. Damit kann rückwirkend gezeigt werden, dass die zugrunde liegenden Verteilungen gaussförmig sind, da die Kurven sonst von einer Geraden abweichen müssten. 2.7.1.1 Berechnung des Sensitivitäts-Maßes d’ Die Sensitivität, bezeichnet als d’ (ausgesprochen: „d-prime“), ist unabhängig vom gewählten Kriterium und entspricht dem Abstand in z-Einheiten zwischen den Mittelwerten der s- und der n-Verteilung. d’ = z(S | s) – z(S | n) [bei gleicher Varianz von s- und n-Verteilung], 39 wobei die z-Werte entsprechend der Abbildung und Tabelle im Appendix zu entnehmen sind (Parameter p im Appendix entspricht der Fläche unter der Kurve unterhalb des Punktes z). Unter Erfüllung der Vorrausetzungen a) der Normalverteilung und b) identischer Standardabweichung der beiden Verteilungen ist d’ proportional zur der Fläche unter der ROC Kurve, P(A). Die rechte Seite von Abb. 2.17 zeigt vier verschiedene ROC Kurven, denen unterschiedliche Sensitivität zugrundeliegt (d’ = 0.5, 1, 2 oder 3). Abb. 2.17. links: ROC Kurve mit z-transformierten H und FA Raten: Vergleich einer ROC, die durch die SDT prognostiziert wird und experimentell gemessenen Daten; rechts: vier verschiedene ROC-Kurven mit d’-Werten von 0.5-3. (aus Lewis, 2003) Aus obigem ergibt sich, dass die Sensitivität d’ unabhängig vom gewählten Kriterium ist. 2.7.1.2 Berechnung des Kriteriums ß Das Kriterium der VP (ß), das den Übergangspunkt in der Entscheidung für S oder N darstellt, ist durch das Verhältnis ys/yn an der Stelle des Kriteriums-Punktes gegeben, also das Verhältnis der Höhen der s-Verteilung und der n-Verteilung am Kriteriums-Punkt (Abb. 2.18). Die Höhe der n-Verteilung ist gegeben durch 2 e −0.5 x yn = , 2π wobei x der Entfernung des Kriteriums vom Mittelwert der n-Verteilung entspricht, d.h. z(S | n). Die Höhe der s-Verteilung ist hingegen gegeben durch 40 2 e −0.5( x−d ') ys = , 2π wobei x-d’ der Distanz des Kriteriums vom Mittelwert der s-Verteilung entspricht, d.h. z(S | s). Vereinfachung des Verhältnisses ys/yn führt zu folgender Formel zur Berechnung von ß: ß = e−0.5([ z (S | s)] 2 -[z(S| n)]2 ) Der Parameter ß ist 1, wenn P(S | s) + P(S | n) = 1. Grosse Werte für ß treten bei grosszügiger Verwendung von S auf, kleine Werte hingegen bei Anwendung eines strikteren Kriteriums. c Abb. 2.18. Verteilungen von s und n und das Kriterium c. Am Punkt c ist die Höhe von s ys und die Höhe von n yn. Der Mittelwert von s ( X s ) ist d’ entfernt vom Mittelwert n ( X n ). Der Abstand von c nach X n beträgt x und der Abstand von c nach X s (x-d’). [aus McNicol, 1972] 2.7.2 Force Choice Tasks Weiter oben wurde die Strategie von VPn für die Signaldetektion bei Force Choice Methoden beschrieben. Die VP wählt das Stimulus-Interval als S aus, in dem die Werte für x, die Evidenzvariable, grösser sind als im anderen Interval, also wo xs – xn im Durchschnitt grösser als Null ist. Subtraktion von zwei Verteilungen ergibt eine Verteilung mit einem Mittelwert, der der Differenz der Verteilungen entspricht. Da X s , der Mittelwert der s-Verteilung, d’ entspricht und X n , der Mittelwert der n-Verteilung, 0 ist, ist X D ,der Mittelwert der Verteilung xs - xn X s - X n = d’ – 0 = d’. 41 Die Varianz der Differenzverteilung entspricht der Summe der Varianzen der beiden Verteilungen: σs2 + σn2. Da sowohl σs als auch σn 1 betragen, beträgt σD, die Standardabweichung der Verteilung xs – xn, (12 + 12)1/2 = 21/2. Die gestrichelte Fläche in Abb. 2.19 rechts von xs - xn = 0 entspricht PC, dem Prozentsatz an korrekten Antworten bei der 2AFC Methode. PC kann in einem 2AFC Experiment bestimmt werden. d’ entspricht dem Abstand zwischen xs - xn = 0 und der Mitte der Verteilung und ist durch Normalverteilungstabellen bestimmbar. Da aber die Differenzverteilung eine Standardabweichung von 21/2 hat, entspricht die Distanz zwischen dem Mittelwert der Differenzverteilung und xs – xn = 0, z(Pc), nicht mehr d’, sondern z ( Pc) = d' 2 Daher kann d’ für ein 2AFC Experiment folgendermaßen berechnet werden: d ' = 2 z ( Pc ) Abb. 2.19. (a) Verteilung der Evidenzvariable x für das Signalintervall (s) und das Rauschintervall (n). Beide haben eine Standardabweichung von 1. (b) Verteilung der Differenzen xs – xn mit Mittelwert d’ und Standardabweichung 21/2. Die gestrichelte Fläche entspricht P(C), dem Anteil an richtigen Antworten. [aus McNicol ,1972] Abb. 2.20 zeigt den Zusammenhang zwischen den aus einem 2AFC Experiment gewonnenen Prozent-korrekt Werten und d’ Werten, wie sie aus dem Yes-No Task gewonnen werden. Ca. in der Mitte zwischen der Ratewahrscheinlichkeit (PC = 0.5) und perfekter Sensitivität (PC = 1) liegt PC = 0.76, was dem Wert d’ = 1 entspricht. 42 Abb. 2.20. Zusammenhang zwischen %-korrekt Werten aus 2AFC Prozedur und d’ aus YesNo Task [aus Hartman, 1998]. 2.8 Zusammenfassung Da 1) positiver und monotoner Zusammenhang zwischen Reizgrösse und interner Variable x. 2) Zufällige Fluktuation (Variabilität) von x über die Zeit: kann einerseits durch Änderungen im Reiz hervorgerufen werden (z. B. Rauschen im Testsignal) und andererseits durch Fluktuationen in der neuronalen Verarbeitung der VP entstehen (z. B. spontanes zufälliges Pattern von Feuerung der Hörnerv-Neuronen in Ruhe (Spontanaktivität) → Reizeinwirkung wird durch Anstieg der Feuerungsrate + Überlagerung mit dem spontanen Feuerungspattern codiert) 3) Für beide Verteilungen entspricht der Mittelwert der Spitze der Verteilung. 4) Durch Hinzufügen eines Reizes zum vorhandenen internen Rauschen wird die sensorische Aktivität (entlang von x) um einen Betrag verschoben, der der Sensitivität des sensorischen Systems entspricht. -starker Reiz: grosse Erhöhung von x im Verhältnis zur spontanen Variabilität → Verschiebung der n-Verteilung zu grösseren x hin geringe Unsicherheit -schwacher Reiz: geringe Erhöhung von x im Verhältnis zur spontanen Variabilität → kleine Verschiebung der n-Verteilung zu grösseren x hin VP kann fast nur raten, ob Reiz vorhanden oder nicht 5) Der Abstand zwischen den Spitzen d. beiden Verteilungen, d', ist ein Mass für die Trennung der beiden Verteilungen und damit der Diskrimination des Signals. → → 43 probability density 2.9 Appendix p O - + 0 z z-score Parameter der Standardnormalverteilung z p O z p O z p O -3.000 -2.900 -2.800 -2.700 -2.600 -2.576 -2.500 -2.400 -2.326 -2.300 -2.200 -2.100 -2.000 -1.900 -1.800 -1.700 -1.645 -1.600 -1.500 -1.400 -1.300 -1.200 -1.100 0.001 0.002 0.003 0.003 0.005 0.005 0.006 0.008 0.010 0.011 0.014 0.018 0.023 0.029 0.036 0.045 0.050 0.055 0.067 0.081 0.097 0.115 0.136 0.004 0.006 0.008 0.010 0.014 0.014 0.018 0.022 0.027 0.028 0.035 0.044 0.054 0.066 0.079 0.094 0.103 0.111 0.130 0.150 0.171 0.194 0.218 -1.000 -0.900 -0.800 -0.700 -0.600 -0.500 -0.400 -0.300 -0.200 -0.100 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000 1.100 1.200 0.159 0.184 0.212 0.242 0.274 0.309 0.345 0.382 0.421 0.460 0.500 0.540 0.579 0.618 0.655 0.691 0.726 0.758 0.788 0.816 0.841 0.864 0.885 0.242 0.266 0.290 0.312 0.333 0.352 0.368 0.381 0.391 0.397 0.399 0.397 0.391 0.381 0.368 0.352 0.333 0.312 0.290 0.266 0.242 0.218 0.194 1.300 1.400 1.500 1.600 1.645 1.700 1.800 1.900 2.000 2.100 2.200 2.300 2.326 2.400 2.500 2.576 2.600 2.700 2.800 2.900 3.000 0.903 0.919 0.933 0.945 0.950 0.955 0.964 0.971 0.977 0.982 0.986 0.989 0.990 0.992 0.994 0.995 0.995 0.997 0.997 0.998 0.999 0.171 0.150 0.130 0.111 0.103 0.094 0.079 0.066 0.054 0.044 0.035 0.028 0.027 0.022 0.018 0.014 0.014 0.010 0.008 0.006 0.004 2.10 Literatur zur Psychophysik und Signaldetektionstheorie Gelfand, S. (1990). “Hearing: An introduction to psychological and physiological acoustics,” Marcel Dekker. Hartman, W. (1996). “Signal, sounds and sensation,” Springer Verlag. McNicol (1972). “A primer of signal detection theory,” G. Allen & Unwin Ltd. 44 3 PHYSIOLOGIE UND FUNKTION DES NORMALEN UND GESCHÄDIGTEN GEHÖRS 3.1 Aussenohr Die Ohrmuschel (Pinna) und der äussere Teil des Gehörgangs (=Ohrkanals) bestehen aus elastischem Knorpel. Die Mikrostruktur der Pinna weist grosse inter-individuelle Unterschiede auf. Erst weiter innen im Gehörgang geht der Knorpel in härteren Knochen über. Die Form des Gehörgangs ist leicht zum Schutz vor mechanischen Schädigungen des Trommelfells leicht gekrümmt. Die Krümmung kann bei der Otoskopie durch Zug an der Ohrmuschel nach hinten oben aufgehoben werden. Bei der Otoskopie werden die Durchgängigkeit des Gehörgangs und Auffälligkeiten des Trommelfells überprüft. Fig. 3.1 Aufbau des periphären Gehörorgans. 3.1.1 Funktion A) Bündelung des Schalls für hohe Frequenzen entsprechend der Wirkung eines akustischen Trichters. B) Pinna und Gehörgang erzeugen gemeinsame eine starke Resonanz im Bereich 1.5-5 kHz, wobei das Verstärkungmaximum von 12 dB bei ca. 2.5 kHz auftritt (Fig. 3.2). Erwähnenswert ist an dieser Stelle die Tatsache, dass bei Verschluss des Gehörgangs durch abdichtende Hörgeräte diese Resonanz abgeschwächt und zu höheren Frequenzen verschoben wird. C) Im Frequenzbereich oberhalb von ca. 4-5 kHz, wo die Wellenlänge kleiner oder gleich den Dimensionen der Pinna ist, erfolgt eine richtungsabhängige Filterung des einfallenden Signals. Diese entsteht primär durch Reflexion der Schallwelle an den knorpeligen Pinna-Strukturen und überlagerung mit dem Direktschall. Diese Filterung ist wichtig für die Ortung von Schallquellen entlang der sogenannten Sagittalebenen, die normal zur Ohrachse, der Verbindungslinie zwischen den beiden Ohren, liegen (Details in Kap. Lokalisation). Ausserdem ist die Richtungsfilterung Vorraussetzung für die sogenannte Externalisation von Schallquellen: Beim Fehlen der Pinna-Filterung, wie bei der Kopfhörerwiedergabe, findet keine Externalisation statt, sondern sogenannte „Im-Kopf-Lokalisation“ (Blauert, 1983). Im tieferen Frequenzbereich ist die Form des Oberkörpers und des Kopfes entscheidend für die 45 Richtungsfilterung, wobei Untersuchungen zeigtn, dass die für die Lokalisation wichtigen spektralen Merkmale im Frequenzbereich der Pinna-Cues liegen (>4-5 kHz). Es treten grosse interindividuelle Unterschiede in der Ohrform auf, wobei es „gute“ und „schlechte“ Pinnas gibt. Bei Menschen mit „schlechten“ Pinnas ist die Wahrscheinlichkeit von vorne/hinten- Verwechslungen von Schallquellen deutlich erhöht. Weiters wirken sich „schlechte“ Pinnas in einem grösserer Lokalisationsfehler entlang der Sagittalebenen aus. Analysen der HRTFs (head related transfer functions), d.h. der richtungsabhängigen Übetragungsfunktionen, von Menschen mit „schlechten“ Pinnas zeigten, dass die zugrundeliegenden richtungscharakteristischen Merkmale oftmals weniger stark ausgeprägt bzw. nicht eindeutig einer Richtung zuordenbar sind. Fig. 3.2. Ohrkanal-Übertragungsfunktion bei frontal (genau vor der Testperson) plazierter Schallquelle [aus Gelfand, 1997]. 3.2 Mittelohr 3.2.1 Physiologie Das Mittelohr (Fig. 3.3) liegt in der luftgefüllten Paukenhöhle (über Eustachische Röhre mit Nasen-Rachenraum verbunden). An das Trommelfell sind die Gehörknöchelchen (Hammer, Amboß und Steigbügel) angeschlossen und mit dem ovalen Fenster des Innenohres verbunden. Ein Gleitreibungsgelenk zwischen Hammerkopf und Amboß gibt bei starken statischen Auslenkungen (z.B. permanenter Unterdruck im Mittelohr) nach. Dadurch wird der den Umständen entsprechend optimale Arbeitspunkt erreicht. Fig. 3.3. Aufbau und Funktion des Mittelohres [aus Gelfand, 1997]. 46 3.2.2 Funktion Die Hauptfunktion des Mittelohres liegt in der Impedanzanpassung zwischen akustischer Wellenfortbewegung in Luft (kleine Auslenkungskräfte und grosse Auslenkung der Luftteilchen) und der sehr hohen Impedanz im flüssigkeitsgefüllten Innenohr. Dies wird durch folgende Eigenschaften erreicht: A) grosse Trommelfell-Fläche im Verhältnis zur kleinen Fläche des ovalen Fensters (22:1) B) Hebelverhältnis (langer Hammergriff und kurzer Ambossfortsatz): 1:1.2 C) Krümmung des Trommelfells (Prinzip der gekrümmten Membran): 1:2 Insgesamt ergibt sich eine ca. 50-fache Verstärkung der Kraft pro Flächeneinheit. Ohne Impedanzanpassung würde der Schall am ovalen Fenster reflektieren (geringere Empfindlichkeit) und nicht in Flüssigkeit der Cochlea übertragen werden. Die Übertragung von Schall durch das Mittelohr ist am effizientesten im Bereich 0.5 - 4 kHz (Fig. 3.4). Fig. 3.4 Übertragungsfunktion des Mittelohres; entspricht der 100 Phon-Kurve aus ISO 226. 3.3 Mittelohr-Reflex Der Stapediusmuskel ist für die Auslösung des sogenannten Stapediusreflexes verantwortlich. Dieser Muskel greift am Steigbügelfussstück an, wobei die Steuerung über den Hirnstamm erfolgt. Dies soll Schutz vor der Übertragung von zu hohen Schallintensitäten dienen, wobei stempelförmige Bewegung in Pendelbewegung umgesetzt wird. Der Stapediusreflex ist durch alle Frequenzen auslösbar, aber nur bei tiefen Frequenzen wirksam. Vor impulsartiken Schallen bietet er aber keinen Schutz, da die Reaktionszeit (bedingt durch die neuronale Übertragungszeit) zu langsam ist. 3.3.1 Funktionsprüfung des Mittelohres Tympanometrie: Messung der Impedanz im Gehörgang unter systematischer Variation des Luftdrucks im Gehörgang: Auffindung des Maximums der Schallübertragung zum Innenohr • tritt bei normaler Mittelohrfunktion und Tubenbelüftung genau bei atmosphärischem Druck auf • Messapparatur: Tongenerator und Probemikrophon im Ohrkanal. Messung des vom Trommelfell reflektierten Schallanteils 47 „Akust. Reflexschwelle“ mittels Impedanzaudiometrie: Stapediusreflex führt zur Veränderung der Impedanz. Wird zur Diagnose (bzw. Lokalisation) einer Hörstörung eingesetzt (Mittelohr, Innenohr, erste Stationen der Hörbahn, efferentes System = Rückkopplungsschleife vom Gehirn zum Innenohr) 3.3.2 Schallleitungs-Schwerhörigkeit Ursachen • Verschluss des Gehörgangs (z.B. falsche Reinigungstechnik) • Mittelohrdefekt (z.B. Trommelfellbeschädigung, Ausrenkung der Gehörknöchelchen, Fixation der Steigbügelplatte am ovalen Fenster bei Otosklerose etc.) Diagnose • Impedanzaudiometrie • Tonaudiometrie (Vergleich Luftleitung-Knochenleitung) Auswirkung Mittelohrschäden führen zur frequenzspezifischen Abschwächung der Schallübertragung. Im Gegensatz zur Innenohrschwerhörigkeit kann Mittelohrschwerhörigkeit durch frequenzabhängige Verstärkung gut kompensiert werden. 3.4 Innenohr und Gehörschnecke (Cochlea) 3.4.1 Lage Das Innenohr liegt im Felsenbein, dem härtesten Knochen des Menschen. Es bildet eine anatomische Einheit zusammen mit dem Gleichgewichtsorgan (Fig. 3.5 oben). 3.4.2 Aufbau: Röhrenartige, eingerollte Struktur von ca. 35 mm Länge im ausgerollten Zustand, die aus drei Unterteilungen (Kompartimenten) besteht (Fig. 3.5 unten): • Scala Vestibuli • Scala Tympani • Scala Media Das eine Abdichtung gegenüber der Steigbügelfussplatte bildende ovale Fenster mündet in der Scala Vestibuli. Das Helikotrema am oberen Ende der Cochlea stellt eine Verbindung zwischen Skala Vestibuli und Skala Tympani her. Die Skala Tympani ist über das runde Fenster zum Mittelohr hin abgedichtet. Die Skala V. und Skala T. sind mit Perilymphe (niedr. Kalium-, aber hoher Natriumgehalt), und die Skala Media mit Endolymphe (hoher Kalium-, aber niedriger Natriumgehalt) gefüllt. Daraus ergibt sich eine Spannungsdifferenz von ca. -40 mV der Endolymphe gegenüber Perilymphe. Diese Spannungsdifferenz liegt an der Basilarmembran an (zw. Skala Media und Skala Tympani). 48 Fig. 3.5 Struktur des Innenohres (Cochlea) und des Gleichgewichtsorganes (Vestibularapparat); Einbettung in das Felsenbein (oben) und Querschnitt durch die Cochlea (unten) [aus Kießling, Kollmeier und Dillier, 1997]. 3.4.3 Basilarmembran-Schwingung Die Schwingungsform der Basilarmembran (BM) hat entscheidende Bedeutung für die Schallwandlung. Die periodische Druckanregung über das ovale Fenster bewirkt eine Druckdifferenz zwischen Skala V. und Skala T., was zur Ausbreitung einer Wanderwelle entlang der BM führt. Hohe Frequenzen haben ein Maximum beim ovalem Fenster (auch Basis der Cochlea genannt), tiefe Frequenzen beim Helikotrema (Apex). Die Druckausbreitung ist instantan (momentan), während sich die Wanderwelle mit Zeitverzögerung aufbaut. Ursachen für die Frequenzaufteilung (Tonotopie) der BM: • zunehmende Breite von Basis zu Apex • abnehmende Steifigkeit von Basis zu Apex Die Form der BM-Schwingung ist identisch bei Luft- wie bei Knochenleitungsanregung. Die Entstehung der Wanderwelle kann mit einem an einer Seite periodisch ausgelenkten Seil verglichen werden, dessen Querschnitt von der Anregungsstelle weg zunimmt. 3.4.4 Wanderwelle Aus Simulation ist bekannt, dass die Schneckenform der Cochlea interessanterweise keinen Einfluss auf die Form der Wanderwelle hat. Die Amplitude der Wanderwelle nimmt von der Basis zum Apex hin bis zum Maximum zu und fällt dann abrupt ab (Fig. 3.6). Messung der Schwingungsform: • Stroboskopische Messtechnik (v. Bekesy, Nobelpreis 1960) bei toten Tieren im apikalen Bereich (passiv) 49 • modernere Methoden (z.B. Mösbauertechnik od. Laserinferometrie) bei lebendern Tieren (aktiv) Fig. 3.6 Instantane Auslenkung der BM zu zwei aufeinanderfolgenden Zeitpunkten entsprechend einem Modell der Cochlea. Die Bewegung erfolgt von links nach rechts; aus den Amplitudenspitzen extrahierte Hüllkurve (strichlierte Linie) [nach von Bekesy, 1947]. 3.4.5 Frequenzauflösung der BM Die Abstimmcharakteristik der BM ergab nach van Bekesy einen Q-10 dB-Wert (Mittenfrequenz/Bandbreite bei -10dB) von ca. 1, gemessen bei sehr hohen Schallpegeln von ca. 140 dB SPL. Neuere Messungen bei lebendigen Tieren und mit moderneren Methoden (Laserinferometrie) bei niedrigeren Pegeln ergeben wesentlich höhere Filtergüte. 3.4.6 Abstimmkurve (Tuning Kurve) Pegel, der zur Erreichung bestimmter (konstanter) Auslenkung der BM (bzw. BM-Schnelle) an festem Ort der BM als Funktion der Frequenz notwendig ist. Die Tuning-Kurve wird also für einen Punkt der BM gemessen. Q-10 Werte bei der gesunden Cochlea liegen im Bereich von 3-10. -10 dB Bandbreite Fig. 3.7 An einer Stelle der BM gemessene Tuningkurve (CF [characteristische Frequenz] = 18 kHz); gefüllte Kreise: Tier in guter Verfassung bei 13-34 dB SPL; leere Kreise: bei 53-83 dB SPL; gefüllte Rechtecke: post mortem [nach Sellick et al, 1982]. 3.4.7 Mikromechanik der Cochlea (Cortisches Organ) Die BM ist von der gallertartigen Tektorialmembran bedeckt (Fig. 3.8). Auf der BM sitzt eine Reihe von inneren Haarzellen (IHZ, 3500 Stück) und 3-4 Reihen von äusseren Haarzellen (OHZ, 25000 Stück) sowie Stützzellen (Fig. 3.9). Am oberen Ende der Haarzellen sitzen 50 Haare (Stereozilien), die mit der Tektorialmembran verbunden sind (140 für jede OHZ und 40 für jede IHZ). Scherkräfte zwischen der Basilar- und der Tektorialmembran bewirken seitliche Auslenkung der Stereozilien. Auslenkung in einer Richtung führt zur Depolarisation der Haarzelle durch Öffnunung von Ionenkanälen (weniger negatives Potential des Zellinneren), aber nicht bei Auslenkung in der anderen Richtung (Gleichrichtung). → Auslösung von neuronaler Feuerung (Spike-Generierung) Fig. 3.8 Mikromechanik der Cochlea (Cortisches Organ) [aus Gulick et al, 1989] IHC OHCs Fig. 3.9 Detailansicht der Anordnung der Haarzellen; IHC = innere Haarzellen, OHC =äussere Haarzellen [aus Dallos et al. 1996]. 3.4.8 Aktivität der äusseren Haarzellen Rückkopplung der Schwingungsenergie bewirkt aktiven „cochleären Verstärker“ (Fig. 3.10). Dies führt zu einer drastischen Verbesserung der Abstimmeigenschaften der BM und der Sensitivität. Auslenkung der Stereozilien und Depolarisation der OHZs führt zur Kontraktion (Längenveränderung) in Phase mit dem anregenden Signal, wobei der genaue Mechanismus noch nicht geklärt ist. Aktive Mechanismen sind grundsätzlich nur bei niedrigen Pegeln wirksam (Sättigung bei höheren Pegeln). • Afferente Nervenfasern: führen von den IHZs zum Gehirn, und wirken als Sensoren für die Bewegung der BM. 51 • Efferente Fasern: führen vom Hirnstamm (olivo-cochleäres Bündel) zu den OHZs, und ermöglichen aktive Kontraktionen IHC Längenkontraktion der OHCs Fig. 3.10 Schematische Darstellung der Aktivität der OHZs [von F. Mammano]. 3.4.9 Tuning Curven bei sensorineuraler Schwerhörigkeit Ausfall der IHZs führt zur Reduktion der Sensitivität, während bei Ausfall der OHZs aktive Prozesse gestört sind, also die Sensitivität für geringe Pegel und die Frequenzselektivität (Fig. 3.11). Ausfall der OHCs Ausfall der IHCs normale Tuningkurve Fig. 3.11 Effekt des Ausfalles von IHZs und OHZs [aus Kollmeier, 1998]. 3.4.10 Komplexe Eingangssignale Interaktion der Anregung für benachbarte Anregungssignale (z.B. 2 Sinustöne): • Ein breites Maximum anstatt zwei einzelner Maxima • Für harmonische Komplexe schlechtere Auflösung von höheren Teiltönen Ursache: oberhalb von 500 Hz ist die Breite der Anregungsmuster für Sinustöne proportional dem Logarithmus der Anregungsfrequenz, während die Abstände der Teiltöne konstant sind (in linearer Frequenzskala). 3.4.11 Zwei-Ton-Suppression Die sognenannte „Zwei-Ton-Suppression“ der Basilarmembran bezeichnet das Phänomen, dass die durch einen Ton ausgelöste Aktivität durch Hinzufügen eines Suppressortons mit angrenzender CF reduziert wird. Fig. 3.12 zeigt die Ergebnisse der Messung des Effektes der sogenannten „2-Ton Suppression“ der BM bei CF = 8.6 kHz. Bei Hinzufügen eines Suppressortons bei 10.6 kHz nimmt die Auslenkung der BM mit steigendem Pegel des Suppressortons ab. Der Frequenz- und Pegelbereich, in dem Suppression auftritt, ist im Kapitel über „neuronale „Zwei-Ton-Suppression“, die analog zur Zwei-Ton-Suppression der 52 BM ist, dargestellt (Kap. 3.4.21). Die Zwei-Ton-Suppression entsteht höchstwahrscheinlich am Ort der Umsetzung von mechanischer in neuronale Aktivität (Haarzellen). Fig. 3.12. Zwei-Ton Suppression der BM bei CF = 8.6 kHz (siehe Text) [nach Ruggero, 1992]. 3.4.12 Kombinationstöne Kombinationstöne entstehen durch Nicht-Linearitäten in der cochleären Verarbeitung. Die stärksten Kombinationstöne sind • f2-f1 („einfacher Differenzton“) • 2f1-f2 (f2 > f1) 2f1-f2 ist besonders gut hörbar, wenn f2 = f1 x 1.2. Kombinationstöne treten nur auf, wenn die Cochlea in „guter“ physiologischer Verfassung ist. 3.4.13 Neuronale Antworten im gesunden Gehör Neuronale Antworten der Nervenfasern werden bei Versuchtieren mittels Mikro-Elektroden gemessen, die an einzelnen Hörnervenfasern angelegt werden. Nervenfasern feuern auch ohne Eingansstimulus mit der sogenannten Spontanfeuerrate. Neuronen werden hinsichtlich ihrer Spontanfeuerrate in drei Gruppen unterschieden: • 61% hohe Raten (18-250) Spikes/s) • 23% mittlere Raten (0.5-18 Spikes/s) • 16% niedrige Raten (< 0.5 Spikes/s) Die Spontanrate korreliert mit der Grösse und Position der Synapsen der IHZ-Neuronen. Die Schwelle eines Neurons wird als der minimale Schallpegel bezeichnet, bei dem Veränderungen der neuronalen Antwort registriert werden. Neuronen mit hohen Spontanraten haben allgemein niedrigere Schwellen als Neuronen mit niedrigen Spontanraten. Die Schwellen der Neuronen variieren im Bereich 0 – 80 dB SPL. 3.4.14 Neuronale Abstimm(Tuning)-Kurve Die neuronale Abstimm(Tuning)-Kurve ergibt sich aus der Tuningkurve der BM. Zur Messung werden kurze Ton-Bursts verwendet zur • Vermeidung von Adaptationseffekten 53 • besseren Unterscheidung zwischen spontaner und evozierter neuronaler Aktivität (in höheren Verarbeitungs-Zentren) Die Steilheit der neuronalen Tuningkurven ist identisch mit der Steilheit der Anregung der BM (siehe Fig. 3.7). Tuning Kurven werden üblicherweise bei knapp überschwelligem neuronalem Signal gemessen. Sie können allerdings ebenso als Kurven mit gleicher Feuerungsrate (ISO-Raten Konturen) aufgetragen werden (d.h. für höherer Signalpegel). Dabei ergibt sich eine ähnliche Form, aber Abflachung mit steigendem Pegel (Fig. 3.13). Fig. 3.13 Tuningkurven einzelner Neuronen bei der Katze (siehe Text) [nach Palmer, 1987]. 3.4.15 Rate versus Pegel Funktion Der Dynamikbereich der Neuronen ist durch den Pegelbereich des Eingangssignals definiert, der von der Schwelle bis zur Sättigung der Spikeratenveränderung überstrichen wird. Je nach Neuronentyp variiert der Dynamikbereich von ca. 20 bis 60 dB (Fig. 3.14). Neuronen mit niedrigen Schwellen (hohen Spontantraten) haben allgemein kleinere Dynamik. Fig. 3.14 Pegelabhängigkeit der neuronalen Feuerungsrate eines Neurons bei CF = 5.8 kHz. Der Punkt AVDL markiert den kleinsten Pegel, bei dem eine Änderung der Feuerungsrate registriert wird [nach Kiang, 1968]. 3.4.16 Zwei Komponenten der Feuerungsraten- versus EingangspegelFunktion Fig. 3.15 zeigt schematisch, wie sich die Funktion Feuerungsrate versus Pegel und damit die Dynamik von Neuronen verschiedener Sensitivität (Spontanrate) aus der BM Eingangs54 Ausgangsfunktion (oben rechts) und der Funktion neuronale Feuerungsrate (in Spikes/s) vs Vibration der BM (oben links) zusammensetzt [aus Moore, 1995; nach Patuzzi, 1992]. Neurale Feuerungsrate vs. Auslenkung d. BM Ł gleiche Steigung für verschiedene Neuronen, aber unterschiedliche Sensitivitäten EingangsAusgansfunktion der BM Ł abhängig vom Eingangspegel Fig. 3.15 Die 2 Komponenten der Feuerungsrate versus Pegel Funktion [aus Moore, 1995; nach Patuzzi, 1992]. 3.4.17 Phase-Locking Der Ausdruck Phase Locking beschreibt die Eigenschaft der Neuronen, synchron zur Phase der Wellenform des Eingangssignals (BM-Bewegung) zu feuern. Dies geschieht nicht unbedingt bei jeder Periode des Signals, aber meist in derselben Phasenlage. Die Zeitintervalle der Feuerung sind ganzzahlige Vielfache der Periode der Wellenform. Die Feuerungswahrscheinlichkeit ist am grössten bei Amplitudenmaxima. Neuronale Feuerung erfolgt nicht mit strikt regulären Raten, aber die Übertragung d. Signalperiode im SpikePattern eines Neurons ist meist eindeutig. Fig. 3.16 zeigt auch, dass die Kodierung des akustischen Signals im Hörnerven als Halbwellengleichrichtuung aufgefasst werden kann. Fig. 3.16 Kodierung eines akustischen Stimulus im Hörnerven; sowohl die Eigenschaft des Phase Locking und der Halbwellengleichrichtung ist ersichtlich [aus Kollmeier, B., Skriptum „Audiologie“]. 3.4.18 Physiologischer Mechanismus Der zugrunde liegende Mechanismus liegt in der Stereozilien-Bewegung der IHZs zum Rand der Cochlea hin (BM nähert sich der Tektorialmembran). Dabei findet eine Halbwellengleichrichtung statt, da Stereozilien nur in einer Richtung depolarisieren. Die maximale Feuerungsrate liegt bei ca. 1000 Spikes/sec (absolute Refraktärzzeit: 1 ms). Ab einer Frequenz von ca. 1 kHz nimmt die Präzision des Phase Locking kontinuierlich ab und einzelne Perioden werden ausgelassen (statistisch verteilt). Ab 4-5 kHz gibt es kein PhaseLocking mehr. Die Präzision des Phase-Locking nimmt mit steigendem Pegel von der Schwelle weg bis zu mittleren Pegeln kontinuierlich zu und bleibt darüber hinaus konstant. 55 3.4.19 Interspike-Interval-Histogramm Interspike-Intervall-Histogramme geben die Verteilung der Zeitintervalle aufeinanderfolgender neuronaler Spikes an. Fig. 3.17 zeigt solche Interspike-IntervallHistogramme für Neuronen mit verschiedenen CFs bei einer Signalfrequenz von 1.6 kHz. Spikes werden mit der grössten Wahrscheinlichkeit in Abständen von ganzzahligen Vielfachen der Periode des Stimulus (Punkte in den Graphen) abgefeuert. Die „Schärfe“ der Spike-Muster nimmt mit steigender CF ab. Die perzeptiven Konsequenzen dieses Mechanismus werden noch untersucht und diskutiert, insbesondere in Bezug auf die Tonhöhenwahrnehmung und die Maskierung (siehe weiter unten), wobei die Relevanz für die Wahrnehmung von Interauralen Zeitdifferenzen (ITD) ausser Frage steht. Fig. 3.17. Interspike-Interval-Histogramm einer einzelnen Hörnervenfaser beim Affen bei CF = 1.6 kHz bei 80 dB SPL. Beachte, dass die Zeit-Skalierung bei E und F anders ist als bei A-D [nach Rose, 1968]. 3.4.20 Kodierung des akustischen Dynamikbereichs (von ca. 120 dB) Nach Beobachtung des relativ geringen Dynamikbereichs einzelner auditorischer Neuronen stellt sich die Frage, wie der gesamte Dynamikbereich des auditorischen Systems (von der absoluten Hörschwelle bis zur Unbehaglichkeitsschwelle) von ca. 120 dB kodiert wird. Dafür stehen vier Mechanismen zur Verfügung: 1) Synchronisation mit Stimulus Bevor bei steigendem Eingangspegel die Feuerungssrate steigt, tritt eine Erhöhung der Synchronisation mit dem Stimulus (verstärktes Phase-Locking) auf. D.h., die Schwelle für die Erhöhung der Synchronisation ist niedriger als die Schwelle für die Ratenerhöhung. Bei zunehmender Reizintensität erfolgt eine Konzentration um eine bestimmte Stimulus-Phase und eine stärkere Korrelation mit der periodischen Reizstruktur (Fig. 3.18). 56 Fig. 3.18 durchgezogene Linie: Schwelle für Ratenerhöhung (= Tuning-Kurve); punktierte Linie: Schwelle für die Erhöhung der Synchronisation der Spontan-Feuerrate mit dem Stimulus, bevor die Feuerrate steigt; Messung an einem Neuron [aus Kollmeier, B., Skriptum „Audiologie“]. 2) Erhöhung der Feuerrate Die Feuerungsrate ist ein Mass für die Amplitude. Zusammen mit der Erhöhung der Synchronisation wird ein Dynamikbereich von ca. 30-40 dB für eine einzelne Nervenfaser überstrichen. 3) Einbeziehung von Fasern mit höherer Schwelle Afferente Nervenfasern variieren stark hinsichtlich ihrer Schwellen und Spontan-Spikeraten. Bei zunehmendem Reizpegel erfolgt die sukzessive Aktivierung von Neuronen mit höhreren Schwellen (und niedrigeren Spontanraten), was eine Erweiterung des Dynamikbereichs um ca. 50 dB bewirkt. 4) Ausbreitung des Bereichs aktiver Neuronen („Spread of Excitation“) Mit zunehmendem Reizpegel breitet sich das Erregungsmuster (Excitation Pattern) auf der BM weiter aus (asymmetrisch stärker zu hohen Frequenzen hin), wobei zunehmend Neuronen mit nicht-charakteristischen Frequenzen (nicht der Reiz-Frequenz entsprechend) aktiviert werden, d.h. immer mehr Neuronen feuern synchron auf denselben Reiz. Bei kleinen Pegeln (40 dB) erfolgt symmetrische Anregung um die CF, während bei zunehmendem Pegel ein immer grösserer Bereich von immer tieferen Frequenzen zur Feuerung führt (Fig. 3.19). Die Ausbreitung des Bereichs aktiver Neuronen führt zu einer Erweiterung des Dynamikbereichs um 20-40 dB. 57 Fig. 3.19 Feuerrate für ein Neuron bei CF = 6.2 kHz für verschiedene Stimulus-Frequenzen bei verschiedenen Stimuluspegeln (siehe Text) [aus Popper et al., 1992]. 3.4.20.1 Adaptation Die Adaptation ist ein typisches Verhalten der Hörnervenfaser. Beim Onset (Beginn) des Stimulus) tritt eine hohe Entladungsrate und hohe Synchronizität mit dem Einschaltzeitpunkt auf. Dann erfolgt eine Einregelung der Rate auf ein geringeres Niveau. Beim Offset (Ausschalten des Stimulus) sinkt die Rate rapide ab und steigt dann langsam bis zur Spontanrate an (Fig. 3.20). Insgesamt erfolgt eine Adaptation auf einen stationären Zustand, der in seiner Amplitude nicht so stark übertragen wird wie die dynamischen Veränderungen des Reizes. Die physiologische Ursache liegt in der Erschöpfung der Transmitter-Produktion in den IHZs. Stimulus-Amplitude (BM-Auslenkung) Neuronen-Antwort Fig. 3.20. Adaptations-Verhalten der Hörnervenfaser. 3.4.21 Neuronale Zwei-Ton-Suppression Der Effekt der neuronalen Zwei-Ton-Suppression ist analog zum Zwei-Ton SuppressionsEffekt der BM (mechanische Ursache) zu betrachten. Ein Suppressor-Ton innerhalb der Tuningkurve (leere Kreise in Fig. 3.21) führt zur Erhöhung der Feuerungsrate von Neuronen bei der CF. Ein Suppressor-Ton innerhalb des schraffierten Bereichs in Fig. 3.21 führt zu 20%iger Reduktion der Feuerungsrate. Die Koppelung des Effekt mit dem Suppressor-Ton liegt im Millisekundenbereich. 58 Fig. 3.21 Neuronale Zwei-Ton Suppression; offene Kreise: Tuningkurven bei CF = 8 kHz (Testton bei CF gerade über der Schwelle); bei Hinzufügen von Suppressor-Ton im schraffierter Bereich nimmt die neuronale Antwort auf den Testton um > 20% ab [aus Arthur, 1971]. 3.4.22 Physiologie und Funktionalität der geschädigten Cochlea Bei cochleären Hörschäden unterschiedlichster Ursachen tritt Ausfall oder Zerstörung der Stereozilien oder der ganzen Zellkörper auf (Fig. 3.22). OHZs sind allgemein wesentlich anfälliger gegenüber Degeneration oder Ausfall als IHZs. Der Ausfall der OHZs führt zum Wegfall oder zur Reduktion der aktiven Prozesse in der Cochlea, was folgende Konsequenzen hat: • Der Pegel eines Signals muss höher sein, um eine gegebene Auslenkung der BM zu bewirken (reduzierte Sensitivität für niedrige Pegel) • Breitere Tuning-Kurven auf der Basilarmembran • Fehlen der frequenz-selektiven nicht-linearen Effekte (z.B. Kombinationstöne, ZweitonSuppression). 59 Fig. 3.22 Beispiel der Schädigung der OHZs; im oben dargestellten Fall sind einige der Stereozilien ausgefallen, im in der Mitte dargestellten Fall sind die Stereozilien massiv zerstört und unten im rechten Bereich komplett ausgefallen [von A. Forge]. 3.4.23 Effekte sensorineuraler Schwerhörigkeit Robertson und Manley (1974) entdeckten, dass die Sauerstoffzufuhr die Sensitivität und Frequenzspezifität der Neuronen beeinflusst. Evans (1975) berichtete, dass die selektive Ausschaltung der OHZs durch bestimmte die Sauerstoffzufuhr hemmende Wirkstoffe (Furosemide, Kanamyzin, Kanamycin) zur Schwellenerhöhung und Reduktion der Steilheit der neuronalen Filter führt. Ruggero und Rich (1991) machten ähnliche Beobachtungen bei Messungen der BM Schwingung. Fig. 3.23 zeigt die BM Antworten auf verschiedene Eingangssignale, gemessen bei einer CF von 9 kHz. Die durchgezogenen Linien zeigen die Standardbedingung (volle Rechtecke: CF-Ton; leere Kreise: 1000 Hz Ton), während die strichlierten Linien die Messungen in bestimmten Intervallen nach der Verabreichung von Furosemide zeigen. Es zeigt sich ein Wegfall der Kompressivität für die CF-Bedingung, während kein Effekt für den Ton mit unterschiedlicher Frequenz auftritt. Der gemessene Effekt ist temporär, d.h.. nach ca. 2 Stunden tritt wieder normale Funktionalität ein. 60 Fig. 3.23 Eingangs-Ausgangsfunktion der BM vor und nach Verabreichung von Furosemide (siehe Text für Beschreibung der einzelnen Kurven). Die Zahlen unterhalb der Kurven geben das Zeitinterval in Minuten zwischen Medikation und Messung an [Ruggero und Rich, 1991]. 3.4.23.1 Phase-Locking Harrison and Evans (1979) fanden keinen Effekt des medikamenten-induzierten OHZAusfalls (beim Meerschweinchen). Woolf (1991) hingegen fand stark reduziertes PhaseLocking bei Frequenzen, die erhöhte Schwellen aufwiesen (beim Meerschweinchen). Auch berichtete er über eine Reduktion der oberen Grenzfrequenz, bis zu der Phase Locking auftrat und eine Reduktion der Präzision des Phase Locking im Bereich 0.4-3 kHz. Die Ursachen für die Diskrepanz zwischen den beiden Studien sind nicht restlos geklärt. In jedem Fall deuten einige Studien auf bedeutende perzeptive Konsequenzen der Reduktion des Phase Locking Mechanismus hin (siehe Kapitel Frequenzdiskrimination). 61 4 PSYCHOAKUSTIK DES NORMALEN UND COCHLEÄR GESCHÄDIGTEN GEHÖRS Das geschädigte Gehör kann im Vergleich zum normalen Gehör Veränderungen in folgenden auditorischen Funktionen aufweisen: • Absolute Hörschwelle • Frequenzselektivität • Tonhöhenwahrnehmung und Frequenzdiskrimination • Lautheitswahrnehmung und Intensitätsauflösung • zeitliche Auflösung und zeitliche Integration • Schallquellenlokalisation und „Auditory Scene Analysis“ • Sprachwahrnehmung • Musikwahrnehmung Die ersten fünf der aufgezählten auditorischen Funktionen werden in diesem Skriptum im Detail behandelt. Schallokalisation, Sprachwahrnehmung und Musikwahrnehmung sind jeweils sehr komplexe Themenbereiche, auf die hier nicht näher eingegangen wird 4.1 Absolute Hörschwelle Die deutlichste Auswirkung von cochleären Hörschäden (CHS) ist die reduzierte Sensitivität gegenüber leisen Schallreizen. Wenn die Reizintensität die absolute Schwelle unterschreitet, so ist der Reiz unhörbar. Die „absolute Hörschwelle“ ist als die minimale Schallintensität definiert, bei der ein Testreiz mit gegebenen Parametern gerade wahrgenommen wird. Eine Erhöhung der Hörschwelle ist symptomatisch für die meisten Hörstörungen, aber sie stellt nicht die einzige Veränderung dar. Die absolute Hörschwelle in bestimmten, begrenzten Frequenzbereichen korreliert stark mit einigen anderen auditorischen Funktionen in diesen Frequenzbereichen. Es werden zwei standardisierte Methoden zur Messung der physikalischen Schallintensität bei der Messung der absoluten Hörschwelle eingesetzt: 1) Minimum Audible Pressure (MAP): Dabei wird ein in-situ-Mikrophon knapp vor dem Trommelfell plaziert und der Testschall mittels Kopfhörer wiedergegeben 2) Minimum Audible Field (MAF): Die Schalldarbietung erfolgt über Lautsprecher in einem anechoischen (schalltoten) und schallisolierten Raum in 1 m Abstand in Kopfhöhe vor der VP. Die Messung findet nach Entfernung der VP an der Position der gedachten Kopfmitte statt. Fig 4.1 zeigt eine MAF-Kurve, die den Durchschnittswert über hunderte junge und normalhörende Personen ohne Indikation für einen Hörschaden angibt. Der Tiefpunkt der Hörschwelle bei ca. 3 kHz ist auf die Verstärkung im äusseren Gehör (Pinna + Gehörgang) in diesem Frequenzbereich um ca. 10-15 dB zurückzuführen. Der starke Anstieg der Hörschwelle bei tiefen und bei hohen Frequenzen ist durch die Transferfunktion des Mittelohres erklärbar, die bei mittleren Frequenzen besonders effizient ist. 62 MittelohrtransferFunktion Resonanz v. Pinna und Ohrkanal Fig. 4.1 MAF-Kurve von Normalhörenden. Die höchste hörbare Frequenz liegt im Kleinkindalter bei ca. 20 kHz und nimmt im Laufe des Alters in Abhängigkeit von der Lärmbelastung und anderen Einflüssen ab. Dementsprechend ist die häufigste Hörstörung die sogenannte Presbyakusis (Altersschwerhörigkeit), die in viel stärkerem Ausmass und mit grösserer Variabilität zwischen verschiedenen Personen bei hohen als bei tiefen Frequenzen auftritt. Als „Audiogramm“ wird der Verlauf der absoluten Hörschwelle über die Frequenz, relativ zu den jeweiligen Mittelwerten von Normalhörenden, bezeichnet. Dabei wird der Hörverlust von oben nach unten aufgetragen wird (Fig. 4.2). Pure-tone average (PTA) ist eine klinische Bezeichnung für die über die Sinuston-Frequenzen 500, 1000 und 2000 Hz gemittelte Hörschwelle, die den für die Sprachverständlichkeit besonders wichtigen Bereich abdecken. Eine klinisch gängige Klassifikation von Hörverlusten (HV) in Bezug auf die PTA sieht folgendermassen aus: • -10 bis 16(26, je nach Norm) dB SPL normal • 17(27) bis 40 dB SPL leichter HV mittlerer HV • 41 bis 55 dB SPL • 56 bis 70 dB SPL mässig starker HV • 71 bis 90 dB SPL starker HV • > 90 dB SPL sehr starker HV 63 L e vel in d B H L [IS O 38 9 (A N S I 3 .6 19 96 )] -10 -5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 Acoustics Research Institute - Austrian Academy of Sciences 2000.06.14 Audiogram (Air Conduction) Name: XXX Ear: Left Method: Békésy Tracking Mean Loss: 41 dB Mean Slope: 11.8 dB/oct. Referenzkurve für Normalhörende 125 250 500 1000 2000 4000 800012500 Frequency in Hz Fig. 4.2 Klinisches Audiogramm. Der Hörverlust wird in dB HL relative zur Population der Normalhörenden angegeben. In der Audiologie werden absolute Hörschwellen meist relativ zu den durchschnittlichen Hörschwellen von jungen Normalhörenden angegeben (entsprechend dem MAP od. MAF Standard) in dB HL od. HTL (hearing threshold level = Hörpegel). Wird ein Schall einer VP mit überschwelliger Intensität präsentiert, so wird sein Pegel in dB SL (sensation level = Wahrnehmungspegel) angegeben, also dem dB-Betrag über der individuellen absoluten Hörschwelle bei der betreffenden Frequenz. Das Konzept von HL und SL ist in Fig. 4.3 veranschaulicht. SPL HL SL 40 dB Hörgeschädigte 34 dB 10 dB 30 dB Hörgeschädigte 24 dB 0 dB HL = Hearing Level (Hörpegel) SL = Sensation Level (Wahrnehmungspegel) 6 dB Normalhörende 0 dB 0 dB 0 dB Fig. 4.3 Konzept der Pegelangabe in dB SPL, HL und SL. Das Audiogramm ist eine wichtige Basis für die Diagnose einer Hörstörung (Ort entlang der Hörbahn) und das wichtigste Kriterium für die Bestimmung der Schwere des Hörschadens. Mittelohr- und Innenohr-Komponenten einer Hörstörung können durch Messung der Luftleitungsschwelle (LLS) und der Knochenleitungsschwelle (KLS) unterschieden werden. Die Luftleitung wird durch Kopfhörerwiedergabe und die Knochenleitung durch einen am Schädelknochen angelegten Knochenleitungshörer gemessen. Unter Anwendung der Tatsache, dass über den Schädelknochen zum Innenohr gelangender Schall in gleicher Weise ein Wanderwellen-Schwingung der Basilarmembran bewirkt wie über das Mittelohr eingespeister Schall, kommen folgende einfache Regeln zur Anwendung: 64 LLS erhöht und KLS normal LLS und KLS um gleichen Betrag erhöht KLS und LLS erhöht, aber Luftleitung stärker Ł Mittelohrschaden Ł Innenohrschaden Ł Mittelohr- und Innenohrschaden 4.2 Frequenzselektivität Der Begriff Frequenzselektivität (FS) bezeichnet die Fähigkeit des auditorischen Systems, die Komponenten eines komplexen Klanges zu separieren. Andere in der Literatur gebräuchliche Bezeichnungen sind „Frequenzauflösung“ oder „Frequenzanalyse“. Die Frequenzselektivität wird primär durch die Verarbeitung des Schalles in der Cochlea bestimmt. Reduzierte „Schärfe“ der Frequenztrennung an der BM und auf der Ebene der periphären Neuronen (am Beginn der neuronalen Verarbeitungskette) lässt auf reduzierte FS bei psychophysikalischen Experimenten schliessen. Diese Annahme wurde durch zahlreiche physiologische und psychophysikalische Untersuchungen bestätigt. 4.2.1 Power Spectrum Model Harvey Fletcher führte 1940 ein zukunftsweisendes Experiment zur Bestimmung der Bandbreite der „auditorischen Filter“ (AF) und damit der Frequenzselektivität durch. Dabei wurde die Mithörschwelle eines in einem Bandpassrauschen (M) spektral zentrierten Sinustons T (f=2 kHz) als Funktion der Bandbreite (BB) von M gemessen (siehe Fig. 4.4). Da die Rauschleistungsdichte konstant gehalten wurde, nahm mit steigender Bandbreite von M dessen Gesamtleistung zu. Die Ergebnisse des Experiments (das später oft mit Normalhörenden und Hörgeschädigten für diese Testtonfrequenz wiederholt wurde) zeigen, dass bei Normalhörenden (NHs) die Schwelle kontinuierlich bis zu einer MaskiererBandbreite von 0.8 kHz ansteigt, während bei cochleär Hörgeschädigten (CHGs) die Schwelle bis ca. 1.6 kHz ansteigt und leicht zu höheren Pegeln verschoben ist (Fig. 4.5). A T M f Fig. 4.4 Stimulus zur Bestimmung der „kritischen Bandbreite“ (nach Fletcher, 1940). 65 Fig. 4.5 Mithörschwellen eines 2-kHz Tons als Funktion der Bandbreite eines maskierenden Rauschens für normale und geschädigte Ohren von unilateralen CHGs [aus Moore, 1995]. Fletcher (1940) leitete aus seinen Ergebnissen mit NHs das sogenannte Power Spectrum Model (PSM) ab, wonach sich das periphäre auditorische System wie eine Kaskade von Bandpass-Filtern (sogenannte „auditorische Filter“) verhält. Fletcher ging von folgenden Annahmen aus: • das periphere auditorische System enthält eine Bank von überlappenden Bandpass-Filtern (AFs) • der Testton (T) wird von jenem Filter detektiert, dass um T zentriert ist • solange die Bandbreite von M kleiner als die Bandbreite des AF ist, steigt mit zunehmender Bandbreite von M dessen Anteil im AF • sobald die Bandbreite von M die Bandbreite des AF übersteigt, bleibt der Anteil des Rauschens im AF konstant → die am Übergangspunkt erreichte Bandbreite wurde von Fletcher als „kritische Bandbreite“ (KB) bezeichnet Es wird davon ausgegangen, dass diese Bandbreite eng mit der auditorischen Filterbreite bei der Frequenz von T verknüpft ist. Die oben beschriebenen Ergebnisse des Experiments mit CHGs zeigen, das die KB bei CHGs grösser ist als bei NHs. Obwohl Fletcher’s Methode nicht sehr gut geeignet ist, um die Filterbreite und Form der AF genau zu bestimmen, hat sich das allgemeine Konzept bewährt (vielfach überprüft) Folgende weitere Annahmen liegen dem PSM zugrunde: • bei der Detektion eines Signals wird nur der Ausgang eines einzigen Filters ausgewertet, nämlich jenes, das um das Signal zentriert ist • dieses Filter hat den grössten Signal/Maskierer-Abstand (SNR) von allen Filtern • nur die das Filter passierenden Maskiererkomponenten haben Einfluss auf die Maskierung des Signals • die Schwelle ist durch das Verhältnis der Signalenergie zur Rauschenergie im AF bestimmt, d.h. durch einen bestimmten SNR-Wert, K, am Ausgang des Filters • die relativen Phasen der Stimuli und die Fluktuationen des Maskierers haben keinen Einfluss Heute weiss man, dass keine dieser Annahmen vollständig zutrifft. Dennoch hat sich das Grund-Konzept bewährt und wurde in einer grossen Zahl von Untersuchungen bestätigt. 66 Abweichungen von den obigen Annahmen wurden daher in neuere Versionen des Modells eingearbeitet. 4.2.2 Messung der auditorischen Filter Die meisten Messmethoden zur Ermittlung der Form der auditorischen Filter basieren auf dem PSM. Das Grundkonzept des PSM kann durch folgende Gleichung beschrieben werden: ∞ PT = K ∫ W ( f ) N ( f )df 0 Dabei bezeichnet N(f) das Langzeit-Leistungspektrum des Maskierers M, W(f) die Gewichtungsfunktion bzw. Form des AF, PT die Leistung des Signals (T) an der Schwelle und K das S/N-Verhältnis (bzw. T/M-Verhältnis) am Ausgang des AF, wenn T an der Schwelle ist. Der Faktor K ist konstant pro Versuchsperson und Frequenz. Ausgehend von dieser Gleichung kann die Form des AF durch Veränderung des Spektrums von M und Registrierung der entsprechenden Veränderungen von PT bestimmt werden. 4.2.2.1 Psychophysikalische Tuningkurven Die Messung psychoakustischer Tuningkurven (PTC, engl.: psychoacoustical tuning curve) ist ähnlich der Messung von neuronalen Tuningkurven (siehe weiter oben). Als Testsignal (T) wird ein Sinusoid oder Schmalbandrauschen knapp über der absoluten Hörschwelle bei der Frequenz F verwendet, für die das AF bestimmt werden soll. Der Maskierer (M), ebenso ein Schmalbandrauschen oder Sinusoid, wird im Pegel und in der Frequenz variiert. Für verschiedene, die Testtonfrequenz umgebende Maskiererfrequenzen wird der Pegel von M ermittelt, bei dem T gerade maskiert (verdeckt) wird. Entsprechend dem PSM produziert M an der Schwelle einen konstanten Ausgangspegel am Filter mit der Mittenfrequenz F. Aufgrund des geringen Pegels von T wird angenommen, dass durch T Aktivität bei nur einem Filter hervorgerufen wird, nämlich bei dem um T zentrierten Filter mit der Frequenz F. Fig. 4.6 zeigt psychoakustische Tuningkurven des normalen und geschädigten Ohres einer monolateral geschädigten VP. In beiden Fällen hatte der Testton gleichen, knapp überschwelligen SL (ca. 5 dB). 67 Fig. 4.6 Psychoakustische Tuningkurven bei simultaner Maskierung des normalen Ohres (Kreise) und des geschädigten Ohres (Rechtecke) einer monolateral hörgeschädigten Versuchsperson [aus Moore, 1995]. Bei Annahme von Linearität der auditorischen Filter, d.h. Unabhängigkeit vom Signalpegel, sollte das AF der invertierten Tuning Kurve entsprechen. Es ist allerdings bekannt, dass die auditorischen Filter nicht linear sind, wie in einem späteren Kapitel näher behandelt wird. Neueren Studien zufolge hängt die Form des Filters vom Signalpegel am Eingang und nicht am Ausgang ab. Ein weiteres bei der Messung von PTCs auftauchendes Problem ist das Phänomen des „off-frequency-listening“ (siehe Fig. 4.8): bei manchen Konstellationen von T und M ist das AF mit der grössten SNR nicht das um das Signal zentrierte (blau), sondern liegt bei einer anderen Mittenfrequenz (meist auf der dem Maskierer abgewandten Seite; rot in Fig. 4.8 eingezeichnet). Dieses Phänomen führt zu einer Verschärfung der Spitze der PTC, weil bei FM = FT kein „off-frequency-listening“ möglich ist, während bei FM ≠ FT ein höherer Pegel vom M zur Verdeckung von T nötig ist. Zur Vermeidung des Effekts wird gleichzeitig mit dem Maskierersignal ein Breitbandrauschen mit einer spektraler Lücke an der Frequenz von T dargeboten (Fig. 4.8). M M S S F F 4.2.2.2 4.2.2.3 Fig. 4.8 Veranschaulichung des „off-frequency-listening“ Effekts. Linke Abbildung: Ein auf der gegenüberliegenden Seite des Maskierers liegendes Filter (strichlierter Pfeil; rot eingezeichnetes Filter) hat höhere (bessere) SNR als das Filter bei der CF. Rechte Abbildung: Hinzufügung von Breitbandrauschen mit einer spektralen Lücke („Notched Noise“) zur Verhinderung der Signaldetektion bei Filtern abseits der CF. 4.2.2.4 Notched-Noise Methode Eine zur direkten Ermittlung der Filterbreite besser geeignete Messmethode ist die sogenannte Notched-Noise Methode. Dabei wird die Mithörschwelle eines Testsignal T (Sinuston) als 68 Funktion der Breite einer spektralen Lücke in einem Breitbandrauschen, dem Maskierer M, gemessen (Fig. 4.9). T wird in der linearen Frequenzskala symmetrisch in der Lücke zentriert, da bei mittleren Pegeln von M die AFs symmetrisch sind (in der linearen Frequenzskala). Fig. 4.9 Signalkonfiguration zur Messung des auditorischen Filters nach Patterson (1976) mittels der „Notched-Noise“ Methode [aus Moore, 1995]. Die Notched-Noise Methode hat folgende Vorteile: • die höchste SNR tritt bei dem Filter auf, an dem das Testsignal (T) zentriert ist (kein „offfrequency listening“) • Die Performance wird wenig durch Integration der Information über mehrere Filter beeinflusst (was zu einer Verbesserung der Detektion und daher Verfälschung der Messung führen würde) (Patterson, 1976) Daher besteht folgender Zusammenhang zwischen dem S/N Verhältnis an der Schwelle (PT), der spektralen Leistungsdichte von M in den Passbändern (N0) und der Form des auditorischen Filters, W(f): PT = KN 0 fc− ∆f ∞ 0 fc+ ∆f ∫ W ( f )df +KN 0 ∫ W ( f )df Die Konstante K ist gleichbedeutend wie in der vorherigen Formel, fc ist die Mittenfrequenz und ∆f der Frequenzabstand zwischen fc und den „Rändern“ der spektralen Lücke. Die beiden Integrale repräsentieren die gestrichelten Flächen in Fig. 4.9 (Überlappung von M und dem AF). Unter der Vorraussetzung von symmetrischen Filtern sind die beiden gestrichelten Flächen gleich gross. Die Veränderung von PT mit der Lückenbreite ist nun ein Mass für das Integral des auditorischen Filters und daher kann auf dessen Form rückgeschlossen werden. 4.2.2.5 Beschreibung des Filters Patterson (1982) schlug eine Methode zur Näherung der Form des AF durch eine Funktion mit möglichst wenigen freien Parametern vor, die als sogenannte „rounded exponential (roex)“Filter Funktion bekannt wurde. Sie hat exponentiell verlaufende Flanken und eine gerundete Spitze entsprechend der Formel: W ( g ) = (1 + pg )e − pg Die Frequenzvariable g ist gegeben durch 69 g = |f - fc| / fc, wobei fc die Mittenfrequenz ist. p bestimmt die Steilheit der Flanken bzw. die Bandbreite des Filters (grösserer Wert für p ergibt steileres Filter) und variiert mit der Mittenfrequenz entsprechend der Gleichung ERB = 4fc/p wobei ERB die sogenannte equivalent rectangular bandwidth des jeweiligen Filters ist [siehe Abschnitt „Abhängigkeit von der Mittenfrequenz“]. p kann bei asymmetrischen Filtern unterschiedliche Werte auf den beiden Seiten von fc haben (häufig bei cochleären Hörschäden). Dann gilt ERB = 2fc/pl + 2fc/pu, wobei die Parameter pl und pu die Filtersteilheit auf der nieder- und hochfrequenten Seite angeben. In einigen Untersuchungen wurde gezeigt, dass die Roex-Filterfunktion eine sehr gute Annäherung an die Ergebnisse von Notched-Noise Experimenten ermöglicht. Die Parameter pl und pu werden den Daten angepasst. Fig. 4.10 zeigt ein Beispiel der Messung des AF mit der Notched-Noise Methode bei einer Testtonfrequenz von 200 Hz, gemessen bei einer NH. Der linke Graph zeigt die Mithörschwellen als Funktion der Frequenzabweichung vom näheren Rausch-Band (∆ = | ef – fc | / fc), wobei ef die Eckfrequenz der spektralen Lücke des Rauschmaskierers ist. Folgende Bedingungen sind dargestellt: symmetrische Plazierung des Testtons (∗), linker Rand der Lücke 0.2 Frequenzeinheiten weiter weg vom Testton (←), rechter Rand der Lücke 0.2 Einheiten weiter weg (→). Alle Angaben beziehen sich auf die lineare Frequenzskala. Der rechte Graph zeigt das daraus abgeleitete auditorische Filter. Die tieffrequente Flanke ist flacher, weil der Abfall der Schwellen bei Vergrösserung von ∆ auf der linken Seite stärker ist als bei Vergrösserung von ∆ auf der rechten Seite. Anders ausgedrückt, der Einfluss des unteren Rauschbandes auf die Schwelle ist stärker, was nur auf eine flachere untere Flanke des auditorischen Filters zurückzuführen ist. Fig. 4.10 Normalhörender, fT=200 Hz, links: Mithörschwellen bei symmetrischer Plazierung des Testtons (*), linker Rand der Lücke 0.2 Frequenzeinheiten weiter weg vom Testton (←), 70 rechter Rand der Lücke 0.2 Einheiten weiter weg (→) [alle Angaben in linearer Frequenzskala]; rechts: daraus abgeleitetes auditorisches Filter [aus Moore, 1990]. 4.2.3 Abhängigkeit von der Mittenfrequenz Diverse Studien untersuchten die Abhängigkeit der Breite der auditorischen Filter von der Mittenfrequenz. Während ältere Studien das Bark als Bezeichnung für die Filterbreite verwendeten, wird in neueren Studien die Breite des Filters häufig als equivalent rectangular bandwidth (ERB) angegeben. Diese entspricht der Breite eines Rechtecks mit äquivalenter Fläche wie das Filter und einer Höhe entsprechend dem Maximum des Filters (ERB ist ca. 11% grösser als die -3 dB Bandbreite). Fig. 4.11 zeigt die ERB als Funktion der Frequenz, wobei die Notched-Noise Methode bei mittleren Pegeln von M verwendet wurde. Fig. 4.11 Abhängigkeit der auditorischen Filterbreite in ERB von der Mittenfrequenz [aus Moore, 1995]. Die Analyse der Notched-Noise Daten und Berechnung der ERB erfolgte mittels den oben beschriebenen Rounded-Exponential (roex)-Filtern. Die durchgezogene Linie in Fig. 4.11 ist eine Annäherung an die gemessenen Datenpunkte entsprechend der Funktion ERB = 24.7(4.37F+1) wobei ERB in Hz und F, die Mittenfrequenz, in kHz angegeben ist. Jedes ERB entspricht einer Anregungsbreite von ca. 0.89 mm auf der Basilarmembran. Die ERB kann auch als Frequenzeinheit verwendet werden (ERB-Skala) entsprechend der Funktion Anzahl an ERBs = 21.4log10(4.37F+1), wobei F die Frequenz in kHz ist. Diese Skala ist dann sinnvoll, wenn die psychoakustische bzw. physiologische Relevanz von spektraler Information dargestellt werden soll. Die ERBSkala wie auch die Bark-Skala (nach Zwicker, 1955) ist ab ca. 500 Hz ähnlich der logarithmischen Frequenzskala. 71 4.2.4 Abhängigkeit vom Pegel Fig. 4.12 zeigt die Abhängigkeit des AF bei 1 kHz vom Pegel, wobei die Transferfunktion von äusserem und Mittelohr berücksichtigt ist. Das AF bei 1 kHz ist ca. symmetrisch auf der linearen Frequenzskala, wenn der Maskiererpegel 51 dB/ERB beträgt (≈30 dB/Hz). Die AFs sind auch bei anderen Frequenzen symmetrisch, wenn der effektive Eingangspegel ca. dem von 51 dB/ERB bei 1 kHz entspricht, nach Berücksichtigung der Aussen- u- Mittelohr Transfer-Charakteristik. Fig. 4.12 Form des auditorischen Filters bei 1 kHz in Abhängigkeit vom Schallpegel im Bereich 20 bis 90 dB SPL/ERB in 10 dB Stufen [aus Moore, 1995]. Während die untere Flanke bei steigendem Pegel stark abflacht, zeigt die obere Flanke keine ausgeprägte Abhängigkeit von Pegel. Ein Problem bei der Messung stark asymmetrischer Filter mit der Notched-Noise Methode ist, dass die Schätzung der steileren Flanke nicht mehr präzise ist (was speziell bei hohen Schallpegeln problematisch ist, wo die untere Flanke sehr flach wird). 4.2.5 Maskierungspattern Bei der Messung von Maskierungspattern werden die durch einen konstanten Maskierer M (Schmalband-Rauschen) verursachten Mithörschwellen von sinusoidalen Testtönen T mit variablen Frequenzen gemessen (Fig. 4.13). Wie bei der Messung der psychoakustischen Tuningkurven ist es zur Vermeidung der Wahrnehmung von Schwebungsprodukten bei kleinem Frequenzabstand von T und M wichtig, dass nicht sowohl T als auch M Sinustöne sind. Wenn sowohl T als auch M Schmalband-Rauschsignale sind, ist wiederum die Wahrscheinlichkeit der perzeptiven Verwechslung der beiden höher, was in stärkerer Streuung der Messergebnisse resultieren kann. T und M sollten daher unterschiedliche Signaltypen sein. 72 Fig. 4.13 Maskierungspatterns eines bei 410 Hz zentrierten Schmalbandrauschens [aus Egan und Hake, 1950]. Anders als bei der Messung des auditorischen Filters (mittels der PTC oder der NotchedNoise Methode) wird bei der Messung von Maskierungspatterns bei jeder Frequenz von T ein anderes auditorisches Filter eingesetzt. Die obere Flanke der Maskierungspatterns ist flacher als die untere bei linearer Darstellung der Frequenzache (Fig. 4.13 zeigt eine logarithmische Frequenzachse). Der Grund hierfür ist die Zunahme der Filterbreite mit steigender Frequenz, wodurch bei F(T) > F(M) ein relativ grösserer Anteil der Energie von M in das Filter einfliesst (→ höhere Mithörschwelle) als bei F(T) < F(M). Dies ist im nächsten Abschnitt veranschaulicht, wo die Konstruktion eines Maskierungspatterns (bzw. Excitationpatterns) aus den auditorischen Filtern demonstriert wird. Es zeigt sich auch eine Abflachung der oberen Flanke mit steigendem Signalpegel, in der Literatur als „Upward Spread of Masking“ bezeichnet. Das Maskierungspattern entspricht ungefähr dem durch den Maskierer im auditorischen System ausgelösten „Excitation Pattern“ bzw. der neuronalen Aktivierung als Funktion der Frequenz. Das Maskierungspattern verläuft parallel zum Excitation Pattern mit etwas höherer Amplitude, wobei die Differenz zwischen beiden ca. der JND des Testtons bei der jeweiligen Frequenz entsprechend sollte. 4.2.6 Konstruktion eines Excitation Patterns Das Excitation Pattern eines Signals kann als der Ausgang der einzelnen AFs als Funktion der Frequenz in Reaktion auf ein Signal betrachtet werden. Die obere Hälfte von Fig. 4.14 zeigt eine Reihe von auditorischen Filtern und einen Sinuston bei 1 kHz (strichlierte Linie). Die untere Hälfte der Abbildung zeigt die Konstruktion des durch den Ton ausgelösten Excitation Patterns. Der Punkt a in der oberen Hälfte zeigt beispielsweise den Pegel, mit dem der Sinuston vom ganz links dargestellten Filter aufgenommen wird. Die Amplitude des Excitation Patterns an der Stelle dieses Filters (im unteren Graph) entspricht daher diesem Pegel (ebenfalls mit a benannt). Die Berechnung der einzelnen Punkte des Excitation Patterns (die durchgezogenen Linie) in der Abbildung erfolgte in 10 Hz-Abständen. Die Pegelangabe erfolgt relativ zur Spitze des Excitation Patterns. 73 Fig. 4.14. Konstruktion des Excitation Patterns eines 1 kHz Sinustons aus den Ausgängen der auditorischen Filter als Funktion der Frequenz [aus Moore und Glasberg, 1983]. Wie bereits im letzten Abschnitt erwähnt, ist wegen der in der linearen Frequenzskala mit steigender Mittenfrequenz zunehmenden Bandbreite der Filter das Excitation Pattern asymmetrisch (obere Flanke ist flacher), obwohl die zugrunde liegenden AFs symmetrisch sind. 4.2.7 Nicht-simultane (= zeitliche) Maskierung Als nicht-simultane Maskierung werden allgemein jene Bedingungen bezeichnet, bei denen der Testton und der Maskierer zeitversetzt dargeboten werden. Obwohl diese Problematik eher in das Kapitel zeitliche Verarbeitung einzuordnen wäre, wird sie bereits hier angesprochen, da die zeitliche Maskierung eine effektive Methode zur Messung des nichtlinearen „lateralen Suppressions-Effekts“ darstellt, der bei CHGs deutlich reduziert ist (siehe weiter unten). Fig. 4.15a zeigt eine Konstellation, bei der das Testsignal (T) kurz nach dem Maskierer (M) präsentiert wird, die als Vorwärts-Maskierung, VM, (engl.: forward masking) bezeichnet wird. Die umgekehrte Konfiguration, d. h., wenn T zeitlich vor M dargeboten wird, bezeichnet man als Rückwärtsmaskierung (engl.: backward masking). A M T t Fig. 4.15a. Stimuluskonfiguration zur Messung des Vorwärtsmaskierungseffekts. Die Vorwärtsmaskierung ist allgemein stärker als die Rückwärtsmaskierung (zumindest bei trainierten VPs) und wurde besser untersucht. Fig. 4.15b zeigt den Verlauf der VM eines 2 kHz Sinusoids (T) nach dem Abschalten eines Rausch-Maskierers (M) für verschiedene Pegel von M. Dabei wird die Mithörschwelle von T 74 zu verschiedenen Zeitpunkten nach dem Abschalten von M gemessen. Die Abbildung auf der linken Seite zeigt, dass die VM in dB eine lineare Funktion des zeitlichen Abstandes in logarithmischer Skalierung ist. Je höher der Pegel von M, desto schneller fallen die Kurven ab; umfangreiche Studien zeigten, dass unabhängig vom Pegel von M alle Kurven nach ca. 100-200 ms (VP-abhängig) an der Hörschwelle zusammenfallen. Die Graphik verdeutlicht auch, dass die Anhebung des Pegels von M um einen bestimmten Betrag (z.B. 10 dB) zu einer geringeren Anhebung der VM Schwellen führt (z.B 3 dB). Dies steht im Gegensatz zur Simultanmaskierung, wo die Mithörschwelle durch eine konstante SNR gegeben ist, i.e. die Mithörschwelle an der Maskiererfrequenz linear mit dem Pegel des Maskiersignals ansteigt. Fig. 4.15b Links: Betrag der Vorwärtsmaskierung eines 2-kHz Signals als Funktion des zeitlichen Abstandes zum Offset eines Maskierers für verschiedene Spektrum-Pegel des Maskierers (0-50 dB). Rechts: Die gleichen Schwellen als Funktion des Spektrum-Pegels des Maskierers für verschiedene zeitliche Abstände [aus Moore und Glasberg, 1983]. Die rechte Seite von Fig. 4.15b zeigt, dass die VM Schwellen als Funktion des Pegels von M Geraden mit einer Steigung < 1 ergeben (bei Simultanmaskierung wäre die Steigung gleich 1), wobei die Steigung bei Vergrösserung des zeitlichen Intervalls zwischen MaskiererAbschaltzeitpunkt und Testton abnimmt. Die Mechanismen der VM sind noch nicht geklärt, wobei folgende Hypothesen zur Erklärung des Effektes existieren: • reduzierte Sensitivität von kurz zuvor stimulierten Neuronen (vergleichbar einem Adaptationseffekt) • Andauern des Patterns der durch M evozierten neuronalen Aktivität • Andauern der Auslenkung der Basilarmembran als Reaktion auf den Maskierer 4.2.7.1 Laterale Suppression bei nicht-simultaner Maskierung Messungen der BM-Bewegung zeigten Abschwächung der neuronalen Antwort auf einen Test-Stimulus bei CF durch einen zweiten Ton (Suppressor-Ton) mit leicht unterschiedlicher Frequenz („Zwei-Ton-Suppression“; siehe Kap. Physiologie, Fig. 3.21). Allgemein kann der Effekt dadurch beschrieben werden, dass starke Aktivität bei einer gegebenen CF schwächere Aktivität bei benachbarter CF unterdrückt. Aus der psychoakustischen Sicht wird der Effekt als „Laterale Suppression“ (LS) bezeichnet. Bei komplexen Signalen führt die LS dazu, dass Spitzen im Spektrum gegenüber Tälern hervorgehoben werden. 75 Messung der Lateralen Suppression (LS) Nach Houtgast (1972) kann LS nicht mittels Simultanmaskierungs-Experimenten nachgewiesen werden, weil sowohl M als auch T im gleichen Frequenzkanal liegen und die LS folglich sowohl M als auch T abschwächt; daher bleibt das Verhältnis der Energien von T und M (T-M-Verhältnis) im auditorischen Filter bei CF konstant. Bei der Messung der Vorwärtsmaskierung ist der Effekt hingegen messbar unter folgenden Vorraussetzungen: • der Suppressions-Mechanismus liegt in der neuronalen Verarbeitungskette nicht nach dem VM-Mechanismus • die durch M evozierte LS ist zum Einschaltzeitpunkt von T bereits abgeklungen (sonst würde auch der Ton unterdrückt werden) Fig. 4.16 zeigt die experimentelle Anordnung zur Demonstration des psychophysikalischen Analogons zur neuronalen „Zwei-Ton-Suppression“, genannt „Zwei-Ton-Demaskierung“ (nach Houtgast, 1974). Zuerst wurde die Mithörschwelle von T in Anwesenheit von M gemessen. Beim anschliessenden Hinzuschalten des Suppressor-Tons S wurde unter bestimmten Konstellationen eine Reduktion der Schwelle von T festgestellt, die dem Suppressionseffekt von S zugeschrieben wurde. Demnach unterdrückte S die Aktivität von M, was wiederum in einer Reduktion des Maskierungseffekts von M auf T resultierte. Wie im nächsten Abschnitt gezeigt wird, ist der Suppressionseffekt auch mit nur einem Maskierer und einem Testton, in geeigneter Anordnung, nachweisbar. M S T t f Fig. 4.16 Schematische Darstellung der Stimuluskonfiguration zur Messung der „Zwei-TonDemaskierung“ entsprechend Houtgast, 1972]. 4.2.7.2 Erhöhung der Frequenzselektivität bei nicht-simultaner Maskierung Fig. 4.17 zeigt psychoakustische Tuningkurven bei simultaner und nicht-simultaner Darbietung von M und T bei vier verschiedenen Frequenzen. Der Onset von T begann unmittelbar nach dem Offset von M. Die Kurven bei nicht-simultaner Maskierung sind generell steiler als jene bei simultaner Maskierung, was besonders stark auf der höherfrequenten Flanke ausgeprägt ist. D.h., nicht-simultane Maskierung führt zu einer Erhöhung der Frequenzselektivität. Dies wird durch eine Konstrasterhöhung (Verschärfung) der internen Repräsentation von M (Excitation Pattern) durch den Suppressions-Mechanismus erklärt, wodurch der Vorwärtsmaskierungseffekt auf den Testton geringer ist. Bei simultaner Maskierung hingegen reduziert die LS sowohl die Maskierer- als auch die Testsignal-Aktivität bei der CF des Testsignals. Der stärkere Effekt bei der höherfrequenten Flanke der Tuningkurve zeigt, dass der Suppressions-Effekt stärker zu tiefen Frequenzen hin wirkt. 76 Eine Erhöhung der Frequenzselektivität bei Vorwärtsmaskierung im Vergleich zu Simultanmaskierung wurde auch mittels anderer Methoden, z.B. der Noched-Noise-Methode, gemessen. Fig. 4.17 Vergleich der bei simultaner und bei Vorwärtsmaskierung gemessenen psychoakustischen Tuningkurven. Die Mittenfrequenz des Maskierers ist als Abweichung von der Mittenfrequenz, dividiert durch die Mittenfrequenz, angegeben (∆f/f). Die Mittenfrequenzen (Testton) sind jeweils über den Graphen angegeben [aus Moore, 1984]. 4.2.8 Frequenzselektivität bei CHGs (simultane Maskierung) Der Vergleich der Frequenzselektivität zwischen CHGs und NHs ist aus mehreren Gründen problematisch: 1) Bei CHGs variiert die Breite der auditorischen Filter weniger oder gar nicht mit dem Pegel wie bei NHs, da die aktiven Mechanismen (äussere Harzellen) reduziert sind oder fehlen. Daher ist der Vergleich mit NHs schwierig, wenn bei gleichem absolutem Pegel gemessen wird, da bei entsprechend hohen Pegeln auch bei NHs die Filter stark verbreitert sind (aktive Prozesse nur bei niedrigen Pegeln wirksam) 2) Wenn bei gleichem Absolutpegel (z.B. 70 dB SPL) gemessen wird, tritt der Effekt des „offfrequency-listening“ bei NHs stärker auf als bei CHGs mit Hörschwelle von 60 dB SPL (also bei SL von 10 dB) [siehe Abschnitt „Psychoakustische Tuningkurven“]. 4.2.8.1 Psychoakustische Tuning Kurven In den meisten Studien wurden verbreiterte Tuningkurven bei CHGs im Vergleich zu NHs gemessen. Allerdings wurde nicht in allen dieser Untersuchungen der Effekt des „offfrequency-listening“ kontrolliert (z.B. durch Bandstop-Rauschen). Meist wurde auch zunehmende Verflachung der Tuningkurven bei steigender absoluter Hörschwelle gefunden. In manchen Fällen kann die Spitze der Kurve abseits der Testtonfrequenz liegen, was auf den Ausfall von IHZs (eher selten bei cochleären Hörschäden) bei der CF zurückzuführen ist. 77 4.2.8.2 Notched-Noise Methode bei unilateralen und bilateralen CHGs Auch bei Messung der auditorischen Filter mittels der Notched-Noise-Methode (bei der „offfrequency-listening“ gut kontrolliert werden kann) mit unilateralen und bilateralen CHGs wurden gegenüber NHs verbreitere Filter gemessen. Im Falle der unilateralen CHGs kann der Unterschied zwischen den beiden Ohren nicht auf individuelle Einflussvariablen zurückgeführt werden. Im normalen und geschädigten Ohr wurde jeweils derselbe Spektrumpegel des Rauschens von 50 dB (79 dB SPL) verwendet. Fig. 4.18 zeigt die Ergebnisse von 6 VPs: alle geschädigten Ohren zeigten Verbreiterung der auditorischen Filter, insbesondere auf der tieffrequenten Seite, obwohl relativ grosse interindividuelle Variabilität auftrat. Die praktische Relevanz der Verbreiterung der unteren Filterflanken ist, dass der Maskierungseffekt von tiefen Frequenzen zu hohen besonders stark ausgeprägt ist (upward spread of masking): Ein alltägliches Beispiel ist die Maskierung von Sprache durch Autolärm oder eine Klimaanlage. Fig. 4.18 Auditorische Filter bei 1 kHz für normale (oben) und geschädigte Ohren (unten) von unilateralen CHGs [aus Moore, 1995]. 4.2.8.3 Zusammenhang zwischen absoluter Schwelle und ERB Wert bei CHGs Der obere Teil von Fig. 4.19 zeigt den Zusammenhang zwischen der absoluten Hörschwelle und dem Quotienten ERB-Wert/ERB-Wert von Normalhörenden bei einem Pegel von 51 dB/ERB. Es zeigt sich eine mässig positive Korrelation zwischen dem ERB-Wert und der Hörschwelle. Der untere Teil von Fig 4.19 zeigt den Zusammenhang zwischen der Hörschwelle und dem Quotionten ERB-Wert/ERB-Wert von Normalhörenden bei gleichem Rauschpegel. Dabei ist die Korrelation etwas geringer, was auf den Anstieg der ERB mit steigendem Pegel bei NHs zurückzuführen ist. 78 Fig. 4.19 Zusammenhang zwischen der auditorischen Filterbreite (in ERB) und der absoluten Hörschwelle in dB (HL) bei der Testfrequenz bei CHGs. Die ERB-Werte sind relativ zur ERB von NHs bei einem Spektrumpegel von 51 dB/ERB (oben) oder relativ zur ERB von NHs bei gleichem Schalldruckpegel des Rauschens (unten) angegeben. 4.2.8.4 Vorwärtsmaskierung und Laterale Suppression bei CHGs Bei der direkten Messung des Suppression-Effekts (nach Houtgast, 1972) trat der Effekt nur auf, wenn der Suppressor-Ton im Bereich normaler Sensitivität war. Bei der indirekten Messung mittels psychoakustischen Tuning Kurven mit CHGs und NHs (siehe Abschnitt „Laterale Suppression“) trat bei CHGs praktisch kein Suppressions-Effekt auf, d.h., keine Schärfung der Tuning Kurven bei der nicht-simultanen Bedingung im Vergleich zu simultaner Maskierung (siehe Fig. 4.20). Messungen mittels der Notched-Noise Methode kamen zum gleichen Schluss, d.h. Unterschiede zwischen der Simultan- und der Vorwärts-Maskierung waren entweder gering oder gar nicht vorhanden. 4.2.9 Perzeptive Konsequenzen reduzierter Frequenzselektivität Da die Frequenzselektivität (FS) Einfluss auf andere auditorischen Funktionen hat (z. B. Lautheitswahrnehmung oder Frequenzdiskrimination), wirkt sich eine Reduktion der FS auch auf diese Funktionen aus (siehe in den entsprechenden Kapiteln). Der Effekt reduzierter FS bei komplexen Signalen hängt von der spektralen Zusammensetzung des Signals ab: je stärker die spektrale Überlappung von Testreiz und Maskierer, desto schwächer ist die zu erwartende Auswirkung, wie in Fig. 4.21 veranschaulicht ist. Im Falle vollständiger spektraler Überlappung von Testsignal und Maskierer führen steile auditorische Filter nicht zu einem besseren Signal-Rausch-Verhältnis als flache Filter. CHGs können z.B. stärkere Probleme bei der Trennung einer hochfrequenten Sirene von einer tieffrequenten Klimanlage haben als NHs, da in diesem Fall die Signale 79 spektral getrennt sind. Der Maskierungseffekt der Klimaanlage auf die Sirene ist aber beim CHG stärker ist als beim NH. Ein anderer Effekt reduzierter FS ist die reduzierte Diskrimination von Klangfarben (z.B. Musikinstrumente oder Vokale). Fig. 4.20 Psychoakustische Tuningkurven des normalen (oben) und geschädigten Ohres (unten) von unilateralen CHGs bei simultaner und Vorwärtsmaskierung [aus Moore und Glasberg, 1986]. Fig. 4.21 Konstellationen mit vollständiger Überlappung (links) und ohne Überlappung (rechts) von Testsignal (Linie) und Maskiersignal (Rechtecke). Im zweiten Fall hängt die Auflösung des Testsignals von der Güte der auditorischen Filter ab. 4.3 Tonhöhenwahrnehmung und Frequenzdiskrimination (FD) Definition d. Tonhöhe: Jene Eigenschaft der auditorischen Wahrnehmung, anhand der Klänge auf einer musikalischen Skala geordnet werden können (ANSI, 1960). Die Frequenzdiskrimination (FD), die nicht mit der Frequenzselektivität zu verwechseln ist, ist eine subjektive Eigenschaft, und kann daher nicht direkt (objektiv) gemessen werden. Die FD hängt von der Repetitionsrate der Wellenform eines Signals ab, was bei Sinusoiden der Frequenz und bei komplexem Tönen der Grundfrequenz entspricht. Eine subjektive Messskala zur Skalierung der Tonhöhenwahrnehmung ist die Mel-Skala, die mittels der Methode der Verhältnisherstellung ermittelt wurde. Dabei entspricht einem 1000 Hz Ton bei 40 Phon der Referenzwert von 1000 Mel, 2000 Mel entspricht der doppelten und 500 Mel der halben Tonhöhe. Bei tiefen und hohen Frequenzen kann eine Kompression der Tonhöhenwahrnehmung beobachtet werden. 80 4.3.1 Modelle der Tonhöhenwahrnehmung Nach der Ortstheorie der Tonhöhenwahrnehmung regen einzelne Komponenten eines komplexen Klanges verschiedene Orte auf der BM und damit verschiedene Neuronenpopulationen an. Entsprechend dieser Theorie ist das Anregungsmuster (Excitation Pattern) entscheidend für die FD; bei Sinustönen ist die Tonhöhe durch die Position des Maximums bestimmt. Entsprechend der Zeittheorie ist die Tonhöhe durch das zeitliche Muster der neuronalen Impulse als Reaktion auf den Stimulus bestimmt (Phase Locking). Entsprechend ist die Genauigkeit der zeitlichen Abbildung in der neuronalen Feuerung ausschlaggebend. Die maximale Repetitionsrate, bei der Phase Locking auftritt, liegt bei 5 kHz, wobei aufgrund der Refraktärzeit der Neuronen von 1 ms bereits ab 1 kHz einzelne Perioden ausgelassen werden. Dies stellt aber kein Problem für die Theorie dar, da die Grundfrequenz natürlicher Schalle (z.B. Musikinstrumente, Sprache, Alltagsgeräusche) geringer als 5 kHz ist. 4.3.2 Tonhöhenwahrnehmung von Sinustönen Zwei Methoden zur Messung des kleinsten detektierbarer Tonhöhenunterschiedes (=DL, Difference Limen, identisch mit JND) werden unterschieden. Bei der DLF (difference limen for frequency) Messung werden zwei Töne hintereinander präsentiert und die Aufgabe der VP ist zu entscheiden, welcher Ton höher war. Bei der FMDL (frequency modulation difference limen) Messung wird ein frequenzmodulierter (FM) Ton mit niedriger Modulationsrate präsentiert, wobei die VP den kleinsten wahrnehmbaren Grad an FM detektiert. In absoluten Hz-Werten sind beide Masse am kleinsten bei kleinen Frequenzen und steigen monoton mit der Frequenz an. Fig. 4.22 zeigt, dass die DLF als Fraktion der Referenzfrequenz ein Minimum bei 0.5 kHz hat und zu tiefen und hohen Frequenzen ansteigt. Die FMDL hingegen variiert weniger mit der Frequenz. Beide Masse nehmen mit steigendem Pegel ab, d.h. die Diskrimination wird besser. Fig. 4.22 DLFs und FMDLs für einen stationären gepulsten Ton, als Fraktion der Mittenfrequenz, in Abhängigkeit von der Mittenfrequenz (Modulationsfrequenz bei Bedingung FMDL: 10 Hz) [aus Moore, 1995]. Entsprechend der Ortstheorie sollten steilere Filter in besserer Frequenzdiskrimination (FD) resultieren, d.h., die DLFs sollten mit der Frequenz entsprechend der ERB-Skala variieren (siehe Fig. 4.26). Die in Fig. 4.23 dargestellten Ergebnisse von Untersuchungen ergaben, das 81 dies für DLFs nicht zutrifft, hingegen für FMDLs sehr wohl (besonders bei höheren Modulationsraten). Bei niedrigen Frequenzen sind DLFs meist niedriger als durch Ortsmodelle prognostiziert, aber oberhalb von 4-5 kHz nicht. Diese Resultate sind konsistent mit dem Konzept, dass DLFs unterhalb von 4-5 kHz durch zeitliche Information und oberhalb durch Ortsinformation bestimmt werden. FMDLs scheinen generell durch Ortsinformation bestimmt zu werden. Fig. 4.23 DLFs und FMLDs relativ zur ERB-Breite der auditorischen Filter bei der jeweiligen Frequenz als Funktion der Mittenfrequenz (Fmod bei Bedingung FMDL: 10 Hz) [aus Moore, 1995]. 4.3.3 Wahrnehmung musikalischer Intervalle Zwei Dimensionen der Wahrnehmung musikalischer Tonhöhe werden unterschieden: • „Tonhöhe“ (im wörtlichen Sinn): weist monotonen Anstieg mit der Frequenz auf • „Chroma“: Tonhöhenklassen innerhalb einer Oktave Für Grundtöne oberhalb von 5 kHz können Tonhöhen zwar unterschieden werden, aber Melodiewahrnehmung ist schwer bis gar nicht möglich (sogar Menschen mit absolutem Gehör können musikalische Noten nicht mehr benennen). Dies kann als Bestätigung betrachtet werden, dass unterhalb und oberhalb von 5 kHz unterschiedliche Mechanismen wirksam sind (Zeitmechanismus und Ortsmechanismus, respektive). 4.3.4 Tonhöhenwahrnehmung von komplexen Tönen Bei komplexen Tönen (Grundton + Obertöne) ist die Tonhöhe nicht einfach durch das Maximum im Excitation Pattern gegeben (wie im Falle von Sinustönen). Seebeck (1943) zeigte, dass der Tonhöheneindruck einer akustischen Klickfolge mit einer Rate von 200 Hz (enthält Obertöne bei Vielfachen der Grundfrequenz) trotz Filterung der unteren Harmonischen identisch ist mit dem eines 200 Hz Sinusoid, abgesehen von starken Unterschieden in der Klangfarbe. Diese wahrgenommene Tonhöhe wird als virtuelle Tonhöhe (VT) oder Residualtonhöhe bezeichnet. Die VT tritt sogar dann auf, wenn alle Harmonischen ausser wenige im mittleren Frequenzbereich abgefiltert werden. Die VT ist perzeptiv unterscheidbar vom physikalisch vorhandenen Ton oder dem im Innenohr durch NichtLinearitäten entstehendem Grundton (Kombinationston). Die VT wird auch dann wahrgenommen, wenn die Frequenz der dargebotenen Obertöne so hoch ist, dass sie perzeptiv 82 nicht aufgelöst werden. D.h., das Phänomen der VT kann durch einen reinen Ortsmechanismus nicht erklärt werden. Die VT bedingt keine Aktivität auf der BM, da sie nicht mit Rauschen maskiert werden kann, das jede Komponente im Bereich der Grundfrequenz maskiert. Interessanterweise ist die Tonhöhe auch dann durch höhere Harmonische bestimmt, wenn die Grundfrequenz physikalisch vorhanden ist. Die VT ist ein praktisch relevantes Phänomen, da die Grundfrequenz natürlicher Signale (z.B. Sprachgrundfrequenz bei 100-200 Hz) oft durch tieffrequente Störgeräusche hoher Intensität maskiert wird. Ein anderes Anwendungsbeispiel ist die Telefonübertragung, bei der wir die Grundtonhöhe wahrnehmen, obwohl Frequenzen unterhalb von ca. 300 Hz nicht übertragen werden. 4.3.5 Diskrimination der Tonhöhe komplexer Töne Die DLF für komplexe Töne ist niedriger (besser) als die DLF für jede der beteiligten Komponenten. Dies ist durch Integration der Information der Einzelkomponenten zur Bestimmung der virtuellen Tonhöhe erklärbar. Für Grundfrequenzen (als F0 bezeichnet) im Bereich 100-400 Hz ist die DLF am niedrigsten (ca. 0.2% der Grundfrequenz). 4.3.6 Analyse komplexer Klänge in der auditorischen Peripherie (Cochlea) Fig. 4.24 zeigt die Simulation der Analyse eines komplexen Signals im peripheren auditorischen System. Fig. 4.24 Simulation der Reaktionen verschiedener Orte der BM auf einen periodischen Puls mit 200 pps. Die Zahlen auf der linken Seite geben die CFs der auf der rechten Seite dargestellten Reaktionen der BM an. 83 Das Signal ist eine periodische Pulsfolge mit einer Pulsrate von 200 Pulsen/sec (Reihe von Harmonischen mit gleicher Amplitude). Bei tiefen CFs entspricht die BM-Antwort ca. einer Sinusschwingung mit der Frequenz der entsprechenden Harmonischen. Höhere Harmonische sind nicht aufgelöst (keine distinkten Spitzen). Die Wellenform an den entsprechenden CFs ist komplex und die Repetitionsrate entspricht der Grundfrequenz des Signals. 4.3.7 Theorien der Tonhöhenwahrnehmung für komplexe Töne 4.3.7.1 Ortstheorie (spektrale Theorie) 1. Stufe: Bestimmung der Frequenz der tieferen (aufgelösten) Frequenzkomponenten (ca. erste 5-8 Teiltöne) 2. Stufe: Muster-Erkennung: Suche einer harmonischen Serie, die mit den aufgelösten Harmonischen am besten übereinstimmt. → entsprechend der Ortstheorie sind tiefere Frequenzen entscheidend. 4.3.7.2 Zeittheorie Auswertung der zeitlichen Feinstruktur in der Nähe der Hüllkurvenmaxima bei höheren CFs (spektral nicht aufgelöst und zeitlich noch nicht im Refraktärbereich), die Vielfaches der Grundfrequenz enthält. → höhere, nicht aufgelöste Harmonische bestimmen die Tonhöhe 4.3.7.3 Evaluation der Theorien Für die Ortstheorie spricht folgendes Ergebnis: • die niedrigen Harmonischen sind wichtiger für die Wahrnehmung der virtuellen Tonhöhe (ca. 3.-5. Harmonische am wichtigsten, wobei grosse interindividuelle Variabilität besteht) Für die Zeittheorie spricht: • die VT wird auch gehört, wenn nur hohe, nicht aufgelöste Teiltöne vorhanden sind, obwohl deren Wahrnehmung schwach ist. • die relative Phase der Teiltöne kann die Tonhöhe beeinflussen, was durch die Ortstheorie nicht erklärbar ist, da die Phase die auditorische Repräsentation der tieferen, aufgelösten Teiltöne nicht beeinflusst. Die Hypothese, dass die Tonhöhe bei Phasenverhältnissen, die zu kontrastreicher Wellenform nach der auditorischen Filterung führen, besser diskriminierbar sein sollte, wurde für Töne mit wenigen Harmonischen bestätigt (Einfluss auf Tonhöhe und Klarheit der Tonhöhe) Die Kombination beider Theorien in einem sogenannten „spektro-temporalen Modell“, wie in Fig. 2.25 dargestellt, kann die Ergebnisse zu den verschiedenen Aspekten der Tonhöhenwahrnehmung von komplexen Tönen am besten erklären. 84 akustischer Eingang Bandpass-Filterbank Neurale Übertragung Analyse der SpikeIntervalle Kombination der Intervalle über CFs Auswahl der stärksten Intervalle Tonhöhe Fig. 4.25 Schematische Darstellung eines Tonhöhenwahrnehmung [nach Moore, 1989]. spektro-temporalen Modells der 4.3.8 Frequenzdiskrimination (FD) für Sinustöne bei CHGs Wie in Fig. 4.26 demonstriert wird, sollten entsprechend der Ortstheorie verbreiterte auditorische Filter zu grösseren JNDs für Frequenz führen. Bei Verschiebung des Excitation Patterns entlang der Frequenzachse um den Betrag ∆F entsteht ein Amplitudencue ∆A (oder auch Excitation Cue genannt), der umso stärker (grösser) ist, je steiler die Flanke des Excitation Patterns an der entsprechenden CF ist (in diesem Beispiel die untere Flanke des links dargestellten Excitation Patterns). ∆F ∆F ∆A ∆A steiles Filter Ł grosse ∆A flachesFilter Ł kleine ∆A Fig. 4.26 Effekt der Verbreiterung des Excitation Patterns auf den Amplitudencue (∆A). Verbreiterung führt bei gleicher Frequenzveränderung (∆F) zu kleinerem ∆A. Entsprechend der Zeittheorie könnte reduziertes Phase Locking die Frequenzdiskrimination negativ beeinflussten. Experimente zur FD bei CHGs zeigten, dass: • sie bei CHGs generell reduziert ist • grosse interindividuelle Variabilität besteht • kein Zusammenhang mit der Ruhehörschwelle (an der CF) besteht 85 • beispielsweise bei bilateral geschädigten mit identischer Hörschwelle auf beiden Seiten grosse Unterschied zwischen den beiden Ohren auftreten können 4.3.8.1 Erklärung der Ergebnisse durch Modelle Untersuchungen zur Korrelation zwischen DLFs und der Frequenz-Selektivität, gemessen sowohl mittels psychoakustischer Tuningkurven als auch mittels der Notched-Noise Methode, zeigten eine geringe Korrelation. Diese Ergebnisse sind nicht gut mit der Ortstheorie erklärbar; die Ursachen für die Verschlechterung liegen eher in der zeitlichen Verarbeitung. Ein Phase-Locking Modell, das Inter-Spike-Intervalle auswertet, kann die Abhängigkeit der DLFs von Frequenz, Dauer und Pegel des Signals gut erklären (z.B. dass präziseres PhaseLocking mit steigendem Pegel zu niedrigeren DLF führt. Es kann auch die Ergebnisse von CHGs erklären unter der Annahme von reduzierter Präzision des Phase Locking. Es gibt allerdings noch keinen direkten experimenteller Beweis für reduziertes Phase Locking bei CHGs. Eine andere Erklärung wäre ein mehr zentraler Effekt bei der Analyse der Phase Locking Information. Der zugrundeliegende Mechanismus könnte durch Veränderung der Laufzeit der BM-Wanderwelle gestört sein (als Folge der Degeneration aktiver Prozesse), falls die zeitliche Abfolge über die verschiedenen CFs entlang der Basilarmembran ausgewertet wird. 4.3.9 FMDLs bei cochleär Hörgeschädigten Obwohl FMDLs leichter zu messen sind als DLFs, da weniger Training zum Erreichen stabiler Performance notwendig ist, sind nur wenige Studien verfügbar. Diesen Studien entsprechend steigen FMLDs mit dem Grad an Hörverlust. Die Ergebnisse können gut mit dem Excitation Pattern Modell erklärt werden (siehe Fig. 4.26) erklärt werden: verbreiterte auditorische Filter führen zu erhöhten FMDLs. In einer Studie wurden die Stimuli durch Multiplikation mit tiefpassgefiltertem Rauschen amplitudenmoduliert, um Excitation Cues bewusst auszuschalten: dies resultierte in einer Verschlechterung der Sensitivität, die bei CHGs wesentlich stärker ausgeprägt war als bei NHs. CHGs detektieren FM offensichtlich primär mittels Excitation Cues, während NHs anscheinend sowohl Ortsinformation auch zeitliche Information auswerten. 4.3.10 Tönhöhenwahrnehmung von Sinustönen mit fehlenden Haarzellen bei der CF Bei Ausfall der inneren Haarzellen im tieferen Frequenzbereich liegt es nahe, dass sich das Maximum des neuronalen Anregungsmusters (neuronales excitation pattern) zu höheren Frequenzen hin verschiebt, relativ zur CF eines schmalbandigen Testsignals. Demnach kann hypothetisiert werden, dass sich die Tonhöhe eines Sinustons nach oben verschiebt. Entsprechende Experimente mittels interauraler Tonhöhenanpassung bei unilateralen CHGs oder mittels Oktav-Anpassung bei bilateralen CHGs konnten diese Theorie hingegen nicht oder nur in geringem Masse bestätigen. Dieses Ergebnis ist schwer mittels der Ortstheorie erklärbar. 86 Ergebnisse besser mittels Zeittheorie erklärbar? Entsprechend der Zeittheorie kann hingegen die Tonhöhe mittels der Periodizität in den neuronalen Pulsen bei Neuronen mit höheren CFs (wo die IHZs intakt sind) kodiert werden. In Fällen von hochfrequentem Ausfall der IHZs wurde beobachtet, dass hohe Sinusoide keine Tonhöhe haben, sondern wie Rauschen klingen. Dies deutet darauf hin, dass möglicherweise weder die Orts- noch die Zeitkodierung intakt ist. Verstärkung der hohen Frequenzen brachte wenig Verbesserung, während interessanterweise bessere Erfolge mit Hörgeräten erzielt wurden, die Frequenzen im Bereich des Hörverlustes gar nicht übertragen (Tiefpassfilter). 4.3.11 Tonhöhenanomalien in der Wahrnehmung von Sinustönen Ein bei CHGs auftretendes Phänomen ist die Wahrnehmung von zwei verschiedenen Tonhöhen auf den beiden Ohren, wovon vor allem Personen mit asymmetrischem Hörverlust (über beide Ohren betrachtet) betroffen sein können. Eine mögliche Erklärung für diesen als „Diplacusis“ bezeichneten Effekt ist, dass das Anregungsmaximum verschoben ist, wenn bei der CF des Signals Hörverlust auftritt (siehe vorheriger Abschnitt). Verfügbare Studien zu dieser Problematik sind grundsätzlich konsistent mit dieser Hypothese, wobei keine detaillierte Studien existieren. Eine andere bei CHGs auftretende Anomalie ist die besonders starke Pegelabhängigkeit der Tonhöhenwahrnehmung. Bei Normalhörenden hängt die empfundene Tonhöhe vom Pegel ab, wobei eine Reduktion der Tonhöhe mit steigendem Signalpegel bei tiefen Frequenzen und eine Anhebung der Tonhöhe mit steigendem Signalpegel bei hohen Frequenzen auftritt (bis zu ca. 3%). Bei CHGs hingegen kann dieser Effekt bis zu 10% betragen (insbesondere ein Tonhöhenabfall mit steigendem Pegel bei tiefen Frequenzen). 4.3.12 Frequenzdiskrimination (FD) für komplexe Töne bei CHGs • • • Bei der Frequenzdiskrimination (FD) komplexer Töne tritt allgemein grosse interindividuelle Variabilität innerhalb der Gruppe der CHGs auf. Bei einigen CHGs waren DLFs (als Prozentsatz der Referenzfrequenz ausgedrückt) für Stimuli mit nur niedrigen Harmonischen (1-5) wesentlich höher als für Stimuli mit nur hohen Harmonischen. Dies deutet darauf hin, dass die Tonhöhe primär durch hohe nicht aufgelöste Harmonische kodiert wird. Das Hinzufügen von niedrigen Harmonischen führt sogar zu einer Verschlechterung der DLFs. Eine Erklärung entsprechend der Zeittheorie ist, dass verbreiterte auditorische Filter zu komplexeren Wellenformen am Ausgang der Filter führen. Eine alternative Erklärung ist, dass das Phase Locking gestört ist. Es wurde nur eine geringe Korrelation zwischen DLFs und der Frequenzselektivität beobachtet. Zur Untersuchung des Effekts der relativen Phasenlage der Komponenten wurden entweder alle Komponenten in Kosinus-Phase (Beginn des Signals bei T/2) oder anwechselnd in Kosinus und Sinus-Phase (Beginn des Signals bei 0) präsentiert. Es 87 zeigte sich ein allgemeiner Trend zu niedrigeren DLFs bei einheitlicher Phasenlage, die eine kontrastreichere Wellenform ergibt (höherer Crest-Faktor), obwohl starke interindividuelle Variabilität zu beobachten war. Die inter-intdividuelle Variabilität könnte auf Unterschiede in den Eigenschaften der auditorischen Filter (Amplitudenund Phasengang) zwischen verschiedenen Personen und Frequenzen zurückzuführen sein. Allgemein deuten die Ergebnisse darauf hin, daß die Tonhöhenwahrnehmung komplexer Töne bei CHGs stärker durch die zeitliche Kodierung als durch die Ortskodierung bestimmt ist im Vergleich zu NHs. 4.3.13 Perzeptive Konsequenzen veränderter Frequenzdiskrimination Die Tonhöhe spielt eine wichtige Rolle bei der Sprache: Die Bedeutung der Tonhöhe umfasst folgende Aspekte: • Hervorhebung der wichtigen Teile • Unterscheidung zwischen Frage und Aussage • Struktur von Sätzen durch Phrasen • in Ton-Sprachen wie Chinesisch oder Thai hat die Tonhöhe sogar inhaltliche Bedeutung • nicht-linguistische Information über Geschlecht, Alter und Emotion des Sprechers Die Bedeutung der Tonhöhe wurde in einem Experiment demonstriert, in dem die Verständlichkeit von Sprache mittels Lippenlesen durch zusätzliche Präsentation des Tonhöhen-Cues wesentlich verbessert wurde. Der Tonhöhen-Cue war effizienter als ein Cue, der die Unterscheidung zwischen tonhaften (Vokalen) und tonlosen (Konsonanten) Segmenten ermöglichte. Ein wichtiger Aspekt bei der Sprachwahrnehmung im Störgeräusch ist der Einfluss der Raumakustik auf die Diskrimination der Tonhöheninformation. Die Phasenlage der Komponenten wird durch Raumreflexionen zufällig (Diffus-Schallfeld), wodurch der CrestFaktor der Wellenform abnimmt (siehe Fig. 4.27). Eine mögliche Folge ist, dass die Fähigkeit von CHGs zur Tonhöhenextration im Alltag (Überlagerung von Sprachsignalen durch Raumreflexionen) möglicherweise überschätzt wird in Studien, die mittels Kopfhörern oder in anechoischen Räumen durchgeführt werden. CHGs könnten aufgrund erhöhter Fluktuation der Lautheitswahrnehmung (siehe Kap. „Lautheitswahrnehmung“) grössere Schwierigkeiten haben, die durch den Raumeinfluss reduzierte Periodizität des Sprachsignals zu extrahieren. Fig. 4.27 Wellenform eines verhallten Sprachsignals (links) und des unverhallten Originalsignals (rechts). 88 Der Einfluss von Tonhöhenanomalien auf die Musikwahrnehmung liegt nahe, obwohl hierzu bisher keine Studien durchgeführt wurden. 4.4 Lautheitswahrnehmung und Intensitätsauflösung Der Begriff Lautheit definiert jene Eigenschaft der auditorischen Wahrnehmung, aufgrund derer akustische Signale auf einer Skala von leise nach laut geordnet werden können. Da sie eine subjektive Grösse ist, kann sie nur mittels einer subjektiven Mess-Skala erfasst werden. Während die Lautheit stationärer Klänge mit psychoakustischen Lautheitsmodellen gut prognostiziert werden kann, ist sie für zeitlich fluktuierende Signale noch nicht gut durch Modelle erfasst. 4.4.1 Isophon-Kurven Die Frequenzabhängigkeit der Lautheitswahrnehmung für schmalbandige Signale wird durch den sogenannten Lautstärkepegel erfasst. Der Lautstärkepegel ist eine Intensitätsskale, die die Frequenzabhängigkeit der Lautheitswahrnehmung berücksichtigt. Diese Frequenzabhängigkeit ist nach Fletcher und Munson (1933) durch die „Kurven gleicher Lautheit“, oft auch als Isophonen bezeichnet, gegeben (Fig. 4.28). Als Referenzsignale wurden Sinustöne bei 1000 Hz mit unterschiedlichen Intensitäten verwendet. Zur Ermittlung der ersichtlichen Kurven wurden Sinusoide unterschiedlicher Frequenzen von VPs so eingestellt (bei alternierender Präsentation von Testton und Referenzton), dass sie jeweils gleich laut wie einer der Referenztöne waren. Der Lautstärkepegel eines beliebigen schmalbandigen Signals ist durch den Pegel eines gleich laut erscheinenden 1000 Hz Tons gegeben. Die Einheit des Lautstärkepegels ist ein Phon, wobei bei 1000 Hz per Definition die dB-Phon Skala identisch ist mit der dB-SPL Skala. Fig. 4.28 Kurven gleicher Lautstärkepegels (Isophone) nach Fletcher und Munson (1933). Bei 1000 Hz Übereinstimmung zwischen dB SPL und dB Phon Skala. Die unterste der Isophon-Kurven entspricht der MAF Kurve (siehe Kap. „Absolute Hörschwelle“). Obwohl alle Kurven die gleiche Form haben, zeigen sie bei tiefen Frequenzen eine Abflachung zu hohen Pegeln hin. Daher ist der subjektive Lautheitsanstieg bei niedrigen Frequenzen grösser als bei mittleren Frequenzen. Z.B. ist die absolute Schwelle für einen 100 89 Hz-Ton um ca. 20 dB höher als für einen 1000-Hz Ton, aber bei der 100-Phon Kurve sind die Intensitäten bei 100 und 1000 Hz gleich. Die Isophone bei 100 dB entspricht der inversen dBA Kurve, die zur Berücksichtigung der Frequenzabhängigkeit der Lautheitswahrnehmung bei der Schallpegelmessung verwendet wird. 4.4.2 Lautheitsskalierung = Auffinden eines Zusammenhanges zwischen der physikalischen Reizintensität und der empfundenen Lautheit. Bei der Entwicklung der Lautheitsskala nach Stevens (1957) wurde sowohl die Methode der Grössenschätzung als auch der Grössenherstellung (siehe Kap. „Psychophysische Messmethoden“) verwendet, wobei beide sehr ähnliche Ergebnisse lieferten. Wie bereits in Kapitel „Grundlegende Gesetze der Psychophysik“ genauer behandelt wurde, lautet der von Stevens gefundene Zusammenhang (Stevensches Potenzgesetz) L = kI 0.3 wobei L = Lautheit, I = physikalische Intensität und k = Konstante, die von der Versuchsperson und der gewählten Einheit abhängt. Eine Verdoppelung der Lautheit entspricht ca. einem Anstieg des Schallpegels um 10 dB. Bei der daraus abgeleiteten SonSkala entspricht 1 Son der Lautheit eines 1000 Hz Tons mit 40 dB SPL, 2 Son der Lautheit eines doppelt so laut empfundenen 1000 Hz Tons mit 50 dB SPL usw. Folgender Ausdruck dient zur Umrechnung vom Lautstärkepegel in Phon (Lφ) in die Lautheit (son): log L(sones) = -1.2+0.03Lφ Eine alternative Methode zur Grössenschätzungs- oder Herstellungsmethode ist die sogenannte Lautheitsskalierung, die im Kapitel „Messung des Lautheitsanstiegs“ kurz behandelt wird. 4.4.3 Intensitätsauflösung Zur Messung der Intensitätsauflösung, d.h. des kleinsten wahrnehmbaren Unterschieds in der Schallintensität, werden drei verschiedenen Methoden eingesetzt: • Modulationsdetektion (bei niedriger Modulationsfrequenz) • Detektion der Erhöhung des Pegels eines kontinuierlichen Hintergrundstimulus • Intensitätsdiskrimination von gepulsten Stimuli („Welcher von 2 Stimuli war der lautere?“) Die mittels dieser drei Methoden gewonnenen Ergebnisse stimmen relativ gut überein. Für Breitband und Bandpass-gefiltertes Rauschen trifft das Weber‘sche Gesetz (∆I/I = konstant) [siehe Kap. „Psychophysik“] zu. Für Schallpegel von ca. 20-100 dB SL beträgt ∆L (in dB) ca. 0.5-1 dB und für schwellennahe Stimuli ist ∆L höher. Im Gegensatz dazu gilt das Weber’sche Gesetz nicht für Sinustöne: Die Funktion von ∆L über L (in dB) ergibt eine Gerade mit einem Anstieg von 0.9 statt 1 (entsprechend dem 90 Weber‘schen Gesetz), d.h. die Intensitätsauflösung wird mit steigendem Pegel besser. Bei 20 dB SL beträgt ∆L ca. 1.5 dB, bei 40 dB SL ca. 0.7 dB und bei 80 dB SL ca. 0.3 dB (alle bei 1000 Hz). Diese Diskrepanz zu den Ergebnissen mit Rauschsignalen wird in der Literatur als „near miss to Weber‘s Law“ bezeichnet. 4.4.4 Lautheitsanstieg und Dynamikbereich bei CHGs Bedingt durch höhere Ruhehörschwellen und meist normale Unbehaglichkeitsschwellen tritt bei CHGs ein stärkerer „Lautheitsanstieg auf als bei NHs, was als „(Lautheits) Recruitment“ bezeichnet wird. Beim „Under-Recruitment“ (oder partiellem Recruitment) wird am geschädigten Ohr auch bei sehr hohen Schallpegeln nie die im gesunden Ohr empfundene Lautheit erreicht. Beim „Over-Recruitment“ übertrifft die Lautheit bei hohen Schallpegeln jene am gesundem Ohr. Bei CHGs tritt praktisch immer eine mehr oder weniger stark ausgeprägte Form des Recruitment auf. 4.4.4.1 Messung des Lautheitsanstiegs Fig. 4.29 zeigt die Ergebnisse der Messung des Lautheitsanstieges bei CHGs mit unilateralem (einohrigen) Hörschaden, wobei die Methode der interauralen Lautheitsabpassung angewandt wurde. Die Lautheitswahrnehmung am geschädigten Ohr. Fig. 4.29 Ergebnisse der Lautheitsanpassung für einen abwechselnd am normalen und geschädigten Ohr eines unilateralen CHG (durchgezogene Linie) und an den Ohren von Normalhörenden (strichlierte Linie) präsentierten Sinuston-Pulses [nach Moore, 1995]. (durchgezogene Linie) nähert sich jener am gesunden Ohr (strichlierte Linie) bei höheren Schallpegeln, aber holt sie nicht vollständig ein („Under-Recruitment“). Bei bilateralen (beidohrigen) Hörschäden hat sich die Methode der „Kategorialen Lautheitsskalierung“ als sehr effizient erwiesen: In der ersten Testphase werden Testsignale (1/2 Oktav-gefilterte Rauschbänder) bei 500, 1000, 2000 und 4000 Hz in zufälliger Reihenfolge mit Pegeln zwischen 30 und 110 dB SPL präsentiert und mittels der Auswahlskala „nicht hörbar“ – „sehr leise“ – „leise“ – „angenehm“ – „laut“ – „sehr laut“ – „zu laut“ skaliert. In der zweiten Phase werden die Kategorien „nicht hörbar“ und „zu laut“ elimiert; die Stufenweite der Pegel hängt von den Ergebnissen aus der 1. Phase ab. 91 Aus den Skalierungsdaten werden für jede Frequenz Lautheitskurven erstellt, wie in Fig. 4.30 dargestellt. Die Methoden der Grössenschätzung und Herstellung ergeben vergleichbare Ergebnisse. Lautheitsskalierung durchgezogene Linie: NHs Strichlierte Linie: CHGs „Over -Recruitment “ Mittelohrschaden od. extremes „UnderRecruitment “ (selten) Fig. 4.30 Ergebnisse zur kategorialen Lautheitsskalierung von CHGs (durchgezogene Linie) und NHs (strichlierte Linie) [aus Moore, 1995]. 4.4.5 Lautheitsmodell Das im folgenden beschriebene Lautheitsmodell (nach Zwicker und Scharf, 1965; Überarbeitung von Moore und Glasberg, 1995) geht von folgender Hypothese aus: Die empfundene Lautheit hängt von der gesamten vom Stimulus evozierten neuronalen Aktivität ab, wobei auch die Anregung abseits der CF relevant ist, die durch die Ausbreitung der Anregung verursacht wird. Das Modell enthält folgende Stufen: 1. Transfercharakteristik von äusserem und Mittelohr 2. Berechnung des Excitation Patterns des Signals (siehe Kap. „Frequenzselektivität“) 3. Transformation des Excitation Patterns in eine der internen Repräsentation entsprechenden Frequenzskala (ERB od. Bark) 4. Excitation Level: Berechnung der spezifischen Lautheit N‘, die der Lautheit pro ERB entspricht. Diese Stufe enthält eine kompressive Nicht-Linearität, die der Transformation von der physikalischen Anregung in neuronale Aktivität entspricht. Die 1. Komponente ist die BM-Nicht-Linearität und die 2. Komponente die Umwandlung von der BM-Schwingung in neuronale Spikepatterns. 5. Berechnung der Gesamtlautheit: diese entspricht der Gesamtfläche unter der Kurve der spezifischen Lautheiten entlang der Frequenzbänder (N‘ vs. ERB): entsprechend der oben genannten zugrundeliegenden Hypothese. 92 Der Zusammenhang zwischen der Excitation und N‘ in Leistungs-Einheiten E bei gegeber CF lautet N ' = C[( ETHRQ α ESIG α ) −( ) ] E0 E0 für ESIG ≥ ETHRQ N‘ = 0 für ESIG < ETHRQ wobei E0 = Excitation durch ein Signal mit 0 dB SPL, ESIG = durch Stimulus angeregte Excitation, ETHRQ = Excitation an der absoluten Schwelle bei der betreffenden CF, α = Konstante, die den Grad der Kompressivität bestimmt (für NHs: 0.23) und C = Skalierungskonstante. Die Funktion ist stark kompressiv, wenn ESIG deutlich über der Hörschwelle liegt und wenig kompressiv, wenn ESIG knapp über der Schwelle liegt. In Fig. 4.31 sind die Funktionen, die N’ mit dem Excitation Pegel (in dB) verknüpfen, dargestellt, wobei der Parameter der Excitation Pegel an der Hörschwelle für die betreffende CF ist (ETHRQ). Die dargestellte Funktion enthält den Effekt der BM-Nichtlinearität und der Umsetzung von physikalischer Anregung in neuronale Aktivität. Bei hohen Pegeln verlaufen die Kurven asymptotisch (entsprechend α), während die Steilheit am Beginn der Kurven von ETHRQ abhängt („Recruitment“-ähnlicher Effekt) 4.4.6 Zum Recruitment-Phänomen führende Mechanismen Die Folgen von cochleären Hörschäden sind primär erhöhte absolute Hörschwelle und der Verlust oder die Reduktion der kompressiven Nicht-Linearität in der EingangsAusgangsfunktion der Basilarmembran (meist Schaden der OHZs). Dies führt zu einer steileren Eingang-Ausgangsfunktion der BM und damit zu erhöhtem Lautheitsanstieg; über 90-100 dB SPL wird die Funktion linear und hat eine Steigung von ca. 1 (wie bei NHs) [Fig. 4.31]. Entsprechend dem Lautheitsmodell nach Zwicker führt die Erhöhung der Ruhehörschwelle alleine zu einer Steigung der Funktion Lautheit vs. Auslenkung der BM. Eine weitere Modellvorstellung ist, dass bei verbreiterten auditorischen Filtern ein gegebener Anstieg des Signalpegels zu rascherer Verbreiterung der Anregung der BM führt als bei normalen auditorischen Filtern, sobald die absolute Schwelle überschritten ist. 93 Fig. 4.31 Spezifische Lautheiten N’ in Abhängigkeit vom Excitation Pegel in dB entsprechend der oben angeführten Funktion. Der Parameter ist der Excitation Pegel an der Schwelle bei der jeweiligen CF. Zur Überprüfung dieser Hypothesen wurden Daten von CHGs mit um 50 oder 80 dB gegenüber NHs erhöhten Hörschwellen mittels eines Lautheitsmodells modelliert. Die Kreise in Fig. 4.32 zeigen experimentell ermittelte Lautheitsanpassungs-Daten von unilateralen CHGs (gesundes versus geschädigtes Ohr) und die durchgezogenen Linien die ModellVorhersage nach dem Modell nach Moore and Glasberg (1995). Abgesehen von der Anhebung der Ruhehörschwelle wurden die psychophysikalischen Parameter von NHs zur Modellierung verwendet. Die gute Übereinstimmung zwischen den Kreisen und der Linie zeigen, dass der Recruitment-Effekt gut durch die Erhöhung der Ruhehörschwelle alleine erklärt werden kann. Fig. 4.32 Kreise: experimentell ermittelte Lautheitsanpassung-Daten von unilateralen CHGs (gesundes versus geschädigtes Ohr); durchgezogene Linien: Modell-Vorhersage (nach Moore and Glasberg, 1995): identische Parameter wie bei NHs abgesehen von Anhebung der Ruhehörschwelle; strichlierte Linien: zusätzlich Erhöhung der Breite der auditorischen Filter; links: Verdoppelung der auditorischen Filterbreite und leichte Verbreiterung mit steigendem Signalpegel; rechts: Vervierfachung der Breite der AFs und keine weitere Verbreiterung mit Pegel [aus Moore, 1995]. 94 Die strichlierte Linien zeigen die Modellvorhersage bei zusätzlicher Erhöhung der Breite der auditorischen Filter; in der linken Graphik wurde die Filterbreite verdoppelt und zusätzlich leichte Verbreiterung mit steigendem Signalpegel eingeführt; auf der rechten Seite wurde die Filterbreite vervierfacht und keine weitere Verbreiterung mit dem Pegel eingeführt. Die Verbreiterung der AFs führt zu allgemeiner Erhöhung der Lautheit, aber beeinflusst nicht die Steilheit der Kurve und damit den Verlauf des Lautheitsanstiegs. 4.4.6.1 Experimentell gemessener Einfluss der Frequenzselektivität Zur direkten Überprüfung der Hypothese, dass der Recruitment-Effekt durch abnormal starke Ausbreitung der Excitation auf der Basilarmembran verursacht wird, wurden Lautheitsanpassungsexperimente mit unilateralen CHGs durchgeführt. Der Teststimulus wurde im geschädigten Gehör entweder in Ruhe oder, in Breitbandrauschen mit einer spektralen Lücke bei der CF eingebettet, präsentiert, wobei verschiedene S/N-Verhältnisse getestet wurden. Unter der Annahme, dass bei CHGs die Frequenzselektivität reduziert aber doch vorhanden ist (was experimentell überprüft wurde), sollte das Rauschen die durch den Ton verursachte neurale Aktivität bei den von der CF entfernten Frequenzen verdecken, aber nicht im Bereich der CF. Eine Erhöhung des Rauschpegels sollte demnach zur sukzessiven Reduktion der Lautheit führen. Die in Fig. 4.33 dargestellten Ergebnisse zeigen geringfügig stärkere Lautheit bei Absenz des Rauschens, aber keine ausgeprägte Abhängigkeit vom Rauschpegel. Auch hatte die Anwesenheit des Rauschens keinen Effekt auf die Steilheit der Lautheitskurve. Daher kann die Ausbreitung der Anregung keine wichtige Ursache für den Recruiment-Effekt sein. Fig. 4.33 Lautheits-Anpassung bei unilateralen CHGs zwischen normalem und geschädigtem Ohr als Funktion des Pegelverhältnisses zwischen sinusoidalem Testton und maskierendem Rauschen (siehe Text) [aus Moore, 1995]. 4.4.6.2 Lautheitssummation Beim normalen Gehör bleibt bei Verbreiterung der Bandbreite eines Rauschsignals mit konstanter Gesamtleistung die Lautheit konstant bis zum Erreichen der kritischen Bandbreite (KB). Bei weiterer Erhöhung der Bandbreite steigt die Lautheit hingegen an. Die allgemeine Erklärung für dieses als Lautheitssummation bezeichnete Phänomen ist, dass bei Erhöhung der Bandbreite das Muster der spezifischen Lautheiten breiter, aber niedriger wird, wobei bis 95 zum Erreichen der KB ein Ausgleich der beiden Parameter stattfindet, während darüberhinaus der Effekt der spektralen Verbreiterung stärker ist als der Effekt der Reduktion der Höhe des Musters. Der dadurch entstehende Anstieg der Fläche unter der Kurve der spezifischen Lautheiten (siehe Fig. 4.34) bewirkt eine Erhöhung der Gesamtlautheit (Fig. 4.34). Fig. 4.34 Excitation Pattern (oben) und Pattern der spezifischen Lautheit für Rauschbänder mit konstanter Gesamtenergie und Mittenfrequenz, aber variabler Bandbreite. Die Lautheit eines Signals hängt von der Gesamtfläche unter dem spezifischen Lauheitspattern ab [nach Moore, 1995]. Diverse Studien zeigten reduzierte Lautheitssummation bei CHGs im Vergleich zu NHs. Fig. 4.35 zeigt Messungen des Lautheitsunterschiedes zwischen 709 und 5909 Hz breiten RauschBändern, die geometrisch um 4 kHz zentriert waren, für verschiedene Rausch-Pegel des schmäleren Rauschbandes. Die für den Lautheitsausgleich zwischen Stimuli mit den beiden Bandbreiten notwendige Pegeldifferenz ist als Funktion des Pegels des schmäleren Bandes dargestellt (Kreise). Die Differenz ist bei CHGs generell geringer als bei NHs (nicht eingezeichnet) und hängt vom Pegel ab. Zusätzlich wurde eine Simulation mittels der Lautheitsmodelle nach Zwicker und nach Moore durchgeführt (strichlierte Linie). Wenn nur Schwellenerhöhung um 45 dB simuliert wurde (durchgezogene Linie), so war die prognostizierte Lautheitssummation grösser als experimentell ermittelt; wenn zusätzlich 2fache Verbreiterung der auditorischen Filter (ohne Pegelabhängigkeit der Filterbreite) simuliert wurde (strichlierte Linie), so näherte sich die prognostizierte Lautheitssummation mehr den Daten der CHGs. Die negative Lautstärke-Differenz bei 60 dB SPL des Schmalband-Rauschens ist durch den starken Lautheitsanstieg bei geringem SL erklärbar. Die (bei konstanter Rauschleistung) aus steigender Bandbreite resultierende Reduktion der Excitation und damit der spezifischen Lautheit bei der CF überkompensiert den Effekt der Verbreiterung des Excitation Patterns und damit des Lautheitsmusters. 96 Fig. 4.35 Kreise: Pegel-Differenzen zur Kompensierung von Lautheitsunterschieden zwischen 709 und 5909 Hz breitem Rauchen (bei 4 kHz zentriert); durchgezogene Linie: Modellvorhersage nach Moore und Glasberg (1995) mit normalen AFs, aber Schwellenerhöhung um 45 dB; strichlierte Linie: wie oben, aber mit Simulation der Verbreiterung der AFs (2x). [aus Moore, 1995]. Zusammenfassend zeigen die Ergebnisse, dass sowohl Recruitment als auch Verbreiterung der auditorischen Filter für die reduzierte Lautheitssummation bei CHGs verantwortlich sind. 4.4.7 Intensitätsauflösung bei CHGs Der allgemeinen Auffassung zufolge basiert die Wahrnehmung von Veränderungen in der Intensität (∆I) auf der Wahrnehmung von Veränderungen in der Lautheit. Bei CHGs führt, zumindest bei niedrigen SLs, eine gegebene Veränderung der Intensität zu einer grösseren Lautheitsveränderung als bei NHs. Daraus kann hypothetisiert werden, dass die Intensitätsauflösung bei CHGs besser ist als bei NHs. Frühe Studien bestätigten tatsächlich diese Hypothese und führten zur Entwicklung des klinischen „Short Increment Sensitivity Index“ (SISI) Tests, bei dem die stufenweise Veränderung des Pegels eines kontinuierlichen Tons (bei 20 dB SL) detektiert werden soll; die Stufenweite beträgt 5 dB in der Gewöhnungsphase und 1 dB in der Testphase. NHs und Personen mit Mittelohrschäden erkennen typischerweise ca. 20%, während CHGs ca. 60% Performance erreichen. Obwohl der SISI Test sinnvoll zur Diagnose von Innenohrschäden ist, kann daraus nicht abgeleitet werden, dass CHGs generell bessere Intensitätsauflösung haben als NHs (siehe weiter unten) 4.4.7.1 Detektion von Amplitudenmodulation bei CHGs Weitergehende Analysen der Ergebnisse mit dem SISI Test ergaben, dass bessere Intensitätsauflösung bei CHGs im Vergleich zu NHs nur bei gleichem SL, nicht aber bei gleichem SPL auftritt. Dazu wurde die Amplitudenmodulations (AM)-Detektion bei Modulationsfrequenz = 4 Hz in einem dem SISI Test vergleichbaren Test untersucht. Es wurde das kleinste detektierbare Spitze-zu-Tal Verhältnis in dB ermittelt, bei dem 71% richtige Antworten erfolgen. Zur Überprüfung, ob die obere Flanke des Excitation Patterns der 97 relevante Cue ist, wurde zusätzlich Oktavband-Rauschen (unterer -3 dB Punkt doppelt so hoch wie die Signalfrequenz) präsentiert (Verdeckung der oberen Flanke des vom Ton angeregten Excitation Patterns) Die Ergebnisse in Fig. 4.36 (links) zeigen, dass bei gleichem SPL die Difference Limens für Amplitudenmodulation (AMDLs) bei unilateren und bilateralen CHGs manchmal niedriger (besser) und manchmal höher (schlechter) sind im Vergleich zu den normalen Ohren der unilateralen CHGs. Bei gleichem SL zeigen CHGs hingegen generell niedrigere AMDLs. Bei der Bedingung mit Oktavrauschen (Fig. 4.36 rechts) tritt generell Erhöhung der AMDLs auf, was zeigt, dass die Detektion der AM auf der hoch-frequenten Seite des Excitation Patterns stattfindet. Fig. 4.36 Mittlere AMDLs für die Frequenzen 0.5, 1 und 2 kHz von 9 unilateralen CHGs, deren mittlere Ergebnisse (UM) und mittlere Ergebnisse von bilateralen CHGs (BM). links: in Ruhe; rechts: mit maskierendem Rauschen zur Unterdrückung des Detektions-Cues auf der hochfrequenten Seite des Maskierungspatterns [aus Moore, 1995]. Experimente zur Intensitätsdiskrimination (Detektion des lauteren von 2 Stimuli) von gepulsten Tönen ergaben ähnliche Trends, jedoch folgende Unterschiede: die JNDs waren allgemein höher und der Effekt des Oktavrauschens wesentlich geringer. Dies bedeutet, dass die hochfrequente Seite des Excitation Patterns keine grosse Bedeutung bei der Intensitätsdiskrimination von gepulsten Tönen spielt. 4.4.7.2 Erklärung der Ergebnisse zur Intensitäts-Diskrimination 1) Zwislocki und Jordan (1986) überprüften die Hypothese, wonach die Intensitätsauflösung von der Lautheit selbst und nicht von der Lautheitsanstiegs-Funktion abhängt. D.h., bei gleicher Lautheit sollte kein Unterschied in den JNDs zwischen CHGs und NHs auftreten. Es wurde gezeigt, dass für Töne in Ruhe die Intensitätsauflösung zwischen CHGs und NHs gleich ist, wenn die Stimuli gleiche Lautheit haben; nicht aber bei Hinzufügen von Rauschen. Es wurde argumentiert, dass die Verbesserung der Intensitätsdiskrimination durch den erhöhten Lautheitsanstieg durch die erhöhte Variabilität in der Lautheitswahrnehmung als Folge des erhöhten Lautheitsanstiegs kompensiert wird. 2) Erhöhte Ausbreitung der BM-Anregung: Die hochfrequente Seite des Excitation Patterns (EP) ist prädestiniert zur Detektion von Intensitätsänderungen, da die Flankensteilheit nichtlinear mit dem Pegel des Eingangssignals 98 ansteigt (z.B. kann eine 1-dB Änderung im Eingangssignal eine 3 dB Änderung im Excitation Patterns bewirken) [siehe Kap. „Frequenzsselektivität“]. Diese Idee wurde durch erhöhte JNDs für Intensitäts-Diskrimination von CHGs mit hochfrequentem Hörverlust relativ jenen von NHs bestätigt, wenn bei gleichem SPL gemessen wurde. Bei Messung mit gleichem SL ergab sich hingegen kein Unterschied zwischen diesen beiden VP Gruppen. CHGs mit abnehmendem Hörverlust bei höheren Frequenzen zeigten keinen Unterschied zu NHs bei gleichem SPL und sogar niedrigere JNDs als NHs bei gleichem SL. Zusammenfassend ist die Information auf der hochfrequenten Seite des Excitation Patterns wichtig für die Intensitätsauflösung. Erhöhung der absoluten Schwellen bei hohen Frequenzen kann die Intensitätskodierung stören. 4.4.8 Perzeptive Folgen veränderter Lautheitswahrnehmung bei CHGs Recruitment Die am stärksten ausgeprägten Folgen der veränderten Lautheitswahrnehmung bei CHGs sind der Recruitment-Effekt und die reduzierte Dynamik. Bei Signalen mit inhärenten Amplitudenfluktuationen (wie Sprache oder Musik) führt dies zu erhöhten Lautheitsschwankungen (z.B. werden bei Musik laute Passagen normal wahrgenommen, während leise Passagen unhörbar sind). Das aktive auditorische System von NHs könnte als schnell reagierende AGC (automatic gain control) betrachtet werden, die bei CHGs ausgefallen ist. Erhöhte Lautheitsschwankungen haben starken Einfluss auf andere auditorische Funktionen, z.B. auf die zeitliche Verarbeitung oder die Sprachwahrnehmung. Die praktische Implikation in Bezug auf Hörgeräte ist die Notwendigkeit für den Einsatz von Kompression der Dynamik (für die dabei relevanten Herausforderungen sei auf die einschlägige Fachliteratur verwiesen). 4.4.8.1 Reduzierte Lautheitssummation Zur erfolgreichen Wiederherstellung normaler Lautheit im cochleär geschädigten Gehör sollte die Bandbreite des Signals berücksichtigt werden. D.h., wenn der Hörschaden mit schmalbandigen Signalen „vermessen“ wurde, so ist zur Wiederherstellung „normaler“ Lautheit von komplexen Signalen (wie Sprache od. Musik) mehr Verstärkung notwendig als mittels schmalbandiger Signale prognostiziert. Beispiel: Eine Person mit unilateralem Hörschaden (50 dB HL); ein Sinusoid mit 80 dB am geschädigten Ohr evoziert die gleiche Lautheit wie ein 65 dB Ton im gesunden Ohr (15 dB Unterschied zwischen den beiden Ohren). Bei Ersetzen des Sinusoids durch ein Breitbandsignal steigt die Lautstärke im normalen Ohr, aber weit weniger im geschädigten Ohr. Dadurch entsprechen 80 dB im geschädigten Ohr lautheitsmässig beispielsweise nur mehr 55 dB im gesunden Ohr (25 dB Unterschied). Daher ist für Breitband-Signale mehr Verstärkung notwendig als für Schmalbandsignale, um die gleiche Lautheit wie im normalen Ohr zu erreichen. Ein „Vorteil“ der reduzierten Lautheitssummation bei CHGs ist, dass die Messung der MCLs (most comfortable level) und UCLs (uncomfortable loudness level) mit 99 schmalbandigen Signalen auch für breitbandige Signale anwendbar ist. Eine Ausnahme stellen allerdings stark mit der Frequenz variierende Hörschäden dar. 4.4.8.2 Veränderte Intensitätsdiskrimination Da CHGs normalerweise bei gleichem SPL hören wie NHs (sofern sie kein Hörgerät tragen), ist deren Intensitäts-Diskrimination meist nicht besser als bei NHs (wie in frühen Studien angenommen). Hinzu kommt, dass die Variabilität in der Wahrnehmung der Lautheit mit der Steigung der Lautheits-Anstiegsfunktion (Recruitment-Effekt) zunimmt. Obwohl insgesamt die Intensitäts-Diskrimination bei CHGs eher verschlechtert ist, ergibt sich keine praktische Auswirkung, da die für die Sprachdiskrimination relevanten Intensitäts-Unterschiede von Sprachsignalen weit grösser sind als die JNDs von CGHs. Probleme tauchen hingegen bei schnell reagierender Dynamikkompression in Hörgeräten mit hohen Kompressionsraten auf, da dies zu einer Reduktion der Pegeldifferenzen führt. Es muss daher ein Trade-Off zwischen der Hörbarkeit von leisen Schallen (erfordert hohe Kompressionsrate) und der Verschmierung von Pegeldifferenzen (bei zu hohen Kompressionsraten) gefunden werden. 4.5 Zeitliche Auflösung und zeitliche Integration bei CHGs Bei grober Analyse von physiologischen und psychoakustischen Daten finden sich zunächst keine Hinweise auf reduzierte zeitliche Auflösung bei CHGs. Neurophysiologische Aufzeichnungen der Reaktion der primären auditorischen Neuronen ergaben präzise Repräsentation der zeitlichen Muster für überschwellige Stimuli. Die bei CHGs auftretende Verbreiterung der auditorischen Filter (AFs) führt zur Verkürzung der Impulsantwort und sollte daher sogar in verbesserter zeitlicher Reaktion resultieren. Trotzdem gibt es experimentelle Evidenz für reduzierte zeitliche Auflösung von CHGs unter bestimmten Bedingungen. 4.5.1 Modell der zeitlichen Verarbeitung Grundsätzlich wird zwischen der Verarbeitung und Analyse der zeitlichen Muster in einzelnen Frequenzkanälen (periphäre Filterung etc.) und dem Vergleich der zeitlichen Muster über verschiedene Frequenzkanäle hinweg unterschieden. Da über den Vergleich über mehrere Frequenzkanäle noch wenig bekannt ist, werden hier primär Daten für einzelne Frequenzkanäle beschrieben. Fig. 4.37 zeigt die Verarbeitungsstufen von typischen Modellen der zeitlichen Verarbeitung. Stimulus BandpassFilter Nichtlineare Stufe Zeitlicher Integrator EntscheidungsProzess Auditor. Filter auf BM TransduktionBM Auslenkung = zeitl. Glättung (z. B. Tiefpassfilter) zu neuronaler Aktivität relativ zentraler Prozess Fig. 4.37 Blockdiagramm der Stufen von typischen Modellen der zeitlichen Verarbeitung [nach Moore, 1995]. 100 4.5.2 Effekt der auditorischen Filter Fig. 4.38 zeigt die Impulsantwort von simulierten auditorischen Filtern (zentriert bei 1 kHz) mit normaler Bandbreite (150 Hz) und mit 2-facher, 4-facher und 8-facher Verbreiterung. Die Spitzenamplitude steigt mit der Bandbreite, obwohl die Amplitude in der Graphik normalisiert ist. In den im Folgenden beschriebenen Experimenten wird die Hypothese geprüft, dass die Charakteristik der auditorischen Filter Einfluss auf die zeitliche Verarbeitung hat. Demnach sollte die zeitliche Auflösung bei tiefen Frequenzen schlechter seind, da die Bandbreite der Filter kleiner und daher die Impulsantwort länger ist als bei hohen Frequenzen. Fig. 4.38. Simulierte Antwort von normalem auditorischen Filter, 2-fach, 4-fach und 8-fach verbreitertem auditorischen Filter auf kurzen Impuls. CF = 1 kHz [aus Moore, 1995]. 4.5.2.1 Einfluss der Mittenfrequenz In Experiment 1 sollte die VP zwischen den Stimuli A und B unterscheiden, wobei B die zeitlich gespiegelte Version von A ist (verkehrt abgespielt) und beide Stimuli identische Langzeitspektren haben. Die Stimuli sind Sinuston-Pulse mit unterschiedlicher Amplitude am Beginn und Ende (10 dB), bei verschiedenen Frequenzen des Signals. Die Diskrimination wurde als Funktion der Gesamtdauer des Stimulus gemessen. Bei 4 und 2 kHz lagen die JNDs zwischen 1 und 2 ms und bei 1 kHz zwischen 2 und 4 ms. In Experiment 2, der sogenannten Lücken-Detektion, detektiert die VP eine zeitliche Lücke in einem Schmalband-Rauschen als Funktion der Lückenbreite. Zur Vermeidung der Detektion von Cues durch spektrale Verbreiterung wird zusätzlich breitbandiges Hintergrundrauschen präsentiert. Der monotone Abfall der JND mit zunehmender Mittenfrequenz erscheint zunächst konsistent mit der eingangs erwähnten Hypothese. Es wurde bei diesem Experiment allerdings nicht berücksichtigt, dass die Bandbreite der Stimuli mit der Mittenfrequenz zunahm, was eine Interaktion mit dem Faktor Mittenfrequenz bedeuten kann (d.h., es könnte die Detektion nicht nur von der Mittenfrequenz, sondern auch von der Bandbreite abhängen; bei gleichzeitiger Variation beider Faktoren kann die Wirkung jedes der beiden Faktoren nicht getrennt analysiert werden. Aus dem zuvor genannten Grund war die Durchführung eines LückendetektionsExperiments mit konstanter Bandbreite des Stimulus notwendig (Experiment 3). In Experiment 2 könnte bei abnehmender Bandbreite des Rausch-Bandes (bei Abnahme der Frequenz) die dadurch geringere Rate der Amplitudenfluktuation zu einer stärkeren 101 Verwechslung mit der zu detektierenden zeitlichen Lücke geführt haben; dies könnte insbesondere dann ein Problem darstellen, wenn die mittlere Periode der Amplitudenfluktuation ähnlich der zu detektierenden Lückenbreite ist. Die Ergebnisse dieses Experiments zeigten einen geringeren Effekt der Mittenfrequenz als bei Experiment 2. Eine weitere, vergleichbare Studie zeigte die niedrigsten JNDs bei mittleren Frequenzen und erhöhte JNDs bei niedrigen und hohen Frequenzen. Zusammenfassend zeigten diese Experimente, dass die Lückendetektions-Schwellen höchstwahrscheinlich durch inhärente Amplitudenfluktuationen beeinflusst werden, deren interne Repräsentation wiederum von der peripheren auditorischen Filterung abhängt. Zur Messung der zeitlichen Lückendetektion ohne intervenierenden Effekt der zufälligen Amplitudenfluktuation wurde in Experiment 4a die Lücken-Detektion mit einem Sinuston gemessen; wie in Experiment 2 und 3 wurde zusätzlich Hintergrundrauschen präsentiert. Da sich ein starker Effekt der Sinuston-Phase zeigte, bei der die Lücke beginnt und endet, wurden zwei verschiedenen Bedingungen getestet: a) „Bewahrte“ Phase: dabei beginnt und endet die Lücke stets bei einem positiven Nulldurchgang und die Lückendauer ist ein Vielfaches der Periodendauer. Diese Bedingung ergab einen monotonen Abfall der JND bei Erhöhnung der Lückendauer. Bei 400, 800, 1000 und 2000 Hz lagen die JND bei ca. 5-8 ms; bei 200 Hz zeigte sich ein leichter und bei 100 Hz ein starker Anstieg auf 18 ms. Zusammenfassend zeigen die bisher beschriebenen Experimente keine ausgeprägte Abhängigkeit der zeitlichen Auflösung von der Mittenfrequenz mit der Ausnahme von Frequenzen ≤ 200 Hz. Die Ergebnisse bestätigen daher nicht die Hypothese, dass die auditorischen Filter eine wichtige Rolle bei der zeitlichen Auflösung spielen, mit Ausnahme von sehr tiefen Frequenzen. b) „Standard“ Phase: bei dieser Bedingung fällt auch der Beginn und das Ende der Lücke immer mit einem positiven Nulldurchgang zusammen, aber die Lückendauer kann beliebige Werte annehmen. Die in Fig. 4.39 dargestellten Ergebnisse für diese Bedingung zeigen einen nicht-monotonen Verlauf der psychometrischen Funktion bei 400 und 1000 Hz. Die Detektierbarkeit der Lücken ist am schlechtesten, wenn die Lückendauer ein Vielfaches der Signalperiode, T, ist. (2.5 od. 5 ms). Die psychometrische Funktion zeigt hingegen Maxima, wenn die Lückendauer ca. gleich (n+0.5)T ist. Bei 2000 Hz zeigte sich ein monotoner Verlauf der psychometrischen Funktion. 102 Fig. 4.39 Prozentsatz der korrekten Detektion einer Lücke in einem 400 Hz Sinuston als Funktion der Lückenbreite für die Bedingung „Standard Phase“ (siehe Text) [aus Moore, 1995]. Diese Ergebnisse können damit erklärt werden, dass bei einer Lückendauer von genau einer Periode (2.5 ms) das der Lücke folgende Sinustonsegment in Phase mit dem Nachschwingen des Filters ist. Wie in Fig. 4.40 ersichtlich, entsteht nur ein kleines Tal in der Wellenform, das schwierig zu detektieren ist. Wenn die Lücke 1.25 oder 3.75 ms beträgt, so ist die Lücke nicht in Phase mit der Filterschwingung, was in einem tieferen und daher leichter zu detektierenden Tal resultiert. Fig. 4.40 Simulation des Ausgangs eines auditorischen Filters bei 400 Hz für die Bedingung „Standard-Phase“, siehe auch Fig. 4.39 [aus Moore, 1995]. Der monotone Verlauf der psychometrischen Funktion für der Bedingung „Bewahrte“ Phase ist dadurch erklärbar, dass das der Lücke folgende Sinusoid-Segment immer in Phase mit der Filterschwingung ist. 103 Bei höheren Frequenzen ist die psychometrische Funktion immer monoton (sogar bei der „Standard“-Phase-Bedingung), da die Impulsantwort des Filters kurz ist in Relation zur Lückenbreite. Zusammenfassend haben die auditorischen Filter grossen Einfluss bei deterministischen Signalen, insbesondere bei tieferen Frequenzen. Bei realen Signalen scheinen die auditorischen Filter aber, mit Ausnahme von sehr tiefen Frequenzen, die zeitliche Auflösung nicht wesentlich zu beschränken. 4.5.3 Charakteristik der nicht-linearen Stufe und des zeitlichen Integrators Nachdem die in Fig. 4.37 dargestellten Stufen der zeitlichen Verarbeitung hintereinandergeschaltet sind, ist es schwierig, die Charakteristik des zeitlichen Integrators unabhängig von den anderen Verarbeitungsstufen zu bestimmen. Beim im Folgenden beschriebenen Modell wird angenommen, dass die nicht-lineare Stufe der Umsetzung von BM-Bewegung in neuronale Aktivität eine Quadrierungs- (bzw. Gleichrichtungs-) Charakteristik hat. Der zeitliche Integrator wird als zeitliches Fenster modelliert, dass eine laufende Mittelung der Energie am Ausgang der auditorischen Filter durchführt. In einem Experiment zur Bestimmung der Charakteristik des zeitlichen Integrators (od. Fensters) detektierten VPs einen sehr kurzen, zwischen zwei Rauschpulsen plazierten Ton-Puls als Funktion des Abstandes der Tonpuls-Mitte zum Offset des ersten Rauschpulses (VorwärtsMaskierung) und zum Onset des zweiten Rauschpulses (Rückwärts-Maskierung), wie in Fig. 4.41 dargestellt. T Fig. 4.41 Stimuluskonfiguration bei der Messung des zeitlichen Fensters. Die beiden Seiten des zeitlichen Fensters (ZF) wurden aus den Daten als Summe von zwei Rounded-Exponential-Funktionen (siehe Kap. „Frequenzselektivität“) modelliert (Fig. 4.42). Das ZF zeigte nahezu keine Abhängigkeit von der Tonfrequenz abgesehen von einer leichten Verbreiterung des Fensters, d.h. einer Verschlechterung der zeitlichen Auflösung bei sehr tiefen Frequenzen. Das ZF verbreiterte sich leicht mit sinkendem Pegel. Die equivalent rectangular duration (ERD) des ZF betrug ca. 8-9 ms. Ein Problem bei diesem Modell ist, dass es von der linearen Addition der Effekte der Vorwärts- und Rückwärts-Maskierung ausgeht (d.h. 3 dB Anstieg). Neuere Studien zeigten, dass dies nicht der Fall ist. Der Effekt der nichtlinearen Additivität kann jedoch durch Vorschaltung einer kompressiven nicht-Linearität modelliert werden, was physiologisch realistischer ist als eine Quadrierung (für Details siehe Oxenham and Moore, 1994). 104 Fig. 4.42 Aus den Ergebnissen zur Vorwärts- und Rückwärtsmaskierung mit NHs abgeleitetes zeitliches Fenster [nach Plack und Moore, 1990]. 4.5.4 Zeitliche Auflösung bei CHGs Zum Einfluss von cochleären Hörschäden auf die zeitliche Auflösung liegen unterschiedliche Ergebnisse vor: manche Studien zeigten eine Verschlechterung und andere nicht. Es zeigte sich, dass diverse Faktoren, die mehr oder weniger mit der zeitlichen Verarbeitung zusammenhängen, die Ergebnisse beeinflussen: 4.5.4.1 Einfluss des Schallpegels Bei NHs zeigt sich eine reduzierte zeitliche Auflösung, wenn bei niedrigen SLs getestet wird. Das Problem bei CHGs ist, dass, bedingt durch den Recruitment-Effekt, nicht bei hohen SLs getestet werden kann. Damit konsistent ist die zeitliche Auflösung von CHGs im Vergleich zu NHs bei Messung mit gleichem SPL reduziert; bei Messung mit gleichen SL (Lückendetektion oder Vorwärtsmaskierung) sind die Unterschiede aber nur gering (siehe nächste Graphik). Fig. 4.43 zeigt die Ergebnisse von Messungen zur Vorwärtsmaskierung (Mittelwerte von 5 unilateralen CHGs), bei denen ein kurzer Sinus-Puls zu mehreren Zeitpunkten vor und nach dem Abschaltzeitpunkt eines Rausch-Maskierers präsentiert wurde. Der Maskiererpegel war fix im geschädigtem Ohr und hatte gleichem SPL oder SL im normalen Ohr. Während bei gleichem SPL die Vorwärtsmaskierung im geschädigten Ohr viel stärker war als im gesunden Ohr, so war sie bei gleichem SL kaum stärker. Der oft in der älteren Literatur berichtete langsamere Abfall der Mithörschwellen bei CHGs ist daher nicht auf reduzierte zeitliche Auflösung per se zurückzuführen, sondern auf den geringeren SL. Bei deterministischen Signalen (ohne stochastische Fluktuationen) und gleichem SL haben CHGs manchmal sogar bessere zeitliche Auflösung als NHs. Allerdings stellt sich im Alltag das Problem, dass aufgrund des Recruitment-Effekts nur bei relativ geringen SLs gehört werden kann. 105 Fig. 4.43 Vorwärtsmaskierungsschwellen für einen Sinuston-Puls als Funktion des Abstandes zum Onset eines Rauschmaskierers bei drei verschiedenen Frequenzen. Ab 200 ms entsprechen die Schwellen der Vorwärtsmaskierung. Kreise: CHGs; Quadrate: NHs bei gleichem SPL; Rauten: NHs bei gleichem SL [aus Moore, 1995]. 4.5.4.2 Einfluss verbreiterter auditorischer Filter Verbreiterung der auditorischen Filter könnte theoretisch sogar ein potentieller Vorteil für die zeitliche Auflösung sein. Da jedoch der Effekt der auditorischen Filter auf die zeitliche Auflösung bei NHs mit Ausnahme von sehr niedrigen Frequenzen sehr gering ist (wie im vorigen Abschnitt gezeigt wurde), ist keine Verbesserung der zeitlichen Auflösung bei CHGs relativ zu NHs zu erwarten. Das einzige Experiment, in dem die auditorischen Filter Einfluss zeigten, ist die Bedingung „Standard“ Phase bei der Lückendetektion mit einem SinusTestsignal. Messungen mit CHGs ergaben, dass die Ergebnisse bei tiefen Frequenzen (monotone psychometrische Funktionen) ca. denen von NHs bei hohen Frequenzen entsprechen (Fig. 4.44). Die naheliegendste Erklärung hierfür ist, dass die Impulsantwort der breiteren Filtern bei tieferen Frequenzen im Falle der CHGs ähnlich der der „normalen“ Filter bei höheren Frequenzen im Falle von NHs ist. In beiden Fällen scheint die Performance durch einen mehr zentral gelegenen zeitlichen Integrationsprozess limitiert zu sein. 106 Fig. 4.44 Psychometrische Funktionen der Lückendetektion für die Bedingung „Standard Phase“ bei tiefen Frequenzen am normalen und geschädigten Ohr eines unilateralen CHGs [aus Moore, 1995]. 4.5.4.3 Einfluss von Veränderung in der kompressiven Nicht-Linearität Bei Signalen mit langsamer zufälliger Amplituden-Fluktuation (z.B. Schmalbandrauschen) ist die zeitliche Auflösung bei CHGs reduziert (wie z.B. bei der Messung der Lückendetektion gezeigt wurde). Daraus ergibt sich die Hypothese, dass die Verschlechterung in Zusammenhang mit dem abnormal steilen Lautheitsanstieg (Recruitment-Effekt) steht. Demnach bewirkt der Recruitment-Effekt eine Verstärkung der Lautheitsfluktuationen, was zur verstärkten Verwechslung mit der zu detektierenden zeitlichen Lücke führt. Diese Hypothese wurde mittels Modifikation der zeitlichen Hüllkurve von Schmalbandrauschen überprüft, entsprechend: EMOD= EORIN, wobei EORI ist die Hüllkurve des Originalsignals, EMOD die des modifizierten Signals und N ist der im Experiment als unabhängige Variable verwendete Exponent. Bei Signalen mit konstantem Pegel (z.B. Sinustöne) ist der modifizierte Pegel (in dB) eine lineare Funktion des Originalpegels; N > 1 resultiert in Vergrösserung der Fluktuation, was der Simulation des Recruitment-Effekts entspricht (stärkerer Effekt bei Erhöhung von N); N < 1 resultiert hingegen in einer Reduktion der Fluktuation, was mit einem Pegel-Kompressor oder einer schnellen AGC (automatic gain control) vergleichbar ist. Der Wert N = 2 simuliert einen typischen Recruitment-Effekt, wobei 50 dB Dynamik-Bereich bei CHGs 100 dB DynamikBereich bei NHs entspricht. Fig. 4.45 zeigt die in einem Lückendetektionsexperiment mit unilateralen CHGs und NHs verwendeten Rauschbänder mit einer Bandbreite von 10 Hz, wobei die drei Bedingungen N=2, 0.5 und 1 dargestellt sind. Im Experiment wurde zusätzlich ein kontinuierliches, breitbandiges Hintergrundrauschen zur Vermeidung der Detektion von spektraler Verbreiterung dargeboten. Bei einem Schallpegel von 85 dB SPL waren die Signale sowohl für die normalen als auch für die geschädigten Ohren deutlich über der Hörschwelle. Fig. 4.46 zeigt die Ergebnisse für die beiden Ohren eines unilateralen CHGs, wobei die des normalen Ohrs identisch sind mit jenen von NHs. Die Lückendetektions-Schwellen steigen 107 signifikant mit abnehmender Bandbreite des Rauschbandes an. Dies ist konsistent mit der Annahme, dass bei langsamer Amplituden-Fluktuation stärkere Verwechslung mit der Lücke auftritt. Die JNDs steigen mit steigendem N für alle Bandbreiten an. Am stärksten ist der Anstieg bei kleinen Bandbreiten, was durch eine statistisch signifikante Interaktion zwischen den Faktoren Bandbreite und N untermauert wird. Dies bestätigt die Hypothese, dass Fluktuationen (vor allem bei tiefen Frequenzen) zu reduzierten JNDs führen. Fig. 4.45 Beispiele der Hüllkurven eines Rauschbandes (10 Hz Bandbreite) für N=1 (keine Modifikation), N=0.5 und N=2. Fig. 4.46 Lückendetektionsschwellen als Funktion von N für die beiden Ohren eines unilateralen CHGs. Der Parameter ist die Bandbreite des Rauchens [aus Moore, 1995]. Die JNDs für das geschädigte Ohr sind allgemein höher (27.2 ms) als für das normale Ohr (12.8 ms). Die Performance des normalen Ohrs bei N = 2 (26.9 ms) ist vergleichbar mit der des geschädigten Ohrs bei N = 1 (26.5 ms). Dies bedeutet, dass die Simulation von Recruitment beim NH den Effekt der erhöhten Lückendetektions- JNDs erfolgreich nachbildet. Bei N < 1 zeigt sich eine leichte Verbesserung der JNDs im normalen Ohr und eine starke Verbesserung Effekt im geschädigten Ohr. Die Performance des geschädigten Ohrs bei N = 0.5 (11.6 ms) ist vergleichbar mit der des normalen Ohrs bei N = 1 (12.5 ms). Dies bedeutet, 108 dass die gestörte Lückendetektion im geschädigten Ohr durch geeignete Kompression der Fluktuationen in der Hüllkurve der Stimuli kompensiert werden kann. Die Reduktion des Effektes von N bei grösseren Bandbreiten kann folgendermassen erklärt werden: schnelle Amplitudenfluktuation wird durch den zentralen zeitlichen Integrator beschränkt, wodurch dessen Einfluss auf die Lückendetektion reduziert wird. Zusammenfassend finden sich bei CHGs keine Hinweise auf Veränderungen in der der cochleären Verarbeitung nachgeschalteten zeitlichen Verarbeitung (dem zeitlichen Fenster bzw. Integrator). Eine Ausnahme in Bezug auf die zeitliche Verarbeitung bilden Patienten einer bestimmten Art von retro-cochleärem (zentralem) Hörschaden, der sogenannten Auditorischen Neuropatie. Diese erst unlängst näher untersuchte auditorische Fehlfunktion führt zu reduzierter Synchronisation der neuronalen Spikes mit dem Stimulus. Für nähere Details hierzu sei z.B. auf Zeng et al. 2001 verwiesen. 4.5.5 Zeitliche Integration Bei NHs ist die absolute Hörschwelle abhängig von der Dauer eines Stimulus. Bis max. 200500 ms nimmt die Schwelle mit zunehmender Dauer ab, während bei Dauern > 200-500 ms keine Abhängigkeit von der Dauer besteht. Das Gehör scheint die Intensität über einen relativ grossen zeitlichen Bereich zu integrieren, was als zeitliche Integration (ZI) bezeichnet wird. Demnach wäre die Schwelle in erster Annäherung durch konstante Energie statt durch konstante Intensität bestimmt entsprechend I x t = konstant wobei I = Intensität an der Schwelle für einen Stimulus von der Dauer t. Eine bessere Anpassung an gemessene Daten ergibt sich aber mit folgendem Ausdruck: (I – IL) x t = IL x τ = konstant wobei IL = Intensität an der Schwelle für einen langen Stimulus und τ = Konstante, die die Integrationszeit des individuellen Gehörs repräsentiert. IL kann als minimale Intensität aufgefasst werden, die ein effektiver Stimulus für das Gehör darstellt (nur Intensitäten > IL werden linear integriert. In dB dargestellte Schwellen als Funktion der Dauer in logDarstellung ergeben eine Gerade mit einem Abfall von -3 dB pro Verdoppelung der Dauer. Bei CHGs ist die ZI meist wesentlich geringer als bei NHs. D.h., die Steigung der Funktion (Geraden) ist geringer. Auch wurde eine Korrelation zwischen der Steigung der Geraden und dem Hörverlust an der CF nachgewiesen. 4.5.5.1 Erklärungsmodelle für reduzierte ZI Im Folgenden werden verschiedene Erklärungsmodelle für die bei CHGs reduzierte ZI beschrieben, die teilweise mittels Experimenten überprüft wurden. 109 4.5.5.1.1 Abhängigkeit vom absoluten Pegel Hypothese: „Höherer Schallpegel an der absoluten Schwelle führt zu reduzierter ZI.“ Zur Überprüfung dieser Hypothese wurden die absoluten Hörschwellen von NHs durch Rauschen künstlich erhöht, d.h. die ZI wurde bei „maskierten“ Schwellen gemessen. Es zeigte sich kaum Reduktion der ZI, weshalb diese Hypothese verworfen werden kann. 4.5.5.1.2 Detektion von spektralen Veränderungen Hypothese: „Die spektrale Verbreiterung beim Onset und Offset wird von NHs nicht detektiert, da diese Cues unter die absolute Hörschwelle fallen. CHGs mit frequenzspezifischem Hörschaden können hingegen spektrale Verbreiterung in einem Frequenzbereich detektieren, in dem die absolute Hörschwelle niedriger ist als bei der Anregungsfrequenz.“ Bei fixer Dauer von Onset und Offset sollte die Energie in der spektralen Verbreitung nicht durch den stationären Signalanteil beeinflusst werden, d.h. der Cue ist unabhängig von der Dauer des Signals. In anderen Worten, die Hypothese besagt dass CHGs wegen der Detektion von spektraler Verbreiterung kurze Signale gleich gut detektieren wie lange Signale, während NHs diesen Detektions-Cue nicht ausnützen können. Auch diese Hypothese wurde nicht bestätigt, da 1) CHGs mit flachem Hörverlust genauso geringe ZI aufweisen wie NHs 2) die Simulation von freqenzspezifischem Hörverlust bei NHs nicht zu reduzierter ZI führte. 4.5.5.1.3 Effekt der kompressiven Nicht-Linearität Hypothese: „Die steilere Eingangs-Ausgangsfunktion der BM und die daraus folgende steilere Spikerate-versus-Pegel Funktion des auditorischen Nerven führt zu reduzierter ZI.“ Diese Hypothese geht von der Annahme aus, dass die Schwelle durch eine fixe Anzahl an evozierten neuronalen Spikes ausgelöst wird. Weiter geht sie davon aus, dass die EingangsAusgangs-Funktionen der für die absolute Schwelle relevanten Neuronen homogen sind. Die untere strichlierte Linie in Fig. 4.47 gibt die Spikerate in Spikes/sec, N1, für einen langen Stimulus an der absoluten Hörschwelle an. Der Hypothese entsprechend erfordert die Reduktion der Dauer des Stimulus mit Faktor X eine Erhöhung des Stimuluspegels, um die Spikerate konstant zu halten. N2 gibt die Spikerate an, die für den kurzen Stimulus durch eine Pegelerhöhung erreicht wird, die zum Erreichen der Schwelle notwendig ist: N2 = N1 x X. Beispielsweise muss bei Halbierung der Dauer die Spikerate verdoppelt werden, um die Schwelle zu erreichen. Der für die Erhöhung der Spikerate benötigte Pegelanstieg ∆L ist bei NHs grösser als bei CHGs, da die Spikerate-vs-Pegel Funktion bei NHs flacher ist als bei CHGs. Dies führt daher bei CHGs zu einem geringeren ZI Effekt. Diese Hypothese wurde noch nicht mittels physiologischer Studien bestätigt, aber sie stellt das momentan am plausibelsten erscheinende Modell dar. Die oben genannte Darstellung stellt eine Vereinfachung dar, da die Spikerate als Reaktion auf einen stationären Stimulus mit fortschreitender Dauer abnimmt (Adaptations-Effekt) [siehe Kap. „Physiologie und Funktion 110 des normalen und geschädigten Gehörs“]; dies bedeutet, dass die Spikerate-vs-Pegel Funktion von der Dauer des Test-Stimulus abhängt. N1: Feuerrate an der Schwelle für langes Signal N2 (N1 x X) : Feuerrate an der Schwelle nach Modifikation der Dauer um Faktor X Fig. 4.47 Schematische Darstellung der Spikerate-vs-Pegel Funktionen einer Neuronengruppe für NHs (links) und CHGs (rechts) [aus Moore, 1995]. 4.5.6 Perzeptive Auswirkungen veränderter zeitlicher Verarbeitung bei CHGs Bei CHGs erscheint der zentrale zeitliche Integrator (zeitliches Fenster bzw. Tiefpassfilter) nicht verändert gegenüber NHs, aber die vorangehende Nicht-Linearität ist weniger kompressiv als bei NHs. Bei Signalen mit zufälliger, langsamer Amplitudenfluktuation (wie im Falle der meisten Alltagssignale, z.B. Sprache) haben CHGs Schwierigkeiten, der zeitlichen Struktur zu folgen, weil der zu detektierende Cue mit der Fluktuation verwechselt wird. Auch ergibt sich bei Personen mit erhöhten Hörschwellen das Problem, dass die zeitliche Auflösung bei niedrigem SL reduziert ist. All diese Faktoren resultieren in Verschlechterungen bei der Sprachverständlichkeit und bei der Diskrimination und Identifikation von Musik und Umweltgeräuschen. 4.5.6.1 Reduzierte zeitliche Integration Bei CHGs ist der Verlust an Sensitivität für pegelschwache Signale weniger stark für kurze Signale ausgeprägt als für längere Signale. 4.6 Literatur zur Psychophysik des normalen und cochleär geschädigten Gehörs Moore, B.C.J. (1995). "Perceptual consequences of cochlear damage" Oxford University Press. Gelfand, S. (1990). “Hearing: An introduction to psychological and physiological acoustics,” Marcel Dekker. 111 5 EXPERIMENTELLES DESIGN IN DER PSYCHOPHYSIK Der Begriff experimentelles Design bezeichnet die Planung für die Zuordnung von Versuchspersonen (VPs) zu experimentellen Bedingungen und die zugehörige statistische Analyse. Experimentelles Design umfasst die folgenden Schritte: • Formulierung einer überprüfbaren statistischen Hypothese, die die wissenschaftliche Hypothese des Experiments beschreibt • Bestimmung der zu testenden experimentellen Bedingungen (die unabhängigen Variablen), der Messvariablen (abhängige Variable) und der Störvariablen, die kontrolliert werden müssen • Spezifikation der Anzahl an VPs und der Population, aus der sie ausgewählt werden (z.B. entsprechend der Ätiologie, d.h. der Krankheitsgeschichte bezüglich des Gehörs bei psychoakustischen Experimenten) • Definition der Methode, mittels der die VPs den verschiedenen experimentellen Bedingungen ausgesetzt werden (zeitliche Anordnung der Bedingungen und MessWiederholungen) • Bestimmung der mit den Daten durchzuführenden statistischen Analyse 5.1 Terminologie abhängige Variable unabhängige Variable Störvariable Faktorstufe interne Validität externe Validität Versuchsleitereffekt Messvariable (bei psychophysikalischen Experimenten: Antwortvariable, z.B. Ton vorhanden od. nicht vorhanden; bei physiologischen Experimenten: z.B. Ergebnis einer elektrischen Messung) vom Experimentator manipulierte Variable, deren Wirkung auf die abhängige Variable entsprechend einer Hypothese überprüft wird (z.B. Frequenz eines Testtons bei Hörschwellenmessung); auch als „Faktor“ bezeichnet (meist bei gleichzeitiger Testung von mehr als einer unabhängigen Variablen); die Anwendung einer unabhängigen Variablen wird im Folgenden auch als „Behandlung“ bezeichnet unerwünschte aber unvermeidliche Quelle der Variation in einem Experiment, die die abhängige Variable beeinflusst; oft auch als Sekundärvariable bezeichnet bestimmte Ausprägung der unabhängigen Variablen Logik oder Plausibilität eines Experiments unter Berücksichtigung des Einflusses von Störvariablen (z.B.: ist die unabhängige Variable wirklich für die Variation der abhängigen Variablen verantwortlich?) Anwendbarkeit und Verallgemeinerbarkeit der Ergebnisse auf die (Gesamt)Population oder andere Populationen bzw. Bedingungen etc Auslösen des im Experiment zu untersuchenden Zustandes durch die experimentelle Situation bzw. durch die Anwesenheit des Versuchsleiters (z.B. wenn Versuchsleiter bei Ja/Nein Experiment die Antwort weiss und die VP den Versuchsleiter sieht, so könnte der Versuchsleiter die richtige Antwort durch seinen Gesichtsausdruck unbewusst verraten) 112 (Gesamt)Population Stichprobe Interaktion → Lösung: Blindversuch Doppel-Blindversuch (weder die VP noch der Versuchsleiter weiss, welcher Bedingung die VP ausgesetzt ist); bei medizinischen Studien häufig auch Blindstudien (VP weiss nicht, welcher Behandlung sie unterzogen wird → Vermeidung des „Plazebo“-Effekts) Grundgesamtheit: alle Untersuchungseinheiten, die prinzipiell untersucht werden könnten (z.B. alle Menschen, die für Hörtests in Frage kommen) nach Zufallsprinzip oder bestimmten Kriterien ausgewählter Teil der Gesamtpopulation Abhängigkeit des Effektes einer Variablen von der(n) Faktorstufe(n) einer anderen Variable 5.2 Selektion der unabhängigen Variablen • • Bei dichotomen oder kategorialen Variablen (nur zwei Alternativen möglich) keine Auswahl der Variablenstufen notwendig Quantitative (metrische) unabhängige Variablen erfordern die Auswahl von adäquaten Variablenstufen; diese sollten breit genug verteilt sein, um den erwarteten Effekt zu erfassen (falls er existiert); auch sollten genug Stufen vorhanden sein, um die Form der Funktion bestimmen zu können, mit der die unabhängigen und die abhängige Variable zusammenhängen. Die Auswahl der Faktorstufen kann auf vorangegangenden Studien, auf Vortests (sogenannten Pilot-Tests) oder auf theoretischen Überlegungen basieren. Die Verwendung von identischen Faktorstufen wie in vorangegangenen Studien erleichtert den Vergleich der Ergebnisse mit der aktuellen Studie. 5.3 Selektion der abhängigen Variablen Meist erfolgt die Auswahl der abhängigen Variable durch theoretische Überlegungen oder durch praktische Aspekte wie Vorwissen und Erfahrung aus anderen Studien. Bei der Selektion der abhängigen Variablen müssen folgende Aspekte berücksichtigt werden: • Sensitivität (reicht die Genauigkeit der angewandten Methode, den erwarteten Effekt messen zu können) • Reliabilität (Reproduzierbarkeit) • Verteilung (Normalverteilung und homogene Varianz aller Populationsverteilungen der getesteten Faktorstufen) • Praktikabilität (Kosten-Nutzen) Der dritte Punkt, die Populationsverteilungen der Faktorstufen, kann natürlich ohne Vorwissen oder Vortests nicht prognostiziert werden. Im schlimmsten Fall bemerkt man erst bei der Analyse der Daten, dass die Verteilung nicht den Anforderungen der Analysemethode entspricht. Allerdings gibt es für solche Fälle die Möglichkeiten, die Verteilung durch Datentransformationen an die Anforderungen anzupassen oder sogenannte nichtparametrische Teststatistiken zu verwenden (erfordern keine Normalverteilung). 5.4 Einfluss von Störvariablen Störvariablen sind unerwünschte aber unvermeidliche Quellen der Variation in einem Experiment, die die abhängige Variable beeinflussen. Beispiele für Störvariablen sind die Veränderung der Kalibrierung einer Messeinrichtung (z.B. Verrutschen des Kopfhörers), 113 kleine Unterschiede bei der Präsentation der Instruktion für verschiedene VPs oder unterschiedliche Trainingsgrade der verschiedenen VPs. Störvariablen können die Ergebnisse in unterschiedlicher Weise beeinflussen: • systematische Verschiebung der Daten in eine bestimmte Richtung, die als Bias bezeichnet wird • Erhöhung der Variabilität in den Ergebnissen und damit der Fehlervarianz • eine Kombination von beidem Störvariablen können daher die Validität der Schlussfolgerungen aus Forschungsergebnissen gefährden. 5.5 Definition eines Experiments Die Durchführung eines Experiments ermöglicht die Überprüfung eines hypothetisierten Zusammenhangs zwischen einer unabhängigen und einer abhängigen Variablen durch Manipulation der unabhängigen Variablen. Experimente unterscheiden sich von anderen Forschungsstrategien (z.B. Datenerhebungen, Beobachtungsstudien etc.), indem sie eine direkte Kontrolle von Störvariablen ermöglichen. Dies geht allerdings auf Kosten der praktischen Aussagekraft der Ergebnisse im realen Leben, da eine experimentelle Situation meist „künstlicher“ ist als die Praxis. Charakteristisch für Experimente ist auch die Manipulation einer oder mehrerer unabhängiger Variablen. Dies ist Vorraussetzung, um Kausalität abzuleiten. 5.5.1 Zusammenfassung der statistischen Schlussfolgerung 5.5.1.1 Hypothesenformulierung • Wissenschaftliche Hypothese: z.B. „Rauchen führt zu erhöhtem Blutdruck“ • statistische Hypothesen (Aussagen über einen oder mehrere Parameter einer Population): H0 (Nullhypothese): µ1-µ2 ≤ 0 (kein Effekt) H1 (Gegenhypothese): µ1-µ2 > 0 (entsprechend der wissenschaftlichen Hypothese) wobei µ1 und µ2 die unbekannten Mittelwerte der Population von Rauchern und Nichtrauchern sind • H0 und H1 müssen gegenseitig exklusiv sein. 5.5.1.2 Signifikanzprüfung • Auswahl einer Teststatistik (z.B. z-Statistik, wenn Standardabweichung bekannt ist; tStatistik, wenn Standardabweichung aus den Daten geschätzt werden muss) • Definition der Stichprobengrösse: je grösser die Stichprobe, desto mehr nähert sich die Stichprobenverteilung einer Normalverteilung (zentraler Grenzwertsatz) • Definition des Signifikanzwertes α = höchste vertretbare Wahrscheinlichkeit, dass die H0 fälschlicherweise verworfen wird. Fig. 5.1 zeigt den Bereich einer Stichprobenverteilung, jenseits dessen die H0 verworfen wird (kritischer Bereich). • Datenerhebung und Berechnung der Teststatistik: • Entscheidungskriterium: Ablehnung der H0, wenn Test-Statistik in die kritische Region fällt (t > tα, n); andernfalls Annnahme der H0. 114 f(t) kritischer Wert t,α,ν -4 -3 -2 -1 0 t akzeptiere H0 1 kritischer Bereich 2 3 4 verwerfe H0 Fig. 5.1 Stichprobenverteilung von t: Fällt der t-Wert in den schraffierten Bereich (entsprechend einem α-Wert von < 0.05), so ist die Wahrscheinlichkeit, dass dies unter Korrektheit der H0 nur zufällig passiert, kleiner od. gleich 5%. Üblicherweise wird eine zweiseitige Fragestellung geprüft. Falls eine einseitige Fragestellung vorliegt, so liegt der Übergangspunkt beim t-Wert entsprechend α. Bei zweiseiter Fragestellung liegt er beim t-Wert entsprechend α/2, da ja die Wahrscheinlichkeit von beiden Seiten addiert werden muss. Einseitige Fragestellungen liegen dann vor, wenn aufgrund von anderen Studien, Vortests oder einer Theorie die Richtung des Effekts bekannt ist. 5.5.1.3 Typ I und Typ II Fehler Die Wahrscheinlichkeit eines Typ I Fehlers entspricht dem vom Experimentator definierten Signifikanzwert α (Wahrscheinlichkeit, dass korrekte H0 verworfen wird); die Wahrscheinlichkeit eines Typ II Fehlers (ß) entspricht der Wahrscheinlichkeit, dass inkorrekte H0 angenommen wird. Die Wahrscheinlichkeit der korrekten Ablehnung einer falschen H0, genannt die Güte eines Tests, entspricht 1-ß. ß hängt von folgenden Faktoren ab: • definierter Signifikanzwert (α) • Stichprobengrösse • Standardabweichung der Population • Grösse der Differenz zwischen den Mittelwerten von µ1 und µ2. Einseitige Fragestellungen haben eine höhere Güte als zweiseitige, wenn die Annahme über die Richtung des Effekts korrekt ist. Falls die Annahme über die Richtung unrichtig ist, so nimmt die Güte des Tests rapide ab. Im Zweifelsfall über die Richtung des Effekts sollte daher eine zweiseitige Fragestellung gewählt werden. Beispiel: 100 Wiederholungen eines Tests bei Signifikanzwert (α) von 0.05 und Güte (1-ß) von 0.2: Ist die Nullhypothese korrekt, so wird sie statistisch gesehen 5 Mal fälschlich verworfen (Typ I Fehler) und 95 Mal korrekt akzeptiert. Ist hingegen die Gegenhypothese korrekt, so wird die H0 80 Mal korrekt verworfen und 20 Mal fälschlicherweise nicht verworfen – ein Typ II Fehler. Bei Reduktion des α-Wertes nimmt gleichzeitig die Güte des Tests ab. Da ein Typ I Fehler dramatischere Auswirkungen hat als ein Typ II Fehler, sollte die Wahrscheinlichkeit für ersteren kleiner gesetzt werden als für letzteren. Ein Typ I Fehler könnte beispielsweise dazu 115 führen, dass ein Medikament fälschlicherweise als wirksam eingestuft wird und damit anstatt herkömmlicher Medikamente eingesetzt wird. In Vortests ist es allerdings oft zweckmässig, α grösser zu setzen, um die Güte des Tests zu erhöhen. Dies verhindert, dass eine inkorrekte H0 fälschlicherweise akzeptiert wird, und damit ein erfolgversprechender Ansatz verworfen wird, nur weil die Stichprobengrösse in Vortest zu klein war. 5.6 Gefahren für valide Schlussfolgerungen Die beiden Hauptziele von Experimenten, a) valide Schlussfolgerungen über die Effekte der unabhängigen Variablen und b) valide Generalisierung auf die Gesamtpopulation und interessierende Bedingungen unterliegen folgenden Gefahren (Liste primär für psychophysikalische Experimente relevant und daher nicht komplett in Hinblick auf beliebige experimentelle Situationen): • Reduktion der Validität der statistischen Schlussfolgerung: durch inadäquate Selektion der statistischen Prozeduren oder zufällige Fehlerquellen verursacht o niedrige Güte eines statistischen Tests (Wahrscheinlichkeit, die Nullhypothese abzulehnen, d.h. die Hypothese zu bestätigen), die folgende Gründe haben kann: • zu geringe Stichprobengrösse • irrelevante Quellen der Variation nicht kontrolliert bzw. isoliert • Verwendung von ineffizienter Teststatistik o Verletzung der fundamentalen Vorraussetzungen eines statistischen Tests (z.B. Normalverteilung der Stichprobe, Homogenität der Varianz aller Populationsverteilungen) o Problem der Fehlerrate bei mehrfacher Wiederholung eines Tests: wenn z.B. das Signifikanzniveau eines Tests 5% beträgt, so erhält man im statistischen Mittel bei jedem 20. Test einen signifikanten Effekt, der nur durch Zufall zustande kommt o Reliabilität der Messung (abhängiger Variable): bei niedriger Reliabilität (Wiederholbarkeit) steigt die Schätzung der Fehlervarianz, wodurch eine nicht korrekte Nullhypothese fälschlicherweise akzeptiert wird o Reliabilität der Umsetzung der unabhängigen Variablen: Folgen siehe vorheriger Punkt o Zufällige Schwankungen in der Testumgebung: führt zu erhöhter Fehlervarianz, wodurch eine nicht korrekte Nullhypothese fälschlicherweise akzeptiert wird o zufällige Heterogenität der Versuchspersonen: Folgen siehe vorheriger Punkt o Demotivation der VP: z.B. durch zu lange Testdauer oder nicht ersichtliche Sinnhaftigkeit der Tests: Folgen siehe vorheriger Punkt; → Lösung: Experiment in Blöcke von kürzerer Dauer aufteilen; engagierte Instruktion der VP mit Erklärung des Experimenten-Zieles • Reduktion der internen Validität: o Veränderung der Versuchspersonen innerhalb der Testdauer: z.B. Trainingseffekt, Ermüdungserscheinung etc. o Testdurchführung: wiederholte Testdurchführung kann zu Effekten der Gewöhnung oder Anpassung führen, die die abhängige Variable beeinflussen: z.B. bei links/rechts-Unterscheidungstest mit Antwort-Feedback (ob Antwort richtig od. nicht richtig) könnte VP am Anfang intuitiv antworten, aber im Laufe des Tests versuchen, die Performance mittels des Feedbacks zu verbessern, auch wenn die Antworten nicht der tatsächlichen Wahrnehmung entsprechen (Erkennung von Klangfarbenunterschieden bei links/rechts Unterscheidungs-Test) 116 Selektion: Unterschiede zwischen mittleren Messwerten für verschiedene Faktorstufen können auf Unterschiede zwischen den den verschiedenen Faktorstufen zugeordneten Personen zurückzuführen sein → kann dadurch vermieden werden, dass jede der VPs mit allen Faktorstufen getestet wird (in der Psychophysik gängig) o Ambiguität über die Richtung des kausalen Einflusses: z.B. bei Korrelationsstudien ist oft nicht klar, ob X Veränderung in Y bewirkt oder vice versa. • Reduktion der externen Validität: o Interaktion zwischen Testdurchführung und Behandlung: Ergebnisse, die unter wiederholter Durchführung eines Experiments gewonnen wurden, können die Performance von untrainierten Personen überschätzen (z.B. könnte Wahrnehmbarkeit von kleinen Frequenzunterschieden bei Cochlea-ImplantatTrägern erst im Laufe der Testdurchführung erlernt werden, insbesondere wenn die VP Feedback über die Korreltheit ihrer Antworten erhält) o Interaktion zwischen Selektion und Behandlung: Konstellation der Faktoren, die zur Auswahl der VPs geführt hat, könnte die Verallgemeinerbarkeit der Ergebnisse auf jene Populationen beschränken, die derselben Konstellation von Faktoren ausgesetzt sind (z.B. wenn nur Freiwillige getestet wurden, treffen die Ergebnisse möglicherweise nur für Freiwillige zu) o Interaktion zwischen Umgebung und Behandlung: Ergebnisse könnten nur unter den Gegebenheiten des Experiments Gültigkeit haben (Problem der „künstlichen“ Situation eines Experiments) • andere Gefahren: o Versuchsleitereffekt: siehe Terminologie o Neigung der VPs: VPs können sich hinsichtlich ihrer Kooperation und Motivation bei der Durchführung eines Experiments unterscheiden o 5.7 Kontrolle von Störvariablen und Minimierung der Gefahr falscher Schlussfolgerungen 5.7.1 Allgemeine Strategien 1) Konstanthalten der Störvariablen für alle VPs (Gefahr, eine Störvariable zu übersehen) 2) zufällige Zuordnung der VPs zu den experimentellen Bedingungen (auch in Verbindung mit Punkt 1) → bekannte oder nicht bekannte Quellen der Variation (Störvariablen) verteilen sich gleichmässig über das gesamte Experiment und betreffen nicht einzelne Faktorstufen → reduzierter Bias auf Kosten erhöhter Variation über die Einzel-Beobachtungen 3) Inkludierung der Störvariable als Faktor (zusätzliche unabhängige Variable) im experimentellen Design (z.B. Aufspaltung der VPs in eine Gruppe mit Erfahrung und eine ohne Erfahrung) 4) statistische Kontrolle der Störvariablen mittels Regressionsmethoden (KovarianzAnalyse) 5.7.2 Spezielle Strategien • Einzel-Blindstudie: VP weiss nicht, welcher Behandlung sie (zu welchem Zeitpunkt) ausgesetzt ist 117 • • Doppel-Blindstudie: weder VP noch Versuchsleiter kennt die Zuordnung von VP zu Behandlung oder Behandlung zu Testzeitpunkt → Vermeidung des Versuchsleitereffekts Irreführung: VP bekommt Instruktion, die die VP von der eigentlichen Intention des Experiments ablenken soll (z.B. um den Effekt der Aufmerksamkeitslenkung auf die Wahrnehmung eines Ereignisses zu untersuchen); darf nur bei Unbedenklichkeit in Bezug auf ethische Aspekte angewandt werden) 5.8 Varianzanalyse (Analysis of Variance, ANOVA) Es existiert eine Vielzahl von varianzanalytischen Designs, die aus den drei grundlegenden Designs konstruiert werden: (1) komplett randomisiertes Design (2) randomisiertes Block-Design (3) Latin Square Design Die Varianzanalyse (ANOVA) dient zum Vergleich der Lage von Zufallsvariablen. Bei der einfaktoriellen ANOVA werden die Gruppen nach einem einzelnen Gesichtspunkt unterteilt, formaler: nach den Werten einer einzelnen Zufallsvariablen; bei zwei klassifizierenden diskreten Variablen von zweifaktorieller ANOVA usw. Die Grundidee der ANOVA ist der Vergleich der Varianz zwischen den Versuchsgruppen (unabhängige Variable) mit der Varianz innerhalb der Versuchsgruppen. Bei Designs mit mehr als einer unabhängigen Variablen wird auch die auf die Interaktion zwischen den verschiedenen unabhängigen Veriablen verursachte Varianz analysiert. 5.8.1 Selektion des adäquaten Designs • • • • • Erlaubt das Design eine valide Schätzung der experimentellen Effekte und der FehlerEffekte? Bringt die Messmethode reliable Ergebnisse? Ist die statistische Güte des Designs gross genug um die statistische Hypothese überprüfen zu können? Weist das Design unter den gegebenen experimentellen Umständen maximale Effizienz auf Ist das Design konform mit den dem Forschungsgebiet zugrunde liegenden Methoden und Praktiken? Bei Gleichheit anderer Aspekte sollte jenes Design ausgewählt werden, das den Vergleich mit anderen Studien ermöglicht. 5.8.2 Einfaktorielles (einfaches) varianzanalytisches Design (ANOVA) Bei der einfachen ANOVA liegt eine unabhängige Variable A in k > 2 Stufen A1, …, Ak vor; dementsprechend werden k Gruppen von VPs geprüft und zwar jede unter einer anderen Versuchsbedingung (unabhängige Stichproben), oder aber jede VP wird unter allen k Bedingungen getestet (abhängige Stichproben) 118 Beispiel Tab. 5.1 zeigt die Sprachverständlichkeitsschwellen im Störgeräusch (in dB SNR) von 5 CHGs, die unter den folgenden drei Bedingungen gemessen wurden: • SπN0: Sprache auf einem Ohr phaseninvertiert und Störgeräusch diotisch • S0Nm: Sprache diotisch und Störgeräusch monaural • S0N0: Sprache und Störgeräusch diotisch (identisches Signal auf beiden Ohren) CHG1 CHG2 CHG3 CHG4 CHG5 SπN0 2,2 4,1 2,8 3,8 1,4 S0Nm 8,3 6,9 10,4 7,5 8,2 S0N0 6,8 4,6 7,4 8,3 8,1 Tab. 5.1. Sprachverständlichkeitsschwellen im Störgeräusch (in dB SNR) von 5 CHGs (siehe Text) Stufen des Faktors A (UV): Beobachtungsvariablen: A1 X1 A2 Xi Stichprobenvariablen: X11 X12 . X1v . X1n1 Xi1 Xi2 Xin2 Xk1 Xk2 . Xkv . Xknk n1 µ+α1 n2 µ+α2 nk µ+α3 Stichprobenumfänge: erwartete Gruppenmittelwerte: wobei i v Xiv µ αi .. Ak Xk Xiv Index der Versuchsbedingung [i = 1, …, k] Index für die VP (Wiederholung) innerhalb der i-ten Versuchsbedingung [v = 1, …, ni] Messwert der i-ten Versuchsbedingung mit der v-ten VP (als Zufallsvariable) allgemeiner Mittelwert Effekt der Faktorstufe (Bedingung) Ai auf den allgemeinen Mittelwert, gemittelt über alle v (VPs) = µi - µ → ist eine Konstante für die 5 Werte in Versuchsbedingung Ai εiv Fehler, der mit Xiv assoziiert ist = Xiv - µ - αi 119 Der Fehler εiv repräsentiert Effekte, die speziell bei VP v auftreten (zufällige, nicht kontrollierte Fluktuationen) Die Frage nach der gleichen Lage bei den verschiedenen Faktorstufen führt auf das Testproblem: H0: µ1 = …= µk H1: Nicht alle µi sind gleich wobei H0 ist die Nullhypothese und H1 ist die Gegenhypothese. Die Modellgleichung der einfachen Varianzanalyse lautet: Xiv = µ + αi + εiv wobei folgende Bedingung gilt: k ∑ niαi = 0 i =1 Das interessierende Testproblem lautet dann H0: α1 = …= αk = 0 H1: Nicht alle αi sind gleich Null Ausgangspunkt für die Konstruktion einer Prüfgrösse ist sind die Differenzen αi = X i . − X .. wobei X i . ist der Mittelwert der Beobachtungen zur Stufe i und X .. ist das Gesamtmittel. Die Gesamtvarianz setzt sich folgendermassen zusammen Gesamte Varianz = Varianz zwischen d. Gruppen + Varianz innerhalb der Gruppen Beim ANOVA Modell wird überprüft, ob die Gruppenmittel (Faktorstufen) stärker um das Gesamtmittel streuen als die Beobachtungen innerhalb der Gruppen um ihre Gruppenmittelwerte: Falls ja, so weist dies auf systematische Unterschiede hin. Unter H0 sollten die beiden Teil hingegen etwa gleich gross sein. Dazu wird die F-Verteilung verwendet (Verhältnis von zwei X2 Verteilungen), wobei im Zähler die mittlere Quadratsumme über die Gruppenmittel steht und im Nenner die mittlere Quadratsumme des zufälligen Fehlers; daher gilt 120 1 k ∑ ni ( X i . − X ..) 2 k − 1 i =1 F= 1 k ni ( X iv − X i. ) 2 ∑∑ N − k i =1 v F ist unter H F-verteilt mit k-1 Freiheitsgraden des Zählers und N-k Freiheitsgraden des Nenners, kurz (k-1, N-k) Freiheitsgraden. Der Ablehnbereich des Tests ist {F > Fk-1; N-k; 1-α} In einfacheren Worten, mittels des F-Tests wird die Varianz über die verschiedenen Gruppen mit der mittleren Varianz innerhalb der Gruppen vergleichen, Die zur Durchführung der Varianzanalyse benötigten Grössen werden in einer Varianzanalysetafel zusammengestellt: Tab.: 5.2. Tafel der Varianzanalyse Streuungsursache Faktor A Freiheitsgrade (df) Quadratsumme (SS) Mittlere Quadratsumme (MS) k SS ( A) = ∑ ni ( X i . − X ..) 2 k-1 MS(A) = SS(A)/(k-1) i =1 zufälliger Fehler k ni SS ( E ) = ∑∑ ( X iv − X i .) 2 N-k MS(E) = SS(E)/(N-k) i =1 v =1 k Gesamt ni SS (G ) = ∑∑ ( X iv − X ..) 2 N-1 i =1 v =1 Dabei gilt auch die Beziehung SS(G) = SS(A)+SS(E) Auf das einführende Beispiel zurückkommend werden die Effekte der Versuchsbedingung folgendermassen berechnet: CI 1 CI 2 CI 3 CI 4 CI 5 Kolumnensumme Kolumnenmittel Kolumneneffekt (Effekt der Versuchsbedingung) α1 = Sπ πN0 2,2 4,1 2,8 3,8 1,4 S0Nm 8,3 6,9 10,4 7,5 8,2 S0N0 6,8 4,6 7,4 8,3 8,1 ΣX1. = 14,3 ΣX2. = 41,3 ΣX3. = 35,2 X 1. = 2,9 X 2 . = 8,3 X 3 . = 7,0 X 1. - X .. = -3,2 α2 = X 2 . - X .. = 2,2 α3 = ΣX..= 6,1 X 3 . - X .. = 1,0 121 • • die mittlere SNR beträgt 6.1 dB die Scores für die Testbedingung A sind um -3.2 dB niedrigerer als für die durchschnittliche Messung • die Scores für die Testbedingung C sind um 1 dB höher als für die durchschnittliche Messung Daraus können die Quadratsummen der Effekt der Versuchsbedingungen, SS(A) und des zufälligen Fehlers, SS(E) berechnet werden SS(A): bei gleicher Anzahl von v pro Faktorstufe: iΣαi^2 5(-3.2^2 + 2.2^2 + 1.0^2) = 80,2 SS(E): (2.2-2,9)^2 + (4.1-2,9)^2 + (2.8-2,9)^2 + (3.8-2,9)^2 + (1.4-2,9)^2 + (8.3-8,3)^2 + (6.9-8,3)^2 + (10.4-8,3)^2 + (7.5-8,3)^2 + (8.2-8,3)^2 + + (6.8-7,0)^2 + (4.6-7,0)^2 + (7.4-7,0)^2 + (8.3-7,0)^2 + (8.1-7,0)^2 = 20,9 SS(G) = 80,2 + 20,9 = 101,1 Wir setzen daher unser Beispiel fort: Streuungsursache Freiheitsgrade Quadratsumme Mittlere Quadratsumme Signalbedingung 2 80,2 40.1 zufälliger Fehler 12 20,9 1.7 Gesamt 14 101.1 Damit ist der Wert der Prüfgrösse F = 40.1/1.7 = 23.5 Der Wert von F[0.99; 2, 12] = 6.9 Da 23.5 > 6.9, ist der Unterschied zwischen den Versuchsbedingungen signifikant. Für den multiplen Vergleich zwischen den einzelnen Gruppen, d.h. der Analyse, welche Kombinationen von Versuchsbedingungen signifikante Unterschiede in den Mittelwerten ausweisen, kann der t-Test verwendet werden. Für Details wird auf die entsprechenden Statistikhandbücher verwiesen (z.B. R.E. Kirk: „Experimental Design“, 1995). Grundsätzlich gelten folgende Vorraussetzungen für die ANOVA • Intervallskaleneigenschaft • Homogenität der Varianzen (über die Faktorstufen) • Normalverteilung (innerhalb der Faktorstufen) 122 Damit bei ungleichen Varianzen innerhalb der einzelnen Versuchsbedingungen die Aussagekraft des F-Tests nicht verletzt wird, können varianzstabilisierende Transformationen vorgenommen werden. Die Auswahl dieser Transformationen erfolgt mittels graphischem Vergleich. Untersuchungen haben gezeigt, dass der F-Test nicht sensitiv gegenüber Verletzung der Normalverteilungs-Vorraussetzung ist. Allerdings nimmt die Güte des Tests bei Abweichung von der Normalverteilung ab. Es gibt aber Verfahren, die in solchen Fällen angewandt werden können (z.B. der Kruskal-Wallis Test). 5.8.3 Zweifaktorielles (einfaches) varianzanalytisches Design (ANOVA) Modellgleichung : Xijv = µ + αi + ßj + (αß)ij + εiv wobei i Index der Versuchsbedingung für Faktor A [i = 1, …, k] j Index der Versuchsbedingung für Faktor B [j = 1, …, l] v Index für die VP (Wiederholung) innerhalb der Kombination aus i-ter und j-ter Versuchsbedingung [v = 1, …, ni] Xijv Messwert für Versuchsbedingungskombination AiBj für die v-ten VP (als Zufallsvariable) µ allgemeiner Mittelwert αi Effekt der Faktorstufe (Bedingung) Ai auf den allgemeinen Mittelwert, gemittelt über alle v (VPs) = µi. - µ → ist eine Konstante für die Werte der Versuchsbedingung Ai ßj Effekt der Faktorstufe (Bedingung) Bi auf den allgemeinen Mittelwert, gemittelt über alle v (VPs) = µ.j - µ → ist eine Konstante für die Werte der Versuchsbedingung Bi (αß)ij εijv Interaktionseffekt für Versuchsbedingungen Ai und Bj; entspricht µij - µi. - µ.j + µ Fehler, der mit Xijv assoziiert ist; entspricht Xijv - µ - αi - ßj - (αß)ij 5.9 Literatur zum Thema experimentelles Design Kirk, R. E. (1995). “Experimental Design: Procedures for the behavioral sciences,” ITP. 123