Psychoakustik II

Werbung
Skriptum zur Vorlesung
Psychoakustik II
Schwerpunkt: Experimentelle Audiologie
verfasst von
Bernhard Laback
für den Inhalt verantwortlich:
Bernhard Laback
Institut für Schallfoschung, Österreichische Akademie der Wissenschaften
Reichsratsstrasse 17
1010 Wien
3. Auflage (Februar 2006)
1
Inhaltsverzeichnis
1
1. Psychophysik.................................................................................................................. 7
1.1
Definition von Mess-Skalen....................................................................................... 7
1.1.1
Nominalskala...................................................................................................... 8
1.1.2
Ordinalskala........................................................................................................ 8
1.1.3
Intervallskala ...................................................................................................... 8
1.1.4
Verhältnisskala ................................................................................................... 9
1.2
Grundlegende Gesetze der Psychophysik................................................................... 9
1.2.1
Webersches Gesetz............................................................................................. 9
1.2.2
Fechnersches Gesetz......................................................................................... 10
1.2.3
Potenzgesetz nach Stevens (Power Law) ......................................................... 11
1.3
Psychophysische Messmethoden.............................................................................. 14
1.3.1
Definitionen...................................................................................................... 14
1.3.2
Direct Scaling (Skalierung) .............................................................................. 14
1.3.3
Method of Limits (Grenzwert-Methode).......................................................... 16
1.3.4
Method of Adjustment (Anpassungsmethode)................................................. 17
1.3.5
Method of Constant Stimuli (Methode der konstanten Stimuli) ...................... 17
1.3.6
Adaptive Methoden .......................................................................................... 20
2 Signal Detection Theory (SDT)........................................................................................ 26
2.1
Weitere Anwendungen der Signal Detection Theory............................................... 27
2.2
Statistische Entscheidungen ..................................................................................... 28
2.3
Begriffe und Symbole............................................................................................... 29
2.4
Das Entscheidungskriterium (ß) ............................................................................... 30
2.4.1
Maximierung der Anzahl an richtigen Antworten............................................ 31
2.5
Zusammenhang mit der Psychophysik ..................................................................... 32
2.6
Nicht-parametrische Messungen der Sensitivität ..................................................... 32
2.6.1
Yes-No Method (Ja/Nein Methode) ................................................................. 32
2.6.2
Rating Scale Task (Bewertungs-Skalen Aufgabe) ........................................... 35
2.6.3
Forced-Choice Methode ................................................................................... 35
2.7
Normalverteilung von Signal und Rauschen............................................................ 38
2.7.1
Yes-No-Task .................................................................................................... 38
2.7.2
Force Choice Tasks .......................................................................................... 41
2.8
Zusammenfassung .................................................................................................... 43
2.9
Appendix .................................................................................................................. 44
2.10 Literatur zur Psychophysik und Signaldetektionstheorie ......................................... 44
3 Physiologie und Funktion des normalen und geschädigten Gehörs ................................. 45
3.1
Aussenohr................................................................................................................. 45
3.1.1
Funktion ........................................................................................................... 45
3.2
Mittelohr................................................................................................................... 46
3.2.1
Physiologie ....................................................................................................... 46
3.2.2
Funktion ........................................................................................................... 47
2
3.3
Mittelohr-Reflex....................................................................................................... 47
3.3.1
Funktionsprüfung des Mittelohres.................................................................... 47
3.3.2
Schallleitungs-Schwerhörigkeit........................................................................ 48
3.4
Innenohr und Gehörschnecke (Cochlea) .................................................................. 48
3.4.1
Lage .................................................................................................................. 48
3.4.2
Aufbau:............................................................................................................. 48
3.4.3
Basilarmembran-Schwingung .......................................................................... 49
3.4.4
Wanderwelle..................................................................................................... 49
3.4.5
Frequenzauflösung der BM .............................................................................. 50
3.4.6
Abstimmkurve (Tuning Kurve)........................................................................ 50
3.4.7
Mikromechanik der Cochlea (Cortisches Organ)............................................. 50
3.4.8
Aktivität der äusseren Haarzellen..................................................................... 51
3.4.9
Tuning Curven bei sensorineuraler Schwerhörigkeit ....................................... 52
3.4.10 Komplexe Eingangssignale .............................................................................. 52
3.4.11 Zwei-Ton-Suppression ..................................................................................... 52
3.4.12 Kombinationstöne ............................................................................................ 53
3.4.13 Neuronale Antworten im gesunden Gehör ....................................................... 53
3.4.14 Neuronale Abstimm(Tuning)-Kurve ................................................................ 53
3.4.15 Rate versus Pegel Funktion .............................................................................. 54
3.4.16 Zwei Komponenten der Feuerungsraten- versus Eingangspegel-Funktion...... 54
3.4.17 Phase-Locking .................................................................................................. 55
3.4.18 Physiologischer Mechanismus ......................................................................... 55
3.4.19 Interspike-Interval-Histogramm ....................................................................... 56
3.4.20 Kodierung des akustischen Dynamikbereichs (von ca. 120 dB) ...................... 56
3.4.21 Neuronale Zwei-Ton-Suppression.................................................................... 58
3.4.22 Physiologie und Funktionalität der geschädigten Cochlea............................... 59
3.4.23 Effekte sensorineuraler Schwerhörigkeit ......................................................... 60
4 Psychoakustik des normalen und cochleär geschädigten Gehörs..................................... 62
4.1
Absolute Hörschwelle .............................................................................................. 62
4.2
Frequenzselektivität.................................................................................................. 65
4.2.1
Power Spectrum Model .................................................................................... 65
4.2.2
Messung der auditorischen Filter ..................................................................... 67
4.2.3
Abhängigkeit von der Mittenfrequenz.............................................................. 71
4.2.4
Abhängigkeit vom Pegel .................................................................................. 72
4.2.5
Maskierungspattern .......................................................................................... 72
4.2.6
Konstruktion eines Excitation Patterns ............................................................ 73
4.2.7
Nicht-simultane (= zeitliche) Maskierung........................................................ 74
4.2.8
Frequenzselektivität bei CHGs (simultane Maskierung) ................................. 77
4.2.9
Perzeptive Konsequenzen reduzierter Frequenzselektivität............................. 79
4.3
Tonhöhenwahrnehmung und Frequenzdiskrimination (FD) .................................... 80
4.3.1
Modelle der Tonhöhenwahrnehmung............................................................... 81
4.3.2
Tonhöhenwahrnehmung von Sinustönen ......................................................... 81
3
4.3.3
4.3.4
4.3.5
4.3.6
4.3.7
4.3.8
4.3.9
4.3.10
Wahrnehmung musikalischer Intervalle........................................................... 82
Tonhöhenwahrnehmung von komplexen Tönen.............................................. 82
Diskrimination der Tonhöhe komplexer Töne ................................................. 83
Analyse komplexer Klänge in der auditorischen Peripherie (Cochlea)............ 83
Theorien der Tonhöhenwahrnehmung für komplexe Töne.............................. 84
Frequenzdiskrimination (FD) für Sinustöne bei CHGs.................................... 85
FMDLs bei cochleär Hörgeschädigten ............................................................. 86
Tönhöhenwahrnehmung von Sinustönen mit fehlenden Haarzellen bei der CF..
.......................................................................................................................... 86
4.3.11 Tonhöhenanomalien in der Wahrnehmung von Sinustönen ............................ 87
4.3.12 Frequenzdiskrimination (FD) für komplexe Töne bei CHGs .......................... 87
4.3.13 Perzeptive Konsequenzen veränderter Frequenzdiskrimination ...................... 88
4.4
Lautheitswahrnehmung und Intensitätsauflösung .................................................... 89
4.4.1
Isophon-Kurven................................................................................................ 89
4.4.2
Lautheitsskalierung........................................................................................... 90
4.4.3
Intensitätsauflösung.......................................................................................... 90
4.4.4
Lautheitsanstieg und Dynamikbereich bei CHGs ............................................ 91
4.4.5
Lautheitsmodell ................................................................................................ 92
4.4.6
Zum Recruitment-Phänomen führende Mechanismen..................................... 93
4.4.7
Intensitätsauflösung bei CHGs ......................................................................... 97
4.4.8
Perzeptive Folgen veränderter Lautheitswahrnehmung bei CHGs Recruitment..
.......................................................................................................................... 99
4.5
Zeitliche Auflösung und zeitliche Integration bei CHGs ....................................... 100
4.5.1
Modell der zeitlichen Verarbeitung................................................................ 100
4.5.2
Effekt der auditorischen Filter........................................................................ 101
4.5.3
Charakteristik der nicht-linearen Stufe und des zeitlichen Integrators........... 104
4.5.4
Zeitliche Auflösung bei CHGs ....................................................................... 105
4.5.5
Zeitliche Integration ....................................................................................... 109
4.5.6
Perzeptive Auswirkungen veränderter zeitlicher Verarbeitung bei CHGs..... 111
4.6
Literatur zur Psychophysik des normalen und cochleär geschädigten Gehörs....... 111
5 Experimentelles Design in der Psychophysik ................................................................ 112
5.1
Terminologie .......................................................................................................... 112
5.2
Selektion der unabhängigen Variablen................................................................... 113
5.3
Selektion der abhängigen Variablen....................................................................... 113
5.4
Einfluss von Störvariablen ..................................................................................... 113
5.5
Definition eines Experiments ................................................................................. 114
5.5.1
Zusammenfassung der statistischen Schlussfolgerung................................... 114
5.6
Gefahren für valide Schlussfolgerungen ................................................................ 116
5.7
Kontrolle von Störvariablen und Minimierung der Gefahr falscher
Schlussfolgerungen ............................................................................................................ 117
5.7.1
Allgemeine Strategien .................................................................................... 117
5.7.2
Spezielle Strategien ........................................................................................ 117
4
5.8
Varianzanalyse (Analysis of Variance, ANOVA).................................................. 118
5.8.1
Selektion des adäquaten Designs ................................................................... 118
5.8.2
Einfaktorielles (einfaches) varianzanalytisches Design (ANOVA) ............... 118
5.8.3
Zweifaktorielles (einfaches) varianzanalytisches Design (ANOVA)............. 123
5.9
Literatur zum Thema experimentelles Design ....................................................... 123
5
Experimentelle Audiologie
Der allgemeine Begriff „Audiologie“ bezeichnet alle Aspekte der wissenschaftlichen
Auseinandersetzung mit dem Gehör und Hörschäden. Die "klinische Audiologie" beschäftigt
sich primär mit klinischen Messmethoden zur Diagnose von Hörschäden (Lokalisation des
Schadens) und zur Bestimmung von deren Ausprägung.
Die "Experimentelle Audiologie" befasst sich mehr mit den grundlegenden Aspekten von
Hörschäden, also den zugrundeliegenden psychoakustischen Phänomenen. Man könnte sie
daher auch als Psychoakustik von Hörschäden bezeichnen. Obwohl in der experimentellen
Audiologie und Psychoakustik das Gehör als Black-Box bzw. als phänomenologisches Modell
betrachtet wird, können aus experimentellen Ergebnissen Rückschlüsse auf die
zugrundeliegenden physiologischen Vorgänge gezogen werden.
Experimentelle Audiologie ist ein interdisziplinäres Forschungsgebiet, in das
Ergebnisse aus den Bereichen Akustik, Physiologie, Psychologie, Signalverarbeitung,
Neurowissenschaften, kognitive Musikwissenschaft und Sprachwissenschaft (v.a. Phonetik)
einfließen.
Im vorliegenden Skriptum werden die Schwerpunkte auf a) perzeptive Folgen von
Innenohrschäden und b) experimentelle Methodik in der Psychophysik gesetzt.
6
1 1. PSYCHOPHYSIK
Die Psychophysik ist jenes Teilgebiet der experimentellen Psychologie, das Zusammenhänge
und Gesetzmässigkeiten zwischen physikalischen Reizen (Signalen) einerseits und den durch
diese ausgelösten sensorischen Wahrnehmungen und Urteilen andererseits herstellt. Der auf
die Wahrnehmung von akustischen Reizen beschränkte Teil der Psychophysik ist die
Psychoakustik.
Da man die sensorische Wahrnehmung nicht direkt messen kann (wie zum Beispiel die
Körpertemperatur), ist man auf die Angabe von Antworten der Versuchsperson (VP)
angewiesen. Daher kommt in der Psychophysik dem Design der experimentellen Situation
besondere Bedeutung zu. Die primären Ziele sind, a) valide und b) wiederholbare Antworten
zu bekommen.
Es ist meist nicht zielführend, die VP zu fragen: "Was haben sie gehört?". Statt dessen
sollten sowohl Stimulus als auch Antwort klar definiert sein, und ein bestimmter Aspekt des
Stimulus modifiziert werden. Erst dadurch bekommt der Versuchsleiter ein eindeutiges Bild
von der Wahrnehmung der VP.
Beispliele:
a) Variation des Pegels eines Signals und Befragung der Person, in welchen
Versuchsintervallen sie ein Signal gehört hat.
b) Präsentation von 2 Tönen, wobei einer in der Frequenz variiert wird. Die VP gibt an, ob der
jeweils variierte Ton höher oder tiefer war.
Im ersten Fall wird der kleinste Pegel, bei dem der Ton gerade noch gehört wird, und im
zweiten Fall der minimale Frequenzabstand, der gerade noch wahrgenommen wird, ermittelt.
Allerdings spielen auch in einer solchen Situation nicht nur rein sensorische Aspekte
(Sensitivität) eine Rolle, sondern auch Einflussfaktoren wie z.B. der Kontext (vorangegangene
Stimuli) oder das subjektive Anwortkriterium der VP (Antwort-Tendenz). Auf den Einfluss
des Antwortkriteriums wird im Kap. Signal Detection Theory näher eingegangen.
1.1 Definition von Mess-Skalen
Mess-Skalen unterscheiden sich hinsichtlich der folgenden Eigenschaften:
• Differenz: Unterschied in bestimmter/n Eigenschaft/en
• Grösse: relative Grösse einzelner Elemente
• gleiche Intervalle: Differenzen zwischen benachbarten Elementen gleich gross
• „echter“ Nullpunkt: bedeutet Absenz einer Eigenschaft (z.B. 0,- Euro)
Die folgende Klassifizierung der psychophysikalischen Mess-Skalen basierend auf Stevens
(1975).
7
1.1.1 Nominalskala
Beobachtungen werden in unterschiedliche Gruppen eingeteilt, die keine Ordnung oder
Hierarchie haben, d. h. sie unterscheiden sich nur hinsichtlich eines Parameters. Die Anzahl
der Fälle in den einzelnen Kategorien kann gemessen werden,
Differenz
x
Grösse
gleiche
Intervalle
echter
Nullpunkt
Beispiel: Das Geschlecht von Versuchspersonen (VPn).
1.1.2 Ordinalskala
Beobachtungen können in eine Rangfolge gebracht werden. Keine Information über den
Abstand zwischen einelnen Kategorien hinsichtlich des sie unterscheidenden Parameters.
Ermöglicht die Bestimmung des Medianwertes, d.h. des Wertes, der von derselben Anzahl an
kleineren und grösseren Fällen umgeben ist.
Beispiel: Die Präferenz von Versuchspersonen für verschiedene Gemälde
Differenz
x
Grösse
x
gleiche
Intervalle
echter
Nullpunkt
1.1.3 Intervallskala
Entspricht einer Ordinalskala mit gleichen Abständen zwischen den einzelnen Kategorien
oder Beobachtungen, d.h. die Beobachtungen können Kategorien mit gleichen relativen
Abständen zugeordnet werden.
Erlaubt die Anwendung der meisten Rechenverfahren, um die Charakteristik der Verteilung
(z. B. Mittelwert) zu berechnen.
Beispiel: Kalendertag
Differenz
x
Grösse
x
gleiche
Intervalle
x
echter
Nullpunkt
8
1.1.4 Verhältnisskala
Entspricht einer Intervallskala mit einem definierten Nullpunkt. Erlaubt die Angabe der
gemessenen Werte als Verhältniswert und damit in der Dezibelskala. Alle mathematischen
Verfahren zur Berechnung der Verteilung, wie z.B. das geometrische Mittel, können
angewandt werden. Da diese Skala am restriktivsten ist, gibt sie die meiste Information über
die Daten und hat daher das höchste Skalenniveau.
Beispiel: Länge, Zeitintervall, Lautheit in Son und Tonhöhe Mel.
Differenz
x
Grösse
x
gleiche
Intervalle
x
echter
Nullpunkt
x
1.2 Grundlegende Gesetze der Psychophysik
1.2.1 Webersches Gesetz
„Die relative Unterschiedschwelle ist konstant.“ (Weber, 1864). D.h., die relative Änderung
K, die man an einem Reiz vornehmen muss, damit gerade noch ein Unterschied
wahrgenommen wird (= JND, Just noticeable difference), ist konstant.
K=
∆S S 1 − S 0
=
S0
S0
S0
Referenzreiz
S1
gerade vom Referenzreiz unterscheidbarer Reiz
∆S = S1 – S0 der eben merkliche Unterschied (JND)
In anderen Worten: Die JND ist proportional zur Reizgrösse.
∆S = KS 0
Die Webersche Konstante K ist ist abhängig vom Sinnesgebiet und dem spezifischen
Parameter, z.B.
Helligkeitsbeurteilung:
K= 1/100
Geschmacksempfindung: K = 1/5
9
Lautstärkewahrnehmung:
Tonhöhe (S0 = 1000 Hz)
K = 1/28
K = 1/333 (Mittel über verschiedene absolute Tonhöhen)
Es besteht auch noch eine Abhängigkeit von der Wahrscheinlichkeit (Sicherheit) Π, mit der
VPn den Unterschied wahrnehmen (siehe Definition der „psychometrischen Funktion“, Kap.
„Method of Constant Stimuli“). Daher sollte K(Π) anstatt K angegeben werden.
K (Π ) =
∆S S 1 − S 0
=
S0
S0
1.2.2 Fechnersches Gesetz
Ausgehend vom Weberschen Gesetz, in dem nur die objektiven Reizgrössen S0 und S1
vorkommen, stellte Fechner einen Zusammenhang zwischen der objektiven Dimension S und
der subjektiven Dimension R her, R = f (S).
Das Gesetz wurde aufgrund folgender theoretischer Überlegung aufgestellt: „Eben
merkliche Unterschiede sind gleich gross“.
Damit kann eine psychophysische Funktion aus einer Reihe von gerade wahrnehmbaren
Unterschieden (JNDs) konstruiert werden.
Annahme: K = 0.5
physikalisch
S1 = 1 ...........................................
S2 = S1 + 0.5 ⋅ S1 = 1.5 ..............
S3 = S2 + 0.5 ⋅ S2 = 2.25 ........
S4 = S3 + 0.5 ⋅ S3 = 3.375 ........
S5 = S4 + 0.5 ⋅ S4 = 5.063 ........
S6 = S5 + 0.5 ⋅ S5 = 7.593 ........
subjektiv
R1 = 1
R2 = 2
R3 = 3
R3 = 4
R5 = 5
R6 = 6
Die resultierende psychometrische Funktion ist in Abb. 1.1. dargestellt.
allgemein
S1 .................................................
S2 = S1 (1 + K) = S1 (1 + K) ........
S3 = S2 (1 + K) = S1 (1 + K)2 ........
S4 = S3 (1 + K) = S1 (1 + K)3 ........
…
…
Sm = Sm-1 (1 + K) = S1 (1 + K)m-1 ...
R1 = 1
R2 = 2
R3 = 3
R4 = 4
Rm = M
m = Index der Reizstärke
10
M = Empfindungsstärke
Reizstärke S nimmt geometrisch zu, während Empfindungsstärke R arithmetisch wächst.
nicht-linearer (logarithmischer) Zusammenhang zwischen Reiz und Wahrnehmungsstärke
gleiche Verhältnisse der Reizstärke S entsprechen gleichen Differenzen in der
Empfindungsstärke R
→
→
→
Psychophysische Funktion: K = 0.5
6
5.5
Empfindungsstärke R
5
4.5
4
3.5
3
2.5
2
1.5
1
1
2
3
4
5
6
7
8
Reizgrösse S
Abb. 1.1. Entsprechend dem Ansatz von Fechner aufgebaute psychometrische Funktion.
Durch Kombination mit dem Weberschen Gesetz resultiert das Fechnersche Gesetz:
R = f (S) = c’ ln(S) + a’
c’
a’
beliebige Masstabskostante (entspricht verschiedenen Basen des Logarithmus)
Integrationskonstante’
Anwendung des Fechnerschen Gesetztes : Lautstärke-Skala (in dB)
1.2.3 Potenzgesetz nach Stevens (Power Law)
Stevens (1957) kritisierte, dass der Ansatz von Fechner „indirekt“ ist, da er den gerade
wahrnehmbaren Unterschied (JND) als die Basis-Einheit der Wahrnehmung betrachtet. Von
Stevens (1957) mittels der „Methode der Grössenschätzung“ (VP vergibt für jede Reizgrösse
eine Zahl) empirisch gefundene Grössenschätzwerte widersprechen dem Fechnerschen
Gesetz.
Bessere Erklärung der experimentellen Daten mittels Potenzgesetz (Power Law)
R = c (S – S0)α
S0 Schwellenwert, S > S0
11
c Konstante
α Konstante
→ gleiche Verhältnisse der Reizstärke S entsprechen gleichen Verhältnissen der
Empfindungsstärke R.
→ In log-log Darstellung ergibt das Stevensche Gesetz eine Gerade mit der Steigung des
Exponenten α.
Folgende Argumente sprechen für das Stevensche Potenzgesetz:
• Mittelungsaufgaben: VP soll im Herstellungsverfahren das subjektive Mittel zweier
gegebener Reizstärken bestimmen:
a) unter dem Fechnerschen Gesetz gilt:
R3 =
R1 + R2 (c lnS1 + a) + (c lnS2 + a)
=
= c ln S1S2 + a
2
2
S3
der subjektiv mittlere Reiz müsste daher dem geometrischen Mittel der beiden
physikalischen Reizstärken entsprechen.
→ Experimente zeigten, dass der subjektiv mittlere Reiz grösser als das geometrische
Mittel ist
b) gilt jedoch das Potenzgesetz, so folgt:
α
R1 = cS1 ;
R2 = cS 2
α
R1 + R2
α
= cS 3
2
durch Einsetzen entsprechend dem Potenzgesetz erhält man
α
α
cS1 + cS 2
α
= cS 3
2
α
α
S1 + S 2
α
S3 =
2
S3 = α
α
S1 + S 2
2
α
12
→ dies ist bei geeigneter Wahl von α grösser als
S1 S 2 (Vorhersage nach Fechner).
Dies spricht gegen die Gültigkeit des Fechner’schen Gesetzes.
Beispiel: S1 = 2; S2 = 4; α = 1
½ (2 + 4) = 3 (Stevens) > (2 ⋅ 4)1/2 = 2.83 (Fechner)
•
Cross Modality Matching: VPs passen Stimuli einer Modalität S (z.B. akustisch) an
Stimuli einer anderen Modalität T (z.B. Helligkeit) hinsichtlich der subjektiven Intensität
an.
Modalität 1: psychophysische Funktion: f1 ( S ) = c1 S α
Modalität 2: psychophysische Funktion: f 2 (T ) = c 2T β
wenn T und S subjektiv gleich erscheinen, gilt:
f1 (T ) = f 2 (T )
Einsetzen der psychophysischen Funktion ergibt:
c1 S α = c 2T β
Sα =
c2 β
T
c1
S =(
c2 α α
) T
c1
1
β
→ daher müsste S als Potenzfunktion von T darstellbar sein (und vice versa):
durch Logarithmieren erhält man wieder eine lineare Beziehung:
ln S =
β
ln T + c
α
Sind α und ß vorgegeben, kann der Anstieg der Geraden vorhergesagt werden.
13
ln (T)
ln (S)
→ Empirische Untersuchungen bestätigten recht gut die vorhergesagte Beziehung und
bestätigen daher die Validität des Potenzgesetzes
1.3 Psychophysische Messmethoden
1.3.1 Definitionen
Die in diesem Skriptum verwendeten und im folgenden aufgelisteten Begriffe werden zum
Teil nicht aus dem Englischen übersetzt, wenn keine geeigneten Begriffe im Deutschen zur
Vergügung stehen
Stimulus (Reiz)
dargebotener Versuchsreiz (akustisch, visuell, taktil …)
Reizstärke
Ausprägung eines definierten Parameters eines Stimulus;
entspricht im Falle absoluter Werte dem Parameter (z.B.
Schallintensität), und im Falle von differentiellen Schwellen der
Differenz des Parameters vom Referenzstimulus (z.B.
Frequenzunterschied)
Trial
kleinste Einheit in einem Experiment, bestehend aus Einblendung
eines Warnsignals + Stimulusdarbietung in x Intervallen +
Antwort der VP
abhängige Variable
Testvariable
unabhäng. Variable
Variable, deren Effekt auf die abhängige Variable getestet wird
Bias
Antworttendenz einer Versuchsperson
1.3.2 Direct Scaling (Skalierung)
Bei den folgenden Verfahren der "Direkten Skalierung" stellt die Person einen direkten
Zusammenhang zwischen einem physischen Kontinuum und einem perzeptiven Kontinuum.
1.3.2.1 Verhältnisschätzung und -Herstellung
1.3.2.1.1 Schätzung
Die VP gibt das Verhältnis der Grösse zwischen zwei Stimuli in Bezug auf einen definierten
Parameter an. Die subjektiven Werte werden als Funktion der physikalischen Grösse skaliert.
14
z. B. VP gibt an, dass der zweite von zwei 1000 Hz Tönen ½, 2 oder 4 mal so laut war wie der
erste.
1.3.2.1.2 Herstellung (Fraktionalisierung)
Die VP stellt einen variablen Parameter eines Stimulus so ein, sodass die Grösse dieses
Parameters in einem vorgegebenen Verhältnis zu einem Vergleichsstimulus steht (z. B.
Halbierung od. Verdoppelung der Lautstärke).
Mittels dieser Methode wurde die Lautheitsskala (in Son) und die Tonhöhenskala (in Mel)
gemessen.
1.3.2.2 Grössenschätzung und -Herstellung
1.3.2.2.1 Schätzung
1. Mit Referenzstimulus
Darbietung eines Referenz(Standard)-Stimulus mit vorgegebener Grössenangabe (z. B. 10)
und eines Vergleichsstimulus mit unterschiedlicher Grösse. Die VP gibt eine Zahl für den
Vergleichsstimulus an, die in einem Verhältnis zur Grösse des Referenzstimulus steht. Z. B.
die Zahl 1 für einen Stimulus, der zehnmal so leise ist wie der Vergleichston mit der Grösse
10.
Abb. 1.2 Grössenschätzung der Lautheit mit Referenzstimulus (Kreise) und ohne
Referenzstimlus (x). [aus Gelfand (1990); Daten aus Stevens (1956)].
2. Ohne Referenzstimulus
VP vergibt Zahlen für eine Reihe von Stimuli, die deren subjektiver Grösse in Bezug auf
einem bestimmten Parameter (z. B. Lautstärke) entsprechen.
Wie aus Abb. 1.2 ersichtlich ist, ergeben beide Methoden sehr ähnliche Resultate
1.3.2.2.2 Herstellung
Die VP stellt die Grösse eines Stimulus so ein, dass sie einer angegebenen Zahl entspricht.
15
Sowohl die Grössenschätzungs- als auch Herstellungsmethode kann mit Absolutwerten
durchgeführt werden, wobei es keinen Nullpunkt in der Skala gibt und alle Grössenangaben
oder Herstellungen unabhängig voneinander sind.
Obwohl die Methode problematisch erscheint, zeigte sich, dass sie selbst bei untrainierten
VPn valide, wiederholbar und effizient ist.
Sowohl Grössenschätzungs- als auch Herstellungsmethode sind vom Bias (individuelle
Antworttendenz) der VPn betroffen: bei der Grössenschätzung werden keine Extremwerte
angegeben, während bei der Grössenherstellung gerade Extremwerte bevorzugt werden.
→ da der Bias für beide Methoden genau gegensätzlich ist, ist das geometrische Mittel der
beiden zugrundeliegenden Funktion eine gute Näherung an die tatsächliche Funktion.
1.3.2.3 Cross-Modality-Matching
Die VP gibt die wahrgenommene Grösse für einen Reiz mittels einer anderen sensorischen
Modalität an. Z.B. Angabe der Laustärke mittels der Länge einer Linie.
1.3.3 Method of Limits (Grenzwert-Methode)
Stimulus unter Kontrolle des Versuchsleiters (VL), VP antwortet nach jeder
Stimulusdarbeitung. Beginnend bei deutlich überschwelliger Stimulusgrösse, wird die Grösse
nach jedem Trial (Darbeitung+Anwort), bei positiver (+) Anwort der VP (d.h. die hat z.B.
einen Ton gehört oder eine Unterschied zwischen 2 Stimuli wahrgenommen) reduziert. Eine
solche Abwärtsbewegung wird erst abgebrochen, sobald die Anwort negativ (−) ist. Dann
beginnt eine Aufwärtsbewegung, beginnend bei deutlich unterschwelliger Stimulusgrösse.
Diese wird solange fortgesetzt, bis die Antwort wieder positiv (+) wird.
Die in Abb. 1.3 strichliert eingezeichnete Linie zeigt die hypothetische Schwelle, die
zwischen den niedrigsten wahrgenommenen und den höchsten nicht wahrgenommenen
Stimulusgrössen liegt. Der Mittelwert der Übergangspunkte für alle Durchläufe wird als die
endgültige Schwelle definiert.
Abb. 1.3. Method of Limits [aus Gelfand, 1990]
Probleme
16
-VP könnte die Grösse, bei der der Übergang von (+) zu (−) stattfindet (bei Abwärts-Runs)
und von (−) zu (+) (bei Aufwärtsbewegungen) voraausahnen, wenn der Startpegel immer
gleich ist.
Lösung: Unterschiedliche Startpegel (wie in Abb. 1.3)
-Habituationseffekt, d.h. VP ändert, bei Aufwärtsbewegung, nicht ihre Antwort von (−) zu (+)
für mehrere überschwellige Trials und, bei Abwärtsbewegung, nicht von (+) zu (−) über
mehrere unterschwellige Trials.
Lösung: gleiche Anzahl von Abwärts- und Aufwärtsbewegungen, dadurch Ausmittelung
des Effektes.
-Ineffizienz, da bei kleiner Stufenweite sehr viele Trials weit von der Schwelle
"verschwendet" werden, und bei grosser Stufenweite zu grosse Ungenauigkeit der
Schwellenbestimmung.
-funktioniert nur bei monotonen psychometrischen Funktionen
→
→
Trotz dieser Nachteile wird die Method of Limits, vor allem zur raschen Bestimmung der
ungefähren Schwelle in Vorstudien (Pilot-Tests) oder im klinischen Bereich, noch immer
angewandt. Dabei wird eine relativ grosse Stufenweite verwendet, um den Vorteil der
kürzeren Testzeit zu nützen.
1.3.4 Method of Adjustment (Anpassungsmethode)
-Der Stimulus wird von der VP kontinuierlich kontrolliert (im Gegensatz zur diskreten
Veränderung bei der Method of Limits).
-sonst Ablauf wie bei der Method of Limits
-auch Messung der Differentialschwelle möglich: Veränderung der Grösse eines Stimulus, bis
der zugrundeliegende Parameter subjektive Gleichheit ergibt.
Vorraussetzungen
-Einstellrad darf keine taktilen od. visuellen Cues liefern
-Startpunkt der Grössenveränderung sollte von Durchlauf zu Durchlauf zufällig geändert
werden
Probleme
-Generell wenig Kontrolle des VL über den Ablauf der Experiments
-VP kann sein subjektives Kriterium während des Ablaufs ändern
-Habituationseffekt wie bei Method of Limits kann durch gleiche Anzahl an Aufwärts- wie
an Abwärtsbewegungen ausgemittelt werden
→
1.3.5 Method of Constant Stimuli (Methode der konstanten Stimuli)
Ein Set von Stimuli mit verschiedenen vordefinierten Grössen wird in zufälliger Reihenfolge
dargeboten. Die Werte für die vordefinierten Grössen, die durch Vorwissen oder mittels PilotExperimenten ermittelt werden, umgeben die erwartete Schwelle, d. h. ein Teil soll unter- und
ein Teil -überschwellig sein. Die Anzahl an Stimuli soll für jeden Wert gleich gross sein.
17
Tab. 1.1 zeigt die Ergebnisse für ein Constant Stimuli Experiment zur Ermittlung der
Hörschwelle eines Tones. Der Parameter (in diesem Fall der Schallpegel) wird in Stufen von 1
dB im Bereich 4-11 dB dargeboten, jede Stufe wird 100 Mal getestet. Die Ergebnisse werden
üblicherweise in Prozentanzahl (%) der detektierten Signale als Funktion des variierten
Parameters (in diesem Fall dB SPL) dargestellt. Die Darstellung wird als Psychometrische
Funktion bezeichnet (Abb. 1.4).
Tab. 1.1. Ergebnisse der Hörschwellen-Messung für einen Ton mit der Method of Constant
Stimuli [aus Gelfand, 1990]
Abb. 1.4. Psychometrische Funktion für die Method of Constant Stimuli. Die durch lineare
Interpolation ermittelte Schwelle, hier definiert als 50%-Punkt, beträgt 7.5 dB (Daten aus Tab.
1.1) [aus Gelfand, 1990]
Differentielle Schwelle
Bsp.: VP gibt an, ob der 2. von zwei Tönen lauter oder leiser wahrgenommen wird. Tab. 1.2
zeigt die Prozentwerte der Items, bei denen der 2. Ton lauter als der erste gehört wurde. Die
Anzahl der Items, bei denen der 2. Ton leiser wahrgenommen wurde, ergibt sich aus 100%
minus den lauter gehörten Items. Z. B. wurde der 60 dB Stimulus zu 100 – 35 = 65% leiser
wahrgenommen. Die entsprechende psychometrische Funktion ist in Abb. 1.4 dargestellt.
18
Tab. 1.2 Ergebnisse der Messung der differentiellen Sensitivität für Schallpegel für die
Method of Constant Stimuli [aus Gelfand, 1990]
Am 50% Punkt der psychometrischen Funktion wurde der 2. Ton bei der Hälfte der Trials
lauter und bei der anderen Hälfte der Trials als leiser eingestuft, daher gibt er den Punkt
subjektiver Gleichheit (= point of subjective equality, PSE) an. Der 75% Punkt wird als die
Schwelle bezeichnet (Übergang zur Wahrnehmung eines Unterschiedes). Die JND (just
noticeable difference) wird als die Differenz der Stimulusgrösse zwischen dem PSE und der
Schwelle definiert. (in Abb. 1.5: 64.8 dB (75%) – 61.5 (50%) = 3.3 dB.
Eine alternative Bezeichnung zu JND ist DL (difference limen)
Abb. 1.5. Psychometrische Funtion für die Ergebnisse aus Tab. 1.2. Punkt der subjektiven
Gleichheit PSE (Point of subjective equality), “höhere” Schwelle und difference limen (DL)
[aus Gelfand, 1990]
Vorteile gegenüber Methods of Limits und Adjustment
-Grössere Präzision
-Es können Catch-Trials integriert werden, die keinen Stimulus enthalten und eine Schätzung
der Ratewahrscheinlichkeit ermöglichen. Diese fliesst als Korrekturfaktor zur Bestimmung
der Performance der VP ein.
-es können auch nicht-monotone psychometrische Funktionen gemessen werden
19
Nachteile
-Wesentlich ineffizienter in Bezug auf die Dauer, da viele Trials nicht nahe genug am
angestrebten Prozentpunkt der psychometrischen Funktion liegen (z. B. 75% im oben
beschriebenen Fall).
-Damit verbundener Ermüdungseffekt und Motivationsnachlass.
1.3.6 Adaptive Methoden
Bei adaptiven Methoden wird die Reizgrösse durch die Reaktionen der Versuchsperon auf
vorangegangene Reize bestimmt. Strenggenommen ist die Method of Limits eine Untergruppe
der adaptiven Methoden.
Als adaptiv bezeichnete Methoden konvergieren bei einem Schwellenwert, der einem
definierten %-Punkt an der psychometrischen Funktion entspricht. Wenn die Prozedur
beispielsweise am 50% Punkt konvertiert, so detektiert die VP den Reiz an der Schwelle mit
50% Wahrscheinlichkeit.
Vorteile
-Maximum an Effektivität und Präzision, weil der Grossteil der Trials sich im Bereich der
definierten Schwelle (entsprechend dem %-Punkt der psychometrischen Funktion, an dem die
prozedur konvergiert) bewegt
-Kein Vorwissen (und damit Vortests) über die Position der Schwelle notwendig, da die
Prozedur von selbst zur Schwelle „wandert“ (unabhängig vom Startwert der Prozedur)
Vorraussetzungen
-monotoner Verlauf der psychometrischen Funktion für getesteten Parameter (abhängige
Variable)
-Unabhängigkeit der einzelnen Trials
-damit verbunden, keine Lern- oder Ermüdungseffekte innerhalb einer adaptiven Prozedur
1.3.6.1 Békésy Tracking
Vereinigt Eigenschaften der Method of Adjustment und Method of Limits sowie von
adaptiven Prozeduren
Die Stimulusgrösse variiert mit einer fixen Rate (z.B. 2.5 dB/sec) und die Richtung der
Veränderung wird von der VP durch Drücken oder Loslassen einer Taste gesteuert. Der
Verlauf der Stimulusgrösse wird über die Zeit aufgetragen (Abb. 1.6).
Üblicherweise wird die Grösse reduziert, solange die Taste gedrückt ist (Stimulus ist hörbar)
und erhöht, sobald die Taste ausgelassen wird (Stimulus ist nicht hörbar)
D.h. die VP umwandert selbst ihre eigene Schwelle.
Die Schwelle wird aus dem Mittel der Umkehrpunkte im Verlauf (bei gerader Anzahl an
Umkehrpunkten) berechnet
20
100
hörbar
a
b
unhörbar
0
Abb. 1.6. Typischer Verlauf der Békésy-Tracking Methode. Die Intensität nimmt ab, wenn die
VP die Taste drückt (a) und vice versa (b). Links ist die zugehörige psychometrische Funktion
eingezeichnet.
Vorteile
Hohe Geschwindigkeit und Präzision
Nachteile
-Bei schnellen Raten (Stimulusveränderung über die Zeit) Einfluss der Reaktionszeit der VP
bei langsamer Reaktion grösseres Auslenken der Bewegung und damit geringere Genauigkeit
bei langsamer Rate Problem nicht problematisch
-Subjektives Kriterium der VP für Losslassen und erneutes Drücken der Taste nicht bekannt.
Aber: unter den Annahmen:
a) eines gleich bleibenden Kriteriums für eine Person über die Zeit und
b) dem alleinigen Interesse an relativen Schwellenunterschieden zwischen verschiedenen
Stimulusbedingungen (unabhängige Variable), nicht aber den absoluten Schwellenwerten (z.
B. Laback et al., 2002) hat das nicht bekannte Kriterium keine Einfluss auf die Ergebnisse
→
Anwendungen
-Häufige Anwendung im klinischen Bereich z.B.
-Hörschwellen-Screenings (viele Personen, 100%ige Zuverlässigkeit der Methode nicht im
Vordergrund)
-Diagnose von Läsionen der zentraler Verarbeitung (erhöhter Adaptations-Effect, d.h.
Ansteigen der Hörschwelle eines Stimulus mit zunehmender Dauer des Stimulus): BekesyAudiometry (Variation des Pegels über die Frequenz)
1.3.6.2 Einfache Up-Down (Staircase) Methode
In der einfachsten Version der Up-Down Methode wird die Stimulusgrösse in diskreten Stufen
reduziert, wenn die VP den vorherigen Stimulus detektiert hat und erhöht, wenn nicht. Damit
bleibt die Reizgrösse immer in einem Bereich, in dem die VP „unsicher“ ist. Der Unterschied
zur Method of Limits ist, dass ein Durchlauf nicht abgebrochen wird, wenn Detektion in
nicht-Detektion übergeht od. vice versa. Die einfache Staircase-Methode funktioniert für
sogenannte Forced-Choice-Aufgaben, bei denen das Ergebnisses eines Trials binären
Charakter hat, d.h. die Antwort ist korrekt oder inkorrekt.
21
Abb. 1.7 zeigt die ersten 6 Läufe (runs) einer Staircase Prozedur mit einer Stufenweite von
2 dB. Ein run wird als eine Folge von Trials zwischen 2 Wendepunkten definiert. Ein
Abwärtslauf beginnt mit einer positiven Anwort und wird solange fortgesetzt, bis eine
negative Antwort erfolgt, während eine Aufwärtslauf mit einer negativen Antwort beginnt und
mit einer positiven Antwort endet.
Da die Stimulusgrösse nach jeder positiven Antwort reduziert und nach jeder negativen
Antwort erhöht wird, konvergiert die Prozedur am 50%-Punkt der psychometrischen
Funktion.
Nach einer adäquaten Anzahl von Wendepunkten wird die Prozedur abgebrochen und der
Schwellenwert als Mittelwert der Wendepunkte berechnet, wobei die ersten Wendepunkte
nicht in die Mittelwertberechnung einbezogen werden. Adäquat kann in diesem
Zusammenhang entweder eine fixe Anzahl sein (die sicherheitshalber eher höher sein sollte,
z.B.12-16) oder in Abhängigkeit von der Varianz der Wendepunkte. Bei der letzen Varianten
bricht die Prozedur ab wenn eine Mindestanzahl an Wendepunkten erreicht ist und die
Varianz über die Wendepunkte einen vordefinierten Wert unterschreitet)
Formaler lautet das Abbruchkriterium:
wenn (i > MINWP) & (
1 n
∑ (WP(i) − W P ) 2 ) < Σ
i − s i=s
wobei
i
= Index des aktuellen Wendepunktes
s
= Index des ersten Wendepunktes, der in die Berechung von Varianz und
Mittelwert einfliesst
n
= Anzahl an Wendepunkten
WP(i)
= Stimulusgrösse am iten Wendepunkt
= Mittelwert über die Wendepunkte von WP(s) bis WP(n)
= Minimum an Wendepunkten
= Schwelle der Varianz
Stimulusgrösse
WP
MINWP
Σ
+
+
+
1
+
WP(2)
+
+
2
-
-
WP(1)
+
+
3
4
+- -
-
-
+
+
5
6
-
-
+ ...
WP(i)
Trial
Abb. 1.7. Einfache Up-Down Methode. Ungerade Zahlen zeigen Abwärtsläufe und gerade
Zahlen Aufwärtsläufe [aus Gelfand, 1990]
Zur Steigerung der Effizienz und Präzision kann die Stufenweite an einem definierten Punkt
der Prozedur verkleinert (üblicherweise halbiert) werden. Dadurch wird a) der angestrebte
22
%Punkt auf der psychometrischen Funktion schneller erreicht, und b) im Bereich des
angestrebten %Punktes die Messgenauigkeit erhöht
Anmerkung: Im Falle einer flachen psychometrischen Funktion sollte die Stufenweite auf keinen Fall
zu klein sein, damit sich die adaptive Prozedur nicht an einem vom angestrebten Punkt verschiedenen
Punkt der psychometrischen Funktion „verfangen“ kann (lokale Minima oder flache Stellen in der
psychometrischen Funktion) !!!. Die Bestimmung der Stufenweite erfordert daher Vorwissen über die
Steigung der psychometrischen Funktion. Wenn kein Vorwissen vorliegt, sollte entweder eine nichtadaptive Methode verwendet werden oder eine grosse Stufenweite (Laback et al., 2002).
Vorteile (neben den oben beschriebenen allgemeinen Vorteilen der adaptiven Methoden)
-Veränderungen der Sensitivität der VP innerhalb des Verlaufs können verfolgt werden.
Nachteile (neben den oben beschriebenen allgemeinen Nachteilen der adaptiven Methoden)
-Wenn sich die VP über den sequentiellen Verlauf der Prozedur bewusst wird, kann Bias
auftreten (d.h., die einzelnen Trials sind nicht mehr unabhängig voneinander)
-Es kann nur der 50-% Punkt der psychometrischen Funktion kann ermittelt werden. Daraus
folgt, dass die Wahrscheinlichkeit für eine zufällig richtige Antwort für jeden Trial kleiner als
50 % sein muss, da sonst die Prozedur nicht konvergieren würde.
1.3.6.3 Transfomierte Up-Down (Staircase) Methode
Um die einfache Up-Down Prozedur bei einem von 50% abweichenden Punkt der
psychometrischen Funktion konvergieren zu lassen, wurden Modifikationen der Regeln für
die Stimulusgrössen-Veränderung eingeführt.
Am Konvergenz-Punkt ist die Wahrscheinlichkeit einer positiven Antwort identisch mit der
einer negativen Antwort. D.h., wenn P die Wahrscheinlichkeit einer positiven Antwort ist, so
ist (1-P) die Wahrscheinlichkeit einer negativen Antwort.
Am 50%-Punkt: P = (1 − P) = 0.5
Um nun den Konvergenzpunkt zu verändern, werden die Up-Down Regeln so verändert, dass
die Wahrscheinlichkeiten von Stimulusgrössen-Erhöhung und –Reduktion ungleich sind.
Dies wird durch Up-Down-Regeln realisiert, die nicht nur die aktuelle Antwort, sondern
Serien von Antworten auswerten.
Beispiel (siehe Abb. 1.8 oben):
Ziel: Konvergenz beim 70% Punkt
Erhöhung nach: (−) od. (+,−)
Erniedrigung nach: (+,+)
Wie bei der einfachen Up-Down Regel werden bei überschwelligen Reizgrössen häufig (+,+)
Sequenzen und bei unterschwelligen Reizgrössen häufig (−) oder (+,−) Sequenzen
vorkommen. Am Konvergenz-Punkt hingegen ist die Wahrscheinlichkeit einer
Reizgrössenerhöhung
(1 − P)
+
P(1 − P)
Wahrscheinlichkeit Wahrscheinlichkeit
23
Von (−)
von (+,−)
Die Wahrscheinlichkeit einer Pegelerniedrigung (+,+) ist
P ∗ P = P2
Die Prozedur konvergiert am Punkt, wo die Aufwärt- und Abwärtsbewegung die gleiche
Wahrscheinlichkeit von 0.5 haben. Daher beträgt die Wahrscheinlichkeit einer transformierten
positiven Antwort (+,+) am Konvergenzpunkt
P2 = 0.5
Da wir aber an der Wahrscheinlichkeit von P für eine einzelne positive Antwort interessiert
sind, formen wir um:
P = 0.5 = 0.707
In Prozent ausgedrückt, konvergiert die beschriebene Prozedur am 70.7% Punkt der
psychometrischen Funktion.
Zur Überprüfung setzten wir noch die Wahrscheinlichkeit einer transformierten negativen
Antwort am Konvergenzpunkt gleich 0.5, d.h.
(1−P) + P(1−P) = 0.5
woraus sich P berechnen lässt
1−P+P−P2 = 0.5
1−P2 = 0.5
P2 = 0.5
P = 0.707
→
Abb. 1.8. Beispiele für transformierte Up-Down Prozeduren: oben: 1up/2down (70.7%
Punkt); unten: 2up/1down (23.3% Punkt) [aus Gelfand, 1990].
Beachte: Die 2up/1down Methode funktioniert nur, wenn die Ratewahrscheinlichkeit eines
Trials kleiner als 29.3% ist.
Wie bei der einfachen Up-Down Methode wird die Effizienz durch adaptive Anpassung der
Stufenweite erhöht. Die transformierte Up-Down Methode kann für absolute Schwellen,
differentielle Schwellen und subjektive Beurteilungen verwendet werden (z.B.
Lautstärkeverhältnis).
24
Im Falle der Verwendung von xAFC-Methoden bei x>1 (siehe Kap. Signal Detection
Theory) muss der Konvergenzpunkt der Prozedur grösser als die Ratewahrscheinlichkeit
sein, da sonst die Methode nicht konvergieren würde. Tab 1.3 zeigt eine Auflistung der
Regeln für verschiedene Up/Down (Staircase)-Prozeduren und den zugehörigen
Wahrscheinlichkeiten für eine Abwärtsbewegung (down-run) sowie den daraus
resultierenden Konvergenzpunkten in %.
Untersuchungen mit simulierten und realen VPs zeigten, dass die Effizienz der Prozeduren
am grössten ist, wenn sie bei hohen %-Punkten der psychometrischen Funktion konvergieren.
Der Grund ist, dass die Varianz im Antwortverhalten in diesem Bereich der psychometrischen
Funktion geringer ist. Z. B. stellte sich die 3AFC-Methode als effizienter heraus als die 2AFC.
Sequenz, die zu
Sequenz, die zu
Wahrscheinlichkeit
%korrekt am
einer
Abwärtsbewegung Aufwärtsbewegung
Konvergenzpunkt
führt
führt
Abwärtsbewegung
1-up /
1-down
1-up /
2-down
1-up /
3-down
1-up /
4-down
I
K
Pc
Pc = 0.5
I, KI
KK
P2c
Pc = 0.7071
I, KI, KKI
KKK
P3c
Pc = 0.7937
I, KI, KKI, KKKI
KKKK
P4c
Pc = 0.8409
Tab 1.3. Regeln für verschiedene Up/Down (Staircase)-Prozeduren. K = korrekte Antwort, I
= inkorrekte Antwort.
Methode zur Minimierung von Bias-Effekten, die die Vorrausetzung der Unabhängigkeit
zwischen den einzelnen Trials verletzen (VP zeigt z.B. unterschiedliche Konzentration, je
nach momentanem Status der Prozedure):
• Parallelablauf von mehreren adaptiven Prozeduren. Nach Zufallsentscheidung werden
abwechselnd Stimuli aus mehreren gleichzeitig laufenden Prozeduren präsentiert, wodurch
die VP den Verlauf der einzelnen Prozeduren nicht mehr verfolgen kann.
25
1.3.6.4 PEST Prozedur
Parameter estimation by sequential testing (PEST). Die Reizgrösse wird adaptiv nach
bestimmten Regeln angepasst, wobei sowohl die Richtung der Veränderung als auch die
Stufenweite der Veränderung durch das Antwortverhalten der VP bestimmt wird. Die Regeln
bestimmen, an welchem %-Punkt der psychometrischen Funktion (PF) die Prozedur
konvergiert.
Wie bei der einfachen Up-Down Methode resultieren positive Antworten in Abwärtsläufen
(kleinere Reizgrössen) und negative Antworten in Aufwärtsläufen. Bei der PEST Prozedur
werden aber zusätzliche Regeln zur Verdoppelung oder Halbierung der Stufenweite in
Abhängigkeit von der vorangegangenen Folge von Antworten angewandt.
Das Grundprinzip ist, dass die PEST Prozedur nach jedem Trial überprüft, ob die Schwelle
überschritten wurde (von oben oder von unten). Der Pegel wird dann so angepasst, dass
maximale Information aus dem nächsten Trial entnommen wird. Obwohl es nicht notwendig
ist, die ungefähre Schwellenposition im Vorhinein zu kennen, erhöht diese Information die
Effizienz.
In Abb. 1.9 ist ein adaptiver Durchlauf der PEST Prozedur dargestellt. Wenn der 50%Punkt angesteuert werden soll, lauten die zwei wesentlichen Regeln: Verdoppelung der
Stufenweite nach zwei aufeinanderfolgenden Veränderungen der Reizgrösse in der gleichen
Richtung und Halbierung der Stufenweite nach jedem Wendepunkt. Die Schwelle ist der
hypothetische Punkt, der nach Halbierung auf die minimal mögliche Stufenweite erreicht
werden würde.
Der Stärke der PEST Methode liegt im sehr schnellen Erreichen der Schwelle.
Für weitere Details der Methode siehe Taylor and Creelman (1967). J. Acoust. Soc. Am. 421,
782-787
Abb. 1.9. Beispiel des Signalgrössenverlaufes für die PEST Prozedur. Der hypothetische
Punkt I ist die Schätzung der Schwelle [aus Gelfand, 1990]
2 SIGNAL DETECTION THEORY (SDT)
Die klassischen Methoden der Psychophysik hatten zum Ziel, die Schwelle für einen Stimulus
zu bestimmen. Schwellen können in Form von Detektion (Stimulus/kein Stimulus),
Diskrimination (Stimulus gleich/ungleich mit Referenzstimulus), Erkennung (Stimulus wird
26
aus nicht vordefinierter Liste von Möglichkeiten erkannt, z.B. Spracherkennung), und
Identifikation (Stimulus wird aus vordefinierter Liste von Möglichkeiten identifiziert)
auftreten.
Bei der Bestimmung der Schwelle ging man von einer fixen Stimulusgrösse aus, über
der die VP den Stimulus detektiert und unterhalb derer sie den Stimulus nicht detektiert. Seit
den 30er Jahren des 20. Jahrhunderts ist nun bekannt, dass dieses Konzept nicht
zufriedenstellend ist. Bei sukzessiver Erhöhung der Stimulusgrösse tritt kein klar definierter
Punkt auf, über dem der Stimulus plötzlich detektierbar ist, sondern es gibt einen Bereich von
Stimulusgrössen, innerhalb dessen eine Versuchsperson manchmal angibt den Stimulus zu
detektieren einen Reiz zu verspüren (z. B. einen Ton zu hören) und manchmal nicht. Die
Funktion, welche die Abhängigkeit des Prozentsatztes an richtigen Antworten von der
Stimulusgrösse angibt, wird, wie schon weiter oben erwähnt, als Psychometrische Funktion
bezeichnet (siehe Abb. 1.4).
Hinzu kommt, dass die Performance einer Versuchspersonen bei gleichbleibendem
Stimulus durch Veränderung der Instruktion variiert werden kann. D.h., bestimmte Faktoren,
die nicht direkt mit der Sensitivität der VP zu tun haben, können die Performance der VP
beeinflussen.
Die Theory of Signal Detection versucht, Faktoren, die mit dem subjektiven Kriterium
und dem Bias der VP zusammenhängen, von Faktoren zu trennen, die die reine Sensitivität
betreffen (siehe Abb. 1.10).
Physikalischer
sensorischer
Entscheidungs-
Antwort-
Reiz
Prozess
prozess
verhalten
Theory of
Signal Detection
Abb. 1.10. Die Theory of Signal Detection versucht, die beiden internen Prozesse bei einem
psychophysischen Experiment, die Sensitivität und die Entscheidung, zu separieren.
2.1 Weitere Anwendungen der Signal Detection Theory
•
•
Medizinische Diagnostik (z.B. Röntgendiagnostik)
Prüfsysteme
(z.B. Röntgen von Fluggepäck)
• Kalibrierung von Detektions (Mess)geräten
(z.B. Radioaktive Strahlung)
• Gerätewartung
(z.B. Betriebsschäden bei Flugzeugen)
27
•
Radarüberwachung
(Detektion von (feindlichem) Objekt)
2.2 Statistische Entscheidungen
Viele Entscheidungen basieren auf nicht perfekter Evidenz. Wenn sich beispielsweise die
Körpergrössen einer Personengruppe im Bereich 63-69 Zoll (inch) bewegen, wenn sie bei der
Messung barfuss sind, so steigen die Messwerte mit angezogenen Schuhen um ca. 1 Zoll,
wodurch die Körpergrössen in den Bereich 64-70 rücken. Die Verteilungen der Grössen für
die beiden Gruppen „Schuhe angezogen“ und „Schuhe ausgezogen“ sind in Abb. 2.1
dargestellt. Dieses Beispiel ist McNicol (1972) entnommen.
Kann aufgrund dieser beiden Verteilungen gesagt werden, ob eine Person aus der Gruppe
mit der Grösse 67 Zoll die Schuhe bei der Messung angezogen oder ausgezogen hatte?
Nein, es kann keine mit Sicherheit richtige Entscheidung getroffen werden. Die
Histogramme in Abb. 2.1 zeigen, dass 3/16 der Gruppe ohne Schuhe und 4/16 mit Schuhen
eine Körpergrösse von 67 Zoll haben. Die sicherste Aussage wäre daher, dass die Person mit
einer Chance von (4/16)/(3/16) = 4/3 die Schuhe anhatte.
→
Abb. 2.1. Verteilungen für die beiden Fälle „Schuhe angezogen“ (durchgezogene Linie) und
„Schuhe ausgezogen“ (strichlierte Linie), d.h. die Wahrscheinlichkeiten des Auftretens der
beiden Fälle für verschiedene Körpergrössen. [aus McNicol ,1972]
Tab. 2.1. Bedingte Wahrscheinlichkeit P(x|s), dass x aus s stammt und bedingte
Wahrscheinlichkeit P(x|n), dass x aus n stammt. l(x) gibt die Chance bzw. das
Wahrscheinlichkeitsverhältnis zugunsten s an [aus McNicol ,1972]
28
Die rechte Spalte von Tab. 2.1 zeigt für jede der Körpergrössen die Chancen, dass sie der
Bedingung mit Schuhen angehören. Die beiden Fälle „mit Schuhen“ und „ohne
Schuhe“ werden im folgenden mit s und n bezeichnet (s steht für Stimulus, n für Noise
(=Rauschen, d.h. kein Stimulus). Für jede Grösse (x) wird die Wahrscheinlichkeit, dass sie aus
s stammt durch die Wahrscheinlichkeit, dass sie aus n stammt, dividiert. Die resultierenden
Werte werden als Wahrscheinlichkeitsverhältnis l(x) zugunsten s bezeichnet.
Es kann beobachtet werden, dass mit steigendem Wert von x die Chance für die
Korrektheit von Hypothese s steigt. Für Grössen ≥ 67 Zoll ist es wahrscheinlicher, dass
Hypothese s korrekt ist und für Grössen < 67 Zoll ist es wahrscheinlicher, dass Hypothese n
korrekt ist.
2.3 Begriffe und Symbole
a) Zur Entscheidung, ob Ereignis s oder n eingetreten ist, steht dem Beobachter die
Evidenzvariable x zur Verfügung. Im obigen Beispiel ist sie die Körpergrösse, in
psychophysischen Experimenten ist x der sensorische (interne) Effekt eines Reizes, d.h. eine
physiologische Größe (z. B. Anzahl der neuronalen Pulse (Spikes) im Hörnerv).
b) Bedingte Wahrscheinlichkeiten P(x|s) bzw P(x|n): Wahrscheinlichkeit des Auftretens von x
unter der Bedingung, dass das Ereignis s bzw. das Ereignis n eingetreten ist.
c) Wahrscheinlichkeitsverhältnis zugunsten s: l ( x) =
P( x | s )
P ( x | n)
1
d) Hits, misses, false alarms and correct rejections:
Während die beiden möglichen Stimulusereignisse s und n sind, bezeichnen S und N die
beiden möglichen Antwortereignisse. Daraus ergeben sich die aus Tab. 2.2 ersichtlichen vier
möglichen Kombinationen aus Stimulus- und Antwortereignissen, die sich auf die
Verteilungen aus Abb. 2.1 beziehen.
1
die korrekte Schreibweise wäre:
l SN ( xi ) =
P ( xi | s )
, wobei i den Index entlang der Evidenzvariable x
P ( xi | n )
angibt. Aus der Reihenfolge von s und n geht hervor, dass s im Zähler und n im Nenner steht
29
Tab. 2.2. Bedingte Wahrscheinlichkeiten und ihre Bezeichnungen für Kombinationen aus
Stimulus und Antworten. Die Werte geben die Wahrscheinlichkeiten für folgendes
Entscheidungskriterium an: Antworte S, wenn x > 66 Zoll, antworte N, wenn x ≤ 66 Zoll [aus
McNicol ,1972]
Die Bedeutung der angegebenen bedingten Wahrscheinlichkeiten gehen am besten aus einem
Beispiel in Tab. 2.2 hervor. Die VP entscheidet sich S zu antworten, wenn x > 66 ist und N zu
antworten, wenn x ≤ 66 ist. Die Wahrscheinlichkeit, dass die VP S antwortet nachdem sich s
ereignete, P(S|s), kann aus der dritten Spalte in Tab. 2.1 durch Summation der P(x | s) Werte
berechnet werden, für die x > 66 ist: (4+3+2+1)/16 = 10/16. Die ist die sogenannte Hit (H)
Rate. Aus der gleichen Spalte geht auch die Wahrscheinlichkeit hervor, dass die VP N
antwortet wenn s vorkam, P(N | s), die sogenannte Miss Rate ((3+2+1)/16). Aus Spalte 2 geht
die Wahrscheinlichkeit von P(S | n), die False alarm (FA) Rate (6/16) und P(N | n), die
Correct Rejection Rate (10/16), hervor. Da die Summe aller P(x | s) sowie die Summe aller
P(x | n) 1 ist, gilt
P(N | s) = 1 - P(S | s), und
P(N | n) = 1 – P(S | n)
D.h., die Hit und False Alarm Raten alleine beschreiben das Antwortverhalten.
2.4 Das Entscheidungskriterium (ß)
Entsprechend der Theorie gibt es einen Übergangspunkt c entlang von x, der dem
Entscheidungskriterium (ß) der VP entspricht; wenn x grösser als c ist, gibt sie an, den Reiz
wahrgenommen zu haben (S), wenn x kleiner ist als c, so antwortet sie N. Das Kriterium für
das Beispiel in Tab. 2.2 entsprechend dem Wahrscheinlichkeitsverhältnis lautet:
wenn l(x) < 1
antworte N; wenn l(x) ≥ 1
antworte S
→
→
In diesem Fall setzte die VP ihr Kriterium bei ß = 1. D.h. die Person wählt einen bestimmten
Wert für l(x) als Kriterium.
Das Kriterium (ß) kann von einer Reihe von Faktoren abhängen:
a) Instruktion an die VP
b) Wahrscheinlichkeiten s und n
c) "Belohnung" und "Bestrafung" der VP für richtige und falsche Antworten,
d) Erfahrung der VP
e) Motivation der VP
30
2.4.1 Maximierung der Anzahl an richtigen Antworten
Wenn s dieselbe Wahrscheinlichkeit hat wie n, d.h. P(s) = P(n), so erreicht die VP die
maximale Anzahl an richtigen Antworten wenn sie ß = 1 wählt. Bei unterschiedlichen
Wahrscheinlichkeiten von s und n, wird die maximale Anzahl an richtigen Antworten erreicht
bei
P ( n)
ß=
P( s)
2.4.1.1 Andere Entscheidungskriterien
2.4.1.1.1 Maximierung richtiger und Minimierung falscher Antworten.
Unter der Annahme von Belohnung und Bestrafung für die Stimulus-Antwort Konstellationen
WSs
PNs
PSn
WNn
=
=
=
=
„Wert“ für hit
„Preis“ für miss
„Preis“ für false alarm
„Wert“ für correct rejection
und unter der Bedingung P(s) = P(n) wird die Anzahl der richtigen Antworten minimiert und
die Anzahl der falschen Antworten maximiert für
ß=
WN n + PN s
WS s + PN s
und bei P(s) ≠ P(n) für
ß=
(WN n + PN s ) P(n)
(WS s + PN s P( s )
2.4.1.1.2 Minimierung der False Alarm Rate
Bei der Überprüfung der beiden Hypothesen H0 und H1 eines Experiments unterscheidet man
zwei Arten von Fehlern:
Fehler 1. Art: akzeptiere H1, wenn H0 wahr ist
Fehler 2. Art: akzeptiere H0, wenn H1 wahr ist
Der Fehler 1. Art ist vergleichbar mit der false alarm Rate und der Fehler 2. Art mit der Miss
Rate. Normalerweise wird versucht, den Fehler 1. Art, also die FA Rate unterhalb eines
akzeptablen Maximalwertes zu halten (z.B. p = 0.05). Eine fälschliche Annahme der H1 ist
zumeist nachteiliger als ein fälschliches Verwerfen der H1.
31
Bspl.: Der fälschliche Schluss, dass ein neues Medikament eine Krankheit heilen kann, könnte
dazu führen, dass Patienten nicht geheilt werden, obwohl es möglicherweise alternative
Medikamente gibt, die wirken würden.
Der Nachteil des Geringhaltens der Wahrscheinlichkeit des Fehlers der 1. Art (und der FA
Rate) ist, dass dies nur auf Kosten einer erhöhten Wahrscheinlichkeit des Fehlers der 2. Art
geht (M Rate).
2.5 Zusammenhang mit der Psychophysik
Das obige Beispiel kann sehr einfach auf psychologische Entscheidungssituation und auf
psychophysische Experimente im speziellen übertragen werden:
Angenommen, ein Versuchsintervall enthält entweder einen in Rauschen eingebetteten
Ton (s) oder das Rauschen alleine (n) (strenggenommen müsste man statt s sn schreiben, da
internes Rauschen permanent vorhanden ist), wobei die Wahrscheinlichkeit des Auftretens
eines der beiden Intervalle 50 % beträgt. Bei erster Betrachtung erscheint die Hit Rate, P(S|s),
als geeignetes Mass für die Sensitivität der VP.
Jedoch: Eine VP, die gar nicht zuhört und immer S antwortet, würde 100% erreichen. Daher:
Die Einbeziehung der FA Rate in die Beurteilung der Sensitivität der VP erscheint notwendig
!!!
2.6 Nicht-parametrische Messungen der Sensitivität
In diesem Kapitel wird die SDT in Hinblick auf drei Typen von Detektionsexperimenten
ausgearbeitet. Yes-No-Task, Forced Choice Task und Rating Scale Task.
2.6.1 Yes-No Method (Ja/Nein Methode)
Beispiel
Eine VP bekommt, in zufälliger Reihenfolge, entweder Rauschen oder Stimulus + Rauschen
präsentiert. Nach jeder Darbietung soll die VP sagen, ob Stimulus+Rauschen (S) oder nur das
Rauschen (N) präsentiert wurde. Die in Tab. 2.3 gezeigte Stimulus-Antwort Matrix resultiert
aus dem Experiment.
Antwort
Stimulus
s
n
S
P(S | s) = 0.7
P(S | n) = 0.3
N
P(N | s) = 0.3
P(N | n) = 0.7
Zeilensumme
1
1
Tab. 2.3. Stimulus-Antwort Matrix für beliebiges psychophysisches Yes-No Task
Um den Effekt sowohl der H als auch der FA Rate darzustellen, wird die H Rate über der FA
Rate aufgetragen (Abb. 11). Wir erhalten den Punkt c auf der Kurve A.
32
Um den Effekt des subjektiven Kriteriums zu veranschaulichen, wiederholt die VP das
Experiment mit gleichem Stimulus und Rauschen, nachdem sie instruiert wurde, weniger
strikt bei der Wahl der Antwort S zu sein, d.h. auch bei Unsicherheit S zu antworten. Punkt b
auf Kurve A in Abb. 2.2. Schliesslich wird die Person instruiert, besonders strikt bei der Wahl
von S zu sein, was im Punkt d resultiert. Weitere Punkte a und e resultieren aus den
Instruktionen, besonders strikte oder laxe Kriterien anzuwenden. (Tab. 2.4 zeigt die H und FA
Raten für die fünf verschiedenen Kriterien.)
Die Verbindung dieser Punkte (Kurve A) wird als Receiver-Operating Characteristic
(ROC) Kurve bezeichnet. Sie enthält Messungen bei gleicher Sensitivität, aber
unterschiedlichen subjektiven Antwortkriterien (Antwort-Bias). Diese Kurve zeigt, wie gut
die VP s von n Ereignissen unterscheiden kann.
Abb. 2.2. Drei ROC-Kurven, entsprechend den s und n Verteilungen in A, B und C von Abb.
12 [aus McNicol ,1972]. Die H und FA Raten für Kurve A entstammen Tab. 2.4, jene für die
Kurven B und C der Abbildung 12 (siehe unten).
Tab. 2.4. H und FA Raten einer VP mit identischen Stimuli, aber variablem Kriterium für die
Akzeptanz von „Indizien“ als Signal [aus McNicol ,1972].
2.6.1.1 Herleitung der s- und n-Verteilungen aus der ROC Kurve
Aus den Daten in Tab 7 können die Verteilungen von s und n folgendermassen hergeleitet
werden (in Abb. 2.3 A dargestellt) [Annahme: Maximum der Evidenzvariable x = 6].
Punkt e: H = 0.1 and FA = 0.0
0.1 der Signal(s)-Verteilung liegen oberhalb des Punktes e;
0.0 der Rausch(n)-Verteilung liegt oberhalb von e.
→
33
Punkt d (weniger striktes kriterium): H = 0.3 und FA = 0.1
0.3 der s-Verteilung oberhalb
von d
da 0.1 oberhalb von e, ist die Höhe der Verteilung zwischen d und e 0.3-0.1 = 0.2;
für n-Verteilung zwischen d und e gilt 0.1-0.0 = 0.1
…
…
Dieser Vorgang wird bis zum Punkt a fortgesetzt.
→
→
Abb. 2.3 Drei Paare von Signal- und Rauschverteilungen mit unterschiedlichen Distanzen
zwischen deren Mittelwerten. [aus McNicol ,1972]
Die in Abb. 12 B dargestellte s-Verteilung ist nach rechts verrückt, während die n-Verteilung
gleich wie in Situation A ist. Bei Auftragung der entsprechenden ROC-Kurve in Abb. 2.2
(Kurve B) erkennt man eine im Vergleich zur A-Kurve erhöhte H Rate bei gleich bleibender
dies entspräche einer Erhöhung des Signalpegels bei gleich bleibendem
FA Rate.
Rauschpegel.
Abb. 2.2 C zeigt komplett überlagerte s- und n-Verteilungen, die der diagonalen Kurve in
Abb. 2.2 C entsprechen. In dieser Situation könnte die VP nur raten und die H Rate und FA
Rate sind identisch.
→
2.6.1.2 Fläche unter der ROC Kurve
Der Anteil der Fläche unter der ROC-Kurve an der Gesamtfläche ist ein Mass für die
Sensitivität der VP:
P(A) = A/Ages,
34
A
AGes
= Fläche unter der ROC Kurve
= Gesamtfläche
0.5 (keine Sensitivität) ≤ P(A) ≤ 1 (maximale Sensitivität)
2.6.1.3 Relevanz des Yes-No Tasks
Entspricht eher realen Situationen als die xAFC_Methode, da in praktischen Situationen kein
Vergleichsreiz zur Verfügung steht, sondern entschieden werden muss, ob ein Reiz da war
oder nicht. Z.B. ein Chirurg muss nach Betrachtung eines Röntgenbildes entscheiden, ob
operiert werden soll oder nicht. Er hat nicht die Röntgenbilder von 2 Personen zur Auswahl
und entscheidet, welcher Patient geöffnet werden soll und welcher nicht. Zumindest hoffen
wir dies!!! Wenn wir eine Melodie A erkennen und benennen sollen, wobei wir auch eine sehr
ähnliche Melodie B kennen, so haben wir nicht die Möglichkeit, A mit B zu vergleichen, um
dann zu entscheiden, welche der beiden vorgespielt wurde.
Nachteil der Messung der Sensitivität mittels der oben beschriebenen Prozedur unter
Verwendung des Yes-No Tasks: extrem lange Versuchsdauer, da mehrere Punkte mit
ausreichender Trial Anzahl getestet werden müssen.
Lösungen:
a) Verwendung des Rating Scale Tasks
b) Verwendung der kriterienfreien Forced Choice -Verfahren (xAFC)
c) Flächenschätzung mittels nur eines Paares von H und FA Rate
2.6.2 Rating Scale Task (Bewertungs-Skalen Aufgabe)
Alternative zur Messung der ROC Kurve mittels des Yes-No-Tasks. VP gibt in jedem Trial
ein Urteil entlang einer subjektiven Bewertungsskala über die Sicherheit bezüglich der
Präsenz oder Absenz des Stimulus (von „Ganz sicher ein Stimulus“ bis „Ganz sicher
Rauschen“). Aus den gewonnen Daten werden H und FA Raten berechnet.
Vorteil: wesentlich effizienter als das Yes-No-Task
Nachteil: Probleme bei der statistischen Analyse der Sensitivitäts-Unterschiede zwischen 2
mit der Rating Scale Methode gemessenen Punkten, da Unabhängigkeit zwischen
verschiedenen Trials nicht gegeben.
Weitere Deteils zur Berechnung der H und FA Raten finden sich in Green and Swets (1966).
2.6.3 Forced-Choice Methode
Bei der sogenannten Two-Alternative Forced Choice (2AFC)-Methode werden in jedem Trail
zwei aufeinanderfolgende Stimulusintervalle präsentiert. Nur eines der beiden Intervalle
(zufällig gewählt) enthält das Signal. Beide Intervalle enthalten Rauschen, das entweder Teil
des Stimulus ist oder in der VP entsteht (z.B. spontane Feuerung der Neuronen). Nach jedem
Trial gibt die VP an, welches Intervall das Signal enthielt. Die Performance der VP kann
35
zwischen 50% (entsprechend der Ratewahrscheinlichkeit P=0.5 bei nicht detektierbarem
Stimulus) und 100% (bei entsprechend starkem Stimulus) variieren. Die schon weiter oben
erwähnte psychometrische Funktion (Abb. 1.4) zeigt den Prozentsatz an richtigen Antworten
als Funktion der Stimulusgrösse. Die in Abb. 1.4 dargestellte psychometrische Funktion
umfasst allerdings den Bereich 0 bis 100 %.
Die AFC-Methode ist kriteriumsfrei, d.h. potentieller Bias der VP wirkt sich nicht auf die
Performance aus. Deshalb ist die AFC-Methode das in der modernen Psychophysik am
meisten angewandte Verfahren.
Abb. 2.4. Verteilung von Signal und Rauschen bei einer 2AFC Prozedur [aus McNicol ,1972]
2.6.3.1 Detektions-Strategie bei 2AFC
Entsprechend der SDT selektiert die VP das Stimulus-Interval als S, in dem x, die
Evidenzvariable, grösser ist als im anderen Interval. Dabei entstehen Fehler, da einige Male
aus der n-Verteilung stammende x grösser sind als aus der s-Verteilung stammende x. Unter
der Annahme, dass die VP immer erkennt, welches Signal das grössere x enthält, ist die
Antwort so oft richtig, wie x aus s grösser ist als x aus n.
2.6.3.1.1 Berechnung des Prozentsatzes an richtigen Antworten (%korrekt) aus der in
Abb. 2.4 dargestellten Verteilung
Definiere für jeden x-Wert die Wahrscheinlichkeit, dass n einen kleineren Wert annimmt als s.
D.h., berechne für jedes x die bedingte Wahrscheinlichkeit, dass Signal x grösser ist als
Rauschen n.
P(xs⋅xn) = P( x | s) × P(x | n)
Schritt A:
P(2 | s) = 0.1; nur ein x aus n mit kleinerem Wert (x=1):
P(1 | n) = 0.1
P(2 | s) × P(1 | n) = 0.1 × 0.1 = 0.01
P(3 | s) = 0.2
P(1 | n) = 0.1
P(3 | s) × P(1 | n) = 0.2 × 0.1 = 0.02
P(2 | n) = 0.2
P(3 | s) × P(2 | n) = 0.2 × 0.2 = 0.04
→
→
→
36
P(4 | s) = 0.4
P(1 | n) = 0.1
P (4 | s) × P(1 | n) = 0.4 × 0.1 = 0.04
.
.
.
.
setzte für alle Kombinationen xs > xn fort
→
Schritt B:
Summiere aller dieserart berechneten gemeinsamen Wahrscheinlichkeiten für xs > xn.
Schritt C:
Summiere die gemeinsamen Wahrscheinlichkeiten für xs = xn und halbiere die Summe
(weil für diese Bedingungen nur geraten werden konnte)
Schritt D:
Addiere die Ergebnisse aus den Schritten B und C.
PC (Anteil an richtigen Antworten) = 0.63+(1/2 × 0.2) = 0.73.
Tab. 2.5. Berechnung von PC für eine 2 AFC-Prozedur basierend auf den Verteilungen von
Signal und Rauschen (Abb. 2.4) aus einer Matrix gemeinsamer Wahrscheinlichkeiten des
Auftretens von xs und xn. [aus McNicol ,1972]
Dieses Verfahren ist in Tab. 2.5 veranschaulicht, wo P(x | n) entlang der Spalten und P(x | s)
entlang der Zeilen angegeben ist. Die Zellen der Matrix enthalten die gemeinsamen
Wahrscheinlichkeiten P(x | s) × P(x | n). Für Werte unterhalb der Diagonale gilt: xs > xn, d.h.
diese Werte geben die Wahrscheinlichkeiten für korrekte Antworten. Die Summe ergibt 0.63.
Für die Werte auf der Diagonale gilt xs = xn, daher wird die Summe der Werte auf der
Diagonale halbiert, da die VP mit Ratewahrscheinlichkeit in einem von 2 Trials richtig
antwortet ( 0.5 × 0.2).
→
37
PC entspricht dem weiter oben beschriebenen Anteil der Fläche unter der ROC-Kurve an der
Gesamtfläche, P(A), für das Yes-No Task überein.
2.7 Normalverteilung von Signal und Rauschen
2.7.1 Yes-No-Task
Bisher wurde die Form der s- und n-Verteilungen nicht parametrisiert. Untersuchungen
zeigten, dass die zugrunde liegenden Verteilungen gaussförmig oder zumindest ähnlich einer
Gauss’schen Form sind.
Abb. 2.5 zeigt die hypothetisierte Konfiguration der s- und n-Verteilungen. Die x-Achse
gibt die Evidenzvariable x an, skaliert in z(Standardabweichungs)-Einheiten der Verteilungen.
Die y-Achse gibt die Wahrscheinlichkeitsdichte an. Die n-Verteilung hat einen Mittelwert von
0 und eine Standardabweichung von 1 (Standard Normalverteilung), die s-Verteilung hat
ebenfalls eine Standardabweichung von 1 und ihr Mittelwert ist 1 z-Wert höher als der
Mittelwert der n-Verteilung. Eine Grundannahme der SDT ist, dass s eine nach höheren x
verschobene Version von n ist.
Abb. 2.5. Normalverteilungen von Signal und Rauschen. Mittelwert von n = 0, Mittelwert von
Signal = 1, Varianz von n und s = 1 [aus McNicol ,1972]
Weiters sind die 5 Kriterienpunkte a – e eingezeichnet. Die H und FA Werte entsprechen der
Fläche unter der Normalverteilung oberhalb (rechts) von den jeweiligen Kriterien. Der Punkt
a liegt z.B. bei -1.5 (z-Einheiten), was einer Fläche des darüberliegenden Anteils der nVerteilung von 93% entspricht (P(S | n) = 0.93). Da die s-Verteilung 1 z-Wert höher liegt als
die n-Verteilung, ist der Kriteriumspunkt a 2.5 z-Einheiten vom Mittelwert der s-Verteilung
entfernt (P(S | s) = 0.99). Auf diese Weise können aus den Verteilungen die H und FA Raten
für alle Kriterien prognostiziert werden (Tab. 2.6).
Aus den Werten in Tab. 2.6 kann eine ROC-Kurve aufgetragen werden (Abb. 2.16). Die
Wölbung der Kurve repräsentiert die Überlappung der beiden Verteilungen und daher die
Sensitivität.
38
Tab. 2.6. Distanzen der Kriterien aus Abb. 2.5 von den Mittelwerten von s und n (in zEinheiten) und zugehörige H und FA Raten [aus McNicol ,1972]
Abb. 2.16. ROC-Kurve für Normalverteilungen von Signal und Rauschen bei gleicher
Varianz. Der Mittelwert von s liegt 1 z über dem von n [aus McNicol ,1972]
Abb. 2.17 (links) zeigt ein ROC Diagramm, bei dem die H und FA Raten im z-Bereich (d.h. in
z-Einheiten) für verschiedene Kriterien aufgetragen sind. Die verschiedenen Punkte liegen
entlang einer zur Diagonale parallelen Gerade, entsprechend der Prognose des SDT-Modells.
Damit kann rückwirkend gezeigt werden, dass die zugrunde liegenden Verteilungen
gaussförmig sind, da die Kurven sonst von einer Geraden abweichen müssten.
2.7.1.1 Berechnung des Sensitivitäts-Maßes d’
Die Sensitivität, bezeichnet als d’ (ausgesprochen: „d-prime“), ist unabhängig vom gewählten
Kriterium und entspricht dem Abstand in z-Einheiten zwischen den Mittelwerten der s- und
der n-Verteilung.
d’ = z(S | s) – z(S | n) [bei gleicher Varianz von s- und n-Verteilung],
39
wobei die z-Werte entsprechend der Abbildung und Tabelle im Appendix zu entnehmen sind
(Parameter p im Appendix entspricht der Fläche unter der Kurve unterhalb des Punktes z).
Unter Erfüllung der Vorrausetzungen a) der Normalverteilung und b) identischer
Standardabweichung der beiden Verteilungen ist d’ proportional zur der Fläche unter der ROC
Kurve, P(A). Die rechte Seite von Abb. 2.17 zeigt vier verschiedene ROC Kurven, denen
unterschiedliche Sensitivität zugrundeliegt (d’ = 0.5, 1, 2 oder 3).
Abb. 2.17. links: ROC Kurve mit z-transformierten H und FA Raten: Vergleich einer ROC,
die durch die SDT prognostiziert wird und experimentell gemessenen Daten; rechts: vier
verschiedene ROC-Kurven mit d’-Werten von 0.5-3. (aus Lewis, 2003)
Aus obigem ergibt sich, dass die Sensitivität d’ unabhängig vom gewählten Kriterium ist.
2.7.1.2 Berechnung des Kriteriums ß
Das Kriterium der VP (ß), das den Übergangspunkt in der Entscheidung für S oder N darstellt,
ist durch das Verhältnis ys/yn an der Stelle des Kriteriums-Punktes gegeben, also das
Verhältnis der Höhen der s-Verteilung und der n-Verteilung am Kriteriums-Punkt (Abb. 2.18).
Die Höhe der n-Verteilung ist gegeben durch
2
e −0.5 x
yn =
,
2π
wobei x der Entfernung des Kriteriums vom Mittelwert der n-Verteilung entspricht, d.h.
z(S | n).
Die Höhe der s-Verteilung ist hingegen gegeben durch
40
2
e −0.5( x−d ')
ys =
,
2π
wobei x-d’ der Distanz des Kriteriums vom Mittelwert der s-Verteilung entspricht, d.h.
z(S | s). Vereinfachung des Verhältnisses ys/yn führt zu folgender Formel zur Berechnung von
ß:
ß = e−0.5([ z (S | s)]
2
-[z(S| n)]2 )
Der Parameter ß ist 1, wenn P(S | s) + P(S | n) = 1. Grosse Werte für ß treten bei grosszügiger
Verwendung von S auf, kleine Werte hingegen bei Anwendung eines strikteren Kriteriums.
c
Abb. 2.18. Verteilungen von s und n und das Kriterium c. Am Punkt c ist die Höhe von s ys
und die Höhe von n yn. Der Mittelwert von s ( X s ) ist d’ entfernt vom Mittelwert n ( X n ). Der
Abstand von c nach X n beträgt x und der Abstand von c nach X s (x-d’). [aus McNicol,
1972]
2.7.2 Force Choice Tasks
Weiter oben wurde die Strategie von VPn für die Signaldetektion bei Force Choice Methoden
beschrieben. Die VP wählt das Stimulus-Interval als S aus, in dem die Werte für x, die
Evidenzvariable, grösser sind als im anderen Interval, also wo xs – xn im Durchschnitt grösser
als Null ist.
Subtraktion von zwei Verteilungen ergibt eine Verteilung mit einem Mittelwert, der der
Differenz der Verteilungen entspricht. Da X s , der Mittelwert der s-Verteilung, d’ entspricht
und X n , der Mittelwert der n-Verteilung, 0 ist, ist X D ,der Mittelwert der Verteilung xs - xn
X s - X n = d’ – 0 = d’.
41
Die Varianz der Differenzverteilung entspricht der Summe der Varianzen der beiden
Verteilungen: σs2 + σn2. Da sowohl σs als auch σn 1 betragen, beträgt σD, die
Standardabweichung der Verteilung xs – xn, (12 + 12)1/2 = 21/2. Die gestrichelte Fläche in Abb.
2.19 rechts von xs - xn = 0 entspricht PC, dem Prozentsatz an korrekten Antworten bei der
2AFC Methode.
PC kann in einem 2AFC Experiment bestimmt werden. d’ entspricht dem Abstand zwischen
xs - xn = 0 und der Mitte der Verteilung und ist durch Normalverteilungstabellen bestimmbar.
Da aber die Differenzverteilung eine Standardabweichung von 21/2 hat, entspricht die Distanz
zwischen dem Mittelwert der Differenzverteilung und xs – xn = 0, z(Pc), nicht mehr d’,
sondern
z ( Pc) =
d'
2
Daher kann d’ für ein 2AFC Experiment folgendermaßen berechnet werden:
d ' = 2 z ( Pc )
Abb. 2.19. (a) Verteilung der Evidenzvariable x für das Signalintervall (s) und das
Rauschintervall (n). Beide haben eine Standardabweichung von 1. (b) Verteilung der
Differenzen xs – xn mit Mittelwert d’ und Standardabweichung 21/2. Die gestrichelte Fläche
entspricht P(C), dem Anteil an richtigen Antworten. [aus McNicol ,1972]
Abb. 2.20 zeigt den Zusammenhang zwischen den aus einem 2AFC Experiment gewonnenen
Prozent-korrekt Werten und d’ Werten, wie sie aus dem Yes-No Task gewonnen werden. Ca.
in der Mitte zwischen der Ratewahrscheinlichkeit (PC = 0.5) und perfekter Sensitivität (PC =
1) liegt PC = 0.76, was dem Wert d’ = 1 entspricht.
42
Abb. 2.20. Zusammenhang zwischen %-korrekt Werten aus 2AFC Prozedur und d’ aus YesNo Task [aus Hartman, 1998].
2.8 Zusammenfassung
Da
1) positiver und monotoner Zusammenhang zwischen Reizgrösse und interner Variable x.
2) Zufällige Fluktuation (Variabilität) von x über die Zeit: kann einerseits durch Änderungen
im Reiz hervorgerufen werden (z. B. Rauschen im Testsignal) und andererseits durch
Fluktuationen in der neuronalen Verarbeitung der VP entstehen (z. B. spontanes zufälliges
Pattern von Feuerung der Hörnerv-Neuronen in Ruhe (Spontanaktivität) → Reizeinwirkung
wird durch Anstieg der Feuerungsrate + Überlagerung mit dem spontanen Feuerungspattern
codiert)
3) Für beide Verteilungen entspricht der Mittelwert der Spitze der Verteilung.
4) Durch Hinzufügen eines Reizes zum vorhandenen internen Rauschen wird die sensorische
Aktivität (entlang von x) um einen Betrag verschoben, der der Sensitivität des sensorischen
Systems entspricht.
-starker Reiz: grosse Erhöhung von x im Verhältnis zur spontanen Variabilität
→ Verschiebung der n-Verteilung zu grösseren x hin
geringe Unsicherheit
-schwacher Reiz: geringe Erhöhung von x im Verhältnis zur spontanen Variabilität
→ kleine Verschiebung der n-Verteilung zu grösseren x hin
VP kann fast nur raten, ob Reiz vorhanden oder nicht
5) Der Abstand zwischen den Spitzen d. beiden Verteilungen, d', ist ein Mass für die
Trennung der beiden Verteilungen und damit der Diskrimination des Signals.
→
→
43
probability density
2.9 Appendix
p
O
-
+
0
z
z-score
Parameter der Standardnormalverteilung
z
p
O
z
p
O
z
p
O
-3.000
-2.900
-2.800
-2.700
-2.600
-2.576
-2.500
-2.400
-2.326
-2.300
-2.200
-2.100
-2.000
-1.900
-1.800
-1.700
-1.645
-1.600
-1.500
-1.400
-1.300
-1.200
-1.100
0.001
0.002
0.003
0.003
0.005
0.005
0.006
0.008
0.010
0.011
0.014
0.018
0.023
0.029
0.036
0.045
0.050
0.055
0.067
0.081
0.097
0.115
0.136
0.004
0.006
0.008
0.010
0.014
0.014
0.018
0.022
0.027
0.028
0.035
0.044
0.054
0.066
0.079
0.094
0.103
0.111
0.130
0.150
0.171
0.194
0.218
-1.000
-0.900
-0.800
-0.700
-0.600
-0.500
-0.400
-0.300
-0.200
-0.100
0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.800
0.900
1.000
1.100
1.200
0.159
0.184
0.212
0.242
0.274
0.309
0.345
0.382
0.421
0.460
0.500
0.540
0.579
0.618
0.655
0.691
0.726
0.758
0.788
0.816
0.841
0.864
0.885
0.242
0.266
0.290
0.312
0.333
0.352
0.368
0.381
0.391
0.397
0.399
0.397
0.391
0.381
0.368
0.352
0.333
0.312
0.290
0.266
0.242
0.218
0.194
1.300
1.400
1.500
1.600
1.645
1.700
1.800
1.900
2.000
2.100
2.200
2.300
2.326
2.400
2.500
2.576
2.600
2.700
2.800
2.900
3.000
0.903
0.919
0.933
0.945
0.950
0.955
0.964
0.971
0.977
0.982
0.986
0.989
0.990
0.992
0.994
0.995
0.995
0.997
0.997
0.998
0.999
0.171
0.150
0.130
0.111
0.103
0.094
0.079
0.066
0.054
0.044
0.035
0.028
0.027
0.022
0.018
0.014
0.014
0.010
0.008
0.006
0.004
2.10 Literatur zur Psychophysik und Signaldetektionstheorie
Gelfand, S. (1990). “Hearing: An introduction to psychological and physiological acoustics,” Marcel Dekker.
Hartman, W. (1996). “Signal, sounds and sensation,” Springer Verlag.
McNicol (1972). “A primer of signal detection theory,” G. Allen & Unwin Ltd.
44
3 PHYSIOLOGIE UND FUNKTION DES NORMALEN UND
GESCHÄDIGTEN GEHÖRS
3.1 Aussenohr
Die Ohrmuschel (Pinna) und der äussere Teil des Gehörgangs (=Ohrkanals) bestehen aus
elastischem Knorpel. Die Mikrostruktur der Pinna weist grosse inter-individuelle
Unterschiede auf. Erst weiter innen im Gehörgang geht der Knorpel in härteren Knochen über.
Die Form des Gehörgangs ist leicht zum Schutz vor mechanischen Schädigungen des
Trommelfells leicht gekrümmt. Die Krümmung kann bei der Otoskopie durch Zug an der
Ohrmuschel nach hinten oben aufgehoben werden. Bei der Otoskopie werden die
Durchgängigkeit des Gehörgangs und Auffälligkeiten des Trommelfells überprüft.
Fig. 3.1 Aufbau des periphären Gehörorgans.
3.1.1 Funktion
A) Bündelung des Schalls für hohe Frequenzen entsprechend der Wirkung eines akustischen
Trichters.
B) Pinna und Gehörgang erzeugen gemeinsame eine starke Resonanz im Bereich 1.5-5 kHz,
wobei das Verstärkungmaximum von 12 dB bei ca. 2.5 kHz auftritt (Fig. 3.2). Erwähnenswert
ist an dieser Stelle die Tatsache, dass bei Verschluss des Gehörgangs durch abdichtende
Hörgeräte diese Resonanz abgeschwächt und zu höheren Frequenzen verschoben wird.
C) Im Frequenzbereich oberhalb von ca. 4-5 kHz, wo die Wellenlänge kleiner oder gleich den
Dimensionen der Pinna ist, erfolgt eine richtungsabhängige Filterung des einfallenden Signals.
Diese entsteht primär durch Reflexion der Schallwelle an den knorpeligen Pinna-Strukturen
und überlagerung mit dem Direktschall. Diese Filterung ist wichtig für die Ortung von
Schallquellen entlang der sogenannten Sagittalebenen, die normal zur Ohrachse, der
Verbindungslinie zwischen den beiden Ohren, liegen (Details in Kap. Lokalisation).
Ausserdem ist die Richtungsfilterung Vorraussetzung für die sogenannte Externalisation von
Schallquellen: Beim Fehlen der Pinna-Filterung, wie bei der Kopfhörerwiedergabe, findet
keine Externalisation statt, sondern sogenannte „Im-Kopf-Lokalisation“ (Blauert, 1983). Im
tieferen Frequenzbereich ist die Form des Oberkörpers und des Kopfes entscheidend für die
45
Richtungsfilterung, wobei Untersuchungen zeigtn, dass die für die Lokalisation wichtigen
spektralen Merkmale im Frequenzbereich der Pinna-Cues liegen (>4-5 kHz).
Es treten grosse interindividuelle Unterschiede in der Ohrform auf, wobei es „gute“ und
„schlechte“ Pinnas gibt. Bei Menschen mit „schlechten“ Pinnas ist die Wahrscheinlichkeit
von vorne/hinten- Verwechslungen von Schallquellen deutlich erhöht. Weiters wirken sich
„schlechte“ Pinnas in einem grösserer Lokalisationsfehler entlang der Sagittalebenen aus.
Analysen der HRTFs (head related transfer functions), d.h. der richtungsabhängigen
Übetragungsfunktionen, von Menschen mit „schlechten“ Pinnas zeigten, dass die
zugrundeliegenden richtungscharakteristischen Merkmale oftmals weniger stark ausgeprägt
bzw. nicht eindeutig einer Richtung zuordenbar sind.
Fig. 3.2. Ohrkanal-Übertragungsfunktion bei frontal (genau vor der Testperson) plazierter
Schallquelle [aus Gelfand, 1997].
3.2 Mittelohr
3.2.1 Physiologie
Das Mittelohr (Fig. 3.3) liegt in der luftgefüllten Paukenhöhle (über Eustachische Röhre mit
Nasen-Rachenraum verbunden). An das Trommelfell sind die Gehörknöchelchen (Hammer,
Amboß und Steigbügel) angeschlossen und mit dem ovalen Fenster des Innenohres
verbunden. Ein Gleitreibungsgelenk zwischen Hammerkopf und Amboß gibt bei starken
statischen Auslenkungen (z.B. permanenter Unterdruck im Mittelohr) nach. Dadurch wird der
den Umständen entsprechend optimale Arbeitspunkt erreicht.
Fig. 3.3. Aufbau und Funktion des Mittelohres [aus Gelfand, 1997].
46
3.2.2 Funktion
Die Hauptfunktion des Mittelohres liegt in der Impedanzanpassung zwischen akustischer
Wellenfortbewegung in Luft (kleine Auslenkungskräfte und grosse Auslenkung der
Luftteilchen) und der sehr hohen Impedanz im flüssigkeitsgefüllten Innenohr.
Dies wird durch folgende Eigenschaften erreicht:
A) grosse Trommelfell-Fläche im Verhältnis zur kleinen Fläche des ovalen Fensters (22:1)
B) Hebelverhältnis (langer Hammergriff und kurzer Ambossfortsatz): 1:1.2
C) Krümmung des Trommelfells (Prinzip der gekrümmten Membran): 1:2
Insgesamt ergibt sich eine ca. 50-fache Verstärkung der Kraft pro Flächeneinheit. Ohne
Impedanzanpassung würde der Schall am ovalen Fenster reflektieren (geringere
Empfindlichkeit) und nicht in Flüssigkeit der Cochlea übertragen werden. Die Übertragung
von Schall durch das Mittelohr ist am effizientesten im Bereich 0.5 - 4 kHz (Fig. 3.4).
Fig. 3.4 Übertragungsfunktion des Mittelohres; entspricht der
100 Phon-Kurve aus ISO 226.
3.3 Mittelohr-Reflex
Der Stapediusmuskel ist für die Auslösung des sogenannten Stapediusreflexes verantwortlich.
Dieser Muskel greift am Steigbügelfussstück an, wobei die Steuerung über den Hirnstamm
erfolgt. Dies soll Schutz vor der Übertragung von zu hohen Schallintensitäten dienen, wobei
stempelförmige Bewegung in Pendelbewegung umgesetzt wird. Der Stapediusreflex ist durch
alle Frequenzen auslösbar, aber nur bei tiefen Frequenzen wirksam. Vor impulsartiken
Schallen bietet er aber keinen Schutz, da die Reaktionszeit (bedingt durch die neuronale
Übertragungszeit) zu langsam ist.
3.3.1 Funktionsprüfung des Mittelohres
Tympanometrie: Messung der Impedanz im Gehörgang unter systematischer Variation des
Luftdrucks im Gehörgang: Auffindung des Maximums der Schallübertragung zum Innenohr
• tritt bei normaler Mittelohrfunktion und Tubenbelüftung genau bei atmosphärischem
Druck auf
• Messapparatur: Tongenerator und Probemikrophon im Ohrkanal. Messung des vom
Trommelfell reflektierten Schallanteils
47
„Akust. Reflexschwelle“ mittels Impedanzaudiometrie: Stapediusreflex führt zur Veränderung
der Impedanz. Wird zur Diagnose (bzw. Lokalisation) einer Hörstörung eingesetzt (Mittelohr,
Innenohr, erste Stationen der Hörbahn, efferentes System = Rückkopplungsschleife vom
Gehirn zum Innenohr)
3.3.2 Schallleitungs-Schwerhörigkeit
Ursachen
• Verschluss des Gehörgangs (z.B. falsche Reinigungstechnik)
• Mittelohrdefekt (z.B. Trommelfellbeschädigung, Ausrenkung der Gehörknöchelchen,
Fixation der Steigbügelplatte am ovalen Fenster bei Otosklerose etc.)
Diagnose
• Impedanzaudiometrie
• Tonaudiometrie (Vergleich Luftleitung-Knochenleitung)
Auswirkung
Mittelohrschäden führen zur frequenzspezifischen Abschwächung der Schallübertragung. Im
Gegensatz
zur
Innenohrschwerhörigkeit
kann
Mittelohrschwerhörigkeit
durch
frequenzabhängige Verstärkung gut kompensiert werden.
3.4 Innenohr und Gehörschnecke (Cochlea)
3.4.1 Lage
Das Innenohr liegt im Felsenbein, dem härtesten Knochen des Menschen. Es bildet eine
anatomische Einheit zusammen mit dem Gleichgewichtsorgan (Fig. 3.5 oben).
3.4.2 Aufbau:
Röhrenartige, eingerollte Struktur von ca. 35 mm Länge im ausgerollten Zustand, die aus drei
Unterteilungen (Kompartimenten) besteht (Fig. 3.5 unten):
• Scala Vestibuli
• Scala Tympani
• Scala Media
Das eine Abdichtung gegenüber der Steigbügelfussplatte bildende ovale Fenster mündet in der
Scala Vestibuli. Das Helikotrema am oberen Ende der Cochlea stellt eine Verbindung
zwischen Skala Vestibuli und Skala Tympani her. Die Skala Tympani ist über das runde
Fenster zum Mittelohr hin abgedichtet.
Die Skala V. und Skala T. sind mit Perilymphe (niedr. Kalium-, aber hoher
Natriumgehalt), und die Skala Media mit Endolymphe (hoher Kalium-, aber niedriger
Natriumgehalt) gefüllt.
Daraus ergibt sich eine Spannungsdifferenz von ca. -40 mV der Endolymphe gegenüber
Perilymphe. Diese Spannungsdifferenz liegt an der Basilarmembran an (zw. Skala Media und
Skala Tympani).
48
Fig. 3.5 Struktur des Innenohres (Cochlea) und des Gleichgewichtsorganes
(Vestibularapparat); Einbettung in das Felsenbein (oben) und Querschnitt durch die Cochlea
(unten) [aus Kießling, Kollmeier und Dillier, 1997].
3.4.3 Basilarmembran-Schwingung
Die Schwingungsform der Basilarmembran (BM) hat entscheidende Bedeutung für die
Schallwandlung. Die periodische Druckanregung über das ovale Fenster bewirkt eine
Druckdifferenz zwischen Skala V. und Skala T., was zur Ausbreitung einer Wanderwelle
entlang der BM führt. Hohe Frequenzen haben ein Maximum beim ovalem Fenster (auch
Basis der Cochlea genannt), tiefe Frequenzen beim Helikotrema (Apex). Die
Druckausbreitung ist instantan (momentan), während sich die Wanderwelle mit
Zeitverzögerung aufbaut.
Ursachen für die Frequenzaufteilung (Tonotopie) der BM:
• zunehmende Breite von Basis zu Apex
• abnehmende Steifigkeit von Basis zu Apex
Die Form der BM-Schwingung ist identisch bei Luft- wie bei Knochenleitungsanregung. Die
Entstehung der Wanderwelle kann mit einem an einer Seite periodisch ausgelenkten Seil
verglichen werden, dessen Querschnitt von der Anregungsstelle weg zunimmt.
3.4.4 Wanderwelle
Aus Simulation ist bekannt, dass die Schneckenform der Cochlea interessanterweise keinen
Einfluss auf die Form der Wanderwelle hat. Die Amplitude der Wanderwelle nimmt von der
Basis zum Apex hin bis zum Maximum zu und fällt dann abrupt ab (Fig. 3.6).
Messung der Schwingungsform:
• Stroboskopische Messtechnik (v. Bekesy, Nobelpreis 1960) bei toten Tieren im
apikalen Bereich (passiv)
49
•
modernere Methoden (z.B. Mösbauertechnik od. Laserinferometrie) bei lebendern
Tieren (aktiv)
Fig. 3.6 Instantane Auslenkung der BM zu zwei aufeinanderfolgenden Zeitpunkten
entsprechend einem Modell der Cochlea. Die Bewegung erfolgt von links nach rechts; aus den
Amplitudenspitzen extrahierte Hüllkurve (strichlierte Linie) [nach von Bekesy, 1947].
3.4.5 Frequenzauflösung der BM
Die Abstimmcharakteristik der BM ergab nach van Bekesy einen Q-10 dB-Wert
(Mittenfrequenz/Bandbreite bei -10dB) von ca. 1, gemessen bei sehr hohen Schallpegeln von
ca. 140 dB SPL. Neuere Messungen bei lebendigen Tieren und mit moderneren Methoden
(Laserinferometrie) bei niedrigeren Pegeln ergeben wesentlich höhere Filtergüte.
3.4.6 Abstimmkurve (Tuning Kurve)
Pegel, der zur Erreichung bestimmter (konstanter) Auslenkung der BM (bzw. BM-Schnelle)
an festem Ort der BM als Funktion der Frequenz notwendig ist. Die Tuning-Kurve wird also
für einen Punkt der BM gemessen. Q-10 Werte bei der gesunden Cochlea liegen im Bereich
von 3-10.
-10 dB Bandbreite
Fig. 3.7 An einer Stelle der BM gemessene Tuningkurve (CF [characteristische Frequenz] =
18 kHz); gefüllte Kreise: Tier in guter Verfassung bei 13-34 dB SPL; leere Kreise: bei 53-83
dB SPL; gefüllte Rechtecke: post mortem [nach Sellick et al, 1982].
3.4.7 Mikromechanik der Cochlea (Cortisches Organ)
Die BM ist von der gallertartigen Tektorialmembran bedeckt (Fig. 3.8). Auf der BM sitzt eine
Reihe von inneren Haarzellen (IHZ, 3500 Stück) und 3-4 Reihen von äusseren Haarzellen
(OHZ, 25000 Stück) sowie Stützzellen (Fig. 3.9). Am oberen Ende der Haarzellen sitzen
50
Haare (Stereozilien), die mit der Tektorialmembran verbunden sind (140 für jede OHZ und 40
für jede IHZ). Scherkräfte zwischen der Basilar- und der Tektorialmembran bewirken seitliche
Auslenkung der Stereozilien. Auslenkung in einer Richtung führt zur Depolarisation der
Haarzelle durch Öffnunung von Ionenkanälen (weniger negatives Potential des Zellinneren),
aber nicht bei Auslenkung in der anderen Richtung (Gleichrichtung).
→ Auslösung von neuronaler Feuerung (Spike-Generierung)
Fig. 3.8 Mikromechanik der Cochlea (Cortisches Organ) [aus Gulick et al, 1989]
IHC
OHCs
Fig. 3.9 Detailansicht der Anordnung der Haarzellen; IHC = innere Haarzellen, OHC =äussere
Haarzellen [aus Dallos et al. 1996].
3.4.8 Aktivität der äusseren Haarzellen
Rückkopplung der Schwingungsenergie bewirkt aktiven „cochleären Verstärker“ (Fig. 3.10).
Dies führt zu einer drastischen Verbesserung der Abstimmeigenschaften der BM und der
Sensitivität. Auslenkung der Stereozilien und Depolarisation der OHZs führt zur Kontraktion
(Längenveränderung) in Phase mit dem anregenden Signal, wobei der genaue Mechanismus
noch nicht geklärt ist. Aktive Mechanismen sind grundsätzlich nur bei niedrigen Pegeln
wirksam (Sättigung bei höheren Pegeln).
• Afferente Nervenfasern: führen von den IHZs zum Gehirn, und wirken als Sensoren
für die Bewegung der BM.
51
•
Efferente Fasern: führen vom Hirnstamm (olivo-cochleäres Bündel) zu den OHZs, und
ermöglichen aktive Kontraktionen
IHC
Längenkontraktion der OHCs
Fig. 3.10 Schematische Darstellung der Aktivität der OHZs [von F. Mammano].
3.4.9 Tuning Curven bei sensorineuraler Schwerhörigkeit
Ausfall der IHZs führt zur Reduktion der Sensitivität, während bei Ausfall der OHZs aktive
Prozesse gestört sind, also die Sensitivität für geringe Pegel und die Frequenzselektivität (Fig.
3.11).
Ausfall der OHCs
Ausfall der IHCs
normale Tuningkurve
Fig. 3.11 Effekt des Ausfalles von IHZs und OHZs [aus Kollmeier, 1998].
3.4.10 Komplexe Eingangssignale
Interaktion der Anregung für benachbarte Anregungssignale (z.B. 2 Sinustöne):
• Ein breites Maximum anstatt zwei einzelner Maxima
• Für harmonische Komplexe schlechtere Auflösung von höheren Teiltönen
Ursache: oberhalb von 500 Hz ist die Breite der Anregungsmuster für Sinustöne proportional
dem Logarithmus der Anregungsfrequenz, während die Abstände der Teiltöne konstant sind
(in linearer Frequenzskala).
3.4.11 Zwei-Ton-Suppression
Die sognenannte „Zwei-Ton-Suppression“ der Basilarmembran bezeichnet das Phänomen,
dass die durch einen Ton ausgelöste Aktivität durch Hinzufügen eines Suppressortons mit
angrenzender CF reduziert wird. Fig. 3.12 zeigt die Ergebnisse der Messung des Effektes der
sogenannten „2-Ton Suppression“ der BM bei CF = 8.6 kHz. Bei Hinzufügen eines
Suppressortons bei 10.6 kHz nimmt die Auslenkung der BM mit steigendem Pegel des
Suppressortons ab. Der Frequenz- und Pegelbereich, in dem Suppression auftritt, ist im
Kapitel über „neuronale „Zwei-Ton-Suppression“, die analog zur Zwei-Ton-Suppression der
52
BM ist, dargestellt (Kap. 3.4.21). Die Zwei-Ton-Suppression entsteht höchstwahrscheinlich
am Ort der Umsetzung von mechanischer in neuronale Aktivität (Haarzellen).
Fig. 3.12. Zwei-Ton Suppression der BM bei CF = 8.6 kHz (siehe Text) [nach Ruggero,
1992].
3.4.12 Kombinationstöne
Kombinationstöne entstehen durch Nicht-Linearitäten in der cochleären Verarbeitung. Die
stärksten Kombinationstöne sind
• f2-f1 („einfacher Differenzton“)
• 2f1-f2 (f2 > f1)
2f1-f2 ist besonders gut hörbar, wenn f2 = f1 x 1.2. Kombinationstöne treten nur auf, wenn die
Cochlea in „guter“ physiologischer Verfassung ist.
3.4.13 Neuronale Antworten im gesunden Gehör
Neuronale Antworten der Nervenfasern werden bei Versuchtieren mittels Mikro-Elektroden
gemessen, die an einzelnen Hörnervenfasern angelegt werden.
Nervenfasern feuern auch ohne Eingansstimulus mit der sogenannten Spontanfeuerrate.
Neuronen werden hinsichtlich ihrer Spontanfeuerrate in drei Gruppen unterschieden:
• 61% hohe Raten (18-250) Spikes/s)
• 23% mittlere Raten (0.5-18 Spikes/s)
• 16% niedrige Raten (< 0.5 Spikes/s)
Die Spontanrate korreliert mit der Grösse und Position der Synapsen der IHZ-Neuronen. Die
Schwelle eines Neurons wird als der minimale Schallpegel bezeichnet, bei dem
Veränderungen der neuronalen Antwort registriert werden. Neuronen mit hohen Spontanraten
haben allgemein niedrigere Schwellen als Neuronen mit niedrigen Spontanraten. Die
Schwellen der Neuronen variieren im Bereich 0 – 80 dB SPL.
3.4.14 Neuronale Abstimm(Tuning)-Kurve
Die neuronale Abstimm(Tuning)-Kurve ergibt sich aus der Tuningkurve der BM. Zur
Messung werden kurze Ton-Bursts verwendet zur
• Vermeidung von Adaptationseffekten
53
•
besseren Unterscheidung zwischen spontaner und evozierter neuronaler Aktivität (in
höheren Verarbeitungs-Zentren)
Die Steilheit der neuronalen Tuningkurven ist identisch mit der Steilheit der Anregung der
BM (siehe Fig. 3.7). Tuning Kurven werden üblicherweise bei knapp überschwelligem
neuronalem Signal gemessen. Sie können allerdings ebenso als Kurven mit gleicher
Feuerungsrate (ISO-Raten Konturen) aufgetragen werden (d.h. für höherer Signalpegel).
Dabei ergibt sich eine ähnliche Form, aber Abflachung mit steigendem Pegel (Fig. 3.13).
Fig. 3.13 Tuningkurven einzelner Neuronen bei der Katze (siehe Text) [nach Palmer, 1987].
3.4.15 Rate versus Pegel Funktion
Der Dynamikbereich der Neuronen ist durch den Pegelbereich des Eingangssignals definiert,
der von der Schwelle bis zur Sättigung der Spikeratenveränderung überstrichen wird. Je nach
Neuronentyp variiert der Dynamikbereich von ca. 20 bis 60 dB (Fig. 3.14). Neuronen mit
niedrigen Schwellen (hohen Spontantraten) haben allgemein kleinere Dynamik.
Fig. 3.14 Pegelabhängigkeit der neuronalen Feuerungsrate eines Neurons bei CF = 5.8 kHz.
Der Punkt AVDL markiert den kleinsten Pegel, bei dem eine Änderung der Feuerungsrate
registriert wird [nach Kiang, 1968].
3.4.16 Zwei Komponenten der Feuerungsraten- versus EingangspegelFunktion
Fig. 3.15 zeigt schematisch, wie sich die Funktion Feuerungsrate versus Pegel und damit die
Dynamik von Neuronen verschiedener Sensitivität (Spontanrate) aus der BM Eingangs54
Ausgangsfunktion (oben rechts) und der Funktion neuronale Feuerungsrate (in Spikes/s) vs
Vibration der BM (oben links) zusammensetzt [aus Moore, 1995; nach Patuzzi, 1992].
Neurale Feuerungsrate vs.
Auslenkung d. BM
Ł gleiche Steigung für
verschiedene Neuronen, aber
unterschiedliche Sensitivitäten
EingangsAusgansfunktion
der BM
Ł abhängig vom
Eingangspegel
Fig. 3.15 Die 2 Komponenten der Feuerungsrate versus Pegel Funktion [aus Moore, 1995;
nach Patuzzi, 1992].
3.4.17 Phase-Locking
Der Ausdruck Phase Locking beschreibt die Eigenschaft der Neuronen, synchron zur Phase
der Wellenform des Eingangssignals (BM-Bewegung) zu feuern. Dies geschieht nicht
unbedingt bei jeder Periode des Signals, aber meist in derselben Phasenlage. Die Zeitintervalle
der Feuerung sind ganzzahlige Vielfache der Periode der Wellenform. Die
Feuerungswahrscheinlichkeit ist am grössten bei Amplitudenmaxima. Neuronale Feuerung
erfolgt nicht mit strikt regulären Raten, aber die Übertragung d. Signalperiode im SpikePattern eines Neurons ist meist eindeutig. Fig. 3.16 zeigt auch, dass die Kodierung des
akustischen Signals im Hörnerven als Halbwellengleichrichtuung aufgefasst werden kann.
Fig. 3.16 Kodierung eines akustischen Stimulus im Hörnerven; sowohl die Eigenschaft des
Phase Locking und der Halbwellengleichrichtung ist ersichtlich [aus Kollmeier, B., Skriptum
„Audiologie“].
3.4.18 Physiologischer Mechanismus
Der zugrunde liegende Mechanismus liegt in der Stereozilien-Bewegung der IHZs zum Rand
der Cochlea hin (BM nähert sich der Tektorialmembran). Dabei findet eine
Halbwellengleichrichtung statt, da Stereozilien nur in einer Richtung depolarisieren. Die
maximale Feuerungsrate liegt bei ca. 1000 Spikes/sec (absolute Refraktärzzeit: 1 ms). Ab
einer Frequenz von ca. 1 kHz nimmt die Präzision des Phase Locking kontinuierlich ab und
einzelne Perioden werden ausgelassen (statistisch verteilt). Ab 4-5 kHz gibt es kein PhaseLocking mehr. Die Präzision des Phase-Locking nimmt mit steigendem Pegel von der
Schwelle weg bis zu mittleren Pegeln kontinuierlich zu und bleibt darüber hinaus konstant.
55
3.4.19 Interspike-Interval-Histogramm
Interspike-Intervall-Histogramme
geben
die
Verteilung
der
Zeitintervalle
aufeinanderfolgender neuronaler Spikes an. Fig. 3.17 zeigt solche Interspike-IntervallHistogramme für Neuronen mit verschiedenen CFs bei einer Signalfrequenz von 1.6 kHz.
Spikes werden mit der grössten Wahrscheinlichkeit in Abständen von ganzzahligen
Vielfachen der Periode des Stimulus (Punkte in den Graphen) abgefeuert. Die „Schärfe“ der
Spike-Muster nimmt mit steigender CF ab. Die perzeptiven Konsequenzen dieses
Mechanismus werden noch untersucht und diskutiert, insbesondere in Bezug auf die
Tonhöhenwahrnehmung und die Maskierung (siehe weiter unten), wobei die Relevanz für die
Wahrnehmung von Interauralen Zeitdifferenzen (ITD) ausser Frage steht.
Fig. 3.17. Interspike-Interval-Histogramm einer einzelnen Hörnervenfaser beim Affen bei CF
= 1.6 kHz bei 80 dB SPL. Beachte, dass die Zeit-Skalierung bei E und F anders ist als bei A-D
[nach Rose, 1968].
3.4.20 Kodierung des akustischen Dynamikbereichs (von ca. 120 dB)
Nach Beobachtung des relativ geringen Dynamikbereichs einzelner auditorischer Neuronen
stellt sich die Frage, wie der gesamte Dynamikbereich des auditorischen Systems (von der
absoluten Hörschwelle bis zur Unbehaglichkeitsschwelle) von ca. 120 dB kodiert wird. Dafür
stehen vier Mechanismen zur Verfügung:
1) Synchronisation mit Stimulus
Bevor bei steigendem Eingangspegel die Feuerungssrate steigt, tritt eine Erhöhung der
Synchronisation mit dem Stimulus (verstärktes Phase-Locking) auf. D.h., die Schwelle für die
Erhöhung der Synchronisation ist niedriger als die Schwelle für die Ratenerhöhung. Bei
zunehmender Reizintensität erfolgt eine Konzentration um eine bestimmte Stimulus-Phase
und eine stärkere Korrelation mit der periodischen Reizstruktur (Fig. 3.18).
56
Fig. 3.18 durchgezogene Linie: Schwelle für Ratenerhöhung (= Tuning-Kurve); punktierte
Linie: Schwelle für die Erhöhung der Synchronisation der Spontan-Feuerrate mit dem
Stimulus, bevor die Feuerrate steigt; Messung an einem Neuron [aus Kollmeier, B., Skriptum
„Audiologie“].
2) Erhöhung der Feuerrate
Die Feuerungsrate ist ein Mass für die Amplitude. Zusammen mit der Erhöhung der
Synchronisation wird ein Dynamikbereich von ca. 30-40 dB für eine einzelne Nervenfaser
überstrichen.
3) Einbeziehung von Fasern mit höherer Schwelle
Afferente Nervenfasern variieren stark hinsichtlich ihrer Schwellen und Spontan-Spikeraten.
Bei zunehmendem Reizpegel erfolgt die sukzessive Aktivierung von Neuronen mit höhreren
Schwellen (und niedrigeren Spontanraten), was eine Erweiterung des Dynamikbereichs um ca.
50 dB bewirkt.
4) Ausbreitung des Bereichs aktiver Neuronen („Spread of Excitation“)
Mit zunehmendem Reizpegel breitet sich das Erregungsmuster (Excitation Pattern) auf der
BM weiter aus (asymmetrisch stärker zu hohen Frequenzen hin), wobei zunehmend Neuronen
mit nicht-charakteristischen Frequenzen (nicht der Reiz-Frequenz entsprechend) aktiviert
werden, d.h. immer mehr Neuronen feuern synchron auf denselben Reiz. Bei kleinen Pegeln
(40 dB) erfolgt symmetrische Anregung um die CF, während bei zunehmendem Pegel ein
immer grösserer Bereich von immer tieferen Frequenzen zur Feuerung führt (Fig. 3.19). Die
Ausbreitung des Bereichs aktiver Neuronen führt zu einer Erweiterung des Dynamikbereichs
um 20-40 dB.
57
Fig. 3.19 Feuerrate für ein Neuron bei CF = 6.2 kHz für verschiedene Stimulus-Frequenzen
bei verschiedenen Stimuluspegeln (siehe Text) [aus Popper et al., 1992].
3.4.20.1 Adaptation
Die Adaptation ist ein typisches Verhalten der Hörnervenfaser. Beim Onset (Beginn) des
Stimulus) tritt eine hohe Entladungsrate und hohe Synchronizität mit dem Einschaltzeitpunkt
auf. Dann erfolgt eine Einregelung der Rate auf ein geringeres Niveau. Beim Offset
(Ausschalten des Stimulus) sinkt die Rate rapide ab und steigt dann langsam bis zur
Spontanrate an (Fig. 3.20).
Insgesamt erfolgt eine Adaptation auf einen stationären Zustand, der in seiner Amplitude nicht
so stark übertragen wird wie die dynamischen Veränderungen des Reizes. Die physiologische
Ursache liegt in der Erschöpfung der Transmitter-Produktion in den IHZs.
Stimulus-Amplitude (BM-Auslenkung)
Neuronen-Antwort
Fig. 3.20. Adaptations-Verhalten der Hörnervenfaser.
3.4.21 Neuronale Zwei-Ton-Suppression
Der Effekt der neuronalen Zwei-Ton-Suppression ist analog zum Zwei-Ton SuppressionsEffekt der BM (mechanische Ursache) zu betrachten. Ein Suppressor-Ton innerhalb der
Tuningkurve (leere Kreise in Fig. 3.21) führt zur Erhöhung der Feuerungsrate von Neuronen
bei der CF. Ein Suppressor-Ton innerhalb des schraffierten Bereichs in Fig. 3.21 führt zu
20%iger Reduktion der Feuerungsrate. Die Koppelung des Effekt mit dem Suppressor-Ton
liegt im Millisekundenbereich.
58
Fig. 3.21 Neuronale Zwei-Ton Suppression; offene Kreise: Tuningkurven bei CF = 8 kHz
(Testton bei CF gerade über der Schwelle); bei Hinzufügen von Suppressor-Ton im
schraffierter Bereich nimmt die neuronale Antwort auf den Testton um > 20% ab [aus Arthur,
1971].
3.4.22 Physiologie und Funktionalität der geschädigten Cochlea
Bei cochleären Hörschäden unterschiedlichster Ursachen tritt Ausfall oder Zerstörung der
Stereozilien oder der ganzen Zellkörper auf (Fig. 3.22). OHZs sind allgemein wesentlich
anfälliger gegenüber Degeneration oder Ausfall als IHZs. Der Ausfall der OHZs führt zum
Wegfall oder zur Reduktion der aktiven Prozesse in der Cochlea, was folgende Konsequenzen
hat:
• Der Pegel eines Signals muss höher sein, um eine gegebene Auslenkung der BM zu
bewirken (reduzierte Sensitivität für niedrige Pegel)
• Breitere Tuning-Kurven auf der Basilarmembran
• Fehlen der frequenz-selektiven nicht-linearen Effekte (z.B. Kombinationstöne, ZweitonSuppression).
59
Fig. 3.22 Beispiel der Schädigung der OHZs; im oben dargestellten Fall sind einige der
Stereozilien ausgefallen, im in der Mitte dargestellten Fall sind die Stereozilien massiv
zerstört und unten im rechten Bereich komplett ausgefallen [von A. Forge].
3.4.23 Effekte sensorineuraler Schwerhörigkeit
Robertson und Manley (1974) entdeckten, dass die Sauerstoffzufuhr die Sensitivität und
Frequenzspezifität der Neuronen beeinflusst. Evans (1975) berichtete, dass die selektive
Ausschaltung der OHZs durch bestimmte die Sauerstoffzufuhr hemmende Wirkstoffe
(Furosemide, Kanamyzin, Kanamycin) zur Schwellenerhöhung und Reduktion der Steilheit
der neuronalen Filter führt. Ruggero und Rich (1991) machten ähnliche Beobachtungen bei
Messungen der BM Schwingung.
Fig. 3.23 zeigt die BM Antworten auf verschiedene Eingangssignale, gemessen bei einer
CF von 9 kHz. Die durchgezogenen Linien zeigen die Standardbedingung (volle Rechtecke:
CF-Ton; leere Kreise: 1000 Hz Ton), während die strichlierten Linien die Messungen in
bestimmten Intervallen nach der Verabreichung von Furosemide zeigen. Es zeigt sich ein
Wegfall der Kompressivität für die CF-Bedingung, während kein Effekt für den Ton mit
unterschiedlicher Frequenz auftritt. Der gemessene Effekt ist temporär, d.h.. nach ca. 2
Stunden tritt wieder normale Funktionalität ein.
60
Fig. 3.23 Eingangs-Ausgangsfunktion der BM vor und nach Verabreichung von Furosemide
(siehe Text für Beschreibung der einzelnen Kurven). Die Zahlen unterhalb der Kurven geben
das Zeitinterval in Minuten zwischen Medikation und Messung an [Ruggero und Rich, 1991].
3.4.23.1 Phase-Locking
Harrison and Evans (1979) fanden keinen Effekt des medikamenten-induzierten OHZAusfalls (beim Meerschweinchen). Woolf (1991) hingegen fand stark reduziertes PhaseLocking bei Frequenzen, die erhöhte Schwellen aufwiesen (beim Meerschweinchen). Auch
berichtete er über eine Reduktion der oberen Grenzfrequenz, bis zu der Phase Locking auftrat
und eine Reduktion der Präzision des Phase Locking im Bereich 0.4-3 kHz. Die Ursachen für
die Diskrepanz zwischen den beiden Studien sind nicht restlos geklärt. In jedem Fall deuten
einige Studien auf bedeutende perzeptive Konsequenzen der Reduktion des Phase Locking
Mechanismus hin (siehe Kapitel Frequenzdiskrimination).
61
4 PSYCHOAKUSTIK DES NORMALEN UND COCHLEÄR
GESCHÄDIGTEN GEHÖRS
Das geschädigte Gehör kann im Vergleich zum normalen Gehör Veränderungen in folgenden
auditorischen Funktionen aufweisen:
• Absolute Hörschwelle
• Frequenzselektivität
• Tonhöhenwahrnehmung und Frequenzdiskrimination
• Lautheitswahrnehmung und Intensitätsauflösung
• zeitliche Auflösung und zeitliche Integration
• Schallquellenlokalisation und „Auditory Scene Analysis“
• Sprachwahrnehmung
• Musikwahrnehmung
Die ersten fünf der aufgezählten auditorischen Funktionen werden in diesem Skriptum im
Detail behandelt. Schallokalisation, Sprachwahrnehmung und Musikwahrnehmung sind
jeweils sehr komplexe Themenbereiche, auf die hier nicht näher eingegangen wird
4.1 Absolute Hörschwelle
Die deutlichste Auswirkung von cochleären Hörschäden (CHS) ist die reduzierte Sensitivität
gegenüber leisen Schallreizen. Wenn die Reizintensität die absolute Schwelle unterschreitet,
so ist der Reiz unhörbar. Die „absolute Hörschwelle“ ist als die minimale Schallintensität
definiert, bei der ein Testreiz mit gegebenen Parametern gerade wahrgenommen wird.
Eine Erhöhung der Hörschwelle ist symptomatisch für die meisten Hörstörungen, aber sie
stellt nicht die einzige Veränderung dar. Die absolute Hörschwelle in bestimmten, begrenzten
Frequenzbereichen korreliert stark mit einigen anderen auditorischen Funktionen in diesen
Frequenzbereichen.
Es werden zwei standardisierte Methoden zur Messung der physikalischen Schallintensität
bei der Messung der absoluten Hörschwelle eingesetzt:
1) Minimum Audible Pressure (MAP): Dabei wird ein in-situ-Mikrophon knapp vor dem
Trommelfell plaziert und der Testschall mittels Kopfhörer wiedergegeben
2) Minimum Audible Field (MAF): Die Schalldarbietung erfolgt über Lautsprecher in einem
anechoischen (schalltoten) und schallisolierten Raum in 1 m Abstand in Kopfhöhe vor der
VP. Die Messung findet nach Entfernung der VP an der Position der gedachten Kopfmitte
statt.
Fig 4.1 zeigt eine MAF-Kurve, die den Durchschnittswert über hunderte junge und
normalhörende Personen ohne Indikation für einen Hörschaden angibt. Der Tiefpunkt der
Hörschwelle bei ca. 3 kHz ist auf die Verstärkung im äusseren Gehör (Pinna + Gehörgang) in
diesem Frequenzbereich um ca. 10-15 dB zurückzuführen. Der starke Anstieg der
Hörschwelle bei tiefen und bei hohen Frequenzen ist durch die Transferfunktion des
Mittelohres erklärbar, die bei mittleren Frequenzen besonders effizient ist.
62
MittelohrtransferFunktion
Resonanz v. Pinna
und Ohrkanal
Fig. 4.1 MAF-Kurve von Normalhörenden.
Die höchste hörbare Frequenz liegt im Kleinkindalter bei ca. 20 kHz und nimmt im Laufe
des Alters in Abhängigkeit von der Lärmbelastung und anderen Einflüssen ab.
Dementsprechend ist die häufigste Hörstörung die sogenannte Presbyakusis
(Altersschwerhörigkeit), die in viel stärkerem Ausmass und mit grösserer Variabilität
zwischen verschiedenen Personen bei hohen als bei tiefen Frequenzen auftritt.
Als „Audiogramm“ wird der Verlauf der absoluten Hörschwelle über die Frequenz, relativ
zu den jeweiligen Mittelwerten von Normalhörenden, bezeichnet. Dabei wird der Hörverlust
von oben nach unten aufgetragen wird (Fig. 4.2). Pure-tone average (PTA) ist eine klinische
Bezeichnung für die über die Sinuston-Frequenzen 500, 1000 und 2000 Hz gemittelte
Hörschwelle, die den für die Sprachverständlichkeit besonders wichtigen Bereich abdecken.
Eine klinisch gängige Klassifikation von Hörverlusten (HV) in Bezug auf die PTA sieht
folgendermassen aus:
• -10 bis 16(26, je nach Norm) dB SPL normal
• 17(27) bis 40 dB SPL
leichter HV
mittlerer HV
• 41 bis 55 dB SPL
• 56 bis 70 dB SPL
mässig starker HV
• 71 bis 90 dB SPL
starker HV
• > 90 dB SPL
sehr starker HV
63
L e vel in d B H L [IS O 38 9 (A N S I 3 .6 19 96 )]
-10
-5
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
105
110
115
120
Acoustics Research Institute - Austrian Academy of Sciences 2000.06.14
Audiogram (Air Conduction)
Name: XXX
Ear: Left
Method: Békésy Tracking
Mean Loss: 41 dB
Mean Slope: 11.8 dB/oct.
Referenzkurve für Normalhörende
125
250
500
1000
2000
4000
800012500
Frequency in Hz
Fig. 4.2 Klinisches Audiogramm. Der Hörverlust wird in dB HL relative zur Population der
Normalhörenden angegeben.
In der Audiologie werden absolute Hörschwellen meist relativ zu den durchschnittlichen
Hörschwellen von jungen Normalhörenden angegeben (entsprechend dem MAP od. MAF
Standard) in dB HL od. HTL (hearing threshold level = Hörpegel). Wird ein Schall einer VP
mit überschwelliger Intensität präsentiert, so wird sein Pegel in dB SL (sensation level =
Wahrnehmungspegel) angegeben, also dem dB-Betrag über der individuellen absoluten
Hörschwelle bei der betreffenden Frequenz. Das Konzept von HL und SL ist in Fig. 4.3
veranschaulicht.
SPL
HL
SL
40 dB
Hörgeschädigte
34 dB
10 dB
30 dB
Hörgeschädigte
24 dB
0 dB
HL = Hearing Level (Hörpegel)
SL = Sensation Level (Wahrnehmungspegel)
6 dB
Normalhörende
0 dB
0 dB
0 dB
Fig. 4.3 Konzept der Pegelangabe in dB SPL, HL und SL.
Das Audiogramm ist eine wichtige Basis für die Diagnose einer Hörstörung (Ort entlang der
Hörbahn) und das wichtigste Kriterium für die Bestimmung der Schwere des Hörschadens.
Mittelohr- und Innenohr-Komponenten einer Hörstörung können durch Messung der
Luftleitungsschwelle (LLS) und der Knochenleitungsschwelle (KLS) unterschieden werden.
Die Luftleitung wird durch Kopfhörerwiedergabe und die Knochenleitung durch einen am
Schädelknochen angelegten Knochenleitungshörer gemessen. Unter Anwendung der Tatsache,
dass über den Schädelknochen zum Innenohr gelangender Schall in gleicher Weise ein
Wanderwellen-Schwingung der Basilarmembran bewirkt wie über das Mittelohr eingespeister
Schall, kommen folgende einfache Regeln zur Anwendung:
64
LLS erhöht und KLS normal
LLS und KLS um gleichen Betrag erhöht
KLS und LLS erhöht, aber Luftleitung stärker
Ł Mittelohrschaden
Ł Innenohrschaden
Ł Mittelohr- und Innenohrschaden
4.2 Frequenzselektivität
Der Begriff Frequenzselektivität (FS) bezeichnet die Fähigkeit des auditorischen Systems, die
Komponenten eines komplexen Klanges zu separieren. Andere in der Literatur gebräuchliche
Bezeichnungen sind „Frequenzauflösung“ oder „Frequenzanalyse“. Die Frequenzselektivität
wird primär durch die Verarbeitung des Schalles in der Cochlea bestimmt. Reduzierte
„Schärfe“ der Frequenztrennung an der BM und auf der Ebene der periphären Neuronen (am
Beginn der neuronalen Verarbeitungskette) lässt auf reduzierte FS bei psychophysikalischen
Experimenten schliessen. Diese Annahme wurde durch zahlreiche physiologische und
psychophysikalische Untersuchungen bestätigt.
4.2.1 Power Spectrum Model
Harvey Fletcher führte 1940 ein zukunftsweisendes Experiment zur Bestimmung der
Bandbreite der „auditorischen Filter“ (AF) und damit der Frequenzselektivität durch. Dabei
wurde die Mithörschwelle eines in einem Bandpassrauschen (M) spektral zentrierten
Sinustons T (f=2 kHz) als Funktion der Bandbreite (BB) von M gemessen (siehe Fig. 4.4). Da
die Rauschleistungsdichte konstant gehalten wurde, nahm mit steigender Bandbreite von M
dessen Gesamtleistung zu. Die Ergebnisse des Experiments (das später oft mit
Normalhörenden und Hörgeschädigten für diese Testtonfrequenz wiederholt wurde) zeigen,
dass bei Normalhörenden (NHs) die Schwelle kontinuierlich bis zu einer MaskiererBandbreite von 0.8 kHz ansteigt, während bei cochleär Hörgeschädigten (CHGs) die Schwelle
bis ca. 1.6 kHz ansteigt und leicht zu höheren Pegeln verschoben ist (Fig. 4.5).
A
T
M
f
Fig. 4.4 Stimulus zur Bestimmung der „kritischen Bandbreite“ (nach Fletcher, 1940).
65
Fig. 4.5 Mithörschwellen eines 2-kHz Tons als Funktion der Bandbreite eines maskierenden
Rauschens für normale und geschädigte Ohren von unilateralen CHGs [aus Moore, 1995].
Fletcher (1940) leitete aus seinen Ergebnissen mit NHs das sogenannte Power Spectrum
Model (PSM) ab, wonach sich das periphäre auditorische System wie eine Kaskade von
Bandpass-Filtern (sogenannte „auditorische Filter“) verhält. Fletcher ging von folgenden
Annahmen aus:
• das periphere auditorische System enthält eine Bank von überlappenden Bandpass-Filtern
(AFs)
• der Testton (T) wird von jenem Filter detektiert, dass um T zentriert ist
• solange die Bandbreite von M kleiner als die Bandbreite des AF ist, steigt mit
zunehmender Bandbreite von M dessen Anteil im AF
• sobald die Bandbreite von M die Bandbreite des AF übersteigt, bleibt der Anteil des
Rauschens im AF konstant
→ die am Übergangspunkt erreichte Bandbreite wurde von Fletcher als „kritische
Bandbreite“ (KB) bezeichnet
Es wird davon ausgegangen, dass diese Bandbreite eng mit der auditorischen Filterbreite bei
der Frequenz von T verknüpft ist. Die oben beschriebenen Ergebnisse des Experiments mit
CHGs zeigen, das die KB bei CHGs grösser ist als bei NHs. Obwohl Fletcher’s Methode nicht
sehr gut geeignet ist, um die Filterbreite und Form der AF genau zu bestimmen, hat sich das
allgemeine Konzept bewährt (vielfach überprüft)
Folgende weitere Annahmen liegen dem PSM zugrunde:
• bei der Detektion eines Signals wird nur der Ausgang eines einzigen Filters ausgewertet,
nämlich jenes, das um das Signal zentriert ist
• dieses Filter hat den grössten Signal/Maskierer-Abstand (SNR) von allen Filtern
• nur die das Filter passierenden Maskiererkomponenten haben Einfluss auf die Maskierung
des Signals
• die Schwelle ist durch das Verhältnis der Signalenergie zur Rauschenergie im AF
bestimmt, d.h. durch einen bestimmten SNR-Wert, K, am Ausgang des Filters
• die relativen Phasen der Stimuli und die Fluktuationen des Maskierers haben keinen
Einfluss
Heute weiss man, dass keine dieser Annahmen vollständig zutrifft. Dennoch hat sich das
Grund-Konzept bewährt und wurde in einer grossen Zahl von Untersuchungen bestätigt.
66
Abweichungen von den obigen Annahmen wurden daher in neuere Versionen des Modells
eingearbeitet.
4.2.2 Messung der auditorischen Filter
Die meisten Messmethoden zur Ermittlung der Form der auditorischen Filter basieren auf dem
PSM. Das Grundkonzept des PSM kann durch folgende Gleichung beschrieben werden:
∞
PT = K ∫ W ( f ) N ( f )df
0
Dabei bezeichnet N(f) das Langzeit-Leistungspektrum des Maskierers M, W(f) die
Gewichtungsfunktion bzw. Form des AF, PT die Leistung des Signals (T) an der Schwelle und
K das S/N-Verhältnis (bzw. T/M-Verhältnis) am Ausgang des AF, wenn T an der Schwelle ist.
Der Faktor K ist konstant pro Versuchsperson und Frequenz.
Ausgehend von dieser Gleichung kann die Form des AF durch Veränderung des
Spektrums von M und Registrierung der entsprechenden Veränderungen von PT bestimmt
werden.
4.2.2.1 Psychophysikalische Tuningkurven
Die Messung psychoakustischer Tuningkurven (PTC, engl.: psychoacoustical tuning curve) ist
ähnlich der Messung von neuronalen Tuningkurven (siehe weiter oben). Als Testsignal (T)
wird ein Sinusoid oder Schmalbandrauschen knapp über der absoluten Hörschwelle bei der
Frequenz F verwendet, für die das AF bestimmt werden soll. Der Maskierer (M), ebenso ein
Schmalbandrauschen oder Sinusoid, wird im Pegel und in der Frequenz variiert. Für
verschiedene, die Testtonfrequenz umgebende Maskiererfrequenzen wird der Pegel von M
ermittelt, bei dem T gerade maskiert (verdeckt) wird.
Entsprechend dem PSM produziert M an der Schwelle einen konstanten Ausgangspegel
am Filter mit der Mittenfrequenz F. Aufgrund des geringen Pegels von T wird angenommen,
dass durch T Aktivität bei nur einem Filter hervorgerufen wird, nämlich bei dem um T
zentrierten Filter mit der Frequenz F. Fig. 4.6 zeigt psychoakustische Tuningkurven des
normalen und geschädigten Ohres einer monolateral geschädigten VP. In beiden Fällen hatte
der Testton gleichen, knapp überschwelligen SL (ca. 5 dB).
67
Fig. 4.6 Psychoakustische Tuningkurven bei simultaner Maskierung des normalen Ohres
(Kreise) und des geschädigten Ohres (Rechtecke) einer monolateral hörgeschädigten
Versuchsperson [aus Moore, 1995].
Bei Annahme von Linearität der auditorischen Filter, d.h. Unabhängigkeit vom Signalpegel,
sollte das AF der invertierten Tuning Kurve entsprechen. Es ist allerdings bekannt, dass die
auditorischen Filter nicht linear sind, wie in einem späteren Kapitel näher behandelt wird.
Neueren Studien zufolge hängt die Form des Filters vom Signalpegel am Eingang und nicht
am Ausgang ab. Ein weiteres bei der Messung von PTCs auftauchendes Problem ist das
Phänomen des „off-frequency-listening“ (siehe Fig. 4.8): bei manchen Konstellationen von T
und M ist das AF mit der grössten SNR nicht das um das Signal zentrierte (blau), sondern
liegt bei einer anderen Mittenfrequenz (meist auf der dem Maskierer abgewandten Seite; rot in
Fig. 4.8 eingezeichnet). Dieses Phänomen führt zu einer Verschärfung der Spitze der PTC,
weil bei FM = FT kein „off-frequency-listening“ möglich ist, während bei FM ≠ FT ein höherer
Pegel vom M zur Verdeckung von T nötig ist. Zur Vermeidung des Effekts wird gleichzeitig
mit dem Maskierersignal ein Breitbandrauschen mit einer spektraler Lücke an der Frequenz
von T dargeboten (Fig. 4.8).
M
M
S
S
F
F
4.2.2.2
4.2.2.3 Fig. 4.8 Veranschaulichung des „off-frequency-listening“ Effekts. Linke Abbildung:
Ein auf der gegenüberliegenden Seite des Maskierers liegendes Filter (strichlierter
Pfeil; rot eingezeichnetes Filter) hat höhere (bessere) SNR als das Filter bei der CF.
Rechte Abbildung: Hinzufügung von Breitbandrauschen mit einer spektralen Lücke
(„Notched Noise“) zur Verhinderung der Signaldetektion bei Filtern abseits der CF.
4.2.2.4 Notched-Noise Methode
Eine zur direkten Ermittlung der Filterbreite besser geeignete Messmethode ist die sogenannte
Notched-Noise Methode. Dabei wird die Mithörschwelle eines Testsignal T (Sinuston) als
68
Funktion der Breite einer spektralen Lücke in einem Breitbandrauschen, dem Maskierer M,
gemessen (Fig. 4.9). T wird in der linearen Frequenzskala symmetrisch in der Lücke zentriert,
da bei mittleren Pegeln von M die AFs symmetrisch sind (in der linearen Frequenzskala).
Fig. 4.9 Signalkonfiguration zur Messung des auditorischen Filters nach Patterson (1976)
mittels der „Notched-Noise“ Methode [aus Moore, 1995].
Die Notched-Noise Methode hat folgende Vorteile:
• die höchste SNR tritt bei dem Filter auf, an dem das Testsignal (T) zentriert ist (kein „offfrequency listening“)
• Die Performance wird wenig durch Integration der Information über mehrere Filter
beeinflusst (was zu einer Verbesserung der Detektion und daher Verfälschung der
Messung führen würde) (Patterson, 1976)
Daher besteht folgender Zusammenhang zwischen dem S/N Verhältnis an der Schwelle (PT),
der spektralen Leistungsdichte von M in den Passbändern (N0) und der Form des auditorischen
Filters, W(f):
PT = KN 0
fc− ∆f
∞
0
fc+ ∆f
∫ W ( f )df +KN 0
∫ W ( f )df
Die Konstante K ist gleichbedeutend wie in der vorherigen Formel, fc ist die Mittenfrequenz
und ∆f der Frequenzabstand zwischen fc und den „Rändern“ der spektralen Lücke. Die beiden
Integrale repräsentieren die gestrichelten Flächen in Fig. 4.9 (Überlappung von M und dem
AF). Unter der Vorraussetzung von symmetrischen Filtern sind die beiden gestrichelten
Flächen gleich gross.
Die Veränderung von PT mit der Lückenbreite ist nun ein Mass für das Integral des
auditorischen Filters und daher kann auf dessen Form rückgeschlossen werden.
4.2.2.5 Beschreibung des Filters
Patterson (1982) schlug eine Methode zur Näherung der Form des AF durch eine Funktion mit
möglichst wenigen freien Parametern vor, die als sogenannte „rounded exponential (roex)“Filter Funktion bekannt wurde. Sie hat exponentiell verlaufende Flanken und eine gerundete
Spitze entsprechend der Formel:
W ( g ) = (1 + pg )e − pg
Die Frequenzvariable g ist gegeben durch
69
g = |f - fc| / fc,
wobei fc die Mittenfrequenz ist.
p bestimmt die Steilheit der Flanken bzw. die Bandbreite des Filters (grösserer Wert für p
ergibt steileres Filter) und variiert mit der Mittenfrequenz entsprechend der Gleichung
ERB = 4fc/p
wobei ERB die sogenannte equivalent rectangular bandwidth des jeweiligen Filters ist [siehe
Abschnitt „Abhängigkeit von der Mittenfrequenz“].
p kann bei asymmetrischen Filtern unterschiedliche Werte auf den beiden Seiten von fc haben
(häufig bei cochleären Hörschäden). Dann gilt
ERB = 2fc/pl + 2fc/pu,
wobei die Parameter pl und pu die Filtersteilheit auf der nieder- und hochfrequenten Seite
angeben. In einigen Untersuchungen wurde gezeigt, dass die Roex-Filterfunktion eine sehr
gute Annäherung an die Ergebnisse von Notched-Noise Experimenten ermöglicht. Die
Parameter pl und pu werden den Daten angepasst.
Fig. 4.10 zeigt ein Beispiel der Messung des AF mit der Notched-Noise Methode bei einer
Testtonfrequenz von 200 Hz, gemessen bei einer NH. Der linke Graph zeigt die
Mithörschwellen als Funktion der Frequenzabweichung vom näheren Rausch-Band
(∆
= | ef – fc | / fc), wobei ef die Eckfrequenz der spektralen Lücke des Rauschmaskierers ist.
Folgende Bedingungen sind dargestellt: symmetrische Plazierung des Testtons (∗), linker
Rand der Lücke 0.2 Frequenzeinheiten weiter weg vom Testton (←), rechter Rand der Lücke
0.2 Einheiten weiter weg (→). Alle Angaben beziehen sich auf die lineare Frequenzskala. Der
rechte Graph zeigt das daraus abgeleitete auditorische Filter. Die tieffrequente Flanke ist
flacher, weil der Abfall der Schwellen bei Vergrösserung von ∆ auf der linken Seite stärker ist
als bei Vergrösserung von ∆ auf der rechten Seite. Anders ausgedrückt, der Einfluss des
unteren Rauschbandes auf die Schwelle ist stärker, was nur auf eine flachere untere Flanke des
auditorischen Filters zurückzuführen ist.
Fig. 4.10 Normalhörender, fT=200 Hz, links: Mithörschwellen bei symmetrischer Plazierung
des Testtons (*), linker Rand der Lücke 0.2 Frequenzeinheiten weiter weg vom Testton (←),
70
rechter Rand der Lücke 0.2 Einheiten weiter weg (→) [alle Angaben in linearer
Frequenzskala]; rechts: daraus abgeleitetes auditorisches Filter [aus Moore, 1990].
4.2.3 Abhängigkeit von der Mittenfrequenz
Diverse Studien untersuchten die Abhängigkeit der Breite der auditorischen Filter von der
Mittenfrequenz. Während ältere Studien das Bark als Bezeichnung für die Filterbreite
verwendeten, wird in neueren Studien die Breite des Filters häufig als equivalent rectangular
bandwidth (ERB) angegeben. Diese entspricht der Breite eines Rechtecks mit äquivalenter
Fläche wie das Filter und einer Höhe entsprechend dem Maximum des Filters (ERB ist ca.
11% grösser als die -3 dB Bandbreite). Fig. 4.11 zeigt die ERB als Funktion der Frequenz,
wobei die Notched-Noise Methode bei mittleren Pegeln von M verwendet wurde.
Fig. 4.11 Abhängigkeit der auditorischen Filterbreite in ERB von der Mittenfrequenz [aus
Moore, 1995].
Die Analyse der Notched-Noise Daten und Berechnung der ERB erfolgte mittels den oben
beschriebenen Rounded-Exponential (roex)-Filtern. Die durchgezogene Linie in Fig. 4.11 ist
eine Annäherung an die gemessenen Datenpunkte entsprechend der Funktion
ERB = 24.7(4.37F+1)
wobei ERB in Hz und F, die Mittenfrequenz, in kHz angegeben ist.
Jedes ERB entspricht einer Anregungsbreite von ca. 0.89 mm auf der Basilarmembran.
Die ERB kann auch als Frequenzeinheit verwendet werden (ERB-Skala) entsprechend der
Funktion
Anzahl an ERBs = 21.4log10(4.37F+1),
wobei F die Frequenz in kHz ist. Diese Skala ist dann sinnvoll, wenn die psychoakustische
bzw. physiologische Relevanz von spektraler Information dargestellt werden soll. Die ERBSkala wie auch die Bark-Skala (nach Zwicker, 1955) ist ab ca. 500 Hz ähnlich der
logarithmischen Frequenzskala.
71
4.2.4 Abhängigkeit vom Pegel
Fig. 4.12 zeigt die Abhängigkeit des AF bei 1 kHz vom Pegel, wobei die Transferfunktion von
äusserem und Mittelohr berücksichtigt ist. Das AF bei 1 kHz ist ca. symmetrisch auf der
linearen Frequenzskala, wenn der Maskiererpegel 51 dB/ERB beträgt (≈30 dB/Hz). Die AFs
sind auch bei anderen Frequenzen symmetrisch, wenn der effektive Eingangspegel ca. dem
von 51 dB/ERB bei 1 kHz entspricht, nach Berücksichtigung der Aussen- u- Mittelohr
Transfer-Charakteristik.
Fig. 4.12 Form des auditorischen Filters bei 1 kHz in Abhängigkeit vom Schallpegel im
Bereich 20 bis 90 dB SPL/ERB in 10 dB Stufen [aus Moore, 1995].
Während die untere Flanke bei steigendem Pegel stark abflacht, zeigt die obere Flanke keine
ausgeprägte Abhängigkeit von Pegel. Ein Problem bei der Messung stark asymmetrischer
Filter mit der Notched-Noise Methode ist, dass die Schätzung der steileren Flanke nicht mehr
präzise ist (was speziell bei hohen Schallpegeln problematisch ist, wo die untere Flanke sehr
flach wird).
4.2.5 Maskierungspattern
Bei der Messung von Maskierungspattern werden die durch einen konstanten Maskierer M
(Schmalband-Rauschen) verursachten Mithörschwellen von sinusoidalen Testtönen T mit
variablen Frequenzen gemessen (Fig. 4.13). Wie bei der Messung der psychoakustischen
Tuningkurven ist es zur Vermeidung der Wahrnehmung von Schwebungsprodukten bei
kleinem Frequenzabstand von T und M wichtig, dass nicht sowohl T als auch M Sinustöne
sind. Wenn sowohl T als auch M Schmalband-Rauschsignale sind, ist wiederum die
Wahrscheinlichkeit der perzeptiven Verwechslung der beiden höher, was in stärkerer
Streuung der Messergebnisse resultieren kann. T und M sollten daher unterschiedliche
Signaltypen sein.
72
Fig. 4.13 Maskierungspatterns eines bei 410 Hz zentrierten Schmalbandrauschens [aus Egan
und Hake, 1950].
Anders als bei der Messung des auditorischen Filters (mittels der PTC oder der NotchedNoise Methode) wird bei der Messung von Maskierungspatterns bei jeder Frequenz von T ein
anderes auditorisches Filter eingesetzt. Die obere Flanke der Maskierungspatterns ist flacher
als die untere bei linearer Darstellung der Frequenzache (Fig. 4.13 zeigt eine logarithmische
Frequenzachse). Der Grund hierfür ist die Zunahme der Filterbreite mit steigender Frequenz,
wodurch bei F(T) > F(M) ein relativ grösserer Anteil der Energie von M in das Filter einfliesst
(→ höhere Mithörschwelle) als bei F(T) < F(M). Dies ist im nächsten Abschnitt
veranschaulicht, wo die Konstruktion eines Maskierungspatterns (bzw. Excitationpatterns) aus
den auditorischen Filtern demonstriert wird. Es zeigt sich auch eine Abflachung der oberen
Flanke mit steigendem Signalpegel, in der Literatur als „Upward Spread of Masking“
bezeichnet.
Das Maskierungspattern entspricht ungefähr dem durch den Maskierer im auditorischen
System ausgelösten „Excitation Pattern“ bzw. der neuronalen Aktivierung als Funktion der
Frequenz. Das Maskierungspattern verläuft parallel zum Excitation Pattern mit etwas höherer
Amplitude, wobei die Differenz zwischen beiden ca. der JND des Testtons bei der jeweiligen
Frequenz entsprechend sollte.
4.2.6 Konstruktion eines Excitation Patterns
Das Excitation Pattern eines Signals kann als der Ausgang der einzelnen AFs als Funktion der
Frequenz in Reaktion auf ein Signal betrachtet werden. Die obere Hälfte von Fig. 4.14 zeigt
eine Reihe von auditorischen Filtern und einen Sinuston bei 1 kHz (strichlierte Linie). Die
untere Hälfte der Abbildung zeigt die Konstruktion des durch den Ton ausgelösten Excitation
Patterns. Der Punkt a in der oberen Hälfte zeigt beispielsweise den Pegel, mit dem der
Sinuston vom ganz links dargestellten Filter aufgenommen wird. Die Amplitude des
Excitation Patterns an der Stelle dieses Filters (im unteren Graph) entspricht daher diesem
Pegel (ebenfalls mit a benannt). Die Berechnung der einzelnen Punkte des Excitation Patterns
(die durchgezogenen Linie) in der Abbildung erfolgte in 10 Hz-Abständen. Die Pegelangabe
erfolgt relativ zur Spitze des Excitation Patterns.
73
Fig. 4.14. Konstruktion des Excitation Patterns eines 1 kHz Sinustons aus den Ausgängen der
auditorischen Filter als Funktion der Frequenz [aus Moore und Glasberg, 1983].
Wie bereits im letzten Abschnitt erwähnt, ist wegen der in der linearen Frequenzskala mit
steigender Mittenfrequenz zunehmenden Bandbreite der Filter das Excitation Pattern
asymmetrisch (obere Flanke ist flacher), obwohl die zugrunde liegenden AFs symmetrisch
sind.
4.2.7 Nicht-simultane (= zeitliche) Maskierung
Als nicht-simultane Maskierung werden allgemein jene Bedingungen bezeichnet, bei denen
der Testton und der Maskierer zeitversetzt dargeboten werden. Obwohl diese Problematik
eher in das Kapitel zeitliche Verarbeitung einzuordnen wäre, wird sie bereits hier
angesprochen, da die zeitliche Maskierung eine effektive Methode zur Messung des nichtlinearen „lateralen Suppressions-Effekts“ darstellt, der bei CHGs deutlich reduziert ist (siehe
weiter unten).
Fig. 4.15a zeigt eine Konstellation, bei der das Testsignal (T) kurz nach dem Maskierer
(M) präsentiert wird, die als Vorwärts-Maskierung, VM, (engl.: forward masking) bezeichnet
wird. Die umgekehrte Konfiguration, d. h., wenn T zeitlich vor M dargeboten wird, bezeichnet
man als Rückwärtsmaskierung (engl.: backward masking).
A
M
T
t
Fig. 4.15a. Stimuluskonfiguration zur Messung des Vorwärtsmaskierungseffekts.
Die Vorwärtsmaskierung ist allgemein stärker als die Rückwärtsmaskierung (zumindest bei
trainierten VPs) und wurde besser untersucht.
Fig. 4.15b zeigt den Verlauf der VM eines 2 kHz Sinusoids (T) nach dem Abschalten eines
Rausch-Maskierers (M) für verschiedene Pegel von M. Dabei wird die Mithörschwelle von T
74
zu verschiedenen Zeitpunkten nach dem Abschalten von M gemessen. Die Abbildung auf der
linken Seite zeigt, dass die VM in dB eine lineare Funktion des zeitlichen Abstandes in
logarithmischer Skalierung ist. Je höher der Pegel von M, desto schneller fallen die Kurven
ab; umfangreiche Studien zeigten, dass unabhängig vom Pegel von M alle Kurven nach ca.
100-200 ms (VP-abhängig) an der Hörschwelle zusammenfallen. Die Graphik verdeutlicht
auch, dass die Anhebung des Pegels von M um einen bestimmten Betrag (z.B. 10 dB) zu einer
geringeren Anhebung der VM Schwellen führt (z.B 3 dB). Dies steht im Gegensatz zur
Simultanmaskierung, wo die Mithörschwelle durch eine konstante SNR gegeben ist, i.e. die
Mithörschwelle an der Maskiererfrequenz linear mit dem Pegel des Maskiersignals ansteigt.
Fig. 4.15b Links: Betrag der Vorwärtsmaskierung eines 2-kHz Signals als Funktion des
zeitlichen Abstandes zum Offset eines Maskierers für verschiedene Spektrum-Pegel des
Maskierers (0-50 dB). Rechts: Die gleichen Schwellen als Funktion des Spektrum-Pegels des
Maskierers für verschiedene zeitliche Abstände [aus Moore und Glasberg, 1983].
Die rechte Seite von Fig. 4.15b zeigt, dass die VM Schwellen als Funktion des Pegels von M
Geraden mit einer Steigung < 1 ergeben (bei Simultanmaskierung wäre die Steigung gleich 1),
wobei die Steigung bei Vergrösserung des zeitlichen Intervalls zwischen MaskiererAbschaltzeitpunkt und Testton abnimmt.
Die Mechanismen der VM sind noch nicht geklärt, wobei folgende Hypothesen zur
Erklärung des Effektes existieren:
• reduzierte Sensitivität von kurz zuvor stimulierten Neuronen (vergleichbar einem
Adaptationseffekt)
• Andauern des Patterns der durch M evozierten neuronalen Aktivität
• Andauern der Auslenkung der Basilarmembran als Reaktion auf den Maskierer
4.2.7.1 Laterale Suppression bei nicht-simultaner Maskierung
Messungen der BM-Bewegung zeigten Abschwächung der neuronalen Antwort auf einen
Test-Stimulus bei CF durch einen zweiten Ton (Suppressor-Ton) mit leicht unterschiedlicher
Frequenz („Zwei-Ton-Suppression“; siehe Kap. Physiologie, Fig. 3.21). Allgemein kann der
Effekt dadurch beschrieben werden, dass starke Aktivität bei einer gegebenen CF schwächere
Aktivität bei benachbarter CF unterdrückt. Aus der psychoakustischen Sicht wird der Effekt
als „Laterale Suppression“ (LS) bezeichnet. Bei komplexen Signalen führt die LS dazu, dass
Spitzen im Spektrum gegenüber Tälern hervorgehoben werden.
75
Messung der Lateralen Suppression (LS)
Nach Houtgast (1972) kann LS nicht mittels Simultanmaskierungs-Experimenten
nachgewiesen werden, weil sowohl M als auch T im gleichen Frequenzkanal liegen und die
LS folglich sowohl M als auch T abschwächt; daher bleibt das Verhältnis der Energien von T
und M (T-M-Verhältnis) im auditorischen Filter bei CF konstant. Bei der Messung der
Vorwärtsmaskierung ist der Effekt hingegen messbar unter folgenden Vorraussetzungen:
• der Suppressions-Mechanismus liegt in der neuronalen Verarbeitungskette nicht nach
dem VM-Mechanismus
• die durch M evozierte LS ist zum Einschaltzeitpunkt von T bereits abgeklungen (sonst
würde auch der Ton unterdrückt werden)
Fig. 4.16 zeigt die experimentelle Anordnung zur Demonstration des psychophysikalischen
Analogons zur neuronalen „Zwei-Ton-Suppression“, genannt „Zwei-Ton-Demaskierung“
(nach Houtgast, 1974). Zuerst wurde die Mithörschwelle von T in Anwesenheit von M
gemessen. Beim anschliessenden Hinzuschalten des Suppressor-Tons S wurde unter
bestimmten Konstellationen eine Reduktion der Schwelle von T festgestellt, die dem
Suppressionseffekt von S zugeschrieben wurde. Demnach unterdrückte S die Aktivität von M,
was wiederum in einer Reduktion des Maskierungseffekts von M auf T resultierte.
Wie im nächsten Abschnitt gezeigt wird, ist der Suppressionseffekt auch mit nur einem
Maskierer und einem Testton, in geeigneter Anordnung, nachweisbar.
M
S
T
t
f
Fig. 4.16 Schematische Darstellung der Stimuluskonfiguration zur Messung der „Zwei-TonDemaskierung“ entsprechend Houtgast, 1972].
4.2.7.2 Erhöhung der Frequenzselektivität bei nicht-simultaner Maskierung
Fig. 4.17 zeigt psychoakustische Tuningkurven bei simultaner und nicht-simultaner
Darbietung von M und T bei vier verschiedenen Frequenzen. Der Onset von T begann
unmittelbar nach dem Offset von M. Die Kurven bei nicht-simultaner Maskierung sind
generell steiler als jene bei simultaner Maskierung, was besonders stark auf der
höherfrequenten Flanke ausgeprägt ist. D.h., nicht-simultane Maskierung führt zu einer
Erhöhung der Frequenzselektivität. Dies wird durch eine Konstrasterhöhung (Verschärfung)
der internen Repräsentation von M (Excitation Pattern) durch den Suppressions-Mechanismus
erklärt, wodurch der Vorwärtsmaskierungseffekt auf den Testton geringer ist. Bei simultaner
Maskierung hingegen reduziert die LS sowohl die Maskierer- als auch die Testsignal-Aktivität
bei der CF des Testsignals. Der stärkere Effekt bei der höherfrequenten Flanke der
Tuningkurve zeigt, dass der Suppressions-Effekt stärker zu tiefen Frequenzen hin wirkt.
76
Eine Erhöhung der Frequenzselektivität bei Vorwärtsmaskierung im Vergleich zu
Simultanmaskierung wurde auch mittels anderer Methoden, z.B. der Noched-Noise-Methode,
gemessen.
Fig. 4.17 Vergleich der bei simultaner und bei Vorwärtsmaskierung gemessenen
psychoakustischen Tuningkurven. Die Mittenfrequenz des Maskierers ist als Abweichung von
der Mittenfrequenz, dividiert durch die Mittenfrequenz, angegeben (∆f/f). Die
Mittenfrequenzen (Testton) sind jeweils über den Graphen angegeben [aus Moore, 1984].
4.2.8 Frequenzselektivität bei CHGs (simultane Maskierung)
Der Vergleich der Frequenzselektivität zwischen CHGs und NHs ist aus mehreren Gründen
problematisch:
1) Bei CHGs variiert die Breite der auditorischen Filter weniger oder gar nicht mit dem Pegel
wie bei NHs, da die aktiven Mechanismen (äussere Harzellen) reduziert sind oder fehlen.
Daher ist der Vergleich mit NHs schwierig, wenn bei gleichem absolutem Pegel gemessen
wird, da bei entsprechend hohen Pegeln auch bei NHs die Filter stark verbreitert sind (aktive
Prozesse nur bei niedrigen Pegeln wirksam)
2) Wenn bei gleichem Absolutpegel (z.B. 70 dB SPL) gemessen wird, tritt der Effekt des „offfrequency-listening“ bei NHs stärker auf als bei CHGs mit Hörschwelle von 60 dB SPL (also
bei SL von 10 dB) [siehe Abschnitt „Psychoakustische Tuningkurven“].
4.2.8.1 Psychoakustische Tuning Kurven
In den meisten Studien wurden verbreiterte Tuningkurven bei CHGs im Vergleich zu NHs
gemessen. Allerdings wurde nicht in allen dieser Untersuchungen der Effekt des „offfrequency-listening“ kontrolliert (z.B. durch Bandstop-Rauschen). Meist wurde auch
zunehmende Verflachung der Tuningkurven bei steigender absoluter Hörschwelle gefunden.
In manchen Fällen kann die Spitze der Kurve abseits der Testtonfrequenz liegen, was auf den
Ausfall von IHZs (eher selten bei cochleären Hörschäden) bei der CF zurückzuführen ist.
77
4.2.8.2 Notched-Noise Methode bei unilateralen und bilateralen CHGs
Auch bei Messung der auditorischen Filter mittels der Notched-Noise-Methode (bei der „offfrequency-listening“ gut kontrolliert werden kann) mit unilateralen und bilateralen CHGs
wurden gegenüber NHs verbreitere Filter gemessen. Im Falle der unilateralen CHGs kann der
Unterschied zwischen den beiden Ohren nicht auf individuelle Einflussvariablen
zurückgeführt werden. Im normalen und geschädigten Ohr wurde jeweils derselbe
Spektrumpegel des Rauschens von 50 dB (79 dB SPL) verwendet. Fig. 4.18 zeigt die
Ergebnisse von 6 VPs: alle geschädigten Ohren zeigten Verbreiterung der auditorischen Filter,
insbesondere auf der tieffrequenten Seite, obwohl relativ grosse interindividuelle Variabilität
auftrat. Die praktische Relevanz der Verbreiterung der unteren Filterflanken ist, dass der
Maskierungseffekt von tiefen Frequenzen zu hohen besonders stark ausgeprägt ist (upward
spread of masking): Ein alltägliches Beispiel ist die Maskierung von Sprache durch Autolärm
oder eine Klimaanlage.
Fig. 4.18 Auditorische Filter bei 1 kHz für normale (oben) und geschädigte Ohren (unten) von
unilateralen CHGs [aus Moore, 1995].
4.2.8.3 Zusammenhang zwischen absoluter Schwelle und ERB Wert bei CHGs
Der obere Teil von Fig. 4.19 zeigt den Zusammenhang zwischen der absoluten Hörschwelle
und dem Quotienten ERB-Wert/ERB-Wert von Normalhörenden bei einem Pegel von 51
dB/ERB. Es zeigt sich eine mässig positive Korrelation zwischen dem ERB-Wert und der
Hörschwelle. Der untere Teil von Fig 4.19 zeigt den Zusammenhang zwischen der
Hörschwelle und dem Quotionten ERB-Wert/ERB-Wert von Normalhörenden bei gleichem
Rauschpegel. Dabei ist die Korrelation etwas geringer, was auf den Anstieg der ERB mit
steigendem Pegel bei NHs zurückzuführen ist.
78
Fig. 4.19 Zusammenhang zwischen der auditorischen Filterbreite (in ERB) und der absoluten
Hörschwelle in dB (HL) bei der Testfrequenz bei CHGs. Die ERB-Werte sind relativ zur ERB
von NHs bei einem Spektrumpegel von 51 dB/ERB (oben) oder relativ zur ERB von NHs bei
gleichem Schalldruckpegel des Rauschens (unten) angegeben.
4.2.8.4 Vorwärtsmaskierung und Laterale Suppression bei CHGs
Bei der direkten Messung des Suppression-Effekts (nach Houtgast, 1972) trat der Effekt nur
auf, wenn der Suppressor-Ton im Bereich normaler Sensitivität war. Bei der indirekten
Messung mittels psychoakustischen Tuning Kurven mit CHGs und NHs (siehe Abschnitt
„Laterale Suppression“) trat bei CHGs praktisch kein Suppressions-Effekt auf, d.h., keine
Schärfung der Tuning Kurven bei der nicht-simultanen Bedingung im Vergleich zu simultaner
Maskierung (siehe Fig. 4.20).
Messungen mittels der Notched-Noise Methode kamen zum gleichen Schluss, d.h.
Unterschiede zwischen der Simultan- und der Vorwärts-Maskierung waren entweder gering
oder gar nicht vorhanden.
4.2.9 Perzeptive Konsequenzen reduzierter Frequenzselektivität
Da die Frequenzselektivität (FS) Einfluss auf andere auditorischen Funktionen hat (z. B.
Lautheitswahrnehmung oder Frequenzdiskrimination), wirkt sich eine Reduktion der FS auch
auf diese Funktionen aus (siehe in den entsprechenden Kapiteln).
Der Effekt reduzierter FS bei komplexen Signalen hängt von der spektralen
Zusammensetzung des Signals ab: je stärker die spektrale Überlappung von Testreiz und
Maskierer, desto schwächer ist die zu erwartende Auswirkung, wie in Fig. 4.21
veranschaulicht ist. Im Falle vollständiger spektraler Überlappung von Testsignal und
Maskierer führen steile auditorische Filter nicht zu einem besseren Signal-Rausch-Verhältnis
als flache Filter. CHGs können z.B. stärkere Probleme bei der Trennung einer hochfrequenten
Sirene von einer tieffrequenten Klimanlage haben als NHs, da in diesem Fall die Signale
79
spektral getrennt sind. Der Maskierungseffekt der Klimaanlage auf die Sirene ist aber beim
CHG stärker ist als beim NH. Ein anderer Effekt reduzierter FS ist die reduzierte
Diskrimination von Klangfarben (z.B. Musikinstrumente oder Vokale).
Fig. 4.20 Psychoakustische Tuningkurven des normalen (oben) und geschädigten Ohres
(unten) von unilateralen CHGs bei simultaner und Vorwärtsmaskierung [aus Moore und
Glasberg, 1986].
Fig. 4.21 Konstellationen mit vollständiger Überlappung (links) und ohne Überlappung
(rechts) von Testsignal (Linie) und Maskiersignal (Rechtecke). Im zweiten Fall hängt die
Auflösung des Testsignals von der Güte der auditorischen Filter ab.
4.3 Tonhöhenwahrnehmung und Frequenzdiskrimination (FD)
Definition d. Tonhöhe: Jene Eigenschaft der auditorischen Wahrnehmung, anhand der Klänge
auf einer musikalischen Skala geordnet werden können (ANSI, 1960). Die
Frequenzdiskrimination (FD), die nicht mit der Frequenzselektivität zu verwechseln ist, ist
eine subjektive Eigenschaft, und kann daher nicht direkt (objektiv) gemessen werden. Die
FD hängt von der Repetitionsrate der Wellenform eines Signals ab, was bei Sinusoiden der
Frequenz und bei komplexem Tönen der Grundfrequenz entspricht. Eine subjektive
Messskala zur Skalierung der Tonhöhenwahrnehmung ist die Mel-Skala, die mittels der
Methode der Verhältnisherstellung ermittelt wurde. Dabei entspricht einem 1000 Hz Ton bei
40 Phon der Referenzwert von 1000 Mel, 2000 Mel entspricht der doppelten und 500 Mel der
halben Tonhöhe. Bei tiefen und hohen Frequenzen kann eine Kompression der
Tonhöhenwahrnehmung beobachtet werden.
80
4.3.1 Modelle der Tonhöhenwahrnehmung
Nach der Ortstheorie der Tonhöhenwahrnehmung regen einzelne Komponenten eines
komplexen Klanges verschiedene Orte auf der BM und damit verschiedene
Neuronenpopulationen an. Entsprechend dieser Theorie ist das Anregungsmuster (Excitation
Pattern) entscheidend für die FD; bei Sinustönen ist die Tonhöhe durch die Position des
Maximums bestimmt.
Entsprechend der Zeittheorie ist die Tonhöhe durch das zeitliche Muster der neuronalen
Impulse als Reaktion auf den Stimulus bestimmt (Phase Locking). Entsprechend ist die
Genauigkeit der zeitlichen Abbildung in der neuronalen Feuerung ausschlaggebend. Die
maximale Repetitionsrate, bei der Phase Locking auftritt, liegt bei 5 kHz, wobei aufgrund der
Refraktärzeit der Neuronen von 1 ms bereits ab 1 kHz einzelne Perioden ausgelassen werden.
Dies stellt aber kein Problem für die Theorie dar, da die Grundfrequenz natürlicher Schalle
(z.B. Musikinstrumente, Sprache, Alltagsgeräusche) geringer als 5 kHz ist.
4.3.2 Tonhöhenwahrnehmung von Sinustönen
Zwei Methoden zur Messung des kleinsten detektierbarer Tonhöhenunterschiedes (=DL,
Difference Limen, identisch mit JND) werden unterschieden. Bei der DLF (difference limen
for frequency) Messung werden zwei Töne hintereinander präsentiert und die Aufgabe der VP
ist zu entscheiden, welcher Ton höher war. Bei der FMDL (frequency modulation difference
limen) Messung wird ein frequenzmodulierter (FM) Ton mit niedriger Modulationsrate
präsentiert, wobei die VP den kleinsten wahrnehmbaren Grad an FM detektiert.
In absoluten Hz-Werten sind beide Masse am kleinsten bei kleinen Frequenzen und
steigen monoton mit der Frequenz an. Fig. 4.22 zeigt, dass die DLF als Fraktion der
Referenzfrequenz ein Minimum bei 0.5 kHz hat und zu tiefen und hohen Frequenzen ansteigt.
Die FMDL hingegen variiert weniger mit der Frequenz. Beide Masse nehmen mit steigendem
Pegel ab, d.h. die Diskrimination wird besser.
Fig. 4.22 DLFs und FMDLs für einen stationären gepulsten Ton, als Fraktion der
Mittenfrequenz, in Abhängigkeit von der Mittenfrequenz (Modulationsfrequenz bei
Bedingung FMDL: 10 Hz) [aus Moore, 1995].
Entsprechend der Ortstheorie sollten steilere Filter in besserer Frequenzdiskrimination (FD)
resultieren, d.h., die DLFs sollten mit der Frequenz entsprechend der ERB-Skala variieren
(siehe Fig. 4.26). Die in Fig. 4.23 dargestellten Ergebnisse von Untersuchungen ergaben, das
81
dies für DLFs nicht zutrifft, hingegen für FMDLs sehr wohl (besonders bei höheren
Modulationsraten). Bei niedrigen Frequenzen sind DLFs meist niedriger als durch
Ortsmodelle prognostiziert, aber oberhalb von 4-5 kHz nicht. Diese Resultate sind konsistent
mit dem Konzept, dass DLFs unterhalb von 4-5 kHz durch zeitliche Information und oberhalb
durch Ortsinformation bestimmt werden. FMDLs scheinen generell durch Ortsinformation
bestimmt zu werden.
Fig. 4.23 DLFs und FMLDs relativ zur ERB-Breite der auditorischen Filter bei der jeweiligen
Frequenz als Funktion der Mittenfrequenz (Fmod bei Bedingung FMDL: 10 Hz) [aus Moore,
1995].
4.3.3 Wahrnehmung musikalischer Intervalle
Zwei Dimensionen der Wahrnehmung musikalischer Tonhöhe werden unterschieden:
• „Tonhöhe“ (im wörtlichen Sinn): weist monotonen Anstieg mit der Frequenz auf
• „Chroma“: Tonhöhenklassen innerhalb einer Oktave
Für Grundtöne oberhalb von 5 kHz können Tonhöhen zwar unterschieden werden, aber
Melodiewahrnehmung ist schwer bis gar nicht möglich (sogar Menschen mit absolutem Gehör
können musikalische Noten nicht mehr benennen). Dies kann als Bestätigung betrachtet
werden, dass unterhalb und oberhalb von 5 kHz unterschiedliche Mechanismen wirksam sind
(Zeitmechanismus und Ortsmechanismus, respektive).
4.3.4 Tonhöhenwahrnehmung von komplexen Tönen
Bei komplexen Tönen (Grundton + Obertöne) ist die Tonhöhe nicht einfach durch das
Maximum im Excitation Pattern gegeben (wie im Falle von Sinustönen). Seebeck (1943)
zeigte, dass der Tonhöheneindruck einer akustischen Klickfolge mit einer Rate von 200 Hz
(enthält Obertöne bei Vielfachen der Grundfrequenz) trotz Filterung der unteren
Harmonischen identisch ist mit dem eines 200 Hz Sinusoid, abgesehen von starken
Unterschieden in der Klangfarbe. Diese wahrgenommene Tonhöhe wird als virtuelle Tonhöhe
(VT) oder Residualtonhöhe bezeichnet. Die VT tritt sogar dann auf, wenn alle Harmonischen
ausser wenige im mittleren Frequenzbereich abgefiltert werden. Die VT ist perzeptiv
unterscheidbar vom physikalisch vorhandenen Ton oder dem im Innenohr durch NichtLinearitäten entstehendem Grundton (Kombinationston). Die VT wird auch dann
wahrgenommen, wenn die Frequenz der dargebotenen Obertöne so hoch ist, dass sie perzeptiv
82
nicht aufgelöst werden. D.h., das Phänomen der VT kann durch einen reinen
Ortsmechanismus nicht erklärt werden.
Die VT bedingt keine Aktivität auf der BM, da sie nicht mit Rauschen maskiert werden
kann, das jede Komponente im Bereich der Grundfrequenz maskiert. Interessanterweise ist die
Tonhöhe auch dann durch höhere Harmonische bestimmt, wenn die Grundfrequenz
physikalisch vorhanden ist. Die VT ist ein praktisch relevantes Phänomen, da die
Grundfrequenz natürlicher Signale (z.B. Sprachgrundfrequenz bei 100-200 Hz) oft durch
tieffrequente Störgeräusche hoher Intensität maskiert wird. Ein anderes Anwendungsbeispiel
ist die Telefonübertragung, bei der wir die Grundtonhöhe wahrnehmen, obwohl Frequenzen
unterhalb von ca. 300 Hz nicht übertragen werden.
4.3.5 Diskrimination der Tonhöhe komplexer Töne
Die DLF für komplexe Töne ist niedriger (besser) als die DLF für jede der beteiligten
Komponenten. Dies ist durch Integration der Information der Einzelkomponenten zur
Bestimmung der virtuellen Tonhöhe erklärbar. Für Grundfrequenzen (als F0 bezeichnet) im
Bereich 100-400 Hz ist die DLF am niedrigsten (ca. 0.2% der Grundfrequenz).
4.3.6 Analyse komplexer Klänge in der auditorischen Peripherie (Cochlea)
Fig. 4.24 zeigt die Simulation der Analyse eines komplexen Signals im peripheren
auditorischen System.
Fig. 4.24 Simulation der Reaktionen verschiedener Orte der BM auf einen periodischen Puls
mit 200 pps. Die Zahlen auf der linken Seite geben die CFs der auf der rechten Seite
dargestellten Reaktionen der BM an.
83
Das Signal ist eine periodische Pulsfolge mit einer Pulsrate von 200 Pulsen/sec (Reihe von
Harmonischen mit gleicher Amplitude). Bei tiefen CFs entspricht die BM-Antwort ca. einer
Sinusschwingung mit der Frequenz der entsprechenden Harmonischen. Höhere Harmonische
sind nicht aufgelöst (keine distinkten Spitzen). Die Wellenform an den entsprechenden CFs ist
komplex und die Repetitionsrate entspricht der Grundfrequenz des Signals.
4.3.7 Theorien der Tonhöhenwahrnehmung für komplexe Töne
4.3.7.1 Ortstheorie (spektrale Theorie)
1. Stufe: Bestimmung der Frequenz der tieferen (aufgelösten) Frequenzkomponenten (ca. erste
5-8 Teiltöne)
2. Stufe: Muster-Erkennung: Suche einer harmonischen Serie, die mit den aufgelösten
Harmonischen am besten übereinstimmt.
→ entsprechend der Ortstheorie sind tiefere Frequenzen entscheidend.
4.3.7.2 Zeittheorie
Auswertung der zeitlichen Feinstruktur in der Nähe der Hüllkurvenmaxima bei höheren CFs
(spektral nicht aufgelöst und zeitlich noch nicht im Refraktärbereich), die Vielfaches der
Grundfrequenz enthält.
→ höhere, nicht aufgelöste Harmonische bestimmen die Tonhöhe
4.3.7.3 Evaluation der Theorien
Für die Ortstheorie spricht folgendes Ergebnis:
• die niedrigen Harmonischen sind wichtiger für die Wahrnehmung der virtuellen
Tonhöhe (ca. 3.-5. Harmonische am wichtigsten, wobei grosse interindividuelle
Variabilität besteht)
Für die Zeittheorie spricht:
• die VT wird auch gehört, wenn nur hohe, nicht aufgelöste Teiltöne vorhanden sind,
obwohl deren Wahrnehmung schwach ist.
• die relative Phase der Teiltöne kann die Tonhöhe beeinflussen, was durch die
Ortstheorie nicht erklärbar ist, da die Phase die auditorische Repräsentation der
tieferen, aufgelösten Teiltöne nicht beeinflusst. Die Hypothese, dass die Tonhöhe bei
Phasenverhältnissen, die zu kontrastreicher Wellenform nach der auditorischen
Filterung führen, besser diskriminierbar sein sollte, wurde für Töne mit wenigen
Harmonischen bestätigt (Einfluss auf Tonhöhe und Klarheit der Tonhöhe)
Die Kombination beider Theorien in einem sogenannten „spektro-temporalen Modell“, wie in
Fig. 2.25 dargestellt, kann die Ergebnisse zu den verschiedenen Aspekten der
Tonhöhenwahrnehmung von komplexen Tönen am besten erklären.
84
akustischer Eingang
Bandpass-Filterbank
Neurale Übertragung
Analyse der SpikeIntervalle
Kombination der
Intervalle über CFs
Auswahl der stärksten
Intervalle
Tonhöhe
Fig. 4.25 Schematische Darstellung eines
Tonhöhenwahrnehmung [nach Moore, 1989].
spektro-temporalen
Modells
der
4.3.8 Frequenzdiskrimination (FD) für Sinustöne bei CHGs
Wie in Fig. 4.26 demonstriert wird, sollten entsprechend der Ortstheorie verbreiterte
auditorische Filter zu grösseren JNDs für Frequenz führen. Bei Verschiebung des Excitation
Patterns entlang der Frequenzachse um den Betrag ∆F entsteht ein Amplitudencue ∆A (oder
auch Excitation Cue genannt), der umso stärker (grösser) ist, je steiler die Flanke des
Excitation Patterns an der entsprechenden CF ist (in diesem Beispiel die untere Flanke des
links dargestellten Excitation Patterns).
∆F
∆F
∆A
∆A
steiles Filter
Ł grosse ∆A
flachesFilter
Ł kleine ∆A
Fig. 4.26 Effekt der Verbreiterung des Excitation Patterns auf den Amplitudencue (∆A).
Verbreiterung führt bei gleicher Frequenzveränderung (∆F) zu kleinerem ∆A.
Entsprechend der Zeittheorie könnte reduziertes Phase Locking die Frequenzdiskrimination
negativ beeinflussten.
Experimente zur FD bei CHGs zeigten, dass:
• sie bei CHGs generell reduziert ist
• grosse interindividuelle Variabilität besteht
• kein Zusammenhang mit der Ruhehörschwelle (an der CF) besteht
85
•
beispielsweise bei bilateral geschädigten mit identischer Hörschwelle auf beiden
Seiten grosse Unterschied zwischen den beiden Ohren auftreten können
4.3.8.1 Erklärung der Ergebnisse durch Modelle
Untersuchungen zur Korrelation zwischen DLFs und der Frequenz-Selektivität, gemessen
sowohl mittels psychoakustischer Tuningkurven als auch mittels der Notched-Noise Methode,
zeigten eine geringe Korrelation. Diese Ergebnisse sind nicht gut mit der Ortstheorie
erklärbar; die Ursachen für die Verschlechterung liegen eher in der zeitlichen Verarbeitung.
Ein Phase-Locking Modell, das Inter-Spike-Intervalle auswertet, kann die Abhängigkeit
der DLFs von Frequenz, Dauer und Pegel des Signals gut erklären (z.B. dass präziseres PhaseLocking mit steigendem Pegel zu niedrigeren DLF führt. Es kann auch die Ergebnisse von
CHGs erklären unter der Annahme von reduzierter Präzision des Phase Locking. Es gibt
allerdings noch keinen direkten experimenteller Beweis für reduziertes Phase Locking bei
CHGs. Eine andere Erklärung wäre ein mehr zentraler Effekt bei der Analyse der Phase
Locking Information. Der zugrundeliegende Mechanismus könnte durch Veränderung der
Laufzeit der BM-Wanderwelle gestört sein (als Folge der Degeneration aktiver Prozesse), falls
die zeitliche Abfolge über die verschiedenen CFs entlang der Basilarmembran ausgewertet
wird.
4.3.9 FMDLs bei cochleär Hörgeschädigten
Obwohl FMDLs leichter zu messen sind als DLFs, da weniger Training zum Erreichen
stabiler Performance notwendig ist, sind nur wenige Studien verfügbar. Diesen Studien
entsprechend steigen FMLDs mit dem Grad an Hörverlust. Die Ergebnisse können gut mit
dem Excitation Pattern Modell erklärt werden (siehe Fig. 4.26) erklärt werden: verbreiterte
auditorische Filter führen zu erhöhten FMDLs. In einer Studie wurden die Stimuli durch
Multiplikation mit tiefpassgefiltertem Rauschen amplitudenmoduliert, um Excitation Cues
bewusst auszuschalten: dies resultierte in einer Verschlechterung der Sensitivität, die bei
CHGs wesentlich stärker ausgeprägt war als bei NHs. CHGs detektieren FM offensichtlich
primär mittels Excitation Cues, während NHs anscheinend sowohl Ortsinformation auch
zeitliche Information auswerten.
4.3.10 Tönhöhenwahrnehmung von Sinustönen mit fehlenden Haarzellen
bei der CF
Bei Ausfall der inneren Haarzellen im tieferen Frequenzbereich liegt es nahe, dass sich das
Maximum des neuronalen Anregungsmusters (neuronales excitation pattern) zu höheren
Frequenzen hin verschiebt, relativ zur CF eines schmalbandigen Testsignals. Demnach kann
hypothetisiert werden, dass sich die Tonhöhe eines Sinustons nach oben verschiebt.
Entsprechende Experimente mittels interauraler Tonhöhenanpassung bei unilateralen CHGs
oder mittels Oktav-Anpassung bei bilateralen CHGs konnten diese Theorie hingegen nicht
oder nur in geringem Masse bestätigen. Dieses Ergebnis ist schwer mittels der Ortstheorie
erklärbar.
86
Ergebnisse besser mittels Zeittheorie erklärbar?
Entsprechend der Zeittheorie kann hingegen die Tonhöhe mittels der Periodizität in den
neuronalen Pulsen bei Neuronen mit höheren CFs (wo die IHZs intakt sind) kodiert werden.
In Fällen von hochfrequentem Ausfall der IHZs wurde beobachtet, dass hohe Sinusoide keine
Tonhöhe haben, sondern wie Rauschen klingen. Dies deutet darauf hin, dass möglicherweise
weder die Orts- noch die Zeitkodierung intakt ist. Verstärkung der hohen Frequenzen brachte
wenig Verbesserung, während interessanterweise bessere Erfolge mit Hörgeräten erzielt
wurden, die Frequenzen im Bereich des Hörverlustes gar nicht übertragen (Tiefpassfilter).
4.3.11 Tonhöhenanomalien in der Wahrnehmung von Sinustönen
Ein bei CHGs auftretendes Phänomen ist die Wahrnehmung von zwei verschiedenen
Tonhöhen auf den beiden Ohren, wovon vor allem Personen mit asymmetrischem Hörverlust
(über beide Ohren betrachtet) betroffen sein können. Eine mögliche Erklärung für diesen als
„Diplacusis“ bezeichneten Effekt ist, dass das Anregungsmaximum verschoben ist, wenn bei
der CF des Signals Hörverlust auftritt (siehe vorheriger Abschnitt). Verfügbare Studien zu
dieser Problematik sind grundsätzlich konsistent mit dieser Hypothese, wobei keine
detaillierte Studien existieren.
Eine andere bei CHGs auftretende Anomalie ist die besonders starke Pegelabhängigkeit der
Tonhöhenwahrnehmung. Bei Normalhörenden hängt die empfundene Tonhöhe vom Pegel ab,
wobei eine Reduktion der Tonhöhe mit steigendem Signalpegel bei tiefen Frequenzen und
eine Anhebung der Tonhöhe mit steigendem Signalpegel bei hohen Frequenzen auftritt (bis zu
ca. 3%). Bei CHGs hingegen kann dieser Effekt bis zu 10% betragen (insbesondere ein
Tonhöhenabfall mit steigendem Pegel bei tiefen Frequenzen).
4.3.12 Frequenzdiskrimination (FD) für komplexe Töne bei CHGs
•
•
•
Bei der Frequenzdiskrimination (FD) komplexer Töne tritt allgemein grosse
interindividuelle Variabilität innerhalb der Gruppe der CHGs auf. Bei einigen CHGs
waren DLFs (als Prozentsatz der Referenzfrequenz ausgedrückt) für Stimuli mit nur
niedrigen Harmonischen (1-5) wesentlich höher als für Stimuli mit nur hohen
Harmonischen. Dies deutet darauf hin, dass die Tonhöhe primär durch hohe nicht
aufgelöste Harmonische kodiert wird. Das Hinzufügen von niedrigen Harmonischen
führt sogar zu einer Verschlechterung der DLFs. Eine Erklärung entsprechend der
Zeittheorie ist, dass verbreiterte auditorische Filter zu komplexeren Wellenformen am
Ausgang der Filter führen. Eine alternative Erklärung ist, dass das Phase Locking
gestört ist.
Es wurde nur eine geringe Korrelation zwischen DLFs und der Frequenzselektivität
beobachtet.
Zur Untersuchung des Effekts der relativen Phasenlage der Komponenten wurden
entweder alle Komponenten in Kosinus-Phase (Beginn des Signals bei T/2) oder
anwechselnd in Kosinus und Sinus-Phase (Beginn des Signals bei 0) präsentiert. Es
87
zeigte sich ein allgemeiner Trend zu niedrigeren DLFs bei einheitlicher Phasenlage,
die eine kontrastreichere Wellenform ergibt (höherer Crest-Faktor), obwohl starke
interindividuelle Variabilität zu beobachten war. Die inter-intdividuelle Variabilität
könnte auf Unterschiede in den Eigenschaften der auditorischen Filter (Amplitudenund Phasengang) zwischen verschiedenen Personen und Frequenzen zurückzuführen
sein.
Allgemein deuten die Ergebnisse darauf hin, daß die Tonhöhenwahrnehmung komplexer Töne
bei CHGs stärker durch die zeitliche Kodierung als durch die Ortskodierung bestimmt ist im
Vergleich zu NHs.
4.3.13 Perzeptive Konsequenzen veränderter Frequenzdiskrimination
Die Tonhöhe spielt eine wichtige Rolle bei der Sprache: Die Bedeutung der Tonhöhe umfasst
folgende Aspekte:
• Hervorhebung der wichtigen Teile
• Unterscheidung zwischen Frage und Aussage
• Struktur von Sätzen durch Phrasen
• in Ton-Sprachen wie Chinesisch oder Thai hat die Tonhöhe sogar inhaltliche
Bedeutung
• nicht-linguistische Information über Geschlecht, Alter und Emotion des Sprechers
Die Bedeutung der Tonhöhe wurde in einem Experiment demonstriert, in dem die
Verständlichkeit von Sprache mittels Lippenlesen durch zusätzliche Präsentation des
Tonhöhen-Cues wesentlich verbessert wurde. Der Tonhöhen-Cue war effizienter als ein Cue,
der die Unterscheidung zwischen tonhaften (Vokalen) und tonlosen (Konsonanten)
Segmenten ermöglichte.
Ein wichtiger Aspekt bei der Sprachwahrnehmung im Störgeräusch ist der Einfluss der
Raumakustik auf die Diskrimination der Tonhöheninformation. Die Phasenlage der
Komponenten wird durch Raumreflexionen zufällig (Diffus-Schallfeld), wodurch der CrestFaktor der Wellenform abnimmt (siehe Fig. 4.27). Eine mögliche Folge ist, dass die Fähigkeit
von CHGs zur Tonhöhenextration im Alltag (Überlagerung von Sprachsignalen durch
Raumreflexionen) möglicherweise überschätzt wird in Studien, die mittels Kopfhörern oder in
anechoischen Räumen durchgeführt werden. CHGs könnten aufgrund erhöhter Fluktuation der
Lautheitswahrnehmung (siehe Kap. „Lautheitswahrnehmung“) grössere Schwierigkeiten
haben, die durch den Raumeinfluss reduzierte Periodizität des Sprachsignals zu extrahieren.
Fig. 4.27 Wellenform eines verhallten Sprachsignals (links) und des unverhallten
Originalsignals (rechts).
88
Der Einfluss von Tonhöhenanomalien auf die Musikwahrnehmung liegt nahe, obwohl hierzu
bisher keine Studien durchgeführt wurden.
4.4 Lautheitswahrnehmung und Intensitätsauflösung
Der Begriff Lautheit definiert jene Eigenschaft der auditorischen Wahrnehmung, aufgrund
derer akustische Signale auf einer Skala von leise nach laut geordnet werden können. Da sie
eine subjektive Grösse ist, kann sie nur mittels einer subjektiven Mess-Skala erfasst werden.
Während die Lautheit stationärer Klänge mit psychoakustischen Lautheitsmodellen gut
prognostiziert werden kann, ist sie für zeitlich fluktuierende Signale noch nicht gut durch
Modelle erfasst.
4.4.1 Isophon-Kurven
Die Frequenzabhängigkeit der Lautheitswahrnehmung für schmalbandige Signale wird durch
den sogenannten Lautstärkepegel erfasst. Der Lautstärkepegel ist eine Intensitätsskale, die die
Frequenzabhängigkeit der Lautheitswahrnehmung berücksichtigt. Diese Frequenzabhängigkeit
ist nach Fletcher und Munson (1933) durch die „Kurven gleicher Lautheit“, oft auch als
Isophonen bezeichnet, gegeben (Fig. 4.28). Als Referenzsignale wurden Sinustöne bei 1000
Hz mit unterschiedlichen Intensitäten verwendet. Zur Ermittlung der ersichtlichen Kurven
wurden Sinusoide unterschiedlicher Frequenzen von VPs so eingestellt (bei alternierender
Präsentation von Testton und Referenzton), dass sie jeweils gleich laut wie einer der
Referenztöne waren. Der Lautstärkepegel eines beliebigen schmalbandigen Signals ist durch
den Pegel eines gleich laut erscheinenden 1000 Hz Tons gegeben. Die Einheit des
Lautstärkepegels ist ein Phon, wobei bei 1000 Hz per Definition die dB-Phon Skala identisch
ist mit der dB-SPL Skala.
Fig. 4.28 Kurven gleicher Lautstärkepegels (Isophone) nach Fletcher und Munson (1933). Bei
1000 Hz Übereinstimmung zwischen dB SPL und dB Phon Skala.
Die unterste der Isophon-Kurven entspricht der MAF Kurve (siehe Kap. „Absolute
Hörschwelle“). Obwohl alle Kurven die gleiche Form haben, zeigen sie bei tiefen Frequenzen
eine Abflachung zu hohen Pegeln hin. Daher ist der subjektive Lautheitsanstieg bei niedrigen
Frequenzen grösser als bei mittleren Frequenzen. Z.B. ist die absolute Schwelle für einen 100
89
Hz-Ton um ca. 20 dB höher als für einen 1000-Hz Ton, aber bei der 100-Phon Kurve sind die
Intensitäten bei 100 und 1000 Hz gleich. Die Isophone bei 100 dB entspricht der inversen dBA Kurve, die zur Berücksichtigung der Frequenzabhängigkeit der Lautheitswahrnehmung bei
der Schallpegelmessung verwendet wird.
4.4.2 Lautheitsskalierung
= Auffinden eines Zusammenhanges zwischen der physikalischen Reizintensität und der
empfundenen Lautheit.
Bei der Entwicklung der Lautheitsskala nach Stevens (1957) wurde sowohl die Methode der
Grössenschätzung als auch der Grössenherstellung (siehe Kap. „Psychophysische
Messmethoden“) verwendet, wobei beide sehr ähnliche Ergebnisse lieferten.
Wie bereits in Kapitel „Grundlegende Gesetze der Psychophysik“ genauer behandelt
wurde, lautet der von Stevens gefundene Zusammenhang (Stevensches Potenzgesetz)
L = kI 0.3
wobei L = Lautheit, I = physikalische Intensität und k = Konstante, die von der
Versuchsperson und der gewählten Einheit abhängt. Eine Verdoppelung der Lautheit
entspricht ca. einem Anstieg des Schallpegels um 10 dB. Bei der daraus abgeleiteten SonSkala entspricht 1 Son der Lautheit eines 1000 Hz Tons mit 40 dB SPL, 2 Son der Lautheit
eines doppelt so laut empfundenen 1000 Hz Tons mit 50 dB SPL usw.
Folgender Ausdruck dient zur Umrechnung vom Lautstärkepegel in Phon (Lφ) in die
Lautheit (son):
log L(sones) = -1.2+0.03Lφ
Eine alternative Methode zur Grössenschätzungs- oder Herstellungsmethode ist die
sogenannte Lautheitsskalierung, die im Kapitel „Messung des Lautheitsanstiegs“ kurz
behandelt wird.
4.4.3 Intensitätsauflösung
Zur Messung der Intensitätsauflösung, d.h. des kleinsten wahrnehmbaren Unterschieds in der
Schallintensität, werden drei verschiedenen Methoden eingesetzt:
• Modulationsdetektion (bei niedriger Modulationsfrequenz)
• Detektion der Erhöhung des Pegels eines kontinuierlichen Hintergrundstimulus
• Intensitätsdiskrimination von gepulsten Stimuli („Welcher von 2 Stimuli war der
lautere?“)
Die mittels dieser drei Methoden gewonnenen Ergebnisse stimmen relativ gut überein. Für
Breitband und Bandpass-gefiltertes Rauschen trifft das Weber‘sche Gesetz (∆I/I = konstant)
[siehe Kap. „Psychophysik“] zu. Für Schallpegel von ca. 20-100 dB SL beträgt ∆L (in dB) ca.
0.5-1 dB und für schwellennahe Stimuli ist ∆L höher.
Im Gegensatz dazu gilt das Weber’sche Gesetz nicht für Sinustöne: Die Funktion von ∆L
über L (in dB) ergibt eine Gerade mit einem Anstieg von 0.9 statt 1 (entsprechend dem
90
Weber‘schen Gesetz), d.h. die Intensitätsauflösung wird mit steigendem Pegel besser. Bei 20
dB SL beträgt ∆L ca. 1.5 dB, bei 40 dB SL ca. 0.7 dB und bei 80 dB SL ca. 0.3 dB (alle bei
1000 Hz). Diese Diskrepanz zu den Ergebnissen mit Rauschsignalen wird in der Literatur als
„near miss to Weber‘s Law“ bezeichnet.
4.4.4 Lautheitsanstieg und Dynamikbereich bei CHGs
Bedingt durch höhere Ruhehörschwellen und meist normale Unbehaglichkeitsschwellen tritt
bei CHGs ein stärkerer „Lautheitsanstieg auf als bei NHs, was als „(Lautheits) Recruitment“
bezeichnet wird. Beim „Under-Recruitment“ (oder partiellem Recruitment) wird am
geschädigten Ohr auch bei sehr hohen Schallpegeln nie die im gesunden Ohr empfundene
Lautheit erreicht. Beim „Over-Recruitment“ übertrifft die Lautheit bei hohen Schallpegeln
jene am gesundem Ohr. Bei CHGs tritt praktisch immer eine mehr oder weniger stark
ausgeprägte Form des Recruitment auf.
4.4.4.1 Messung des Lautheitsanstiegs
Fig. 4.29 zeigt die Ergebnisse der Messung des Lautheitsanstieges bei CHGs mit unilateralem
(einohrigen) Hörschaden, wobei die Methode der interauralen Lautheitsabpassung angewandt
wurde. Die Lautheitswahrnehmung am geschädigten Ohr.
Fig. 4.29 Ergebnisse der Lautheitsanpassung für einen abwechselnd am normalen und
geschädigten Ohr eines unilateralen CHG (durchgezogene Linie) und an den Ohren von
Normalhörenden (strichlierte Linie) präsentierten Sinuston-Pulses [nach Moore, 1995].
(durchgezogene Linie) nähert sich jener am gesunden Ohr (strichlierte Linie) bei höheren
Schallpegeln, aber holt sie nicht vollständig ein („Under-Recruitment“).
Bei bilateralen (beidohrigen) Hörschäden hat sich die Methode der „Kategorialen
Lautheitsskalierung“ als sehr effizient erwiesen: In der ersten Testphase werden Testsignale
(1/2 Oktav-gefilterte Rauschbänder) bei 500, 1000, 2000 und 4000 Hz in zufälliger
Reihenfolge mit Pegeln zwischen 30 und 110 dB SPL präsentiert und mittels der
Auswahlskala „nicht hörbar“ – „sehr leise“ – „leise“ – „angenehm“ – „laut“ – „sehr laut“ –
„zu laut“ skaliert. In der zweiten Phase werden die Kategorien „nicht hörbar“ und „zu laut“
elimiert; die Stufenweite der Pegel hängt von den Ergebnissen aus der 1. Phase ab.
91
Aus den Skalierungsdaten werden für jede Frequenz Lautheitskurven erstellt, wie in Fig.
4.30 dargestellt. Die Methoden der Grössenschätzung und Herstellung ergeben vergleichbare
Ergebnisse.
Lautheitsskalierung
durchgezogene Linie: NHs
Strichlierte Linie: CHGs
„Over -Recruitment “
Mittelohrschaden od.
extremes „UnderRecruitment “ (selten)
Fig. 4.30 Ergebnisse zur kategorialen Lautheitsskalierung von CHGs (durchgezogene Linie)
und NHs (strichlierte Linie) [aus Moore, 1995].
4.4.5 Lautheitsmodell
Das im folgenden beschriebene Lautheitsmodell (nach Zwicker und Scharf, 1965;
Überarbeitung von Moore und Glasberg, 1995) geht von folgender Hypothese aus: Die
empfundene Lautheit hängt von der gesamten vom Stimulus evozierten neuronalen Aktivität
ab, wobei auch die Anregung abseits der CF relevant ist, die durch die Ausbreitung der
Anregung verursacht wird.
Das Modell enthält folgende Stufen:
1. Transfercharakteristik von äusserem und Mittelohr
2. Berechnung des Excitation Patterns des Signals (siehe Kap. „Frequenzselektivität“)
3. Transformation des Excitation Patterns in eine der internen Repräsentation entsprechenden
Frequenzskala (ERB od. Bark)
4. Excitation Level: Berechnung der spezifischen Lautheit N‘, die der Lautheit pro ERB
entspricht. Diese Stufe enthält eine kompressive Nicht-Linearität, die der Transformation von
der physikalischen Anregung in neuronale Aktivität entspricht. Die 1. Komponente ist die
BM-Nicht-Linearität und die 2. Komponente die Umwandlung von der BM-Schwingung in
neuronale Spikepatterns.
5. Berechnung der Gesamtlautheit: diese entspricht der Gesamtfläche unter der Kurve der
spezifischen Lautheiten entlang der Frequenzbänder (N‘ vs. ERB): entsprechend der oben
genannten zugrundeliegenden Hypothese.
92
Der Zusammenhang zwischen der Excitation und N‘ in Leistungs-Einheiten E bei gegeber
CF lautet
N ' = C[(
ETHRQ α
ESIG α
) −(
) ]
E0
E0
für ESIG ≥ ETHRQ
N‘ = 0 für ESIG < ETHRQ
wobei E0 = Excitation durch ein Signal mit 0 dB SPL, ESIG = durch Stimulus angeregte
Excitation, ETHRQ = Excitation an der absoluten Schwelle bei der betreffenden CF,
α
= Konstante, die den Grad der Kompressivität bestimmt (für NHs: 0.23) und
C =
Skalierungskonstante.
Die Funktion ist stark kompressiv, wenn ESIG deutlich über der Hörschwelle liegt und wenig
kompressiv, wenn ESIG knapp über der Schwelle liegt.
In Fig. 4.31 sind die Funktionen, die N’ mit dem Excitation Pegel (in dB) verknüpfen,
dargestellt, wobei der Parameter der Excitation Pegel an der Hörschwelle für die betreffende
CF ist (ETHRQ). Die dargestellte Funktion enthält den Effekt der BM-Nichtlinearität und der
Umsetzung von physikalischer Anregung in neuronale Aktivität. Bei hohen Pegeln verlaufen
die Kurven asymptotisch (entsprechend α), während die Steilheit am Beginn der Kurven von
ETHRQ abhängt („Recruitment“-ähnlicher Effekt)
4.4.6 Zum Recruitment-Phänomen führende Mechanismen
Die Folgen von cochleären Hörschäden sind primär erhöhte absolute Hörschwelle und der
Verlust oder die Reduktion der kompressiven Nicht-Linearität in der EingangsAusgangsfunktion der Basilarmembran (meist Schaden der OHZs). Dies führt zu einer
steileren Eingang-Ausgangsfunktion der BM und damit zu erhöhtem Lautheitsanstieg; über
90-100 dB SPL wird die Funktion linear und hat eine Steigung von ca. 1 (wie bei NHs) [Fig.
4.31].
Entsprechend dem Lautheitsmodell nach Zwicker führt die Erhöhung der Ruhehörschwelle
alleine zu einer Steigung der Funktion Lautheit vs. Auslenkung der BM. Eine weitere
Modellvorstellung ist, dass bei verbreiterten auditorischen Filtern ein gegebener Anstieg des
Signalpegels zu rascherer Verbreiterung der Anregung der BM führt als bei normalen
auditorischen Filtern, sobald die absolute Schwelle überschritten ist.
93
Fig. 4.31 Spezifische Lautheiten N’ in Abhängigkeit vom Excitation Pegel in dB
entsprechend der oben angeführten Funktion. Der Parameter ist der Excitation Pegel an der
Schwelle bei der jeweiligen CF.
Zur Überprüfung dieser Hypothesen wurden Daten von CHGs mit um 50 oder 80 dB
gegenüber NHs erhöhten Hörschwellen mittels eines Lautheitsmodells modelliert. Die Kreise
in Fig. 4.32 zeigen experimentell ermittelte Lautheitsanpassungs-Daten von unilateralen
CHGs (gesundes versus geschädigtes Ohr) und die durchgezogenen Linien die ModellVorhersage nach dem Modell nach Moore and Glasberg (1995). Abgesehen von der
Anhebung der Ruhehörschwelle wurden die psychophysikalischen Parameter von NHs zur
Modellierung verwendet. Die gute Übereinstimmung zwischen den Kreisen und der Linie
zeigen, dass der Recruitment-Effekt gut durch die Erhöhung der Ruhehörschwelle alleine
erklärt werden kann.
Fig. 4.32 Kreise: experimentell ermittelte Lautheitsanpassung-Daten von unilateralen CHGs
(gesundes versus geschädigtes Ohr); durchgezogene Linien: Modell-Vorhersage (nach Moore
and Glasberg, 1995): identische Parameter wie bei NHs abgesehen von Anhebung der
Ruhehörschwelle; strichlierte Linien: zusätzlich Erhöhung der Breite der auditorischen Filter;
links: Verdoppelung der auditorischen Filterbreite und leichte Verbreiterung mit steigendem
Signalpegel; rechts: Vervierfachung der Breite der AFs und keine weitere Verbreiterung mit
Pegel [aus Moore, 1995].
94
Die strichlierte Linien zeigen die Modellvorhersage bei zusätzlicher Erhöhung der Breite der
auditorischen Filter; in der linken Graphik wurde die Filterbreite verdoppelt und zusätzlich
leichte Verbreiterung mit steigendem Signalpegel eingeführt; auf der rechten Seite wurde die
Filterbreite vervierfacht und keine weitere Verbreiterung mit dem Pegel eingeführt. Die
Verbreiterung der AFs führt zu allgemeiner Erhöhung der Lautheit, aber beeinflusst nicht die
Steilheit der Kurve und damit den Verlauf des Lautheitsanstiegs.
4.4.6.1 Experimentell gemessener Einfluss der Frequenzselektivität
Zur direkten Überprüfung der Hypothese, dass der Recruitment-Effekt durch abnormal starke
Ausbreitung der Excitation auf der Basilarmembran verursacht wird, wurden
Lautheitsanpassungsexperimente mit unilateralen CHGs durchgeführt. Der Teststimulus
wurde im geschädigten Gehör entweder in Ruhe oder, in Breitbandrauschen mit einer
spektralen Lücke bei der CF eingebettet, präsentiert, wobei verschiedene S/N-Verhältnisse
getestet wurden. Unter der Annahme, dass bei CHGs die Frequenzselektivität reduziert aber
doch vorhanden ist (was experimentell überprüft wurde), sollte das Rauschen die durch den
Ton verursachte neurale Aktivität bei den von der CF entfernten Frequenzen verdecken, aber
nicht im Bereich der CF. Eine Erhöhung des Rauschpegels sollte demnach zur sukzessiven
Reduktion der Lautheit führen. Die in Fig. 4.33 dargestellten Ergebnisse zeigen geringfügig
stärkere Lautheit bei Absenz des Rauschens, aber keine ausgeprägte Abhängigkeit vom
Rauschpegel. Auch hatte die Anwesenheit des Rauschens keinen Effekt auf die Steilheit der
Lautheitskurve. Daher kann die Ausbreitung der Anregung keine wichtige Ursache für den
Recruiment-Effekt sein.
Fig. 4.33 Lautheits-Anpassung bei unilateralen CHGs zwischen normalem und geschädigtem
Ohr als Funktion des Pegelverhältnisses zwischen sinusoidalem Testton und maskierendem
Rauschen (siehe Text) [aus Moore, 1995].
4.4.6.2 Lautheitssummation
Beim normalen Gehör bleibt bei Verbreiterung der Bandbreite eines Rauschsignals mit
konstanter Gesamtleistung die Lautheit konstant bis zum Erreichen der kritischen Bandbreite
(KB). Bei weiterer Erhöhung der Bandbreite steigt die Lautheit hingegen an. Die allgemeine
Erklärung für dieses als Lautheitssummation bezeichnete Phänomen ist, dass bei Erhöhung
der Bandbreite das Muster der spezifischen Lautheiten breiter, aber niedriger wird, wobei bis
95
zum Erreichen der KB ein Ausgleich der beiden Parameter stattfindet, während darüberhinaus
der Effekt der spektralen Verbreiterung stärker ist als der Effekt der Reduktion der Höhe des
Musters. Der dadurch entstehende Anstieg der Fläche unter der Kurve der spezifischen
Lautheiten (siehe Fig. 4.34) bewirkt eine Erhöhung der Gesamtlautheit (Fig. 4.34).
Fig. 4.34 Excitation Pattern (oben) und Pattern der spezifischen Lautheit für Rauschbänder
mit konstanter Gesamtenergie und Mittenfrequenz, aber variabler Bandbreite. Die Lautheit
eines Signals hängt von der Gesamtfläche unter dem spezifischen Lauheitspattern ab [nach
Moore, 1995].
Diverse Studien zeigten reduzierte Lautheitssummation bei CHGs im Vergleich zu NHs. Fig.
4.35 zeigt Messungen des Lautheitsunterschiedes zwischen 709 und 5909 Hz breiten RauschBändern, die geometrisch um 4 kHz zentriert waren, für verschiedene Rausch-Pegel des
schmäleren Rauschbandes. Die für den Lautheitsausgleich zwischen Stimuli mit den beiden
Bandbreiten notwendige Pegeldifferenz ist als Funktion des Pegels des schmäleren Bandes
dargestellt (Kreise). Die Differenz ist bei CHGs generell geringer als bei NHs (nicht
eingezeichnet) und hängt vom Pegel ab. Zusätzlich wurde eine Simulation mittels der
Lautheitsmodelle nach Zwicker und nach Moore durchgeführt (strichlierte Linie). Wenn nur
Schwellenerhöhung um 45 dB simuliert wurde (durchgezogene Linie), so war die
prognostizierte Lautheitssummation grösser als experimentell ermittelt; wenn zusätzlich 2fache Verbreiterung der auditorischen Filter (ohne Pegelabhängigkeit der Filterbreite)
simuliert wurde (strichlierte Linie), so näherte sich die prognostizierte Lautheitssummation
mehr den Daten der CHGs. Die negative Lautstärke-Differenz bei 60 dB SPL des
Schmalband-Rauschens ist durch den starken Lautheitsanstieg bei geringem SL erklärbar. Die
(bei konstanter Rauschleistung) aus steigender Bandbreite resultierende Reduktion der
Excitation und damit der spezifischen Lautheit bei der CF überkompensiert den Effekt der
Verbreiterung des Excitation Patterns und damit des Lautheitsmusters.
96
Fig. 4.35 Kreise: Pegel-Differenzen zur Kompensierung von Lautheitsunterschieden zwischen
709 und 5909 Hz breitem Rauchen (bei 4 kHz zentriert); durchgezogene Linie:
Modellvorhersage nach Moore und Glasberg (1995) mit normalen AFs, aber
Schwellenerhöhung um 45 dB; strichlierte Linie: wie oben, aber mit Simulation der
Verbreiterung der AFs (2x). [aus Moore, 1995].
Zusammenfassend zeigen die Ergebnisse, dass sowohl Recruitment als auch Verbreiterung der
auditorischen Filter für die reduzierte Lautheitssummation bei CHGs verantwortlich sind.
4.4.7 Intensitätsauflösung bei CHGs
Der allgemeinen Auffassung zufolge basiert die Wahrnehmung von Veränderungen in der
Intensität (∆I) auf der Wahrnehmung von Veränderungen in der Lautheit. Bei CHGs führt,
zumindest bei niedrigen SLs, eine gegebene Veränderung der Intensität zu einer grösseren
Lautheitsveränderung als bei NHs. Daraus kann hypothetisiert werden, dass die
Intensitätsauflösung bei CHGs besser ist als bei NHs. Frühe Studien bestätigten tatsächlich
diese Hypothese und führten zur Entwicklung des klinischen „Short Increment Sensitivity
Index“ (SISI) Tests, bei dem die stufenweise Veränderung des Pegels eines kontinuierlichen
Tons (bei 20 dB SL) detektiert werden soll; die Stufenweite beträgt 5 dB in der
Gewöhnungsphase und 1 dB in der Testphase. NHs und Personen mit Mittelohrschäden
erkennen typischerweise ca. 20%, während CHGs ca. 60% Performance erreichen. Obwohl
der SISI Test sinnvoll zur Diagnose von Innenohrschäden ist, kann daraus nicht abgeleitet
werden, dass CHGs generell bessere Intensitätsauflösung haben als NHs (siehe weiter unten)
4.4.7.1 Detektion von Amplitudenmodulation bei CHGs
Weitergehende Analysen der Ergebnisse mit dem SISI Test ergaben, dass bessere
Intensitätsauflösung bei CHGs im Vergleich zu NHs nur bei gleichem SL, nicht aber bei
gleichem SPL auftritt. Dazu wurde die Amplitudenmodulations (AM)-Detektion bei
Modulationsfrequenz = 4 Hz in einem dem SISI Test vergleichbaren Test untersucht. Es
wurde das kleinste detektierbare Spitze-zu-Tal Verhältnis in dB ermittelt, bei dem 71%
richtige Antworten erfolgen. Zur Überprüfung, ob die obere Flanke des Excitation Patterns der
97
relevante Cue ist, wurde zusätzlich Oktavband-Rauschen (unterer -3 dB Punkt doppelt so
hoch wie die Signalfrequenz) präsentiert (Verdeckung der oberen Flanke des vom Ton
angeregten Excitation Patterns)
Die Ergebnisse in Fig. 4.36 (links) zeigen, dass bei gleichem SPL die Difference Limens
für Amplitudenmodulation (AMDLs) bei unilateren und bilateralen CHGs manchmal
niedriger (besser) und manchmal höher (schlechter) sind im Vergleich zu den normalen Ohren
der unilateralen CHGs. Bei gleichem SL zeigen CHGs hingegen generell niedrigere AMDLs.
Bei der Bedingung mit Oktavrauschen (Fig. 4.36 rechts) tritt generell Erhöhung der AMDLs
auf, was zeigt, dass die Detektion der AM auf der hoch-frequenten Seite des Excitation
Patterns stattfindet.
Fig. 4.36 Mittlere AMDLs für die Frequenzen 0.5, 1 und 2 kHz von 9 unilateralen CHGs,
deren mittlere Ergebnisse (UM) und mittlere Ergebnisse von bilateralen CHGs (BM). links: in
Ruhe; rechts: mit maskierendem Rauschen zur Unterdrückung des Detektions-Cues auf der
hochfrequenten Seite des Maskierungspatterns [aus Moore, 1995].
Experimente zur Intensitätsdiskrimination (Detektion des lauteren von 2 Stimuli) von
gepulsten Tönen ergaben ähnliche Trends, jedoch folgende Unterschiede: die JNDs waren
allgemein höher und der Effekt des Oktavrauschens wesentlich geringer. Dies bedeutet, dass
die hochfrequente Seite des Excitation Patterns keine grosse Bedeutung bei der
Intensitätsdiskrimination von gepulsten Tönen spielt.
4.4.7.2 Erklärung der Ergebnisse zur Intensitäts-Diskrimination
1) Zwislocki und Jordan (1986) überprüften die Hypothese, wonach die Intensitätsauflösung
von der Lautheit selbst und nicht von der Lautheitsanstiegs-Funktion abhängt. D.h., bei
gleicher Lautheit sollte kein Unterschied in den JNDs zwischen CHGs und NHs auftreten. Es
wurde gezeigt, dass für Töne in Ruhe die Intensitätsauflösung zwischen CHGs und NHs
gleich ist, wenn die Stimuli gleiche Lautheit haben; nicht aber bei Hinzufügen von Rauschen.
Es wurde argumentiert, dass die Verbesserung der Intensitätsdiskrimination durch den
erhöhten Lautheitsanstieg durch die erhöhte Variabilität in der Lautheitswahrnehmung als
Folge des erhöhten Lautheitsanstiegs kompensiert wird.
2) Erhöhte Ausbreitung der BM-Anregung:
Die hochfrequente Seite des Excitation Patterns (EP) ist prädestiniert zur Detektion von
Intensitätsänderungen, da die Flankensteilheit nichtlinear mit dem Pegel des Eingangssignals
98
ansteigt (z.B. kann eine 1-dB Änderung im Eingangssignal eine 3 dB Änderung im Excitation
Patterns bewirken) [siehe Kap. „Frequenzsselektivität“]. Diese Idee wurde durch erhöhte
JNDs für Intensitäts-Diskrimination von CHGs mit hochfrequentem Hörverlust relativ jenen
von NHs bestätigt, wenn bei gleichem SPL gemessen wurde. Bei Messung mit gleichem SL
ergab sich hingegen kein Unterschied zwischen diesen beiden VP Gruppen. CHGs mit
abnehmendem Hörverlust bei höheren Frequenzen zeigten keinen Unterschied zu NHs bei
gleichem SPL und sogar niedrigere JNDs als NHs bei gleichem SL.
Zusammenfassend ist die Information auf der hochfrequenten Seite des Excitation Patterns
wichtig für die Intensitätsauflösung. Erhöhung der absoluten Schwellen bei hohen Frequenzen
kann die Intensitätskodierung stören.
4.4.8 Perzeptive Folgen veränderter Lautheitswahrnehmung bei CHGs
Recruitment
Die am stärksten ausgeprägten Folgen der veränderten Lautheitswahrnehmung bei CHGs sind
der Recruitment-Effekt und die reduzierte Dynamik. Bei Signalen mit inhärenten
Amplitudenfluktuationen (wie Sprache oder Musik) führt dies zu erhöhten
Lautheitsschwankungen (z.B. werden bei Musik laute Passagen normal wahrgenommen,
während leise Passagen unhörbar sind). Das aktive auditorische System von NHs könnte als
schnell reagierende AGC (automatic gain control) betrachtet werden, die bei CHGs
ausgefallen ist.
Erhöhte Lautheitsschwankungen haben starken Einfluss auf andere auditorische
Funktionen, z.B. auf die zeitliche Verarbeitung oder die Sprachwahrnehmung. Die praktische
Implikation in Bezug auf Hörgeräte ist die Notwendigkeit für den Einsatz von Kompression
der Dynamik (für die dabei relevanten Herausforderungen sei auf die einschlägige
Fachliteratur verwiesen).
4.4.8.1 Reduzierte Lautheitssummation
Zur erfolgreichen Wiederherstellung normaler Lautheit im cochleär geschädigten Gehör sollte
die Bandbreite des Signals berücksichtigt werden. D.h., wenn der Hörschaden mit
schmalbandigen Signalen „vermessen“ wurde, so ist zur Wiederherstellung „normaler“
Lautheit von komplexen Signalen (wie Sprache od. Musik) mehr Verstärkung notwendig als
mittels schmalbandiger Signale prognostiziert. Beispiel: Eine Person mit unilateralem
Hörschaden (50 dB HL); ein Sinusoid mit 80 dB am geschädigten Ohr evoziert die gleiche
Lautheit wie ein 65 dB Ton im gesunden Ohr (15 dB Unterschied zwischen den beiden
Ohren). Bei Ersetzen des Sinusoids durch ein Breitbandsignal steigt die Lautstärke im
normalen Ohr, aber weit weniger im geschädigten Ohr. Dadurch entsprechen 80 dB im
geschädigten Ohr lautheitsmässig beispielsweise nur mehr 55 dB im gesunden Ohr (25 dB
Unterschied). Daher ist für Breitband-Signale mehr Verstärkung notwendig als für
Schmalbandsignale, um die gleiche Lautheit wie im normalen Ohr zu erreichen.
Ein „Vorteil“ der reduzierten Lautheitssummation bei CHGs ist, dass die Messung der
MCLs (most comfortable level) und UCLs (uncomfortable loudness level) mit
99
schmalbandigen Signalen auch für breitbandige Signale anwendbar ist. Eine Ausnahme stellen
allerdings stark mit der Frequenz variierende Hörschäden dar.
4.4.8.2 Veränderte Intensitätsdiskrimination
Da CHGs normalerweise bei gleichem SPL hören wie NHs (sofern sie kein Hörgerät tragen),
ist deren Intensitäts-Diskrimination meist nicht besser als bei NHs (wie in frühen Studien
angenommen). Hinzu kommt, dass die Variabilität in der Wahrnehmung der Lautheit mit der
Steigung der Lautheits-Anstiegsfunktion (Recruitment-Effekt) zunimmt. Obwohl insgesamt
die Intensitäts-Diskrimination bei CHGs eher verschlechtert ist, ergibt sich keine praktische
Auswirkung, da die für die Sprachdiskrimination relevanten Intensitäts-Unterschiede von
Sprachsignalen weit grösser sind als die JNDs von CGHs. Probleme tauchen hingegen bei
schnell reagierender Dynamikkompression in Hörgeräten mit hohen Kompressionsraten auf,
da dies zu einer Reduktion der Pegeldifferenzen führt. Es muss daher ein Trade-Off zwischen
der Hörbarkeit von leisen Schallen (erfordert hohe Kompressionsrate) und der Verschmierung
von Pegeldifferenzen (bei zu hohen Kompressionsraten) gefunden werden.
4.5 Zeitliche Auflösung und zeitliche Integration bei CHGs
Bei grober Analyse von physiologischen und psychoakustischen Daten finden sich zunächst
keine Hinweise auf reduzierte zeitliche Auflösung bei CHGs. Neurophysiologische
Aufzeichnungen der Reaktion der primären auditorischen Neuronen ergaben präzise
Repräsentation der zeitlichen Muster für überschwellige Stimuli. Die bei CHGs auftretende
Verbreiterung der auditorischen Filter (AFs) führt zur Verkürzung der Impulsantwort und
sollte daher sogar in verbesserter zeitlicher Reaktion resultieren. Trotzdem gibt es
experimentelle Evidenz für reduzierte zeitliche Auflösung von CHGs unter bestimmten
Bedingungen.
4.5.1 Modell der zeitlichen Verarbeitung
Grundsätzlich wird zwischen der Verarbeitung und Analyse der zeitlichen Muster in einzelnen
Frequenzkanälen (periphäre Filterung etc.) und dem Vergleich der zeitlichen Muster über
verschiedene Frequenzkanäle hinweg unterschieden. Da über den Vergleich über mehrere
Frequenzkanäle noch wenig bekannt ist, werden hier primär Daten für einzelne
Frequenzkanäle beschrieben. Fig. 4.37 zeigt die Verarbeitungsstufen von typischen Modellen
der zeitlichen Verarbeitung.
Stimulus
BandpassFilter
Nichtlineare
Stufe
Zeitlicher
Integrator
EntscheidungsProzess
Auditor. Filter auf BM TransduktionBM Auslenkung = zeitl. Glättung (z. B. Tiefpassfilter)
zu neuronaler Aktivität
relativ zentraler Prozess
Fig. 4.37 Blockdiagramm der Stufen von typischen Modellen der zeitlichen Verarbeitung
[nach Moore, 1995].
100
4.5.2 Effekt der auditorischen Filter
Fig. 4.38 zeigt die Impulsantwort von simulierten auditorischen Filtern (zentriert bei 1 kHz)
mit normaler Bandbreite (150 Hz) und mit 2-facher, 4-facher und 8-facher Verbreiterung. Die
Spitzenamplitude steigt mit der Bandbreite, obwohl die Amplitude in der Graphik normalisiert
ist. In den im Folgenden beschriebenen Experimenten wird die Hypothese geprüft, dass die
Charakteristik der auditorischen Filter Einfluss auf die zeitliche Verarbeitung hat. Demnach
sollte die zeitliche Auflösung bei tiefen Frequenzen schlechter seind, da die Bandbreite der
Filter kleiner und daher die Impulsantwort länger ist als bei hohen Frequenzen.
Fig. 4.38. Simulierte Antwort von normalem auditorischen Filter, 2-fach, 4-fach und 8-fach
verbreitertem auditorischen Filter auf kurzen Impuls. CF = 1 kHz [aus Moore, 1995].
4.5.2.1 Einfluss der Mittenfrequenz
In Experiment 1 sollte die VP zwischen den Stimuli A und B unterscheiden, wobei B die
zeitlich gespiegelte Version von A ist (verkehrt abgespielt) und beide Stimuli identische
Langzeitspektren haben. Die Stimuli sind Sinuston-Pulse mit unterschiedlicher Amplitude am
Beginn und Ende (10 dB), bei verschiedenen Frequenzen des Signals. Die Diskrimination
wurde als Funktion der Gesamtdauer des Stimulus gemessen. Bei 4 und 2 kHz lagen die JNDs
zwischen 1 und 2 ms und bei 1 kHz zwischen 2 und 4 ms.
In Experiment 2, der sogenannten Lücken-Detektion, detektiert die VP eine zeitliche
Lücke in einem Schmalband-Rauschen als Funktion der Lückenbreite. Zur Vermeidung der
Detektion von Cues durch spektrale Verbreiterung wird zusätzlich breitbandiges
Hintergrundrauschen präsentiert. Der monotone Abfall der JND mit zunehmender
Mittenfrequenz erscheint zunächst konsistent mit der eingangs erwähnten Hypothese. Es
wurde bei diesem Experiment allerdings nicht berücksichtigt, dass die Bandbreite der Stimuli
mit der Mittenfrequenz zunahm, was eine Interaktion mit dem Faktor Mittenfrequenz
bedeuten kann (d.h., es könnte die Detektion nicht nur von der Mittenfrequenz, sondern auch
von der Bandbreite abhängen; bei gleichzeitiger Variation beider Faktoren kann die Wirkung
jedes der beiden Faktoren nicht getrennt analysiert werden.
Aus dem zuvor genannten Grund war die Durchführung eines LückendetektionsExperiments mit konstanter Bandbreite des Stimulus notwendig (Experiment 3). In
Experiment 2 könnte bei abnehmender Bandbreite des Rausch-Bandes (bei Abnahme der
Frequenz) die dadurch geringere Rate der Amplitudenfluktuation zu einer stärkeren
101
Verwechslung mit der zu detektierenden zeitlichen Lücke geführt haben; dies könnte
insbesondere dann ein Problem darstellen, wenn die mittlere Periode der
Amplitudenfluktuation ähnlich der zu detektierenden Lückenbreite ist. Die Ergebnisse dieses
Experiments zeigten einen geringeren Effekt der Mittenfrequenz als bei Experiment 2. Eine
weitere, vergleichbare Studie zeigte die niedrigsten JNDs bei mittleren Frequenzen und
erhöhte JNDs bei niedrigen und hohen Frequenzen.
Zusammenfassend zeigten diese Experimente, dass die Lückendetektions-Schwellen
höchstwahrscheinlich durch inhärente Amplitudenfluktuationen beeinflusst werden, deren
interne Repräsentation wiederum von der peripheren auditorischen Filterung abhängt.
Zur Messung der zeitlichen Lückendetektion ohne intervenierenden Effekt der zufälligen
Amplitudenfluktuation wurde in Experiment 4a die Lücken-Detektion mit einem Sinuston
gemessen; wie in Experiment 2 und 3 wurde zusätzlich Hintergrundrauschen präsentiert. Da
sich ein starker Effekt der Sinuston-Phase zeigte, bei der die Lücke beginnt und endet, wurden
zwei verschiedenen Bedingungen getestet:
a) „Bewahrte“ Phase: dabei beginnt und endet die Lücke stets bei einem positiven
Nulldurchgang und die Lückendauer ist ein Vielfaches der Periodendauer. Diese Bedingung
ergab einen monotonen Abfall der JND bei Erhöhnung der Lückendauer. Bei 400, 800, 1000
und 2000 Hz lagen die JND bei ca. 5-8 ms; bei 200 Hz zeigte sich ein leichter und bei 100 Hz
ein starker Anstieg auf 18 ms.
Zusammenfassend zeigen die bisher beschriebenen Experimente keine ausgeprägte
Abhängigkeit der zeitlichen Auflösung von der Mittenfrequenz mit der Ausnahme von
Frequenzen ≤ 200 Hz. Die Ergebnisse bestätigen daher nicht die Hypothese, dass die
auditorischen Filter eine wichtige Rolle bei der zeitlichen Auflösung spielen, mit Ausnahme
von sehr tiefen Frequenzen.
b) „Standard“ Phase: bei dieser Bedingung fällt auch der Beginn und das Ende der Lücke
immer mit einem positiven Nulldurchgang zusammen, aber die Lückendauer kann beliebige
Werte annehmen. Die in Fig. 4.39 dargestellten Ergebnisse für diese Bedingung zeigen einen
nicht-monotonen Verlauf der psychometrischen Funktion bei 400 und 1000 Hz. Die
Detektierbarkeit der Lücken ist am schlechtesten, wenn die Lückendauer ein Vielfaches der
Signalperiode, T, ist. (2.5 od. 5 ms). Die psychometrische Funktion zeigt hingegen Maxima,
wenn die Lückendauer ca. gleich (n+0.5)T ist. Bei 2000 Hz zeigte sich ein monotoner Verlauf
der psychometrischen Funktion.
102
Fig. 4.39 Prozentsatz der korrekten Detektion einer Lücke in einem 400 Hz Sinuston als
Funktion der Lückenbreite für die Bedingung „Standard Phase“ (siehe Text) [aus Moore,
1995].
Diese Ergebnisse können damit erklärt werden, dass bei einer Lückendauer von genau
einer Periode (2.5 ms) das der Lücke folgende Sinustonsegment in Phase mit dem
Nachschwingen des Filters ist. Wie in Fig. 4.40 ersichtlich, entsteht nur ein kleines Tal in der
Wellenform, das schwierig zu detektieren ist. Wenn die Lücke 1.25 oder 3.75 ms beträgt, so
ist die Lücke nicht in Phase mit der Filterschwingung, was in einem tieferen und daher
leichter zu detektierenden Tal resultiert.
Fig. 4.40 Simulation des Ausgangs eines auditorischen Filters bei 400 Hz für die Bedingung
„Standard-Phase“, siehe auch Fig. 4.39 [aus Moore, 1995].
Der monotone Verlauf der psychometrischen Funktion für der Bedingung „Bewahrte“
Phase ist dadurch erklärbar, dass das der Lücke folgende Sinusoid-Segment immer in Phase
mit der Filterschwingung ist.
103
Bei höheren Frequenzen ist die psychometrische Funktion immer monoton (sogar bei der
„Standard“-Phase-Bedingung), da die Impulsantwort des Filters kurz ist in Relation zur
Lückenbreite.
Zusammenfassend haben die auditorischen Filter grossen Einfluss bei deterministischen
Signalen, insbesondere bei tieferen Frequenzen. Bei realen Signalen scheinen die
auditorischen Filter aber, mit Ausnahme von sehr tiefen Frequenzen, die zeitliche Auflösung
nicht wesentlich zu beschränken.
4.5.3 Charakteristik der nicht-linearen Stufe und des zeitlichen Integrators
Nachdem die in Fig. 4.37 dargestellten Stufen der zeitlichen Verarbeitung
hintereinandergeschaltet sind, ist es schwierig, die Charakteristik des zeitlichen Integrators
unabhängig von den anderen Verarbeitungsstufen zu bestimmen. Beim im Folgenden
beschriebenen Modell wird angenommen, dass die nicht-lineare Stufe der Umsetzung von
BM-Bewegung in neuronale Aktivität eine Quadrierungs- (bzw. Gleichrichtungs-)
Charakteristik hat. Der zeitliche Integrator wird als zeitliches Fenster modelliert, dass eine
laufende Mittelung der Energie am Ausgang der auditorischen Filter durchführt. In einem
Experiment zur Bestimmung der Charakteristik des zeitlichen Integrators (od. Fensters)
detektierten VPs einen sehr kurzen, zwischen zwei Rauschpulsen plazierten Ton-Puls als
Funktion des Abstandes der Tonpuls-Mitte zum Offset des ersten Rauschpulses (VorwärtsMaskierung) und zum Onset des zweiten Rauschpulses (Rückwärts-Maskierung), wie in Fig.
4.41 dargestellt.
T
Fig. 4.41 Stimuluskonfiguration bei der Messung des zeitlichen Fensters.
Die beiden Seiten des zeitlichen Fensters (ZF) wurden aus den Daten als Summe von zwei
Rounded-Exponential-Funktionen (siehe Kap. „Frequenzselektivität“) modelliert (Fig. 4.42).
Das ZF zeigte nahezu keine Abhängigkeit von der Tonfrequenz abgesehen von einer leichten
Verbreiterung des Fensters, d.h. einer Verschlechterung der zeitlichen Auflösung bei sehr
tiefen Frequenzen. Das ZF verbreiterte sich leicht mit sinkendem Pegel. Die equivalent
rectangular duration (ERD) des ZF betrug ca. 8-9 ms. Ein Problem bei diesem Modell ist, dass
es von der linearen Addition der Effekte der Vorwärts- und Rückwärts-Maskierung ausgeht
(d.h. 3 dB Anstieg). Neuere Studien zeigten, dass dies nicht der Fall ist. Der Effekt der nichtlinearen Additivität kann jedoch durch Vorschaltung einer kompressiven nicht-Linearität
modelliert werden, was physiologisch realistischer ist als eine Quadrierung (für Details siehe
Oxenham and Moore, 1994).
104
Fig. 4.42 Aus den Ergebnissen zur Vorwärts- und Rückwärtsmaskierung mit NHs abgeleitetes
zeitliches Fenster [nach Plack und Moore, 1990].
4.5.4 Zeitliche Auflösung bei CHGs
Zum Einfluss von cochleären Hörschäden auf die zeitliche Auflösung liegen unterschiedliche
Ergebnisse vor: manche Studien zeigten eine Verschlechterung und andere nicht. Es zeigte
sich, dass diverse Faktoren, die mehr oder weniger mit der zeitlichen Verarbeitung
zusammenhängen, die Ergebnisse beeinflussen:
4.5.4.1 Einfluss des Schallpegels
Bei NHs zeigt sich eine reduzierte zeitliche Auflösung, wenn bei niedrigen SLs getestet wird.
Das Problem bei CHGs ist, dass, bedingt durch den Recruitment-Effekt, nicht bei hohen SLs
getestet werden kann. Damit konsistent ist die zeitliche Auflösung von CHGs im Vergleich zu
NHs bei Messung mit gleichem SPL reduziert; bei Messung mit gleichen SL
(Lückendetektion oder Vorwärtsmaskierung) sind die Unterschiede aber nur gering (siehe
nächste Graphik). Fig. 4.43 zeigt die Ergebnisse von Messungen zur Vorwärtsmaskierung
(Mittelwerte von 5 unilateralen CHGs), bei denen ein kurzer Sinus-Puls zu mehreren
Zeitpunkten vor und nach dem Abschaltzeitpunkt eines Rausch-Maskierers präsentiert wurde.
Der Maskiererpegel war fix im geschädigtem Ohr und hatte gleichem SPL oder SL im
normalen Ohr. Während bei gleichem SPL die Vorwärtsmaskierung im geschädigten Ohr viel
stärker war als im gesunden Ohr, so war sie bei gleichem SL kaum stärker. Der oft in der
älteren Literatur berichtete langsamere Abfall der Mithörschwellen bei CHGs ist daher nicht
auf reduzierte zeitliche Auflösung per se zurückzuführen, sondern auf den geringeren SL. Bei
deterministischen Signalen (ohne stochastische Fluktuationen) und gleichem SL haben CHGs
manchmal sogar bessere zeitliche Auflösung als NHs. Allerdings stellt sich im Alltag das
Problem, dass aufgrund des Recruitment-Effekts nur bei relativ geringen SLs gehört werden
kann.
105
Fig. 4.43 Vorwärtsmaskierungsschwellen für einen Sinuston-Puls als Funktion des Abstandes
zum Onset eines Rauschmaskierers bei drei verschiedenen Frequenzen. Ab 200 ms
entsprechen die Schwellen der Vorwärtsmaskierung. Kreise: CHGs; Quadrate: NHs bei
gleichem SPL; Rauten: NHs bei gleichem SL [aus Moore, 1995].
4.5.4.2 Einfluss verbreiterter auditorischer Filter
Verbreiterung der auditorischen Filter könnte theoretisch sogar ein potentieller Vorteil für die
zeitliche Auflösung sein. Da jedoch der Effekt der auditorischen Filter auf die zeitliche
Auflösung bei NHs mit Ausnahme von sehr niedrigen Frequenzen sehr gering ist (wie im
vorigen Abschnitt gezeigt wurde), ist keine Verbesserung der zeitlichen Auflösung bei CHGs
relativ zu NHs zu erwarten. Das einzige Experiment, in dem die auditorischen Filter Einfluss
zeigten, ist die Bedingung „Standard“ Phase bei der Lückendetektion mit einem SinusTestsignal. Messungen mit CHGs ergaben, dass die Ergebnisse bei tiefen Frequenzen
(monotone psychometrische Funktionen) ca. denen von NHs bei hohen Frequenzen
entsprechen (Fig. 4.44). Die naheliegendste Erklärung hierfür ist, dass die Impulsantwort der
breiteren Filtern bei tieferen Frequenzen im Falle der CHGs ähnlich der der „normalen“ Filter
bei höheren Frequenzen im Falle von NHs ist. In beiden Fällen scheint die Performance durch
einen mehr zentral gelegenen zeitlichen Integrationsprozess limitiert zu sein.
106
Fig. 4.44 Psychometrische Funktionen der Lückendetektion für die Bedingung „Standard
Phase“ bei tiefen Frequenzen am normalen und geschädigten Ohr eines unilateralen CHGs
[aus Moore, 1995].
4.5.4.3 Einfluss von Veränderung in der kompressiven Nicht-Linearität
Bei Signalen mit langsamer zufälliger Amplituden-Fluktuation (z.B. Schmalbandrauschen) ist
die zeitliche Auflösung bei CHGs reduziert (wie z.B. bei der Messung der Lückendetektion
gezeigt wurde). Daraus ergibt sich die Hypothese, dass die Verschlechterung in
Zusammenhang mit dem abnormal steilen Lautheitsanstieg (Recruitment-Effekt) steht.
Demnach bewirkt der Recruitment-Effekt eine Verstärkung der Lautheitsfluktuationen, was
zur verstärkten Verwechslung mit der zu detektierenden zeitlichen Lücke führt. Diese
Hypothese wurde mittels Modifikation der zeitlichen Hüllkurve von Schmalbandrauschen
überprüft, entsprechend:
EMOD= EORIN,
wobei EORI ist die Hüllkurve des Originalsignals, EMOD die des modifizierten Signals und N ist
der im Experiment als unabhängige Variable verwendete Exponent. Bei Signalen mit
konstantem Pegel (z.B. Sinustöne) ist der modifizierte Pegel (in dB) eine lineare Funktion des
Originalpegels; N > 1 resultiert in Vergrösserung der Fluktuation, was der Simulation des
Recruitment-Effekts entspricht (stärkerer Effekt bei Erhöhung von N); N < 1 resultiert
hingegen in einer Reduktion der Fluktuation, was mit einem Pegel-Kompressor oder einer
schnellen AGC (automatic gain control) vergleichbar ist. Der Wert N = 2 simuliert einen
typischen Recruitment-Effekt, wobei 50 dB Dynamik-Bereich bei CHGs 100 dB DynamikBereich bei NHs entspricht.
Fig. 4.45 zeigt die in einem Lückendetektionsexperiment mit unilateralen CHGs und NHs
verwendeten Rauschbänder mit einer Bandbreite von 10 Hz, wobei die drei Bedingungen
N=2, 0.5 und 1 dargestellt sind. Im Experiment wurde zusätzlich ein kontinuierliches,
breitbandiges Hintergrundrauschen zur Vermeidung der Detektion von spektraler
Verbreiterung dargeboten. Bei einem Schallpegel von 85 dB SPL waren die Signale sowohl
für die normalen als auch für die geschädigten Ohren deutlich über der Hörschwelle.
Fig. 4.46 zeigt die Ergebnisse für die beiden Ohren eines unilateralen CHGs, wobei die des
normalen Ohrs identisch sind mit jenen von NHs. Die Lückendetektions-Schwellen steigen
107
signifikant mit abnehmender Bandbreite des Rauschbandes an. Dies ist konsistent mit der
Annahme, dass bei langsamer Amplituden-Fluktuation stärkere Verwechslung mit der Lücke
auftritt. Die JNDs steigen mit steigendem N für alle Bandbreiten an. Am stärksten ist der
Anstieg bei kleinen Bandbreiten, was durch eine statistisch signifikante Interaktion zwischen
den Faktoren Bandbreite und N untermauert wird. Dies bestätigt die Hypothese, dass
Fluktuationen (vor allem bei tiefen Frequenzen) zu reduzierten JNDs führen.
Fig. 4.45 Beispiele der Hüllkurven eines Rauschbandes (10 Hz Bandbreite) für N=1 (keine
Modifikation), N=0.5 und N=2.
Fig. 4.46 Lückendetektionsschwellen als Funktion von N für die beiden Ohren eines
unilateralen CHGs. Der Parameter ist die Bandbreite des Rauchens [aus Moore, 1995].
Die JNDs für das geschädigte Ohr sind allgemein höher (27.2 ms) als für das normale Ohr
(12.8 ms). Die Performance des normalen Ohrs bei N = 2 (26.9 ms) ist vergleichbar mit der
des geschädigten Ohrs bei N = 1 (26.5 ms). Dies bedeutet, dass die Simulation von
Recruitment beim NH den Effekt der erhöhten Lückendetektions- JNDs erfolgreich
nachbildet.
Bei N < 1 zeigt sich eine leichte Verbesserung der JNDs im normalen Ohr und eine starke
Verbesserung Effekt im geschädigten Ohr. Die Performance des geschädigten Ohrs bei N =
0.5 (11.6 ms) ist vergleichbar mit der des normalen Ohrs bei N = 1 (12.5 ms). Dies bedeutet,
108
dass die gestörte Lückendetektion im geschädigten Ohr durch geeignete Kompression der
Fluktuationen in der Hüllkurve der Stimuli kompensiert werden kann.
Die Reduktion des Effektes von N bei grösseren Bandbreiten kann folgendermassen
erklärt werden: schnelle Amplitudenfluktuation wird durch den zentralen zeitlichen Integrator
beschränkt, wodurch dessen Einfluss auf die Lückendetektion reduziert wird.
Zusammenfassend finden sich bei CHGs keine Hinweise auf Veränderungen in der der
cochleären Verarbeitung nachgeschalteten zeitlichen Verarbeitung (dem zeitlichen Fenster
bzw. Integrator).
Eine Ausnahme in Bezug auf die zeitliche Verarbeitung bilden Patienten einer bestimmten
Art von retro-cochleärem (zentralem) Hörschaden, der sogenannten Auditorischen
Neuropatie. Diese erst unlängst näher untersuchte auditorische Fehlfunktion führt zu
reduzierter Synchronisation der neuronalen Spikes mit dem Stimulus. Für nähere Details
hierzu sei z.B. auf Zeng et al. 2001 verwiesen.
4.5.5 Zeitliche Integration
Bei NHs ist die absolute Hörschwelle abhängig von der Dauer eines Stimulus. Bis max. 200500 ms nimmt die Schwelle mit zunehmender Dauer ab, während bei Dauern > 200-500 ms
keine Abhängigkeit von der Dauer besteht. Das Gehör scheint die Intensität über einen relativ
grossen zeitlichen Bereich zu integrieren, was als zeitliche Integration (ZI) bezeichnet wird.
Demnach wäre die Schwelle in erster Annäherung durch konstante Energie statt durch
konstante Intensität bestimmt entsprechend
I x t = konstant
wobei I = Intensität an der Schwelle für einen Stimulus von der Dauer t.
Eine bessere Anpassung an gemessene Daten ergibt sich aber mit folgendem Ausdruck:
(I – IL) x t = IL x τ = konstant
wobei IL = Intensität an der Schwelle für einen langen Stimulus und τ = Konstante, die die
Integrationszeit des individuellen Gehörs repräsentiert. IL kann als minimale Intensität
aufgefasst werden, die ein effektiver Stimulus für das Gehör darstellt (nur Intensitäten > IL
werden linear integriert. In dB dargestellte Schwellen als Funktion der Dauer in logDarstellung ergeben eine Gerade mit einem Abfall von -3 dB pro Verdoppelung der Dauer.
Bei CHGs ist die ZI meist wesentlich geringer als bei NHs. D.h., die Steigung der
Funktion (Geraden) ist geringer. Auch wurde eine Korrelation zwischen der Steigung der
Geraden und dem Hörverlust an der CF nachgewiesen.
4.5.5.1 Erklärungsmodelle für reduzierte ZI
Im Folgenden werden verschiedene Erklärungsmodelle für die bei CHGs reduzierte ZI
beschrieben, die teilweise mittels Experimenten überprüft wurden.
109
4.5.5.1.1 Abhängigkeit vom absoluten Pegel
Hypothese: „Höherer Schallpegel an der absoluten Schwelle führt zu reduzierter ZI.“
Zur Überprüfung dieser Hypothese wurden die absoluten Hörschwellen von NHs durch
Rauschen künstlich erhöht, d.h. die ZI wurde bei „maskierten“ Schwellen gemessen. Es zeigte
sich kaum Reduktion der ZI, weshalb diese Hypothese verworfen werden kann.
4.5.5.1.2 Detektion von spektralen Veränderungen
Hypothese: „Die spektrale Verbreiterung beim Onset und Offset wird von NHs nicht
detektiert, da diese Cues unter die absolute Hörschwelle fallen. CHGs mit
frequenzspezifischem Hörschaden können hingegen spektrale Verbreiterung in einem
Frequenzbereich detektieren, in dem die absolute Hörschwelle niedriger ist als bei der
Anregungsfrequenz.“
Bei fixer Dauer von Onset und Offset sollte die Energie in der spektralen Verbreitung
nicht durch den stationären Signalanteil beeinflusst werden, d.h. der Cue ist unabhängig von
der Dauer des Signals. In anderen Worten, die Hypothese besagt dass CHGs wegen der
Detektion von spektraler Verbreiterung kurze Signale gleich gut detektieren wie lange
Signale, während NHs diesen Detektions-Cue nicht ausnützen können. Auch diese Hypothese
wurde nicht bestätigt, da
1) CHGs mit flachem Hörverlust genauso geringe ZI aufweisen wie NHs
2) die Simulation von freqenzspezifischem Hörverlust bei NHs nicht zu reduzierter ZI
führte.
4.5.5.1.3 Effekt der kompressiven Nicht-Linearität
Hypothese: „Die steilere Eingangs-Ausgangsfunktion der BM und die daraus folgende steilere
Spikerate-versus-Pegel Funktion des auditorischen Nerven führt zu reduzierter ZI.“
Diese Hypothese geht von der Annahme aus, dass die Schwelle durch eine fixe Anzahl an
evozierten neuronalen Spikes ausgelöst wird. Weiter geht sie davon aus, dass die EingangsAusgangs-Funktionen der für die absolute Schwelle relevanten Neuronen homogen sind. Die
untere strichlierte Linie in Fig. 4.47 gibt die Spikerate in Spikes/sec, N1, für einen langen
Stimulus an der absoluten Hörschwelle an. Der Hypothese entsprechend erfordert die
Reduktion der Dauer des Stimulus mit Faktor X eine Erhöhung des Stimuluspegels, um die
Spikerate konstant zu halten. N2 gibt die Spikerate an, die für den kurzen Stimulus durch eine
Pegelerhöhung erreicht wird, die zum Erreichen der Schwelle notwendig ist: N2 = N1 x X.
Beispielsweise muss bei Halbierung der Dauer die Spikerate verdoppelt werden, um die
Schwelle zu erreichen. Der für die Erhöhung der Spikerate benötigte Pegelanstieg ∆L ist bei
NHs grösser als bei CHGs, da die Spikerate-vs-Pegel Funktion bei NHs flacher ist als bei
CHGs. Dies führt daher bei CHGs zu einem geringeren ZI Effekt.
Diese Hypothese wurde noch nicht mittels physiologischer Studien bestätigt, aber sie stellt
das momentan am plausibelsten erscheinende Modell dar. Die oben genannte Darstellung
stellt eine Vereinfachung dar, da die Spikerate als Reaktion auf einen stationären Stimulus mit
fortschreitender Dauer abnimmt (Adaptations-Effekt) [siehe Kap. „Physiologie und Funktion
110
des normalen und geschädigten Gehörs“]; dies bedeutet, dass die Spikerate-vs-Pegel Funktion
von der Dauer des Test-Stimulus abhängt.
N1: Feuerrate an der Schwelle für langes
Signal
N2 (N1 x X) : Feuerrate an der Schwelle nach
Modifikation der Dauer um Faktor X
Fig. 4.47 Schematische Darstellung der Spikerate-vs-Pegel Funktionen einer Neuronengruppe
für NHs (links) und CHGs (rechts) [aus Moore, 1995].
4.5.6 Perzeptive Auswirkungen veränderter zeitlicher Verarbeitung bei
CHGs
Bei CHGs erscheint der zentrale zeitliche Integrator (zeitliches Fenster bzw. Tiefpassfilter)
nicht verändert gegenüber NHs, aber die vorangehende Nicht-Linearität ist weniger
kompressiv als bei NHs. Bei Signalen mit zufälliger, langsamer Amplitudenfluktuation (wie
im Falle der meisten Alltagssignale, z.B. Sprache) haben CHGs Schwierigkeiten, der
zeitlichen Struktur zu folgen, weil der zu detektierende Cue mit der Fluktuation verwechselt
wird. Auch ergibt sich bei Personen mit erhöhten Hörschwellen das Problem, dass die
zeitliche Auflösung bei niedrigem SL reduziert ist. All diese Faktoren resultieren in
Verschlechterungen bei der Sprachverständlichkeit und bei der Diskrimination und
Identifikation von Musik und Umweltgeräuschen.
4.5.6.1 Reduzierte zeitliche Integration
Bei CHGs ist der Verlust an Sensitivität für pegelschwache Signale weniger stark für kurze
Signale ausgeprägt als für längere Signale.
4.6 Literatur zur Psychophysik des normalen und cochleär
geschädigten Gehörs
Moore, B.C.J. (1995). "Perceptual consequences of cochlear damage" Oxford University
Press.
Gelfand, S. (1990). “Hearing: An introduction to psychological and physiological acoustics,”
Marcel Dekker.
111
5 EXPERIMENTELLES DESIGN IN DER PSYCHOPHYSIK
Der Begriff experimentelles Design bezeichnet die Planung für die Zuordnung von
Versuchspersonen (VPs) zu experimentellen Bedingungen und die zugehörige statistische
Analyse. Experimentelles Design umfasst die folgenden Schritte:
• Formulierung einer überprüfbaren statistischen Hypothese, die die wissenschaftliche
Hypothese des Experiments beschreibt
• Bestimmung der zu testenden experimentellen Bedingungen (die unabhängigen
Variablen), der Messvariablen (abhängige Variable) und der Störvariablen, die
kontrolliert werden müssen
• Spezifikation der Anzahl an VPs und der Population, aus der sie ausgewählt werden
(z.B. entsprechend der Ätiologie, d.h. der Krankheitsgeschichte bezüglich des Gehörs
bei psychoakustischen Experimenten)
• Definition der Methode, mittels der die VPs den verschiedenen experimentellen
Bedingungen ausgesetzt werden (zeitliche Anordnung der Bedingungen und MessWiederholungen)
• Bestimmung der mit den Daten durchzuführenden statistischen Analyse
5.1 Terminologie
abhängige Variable
unabhängige Variable
Störvariable
Faktorstufe
interne Validität
externe Validität
Versuchsleitereffekt
Messvariable
(bei
psychophysikalischen
Experimenten:
Antwortvariable, z.B. Ton vorhanden od. nicht vorhanden; bei
physiologischen Experimenten: z.B. Ergebnis einer elektrischen
Messung)
vom Experimentator manipulierte Variable, deren Wirkung auf
die abhängige Variable entsprechend einer Hypothese überprüft
wird (z.B. Frequenz eines Testtons bei Hörschwellenmessung);
auch als „Faktor“ bezeichnet (meist bei gleichzeitiger Testung
von mehr als einer unabhängigen Variablen); die Anwendung
einer unabhängigen Variablen wird im Folgenden auch als
„Behandlung“ bezeichnet
unerwünschte aber unvermeidliche Quelle der Variation in einem
Experiment, die die abhängige Variable beeinflusst; oft auch als
Sekundärvariable bezeichnet
bestimmte Ausprägung der unabhängigen Variablen
Logik
oder
Plausibilität
eines
Experiments
unter
Berücksichtigung des Einflusses von Störvariablen (z.B.: ist die
unabhängige Variable wirklich für die Variation der abhängigen
Variablen verantwortlich?)
Anwendbarkeit und Verallgemeinerbarkeit der Ergebnisse auf die
(Gesamt)Population oder andere Populationen bzw. Bedingungen
etc
Auslösen des im Experiment zu untersuchenden Zustandes durch
die experimentelle Situation bzw. durch die Anwesenheit des
Versuchsleiters (z.B. wenn Versuchsleiter bei Ja/Nein Experiment
die Antwort weiss und die VP den Versuchsleiter sieht, so könnte
der Versuchsleiter die richtige Antwort durch seinen
Gesichtsausdruck unbewusst verraten)
112
(Gesamt)Population
Stichprobe
Interaktion
→ Lösung: Blindversuch Doppel-Blindversuch (weder die VP
noch der Versuchsleiter weiss, welcher Bedingung die VP
ausgesetzt ist); bei medizinischen Studien häufig auch
Blindstudien (VP weiss nicht, welcher Behandlung sie unterzogen
wird → Vermeidung des „Plazebo“-Effekts)
Grundgesamtheit: alle Untersuchungseinheiten, die prinzipiell
untersucht werden könnten (z.B. alle Menschen, die für Hörtests
in Frage kommen)
nach Zufallsprinzip oder bestimmten Kriterien ausgewählter Teil
der Gesamtpopulation
Abhängigkeit des Effektes einer Variablen von der(n)
Faktorstufe(n) einer anderen Variable
5.2 Selektion der unabhängigen Variablen
•
•
Bei dichotomen oder kategorialen Variablen (nur zwei Alternativen möglich) keine
Auswahl der Variablenstufen notwendig
Quantitative (metrische) unabhängige Variablen erfordern die Auswahl von adäquaten
Variablenstufen; diese sollten breit genug verteilt sein, um den erwarteten Effekt zu
erfassen (falls er existiert); auch sollten genug Stufen vorhanden sein, um die Form der
Funktion bestimmen zu können, mit der die unabhängigen und die abhängige Variable
zusammenhängen. Die Auswahl der Faktorstufen kann auf vorangegangenden Studien,
auf Vortests (sogenannten Pilot-Tests) oder auf theoretischen Überlegungen basieren.
Die Verwendung von identischen Faktorstufen wie in vorangegangenen Studien
erleichtert den Vergleich der Ergebnisse mit der aktuellen Studie.
5.3 Selektion der abhängigen Variablen
Meist erfolgt die Auswahl der abhängigen Variable durch theoretische Überlegungen oder
durch praktische Aspekte wie Vorwissen und Erfahrung aus anderen Studien. Bei der
Selektion der abhängigen Variablen müssen folgende Aspekte berücksichtigt werden:
• Sensitivität (reicht die Genauigkeit der angewandten Methode, den erwarteten Effekt
messen zu können)
• Reliabilität (Reproduzierbarkeit)
• Verteilung (Normalverteilung und homogene Varianz aller Populationsverteilungen
der getesteten Faktorstufen)
• Praktikabilität (Kosten-Nutzen)
Der dritte Punkt, die Populationsverteilungen der Faktorstufen, kann natürlich ohne
Vorwissen oder Vortests nicht prognostiziert werden. Im schlimmsten Fall bemerkt man erst
bei der Analyse der Daten, dass die Verteilung nicht den Anforderungen der Analysemethode
entspricht. Allerdings gibt es für solche Fälle die Möglichkeiten, die Verteilung durch
Datentransformationen an die Anforderungen anzupassen oder sogenannte nichtparametrische Teststatistiken zu verwenden (erfordern keine Normalverteilung).
5.4 Einfluss von Störvariablen
Störvariablen sind unerwünschte aber unvermeidliche Quellen der Variation in einem
Experiment, die die abhängige Variable beeinflussen. Beispiele für Störvariablen sind die
Veränderung der Kalibrierung einer Messeinrichtung (z.B. Verrutschen des Kopfhörers),
113
kleine Unterschiede bei der Präsentation der Instruktion für verschiedene VPs oder
unterschiedliche Trainingsgrade der verschiedenen VPs.
Störvariablen können die Ergebnisse in unterschiedlicher Weise beeinflussen:
• systematische Verschiebung der Daten in eine bestimmte Richtung, die als Bias
bezeichnet wird
• Erhöhung der Variabilität in den Ergebnissen und damit der Fehlervarianz
• eine Kombination von beidem
Störvariablen können daher die Validität der Schlussfolgerungen aus Forschungsergebnissen
gefährden.
5.5 Definition eines Experiments
Die Durchführung eines Experiments ermöglicht die Überprüfung eines hypothetisierten
Zusammenhangs zwischen einer unabhängigen und einer abhängigen Variablen durch
Manipulation der unabhängigen Variablen. Experimente unterscheiden sich von anderen
Forschungsstrategien (z.B. Datenerhebungen, Beobachtungsstudien etc.), indem sie eine
direkte Kontrolle von Störvariablen ermöglichen. Dies geht allerdings auf Kosten der
praktischen Aussagekraft der Ergebnisse im realen Leben, da eine experimentelle Situation
meist „künstlicher“ ist als die Praxis. Charakteristisch für Experimente ist auch die
Manipulation einer oder mehrerer unabhängiger Variablen. Dies ist Vorraussetzung, um
Kausalität abzuleiten.
5.5.1 Zusammenfassung der statistischen Schlussfolgerung
5.5.1.1 Hypothesenformulierung
• Wissenschaftliche Hypothese: z.B. „Rauchen führt zu erhöhtem Blutdruck“
• statistische Hypothesen (Aussagen über einen oder mehrere Parameter einer Population):
H0 (Nullhypothese):
µ1-µ2 ≤ 0 (kein Effekt)
H1 (Gegenhypothese): µ1-µ2 > 0 (entsprechend der wissenschaftlichen
Hypothese)
wobei µ1 und µ2 die unbekannten Mittelwerte der Population von Rauchern und
Nichtrauchern sind
• H0 und H1 müssen gegenseitig exklusiv sein.
5.5.1.2 Signifikanzprüfung
• Auswahl einer Teststatistik (z.B. z-Statistik, wenn Standardabweichung bekannt ist; tStatistik, wenn Standardabweichung aus den Daten geschätzt werden muss)
• Definition der Stichprobengrösse: je grösser die Stichprobe, desto mehr nähert sich die
Stichprobenverteilung einer Normalverteilung (zentraler Grenzwertsatz)
• Definition des Signifikanzwertes α = höchste vertretbare Wahrscheinlichkeit, dass die
H0 fälschlicherweise verworfen wird. Fig. 5.1 zeigt den Bereich einer
Stichprobenverteilung, jenseits dessen die H0 verworfen wird (kritischer Bereich).
• Datenerhebung und Berechnung der Teststatistik:
• Entscheidungskriterium: Ablehnung der H0, wenn Test-Statistik in die kritische
Region fällt (t > tα, n); andernfalls Annnahme der H0.
114
f(t)
kritischer Wert t,α,ν
-4
-3
-2
-1
0
t
akzeptiere H0
1
kritischer Bereich
2
3
4
verwerfe H0
Fig. 5.1 Stichprobenverteilung von t: Fällt der t-Wert in den schraffierten Bereich
(entsprechend einem α-Wert von < 0.05), so ist die Wahrscheinlichkeit, dass dies unter
Korrektheit der H0 nur zufällig passiert, kleiner od. gleich 5%.
Üblicherweise wird eine zweiseitige Fragestellung geprüft. Falls eine einseitige Fragestellung
vorliegt, so liegt der Übergangspunkt beim t-Wert entsprechend α. Bei zweiseiter
Fragestellung liegt er beim t-Wert entsprechend α/2, da ja die Wahrscheinlichkeit von beiden
Seiten addiert werden muss. Einseitige Fragestellungen liegen dann vor, wenn aufgrund von
anderen Studien, Vortests oder einer Theorie die Richtung des Effekts bekannt ist.
5.5.1.3 Typ I und Typ II Fehler
Die Wahrscheinlichkeit eines Typ I Fehlers entspricht dem vom Experimentator definierten
Signifikanzwert α (Wahrscheinlichkeit, dass korrekte H0 verworfen wird); die
Wahrscheinlichkeit eines Typ II Fehlers (ß) entspricht der Wahrscheinlichkeit, dass inkorrekte
H0 angenommen wird. Die Wahrscheinlichkeit der korrekten Ablehnung einer falschen H0,
genannt die Güte eines Tests, entspricht 1-ß. ß hängt von folgenden Faktoren ab:
• definierter Signifikanzwert (α)
• Stichprobengrösse
• Standardabweichung der Population
• Grösse der Differenz zwischen den Mittelwerten von µ1 und µ2.
Einseitige Fragestellungen haben eine höhere Güte als zweiseitige, wenn die Annahme über
die Richtung des Effekts korrekt ist. Falls die Annahme über die Richtung unrichtig ist, so
nimmt die Güte des Tests rapide ab. Im Zweifelsfall über die Richtung des Effekts sollte daher
eine zweiseitige Fragestellung gewählt werden.
Beispiel: 100 Wiederholungen eines Tests bei Signifikanzwert (α) von 0.05 und Güte (1-ß)
von 0.2:
Ist die Nullhypothese korrekt, so wird sie statistisch gesehen 5 Mal fälschlich verworfen (Typ
I Fehler) und 95 Mal korrekt akzeptiert. Ist hingegen die Gegenhypothese korrekt, so wird die
H0 80 Mal korrekt verworfen und 20 Mal fälschlicherweise nicht verworfen – ein Typ II
Fehler.
Bei Reduktion des α-Wertes nimmt gleichzeitig die Güte des Tests ab. Da ein Typ I Fehler
dramatischere Auswirkungen hat als ein Typ II Fehler, sollte die Wahrscheinlichkeit für
ersteren kleiner gesetzt werden als für letzteren. Ein Typ I Fehler könnte beispielsweise dazu
115
führen, dass ein Medikament fälschlicherweise als wirksam eingestuft wird und damit anstatt
herkömmlicher Medikamente eingesetzt wird.
In Vortests ist es allerdings oft zweckmässig, α grösser zu setzen, um die Güte des Tests
zu erhöhen. Dies verhindert, dass eine inkorrekte H0 fälschlicherweise akzeptiert wird, und
damit ein erfolgversprechender Ansatz verworfen wird, nur weil die Stichprobengrösse in
Vortest zu klein war.
5.6 Gefahren für valide Schlussfolgerungen
Die beiden Hauptziele von Experimenten, a) valide Schlussfolgerungen über die Effekte der
unabhängigen Variablen und b) valide Generalisierung auf die Gesamtpopulation und
interessierende Bedingungen unterliegen folgenden Gefahren (Liste primär für
psychophysikalische Experimente relevant und daher nicht komplett in Hinblick auf beliebige
experimentelle Situationen):
• Reduktion der Validität der statistischen Schlussfolgerung: durch inadäquate Selektion
der statistischen Prozeduren oder zufällige Fehlerquellen verursacht
o niedrige Güte eines statistischen Tests (Wahrscheinlichkeit, die Nullhypothese
abzulehnen, d.h. die Hypothese zu bestätigen), die folgende Gründe haben kann:
• zu geringe Stichprobengrösse
• irrelevante Quellen der Variation nicht kontrolliert bzw. isoliert
• Verwendung von ineffizienter Teststatistik
o Verletzung der fundamentalen Vorraussetzungen eines statistischen Tests (z.B.
Normalverteilung der Stichprobe, Homogenität der Varianz aller
Populationsverteilungen)
o Problem der Fehlerrate bei mehrfacher Wiederholung eines Tests: wenn z.B. das
Signifikanzniveau eines Tests 5% beträgt, so erhält man im statistischen Mittel bei
jedem 20. Test einen signifikanten Effekt, der nur durch Zufall zustande kommt
o Reliabilität der Messung (abhängiger Variable): bei niedriger Reliabilität
(Wiederholbarkeit) steigt die Schätzung der Fehlervarianz, wodurch eine nicht
korrekte Nullhypothese fälschlicherweise akzeptiert wird
o Reliabilität der Umsetzung der unabhängigen Variablen: Folgen siehe vorheriger
Punkt
o Zufällige Schwankungen in der Testumgebung: führt zu erhöhter Fehlervarianz,
wodurch eine nicht korrekte Nullhypothese fälschlicherweise akzeptiert wird
o zufällige Heterogenität der Versuchspersonen: Folgen siehe vorheriger Punkt
o Demotivation der VP: z.B. durch zu lange Testdauer oder nicht ersichtliche
Sinnhaftigkeit
der
Tests:
Folgen
siehe
vorheriger
Punkt;
→ Lösung: Experiment in Blöcke von kürzerer Dauer aufteilen; engagierte
Instruktion der VP mit Erklärung des Experimenten-Zieles
•
Reduktion der internen Validität:
o Veränderung
der Versuchspersonen innerhalb der Testdauer: z.B.
Trainingseffekt, Ermüdungserscheinung etc.
o Testdurchführung: wiederholte Testdurchführung kann zu Effekten der
Gewöhnung oder Anpassung führen, die die abhängige Variable beeinflussen: z.B.
bei links/rechts-Unterscheidungstest mit Antwort-Feedback (ob Antwort richtig
od. nicht richtig) könnte VP am Anfang intuitiv antworten, aber im Laufe des
Tests versuchen, die Performance mittels des Feedbacks zu verbessern, auch wenn
die Antworten nicht der tatsächlichen Wahrnehmung entsprechen (Erkennung von
Klangfarbenunterschieden bei links/rechts Unterscheidungs-Test)
116
Selektion: Unterschiede zwischen mittleren Messwerten für verschiedene
Faktorstufen können auf Unterschiede zwischen den den verschiedenen
Faktorstufen zugeordneten Personen zurückzuführen sein → kann dadurch
vermieden werden, dass jede der VPs mit allen Faktorstufen getestet wird (in der
Psychophysik gängig)
o Ambiguität über die Richtung des kausalen Einflusses: z.B. bei
Korrelationsstudien ist oft nicht klar, ob X Veränderung in Y bewirkt oder vice
versa.
• Reduktion der externen Validität:
o Interaktion zwischen Testdurchführung und Behandlung: Ergebnisse, die unter
wiederholter Durchführung eines Experiments gewonnen wurden, können die
Performance von untrainierten Personen überschätzen (z.B. könnte
Wahrnehmbarkeit von kleinen Frequenzunterschieden bei Cochlea-ImplantatTrägern erst im Laufe der Testdurchführung erlernt werden, insbesondere wenn
die VP Feedback über die Korreltheit ihrer Antworten erhält)
o Interaktion zwischen Selektion und Behandlung: Konstellation der Faktoren, die
zur Auswahl der VPs geführt hat, könnte die Verallgemeinerbarkeit der
Ergebnisse auf jene Populationen beschränken, die derselben Konstellation von
Faktoren ausgesetzt sind (z.B. wenn nur Freiwillige getestet wurden, treffen die
Ergebnisse möglicherweise nur für Freiwillige zu)
o Interaktion zwischen Umgebung und Behandlung: Ergebnisse könnten nur unter
den Gegebenheiten des Experiments Gültigkeit haben (Problem der „künstlichen“
Situation eines Experiments)
• andere Gefahren:
o Versuchsleitereffekt: siehe Terminologie
o Neigung der VPs: VPs können sich hinsichtlich ihrer Kooperation und Motivation
bei der Durchführung eines Experiments unterscheiden
o
5.7 Kontrolle von Störvariablen und Minimierung der Gefahr
falscher Schlussfolgerungen
5.7.1 Allgemeine Strategien
1) Konstanthalten der Störvariablen für alle VPs (Gefahr, eine Störvariable zu übersehen)
2) zufällige Zuordnung der VPs zu den experimentellen Bedingungen (auch in
Verbindung mit Punkt 1)
→ bekannte oder nicht bekannte Quellen der Variation (Störvariablen) verteilen sich
gleichmässig über das gesamte Experiment und betreffen nicht einzelne Faktorstufen
→ reduzierter Bias auf Kosten erhöhter Variation über die Einzel-Beobachtungen
3) Inkludierung der Störvariable als Faktor (zusätzliche unabhängige Variable) im
experimentellen Design (z.B. Aufspaltung der VPs in eine Gruppe mit Erfahrung und
eine ohne Erfahrung)
4) statistische Kontrolle der Störvariablen mittels Regressionsmethoden (KovarianzAnalyse)
5.7.2 Spezielle Strategien
•
Einzel-Blindstudie: VP weiss nicht, welcher Behandlung sie (zu welchem Zeitpunkt)
ausgesetzt ist
117
•
•
Doppel-Blindstudie: weder VP noch Versuchsleiter kennt die Zuordnung von VP zu
Behandlung oder Behandlung zu Testzeitpunkt → Vermeidung des
Versuchsleitereffekts
Irreführung: VP bekommt Instruktion, die die VP von der eigentlichen Intention des
Experiments ablenken soll (z.B. um den Effekt der Aufmerksamkeitslenkung auf die
Wahrnehmung eines Ereignisses zu untersuchen); darf nur bei Unbedenklichkeit in
Bezug auf ethische Aspekte angewandt werden)
5.8 Varianzanalyse (Analysis of Variance, ANOVA)
Es existiert eine Vielzahl von varianzanalytischen Designs, die aus den drei grundlegenden
Designs konstruiert werden:
(1) komplett randomisiertes Design
(2) randomisiertes Block-Design
(3) Latin Square Design
Die Varianzanalyse (ANOVA) dient zum Vergleich der Lage von Zufallsvariablen. Bei der
einfaktoriellen ANOVA werden die Gruppen nach einem einzelnen Gesichtspunkt unterteilt,
formaler: nach den Werten einer einzelnen Zufallsvariablen; bei zwei klassifizierenden
diskreten Variablen von zweifaktorieller ANOVA usw.
Die Grundidee der ANOVA ist der Vergleich der Varianz zwischen den Versuchsgruppen
(unabhängige Variable) mit der Varianz innerhalb der Versuchsgruppen. Bei Designs mit
mehr als einer unabhängigen Variablen wird auch die auf die Interaktion zwischen den
verschiedenen unabhängigen Veriablen verursachte Varianz analysiert.
5.8.1 Selektion des adäquaten Designs
•
•
•
•
•
Erlaubt das Design eine valide Schätzung der experimentellen Effekte und der FehlerEffekte?
Bringt die Messmethode reliable Ergebnisse?
Ist die statistische Güte des Designs gross genug um die statistische Hypothese
überprüfen zu können?
Weist das Design unter den gegebenen experimentellen Umständen maximale
Effizienz auf
Ist das Design konform mit den dem Forschungsgebiet zugrunde liegenden Methoden
und Praktiken? Bei Gleichheit anderer Aspekte sollte jenes Design ausgewählt werden,
das den Vergleich mit anderen Studien ermöglicht.
5.8.2 Einfaktorielles (einfaches) varianzanalytisches Design (ANOVA)
Bei der einfachen ANOVA liegt eine unabhängige Variable A in k > 2 Stufen A1, …, Ak vor;
dementsprechend werden k Gruppen von VPs geprüft und zwar jede unter einer anderen
Versuchsbedingung (unabhängige Stichproben), oder aber jede VP wird unter allen k
Bedingungen getestet (abhängige Stichproben)
118
Beispiel
Tab. 5.1 zeigt die Sprachverständlichkeitsschwellen im Störgeräusch (in dB SNR) von 5
CHGs, die unter den folgenden drei Bedingungen gemessen wurden:
• SπN0: Sprache auf einem Ohr phaseninvertiert und Störgeräusch diotisch
• S0Nm: Sprache diotisch und Störgeräusch monaural
• S0N0: Sprache und Störgeräusch diotisch (identisches Signal auf beiden Ohren)
CHG1
CHG2
CHG3
CHG4
CHG5
SπN0
2,2
4,1
2,8
3,8
1,4
S0Nm
8,3
6,9
10,4
7,5
8,2
S0N0
6,8
4,6
7,4
8,3
8,1
Tab. 5.1. Sprachverständlichkeitsschwellen im Störgeräusch (in dB SNR) von 5 CHGs (siehe
Text)
Stufen des Faktors A (UV):
Beobachtungsvariablen:
A1
X1
A2
Xi
Stichprobenvariablen:
X11
X12
.
X1v
.
X1n1
Xi1
Xi2
Xin2
Xk1
Xk2
.
Xkv
.
Xknk
n1
µ+α1
n2
µ+α2
nk
µ+α3
Stichprobenumfänge:
erwartete Gruppenmittelwerte:
wobei
i
v
Xiv
µ
αi
.. Ak
Xk
Xiv
Index der Versuchsbedingung [i = 1, …, k]
Index für die VP (Wiederholung) innerhalb der i-ten Versuchsbedingung [v = 1, …, ni]
Messwert der i-ten Versuchsbedingung mit der v-ten VP (als Zufallsvariable)
allgemeiner Mittelwert
Effekt der Faktorstufe (Bedingung) Ai auf den allgemeinen Mittelwert, gemittelt über alle v (VPs)
= µi - µ
→ ist eine Konstante für die 5 Werte in Versuchsbedingung Ai
εiv
Fehler, der mit Xiv assoziiert ist
= Xiv - µ - αi
119
Der Fehler εiv repräsentiert Effekte, die speziell bei VP v auftreten (zufällige, nicht
kontrollierte Fluktuationen)
Die Frage nach der gleichen Lage bei den verschiedenen Faktorstufen führt auf das
Testproblem:
H0: µ1 = …= µk
H1: Nicht alle µi sind gleich
wobei H0 ist die Nullhypothese und H1 ist die Gegenhypothese.
Die Modellgleichung der einfachen Varianzanalyse lautet:
Xiv = µ + αi + εiv
wobei folgende Bedingung gilt:
k
∑ niαi = 0
i =1
Das interessierende Testproblem lautet dann
H0: α1 = …= αk = 0
H1: Nicht alle αi sind gleich Null
Ausgangspunkt für die Konstruktion einer Prüfgrösse ist sind die Differenzen
αi = X i . − X ..
wobei X i . ist der Mittelwert der Beobachtungen zur Stufe i und X .. ist das Gesamtmittel.
Die Gesamtvarianz setzt sich folgendermassen zusammen
Gesamte Varianz = Varianz zwischen d. Gruppen + Varianz innerhalb der Gruppen
Beim ANOVA Modell wird überprüft, ob die Gruppenmittel (Faktorstufen) stärker um das
Gesamtmittel streuen als die Beobachtungen innerhalb der Gruppen um ihre
Gruppenmittelwerte: Falls ja, so weist dies auf systematische Unterschiede hin. Unter H0
sollten die beiden Teil hingegen etwa gleich gross sein.
Dazu wird die F-Verteilung verwendet (Verhältnis von zwei X2 Verteilungen), wobei im
Zähler die mittlere Quadratsumme über die Gruppenmittel steht und im Nenner die mittlere
Quadratsumme des zufälligen Fehlers; daher gilt
120
1 k
∑ ni ( X i . − X ..) 2
k − 1 i =1
F=
1 k ni
( X iv − X i. ) 2
∑∑
N − k i =1 v
F ist unter H F-verteilt mit k-1 Freiheitsgraden des Zählers und N-k Freiheitsgraden des
Nenners, kurz (k-1, N-k) Freiheitsgraden.
Der Ablehnbereich des Tests ist {F > Fk-1; N-k; 1-α}
In einfacheren Worten, mittels des F-Tests wird die Varianz über die verschiedenen
Gruppen mit der mittleren Varianz innerhalb der Gruppen vergleichen,
Die zur Durchführung der Varianzanalyse benötigten Grössen werden in einer
Varianzanalysetafel zusammengestellt:
Tab.: 5.2. Tafel der Varianzanalyse
Streuungsursache
Faktor A
Freiheitsgrade (df)
Quadratsumme (SS)
Mittlere Quadratsumme (MS)
k
SS ( A) = ∑ ni ( X i . − X ..) 2
k-1
MS(A) = SS(A)/(k-1)
i =1
zufälliger Fehler
k
ni
SS ( E ) = ∑∑ ( X iv − X i .) 2
N-k
MS(E) = SS(E)/(N-k)
i =1 v =1
k
Gesamt
ni
SS (G ) = ∑∑ ( X iv − X ..) 2
N-1
i =1 v =1
Dabei gilt auch die Beziehung SS(G) = SS(A)+SS(E)
Auf das einführende Beispiel zurückkommend werden die Effekte der Versuchsbedingung
folgendermassen berechnet:
CI 1
CI 2
CI 3
CI 4
CI 5
Kolumnensumme
Kolumnenmittel
Kolumneneffekt
(Effekt der
Versuchsbedingung)
α1 =
Sπ
πN0
2,2
4,1
2,8
3,8
1,4
S0Nm
8,3
6,9
10,4
7,5
8,2
S0N0
6,8
4,6
7,4
8,3
8,1
ΣX1. = 14,3
ΣX2. = 41,3
ΣX3. = 35,2
X 1. = 2,9
X 2 . = 8,3
X 3 . = 7,0
X 1. - X .. = -3,2
α2 =
X 2 . - X .. = 2,2
α3 =
ΣX..=
6,1
X 3 . - X .. = 1,0
121
•
•
die mittlere SNR beträgt 6.1 dB
die Scores für die Testbedingung A sind um -3.2 dB niedrigerer als für die
durchschnittliche Messung
• die Scores für die Testbedingung C sind um 1 dB höher als für die durchschnittliche
Messung
Daraus können die Quadratsummen der Effekt der Versuchsbedingungen, SS(A) und des
zufälligen Fehlers, SS(E) berechnet werden
SS(A): bei gleicher Anzahl von v pro Faktorstufe: iΣαi^2
5(-3.2^2 + 2.2^2 + 1.0^2) = 80,2
SS(E):
(2.2-2,9)^2 + (4.1-2,9)^2 + (2.8-2,9)^2 + (3.8-2,9)^2 + (1.4-2,9)^2
+ (8.3-8,3)^2 + (6.9-8,3)^2 + (10.4-8,3)^2 + (7.5-8,3)^2 + (8.2-8,3)^2 +
+ (6.8-7,0)^2 + (4.6-7,0)^2 + (7.4-7,0)^2 + (8.3-7,0)^2 + (8.1-7,0)^2 = 20,9
SS(G) = 80,2 + 20,9 = 101,1
Wir setzen daher unser Beispiel fort:
Streuungsursache
Freiheitsgrade
Quadratsumme
Mittlere Quadratsumme
Signalbedingung
2
80,2
40.1
zufälliger Fehler
12
20,9
1.7
Gesamt
14
101.1
Damit ist der Wert der Prüfgrösse
F = 40.1/1.7 = 23.5
Der Wert von F[0.99; 2, 12] = 6.9
Da 23.5 > 6.9, ist der Unterschied zwischen den Versuchsbedingungen signifikant.
Für den multiplen Vergleich zwischen den einzelnen Gruppen, d.h. der Analyse, welche
Kombinationen von Versuchsbedingungen signifikante Unterschiede in den Mittelwerten
ausweisen, kann der t-Test verwendet werden. Für Details wird auf die entsprechenden
Statistikhandbücher verwiesen (z.B. R.E. Kirk: „Experimental Design“, 1995).
Grundsätzlich gelten folgende Vorraussetzungen für die ANOVA
• Intervallskaleneigenschaft
• Homogenität der Varianzen (über die Faktorstufen)
• Normalverteilung (innerhalb der Faktorstufen)
122
Damit bei ungleichen Varianzen innerhalb der einzelnen Versuchsbedingungen die
Aussagekraft des F-Tests nicht verletzt wird,
können varianzstabilisierende
Transformationen vorgenommen werden. Die Auswahl dieser Transformationen erfolgt
mittels graphischem Vergleich.
Untersuchungen haben gezeigt, dass der F-Test nicht sensitiv gegenüber Verletzung der
Normalverteilungs-Vorraussetzung ist. Allerdings nimmt die Güte des Tests bei Abweichung
von der Normalverteilung ab. Es gibt aber Verfahren, die in solchen Fällen angewandt werden
können (z.B. der Kruskal-Wallis Test).
5.8.3 Zweifaktorielles (einfaches) varianzanalytisches Design (ANOVA)
Modellgleichung :
Xijv = µ + αi + ßj + (αß)ij + εiv
wobei
i
Index der Versuchsbedingung für Faktor A [i = 1, …, k]
j
Index der Versuchsbedingung für Faktor B [j = 1, …, l]
v
Index für die VP (Wiederholung) innerhalb der Kombination aus i-ter und j-ter Versuchsbedingung
[v = 1, …, ni]
Xijv
Messwert für Versuchsbedingungskombination AiBj für die v-ten VP (als Zufallsvariable)
µ
allgemeiner Mittelwert
αi
Effekt der Faktorstufe (Bedingung) Ai auf den allgemeinen Mittelwert, gemittelt über alle v (VPs)
= µi. - µ
→ ist eine Konstante für die Werte der Versuchsbedingung Ai
ßj
Effekt der Faktorstufe (Bedingung) Bi auf den allgemeinen Mittelwert, gemittelt über alle v (VPs)
= µ.j - µ
→ ist eine Konstante für die Werte der Versuchsbedingung Bi
(αß)ij
εijv
Interaktionseffekt für Versuchsbedingungen Ai und Bj; entspricht µij - µi. - µ.j + µ
Fehler, der mit Xijv assoziiert ist; entspricht Xijv - µ - αi - ßj - (αß)ij
5.9 Literatur zum Thema experimentelles Design
Kirk, R. E. (1995). “Experimental Design: Procedures for the behavioral sciences,” ITP.
123
Herunterladen