" 4.7 a-Fehler, b-Fehler und Teststхrke

Werbung
a4.7
4
121
a-Fehler, b-Fehler und Teststårke
kænnen, wird die Differenz 1 0 an der Streuung des untersuchten Merkmals (r) relativiert
(Standardisierung).
(Zur Begrçndung des Faktors
p

2 wird auf S. 139 bzw. Cohen, 1988, S. 45 ff. verwiesen.)
Will man vor Durchfçhrung einer Hypothesen
prçfenden Untersuchung eine Effektgræûe festlegen, bedeutet dies zunåchst, dass man sich intensiv mit dem inhaltlichen Problem, das man empirisch çberprçfen will, auseinandersetzen muss.
Die Effektgræûenbestimmung erfordert mehr inhaltliche Arbeit als die schlichte Durchfçhrung eines Signifikanztests. Mit der Festlegung einer Effektgræûe verbindet sich jedoch der immense Vorteil, dass der Stichprobenumfang, den man fçr eine
derartige Hypothesen prçfende Untersuchung benætigt, kalkulierbar ist. Er sollte nicht so groû sein,
dass auch praktisch unbedeutende Effekte signifikant werden, und nicht so klein, dass praktisch bedeutende Effekte nicht signifikant werden kænnen.
Bevor wir dieses Thema genauer untersuchen, ist
es erforderlich, uns zunåchst mit dem unter 4.3 erwåhnten b-Fehler zu beschåftigen.
" 4.7 a-Fehler, b-Fehler und Teststårke
Nachdem nun bekannt ist, wie die Wahrscheinlichkeit des a-Fehlers ermittelt wird, den man
beim Verwerfen der Nullhypothese riskiert, wollen
wir uns fragen, mit welcher Wahrscheinlichkeit
wir einen b-Fehler begehen, wenn wir statt der H0
die H1 (die neue Lehrmethode ist besser als die
alte Lehrmethode) verwerfen. Hierbei kann der
Gedankengang, der zur Ermittlung der a-FehlerWahrscheinlichkeit fçhrte, analog angewandt werden: Gesucht wird die (bedingte) Wahrscheinlichkeit fçr das gefundene Untersuchungsergebnis,
wenn die H1 richtig ist.
Bestimmung der b-Fehler-Wahrscheinlichkeit
Fçr die Ermittlung der a-Fehler-Wahrscheinlichkeit benætigen wir die Verteilung der Mittelwerte
von Stichproben, die aus der Population mit dem
Parameter 0 gezogen wurden. Die entsprechende
Verteilung, die wir fçr die Ermittlung der
b-Fehler-Wahrscheinlichkeit brauchen, besteht aus
den Mittelwerten von Stichproben aus der Popula-
tion mit dem Parameter 1. Wenn mit der H1 jedoch lediglich behauptet wird, die neue Lehrmethode sei besser als die alte und nicht nåher
spezifiziert wird, um wie viel besser, ist der Populationsparameter 1 und damit auch die Verteilung der Mittelwerte unbekannt.
Die b-Fehler-Wahrscheinlichkeit, die mit einer Entscheidung zugunsten der H0 verbunden ist, kann bei unspezifischen Alternativhypothesen nicht bestimmt werden.
Spezifische Hypothesen. Um die b-Fehler-Wahrscheinlichkeit bei einer Entscheidung zugunsten
der H0 bestimmen zu kænnen, mçssen wir die H1
genauer formulieren, d. h., wir mçssen spezifizieren, um wieviel besser die neue Lehrmethode sein
soll bzw. wie der Populationsparameter 1 unter
der Annahme einer Alternativhypothese lautet.
Dabei kænnen wir an unsere Ûberlegungen zur Effektgræûe anknçpfen, nach denen fçr 1 ein Minimalwert festzulegen ist, der bei Gçltigkeit von
H1: 1 > 0 aus inhaltlichen Grçnden nicht unterschritten werden sollte. Im letzten Abschnitt wurde dafçr der Wert 1 ˆ 43 festgelegt.
Vorausgesetzt, die Streuung der Leistungen von
Schçlern, die nach der neuen Methode unterrichtet wurden, sei ebenfalls b
r ˆ 8, ergibt sich fçr eine Durchschnittsleistung von x ˆ 42 der z-Wert
zˆ
x
1 42 43
ˆ
ˆ
b
rx
0;8
1;25 :
…4:5†
Dieser Wert schneidet von der linken Seite der
Standardnormalverteilung 10,6% ab. Entscheidet
man sich aufgrund des Ergebnisses x ˆ 42 fçr die
H0 , so wçrde man mit einer Wahrscheinlichkeit
von 10,6% einen b-Fehler begehen, d. h. die H1
verwerfen, obwohl sie richtig ist. Håtte man ± in
Analogie zum a-Fehler-Niveau ± ein b-Fehler-Niveau von 1% vereinbart, wåre die b-Fehler-Wahrscheinlichkeit von 10,6% zu groû, um die H1 verwerfen zu kænnen.
Die kritische Grenze, die zur Ablehnung von H1
mit b ˆ 0;01 von x håtte unterschritten werden
mçssen, errechnet man in Analogie zu Gl. (4.3):
xcrit …b† ˆ 1 ‡ zb b
rx
ˆ 43 2;33 0;8
ˆ 41;14
…4:6†
122
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
x-Werte im Bereich x 41;14 wçrden also zur
Ablehnung von H1 fçhren.
Im Beispiel wurde die H1: 1 ˆ 43 geprçft, obwohl wir unter Gesichtspunkten der praktischen
Bedeutsamkeit gefordert hatten, dass die neue
Methode mindestens ein Resultat von 43 erzielen
sollte, sodass die H1 eigentlich 1 43 heiûen
mçsste.
Das gleiche Problem hatten wir bereits beim
Vergleich der Nullhypothesen 0 ˆ 1 und
0 1 , wobei Abb. 4.2 zu der Erkenntnis verhalf, dass bei einer gerichteten Alternativhypothese jede H0: 0 > 1 mit einer kleineren Irrtumswahrscheinlichkeit verworfen werden kann als die
H0: 0 ˆ 1 . Entsprechendes gilt fçr den Vergleich
der Hypothesen 1 ˆ 43 und 1 > 43: Wann immer die H1 : 1 ˆ 43 mit einer bestimmten b-Fehlerwahrscheinlichkeit verworfen werden kann, ist
eine H1 vom Typus 1 > 43 mit einer geringeren
b-Fehler-Wahrscheinlichkeit zu verwerfen. Es
gençgt also, nur die H1: 1 ˆ 43 zu prçfen.
Wahl des b-Fehler-Niveaus. Mit der in unserem
Beispiel ermittelten b-Fehler-Wahrscheinlichkeit
von 10,6% verbindet sich die Frage, ob diese
Wahrscheinlichkeit gençgend klein ist, um die
spezifische H1 zugunsten der H0 verwerfen zu
kænnen. Diese Frage wåre angesichts der a-FehlerWahrscheinlichkeit, die wir auf S. 113 mit 0,62%
ermittelten, sicherlich zu verneinen. Aber besagt
dieses Verhåltnis von a- und b-Fehler-Wahrscheinlichkeit auch, dass die spezifische H1
(1 ˆ 43) damit beståtigt ist?
Anders als fçr das a-Fehler-Niveau gibt es fçr
die Festsetzung einer maximal tolerierbaren
b-Fehler-Wahrscheinlichkeit (b-Fehler-Niveau) keine Konventionen. Letztlich ist der inhaltliche Kontext bzw. die Bewertung der mit einem a- bzw.
b-Fehler verbundenen praktischen Folgen ausschlaggebend fçr die Wahl des b-Fehler-Niveaus.
Generell ist jedoch zu unterscheiden, ob mit einer
Untersuchung die H1 oder die H0 beståtigt werden soll, wobei der letztgenannte Fall in der Forschungspraxis relativ selten vorkommt. (Beispiele
hierfçr sind die spåter zu behandelnden Tests zur
Ûberprçfung der Voraussetzungen eines statistischen Verfahrens).
Will man mit einer Untersuchung eine gut begrçndete spezifische Alternativhypothese beståtigen, sollte man neben den çblichen Werten fçr
das a-Fehler-Niveau (5% oder 1%) fçr das b-Fehler-Niveau einen Wert von 20% (b ˆ 0;2) vorsehen. Untersuchungsergebnisse mit einer Irrtumswahrscheinlichkeit von hæchstens 5% (1%)
und einer b-Fehler-Wahrscheinlichkeit von mindestens 20% kænnen als akzeptable Belege fçr die
Richtigkeit der spezifischen H1 angesehen werden
(vgl. hierzu auch S. 127). Nach dieser Regel wåre
in unserem Beispiel die H0 zu verwerfen
(0;62% < 1%); die spezifische H1 kænnte jedoch
wegen der b-Fehler-Wahrscheinlichkeit von 10,6%
(< 20%) nicht akzeptiert werden. In diesem Fall
liegt der wahre Parameter offenbar zwischen den
Werten 0 ˆ 40 und 1 ˆ 43.
Fçr die Beståtigung einer Nullhypothese sollten
die Zahlenverhåltnisse umgekehrt sein. Hierfçr
wåre zu fordern, dass die b-Fehler-Wahrscheinlichkeit unter 5% (1%) liegt, wåhrend fçr die Irrtumswahrscheinlichkeit ein Minimalwert von
a ˆ 0;2 anzusetzen wåre.
Indifferenzbereiche. Gelegentlich kommt es vor,
dass bei fixiertem a- und b-Niveau Stichprobenergebnisse resultieren, die zu keiner eindeutigen
Entscheidung bezçglich H0 oder einer spezifischen H1 fçhren. Das Stichprobenergebnis (z. B.
ein x-Wert) befindet sich dann in einem Bereich,
fçr den
· weder die H0 noch die H1 abgelehnt werden
kænnen oder
· sowohl die H0 als auch die H1 abgelehnt werden mçssen.
Derartige Bereiche, in denen keine eindeutigen
Entscheidungen getroffen werden kænnen, bezeichnen wir als Indifferenzbereiche.
Wenn in unserem Beispiel die Folgen eines
a-Fehlers fçr åhnlich gravierend gehalten werden
wie die Folgen eines b-Fehlers, kænnte man fçr
das a- und b-Fehler-Niveau ¹symmetrischeª Werte
annehmen. Wåhlen wir a ˆ b ˆ 0; 01, ergeben
sich die folgenden Ablehnungsbereiche (s. Gl. 4.3
und Gl. 4.6):
· fçr die H0: x > 41;86,
· fçr die H1: x < 41;14.
Håtte die Untersuchung zu einem x-Wert im Bereich 41;14 < x < 41;86 gefçhrt, kænnte weder die
H0 noch die H1 verworfen werden. Wie mit diesem Problem umzugehen ist, erærtern wir unter
4.8.
a4.7
123
a-Fehler, b-Fehler und Teststårke
Beziehung zwischen a- und b-FehlerWahrscheinlichkeit
Nachdem nun auch die Bestimmung der b-FehlerWahrscheinlichkeit bekannt ist, kænnen wir untersuchen, in welcher Beziehung die a-Fehler-Wahrscheinlichkeit und die b-Fehler- Wahrscheinlichkeit zueinander stehen. (Diese dçrfen nicht mit
dem a-Fehler-Niveau und b-Fehler-Niveau verwechselt werden, die nach inhaltlichen Kriterien
vor Untersuchungsbeginn festzulegen sind.)
Abbildung 4.4 veranschaulicht die in unserem
Beispiel bei spezifischer H1 und spezifischer H0
ermittelte b-Fehler-Wahrscheinlichkeit zusammen
mit der a-Fehler-Wahrscheinlichkeit (Irrtumswahrscheinlichkeit P†.
Aus der Abbildung wird leicht ersichtlich, wie
sich die a-Fehler-Wahrscheinlichkeit und bFehler-Wahrscheinlichkeit veråndern, wenn das
Stichprobenergebnis x variiert. Mit græûer werdendem x sinkt die Wahrscheinlichkeit, bei einer
Entscheidung zugunsten der H1 einen a-Fehler zu
begehen. Gleichzeitig steigt die Wahrscheinlichkeit des b-Fehlers, d. h. Entscheidungen zugunsten
der H0 werden mit græûer werdendem x zunehmend unwahrscheinlicher. Umgekehrt sinkt bei
kleiner werdendem x die Wahrscheinlichkeit eines
b-Fehlers, wåhrend die Wahrscheinlichkeit einer
fålschlichen Annahme der H1 (a-Fehler) steigt.
a- und b-Fehler-Wahrscheinlichkeit veråndern sich gegenlåufig.
Die Konsequenz dieser gegenlåufigen Beziehung
liegt auf der Hand. Je stårker man sich dagegen
absichern will, eine an sich richtige H0 zu verwerfen (niedriges a-Fehler-Niveau bzw. Signifikanz-
β
µ0
α
–x
µ1
Abb. 4.4. Schematische Darstellung der a-Fehler-Wahrscheinlichkeit und b-Fehler-Wahrscheinlichkeit
niveau), desto græûer wird die Wahrscheinlichkeit,
dass die H0 fålschlicherweise beibehalten wird
(hohe b-Fehler-Wahrscheinlichkeit). Innovative
Forschungen in einem relativ jungen Untersuchungsgebiet, bei denen die Folgen einer fålschlichen Annahme von H1 vorerst zu vernachlåssigen sind, håtten also bei einem a-Niveau von 1%
nur wenig Chancen, der Wissenschaft neue Impulse zu verleihen. In derartigen Untersuchungen
ist deshalb auch ein a-Niveau von 10% zu rechtfertigen.
Teststårke
Wenn die b-Fehler-Wahrscheinlichkeit angibt, mit
welcher Wahrscheinlichkeit die H1 verworfen
wird, obwohl ein Unterschied besteht, so gibt der
Ausdruck 1 b an, mit welcher Wahrscheinlichkeit zu Gunsten von H1 entschieden wird, wenn
ein Unterschied besteht bzw. die H1 gilt. Dieser
Wert wird als die Teststårke (¹powerª) eines Tests
bezeichnet. Da sich a und b gegenlåufig veråndern, ist die Teststårke 1 b fçr a ˆ 0;05
natçrlich græûer als fçr a ˆ 0;01.
Die Teststårke …1 b† gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest zugunsten einer spezifischen
Alternativhypothese entscheidet.
Zur Verdeutlichung der Teststårke wollen wir
noch einmal auf den Vergleich der beiden Lehrmethoden zurçckkommen. Wir hatten herausgefunden, dass die Abweichung des empirisch ermittelten x-Wertes (x ˆ 42 mit n ˆ 100) von dem
gemåû H0 erwarteten Parameter 0 ˆ 40 bei einseitigem Test …1 > 0 ) signifikant ist. Ferner
fragten wir auf S. 117, wie groû der x-Wert mindestens sein muss, um die H0 mit a ˆ 0;05 verwerfen zu kænnen. Dieser als ¹kritische Grenzeª
bezeichnete x-Wert ergab sich zu x ˆ 41;32, d. h.
alle Werte x 41;32 fçhren zu einem signifikanten Ergebnis (a ˆ 0;05).
Um nun die Stårke dieses Signifikanztests zu
ermitteln, prçfen wir zunåchst, mit welcher Wahrscheinlichkeit wir einen b-Fehler begehen wçrden,
wenn wir bei x 41;32 die H0 beibehalten wçrden. Wie bereits bekannt, benætigen wir hierfçr
einen spezifischen H1 -Parameter, den wir mit
1 ˆ 43 fixiert hatten. Unter Verwendung des
Standardfehlers b
rx ˆ 0;8 erhålt man also
4
124
zˆ
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
41;32 43
ˆ
0;8
2;1
und damit nach Tabelle B eine b-Fehler-Wahrscheinlichkeit von b ˆ 0;0179. Die Teststårke betrågt also 1 0;0179 ˆ 0;9821, d. h. die Wahrscheinlichkeit, dass wir uns aufgrund des Signifikanztests zu Recht zu Gunsten der H1 : 1 ˆ 43
entscheiden, betrågt ± wenn diese H1 richtig ist ±
98,21%.
4
Determinanten der Teststårke. Ersetzen wir
1 ˆ 43 durch 1 ˆ 42, ergibt sich nach Gl. (4.5):
zˆ
41;32 42
ˆ
0;8
0;85 :
Fçr diesen z-Wert entnehmen wir Tabelle B
b ˆ 0;1977 und damit 1 b ˆ 0;8023. Die Teststårke ist also gesunken.
Mit kleiner werdender Differenz l0
die Stårke des Signifikanztests.
l1 verringert sich
Ferner wollen wir prçfen, was mit der Teststårke
geschieht, wenn wir den Stichprobenumfang von
n ˆ 100 auf n ˆ 200 verdoppeln.
Wir erhalten als
p
Standardfehler b
rx ˆ 8= 200 ˆ 0;566 und damit
eine ¹kritische Grenzeª von
xcrit…95%† ˆ 40 ‡ 1;65 0;566 ˆ 40;93 :
Entscheidet man bei diesem oder kleineren
x-Werten zu Gunsten der H0, ergibt sich fçr
1 ˆ 42
40;93 42
ˆ 1;89
zˆ
0;566
und damit b ˆ 0;0294 bzw. 1 b ˆ 0;9706. Die
Verdoppelung des Stichprobenumfangs hat also
dazu gefçhrt, dass sich die Teststårke von 80,23%
auf 97,06% erhæht.
Mit wachsendem Stichprobenumfang vergræûert sich die
Teststårke.
Eine Vergræûerung des Stichprobenumfangs fçhrt
zu einer Verkleinerung des Standardfehlers, was
zur Folge hat, dass die Teststårke hæher wird. Da
der Standardfehler jedoch auch kleiner wird,
wenn sich die Merkmalsstreuung r verringert, haben Untersuchungen mit einer kleinen Merkmals-
streuung ± bei sonst gleichen Bedingungen ± eine
hæhere Teststårke als Untersuchungen mit einer
groûen Merkmalsstreuung.
Die Teststårke sinkt mit wachsender Merkmalsstreuung.
Zu fragen bleibt, ob ein einseitiger oder zweiseitiger Test eine hæhere Teststårke aufweist. Wie oben
ermittelt wurde, ergibt sich fçr den einseitigen
Test fçr 0 ˆ 40, 1 ˆ 43, a ˆ 0;05 und n ˆ 100
eine Teststårke von 1 b ˆ 0;9821. Um einen vergleichbaren Teststårkewert fçr den zweiseitigen
Test bestimmen zu kænnen, benætigen wir eine
spezifische ungerichtete H1 , die angibt, wie weit
der H1-Parameter den H0 -Parameter (0 ˆ 40)
mindestens çberschreiten oder unterschreiten
muss. Wir setzen hierfçr 1 ˆ 40 3 (1‡ ˆ 43
und 1 ˆ 37) und erhalten unter Verwendung
der kritischen xcrit…2;5%† - bzw. xcrit…97;5%† -Werte von
S. 117:
zˆ
41;57 43
ˆ
0;8
1;79
bzw.
zˆ
38;43 37
ˆ 1;79 :
0;8
Beide z-Werte schneiden ± in Richtung auf 0 ±
von den jeweiligen H1 -Verteilungen 3,67% der
Standardnormalverteilungsflåche ab, d. h., die
b-Fehler-Wahrscheinlichkeit, die sich ergeben
wçrde, wenn man bei x < 41;47 bzw. x > 38;43
fålschlicherweise die H1 ablehnen wçrde, addiert
sich zu 2 0;0367 ˆ 0;0734. Die Teststårke ist also mit 1 b ˆ 0;9266 kleiner als die des einseitigen Tests, wenn man x > 0 voraussetzt.
Beståtigt das Untersuchungsergebnis der Tendenz nach
eine gerichtete Hypothese, hat der einseitige Test eine
hæhere Teststårke als der zweiseitige Test.
Die Stårke eines Tests (1 b) hångt damit zusammenfassend von folgenden Einflussgræûen ab:
· Einseitiger/zweiseitiger Test: Die Teststårke ist
beim einseitigen Test (H1: 1 > 0 ) græûer als
beim zweiseitigen Test, wenn x > 0 ist.
· a-Fehler-Niveau: Die Teststårke ist fçr a ˆ 0;05
græûer als fçr a ˆ 0;01.
a4.8
125
Bedeutung der Stichprobengræûe
" 4.8 Bedeutung der Stichprobengræûe
1,0
0,9
0,8
0,7
zweiseitig
1- β
0,6
0,5
0,4
0,3
0,2
einseitig
0,1
36
37
38
39 40 = µ0 41
42
43
44
µ1
Abb. 4.5. Teststårkefunktionen
· Effektgræûe: Die Teststårke wåchst mit græûer
werdender Differenz 1 0 .
· Stichprobengræûe: Die Teststårke wåchst mit
zunehmendem Stichprobenumfang.
· Merkmalsstreuung: Die Teststårke sinkt mit
græûer werdender Merkmalsstreuung.
Teststårkefunktionen. Die Abhångigkeit der Stårke
eines Tests von der Differenz 1 0 wird in sog.
Teststårkefunktionen verdeutlicht, denen die
…1 b†-Werte fçr variable Differenzen 1 0 zu
entnehmen sind. Derartige Teststårkefunktionen
kænnen als Entscheidungskriterium herangezogen
werden, wenn zur Ûberprçfung einer Hypothese
mehrere statistische Tests, wie z. B. verteilungsfreie Tests, zur Verfçgung stehen (Nåheres hierzu
s. Bortz et al. 2000, Kap. 2 und 4).
Abbildung 4.5 zeigt die Teststårkekurven des
einseitigen Tests (H1: 0 < 1 ) und des zweiseitigen Tests (H1: 0 6ˆ 1 ) fçr unterschiedliche
1 -Parameter, n ˆ 100, a ˆ 0;05 und 0 ˆ 40.
Man erkennt, dass der einseitige Test dem zweiseitigen fçr 1 > 0 çberlegen ist. Fçr 1 < 0
¹versagtª der einseitige Test. Die Teststårke ist
hier geringer als a ˆ 0;05, der Wert fçr 0 ˆ 1.
Gilt die H0 (0 ˆ 1 ), entscheidet der Test mit einer Wahrscheinlichkeit von 1 b ˆ a ˆ 0;05 zugunsten von H1 .
Auf S. 119 f. haben wir den ¹klassischenª Signifikanztest insoweit kritisiert, als ein Untersuchungsergebnis auch bei kleinsten Effekten
praktisch immer signifikant wird, wenn der Stichprobenumfang gençgend groû ist. Daraufhin wurde das Konzept einer Effektgræûe " eingefçhrt, die
im Kontext einer Untersuchung angibt, wie weit
ein H1 -Parameter mindestens vom H0 -Parameter
entfernt sein soll, um von einem praktisch bedeutsamen Effekt sprechen zu kænnen. Mit der
Festlegung einer Effektgræûe kennen wir den
H1 -Parameter, sodass ± wie in 4.7 gezeigt wurde ±
auch die b-Fehler-Wahrscheinlichkeit bzw. die
Teststårke bestimmt werden kænnen.
Auf S. 122 wurde im Kontext unseres Beispiels
festgestellt, dass fçr 0 ˆ 40, 1 ˆ 43, a ˆ b ˆ
0;01 und n ˆ 100 Untersuchungsergebnisse vorkommen kænnen, die weder zur Ablehnung von
H0 noch zur Ablehnung der spezifischen H1
fçhren. Hierbei handelt es sich um Ergebnisse,
die in den Bereich 41;14 < x < 41;86 fallen. Diese
wenig befriedigende Situation låsst sich vermeiden, wenn man a; b; " und n so aufeinander abstimmt, dass bei jedem empirischen Ergebnis eine
eindeutige Entscheidung çber die Gçltigkeit von
H0 oder H1 sichergestellt ist.
Da a, b und " nach inhaltlichen Kriterien festgelegt werden sollten und damit nicht beliebig
verånderbar sind, bleibt als einziger ¹freier Parameterª der Stichprobenumfang n çbrig, der so gewåhlt werden sollte, dass aufgrund des Untersuchungsergebnisses eine eindeutige Entscheidung
çber die rivalisierenden Hypothesen H0 und H1
getroffen werden kann. Stichprobenumfånge mit
dieser Eigenschaft wollen wir als ¹optimaleª
Stichprobenumfånge kennzeichnen.
Stichprobenumfånge sind optimal, wenn sie bei gegebenem a, b und e eine eindeutige Entscheidung çber die
Gçltigkeit von H0 oder H1 sicherstellen.
Diese Definition ¹optimalerª Stichprobenumfånge
kænnte zu der Vermutung Anlass geben, dass unter Umstånden eine kleinere Stichprobe, die in
diesem Sinne ¹optimalª ist, einer græûeren Stichprobe vorzuziehen sei. Diese Vermutung ist falsch,
denn grundsåtzlich fçhren græûere Stichproben
zu genaueren Ergebnissen als kleinere, was vor al-
4
126
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
lem bei der in 3.5 behandelten Intervallschåtzung
zu beachten ist. Gemeint ist, dass sich der mit der
Untersuchung einer græûeren Stichprobe verbundene Aufwand nicht lohnt, wenn bei einer Hypothesenprçfung mit gegebenem a und b eine unter
praktischen Gesichtspunkten fçr bedeutsam erachtete Effektgræûe auch mit einem kleineren,
dem ¹optimalenª, Stichprobenumfang abgesichert
werden kænnte (vgl. hierzu auch Hinkle u. Oliver,
1983, 1985). Auûerdem kann ± wie wir noch sehen werden (vgl. S. 127) ± die Situation eintreten,
dass bei zu groûen Stichproben sowohl die H0 als
auch die H1 abzulehnen sind.
Bestimmung des ¹optimalenª Stichprobenumfangs
Der Gedankengang, der zu Stichprobenumfången
fçhrt, die nach diesem Verståndnis ¹optimalª
sind, sei im Folgenden anhand unseres Beispiels
verdeutlicht (Vergleich der neuen Lehrmethode
mit einer herkæmmlichen Methode bzw. allgemein
formuliert: Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter, s. Kap. 5.1.1).
Hierzu stellen wir den gefundenen x-Wert einmal
im Kontext der H0-Verteilung und einmal im Kontext der H1 -Verteilung dar. Bezogen auf die
H0 -Verteilung erhålt man in Analogie zu Gl. (4.3)
x ˆ 0 ‡ z…1
a†
b
rx :
…4:7†
Hierbei sei z…1 a† der nach Gl. (4.1) errechnete
z-Wert (vgl. S. 113). Wir erhalten also
40 ‡ 2;50 0;8 ˆ 42 :
…4:8†
x ˆ 1 ‡ z b b
rx ;
wobei zb den nach Gl. (4.5) errechneten z-Wert
kennzeichnet. Fçr 1 ˆ 43 und zb ˆ 1;25 erhålt
man also
43 ‡ … 1;25† 0;8 ˆ 42 :
Gleichung (4.7) und Gl. (4.8) fçhren fçr beliebige
x-Werte (mit den jeweils entsprechenden z…1 a† und zb -Werten) zu identischen Resultaten. Wir
kænnen also schreiben
b
rx ˆ 1 ‡ zb b
rx
p
r= n
bzw. wegen b
rx ˆ b
p
p
r = n ˆ 1 ‡ z b b
r= n :
0 ‡ z…1 a† b
a†
…4:9†
…4:10†
…4:11†
p
bzw. (nach Multiplikation beider Seiten mit 2)
wegen Gl. (4.4)
p
2 …z…1 a† zb †
p
:
…4:12†
"ˆ
n
Diese Gleichung zeigt die funktionale Verknçpfung von ", n, a und 1 b. Aufgelæst nach n
resultiert
nˆ
2 …z…1
a†
"2
zb †2
:
…4:13†
Setzen wir a ˆ 0;0062 (und damit z…1 a† ˆ 2;50),
1 bpˆ
 0;894 (und damit zb ˆ 1;25) sowie
" ˆ 2 …43 40†=8 ˆ 0;530, muss fçr n natçrlich der tatsåchlich verwendete Stichprobenumfang resultieren:
nˆ
2 …2;50 … 1;25††2
ˆ 100 :
0;5302
Dieser Stichprobenumfang …n ˆ 100† wåre also
¹optimalª , wenn wir a ˆ 0;0062, b ˆ 0;106 und
1 ˆ 43 (bzw. " ˆ 0;530) gesetzt håtten. Ersetzen
wir diese unçblichen Werte durch a ˆ b ˆ 0;01,
also diejenigen Werte, fçr die bei n ˆ 100 im Bereich 41;14 < x < 41;86 keine Entscheidung zu
treffen war, erhålt man nach Gl. (4.13) mit
z…1 a† ˆ 2;33 und zb ˆ 2;33:
nˆ
Bezogen auf die H1 -Verteilung gilt
0 ‡ z…1
Durch Umstellen ergibt sich
1 0 z…1 a† zb
p
ˆ
b
r
n
2 …2;33 … 2;33††2
ˆ 154;422 :
0;5302
Dieser Wert wåre fçr die praktische Umsetzung
auf n ˆ 155 nach oben zu runden.
Man errechnet (mit dem ungerundeten Wert)
p
b
rx ˆ 8= 154;422 ˆ 0;6438
und als kritische Grenze des Ablehnungsbereiches
der H0
xcrit…1
a†
ˆ 40 ‡ 2;33 0;6438 ˆ 41;5 :
Fçr die kritische Grenze des Ablehnungsbereiches
der H1 resultiert der gleiche Wert:
xcrit…b† ˆ 43
2;33 0;6438 ˆ 41;5 :
Die Entscheidungssituation ist bei diesem Stichprobenumfang eindeutig: Fçr x 41;5 wird die
a4.8
127
Bedeutung der Stichprobengræûe
H0 und fçr x < 41;5 die H1 abgelehnt. Inwieweit
die jeweils entsprechenden Gegenhypothesen damit auch anzunehmen sind, werden wir weiter
unten erærtern.
Fçr Stichprobenumfånge, die kleiner sind als der ¹optimaleª, existiert ein x-Wertebereich, der sowohl mit H0
als auch H1 vereinbar ist. Fçr græûere Stichproben hingegen gibt es x-Werte, die weder mit H0 noch H1 zu vereinbaren sind.
Weitere Informationen zur Bestimmung optimaler
Stichprobenumfånge findet man z. B. bei Schiffler
und Harwood (1985).
Beispiele
Die folgenden Beispiele, bei denen wir von
a ˆ 0;05, b ˆ 0;2 und " ˆ 0;530 ausgehen, sollen
verdeutlichen, wie der Stichprobenumfang die
Eindeutigkeit der statistischen Entscheidung bestimmt. Bezçglich a und b folgen wir hierbei einer Empfehlung von Cohen (1988), die besagt,
dass bei vielen Fragestellungen ein gegençber
dem a-Fehler-Niveau vervierfachtes b-Niveau angemessen sei. Dies ist gleichzeitig eine a-/b-Fehlerkonstellation, fçr die nach Ablehnung der H0
auch die Annahme der H1 zu rechtfertigen ist
(vgl. S. 122).
¹Optimalerª Stichprobenumfang:
2 …1;65 … 0;84††2
ˆ 44;0896
0;5302
p
ˆ 40 ‡ 1;65 8= 44;0896 ˆ 41;988
p
ˆ 43 0;84 8= 44;0896 ˆ 41;988
Kleinerer Stichprobenumfang: n ˆ 30
p
xcrit…1 a† ˆ 40 ‡ 1;65 8= 30 ˆ 42;41
p
xcrit…b† ˆ 43 0;84 8= 30 ˆ 41;77
Fçr x 42;41 kann die H0 abgelehnt werden. Es
kænnte gleichzeitig auch die H1 angenommen
werden; wçrde man fçr x 42;41 zu Gunsten von
H0 entscheiden, wåre diese Entscheidung mit einem b-Fehlerrisiko von mindestens 34% verbunden (gemåû Gl. (4.5)).
Mit 41; 77 < x < 42;41 resultiert ein Indifferenzbereich, in dem keine Entscheidung getroffen
werden kann, da weder die H0 noch die H1 abgelehnt werden kann. Sollte x im Indifferenzbereich
liegen, wåre die Untersuchung mit einer græûeren
Stichprobe zu replizieren.
Græûerer Stichprobenumfang: n ˆ 200
p
xcrit…1 a† ˆ 40 ‡ 1;65 8= 200 ˆ 40;93
p
xcrit…b† ˆ 43 0;84 8= 200 ˆ 42;52
Da im Bereich 40;93 x 42;52 sowohl H0 als
auch H1 zu verwerfen sind, wçrde man fçr x-Werte in diesem Bereich folgern, dass der wahre Parameter zwischen 0 ˆ 40 und 1 ˆ 43 liegt. H0 wåre abzulehnen, wenn x 40;93 ist, ohne dabei
gleichzeitig die H1 annehmen zu kænnen. Die H1
kænnte ggf. angenommen werden, wenn
x 42; 52 ist, denn bei diesen x-Werten wçrde
man im Fall der Ablehnung von H1 ein b-Fehlerrisiko von mindestens 20% eingehen.
nˆ
xcrit…1
a†
xcrit…b†
Bezogen auf unser Beispiel wåre also ein Stichprobenumfang von n ˆ 45 optimal gewesen. Fçr
x 41;988 wåre die Ablehnung von H0 mit einer
Irrtumswahrscheinlichkeit a 0;05 verbunden.
Fçr x < 41;988 wçrde man bei Ablehnung von H1
eine b-Fehler-Wahrscheinlichkeit von b < 0;2 riskieren. Das Risiko einer falschen Entscheidung ist
bei Annahme der H0 (0 ˆ 40) und x ˆ 41;988
viermal so groû wie bei Annahme der H1
(1 ˆ 43) und x ˆ 41;988. Falls diese Relation aus
inhaltlichen Grçnden gençgend groû erscheint,
kænnte die H1 angenommen werden, wenn
x 41;988 ist.
Stichprobenumfang und Teststårke
Gleichung (4.13) ist zu entnehmen, dass mit kleiner werdender Effektgræûe der ¹optimaleª Stichprobenumfang græûer wird. Håtte man in unserer
Untersuchung den H1 -Parameter auf 1 ˆ 42 gesetzt, ergåbe sich nach Gl. (4.4)
p
2 …42 40†
ˆ 0;354
"ˆ
8
und nach Gl. (4.13)
nˆ
2 …1;65 … 0;84††2
ˆ 99;20 :
0;3542
Der fçr unser Beispiel gewåhlte Stichprobenumfang
von n ˆ 100 wåre also ausreichend gewesen, um ei-
4
128
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
ne Effektgræûe von " ˆ 0;354 fçr a ˆ 0;05 mit einer
Teststårke von 1 b ˆ 0;8 nachzuweisen.
Auch fçr Ex-post-Analysen empirischer Untersuchungen ohne fixierten H1 -Parameter (und damit ohne Mæglichkeit zur Bestimmung der
b-Fehler-Wahrscheinlichkeit) kann Gl. (4.13) interessante Erkenntnisse vermitteln. Angenommen,
die neue Untersuchungsmethode sei an einer
Stichprobe mit n ˆ 44 geprçft worden und das
Ergebnis wåre bei einem a-Niveau von 0;05 signifikant. Im nachhinein kommt man zu der Erkenntnis, dass sich die Ûberlegenheit der neuen
Methode unter praktischen Gesichtspunkten in
mindestens zwei Testpunkten niederschlagen
mçsse, sodass der Untersuchung
implizit eine Efp
fektgræûe von " ˆ 2 …42 40†=8 ˆ 0;354 zu
Grunde liegt. Wir kænnen nun nach der Wahrscheinlichkeit fragen, mit der dieser Signifikanztest zugunsten von H1 entscheiden wçrde, wenn
tatsåchlich die H1: 1 42 richtig ist, d. h., wir
fragen nach der Teststårke.
Hierzu læsen wir Gl. (4.13) nach zb auf:
p p
…4:14†
zb ˆ z…1 a† " n= 2
ˆ 1;65
0;354 p p
44= 2 ˆ
0;008 :
Diesem z-Wert entspricht gemåû Tabelle B ein
Flåchenanteil von b 0;5, d. h., auch die Teststårke hat den Wert 1 b 0;5. Mit anderen Worten:
Die Wahrscheinlichkeit fçr ein signifikantes Ergebnis betrågt in dieser Untersuchung nur 50%.
Die Untersuchung håtte eine sehr viel græûere
Chance fçr ein signifikantes Ergebnis, wenn
1 ˆ 44 der wahre H1 -Parameter wåre. Man errechnet dann
p p
zb ˆ 1;65 0;707 44= 2 ˆ 1;67 ;
sodass sich b ˆ 0;0475 bzw. 1 b ˆ 0;9525 ergibt.
Falls die H1: 1 44 die richtige Annahme wåre,
håtte man mit einer Wahrscheinlichkeit von
95,25% mit einem signifikanten Ergebnis rechnen
kænnen.
Die Chance, zu einem signifikanten Ergebnis
zu kommen, låsst sich natçrlich auch durch einen
græûeren Stichprobenumfang erhæhen. Bliebe man
bei " ˆ 0;354 und wçrde statt 44 Vpn 80 Vpn untersuchen, ergåbe sich
p p
zb ˆ 1;65 0;354 80= 2 ˆ 0;59 :
Diesem z-Wert entspricht ein Flåchenanteil von
27,8% bzw. eine Teststårke von 72,2%, d. h. die
Chance eines signifikanten Ergebnisses ist von
50% auf 72,2% gestiegen.
" 4.9 Praktische Hinweise
Unsere bisherigen Ûberlegungen gingen von der
Annahme aus, dass sich die H0 - und H1 -Verteilung nur in dem Parameter unterscheiden und
im Ûbrigen identisch seien (normalverteilt mit
gleichem Standardfehler). Dies ist jedoch bei den
in diesem Buch zu behandelnden statistischen
Tests in der Regel nicht der Fall. Die zu einer spezifischen H1 gehærende Prçfverteilung ist meistens eine sog. nonzentrale Verteilung, deren Mathematik çber den Rahmen dieses Buches hinausgeht (Informationen zu diesem Thema findet man
z. B. bei Bickel und Doksum, 1977; Buchner et al.,
1996; Manoukian, 1986; Winkler, 1983 oder Witting, 1978). Ohne diese Verteilungen sind jedoch
b bzw. 1 b und damit der fçr die Absicherung
einer vorgegebenen Effektgræûe ¹optimaleª Stichprobenumfang nicht bestimmbar.
Um nun auf entsprechende Planungshinweise
nicht vollståndig verzichten zu mçssen (vgl. hierzu auch Sedlmeier u. Gigerenzer, 1989), werden
zumindest fçr die wichtigsten Verfahren ¹optimaleª Stichprobenumfånge genannt, die als Richtwerte zur Absicherung einer kleinen, mittleren
oder groûen Effektgræûe erforderlich sind. Diese
Zahlen gehen auf Cohen (1988, 1992) zurçck und
beziehen sich auf a ˆ 0;05 und 1 b ˆ 0;80. Gleichung (4.13) ist zu entnehmen, wie die jeweils genannten Stichprobengræûen zumindest der Tendenz nach zu veråndern wåren, wenn einer Untersuchung ein kleineres a-Niveau und/oder eine andere Teststårke zu Grunde gelegt werden sollen:
Der Stichprobenumfang ist fçr a ˆ 0;01 und fçr
eine hæhere Teststårke zu vergræûern. Genauere
Informationen sind den Tabellen von Cohen
(1977, 1988) zu entnehmen, die in Auszçgen auch
bei Bortz u. Dæring (2002, Kap. 9.2.2) wiedergegeben sind. Ein Computerprogramm zur Teststårkenbestimmung haben Erdfelder et al. (1996) entwickelt.
Noch ein Hinweis in eigener Sache: Die Beispiele, an denen die einzelnen Verfahren erlåutert
Herunterladen