a4.7 4 121 a-Fehler, b-Fehler und Teststårke kænnen, wird die Differenz 1 0 an der Streuung des untersuchten Merkmals (r) relativiert (Standardisierung). (Zur Begrçndung des Faktors p 2 wird auf S. 139 bzw. Cohen, 1988, S. 45 ff. verwiesen.) Will man vor Durchfçhrung einer Hypothesen prçfenden Untersuchung eine Effektgræûe festlegen, bedeutet dies zunåchst, dass man sich intensiv mit dem inhaltlichen Problem, das man empirisch çberprçfen will, auseinandersetzen muss. Die Effektgræûenbestimmung erfordert mehr inhaltliche Arbeit als die schlichte Durchfçhrung eines Signifikanztests. Mit der Festlegung einer Effektgræûe verbindet sich jedoch der immense Vorteil, dass der Stichprobenumfang, den man fçr eine derartige Hypothesen prçfende Untersuchung benætigt, kalkulierbar ist. Er sollte nicht so groû sein, dass auch praktisch unbedeutende Effekte signifikant werden, und nicht so klein, dass praktisch bedeutende Effekte nicht signifikant werden kænnen. Bevor wir dieses Thema genauer untersuchen, ist es erforderlich, uns zunåchst mit dem unter 4.3 erwåhnten b-Fehler zu beschåftigen. " 4.7 a-Fehler, b-Fehler und Teststårke Nachdem nun bekannt ist, wie die Wahrscheinlichkeit des a-Fehlers ermittelt wird, den man beim Verwerfen der Nullhypothese riskiert, wollen wir uns fragen, mit welcher Wahrscheinlichkeit wir einen b-Fehler begehen, wenn wir statt der H0 die H1 (die neue Lehrmethode ist besser als die alte Lehrmethode) verwerfen. Hierbei kann der Gedankengang, der zur Ermittlung der a-FehlerWahrscheinlichkeit fçhrte, analog angewandt werden: Gesucht wird die (bedingte) Wahrscheinlichkeit fçr das gefundene Untersuchungsergebnis, wenn die H1 richtig ist. Bestimmung der b-Fehler-Wahrscheinlichkeit Fçr die Ermittlung der a-Fehler-Wahrscheinlichkeit benætigen wir die Verteilung der Mittelwerte von Stichproben, die aus der Population mit dem Parameter 0 gezogen wurden. Die entsprechende Verteilung, die wir fçr die Ermittlung der b-Fehler-Wahrscheinlichkeit brauchen, besteht aus den Mittelwerten von Stichproben aus der Popula- tion mit dem Parameter 1. Wenn mit der H1 jedoch lediglich behauptet wird, die neue Lehrmethode sei besser als die alte und nicht nåher spezifiziert wird, um wie viel besser, ist der Populationsparameter 1 und damit auch die Verteilung der Mittelwerte unbekannt. Die b-Fehler-Wahrscheinlichkeit, die mit einer Entscheidung zugunsten der H0 verbunden ist, kann bei unspezifischen Alternativhypothesen nicht bestimmt werden. Spezifische Hypothesen. Um die b-Fehler-Wahrscheinlichkeit bei einer Entscheidung zugunsten der H0 bestimmen zu kænnen, mçssen wir die H1 genauer formulieren, d. h., wir mçssen spezifizieren, um wieviel besser die neue Lehrmethode sein soll bzw. wie der Populationsparameter 1 unter der Annahme einer Alternativhypothese lautet. Dabei kænnen wir an unsere Ûberlegungen zur Effektgræûe anknçpfen, nach denen fçr 1 ein Minimalwert festzulegen ist, der bei Gçltigkeit von H1: 1 > 0 aus inhaltlichen Grçnden nicht unterschritten werden sollte. Im letzten Abschnitt wurde dafçr der Wert 1 43 festgelegt. Vorausgesetzt, die Streuung der Leistungen von Schçlern, die nach der neuen Methode unterrichtet wurden, sei ebenfalls b r 8, ergibt sich fçr eine Durchschnittsleistung von x 42 der z-Wert z x 1 42 43 b rx 0;8 1;25 : 4:5 Dieser Wert schneidet von der linken Seite der Standardnormalverteilung 10,6% ab. Entscheidet man sich aufgrund des Ergebnisses x 42 fçr die H0 , so wçrde man mit einer Wahrscheinlichkeit von 10,6% einen b-Fehler begehen, d. h. die H1 verwerfen, obwohl sie richtig ist. Håtte man ± in Analogie zum a-Fehler-Niveau ± ein b-Fehler-Niveau von 1% vereinbart, wåre die b-Fehler-Wahrscheinlichkeit von 10,6% zu groû, um die H1 verwerfen zu kænnen. Die kritische Grenze, die zur Ablehnung von H1 mit b 0;01 von x håtte unterschritten werden mçssen, errechnet man in Analogie zu Gl. (4.3): xcrit b 1 zb b rx 43 2;33 0;8 41;14 4:6 122 4 Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen x-Werte im Bereich x 41;14 wçrden also zur Ablehnung von H1 fçhren. Im Beispiel wurde die H1: 1 43 geprçft, obwohl wir unter Gesichtspunkten der praktischen Bedeutsamkeit gefordert hatten, dass die neue Methode mindestens ein Resultat von 43 erzielen sollte, sodass die H1 eigentlich 1 43 heiûen mçsste. Das gleiche Problem hatten wir bereits beim Vergleich der Nullhypothesen 0 1 und 0 1 , wobei Abb. 4.2 zu der Erkenntnis verhalf, dass bei einer gerichteten Alternativhypothese jede H0: 0 > 1 mit einer kleineren Irrtumswahrscheinlichkeit verworfen werden kann als die H0: 0 1 . Entsprechendes gilt fçr den Vergleich der Hypothesen 1 43 und 1 > 43: Wann immer die H1 : 1 43 mit einer bestimmten b-Fehlerwahrscheinlichkeit verworfen werden kann, ist eine H1 vom Typus 1 > 43 mit einer geringeren b-Fehler-Wahrscheinlichkeit zu verwerfen. Es gençgt also, nur die H1: 1 43 zu prçfen. Wahl des b-Fehler-Niveaus. Mit der in unserem Beispiel ermittelten b-Fehler-Wahrscheinlichkeit von 10,6% verbindet sich die Frage, ob diese Wahrscheinlichkeit gençgend klein ist, um die spezifische H1 zugunsten der H0 verwerfen zu kænnen. Diese Frage wåre angesichts der a-FehlerWahrscheinlichkeit, die wir auf S. 113 mit 0,62% ermittelten, sicherlich zu verneinen. Aber besagt dieses Verhåltnis von a- und b-Fehler-Wahrscheinlichkeit auch, dass die spezifische H1 (1 43) damit beståtigt ist? Anders als fçr das a-Fehler-Niveau gibt es fçr die Festsetzung einer maximal tolerierbaren b-Fehler-Wahrscheinlichkeit (b-Fehler-Niveau) keine Konventionen. Letztlich ist der inhaltliche Kontext bzw. die Bewertung der mit einem a- bzw. b-Fehler verbundenen praktischen Folgen ausschlaggebend fçr die Wahl des b-Fehler-Niveaus. Generell ist jedoch zu unterscheiden, ob mit einer Untersuchung die H1 oder die H0 beståtigt werden soll, wobei der letztgenannte Fall in der Forschungspraxis relativ selten vorkommt. (Beispiele hierfçr sind die spåter zu behandelnden Tests zur Ûberprçfung der Voraussetzungen eines statistischen Verfahrens). Will man mit einer Untersuchung eine gut begrçndete spezifische Alternativhypothese beståtigen, sollte man neben den çblichen Werten fçr das a-Fehler-Niveau (5% oder 1%) fçr das b-Fehler-Niveau einen Wert von 20% (b 0;2) vorsehen. Untersuchungsergebnisse mit einer Irrtumswahrscheinlichkeit von hæchstens 5% (1%) und einer b-Fehler-Wahrscheinlichkeit von mindestens 20% kænnen als akzeptable Belege fçr die Richtigkeit der spezifischen H1 angesehen werden (vgl. hierzu auch S. 127). Nach dieser Regel wåre in unserem Beispiel die H0 zu verwerfen (0;62% < 1%); die spezifische H1 kænnte jedoch wegen der b-Fehler-Wahrscheinlichkeit von 10,6% (< 20%) nicht akzeptiert werden. In diesem Fall liegt der wahre Parameter offenbar zwischen den Werten 0 40 und 1 43. Fçr die Beståtigung einer Nullhypothese sollten die Zahlenverhåltnisse umgekehrt sein. Hierfçr wåre zu fordern, dass die b-Fehler-Wahrscheinlichkeit unter 5% (1%) liegt, wåhrend fçr die Irrtumswahrscheinlichkeit ein Minimalwert von a 0;2 anzusetzen wåre. Indifferenzbereiche. Gelegentlich kommt es vor, dass bei fixiertem a- und b-Niveau Stichprobenergebnisse resultieren, die zu keiner eindeutigen Entscheidung bezçglich H0 oder einer spezifischen H1 fçhren. Das Stichprobenergebnis (z. B. ein x-Wert) befindet sich dann in einem Bereich, fçr den · weder die H0 noch die H1 abgelehnt werden kænnen oder · sowohl die H0 als auch die H1 abgelehnt werden mçssen. Derartige Bereiche, in denen keine eindeutigen Entscheidungen getroffen werden kænnen, bezeichnen wir als Indifferenzbereiche. Wenn in unserem Beispiel die Folgen eines a-Fehlers fçr åhnlich gravierend gehalten werden wie die Folgen eines b-Fehlers, kænnte man fçr das a- und b-Fehler-Niveau ¹symmetrischeª Werte annehmen. Wåhlen wir a b 0; 01, ergeben sich die folgenden Ablehnungsbereiche (s. Gl. 4.3 und Gl. 4.6): · fçr die H0: x > 41;86, · fçr die H1: x < 41;14. Håtte die Untersuchung zu einem x-Wert im Bereich 41;14 < x < 41;86 gefçhrt, kænnte weder die H0 noch die H1 verworfen werden. Wie mit diesem Problem umzugehen ist, erærtern wir unter 4.8. a4.7 123 a-Fehler, b-Fehler und Teststårke Beziehung zwischen a- und b-FehlerWahrscheinlichkeit Nachdem nun auch die Bestimmung der b-FehlerWahrscheinlichkeit bekannt ist, kænnen wir untersuchen, in welcher Beziehung die a-Fehler-Wahrscheinlichkeit und die b-Fehler- Wahrscheinlichkeit zueinander stehen. (Diese dçrfen nicht mit dem a-Fehler-Niveau und b-Fehler-Niveau verwechselt werden, die nach inhaltlichen Kriterien vor Untersuchungsbeginn festzulegen sind.) Abbildung 4.4 veranschaulicht die in unserem Beispiel bei spezifischer H1 und spezifischer H0 ermittelte b-Fehler-Wahrscheinlichkeit zusammen mit der a-Fehler-Wahrscheinlichkeit (Irrtumswahrscheinlichkeit P. Aus der Abbildung wird leicht ersichtlich, wie sich die a-Fehler-Wahrscheinlichkeit und bFehler-Wahrscheinlichkeit veråndern, wenn das Stichprobenergebnis x variiert. Mit græûer werdendem x sinkt die Wahrscheinlichkeit, bei einer Entscheidung zugunsten der H1 einen a-Fehler zu begehen. Gleichzeitig steigt die Wahrscheinlichkeit des b-Fehlers, d. h. Entscheidungen zugunsten der H0 werden mit græûer werdendem x zunehmend unwahrscheinlicher. Umgekehrt sinkt bei kleiner werdendem x die Wahrscheinlichkeit eines b-Fehlers, wåhrend die Wahrscheinlichkeit einer fålschlichen Annahme der H1 (a-Fehler) steigt. a- und b-Fehler-Wahrscheinlichkeit veråndern sich gegenlåufig. Die Konsequenz dieser gegenlåufigen Beziehung liegt auf der Hand. Je stårker man sich dagegen absichern will, eine an sich richtige H0 zu verwerfen (niedriges a-Fehler-Niveau bzw. Signifikanz- β µ0 α –x µ1 Abb. 4.4. Schematische Darstellung der a-Fehler-Wahrscheinlichkeit und b-Fehler-Wahrscheinlichkeit niveau), desto græûer wird die Wahrscheinlichkeit, dass die H0 fålschlicherweise beibehalten wird (hohe b-Fehler-Wahrscheinlichkeit). Innovative Forschungen in einem relativ jungen Untersuchungsgebiet, bei denen die Folgen einer fålschlichen Annahme von H1 vorerst zu vernachlåssigen sind, håtten also bei einem a-Niveau von 1% nur wenig Chancen, der Wissenschaft neue Impulse zu verleihen. In derartigen Untersuchungen ist deshalb auch ein a-Niveau von 10% zu rechtfertigen. Teststårke Wenn die b-Fehler-Wahrscheinlichkeit angibt, mit welcher Wahrscheinlichkeit die H1 verworfen wird, obwohl ein Unterschied besteht, so gibt der Ausdruck 1 b an, mit welcher Wahrscheinlichkeit zu Gunsten von H1 entschieden wird, wenn ein Unterschied besteht bzw. die H1 gilt. Dieser Wert wird als die Teststårke (¹powerª) eines Tests bezeichnet. Da sich a und b gegenlåufig veråndern, ist die Teststårke 1 b fçr a 0;05 natçrlich græûer als fçr a 0;01. Die Teststårke 1 b gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest zugunsten einer spezifischen Alternativhypothese entscheidet. Zur Verdeutlichung der Teststårke wollen wir noch einmal auf den Vergleich der beiden Lehrmethoden zurçckkommen. Wir hatten herausgefunden, dass die Abweichung des empirisch ermittelten x-Wertes (x 42 mit n 100) von dem gemåû H0 erwarteten Parameter 0 40 bei einseitigem Test 1 > 0 ) signifikant ist. Ferner fragten wir auf S. 117, wie groû der x-Wert mindestens sein muss, um die H0 mit a 0;05 verwerfen zu kænnen. Dieser als ¹kritische Grenzeª bezeichnete x-Wert ergab sich zu x 41;32, d. h. alle Werte x 41;32 fçhren zu einem signifikanten Ergebnis (a 0;05). Um nun die Stårke dieses Signifikanztests zu ermitteln, prçfen wir zunåchst, mit welcher Wahrscheinlichkeit wir einen b-Fehler begehen wçrden, wenn wir bei x 41;32 die H0 beibehalten wçrden. Wie bereits bekannt, benætigen wir hierfçr einen spezifischen H1 -Parameter, den wir mit 1 43 fixiert hatten. Unter Verwendung des Standardfehlers b rx 0;8 erhålt man also 4 124 z Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen 41;32 43 0;8 2;1 und damit nach Tabelle B eine b-Fehler-Wahrscheinlichkeit von b 0;0179. Die Teststårke betrågt also 1 0;0179 0;9821, d. h. die Wahrscheinlichkeit, dass wir uns aufgrund des Signifikanztests zu Recht zu Gunsten der H1 : 1 43 entscheiden, betrågt ± wenn diese H1 richtig ist ± 98,21%. 4 Determinanten der Teststårke. Ersetzen wir 1 43 durch 1 42, ergibt sich nach Gl. (4.5): z 41;32 42 0;8 0;85 : Fçr diesen z-Wert entnehmen wir Tabelle B b 0;1977 und damit 1 b 0;8023. Die Teststårke ist also gesunken. Mit kleiner werdender Differenz l0 die Stårke des Signifikanztests. l1 verringert sich Ferner wollen wir prçfen, was mit der Teststårke geschieht, wenn wir den Stichprobenumfang von n 100 auf n 200 verdoppeln. Wir erhalten als p Standardfehler b rx 8= 200 0;566 und damit eine ¹kritische Grenzeª von xcrit 95% 40 1;65 0;566 40;93 : Entscheidet man bei diesem oder kleineren x-Werten zu Gunsten der H0, ergibt sich fçr 1 42 40;93 42 1;89 z 0;566 und damit b 0;0294 bzw. 1 b 0;9706. Die Verdoppelung des Stichprobenumfangs hat also dazu gefçhrt, dass sich die Teststårke von 80,23% auf 97,06% erhæht. Mit wachsendem Stichprobenumfang vergræûert sich die Teststårke. Eine Vergræûerung des Stichprobenumfangs fçhrt zu einer Verkleinerung des Standardfehlers, was zur Folge hat, dass die Teststårke hæher wird. Da der Standardfehler jedoch auch kleiner wird, wenn sich die Merkmalsstreuung r verringert, haben Untersuchungen mit einer kleinen Merkmals- streuung ± bei sonst gleichen Bedingungen ± eine hæhere Teststårke als Untersuchungen mit einer groûen Merkmalsstreuung. Die Teststårke sinkt mit wachsender Merkmalsstreuung. Zu fragen bleibt, ob ein einseitiger oder zweiseitiger Test eine hæhere Teststårke aufweist. Wie oben ermittelt wurde, ergibt sich fçr den einseitigen Test fçr 0 40, 1 43, a 0;05 und n 100 eine Teststårke von 1 b 0;9821. Um einen vergleichbaren Teststårkewert fçr den zweiseitigen Test bestimmen zu kænnen, benætigen wir eine spezifische ungerichtete H1 , die angibt, wie weit der H1-Parameter den H0 -Parameter (0 40) mindestens çberschreiten oder unterschreiten muss. Wir setzen hierfçr 1 40 3 (1 43 und 1 37) und erhalten unter Verwendung der kritischen xcrit 2;5% - bzw. xcrit 97;5% -Werte von S. 117: z 41;57 43 0;8 1;79 bzw. z 38;43 37 1;79 : 0;8 Beide z-Werte schneiden ± in Richtung auf 0 ± von den jeweiligen H1 -Verteilungen 3,67% der Standardnormalverteilungsflåche ab, d. h., die b-Fehler-Wahrscheinlichkeit, die sich ergeben wçrde, wenn man bei x < 41;47 bzw. x > 38;43 fålschlicherweise die H1 ablehnen wçrde, addiert sich zu 2 0;0367 0;0734. Die Teststårke ist also mit 1 b 0;9266 kleiner als die des einseitigen Tests, wenn man x > 0 voraussetzt. Beståtigt das Untersuchungsergebnis der Tendenz nach eine gerichtete Hypothese, hat der einseitige Test eine hæhere Teststårke als der zweiseitige Test. Die Stårke eines Tests (1 b) hångt damit zusammenfassend von folgenden Einflussgræûen ab: · Einseitiger/zweiseitiger Test: Die Teststårke ist beim einseitigen Test (H1: 1 > 0 ) græûer als beim zweiseitigen Test, wenn x > 0 ist. · a-Fehler-Niveau: Die Teststårke ist fçr a 0;05 græûer als fçr a 0;01. a4.8 125 Bedeutung der Stichprobengræûe " 4.8 Bedeutung der Stichprobengræûe 1,0 0,9 0,8 0,7 zweiseitig 1- β 0,6 0,5 0,4 0,3 0,2 einseitig 0,1 36 37 38 39 40 = µ0 41 42 43 44 µ1 Abb. 4.5. Teststårkefunktionen · Effektgræûe: Die Teststårke wåchst mit græûer werdender Differenz 1 0 . · Stichprobengræûe: Die Teststårke wåchst mit zunehmendem Stichprobenumfang. · Merkmalsstreuung: Die Teststårke sinkt mit græûer werdender Merkmalsstreuung. Teststårkefunktionen. Die Abhångigkeit der Stårke eines Tests von der Differenz 1 0 wird in sog. Teststårkefunktionen verdeutlicht, denen die 1 b-Werte fçr variable Differenzen 1 0 zu entnehmen sind. Derartige Teststårkefunktionen kænnen als Entscheidungskriterium herangezogen werden, wenn zur Ûberprçfung einer Hypothese mehrere statistische Tests, wie z. B. verteilungsfreie Tests, zur Verfçgung stehen (Nåheres hierzu s. Bortz et al. 2000, Kap. 2 und 4). Abbildung 4.5 zeigt die Teststårkekurven des einseitigen Tests (H1: 0 < 1 ) und des zweiseitigen Tests (H1: 0 6 1 ) fçr unterschiedliche 1 -Parameter, n 100, a 0;05 und 0 40. Man erkennt, dass der einseitige Test dem zweiseitigen fçr 1 > 0 çberlegen ist. Fçr 1 < 0 ¹versagtª der einseitige Test. Die Teststårke ist hier geringer als a 0;05, der Wert fçr 0 1. Gilt die H0 (0 1 ), entscheidet der Test mit einer Wahrscheinlichkeit von 1 b a 0;05 zugunsten von H1 . Auf S. 119 f. haben wir den ¹klassischenª Signifikanztest insoweit kritisiert, als ein Untersuchungsergebnis auch bei kleinsten Effekten praktisch immer signifikant wird, wenn der Stichprobenumfang gençgend groû ist. Daraufhin wurde das Konzept einer Effektgræûe " eingefçhrt, die im Kontext einer Untersuchung angibt, wie weit ein H1 -Parameter mindestens vom H0 -Parameter entfernt sein soll, um von einem praktisch bedeutsamen Effekt sprechen zu kænnen. Mit der Festlegung einer Effektgræûe kennen wir den H1 -Parameter, sodass ± wie in 4.7 gezeigt wurde ± auch die b-Fehler-Wahrscheinlichkeit bzw. die Teststårke bestimmt werden kænnen. Auf S. 122 wurde im Kontext unseres Beispiels festgestellt, dass fçr 0 40, 1 43, a b 0;01 und n 100 Untersuchungsergebnisse vorkommen kænnen, die weder zur Ablehnung von H0 noch zur Ablehnung der spezifischen H1 fçhren. Hierbei handelt es sich um Ergebnisse, die in den Bereich 41;14 < x < 41;86 fallen. Diese wenig befriedigende Situation låsst sich vermeiden, wenn man a; b; " und n so aufeinander abstimmt, dass bei jedem empirischen Ergebnis eine eindeutige Entscheidung çber die Gçltigkeit von H0 oder H1 sichergestellt ist. Da a, b und " nach inhaltlichen Kriterien festgelegt werden sollten und damit nicht beliebig verånderbar sind, bleibt als einziger ¹freier Parameterª der Stichprobenumfang n çbrig, der so gewåhlt werden sollte, dass aufgrund des Untersuchungsergebnisses eine eindeutige Entscheidung çber die rivalisierenden Hypothesen H0 und H1 getroffen werden kann. Stichprobenumfånge mit dieser Eigenschaft wollen wir als ¹optimaleª Stichprobenumfånge kennzeichnen. Stichprobenumfånge sind optimal, wenn sie bei gegebenem a, b und e eine eindeutige Entscheidung çber die Gçltigkeit von H0 oder H1 sicherstellen. Diese Definition ¹optimalerª Stichprobenumfånge kænnte zu der Vermutung Anlass geben, dass unter Umstånden eine kleinere Stichprobe, die in diesem Sinne ¹optimalª ist, einer græûeren Stichprobe vorzuziehen sei. Diese Vermutung ist falsch, denn grundsåtzlich fçhren græûere Stichproben zu genaueren Ergebnissen als kleinere, was vor al- 4 126 4 Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen lem bei der in 3.5 behandelten Intervallschåtzung zu beachten ist. Gemeint ist, dass sich der mit der Untersuchung einer græûeren Stichprobe verbundene Aufwand nicht lohnt, wenn bei einer Hypothesenprçfung mit gegebenem a und b eine unter praktischen Gesichtspunkten fçr bedeutsam erachtete Effektgræûe auch mit einem kleineren, dem ¹optimalenª, Stichprobenumfang abgesichert werden kænnte (vgl. hierzu auch Hinkle u. Oliver, 1983, 1985). Auûerdem kann ± wie wir noch sehen werden (vgl. S. 127) ± die Situation eintreten, dass bei zu groûen Stichproben sowohl die H0 als auch die H1 abzulehnen sind. Bestimmung des ¹optimalenª Stichprobenumfangs Der Gedankengang, der zu Stichprobenumfången fçhrt, die nach diesem Verståndnis ¹optimalª sind, sei im Folgenden anhand unseres Beispiels verdeutlicht (Vergleich der neuen Lehrmethode mit einer herkæmmlichen Methode bzw. allgemein formuliert: Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter, s. Kap. 5.1.1). Hierzu stellen wir den gefundenen x-Wert einmal im Kontext der H0-Verteilung und einmal im Kontext der H1 -Verteilung dar. Bezogen auf die H0 -Verteilung erhålt man in Analogie zu Gl. (4.3) x 0 z 1 a b rx : 4:7 Hierbei sei z 1 a der nach Gl. (4.1) errechnete z-Wert (vgl. S. 113). Wir erhalten also 40 2;50 0;8 42 : 4:8 x 1 z b b rx ; wobei zb den nach Gl. (4.5) errechneten z-Wert kennzeichnet. Fçr 1 43 und zb 1;25 erhålt man also 43 1;25 0;8 42 : Gleichung (4.7) und Gl. (4.8) fçhren fçr beliebige x-Werte (mit den jeweils entsprechenden z 1 a und zb -Werten) zu identischen Resultaten. Wir kænnen also schreiben b rx 1 zb b rx p r= n bzw. wegen b rx b p p r = n 1 z b b r= n : 0 z 1 a b a 4:9 4:10 4:11 p bzw. (nach Multiplikation beider Seiten mit 2) wegen Gl. (4.4) p 2 z 1 a zb p : 4:12 " n Diese Gleichung zeigt die funktionale Verknçpfung von ", n, a und 1 b. Aufgelæst nach n resultiert n 2 z 1 a "2 zb 2 : 4:13 Setzen wir a 0;0062 (und damit z 1 a 2;50), 1 bp 0;894 (und damit zb 1;25) sowie " 2 43 40=8 0;530, muss fçr n natçrlich der tatsåchlich verwendete Stichprobenumfang resultieren: n 2 2;50 1;252 100 : 0;5302 Dieser Stichprobenumfang n 100 wåre also ¹optimalª , wenn wir a 0;0062, b 0;106 und 1 43 (bzw. " 0;530) gesetzt håtten. Ersetzen wir diese unçblichen Werte durch a b 0;01, also diejenigen Werte, fçr die bei n 100 im Bereich 41;14 < x < 41;86 keine Entscheidung zu treffen war, erhålt man nach Gl. (4.13) mit z 1 a 2;33 und zb 2;33: n Bezogen auf die H1 -Verteilung gilt 0 z 1 Durch Umstellen ergibt sich 1 0 z 1 a zb p b r n 2 2;33 2;332 154;422 : 0;5302 Dieser Wert wåre fçr die praktische Umsetzung auf n 155 nach oben zu runden. Man errechnet (mit dem ungerundeten Wert) p b rx 8= 154;422 0;6438 und als kritische Grenze des Ablehnungsbereiches der H0 xcrit 1 a 40 2;33 0;6438 41;5 : Fçr die kritische Grenze des Ablehnungsbereiches der H1 resultiert der gleiche Wert: xcrit b 43 2;33 0;6438 41;5 : Die Entscheidungssituation ist bei diesem Stichprobenumfang eindeutig: Fçr x 41;5 wird die a4.8 127 Bedeutung der Stichprobengræûe H0 und fçr x < 41;5 die H1 abgelehnt. Inwieweit die jeweils entsprechenden Gegenhypothesen damit auch anzunehmen sind, werden wir weiter unten erærtern. Fçr Stichprobenumfånge, die kleiner sind als der ¹optimaleª, existiert ein x-Wertebereich, der sowohl mit H0 als auch H1 vereinbar ist. Fçr græûere Stichproben hingegen gibt es x-Werte, die weder mit H0 noch H1 zu vereinbaren sind. Weitere Informationen zur Bestimmung optimaler Stichprobenumfånge findet man z. B. bei Schiffler und Harwood (1985). Beispiele Die folgenden Beispiele, bei denen wir von a 0;05, b 0;2 und " 0;530 ausgehen, sollen verdeutlichen, wie der Stichprobenumfang die Eindeutigkeit der statistischen Entscheidung bestimmt. Bezçglich a und b folgen wir hierbei einer Empfehlung von Cohen (1988), die besagt, dass bei vielen Fragestellungen ein gegençber dem a-Fehler-Niveau vervierfachtes b-Niveau angemessen sei. Dies ist gleichzeitig eine a-/b-Fehlerkonstellation, fçr die nach Ablehnung der H0 auch die Annahme der H1 zu rechtfertigen ist (vgl. S. 122). ¹Optimalerª Stichprobenumfang: 2 1;65 0;842 44;0896 0;5302 p 40 1;65 8= 44;0896 41;988 p 43 0;84 8= 44;0896 41;988 Kleinerer Stichprobenumfang: n 30 p xcrit 1 a 40 1;65 8= 30 42;41 p xcrit b 43 0;84 8= 30 41;77 Fçr x 42;41 kann die H0 abgelehnt werden. Es kænnte gleichzeitig auch die H1 angenommen werden; wçrde man fçr x 42;41 zu Gunsten von H0 entscheiden, wåre diese Entscheidung mit einem b-Fehlerrisiko von mindestens 34% verbunden (gemåû Gl. (4.5)). Mit 41; 77 < x < 42;41 resultiert ein Indifferenzbereich, in dem keine Entscheidung getroffen werden kann, da weder die H0 noch die H1 abgelehnt werden kann. Sollte x im Indifferenzbereich liegen, wåre die Untersuchung mit einer græûeren Stichprobe zu replizieren. Græûerer Stichprobenumfang: n 200 p xcrit 1 a 40 1;65 8= 200 40;93 p xcrit b 43 0;84 8= 200 42;52 Da im Bereich 40;93 x 42;52 sowohl H0 als auch H1 zu verwerfen sind, wçrde man fçr x-Werte in diesem Bereich folgern, dass der wahre Parameter zwischen 0 40 und 1 43 liegt. H0 wåre abzulehnen, wenn x 40;93 ist, ohne dabei gleichzeitig die H1 annehmen zu kænnen. Die H1 kænnte ggf. angenommen werden, wenn x 42; 52 ist, denn bei diesen x-Werten wçrde man im Fall der Ablehnung von H1 ein b-Fehlerrisiko von mindestens 20% eingehen. n xcrit 1 a xcrit b Bezogen auf unser Beispiel wåre also ein Stichprobenumfang von n 45 optimal gewesen. Fçr x 41;988 wåre die Ablehnung von H0 mit einer Irrtumswahrscheinlichkeit a 0;05 verbunden. Fçr x < 41;988 wçrde man bei Ablehnung von H1 eine b-Fehler-Wahrscheinlichkeit von b < 0;2 riskieren. Das Risiko einer falschen Entscheidung ist bei Annahme der H0 (0 40) und x 41;988 viermal so groû wie bei Annahme der H1 (1 43) und x 41;988. Falls diese Relation aus inhaltlichen Grçnden gençgend groû erscheint, kænnte die H1 angenommen werden, wenn x 41;988 ist. Stichprobenumfang und Teststårke Gleichung (4.13) ist zu entnehmen, dass mit kleiner werdender Effektgræûe der ¹optimaleª Stichprobenumfang græûer wird. Håtte man in unserer Untersuchung den H1 -Parameter auf 1 42 gesetzt, ergåbe sich nach Gl. (4.4) p 2 42 40 0;354 " 8 und nach Gl. (4.13) n 2 1;65 0;842 99;20 : 0;3542 Der fçr unser Beispiel gewåhlte Stichprobenumfang von n 100 wåre also ausreichend gewesen, um ei- 4 128 4 Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen ne Effektgræûe von " 0;354 fçr a 0;05 mit einer Teststårke von 1 b 0;8 nachzuweisen. Auch fçr Ex-post-Analysen empirischer Untersuchungen ohne fixierten H1 -Parameter (und damit ohne Mæglichkeit zur Bestimmung der b-Fehler-Wahrscheinlichkeit) kann Gl. (4.13) interessante Erkenntnisse vermitteln. Angenommen, die neue Untersuchungsmethode sei an einer Stichprobe mit n 44 geprçft worden und das Ergebnis wåre bei einem a-Niveau von 0;05 signifikant. Im nachhinein kommt man zu der Erkenntnis, dass sich die Ûberlegenheit der neuen Methode unter praktischen Gesichtspunkten in mindestens zwei Testpunkten niederschlagen mçsse, sodass der Untersuchung implizit eine Efp fektgræûe von " 2 42 40=8 0;354 zu Grunde liegt. Wir kænnen nun nach der Wahrscheinlichkeit fragen, mit der dieser Signifikanztest zugunsten von H1 entscheiden wçrde, wenn tatsåchlich die H1: 1 42 richtig ist, d. h., wir fragen nach der Teststårke. Hierzu læsen wir Gl. (4.13) nach zb auf: p p 4:14 zb z 1 a " n= 2 1;65 0;354 p p 44= 2 0;008 : Diesem z-Wert entspricht gemåû Tabelle B ein Flåchenanteil von b 0;5, d. h., auch die Teststårke hat den Wert 1 b 0;5. Mit anderen Worten: Die Wahrscheinlichkeit fçr ein signifikantes Ergebnis betrågt in dieser Untersuchung nur 50%. Die Untersuchung håtte eine sehr viel græûere Chance fçr ein signifikantes Ergebnis, wenn 1 44 der wahre H1 -Parameter wåre. Man errechnet dann p p zb 1;65 0;707 44= 2 1;67 ; sodass sich b 0;0475 bzw. 1 b 0;9525 ergibt. Falls die H1: 1 44 die richtige Annahme wåre, håtte man mit einer Wahrscheinlichkeit von 95,25% mit einem signifikanten Ergebnis rechnen kænnen. Die Chance, zu einem signifikanten Ergebnis zu kommen, låsst sich natçrlich auch durch einen græûeren Stichprobenumfang erhæhen. Bliebe man bei " 0;354 und wçrde statt 44 Vpn 80 Vpn untersuchen, ergåbe sich p p zb 1;65 0;354 80= 2 0;59 : Diesem z-Wert entspricht ein Flåchenanteil von 27,8% bzw. eine Teststårke von 72,2%, d. h. die Chance eines signifikanten Ergebnisses ist von 50% auf 72,2% gestiegen. " 4.9 Praktische Hinweise Unsere bisherigen Ûberlegungen gingen von der Annahme aus, dass sich die H0 - und H1 -Verteilung nur in dem Parameter unterscheiden und im Ûbrigen identisch seien (normalverteilt mit gleichem Standardfehler). Dies ist jedoch bei den in diesem Buch zu behandelnden statistischen Tests in der Regel nicht der Fall. Die zu einer spezifischen H1 gehærende Prçfverteilung ist meistens eine sog. nonzentrale Verteilung, deren Mathematik çber den Rahmen dieses Buches hinausgeht (Informationen zu diesem Thema findet man z. B. bei Bickel und Doksum, 1977; Buchner et al., 1996; Manoukian, 1986; Winkler, 1983 oder Witting, 1978). Ohne diese Verteilungen sind jedoch b bzw. 1 b und damit der fçr die Absicherung einer vorgegebenen Effektgræûe ¹optimaleª Stichprobenumfang nicht bestimmbar. Um nun auf entsprechende Planungshinweise nicht vollståndig verzichten zu mçssen (vgl. hierzu auch Sedlmeier u. Gigerenzer, 1989), werden zumindest fçr die wichtigsten Verfahren ¹optimaleª Stichprobenumfånge genannt, die als Richtwerte zur Absicherung einer kleinen, mittleren oder groûen Effektgræûe erforderlich sind. Diese Zahlen gehen auf Cohen (1988, 1992) zurçck und beziehen sich auf a 0;05 und 1 b 0;80. Gleichung (4.13) ist zu entnehmen, wie die jeweils genannten Stichprobengræûen zumindest der Tendenz nach zu veråndern wåren, wenn einer Untersuchung ein kleineres a-Niveau und/oder eine andere Teststårke zu Grunde gelegt werden sollen: Der Stichprobenumfang ist fçr a 0;01 und fçr eine hæhere Teststårke zu vergræûern. Genauere Informationen sind den Tabellen von Cohen (1977, 1988) zu entnehmen, die in Auszçgen auch bei Bortz u. Dæring (2002, Kap. 9.2.2) wiedergegeben sind. Ein Computerprogramm zur Teststårkenbestimmung haben Erdfelder et al. (1996) entwickelt. Noch ein Hinweis in eigener Sache: Die Beispiele, an denen die einzelnen Verfahren erlåutert