Statistik I im Sommersemester 2006 Themen am 13.6.2006: Statistische Hypothesentests • Die Logik statistischen Testens • Prüfung von Hypothesen über Anteile und Mittelwerte Lernziele: 1. 2. 3. 4. 5. 6. Unterschiedung zwischen Nullhypothese, Alternativhypothese und Forschungshypothese Irrtumswahrcheinlichkeit, Fehler erster Art, Fehler zweiter Art Teststärkefunktion und Trennschärfe eines Tests Einseitige und zweiseitige Tests Z-Test von Anteilen und deren Anwendungsvoraussetzung Z-Test und T-Test von Mittelwerten und deren Voraussetzungen Statistik 1 (Vorlesung SoSe 06, 13.6.06) 1 Wiederholung Schätzer und Schätzung Erwünschte Eigenschaften von Schätzern: Konsistenz, Erwartungstreue und (relative) Effizienz Die Bedeutung von Standardfehlern Punktschätzung und Intervallschätzung Konfidenzintervalle für Anteile Konfidenzintervalle für Mittelwerte Die T-Verteilung Schätzung von Varianzen und Standardabweichungen Statistik 1 (Vorlesung SoSe 06, 13.6.06) 2 Die Logik statistischen Testens In vielen sozialwissenschaftlichen Fragestellungen sollen Vermutungen über Eigenschaften einer Population überprüft werden. Es soll z.B. geprüft werden, ob in einer Stadt eine Mehrheit der Bürger für die Einrichtung einer Ganztagsschule ist. In einer einfachen Zufallsauswahl von n=100 Bürgern sprechen sich 60% für die Einrichtung der Schule aus. Aus dem Ergebnis wird geschlossen, dass es tatsächlich eine Mehrheit für die Einrichtung der Ganztagsschule gibt. Das Beispiel weist auf die Ähnlichkeit der Fragestellung beim statistischen Schätzen und beim statistischen Testen hin: - Beim Schätzen wird aufgrund von Stichprobendaten in einem Induktionsschluss auf eine Eigenschaft der Population geschlossen; - beim Testen wird anhand von Stichprobendaten entschieden, ob eine Vermutung über eine Eigenschaft der Population zutrifft oder nicht zutrifft. Beim statistischen Testen wird also immer eine Entscheidung getroffen. Als Entscheidungsgrundlage werden Informationen aus einer Stichprobe verwendet. ⇒ Statistischer Test sind Entscheidungsregeln, die Stichprobendaten nutzen. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 3 Nullhypothese und Alternativhypothese Die zu treffende Entscheidung bezieht sich darauf, ob eine postulierte Eigenschaft in der Population vorhanden ist oder nicht vorhanden ist. Formal gesehen gibt es somit genau zwei Zustände, die in der Realität auftreten können: 1. Die postulierte Eigenschaft liegt vor 2. Die postulierte Eigenschaft liegt nicht vor Enstprechend diesen beiden Zuständen werden formal zwei Hypothesen unterschieden: 1. Die Nullhypothese H0 behauptet, dass die potulierte Eigenschaft vorliegt, 2. Die Alternativhypothese H1behauptet, dass die postulierte Eigenschaft nicht vorliegt Ein statistischer Test ist dann eine Entscheidung darüber, ob die Nullypothese richtig und die Alternativhypothese falsch ist, oder ob die Alternativhypothese richtig und die Nullhypothese falsch ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 4 Fehler erster und zweiter Art In Abhängikeit von den Stichprobendaten wird die Nullhypothese akzeptiert oder verworfen. Insgesamt gesehen gibt es dann vier unterscheidbare Situationen: H0 ist richtig (= H1 ist falsch) H0 ist falsch (= H1 ist richtig) Akzeptanz von H0 (= Verwerfen von H1) richtige Entscheidung falsche Entscheidung = β-Fehler (Fehler zweiter Art) Verwerfen von H0 (= Akzeptanz von H1) falsche Entscheidung = α-Fehler (Fehler erster Art) richtige Entscheidung Wünschenswert sind statistische Tests, bei denen sowohl die Wahrscheinlichkei eines α-Fehler als auch die Wahrscheinlickeit eines β-Fehlers möglichst klein ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 5 Fehler erster und zweiter Art H0 ist richtig (= H1 ist falsch) H0 ist falsch (= H1 ist richtig) Akzeptanz von H0 (= Verwerfen von H1) richtige Entscheidung falsche Entscheidung = β-Fehler (Fehler zweiter Art) Verwerfen von H0 (= Akzeptanz von H1) falsche Entscheidung = α-Fehler (Fehler erster Art) richtige Entscheidung Für die Entscheidung wird aus den Stichprobendaten eine Teststatistik berechnet. In Abhängigkeit vom Wert der Teststatistik wird dann die Nullhypothese akzeptiert oder verworfen. Es hängt dann a) von der Kennwerteverteilung der Teststatistik ab und b) von der Korrektheit der Nullhypothese, wie wahrscheinlich Fehlentscheidungen sind. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 6 Fehler erster und zweiter Art Für die Prüfung einer Hypothese über einen Populationsanteil kann z.B. der Stichprobenanteil als Teststatistik herangezogen werden. f(p1|π1=0.1) f(p1|π1=0.2) f(p1|π1=0.9) π1 > 0.5 π1 ≤ 0.5 f(p1|π1=0.3) f(p1|π1=0.8) f(p1|π1=0.7) f(p1|π1=0.4) f(p1|π1=0.6) f(p1|π1=0.5) π1; p1 0.0 0.1 0.2 0.3 0.4 Statistik 1 (Vorlesung SoSe 06, 13.6.06) 0.5 0.6 0.7 0.8 0.9 1.0 7 Festlegung von Null- und Alternativhypothese über die Forschungshypothese Formal sind Null- und Altrernativhypothese symmetrisch: Ist die Nullhypothese richtig, dann ist die Alternativhypothese falsch; ist die Nullhypothese falsch, dann ist die Alternativhypothese richtig. 0.3 0.4 0.5 0.6 0.7 H0: π1 ≤ 0.5 H1: π1 > 0.5 0.8 Die eigentliche Forschungsfrage korrespondiert jedoch nur mit einer der beiden Hypothesen. Diese theoretische Forschungsfrage ist die Forschungshypothese Im Sinne eines möglichst strengen Testens soll die Wahrscheinlichkeit der fälschlichen Akzeptanz der Forschungshypothese einen Maximalwert nicht überschreiten. Im Beispiel postuliert die Forschungshypothese, dass in der Population eine für die Ganztagesschule ist: π1 > 0.5. Wenn möglich, wird die Forschungshypothese als Alternativhypothese H1, ihr Gegenteil als Nullhypothese H0 formuliert. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 8 Festlegung der (maximalen) Irrtumswahrscheinlichkeit AnnahmeAblehnungsbereich von H0 bereich von H0 p1 < 0.58225 ⇒ H0 0.3 0.4 0.5 kritischer Wert p1 ≥ 0.58225 ⇒ H1 0.6 0.7 0.8 Durch diese Zuordnung ist es möglich, die Forderung zu erfüllen, dass die fälschliche Akzeptanz der Forschungshypothese einen Maximalwert nicht überschreitet. Dazu wird der Wertebereich der Kennwerteverteilung der Teststatistik in einen Ablehnungs- und einen Annahmebereich zerlegt. Der Ablehnungsbereich wird dabei so festgelegt, dass die Wahrscheinlichkeit (maximal) α ist, in diesen Bereich zu fallen, wenn die Nullhypothese (gerade noch) richtig ist. H0: π1 ≤ 0.5 H1: π1 > 0.5 Soll im Beispiel die maximalen Fehlerwahrscheinichkeit, die Forschungshypothese fälschlicherweise zu akzeptieren, 5% betragen, dann wird der Ablehnungsbereich durch das 95%Quantil der Kennwerteverteilung des Stichprobenanteils bei einem Populationsanteil von π1 = 0.5 festgelegt: Qα=.95,π1=0.5 ≈ 1.645 · 0.5·/10 + 0.5) = 0.58225 Nur wenn ein Stichprobenanteil mindestens diesen Wert erreicht, wird die Nullhypothese H0 abgelehnt und die Alterrnativhypothese H1 (Forschungshypothese) als vermutlich richtig akzeptiert. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 9 Festlegung der (maximalen) Irrtumswahrscheinlichkeit AnnahmeAblehnungsbereich von H0 bereich von H0 Wahrscheinlichkeit eines β-Fehlers Wenn der kritische Wert erreicht oder überschritten wird, obwohl H0 richtig ist, liegt ein α-Fehler vor. Wahrscheinlichkeit eines α-Fehlers Wenn der kritische Wert nicht überschritten wird, obwohl die H0 falsch ist, liegt ein βFehler vor. In allen anderen Situationen ist die Entscheidung richtig. 0.3 0.4 0.5 0.6 H0: π1 ≤ 0.5 H1: π1 > 0.5 0.7 0.8 Die Höhe der Fehlerwahrscheinlichkeiten hängt von dem unbekannten Populationswert ab, über den die Forschungshypothese eine Vermutung postuliert. Da die Forschungshypothese die Alternativhypothese H1 ist, ist die maximale Wahrscheinlichkeit, fälschlicherweise die Forschungshypothese abzulehnen, gleich der maximalen α-Fehlerwahrscheinlichkeit. Diese Wahrscheinlichkeit wird auch als Irrtumswahrscheinlichkeit oder als Signifikanzniveau eines Tests bezeichnet. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 10 Teststärkefunktion 1.0 AblehnungsAnnahmebereich von H0 bereich von H0 Prob(β-Fehler) 0.9 0.8 0.7 0.6 βmax =95% 0.5 0.4 0.3 0.2 0.1 αmax =5% Prob(α-Fehler) 1-Prob(β-Fehler) 0.0 0.3 0.4 0.5 0.6 H0: π1 ≤ 0.5 H1: π1 > 0.5 0.7 0.8 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 zutreffende unzutreffende Nullhypothese Nullhypothese 0.9 1.0 π1 Nachdem der Ablehnungsbereich festgelegt ist, kann für jeden möglichen Populationswert die Wahrscheinlichkeit berechnet werden, dass die Teststatistik in den Ablehnungsbereich fällt. Die so berechnete Funktion heißt Teststärkefunktion (eng. power function). Trifft die Nullhypothese zu, gibt der Wert der Teststärkefunktion die α-Fehlerwahrscheinlichkeit an; anderenfalls gibt der Wert der Teststärkefunktion die Wahrscheinlichkeit an, eine falsche Nullhypothese korrekt zu entdecken (=1–β-Fehler). Statistik 1 (Vorlesung SoSe 06, 13.6.06) 11 Trennschärfe 1.0 Wenn π1 ≤ 0.5, wird die (dann zutreffende) Nullhypothese mit einer Irrtumswahrscheinlichkeit von maximal α = 5% entdeckt. Wenn π1 ≥ 0.62 wird eine (dann falsche) Nullhypothese mit einer Wahrscheinlichkeit von 1–β ≥ 78.2% entdeckt. Bei einem Wert von π1 zwischen 0.5 und 0.62 liegt die (β-) Fehlerwahrscheinlichkeit zwischen 95% und 21.8 %. Der Test ist in diesem Bereich nicht trennscharf. 0.9 Prob(β-Fehler)=21.8% 0.8 π1=0.62 0.7 0.6 0.5 0.4 0.3 0.2 1-Prob(β-Fehler) αmax =5% 0.1 π1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 zutreffende unzutreffende Nullhypothese Nullhypothese 0.9 1.0 Die Teststärkefunktion sollte im Bereich der Nullhypothese möglichst geringe Werte nahe 0 und im Bereich der Alternativhypothese möglichst große Werte nahe 1 aufweisen. Es gibt jedoch immer einen Bereich, in dem ein Test sehr hohe Fehlerwahrscheinlichkeiten aufweist. In diesem nicht trennscharfen Bereich kann der Test nur schlecht zwischen H0 und H1 diskriminieren. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 12 Einfluss des Stichprobenumfangs auf die Teststärkefunktion Bei gegebener Irrtumswahrscheinlichkeit hängt die Trennschärfe (Teststärke) von der Stichprobengröße ab: je größer die Stichprobe, desto kleiner der Standardschätzfehler und desto steiler und damit trennschärfer verläuft die Teststärkefunktion. n=200 1.0 0.9 Bei einer Fallzahl von nur n=50 ist der Test im Bereich zwischen π1 > 0.5 und etwa π1 < 0.68 nicht trennschaft n=100 0.8 0.7 n=50 Bei einer Fallzahl von nur n=200 ist der Test im Bereich zwischen π1 > 0.5 und etwa π1 < 0.57 nicht trennschaft 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Ist die Teststärke nicht hoch genug, sollte - wenn möglich - die Fallzahl erhöht werden. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 13 Einfluss des maximalen Irrtumswahrscheinlichkeit α auf die Teststärkefunktion Die Teststärkefunktionverläuft steiler, wenn die maximale α-Fehlerwahrscheinlichkeit heraufgesetzt wird. 1.0 0.9 Bei einer Irrtumswahrscheinlichkeit von α ≤ 10 % ist der Bereich, in dem der Test nicht trennscharf ist, kleiner als bei einer Irrtumswahrscheinlichkeit von α ≤ 10 %. Der „Preis“ für die steilere Funktion bei zutreffender Alternativhypothese ist allerdings, dass eher eine richtige Nullhypothese fälschlicherweise abgelehnt wird. 0.8 0.7 0.6 0.5 α =5 % 0.4 0.3 0.2 α =10% 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Bei gegebener Fallzahl und zu geringer Trennschärfe muss daher gegebenenfalls die Irrtumswahrscheinlichkeit α heraufgesetzt werden. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 14 Generelle Vorgehensweise beim statistischen Testen Schritt 1: Formulierung von Null- und Alternativhypothese Im Sinne eines strengen Testens ist die Nullhypothese H0 möglichst das Gegenteil der eigentlich interessierenden Forschungshypothese, der Alternativhypothese H1. Schritt 2: Auswahl der statistischen Prüfgröße (Teststatistik) Die Prüfgröße muss bei richtiger und falscher Nullhypothese unterschiedliche Kennwerteverteilungen aufweisen. Die Kennwerteverteilung und deren Parameter müssen (zumindest bei Gültigkeit der Nullhypothese) bekannt sein! Im Beispiel: Prüfgröße ist Stichprobenanteil, der asymptotisch normalverteilt ist. Schritt 3: Festlegung der (maximalen) Irrtumswahrscheinlichkeit (α) und damit des kritischen Wertes Im Beispiel ist der kritischer Wert ein Quantilwert der Normalverteilung mit Erwartungswert 0.5 und Standardabweichung 0.05. Bei einem maximalen α von 5% ist der kritische Wert 0.58225 Schritt 4: Berechnung der Prüfgröße und Entscheidung Im Beispiel: In Stichproben, in denen p1 ≥ 0.58225 wird die Nullhypothese verworfen, anderenfalls beibehalten. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 15 Generelle Vorgehensweise beim statistischen Testen In der Regel wird eine Teststatistik so ausgewählt, dass ihre Kennwerteverteilung bei (gerade noch) zutreffender Nullhypothese leicht zu berechnen ist. Schritt 2: Auswahl der statistischen Prüfgröße Beim Test eines Anteils wird daher anstelle des Stichprobenanteils die standardnormalverteilte Prüfgröße Z verwendet, die sich durch Z-Transformation des Stichprobenanteils an der Stelle π1 = 0. 5 (also wenn die Nullhypothese gerade noch richtig ist) berechnet p1 − π1 max . H0 0.58225 − 0.5 Z= ⇒ z10% = = 1.645 0.5 ⋅ (1 − 0.5 ) π1 max . H0 ⋅ 1 − π1 max. H0 100 n ( Schritt 3: Schritt 4: ) Festlegung der Irrtumswahrscheinlichkeit (α) und damit des kritischen Wertes Bei einer maximalen Irrtumswahrscheinlichkeit von 5% ist der kritische Wert dann das 95%-Quantil der Standardnormalverteilung, also 1.645. Berechnung der Prüfgröße und Entscheidung Wenn Z ≥ 1.645, dann H1, sonst H0 Statistik 1 (Vorlesung SoSe 06, 13.6.06) 16 Einseitige und zweiseitige Tests Im Beispiel des Tests der Forschungshypothese, dass eine Mehrheit für die Einführung einer Ganztagesschule sei, ist die Nullhypothese falsch, wenn ein Populationswert einen vorgegebenen Wert (im Beispiel: π1 > 0.5) überschreitet. Ein solcher Test heißt einseitige Hypothesentest, da der von der Nullhypothese postulierte Wertebereich eines Populationsparameters entweder gegen ein Überschreiten (wie im Beispiel) oder gegen ein Unterschreiten geprüft wird. In einem zweiseitigen Hypothesentest postuliert die Nullhypothese dagegen, dass der zu testende Populationsparameter einen bestimmten Wert aufweist. Die Nullhypothese ist dann falsch, sowohl wenn dieser Wert überschritten, als auch wenn er unterschritten wird. Die generelle Vorgehensweise unterscheidet sich in der Schrittfolge nicht von der Vorgehensweise bei einem einseitigen Test. Schritt 1: Formulierung von Null- und Alternativhypothese Bei zweiseitigen Forschungshypothesen ist es nicht immer möglich, dass die Nullhypothese H0 das Gegenteil der Forschungshypothese ist. Beispiel: Es wird vemutet, dass 75% der Bevölkerung Niedersachsesn über ein eigenes Einkommen verfügen: H0: π1 = 0.75 versus H1: π1 ≠ 0.75 Statistik 1 (Vorlesung SoSe 06, 13.6.06) 17 Zweiseitige Tests Schritt 2: Auswahl der statistischen Prüfgröße: Der Stichprobenanteil ist bei einer einfachen Zufallsauswahl um den Populationsanteil normalverteilt. Wenn π1 = 0.75, dann ist Z = p1 − π1 π1 ⋅ (1 − π1 ) n = p1 − 0.75 0.75 ⋅ (1 − 0.75 ) 180 standardnormalverteilt. Wenn die Nullhypothese falsch ist, π1 ≠ 0.75, dann ist entweder eher mit kleinen Werten (wenn π1 < .75) oder aber eher mit großen Werten (wenn π1 > .75) der Teststatistik zu rechnen. Wenn die Nullhypothese zutrifft, ist dagegen mit Werten um 0.0 zu rechnen. Schritt 3: Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten: Die Irrtumswahrscheinlichkeit soll α = 5% betragen. Die Nullhypothese ist daher abzulehnen, wenn die Teststatistik kleiner als das 2.5%-Quantil oder aber größer als das 97.5%-Quantil der Standardnormalverteilung ist. Bei einem zweiseitigen Hypothesentest gibt es auch zwei kritische Werte, die den Bereich der Akzeptanz der Nullhypothese gegen die Teilbereiche der Ablehnung der Nullhypothese abgrenzen. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 18 Zweiseitige Tests Schritt 4: Berechnung der Teststatistik und Entscheidung Aus dem Allbus 1998 liegen folgende Daten über Befragte aus Niedersachsen vor: OWNINCOM Eigenes Einkommen Gültig Fehlend Gesamt .00 nein 1.00 ja Gesamt System Häufigkeit 40 140 180 83 263 Prozent 15.2 53.2 68.4 31.6 100.0 Gültige Prozente 22.2 77.8 100.0 Kumulierte Prozente 22.2 100.0 Angaben zum Einkommen liegen von 180 der 263 Befragten vor. Davon verfügen 140 oder 77.8% über ein eigenes Einkommen. Schritt 4: Berechnung der Teststatistik und Entscheidung Der Wert der Teststatistik Z beträgt in der Stichprobe: z= 140 − 0.75 0.0278 180 = = 0.86 0.0323 0.75 ⋅ (1 − 0.75) 180 Statistik 1 (Vorlesung SoSe 06, 13.6.06) 19 Zweiseitige Tests Da -1.96 < 0.86 < 1.96, ist die Nullhypothese nicht zu verwerfen. Mit einer Irrtumswahrscheinlichkeit von 5% kann nicht ausgeschlossen werden, dass in Niedersachsen 75% der Bürger über ein eigenes Einkommen verfügen. Kennwerteverteilung der Teststatistik Teststärkefunktion im zweiseitigen Test 1.0 π1=.75 1-Prob(β-Fehler) 0.9 π1=.7 π1=.8 0.8 0.7 0.6 0.5 0.4 0.3 0.2 Z -4 -3 -2 -1 0 1 2 3 4 Prob(Z<-1.96| π1=.75)=2.5% Prob(Z>1.96| π1=.75)=2.5% Statistik 1 (Vorlesung SoSe 06, 13.6.06) Prob(α-Fehler)=5% 0.1 0.0 π1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 20 Empirisches Signifikanzniveau In Statistikprogrammen wird neben dem Wert der Teststärkestatistik in der Regel das empirische Signifikanzniveau (bezogen auf einen zweiseitigen Hypothesentest) berichtet. Das empirische Singifikanzniveau gibt die Wahrscheinlichkeit an, dass eine Teststatistik bei zutreffender Nullhypothese den beobachteten Wert annimt oder einen Wert, der noch stärker gegen die Nullhypothes spricht. .40 .35 .30 –0.86 .25 Z=0.86 .20 .15 .10 .05 .00 19.5% -4 -3 -2 -1 19.5% 0 1 2 3 4 Z Im Beispiel des zweiseitigen Tests der Nullhypothese H0: π1 = 0.75 beträgt der Wert der Teststatistik 0.86. Diesem Wert entspricht im zweiseitigen Test ein empirisches Signifikanzniveau von 39.0%. Pr(Z ≥ 0.86) = 1 –Φ(0.86) = 19.5% Pr(Z ≤ –0.86) = Φ(–0.86) = 19.5% Pr(–0.86 ≥ Z ≥ 0.86) = 39% Ist das empirische Signifikanzniveau kleiner als die maximale Irrtumswahrscheinlichkeit α, dann ist die Nullhypothese zu verwerfen; ist das empirische Signifikanzniveau größer oder gleich der maximale Irrtumswahrscheinlichkeit α, dann ist die Nullhypothese beizubehalten. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 21 Statistiche Test über Konfidenzintervalle Als Alternative zum zweiseitigen Hypothesentest über die Teststatistik Z bietet sich die Berechnung eines Konfidenzintervalls an. Wenn der Wert der Nullhypothese innerhalb des Konfidenzintervalls mit der Irrtumswahrscheinlichkeit α bzw. dem Vertrauen 1- α liegt, dann wird die Nullhypothese beibehalten, ansonsten verworfen. Im Beispiel der Prüfung von H0: π1 = 0.75 versus H1: π1 ≠ 0.75 berechnen sich die Grenzen des 95%-Konfidenzintervalls nach: c.i.(p1) = 140/180 ± 1.96 ·(140 ·40 /1803)0.5 = 0.78 ± 0.06 = [0.72 , 0.84] Da der von der Nullhypothese postulierte Wert 0.75 innerhalb des 95%-Konfidenzintervalls liegt, kann die Nullhypothese bei einer Irrtumswahrscheinlichkeit von 5% nicht verworfen werden. Ein Vorteil des Testens über Konfidenzintervalle ist, dass die Länge des Konfdenzintervalls Informationen über die Trennschärfe liefert: Je länger das Konfidenzintervall ist, desto geringer ist die Trennschärfe. Auf der anderen Seite nutzt ein Konfidenzintervall nicht die Informationen der Nullhypothese bei der Berechnung des Standardfehlers aus. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 22 Statistische Test über Konfidenzintervalle Beim Konfidenzintervall wird von der Stichprobenschätzung p1 ausgegangen und um diesen Wert mit Hilfe des geschätzten Standardfehlers und der Irrtumswahrscheinlichkeit ein Intervall berechnet in dem der durch die H0 postulierte Wert π1 liegt oder nicht liegt. c.i.( p1 ) = p1 ± z1−α / 2 ⋅ p1 ⋅ (1 − p1 ) n Beim zweseitigen Hypothesentest wird dagegen vom durch die H0 postulierten Wert π1 ausgegangen und um diesen Wert mit Hilfe des Standardfehlers bei gültiger H0 das Intervall des Annahmebereichs berechnet, in dem die Stichprobenschätzung p1 liegt oder nicht liegt. Z= p1 − π1 π1 ⋅ (1 − π1 ) n ⇒ Annahmebereich = π1 ± z1−α / 2 ⋅ Statistik 1 (Vorlesung SoSe 06, 13.6.06) π1 ⋅ (1 − π1 ) n 23 Hypothesentests über Anteile und Mittelwerte Bei der Darstellung der Logik des statistsichen Hypothsentestens wurden Hypothesen über Anteile formuliert. Generell lassen sich bei solchen Tests über den vermuteten Wert eines Populationsanteils drei verschiedene Paare von Null- und Alternativhypothese formulieren: a) H0: π1 = π versus H1: π1 ≠ π b) H0: π1 ≤ π versus H1: π1 > π c) H0: π1 ≥ π versus H1: π1 < π Das erste Hypothesenpaar führt zu einem zweiseitigen Test, da die Nullhypothese falsch ist, wenn der Populationsantreil kleiner oder aber größer ist als der durch die Nullhypothese postulierten Wert. Die zweite und dritte Hypothesenpaar führen zu einseitigen Tests, da hier die Nullhypothese falsch ist, wenn der Populationswert größer (Fall b) oder kleiner (Fall c) als ein von der Nullhypothese postulierter Wert ist. Die Vorgehensweise ist bei allen drei Tests identisch und beginnt in Schritt 1 mit der Formulierung des Hypothesenpaares der Form a), b) oder c), wobei in konkreten Anwendungen anstelle von π der jeweils konkrete Wert einzusetzen ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 24 Hypothesentests über Populationsanteile Die Auswahl der statistischen Prüfgröße in Schritt 2 basiert bei allen drei Hypothesenformen auf der asymptotischen Annäherung der Kennwerteverteilung eines Stichprobenanteils bei einfachen Zufallsauswahlen an die Normalverteilung. Bei allen drei Nullhypothesen wird die Teststatistik p1 − π p1 − π Z= bzw. Z = π ⋅ (1 − π ) π ⋅ (1 − π ) N − n ⋅ n n N −1 berechnet, wobei p1 der Stichprobenanteil ist, der dem zu testenden Anteil in der Population entspricht, n der Stichprobenumfang und π der in der Nullhypothese a) bis c) formulierte Wert des Populationsanteils. Die rechte Formel wird bei einfachen Zufallsauswahlen ohne Zurücklegen aus kleinen Populationen verwendet, wenn N/n ≤ 20, wobei N der Populationsumfang ist. Weist der interessierende Populationsanteil π1 den Wert π auf: π1 = π, dann ist die Teststatistik Z standardnormalverteilt. Trifft dies nicht zu, ist die Teststatistik Z normalverteilt, aber nicht standardnormalverteilt. Der Erwartungswert µZ ist dann proportional zur Differenz des tatsächlichen Ppulationsanteils vom Wert π: n μ Z = ( π1 − π ) ⋅ π ⋅ (1 − π ) Statistik 1 (Vorlesung SoSe 06, 13.6.06) 25 Hypothesentests über Populationsanteile Ist π1 < π, so ist der Erwartungswert negativ und daher eher mit Z-Werten kleiner null zu rechnen, ist π1 > π, so ist der Erwartungswert positiv und daher eher mit Z-Werten größer null zu rechnen. Dies wird in Schritt 3 bei der Festlegung der Irrtumswahrscheinlichkeit und der kritischen Werte ausgenutzt. In den Sozialwissenschaften wird üblicherweise von einer maximalen Irrtumswahrscheinlichkeit von α = 5% oder α = 1% ausgegangen. Bei kleinen Stichproben kann die Irrtumswahrscheinlichkeit auch 10% betragen, um hinreichende Trennschärfe zu erreichen. Die Irrtumswahrscheinlichkeit α sollte auch eher größer sein, wenn die eigentlich interessierende Forschungshypothese nicht als Alternativhypothese H1 formuliert werden kann, sondern als Nullhypothese H0 formuliert werden muss. Da bei dem zweiseitigen Test a) und falscher Nullhypothese der Erwartungswert der Teststatistik Z ungleich null ist, liegt der Annahmebereich um null und der Ablehnungsbereich an den Enden der Kennwerteverteilung. Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststatistik Z größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 26 Hypothesentests über Populationsanteile Ablehnungsbereich bei H0: π1 = π α/2 α/2 Ablehnungsbereich bei H0: π1 ≤ π α Z 0.0 0.0 Z Ablehnungsbereich bei H0: π1 ≥ π α Z 0.0 Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststatistik Z größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung. Es ergeben sich daher folgende Entscheidungsregeln für Schritt 4: Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn (a) beim Test von H0: π1 = π gilt: Z < zα/2 oder Z > z1−α/2, (b) beim Test von H0: π1 ≤ π gilt: Z > z1−α bzw. (c) beim Test von H0: π1 ≥ π gilt: Z < zα. Da die Test nur asymptotisch gültig sind, muss jeweils die Anwendungsvoraussetzung geprüft werden. Die Annäherung an die Normalverteilung ist hinreichend genau, wenn gilt: n·π1/(1−π1) > 9 und n·(1−π1) / π1 > 9 Statistik 1 (Vorlesung SoSe 06, 13.6.06) 27 Hypothesentests über Populationsmittelwerte Anteile können als Mittelwerte einer dichotomen Variablen mit den beiden Ausprägungen 0 und 1 aufgefasst werden, wobei der Wert 1 mit der interessierenden Eigenschaft korrespondiert. Die Vorgehensweise beim Testen von Mittelwerten entspricht der des Test von Anteilen. Zu beachten ist allerdings, dass bei mehr als zwei Ausprägungen die Standardabweichung in der Population keine Funktion des Mittelwerts ist und daher ein separater Populationsparameter ist. Auch bei Tests von Mittelwerten lassen sich in Schritt 1 drei verschiedene Paare von Null- und Alternativhypothese formulieren: a) H0: µ1 = µ versus H1: µ1 ≠ µ b) H0: µ1 ≤ µ versus H1: µ1 > µ c) H0: µ1 ≥ µ versus H1: µ1 < µ Der Wert µ ist ein in der Nullhypothese postulierter Wert für den Populationsmittelwert. Das erste Hypothesenpaar führt zu einem zweiseitigen Test, da die Nullhypothese falsch ist, wenn der Populationsmittelwert kleiner oder aber größer ist als der durch die Nullhypothese postulierten Wert µ. Die zweite und dritte Hypothesenpaar fühen demgengenüber zu eindeitigen Tests, da hier die Nullhypothese falsch ist, wenn der Populationsmittelwert größer (Fall b) oder kleiner (Fall c) als der von der Nullhypothese postulierter Wert ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 28 Hypothesentests über Populationsmittelwerte Die Auswahl der statistischen Prüfgröße in Schritt 2 basiert bei allen drei Hypothesenformen auf der (asymptotischen) Normalverteilung von Stichprobenmittelwerten bei einfachen Zufallsauswahlen. Allerdings sind hier zwei Situationen zu unterscheiden: 1. Bekannte Populationsvarianz Ist die Populationsvarianz bzw. die Standardabweichung in der Population bekannt, berechnet sich der Standardfehler des Stichprobenmittelwert nach: σ 2X σ X2 N − n σ(X) = bzw. σ ( X ) = ⋅ n n N −1 wobei die rechte Formel bei einfachen Zufallsauswahlen ohne Zurücklegen aus relativ zum Stichprobenumfang kleinen Populationen verwendet wird, wenn N/n ≤ 20. 2. Unbekannte Populationsvarianz Ist die Populationsvarianz bzw. die Standardabweichung in der Population unbekannt, wird der Standardfehler des Stichprobenmittelwert aus den Sichprobendaten gecshätzt nach: n σˆ 2X σ(X) = = n ∑ ( xi − x ) i =1 n ⋅ ( n − 1) n 2 σ X2 N − n = bzw. σ ( X ) = ⋅ = n N −1 Statistik 1 (Vorlesung SoSe 06, 13.6.06) ∑ ( xi − x ) i =1 n ⋅ ( n − 1) 2 ⋅ N−n N −1 29 Hypothesentests über Populationsmittelwerte Die rechte Formel wird wiederum bei einfachen Zufallsauswahlen ohne Zurücklegen aus relativ zum Stichprobenumfang kleinen Populationen verwendet, wenn N/n ≤ 20. Die statistischen Prüfgröße ist stets der Qotient aus der Differenz des Stichprobenmittelwerts vom in der Nullhypothese postulierten Wert µ geteilt durch den (geschätzten) Standardfehler: X −μ X −μ bzw. σ(X) σˆ ( X ) Zu unterscheiden ist, ob die interessierende Größe in der Population normalverteilt ist oder ob dies nicht der Fall ist. Wenn die Variable X in der Population normalverteilt ist und die Populationsvarianz bekannt ist, dann ist die Teststatistik N−n − μ ⋅ ⋅ X n ( ) X − μ X − μ (X − μ) ⋅ n X −μ X−μ N −1 = = = = Z= bzw. Z = σX σX σ(X) σ(X) σ 2X σ X2 N − n ⋅ n n N −1 bei beliebigen Fallzahlen n in der Stichprobe standardnormalverteilt, wenn der Populationsmittelwert µX tatsächlich gleich µ ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 30 Hypothesentests über Populationsmittelwerte Wenn die Variable X in der Population normalverteilt ist, aber die Populationsvarianz unbekannt ist, dann ist die Teststatistik N−n − μ ⋅ ⋅ X n ( ) X − μ X − μ (X − μ) ⋅ n X −μ X −μ N −1 = = = = T= bzw. T = σˆ X σˆ X σˆ ( X ) σ(X) σˆ 2X σˆ X2 N − n ⋅ n n N −1 bei beliebigen Fallzahlen n in der Stichprobe t-verteilt mit df = n–1Freiheitsgraden, wenn der Populationsmittelwert µX tatsächlich gleich µ ist. Wenn die Variable X in der Population nicht normalverteilt ist und die Populationsvarianz unbekannt ist, dann ist die Teststatistik N−n − μ ⋅ ⋅ X n ( ) X − μ X − μ (X − μ) ⋅ n X −μ X−μ N −1 = = = = Z= bzw. Z = σˆ X σˆ X σˆ ( X ) σ(X) σˆ 2X σˆ X2 N − n ⋅ n n N −1 asymptotisch standardnormalverteilt, wenn der Populationsmittelwert µX tatsächlich gleich µ ist. Die Annäherung ist i.a. hinreichend genau, wenn n > 30. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 31 Hypothesentests über Populationsmittelwerte Ist die Variable X in der Population nicht normalverteilt, aber die Populationsvarianz bekannt, wird der korrekte Standardfehler verwendet: X − μ X − μ (X − μ) ⋅ n X −μ = = = Z= bzw. Z = 2 σ σ(X) σ X ( ) σX X n X−μ σ N−n ⋅ n N −1 2 X = (X − μ) ⋅ n ⋅ N−n N −1 σX Die Teststatistk ist asymptotisch standardnormalverteilt, wenn der Populationsmittelwert µX tatsächlich gleich µ ist. Die Annäherung ist i.a. hinreichend genau, wenn n > 30. Ist der Populationsmittelwert ungleich µ, dann ist auch der Erwartungswert der Teststatistik ungleich null. Beim T-Test ist die Kennwerteverteilung dann nichtzentral t-verteilt, beim Z-Test ist sie (asymptotisch) normalverteilt mit Erwartungswert ungleich 0. Da bei dem zweiseitigen Test a) und falscher Nullhypothese der Erwartungswert der Teststatistik Z bzw. T ungleich null ist, wird in Schritt 3 der Annahmebereich um null und der Ablehnungsbereich an die Enden der Kennwerteverteilung gelegt. Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststatistik Z bzw. T größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 32 Hypothesentests über Populationsmittelwerte Ablehnungsbereich bei H0: µ1 = µ α/2 α/2 0.0 Ablehnungsbereich bei H0: µ1 ≤ µ Z bzw. T α 0.0 Z bzw. T Ablehnungsbereich bei H0: µ1 ≥ µ α 0.0 Z bzw. T Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststa-tistik Z bzw. größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung. Es ergeben sich daher folgende Entscheidungsregeln für Schritt 4: Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn (a) beim Test von H0: µ1 = µ gilt: Z < zα/2 oder Z > z1−α/2 , bzw. T < tα/2;df=n-1 o. T > t1−α/2;df=n-1 (b) beim Test von H0: µ1 ≤ µ gilt: Z > z1−α bzw. T > t1−α;df=n-1 (c) beim Test von H0: µ1 ≥ µ gilt: Z < zα bzw. T < t1−α;df=n-1 Im Sinne eines vorsichtigen Testens wird die T-Verteilung in der Regel auch dann verwendet, wenn die Variable X nicht normalverteilt ist und die Popualtionsvarianz unbekannt ist. Statistik 1 (Vorlesung SoSe 06, 13.6.06) 33