4 Testen von Hypothesen Oft müssen zweiwertige Entscheidungen ( Ja“ oder Nein“) gefällt werden. Denken wir an ” ” die elektronisch gesicherten Waren, wo am Ausgang eines Geschäftes durch eine Maschine geprüft wird, ob eine nicht bezahlte Ware mitgenommen wird oder nicht. D. h., es wird automatisch die Hypothese Ware vollständig bezahlt“ gegen die Alternative unbezahlte ” ” Ware vorhanden“ getestet. Da die vorliegende Information, die die Testvorrichtung erhält, zu gering ist, kann es zu Fehlentscheidungen kommen. Es können zwei Arten von Fehlern auftreten: bezahlte Ware als nicht bezahlt gemeldet (Fehlalarm)“ – wir nennen dies einen ” Fehler der 1. Art – oder nicht bezahlte Ware nicht gemeldet“, ein Fehler der 2. Art. ” Solche Fehler können unter anderem Auftreten, wenn an der Kasse der elektronische Streifen nicht oder nicht vollständig entwertet“ wird, oder wenn etwa ein elektronisches ” Gerät (etwa ein Mobiltelefon) einen Alarm auslöst. Unsere Testvorrichtung nimmt nun einen konstanten Fehler der 1. Art in Kauf, während der Fehler 2. Art minimiert werden soll. Wie können wir nun testen, welche unserer beiden Hypothesen, die Nullhypothese H0 oder die Alternative HA , mit einer gewissen Wahrscheinlichkeit stimmt. Dazu berechnen wir eine Prüfgröße T , eine sogenannte Teststatistik, und einen kritischen Wert cα , der von dem vorgegebenen Fehler 1. Art abhängt, und testen, ob Pϑ (T > cα ) ≤ α ∀ϑ ∈ H0 . D. h. also, der Fehler 1. Art wird mit α fixiert – ein gewisser Prozentsatz von Fehlalarmen wird toleriert, ist etwa nicht geschäftsschädigend. Wird cα unterschritten, so liegt die Nullhypothese H0 vor, sonst die Alternative HA . Vorgangsweise: (1) Formulierung einer Nullhypothese H0 (null hypothesis) und einer Alternative HA (alternative hypothesis). (2) Wahl einer Irrtumswahrscheinlichkeit α bzw. eines Signifikanzniveaus 1 − α (level of significance). Von manchen Autoren wird auch α selbst als Signifikanzniveau bezeichnet. Üblich: α = 0.05 Ökonomie, Soziologie α = 0.01 Biologie, Psychologie, Naturwissenschaften α = 0.001 Medizin (3) Auswahl eines Tests, d. h., einer Teststatistik T , und Berechnung eines kritischen Werts cα und damit eines Ablehnbereichs (Menge A). D. h., finde einen Wertebereich für die Daten, welcher unter der Nullhypothese sehr unwahrscheinlich ist (P (A) ≤ α) und unter der die Alternative viel wahrscheinlicher ist. (4) Sammle Daten. Als Generalvoraussetzung wird angenommen, dass es sich um eine Zufallsstichprobe handelt. Durch Randomisieren kann die Selektion verbessert werden. Stelle fest, ob die gesammelten Daten in diesen Wertebereich (kritischer 1 H H 0 A 1−β β α cα Abb. 1: Fehlerwahrscheinlichkeiten (=Flächen) beim Testen. Bereich, Ablehnbereich) fallen oder nicht. Entweder wird dazu die Teststatistik mit dem kritischen Wert cα verglichen, oder es wird der P-Wert (p-Value, level attained, descriptive level ) berechnet und die Nullhypothese abgelehnt, falls dieser kleiner oder gleich dem vorher gewählten Niveau α ist! ja nein ⇒ lehne H0 ab, d. h., H0 verwerfen ⇒ lehne H0 nicht ab, d. h., H0 nicht verwerfen, d. h., die Daten stehen nicht im Widerspruch zu H0 . Modell Parameter liegen in einer bestimmten Menge (Nullhypothese – Alternative) Testgröße (test statistic) Aus den Daten gewonnene Größe, die typischerweise in der Nullhypothese klein, in der Alternative groß ist. Kritischer Wert (critical value) jener Wert, den die Testgröße überschreiten muss, damit es zur Ablehnung der Nullhypothese kommt. Fehler 1. Art (α) (error of first kind ) Nullhypothese wird abgelehnt, obwohl sie richtig ist (Ablehnung falsch, α-Fehler). Fehler 2. Art (β) (error of second kind ) Nullhypothese wird nicht abgelehnt, obwohl sie falsch ist (Annahme falsch, β-Fehler). Gütefunktion (power function) Ablehnwahrscheinlichkeit der Nullhypothese in Abhängigkeit vom Parameter der Alternative (1 − β). P -Wert (p-value) kleinste Irrtumswahrscheinlichkeit α, die zur Ablehnung von H0 führt. Oder: Wahrscheinlichkeit, dass – falls die Nullhypothese zutrifft – ein Wert größer oder gleich dem beobachteten vorkommt. Wir unterscheiden einseitige Alternativen (one-sided alternative), diese enthalten Verteilungen mit Parametern aus einem Halbstrahl von R (d. h., der Parameter ist größer oder 2 0.03 0.02 H H0 A 0.01 β 0 −50 0 cα 50 100 0.03 0.02 H0 HA 0.01 β 0 −50 0 cα 50 100 0.03 0.02 H H0 A 0.01 0 −50 β 0 c α 50 100 Abb. 2: β-Fehler (Fläche) in Abhängigkeit der Dichte von HA . kleiner als eine Zahl), und zweiseitige Alternativen (two-sided alternative), diese enthalten Verteilungen mit Parametern aus zwei Halbstrahlen (d. h., der Parameter nimmt einen gewissen Wert an oder nicht). Der Test wird so gewählt, dass die Wahrscheinlichkeit des Fehlers 1. Art (die Irrtumswahrscheinlichkeit) gleich einem vorher bestimmten α ist. Ein Test ist umso besser, je kleiner der Fehler 2. Art, der β-Fehler, bei gegebenen α ist. Je kleiner der β-Fehler ist, desto schärfer trennt der Test H0 und HA (more powerful ), desto größer ist die Macht oder Güte des Tests (power function). Die Güte nimmt auch zu, wenn eine größere Stichprobe genommen wird. Definition 4.1 Die Güte oder Macht eines Tests für den Parameter ϑ einer Verteilung ist definiert als g(ϑ) = P (H0 ablehnen|HA trifft zu) = Pϑ (T > cα ) = 1 − β wobei T die gewählte Teststatistik (Prüfgröße), α die gewählte Irrtumswahrscheinlichkeit und cα der kritische Wert ist (vgl. Abb. 1). 1 − g(ϑ) = β heißt β-Fehler, Operationscharakteristik , OC-Kurve oder Prüfplankurve (siehe Abb. 2). Beim Übergang vom einseitigen zum zweiseitigem Test nimmt die Macht eines Tests ab, da der kritische Wert der Teststatistik größer wird (es bleibt nur mehr α/2 statt α am Rand), somit wird β größer und damit 1 − β, die Macht des Tests, kleiner. 3 Test des Anteilswertes p einer B(n, p)-Verteilung Beispiel 4.1 (Münzwurf) Jemand behauptet, er könne am Klang beim Wurf einer Münze unterscheiden, ob zuerst die Münze auf Bild oder auf Zahl zu liegen kam. Bei 80 Versuchen hat er 52 Mal recht. Frage: Ist dieses Ereignis signifikant, d. h., nicht zufällig? Die Anzahl der Erfolge und Misserfolge ist, da es sich um ein wiederholtes BernoulliExperiment handelt, Binomial-B(n, p)-verteilt. Diese ist unsere Modellverteilung. Dazu stellen wir folgende Hypothesen auf: Als Nullhypothese wählen wir H0 : p ≤ 21 . Als Alternative ergibt sich dann HA : p > 12 . Dies formuliert einen einseitigen Test. Wir könnten ebenso einen zweiseitigen Test formulieren, nämlich H0 : p = 21 und HA : p 6= 12 . Der einseitige Test ist aber schärfer“. ” 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 51 0.01 0 15 20 25 30 35 40 45 50 55 60 Abb. 3: Dichte der B(80, 0.5)-Verteilung, kritischer Wert 51 Beispiel 4.2 (Münzwurf) H0 : Daten ∼ B 80, 12 Wähle das Signifikanzniveau α = 0.01. Wähle den Ablehnbereich A so, dass PH0 (Daten ∈ A) = α. Hier: A = [k, 80] 4 65 Daten sind X ∼ B 80, 12 , d. h., E(X) = np = 80 · 0.5 = 40 und Var(X) = np(1 − p) = 20. P (X ≥ k) = α Wir standardisieren und approximieren dann durch N (0, 1). P X − 40 k − 40 √ ≤ √ 20 20 =1−α α = 0.01, aus Tabelle: Φ(2.33) = 0.99 oder Φ−1 (0.99) = u0.99 = 2.33. − 40 = 2.33 ⇒ k = 2.33 · 4.47 + 40 = 50.41, Daraus berechnen wir k√ 20 also erhalten wir einen Ablehnbereich für H0 von A = [51, 80]. Daher, 52 ∈ A, muss H0 abgelehnt (verworfen) werden, d. h., die Daten sprechen eher dafür, dass unser Kandidat am Klang unterscheiden kann, ob die Münze auf Bild oder Zahl zu liegen kam. Anteilswert p von B(n, p) Voraussetzung: X1 , . . . , Xn ∼ B(n, p) Testgröße: p (1 − p ) m Beobachtungen, σP2 = 0 n 0 m − p0 m − np0 =p ∼ N (0, 1) T + n σP np (1 − p ) 0 0 Einseitig (i) H0 : p ≤ p 0 H A : p > p0 H0 ablehnen, falls T > Φ−1 (1 − α) Einseitig (ii) H0 : p ≥ p 0 H A : p < p0 H0 ablehnen, falls T < Φ−1 (α) = −Φ−1 (1 − α) Zweiseitig H0 : p = p 0 HA : p 6= p0 H0 ablehnen, falls |T | > Φ−1 (1 − α2 ) n(p̂ − p0 )2 oder falls T 2 = > χ21;1−α p0 (1 − p0 ) Theorem 4.1 Ist X N (0, 1)-verteilt, so ist X 2 χ2 (1)-verteilt. 5 Einstichprobentest des Mittelwertes (σ 2 bekannt) Voraussetzung: X1 , . . . , Xn ∼ N (µ, σ 2 ) i.i.d. √ X −µ Testgröße: T + n σ 0 ∼ N (0, 1) Einseitig (i) H 0 : µ ≤ µ0 HA : µ > µ0 H0 ablehnen, falls T > Φ−1 (1 − α) Einseitig (ii) H 0 : µ ≥ µ0 HA : µ < µ0 H0 ablehnen, falls T < Φ−1 (α) Zweiseitig H 0 : µ = µ0 HA : µ 6= µ0 H0 ablehnen, falls |T | > Φ−1 (1 − α2 ) Bemerkung 4.1 Wir berechnen den kritischen Wert im Falle des zweiseitigen Tests. Es soll gelten, dass P (|Z| ≤ cα ) ≤ 1 − α ist. P (|Z| ≤ cα ) = P (−cα ≤ Z ≤ cα ) = Φ(cα ) − Φ(−cα ) = Φ(cα ) − (1 − Φ(cα )) = 2Φ(cα ) − 1 = 1 − α α . −1 1 − ⇒ c = Φ Also Φ(cα ) = 1 − α α 2 2 Beispiel 4.3 Füllgewichte von Verpackungen in Gramm (Xi ): 80.5, 78.2, 76.2, 79.4, 80.0 Aus Beobachtungen wissen wir, dass die Füllgewichte X ∼ N (µ, 0.8) Wir testen H0 : µ ≥ 80 gegen HA : µ < 80 √ √ X −µ √ − 80 = −2.85. T = n σ 0 = 5 78.86 0.8 Für α = 0.01 haben wir cα = Φ−1 (0.01) = −2.32. Da T < −2.32 müssen wir H0 ablehnen, d. h., die Füllgewichte der Stichprobe liegen unter der Norm. Dieselbe Aussage erhalten wir durch den P -Wert Φ(−2.85) = 0.002186, der kleiner als unser gewähltes α = 0.01 ist. Beispiel 4.4 (Güte) Wir berechnen nun die Güte dieses Tests, d. h., was passiert, wenn unsere Annahme über den Mittelwert der Verteilung nicht stimmt (vgl. Abb. 2) ? Güte g(µ) = Pµ (T > Φ−1 (1 − α)) = 1 − β-Fehler Dazu berechnen wir den β-Fehler (einseitig H0 : ϑ < ϑ0 ) unter der Annahme, dass die Daten ursprünglich den Mittelwert µ0 hatten Z cα β(µ) = fµ (u) du = Fµ (cα ) −∞ 6 also etwa im Falle der Normalverteilung β(µ) = Φ( C −µ µ0 − µ ) = Φ( + cα ) σX σX wobei C = µ0 + σX cα ist, d. h., der kritische Wert umgerechnet auf die ursprüngliche Verteilung der Daten, cα der kritische Wert der N (0, 1)-Verteilung. Der β-Fehler beim zweiseitigen Testen ist Z co fµ (u) du = Fµ (co ) − Fµ (cu ) β(µ) = −cu wobei cu bzw. co die kritische Unter- bzw. Obergrenze der Testgröße der Originaldaten ist. Die Güte ist dann g(µ) = 1 − β(µ). Beispiel 4.5 Ein Drahtseil soll eine Mindestbelastung von 1200 kp aufweisen. Aus Erfahrung kennen wir die Standardabweichung σ = 120 kp. Wie groß muss der Mittelwert einer Stichprobe von n = 36 mindestens sein, damit wir eine Belastbarkeit von 1200 kp mit 95 %-iger Sicherheit attestieren können. H0 : µ ≤ 1200 2 = X ∼ N (1200, 20), da σX σ2 . n HA : µ > 1200 Wir erhalten als untersten Wert, den X annehmen darf, 1200 − 1.65 · 20 = 1167. Wir berechnen nun die Güte g(µ) dieses Tests für variables µ: g(1200) = P (X < 1167|µ = 1200) = 0.05 1167 − 1180 X − 1180 < ) = 0.2578 20 20 d. h., wäre die tatsächliche Reißfestigkeit des Seils unter 1200 kp, ergäbe sich ein sicherer Test. Das ist ein weiterer Grund, warum wir H0 und HA so gewählt haben. g(1180) = P (X < 1167|µ = 1180) = P ( Die Abbildung 4 zeigt die Güte g(µ) dieses rechtsseitigen Tests (durchgezogene Linie) und den β-Fehler oder auch OC-Kurve β(µ) = 1 − g(µ) dieses Tests. Hätten wir einen linksseitigen Test durchgeführt, so wären die Rollen dieser beiden Kurven vertauscht, d. h., der Test umso schlechter, je geringer die tatsächliche Reißfestigkeit des Drahtseils ist, ein wohl nicht gewünschter Effekt. Differenz der Mittel (Verbundene Stichproben) Bei verbundenen Stichproben gehen wir von zwei abhängigen (gepaarten, verbundenen) Stichproben aus. Die Werte werden an identischen Entitäten gemessen, wie etwa bei Vor-Nach-Vergleichen. Etwa Blutdruck vor und nach einer Behandlung. Die Differenzen di = Yi −Xi werden dann wie im Einstichprobentest für Mittelwerte behandelt. In diesem Abschnitt gehen wir davon aus, dass die Varianzen bekannt sind. 7 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1100 1150 1200 1250 Abb. 4: Güte (durchgezogen) und OC-Kurve. Beispiel 4.6 Gewicht von Schweinen vor und nach der Mast vorher (Xi ) 150 168.2 172.3 161.8 171.5 nachher (Yi ) 155.2 165.5 180.6 169.2 171.8 Differenz (Di ) 5.2 -2.7 8.3 7.4 0.3 Di ∼ N (µ, 4) Wir testen einseitig auf Mittelwert 0, also H0 : µ ≤ 0 und HA : µ > 0. Wir behaupten also, dass die Mast keine Wirkung gezeigt hat, dass kein statistisch signifikanter Effekt vorliegt. √ √ √ Y −X ⇒ T = 5 3.7 T = n· D σ = n σ 2 = 4.136 Bei α = 0.05 haben wir einen kritischen Wert von Φ−1 (0.95) = 1.64. Da T > 1.64 lehnen wir H0 ab, die Gewichte der Schweine haben also signifikant zugenommen. 8 Differenz der Mittel (Zweistichprobentest) 2 Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX ) i.i.d. 2 Y1 , . . . , Ym ∼ N (µY , σY ) i.i.d. Xi , Yi unabhängig σ2 σ2 2 σX und σY bekannt, σD = nX + mY Testgröße: Einseitig (i) (X −r Y ) − (µX − µY ) ∼ N (0, 1) 2 σY2 σX + n m H0 : (µX − µY ) ≤ 0 HA : (µX − µY ) > 0 H0 ablehnen, falls T > Φ−1 (1 − α) T + Einseitig (ii) H0 : (µX − µY ) ≥ 0 HA : (µX − µY ) < 0 H0 ablehnen, falls T < Φ−1 (α) Zweiseitig H0 : (µX − µY ) = 0 HA : (µX − µY ) 6= 0 H0 ablehnen, falls |T | > Φ−1 (1 − α2 ) Beispiel 4.7 (Düngemittel) Unterscheiden sich die Hektarerträge bei verschiedenen Düngemitteln? 2 Unabhängige Stichproben: X1 , . . . , Xn ∼ N (µX , σX ), Y1 , . . . , Ym ∼ N (µY , σY2 ) Dünger 1 (X-Stichprobe) 132.8 141.4 152.3 128.8 Dünger 2 (Y-Stichprobe) 122. 4 131.2 125.2 121.2 118.3 σY2 = 4 Y = 123.6 2 σX =6 X = 138.8 Wir behaupten, dass die verschiedenen Düngemittel keinen signifikanten Einfluss auf die Hektarerträge hat und testen zweiseitig. H0 : µX = µY und HA : µX 6= µY q · 5 (138.8 − 123.6) = 10.023 T = 5.64+ 4.4 Bei α = 0.01 haben wir T > Φ−1 (0.995) = 2.57, wir müssen also H0 ablehnen, d. h., die Hektarerträge unterscheiden sich signifikant. 9 t-Test (Mittelwert bei unbekannter Varianz) Voraussetzung: X1 , . . . Xn ∼ N (µ, σ 2 ) σ 2 unbekannt √ X −µ Testgröße: T + n s ∼ t(n − 1) Einseitig (i) H 0 : µ ≤ µ0 HA : µ > µ0 H0 ablehnen, falls T > tn−1,1−α Einseitig (ii) H 0 : µ ≥ µ0 HA : µ < µ0 H0 ablehnen, falls T < tn−1,α = 1 − tn−1,1−α H 0 : µ = µ0 µ 6= µ0 H0 ablehnen, falls |T | > tn−1,1− α2 n(X − µ)2 oder falls T 2 = > F1,n−1;1−α s2 Dieser Test ist der am häufigsten verwendete Mittelwertstest, da meistens die Varianzen unbekannt sind und aus der Stichprobe geschätzt werden müssen. Zweiseitig Theorem 4.2 Falls Y t(n)-verteilt ist, ist Y 2 F (1, n)-verteilt. ♦ Ist n > 30 können wir die entsprechenden Werte der Standardnormalverteilung als kritische Werte verwenden. Vor-Nach-Vergleiche (verbundene Stichproben) Wie schon bei Vor-Nach-Vergleichen bei bekannter Varianz liegen auch hier verbundene Stichproben vor, jedoch nun mit unbekannter Varianz, sodass wir die Stichprobenvarianz der Differenzen als Schätzer verwenden müssen, und dann einen Einstichproben t-Test für die Differenzen Di = Yi − Xi durchführen. Beispiel 4.8 Wir wollen die Wirkung einer Diätkur testen. Gewicht vor Diätkur (X) 73 85 68 90 77 Gewicht nach Diätkur (Y ) 72 81 70 82 73 Differenzen Di -1 -4 2 -8 -4 Die Differenzen werden einseitig auf Mittelwert 0 getestet, d. h., wir wollen zeigen, dass die Kur keine signifikante Wirkung gehabt hat. Wir haben also H 0 : µD ≤ 0 und H A : µD > 0 10 > > > > x <- c(73,85,68,90,77) y <- c(72,81,70,82,73) d <- x-y t.test(x,y,alternative=c("two.sided"),mu=0,paired=TRUE, var.equal=TRUE,conf.level=0.99) Paired t-test data: x and y t = 1.7928, df = 4, p-value = 0.1475 alternative hypothesis: true difference in means is not equal to 0 99 percent confidence interval: -4.704127 10.704127 sample estimates: mean of the differences: 3 > t.test(d,y=NULL,alternative=c("two.sided"),mu=0,paired=FALSE, var.equal=FALSE,conf.level=0.99) One Sample t-test data: d t = 1.7928, df = 4, p-value = 0.1475 alternative hypothesis: true mean is not equal to 0 99 percent confidence interval: -4.704127 10.704127 sample estimates: mean of x: 3 Abb. 5: R Dialog für Beispiel 4.8, zweiseitig r D = Y − X = −3, s = q n 1 P (X − X)2 = 1 (4 + 1 + 25 + 25 + 1) = 3.7416 n − 1 i=n i 4 √ (−3) 5 3.74 = −1.79 Da T > t4;0.99 = −3.747 kann H0 nicht abgelehnt werden, d. h., es ist keine signifikante Wirkung der Diätkur nachweisbar. T = 11 > > > > x <- c(73,85,68,90,77) y <- c(72,81,70,82,73) d <- x-y t.test(d,NULL,alternative=c("less"),mu=0,paired=FALSE, var.equal=FALSE,conf.level=0.99) One Sample t-test data: d t = 1.7928, df = 4, p-value = 0.9263 alternative hypothesis: true mean is less than 0 99 percent confidence interval: NA 9.269854 sample estimates: mean of x: 3 > t.test(d,NULL,alternative=c("greater"),mu=0,paired=FALSE, var.equal=FALSE,conf.level=0.99) One Sample t-test data: d t = 1.7928, df = 4, p-value = 0.07373 alternative hypothesis: true mean is greater than 0 99 percent confidence interval: -3.269854 NA sample estimates: mean of x: 3 Abb. 6: R Dialog für Beispiel 4.8, einseitig Zweistichproben-t-Test (gleiche Varianzen) 2 ) i.i.d. Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX Y1 , . . . , Ym ∼ N (µY , σY2 ) i.i.d. Xi , Yi unabhängig 2 σX = σY2 unbekannt, aber gleich für beide Stichproben 2 2 1 + 1 ) (n − 1)sX + (m − 1)sY s2D = ( n m m+n−2 (X − Y ) − (µX − µY ) Testgröße: T + ∼ t(n + m − 2) sD Einseitig (i) H0 : (µX − µY ) ≤ 0 HA : (µX − µY ) > 0 H0 ablehnen, falls T > tn+m−2,1−α Einseitig (ii) H0 : (µX − µY ) ≥ 0 HA : (µX − µY ) < 0 H0 ablehnen, falls T < tn+m−2,α Zweiseitig H0 : (µX − µY ) = 0 HA : (µX − µY ) 6= 0 H0 ablehnen, falls |T | > tn+m−2,1− α2 oder falls T 2 > F1,n+m−2;1−α Beispiel 4.9 (Schlafverlängerung bei 2 Medikamenten) Medikament 1 (Xi ) Medikament 2 (Yj ) 1.4 0.8 2.1 0.4 0.2 0.0 1.4 1.2 Verschiedene Patienten, d. h., unabhängige Stichproben! 12 0.3 Abb. 7: Schlafverlängerung von Medikamenten (MS Excel). n = 5, m = 4, X = 1.0, Y = 0.7. P (n − 1)s2X = (Xi − X)2 = 2.26 (m − 1)s2Y = P (Yi − Y )2 = 1.48. 1.0 − 0.7 = 0.61 1 1 1 ( + ) (2.26 + 1.48) 5 4 7 T =r Wir testen zweiseitig mit α = 0.01: H0 : µX = µY und HA : µX 6= µY . Da T < t7,0.995 = 3.5, kann H0 nicht abgelehnt werden, d. h., beide Medikamente haben dieselbe Wirkung. Zweistichproben-t-Test (verschiedene Varianzen) 2 ) i.i.d. Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX 2 Y1 , . . . , Ym ∼ N (µY , σY ) i.i.d. Xi , Yi unabhängig 2 σX 6= σY2 unbekannt σ2 σ2 s4D s2D = nX + mY , nD = 2 s s2 ( X )2 ( Y )2 n + m n−1 m−1 (X − Y ) − (µX − µY ) Testgröße: T + ∼ t(nD ) sD Einseitig (i) H0 : (µX − µY ) ≤ 0 HA : (µX − µY ) > 0 H0 ablehnen, falls T > tnD ,1−α Einseitig (ii) H0 : (µX − µY ) ≥ 0 HA : (µX − µY ) < 0 H0 ablehnen, falls T < tnD ,α Zweiseitig H0 : (µX − µY ) = 0 HA : (µX − µY ) 6= 0 H0 ablehnen, falls |T | > tnD ,1− α2 Bemerkung 4.2 (Behrens-Fisher Problem) 2 Falls σX 6= σY2 und unbekannt, so gibt es keine sinnvolle Teststatistik, die unabhängig 13 von σX und σY ist. Einstichprobentest der Varianz Voraussetzung: X1 , . . . , Xn ∼ N (µ, σ 2 ) i.i.d. n (n − 1)s2 1 P (X − X)2 ∼ χ2 (n − 1) Testgröße: T + = i σ02 σ02 i=1 Einseitig (i) H0 : σ 2 ≤ σ02 HA : σ 2 > σ02 H0 ablehnen, falls T > χ2n−1,1−α Einseitig (ii) H0 : σ 2 ≥ σ02 HA : σ 2 < σ02 H0 ablehnen, falls T < χ2n−1,α Bemerkung 4.3 Obige Teststatistik T ist nur dann χ2 (n − 1)-verteilt, wenn µ bekannt ist, sonst ist sie χ2 (n)-verteilt und die Formeln gelten entsprechend mit n statt n − 1. Beispiel 4.10 Toleranzen bei Lagerwellen: Sollwert σ02 = 0.01 bei µ = 3.3; α = 0.05. Daten: 3.5, 3.2, 3.1, 3.5, 3.2, X = 3.3 H0 : σ 2 ≤ σ02 und HA : σ 2 > σ02 P 2 i (Xi − X) = 0.04 + 0.01 + 0.04 + 0.04 + 0.01 = 0.14 P Da T = 12 (Xi − X)2 = 14 > χ24;0.95 = 9.49 muss H0 auf dem 5%-Niveau abgelehnt σ0 werden, d. h., die Varianz – und damit die Toleranz – ist signifikant größer als 0.01. F -Test zum Vergleich zweier Varianzen 2 Voraussetzung: X1 , . . . , Xn ∼ N (µx , σX ) i.i.d. 2 Y1 , . . . , Ym ∼ N (µy , σY ) i.i.d. s2 Testgröße: T = X ∼ F (n − 1, m − 1) s2Y 2 2 Einseitig (i) H0 : σX ≤ σY2 HA : σX > σY2 H0 ablehnen, falls T > Fn−1,m−1;1−α Einseitig (ii) Zweiseitig H0 H0 H0 H0 2 2 : σX ≥ σY2 HA : σX < σY2 ablehnen, falls T < Fn−1,m−1;α 2 2 : σX = σY2 HA : σX 6= σY2 ablehnen, falls T < Fn−1,m−1; α2 oder T > Fn−1,m−1;1− α2 Theorem 4.3 Es gilt Fn,m;α = F 1 (Vertauschung der Freiheitsgrade!). m,n;1−α 14 Bemerkung 4.4 P Wir wissen, dass σ12 i (Xi − X)2 ∼ χ2 (n − 1). Daraus und aus dem nächsten Satz folgt die Verteilung obiger Testgröße. 1 Theorem 4.4 X X ∼ χ2 (n) und Y ∼ χ2 (m) so ist n1 ∼ F (n, m). Y m Beispiel 4.11 Vergleich zweier Toleranzen: 1. Stichprobe (Xi ) 2. Stichprobe (Yi ) X = 3.4 Y = 3.3 3.0 3.4 3.6 3.5 3.2 3.1 3.6 3.5 3.2 n=4 m=5 2 2 6= σY2 . = σY2 und HA : σX H0 : σX 1 P(X − X)2 = 1 (0.16. + 0 + 0.04 + 0.04) = 0.08 s2X = n − i 1 3 P s2Y = m 1− 1 (Yi − Y )2 = 14 (0.04 + 0.01 + 0.04 + 0.04 + 0.01) = 0.035 0.08 = 2.286 < F Da F = 0.035 3,4;0.99 = 16.7 kann H0 bei α = 0.01 nicht abgelehnt werden, d. h., die beiden Varianzen (Toleranzen) sind nicht signifikant verschieden. 15 Aufgaben zum Testen Projekt zum Testen: Generiere 1000 Standard-normalverteilte Samples (N (0, 1)) und transformiere diese so, dass bei Angabe zweier beliebiger Parameter µ und σ 2 aus diesen N (µ, σ 2 )-verteilte Samples werden. Generiere damit N (17, 25)-verteilte Samples und wähle (extrahiere) aus diesen zufällig n Daten (n zufällige Indizes aus den Indizes 1–1000). Berechne sodann den Mittelwert und die Sample-Varianz dieser n Daten. Teste die Nullhypothese H0 : µ = 15 einmal einseitig, einmal zweiseitig mit diesen n Daten. Berechne zu diesen Tests die Gütefunktion. Weiters teste die Varianz unter der Annahme σ = 20. Setze n = 10, 25, 70, 120 und vergleiche die Ergebnisse. 4.1 Von einer Zufallsvariablen X sei bekannt: X ∼ N (µ, 5) Eine Stichprobe lieferte folgende Werte: −1 0 3 4 2 1 −3 1 −5 0 6 −3 −1 −4 −3 −2 4 −5 −3 −1 Es ist die Hypothese H0 : µ = 0 gegen die Alternative HA : µ 6= 0 mit a) α = 0.05 b) α = 0.01 zu testen. c) Teste die Hypothese H0 mit α = 0.05 (0.01) ohne die Information über die Varianz der Grundgesamtheit ! / 4.2 Für eine Zufallsvariable X sei bekannt: X ∼ N (µ, 4) Eine Stichprobe vom Umfang 25 ergab: X = 14.70. Es ist die Hypothese H0 : µ = 14 gegen die Alternative a) HA : µ > 14 b) HA : µ < 14 c) HA : µ 6= 14 zu testen (α = 0.05 bzw. 0.01) ! / 16 4.3 In einer Grundgesamtheit ist ein Merkmal normalverteilt mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 2500. Es soll die Hypothese H0 : µ = 100 gegenüber HA : µ 6= 100 getestet werden. Es liegt eine Stichprobe vom Umfang n = 100 vor. a) Bestimme für α = 0, 05 den Annahmebereich für H0 ! b) Bestimme β (Fehler 2. Art) bei Gültigkeit von: µ=105, 110, 115 ! c) Fertige eine Skizze der Operationscharakteristik und der Macht des Tests an ! / 4.4 Die Tabelle enthält Beobachtungen aus einem englischen Zinnwalzwerk. Teste unter Annahme, die unabhängigen Stichproben stammen aus normalverteilten Grundgesamtheiten mit gleicher Varianz, ob die Arbeitsleistung von der Jahreszeit abhängt (α = 0.05) ! Jahreszeit Sommer Winter Relative Arbeitsleistung 92.2 84.8 97.2 102.8 107.7 85.7 102.5 102.6 / 4.5 Verbrauchen Forellen in schnell fließendem Wasser mehr Sauerstoff als in langsam fließendem (α = 0.05) ? Fluss schnell langsam 108 122 85 152 Sauerstoffverbrauch 144 126 107 115 114 97 96 126 83 69 95 87 71 94 83 94 Die unabhängigen Stichproben stammen aus normalverteilten Grundgesamtheiten mit gleicher Varianz ! / 4.6 Ein Schweinezüchter verwendet 2 Arten von Futtermittel. Besteht ein signifikanter Unterschied zwischen diesen Futtermitteln (α = 0.05) ? Futter A Futter B Gewicht der Jungschweine in kg 33 66 26 43 46 55 54 53 53 37 73 58 61 38 a) Die unabhängigen Stichproben stammen aus normalverteilten Grundgesamtheiten mit gleicher Varianz. b) Die Varianz σ 2 der Grundgesamtheit betrage 100 kg2 . / 17 4.7 Ein neuer Werkstoff wird nur dann öffentlich zugelassen, wenn seine mittlere Zugfestigkeit mehr als 300 kp beträgt. Durch frühere Untersuchungen ist bekannt, dass die Standardabweichung der Zugfestigkeit solcher Werkstoffe immer 24 kp beträgt. Es wurden 64 Materialtests durchgeführt. a) Wie müssen Null- und Alternativhypothese festgelegt werden, wenn nachgewiesen werden soll, dass ein neuer Werkstoff geeignet ist ? b) Ein (statistisch ungebildeter) Entscheidungsträger legt fest, dass ein neuer Werkstoff nur dann als geeignet anzusehen ist, wenn die obige Stichprobe vom Umfang n = 64 einen Mittelwert über dem Normalwert von 302 kp aufweist. Wie groß ist bei einem solchen Vorgehen die Wahrscheinlichkeit für einen Fehler 1. Art ? c) Ermittle einen Nominalwert, der bei einer Irrtumswahrscheinlichkeit von 0,01 geeignet ist, über die Zulassung eines neuen Materials zu entscheiden ! d) Vergleiche die beiden Entscheidungsverfahren aus b) und c) (d.h., den Normmittelwert von 302 kp bzw. den bei α = 0.01 errechneten Normmittelwert) hinsichtlich ihrer Güte ganz allgemein und konkret für den Fall, dass ein Material eine wahre mittlere Zugfestigkeit von 302 kp aufweist ! / 4.8 Es liegt eine normalverteilte Grundgesamtheit mit unbekanntem Mittelwert µ und bekannter Streuung σ 2 = 2.56 vor. Es soll die Hypothese H0 : µ < 12 gegenüber HA : µ ≥ 12 mit α = 0.05 aus einer Stichprobe mit dem Umfang n = 36 getestet werden ! a) Gib den Rückweisungsbereich der Stichprobenfunktion für x an ! b) Berechne und zeichne die Gütefunktion ! / 4.9 Besteht ein signifikanter Unterschied zwischen den beiden Mittelwerten (95 %) ? 1. Stichprobe 2. Stichprobe 110 120 110 140 130 130 140 120 110 120 / 18 4.10 Teste die Hypothese, dass der Anteil der einsilbigen Wörter bei beiden Dichtern gleich groß ist (95 %) ! Anzahl der Silben 1 2 3 4 5 n Goethe Lichtenberg 587 410 146 49 8 1200 539 317 136 49 7 1048 / 4.11 Es liegen 2 unabhängige Stichproben aus normalverteilten Grundgesamtheiten vor: n1 = 1000 X 1 = 78 s21 = 112 n2 = 1200 X 2 = 76 s22 = 120 Teste die Hypothese H0 : µ1 = µ2 gegen HA : µ1 6= µ2 (α = 0.05) unter der Annahme, a) dass gleiche Varianzen vorliegen ! b) dass verschiedene Varianzen vorliegen ! c) dass beide Stichproben dieselbe Varianz σ12 = σ22 = σ 2 = 115 aufweisen ! / 4.12 Gegeben sind 2 unabhängige Stichproben aus normalverteilten Grundgesamtheiten: A B 75 20 70 70 85 90 20 35 55 50 65 40 100 40 35 85 90 35 Ist der Unterschied zwischen den Varianzen signifikant ? 4.13 / Der Benzinverbrauch zweier Autotypen wurde stichprobenweise erhoben: A B Benzinverbrauch in ` pro 100 km im Stadtverkehr 20.3 13.7 13.8 12.4 16.0 12.5 19.4 30.1 35.6 24.6 19.9 13.2 8.8 11.7 14.6 14.1 21.8 25.5 35.1 25.5 a) Teste unter der Annahme, dass die Stichproben aus normalverteilten Grundgesamtheiten mit gleicher Varianz stammen, ob der Benzinverbrauch gleich ist ! b) Teste die Annahme gleicher Varianzen ! / 19 4.14 Mendel erzielte 1865 bei einem seiner berühmten Kreuzungsversuche folgendes Ergebnis: 355 gelbe Erbsen 123 grüne Erbsen Nach seiner Theorie müsste sich die Zahl der gelben Erbsen zur Zahl der grünen Erbsen wie 3:1 verhalten. Spricht die Stichprobe bei einem Fehler von α = 1 % für die Richtigkeit der Mendel’schen Vererbungssätze ? / 20