4 Testen von Hypothesen

Werbung
4
Testen von Hypothesen
Oft müssen zweiwertige Entscheidungen ( Ja“ oder Nein“) gefällt werden. Denken wir an
”
”
die elektronisch gesicherten Waren, wo am Ausgang eines Geschäftes durch eine Maschine
geprüft wird, ob eine nicht bezahlte Ware mitgenommen wird oder nicht. D. h., es wird
automatisch die Hypothese Ware vollständig bezahlt“ gegen die Alternative unbezahlte
”
”
Ware vorhanden“ getestet. Da die vorliegende Information, die die Testvorrichtung erhält,
zu gering ist, kann es zu Fehlentscheidungen kommen. Es können zwei Arten von Fehlern
auftreten: bezahlte Ware als nicht bezahlt gemeldet (Fehlalarm)“ – wir nennen dies einen
”
Fehler der 1. Art – oder nicht bezahlte Ware nicht gemeldet“, ein Fehler der 2. Art.
”
Solche Fehler können unter anderem Auftreten, wenn an der Kasse der elektronische
Streifen nicht oder nicht vollständig entwertet“ wird, oder wenn etwa ein elektronisches
”
Gerät (etwa ein Mobiltelefon) einen Alarm auslöst. Unsere Testvorrichtung nimmt nun
einen konstanten Fehler der 1. Art in Kauf, während der Fehler 2. Art minimiert werden
soll.
Wie können wir nun testen, welche unserer beiden Hypothesen, die Nullhypothese H0
oder die Alternative HA , mit einer gewissen Wahrscheinlichkeit stimmt.
Dazu berechnen wir eine Prüfgröße T , eine sogenannte Teststatistik, und einen kritischen
Wert cα , der von dem vorgegebenen Fehler 1. Art abhängt, und testen, ob
Pϑ (T > cα ) ≤ α
∀ϑ ∈ H0 .
D. h. also, der Fehler 1. Art wird mit α fixiert – ein gewisser Prozentsatz von Fehlalarmen
wird toleriert, ist etwa nicht geschäftsschädigend. Wird cα unterschritten, so liegt die
Nullhypothese H0 vor, sonst die Alternative HA .
Vorgangsweise:
(1) Formulierung einer Nullhypothese H0 (null hypothesis) und einer Alternative HA
(alternative hypothesis).
(2) Wahl einer Irrtumswahrscheinlichkeit α bzw. eines Signifikanzniveaus 1 − α (level
of significance). Von manchen Autoren wird auch α selbst als Signifikanzniveau
bezeichnet.
Üblich: α = 0.05 Ökonomie, Soziologie
α = 0.01 Biologie, Psychologie, Naturwissenschaften
α = 0.001 Medizin
(3) Auswahl eines Tests, d. h., einer Teststatistik T , und Berechnung eines kritischen
Werts cα und damit eines Ablehnbereichs (Menge A). D. h., finde einen Wertebereich
für die Daten, welcher unter der Nullhypothese sehr unwahrscheinlich ist (P (A) ≤
α) und unter der die Alternative viel wahrscheinlicher ist.
(4) Sammle Daten. Als Generalvoraussetzung wird angenommen, dass es sich um eine Zufallsstichprobe handelt. Durch Randomisieren kann die Selektion verbessert
werden. Stelle fest, ob die gesammelten Daten in diesen Wertebereich (kritischer
1
H
H
0
A
1−β
β
α
cα
Abb. 1: Fehlerwahrscheinlichkeiten (=Flächen) beim Testen.
Bereich, Ablehnbereich) fallen oder nicht. Entweder wird dazu die Teststatistik mit
dem kritischen Wert cα verglichen, oder es wird der P-Wert (p-Value, level attained, descriptive level ) berechnet und die Nullhypothese abgelehnt, falls dieser
kleiner oder gleich dem vorher gewählten Niveau α ist!
ja
nein
⇒ lehne H0 ab, d. h., H0 verwerfen
⇒ lehne H0 nicht ab, d. h., H0 nicht verwerfen,
d. h., die Daten stehen nicht im Widerspruch zu H0 .
Modell
Parameter liegen in einer bestimmten Menge
(Nullhypothese – Alternative)
Testgröße
(test statistic)
Aus den Daten gewonnene Größe, die typischerweise in
der Nullhypothese klein, in der Alternative groß ist.
Kritischer Wert
(critical value)
jener Wert, den die Testgröße überschreiten muss, damit
es zur Ablehnung der Nullhypothese kommt.
Fehler 1. Art (α)
(error of first kind )
Nullhypothese wird abgelehnt, obwohl sie richtig ist
(Ablehnung falsch, α-Fehler).
Fehler 2. Art (β)
(error of second kind )
Nullhypothese wird nicht abgelehnt, obwohl sie falsch ist
(Annahme falsch, β-Fehler).
Gütefunktion
(power function)
Ablehnwahrscheinlichkeit der Nullhypothese in Abhängigkeit vom Parameter der Alternative (1 − β).
P -Wert
(p-value)
kleinste Irrtumswahrscheinlichkeit α, die zur Ablehnung
von H0 führt. Oder: Wahrscheinlichkeit, dass – falls die
Nullhypothese zutrifft – ein Wert größer oder gleich dem
beobachteten vorkommt.
Wir unterscheiden einseitige Alternativen (one-sided alternative), diese enthalten Verteilungen mit Parametern aus einem Halbstrahl von R (d. h., der Parameter ist größer oder
2
0.03
0.02
H
H0
A
0.01
β
0
−50
0
cα
50
100
0.03
0.02
H0
HA
0.01
β
0
−50
0
cα
50
100
0.03
0.02
H
H0
A
0.01
0
−50
β
0
c
α
50
100
Abb. 2: β-Fehler (Fläche) in Abhängigkeit der Dichte von HA .
kleiner als eine Zahl), und zweiseitige Alternativen (two-sided alternative), diese enthalten
Verteilungen mit Parametern aus zwei Halbstrahlen (d. h., der Parameter nimmt einen
gewissen Wert an oder nicht).
Der Test wird so gewählt, dass die Wahrscheinlichkeit des Fehlers 1. Art (die Irrtumswahrscheinlichkeit) gleich einem vorher bestimmten α ist. Ein Test ist umso besser, je
kleiner der Fehler 2. Art, der β-Fehler, bei gegebenen α ist. Je kleiner der β-Fehler ist,
desto schärfer trennt der Test H0 und HA (more powerful ), desto größer ist die Macht oder
Güte des Tests (power function). Die Güte nimmt auch zu, wenn eine größere Stichprobe
genommen wird.
Definition 4.1
Die Güte oder Macht eines Tests für den Parameter ϑ einer Verteilung ist definiert als
g(ϑ) = P (H0 ablehnen|HA trifft zu) = Pϑ (T > cα ) = 1 − β
wobei T die gewählte Teststatistik (Prüfgröße), α die gewählte Irrtumswahrscheinlichkeit
und cα der kritische Wert ist (vgl. Abb. 1).
1 − g(ϑ) = β heißt β-Fehler, Operationscharakteristik , OC-Kurve oder Prüfplankurve
(siehe Abb. 2).
Beim Übergang vom einseitigen zum zweiseitigem Test nimmt die Macht eines Tests ab,
da der kritische Wert der Teststatistik größer wird (es bleibt nur mehr α/2 statt α am
Rand), somit wird β größer und damit 1 − β, die Macht des Tests, kleiner.
3
Test des Anteilswertes p einer B(n, p)-Verteilung
Beispiel 4.1 (Münzwurf)
Jemand behauptet, er könne am Klang beim Wurf einer Münze unterscheiden, ob zuerst
die Münze auf Bild oder auf Zahl zu liegen kam.
Bei 80 Versuchen hat er 52 Mal recht.
Frage: Ist dieses Ereignis signifikant, d. h., nicht zufällig?
Die Anzahl der Erfolge und Misserfolge ist, da es sich um ein wiederholtes BernoulliExperiment handelt, Binomial-B(n, p)-verteilt. Diese ist unsere Modellverteilung.
Dazu stellen wir folgende Hypothesen auf:
Als Nullhypothese wählen wir H0 : p ≤ 21 .
Als Alternative ergibt sich dann HA : p > 12 .
Dies formuliert einen einseitigen Test. Wir könnten ebenso einen zweiseitigen Test formulieren, nämlich H0 : p = 21 und HA : p 6= 12 . Der einseitige Test ist aber schärfer“.
”
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
51
0.01
0
15
20
25
30
35
40
45
50
55
60
Abb. 3: Dichte der B(80, 0.5)-Verteilung, kritischer Wert 51
Beispiel 4.2 (Münzwurf)
H0 : Daten ∼ B 80, 12
Wähle das Signifikanzniveau α = 0.01.
Wähle den Ablehnbereich A so, dass PH0 (Daten ∈ A) = α.
Hier: A = [k, 80]
4
65
Daten sind X ∼ B 80, 12 , d. h., E(X) = np = 80 · 0.5 = 40 und
Var(X) = np(1 − p) = 20.
P (X ≥ k) = α
Wir standardisieren und approximieren dann durch N (0, 1).
P
X − 40
k − 40
√
≤ √
20
20
=1−α
α = 0.01, aus Tabelle: Φ(2.33) = 0.99 oder Φ−1 (0.99) = u0.99 = 2.33.
− 40 = 2.33 ⇒ k = 2.33 · 4.47 + 40 = 50.41,
Daraus berechnen wir k√
20
also erhalten wir einen Ablehnbereich für H0 von A = [51, 80].
Daher, 52 ∈ A, muss H0 abgelehnt (verworfen) werden, d. h., die Daten sprechen eher
dafür, dass unser Kandidat am Klang unterscheiden kann, ob die Münze auf Bild oder
Zahl zu liegen kam.
Anteilswert p von B(n, p)
Voraussetzung: X1 , . . . , Xn ∼ B(n, p)
Testgröße:
p (1 − p )
m Beobachtungen, σP2 = 0 n 0
m
− p0
m − np0
=p
∼ N (0, 1)
T + n σP
np (1 − p )
0
0
Einseitig (i)
H0 : p ≤ p 0
H A : p > p0
H0 ablehnen, falls T > Φ−1 (1 − α)
Einseitig (ii)
H0 : p ≥ p 0
H A : p < p0
H0 ablehnen, falls T < Φ−1 (α) = −Φ−1 (1 − α)
Zweiseitig
H0 : p = p 0
HA : p 6= p0
H0 ablehnen, falls |T | > Φ−1 (1 − α2 )
n(p̂ − p0 )2
oder falls T 2 =
> χ21;1−α
p0 (1 − p0 )
Theorem 4.1
Ist X N (0, 1)-verteilt, so ist X 2 χ2 (1)-verteilt.
5
Einstichprobentest des Mittelwertes (σ 2 bekannt)
Voraussetzung: X1 , . . . , Xn ∼ N (µ, σ 2 ) i.i.d.
√ X −µ
Testgröße:
T + n σ 0 ∼ N (0, 1)
Einseitig (i)
H 0 : µ ≤ µ0
HA : µ > µ0
H0 ablehnen, falls T > Φ−1 (1 − α)
Einseitig (ii)
H 0 : µ ≥ µ0
HA : µ < µ0
H0 ablehnen, falls T < Φ−1 (α)
Zweiseitig
H 0 : µ = µ0
HA : µ 6= µ0
H0 ablehnen, falls |T | > Φ−1 (1 − α2 )
Bemerkung 4.1
Wir berechnen den kritischen Wert im Falle des zweiseitigen Tests.
Es soll gelten, dass P (|Z| ≤ cα ) ≤ 1 − α ist.
P (|Z| ≤ cα ) = P (−cα ≤ Z ≤ cα ) = Φ(cα ) − Φ(−cα )
= Φ(cα ) − (1 − Φ(cα )) = 2Φ(cα ) − 1 = 1 − α
α .
−1
1
−
⇒
c
=
Φ
Also Φ(cα ) = 1 − α
α
2
2
Beispiel 4.3
Füllgewichte von Verpackungen in Gramm (Xi ): 80.5, 78.2, 76.2, 79.4, 80.0
Aus Beobachtungen wissen wir, dass die Füllgewichte X ∼ N (µ, 0.8)
Wir testen H0 : µ ≥ 80 gegen HA : µ < 80
√
√ X −µ
√ − 80 = −2.85.
T = n σ 0 = 5 78.86
0.8
Für α = 0.01 haben wir cα = Φ−1 (0.01) = −2.32.
Da T < −2.32 müssen wir H0 ablehnen, d. h., die Füllgewichte der Stichprobe liegen
unter der Norm.
Dieselbe Aussage erhalten wir durch den P -Wert Φ(−2.85) = 0.002186, der kleiner als
unser gewähltes α = 0.01 ist.
Beispiel 4.4 (Güte)
Wir berechnen nun die Güte dieses Tests, d. h., was passiert, wenn unsere Annahme über
den Mittelwert der Verteilung nicht stimmt (vgl. Abb. 2) ?
Güte g(µ) = Pµ (T > Φ−1 (1 − α)) = 1 − β-Fehler
Dazu berechnen wir den β-Fehler (einseitig H0 : ϑ < ϑ0 ) unter der Annahme, dass die
Daten ursprünglich den Mittelwert µ0 hatten
Z cα
β(µ) =
fµ (u) du = Fµ (cα )
−∞
6
also etwa im Falle der Normalverteilung
β(µ) = Φ(
C −µ
µ0 − µ
) = Φ(
+ cα )
σX
σX
wobei C = µ0 + σX cα ist, d. h., der kritische Wert umgerechnet auf die ursprüngliche
Verteilung der Daten, cα der kritische Wert der N (0, 1)-Verteilung.
Der β-Fehler beim zweiseitigen Testen ist
Z co
fµ (u) du = Fµ (co ) − Fµ (cu )
β(µ) =
−cu
wobei cu bzw. co die kritische Unter- bzw. Obergrenze der Testgröße der Originaldaten
ist.
Die Güte ist dann g(µ) = 1 − β(µ).
Beispiel 4.5
Ein Drahtseil soll eine Mindestbelastung von 1200 kp aufweisen. Aus Erfahrung kennen
wir die Standardabweichung σ = 120 kp. Wie groß muss der Mittelwert einer Stichprobe
von n = 36 mindestens sein, damit wir eine Belastbarkeit von 1200 kp mit 95 %-iger
Sicherheit attestieren können.
H0 : µ ≤ 1200
2
=
X ∼ N (1200, 20), da σX
σ2
.
n
HA : µ > 1200
Wir erhalten als untersten Wert, den X annehmen darf,
1200 − 1.65 · 20 = 1167.
Wir berechnen nun die Güte g(µ) dieses Tests für variables µ:
g(1200) = P (X < 1167|µ = 1200) = 0.05
1167 − 1180
X − 1180
<
) = 0.2578
20
20
d. h., wäre die tatsächliche Reißfestigkeit des Seils unter 1200 kp, ergäbe sich ein sicherer
Test. Das ist ein weiterer Grund, warum wir H0 und HA so gewählt haben.
g(1180) = P (X < 1167|µ = 1180) = P (
Die Abbildung 4 zeigt die Güte g(µ) dieses rechtsseitigen Tests (durchgezogene Linie)
und den β-Fehler oder auch OC-Kurve β(µ) = 1 − g(µ) dieses Tests. Hätten wir einen
linksseitigen Test durchgeführt, so wären die Rollen dieser beiden Kurven vertauscht,
d. h., der Test umso schlechter, je geringer die tatsächliche Reißfestigkeit des Drahtseils
ist, ein wohl nicht gewünschter Effekt.
Differenz der Mittel (Verbundene Stichproben)
Bei verbundenen Stichproben gehen wir von zwei abhängigen (gepaarten, verbundenen) Stichproben aus. Die Werte werden an identischen Entitäten gemessen, wie etwa bei
Vor-Nach-Vergleichen. Etwa Blutdruck vor und nach einer Behandlung. Die Differenzen
di = Yi −Xi werden dann wie im Einstichprobentest für Mittelwerte behandelt. In diesem
Abschnitt gehen wir davon aus, dass die Varianzen bekannt sind.
7
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
1100
1150
1200
1250
Abb. 4: Güte (durchgezogen) und OC-Kurve.
Beispiel 4.6
Gewicht von Schweinen vor und nach der Mast
vorher (Xi )
150
168.2
172.3
161.8
171.5
nachher (Yi )
155.2
165.5
180.6
169.2
171.8
Differenz (Di )
5.2
-2.7
8.3
7.4
0.3
Di ∼ N (µ, 4)
Wir testen einseitig auf Mittelwert 0, also H0 : µ ≤ 0 und HA : µ > 0. Wir behaupten
also, dass die Mast keine Wirkung gezeigt hat, dass kein statistisch signifikanter Effekt
vorliegt.
√
√
√ Y −X
⇒ T = 5 3.7
T = n· D
σ = n σ
2 = 4.136
Bei α = 0.05 haben wir einen kritischen Wert von Φ−1 (0.95) = 1.64. Da T > 1.64 lehnen
wir H0 ab, die Gewichte der Schweine haben also signifikant zugenommen.
8
Differenz der Mittel (Zweistichprobentest)
2
Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX
) i.i.d.
2
Y1 , . . . , Ym ∼ N (µY , σY ) i.i.d.
Xi , Yi unabhängig
σ2
σ2
2
σX und σY bekannt, σD
= nX + mY
Testgröße:
Einseitig (i)
(X −r
Y ) − (µX − µY )
∼ N (0, 1)
2
σY2
σX
+
n
m
H0 : (µX − µY ) ≤ 0
HA : (µX − µY ) > 0
H0 ablehnen, falls T > Φ−1 (1 − α)
T +
Einseitig (ii)
H0 : (µX − µY ) ≥ 0
HA : (µX − µY ) < 0
H0 ablehnen, falls T < Φ−1 (α)
Zweiseitig
H0 : (µX − µY ) = 0
HA : (µX − µY ) 6= 0
H0 ablehnen, falls |T | > Φ−1 (1 − α2 )
Beispiel 4.7 (Düngemittel)
Unterscheiden sich die Hektarerträge bei verschiedenen Düngemitteln?
2
Unabhängige Stichproben: X1 , . . . , Xn ∼ N (µX , σX
), Y1 , . . . , Ym ∼ N (µY , σY2 )
Dünger 1
(X-Stichprobe)
132.8
141.4
152.3
128.8
Dünger 2
(Y-Stichprobe)
122. 4
131.2
125.2
121.2
118.3
σY2 = 4
Y = 123.6
2
σX
=6
X = 138.8
Wir behaupten, dass die verschiedenen Düngemittel keinen signifikanten Einfluss auf die
Hektarerträge hat und testen zweiseitig.
H0 : µX = µY und HA : µX 6= µY
q
· 5 (138.8 − 123.6) = 10.023
T = 5.64+
4.4
Bei α = 0.01 haben wir T > Φ−1 (0.995) = 2.57, wir müssen also H0 ablehnen, d. h., die
Hektarerträge unterscheiden sich signifikant.
9
t-Test (Mittelwert bei unbekannter Varianz)
Voraussetzung: X1 , . . . Xn ∼ N (µ, σ 2 )
σ 2 unbekannt
√ X −µ
Testgröße:
T + n s ∼ t(n − 1)
Einseitig (i)
H 0 : µ ≤ µ0
HA : µ > µ0
H0 ablehnen, falls T > tn−1,1−α
Einseitig (ii)
H 0 : µ ≥ µ0
HA : µ < µ0
H0 ablehnen, falls T < tn−1,α = 1 − tn−1,1−α
H 0 : µ = µ0
µ 6= µ0
H0 ablehnen, falls |T | > tn−1,1− α2
n(X − µ)2
oder falls T 2 =
> F1,n−1;1−α
s2
Dieser Test ist der am häufigsten verwendete Mittelwertstest, da meistens die Varianzen
unbekannt sind und aus der Stichprobe geschätzt werden müssen.
Zweiseitig
Theorem 4.2
Falls Y t(n)-verteilt ist, ist Y 2 F (1, n)-verteilt.
♦
Ist n > 30 können wir die entsprechenden Werte der Standardnormalverteilung als kritische Werte verwenden.
Vor-Nach-Vergleiche (verbundene Stichproben)
Wie schon bei Vor-Nach-Vergleichen bei bekannter Varianz liegen auch hier verbundene
Stichproben vor, jedoch nun mit unbekannter Varianz, sodass wir die Stichprobenvarianz
der Differenzen als Schätzer verwenden müssen, und dann einen Einstichproben t-Test
für die Differenzen Di = Yi − Xi durchführen.
Beispiel 4.8
Wir wollen die Wirkung einer Diätkur testen.
Gewicht vor Diätkur (X)
73
85
68
90
77
Gewicht nach Diätkur (Y )
72
81
70
82
73
Differenzen Di
-1
-4
2
-8
-4
Die Differenzen werden einseitig auf Mittelwert 0 getestet, d. h., wir wollen zeigen, dass
die Kur keine signifikante Wirkung gehabt hat.
Wir haben also
H 0 : µD ≤ 0
und
H A : µD > 0
10
>
>
>
>
x <- c(73,85,68,90,77)
y <- c(72,81,70,82,73)
d <- x-y
t.test(x,y,alternative=c("two.sided"),mu=0,paired=TRUE,
var.equal=TRUE,conf.level=0.99)
Paired t-test
data: x and y
t = 1.7928, df = 4, p-value = 0.1475
alternative hypothesis: true difference in means is not equal to 0
99 percent confidence interval: -4.704127 10.704127
sample estimates:
mean of the differences: 3
> t.test(d,y=NULL,alternative=c("two.sided"),mu=0,paired=FALSE,
var.equal=FALSE,conf.level=0.99)
One Sample t-test
data: d
t = 1.7928, df = 4, p-value = 0.1475
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval: -4.704127 10.704127
sample estimates:
mean of x: 3
Abb. 5: R Dialog für Beispiel 4.8, zweiseitig
r
D = Y − X = −3, s =
q
n
1 P (X − X)2 = 1 (4 + 1 + 25 + 25 + 1) = 3.7416
n − 1 i=n i
4
√ (−3)
5 3.74 = −1.79
Da T > t4;0.99 = −3.747 kann H0 nicht abgelehnt werden, d. h., es ist keine signifikante
Wirkung der Diätkur nachweisbar.
T =
11
>
>
>
>
x <- c(73,85,68,90,77)
y <- c(72,81,70,82,73)
d <- x-y
t.test(d,NULL,alternative=c("less"),mu=0,paired=FALSE,
var.equal=FALSE,conf.level=0.99)
One Sample t-test
data: d
t = 1.7928, df = 4, p-value = 0.9263
alternative hypothesis: true mean is less than 0
99 percent confidence interval: NA 9.269854
sample estimates:
mean of x: 3
> t.test(d,NULL,alternative=c("greater"),mu=0,paired=FALSE,
var.equal=FALSE,conf.level=0.99)
One Sample t-test
data: d
t = 1.7928, df = 4, p-value = 0.07373
alternative hypothesis: true mean is greater than 0
99 percent confidence interval: -3.269854 NA
sample estimates:
mean of x: 3
Abb. 6: R Dialog für Beispiel 4.8, einseitig
Zweistichproben-t-Test (gleiche Varianzen)
2
) i.i.d.
Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX
Y1 , . . . , Ym ∼ N (µY , σY2 ) i.i.d.
Xi , Yi unabhängig
2
σX
= σY2 unbekannt, aber gleich für beide Stichproben
2
2
1 + 1 ) (n − 1)sX + (m − 1)sY
s2D = ( n
m
m+n−2
(X − Y ) − (µX − µY )
Testgröße:
T +
∼ t(n + m − 2)
sD
Einseitig (i)
H0 : (µX − µY ) ≤ 0
HA : (µX − µY ) > 0
H0 ablehnen, falls T > tn+m−2,1−α
Einseitig (ii)
H0 : (µX − µY ) ≥ 0
HA : (µX − µY ) < 0
H0 ablehnen, falls T < tn+m−2,α
Zweiseitig
H0 : (µX − µY ) = 0
HA : (µX − µY ) 6= 0
H0 ablehnen, falls |T | > tn+m−2,1− α2
oder falls T 2 > F1,n+m−2;1−α
Beispiel 4.9 (Schlafverlängerung bei 2 Medikamenten)
Medikament 1 (Xi )
Medikament 2 (Yj )
1.4 0.8 2.1 0.4
0.2 0.0 1.4 1.2
Verschiedene Patienten, d. h., unabhängige Stichproben!
12
0.3
Abb. 7: Schlafverlängerung von Medikamenten (MS Excel).
n = 5, m = 4, X = 1.0, Y = 0.7.
P
(n − 1)s2X = (Xi − X)2 = 2.26
(m − 1)s2Y =
P
(Yi − Y )2 = 1.48.
1.0 − 0.7
= 0.61
1 1 1
( + ) (2.26 + 1.48)
5 4 7
T =r
Wir testen zweiseitig mit α = 0.01: H0 : µX = µY und HA : µX 6= µY .
Da T < t7,0.995 = 3.5, kann H0 nicht abgelehnt werden, d. h., beide Medikamente haben
dieselbe Wirkung.
Zweistichproben-t-Test (verschiedene Varianzen)
2
) i.i.d.
Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX
2
Y1 , . . . , Ym ∼ N (µY , σY ) i.i.d.
Xi , Yi unabhängig
2
σX
6= σY2 unbekannt
σ2
σ2
s4D
s2D = nX + mY , nD = 2
s
s2
( X )2
( Y )2
n + m
n−1
m−1
(X − Y ) − (µX − µY )
Testgröße:
T +
∼ t(nD )
sD
Einseitig (i)
H0 : (µX − µY ) ≤ 0
HA : (µX − µY ) > 0
H0 ablehnen, falls T > tnD ,1−α
Einseitig (ii)
H0 : (µX − µY ) ≥ 0
HA : (µX − µY ) < 0
H0 ablehnen, falls T < tnD ,α
Zweiseitig
H0 : (µX − µY ) = 0
HA : (µX − µY ) 6= 0
H0 ablehnen, falls |T | > tnD ,1− α2
Bemerkung 4.2 (Behrens-Fisher Problem)
2
Falls σX
6= σY2 und unbekannt, so gibt es keine sinnvolle Teststatistik, die unabhängig
13
von σX und σY ist.
Einstichprobentest der Varianz
Voraussetzung: X1 , . . . , Xn ∼ N (µ, σ 2 ) i.i.d.
n
(n − 1)s2
1 P (X − X)2 ∼ χ2 (n − 1)
Testgröße:
T +
=
i
σ02
σ02 i=1
Einseitig (i)
H0 : σ 2 ≤ σ02
HA : σ 2 > σ02
H0 ablehnen, falls T > χ2n−1,1−α
Einseitig (ii)
H0 : σ 2 ≥ σ02
HA : σ 2 < σ02
H0 ablehnen, falls T < χ2n−1,α
Bemerkung 4.3
Obige Teststatistik T ist nur dann χ2 (n − 1)-verteilt, wenn µ bekannt ist, sonst ist sie
χ2 (n)-verteilt und die Formeln gelten entsprechend mit n statt n − 1.
Beispiel 4.10
Toleranzen bei Lagerwellen: Sollwert σ02 = 0.01 bei µ = 3.3; α = 0.05.
Daten: 3.5, 3.2, 3.1, 3.5, 3.2,
X = 3.3
H0 : σ 2 ≤ σ02 und HA : σ 2 > σ02
P
2
i (Xi − X) = 0.04 + 0.01 + 0.04 + 0.04 + 0.01 = 0.14
P
Da T = 12 (Xi − X)2 = 14 > χ24;0.95 = 9.49 muss H0 auf dem 5%-Niveau abgelehnt
σ0
werden, d. h., die Varianz – und damit die Toleranz – ist signifikant größer als 0.01.
F -Test zum Vergleich zweier Varianzen
2
Voraussetzung: X1 , . . . , Xn ∼ N (µx , σX
) i.i.d.
2
Y1 , . . . , Ym ∼ N (µy , σY ) i.i.d.
s2
Testgröße:
T = X
∼ F (n − 1, m − 1)
s2Y
2
2
Einseitig (i)
H0 : σX
≤ σY2
HA : σX
> σY2
H0 ablehnen, falls T > Fn−1,m−1;1−α
Einseitig (ii)
Zweiseitig
H0
H0
H0
H0
2
2
: σX
≥ σY2
HA : σX
< σY2
ablehnen, falls T < Fn−1,m−1;α
2
2
: σX
= σY2
HA : σX
6= σY2
ablehnen, falls T < Fn−1,m−1; α2 oder T > Fn−1,m−1;1− α2
Theorem 4.3
Es gilt Fn,m;α = F 1
(Vertauschung der Freiheitsgrade!).
m,n;1−α
14
Bemerkung 4.4 P
Wir wissen, dass σ12 i (Xi − X)2 ∼ χ2 (n − 1).
Daraus und aus dem nächsten Satz folgt die Verteilung obiger Testgröße.
1
Theorem 4.4
X
X ∼ χ2 (n) und Y ∼ χ2 (m) so ist n1 ∼ F (n, m).
Y
m
Beispiel 4.11
Vergleich zweier Toleranzen:
1. Stichprobe (Xi )
2. Stichprobe (Yi )
X = 3.4
Y = 3.3
3.0 3.4 3.6
3.5 3.2 3.1
3.6
3.5
3.2
n=4 m=5
2
2
6= σY2 .
= σY2 und HA : σX
H0 : σX
1 P(X − X)2 = 1 (0.16. + 0 + 0.04 + 0.04) = 0.08
s2X = n −
i
1
3
P
s2Y = m 1− 1 (Yi − Y )2 = 14 (0.04 + 0.01 + 0.04 + 0.04 + 0.01) = 0.035
0.08 = 2.286 < F
Da F = 0.035
3,4;0.99 = 16.7 kann H0 bei α = 0.01 nicht abgelehnt werden,
d. h., die beiden Varianzen (Toleranzen) sind nicht signifikant verschieden.
15
Aufgaben zum Testen
Projekt zum Testen:
Generiere 1000 Standard-normalverteilte Samples (N (0, 1)) und transformiere diese so,
dass bei Angabe zweier beliebiger Parameter µ und σ 2 aus diesen N (µ, σ 2 )-verteilte Samples werden.
Generiere damit N (17, 25)-verteilte Samples und wähle (extrahiere) aus diesen zufällig n
Daten (n zufällige Indizes aus den Indizes 1–1000). Berechne sodann den Mittelwert und
die Sample-Varianz dieser n Daten. Teste die Nullhypothese H0 : µ = 15 einmal einseitig,
einmal zweiseitig mit diesen n Daten. Berechne zu diesen Tests die Gütefunktion.
Weiters teste die Varianz unter der Annahme σ = 20.
Setze n = 10, 25, 70, 120 und vergleiche die Ergebnisse.
4.1
Von einer Zufallsvariablen X sei bekannt: X ∼ N (µ, 5)
Eine Stichprobe lieferte folgende Werte:
−1
0
3
4
2
1 −3
1 −5
0
6 −3 −1 −4 −3 −2
4 −5 −3 −1
Es ist die Hypothese H0 : µ = 0 gegen die Alternative HA : µ 6= 0 mit
a)
α = 0.05
b)
α = 0.01
zu testen.
c)
Teste die Hypothese H0 mit α = 0.05 (0.01) ohne die Information über die Varianz
der Grundgesamtheit !
/
4.2
Für eine Zufallsvariable X sei bekannt: X ∼ N (µ, 4)
Eine Stichprobe vom Umfang 25 ergab: X = 14.70.
Es ist die Hypothese H0 : µ = 14 gegen die Alternative
a)
HA : µ > 14
b)
HA : µ < 14
c)
HA : µ 6= 14
zu testen (α = 0.05 bzw. 0.01) !
/
16
4.3
In einer Grundgesamtheit ist ein Merkmal normalverteilt mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 2500. Es soll die Hypothese H0 : µ = 100 gegenüber
HA : µ 6= 100 getestet werden. Es liegt eine Stichprobe vom Umfang n = 100 vor.
a)
Bestimme für α = 0, 05 den Annahmebereich für H0 !
b)
Bestimme β (Fehler 2. Art) bei Gültigkeit von: µ=105, 110, 115 !
c)
Fertige eine Skizze der Operationscharakteristik und der Macht des Tests an !
/
4.4
Die Tabelle enthält Beobachtungen aus einem englischen Zinnwalzwerk. Teste unter Annahme, die unabhängigen Stichproben stammen aus normalverteilten Grundgesamtheiten
mit gleicher Varianz, ob die Arbeitsleistung von der Jahreszeit abhängt (α = 0.05) !
Jahreszeit
Sommer
Winter
Relative Arbeitsleistung
92.2 84.8 97.2 102.8
107.7 85.7 102.5 102.6
/
4.5
Verbrauchen Forellen in schnell fließendem Wasser mehr Sauerstoff als in langsam fließendem (α = 0.05) ?
Fluss
schnell
langsam
108 122
85 152
Sauerstoffverbrauch
144 126 107 115 114 97 96 126
83 69 95 87 71 94 83 94
Die unabhängigen Stichproben stammen aus normalverteilten Grundgesamtheiten mit
gleicher Varianz !
/
4.6
Ein Schweinezüchter verwendet 2 Arten von Futtermittel. Besteht ein signifikanter Unterschied zwischen diesen Futtermitteln (α = 0.05) ?
Futter A
Futter B
Gewicht der Jungschweine in kg
33 66 26 43 46 55 54
53 53 37 73 58 61 38
a)
Die unabhängigen Stichproben stammen aus normalverteilten Grundgesamtheiten mit gleicher Varianz.
b)
Die Varianz σ 2 der Grundgesamtheit betrage 100 kg2 .
/
17
4.7
Ein neuer Werkstoff wird nur dann öffentlich zugelassen, wenn seine mittlere Zugfestigkeit mehr als 300 kp beträgt. Durch frühere Untersuchungen ist bekannt, dass die Standardabweichung der Zugfestigkeit solcher Werkstoffe immer 24 kp beträgt. Es wurden 64
Materialtests durchgeführt.
a)
Wie müssen Null- und Alternativhypothese festgelegt werden, wenn nachgewiesen
werden soll, dass ein neuer Werkstoff geeignet ist ?
b)
Ein (statistisch ungebildeter) Entscheidungsträger legt fest, dass ein neuer Werkstoff nur dann als geeignet anzusehen ist, wenn die obige Stichprobe vom Umfang
n = 64 einen Mittelwert über dem Normalwert von 302 kp aufweist. Wie groß ist
bei einem solchen Vorgehen die Wahrscheinlichkeit für einen Fehler 1. Art ?
c)
Ermittle einen Nominalwert, der bei einer Irrtumswahrscheinlichkeit von 0,01
geeignet ist, über die Zulassung eines neuen Materials zu entscheiden !
d)
Vergleiche die beiden Entscheidungsverfahren aus b) und c) (d.h., den Normmittelwert von 302 kp bzw. den bei α = 0.01 errechneten Normmittelwert) hinsichtlich ihrer Güte ganz allgemein und konkret für den Fall, dass ein Material eine
wahre mittlere Zugfestigkeit von 302 kp aufweist !
/
4.8
Es liegt eine normalverteilte Grundgesamtheit mit unbekanntem Mittelwert µ und bekannter Streuung σ 2 = 2.56 vor. Es soll die Hypothese H0 : µ < 12 gegenüber HA : µ ≥ 12
mit α = 0.05 aus einer Stichprobe mit dem Umfang n = 36 getestet werden !
a)
Gib den Rückweisungsbereich der Stichprobenfunktion für x an !
b)
Berechne und zeichne die Gütefunktion !
/
4.9
Besteht ein signifikanter Unterschied zwischen den beiden Mittelwerten (95 %) ?
1. Stichprobe
2. Stichprobe
110 120 110 140 130
130 140 120 110 120
/
18
4.10
Teste die Hypothese, dass der Anteil der einsilbigen Wörter bei beiden Dichtern gleich
groß ist (95 %) !
Anzahl
der Silben
1
2
3
4
5
n
Goethe
Lichtenberg
587
410
146
49
8
1200
539
317
136
49
7
1048
/
4.11
Es liegen 2 unabhängige Stichproben aus normalverteilten Grundgesamtheiten vor:
n1 = 1000 X 1 = 78 s21 = 112
n2 = 1200 X 2 = 76 s22 = 120
Teste die Hypothese H0 : µ1 = µ2 gegen HA : µ1 6= µ2 (α = 0.05) unter der Annahme,
a)
dass gleiche Varianzen vorliegen !
b)
dass verschiedene Varianzen vorliegen !
c)
dass beide Stichproben dieselbe Varianz σ12 = σ22 = σ 2 = 115 aufweisen !
/
4.12
Gegeben sind 2 unabhängige Stichproben aus normalverteilten Grundgesamtheiten:
A
B
75 20 70 70 85 90
20 35 55 50 65 40
100
40
35 85 90
35
Ist der Unterschied zwischen den Varianzen signifikant ?
4.13
/
Der Benzinverbrauch zweier Autotypen wurde stichprobenweise erhoben:
A
B
Benzinverbrauch in ` pro 100 km im Stadtverkehr
20.3 13.7 13.8 12.4 16.0 12.5 19.4 30.1 35.6 24.6
19.9 13.2 8.8 11.7 14.6 14.1 21.8 25.5 35.1 25.5
a)
Teste unter der Annahme, dass die Stichproben aus normalverteilten Grundgesamtheiten mit gleicher Varianz stammen, ob der Benzinverbrauch gleich ist !
b)
Teste die Annahme gleicher Varianzen !
/
19
4.14
Mendel erzielte 1865 bei einem seiner berühmten Kreuzungsversuche folgendes Ergebnis:
355 gelbe Erbsen
123 grüne Erbsen
Nach seiner Theorie müsste sich die Zahl der gelben Erbsen zur Zahl der grünen Erbsen
wie 3:1 verhalten.
Spricht die Stichprobe bei einem Fehler von α = 1 % für die Richtigkeit der Mendel’schen
Vererbungssätze ?
/
20
Zugehörige Unterlagen
Herunterladen