4 Testen von Hypothesen

4
Testen von Hypothesen
Oft müssen zweiwertige Entscheidungen ( Ja“ oder Nein“) gefällt werden. Denken wir an
”
”
die elektronisch gesicherten Waren, wo am Ausgang eines Geschäftes durch eine Maschine
geprüft wird, ob eine nicht bezahlte Ware mitgenommen wird oder nicht. D. h., es wird
automatisch die Hypothese Ware vollständig bezahlt“ gegen die Alternative unbezahlte
”
”
Ware vorhanden“ getestet. Da die vorliegende Information, die die Testvorrichtung erhält,
zu gering ist, kann es zu Fehlentscheidungen kommen. Es können zwei Arten von Fehlern
auftreten: bezahlte Ware als nicht bezahlt gemeldet (Fehlalarm)“ – wir nennen dies einen
”
Fehler der 1. Art – oder nicht bezahlte Ware nicht gemeldet“, ein Fehler der 2. Art.
”
Solche Fehler können unter anderem Auftreten, wenn an der Kasse der elektronische
Streifen nicht oder nicht vollständig entwertet“ wird, oder wenn etwa ein elektronisches
”
Gerät (etwa ein Mobiltelefon) einen Alarm auslöst. Unsere Testvorrichtung nimmt nun
einen konstanten Fehler der 1. Art in Kauf, während der Fehler 2. Art minimiert werden
soll.
Wie können wir nun testen, welche unserer beiden Hypothesen, die Nullhypothese H0
oder die Alternative HA , mit einer gewissen Wahrscheinlichkeit stimmt.
Dazu berechnen wir eine Prüfgröße T , eine sogenannte Teststatistik, und einen kritischen
Wert cα , der von dem vorgegebenen Fehler 1. Art abhängt, und testen, ob
Pϑ (T > cα ) ≤ α
∀ϑ ∈ H0 .
D. h. also, der Fehler 1. Art wird mit α fixiert – ein gewisser Prozentsatz von Fehlalarmen
wird toleriert, ist etwa nicht geschäftsschädigend. Wird cα unterschritten, so liegt die
Nullhypothese H0 vor, sonst die Alternative HA .
Vorgangsweise:
(1) Formulierung einer Nullhypothese H0 (null hypothesis) und einer Alternative HA
(alternative hypothesis).
(2) Wahl einer Irrtumswahrscheinlichkeit α bzw. eines Signifikanzniveaus 1 − α (level
of significance). Von manchen Autoren wird auch α selbst als Signifikanzniveau
bezeichnet.
Üblich: α = 0.05 Ökonomie, Soziologie
α = 0.01 Biologie, Psychologie, Naturwissenschaften
α = 0.001 Medizin
(3) Auswahl eines Tests, d. h., einer Teststatistik T , und Berechnung eines kritischen
Werts cα und damit eines Ablehnbereichs (Menge A). D. h., finde einen Wertebereich
für die Daten, welcher unter der Nullhypothese sehr unwahrscheinlich ist (P (A) ≤
α) und unter der die Alternative viel wahrscheinlicher ist.
(4) Sammle Daten. Als Generalvoraussetzung wird angenommen, dass es sich um eine Zufallsstichprobe handelt. Durch Randomisieren kann die Selektion verbessert
werden. Stelle fest, ob die gesammelten Daten in diesen Wertebereich (kritischer
1
H
H
0
A
1−β
β
α
cα
Abb. 1: Fehlerwahrscheinlichkeiten (=Flächen) beim Testen.
Bereich, Ablehnbereich) fallen oder nicht. Entweder wird dazu die Teststatistik mit
dem kritischen Wert cα verglichen, oder es wird der P-Wert (p-Value, level attained, descriptive level ) berechnet und die Nullhypothese abgelehnt, falls dieser
kleiner oder gleich dem vorher gewählten Niveau α ist!
ja
nein
⇒ lehne H0 ab, d. h., H0 verwerfen
⇒ lehne H0 nicht ab, d. h., H0 nicht verwerfen,
d. h., die Daten stehen nicht im Widerspruch zu H0 .
Modell
Parameter liegen in einer bestimmten Menge
(Nullhypothese – Alternative)
Testgröße
(test statistic)
Aus den Daten gewonnene Größe, die typischerweise in
der Nullhypothese klein, in der Alternative groß ist.
Kritischer Wert
(critical value)
jener Wert, den die Testgröße überschreiten muss, damit
es zur Ablehnung der Nullhypothese kommt.
Fehler 1. Art (α)
(error of first kind )
Nullhypothese wird abgelehnt, obwohl sie richtig ist
(Ablehnung falsch, α-Fehler).
Fehler 2. Art (β)
(error of second kind )
Nullhypothese wird nicht abgelehnt, obwohl sie falsch ist
(Annahme falsch, β-Fehler).
Gütefunktion
(power function)
Ablehnwahrscheinlichkeit der Nullhypothese in Abhängigkeit vom Parameter der Alternative (1 − β).
P -Wert
(p-value)
kleinste Irrtumswahrscheinlichkeit α, die zur Ablehnung
von H0 führt. Oder: Wahrscheinlichkeit, dass – falls die
Nullhypothese zutrifft – ein Wert größer oder gleich dem
beobachteten vorkommt.
Wir unterscheiden einseitige Alternativen (one-sided alternative), diese enthalten Verteilungen mit Parametern aus einem Halbstrahl von R (d. h., der Parameter ist größer oder
2
0.03
0.02
H
H0
A
0.01
β
0
−50
0
cα
50
100
0.03
0.02
H0
HA
0.01
β
0
−50
0
cα
50
100
0.03
0.02
H
H0
A
0.01
0
−50
β
0
c
α
50
100
Abb. 2: β-Fehler (Fläche) in Abhängigkeit der Dichte von HA .
kleiner als eine Zahl), und zweiseitige Alternativen (two-sided alternative), diese enthalten
Verteilungen mit Parametern aus zwei Halbstrahlen (d. h., der Parameter nimmt einen
gewissen Wert an oder nicht).
Der Test wird so gewählt, dass die Wahrscheinlichkeit des Fehlers 1. Art (die Irrtumswahrscheinlichkeit) gleich einem vorher bestimmten α ist. Ein Test ist umso besser, je
kleiner der Fehler 2. Art, der β-Fehler, bei gegebenen α ist. Je kleiner der β-Fehler ist,
desto schärfer trennt der Test H0 und HA (more powerful ), desto größer ist die Macht oder
Güte des Tests (power function). Die Güte nimmt auch zu, wenn eine größere Stichprobe
genommen wird.
Definition 4.1
Die Güte oder Macht eines Tests für den Parameter ϑ einer Verteilung ist definiert als
g(ϑ) = P (H0 ablehnen|HA trifft zu) = Pϑ (T > cα ) = 1 − β
wobei T die gewählte Teststatistik (Prüfgröße), α die gewählte Irrtumswahrscheinlichkeit
und cα der kritische Wert ist (vgl. Abb. 1).
1 − g(ϑ) = β heißt β-Fehler, Operationscharakteristik , OC-Kurve oder Prüfplankurve
(siehe Abb. 2).
Beim Übergang vom einseitigen zum zweiseitigem Test nimmt die Macht eines Tests ab,
da der kritische Wert der Teststatistik größer wird (es bleibt nur mehr α/2 statt α am
Rand), somit wird β größer und damit 1 − β, die Macht des Tests, kleiner.
3
Test des Anteilswertes p einer B(n, p)-Verteilung
Beispiel 4.1 (Münzwurf)
Jemand behauptet, er könne am Klang beim Wurf einer Münze unterscheiden, ob zuerst
die Münze auf Bild oder auf Zahl zu liegen kam.
Bei 80 Versuchen hat er 52 Mal recht.
Frage: Ist dieses Ereignis signifikant, d. h., nicht zufällig?
Die Anzahl der Erfolge und Misserfolge ist, da es sich um ein wiederholtes BernoulliExperiment handelt, Binomial-B(n, p)-verteilt. Diese ist unsere Modellverteilung.
Dazu stellen wir folgende Hypothesen auf:
Als Nullhypothese wählen wir H0 : p ≤ 21 .
Als Alternative ergibt sich dann HA : p > 12 .
Dies formuliert einen einseitigen Test. Wir könnten ebenso einen zweiseitigen Test formulieren, nämlich H0 : p = 21 und HA : p 6= 12 . Der einseitige Test ist aber schärfer“.
”
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
51
0.01
0
15
20
25
30
35
40
45
50
55
60
Abb. 3: Dichte der B(80, 0.5)-Verteilung, kritischer Wert 51
Beispiel 4.2 (Münzwurf)
H0 : Daten ∼ B 80, 12
Wähle das Signifikanzniveau α = 0.01.
Wähle den Ablehnbereich A so, dass PH0 (Daten ∈ A) = α.
Hier: A = [k, 80]
4
65
Daten sind X ∼ B 80, 12 , d. h., E(X) = np = 80 · 0.5 = 40 und
Var(X) = np(1 − p) = 20.
P (X ≥ k) = α
Wir standardisieren und approximieren dann durch N (0, 1).
P
X − 40
k − 40
√
≤ √
20
20
=1−α
α = 0.01, aus Tabelle: Φ(2.33) = 0.99 oder Φ−1 (0.99) = u0.99 = 2.33.
− 40 = 2.33 ⇒ k = 2.33 · 4.47 + 40 = 50.41,
Daraus berechnen wir k√
20
also erhalten wir einen Ablehnbereich für H0 von A = [51, 80].
Daher, 52 ∈ A, muss H0 abgelehnt (verworfen) werden, d. h., die Daten sprechen eher
dafür, dass unser Kandidat am Klang unterscheiden kann, ob die Münze auf Bild oder
Zahl zu liegen kam.
Anteilswert p von B(n, p)
Voraussetzung: X1 , . . . , Xn ∼ B(n, p)
Testgröße:
p (1 − p )
m Beobachtungen, σP2 = 0 n 0
m
− p0
m − np0
=p
∼ N (0, 1)
T + n σP
np (1 − p )
0
0
Einseitig (i)
H0 : p ≤ p 0
H A : p > p0
H0 ablehnen, falls T > Φ−1 (1 − α)
Einseitig (ii)
H0 : p ≥ p 0
H A : p < p0
H0 ablehnen, falls T < Φ−1 (α) = −Φ−1 (1 − α)
Zweiseitig
H0 : p = p 0
HA : p 6= p0
H0 ablehnen, falls |T | > Φ−1 (1 − α2 )
n(p̂ − p0 )2
oder falls T 2 =
> χ21;1−α
p0 (1 − p0 )
Theorem 4.1
Ist X N (0, 1)-verteilt, so ist X 2 χ2 (1)-verteilt.
5
Einstichprobentest des Mittelwertes (σ 2 bekannt)
Voraussetzung: X1 , . . . , Xn ∼ N (µ, σ 2 ) i.i.d.
√ X −µ
Testgröße:
T + n σ 0 ∼ N (0, 1)
Einseitig (i)
H 0 : µ ≤ µ0
HA : µ > µ0
H0 ablehnen, falls T > Φ−1 (1 − α)
Einseitig (ii)
H 0 : µ ≥ µ0
HA : µ < µ0
H0 ablehnen, falls T < Φ−1 (α)
Zweiseitig
H 0 : µ = µ0
HA : µ 6= µ0
H0 ablehnen, falls |T | > Φ−1 (1 − α2 )
Bemerkung 4.1
Wir berechnen den kritischen Wert im Falle des zweiseitigen Tests.
Es soll gelten, dass P (|Z| ≤ cα ) ≤ 1 − α ist.
P (|Z| ≤ cα ) = P (−cα ≤ Z ≤ cα ) = Φ(cα ) − Φ(−cα )
= Φ(cα ) − (1 − Φ(cα )) = 2Φ(cα ) − 1 = 1 − α
α .
−1
1
−
⇒
c
=
Φ
Also Φ(cα ) = 1 − α
α
2
2
Beispiel 4.3
Füllgewichte von Verpackungen in Gramm (Xi ): 80.5, 78.2, 76.2, 79.4, 80.0
Aus Beobachtungen wissen wir, dass die Füllgewichte X ∼ N (µ, 0.8)
Wir testen H0 : µ ≥ 80 gegen HA : µ < 80
√
√ X −µ
√ − 80 = −2.85.
T = n σ 0 = 5 78.86
0.8
Für α = 0.01 haben wir cα = Φ−1 (0.01) = −2.32.
Da T < −2.32 müssen wir H0 ablehnen, d. h., die Füllgewichte der Stichprobe liegen
unter der Norm.
Dieselbe Aussage erhalten wir durch den P -Wert Φ(−2.85) = 0.002186, der kleiner als
unser gewähltes α = 0.01 ist.
Beispiel 4.4 (Güte)
Wir berechnen nun die Güte dieses Tests, d. h., was passiert, wenn unsere Annahme über
den Mittelwert der Verteilung nicht stimmt (vgl. Abb. 2) ?
Güte g(µ) = Pµ (T > Φ−1 (1 − α)) = 1 − β-Fehler
Dazu berechnen wir den β-Fehler (einseitig H0 : ϑ < ϑ0 ) unter der Annahme, dass die
Daten ursprünglich den Mittelwert µ0 hatten
Z cα
β(µ) =
fµ (u) du = Fµ (cα )
−∞
6
also etwa im Falle der Normalverteilung
β(µ) = Φ(
C −µ
µ0 − µ
) = Φ(
+ cα )
σX
σX
wobei C = µ0 + σX cα ist, d. h., der kritische Wert umgerechnet auf die ursprüngliche
Verteilung der Daten, cα der kritische Wert der N (0, 1)-Verteilung.
Der β-Fehler beim zweiseitigen Testen ist
Z co
fµ (u) du = Fµ (co ) − Fµ (cu )
β(µ) =
−cu
wobei cu bzw. co die kritische Unter- bzw. Obergrenze der Testgröße der Originaldaten
ist.
Die Güte ist dann g(µ) = 1 − β(µ).
Beispiel 4.5
Ein Drahtseil soll eine Mindestbelastung von 1200 kp aufweisen. Aus Erfahrung kennen
wir die Standardabweichung σ = 120 kp. Wie groß muss der Mittelwert einer Stichprobe
von n = 36 mindestens sein, damit wir eine Belastbarkeit von 1200 kp mit 95 %-iger
Sicherheit attestieren können.
H0 : µ ≤ 1200
2
=
X ∼ N (1200, 20), da σX
σ2
.
n
HA : µ > 1200
Wir erhalten als untersten Wert, den X annehmen darf,
1200 − 1.65 · 20 = 1167.
Wir berechnen nun die Güte g(µ) dieses Tests für variables µ:
g(1200) = P (X < 1167|µ = 1200) = 0.05
1167 − 1180
X − 1180
<
) = 0.2578
20
20
d. h., wäre die tatsächliche Reißfestigkeit des Seils unter 1200 kp, ergäbe sich ein sicherer
Test. Das ist ein weiterer Grund, warum wir H0 und HA so gewählt haben.
g(1180) = P (X < 1167|µ = 1180) = P (
Die Abbildung 4 zeigt die Güte g(µ) dieses rechtsseitigen Tests (durchgezogene Linie)
und den β-Fehler oder auch OC-Kurve β(µ) = 1 − g(µ) dieses Tests. Hätten wir einen
linksseitigen Test durchgeführt, so wären die Rollen dieser beiden Kurven vertauscht,
d. h., der Test umso schlechter, je geringer die tatsächliche Reißfestigkeit des Drahtseils
ist, ein wohl nicht gewünschter Effekt.
Differenz der Mittel (Verbundene Stichproben)
Bei verbundenen Stichproben gehen wir von zwei abhängigen (gepaarten, verbundenen) Stichproben aus. Die Werte werden an identischen Entitäten gemessen, wie etwa bei
Vor-Nach-Vergleichen. Etwa Blutdruck vor und nach einer Behandlung. Die Differenzen
di = Yi −Xi werden dann wie im Einstichprobentest für Mittelwerte behandelt. In diesem
Abschnitt gehen wir davon aus, dass die Varianzen bekannt sind.
7
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
1100
1150
1200
1250
Abb. 4: Güte (durchgezogen) und OC-Kurve.
Beispiel 4.6
Gewicht von Schweinen vor und nach der Mast
vorher (Xi )
150
168.2
172.3
161.8
171.5
nachher (Yi )
155.2
165.5
180.6
169.2
171.8
Differenz (Di )
5.2
-2.7
8.3
7.4
0.3
Di ∼ N (µ, 4)
Wir testen einseitig auf Mittelwert 0, also H0 : µ ≤ 0 und HA : µ > 0. Wir behaupten
also, dass die Mast keine Wirkung gezeigt hat, dass kein statistisch signifikanter Effekt
vorliegt.
√
√
√ Y −X
⇒ T = 5 3.7
T = n· D
σ = n σ
2 = 4.136
Bei α = 0.05 haben wir einen kritischen Wert von Φ−1 (0.95) = 1.64. Da T > 1.64 lehnen
wir H0 ab, die Gewichte der Schweine haben also signifikant zugenommen.
8
Differenz der Mittel (Zweistichprobentest)
2
Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX
) i.i.d.
2
Y1 , . . . , Ym ∼ N (µY , σY ) i.i.d.
Xi , Yi unabhängig
σ2
σ2
2
σX und σY bekannt, σD
= nX + mY
Testgröße:
Einseitig (i)
(X −r
Y ) − (µX − µY )
∼ N (0, 1)
2
σY2
σX
+
n
m
H0 : (µX − µY ) ≤ 0
HA : (µX − µY ) > 0
H0 ablehnen, falls T > Φ−1 (1 − α)
T +
Einseitig (ii)
H0 : (µX − µY ) ≥ 0
HA : (µX − µY ) < 0
H0 ablehnen, falls T < Φ−1 (α)
Zweiseitig
H0 : (µX − µY ) = 0
HA : (µX − µY ) 6= 0
H0 ablehnen, falls |T | > Φ−1 (1 − α2 )
Beispiel 4.7 (Düngemittel)
Unterscheiden sich die Hektarerträge bei verschiedenen Düngemitteln?
2
Unabhängige Stichproben: X1 , . . . , Xn ∼ N (µX , σX
), Y1 , . . . , Ym ∼ N (µY , σY2 )
Dünger 1
(X-Stichprobe)
132.8
141.4
152.3
128.8
Dünger 2
(Y-Stichprobe)
122. 4
131.2
125.2
121.2
118.3
σY2 = 4
Y = 123.6
2
σX
=6
X = 138.8
Wir behaupten, dass die verschiedenen Düngemittel keinen signifikanten Einfluss auf die
Hektarerträge hat und testen zweiseitig.
H0 : µX = µY und HA : µX 6= µY
q
· 5 (138.8 − 123.6) = 10.023
T = 5.64+
4.4
Bei α = 0.01 haben wir T > Φ−1 (0.995) = 2.57, wir müssen also H0 ablehnen, d. h., die
Hektarerträge unterscheiden sich signifikant.
9
t-Test (Mittelwert bei unbekannter Varianz)
Voraussetzung: X1 , . . . Xn ∼ N (µ, σ 2 )
σ 2 unbekannt
√ X −µ
Testgröße:
T + n s ∼ t(n − 1)
Einseitig (i)
H 0 : µ ≤ µ0
HA : µ > µ0
H0 ablehnen, falls T > tn−1,1−α
Einseitig (ii)
H 0 : µ ≥ µ0
HA : µ < µ0
H0 ablehnen, falls T < tn−1,α = 1 − tn−1,1−α
H 0 : µ = µ0
µ 6= µ0
H0 ablehnen, falls |T | > tn−1,1− α2
n(X − µ)2
oder falls T 2 =
> F1,n−1;1−α
s2
Dieser Test ist der am häufigsten verwendete Mittelwertstest, da meistens die Varianzen
unbekannt sind und aus der Stichprobe geschätzt werden müssen.
Zweiseitig
Theorem 4.2
Falls Y t(n)-verteilt ist, ist Y 2 F (1, n)-verteilt.
♦
Ist n > 30 können wir die entsprechenden Werte der Standardnormalverteilung als kritische Werte verwenden.
Vor-Nach-Vergleiche (verbundene Stichproben)
Wie schon bei Vor-Nach-Vergleichen bei bekannter Varianz liegen auch hier verbundene
Stichproben vor, jedoch nun mit unbekannter Varianz, sodass wir die Stichprobenvarianz
der Differenzen als Schätzer verwenden müssen, und dann einen Einstichproben t-Test
für die Differenzen Di = Yi − Xi durchführen.
Beispiel 4.8
Wir wollen die Wirkung einer Diätkur testen.
Gewicht vor Diätkur (X)
73
85
68
90
77
Gewicht nach Diätkur (Y )
72
81
70
82
73
Differenzen Di
-1
-4
2
-8
-4
Die Differenzen werden einseitig auf Mittelwert 0 getestet, d. h., wir wollen zeigen, dass
die Kur keine signifikante Wirkung gehabt hat.
Wir haben also
H 0 : µD ≤ 0
und
H A : µD > 0
10
>
>
>
>
x <- c(73,85,68,90,77)
y <- c(72,81,70,82,73)
d <- x-y
t.test(x,y,alternative=c("two.sided"),mu=0,paired=TRUE,
var.equal=TRUE,conf.level=0.99)
Paired t-test
data: x and y
t = 1.7928, df = 4, p-value = 0.1475
alternative hypothesis: true difference in means is not equal to 0
99 percent confidence interval: -4.704127 10.704127
sample estimates:
mean of the differences: 3
> t.test(d,y=NULL,alternative=c("two.sided"),mu=0,paired=FALSE,
var.equal=FALSE,conf.level=0.99)
One Sample t-test
data: d
t = 1.7928, df = 4, p-value = 0.1475
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval: -4.704127 10.704127
sample estimates:
mean of x: 3
Abb. 5: R Dialog für Beispiel 4.8, zweiseitig
r
D = Y − X = −3, s =
q
n
1 P (X − X)2 = 1 (4 + 1 + 25 + 25 + 1) = 3.7416
n − 1 i=n i
4
√ (−3)
5 3.74 = −1.79
Da T > t4;0.99 = −3.747 kann H0 nicht abgelehnt werden, d. h., es ist keine signifikante
Wirkung der Diätkur nachweisbar.
T =
11
>
>
>
>
x <- c(73,85,68,90,77)
y <- c(72,81,70,82,73)
d <- x-y
t.test(d,NULL,alternative=c("less"),mu=0,paired=FALSE,
var.equal=FALSE,conf.level=0.99)
One Sample t-test
data: d
t = 1.7928, df = 4, p-value = 0.9263
alternative hypothesis: true mean is less than 0
99 percent confidence interval: NA 9.269854
sample estimates:
mean of x: 3
> t.test(d,NULL,alternative=c("greater"),mu=0,paired=FALSE,
var.equal=FALSE,conf.level=0.99)
One Sample t-test
data: d
t = 1.7928, df = 4, p-value = 0.07373
alternative hypothesis: true mean is greater than 0
99 percent confidence interval: -3.269854 NA
sample estimates:
mean of x: 3
Abb. 6: R Dialog für Beispiel 4.8, einseitig
Zweistichproben-t-Test (gleiche Varianzen)
2
) i.i.d.
Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX
Y1 , . . . , Ym ∼ N (µY , σY2 ) i.i.d.
Xi , Yi unabhängig
2
σX
= σY2 unbekannt, aber gleich für beide Stichproben
2
2
1 + 1 ) (n − 1)sX + (m − 1)sY
s2D = ( n
m
m+n−2
(X − Y ) − (µX − µY )
Testgröße:
T +
∼ t(n + m − 2)
sD
Einseitig (i)
H0 : (µX − µY ) ≤ 0
HA : (µX − µY ) > 0
H0 ablehnen, falls T > tn+m−2,1−α
Einseitig (ii)
H0 : (µX − µY ) ≥ 0
HA : (µX − µY ) < 0
H0 ablehnen, falls T < tn+m−2,α
Zweiseitig
H0 : (µX − µY ) = 0
HA : (µX − µY ) 6= 0
H0 ablehnen, falls |T | > tn+m−2,1− α2
oder falls T 2 > F1,n+m−2;1−α
Beispiel 4.9 (Schlafverlängerung bei 2 Medikamenten)
Medikament 1 (Xi )
Medikament 2 (Yj )
1.4 0.8 2.1 0.4
0.2 0.0 1.4 1.2
Verschiedene Patienten, d. h., unabhängige Stichproben!
12
0.3
Abb. 7: Schlafverlängerung von Medikamenten (MS Excel).
n = 5, m = 4, X = 1.0, Y = 0.7.
P
(n − 1)s2X = (Xi − X)2 = 2.26
(m − 1)s2Y =
P
(Yi − Y )2 = 1.48.
1.0 − 0.7
= 0.61
1 1 1
( + ) (2.26 + 1.48)
5 4 7
T =r
Wir testen zweiseitig mit α = 0.01: H0 : µX = µY und HA : µX 6= µY .
Da T < t7,0.995 = 3.5, kann H0 nicht abgelehnt werden, d. h., beide Medikamente haben
dieselbe Wirkung.
Zweistichproben-t-Test (verschiedene Varianzen)
2
) i.i.d.
Voraussetzung: X1 , . . . , Xn ∼ N (µX , σX
2
Y1 , . . . , Ym ∼ N (µY , σY ) i.i.d.
Xi , Yi unabhängig
2
σX
6= σY2 unbekannt
σ2
σ2
s4D
s2D = nX + mY , nD = 2
s
s2
( X )2
( Y )2
n + m
n−1
m−1
(X − Y ) − (µX − µY )
Testgröße:
T +
∼ t(nD )
sD
Einseitig (i)
H0 : (µX − µY ) ≤ 0
HA : (µX − µY ) > 0
H0 ablehnen, falls T > tnD ,1−α
Einseitig (ii)
H0 : (µX − µY ) ≥ 0
HA : (µX − µY ) < 0
H0 ablehnen, falls T < tnD ,α
Zweiseitig
H0 : (µX − µY ) = 0
HA : (µX − µY ) 6= 0
H0 ablehnen, falls |T | > tnD ,1− α2
Bemerkung 4.2 (Behrens-Fisher Problem)
2
Falls σX
6= σY2 und unbekannt, so gibt es keine sinnvolle Teststatistik, die unabhängig
13
von σX und σY ist.
Einstichprobentest der Varianz
Voraussetzung: X1 , . . . , Xn ∼ N (µ, σ 2 ) i.i.d.
n
(n − 1)s2
1 P (X − X)2 ∼ χ2 (n − 1)
Testgröße:
T +
=
i
σ02
σ02 i=1
Einseitig (i)
H0 : σ 2 ≤ σ02
HA : σ 2 > σ02
H0 ablehnen, falls T > χ2n−1,1−α
Einseitig (ii)
H0 : σ 2 ≥ σ02
HA : σ 2 < σ02
H0 ablehnen, falls T < χ2n−1,α
Bemerkung 4.3
Obige Teststatistik T ist nur dann χ2 (n − 1)-verteilt, wenn µ bekannt ist, sonst ist sie
χ2 (n)-verteilt und die Formeln gelten entsprechend mit n statt n − 1.
Beispiel 4.10
Toleranzen bei Lagerwellen: Sollwert σ02 = 0.01 bei µ = 3.3; α = 0.05.
Daten: 3.5, 3.2, 3.1, 3.5, 3.2,
X = 3.3
H0 : σ 2 ≤ σ02 und HA : σ 2 > σ02
P
2
i (Xi − X) = 0.04 + 0.01 + 0.04 + 0.04 + 0.01 = 0.14
P
Da T = 12 (Xi − X)2 = 14 > χ24;0.95 = 9.49 muss H0 auf dem 5%-Niveau abgelehnt
σ0
werden, d. h., die Varianz – und damit die Toleranz – ist signifikant größer als 0.01.
F -Test zum Vergleich zweier Varianzen
2
Voraussetzung: X1 , . . . , Xn ∼ N (µx , σX
) i.i.d.
2
Y1 , . . . , Ym ∼ N (µy , σY ) i.i.d.
s2
Testgröße:
T = X
∼ F (n − 1, m − 1)
s2Y
2
2
Einseitig (i)
H0 : σX
≤ σY2
HA : σX
> σY2
H0 ablehnen, falls T > Fn−1,m−1;1−α
Einseitig (ii)
Zweiseitig
H0
H0
H0
H0
2
2
: σX
≥ σY2
HA : σX
< σY2
ablehnen, falls T < Fn−1,m−1;α
2
2
: σX
= σY2
HA : σX
6= σY2
ablehnen, falls T < Fn−1,m−1; α2 oder T > Fn−1,m−1;1− α2
Theorem 4.3
Es gilt Fn,m;α = F 1
(Vertauschung der Freiheitsgrade!).
m,n;1−α
14
Bemerkung 4.4 P
Wir wissen, dass σ12 i (Xi − X)2 ∼ χ2 (n − 1).
Daraus und aus dem nächsten Satz folgt die Verteilung obiger Testgröße.
1
Theorem 4.4
X
X ∼ χ2 (n) und Y ∼ χ2 (m) so ist n1 ∼ F (n, m).
Y
m
Beispiel 4.11
Vergleich zweier Toleranzen:
1. Stichprobe (Xi )
2. Stichprobe (Yi )
X = 3.4
Y = 3.3
3.0 3.4 3.6
3.5 3.2 3.1
3.6
3.5
3.2
n=4 m=5
2
2
6= σY2 .
= σY2 und HA : σX
H0 : σX
1 P(X − X)2 = 1 (0.16. + 0 + 0.04 + 0.04) = 0.08
s2X = n −
i
1
3
P
s2Y = m 1− 1 (Yi − Y )2 = 14 (0.04 + 0.01 + 0.04 + 0.04 + 0.01) = 0.035
0.08 = 2.286 < F
Da F = 0.035
3,4;0.99 = 16.7 kann H0 bei α = 0.01 nicht abgelehnt werden,
d. h., die beiden Varianzen (Toleranzen) sind nicht signifikant verschieden.
15
Aufgaben zum Testen
Projekt zum Testen:
Generiere 1000 Standard-normalverteilte Samples (N (0, 1)) und transformiere diese so,
dass bei Angabe zweier beliebiger Parameter µ und σ 2 aus diesen N (µ, σ 2 )-verteilte Samples werden.
Generiere damit N (17, 25)-verteilte Samples und wähle (extrahiere) aus diesen zufällig n
Daten (n zufällige Indizes aus den Indizes 1–1000). Berechne sodann den Mittelwert und
die Sample-Varianz dieser n Daten. Teste die Nullhypothese H0 : µ = 15 einmal einseitig,
einmal zweiseitig mit diesen n Daten. Berechne zu diesen Tests die Gütefunktion.
Weiters teste die Varianz unter der Annahme σ = 20.
Setze n = 10, 25, 70, 120 und vergleiche die Ergebnisse.
4.1
Von einer Zufallsvariablen X sei bekannt: X ∼ N (µ, 5)
Eine Stichprobe lieferte folgende Werte:
−1
0
3
4
2
1 −3
1 −5
0
6 −3 −1 −4 −3 −2
4 −5 −3 −1
Es ist die Hypothese H0 : µ = 0 gegen die Alternative HA : µ 6= 0 mit
a)
α = 0.05
b)
α = 0.01
zu testen.
c)
Teste die Hypothese H0 mit α = 0.05 (0.01) ohne die Information über die Varianz
der Grundgesamtheit !
/
4.2
Für eine Zufallsvariable X sei bekannt: X ∼ N (µ, 4)
Eine Stichprobe vom Umfang 25 ergab: X = 14.70.
Es ist die Hypothese H0 : µ = 14 gegen die Alternative
a)
HA : µ > 14
b)
HA : µ < 14
c)
HA : µ 6= 14
zu testen (α = 0.05 bzw. 0.01) !
/
16
4.3
In einer Grundgesamtheit ist ein Merkmal normalverteilt mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 2500. Es soll die Hypothese H0 : µ = 100 gegenüber
HA : µ 6= 100 getestet werden. Es liegt eine Stichprobe vom Umfang n = 100 vor.
a)
Bestimme für α = 0, 05 den Annahmebereich für H0 !
b)
Bestimme β (Fehler 2. Art) bei Gültigkeit von: µ=105, 110, 115 !
c)
Fertige eine Skizze der Operationscharakteristik und der Macht des Tests an !
/
4.4
Die Tabelle enthält Beobachtungen aus einem englischen Zinnwalzwerk. Teste unter Annahme, die unabhängigen Stichproben stammen aus normalverteilten Grundgesamtheiten
mit gleicher Varianz, ob die Arbeitsleistung von der Jahreszeit abhängt (α = 0.05) !
Jahreszeit
Sommer
Winter
Relative Arbeitsleistung
92.2 84.8 97.2 102.8
107.7 85.7 102.5 102.6
/
4.5
Verbrauchen Forellen in schnell fließendem Wasser mehr Sauerstoff als in langsam fließendem (α = 0.05) ?
Fluss
schnell
langsam
108 122
85 152
Sauerstoffverbrauch
144 126 107 115 114 97 96 126
83 69 95 87 71 94 83 94
Die unabhängigen Stichproben stammen aus normalverteilten Grundgesamtheiten mit
gleicher Varianz !
/
4.6
Ein Schweinezüchter verwendet 2 Arten von Futtermittel. Besteht ein signifikanter Unterschied zwischen diesen Futtermitteln (α = 0.05) ?
Futter A
Futter B
Gewicht der Jungschweine in kg
33 66 26 43 46 55 54
53 53 37 73 58 61 38
a)
Die unabhängigen Stichproben stammen aus normalverteilten Grundgesamtheiten mit gleicher Varianz.
b)
Die Varianz σ 2 der Grundgesamtheit betrage 100 kg2 .
/
17
4.7
Ein neuer Werkstoff wird nur dann öffentlich zugelassen, wenn seine mittlere Zugfestigkeit mehr als 300 kp beträgt. Durch frühere Untersuchungen ist bekannt, dass die Standardabweichung der Zugfestigkeit solcher Werkstoffe immer 24 kp beträgt. Es wurden 64
Materialtests durchgeführt.
a)
Wie müssen Null- und Alternativhypothese festgelegt werden, wenn nachgewiesen
werden soll, dass ein neuer Werkstoff geeignet ist ?
b)
Ein (statistisch ungebildeter) Entscheidungsträger legt fest, dass ein neuer Werkstoff nur dann als geeignet anzusehen ist, wenn die obige Stichprobe vom Umfang
n = 64 einen Mittelwert über dem Normalwert von 302 kp aufweist. Wie groß ist
bei einem solchen Vorgehen die Wahrscheinlichkeit für einen Fehler 1. Art ?
c)
Ermittle einen Nominalwert, der bei einer Irrtumswahrscheinlichkeit von 0,01
geeignet ist, über die Zulassung eines neuen Materials zu entscheiden !
d)
Vergleiche die beiden Entscheidungsverfahren aus b) und c) (d.h., den Normmittelwert von 302 kp bzw. den bei α = 0.01 errechneten Normmittelwert) hinsichtlich ihrer Güte ganz allgemein und konkret für den Fall, dass ein Material eine
wahre mittlere Zugfestigkeit von 302 kp aufweist !
/
4.8
Es liegt eine normalverteilte Grundgesamtheit mit unbekanntem Mittelwert µ und bekannter Streuung σ 2 = 2.56 vor. Es soll die Hypothese H0 : µ < 12 gegenüber HA : µ ≥ 12
mit α = 0.05 aus einer Stichprobe mit dem Umfang n = 36 getestet werden !
a)
Gib den Rückweisungsbereich der Stichprobenfunktion für x an !
b)
Berechne und zeichne die Gütefunktion !
/
4.9
Besteht ein signifikanter Unterschied zwischen den beiden Mittelwerten (95 %) ?
1. Stichprobe
2. Stichprobe
110 120 110 140 130
130 140 120 110 120
/
18
4.10
Teste die Hypothese, dass der Anteil der einsilbigen Wörter bei beiden Dichtern gleich
groß ist (95 %) !
Anzahl
der Silben
1
2
3
4
5
n
Goethe
Lichtenberg
587
410
146
49
8
1200
539
317
136
49
7
1048
/
4.11
Es liegen 2 unabhängige Stichproben aus normalverteilten Grundgesamtheiten vor:
n1 = 1000 X 1 = 78 s21 = 112
n2 = 1200 X 2 = 76 s22 = 120
Teste die Hypothese H0 : µ1 = µ2 gegen HA : µ1 6= µ2 (α = 0.05) unter der Annahme,
a)
dass gleiche Varianzen vorliegen !
b)
dass verschiedene Varianzen vorliegen !
c)
dass beide Stichproben dieselbe Varianz σ12 = σ22 = σ 2 = 115 aufweisen !
/
4.12
Gegeben sind 2 unabhängige Stichproben aus normalverteilten Grundgesamtheiten:
A
B
75 20 70 70 85 90
20 35 55 50 65 40
100
40
35 85 90
35
Ist der Unterschied zwischen den Varianzen signifikant ?
4.13
/
Der Benzinverbrauch zweier Autotypen wurde stichprobenweise erhoben:
A
B
Benzinverbrauch in ` pro 100 km im Stadtverkehr
20.3 13.7 13.8 12.4 16.0 12.5 19.4 30.1 35.6 24.6
19.9 13.2 8.8 11.7 14.6 14.1 21.8 25.5 35.1 25.5
a)
Teste unter der Annahme, dass die Stichproben aus normalverteilten Grundgesamtheiten mit gleicher Varianz stammen, ob der Benzinverbrauch gleich ist !
b)
Teste die Annahme gleicher Varianzen !
/
19
4.14
Mendel erzielte 1865 bei einem seiner berühmten Kreuzungsversuche folgendes Ergebnis:
355 gelbe Erbsen
123 grüne Erbsen
Nach seiner Theorie müsste sich die Zahl der gelben Erbsen zur Zahl der grünen Erbsen
wie 3:1 verhalten.
Spricht die Stichprobe bei einem Fehler von α = 1 % für die Richtigkeit der Mendel’schen
Vererbungssätze ?
/
20

Zugehörige Unterlagen

Übung 9

4 Testen von Hypothesen

Zugehörige Unterlagen

Produkte

Unterstützung

4 Testen von Hypothesen

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können