induktive statistik

Werbung
Dr. Jürgen Senger
INDUKTIVE STATISTIK
Wahrscheinlichkeitstheorie, Schätz- und Testverfahren
ÜBUNG 11.2 - LÖSUNGEN
1.
Differenztest für den Mittelwert (abhängige Stichproben)
Zwei Verfahren zum Nachweis eines hormonalen Dopingmittels sollen miteinander
verglichen werden; dazu wurden 10 zufällig entnommene Blutproben von gesunden
Erwachsenen in je eine A- und eine B-Probe aufgeteilt und mit den beiden Verfahren getrennt untersucht.
Wir unterscheiden die beiden Zufallsvariablen
Xi : Hormongehalt der A-Probe i mit Methode A gemessen
Yi : Hormongehalt der B-Probe i mit Methode B gemessen
Die Stichproben im Umfang n = 10 haben folgende Differenzen des Hormongehalts ergeben:
zi = xi − yi :
1, 0, 2, 3, −1, 2, 0, 2, −1, 0
[%o]
Die mittlere Differenz der Messergebnisse und ihre Varianz betrugen
1 10
1
z = ∑ zi = ⋅ 8 = 0,8
10 i =1
10
s z2
1 10
1 10
1
2
=
( zi − z ) =
( zi − 0,8) 2 = ⋅17,6 = 1,9 5
∑
∑
10 − 1 i =1
10 − 1 i =1
9
s z = s z2 = 1,39841
Wir testen die Hypothese, dass beide Verfahren im Durchschnitt zum selben Messergebnis führen, für das Signifikanzniveau α = 5%!
Die Nullhypothese lautet
H 0 : μ = μ0 = 0
und die Alternativhypothese
H1 : μ ≠ μ 0 = 0
Senger – Induktive Statistik
ÜBUNG 11.2 - LÖSUNGEN
2
Parametertest für den Mittelwert μ = μ1 − μ 2 :
[1] Signifikanzniveau:
α = 0,05
⇒ 1 − α = 0,95
[2] Quantile der t-Verteilung mit ν = n−1 Freiheitsgraden, da n < 30:
⎛α ⎞ ⎛ α ⎞
− t ⎜ ⎟ = t ⎜1 − ⎟ = t (0,975) = 2,26 aus t-Tabelle für n − 1 = 9
⎝2⎠ ⎝ 2⎠
[3] Stichprobenmittel (Testgröße) und Stichprobenvarianz:
z = 0,8 , s 2 = 1,9 5 , s = 1,398
[4] Berechnung der kritischen Abweichung:
Δz = t ⋅ σˆ Z = t ⋅
s
1,398 3,15948
= 2,26 ⋅
=
= 0,999 ≈ 1
n
10 3,16228
[5] Bestimmung des Annahmebereichs:
μ − Δz ≤ z ≤ μ + Δz
μ =0!
− Δz ≤ z ≤ Δz
−1 ≤ z ≤ 1
[6] Entscheidung über die Annahme
− 1 < z = 0,8 < 1
Das Stichprobenmittel (Testgröße) z liegt im Annahmebereich. Der Unterschied zwischen den beiden Stichprobenmittelwerten ist nicht signifikant. Die Nullhypothese, dass beide Messmethoden im Durchschnitt zum
selben Resultat führen, wird bei einem Signifikanzniveau von α = 5%
durch den Test bestätigt und angenommen.
Wird alternativ als Testgröße die t-verteilte Zufallsvariable
V=
Z −μ Z
=
S
S
n
n
mit μ = 0
gewählt, dann verläuft der Zweistichprobentest in folgenden Schritten:
Senger – Induktive Statistik
ÜBUNG 11.2 - LÖSUNGEN
3
Parametertest für den Mittelwert μ = μ1 − μ 2 :
[1] Signifikanzniveau: α = 0,05
⇒ 1 − α = 0,95
[2] Testfunktion:
v=
z
0,8
⋅ n=
⋅ 10 = 0,572 ⋅ 10 = 1,81
s
1,398
[3] Quantile (aus t-Tabelle):
⎛α
⎞ ⎛ α
⎞
− t ⎜ ; n − 1⎟ = t ⎜1 − ; n − 1⎟ = t (0,975; 9) = 2,26
⎝2
⎠ ⎝ 2
⎠
[4] Bestimmung des Annahmebereichs:
− 2,26 ≤ v =
z
⋅ n ≤ 2,26
s
[5] Entscheidung über die Annahme
− 2,26 < v = 1,81 < 2,26
Die Testgröße v liegt im Annahmebereich. Die Nullhypothese wird bei einem Signifikanzniveau von α = 5% durch den Test bestätigt und angenommen.
2.
Differenztest für den Mittelwert (unabhängige Stichproben)
Eine Stichprobenerhebung des monatlichen Einkommens bei 31 BWL- und 33
VWL-Studenten ergab bei den BWL-Studenten mit 760 € im Durchschnitt ein höheres Einkommen als bei den VWL-Studenten mit 690 €.
Es wird angenommen, dass das Einkommen normalverteilt und die Standardabweichung σ 1 = σ 2 = σ = 100 aus früheren Erhebungen bekannt ist.
Es soll geprüft werden, ob ein signifikanter Unterschied zwischen den Einkommen
der BWL-Studenten und der VWL-Studenten besteht.
Wir unterscheiden die Zufallsvariablen:
X: Einkommen eines BWL-Studenten
Y: Einkommen eines VWL-Studenten
Die Stichproben haben ergeben:
n1 = 31
Senger – Induktive Statistik
, x = 760
, σ 1 = 100
, σ 12 = 10000
ÜBUNG 11.2 - LÖSUNGEN
, σ 2 = 100
, y = 690
n2 = 33
4
, σ 22 = 10000
Das durchschnittliche Einkommen der BWL-Studenten war in den Stichproben
größer als das der VWL-Studenten. Wir testen daher die Hypothese, dass der Einkommensunterschied nicht signifikant, sondern zufallsbedingt war. Das Signifikanzniveau ist mit α = 4% gegeben.
Die Nullhypothese und die Alternativhypothese lauten
H 0 : μ1 = μ 2
H1 : μ1 ≠ μ 2
;
Differenztest für den Mittelwert
[1] Signifikanzniveau:
α = 0,04
⇒ 1 − α = 0,96
[2] Testfunktion:
v=
x−y
σ 12
n1
=
+
σ 22
=
σ
n2
x−y
=
1 1
+
σ
n1 n2
x−y
x−y
=
n2
n
n1 + n2
+ 1
σ
n1n2 n1n2
n1n2
760 − 690
70
70
70
70
=
=
=
=
= 2,8
8
1 25
31 + 33
64
100
⋅
100
⋅
100 ⋅
100 ⋅
31,984
4
31 ⋅ 33
1023
[3] Quantile der Testverteilung N(0;1)
⎛α ⎞
⎛ α⎞
− c ⎜ ⎟ = c ⎜1 − ⎟ = c (0,98) = 2,054
⎝2⎠
⎝ 2⎠
[4] Bestimmung des Annahmebereichs:
–2,054 ≤ v ≤ 2,054
[5] Entscheidung über die Annahme
2,054 < v = 2,8
Die Testgröße v liegt nicht im Annahmebereich. Die Nullhypothese wird
bei einer Irrtumswahrscheinlichkeit von α = 4% durch den Test widerlegt
und verworfen.
Der Einkommensunterschied zwischen den BWL-Studenten und den
VWL-Studenten ist signifikant; die Alternativhypothese H1 wird durch
den Test bestätigt und angenommen.
Senger – Induktive Statistik
ÜBUNG 11.2 - LÖSUNGEN
3.
5
Differenztest für den Anteilswert
Eine Wählerbefragung soll klären, ob sich das Wahlverhalten von Frauen und
Männern unterscheidet. Dazu wurden je 200 zufällig ausgewählte wahlberechtigte
Frauen und Männer nach ihren Präferenzen gefragt. 70 Frauen, aber nur 60 Männer
gaben an, dass sie den Kandidaten der Regierungskoalition wählen würden.
Wir unterscheiden die Zufallsvariablen
X: Anzahl der Frauen, die die Regierungskoalition wählen würden
Y: Anzahl der Männer, die die Regierungskoalition wählen würden
Die Stichproben ergaben:
n1 = 200
, x = 70 ,
, p1 =
x
70
=
= 0,35
n1 200
n2 = 200
, y = 60 ,
, p2 =
y
60
=
= 0,3
n2 200
Der Anteil der Frauen, die die Regierungskoalition wählen würden, betrug 35% und
der Anteil der Männer 30%. Wir testen daher, ob der Unterschied der Wähleranteile
zufallsbedingt war oder ob sich das Wahlverhalten von Frauen und Männern signifikant unterscheidet. Das Signifikanzniveau ist mit α = 0,03 gegeben.
Die Nullhypothese lautet
H 0 : π1 = π 2
und die Alternativhypothese
H1 : π 1 ≠ π 2
Zweiseitiger Differenztest für den Anteilswert
[1] Signifikanzniveau:
α = 0,03
[2] Testfunktion:
Schätzwert für π
p=
Senger – Induktive Statistik
x+ y
70 + 60
130
=
=
= 0,325
n1 + n2 200 + 200 400
ÜBUNG 11.2 - LÖSUNGEN
6
Testgröße
v=
p1 − p2
=
n1 + n2
p (1 − p )
n1n2
0,35 − 0,30
0,325 (1 − 0,325)
70 + 60
70 ⋅ 60
0,05
=
0,325 ⋅ 0,675
130
4200
=
0,05
0,2194 0,03095
=
0,05
0,05
=
0,00679 0,0824
= 0,6068 ≈ 0,61
[3] Quantile der Testverteilung (N(0;1)-Verteilung):
⎛ α⎞
c ⎜1 − ⎟ = c (0,985) = 2,170 aus N(0;1)-Tabelle
⎝ 2⎠
[4] Bestimmung des Annahmebereichs:
–2,170 ≤ v ≤ 2,170
oder | v | ≤ 2,170
[5] Entscheidung über die Annahme:
–2,170 < v = 0,61 < 2,170
Die Testgröße v liegt im Annahmebereich. Der Unterschied zwischen dem
Anteil der Frauen und dem Anteil der Männer, die den Kandidaten der Regierungskoalition wählen würden, ist nicht signifikant.
Die Nullhypothese H 0 , dass sich das Wahlverhalten von Frauen und
Männern nicht unterscheidet, wird beim Signifikanzniveau α = 3% durch
den Test bestätigt und angenommen.
Die Alternativhypothese H1 , dass sich das Wahlverhalten von Frauen und
Männern signifikant unterscheidet, wird durch den Test widerlegt und daher verworfen.
Senger – Induktive Statistik
ÜBUNG 11.2 - LÖSUNGEN
4.
7
Quotiententest für die Varianz
Ein Hersteller von Handys garantiert für die verwendeten Akkus eine hohe Standby-Zeit. Durch eine Stichprobe soll überprüft werden, ob ein neuer Akkutyp II die
Varianz der Standby-Zeit gegenüber dem alten Akkutyp I reduziert hat.
Wir unterscheiden die beiden Zufallsvariablen
X : Standby-Zeit des Akkutyps I [h] ; N ( μ1 ;σ 1 )
Y : Standby-Zeit des Akkutyps II [h] ; N ( μ 2 ;σ 2 )
Die Stichproben haben ergeben:
n1 = 24
, x = 210
, s1 = 10
s12 = 100
n2 = 21
, y = 225
, s2 = 15
s22 = 225
Die Stichprobenvarianz der Standby-Zeit war beim Akkutyp I kleiner als beim Akkutyp II. Durch einen Test soll geprüft werden, ob der in den Stichproben beobachtete Unterschied der Varianzen bei den beiden Akkutypen durch den Zufall erklärt
werden kann oder ob er auf einen signifikanten Unterschied der Varianzen in der
Grundgesamtheit σ 12 und σ 22 hindeutet.
Annahmegemäß ist die Standby-Zeit der Akkus normalverteilt; N ( μ1 ;σ 1 ) für den
Akkutyp I und N ( μ 2 ;σ 2 ) für den Akkutyp II. Weder die Mittelwerte μ1 und μ 2
noch die Varianzen σ 1 und σ 2 der Grundgesamtheiten sind bekannt.
Die Anwendungsvoraussetzungen für den Varianzquotiententest sind also erfüllt.
Wir führen daher einen zweiseitigen Quotiententest für die Varianzen durch. Das
Signifikanzniveau ist mit α = 0,02 gegeben.
Die Nullhypothese und die Alternativhypothese lauten
H 0 : σ 12 = σ 22
H1 : σ 12 ≠ σ 22
Zweiseitiger Varianzquotiententest (Homogenitätstest)
[1] Signifikanzniveau:
α = 0,02
; 1 − α = 0,98
[2] Testfunktion:
v=
Senger – Induktive Statistik
s22
s12
=
225
= 2,25
100
ÜBUNG 11.2 - LÖSUNGEN
8
[3] Quantile der Testverteilung (F-Verteilung mit ν1, ν2 Freiheitsgraden):
F2 = F (0,99; 20; 23) = 2,78
F1 = F (0,01; 20; 23) =
1
1
=
= 0,346
F (0,99;23;20) 2,892
mit
F (0,99;23;20) = 2,94 − (2,94 − 2,78)
23 − 20
= 2,892
30 − 20
[4] Bestimmung des Annahmebereichs:
0,346 ≤ v ≤ 2,78
[5] Entscheidung über die Annahme:
0,346 < v=2,25 < 2,78
Die Testgröße v liegt im Annahmebereich. Der Unterschied zwischen den
Varianzen der Standby-Zeit der beiden Akkutypen in den Stichproben ist
nicht signifikant. Die Nullhypothese (Varianzhomogenität) wird bei einem
Signifikanzniveau von α = 2% durch den Test bestätigt und angenommen.
Die Alternativhypothese H1 , dass die Varianzen der Standby-Zeit der beiden Akkutypen differieren (Varianzinhomogenität), wird durch den Test
widerlegt.
5.
Differenztest für den Mittelwert (unabhängige Stichproben, Varianz unbekannt)
Die Stichproben der Aufgabe 4 sollen nun dazu verwendet werden, zu testen, ob
der neue Akkutyp im Durchschnitt eine längere Standby-Zeit hat.
Wir unterscheiden wieder die beiden Zufallsvariablen
X : Standby-Zeit des Akkutyps I [h] ; N ( μ1 ;σ 1 )
Y : Standby-Zeit des Akkutyps II [h] ; N ( μ 2 ;σ 2 )
Die Stichproben haben ergeben:
n1 = 24
, x = 210
, s1 = 10
s12 = 100
n2 = 21
, y = 225
, s2 = 15
s22 = 225
Die durchschnittliche Standby-Zeit des neuen Akkutyps II war in der Stichprobe
etwas größer als die durchschnittliche Standby-Zeit des alten Akkutyps I. Wir testen daher die Hypothese, dass die durchschnittliche Standby-Zeit der beiden Akku-
Senger – Induktive Statistik
ÜBUNG 11.2 - LÖSUNGEN
9
typen gleich ist, der festgestellte Unterschied nicht signifikant, sondern zufallsbedingt war. Das Signifikanzniveau ist wieder mit α = 0,02 gegeben.
Da die Varianzen der Standby-Zeit der beiden Akkutypen nicht bekannt sind, können wir den Differenztest für den Mittelwert nur unter Annahme der Varianzhomogenität durchführen, die wir bereits in Aufgabe 4 getestet haben.
Die Nullhypothese lautet
H 0 : μ1 = μ 2
und die Alternativhypothese
H1 : μ1 ≠ μ 2
Zweiseitiger Differenztest für den Mittelwert (Varianz unbekannt):
[1] Signifikanzniveau:
α = 0,02
[2] Testfunktion:
Stichprobenvarianz (gepoolt)
s=
(n1 − 1) s12 + (n2 − 1) s22
=
n1 + n2 − 2
(24 − 1) ⋅100 + (21 − 1) ⋅ 225
= 12,58
24 + 21 − 2
Testgröße
v=
=
x−y
n1 + n2
s
n1n2
210 − 225
− 15
− 15
− 15
= −3,99
=
=
=
24 + 21
45 12,58 ⋅ 0,2988 3,759
s
12,58
24 ⋅ 21
504
[3] Quantile der Testverteilung (t-Verteilung mit 43 Freiheitsgraden):
⎛ α
⎞
t ⎜1 − ; n1 + n2 − 2 ⎟ = t (0,99; 45 − 2) = 2,416
⎝ 2
⎠
[4] Bestimmung des Annahmebereichs:
–2,416 ≤ v ≤ 2,416
Senger – Induktive Statistik
ÜBUNG 11.2 - LÖSUNGEN
10
[5] Entscheidung über die Annahme:
–2,416 < v = 3,99 ≤ 2,416
Die Testgröße v liegt nicht im Annahmebereich. Der Unterschied zwischen
den durchschnittlichen Standby-Zeiten der beiden Akkutypen ist signifikant
Die Nullhypothese H 0 , dass die durchschnittliche Standby-Zeit der beiden
Akkutypen gleich ist, wird bei einer Irrtumswahrscheinlichkeit von
α = 2% durch den Test widerlegt und daher verworfen.
Die Alternativhypothese H1 , dass sich die durchschnittliche Standby-Zeit
der beiden Akkutypen signifikant unterscheidet, wird durch den Test bestätigt und angenommen.
Senger – Induktive Statistik
Herunterladen