Statistik II – Übung 3: Hypothesentests

Werbung
Statistik II – Übung 3: Hypothesentests
Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum
Vergleich der Mittelwerte und Verteilungen zweier Stichproben). Verwenden Sie dazu den Datensatz
“Arbeitsmarktdaten.sav“. Bitte bearbeiten Sie Aufgaben 1-5 in Gruppen von bis zu 4 Studierenden
(vergessen Sie nicht die Namen!) und reichen Sie die Lösungen VOR der 3. PC Übung ein.
1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.
1seitiger Hypothesentest: linksseitiger Test
seitiger Hypothesentest: rechtsseitiger Test
2seitiger Hypothesentest:
2. Was versteht man unter einem Konfidenzinterval? Wie wird es gebildet und was sagt es aus?
3. Überprüfen Sie anhand des 1-Stichproben t-Tests, ob der Mittelwert der Variable
„befristArbeit“ (1 falls jemand eine befristete Arbeitsstelle über eine italienische
Arbeitsagentur erhalten hat und 0 falls nicht) signifikant verschieden von 0.5 ist.
Analysieren > Mittelwerte Vergleich > T-Test bei einer Stichprobe> Testvariable(n): befristArbeit >
Testwert: 0.5 > OK
Statistik bei einer Stichprobe
N
befristArbeit
Standardabweic
Standardfehler
hung
des Mittelwertes
Mittelwert
1117
.21
.404
.012
Test bei einer Sichprobe
Testwert = .5
95% Konfidenzintervall der
Differenz
Mittlere
T
befristArbeit
df
-24.410
Sig. (2-seitig)
1116
Differenz
.000
Untere
-.295
Obere
-.32
-.27
4. Überprüfen Sie anhand des 2-Stichproben t-Tests, ob sich das mittlere Gehalt (siehe Variable
„Gehalt“, welche zeitlich später gemessen wurde als „befristArbeit“) in den Gruppen mit
„befristArbeit“=1 und „befristArbeit“=0 signifikant unterscheidet. Kommentieren Sie auch,
ob „Gehalt“ eine signifikant unterschiedliche Varianz in beiden Gruppen aufweist und was
dies für den 2-Stichproben t-Test bedeutet.
Analysieren > Mittelwerte Vergleich > T-Test bei unabhängigen Stichproben > Testvariable(n):
Gehalt > Gruppierungsvariable: befristArbeit;
Gruppen definieren > Angegebene Werte
verwenden: Gruppe1 (1), Gruppe2 (0) > Weiter > OK
Gruppenstatistiken
befristArbeit
Gehalt
N
Mittelwert
Standardabweic
Standardfehler
hung
des Mittelwertes
1
229
540.24
453.922
29.996
0
888
243.26
461.684
15.493
Test bei unabhängigen Stichproben
Levene-Test der
Varianzgleichheit
T-Test für die Mittelwertgleichheit
95%
Konfidenzintervall der
Signifik
F
Gehal
Varianzen
t
sind gleich
13.154
anz
T
.000 8.709
df
Sig. (2-
Mittlere
Standardfehler
seitig)
Differenz
der Differenz
Differenz
Untere
Obere
1115
.000
296.980
34.101
230.071 363.888
8.797 359.304
.000
296.980
33.761
230.586 363.373
Varianzen
sind nicht
gleich
5. Regressieren Sie „Gehalt“ auf „befristArbeit“ und vergleichen Sie die Ergebnisse
(insbesondere die t-Statistiken und p-Werte) mit jenen von Aufgabe 4.
Analysieren > Regression > Linear > Abhängige Variable: Gehalt > Unabhängige Variable:
befristArbeit > ok
Koeffizienten
a
Standardisierte
Nicht standardisierte Koeffizienten
Koeffizienten
Regressionskoe
Modell
1
ffizientB
Standardfehler
(Konstante)
243.257
15.440
befristArbeit
296.980
34.101
Beta
T
.252
Sig.
15.755
.000
8.709
.000
a. Abhängige Variable: Gehalt
6. Überprüfen Sie, ob die Varianz der Variablen „Bildung“ signifikant unterschiedlich ist in den
Gruppen mit „Training“=1 und „Training“=0.
Analysieren > Mittelwerte Vergleich > Einfaktorielle Varianzanalyse (One Way Anova) >
Abhängige Variable: Bildung > Faktor: Training (1 0) > Optionen: Test Homogenität der Varianzen
> Weiter > Ok
Test der Homogenität der Varianzen
Bildung
Levene-Statistik
22.153
df1
df2
1
1115
Signifikanz
.000
7. Zeigen Sie die Verteilung von „Gehalt“ in den Gruppen mit „befristArbeit“=1 und
„befristArbeit“=0 grafisch. Besteht Ähnlichkeit zur Normalverteilung?
Daten > Fälle auswählen > Falls Bedingung trifft > Falls > befristArbeit > =0 > Weiter > ok
Analysieren> Deskriptive Statistiken> Häufigkeiten > Variablen: Gehalt > Diagramme:
Histogramme > Normalverteilungskurve anzeigen > Weiter > ok
Daten > Fälle auswählen > Falls Bedingung trifft > Falls > befristArbeit > =1 > Weiter > ok
Nein, keine Normalverteilung.
befristArbeit =0
befristArbeit =1
8. Verwenden Sie einen Q-Q-Plot um die Ähnlichkeit der Verteilung von „Gehalt“ in den
Gruppen mit „befristArbeit“=1 und „befristArbeit“=0 zur Normalverteilung zu überprüfen.
Daten > Fälle auswählen > Falls Bedingung trifft > Falls > befristArbeit > =0 > Weiter > ok
Analysieren> Deskriptive Statistiken> Q-Q-Diagramme > Variablen: Gehalt > ok
Daten > Fälle auswählen > Falls Bedingung trifft > Falls > befristArbeit > =1 > Weiter > ok
Analysieren> Deskriptive Statistiken> Q-Q-Diagramme > Variablen: Gehalt > ok
Daten > Fälle auswählen > Alle Fälle
befristArbeit =0
befristArbeit =1
9. Verwenden Sie den Mann Whitney U-Test um zu überprüfen, ob sich das mittlere Gehalt
(siehe Variable „Gehalt“, welche zeitlich später gemessen wurde als „befristArbeit“) in den
Gruppen mit „befristArbeit“=1 und „befristArbeit“=0 signifikant unterscheidet. Inwiefern
unterscheidet sich dieser Test vom t-Test?
Mann Whitney U-Test ist nichtparametrischer Test basierend Rängen – unterstellt keine
Normalverteilung
Analysieren > Nicht parametrische Tests > Unabhängige Stichproben > Felder > Testfelder: Gehalt
> Gruppen: befristArbeit > Einstellungen > Tests anpassen > Mann Whitney U (2 Stichproben) >
Ausführen
10. Verwenden Sie den Kolmogorov Smirnov Test um zu überprüfen, ob sich die Verteilungen
von
(a) „Gehalt“ und (b) „Bildung“ in den Gruppen mit „befristArbeit“=1 und
„befristArbeit“=0 signifikant voneinander unterscheiden.
Analysieren > Nicht parametrische Tests > Unabhängige Stichproben > Felder > Testfelder:
Gehalt, Bildung > Gruppen: befristArbeit > Einstellungen > Tests anpassen > Kolmogorov-Smirnov
(2 Stichproben) > Ausführen
11. Verwenden Sie die einfaktorielle Varianzanalyse, um zu überprüfen, (a) ob sich “Gehalt” für
verschiedene Ausprägungen von “Bildung” signifikant unterscheidet und (b) falls ja, zwischen
welchen Ausprägungen von “Bildung” signifikante Unterschiede bestehen (verwenden Sie für
letztere Analyse die Methode „Tamhane’s T2“ für ungleiche Varianzen für verschiedene
Ausprägungen von „Bildung“).
Analysieren > Mittelwerte Vergleich > Einfaktorielle Varianzanalyse (One Way Anova) >
Abhängige Variable:
Gehalt > Faktor: Bildung > Post Hoc: (keine Varianzverleichheit
angenommen) Tamhane’s T2 > Signifikanzniveau =0.05 > Weiter > ok
Test der Homogenität der Varianzen
Gehalt
Levene-Statistik
df1
22.240
df2
2
Signifikanz
1114
.000
Einfaktorielle ANOVA
Gehalt
Mittel der
Quadratsumme
df
Quadrate
F
36.662
Zwischen den Gruppen
15568850.569
2
7784425.285
Innerhalb der Gruppen
236531958.327
1114
212326.713
Gesamt
252100808.896
1116
Signifikanz
.000
Mehrfachvergleiche
Abhängige Variable: Gehalt
Tamhane
95%-Konfidenzintervall
Mittlere
(I) Bildung
0
(J) Bildung
1
2
1
0
2
2
0
1
Differenz (I-J)
Standardfehler
Signifikanz
Untergrenze
Obergrenze
-115.054
*
26.023
.000
-177.30
-52.81
-401.121
*
64.981
.000
-558.02
-244.23
115.054
*
26.023
.000
52.81
177.30
-286.067
*
64.915
.000
-442.81
-129.33
401.121
*
64.981
.000
244.23
558.02
286.067
*
64.915
.000
129.33
442.81
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
12. Generieren Sie neue Variablen für unterschiedliche Ausprägungen von „Bildung“:
„geringBild“ (geringe Bildung; soll 1 sein falls „Bildung“=0 und 0 sein falls „Bildung“=1 oder
2), „mittlereBild“ (mittlere Bildung; soll 1 sein falls „Bildung“=1 und 0 sein falls „Bildung“=0
oder 2), „hoheBild“ (hohe Bildung; soll 1 sein falls „Bildung“=2 und 0 sein falls „Bildung“=0
oder 1)
Transformieren > Variable berechnen > Zielvariable: geringBild > Numerischer Ausdruck:
Bildung=0
Transformieren > Variable berechnen > Zielvariable: mittlereBild > Numerischer Ausdruck:
Bildung=1
Transformieren > Variable berechnen > Zielvariable: hoheBild > Numerischer Ausdruck: Bildung=2
13. Regressieren Sie “Gehalt” auf „mittlereBild“ und „hoheBild“ um zu testen, ob sich das Gehalt
für verschiedene Bildungsniveaus signifikant unterscheidet.
Analysieren > Regression > Linear > Abhängige Variable: Gehalt > Unabhängige: mittlereBild,
hoheBild > ok
Koeffizienten
a
Standardisierte
Nicht standardisierte Koeffizienten
Koeffizienten
Regressionskoe
Modell
1
ffizientB
Standardfehler
(Konstante)
195.397
23.576
mittlereBild
115.054
30.103
hoheBild
401.121
46.923
Beta
T
Sig.
8.288
.000
.121
3.822
.000
.270
8.548
.000
a. Abhängige Variable: Gehalt
14. Regressieren Sie “Gehalt” auf „geringBild“ und „mittlereBild“ um zu testen, ob sich das
Gehalt für verschiedene Bildungsniveaus signifikant unterscheidet. Inwiefern unterscheiden
sich die Ergebnisse von jenen in Aufgabe 11 bzw stimmen mit jenen überein?
Analysieren > Regression > Linear > Abhängige Variable: Gehalt > Unabhängige Variable:
geringBild, mittlereBild > ok
Koeffizienten
a
Standardisierte
Nicht standardisierte Koeffizienten
Koeffizienten
Regressionskoe
Modell
1
ffizientB
(Konstante)
Standardfehler
596.518
40.570
geringBild
-401.121
46.923
mittlereBild
-286.067
44.680
Beta
T
Sig.
14.703
.000
-.401
-8.548
.000
-.300
-6.403
.000
a. Abhängige Variable: Gehalt
15. Warum können Sie „Gehalt“ nicht gleichzeitig (also in der selben Regression) auf
„geringBild“, „mittlereBild“ und „hoheBild“ regressieren?
Multikollinearität
16. Regressieren Sie „Gehalt“ auf „geringBild“, „mittlereBild“, „Training“ und „befristArbeit“
und testen Sie anhand des F-tests, ob die Koeffizienten aller Variablen gemeinsam signifikant
verschieden von Null sind. Zeigen Sie auch für jeden Koeffizienten das jeweilige 95%
Konfidenzintervall.
Analysieren > Regression > Linear > Abhängige Variable: Gehalt > Unabhängige Variable:
geringBild, mittlereBild, Training, befristArbeit > Statistik: Konfidenzintervalle > Weiter > ok
a
ANOVA
Mittel der
Modell
1
Quadratsumme
Regression
Nicht standardisierte
Residuen
Gesamt
df
Quadrate
F
41.202
32540846.794
4
8135211.698
219559962.103
1112
197446.009
252100808.896
1116
Sig.
.000
a. Abhängige Variable: Gehalt
b. Einflußvariablen : (Konstante), befristArbeit, Training, geringBild, mittlereBild
Koeffizienten
a
Standardisierte
Nicht standardisierte Koeffizienten
Koeffizienten
Regressionskoe
Modell
1
ffizientB
(Konstante)
Standardfehler
548.228
40.502
geringBild
-409.599
45.306
mittlereBild
-322.060
Training
befristArbeit
Beta
T
Sig.
13.536
.000
-.409
-9.041
.000
43.271
-.338
-7.443
.000
23.430
28.034
.024
.836
.403
304.420
33.201
.259
9.169
.000
a. Abhängige Variable: Gehalt
17. Gegeben den Regressionskoeffizienten und den Standardfehler in Aufgabe 16:
a. Formulieren Sie die Nullhypothese, dass das Gehalt der hochgebildeten Personen
ohne Training und ohne befristete Arbeitsstelle, im Durchschnitt, 300 Euro beträgt.
𝐻0 : 𝛽0 = 300
b. Berechnen Sie die t-Statistik für die Nullhypothese in (a).
𝑡 𝛽̂0 =
𝛽̂0 − 𝛽0 548.228 − 300
=
≈ 6,13
40.502
𝑠𝑒(𝛽̂0 )
c. Wird die Nullhypothese in (b) auf dem 5% Signifikanzniveau abgelehnt?
Verwerfungsregel: |𝑡 𝛽̂𝑡𝑟 | > 𝑐
|6,13| > 1,96
𝐻0 wird verworfen
b
d. Berechnen Sie die t-Statistik für die Nullhypothese, dass das mittlere Gehalt der
Personen mit Training mindestens 10 Euro höher ist, als das mittlere Gehalt der
Personen ohne Training aber mit gleichem Bildungsniveau und gleicher Arbeitsstelle.
𝐻0 : 𝛽𝑇𝑟𝑎𝑖𝑛𝑖𝑛𝑔 ≥ 10
𝑡 𝛽̂𝑡𝑟 =
e.
𝛽̂𝑡𝑟 − 𝛽𝑡𝑟 23.430 − 10
=
≈ 0,48
28.034
𝑠𝑒(𝛽̂𝑡𝑟 )
Wird die Nullhypothese in (d) auf dem 5% Signifikanzniveau abgelehnt?
Verwerfungsregel: 𝑡 𝛽̂𝑡𝑟 < −𝑐
0,48 > −1,645
𝐻0 wird nicht verworfen
18. Eine Verbraucherorganisation will mit Hilfe einer Zufallsstichprobe von 100 Bierflaschen
prüfen, ob der Durchschnitt der normalverteilten Abfüllmenge dem Sollinhalt von 0,5 Litern
entspricht. Die durchschnittliche Abfüllmenge in der gezogenen Zufallsstichprobe beträgt
0,47 Liter. Die (geschätzte) Standardabweichung der Abfüllmenge in der Stichprobe beträgt
0,05 Liter. Was schliessen Sie aus der Analyse dieser Stichprobe: wird die Nullhypothese, dass
die durchschnittliche Abfüllmenge dem Sollinhalt entspricht, am dem 5% Signifikanz-Niveau
verworfen?
𝐻0 : 𝜇 = 0,5
𝑡100 =
𝑋̅100 − 𝜇
𝑠𝑑/√𝑛
=
0,47 − 0,5
0,05/√100
=
−0,03
= −6
0,005
|−6| > 1,987
Die Nullhypothese, dass der Durchschnitt der Abfüllmenge dem Sollinhalt entspricht, wird auf
dem 5% Niveau abgelehnt.
Herunterladen