Statistik II – Übung 3: Hypothesentests Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier Stichproben). Verwenden Sie dazu den Datensatz “Arbeitsmarktdaten.sav“. Bitte bearbeiten Sie Aufgaben 1-5 in Gruppen von bis zu 4 Studierenden (vergessen Sie nicht die Namen!) und reichen Sie die Lösungen VOR der 3. PC Übung ein. 1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest. 1seitiger Hypothesentest: linksseitiger Test seitiger Hypothesentest: rechtsseitiger Test 2seitiger Hypothesentest: 2. Was versteht man unter einem Konfidenzinterval? Wie wird es gebildet und was sagt es aus? 3. Überprüfen Sie anhand des 1-Stichproben t-Tests, ob der Mittelwert der Variable „befristArbeit“ (1 falls jemand eine befristete Arbeitsstelle über eine italienische Arbeitsagentur erhalten hat und 0 falls nicht) signifikant verschieden von 0.5 ist. Analysieren > Mittelwerte Vergleich > T-Test bei einer Stichprobe> Testvariable(n): befristArbeit > Testwert: 0.5 > OK Statistik bei einer Stichprobe N befristArbeit Standardabweic Standardfehler hung des Mittelwertes Mittelwert 1117 .21 .404 .012 Test bei einer Sichprobe Testwert = .5 95% Konfidenzintervall der Differenz Mittlere T befristArbeit df -24.410 Sig. (2-seitig) 1116 Differenz .000 Untere -.295 Obere -.32 -.27 4. Überprüfen Sie anhand des 2-Stichproben t-Tests, ob sich das mittlere Gehalt (siehe Variable „Gehalt“, welche zeitlich später gemessen wurde als „befristArbeit“) in den Gruppen mit „befristArbeit“=1 und „befristArbeit“=0 signifikant unterscheidet. Kommentieren Sie auch, ob „Gehalt“ eine signifikant unterschiedliche Varianz in beiden Gruppen aufweist und was dies für den 2-Stichproben t-Test bedeutet. Analysieren > Mittelwerte Vergleich > T-Test bei unabhängigen Stichproben > Testvariable(n): Gehalt > Gruppierungsvariable: befristArbeit; Gruppen definieren > Angegebene Werte verwenden: Gruppe1 (1), Gruppe2 (0) > Weiter > OK Gruppenstatistiken befristArbeit Gehalt N Mittelwert Standardabweic Standardfehler hung des Mittelwertes 1 229 540.24 453.922 29.996 0 888 243.26 461.684 15.493 Test bei unabhängigen Stichproben Levene-Test der Varianzgleichheit T-Test für die Mittelwertgleichheit 95% Konfidenzintervall der Signifik F Gehal Varianzen t sind gleich 13.154 anz T .000 8.709 df Sig. (2- Mittlere Standardfehler seitig) Differenz der Differenz Differenz Untere Obere 1115 .000 296.980 34.101 230.071 363.888 8.797 359.304 .000 296.980 33.761 230.586 363.373 Varianzen sind nicht gleich 5. Regressieren Sie „Gehalt“ auf „befristArbeit“ und vergleichen Sie die Ergebnisse (insbesondere die t-Statistiken und p-Werte) mit jenen von Aufgabe 4. Analysieren > Regression > Linear > Abhängige Variable: Gehalt > Unabhängige Variable: befristArbeit > ok Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell 1 ffizientB Standardfehler (Konstante) 243.257 15.440 befristArbeit 296.980 34.101 Beta T .252 Sig. 15.755 .000 8.709 .000 a. Abhängige Variable: Gehalt 6. Überprüfen Sie, ob die Varianz der Variablen „Bildung“ signifikant unterschiedlich ist in den Gruppen mit „Training“=1 und „Training“=0. Analysieren > Mittelwerte Vergleich > Einfaktorielle Varianzanalyse (One Way Anova) > Abhängige Variable: Bildung > Faktor: Training (1 0) > Optionen: Test Homogenität der Varianzen > Weiter > Ok Test der Homogenität der Varianzen Bildung Levene-Statistik 22.153 df1 df2 1 1115 Signifikanz .000 7. Zeigen Sie die Verteilung von „Gehalt“ in den Gruppen mit „befristArbeit“=1 und „befristArbeit“=0 grafisch. Besteht Ähnlichkeit zur Normalverteilung? Daten > Fälle auswählen > Falls Bedingung trifft > Falls > befristArbeit > =0 > Weiter > ok Analysieren> Deskriptive Statistiken> Häufigkeiten > Variablen: Gehalt > Diagramme: Histogramme > Normalverteilungskurve anzeigen > Weiter > ok Daten > Fälle auswählen > Falls Bedingung trifft > Falls > befristArbeit > =1 > Weiter > ok Nein, keine Normalverteilung. befristArbeit =0 befristArbeit =1 8. Verwenden Sie einen Q-Q-Plot um die Ähnlichkeit der Verteilung von „Gehalt“ in den Gruppen mit „befristArbeit“=1 und „befristArbeit“=0 zur Normalverteilung zu überprüfen. Daten > Fälle auswählen > Falls Bedingung trifft > Falls > befristArbeit > =0 > Weiter > ok Analysieren> Deskriptive Statistiken> Q-Q-Diagramme > Variablen: Gehalt > ok Daten > Fälle auswählen > Falls Bedingung trifft > Falls > befristArbeit > =1 > Weiter > ok Analysieren> Deskriptive Statistiken> Q-Q-Diagramme > Variablen: Gehalt > ok Daten > Fälle auswählen > Alle Fälle befristArbeit =0 befristArbeit =1 9. Verwenden Sie den Mann Whitney U-Test um zu überprüfen, ob sich das mittlere Gehalt (siehe Variable „Gehalt“, welche zeitlich später gemessen wurde als „befristArbeit“) in den Gruppen mit „befristArbeit“=1 und „befristArbeit“=0 signifikant unterscheidet. Inwiefern unterscheidet sich dieser Test vom t-Test? Mann Whitney U-Test ist nichtparametrischer Test basierend Rängen – unterstellt keine Normalverteilung Analysieren > Nicht parametrische Tests > Unabhängige Stichproben > Felder > Testfelder: Gehalt > Gruppen: befristArbeit > Einstellungen > Tests anpassen > Mann Whitney U (2 Stichproben) > Ausführen 10. Verwenden Sie den Kolmogorov Smirnov Test um zu überprüfen, ob sich die Verteilungen von (a) „Gehalt“ und (b) „Bildung“ in den Gruppen mit „befristArbeit“=1 und „befristArbeit“=0 signifikant voneinander unterscheiden. Analysieren > Nicht parametrische Tests > Unabhängige Stichproben > Felder > Testfelder: Gehalt, Bildung > Gruppen: befristArbeit > Einstellungen > Tests anpassen > Kolmogorov-Smirnov (2 Stichproben) > Ausführen 11. Verwenden Sie die einfaktorielle Varianzanalyse, um zu überprüfen, (a) ob sich “Gehalt” für verschiedene Ausprägungen von “Bildung” signifikant unterscheidet und (b) falls ja, zwischen welchen Ausprägungen von “Bildung” signifikante Unterschiede bestehen (verwenden Sie für letztere Analyse die Methode „Tamhane’s T2“ für ungleiche Varianzen für verschiedene Ausprägungen von „Bildung“). Analysieren > Mittelwerte Vergleich > Einfaktorielle Varianzanalyse (One Way Anova) > Abhängige Variable: Gehalt > Faktor: Bildung > Post Hoc: (keine Varianzverleichheit angenommen) Tamhane’s T2 > Signifikanzniveau =0.05 > Weiter > ok Test der Homogenität der Varianzen Gehalt Levene-Statistik df1 22.240 df2 2 Signifikanz 1114 .000 Einfaktorielle ANOVA Gehalt Mittel der Quadratsumme df Quadrate F 36.662 Zwischen den Gruppen 15568850.569 2 7784425.285 Innerhalb der Gruppen 236531958.327 1114 212326.713 Gesamt 252100808.896 1116 Signifikanz .000 Mehrfachvergleiche Abhängige Variable: Gehalt Tamhane 95%-Konfidenzintervall Mittlere (I) Bildung 0 (J) Bildung 1 2 1 0 2 2 0 1 Differenz (I-J) Standardfehler Signifikanz Untergrenze Obergrenze -115.054 * 26.023 .000 -177.30 -52.81 -401.121 * 64.981 .000 -558.02 -244.23 115.054 * 26.023 .000 52.81 177.30 -286.067 * 64.915 .000 -442.81 -129.33 401.121 * 64.981 .000 244.23 558.02 286.067 * 64.915 .000 129.33 442.81 *. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant. 12. Generieren Sie neue Variablen für unterschiedliche Ausprägungen von „Bildung“: „geringBild“ (geringe Bildung; soll 1 sein falls „Bildung“=0 und 0 sein falls „Bildung“=1 oder 2), „mittlereBild“ (mittlere Bildung; soll 1 sein falls „Bildung“=1 und 0 sein falls „Bildung“=0 oder 2), „hoheBild“ (hohe Bildung; soll 1 sein falls „Bildung“=2 und 0 sein falls „Bildung“=0 oder 1) Transformieren > Variable berechnen > Zielvariable: geringBild > Numerischer Ausdruck: Bildung=0 Transformieren > Variable berechnen > Zielvariable: mittlereBild > Numerischer Ausdruck: Bildung=1 Transformieren > Variable berechnen > Zielvariable: hoheBild > Numerischer Ausdruck: Bildung=2 13. Regressieren Sie “Gehalt” auf „mittlereBild“ und „hoheBild“ um zu testen, ob sich das Gehalt für verschiedene Bildungsniveaus signifikant unterscheidet. Analysieren > Regression > Linear > Abhängige Variable: Gehalt > Unabhängige: mittlereBild, hoheBild > ok Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell 1 ffizientB Standardfehler (Konstante) 195.397 23.576 mittlereBild 115.054 30.103 hoheBild 401.121 46.923 Beta T Sig. 8.288 .000 .121 3.822 .000 .270 8.548 .000 a. Abhängige Variable: Gehalt 14. Regressieren Sie “Gehalt” auf „geringBild“ und „mittlereBild“ um zu testen, ob sich das Gehalt für verschiedene Bildungsniveaus signifikant unterscheidet. Inwiefern unterscheiden sich die Ergebnisse von jenen in Aufgabe 11 bzw stimmen mit jenen überein? Analysieren > Regression > Linear > Abhängige Variable: Gehalt > Unabhängige Variable: geringBild, mittlereBild > ok Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell 1 ffizientB (Konstante) Standardfehler 596.518 40.570 geringBild -401.121 46.923 mittlereBild -286.067 44.680 Beta T Sig. 14.703 .000 -.401 -8.548 .000 -.300 -6.403 .000 a. Abhängige Variable: Gehalt 15. Warum können Sie „Gehalt“ nicht gleichzeitig (also in der selben Regression) auf „geringBild“, „mittlereBild“ und „hoheBild“ regressieren? Multikollinearität 16. Regressieren Sie „Gehalt“ auf „geringBild“, „mittlereBild“, „Training“ und „befristArbeit“ und testen Sie anhand des F-tests, ob die Koeffizienten aller Variablen gemeinsam signifikant verschieden von Null sind. Zeigen Sie auch für jeden Koeffizienten das jeweilige 95% Konfidenzintervall. Analysieren > Regression > Linear > Abhängige Variable: Gehalt > Unabhängige Variable: geringBild, mittlereBild, Training, befristArbeit > Statistik: Konfidenzintervalle > Weiter > ok a ANOVA Mittel der Modell 1 Quadratsumme Regression Nicht standardisierte Residuen Gesamt df Quadrate F 41.202 32540846.794 4 8135211.698 219559962.103 1112 197446.009 252100808.896 1116 Sig. .000 a. Abhängige Variable: Gehalt b. Einflußvariablen : (Konstante), befristArbeit, Training, geringBild, mittlereBild Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten Regressionskoe Modell 1 ffizientB (Konstante) Standardfehler 548.228 40.502 geringBild -409.599 45.306 mittlereBild -322.060 Training befristArbeit Beta T Sig. 13.536 .000 -.409 -9.041 .000 43.271 -.338 -7.443 .000 23.430 28.034 .024 .836 .403 304.420 33.201 .259 9.169 .000 a. Abhängige Variable: Gehalt 17. Gegeben den Regressionskoeffizienten und den Standardfehler in Aufgabe 16: a. Formulieren Sie die Nullhypothese, dass das Gehalt der hochgebildeten Personen ohne Training und ohne befristete Arbeitsstelle, im Durchschnitt, 300 Euro beträgt. 𝐻0 : 𝛽0 = 300 b. Berechnen Sie die t-Statistik für die Nullhypothese in (a). 𝑡 𝛽̂0 = 𝛽̂0 − 𝛽0 548.228 − 300 = ≈ 6,13 40.502 𝑠𝑒(𝛽̂0 ) c. Wird die Nullhypothese in (b) auf dem 5% Signifikanzniveau abgelehnt? Verwerfungsregel: |𝑡 𝛽̂𝑡𝑟 | > 𝑐 |6,13| > 1,96 𝐻0 wird verworfen b d. Berechnen Sie die t-Statistik für die Nullhypothese, dass das mittlere Gehalt der Personen mit Training mindestens 10 Euro höher ist, als das mittlere Gehalt der Personen ohne Training aber mit gleichem Bildungsniveau und gleicher Arbeitsstelle. 𝐻0 : 𝛽𝑇𝑟𝑎𝑖𝑛𝑖𝑛𝑔 ≥ 10 𝑡 𝛽̂𝑡𝑟 = e. 𝛽̂𝑡𝑟 − 𝛽𝑡𝑟 23.430 − 10 = ≈ 0,48 28.034 𝑠𝑒(𝛽̂𝑡𝑟 ) Wird die Nullhypothese in (d) auf dem 5% Signifikanzniveau abgelehnt? Verwerfungsregel: 𝑡 𝛽̂𝑡𝑟 < −𝑐 0,48 > −1,645 𝐻0 wird nicht verworfen 18. Eine Verbraucherorganisation will mit Hilfe einer Zufallsstichprobe von 100 Bierflaschen prüfen, ob der Durchschnitt der normalverteilten Abfüllmenge dem Sollinhalt von 0,5 Litern entspricht. Die durchschnittliche Abfüllmenge in der gezogenen Zufallsstichprobe beträgt 0,47 Liter. Die (geschätzte) Standardabweichung der Abfüllmenge in der Stichprobe beträgt 0,05 Liter. Was schliessen Sie aus der Analyse dieser Stichprobe: wird die Nullhypothese, dass die durchschnittliche Abfüllmenge dem Sollinhalt entspricht, am dem 5% Signifikanz-Niveau verworfen? 𝐻0 : 𝜇 = 0,5 𝑡100 = 𝑋̅100 − 𝜇 𝑠𝑑/√𝑛 = 0,47 − 0,5 0,05/√100 = −0,03 = −6 0,005 |−6| > 1,987 Die Nullhypothese, dass der Durchschnitt der Abfüllmenge dem Sollinhalt entspricht, wird auf dem 5% Niveau abgelehnt.