Vorlesungsbegleitende Einführung in die lineare Regression mit SPSS Beispiel 1: Feldexperiment (einfache Regression) Wir wollen den Effekt von einer (zufälligen) Zuteilung ins sogenannte “Job Corps” Programm (Bildungsprogramm für sozial benachteiligte Individuen zwischen 16 und 24 Jahren) auf das Lohneinkommen im 3. Jahr nach der Zuteilung schätzen. Wir verwenden dazu den Datensatz “Job Corps data.sav“. Die abhängige Variable „earny3“ gibt das wöchentliche Lohneinkommen (in US Dollar) an, die unabhängige Variable „assignment“ gibt an, ob jemand in das Programm (zufällig) zugeteilt wurde („assignment“=1) oder nicht („assignment“=0). 1. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für die Variablen „earny3“ und „assignment“ und kommentieren Sie diese kurz. Analyze > Descriptive Statistics > Descriptives 2. Untersuchen Sie den Zusammenhang zwischen „earny3“ und „assignment“ visuell anhand eines Streudiagramms (mit „earny3“ auf der Y-Achse und „assignment“ auf der X-Achse). Graphs > Legacy Dialogs > Scatter/Dot > Simple Scatter > Y Axis: earny3 > X Axis: assignment 3. Fügen Sie eine lineare Regressionslinie zu Ihrem Streudiagramm hinzu. Double click on graph and add regression line by clicking on regression line icon 4. Regressieren Sie „earny3“ (linear) auf „assignment“. Analyze > regression > linear > Dependent: earny3 > Independent: assignment 5. Vergleichen Sie dies zu den Mittelwerten von „earny3“ für „assignment=1“ und „assignment=0“ und zum t-Test für Unterschiede in den Mittelwerten Analyze > Compare means > Means > Dependent List: earny3 > Independent List: assignment Analyze > Compare means > Independent Samples T Test > Test Variable: earny3 > Grouping Variable: assignment > Define Groups (1 and 0) > OK Beispiel 2: Nachfrage nach Bio-Äpfeln (multivariate Regression) Wir wollen den Zusammenhang zwischen der Nachfrage nach Bio-Äpfeln und den Preisen für „reguläre“ Äpfel und Bio-Äpfel sowie mehreren individuellen Charakteristiken (Geschlecht, Bildung, Familieneinkommen) schätzen. Wir verwenden dazu den Datensatz “BioApfelNachfrage.sav“. Die abhängige Variable „BioNachfr“ gibt die Nachfrage des Haushalts nach Bio-Äpfeln in Pfund an, die unabhängigen Variablen sind „BioPreis“ (Preis für Bio-Äpfel in US Dollar), „regPreis“ (Preis für „reguläre“ Äpfel in US Dollar), „Mann“ (1 falls befragte Person männlich, 0 falls weiblich), „Bildung“ (Bildung in Jahren) und „FamEink“ (Familieneinkommen in 1000 US Dollar). 1. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für die Variablen „BioNachfr“, BioPreis“, „regPreis“, „Mann“, „Bildung“ und „FamEink“ und kommentieren Sie diese kurz. Analyze > Descriptive Statistics > Descriptives 2. Regressieren Sie „BioNachfr“ (linear) auf „BioPreis“, „regPreis“, „Mann“, „Bildung“ und „FamEink“ und kommentieren Sie die Ergebnisse. Welche erklärenden Variablen weisen einen statistisch signifikanten Zusammenhang mit „BioNachfr“ auf? Analyze > regression > linear > Dependent: BioNachfr > Independent: BioPreis, RegPreis, Mann, Bildung, FamEink Beispiel 3: Geburtsgewicht (Hypothesentests) Wir verwenden den Datensatz “Geburtsgewicht.sav“ zur Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier Stichproben). 1. Überprüfen Sie anhand des 1-Stichproben t-Tests, ob der Mittelwert der Variable „GebGewichtPfund“, welche das Geburtsgewicht eines Neugeborenen in Pfund misst, signifikant verschieden von 8 ist. Analyze > Compare Means > One Sample T Test > Test Variable(s): GebGewichtPfund > Test Value: 8 > OK 2. Überprüfen Sie anhand des 2-Stichproben t-Tests, ob sich das mittlere Geburtsgewicht (siehe Variable „GebGewichtPfund“, welche zeitlich später gemessen wurde als „befristArbeit“) in den Gruppen mit „Junge“=1 (das Neugeborene ist ein Junge) und „Junge“=0 (das Neugeborene ist ein Mädchen) signifikant unterscheidet. Analyze > Compare Means > Independent Samples T Test > Test Variable(s): GebGewichtPfund > Grouping Variable: Junge (1 0) > OK 3. Überprüfen Sie, ob die Varianz der Variablen „GebGewichtPfund“ signifikant unterschiedlich ist für unterschiedliche Werte von „BildungMutter“ (Bildung der Mutter in Schuljahren). Analyze > Compare Means > One Way Anova > Dependent List: Bildung > Factor: BildungMutter > Options: Homogeneity of Variance test > Continue > Ok 4. Zeigen Sie die Verteilung von „GebGewichtPfund“ in der Gruppe mit „Junge“=1 grafisch anhand von Histogrammen. Besteht Ähnlichkeit zur Normalverteilung? Data > Select cases > If condition is satisfied > Junge = 1 > continue > ok Analyze > Descriptive Statistics > Frequencies > Variable(s): GebGewichtPfund > Charts: Histograms > show normal curve on histogram > continue > ok Data > Select cases > All cases > ok 5. Verwenden Sie den Kolmogorov Smirnov Test um zu überprüfen, ob sich die Verteilungen von (a) „GebGewichtPfund“ und (b) „BildungMutter“ in den Gruppen mit „Junge“=1 und „Junge“=0 signifikant voneinander unterscheiden. Analyze > Nonparametric Tests > Independent Samples > Fields > Test Fields: GebGewichtPfund, BildungMutter > Groups: Junge > Settings > Customize Tests > Kolmogorov-Smirnov (2 samples) > run 6. Generieren Sie eine neue Variable „ZigNeu“ für unterschiedliche Ausprägungen von „Zigaretten“ (täglicher Zigarettenkonsum während der Schwangerschaft): „ZigNeu“ soll (a) gleich 0 sein falls „Zigaretten“=0, (b) gleich 1 sein falls „Zigaretten“=1-10 und (c) gleich 2 sein falls „Zigaretten“>10. Transform > Compute variable (Zigaretten>0)+(Zigaretten>10) > ok > Target Variable: ZigNeu > Numeric expression: 7. Verwenden Sie die einfaktorielle Varianzanalyse, um zu überprüfen, (a) ob sich “GebGewichtPfund” für verschiedene Ausprägungen von “ ZigNeu ” signifikant unterscheidet und (b) falls ja, zwischen welchen Ausprägungen von “ ZigNeu ” signifikante Unterschiede bestehen (verwenden Sie für letztere Analyse die Methode „Tamhane’s T2“ für ungleiche Varianzen für verschiedene Ausprägungen von „Bildung“). Analyze > Compare Means > One Way Anova > Dependent List: Gehalt > Factor: ZigNeu > Post Hoc: Tamhane’s T2 > continue > ok Beispiel 4: Geburtsgewicht (Skalierung) Wir verwenden den Datensatz “Geburtsgewicht.sav“ zwecks Skalierung diverser Variablen. 1. Generieren Sie die „GebGewichtPfund“. Variable „LogGebGewichtPfund” als Logarithmus von Transform > Compute variable > Target Variable: LogGebGewichtPfund > Numeric expression: LN(GebGewichtPfund) > ok 2. Zeigen Sie die Verteilung von „LogGebGewichtPfund“ anhand eines Histogramms und legen Sie die Normalverteilung zwecks Vergleichs über die Grafik. Ähnelt die Verteilung von „LogGebGewichtPfund“ der Normalverteilung? Analyze > Descriptive Statistics > Frequencies > Variable(s): LogGebGewichtPfund > Charts: Histograms > show normal curve on histogram > continue > ok 3. Generieren Sie eine neue Variable „ZigarettenDurch2“ als „Zigaretten“ dividiert durch 2. Transform > Compute variable > Target Variable: ZigarettenDurch2 > Numeric expression: Zigaretten /2 > ok