Einführende OLS Übung in SPSS

Werbung
Vorlesungsbegleitende Einführung in die lineare Regression mit SPSS
Beispiel 1: Feldexperiment (einfache Regression)
Wir wollen den Effekt von einer (zufälligen) Zuteilung ins sogenannte “Job Corps” Programm
(Bildungsprogramm für sozial benachteiligte Individuen zwischen 16 und 24 Jahren) auf das
Lohneinkommen im 3. Jahr nach der Zuteilung schätzen. Wir verwenden dazu den Datensatz “Job
Corps data.sav“. Die abhängige Variable „earny3“ gibt das wöchentliche Lohneinkommen (in US
Dollar) an, die unabhängige Variable „assignment“ gibt an, ob jemand in das Programm (zufällig)
zugeteilt wurde („assignment“=1) oder nicht („assignment“=0).
1. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für die Variablen
„earny3“ und „assignment“ und kommentieren Sie diese kurz.
Analyze > Descriptive Statistics > Descriptives
2. Untersuchen Sie den Zusammenhang zwischen „earny3“ und „assignment“ visuell anhand
eines Streudiagramms (mit „earny3“ auf der Y-Achse und „assignment“ auf der X-Achse).
Graphs > Legacy Dialogs > Scatter/Dot > Simple Scatter > Y Axis: earny3 > X Axis: assignment
3. Fügen Sie eine lineare Regressionslinie zu Ihrem Streudiagramm hinzu.
Double click on graph and add regression line by clicking on regression line icon
4. Regressieren Sie „earny3“ (linear) auf „assignment“.
Analyze > regression > linear > Dependent: earny3 > Independent: assignment
5. Vergleichen Sie dies zu den Mittelwerten von „earny3“ für „assignment=1“ und
„assignment=0“ und zum t-Test für Unterschiede in den Mittelwerten
Analyze > Compare means > Means > Dependent List: earny3 > Independent List: assignment
Analyze > Compare means > Independent Samples T Test > Test Variable: earny3 > Grouping
Variable: assignment > Define Groups (1 and 0) > OK
Beispiel 2: Nachfrage nach Bio-Äpfeln (multivariate Regression)
Wir wollen den Zusammenhang zwischen der Nachfrage nach Bio-Äpfeln und den Preisen für
„reguläre“ Äpfel und Bio-Äpfel sowie mehreren individuellen Charakteristiken (Geschlecht, Bildung,
Familieneinkommen) schätzen. Wir verwenden dazu den Datensatz “BioApfelNachfrage.sav“. Die
abhängige Variable „BioNachfr“ gibt die Nachfrage des Haushalts nach Bio-Äpfeln in Pfund an, die
unabhängigen Variablen sind „BioPreis“ (Preis für Bio-Äpfel in US Dollar), „regPreis“ (Preis für
„reguläre“ Äpfel in US Dollar), „Mann“ (1 falls befragte Person männlich, 0 falls weiblich), „Bildung“
(Bildung in Jahren) und „FamEink“ (Familieneinkommen in 1000 US Dollar).
1. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für die Variablen
„BioNachfr“, BioPreis“, „regPreis“, „Mann“, „Bildung“ und „FamEink“ und kommentieren Sie
diese kurz.
Analyze > Descriptive Statistics > Descriptives
2. Regressieren Sie „BioNachfr“ (linear) auf „BioPreis“, „regPreis“, „Mann“, „Bildung“ und
„FamEink“ und kommentieren Sie die Ergebnisse. Welche erklärenden Variablen weisen
einen statistisch signifikanten Zusammenhang mit „BioNachfr“ auf?
Analyze > regression > linear > Dependent: BioNachfr > Independent: BioPreis, RegPreis, Mann,
Bildung, FamEink
Beispiel 3: Geburtsgewicht (Hypothesentests)
Wir verwenden den Datensatz “Geburtsgewicht.sav“ zur Anwendung diverser Hypothesentests (zum
Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier Stichproben).
1. Überprüfen Sie anhand des 1-Stichproben t-Tests, ob der Mittelwert der Variable
„GebGewichtPfund“, welche das Geburtsgewicht eines Neugeborenen in Pfund misst,
signifikant verschieden von 8 ist.
Analyze > Compare Means > One Sample T Test > Test Variable(s): GebGewichtPfund > Test Value: 8
> OK
2. Überprüfen Sie anhand des 2-Stichproben t-Tests, ob sich das mittlere Geburtsgewicht (siehe
Variable „GebGewichtPfund“, welche zeitlich später gemessen wurde als „befristArbeit“) in
den Gruppen mit „Junge“=1 (das Neugeborene ist ein Junge) und „Junge“=0 (das
Neugeborene ist ein Mädchen) signifikant unterscheidet.
Analyze > Compare Means > Independent Samples T Test > Test Variable(s): GebGewichtPfund >
Grouping Variable: Junge (1 0) > OK
3. Überprüfen Sie, ob die Varianz der Variablen „GebGewichtPfund“ signifikant unterschiedlich
ist für unterschiedliche Werte von „BildungMutter“ (Bildung der Mutter in Schuljahren).
Analyze > Compare Means > One Way Anova > Dependent List: Bildung > Factor: BildungMutter >
Options: Homogeneity of Variance test > Continue > Ok
4. Zeigen Sie die Verteilung von „GebGewichtPfund“ in der Gruppe mit „Junge“=1 grafisch
anhand von Histogrammen. Besteht Ähnlichkeit zur Normalverteilung?
Data > Select cases > If condition is satisfied > Junge = 1 > continue > ok
Analyze > Descriptive Statistics > Frequencies > Variable(s): GebGewichtPfund > Charts: Histograms >
show normal curve on histogram > continue > ok
Data > Select cases > All cases > ok
5. Verwenden Sie den Kolmogorov Smirnov Test um zu überprüfen, ob sich die Verteilungen
von (a) „GebGewichtPfund“ und (b) „BildungMutter“ in den Gruppen mit „Junge“=1 und
„Junge“=0 signifikant voneinander unterscheiden.
Analyze > Nonparametric Tests > Independent Samples > Fields > Test Fields: GebGewichtPfund,
BildungMutter > Groups: Junge > Settings > Customize Tests > Kolmogorov-Smirnov (2 samples) > run
6. Generieren Sie eine neue Variable „ZigNeu“ für unterschiedliche Ausprägungen von
„Zigaretten“ (täglicher Zigarettenkonsum während der Schwangerschaft): „ZigNeu“ soll (a)
gleich 0 sein falls „Zigaretten“=0, (b) gleich 1 sein falls „Zigaretten“=1-10 und (c) gleich 2 sein
falls „Zigaretten“>10.
Transform > Compute variable
(Zigaretten>0)+(Zigaretten>10) > ok
>
Target
Variable:
ZigNeu
>
Numeric
expression:
7. Verwenden Sie die einfaktorielle Varianzanalyse, um zu überprüfen, (a) ob sich
“GebGewichtPfund” für verschiedene Ausprägungen von “ ZigNeu ” signifikant unterscheidet
und (b) falls ja, zwischen welchen Ausprägungen von “ ZigNeu ” signifikante Unterschiede
bestehen (verwenden Sie für letztere Analyse die Methode „Tamhane’s T2“ für ungleiche
Varianzen für verschiedene Ausprägungen von „Bildung“).
Analyze > Compare Means > One Way Anova > Dependent List: Gehalt > Factor: ZigNeu > Post Hoc:
Tamhane’s T2 > continue > ok
Beispiel 4: Geburtsgewicht (Skalierung)
Wir verwenden den Datensatz “Geburtsgewicht.sav“ zwecks Skalierung diverser Variablen.
1. Generieren Sie die
„GebGewichtPfund“.
Variable
„LogGebGewichtPfund”
als
Logarithmus
von
Transform > Compute variable > Target Variable: LogGebGewichtPfund > Numeric expression:
LN(GebGewichtPfund) > ok
2. Zeigen Sie die Verteilung von „LogGebGewichtPfund“ anhand eines Histogramms und legen
Sie die Normalverteilung zwecks Vergleichs über die Grafik. Ähnelt die Verteilung von
„LogGebGewichtPfund“ der Normalverteilung?
Analyze > Descriptive Statistics > Frequencies > Variable(s): LogGebGewichtPfund > Charts:
Histograms > show normal curve on histogram > continue > ok
3. Generieren Sie eine neue Variable „ZigarettenDurch2“ als „Zigaretten“ dividiert durch 2.
Transform > Compute variable > Target Variable: ZigarettenDurch2 > Numeric expression: Zigaretten
/2 > ok
Herunterladen