Regression mit Dummy

Werbung
Analyse von
Querschnittsdaten
Regression
mit
Dummy-Variablen
Warum geht es in den folgenden
Sitzungen?
Kontinuierliche Variablen
Kategoriale Variablen
Datum
Vorlesung
13.10.2004
Einführung
20.10.2004
Beispiele
27.10.2004
Daten
03.11.2004
Variablen
10.11.2004
Bivariate Regression
17.11.2004
Kontrolle von Drittvariablen
24.11.2004
Multiple Regression
01.12.2004
Statistische Inferenz
08.12.2004
Signifikanztests I
15.12.2004
Signifikanztests II
22.12.2004
Spezifikation der unabhängigen Variablen
12.01.2005
Spezifikation der Regressionsfunktion
19.01.2005
Heteroskedastizität
26.01.2005
Regression mit Dummy-Variablen
02.02.2005
Logistische Regression
Gliederung
1. Wiederholung: kategoriale Variablen
2. Dichotome kategoriale Variablen
a. als unabhängige Variablen
b. als abhängige Variablen
3. Polytome kategoriale Variablen
Gliederung
1. Wiederholung: kategoriale Variablen
2. Dichotome kategoriale Variablen
a. als unabhängige Variablen
b. als abhängige Variablen
3. Polytome kategoriale Variablen
Definition: kategoriale Variable
• Kategoriale Variablen sind Merkmale, die
eine begrenzte Anzahl von Ausprägungen
(Kategorien) haben.
• Variablen mit sehr vielen Ausprägungen
zählen nicht zu den kategorialen
Variablen. Liegt diesen Messungen eine
kontinuierliche Eigenschaft zugrunde,
wollen wir sie als kontinuierliche Variablen
bezeichnen.
Beispiel 1: Öffentliche Verwaltung
• Befragung von Bediensteten der öffentlichen
Verwaltung einer westdeutschen Großstadt
(n=60, mabt60.dta)
– Einkommen
• monatliches Nettoeinkommen in DM
– Vorgesetztenfunktion
• ja / nein
– Höchster allgemeinbildender Schulabschluss
• Hauptschule / Mittlere Reife / Fachhochschulreife /
Hochschulreife
Beispiel 1: kategoriale Variablen
• Befragung von Bediensteten der öffentlichen
Verwaltung einer westdeutschen Großstadt
(n=60, mabt60.dta)
– Einkommen
• monatliches Nettoeinkommen in DM
– Vorgesetztenfunktion
• ja / nein
– Höchster allgemeinbildender Schulabschluss
• Hauptschule / Mittlere Reife / Fachhochschulreife /
Hochschulreife
Beispiel 2: Wahlberechtigte
• Befragung von Wahlberechtigten zur Bundestagswahl (n=750, anhang4.dta)
– Wahlbeteiligung
• ja / nein
– Alter
• in Jahren
– Konfession
• ja / nein
– Parteipräferenz
• SPD / CDU/CSU / FDP
– Bildung
• Hauptschule / Mittlere Reife / Fachhochschulreife /
Hochschulreife
Beispiel 2: kategoriale Variablen
• Befragung von Wahlberechtigten zur Bundestagswahl (n=750, anhang4.dta)
– Wahlbeteiligung
• ja / nein
– Alter
• in Jahren
– Konfession
• ja / nein
– Parteipräferenz
• SPD / CDU/CSU / FDP
– Bildung
• Hauptschule / Mittlere Reife / Fachhochschulreife /
Hochschulreife
Definition Dummy-Variable
• Für einige statistische Auswertungen ist es hilfreich zu
wissen, ob eine Untersuchungseinheit eine bestimmte
Ausprägung einer kategorialen Variablen aufweist oder
nicht.
• Zu diesem Zweck bildet man eine sogenannte
Stellvertreter-Variable (engl.: dummy variable) mit den
Ausprägungen 1 und 0:
• 1 = Ausprägung liegt vor
• 0 = Ausprägung liegt nicht vor
• Bei insgesamt k Ausprägungen einer kategorialen
Variablen sind im Prinzip k Dummies denkbar. Praktisch
sind aber lediglich (k-1) Dummies nötig, um die k
Ausprägungen vollständig abzubilden:
• die (ausgelassene) k-te Ausprägung erkennt man daran, dass alle
Dummies den Wert 0 aufweisen.
Beispiel 1: Dummy-Variablen
Idnr Funktion vorgesetzt Bildung qual1
1
nein
0
vs, hs
1
2
nein
0
vs, hs
1
3
ja
1
vs, hs
1
4
nein
0
fhsr
0
5
ja
1
hsr
0
6
nein
0
mr
0
7
nein
0
vs, hs
1
:
:
:
:
:
qual2
0
0
0
0
0
1
0
:
qual3
0
0
0
1
0
0
0
:
qual4
0
0
0
0
1
0
0
:
Gliederung
1. Wiederholung: kategoriale Variablen
2. Dichotome kategoriale Variablen
a. als unabhängige Variablen
b. als abhängige Variablen
3. Polytome kategoriale Variablen
1000
2000
3000
4000
5000
Regression mit Dummy als x
0
.2
.4
.6
.8
vorgesetzt
monatliches nettoeinkommen in dm
Fitted values
1
5000
Regression nach Gruppen
4000
3000
1
1
0
0
1
1
1
1
0
1
0
0
0
0
0
0
0
0
1
1 0
0
0
0
0
0
0
1 0
1 1
0
1
1
0
0
0
20
0
30
40
50
60
20
monatliches nettoeinkommen in dm
20
30
40
50
lebensalter des befragten
30
40
50
lebensalter des befragten
1000
0
0
0
1
0
1
0
0
0
1
1
1
1 1
0
0
1
2000
1
1
1
1000
monatliches nettoeinkommen in dm
2000
3000
4000
0
60
Graphs by vorgesetzt
Fitted values
60
Regression mit Dummy-Variablen 1
• Interpretation der Parameter
– Regressionskonstante
• Mittelwert der Referenzgruppe (dummy=0)
• allgemein: Gruppe, bei der alle x-Variablen null sind
– Regressionskoeffizient (des Haupteffektes)
• Unterschied zur Referenzgruppe (Niveau)
– Regressionskoeffizient (des Interaktions-effektes)
• Unterschied der Steigung im Vergleich zur Referenzgruppe
• Interpretationshilfe
– Dummy-Variablen definieren Subgruppen
– schreibe das Regressionsmodell für die
verschiedenen Gruppen
Regression mit Dummy-Variablen 2
• T-Test
– entspricht im bivariaten Fall mit einer dichotomen kategorialen
unabhängigen Variablen einem T-Test auf Mittelwertunterschiede
zwischen zwei Gruppen
• F-Test
– entspricht im bivariaten Fall mit einer polytomen kategorialen
unabhängigen Variablen einem F-Test auf Mittelwertunterschiede
zwischen mehr als zwei Gruppen (einfache Varianzanalyse)
• getrennte Regressionsmodelle für verschiedene
Gruppen
– liefern die gleichen Ergebnisse wie ein Regressionsmodell für die
Gesamtstichprobe, wenn dieses Gesamtmodell die Interaktion jeder
unabhängigen Variablen mit der Gruppierungsvariablen enthält
– Gruppenunterschiede durch lineare Restriktionen testbar (Chow-Test)
Gliederung
1. Wiederholung: kategoriale Variablen
2. Dichotome kategoriale Variablen
a. als unabhängige Variablen
b. als abhängige Variablen
3. Polytome kategoriale Variablen
Regression mit Dummy als y
0
.2
Wahlbeteiligung (1=ja)
.4
.6
.8
1
Wahlbeteiligung nach Alter
20
30
40
50
Alter in Jahren
60
70
Grenzen des linearen
Wahrscheinlichkeitsmodells
0
.2
Wahlbeteiligung (1=ja)
.4
.6
.8
1
Wahlbeteiligung nach Alter
20
30
Wähler
40
50
Alter in Jahren
nicht-lineares Modell
60
lineares Modell
70
Lineares Wahrscheinlichkeitsmodell
• Regressionsmodell mit einer Dummy-Variablen
als abhängiger Variablen
• Interpretation
– Modellprognosen
• Wahrscheinlichkeit, dass Ausprägung 1 der DummyVariablen auftritt
– Regressionskoeffizienten
• Veränderung der Wahrscheinlichkeit, wenn die x-Variable um
eine Einheit erhöht wird.
• Nachteil
– Lineares Modell garantiert nicht, dass die Modellprognosen im gültigen Wertebereich einer Wahrscheinlichkeit [0, 1] liegen.
Gliederung
1. Wiederholung: kategoriale Variablen
2. Dichotome kategoriale Variablen
a. als unabhängige Variablen
b. als abhängige Variablen
3. Polytome kategoriale Variablen
Polytomes Merkmal Bildung
0
Durchschnittl. Nettoeinkommen
500
1,000
1,500
2,000
2,500
Einkommen nach Schulabschluss
vs, hs
mr
fhsr
hsr
4000
5000
Kategoriale vs. kontinuierliche
Modellierung
1000
2000
3000
Einkommen
kategorial
linear
9
10
11
Ausbildungsdauer
12
13
Polytome kategoriale Variablen
• Wichtig
– k Ausprägungen ergeben k Dummies
– Regression verwendet nur (k-1) Dummies
– k-tes (ausgelassenes) Dummy = Referenzgruppe
• Interpretation der Parameter
– Regressionskonstante
• Mittelwert der Referenzgruppe (alle (k-1) Dummies null)
• allgemein: Gruppe, bei der alle x-Variablen null sind
– Regressionskoeffizient (des Haupteffektes)
• Unterschied zur Referenzgruppe (Niveau)
– Regressionskoeffizient (des Interaktionseffektes)
• Unterschied der Steigung im Vergleich zur Referenzgruppe
Kontinuierliche versus kategoriale
Variablen 1
• Modelle mit kategorialen x-Variablen
erlauben unterschiedliche Veränderung
der y-Variablen zwischen den
Ausprägungen von x
• Modelle mit kontinuierlichen x-Variablen
unterstellen immer die gleiche
Veränderung der y-Variablen, wenn x um
eine Einheit zunimmt
Kontinuierliche versus kategoriale
Variablen 2
• Durch geeignete lineare Restriktionen der
Parameter lässt sich das Modell mit einer
kategorialen Variablen in ein Modell mit
einer linearen Variablen transformieren.
• Kategoriale Variablen Ö allgemeinere
Modellklasse
Zum Schluss
Zusammenfassung
Kategoriale
Variable
Variable mit wenigen Ausprägungen
Dummy
Indikator für Ausprägung einer kategorialen Variablen
x Dummy
• Konstante: Referenzgruppe
• Koeffizient: Unterschied zur Referenzgruppe
y Dummy
• Prognose: Wahrscheinlichkeit y=1
• Koeffizient: Veränderung der Wahrscheinlichkeit
Wichtige Fachausdrücke
Deutsch
Englisch
Deutsch
Englisch
Dummy
Variable
dummy
variable
Referenzgruppe
reference
group
Interaktionseffekt
interaction
effect
Weiterführende Literatur
• Wooldridge (2003)
– Kapitel 7 (WO 218-256) diskutiert die Verwendung
kategorialer Variablen in der linearen Regression. Es
wird die Verwendung von Dummy-Variablen als
unabhängigen Variablen und das lineare
Wahrscheinlichkeitsmodell mit einer dichotomen
abhängigen Variablen demonstriert.
Herunterladen