Analyse von Querschnittsdaten Regression mit Dummy-Variablen Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Kategoriale Variablen Datum Vorlesung 13.10.2004 Einführung 20.10.2004 Beispiele 27.10.2004 Daten 03.11.2004 Variablen 10.11.2004 Bivariate Regression 17.11.2004 Kontrolle von Drittvariablen 24.11.2004 Multiple Regression 01.12.2004 Statistische Inferenz 08.12.2004 Signifikanztests I 15.12.2004 Signifikanztests II 22.12.2004 Spezifikation der unabhängigen Variablen 12.01.2005 Spezifikation der Regressionsfunktion 19.01.2005 Heteroskedastizität 26.01.2005 Regression mit Dummy-Variablen 02.02.2005 Logistische Regression Gliederung 1. Wiederholung: kategoriale Variablen 2. Dichotome kategoriale Variablen a. als unabhängige Variablen b. als abhängige Variablen 3. Polytome kategoriale Variablen Gliederung 1. Wiederholung: kategoriale Variablen 2. Dichotome kategoriale Variablen a. als unabhängige Variablen b. als abhängige Variablen 3. Polytome kategoriale Variablen Definition: kategoriale Variable • Kategoriale Variablen sind Merkmale, die eine begrenzte Anzahl von Ausprägungen (Kategorien) haben. • Variablen mit sehr vielen Ausprägungen zählen nicht zu den kategorialen Variablen. Liegt diesen Messungen eine kontinuierliche Eigenschaft zugrunde, wollen wir sie als kontinuierliche Variablen bezeichnen. Beispiel 1: Öffentliche Verwaltung • Befragung von Bediensteten der öffentlichen Verwaltung einer westdeutschen Großstadt (n=60, mabt60.dta) – Einkommen • monatliches Nettoeinkommen in DM – Vorgesetztenfunktion • ja / nein – Höchster allgemeinbildender Schulabschluss • Hauptschule / Mittlere Reife / Fachhochschulreife / Hochschulreife Beispiel 1: kategoriale Variablen • Befragung von Bediensteten der öffentlichen Verwaltung einer westdeutschen Großstadt (n=60, mabt60.dta) – Einkommen • monatliches Nettoeinkommen in DM – Vorgesetztenfunktion • ja / nein – Höchster allgemeinbildender Schulabschluss • Hauptschule / Mittlere Reife / Fachhochschulreife / Hochschulreife Beispiel 2: Wahlberechtigte • Befragung von Wahlberechtigten zur Bundestagswahl (n=750, anhang4.dta) – Wahlbeteiligung • ja / nein – Alter • in Jahren – Konfession • ja / nein – Parteipräferenz • SPD / CDU/CSU / FDP – Bildung • Hauptschule / Mittlere Reife / Fachhochschulreife / Hochschulreife Beispiel 2: kategoriale Variablen • Befragung von Wahlberechtigten zur Bundestagswahl (n=750, anhang4.dta) – Wahlbeteiligung • ja / nein – Alter • in Jahren – Konfession • ja / nein – Parteipräferenz • SPD / CDU/CSU / FDP – Bildung • Hauptschule / Mittlere Reife / Fachhochschulreife / Hochschulreife Definition Dummy-Variable • Für einige statistische Auswertungen ist es hilfreich zu wissen, ob eine Untersuchungseinheit eine bestimmte Ausprägung einer kategorialen Variablen aufweist oder nicht. • Zu diesem Zweck bildet man eine sogenannte Stellvertreter-Variable (engl.: dummy variable) mit den Ausprägungen 1 und 0: • 1 = Ausprägung liegt vor • 0 = Ausprägung liegt nicht vor • Bei insgesamt k Ausprägungen einer kategorialen Variablen sind im Prinzip k Dummies denkbar. Praktisch sind aber lediglich (k-1) Dummies nötig, um die k Ausprägungen vollständig abzubilden: • die (ausgelassene) k-te Ausprägung erkennt man daran, dass alle Dummies den Wert 0 aufweisen. Beispiel 1: Dummy-Variablen Idnr Funktion vorgesetzt Bildung qual1 1 nein 0 vs, hs 1 2 nein 0 vs, hs 1 3 ja 1 vs, hs 1 4 nein 0 fhsr 0 5 ja 1 hsr 0 6 nein 0 mr 0 7 nein 0 vs, hs 1 : : : : : qual2 0 0 0 0 0 1 0 : qual3 0 0 0 1 0 0 0 : qual4 0 0 0 0 1 0 0 : Gliederung 1. Wiederholung: kategoriale Variablen 2. Dichotome kategoriale Variablen a. als unabhängige Variablen b. als abhängige Variablen 3. Polytome kategoriale Variablen 1000 2000 3000 4000 5000 Regression mit Dummy als x 0 .2 .4 .6 .8 vorgesetzt monatliches nettoeinkommen in dm Fitted values 1 5000 Regression nach Gruppen 4000 3000 1 1 0 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 0 20 0 30 40 50 60 20 monatliches nettoeinkommen in dm 20 30 40 50 lebensalter des befragten 30 40 50 lebensalter des befragten 1000 0 0 0 1 0 1 0 0 0 1 1 1 1 1 0 0 1 2000 1 1 1 1000 monatliches nettoeinkommen in dm 2000 3000 4000 0 60 Graphs by vorgesetzt Fitted values 60 Regression mit Dummy-Variablen 1 • Interpretation der Parameter – Regressionskonstante • Mittelwert der Referenzgruppe (dummy=0) • allgemein: Gruppe, bei der alle x-Variablen null sind – Regressionskoeffizient (des Haupteffektes) • Unterschied zur Referenzgruppe (Niveau) – Regressionskoeffizient (des Interaktions-effektes) • Unterschied der Steigung im Vergleich zur Referenzgruppe • Interpretationshilfe – Dummy-Variablen definieren Subgruppen – schreibe das Regressionsmodell für die verschiedenen Gruppen Regression mit Dummy-Variablen 2 • T-Test – entspricht im bivariaten Fall mit einer dichotomen kategorialen unabhängigen Variablen einem T-Test auf Mittelwertunterschiede zwischen zwei Gruppen • F-Test – entspricht im bivariaten Fall mit einer polytomen kategorialen unabhängigen Variablen einem F-Test auf Mittelwertunterschiede zwischen mehr als zwei Gruppen (einfache Varianzanalyse) • getrennte Regressionsmodelle für verschiedene Gruppen – liefern die gleichen Ergebnisse wie ein Regressionsmodell für die Gesamtstichprobe, wenn dieses Gesamtmodell die Interaktion jeder unabhängigen Variablen mit der Gruppierungsvariablen enthält – Gruppenunterschiede durch lineare Restriktionen testbar (Chow-Test) Gliederung 1. Wiederholung: kategoriale Variablen 2. Dichotome kategoriale Variablen a. als unabhängige Variablen b. als abhängige Variablen 3. Polytome kategoriale Variablen Regression mit Dummy als y 0 .2 Wahlbeteiligung (1=ja) .4 .6 .8 1 Wahlbeteiligung nach Alter 20 30 40 50 Alter in Jahren 60 70 Grenzen des linearen Wahrscheinlichkeitsmodells 0 .2 Wahlbeteiligung (1=ja) .4 .6 .8 1 Wahlbeteiligung nach Alter 20 30 Wähler 40 50 Alter in Jahren nicht-lineares Modell 60 lineares Modell 70 Lineares Wahrscheinlichkeitsmodell • Regressionsmodell mit einer Dummy-Variablen als abhängiger Variablen • Interpretation – Modellprognosen • Wahrscheinlichkeit, dass Ausprägung 1 der DummyVariablen auftritt – Regressionskoeffizienten • Veränderung der Wahrscheinlichkeit, wenn die x-Variable um eine Einheit erhöht wird. • Nachteil – Lineares Modell garantiert nicht, dass die Modellprognosen im gültigen Wertebereich einer Wahrscheinlichkeit [0, 1] liegen. Gliederung 1. Wiederholung: kategoriale Variablen 2. Dichotome kategoriale Variablen a. als unabhängige Variablen b. als abhängige Variablen 3. Polytome kategoriale Variablen Polytomes Merkmal Bildung 0 Durchschnittl. Nettoeinkommen 500 1,000 1,500 2,000 2,500 Einkommen nach Schulabschluss vs, hs mr fhsr hsr 4000 5000 Kategoriale vs. kontinuierliche Modellierung 1000 2000 3000 Einkommen kategorial linear 9 10 11 Ausbildungsdauer 12 13 Polytome kategoriale Variablen • Wichtig – k Ausprägungen ergeben k Dummies – Regression verwendet nur (k-1) Dummies – k-tes (ausgelassenes) Dummy = Referenzgruppe • Interpretation der Parameter – Regressionskonstante • Mittelwert der Referenzgruppe (alle (k-1) Dummies null) • allgemein: Gruppe, bei der alle x-Variablen null sind – Regressionskoeffizient (des Haupteffektes) • Unterschied zur Referenzgruppe (Niveau) – Regressionskoeffizient (des Interaktionseffektes) • Unterschied der Steigung im Vergleich zur Referenzgruppe Kontinuierliche versus kategoriale Variablen 1 • Modelle mit kategorialen x-Variablen erlauben unterschiedliche Veränderung der y-Variablen zwischen den Ausprägungen von x • Modelle mit kontinuierlichen x-Variablen unterstellen immer die gleiche Veränderung der y-Variablen, wenn x um eine Einheit zunimmt Kontinuierliche versus kategoriale Variablen 2 • Durch geeignete lineare Restriktionen der Parameter lässt sich das Modell mit einer kategorialen Variablen in ein Modell mit einer linearen Variablen transformieren. • Kategoriale Variablen Ö allgemeinere Modellklasse Zum Schluss Zusammenfassung Kategoriale Variable Variable mit wenigen Ausprägungen Dummy Indikator für Ausprägung einer kategorialen Variablen x Dummy • Konstante: Referenzgruppe • Koeffizient: Unterschied zur Referenzgruppe y Dummy • Prognose: Wahrscheinlichkeit y=1 • Koeffizient: Veränderung der Wahrscheinlichkeit Wichtige Fachausdrücke Deutsch Englisch Deutsch Englisch Dummy Variable dummy variable Referenzgruppe reference group Interaktionseffekt interaction effect Weiterführende Literatur • Wooldridge (2003) – Kapitel 7 (WO 218-256) diskutiert die Verwendung kategorialer Variablen in der linearen Regression. Es wird die Verwendung von Dummy-Variablen als unabhängigen Variablen und das lineare Wahrscheinlichkeitsmodell mit einer dichotomen abhängigen Variablen demonstriert.