Analyse von Querschnittsdaten Arten von Variablen Warum geht es in den folgenden Sitzungen? Datum Vorarbeiten Vorlesung 18.10.2006 Einführung 18.10.2006 Beispiele 25.10.2006 Daten 08.11.2006 Variablen 15.11.2006 Bivariate Regression 22.11.2006 Kontrolle von Drittvariablen 29.11.2006 Multiple Regression 06.12.2006 Statistische Inferenz 13.12.2006 Signifikanztests I 20.12.2006 Signifikanztests II 10.01.2007 Spezifikation der unabhängigen Variablen 17.01.2007 Spezifikation der Regressionsfunktion 24.01.2007 Heteroskedastizität 31.01.2007 Regression mit Dummy-Variablen 07.02.2007 Logistische Regression Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle Definition Messniveau Niveau Identität Ränge Abstände Nullpunkt Nominal ja nein nein nein Ordinal ja ja nein nein Intervall ja ja ja nein Ratio ja ja ja ja Beispiele aus dem GSS Niveau Beispiele Identität Ränge Abstände Nullpunkt Nominal Geschlecht Familienstand Nationalität ja nein nein nein ja ja nein nein ja ja ja nein ja ja ja ja Kirchgang Ordinal Schulabschluss Liberalismus Liberalismus Intervall Berufsprestige Einkommen Ratio Ausbildungsdauer Kinderzahl Strategien der Datenanalyse • Option 1: wenige Ausprägungen – analysiere das Auftreten einzelner Ausprägungen – Beispiel: Wie groß ist der prozentuale Anteil der Verheirateten? Ökategoriale Variablen • Option 2 : „viele“ Ausprägungen – analysiere bestimmte Eigenschaften (Zentrum, Streuung) der Verteilung aller Ausprägungen – Beispiel: Wie hoch ist das Durchschnittseinkommen? Ökontinuierliche Variablen Wenige oder viele Ausprägungen? • Kategoriale Variablen sind Merkmale, die eine begrenzte Anzahl von Ausprägungen (Kategorien) haben. • Variablen mit sehr vielen Ausprägungen zählen nicht zu den kategorialen Variablen. Liegt diesen Messungen eine kontinuierliche Eigenschaft zugrunde, wollen wir sie als kontinuierliche Variablen bezeichnen. (Ist das nicht der Fall, handelt es sich ebenfalls um kategoriale Variablen. Für Datenanalyse vereinfachen!) Beispiele aus dem GSS Niveau kategorial kontinuierlich Nominal Geschlecht (2) Familienstand (5) Nationalität (38) Ordinal Kirchgang (9) Schulabschluss (5) Liberalismus (7) Intervall Liberalismus (7) Ratio Berufsprestige (>50) Einkommensklasse (21) Einkommen (>1000) Kinderzahl (9) Ausbildungsdauer (19) Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle Univariate Verteilungen kategorial kontinuierlich Beispiel Familienstand Einkommen Tabelle problemlos Variable vorher klassifizieren Graphik Säulendiagramm Histogram Box-Plot Statistik absolut: Häufigkeiten relativ: Anteile, Odds (Mittelwerte) (Streuungsmaße) (absolut: Häufigkeiten) (relativ: Anteile, Odds) Mittelwerte Streuungsmaße Relative Häufigkeiten • Eine relative Häufigkeit betrachtet die absolute Häufigkeit einer Ausprägung einer Variablen entweder (a) in Relation zur Gesamtzahl aller Untersuchungseinheiten oder (b) in Relation zur Häufigkeit einer anderen Ausprägung der Variablen. a. Beispiel: 53% aller Befragten sind verheiratet. Diesen Quotienten bezeichnet man als (prozentualen) Anteilswert. b. Beispiel: Das Größenverhältnis von Verheirateten und Unverheirateten beträgt ca. 5 zu 2. Diesen Quotienten bezeichnet man als Größenverhältnis oder Odds (engl.: Wetten). Kategorial: Säulendiagramm Marital status Percent 30 40 50 53 20 21.42 11.54 10 11.07 0 2.966 married widowed divorced separated never married Mittelwerte und Perzentile • Arithmetisches Mittel – Das durchschnittliche Jahreseinkommen beträgt 30.745,42 Dollar. • Median (50. Perzentil) – Die Hälfte der Personen hat ein Jahreseinkommen von maximal 25.510 Dollar. • Perzentil – Das obere Zehntel der Befragten hat ein Jahreseinkommen von mindestens 65.533 Dollar. Kontinuierlich: Histogramm, Box-Plot Total family income 0 2 Percent 4 6 8 Total family income 0 20,000 40,000 60,000 80,000 100000 Dollars 75. Perzentil: drittes Quartil 50. Perzentil: Median 25. Perzentil: erstes Quartil 0 20000 40000 Dollars 60000 80000 Kategoriale Ö Dummy-Variable (1/2) • Für einige statistische Auswertungen ist es hilfreich zu wissen, ob eine Untersuchungseinheit eine bestimmte Ausprägung einer kategorialen Variablen aufweist oder nicht. • Zu diesem Zweck bildet man eine sogenannte Stellvertreter-Variable (engl.: dummy variable) mit den Ausprägungen 1 und 0: • 1 = Ausprägung liegt vor • 0 = Ausprägung liegt nicht vor Kategoriale Ö Dummy-Variable (2/2) • Bei insgesamt k Ausprägungen einer kategorialen Variablen sind im Prinzip k Dummies denkbar. Praktisch sind aber lediglich (k-1) Dummies nötig, um die k Ausprägungen vollständig abzubilden: • die (ausgelassene) k-te Ausprägung erkennt man daran, dass alle Dummies den Wert 0 aufweisen. • Das arithmetische Mittel einer Dummy-Variablen entspricht dem Anteil der Untersuchungsobjekte mit der entsprechenden Ausprägung an allen Untersuchungsobjekten Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle Analyse mehrerer Variablen (1) • definiere eine Variable als abhängige Variable y. • unbedingte / bedingte Verteilung: – unbedingt: Verteilung von y für alle Untersuchungseinheiten – bedingt: Verteilung von y für den Teil der Untersuchungseinheiten mit x=k • zur Beschreibung des Zusammenhangs zwischen x und y vergleiche die bedingten Verteilungen von y für verschiedene x-Werte Analyse mehrerer Variablen (2) Grundprinzip der statistischen Modelle • kategoriale Variablen – Was ist die Wahrscheinlichkeit, dass die abhängige Variable y eine bestimmte Ausprägung k aufweist, für verschiedene Werte der unabhängigen Variablen x. – Pr(y=k | x) • kontinuierliche Variablen – Welchen Wert der abhängigen Variablen y kann man im Durchschnitt für verschiedene Werte der unabhängigen Variablen x erwarten. – E(y | x) Bivariate Verteilungen (1) y: kategorial x: kategorial y: kontinuierlich x: kategorial Beispiel y: Familienstand x: Geschlecht y: Einkommen x: Schulabschluss Tabelle problemlos (Kreuztabelle) y vorher klassifizieren Graphik gestapeltes Säulendiagramm konditionales Histogram konditionaler Box-Plot Statistik konditionale Anteile konditionale Odds konditionale Mittelwerte konditionale Mediane Bivariate Verteilungen (2) y: kategorial x: kontinuierlich y: kontinuierlich x: kontinuierlich Beispiel y: verheiratet x: Einkommen y: Einkommen x: Berufsprestige Tabelle x vorher klassifizieren x und y vorher klassifizieren Graphik (Streudiagramm) (Säulen wenn x klassifiziert) Streudiagramm Statistik (konditionale Anteile / Odds wenn x klassifiziert) Korrelationskoeffizient Regressionskoeffeizient Vergleiche konditionale Anteilswerte Status married widowed divorced separated never married Total m 371 22 60 12 171 636 f 433 146 115 33 154 881 ⎛ 371 433 ⎞ ∆p % = 100 ⋅ ⎜ − ⎟ ≈ 9,1 ⎝ 636 881 ⎠ • 58,3% aller Männer sind verheiratet, dagegen nur 49,2% aller Frauen. • Der Anteil der Verheirateten ist bei den Männern 9,1 Prozentpunkte größer (∆p%: Prozentsatzdifferenz). Vergleiche konditionale Odds Status married widowed divorced separated never married Total m 371 22 60 12 171 636 f 433 146 115 33 154 881 433 154 2,81 OR = ≈ ≈ 1,3 371 171 2,17 • Bei den Männern kommen 2,17 verheiratete auf einen unverheirateten Mann. Bei den Frauen beträgt das Verhältnis 2,81 zu 1. • Das Verhältnis von Verheirateten zu Unverheirateten ist bei den Frauen 1,3 mal größer als bei den Männern (OR: Odds Ratio). Säulen- oder Balkendiagramm y: kategorial x: kategorial Marital status by sex male female Marital status by sex 60 Marital status by sex Percent 40 male 20 female 0 20 40 60 80 0 percent marr wid Graphs by respondents sex div sep never marr wid div sep never married divorced never married widowed separated 100 Streudiagramm 0 Total family income in Dollars 20000 40000 60000 80000 100000 y: kontinuierlich x: kontinuierlich 20 40 60 80 rs occupational prestige score (1980) 100 y: kontinuierlich x: kategorial konditionaler BoxPlot bzw. Säulen Mean total family income by degree 60,000 80,000 100000 Total family income by degree 54733.96 34206.21 Dollars Dollars 40,000 60,000 40,000 44351.57 17403.32 0 0 20,000 20,000 29023.16 lt high school high school junior college bachelor graduate lt high school high school junior college bachelor graduate y: kategorial schwierig ! x: kontinuierlich Proportion married by income class Marital status by income 0 0==other .2 .4 .6 1==married .8 1 lt $1000 $1000-2999 $3000-3999 $4000-4999 $5000-5999 $6000-6999 $7000-7999 $8000-9999 $10000-12499 $12500-14999 $15000-17499 $17500-19999 $20000-22499 $22500-24999 $25000-29999 $30000-34999 $35000-39999 $40000-49999 $50000-59999 $60000-74999 $75000+ 0 20000 40000 60000 Dollars 80000 100000 0 .2 .4 Proportion .6 .8 Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge zweier Variablen (bivariate Verteilungen) 4. Ausblick: Statistische Analyseverfahren und statistische Modelle Multivariate Analyseverfahren unabhängige Variable x abhängige Variable y kategorial kontinuierlich kategorial Tabellenanalyse Varianzanalyse kontinuierlich logistische Regression lineare Regression 0 20000 40000 60000 mean of incgen 20,000 40,000 80000 60,000 100000 Kategorial oder kontinuierlich? 1 2 rs highest degree 3 4 0 0 total family income in dollars x kontinuierlich y = β 0 + β1 x + u Fitted values lt high school high school junior college bachelor graduate x kategorial y = β 0 + β1d hs + β 2 d jc + β 3 d ba + β 4 d gr + u Nicht naturgegeben, sondern eine inhaltliche Entscheidung! Zum Schluss Weiterführende Literatur • H.J. Andreß (2001): Glossar zur Datenerhebung und statistischen Analyse – über ESWF-Homepage >> Links >> Methoden • eswf.uni-koeln.de/glossar/stichwor.htm – Schlagworte zu Messniveau, kategoriale / kontinuierliche Variable, Dummy-Variable, Anteilswert, Odds, graphischen Darstellungen, Tabellenanalyse usw. • Einführungen in Stata – Kohler, Ulrich/Kreuter, Frauke (2005): Datenanalyse mit Stata. München, 2. Auflage: Oldenbourg – Hamilton, Lawrence C. (2004): Statistics with Stata updated for version 8. Belmont: Duxbury/Thomson Learning – siehe auch ESWF-Homepage >> Lehre >> Stata Zusammenfassung Messniveau • beschreibt zulässige mathematische Operationen Datenanalyse • wenige oder viele Ausprägungen • Verfahren für kategoriale oder kontinuierliche Daten univariate Analyse • relative Häufigkeiten (Anteile, Odds) • Mittelwerte • Histogramm, Box Plot bivariate Analyse • vergleiche bedingte Verteilungen • konditionale Anteile, Odds, Mittelwerte • konditionale Box Plots und Histogramme • Streudiagramm Stata-Befehle zum Einstieg (1) set mem 100000 Speicherplatz für Daten schaffen use gss1991.dta Daten laden describe Beschreibung des Datensatzes im Speicher clear Datenspeicher löschen summarize y Mittelwert, Standardabweichung, Min, Max tabulate y Häufigkeitsverteilung tab y, gen(dummy) ditto mit Generierung von Dummies histogram y Histogramm y kontinuierlich histogram y, discrete Histogramm y kategorial graph box y graph hbox y Box-Plot (vertikal) Box-Plot (horizontal) Stata-Befehle zum Einstieg (2) tabulate x y Kreuztabelle mit x in Zeile und y in Spalte tabulate x y, row ditto mit Zeilenprozenten tabulate x y, col ditto mit Spaltenprozenten graph box y, over(x) konditionaler Box-Plot histogram y, by(x) konditionales Histogramm graph dot y, over(x) konditionales Dot Diagramm graph twoway scatter y x Streudiagramm Wichtige Fachausdrücke Deutsch Englisch Deutsch Englisch Messniveau measurement scale bedingte Verteilung conditional distribution kategorial kontinuierlich categorical continuous Box Plot box plot arithmetischer Mittelwert mean Histogramm histogram Median median Streudiagramm scattergram Wichtige Fachausdrücke Deutsch Englisch Größenverhältnis (Odds) odds odds ratio odds ratio Dummy Variable dummy variable Deutsch Englisch