Variablen

Werbung
Analyse von
Querschnittsdaten
Arten von Variablen
Warum geht es in den folgenden
Sitzungen?
Datum
Vorarbeiten
Vorlesung
18.10.2006
Einführung
18.10.2006
Beispiele
25.10.2006
Daten
08.11.2006
Variablen
15.11.2006
Bivariate Regression
22.11.2006
Kontrolle von Drittvariablen
29.11.2006
Multiple Regression
06.12.2006
Statistische Inferenz
13.12.2006
Signifikanztests I
20.12.2006
Signifikanztests II
10.01.2007
Spezifikation der unabhängigen Variablen
17.01.2007
Spezifikation der Regressionsfunktion
24.01.2007
Heteroskedastizität
31.01.2007
Regression mit Dummy-Variablen
07.02.2007
Logistische Regression
Gliederung
1. Arten von Variablen
2. Analyse einzelner Variablen (univariate
Verteilungen)
3. Analyse der Zusammenhänge zweier
Variablen (bivariate Verteilungen)
4. Ausblick: Statistische Analyseverfahren
und statistische Modelle
Definition Messniveau
Niveau Identität Ränge Abstände Nullpunkt
Nominal
ja
nein
nein
nein
Ordinal
ja
ja
nein
nein
Intervall
ja
ja
ja
nein
Ratio
ja
ja
ja
ja
Beispiele aus dem GSS
Niveau
Beispiele
Identität
Ränge
Abstände
Nullpunkt
Nominal
Geschlecht
Familienstand
Nationalität
ja
nein
nein
nein
ja
ja
nein
nein
ja
ja
ja
nein
ja
ja
ja
ja
Kirchgang
Ordinal Schulabschluss
Liberalismus
Liberalismus
Intervall Berufsprestige
Einkommen
Ratio Ausbildungsdauer
Kinderzahl
Strategien der Datenanalyse
• Option 1: wenige Ausprägungen
– analysiere das Auftreten einzelner Ausprägungen
– Beispiel: Wie groß ist der prozentuale Anteil der
Verheirateten?
Ökategoriale Variablen
• Option 2 : „viele“ Ausprägungen
– analysiere bestimmte Eigenschaften (Zentrum,
Streuung) der Verteilung aller Ausprägungen
– Beispiel: Wie hoch ist das Durchschnittseinkommen?
Ökontinuierliche Variablen
Wenige oder viele Ausprägungen?
• Kategoriale Variablen sind Merkmale, die eine
begrenzte Anzahl von Ausprägungen
(Kategorien) haben.
• Variablen mit sehr vielen Ausprägungen zählen
nicht zu den kategorialen Variablen. Liegt diesen
Messungen eine kontinuierliche Eigenschaft
zugrunde, wollen wir sie als kontinuierliche
Variablen bezeichnen.
(Ist das nicht der Fall, handelt es sich ebenfalls um
kategoriale Variablen. Für Datenanalyse vereinfachen!)
Beispiele aus dem GSS
Niveau
kategorial
kontinuierlich
Nominal
Geschlecht (2)
Familienstand (5)
Nationalität (38)
Ordinal
Kirchgang (9)
Schulabschluss (5)
Liberalismus (7)
Intervall
Liberalismus (7)
Ratio
Berufsprestige (>50)
Einkommensklasse (21) Einkommen (>1000)
Kinderzahl (9)
Ausbildungsdauer (19)
Gliederung
1. Arten von Variablen
2. Analyse einzelner Variablen (univariate
Verteilungen)
3. Analyse der Zusammenhänge zweier
Variablen (bivariate Verteilungen)
4. Ausblick: Statistische Analyseverfahren
und statistische Modelle
Univariate Verteilungen
kategorial
kontinuierlich
Beispiel
Familienstand
Einkommen
Tabelle
problemlos
Variable vorher klassifizieren
Graphik
Säulendiagramm
Histogram
Box-Plot
Statistik
absolut: Häufigkeiten
relativ: Anteile, Odds
(Mittelwerte)
(Streuungsmaße)
(absolut: Häufigkeiten)
(relativ: Anteile, Odds)
Mittelwerte
Streuungsmaße
Relative Häufigkeiten
• Eine relative Häufigkeit betrachtet die absolute
Häufigkeit einer Ausprägung einer Variablen
entweder (a) in Relation zur Gesamtzahl aller
Untersuchungseinheiten oder (b) in Relation zur
Häufigkeit einer anderen Ausprägung der
Variablen.
a. Beispiel: 53% aller Befragten sind verheiratet. Diesen
Quotienten bezeichnet man als (prozentualen)
Anteilswert.
b. Beispiel: Das Größenverhältnis von Verheirateten
und Unverheirateten beträgt ca. 5 zu 2. Diesen
Quotienten bezeichnet man als Größenverhältnis
oder Odds (engl.: Wetten).
Kategorial: Säulendiagramm
Marital status
Percent
30
40
50
53
20
21.42
11.54
10
11.07
0
2.966
married
widowed
divorced
separated never married
Mittelwerte und Perzentile
• Arithmetisches Mittel
– Das durchschnittliche Jahreseinkommen beträgt
30.745,42 Dollar.
• Median (50. Perzentil)
– Die Hälfte der Personen hat ein Jahreseinkommen
von maximal 25.510 Dollar.
• Perzentil
– Das obere Zehntel der Befragten hat ein
Jahreseinkommen von mindestens 65.533 Dollar.
Kontinuierlich: Histogramm, Box-Plot
Total family income
0
2
Percent
4
6
8
Total family income
0
20,000
40,000
60,000
80,000
100000
Dollars
75. Perzentil: drittes Quartil
50. Perzentil: Median
25. Perzentil: erstes Quartil
0
20000
40000
Dollars
60000
80000
Kategoriale Ö Dummy-Variable (1/2)
• Für einige statistische Auswertungen ist es
hilfreich zu wissen, ob eine
Untersuchungseinheit eine bestimmte
Ausprägung einer kategorialen Variablen
aufweist oder nicht.
• Zu diesem Zweck bildet man eine sogenannte
Stellvertreter-Variable (engl.: dummy variable)
mit den Ausprägungen 1 und 0:
• 1 = Ausprägung liegt vor
• 0 = Ausprägung liegt nicht vor
Kategoriale Ö Dummy-Variable (2/2)
• Bei insgesamt k Ausprägungen einer
kategorialen Variablen sind im Prinzip k
Dummies denkbar. Praktisch sind aber lediglich
(k-1) Dummies nötig, um die k Ausprägungen
vollständig abzubilden:
• die (ausgelassene) k-te Ausprägung erkennt man daran,
dass alle Dummies den Wert 0 aufweisen.
• Das arithmetische Mittel einer Dummy-Variablen
entspricht dem Anteil der Untersuchungsobjekte
mit der entsprechenden Ausprägung an allen
Untersuchungsobjekten
Gliederung
1. Arten von Variablen
2. Analyse einzelner Variablen (univariate
Verteilungen)
3. Analyse der Zusammenhänge zweier
Variablen (bivariate Verteilungen)
4. Ausblick: Statistische Analyseverfahren
und statistische Modelle
Analyse mehrerer Variablen (1)
• definiere eine Variable als abhängige Variable y.
• unbedingte / bedingte Verteilung:
– unbedingt: Verteilung von y für alle
Untersuchungseinheiten
– bedingt: Verteilung von y für den Teil der
Untersuchungseinheiten mit x=k
• zur Beschreibung des Zusammenhangs
zwischen x und y vergleiche die bedingten
Verteilungen von y für verschiedene x-Werte
Analyse mehrerer Variablen (2)
Grundprinzip der statistischen Modelle
• kategoriale Variablen
– Was ist die Wahrscheinlichkeit, dass die abhängige
Variable y eine bestimmte Ausprägung k aufweist, für
verschiedene Werte der unabhängigen Variablen x.
– Pr(y=k | x)
• kontinuierliche Variablen
– Welchen Wert der abhängigen Variablen y kann man
im Durchschnitt für verschiedene Werte der
unabhängigen Variablen x erwarten.
– E(y | x)
Bivariate Verteilungen (1)
y: kategorial
x: kategorial
y: kontinuierlich
x: kategorial
Beispiel
y: Familienstand
x: Geschlecht
y: Einkommen
x: Schulabschluss
Tabelle
problemlos
(Kreuztabelle)
y vorher klassifizieren
Graphik
gestapeltes
Säulendiagramm
konditionales Histogram
konditionaler Box-Plot
Statistik
konditionale Anteile
konditionale Odds
konditionale Mittelwerte
konditionale Mediane
Bivariate Verteilungen (2)
y: kategorial
x: kontinuierlich
y: kontinuierlich
x: kontinuierlich
Beispiel
y: verheiratet
x: Einkommen
y: Einkommen
x: Berufsprestige
Tabelle
x vorher klassifizieren
x und y vorher klassifizieren
Graphik
(Streudiagramm)
(Säulen wenn x
klassifiziert)
Streudiagramm
Statistik
(konditionale Anteile /
Odds wenn x klassifiziert)
Korrelationskoeffizient
Regressionskoeffeizient
Vergleiche konditionale Anteilswerte
Status
married
widowed
divorced
separated
never married
Total
m
371
22
60
12
171
636
f
433
146
115
33
154
881
⎛ 371 433 ⎞
∆p % = 100 ⋅ ⎜
−
⎟ ≈ 9,1
⎝ 636 881 ⎠
• 58,3% aller Männer
sind verheiratet,
dagegen nur 49,2%
aller Frauen.
• Der Anteil der
Verheirateten ist bei
den Männern 9,1
Prozentpunkte größer
(∆p%: Prozentsatzdifferenz).
Vergleiche konditionale Odds
Status
married
widowed
divorced
separated
never married
Total
m
371
22
60
12
171
636
f
433
146
115
33
154
881
433 154 2,81
OR =
≈
≈ 1,3
371 171 2,17
• Bei den Männern
kommen 2,17
verheiratete auf einen
unverheirateten Mann.
Bei den Frauen beträgt
das Verhältnis 2,81 zu 1.
• Das Verhältnis von
Verheirateten zu
Unverheirateten ist bei
den Frauen 1,3 mal
größer als bei den
Männern (OR: Odds
Ratio).
Säulen- oder
Balkendiagramm
y: kategorial
x: kategorial
Marital status by sex
male
female
Marital status by sex
60
Marital status by sex
Percent
40
male
20
female
0
20
40
60
80
0
percent
marr
wid
Graphs by respondents sex
div
sep
never
marr
wid
div
sep
never
married
divorced
never married
widowed
separated
100
Streudiagramm
0
Total family income in Dollars
20000
40000
60000
80000
100000
y: kontinuierlich
x: kontinuierlich
20
40
60
80
rs occupational prestige score (1980)
100
y: kontinuierlich
x: kategorial
konditionaler BoxPlot bzw. Säulen
Mean total family income by degree
60,000
80,000
100000
Total family income by degree
54733.96
34206.21
Dollars
Dollars
40,000 60,000
40,000
44351.57
17403.32
0
0
20,000
20,000
29023.16
lt high school
high school
junior college
bachelor
graduate
lt high school
high school
junior college
bachelor
graduate
y: kategorial
schwierig !
x: kontinuierlich
Proportion married by income class
Marital status by income
0
0==other
.2
.4
.6
1==married
.8
1
lt $1000
$1000-2999
$3000-3999
$4000-4999
$5000-5999
$6000-6999
$7000-7999
$8000-9999
$10000-12499
$12500-14999
$15000-17499
$17500-19999
$20000-22499
$22500-24999
$25000-29999
$30000-34999
$35000-39999
$40000-49999
$50000-59999
$60000-74999
$75000+
0
20000
40000
60000
Dollars
80000
100000
0
.2
.4
Proportion
.6
.8
Gliederung
1. Arten von Variablen
2. Analyse einzelner Variablen (univariate
Verteilungen)
3. Analyse der Zusammenhänge zweier
Variablen (bivariate Verteilungen)
4. Ausblick: Statistische Analyseverfahren
und statistische Modelle
Multivariate Analyseverfahren
unabhängige
Variable x
abhängige Variable y
kategorial
kontinuierlich
kategorial
Tabellenanalyse
Varianzanalyse
kontinuierlich
logistische
Regression
lineare Regression
0
20000
40000
60000
mean of incgen
20,000
40,000
80000
60,000
100000
Kategorial oder kontinuierlich?
1
2
rs highest degree
3
4
0
0
total family income in dollars
x kontinuierlich
y = β 0 + β1 x + u
Fitted values
lt high school
high school
junior college
bachelor
graduate
x kategorial
y = β 0 + β1d hs + β 2 d jc + β 3 d ba + β 4 d gr + u
Nicht naturgegeben, sondern eine inhaltliche Entscheidung!
Zum Schluss
Weiterführende Literatur
• H.J. Andreß (2001): Glossar zur Datenerhebung und
statistischen Analyse
– über ESWF-Homepage >> Links >> Methoden
• eswf.uni-koeln.de/glossar/stichwor.htm
– Schlagworte zu Messniveau, kategoriale / kontinuierliche
Variable, Dummy-Variable, Anteilswert, Odds, graphischen
Darstellungen, Tabellenanalyse usw.
• Einführungen in Stata
– Kohler, Ulrich/Kreuter, Frauke (2005): Datenanalyse mit Stata.
München, 2. Auflage: Oldenbourg
– Hamilton, Lawrence C. (2004): Statistics with Stata updated for
version 8. Belmont: Duxbury/Thomson Learning
– siehe auch ESWF-Homepage >> Lehre >> Stata
Zusammenfassung
Messniveau
• beschreibt zulässige mathematische Operationen
Datenanalyse
• wenige oder viele Ausprägungen
• Verfahren für kategoriale oder kontinuierliche Daten
univariate
Analyse
• relative Häufigkeiten (Anteile, Odds)
• Mittelwerte
• Histogramm, Box Plot
bivariate
Analyse
• vergleiche bedingte Verteilungen
• konditionale Anteile, Odds, Mittelwerte
• konditionale Box Plots und Histogramme
• Streudiagramm
Stata-Befehle zum Einstieg (1)
set mem 100000
Speicherplatz für Daten schaffen
use gss1991.dta
Daten laden
describe
Beschreibung des Datensatzes im Speicher
clear
Datenspeicher löschen
summarize y
Mittelwert, Standardabweichung, Min, Max
tabulate y
Häufigkeitsverteilung
tab y, gen(dummy)
ditto mit Generierung von Dummies
histogram y
Histogramm y kontinuierlich
histogram y, discrete Histogramm y kategorial
graph box y
graph hbox y
Box-Plot (vertikal)
Box-Plot (horizontal)
Stata-Befehle zum Einstieg (2)
tabulate x y
Kreuztabelle mit x in Zeile und y in Spalte
tabulate x y, row
ditto mit Zeilenprozenten
tabulate x y, col
ditto mit Spaltenprozenten
graph box y, over(x)
konditionaler Box-Plot
histogram y, by(x)
konditionales Histogramm
graph dot y, over(x)
konditionales Dot Diagramm
graph twoway scatter y x
Streudiagramm
Wichtige Fachausdrücke
Deutsch
Englisch
Deutsch
Englisch
Messniveau
measurement
scale
bedingte
Verteilung
conditional
distribution
kategorial
kontinuierlich
categorical
continuous
Box Plot
box plot
arithmetischer
Mittelwert
mean
Histogramm
histogram
Median
median
Streudiagramm
scattergram
Wichtige Fachausdrücke
Deutsch
Englisch
Größenverhältnis
(Odds)
odds
odds ratio
odds ratio
Dummy
Variable
dummy
variable
Deutsch
Englisch
Herunterladen