Grundlagen der empirischen Sozialforschung

Werbung
Grundlagen der empirischen Sozialforschung
Sitzung 10 - Datenanalyseverfahren
Jan Finsel
Lehrstuhl für empirische Sozialforschung
Prof. Dr. Petra Stein
22. Dezember 2008
1 / 21
Online-Materialien
I
Die Materialien zur Vorlesung finden Sie auf der Homepage
http://www.uni-due.de/soziologie/stein_lehre.php
I
Die ganze Vorlesung ist dort auch als Stream verfügbar
I
Es gibt eine Übung von Dawid Bekalarczyk um 14 bis 16 Uhr
am Montag in Raum S-E 005 hier in Essen
I
Im Sekretariat von Frau Werner in Raum R12 R06 A30
können CDs bzw. DVDs erstanden werden
I
Meine Materialien finden Sie auf meiner Seite
http://www.uni-due.de/soziologie/finsel.php
I
Mail: [email protected]
2 / 21
Der Plan für heute I
1
Die Hausaufgabe
2
Struktur des Vorlesungsblockes Datenanalyseverfahren
Vorlesungsblock Datenanalyseverfahren - sechs Sitzungen
3
Aufgabe
Die Bedeutung von Messniveaus für Lage-, Streuungsmaße,
Grafiken und für bivariate Zusammenhangsmaße
Maßzahlen zur Beschreibung univariater Verteilungen Verdichtete Informationen
Verdichtete Informationen
4
Arithmetisches Mittel
Berechnung von x
Median
Beispiel: Median
Bestimmung des Medians
Modus (h)
5
Maßzahlen zur Beschreibung univariater Verteilungen Streuungsmaße
Grafik zur Veranschaulichung
3 / 21
Der Plan für heute II
Streuungsmaße: Range und Quartilsabstand
Grafik zur Veranschaulichung
Streuungsmaße: Varianz und Standardabweichung
Berechnung von s 2 und s
6
Selberrechnen
Aufgabe: Berechnung von
Lösung: Berechnung von
4 / 21
Vorlesungsblock Datenanalyse - sechs Sitzungen
Ablauf
1. Einführung, Univariate Verteilungen: Tabellarische Darstellung
2. Univariate Verteilungen: Graphische Darstellung
3. Verdichtete Informationen: Maßzahlen zur Beschreibung
univariater Verteilungen
4. Bivariate Analyse der Beziehung zwischen nominalen Variablen
5. Bivariate Analyse der Beziehung zwischen ordinalen Variablen
6. Bivariate Analyse der Beziehung zwischen metrischen
Variablen
Abweichung vom Online-Material
Die Regressionsanalyse fällt raus
5 / 21
Aufgabe
Anhand des Fragebogens jeweils zwei Variablen für
jedes Messniveau finden und die Entscheidung
begründen.
Die Frägebögen finden sich ab Seite 267 in:
Wolfgang Melzer & Wilfried Schubarth 2006: Gewalt als soziales
Problem an Schulen Untersuchungsergebnisse und
Präventionsstrategien. Ein eBook im Open Access. Verlag Barbara
Budrich, Opladen
6 / 21
Die Bedeutung von Messniveaus für Lage-, Streuungsmaße,
Grafiken und für bivariate Zusammenhangsmaße
Skalenniveau
Lagemaße
Nominal
Ordinal
Metrisch
häufigster Wert
= Modus (h)
Median
(xe)
arithmetisches
Mittel (x )
Quartile,
(mittlerer)
Quartilsabstand
(QA)
Varianz (s 2 ),
Standardabweichung (s)
Streuungsmaße
Grafiken
Balken-, Kreis(Torten-)diagramm
Balken-, Kreis(Torten-)diagramm,
Box-plot (boxand-whisker-plot)
Histogramm,
Polygonzug,
box-andwhisker-plot
(Bivariate)
Zusammenhangsmaße
χ2 basierte Maßzahlen:
Phi, Cramers V,
Kontingenzkoeffizient C
Rangkorrelationskoeffizient Spearmans rho rs
Pearsons r
Produkt-MomentKorrelationskoeffizient
7 / 21
Maßzahlen zur Beschreibung univariater Verteilungen
I
Maßzahlen der Maßzahlen der zentralen Tendenz
(Mittelwerte)
I
Variabilität (Streuungswerte)
8 / 21
Verdichtete Informationen
Lagemaße (Maße der zentralen Tendenz)
Eine Maßzahl der zentralen Tendenz (im Benninghaus: Mittelwert)
ist der Kennwert, der die gesamte Verteilung am besten
repräsentiert
I
Arithmetisches Mittel
I
Median
I
Modus
9 / 21
Arithmetisches Mittel
Lagemaße (Maße der zentralen Tendenz)
Arithmetisches Mittel x (liest sich x quer)
I
Erfordert metrisches Messniveau
I
x=
I
oder einfacher zu rechnen
I
x=
x1 +x2 +...+xN
N
Σfi ·xi
N
10 / 21
Berechnung von x
xi
10
11
12
13
14
15
16
17
18
19
28
Gesamt
x=
fi · xi
Häufigkeit
fi
2
550
454
599
604
711
400
84
4
1
1
Σfi ·xi
N
3410
=
46373
3410
20
6050
5448
7787
8456
10665
6400
1428
72
19
28
P
fi · xi = 46373
= 13, 6
11 / 21
Median
Lagemaße (Maße der zentralen Tendenz)
Median xe
I
Erfordert metrisches Messniveau
I
xe (liest sich x Schlange)
I
Der Median ist der Wert, welcher eine geordnete Reihe in zwei
Hälften spaltet.
I
50 % der Fälle liegen über bzw. unter dem Median.
I
Vorteil: Im Gegensatz zum arithmetischen Mittel wird der
Median nicht von Extremwerten beeinflusst.
12 / 21
Beispiel: Anzahl der Kühe pro Bauer in einem Dorf mit 5
Bauern
Lagemaße (Maße der zentralen Tendenz)
0 0 0 0 200
⇒ xe = 0 und x = 40
13 / 21
Berechnung von xe
Häufigkeitstabelle des Merkmales Alter
xi
Häufigkeit
fi
Kumulierte
Prozente
P
fi
N
10
11
12
13
14
15
16
17
18
19
28
2
550
454
599
604
711
400
84
4
1
1
N = 3410
· 100
0.1
16.2
29.5
47.1
64.8
85.6
97.4
99.8
99.9
100.0
100.0
⇐ xe = 14
14 / 21
Modus (h)
Lagemaße (Maße der zentralen Tendenz)
Der Modus ist der Wert, der in einer Verteilung am häufigsten
vorkommt (dichtester Wert)
Beispiel: h = 7
5 6 6 7 7 7 8 8 9 10
Beispiel: h = 7,5 aufgrund von benachbarten
Häufigkeitsmaxima
5 6 6 7 7 7 8 8 8 9 10
15 / 21
Abbildung: Zwei Verteilungen mit gleicher
x = h = 100 ),
zentraler Tendenz ( x = ~
aber ungleicher Streuung
x=~
x = h = 100
70
80
100
110
130
Streuungsmaße: Range und Quartilsabstand
Die Streuungswerte haben die Aufgabe, die Variabilität des
gemessenen Merkmals zu beschreiben
Der Range
I
Der Range ist definiert als die Differenz zwischen dem größten
und dem kleinsten Messwert einer Verteilung
I
Der Range ist das einfachste Streungsmaß
I
R = xmax − xmin
I
Nachteil: Wird sehr stark durch Extremwerte beeinflusst
Der Quartilsabstand und der mittlere Quartilsabstand
Quartilsabstand = Q3 - Q1
16 / 21
STREUUNGSWERTE
(VARIABILITÄTSMAßE)
Die Streuungswerte haben die Aufgabe, die Variabilität des
gemessenen Merkmals zu beschreiben.
1. Der Range
Der Range ist definiert als die Differenz zwischen dem größten
und dem kleinsten Messwert einer Verteilung.
R = xmax – xmin
2. Der Quartilsabstand und der mittlere
Quartilsabstand
Abbildung: Illustration der Quartile und des Quartilsabstandes
50 %
1
4
1
4
Q1
1
4
Q2 = ~
x
Quartilsabstand
Quartilsabstand = Q3 - Q1
1
4
Q3
Streuungsmaße s 2 und s
Streuungsmaße
I
Lagemaße geben typische Werte einer Verteilung an
I
Streuungsmaße geben an wie stark vom typischen Wert
arithmetisches Mittel abgewichen wird
Varianz s 2
P
(xi −x )2
N
P
fi ·(xi −x )2
N
I
Varianz = s 2 =
I
Die Varianz steht für den Gesamtumfang der Abweichungen
vom Mittelwert
=
17 / 21
Streuungsmaße s 2 und s
Standardabweichung s
rP
(xi −x )2
N
I
Standardabweichung = s =
I
Die Standardabweichung bezeichnet die durchschnittliche
Abweichung in der originären Maßeinheit
I
Standardabweichung und Varianz erfordern metrisches
Messniveau
18 / 21
Berechnung von s und s 2
Häufigkeit
fi
xi − x
(xi − x )2
fi · (xi − x )2
10
2
-3.6
12.96
25.92
11
12
13
14
15
16
17
18
19
28
550
454
599
604
711
400
84
4
1
1
-2.6
-1.6
-0.6
0.4
1.4
2.4
3.4
4.4
5.4
14.4
6.76
2.56
0.36
0.16
1.96
5.76
11.56
19.36
29.16
207.36
3718
1162.24
215.64
96.64
1393.56
2304
971.04
77.44
29.16
207.36
xi
N = 3410
P
s2 =
P
fi ·(xi −x )2
N
x = 13, 6
s2 =
10201
3410
s 2 = 2, 99
√
s=
s 2 = 1, 73
= 10201
19 / 21
Aufgabe: Berechnung von
x , xe , s und s 2
P
xi
10
11
12
13
14
15
16
17
18
Häufigkeit
fi
fi · xi
xi − x
fi %
(xi − x )2
fi · (xi − x )2
1
323
614
389
681
499
551
38
2
N = 3098
P
P
=
x =;
s2 =
=
xe =
Σfi ·(xi −x )2
N
=;
s=
20 / 21
Lösung: Berechnung von x , Pxe , s und s 2
xi
10
11
12
13
14
15
16
17
18
Häufigkeit
fi
fi × xi
fi %
xi − x
(xi − x )2
fi × (xi − x )2
1
323
614
389
681
499
551
38
2
10
3553
7368
5057
9534
7485
8816
646
36
0.03
10.46
30.28
42.83
64.82
80.92
98.71
99.94
100.00
-3.72
-2.72
-1.72
-0.72
0.28
1.28
2.28
3.28
4.28
13.84
7.40
2.96
0.52
0.08
1.64
5.20
10.76
18.32
13.84
2389.68
1816.46
201.66
53.39
817.56
2864.32
408.82
36.64
N = 3098
P
P
= 42505
x=
s2 =
42505
3098
= 13, 72;
Σfi ×(xi −x )2
N
=
8602.37
3098
= 8602.37
xe = 14
= 2, 78;
s = 1, 67
21 / 21
Herunterladen