Deskriptive Datenanalyse

Werbung
Methoden der empirischen
Sozialforschung I
Annelies Blom, PhD
TU Kaiserslautern
Wintersemester 2011/12
Übersicht
• Quantitative Datenauswertung:
deskriptive und induktive Statistik
• Wiederholung: Die wichtigsten Aspekte aus Methoden I
• Vortrag: Qualitätsvergleich zweier quantitativer Studien
• Übungen, Fragen und Antworten
Methoden 1, Vorlesungen 11-14
2
Datenauswertung
Methoden 1, Vorlesungen 11-14
3
Was ist Statistik?
• Statistik ist ein Teilgebiet der angewandten Mathematik
• Statistik ist ein wichtiges Hilfsmittel für die empirische
Sozialforschung (Datenauswertung)
• Herkunft des Begriffs
•
•
Neulateinisch „statista“ etwa „Staatsmann“
Gottfried Achenwall(1749) Staatsverfassung der
europäischen Reiche. Statistik als Lehre der
„Staatsmerkwürdigkeiten“.
• Die zwei Bedeutungen
•
Sammlung numerischer Informationen über Tatbestände
(amtliche Statistik)
• Verfahren zur Auswertung numerischer Daten
•
•
•
Informationsgewinnung (explorative Statistik)
Informationsreduktion (deskriptive Statistik)
VerallgemeinerungMethoden
(induktive
Statistik,
1, Vorlesungen
11-14 Inferenzstatistik)
4
Deskriptive vs. induktive Statistik
• Deskriptive Statistik beschreibt
(und reduziert) die Daten im Datensatz
(d.h. in der Stichprobe)
• Ziel der induktiven Statistik ist die statistische
Inferenz, d.h. Rückschlüsse von der
Zufallsstichprobe auf die Grundgesamtheit zu
ziehen.
Methoden 1, Vorlesungen 11-14
5
Bespiel einer Datenanalyse
„Zwei Drittel der afghanischen Bevölkerung stellen
dem westlichen Engagement in ihrem Land ein
negatives Zeugnis aus, mehr als ein Viertel
befürwortet sogar Anschläge auf die NATO. Die
Hoffnung auf eine Wende zum Besseren wurde in
weiten Teilen des Landes enttäuscht; auch das
Ansehen Deutschlands ist dramatisch gesunken. Das
sind die Ergebnisse der neuen Afghanistan-Umfrage
von ARD, ABC, BBC und "Washington Post".
www.tagesschau.de, Dezember 2010
Methoden 1, Vorlesungen 11-14
6
Afghanistan-Umfrage
In your view, what is the biggest problem facing Afghanistan as a whole?
100%
80%
Don't Know
Other
60%
Education
Foreign influence
Reconstruction
40%
Government
Economy
Security
20%
0%
Total
Male
Female
7
Afghanistan-Umfrage
In your view, what is the biggest problem facing Afghanistan as a whole?
100%
80%
Don't Know
Other
60%
Education
Foreign influence
Reconstruction
40%
Government
Economy
Security
20%
0%
Kabul
Kunduz
Balkh
Helmand
Kandahar
8
Afghanistan-Umfrage
Who would you rather have ruling Afghanistan today:
the current government, or the Taliban?
100%
80%
60%
The Taliban
The current government
40%
20%
0%
Kabul
Kunduz
Balkh
Helmand
Kandahar
9
Deskriptive Statistik
Datenbeschreibung
Methoden 1, Vorlesungen 11-14
10
Datenmatrix / Datensatz
Variable 1
Variable 2
…
Fall 1
Wert von Fall 1
auf Variable 1
Wert von Fall 1
auf Variable 2
Wert von Fall 1
auf Variable 3
Fall 2
Wert von Fall 2
auf Variable 1
Wert von Fall 2
auf Variable 2
Wert von Fall 2
auf Variable x
Fall 3
Wert von Fall 3
auf Variable 1
Wert von Fall 3
auf Variable 2
Wert von Fall 3
auf Variable x
…
Wert von Fall i
auf Variable 1
Wert von Fall i
auf Variable 2
Wert von Fall i
auf Variable x
Methoden 1, Vorlesungen 11-14
11
Datenmatrix / Datensatz
Fall ID
Geschlecht
Geburtsgewicht
…
1019
Wert von Fall 1
auf Variable 1
Wert von Fall 1
auf Variable 2
Wert von Fall 1
auf Variable 3
1020
Wert von Fall 2
auf Variable 1
Wert von Fall 2
auf Variable 2
Wert von Fall 2
auf Variable x
1021
Wert von Fall 3
auf Variable 1
Wert von Fall 3
auf Variable 2
Wert von Fall 3
auf Variable x
…
Wert von Fall i
auf Variable 1
Wert von Fall i
auf Variable 2
Wert von Fall i
auf Variable x
Methoden 1, Vorlesungen 11-14
12
Datenmatrix / Datensatz
Fall ID
Geschlecht
Geburtsgewicht
…
1019
1 (männlich)
2856
…
1020
2 (weiblich)
4012
…
1021
2 (weiblich)
3261
…
…
…
…
Methoden 1, Vorlesungen 11-14
…
13
Datenmatrix / Datensatz
Methoden 1, Vorlesungen 11-14
14
Notation
• n die Anzahl der Untersuchungseinheiten
• X eine Variable
• i eine einzelne, aber keine bestimmte
Untersuchungseinheit (i ∈{1, ..., n}),
• xi der Wert der Variable x für die
Untersuchungseinheit i
• x1, …, xi, ..., xn die (Roh-) Daten
• aj die in den Daten vorkommenden
Ausprägungen
Methoden 1, Vorlesungen 11-14
15
Häufigkeitsverteilungen
• h(aj) bzw. hj
die absolute Häufigkeit der Ausprägung aj,
d.h. die Anzahl der xi aus x1,...,xn mit xi= aj
(j ∈{1,...,k})
• f(aj) bzw. fj
die relative Häufigkeit der Ausprägung aj,
d.h.
h
fj =
• F(aj) bzw. Fj
j
n
die kumulierte relative Häufigkeit der
j
Ausprägung aj, d.h.
F
Methoden 1, Vorlesungen 11-14
j
=
∑
l =1
fl
16
Häufigkeitstabelle
Interesse an
gesellschaftlichen
Zusammenhängen
(aj)
Absolute Häufigkeit
(hj)
0 = gar nicht wichtig
1
1,3%
1,3%
1
1
1,3%
2,6%
2
5
6,5%
9,1%
3
8
10,4%
19,5%
4
38
49,4%
68,8%
5 = sehr wichtig
24
31,2%
100,0%
Summe
77
100,0%
Relative Häufigkeit
(fj)
in Prozent
Methoden 1, Vorlesungen 11-14
Kumulierte relative
Häufigkeit (Fj)
in Prozent
17
18
Verteilungstypen
• Gipfel: unimodal↔bimodal↔multimodal
– ein (zwei, mehrere) 'deutliche(r)' Gipfel
• Symmetrie: symmetrisch ↔asymmetrisch
– es gibt eine Spiegelachse und beide Hälften sind
'annähernd' gleich
• Schiefe: linksschief (rechtssteil) ↔
rechtsschief (linkssteil)
– Daten sind rechtsseitig oder linksseitig
konzentriert
Methoden 1, Vorlesungen 11-14
19
Stamm-Blatt-Diagramm
(stem-and-leaf plot)
Die Werte für die Variable „Alter“ in einem fiktiven Datensatz (n=50):
23
67
32
61
60
57
67
46
55
42
27
51
46
34
59
22
90
41
07
39
15
21
35
35
36
42
56
23
37
45
31
84
34
48
67
78
54
67
91
53
32
89
38
56
87
45
74
49
24
86
Methoden 1, Vorlesungen 11-14
20
Stamm-Blatt-Diagramm
(stem-and-leaf plot)
Aufsteigend sortiert sehen die Werte so aus:
07
32
42
54
67
15
34
42
55
67
21
34
45
56
74
22
35
45
56
78
23
35
46
57
84
23
36
46
59
86
24
37
48
60
77
27
38
49
61
69
31
39
51
67
90
32
41
53
67
91
Methoden 1, Vorlesungen 11-14
21
Stamm-Blatt-Diagramm
(stem-and-leaf plot)
Bei einem Stamm-Blatt Diagramm, nehmen wir
zunächst die „Stämme“ der Werte und schreiben
diese unter einander.
Der Stamm von 15 ist 1, der Stamm von 23 ist 2,
der Stamm von 35 ist 3, usw.
Methoden 1, Vorlesungen 11-14
22
Stamm-Blatt-Diagramm
0
1
2
3
Methoden 1, Vorlesungen 11-14
07
12
15
21
22
23
23
24
27
31
32
32
34
34
35
35
36
37
38
23
39
Stamm-Blatt-Diagramm
(stem-and-leaf plot)
Bei einem Stamm-Blatt Diagramm, nehmen wir
zunächst die „Stämme“ der Werte und schreiben
diese unter einander.
Der Stamm von 15 ist 1, der Stamm von 23 ist 2,
der Stamm von 35 ist 3, usw.
Danach nehmen wir die „Blätter“ der Werte und
schreiben diese in Reihenfolge hinter die Stämme.
Das Blatt von 15 ist 5, das Blatt von 23 ist 3,
das Blatt von 35 ist 5, usw.
Methoden 1, Vorlesungen 11-14
24
Stamm-Blatt-Diagramm
07
15
2 123347
3 12244556789
Methoden 1, Vorlesungen 11-14
07
15
21
22
23
23
24
27
31
32
32
34
34
35
35
36
37
38
39
25
Stamm-Blatt-Diagramm
Das Stamm-Blatt-Diagramm für die fiktive
Altersverteilung (n=50) sieht so aus:
07
15
2 123347
3 12244556789
4 122556689
5 13456679
6 0177779
7 487
8 46
Dieses Stamm-Blatt-Diagramm
zeigt uns die Verteilung der
Variable „Alter“ in
10-Jahresgruppen. Aus dieser
Verteilung lassen sich wichtige
Kennwerte ablesen.
9 01
Methoden 1, Vorlesungen 11-14
26
Die Mitte einer Verteilung
07
15
2 123347
3 12244556789
4 122556689
5 13456679
6 017779
7 487
Es gibt mehrere Möglichkeiten die
„Mitte“ dieser gruppierten
Altersverteilung zu beschreiben.
Die 3 wichtigsten Kennwerte der
Mitte sind:
• Arithmetisches Mittel /
Mittelwert / Durchschnitt
8 46
9 01
• Modus / häufigster Wert
• Median / Wert der mittleren
Beobachtung
Methoden 1, Vorlesungen 11-14
27
Arithmetisches Mittel (mean)
• Der Durchschnitt
• Notation: x
Summe der Werte
x=
Anzahl der Fälle mit gültigem Wert
x1 + x2 + ... + xi + ... + xn
x=
n
n
x=
∑x
i =1
n
i
Methoden 1, Vorlesungen 11-14
28
Arithmetisches Mittel
• Beispiel: Die Beobachtungen in einer Stichprobe haben
folgende Werte für Körpergröße in cm:
145, 156, 169, 170, 171, 183, 189 und 190
x1 + x2 + ... + xi + ... + xn
x=
n
145 + 156 + 169 + 170 + 171+ 183 + 189 + 190
x=
8
x = 171,625
Methoden 1, Vorlesungen 11-14
29
Berechnung aus der Häufigkeitstabelle
Interesse an
gesellschaftlichen
Zusammenhängen
(aj)
Absolute Häufigkeit
(hj)
0 = gar nicht wichtig
1
1,3%
1,3%
1
1
1,3%
2,6%
2
5
6,5%
9,1%
3
8
10,4%
19,5%
4
38
49,4%
68,8%
5 = sehr wichtig
24
31,2%
100,0%
Summe
77
100,0%
Relative Häufigkeit
(fj)
in Prozent
Kumulierte relative
Häufigkeit (Fj)
in Prozent
k
∑a h
x=
j
j =1
n
j
x = (0 *1 + 1*1 + 2 * 5 + 3 * 8 + 4 * 38 + 5 * 24) / 77
= 3,991
Methoden 1, Vorlesungen 11-14
30
Berechnung aus der Häufigkeitstabelle
Interesse an
gesellschaftlichen
Zusammenhängen
(aj)
Absolute Häufigkeit
(hj)
0 = gar nicht wichtig
1
1,3%
1,3%
1
1
1,3%
2,6%
2
5
6,5%
9,1%
3
8
10,4%
19,5%
4
38
49,4%
68,8%
5 = sehr wichtig
24
31,2%
100,0%
Summe
77
100,0%
Relative Häufigkeit
(fj)
in Prozent
Kumulierte relative
Häufigkeit (Fj)
in Prozent
k
x = ∑aj f j
j =1
x = 0 * 0,013 + 1 * 0,013 + 2 * 0,065 + 3 * 0,104 + 4 * 0,494 + 5 * 0,312
= 3,991
Methoden 1, Vorlesungen 11-14
31
Eigenschaften des arithmetischen Mittels
• Sinnvoll vor allem für metrische Daten
• Empfindlich gegen „Ausreißer“
• "Schwerpunkteigenschaft":
n
∑ (x − x) = 0
i =1
i
Aus einer Forumsdiskussion zum Zensus 2011
bei Spiegel Online: „Und zur Statistik: Wenn
einer kerngesund ist und einer tot, geht es
beiden halbsweg gut.“
Methoden 1, Vorlesungen 11-14
32
Modus (mode)
07
15
2 123347
3 12244556789
4 122556689
5 13456679
6 0177779
7 487
Der häufigste Wert /
die häufigste Gruppe
Bei der ungruppierten Variable
Alter ist der Modus der am
häufigsten vorkommende Wert
(67).
8 46
9 01
Methoden 1, Vorlesungen 11-14
33
Modus (mode)
07
15
2 123347
3 12244556789
4 122556689
5 13456679
6 017779
7 487
8 46
9 01
Der häufigste Wert /
die häufigste Gruppe
Bei der gruppierten Variable Alter
(0-9, 10-19, 20-29, …, 90-99) ist
laut Stamm-Blatt-Diagramm
30-39 die häufigste Gruppe und
somit die modale Gruppe dieser
Verteilung.
(Der Modus der gruppierten
Variable wäre 34,5.)
Methoden 1, Vorlesungen 11-14
34
Eigenschaften des Modus
• Berechenbar schon ab Nominalskalenniveau
• Problematisch bei
– bi-und multimodalen Verteilungen
– bei sehr vielen, ähnlich besetzten (dünn
besetzten) Kategorien
– insbesondere bei stetigen Merkmalen
Methoden 1, Vorlesungen 11-14
35
Median
07
15
Bei einer Verteilung mit ungerader
Fallzahl ist der Wert der mittleren
Beobachtung der Median.
2 123347
3 12244556789
4 122556689
5 13456679
~
x = x n+1 = x 49+1 = 46


 2 


 2 
6 0177779
7 487
8 46
90
Bei der ungruppierten Variable
Alter mit n=49 Beobachtungen ist
der Wert der 25. Beobachtung der
Median.
Methoden 1, Vorlesungen 11-14
36
Median
07
15
2 123347
Bei einer Verteilung mit gerader
Fallzahl ist der Mittelwert der beiden
mittleren Beobachtungen der
Median.
x n  + x n
3 12244556789
4 122556689
5 13456679
6 0177779
7 487
8 46
9 01
~
x=

 +1
2 
 
 2
2
=
x(25) + x(26)
2
= 46
Bei der ungruppierten Variable Alter
mit n=50 Beobachtungen ist der
Mittelwert der 25. und der 26.
Beobachtung der Median.
Methoden 1, Vorlesungen 11-14
37
Eigenschaften des Medians
• Sinnvoll ab Ordinalskalenniveau
• Unempfindlich gegen 'Ausreißer'
• Mindestens 50% der Fälle sind kleiner oder
gleich dem Median
• Mindestens 50% der Fälle sind größer oder
gleich dem Median
Methoden 1, Vorlesungen 11-14
38
Streuungsmaße
Maße der zentralen Tendenz (Modus, Median, arithmetisches Mittel)
können bestimmte Unterschiede von Verteilungen nicht erfassen.
Methoden 1, Vorlesungen 11-14
39
Spannweite (range)
• Die Spannweite R einer Verteilung ist der
Abstand zwischen dem kleinstem und dem
größtem Wert,
d.h. R = xmax - xmin
• Probleme:
– Die Spannweite wächst tendenziell mit n
– und ist empfindlich gegenüber Ausreißern.
Methoden 1, Vorlesungen 11-14
40
Quantile
Ein Quantil zerlegt die Häufigkeitsverteilung in einen
unteren und einen oberen Teilbereich.
Beispiel: Das 30%-Quantil unterteilt die Verteilung einer
Variablen in die unteren 30% und die oberen 70% der
Fälle.
Definition: Der Quantilwert Qα ist der kleinste Wert, für
den zutrifft, dass der Anteil aller Fälle mit Ausprägungen
kleiner oder gleich diesem Wert mindestens α beträgt.
Quantile sind in gewisser Weise Verallgemeinerungen des
Medians.
Der Median ist das 50%-Quantil (Q0,50).
Methoden 1, Vorlesungen 11-14
41
Quantile
Interesse an
gesellschaftlichen
Zusammenhängen
(aj)
Absolute Häufigkeit
(hj)
0 = gar nicht wichtig
1
1,3%
1,3%
1
1
1,3%
2,6%
2
5
6,5%
9,1%
3
8
10,4%
19,5%
4
38
49,4%
68,8%
5 = sehr wichtig
24
31,2%
100,0%
Summe
77
100,0%
Q0,05 = 2
Q0,10 = 3
Relative Häufigkeit
(fj)
in Prozent
Q0,25 = 4
Methoden 1, Vorlesungen 11-14
Kumulierte relative
Häufigkeit (Fj)
in Prozent
Q0,50 = 4
Q0,75 = 5
42
Interquartilabstand (IQR)
1. Quartil (Q1): Q0,25
2. Quartil (Q2): Q0,50
3. Quartil (Q3): Q0,75
Der Interquartilsabstand ist die Distanz zwischen
dem 25%-Quantil und dem 75%-Quantil, d.h.
IQR = Q3 - Q1
Methoden 1, Vorlesungen 11-14
43
Quantile
Interesse an
gesellschaftlichen
Zusammenhängen
(aj)
Absolute Häufigkeit
(hj)
0 = gar nicht wichtig
1
1,3%
1,3%
1
1
1,3%
2,6%
2
5
6,5%
9,1%
3
8
10,4%
19,5%
4
38
49,4%
68,8%
5 = sehr wichtig
24
31,2%
100,0%
Summe
77
100,0%
Q0,05 = 2
Q0,10 = 3
Relative Häufigkeit
(fj)
in Prozent
Q0,25 = 4
IQR = Q0,75 - Q0,25 = Q3 - Q1 = 5 - 4 = 1
Kumulierte relative
Häufigkeit (Fj)
in Prozent
Q0,50 = 4
Q0,75 = 5
44
Der Box-Plot
Maximum
(Ausreißer)
Q3 + 1,5IQR
Q0,75/Q3
Median
Q0,25/Q1
Minimum
Spannweite
IQR
Q1 - 1,5IQR
45
Schiefe (skewness)
• Eine Verteilung ist symmetrisch, also nicht
schief, wenn die Ausprägungen symmetrisch
um den Median verteilt sind.
• Bei unimodalen, symmetrischen Verteilungen:
Modus = Median = Mittelwert
• Bei rechtsschiefen (linkssteilen) Verteilungen:
Modus < Median < Mittelwert
• Bei linksschiefen (rechtssteilen) Verteilungen:
Modus > Median > Mittelwert
Methoden 1, Vorlesungen 11-14
46
Linksschief (rechtssteil)
Mittelwert ( x )
< Median ( ~
x)
< Modus
Mittelwert
Modus
Median
47
Rechtschief (linkssteil)
Mittelwert ( x )
> Median ( ~
x)
> Modus
Modus
Mittelwert
Median
48
Steilheit (kurtosis)
Gibt die Wölbung einer Verteilung an.
Methoden 1, Vorlesungen 11-14
49
Varianz und Standardabweichung
• Wir haben den IQR kennengelernt, der mit Hilfe
von Quantilen berechnet wird und den Median
umschließt.
• Die Varianz und Standardabweichung
beschreiben Abweichungen vom Mittelwert.
• Die Schwerpunkteigenschaft des Mittelwerts
wird hierfür herangezogen:
Die Summe aller
n
( xi − x ) = 0
Abweichungen vom
∑
i =1
Mittelwert ist 0.
Methoden 1, Vorlesungen 11-14
50
Variation („Sum of Squares“)
Wie weit sind die beobachteten Werte vom
Mittelwert entfernt?
SSx = (x1- x )2 + (x2- x )2 + … + (xn- x )2
n
2
(
x
−
x
)
= ∑ i
i =1
SS = „Sum of Squares“
oder „Sum of squared differences“
Methoden 1, Vorlesungen 11-14
51
Beispiel: Variation
Alter (xi)
16
21
25
26
26
28
30
36
39
39
41
48
49
53
60
77
83
n=17
Mittelwert ( x)
41
41
41
41
41
41
41
41
41
41
41
41
41
41
41
41
41
xi - x
-25
-20
-16
-15
-15
-13
-11
-5
-2
-2
0
7
8
12
19
36
42
(xi - x )2
625
400
256
225
225
169
121
25
4
4
0
49
64
144
361
1296
1764
n
SS x = ∑ ( xi − x ) 2
i =1
= 5732
52
Varianz (variance)
• Mit steigender Fallzahl (n) steigt auch die
Variation.
• Die Varianz (s2) ist eine fallzahlunabhängige
Größe:
Varianz = Variation / n
n
sx =
2
∑ (x − x)
i =1
i
n
2
1 n
2
= ∑ ( xi − x )
n i =1
Methoden 1, Vorlesungen 11-14
53
Beispiel: Varianz
Alter (xi)
16
21
25
26
26
28
30
36
39
39
41
48
49
53
60
77
83
n=17
Mittelwert ( x)
41
41
41
41
41
41
41
41
41
41
41
41
41
41
41
41
41
xi - x
-25
-20
-16
-15
-15
-13
-11
-5
-2
-2
0
7
8
12
19
36
42
(xi - x )2
625
400
256
225
225
169
121
25
4
4
0
49
64
144
361
1296
1764
n
sx =
2
2
x
x
(
)
−
∑ i
i =1
n
5732
=
17
= 337,18
54
Standardabweichung
(standard deviation)
Ein Nachteil der Varianz:
Durch das Quadrieren verändert sich die Einheit
der Messung.
Für die Standardabweichung (s) wird daher die
Wurzel der Varianz (s2) genommen.
sx = sx =
2
1 n
2
( xi − x )
∑
n i =1
Methoden 1, Vorlesungen 11-14
55
Zusammenfassung
• Verteilungen
– Häufigkeitstabellen
– Stamm-Blatt-Diagramm
• Lagemaße
– Arithmetisches Mittel / Mittelwert (=Durchschnitt)
– Median (=der Wert der mittleren Beobachtung)
– Modus (=der häufigste Wert)
• Streuungs- und Verteilungsmaße
– Spannweite
– Quantile und Interquartilabstand (IQR)
– Varianz und Standardabweichung
• Schiefe und Steilheit
Methoden 1, Vorlesungen 11-14
56
Herunterladen