Univariate Methoden

Werbung
Univariate
Häufigkeitsverteilungen
Kühnel, Krebs 2001: Statistik für die
Sozialwissenschaften, S.41-66
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
1/19
Skalenniveaus
Relation zwischen
Ausprägungen
Beispiele
Nominal
Klassifikation
Familienstand, Religion,
Parteineigung
Ordinal
Rangordnung
Einstellungsmessungen
Abstand
Temperatur in Grad
Celsius, Geburtsjahr
Verhältnis
Alter, Einkommen,
Geburtsgewicht
Skalenniveau
Intervall
Ratio
Intervall- & Ratioskalen: metrische Skalen
Gruppierte Daten
(meist metrische )Daten werden in Kategorien
zusammengefasst
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
2/19
Häufigkeitstabellen
ungruppierte Daten
Bundesland
Valid
Missing
Total
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total
System
Frequency
70
399
125
790
595
182
94
303
742
227
103
895
123
674
93
5415
29
5444
Percent
1.3
7.3
2.3
14.5
10.9
3.3
1.7
5.6
13.6
4.2
1.9
16.4
2.3
12.4
1.7
99.5
.5
100.0
Valid Percent
1.3
7.4
2.3
14.6
11.0
3.4
1.7
5.6
13.7
4.2
1.9
16.5
2.3
12.4
1.7
100.0
Cumulative
Percent
1.3
8.7
11.0
25.6
36.5
39.9
41.6
47.2
60.9
65.1
67.0
83.6
85.8
98.3
100.0
Kumulierte
relative
Häufigkeit
Gültige relative
Häufigkeit
Absolute Relative
Häufigkeit Häufigkeit
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
3/19
Häufigkeitstabellen
ungruppierte Daten
k..Anzahl der Kategorien einer Variable (15)
n..Anzahl der Beobachtungen (5444)
nk.. Anzahl der Beobachtungen in Kategorie k
Absolute Häufigkeit:
nk..Anzahl der Fälle, die die k-te Ausprägung der
Variable x annehmen (n8 = 303)
Relative Häufigkeit
pk=nk/n *100 er Ausprägung k (p8 = 5.6%)
Prozentanteil der Beobachtungen in Kategorie k
Gültige Relative Häufigkeit
pk(gültig)=nk/(n - missing) : (p8 (gültig) = 5.6)
Prozentanteil der gültigen Beobachtungen in Kategorie
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
4/19
Häufigkeitstabellen
ungruppierte Daten
Kumulierter Anteil
Summe der Anteile von der ersten Kategorie
einer Variablen bis zur zu einer bestimmten
Kategorie, einschliesslich des Wertes der Kategorie
cp(x8)=47.2%
t
cp(t ) = å pi
t=1,..,k
i =1
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
5/19
Häufigkeitstabellen
gruppierte Daten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
Quelle: Kühnel, Krebs 2001 S. 49
6/19
Empirische
Verteilungsfunktion
Quelle: Kühnel, Krebs 2001 S. 51
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
7/19
Quantilwerte
ungruppierte Daten
Kumulierter Anteil
100
Q0.75=3710g
75
%
Median: 3400g
50
Q0.25=3060g
25
4540
4290
4040
3790
3590
3400
3230
3060
2870
2685
2440
2220
1950
1500
510
0
Geburtsgewicht in g
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
8/19
Quantile
Q25: 25% Quantil
25% der Geburtsgewichte sind kleiner bzw. gleich
3060g, 75% der Geburtsgewichte liegen über 3060g
Q50=Median
50% der Geburtsgewicht liegen unter 3400g,
50% darüber
Q75: 75% Quantil
75% der Geburtsgewichte sind kleiner bzw. gleich
3710g, 25% liegen darüber
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
9/19
Bestimmung von
Quantilswerten
1. Ungruppierte Daten:
entsprechen kumulierten relativen Häufigkeiten
in einer Häufigkeitstabelle
2. Rangreihen von Daten
1,4, 6,7,9,10,20,22,25,36,38,50,55,60,61,67,68
Bsp: n=17
Quantilanteil =0.25
i=4.25 ->nächsthöhere ganze Zahl=5
Q25=9
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
10/19
Bestimmung von
Quantilswerten bei
gruppierte Daten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
11/19
Graphische Darstellung
von
Häufigkeitsverteilungen
1. Metrische Variablen
Stabdiagramm
Histogramm
Box plots
2. Nominalskalierte Variablen
Balkendiagramm
Kreisdiagramm
Säulendiagramm
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
12/19
Stabdiagramm
Länge der Linie: Häufigkeit der Ausprägung
nicht so günstig für metrische Variablen mit
vielen Ausprägungen
120
100
80
60
Anzahl
40
20
0
00
4890
4400
4310
4110
3935
3785
3540
3415
3370
3135
3095
2850
2790
2590
2325
2250
2020
1740ing
13iss
M
Geburtsgewicht in g
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
13/19
Histogramm
•Gruppierte metrische Variablen
•einander berührende Balken
•Flächentreue
A)
B)
gleich grosse
ungleich grosse
Klassen
Klassen
Höhe der Balken:
Höhe der Balken:
Häufigkeit der
Quotient Relative Häufigkeit
Kategorie
zu Klassenbreite
1000
800
600
400
200
0
.0
00
50 0.0
0
0
4600.
42 0.0
0
38 0.0
0
3400.0
30 0.0
0
0
2600.
22 0.0
0
18 0.0
0
1400.0
100.0
60
Geburtsgewicht in g
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
14/19
Charakteristika von
Häufigkeitsvereilungen
Unimodal, symmetrisch
U-förmig, bimodal,
symmetrisch
Linksschief, rechtssteil Rechtsschief, linkssteil
steile Verteilung
flache Verteilung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
Kühnel, Krebs 2001 S. 59
15/19
Box-Plot
•metrische Variablen
•rote Box: mittlere 50% der Verteilung
•Grenzen der Box: 25% und 75% Quantil
•mittlerer Wert in der Box: Median
•Kreise: Outliers; Sterne: extreme Outliers
•Linien außerhalb der Box: Wertebereich der
Normalverteilung
6000
5000
4000
3000
2000
1000
0
N=
5406
Geburtsgewicht in g
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
16/19
Balkendiagramm
%Häufigkeit der Wahlabsicht
Kühnel, Krebs 2001 S. 62
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
17/19
Kreis/Tortendiagramm
Kühnel, Krebs 2001 S. 62
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
18/19
Säulendiagramm
%Anteil Geburten nach Geschlecht
100%
90%
80%
70%
48.87
60%
Mädchen
50%
Buben
40%
30%
20%
51.13
10%
0%
1
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
19/19
Kennwerte Univariater
Verteilungen
Kühnel, Krebs 2001. Statistik für die
Sozialwissenschaften, S. 67- 106
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
1/18
Kennwerte univariater
Verteilungen
•
•
•
Lagemasse (Masse der zentralen Tendenz)
Streuungsmasse
Schiefemasse
Lagemasse
•
Arithmetische Mittel: Schwerpunkt
der Verteilung
•
Modus:
am häufigsten auftretende
Ausprägung einer Verteilung
•
Median:
teilt Verteilung in zwei gleich
grosse Teile
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
2/18
Lagemasse
SPSS Output
Statistiken
Geburtsgewicht in g
N
Gültig
Fehlend
Mittelwert
Median
Modus
Perzentile 25
50
75
539
3
3366,70
3420,00
3700
3030,00
3420,00
3720,00
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
3/18
Lagemasse
Stabdiagramm Geburtsgewicht
Modus: 3700g
14
Median: 3420g
12
10
Mittelwert: 3360g
Q0.25: 3030g
Q0.75: 3720g
8
Absolute Werte
6
4
2
0
50
4540
4210
4190
3950
3830
3720
3600
3585
3380
3270
3150
3040
2920
2800
2750
2550
2350 d
n
19 hle
Fe
Geburtsgewicht in g
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
4/18
Median=Q0.50
Gerade Fallzahl
Ungerade Fallzahl
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
5/18
Arithmetische Mittel
Rohdaten
n.. Anzahl der Beobachtungen
Ungruppierte Häufigkeitstabelle
nk..Anzahl der Beobachtungen in Kategorie k
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
6/18
Arithmetische Mittel
Gruppierte Häufigkeitstabelle
mk..Klassenmitte der Kategorie k
n
å (x − x ) = 0
i =1
i
Die Summe aller Abweichungen vom Mittelwert
ist stets Null
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
7/18
Geometrische Mittel
Durchschnittswert bei
prozentuellen Änderungen
Jahr
Zinsen
1
2
3
Basispreis 1 E
15% 1,15 E
10% 1,265 E (=1.15 E*1.10)
20% 1,518 E (=1,265 E*1.20)
1,518=1 E * 1,15 * 1,10 * 1,20
Durchschnittliche Zinsen?
1.149 = 1.15 *1.10 *1.20
3
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
8/18
Welches Lagemass soll
wann eingestezt werden?
Abhängig von
• Skalenniveau
• Robustheit gegenüber Extremwerten
Modus: häufigste Wert
Vorteile
• alle Skalenniveaus
• leicht zu bestimmen
Nachteile
• Geringe Informationen über Verteilung
• Fehlende Eindeutigkeit bei mehrgipfeligen
Verteilungen
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
9/18
Welches Lagemass soll
wann eingesetzt werden?
Extremwerte
Median
unempfindlich
arithmetisches
Mittel
empfindlich
Beobachtung i
1
2
3
4
5
6
7
8
9
10
11
Median ( i=(n+1)/2=6)
arithmetisches Mittel
Information
aus
Verteilung Skalenniveau
Rang +
metrische
wenig
Skalen
metrische
alle Werte Skalen
Beispiel 1
1
3
6
8
10
12
15
17
19
20
21
12
12
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
Beispiel 2
-999
3
6
8
10
12
15
17
19
20
21
12
-78,91
10/18
Streuungsmasse
•
Spannweite (Maximum-Minimum)
•
Quartilabstand (Q0.75-Q0.25)
•
Varianz
•
Standardabweichung
•
Variationskoeffizient
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
11/18
Varianz
Varianz wird kleiner: je näher die einzelnen Werte
beim Mittelwert liegen
Daten
1
2
Arithmetische Mittel=2,5
SSx
(1-2,5)2 (2-2,5)2
Varianz
1,66667
3
(3-2,5)2
4
(4-2,5)2
Varianz wird größer: je mehr die einzelnen Werte
vom Mittelwert abweichen
Daten
1
Arithmetische Mittel=2,5
SSx
(1-2,5)2 (1-2,5)2
Varianz
9
1
1
(1-2,5)2
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
7
(7-2,5)2
12/18
Standardabweichung
Daten
1
2
Arithmetische Mittel=2,5
SSx
(1-2,5)2 (2-2,5)2
Varianz
1,66667
Standardabweichung
Daten
1
Arithmetische Mittel=2,5
SSx
(1-2,5)2 (1-2,5)2
Varianz
9
Standardabweichung
3
(3-2,5)2
4
(4-2,5)2
1,290994
1
1
(1-2,5)2
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
7
(7-2,5)2
3
13/18
Variationskoeffizient
Daten
1
2
Arithmetische Mittel=2,5
SSx
(1-2,5)2 (2-2,5)2
Varianz
1,66667
Standardabweichung
Variationskoeffizient
Daten
1
Arithmetische Mittel=2,5
SSx
(1-2,5)2 (1-2,5)2
Varianz
9
Standardabweichung
Variationskoeffizient
3
(3-2,5)2
4
(4-2,5)2
1,290994
0,516398
1
1
(1-2,5)2
7
(7-2,5)2
3
1,2
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
14/18
Streuungsmasse
SPSS Output
•
•
•
•
•
Spannweite
Quartilabstand
Varianz
Standardabweichung
Variationskoeffizient
Statistiken
Geburtsgewicht in g
N
Standardabweichung
Varianz
Spannweite
Minimum
Maximum
Perzentile
Gültig
Fehlend
25
50
75
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
539
3
544,563
296549,0
3480
1190
4670
3030,00
3420,00
3720,00
15/18
Schiefe & Steilheit
von Verteilungen
Bestimmung über Lagemasse
• Unimodale symmetrische
Verteilung:
Modus=Median=Mittelwert
2. Mehrgipfelige symmetrische
Verteilung
Median=Mittelwert
3. Rechtsschiefe Verteilung
Modus<Median<Mittelwert
4. Linksschiefe Verteilung
Modus>Median>Mittelwert
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
16/18
Schiefe & Steilheit
von Verteilungen
Schiefekoeffizient (SK)
SK>0 rechtsschiefe Verteilung
SK<0 linksschiefe Verteilung
SK=0 symmetrische Verteilung
Steilheit (Kurtosis)
ST>0 steile Verteilung
ST<0 flache Verteilung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
17/18
Geburtsgewichtsverteilung
Statistiken
Geburtsgewicht in g
N
Gültig
Fehlend
Mittelwert
Median
Modus
Standardabweichung
Varianz
Variationskoeffizient
Spannweite
539
3
3366g Lagemasse
3420g
3700g
544,56g Streuungsmasse
296549,03
0,16
3480g
Minimum
1190g
Maximum
4670g
Perzentile
Quartilsabstand
Schiefe
Kurtosis
25
3030g
50
3420g
75
3720g
690g
-0,75 Schiefe und Steilheit
1,24
Linksschiefe, steile Verteilung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
18/18
Herunterladen