Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19 Skalenniveaus Relation zwischen Ausprägungen Beispiele Nominal Klassifikation Familienstand, Religion, Parteineigung Ordinal Rangordnung Einstellungsmessungen Abstand Temperatur in Grad Celsius, Geburtsjahr Verhältnis Alter, Einkommen, Geburtsgewicht Skalenniveau Intervall Ratio Intervall- & Ratioskalen: metrische Skalen Gruppierte Daten (meist metrische )Daten werden in Kategorien zusammengefasst Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/19 Häufigkeitstabellen ungruppierte Daten Bundesland Valid Missing Total 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Total System Frequency 70 399 125 790 595 182 94 303 742 227 103 895 123 674 93 5415 29 5444 Percent 1.3 7.3 2.3 14.5 10.9 3.3 1.7 5.6 13.6 4.2 1.9 16.4 2.3 12.4 1.7 99.5 .5 100.0 Valid Percent 1.3 7.4 2.3 14.6 11.0 3.4 1.7 5.6 13.7 4.2 1.9 16.5 2.3 12.4 1.7 100.0 Cumulative Percent 1.3 8.7 11.0 25.6 36.5 39.9 41.6 47.2 60.9 65.1 67.0 83.6 85.8 98.3 100.0 Kumulierte relative Häufigkeit Gültige relative Häufigkeit Absolute Relative Häufigkeit Häufigkeit Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/19 Häufigkeitstabellen ungruppierte Daten k..Anzahl der Kategorien einer Variable (15) n..Anzahl der Beobachtungen (5444) nk.. Anzahl der Beobachtungen in Kategorie k Absolute Häufigkeit: nk..Anzahl der Fälle, die die k-te Ausprägung der Variable x annehmen (n8 = 303) Relative Häufigkeit pk=nk/n *100 er Ausprägung k (p8 = 5.6%) Prozentanteil der Beobachtungen in Kategorie k Gültige Relative Häufigkeit pk(gültig)=nk/(n - missing) : (p8 (gültig) = 5.6) Prozentanteil der gültigen Beobachtungen in Kategorie Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 4/19 Häufigkeitstabellen ungruppierte Daten Kumulierter Anteil Summe der Anteile von der ersten Kategorie einer Variablen bis zur zu einer bestimmten Kategorie, einschliesslich des Wertes der Kategorie cp(x8)=47.2% t cp(t ) = å pi t=1,..,k i =1 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/19 Häufigkeitstabellen gruppierte Daten Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 Quelle: Kühnel, Krebs 2001 S. 49 6/19 Empirische Verteilungsfunktion Quelle: Kühnel, Krebs 2001 S. 51 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/19 Quantilwerte ungruppierte Daten Kumulierter Anteil 100 Q0.75=3710g 75 % Median: 3400g 50 Q0.25=3060g 25 4540 4290 4040 3790 3590 3400 3230 3060 2870 2685 2440 2220 1950 1500 510 0 Geburtsgewicht in g Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 8/19 Quantile Q25: 25% Quantil 25% der Geburtsgewichte sind kleiner bzw. gleich 3060g, 75% der Geburtsgewichte liegen über 3060g Q50=Median 50% der Geburtsgewicht liegen unter 3400g, 50% darüber Q75: 75% Quantil 75% der Geburtsgewichte sind kleiner bzw. gleich 3710g, 25% liegen darüber Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 9/19 Bestimmung von Quantilswerten 1. Ungruppierte Daten: entsprechen kumulierten relativen Häufigkeiten in einer Häufigkeitstabelle 2. Rangreihen von Daten 1,4, 6,7,9,10,20,22,25,36,38,50,55,60,61,67,68 Bsp: n=17 Quantilanteil =0.25 i=4.25 ->nächsthöhere ganze Zahl=5 Q25=9 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 10/19 Bestimmung von Quantilswerten bei gruppierte Daten Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/19 Graphische Darstellung von Häufigkeitsverteilungen 1. Metrische Variablen Stabdiagramm Histogramm Box plots 2. Nominalskalierte Variablen Balkendiagramm Kreisdiagramm Säulendiagramm Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 12/19 Stabdiagramm Länge der Linie: Häufigkeit der Ausprägung nicht so günstig für metrische Variablen mit vielen Ausprägungen 120 100 80 60 Anzahl 40 20 0 00 4890 4400 4310 4110 3935 3785 3540 3415 3370 3135 3095 2850 2790 2590 2325 2250 2020 1740ing 13iss M Geburtsgewicht in g Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 13/19 Histogramm •Gruppierte metrische Variablen •einander berührende Balken •Flächentreue A) B) gleich grosse ungleich grosse Klassen Klassen Höhe der Balken: Höhe der Balken: Häufigkeit der Quotient Relative Häufigkeit Kategorie zu Klassenbreite 1000 800 600 400 200 0 .0 00 50 0.0 0 0 4600. 42 0.0 0 38 0.0 0 3400.0 30 0.0 0 0 2600. 22 0.0 0 18 0.0 0 1400.0 100.0 60 Geburtsgewicht in g Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/19 Charakteristika von Häufigkeitsvereilungen Unimodal, symmetrisch U-förmig, bimodal, symmetrisch Linksschief, rechtssteil Rechtsschief, linkssteil steile Verteilung flache Verteilung Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 Kühnel, Krebs 2001 S. 59 15/19 Box-Plot •metrische Variablen •rote Box: mittlere 50% der Verteilung •Grenzen der Box: 25% und 75% Quantil •mittlerer Wert in der Box: Median •Kreise: Outliers; Sterne: extreme Outliers •Linien außerhalb der Box: Wertebereich der Normalverteilung 6000 5000 4000 3000 2000 1000 0 N= 5406 Geburtsgewicht in g Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 16/19 Balkendiagramm %Häufigkeit der Wahlabsicht Kühnel, Krebs 2001 S. 62 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 17/19 Kreis/Tortendiagramm Kühnel, Krebs 2001 S. 62 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 18/19 Säulendiagramm %Anteil Geburten nach Geschlecht 100% 90% 80% 70% 48.87 60% Mädchen 50% Buben 40% 30% 20% 51.13 10% 0% 1 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 19/19 Kennwerte Univariater Verteilungen Kühnel, Krebs 2001. Statistik für die Sozialwissenschaften, S. 67- 106 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/18 Kennwerte univariater Verteilungen • • • Lagemasse (Masse der zentralen Tendenz) Streuungsmasse Schiefemasse Lagemasse • Arithmetische Mittel: Schwerpunkt der Verteilung • Modus: am häufigsten auftretende Ausprägung einer Verteilung • Median: teilt Verteilung in zwei gleich grosse Teile Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/18 Lagemasse SPSS Output Statistiken Geburtsgewicht in g N Gültig Fehlend Mittelwert Median Modus Perzentile 25 50 75 539 3 3366,70 3420,00 3700 3030,00 3420,00 3720,00 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/18 Lagemasse Stabdiagramm Geburtsgewicht Modus: 3700g 14 Median: 3420g 12 10 Mittelwert: 3360g Q0.25: 3030g Q0.75: 3720g 8 Absolute Werte 6 4 2 0 50 4540 4210 4190 3950 3830 3720 3600 3585 3380 3270 3150 3040 2920 2800 2750 2550 2350 d n 19 hle Fe Geburtsgewicht in g Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 4/18 Median=Q0.50 Gerade Fallzahl Ungerade Fallzahl Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/18 Arithmetische Mittel Rohdaten n.. Anzahl der Beobachtungen Ungruppierte Häufigkeitstabelle nk..Anzahl der Beobachtungen in Kategorie k Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/18 Arithmetische Mittel Gruppierte Häufigkeitstabelle mk..Klassenmitte der Kategorie k n å (x − x ) = 0 i =1 i Die Summe aller Abweichungen vom Mittelwert ist stets Null Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/18 Geometrische Mittel Durchschnittswert bei prozentuellen Änderungen Jahr Zinsen 1 2 3 Basispreis 1 E 15% 1,15 E 10% 1,265 E (=1.15 E*1.10) 20% 1,518 E (=1,265 E*1.20) 1,518=1 E * 1,15 * 1,10 * 1,20 Durchschnittliche Zinsen? 1.149 = 1.15 *1.10 *1.20 3 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 8/18 Welches Lagemass soll wann eingestezt werden? Abhängig von • Skalenniveau • Robustheit gegenüber Extremwerten Modus: häufigste Wert Vorteile • alle Skalenniveaus • leicht zu bestimmen Nachteile • Geringe Informationen über Verteilung • Fehlende Eindeutigkeit bei mehrgipfeligen Verteilungen Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 9/18 Welches Lagemass soll wann eingesetzt werden? Extremwerte Median unempfindlich arithmetisches Mittel empfindlich Beobachtung i 1 2 3 4 5 6 7 8 9 10 11 Median ( i=(n+1)/2=6) arithmetisches Mittel Information aus Verteilung Skalenniveau Rang + metrische wenig Skalen metrische alle Werte Skalen Beispiel 1 1 3 6 8 10 12 15 17 19 20 21 12 12 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 Beispiel 2 -999 3 6 8 10 12 15 17 19 20 21 12 -78,91 10/18 Streuungsmasse • Spannweite (Maximum-Minimum) • Quartilabstand (Q0.75-Q0.25) • Varianz • Standardabweichung • Variationskoeffizient Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/18 Varianz Varianz wird kleiner: je näher die einzelnen Werte beim Mittelwert liegen Daten 1 2 Arithmetische Mittel=2,5 SSx (1-2,5)2 (2-2,5)2 Varianz 1,66667 3 (3-2,5)2 4 (4-2,5)2 Varianz wird größer: je mehr die einzelnen Werte vom Mittelwert abweichen Daten 1 Arithmetische Mittel=2,5 SSx (1-2,5)2 (1-2,5)2 Varianz 9 1 1 (1-2,5)2 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7 (7-2,5)2 12/18 Standardabweichung Daten 1 2 Arithmetische Mittel=2,5 SSx (1-2,5)2 (2-2,5)2 Varianz 1,66667 Standardabweichung Daten 1 Arithmetische Mittel=2,5 SSx (1-2,5)2 (1-2,5)2 Varianz 9 Standardabweichung 3 (3-2,5)2 4 (4-2,5)2 1,290994 1 1 (1-2,5)2 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7 (7-2,5)2 3 13/18 Variationskoeffizient Daten 1 2 Arithmetische Mittel=2,5 SSx (1-2,5)2 (2-2,5)2 Varianz 1,66667 Standardabweichung Variationskoeffizient Daten 1 Arithmetische Mittel=2,5 SSx (1-2,5)2 (1-2,5)2 Varianz 9 Standardabweichung Variationskoeffizient 3 (3-2,5)2 4 (4-2,5)2 1,290994 0,516398 1 1 (1-2,5)2 7 (7-2,5)2 3 1,2 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/18 Streuungsmasse SPSS Output • • • • • Spannweite Quartilabstand Varianz Standardabweichung Variationskoeffizient Statistiken Geburtsgewicht in g N Standardabweichung Varianz Spannweite Minimum Maximum Perzentile Gültig Fehlend 25 50 75 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 539 3 544,563 296549,0 3480 1190 4670 3030,00 3420,00 3720,00 15/18 Schiefe & Steilheit von Verteilungen Bestimmung über Lagemasse • Unimodale symmetrische Verteilung: Modus=Median=Mittelwert 2. Mehrgipfelige symmetrische Verteilung Median=Mittelwert 3. Rechtsschiefe Verteilung Modus<Median<Mittelwert 4. Linksschiefe Verteilung Modus>Median>Mittelwert Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 16/18 Schiefe & Steilheit von Verteilungen Schiefekoeffizient (SK) SK>0 rechtsschiefe Verteilung SK<0 linksschiefe Verteilung SK=0 symmetrische Verteilung Steilheit (Kurtosis) ST>0 steile Verteilung ST<0 flache Verteilung Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 17/18 Geburtsgewichtsverteilung Statistiken Geburtsgewicht in g N Gültig Fehlend Mittelwert Median Modus Standardabweichung Varianz Variationskoeffizient Spannweite 539 3 3366g Lagemasse 3420g 3700g 544,56g Streuungsmasse 296549,03 0,16 3480g Minimum 1190g Maximum 4670g Perzentile Quartilsabstand Schiefe Kurtosis 25 3030g 50 3420g 75 3720g 690g -0,75 Schiefe und Steilheit 1,24 Linksschiefe, steile Verteilung Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 18/18