Methoden der empirischen Sozialforschung I Annelies Blom, PhD TU Kaiserslautern Wintersemester 2011/12 Übersicht • Quantitative Datenauswertung: deskriptive und induktive Statistik • Wiederholung: Die wichtigsten Aspekte aus Methoden I • Vortrag: Qualitätsvergleich zweier quantitativer Studien • Übungen, Fragen und Antworten Methoden 1, Vorlesungen 11-14 2 Datenauswertung Methoden 1, Vorlesungen 11-14 3 Was ist Statistik? • Statistik ist ein Teilgebiet der angewandten Mathematik • Statistik ist ein wichtiges Hilfsmittel für die empirische Sozialforschung (Datenauswertung) • Herkunft des Begriffs • • Neulateinisch „statista“ etwa „Staatsmann“ Gottfried Achenwall(1749) Staatsverfassung der europäischen Reiche. Statistik als Lehre der „Staatsmerkwürdigkeiten“. • Die zwei Bedeutungen • Sammlung numerischer Informationen über Tatbestände (amtliche Statistik) • Verfahren zur Auswertung numerischer Daten • • • Informationsgewinnung (explorative Statistik) Informationsreduktion (deskriptive Statistik) VerallgemeinerungMethoden (induktive Statistik, 1, Vorlesungen 11-14 Inferenzstatistik) 4 Deskriptive vs. induktive Statistik • Deskriptive Statistik beschreibt (und reduziert) die Daten im Datensatz (d.h. in der Stichprobe) • Ziel der induktiven Statistik ist die statistische Inferenz, d.h. Rückschlüsse von der Zufallsstichprobe auf die Grundgesamtheit zu ziehen. Methoden 1, Vorlesungen 11-14 5 Bespiel einer Datenanalyse „Zwei Drittel der afghanischen Bevölkerung stellen dem westlichen Engagement in ihrem Land ein negatives Zeugnis aus, mehr als ein Viertel befürwortet sogar Anschläge auf die NATO. Die Hoffnung auf eine Wende zum Besseren wurde in weiten Teilen des Landes enttäuscht; auch das Ansehen Deutschlands ist dramatisch gesunken. Das sind die Ergebnisse der neuen Afghanistan-Umfrage von ARD, ABC, BBC und "Washington Post". www.tagesschau.de, Dezember 2010 Methoden 1, Vorlesungen 11-14 6 Afghanistan-Umfrage In your view, what is the biggest problem facing Afghanistan as a whole? 100% 80% Don't Know Other 60% Education Foreign influence Reconstruction 40% Government Economy Security 20% 0% Total Male Female 7 Afghanistan-Umfrage In your view, what is the biggest problem facing Afghanistan as a whole? 100% 80% Don't Know Other 60% Education Foreign influence Reconstruction 40% Government Economy Security 20% 0% Kabul Kunduz Balkh Helmand Kandahar 8 Afghanistan-Umfrage Who would you rather have ruling Afghanistan today: the current government, or the Taliban? 100% 80% 60% The Taliban The current government 40% 20% 0% Kabul Kunduz Balkh Helmand Kandahar 9 Deskriptive Statistik Datenbeschreibung Methoden 1, Vorlesungen 11-14 10 Datenmatrix / Datensatz Variable 1 Variable 2 … Fall 1 Wert von Fall 1 auf Variable 1 Wert von Fall 1 auf Variable 2 Wert von Fall 1 auf Variable 3 Fall 2 Wert von Fall 2 auf Variable 1 Wert von Fall 2 auf Variable 2 Wert von Fall 2 auf Variable x Fall 3 Wert von Fall 3 auf Variable 1 Wert von Fall 3 auf Variable 2 Wert von Fall 3 auf Variable x … Wert von Fall i auf Variable 1 Wert von Fall i auf Variable 2 Wert von Fall i auf Variable x Methoden 1, Vorlesungen 11-14 11 Datenmatrix / Datensatz Fall ID Geschlecht Geburtsgewicht … 1019 Wert von Fall 1 auf Variable 1 Wert von Fall 1 auf Variable 2 Wert von Fall 1 auf Variable 3 1020 Wert von Fall 2 auf Variable 1 Wert von Fall 2 auf Variable 2 Wert von Fall 2 auf Variable x 1021 Wert von Fall 3 auf Variable 1 Wert von Fall 3 auf Variable 2 Wert von Fall 3 auf Variable x … Wert von Fall i auf Variable 1 Wert von Fall i auf Variable 2 Wert von Fall i auf Variable x Methoden 1, Vorlesungen 11-14 12 Datenmatrix / Datensatz Fall ID Geschlecht Geburtsgewicht … 1019 1 (männlich) 2856 … 1020 2 (weiblich) 4012 … 1021 2 (weiblich) 3261 … … … … Methoden 1, Vorlesungen 11-14 … 13 Datenmatrix / Datensatz Methoden 1, Vorlesungen 11-14 14 Notation • n die Anzahl der Untersuchungseinheiten • X eine Variable • i eine einzelne, aber keine bestimmte Untersuchungseinheit (i ∈{1, ..., n}), • xi der Wert der Variable x für die Untersuchungseinheit i • x1, …, xi, ..., xn die (Roh-) Daten • aj die in den Daten vorkommenden Ausprägungen Methoden 1, Vorlesungen 11-14 15 Häufigkeitsverteilungen • h(aj) bzw. hj die absolute Häufigkeit der Ausprägung aj, d.h. die Anzahl der xi aus x1,...,xn mit xi= aj (j ∈{1,...,k}) • f(aj) bzw. fj die relative Häufigkeit der Ausprägung aj, d.h. h fj = • F(aj) bzw. Fj j n die kumulierte relative Häufigkeit der j Ausprägung aj, d.h. F Methoden 1, Vorlesungen 11-14 j = ∑ l =1 fl 16 Häufigkeitstabelle Interesse an gesellschaftlichen Zusammenhängen (aj) Absolute Häufigkeit (hj) 0 = gar nicht wichtig 1 1,3% 1,3% 1 1 1,3% 2,6% 2 5 6,5% 9,1% 3 8 10,4% 19,5% 4 38 49,4% 68,8% 5 = sehr wichtig 24 31,2% 100,0% Summe 77 100,0% Relative Häufigkeit (fj) in Prozent Methoden 1, Vorlesungen 11-14 Kumulierte relative Häufigkeit (Fj) in Prozent 17 18 Verteilungstypen • Gipfel: unimodal↔bimodal↔multimodal – ein (zwei, mehrere) 'deutliche(r)' Gipfel • Symmetrie: symmetrisch ↔asymmetrisch – es gibt eine Spiegelachse und beide Hälften sind 'annähernd' gleich • Schiefe: linksschief (rechtssteil) ↔ rechtsschief (linkssteil) – Daten sind rechtsseitig oder linksseitig konzentriert Methoden 1, Vorlesungen 11-14 19 Stamm-Blatt-Diagramm (stem-and-leaf plot) Die Werte für die Variable „Alter“ in einem fiktiven Datensatz (n=50): 23 67 32 61 60 57 67 46 55 42 27 51 46 34 59 22 90 41 07 39 15 21 35 35 36 42 56 23 37 45 31 84 34 48 67 78 54 67 91 53 32 89 38 56 87 45 74 49 24 86 Methoden 1, Vorlesungen 11-14 20 Stamm-Blatt-Diagramm (stem-and-leaf plot) Aufsteigend sortiert sehen die Werte so aus: 07 32 42 54 67 15 34 42 55 67 21 34 45 56 74 22 35 45 56 78 23 35 46 57 84 23 36 46 59 86 24 37 48 60 77 27 38 49 61 69 31 39 51 67 90 32 41 53 67 91 Methoden 1, Vorlesungen 11-14 21 Stamm-Blatt-Diagramm (stem-and-leaf plot) Bei einem Stamm-Blatt Diagramm, nehmen wir zunächst die „Stämme“ der Werte und schreiben diese unter einander. Der Stamm von 15 ist 1, der Stamm von 23 ist 2, der Stamm von 35 ist 3, usw. Methoden 1, Vorlesungen 11-14 22 Stamm-Blatt-Diagramm 0 1 2 3 Methoden 1, Vorlesungen 11-14 07 12 15 21 22 23 23 24 27 31 32 32 34 34 35 35 36 37 38 23 39 Stamm-Blatt-Diagramm (stem-and-leaf plot) Bei einem Stamm-Blatt Diagramm, nehmen wir zunächst die „Stämme“ der Werte und schreiben diese unter einander. Der Stamm von 15 ist 1, der Stamm von 23 ist 2, der Stamm von 35 ist 3, usw. Danach nehmen wir die „Blätter“ der Werte und schreiben diese in Reihenfolge hinter die Stämme. Das Blatt von 15 ist 5, das Blatt von 23 ist 3, das Blatt von 35 ist 5, usw. Methoden 1, Vorlesungen 11-14 24 Stamm-Blatt-Diagramm 07 15 2 123347 3 12244556789 Methoden 1, Vorlesungen 11-14 07 15 21 22 23 23 24 27 31 32 32 34 34 35 35 36 37 38 39 25 Stamm-Blatt-Diagramm Das Stamm-Blatt-Diagramm für die fiktive Altersverteilung (n=50) sieht so aus: 07 15 2 123347 3 12244556789 4 122556689 5 13456679 6 0177779 7 487 8 46 Dieses Stamm-Blatt-Diagramm zeigt uns die Verteilung der Variable „Alter“ in 10-Jahresgruppen. Aus dieser Verteilung lassen sich wichtige Kennwerte ablesen. 9 01 Methoden 1, Vorlesungen 11-14 26 Die Mitte einer Verteilung 07 15 2 123347 3 12244556789 4 122556689 5 13456679 6 017779 7 487 Es gibt mehrere Möglichkeiten die „Mitte“ dieser gruppierten Altersverteilung zu beschreiben. Die 3 wichtigsten Kennwerte der Mitte sind: • Arithmetisches Mittel / Mittelwert / Durchschnitt 8 46 9 01 • Modus / häufigster Wert • Median / Wert der mittleren Beobachtung Methoden 1, Vorlesungen 11-14 27 Arithmetisches Mittel (mean) • Der Durchschnitt • Notation: x Summe der Werte x= Anzahl der Fälle mit gültigem Wert x1 + x2 + ... + xi + ... + xn x= n n x= ∑x i =1 n i Methoden 1, Vorlesungen 11-14 28 Arithmetisches Mittel • Beispiel: Die Beobachtungen in einer Stichprobe haben folgende Werte für Körpergröße in cm: 145, 156, 169, 170, 171, 183, 189 und 190 x1 + x2 + ... + xi + ... + xn x= n 145 + 156 + 169 + 170 + 171+ 183 + 189 + 190 x= 8 x = 171,625 Methoden 1, Vorlesungen 11-14 29 Berechnung aus der Häufigkeitstabelle Interesse an gesellschaftlichen Zusammenhängen (aj) Absolute Häufigkeit (hj) 0 = gar nicht wichtig 1 1,3% 1,3% 1 1 1,3% 2,6% 2 5 6,5% 9,1% 3 8 10,4% 19,5% 4 38 49,4% 68,8% 5 = sehr wichtig 24 31,2% 100,0% Summe 77 100,0% Relative Häufigkeit (fj) in Prozent Kumulierte relative Häufigkeit (Fj) in Prozent k ∑a h x= j j =1 n j x = (0 *1 + 1*1 + 2 * 5 + 3 * 8 + 4 * 38 + 5 * 24) / 77 = 3,991 Methoden 1, Vorlesungen 11-14 30 Berechnung aus der Häufigkeitstabelle Interesse an gesellschaftlichen Zusammenhängen (aj) Absolute Häufigkeit (hj) 0 = gar nicht wichtig 1 1,3% 1,3% 1 1 1,3% 2,6% 2 5 6,5% 9,1% 3 8 10,4% 19,5% 4 38 49,4% 68,8% 5 = sehr wichtig 24 31,2% 100,0% Summe 77 100,0% Relative Häufigkeit (fj) in Prozent Kumulierte relative Häufigkeit (Fj) in Prozent k x = ∑aj f j j =1 x = 0 * 0,013 + 1 * 0,013 + 2 * 0,065 + 3 * 0,104 + 4 * 0,494 + 5 * 0,312 = 3,991 Methoden 1, Vorlesungen 11-14 31 Eigenschaften des arithmetischen Mittels • Sinnvoll vor allem für metrische Daten • Empfindlich gegen „Ausreißer“ • "Schwerpunkteigenschaft": n ∑ (x − x) = 0 i =1 i Aus einer Forumsdiskussion zum Zensus 2011 bei Spiegel Online: „Und zur Statistik: Wenn einer kerngesund ist und einer tot, geht es beiden halbsweg gut.“ Methoden 1, Vorlesungen 11-14 32 Modus (mode) 07 15 2 123347 3 12244556789 4 122556689 5 13456679 6 0177779 7 487 Der häufigste Wert / die häufigste Gruppe Bei der ungruppierten Variable Alter ist der Modus der am häufigsten vorkommende Wert (67). 8 46 9 01 Methoden 1, Vorlesungen 11-14 33 Modus (mode) 07 15 2 123347 3 12244556789 4 122556689 5 13456679 6 017779 7 487 8 46 9 01 Der häufigste Wert / die häufigste Gruppe Bei der gruppierten Variable Alter (0-9, 10-19, 20-29, …, 90-99) ist laut Stamm-Blatt-Diagramm 30-39 die häufigste Gruppe und somit die modale Gruppe dieser Verteilung. (Der Modus der gruppierten Variable wäre 34,5.) Methoden 1, Vorlesungen 11-14 34 Eigenschaften des Modus • Berechenbar schon ab Nominalskalenniveau • Problematisch bei – bi-und multimodalen Verteilungen – bei sehr vielen, ähnlich besetzten (dünn besetzten) Kategorien – insbesondere bei stetigen Merkmalen Methoden 1, Vorlesungen 11-14 35 Median 07 15 Bei einer Verteilung mit ungerader Fallzahl ist der Wert der mittleren Beobachtung der Median. 2 123347 3 12244556789 4 122556689 5 13456679 ~ x = x n+1 = x 49+1 = 46 2 2 6 0177779 7 487 8 46 90 Bei der ungruppierten Variable Alter mit n=49 Beobachtungen ist der Wert der 25. Beobachtung der Median. Methoden 1, Vorlesungen 11-14 36 Median 07 15 2 123347 Bei einer Verteilung mit gerader Fallzahl ist der Mittelwert der beiden mittleren Beobachtungen der Median. x n + x n 3 12244556789 4 122556689 5 13456679 6 0177779 7 487 8 46 9 01 ~ x= +1 2 2 2 = x(25) + x(26) 2 = 46 Bei der ungruppierten Variable Alter mit n=50 Beobachtungen ist der Mittelwert der 25. und der 26. Beobachtung der Median. Methoden 1, Vorlesungen 11-14 37 Eigenschaften des Medians • Sinnvoll ab Ordinalskalenniveau • Unempfindlich gegen 'Ausreißer' • Mindestens 50% der Fälle sind kleiner oder gleich dem Median • Mindestens 50% der Fälle sind größer oder gleich dem Median Methoden 1, Vorlesungen 11-14 38 Streuungsmaße Maße der zentralen Tendenz (Modus, Median, arithmetisches Mittel) können bestimmte Unterschiede von Verteilungen nicht erfassen. Methoden 1, Vorlesungen 11-14 39 Spannweite (range) • Die Spannweite R einer Verteilung ist der Abstand zwischen dem kleinstem und dem größtem Wert, d.h. R = xmax - xmin • Probleme: – Die Spannweite wächst tendenziell mit n – und ist empfindlich gegenüber Ausreißern. Methoden 1, Vorlesungen 11-14 40 Quantile Ein Quantil zerlegt die Häufigkeitsverteilung in einen unteren und einen oberen Teilbereich. Beispiel: Das 30%-Quantil unterteilt die Verteilung einer Variablen in die unteren 30% und die oberen 70% der Fälle. Definition: Der Quantilwert Qα ist der kleinste Wert, für den zutrifft, dass der Anteil aller Fälle mit Ausprägungen kleiner oder gleich diesem Wert mindestens α beträgt. Quantile sind in gewisser Weise Verallgemeinerungen des Medians. Der Median ist das 50%-Quantil (Q0,50). Methoden 1, Vorlesungen 11-14 41 Quantile Interesse an gesellschaftlichen Zusammenhängen (aj) Absolute Häufigkeit (hj) 0 = gar nicht wichtig 1 1,3% 1,3% 1 1 1,3% 2,6% 2 5 6,5% 9,1% 3 8 10,4% 19,5% 4 38 49,4% 68,8% 5 = sehr wichtig 24 31,2% 100,0% Summe 77 100,0% Q0,05 = 2 Q0,10 = 3 Relative Häufigkeit (fj) in Prozent Q0,25 = 4 Methoden 1, Vorlesungen 11-14 Kumulierte relative Häufigkeit (Fj) in Prozent Q0,50 = 4 Q0,75 = 5 42 Interquartilabstand (IQR) 1. Quartil (Q1): Q0,25 2. Quartil (Q2): Q0,50 3. Quartil (Q3): Q0,75 Der Interquartilsabstand ist die Distanz zwischen dem 25%-Quantil und dem 75%-Quantil, d.h. IQR = Q3 - Q1 Methoden 1, Vorlesungen 11-14 43 Quantile Interesse an gesellschaftlichen Zusammenhängen (aj) Absolute Häufigkeit (hj) 0 = gar nicht wichtig 1 1,3% 1,3% 1 1 1,3% 2,6% 2 5 6,5% 9,1% 3 8 10,4% 19,5% 4 38 49,4% 68,8% 5 = sehr wichtig 24 31,2% 100,0% Summe 77 100,0% Q0,05 = 2 Q0,10 = 3 Relative Häufigkeit (fj) in Prozent Q0,25 = 4 IQR = Q0,75 - Q0,25 = Q3 - Q1 = 5 - 4 = 1 Kumulierte relative Häufigkeit (Fj) in Prozent Q0,50 = 4 Q0,75 = 5 44 Der Box-Plot Maximum (Ausreißer) Q3 + 1,5IQR Q0,75/Q3 Median Q0,25/Q1 Minimum Spannweite IQR Q1 - 1,5IQR 45 Schiefe (skewness) • Eine Verteilung ist symmetrisch, also nicht schief, wenn die Ausprägungen symmetrisch um den Median verteilt sind. • Bei unimodalen, symmetrischen Verteilungen: Modus = Median = Mittelwert • Bei rechtsschiefen (linkssteilen) Verteilungen: Modus < Median < Mittelwert • Bei linksschiefen (rechtssteilen) Verteilungen: Modus > Median > Mittelwert Methoden 1, Vorlesungen 11-14 46 Linksschief (rechtssteil) Mittelwert ( x ) < Median ( ~ x) < Modus Mittelwert Modus Median 47 Rechtschief (linkssteil) Mittelwert ( x ) > Median ( ~ x) > Modus Modus Mittelwert Median 48 Steilheit (kurtosis) Gibt die Wölbung einer Verteilung an. Methoden 1, Vorlesungen 11-14 49 Varianz und Standardabweichung • Wir haben den IQR kennengelernt, der mit Hilfe von Quantilen berechnet wird und den Median umschließt. • Die Varianz und Standardabweichung beschreiben Abweichungen vom Mittelwert. • Die Schwerpunkteigenschaft des Mittelwerts wird hierfür herangezogen: Die Summe aller n ( xi − x ) = 0 Abweichungen vom ∑ i =1 Mittelwert ist 0. Methoden 1, Vorlesungen 11-14 50 Variation („Sum of Squares“) Wie weit sind die beobachteten Werte vom Mittelwert entfernt? SSx = (x1- x )2 + (x2- x )2 + … + (xn- x )2 n 2 ( x − x ) = ∑ i i =1 SS = „Sum of Squares“ oder „Sum of squared differences“ Methoden 1, Vorlesungen 11-14 51 Beispiel: Variation Alter (xi) 16 21 25 26 26 28 30 36 39 39 41 48 49 53 60 77 83 n=17 Mittelwert ( x) 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 xi - x -25 -20 -16 -15 -15 -13 -11 -5 -2 -2 0 7 8 12 19 36 42 (xi - x )2 625 400 256 225 225 169 121 25 4 4 0 49 64 144 361 1296 1764 n SS x = ∑ ( xi − x ) 2 i =1 = 5732 52 Varianz (variance) • Mit steigender Fallzahl (n) steigt auch die Variation. • Die Varianz (s2) ist eine fallzahlunabhängige Größe: Varianz = Variation / n n sx = 2 ∑ (x − x) i =1 i n 2 1 n 2 = ∑ ( xi − x ) n i =1 Methoden 1, Vorlesungen 11-14 53 Beispiel: Varianz Alter (xi) 16 21 25 26 26 28 30 36 39 39 41 48 49 53 60 77 83 n=17 Mittelwert ( x) 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 41 xi - x -25 -20 -16 -15 -15 -13 -11 -5 -2 -2 0 7 8 12 19 36 42 (xi - x )2 625 400 256 225 225 169 121 25 4 4 0 49 64 144 361 1296 1764 n sx = 2 2 x x ( ) − ∑ i i =1 n 5732 = 17 = 337,18 54 Standardabweichung (standard deviation) Ein Nachteil der Varianz: Durch das Quadrieren verändert sich die Einheit der Messung. Für die Standardabweichung (s) wird daher die Wurzel der Varianz (s2) genommen. sx = sx = 2 1 n 2 ( xi − x ) ∑ n i =1 Methoden 1, Vorlesungen 11-14 55 Zusammenfassung • Verteilungen – Häufigkeitstabellen – Stamm-Blatt-Diagramm • Lagemaße – Arithmetisches Mittel / Mittelwert (=Durchschnitt) – Median (=der Wert der mittleren Beobachtung) – Modus (=der häufigste Wert) • Streuungs- und Verteilungsmaße – Spannweite – Quantile und Interquartilabstand (IQR) – Varianz und Standardabweichung • Schiefe und Steilheit Methoden 1, Vorlesungen 11-14 56