Modus Beispiel: Modus Jugendliche (18-24 Jahre) in Westdeutschland Parameter oder Kennwerte einer Häufigkeitsverteilung sind Kenngrößen, mit deren Hilfe die Verteilung z.T. oder vollständig rekonstruiert werden kann DWest = Jugendliche (18-24 Jahre) in Ostdeutschland Modus oder Modalwert (D) einer Häufigkeitsverteilung ist der Wert der häufigsten Merkmalsausprägung. Sind mehrere Ausprägungen gleich häufig, gibt es mehrere Modalwerte DOst = Quelle: ALLBUS 2014 Müller-Benedict: Statistik I/3 1 2 Median Modus für gruppierte Daten EINK10 Gültig Einkommen in 1000erSchritten Müller-Benedict: Statistik I/3 D= Fehlend Gesamt 1-1000 1001-2000 2001-3000 3001-4000 4001-5000 5001-6000 Gesamt System Häufigkeit 286 688 524 159 52 17 1726 1508 3234 Prozent 8,8 21,3 16,2 4,9 1,6 ,5 53,4 46,6 100,0 Gültige Prozente 16,6 39,9 30,4 9,2 3,0 1,0 100,0 ~ ), (Z) Median oder Zentralwert (X eines Merkmals X ist ng des Falls in der Mitte der der „Größe“ nach geordneten Fälle. Bei einer geraden Anzahl wird die Ausprägung der beiden in der Mitte liegenden Fälle gemittelt. Kumulierte Prozente 16,6 56,4 86,8 96,0 99,0 100,0 Schulabschluss: 1 = „kein“, 2 = „HS“, 3 = „RS“, 4 = „FHS“, 5 = „Abi“ EINK3 Einkommen in 1500erSchritten Gültig D= Fehlend Gesamt Müller-Benedict: Statistik I/3 1-1500 1501-3000 3001-4500 4501-6000 Gesamt System Häufigkeit 601 897 185 43 1726 1508 3234 Prozent 18,6 27,7 5,7 1,3 53,4 46,6 100,0 Gültige Prozente 34,8 52,0 10,7 2,5 100,0 Kumulierte Prozente 34,8 86,8 97,5 100,0 Abschlüsse von 11 Schülern: 3, 3, 4, 2, 4, 2, 1, 3, 2, 5, 2 ~ Wert des 6. Falls: X 3 = „RS“ Abschlüsse von 10 Schülern: 3, 4, 2, 4, 2, 1, 3, 2, 5, 2 ~ Wert zwischen 5. und 6. Fall: X 2,5 = Mitte zw. „HS“ u. „RS“ 3 Müller-Benedict: Statistik I/3 4 Beispiel Median Median grafisch Alte Bundesländer 120 100 ~ X = 80 Kumulative Prozent 60 Neue Bundesländer ~ X = 50% 40 20 1950,0 0 00 0, 00 12 ,00 00 86 ,00 50 63 ,00 50 53 ,00 50 47 ,00 50 42 ,00 50 38 ,00 50 34 ,00 50 29 ,00 50 25 ,00 50 21 ,00 50 17 ,00 50 13 0 0 0, 95 0 0 0, 55 0 0 0, 15 Netto-Einkommen Müller-Benedict: Statistik I/3 5 Müller-Benedict: Statistik I/3 6 Berechnung des Medians bei gruppierten Daten Untergrenze der Messwertklasse des mittleren Falls plus der dem mittleren Fall entsprechende Teil der Breite dieser Klasse Eigenschaften des Medians EINK3 Gültig Fehlend Gesamt 1-1500 1501-3000 3001-4500 4501-6000 Gesamt System Häufigkeit 601 897 185 43 1726 1508 3234 Prozent 18,6 27,7 5,7 1,3 53,4 46,6 100,0 Gültige Prozente 34,8 52,0 10,7 2,5 100,0 Der Median ist nur für mindestens ordinal skalierte Daten geeignet. Der Median ist robust gegenüber „Ausreißern“. Der Median ist der Wert, der den kleinsten „Abstand“ zu allen anderen Werten gleichzeitig hat : Kumulierte Prozente 34,8 86,8 97,5 100,0 | xi – a | alle _ i n = 1726 = gerade Zahl: mittlerer Fall = „Fall“ zwischen 863 und 864 = 863,5 ~| | xi - X alle _ i 863,5 601 ~ X 1501 1500 1939,96 897 Müller-Benedict: Statistik I/3 7 Müller-Benedict: Statistik I/3 8 Mittelwert Mittelwert oder arithmetisches Mittel X „In welchem Maße können Sie persönlich auf die Politik Einfluss nehmen, wenn Sie in einer Partei mitarbeiten?“ Sei n = Anzahl der Fälle und xi die Ausprägung des i-ten Falls. Dann ist 1 X = n Wert Überhaupt nicht ... ... n x i 1 i mittelmäßig ... ... Sehr stark Code 1 2 3 West 6 2 3 Ost 3 2 1 4 5 6 7 3 3 2 1 2 1 1 0 20 10 Summe Müller-Benedict: Statistik I/3 9 Mittelwert Müller-Benedict: Statistik I/3 10 Beispiel Mittelwert Mittelwert oder arithmetisches Mittel ERHEBUNGSGEBIET: WEST - OST ALTE BUNDESLAENDER X Gültig Sei n = Anzahl der Fälle und xi die Ausprägung des i-ten Falls. Dann ist 1 X = n n xi NEUE BUNDESLAENDER X 1 n Fehlend Gesamt k i Müller-Benedict: Statistik I/3 UEBERHAUPT NICHT i i i i1 11 SEHR STARK Gesamt KEINE ANGABE Häufigkeit 563 236 259 335 346 281 147 2167 45 2212 332 172 134 140 109 72 46 1005 17 1022 EINFLUSSNAHME: PARTEIMITARBEIT ALTE BUNDESLAENDER N Gültig Fehlend Mittelwert Median Modus NEUE N Gültig BUNDESLAENDER Fehlend Mittelwert Median Modus X f ( X ) X p( X ) i1 SEHR STARK Gesamt KEINE ANGABE i 1 Berechnung des Mittelwerts über die Häufigkeitsverteilung eines Merkmals X mit k Ausprägungen (Xi = i-te Ausprägung) : k Fehlend Gesamt Gültig UEBERHAUPT NICHT Müller-Benedict: Statistik I/3 Prozent 25,5 10,7 11,7 15,1 15,6 12,7 6,6 98,0 2,0 100,0 32,5 16,8 13,1 13,7 10,7 7,0 4,5 98,3 1,7 100,0 Gültige Prozente 26,0 10,9 12,0 15,5 16,0 13,0 6,8 100,0 Kumulierte Prozente 26,0 36,9 48,8 64,3 80,2 93,2 100,0 33,0 17,1 13,3 13,9 10,8 7,2 4,6 100,0 33,0 50,1 63,5 77,4 88,3 95,4 100,0 2167 45 3,51 4,00 1 1005 17 2,92 2,00 1 12 Gewichtung, Index Beispiel Index Zerlegung ist eine Aufteilung des Datensatzes in k Teilgruppen von Fällen, so das jeder Fall in genau eine Teilgruppe kommt. Weitere Fragen zum Phänomen „Politikverdrossenheit“: Können Sie durch Folgendes Einfluss nehmen? Indem ich ...mich an Wahlen beteilige ...mich in Versammlungen an öff. Diskussionen beteilige ...in einer Bürgerinitiative mitarbeite ...in einer Partei aktiv mitarbeite ...Häuser, Fabriken, Ämter besetze ...an einer genehmigten Demonstration teilnehme ... Gewichtung ist die Zuordnung von Faktoren („Gewichten“) zu jeder Teilgruppe einer Zerlegung. Der Mittelwert eines Merkmals ist die Summe der mit ihrer relativen Häufigkeit gewichteten Mittelwerte der Teilgruppen einer Zerlegung. Index ist eine – möglicherweise gewichtete – Summe von Merkmalen. Der Mittelwert eines Index von Merkmalen ist der Index der Mittelwerte der Merkmale. Müller-Benedict: Statistik I/3 13 Eigenschaften des Mittelwerts: Der Mittelwert ist nicht robust gegenüber Ausreißern. Der Mittelwert ist der Wert mit den kleinsten Abstandsquadraten zu allen Werten, es gilt für alle a: i1 (x i a ) 2 N i1 (x i X )2 N = 14 Vergleich der drei Mittelwerte: Von Modus über Median zu Mittelwert sind immer mehr Informationen aus den Daten berücksichtigt. Von Modus über Median zu Mittelwert steigt die Empfindlichkeit gegenüber Ausreißern. Modus, Median und Mittelwert benötigen immer höheres Skalenniveau, um aussagekräftig zu sein. Die Gesamtsumme aller Werte ist der N-fache Mittelwert: xi Müller-Benedict: Statistik I/3 Residuen Mittelwert: Eigenschaften N Index „Politikverdrossenheit“ = Summe der Werte zu allen diesen Fragen NX i 1 „Fehler“ oder Residuum eines Datums xi ist die Differenz (xi – X ) des Datums vom Mittelwert. Die Summe über alle Abweichungen vom Mittelwert ist 0: N (x i X ) = 0. i 1 Müller-Benedict: Statistik I/3 15 Müller-Benedict: Statistik I/3 16 Mittelwert bei verschiedenen Verteilungen Verteilungsformen USA 8 6 ALTE BUNDESLAENDER 300 700 5 6 600 4 500 200 4 3 400 2 300 2 100 1 Häufigkeit 200 0 0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 11,0 12,0 E4 E1 100 0 0 1,0 2,0 3,0 4,0 5,0 6,0 0,0 7,0 2,0 1,0 20 4,0 3,0 6,0 5,0 8,0 7,0 10,0 9,0 12,0 11,0 14,0 13,0 16,0 15,0 18,0 17,0 19,0 WICHTIGKEIT: FREIZEIT UND ERHOLUNG Number of Brothers and Sisters BRD 600 500 X = 5,5 10 400 300 200 100 0 2,0 10,0 6,0 18,0 14,0 26,0 22,0 34,0 30,0 42,0 38,0 50,0 46,0 58,0 54,0 66,0 62,0 74,0 0 70,0 1,0 E3 2,0 3,0 4,0 5,0 6,0 7,0 WICHTIGKEIT: BERUF UND ARBEIT Müller-Benedict: Statistik I/3 17 Müller-Benedict: Statistik I/3 18 Verteilungsformen Beschrei einfache kompli- Extreme bendes Auspräzierte AuspräMerkmal gung Ausprägung gung Anzahl unimodal bimodal U-förmig Gipfel oder mehrgipflig Symmetrie Symmetrisch Steilheit schmal Müller-Benedict: Statistik I/3 linksoder rechtssteil flach L-förmig oder J-förmig Gleichverteilung Beziehung zw. Lageparametern und Verteilungsform mit kompliz. Auspräg. Hinweise auf Symmetrisch Linkssteil Rechtssteil Bimodal Polarisierung (Meinung), verborgenes dichotomes Merkmal Überschreitung von „Sollwerten“, hohe „Erwünschtheit“ Heterogenität 19 Müller-Benedict: Statistik I/3 Modus Median Mittelwert Modus < Median < Mittelwert Mittelwert < Median < Modus 2 Modalwerte oder Modus >> bzw. << Mittelwert 20 Logarithmus Transformation Transformation von Daten ist die Anwendung einer mathematischen Funktion g auf alle Fälle eines Merkmals zum Zweck einer Veränderung ihrer Verteilung: xi -> g(xi). Logarithmus naturalis 4 3 Als Transformationen sind nur monotone Funktionen geeignet, die die Ordnungsrelation (und damit das Skalenniveau) der Daten nicht verändern (xi<xj g(xi)<g(xj)). 2 x Ln(x) 1 y x 0 -1 Eine lineare Transformation besteht aus der Addition von Konstanten und/oder der Multiplikation mit einem Faktor. y‘ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 -2 -3 -4 X Beispiel: Zentrierung einer Variablen: g(xi) = xi,zentriert = xi - X Müller-Benedict: Statistik I/3 21 Beispiel Wurzel-Transformation Müller-Benedict: Statistik I/3 22 Hausaufgabe: 1. Die Deutsch-Noten von 20 Schülern der Klasse 4.1: 1,1,3,5,1,3,5,6,1,3,4,1,2,4,6,2,4,2,6,4 Die Deutsch-Noten von 20 Schülern der Klasse 4.2: 1,5,4,1,6,4,5,5,2,3,5,6,5,6,4,2,3,3,4,3 • Berechnen Sie jeweils Mittelwert und Median • formulieren Sie jeweils einen Ergebnissatz ohne statistische Begriffe • vergleichen Sie die Klassen, auch mit Hilfe der Verteilungsform Logarithmus und Wurzeltransformation sind geeignet, um linkssteile Verteilungen zu symmetrisieren. 40 60 2. Aus den PISA-Daten wird die „Lesekompetenz“ (Scores, um 500 Punkte zentriert) als Häufigkeitstabelle dargestellt: 50 30 40 30 • Berechnen Sie die entsprechenden Lagemaße. Behandeln Sie das Merkmal zuerst als ordinal und dann als intervallskaliert. Für Letzteres wählen Sie die Klassenmittelpunkte (275, 325, 375,…) als intervallskalierte „Vertretergrößen“ für die jeweiligen Gruppen. • Welche Verteilungsform hat die Lesekompetenz? 20 20 10 10 0 0 24,4 71,1 117,8 164,5 211,2 257,9 304,6 DAUER <EHEMALIGER> ARBEITSLOSIGKEIT Müller-Benedict: Statistik I/3 351,3 398,0 444,7 3,9 5,7 7,5 9,3 11,1 12,9 14,7 16,5 18,3 20,1 Wurzel aus Dauer der Arbeitslosigkeit 23 Müller-Benedict: Statistik I/3 24