FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Lagemaße 1 Herzlich willkommen zur Vorlesung Statistik Lagemaße oder Maße der zentralen Tendenz FB 1 W. Ludwig-Mayerhofer Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression Statistik – Lagemaße 2 Lagemaße • • Lagemaße sollen durch einen numerischen Wert charakterisieren, wo das „Zentrum“ oder der „Schwerpunkt“ einer Verteilung von Datenwerten liegt. Ihre Aussagekraft ist daher beschränkt, wenn die Verteilung keinen eindeutigen Schwerpunkt hat. FB 1 W. Ludwig-Mayerhofer Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression Statistik – Lagemaße 3 Die wichtigsten Lagemaße • • • Modus (oder Modalwert): Der häufigste Wert Median (oder Zentralwert): Der Wert „in der Mitte“ Arithmetisches Mittel: Mittel Der „Durchschnitt“ Es gibt weitere Maße (z.B. das geometrische Mittel für Daten, die relative Änderungen darstellen u.a.mehr), die hier nicht dargestellt werden. FB 1 Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Lagemaße 4 Der Modus (Modalwert) Der M. ist der Wert, der in einer Verteilung am häufigsten vorkommt. Nichts angekreuzt Differenz Steigung Flächeninhalt Kreisfläche Schnittpunkt n 27 hi % 6 22,2 6 22,2 2 7,4 9 33,3 1 3,7 3 11,1 100 (oder: 99,9) FB 1 W. Ludwig-Mayerhofer Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression Statistik – Lagemaße 5 Der Modus: Sinn und Unsinn • • • Im allgemeinen nur sinnvoll bei Daten mit wenigen diskreten Ausprägungen. Um so sinnvoller, je mehr sich unter diesen eine Ausprägung hervorhebt Problem: Es kann mehrere Modalwerte geben. FB 1 W. Ludwig-Mayerhofer Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression Statistik – Lagemaße 6 Der Median (Zentralwert) • • Einzeldaten werden der Größe nach geordnet. Der Wert, der genau in der Mitte liegt (unter- und oberhalb dessen genau gleich viele Werte liegen), heißt Median. FB 1 Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Lagemaße Der Median (Zentralwert) Ein Beispiel: Xi Xi (geordnet 2000 1500 5000 2000 4000 2500 1500 4000 2500 5000 Å Median 7 FB 1 W. Ludwig-Mayerhofer Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression Statistik – Lagemaße 8 Der Median (Zentralwert) Formal: ~ x = x n +1 ( 2 ) 1 ~ x = ( x( n / 2 ) + x( n / 2+1) ) 2 für ungerades n für gerades n FB 1 W. Ludwig-Mayerhofer Grundlagen Häufigkeiten Lagemaße Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression Der Median (Zentralwert) Abgelesen an der Verteilungsfunktion: 100 80 60 Kumulative Prozent Modus Median Arithm. Mittel Statistik – Lagemaße 40 20 0 7 9 10 11 12 13 14 BILDUNG (Jahre) Quelle: konstruierter Datensatz 15 16 17 18 9 FB 1 Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Lagemaße Das arithmetische Mittel Formal: 1 1 n x = ( x1 + ... + xn )= ∑ xi n n i =1 Auf deutsch gesagt: Die Summe der Einzelwerte dividiert durch deren Anzahl 10 FB 1 Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Lagemaße Das arithmetische Mittel Beispiel: xi 2000 5000 4000 1500 2500 Summe Ar. Mittel 15000 3000 11 FB 1 Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Lagemaße 12 Median oder arithmetisches Mittel? • • Das arithmetische Mittel wird durch extreme Werte beeinflusst. Aber: Es berücksichtigt alle Werte („suffiziente Statistik“) Summe Ar. Mittel Xi Xi (geordnet 2000 1500 15000 2000 4000 2500 1500 4000 2500 15000 25000 5000 Å Median FB 1 Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Lagemaße 13 Median oder arithmetisches Mittel? • Oft ist es sinnvoll, beides anzugeben – die Unterschiede verraten einiges über die Verteilung: x≈~ x x>~ x ~ x<x Symmetrische Verteilung Rechtsschiefe Verteilung Linksschiefe Verteilung FB 1 Grundlagen Häufigkeiten Lagemaße Modus Median Arithm. Mittel Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Lagemaße 14 Median oder arithmetisches Mittel? • • Median: Ar. Mittel: 4625 DM 5115 DM 0 0 0 0 0 0 0 2000 4000 6000 8000 einkomm 10000 12000 14000 16000