Statistik I Muster in Häufigkeitstrukturen Muster in Verteilungen spielen in der Statistik eine grosse Rolle. Hier sollen kurz die drei wichtige Muster bezüglich Schiefe und Symmetrie durch Histogramme und Boxplots veranschaulicht werden. Symmetrische Verteilung Ein typisches Bild einer symmetrischen Häufigkeitsverteilung ist hier abgebildet. 150 100 0 50 Frequency 200 Histogram of x −3 −2 −1 0 1 2 3 x −3 −2 2006, Malte Wissmann −1 0 1 2 3 1 Statistik I Der Boxplot weisst 2 Ausreisser in die jeweiligen Richtungen auf. Ausreisser beim Boxplots werden dann markiert, wenn ein Wert ausserhalb vom oberen bzw. unteren Quartil plus 1.5 mal die Boxlänge liegt. Beispiele für eine solche symmetrische Verteilung sind Körbergrössen getrennt nach Geschlecht oder auch oft Outputmengen eines Produktionsprozesses. Bei symmetrischen Verteilungen gibt es einen typischen Wert in der Mitte (Mittelwert) und die Abweichung in beide Richtungen ist ungefähr gleich. Es gilt für den Vergleich von Lagemassen einer symmetrischen Verteilung, x̄ = x0.5 = xM od . Wobei das Gleichheitszeichen bei empirischen Daten schon mal als ungefähr gleich interpretiert werden darf. 2006, Malte Wissmann 2 Statistik I Schiefe Verteilung Rechtsschief Ein typisches Bild einer rechtsschiefen oder auch linkssteilen Häufigkeitsverteilung ist hier abgebildet. 200 0 100 Frequency 300 400 Histogram of x 0 2 4 6 8 6 8 x 0 2 4 Der Begriff Rechtsschief kommt daher, dass die Häufigkeiten einer rechtsschiefen Verteilung nach rechts kleiner werden. Analog bedeutet also linkssteil, dass das Maximum bei der Verteilung links liegt. Man sieht deutlich dass bei Boxplot Ausreisser eher nur auf der rechten Seite vorkommen. 2006, Malte Wissmann 3 Statistik I Typische Beispiele für rechtsschiefe Verteilungen sind Wartezeiten und Einkommensverteilungen. Charakteristisch für rechtsschiefe Verteilungen ist, dass links eine Art natürliche Barriere ist, die nicht unterschritten wird, z.B. Wartezeit von Null oder Einkommen von Null, und dass sich die meisten Beobachtungen in der Nähe dieser Barriere tummeln. So sind kurze Wartezeiten in der Regel häufiger vorzufinden als sehr lange. Vergleicht man die Lagemassen, so erhält man folgende Ungleichung, xmod < x0.5 < x̄. Der Mittelwert liefert bei einer solchen Verteilung der grössten Wert der drei Lagemasse, da er von den weit rechts liegenden Werten (Ausreisser) beeinflusst wird. 2006, Malte Wissmann 4 Statistik I Linksschief Ein typisches Bild einer linksschiefen oder auch rechtssteilen Häufigkeitsverteilung ist hier abgebildet. 100 0 50 Frequency 150 200 Histogram of x 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.8 0.9 1.0 x 0.4 0.5 0.6 0.7 Recht analog zu der vorherigen Situation, nur dass die Seiten vertauscht werden. Typische Beispiele sind Leistungen von Profisportlern. Wo alle Sportler auf einem ähnlichen Niveau nahe an der menschlichen Leistungsgrenze liegen. Sprich Profisportler die weit weg von der menschlichen Leistungsgrenze liegen sind eher selten. Bei den Lagemassen erhält man natürlich die umgekehrte Ungleichung, x̄ < x0.5 < xmod . 2006, Malte Wissmann 5