Häufigkeitsmuster

Werbung
Statistik I
Muster in Häufigkeitstrukturen
Muster in Verteilungen spielen in der Statistik eine grosse Rolle. Hier
sollen kurz die drei wichtige Muster bezüglich Schiefe und Symmetrie durch
Histogramme und Boxplots veranschaulicht werden.
Symmetrische Verteilung
Ein typisches Bild einer symmetrischen Häufigkeitsverteilung ist hier abgebildet.
150
100
0
50
Frequency
200
Histogram of x
−3
−2
−1
0
1
2
3
x
−3
−2
2006, Malte Wissmann
−1
0
1
2
3
1
Statistik I
Der Boxplot weisst 2 Ausreisser in die jeweiligen Richtungen auf. Ausreisser beim Boxplots werden dann markiert, wenn ein Wert ausserhalb vom
oberen bzw. unteren Quartil plus 1.5 mal die Boxlänge liegt.
Beispiele für eine solche symmetrische Verteilung sind Körbergrössen getrennt nach Geschlecht oder auch oft Outputmengen eines Produktionsprozesses.
Bei symmetrischen Verteilungen gibt es einen typischen Wert in der Mitte
(Mittelwert) und die Abweichung in beide Richtungen ist ungefähr gleich.
Es gilt für den Vergleich von Lagemassen einer symmetrischen Verteilung,
x̄ = x0.5 = xM od . Wobei das Gleichheitszeichen bei empirischen Daten schon
mal als ungefähr gleich interpretiert werden darf.
2006, Malte Wissmann
2
Statistik I
Schiefe Verteilung
Rechtsschief
Ein typisches Bild einer rechtsschiefen oder auch linkssteilen Häufigkeitsverteilung
ist hier abgebildet.
200
0
100
Frequency
300
400
Histogram of x
0
2
4
6
8
6
8
x
0
2
4
Der Begriff Rechtsschief kommt daher, dass die Häufigkeiten einer rechtsschiefen Verteilung nach rechts kleiner werden. Analog bedeutet also linkssteil,
dass das Maximum bei der Verteilung links liegt. Man sieht deutlich dass bei
Boxplot Ausreisser eher nur auf der rechten Seite vorkommen.
2006, Malte Wissmann
3
Statistik I
Typische Beispiele für rechtsschiefe Verteilungen sind Wartezeiten und Einkommensverteilungen.
Charakteristisch für rechtsschiefe Verteilungen ist, dass links eine Art natürliche
Barriere ist, die nicht unterschritten wird, z.B. Wartezeit von Null oder Einkommen von Null, und dass sich die meisten Beobachtungen in der Nähe
dieser Barriere tummeln. So sind kurze Wartezeiten in der Regel häufiger
vorzufinden als sehr lange.
Vergleicht man die Lagemassen, so erhält man folgende Ungleichung,
xmod < x0.5 < x̄. Der Mittelwert liefert bei einer solchen Verteilung der
grössten Wert der drei Lagemasse, da er von den weit rechts liegenden Werten (Ausreisser) beeinflusst wird.
2006, Malte Wissmann
4
Statistik I
Linksschief
Ein typisches Bild einer linksschiefen oder auch rechtssteilen Häufigkeitsverteilung
ist hier abgebildet.
100
0
50
Frequency
150
200
Histogram of x
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.8
0.9
1.0
x
0.4
0.5
0.6
0.7
Recht analog zu der vorherigen Situation, nur dass die Seiten vertauscht
werden. Typische Beispiele sind Leistungen von Profisportlern. Wo alle Sportler auf einem ähnlichen Niveau nahe an der menschlichen Leistungsgrenze
liegen. Sprich Profisportler die weit weg von der menschlichen Leistungsgrenze liegen sind eher selten. Bei den Lagemassen erhält man natürlich die
umgekehrte Ungleichung, x̄ < x0.5 < xmod .
2006, Malte Wissmann
5
Herunterladen