Kenngrößen eindimensionaler Verteilungen • Charakterisierung von

Werbung
Kenngrößen eindimensionaler Verteilungen
• Charakterisierung
von
Verteilungen
durch
statistische Maßzahlen (Kenngrößen, Parameter), die
die Eigenschaften (Zentrum, Ausbreitung, Form) der
Verteilung widerspiegeln
• wichtigste Maßzahlen sind Lage- und Streuungsparameter
• Wichtig: Skalierungsniveau beachten
Lageparameter:
Der Modalwert
• = die am häufigsten auftretende Merkmalsausprägung
• = die Klasse (Klassenmitte) mit der größten Häufigkeit
bei gruppierten Daten (Klassen)
• Mehrere Maxima: kein Modalwert
• Eigenschaften und Interpretation:
– Wert, der ”am ehesten” zu beobachten ist
(sprachl. Formulierungen wie:
”Diese Krankheit dauert normalerweise 3 Tage.”,
”Die Fahrzeit beträgt normalerweise 2 Stunden.”)
– unempfindlich gegenüber Ausreißern (extremen
Werten)
1
Median
• mindestens ordinale Daten
• Median heißt jede Merkmalsausprägung a, für die
gilt:
X
X
hi ≥ 1/2 ,
hi ≥ 1/2
i : xi ≤a
i : xi ≥a
• ”oberhalb” und ”unterhalb” der Mediane befinden
sich gleichviele Elemente der Stichprobe
• Bei metrischen Daten wird häufig der Mittelwert der
Mediane als Median angegeben.
• Eigenschaften und Interpretation:
– zentraler Wert bei ordinalen Merkmalen
– unempfindlich gegenüber Ausreißern
– Minimaleigenschaft bez. absoluter Abweichungen
(metrische Daten), jeder Median löst
n
X
i=1
|xi − z| → min
Das arithmetische Mittel
• metrische Daten
x̄ =
1
n
n
X
i=1
xi =
l
X
j=1
aj hj
• Eigenschaften und Interpretation:
– Schwerpunkt der Verteilung,
– empfindlich gegenüber Ausreißern (vgl. Median),
2
– Minimaleigenschaft
Abweichungen:
n
X
i=1
bezüglich
quadratischer
(xi − z)2 → min
hat die Lösung z = x̄.
• bei gruppierten Daten mit Klassenmitten x∗i und
Klassenhäufigkeiten ni:
x̄ =
1
n
k
X
i=1
nix∗i
gewichtetes Mittel der Klassenmitten
Beispiel 3: 200 Messwerte in Klassen
Klasse
Häufigkeit
125,5 ... 130,5 8
130,5 ... 135,5 28
135,5 ... 140,5 36
140,5 ... 145,5 36
145,5 ... 150,5 50
150,5 ... 155,5 40
155,5 ... 160,5 2
• Im Gegensatz zum Median kann das arithmetische
Mittel bei gruppierten Daten mit offenen Randklassen nicht berechnet werden.
3
Streuungsparameter (Variabilitätsparameter)
• Maßzahlen zur Bewertung der Variabilität der Messwerte, der Breite einer Verteilung, der Abweichungen
vom Mittelwert
• Ziel von Analysen: Zerlegung der Variabilität der
Messwerte nach verschiedenen Ursachen (Faktoren,
Fehler des Messgerätes usw.), Analyse der Wirkung
des Zufalls
Streuungsparameter für metrische Daten
• Spannweite: v = xmax − xmin
• empirische Varianz: s2
1
s =
n−1
2
n
X
i=1
¶
n
1 µX
2
2
(xi − x̄) =
x − nx̄
n − 1 i=1 i
2
”mittlere quadratische Abweichung”
1
2
(· − ·)
n−1
Dimension von s2 :
ist z.B. xi eine Konzentration, dann mg 2/l2
• Eigentlich müsste durch n geteilt werden. Grund für
die Division durch n − 1 ist die Anwendung der so
erhaltenen Größe in der schließenden Statistik.
√
• Standardabweichung s = s2, gleiche Dimension
wie xi.
s
• Variationskoeffizient v = 100%
dimensionslos
x̄
4
Quartilsabstand
• Grundgedanke:
Ähnlich der Spannweite (s.o.) wird die ”Spannweite
der mittleren 50% der Werte” berechnet.
• Unteres Quartil q0.25 heißt jede Merkmalsausprägung
a, für die gilt:
X
i : xi ≤a
hi ≥ 1/4 ,
X
i : xi ≥a
hi ≥ 3/4 .
Oberes Quartil q0.75 heißt jede Merkmalsausprägung
a, für die gilt:
X
i : xi ≤a
hi ≥ 3/4 ,
X
i : xi ≥a
hi ≥ 1/4 .
• q0.25 und q0.75 sind i.A. nicht eindeutig bestimmt.
Falls doch, dann heißt
q0.75 − q0.25
(empirischer) Quartilsabstand,
Interquartilbereich, IQR.
• In Statistiksoftware sind unterschiedliche Interpolationsregeln für die Quartile realisiert.
5
• Veranschaulichung von Median, Quartilen, IQR,
Minimum, Maximum im Boxplot:
← Ausreißer (mit Fallnummer)
← maximale Zaunlänge
= 1,5 · Boxlänge
← oberes Quartil
←
Median
← unteres Quartil
← kleinster Wert, der nicht als
Ausreißer erkannt wird
Beispiel: ALLBUS, Monatliches Haushalt-Nettoeinkommen
(die ersten 300 Fälle, nur 178 haben geantwortet).
6
Herunterladen