3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro

Werbung
3. Deskriptive Statistik
Eindimensionale (univariate) Daten:
Pro Objekt wird ein Merkmal durch
Messung / Befragung/ Beobachtung
erhoben.
Resultat ist jeweils ein Wert
(Merkmalsausprägung) xi:
- Gewicht einer Person,
- Gehalt einer Person,
- Wohngegend
Zweidimensionale (bivariate) Daten:
Pro Objekt werden zwei Merkmale
erhoben:
(Gewicht und Größe einer Person)
(Ausbildung, Gehalt)
(Wohngegend, Wagentyp)
1
3.1. Univariate Verteilungen,
grafische Darstellungen und Kenngrößen
Selbststudium
Ausgangspunkt: Urliste
x1, x2, . . . , xn
Häufigkeiten:
Hi . . . Anzahl oder absolute Häufigkeit des Auftretens
der Merkmalsausprägung ai, i = 1, . . . , l
Darstellung in Strichlisten, Häufigkeitstabellen, Balkenoder Stabdiagrammen
bei zu vielen Ausprägungen (und ordinalen Daten):
Klasseneinteilung; subjektiv, Manipulationsmöglichkeit!
hi = Hi/n . . . relative Häufigkeit von ai, i = 1, . . . , l.
Darstellung in Kreisdiagrammen
bei ordinalen Daten: kumulierte absolute und relative
Häufigkeiten:
Ki =
i
X
j=1
Hj ,
ki =
i
X
j=1
hj
Darstellung in Summenkurven (Summenpolygon)
2
Kenngrößen eindimensionaler Verteilungen
• Charakterisierung von Verteilungen durch statistische Maßzahlen (Kenngrößen, Parameter), die die Eigenschaften (Zentrum, Ausbreitung, Form) der
Verteilung widerspiegeln
• wichtigste Maßzahlen sind Lage- und Streuungsparameter
• Wichtig: Skalierungsniveau beachten
Lageparameter:
Der Modalwert
• = die am häufigsten auftretende Merkmalsausprägung
• = die Klasse (Klassenmitte) mit der größten Häufigkeit
bei gruppierten Daten (Klassen)
• Mehrere Maxima: kein Modalwert
• Eigenschaften und Interpretation:
– Wert, der ”am ehesten” zu beobachten ist
(sprachl. Formulierungen wie:
”Diese Krankheit dauert normalerweise 3 Tage.”,
”Die Fahrzeit beträgt normalerweise 2 Stunden.”)
– unempfindlich gegenüber Ausreißern (extremen
Werten)
3
Median
• mindestens ordinale Daten
• Median heißt jede Merkmalsausprägung a, für die
gilt:
X
X
hi ≥ 1/2 ,
hi ≥ 1/2
i : xi ≤a
i : xi ≥a
• ”oberhalb” und ”unterhalb” der Mediane befinden
sich gleichviele Elemente der Stichprobe
• Bei metrischen Daten wird häufig der Mittelwert der
Mediane als Median angegeben.
• Eigenschaften und Interpretation:
– zentraler Wert bei ordinalen Merkmalen
– unempfindlich gegenüber Ausreißern
– Minimaleigenschaft bez. absoluter Abweichungen
(metrische Daten), jeder Median löst
n
X
i=1
|xi − z| → min
4
Das arithmetische Mittel
• metrische Daten
1
n
x̄ =
n
X
i=1
xi =
l
X
j=1
aj hj
• Eigenschaften und Interpretation:
– Schwerpunkt der Verteilung,
– empfindlich gegenüber Ausreißern (vgl. Median),
– Minimaleigenschaft
Abweichungen:
n
X
i=1
bezüglich
quadratischer
(xi − z)2 → min
hat die Lösung z = x̄ (Beweis: Übung).
• bei gruppierten Daten mit Klassenmitten x∗i und
Klassenhäufigkeiten ni:
x̄ =
1
n
k
X
i=1
nix∗i
gewichtetes Mittel der Klassenmitten
• Im Gegensatz zum Median kann das arithmetische
Mittel bei gruppierten Daten mit offenen Randklassen nicht berechnet werden.
5
Streuungsparameter (Variabilitätsparameter)
• Maßzahlen zur Bewertung der Variabilität der Messwerte, der Breite einer Verteilung, der Abweichungen
vom Mittelwert
• Ziel von Analysen: Zerlegung der Variabilität der
Messwerte nach verschiedenen Ursachen (Faktoren,
Fehler des Messgerätes usw.), Analyse der Wirkung
des Zufalls
Streuungsparameter für metrische Daten
• Spannweite: v = xmax − xmin
• empirische Varianz: s2
1
s =
n−1
2
n
X
i=1
¶
n
1 µX
2
2
(xi − x̄) =
x − nx̄
n − 1 i=1 i
2
”mittlere quadratische Abweichung”
1
2
(· − ·)
n−1
Dimension von s2 :
ist z.B. xi eine Konzentration, dann mg 2/l2
• Eigentlich müsste durch n geteilt werden. Grund für
die Division durch n − 1 ist die Anwendung der so
erhaltenen Größe in der schließenden Statistik.
√
• Standardabweichung s = s2, gleiche Dimension
wie xi.
s
• Variationskoeffizient v = 100%
dimensionslos
x̄
6
Quartilsabstand
• Grundgedanke:
Ähnlich der Spannweite (s.o.) wird die ”Spannweite
der mittleren 50% der Werte” berechnet.
• Unteres Quartil q0.25 heißt jede Merkmalsausprägung
a, für die gilt:
X
i : xi ≤a
hi ≥ 1/4 ,
X
i : xi ≥a
hi ≥ 3/4 .
Oberes Quartil q0.75 heißt jede Merkmalsausprägung
a, für die gilt:
X
i : xi ≤a
hi ≥ 3/4 ,
X
i : xi ≥a
hi ≥ 1/4 .
• q0.25 und q0.75 sind i.A. nicht eindeutig bestimmt.
Falls doch, dann heißt
q0.75 − q0.25
(empirischer) Quartilsabstand,
Interquartilbereich, IQR.
• In Statistiksoftware sind unterschiedliche Interpolationsregeln für die Quartile realisiert.
7
• Veranschaulichung von Median, Quartilen, IQR,
Minimum, Maximum im Boxplot:
← Ausreißer (mit Fallnummer)
← maximale Zaunlänge
= 1,5 · Boxlänge
← oberes Quartil
←
Median
← unteres Quartil
← kleinster Wert, der nicht als
Ausreißer erkannt wird
Beispiel: ALLBUS, Monatliches Haushalt-Nettoeinkommen
(die ersten 300 Fälle, nur 178 haben geantwortet).
8
Herunterladen