3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) xi: - Gewicht einer Person, - Gehalt einer Person, - Wohngegend Zweidimensionale (bivariate) Daten: Pro Objekt werden zwei Merkmale erhoben: (Gewicht und Größe einer Person) (Ausbildung, Gehalt) (Wohngegend, Wagentyp) 1 3.1. Univariate Verteilungen, grafische Darstellungen und Kenngrößen Selbststudium Ausgangspunkt: Urliste x1, x2, . . . , xn Häufigkeiten: Hi . . . Anzahl oder absolute Häufigkeit des Auftretens der Merkmalsausprägung ai, i = 1, . . . , l Darstellung in Strichlisten, Häufigkeitstabellen, Balkenoder Stabdiagrammen bei zu vielen Ausprägungen (und ordinalen Daten): Klasseneinteilung; subjektiv, Manipulationsmöglichkeit! hi = Hi/n . . . relative Häufigkeit von ai, i = 1, . . . , l. Darstellung in Kreisdiagrammen bei ordinalen Daten: kumulierte absolute und relative Häufigkeiten: Ki = i X j=1 Hj , ki = i X j=1 hj Darstellung in Summenkurven (Summenpolygon) 2 Kenngrößen eindimensionaler Verteilungen • Charakterisierung von Verteilungen durch statistische Maßzahlen (Kenngrößen, Parameter), die die Eigenschaften (Zentrum, Ausbreitung, Form) der Verteilung widerspiegeln • wichtigste Maßzahlen sind Lage- und Streuungsparameter • Wichtig: Skalierungsniveau beachten Lageparameter: Der Modalwert • = die am häufigsten auftretende Merkmalsausprägung • = die Klasse (Klassenmitte) mit der größten Häufigkeit bei gruppierten Daten (Klassen) • Mehrere Maxima: kein Modalwert • Eigenschaften und Interpretation: – Wert, der ”am ehesten” zu beobachten ist (sprachl. Formulierungen wie: ”Diese Krankheit dauert normalerweise 3 Tage.”, ”Die Fahrzeit beträgt normalerweise 2 Stunden.”) – unempfindlich gegenüber Ausreißern (extremen Werten) 3 Median • mindestens ordinale Daten • Median heißt jede Merkmalsausprägung a, für die gilt: X X hi ≥ 1/2 , hi ≥ 1/2 i : xi ≤a i : xi ≥a • ”oberhalb” und ”unterhalb” der Mediane befinden sich gleichviele Elemente der Stichprobe • Bei metrischen Daten wird häufig der Mittelwert der Mediane als Median angegeben. • Eigenschaften und Interpretation: – zentraler Wert bei ordinalen Merkmalen – unempfindlich gegenüber Ausreißern – Minimaleigenschaft bez. absoluter Abweichungen (metrische Daten), jeder Median löst n X i=1 |xi − z| → min 4 Das arithmetische Mittel • metrische Daten 1 n x̄ = n X i=1 xi = l X j=1 aj hj • Eigenschaften und Interpretation: – Schwerpunkt der Verteilung, – empfindlich gegenüber Ausreißern (vgl. Median), – Minimaleigenschaft Abweichungen: n X i=1 bezüglich quadratischer (xi − z)2 → min hat die Lösung z = x̄ (Beweis: Übung). • bei gruppierten Daten mit Klassenmitten x∗i und Klassenhäufigkeiten ni: x̄ = 1 n k X i=1 nix∗i gewichtetes Mittel der Klassenmitten • Im Gegensatz zum Median kann das arithmetische Mittel bei gruppierten Daten mit offenen Randklassen nicht berechnet werden. 5 Streuungsparameter (Variabilitätsparameter) • Maßzahlen zur Bewertung der Variabilität der Messwerte, der Breite einer Verteilung, der Abweichungen vom Mittelwert • Ziel von Analysen: Zerlegung der Variabilität der Messwerte nach verschiedenen Ursachen (Faktoren, Fehler des Messgerätes usw.), Analyse der Wirkung des Zufalls Streuungsparameter für metrische Daten • Spannweite: v = xmax − xmin • empirische Varianz: s2 1 s = n−1 2 n X i=1 ¶ n 1 µX 2 2 (xi − x̄) = x − nx̄ n − 1 i=1 i 2 ”mittlere quadratische Abweichung” 1 2 (· − ·) n−1 Dimension von s2 : ist z.B. xi eine Konzentration, dann mg 2/l2 • Eigentlich müsste durch n geteilt werden. Grund für die Division durch n − 1 ist die Anwendung der so erhaltenen Größe in der schließenden Statistik. √ • Standardabweichung s = s2, gleiche Dimension wie xi. s • Variationskoeffizient v = 100% dimensionslos x̄ 6 Quartilsabstand • Grundgedanke: Ähnlich der Spannweite (s.o.) wird die ”Spannweite der mittleren 50% der Werte” berechnet. • Unteres Quartil q0.25 heißt jede Merkmalsausprägung a, für die gilt: X i : xi ≤a hi ≥ 1/4 , X i : xi ≥a hi ≥ 3/4 . Oberes Quartil q0.75 heißt jede Merkmalsausprägung a, für die gilt: X i : xi ≤a hi ≥ 3/4 , X i : xi ≥a hi ≥ 1/4 . • q0.25 und q0.75 sind i.A. nicht eindeutig bestimmt. Falls doch, dann heißt q0.75 − q0.25 (empirischer) Quartilsabstand, Interquartilbereich, IQR. • In Statistiksoftware sind unterschiedliche Interpolationsregeln für die Quartile realisiert. 7 • Veranschaulichung von Median, Quartilen, IQR, Minimum, Maximum im Boxplot: ← Ausreißer (mit Fallnummer) ← maximale Zaunlänge = 1,5 · Boxlänge ← oberes Quartil ← Median ← unteres Quartil ← kleinster Wert, der nicht als Ausreißer erkannt wird Beispiel: ALLBUS, Monatliches Haushalt-Nettoeinkommen (die ersten 300 Fälle, nur 178 haben geantwortet). 8