Kenngrößen eindimensionaler Verteilungen • Charakterisierung von Verteilungen durch statistische Maßzahlen (Kenngrößen, Parameter), die die Eigenschaften (Zentrum, Ausbreitung, Form) der Verteilung widerspiegeln • wichtigste Maßzahlen sind Lage- und Streuungsparameter • Wichtig: Skalierungsniveau beachten Lageparameter: Der Modalwert • = die am häufigsten auftretende Merkmalsausprägung • = die Klasse (Klassenmitte) mit der größten Häufigkeit bei gruppierten Daten (Klassen) • Mehrere Maxima: kein Modalwert • Eigenschaften und Interpretation: – Wert, der ”am ehesten” zu beobachten ist (sprachl. Formulierungen wie: ”Diese Krankheit dauert normalerweise 3 Tage.”, ”Die Fahrzeit beträgt normalerweise 2 Stunden.”) – unempfindlich gegenüber Ausreißern (extremen Werten) 1 Median • mindestens ordinale Daten • Median heißt jede Merkmalsausprägung a, für die gilt: X X hi ≥ 1/2 , hi ≥ 1/2 i : xi ≤a i : xi ≥a • ”oberhalb” und ”unterhalb” der Mediane befinden sich gleichviele Elemente der Stichprobe • Bei metrischen Daten wird häufig der Mittelwert der Mediane als Median angegeben. • Eigenschaften und Interpretation: – zentraler Wert bei ordinalen Merkmalen – unempfindlich gegenüber Ausreißern – Minimaleigenschaft bez. absoluter Abweichungen (metrische Daten), jeder Median löst n X i=1 |xi − z| → min Das arithmetische Mittel • metrische Daten x̄ = 1 n n X i=1 xi = l X j=1 aj hj • Eigenschaften und Interpretation: – Schwerpunkt der Verteilung, – empfindlich gegenüber Ausreißern (vgl. Median), 2 – Minimaleigenschaft Abweichungen: n X i=1 bezüglich quadratischer (xi − z)2 → min hat die Lösung z = x̄. • bei gruppierten Daten mit Klassenmitten x∗i und Klassenhäufigkeiten ni: x̄ = 1 n k X i=1 nix∗i gewichtetes Mittel der Klassenmitten Beispiel 3: 200 Messwerte in Klassen Klasse Häufigkeit 125,5 ... 130,5 8 130,5 ... 135,5 28 135,5 ... 140,5 36 140,5 ... 145,5 36 145,5 ... 150,5 50 150,5 ... 155,5 40 155,5 ... 160,5 2 • Im Gegensatz zum Median kann das arithmetische Mittel bei gruppierten Daten mit offenen Randklassen nicht berechnet werden. 3 Streuungsparameter (Variabilitätsparameter) • Maßzahlen zur Bewertung der Variabilität der Messwerte, der Breite einer Verteilung, der Abweichungen vom Mittelwert • Ziel von Analysen: Zerlegung der Variabilität der Messwerte nach verschiedenen Ursachen (Faktoren, Fehler des Messgerätes usw.), Analyse der Wirkung des Zufalls Streuungsparameter für metrische Daten • Spannweite: v = xmax − xmin • empirische Varianz: s2 1 s = n−1 2 n X i=1 ¶ n 1 µX 2 2 (xi − x̄) = x − nx̄ n − 1 i=1 i 2 ”mittlere quadratische Abweichung” 1 2 (· − ·) n−1 Dimension von s2 : ist z.B. xi eine Konzentration, dann mg 2/l2 • Eigentlich müsste durch n geteilt werden. Grund für die Division durch n − 1 ist die Anwendung der so erhaltenen Größe in der schließenden Statistik. √ • Standardabweichung s = s2, gleiche Dimension wie xi. s • Variationskoeffizient v = 100% dimensionslos x̄ 4 Quartilsabstand • Grundgedanke: Ähnlich der Spannweite (s.o.) wird die ”Spannweite der mittleren 50% der Werte” berechnet. • Unteres Quartil q0.25 heißt jede Merkmalsausprägung a, für die gilt: X i : xi ≤a hi ≥ 1/4 , X i : xi ≥a hi ≥ 3/4 . Oberes Quartil q0.75 heißt jede Merkmalsausprägung a, für die gilt: X i : xi ≤a hi ≥ 3/4 , X i : xi ≥a hi ≥ 1/4 . • q0.25 und q0.75 sind i.A. nicht eindeutig bestimmt. Falls doch, dann heißt q0.75 − q0.25 (empirischer) Quartilsabstand, Interquartilbereich, IQR. • In Statistiksoftware sind unterschiedliche Interpolationsregeln für die Quartile realisiert. 5 • Veranschaulichung von Median, Quartilen, IQR, Minimum, Maximum im Boxplot: ← Ausreißer (mit Fallnummer) ← maximale Zaunlänge = 1,5 · Boxlänge ← oberes Quartil ← Median ← unteres Quartil ← kleinster Wert, der nicht als Ausreißer erkannt wird Beispiel: ALLBUS, Monatliches Haushalt-Nettoeinkommen (die ersten 300 Fälle, nur 178 haben geantwortet). 6