Statistik: 19.10.04 Quantitative Merkmale Metrische Merkmale Beispiel: 50 Rechnungsbeträge in der Elektroabteilung eines Einkaufszentrums (in Euro) 227 1848 462 1318 579 912 482 696 1631 536 979 718 799 740 371 576 655 660 800 750 949 478 566 718 538 658 788 878 979 1047 537 1226 781 654 593 896 719 1234 561 665 368 1973 267 618 756 711 836 602 943 348 19.10.04 PI Statistik, WS 2004 2 Metrisches Merkmal Das Merkmal wird als (reelles) Vielfaches einer Maßeinheit gemessen Stetig, z.B. Rechnungsbeträge Diskret, z.B. beim Test erzielte Punkte 19.10.04 PI Statistik, WS 2004 3 Metrisches Merkmal: Tabelle Beispiel: Rechnungsbeträge in der Elektroabteilung eines Einkaufszentrums (in Euro) 19.10.04 Klasse Häufig keit 0-200 0 200-400 5 400-600 11 600-800 19 800-1000 8 1000-1200 1 1200-1400 3 1400-1600 0 1600-1800 1 1800-2000 2 größer 0 PI Statistik, WS 2004 4 Metr. Merkmal: Histogramm Beispiel: Rechnungsbeträge Verteilung der Rechnungsbeträge 20 15 10 5 0 100 300 500 700 900 1100 1300 1500 1700 1900 2100 Rechnungsbeträge 19.10.04 PI Statistik, WS 2004 5 Histogramm Klassenhäufigkeiten: Häufigkeiten, mit der die Klassen der Merkmalsausprägungen besetzt sind Darstellung der Klassenhäufigkeiten als Flächen Größe der Fläche ist proportional zur Häufigkeit Am einfachsten sind Klassen gleicher Breite (dann ist Höhe proportional zu Häufigkeit) Histogramm (für stetige Merkmale) <-> Balkendiagramm (für diskrete Merkmale) 19.10.04 PI Statistik, WS 2004 6 „Histogramm“ in EXCEL Beispiel: Rechnungsbeträge Verteilung der Rechnungsbeträge 20 15 10 5 10 00 12 00 14 00 16 00 18 00 20 un 00 d gr öß er 80 0 60 0 40 0 20 0 0 Rechnungsbeträge 19.10.04 PI Statistik, WS 2004 7 Histogramm in EXCEL Teil der Analyse-Funktionen Probleme und deren Lösung: Balken (vergl. Balkendiagramm) statt Flächen Anklicken eines Stabes -> „Datenreihen formatieren“ -> „Optionen“ -> Abstandsbreite auf „0“ setzen Klassengrenzen werden als Klassenmitten angezeigt 19.10.04 Bereich mit Klassenmitten erzeugen Diagramm anklicken -> „Datenquelle“ -> als „Beschriftung der Rubrikenachse (X)“: Bereich mit Klassenmitten angeben X-Achse anklicken -> Muster -> Hauptstriche auf „innen“ setzen -> Hilfsstriche auf „außen“ setzen -> PI Statistik, WS 2004 8 Verbessertes Histogramm Beispiel: 50 Rechnungsbeträge Verteilung der Rechnungsbeträge 20 15 10 5 0 100 300 500 700 900 1100 1300 1500 1700 1900 2100 Rechnungsbeträge 19.10.04 PI Statistik, WS 2004 9 Histogramm-Konstruktion 1. Ordne die n Beobachtungen nach steigender Größe, bestimme die Spannweite der Häufigkeitsverteilung. 2. Zur Festlegung der Klassen unterteile die Spannweite in Intervalle gleicher Länge; die Zahl k der Klassen soll zwischen fünf und 20 liegen. Die Klassenmitten sollen „einfache“ Zahlen sein. 3. Bestimme die Zahl der Beobachtungen jeder Klasse, d.s. die (absoluten) Klassenhäufigkeiten. 4. Zeichne das Histogramm. Bei gleichen Klassenbreiten sind die Höhen der Flächen proportional den Häufigkeiten; bei ungleichen Klassenbreiten sind die Höhen proportional den Quotienten aus Häufigkeit und Klassenbreite (gesamte Fläche: n oder 100%) 19.10.04 PI Statistik, WS 2004 10 Zahl k der Klassen • kleinstes k mit 2 n k • k ≤ √n k soll • nicht kleiner als 5 • nicht größer als 20 sein (siehe Demo) 19.10.04 n 20 30 40 50 75 100 150 200 PI Statistik, WS 2004 2k n √n 5 5 6 6 7 7 8 8 4 5 6 7 9 10 12 14 11 Altersverteilung aus „College“ Häufigkeit 18 16 14 12 10 8 6 4 2 0 20 25 30 35 40 45 50 55 60 65 70 75 Alter 19.10.04 PI Statistik, WS 2004 12 Nochmals „College“ Häufigkeit 35 30 25 20 15 10 5 0 15 25 35 45 55 65 75 Alter 19.10.04 PI Statistik, WS 2004 13 „College“ 3 Häufigkeit Häufigkeit 10 60 9 50 8 7 40 6 5 30 Häufigkeit 4 20 3 2 10 1 70 66 62 58 54 50 46 42 38 34 30 26 0 22 18 0 Alter 19.10.04 0 20 40 60 Alter PI Statistik, WS 2004 14 „College“ 4 Männliche Mitarbeiter Alter Weibliche Mitarbeiter 75 75 70 70 65 65 60 60 55 55 50 Alter 45 50 45 40 40 35 35 30 30 25 25 20 20 0 19.10.04 2 4 6 8 10 PI Statistik, WS 2004 0 2 4 6 8 10 12 15 Beispiele von Verteilungen Rechnungsbeträge CO-Emission von PKWs Lebensalter Schäden durch Wirbelstürme (in Mio USD) 19.10.04 PI Statistik, WS 2004 16 Schäden durch Wirbelstürme Anzahl der Schäden 25 20 15 10 5 1650 1450 1250 1050 850 650 450 250 50 0 Schadenshöhe (in Mio USD) 19.10.04 PI Statistik, WS 2004 17 Schäden durch Wirbelstürme Klasse Kl.-Breite Häufigk't rel.Häufigk't Dichte 0 – 50 50 19 0,50 0,010000 50 – 100 50 4 0,11 0,002105 100 – 500 400 10 0,26 0,000658 500 - 2000 1500 5 0,13 0,000088 38 1,00 Dichte: Relative Häufigkeit/Klassenbreite Dichtehistogramm: Fläche beträgt 1 19.10.04 PI Statistik, WS 2004 18 Schuh- und Körpergröße Nach R. Hatzinger, 2003 19.10.04 PI Statistik, WS 2004 19 Charakteristika von Verteilungen Beschreiben durch Kennzahlen wesentliche Eigenschaften der Verteilung Dazu gehören: Quantile, Minimum, Maximum Lagemaße Streuungsmaße Schiefe: charakterisiert Symmetrie Wölbung (Kurtosis): Vergleich von symmetrischer Verteilung mit Gauss‘scher Glockenform 19.10.04 PI Statistik, WS 2004 20 Populationskenngrößen Analyse-Funktion in EXCEL Rechnungsbeträge Mittelwert Standardfehler 50,10 Median 714,62 Modus 718,46 Standardabweichung 354,29 Stichprobenvarianz 125518,49 Kurtosis 3,29 Schiefe 1,60 Wertebereich 1746,15 Minimum 226,92 Maximum 1973,08 Summe Anzahl 19.10.04 772,46 PI Statistik, WS 2004 38623,15 50 21 Lage- und Streuungsmaße Lagemaße Mittelwert x Median x , getrimmter Mittelwert Modus Streuungsmaße 19.10.04 Standardabweichung s Varianz s 2 Interquartilsabstand I Spannweite R PI Statistik, WS 2004 22 Lagemaße Mittelwert: x 1 n n x i 1 i Median: nach der Größe geordnete Beobachtungen: x(1) , x(2) ,..., x( n ) den Index i nennen wir den Rang von x( i ) Median: wenn n=2m+1 ungerade (m ist Rang der mittleren Beobachtung): x x( m ) wenn n=2m gerade: x ( x( m ) x( m1) ) / 2 19.10.04 PI Statistik, WS 2004 23 Robuste Lagemaße Median: extreme Werte („Ausreißer“) haben keinen Effekt Getrimmter Mittelwert: Mittelwert von 80% der Beobachtungen, je 10% größte und kleinste Beobachtungen bleiben unberücksichtigt 19.10.04 PI Statistik, WS 2004 24 Quantil (Perzentil) Quantil der Ordnung p aus n Beobachtungen x1, …, xn ist die Beobachtung x(r) mit Rang r = (n+1)p wenn (n+1)p keine ganze Zahl ist: Mittel der benachbarten Beobachtungen Runden des Ranges (n+1)p Beispiel: Rechnungsbeträge (50 Beobachtungen) 19.10.04 Quantil der Ordnung 0.8 (oder 0.8-Quantil): Mittel aus Beobachtungen mit Rängen 40 und 41 1. Quartil oder 0.25-Quantil: Mittel aus Beobachtungen mit Rängen 12 und 13 PI Statistik, WS 2004 25 Einige Quantile Quartile: 0.25-Quantil oder 1. Quartil (Q1, Qu) 0.75-Quantil oder 3. Quartil (Q3, Qo) 0.5-Quantil ist der Median Dezile 19.10.04 Unteres Dezil oder 0.1-Quantil Oberes Dezil oder 0.9-Quantil PI Statistik, WS 2004 26 Standardabweichung Ist die Wurzel aus der Varianz s 2: s s 2 Varianz oder Stichprobenvarianz: s 2 1 n 2 2 2 1 ( x x ) x x i1 i n i 1 n Eigenschaften der Standardabweichung: • s kann nicht negativ sein • s = 0: alle Beobachtungen haben gleichen Wert • s wird in den gleichen Einheiten gemessen wie X 19.10.04 PI Statistik, WS 2004 27 Überdeckung Intervall Anteil der Beobachtungen x s, x s x 2 s, x 2 s x 3s, x 3s 2/3 95% ~ 100% • Gilt für die Normalverteilung exakt • Gilt weitgehend für alle symmetrischen, unimodalen Verteilungen 19.10.04 PI Statistik, WS 2004 28 Andere Streuungsmaße Interquartilsabstand I = Qo – Qu = Q3 – Q1 überdeckt die zentralen 50% der Beobachtungen Spannweite (range) R = x(n) – x(1) Variationskoeffizient (s in Prozent des Mittelwertes): CV für nicht-neg. Merkmale; unabhängig von Maßeinheit s x MAD (mean absolute deviation) MAD 19.10.04 1 n n i 1 | xi x | PI Statistik, WS 2004 29 Schiefe und Wölbung Schiefe: Maß für Asymmetrie (unimodale Verteilung) rechtsschief: Modus < x < x m Momentkoeffizient (Fisher): g1 33 s mit m3 1n i ( xi x )3 m4 Wölbung: g 2 4 3 s g2 = 0: Gauss‘sche Glockenkurve g2 < 0: abgeplattet, platykurtisch, heavy tail g2 > 0: spitz, leptokurtisch, light tail 19.10.04 PI Statistik, WS 2004 30 Box Plot Darstellung einer Häufigkeitsverteilung; gibt die wesentlichen Charakteristika wieder. (siehe Hackl & Katzenbeisser, S. 29-30) 80 Ausreißer 70 60 Whisker Median Qu HMU Qo 50 40 30 20 10 50% der Daten 0 Whisker 19.10.04 PI Statistik, WS 2004 31 Beispiel: Heilmittelkosten Heilmittelkosten je Patient (in Euro) bei • 1682 Praktischen Ärzten (AM) • 176 Internisten (IN) 400 • 242 Orthopäden (OP) WGKG, 2002 HMU 300 200 100 0 AM 19.10.04 PI Statistik, WS 2004 IN OP 32 Box Plot: Elemente Box: mittlere 50% der Beobachtungen; Begrenzungen sind Quartile; Median als Mittellinie Innere Grenzen (inner fences): Qu - 1.5I, Qu + 1.5I Äußere Grenzen (outer fences): Qu - 3I, Qu + 3I Beobachtungen innerhalb der Inneren Grenzen werden verbunden (whiskers) Beobachtungen außerhalb der Inneren Grenzen und innerhalb der Äußeren Grenzen: einzeln mit einem + einzeichnen (outlier) Beobachtungen außerhalb der Äußeren Grenzen: einzeln mit einem * einzeichnen (far outlier) 19.10.04 PI Statistik, WS 2004 33 Fragestellungen In welchem Bereich kann man einen Mittelwert in der Grundgesamtheit erwarten ? Ist ein Mittelwert anders (kleiner, größer, oder ungleich) als eine bestimmte Vorgabe ? 19.10.04 PI Statistik, WS 2004 34